JP5283757B2

JP5283757B2 - オーディオ信号のスペクトルの複数の局部重心周波数を決定するための装置及び方法

Info

Publication number: JP5283757B2
Application number: JP2011533774A
Authority: JP
Inventors: ザーシャ・ディッシュ; ハラルド・ポップ
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2009-04-03
Filing date: 2010-03-18
Publication date: 2013-09-04
Anticipated expiration: 2030-03-18
Also published as: US20120008799A1; AU2010219353B2; RU2490729C2; KR20110002089A; AU2010219353A1; BRPI1001241A2; EP2401740A1; RU2010136359A; EP2401740B1; JP2012507055A; WO2010112348A1; CA2721402A1; KR101264486B1; HK1165602A1; MX2010011863A; CN102027533B; CN102027533A; BRPI1001241B1; US8996363B2; CA2721402C

Description

本発明による実施の形態は、オーディオ信号の処理システムに関し、さらに詳しくは、オーディオ信号のスペクトルの複数の局部重心周波数(local center of gravity frequency)を決定するための装置及び方法に関する。

例えばデータベースから取り出されるあらかじめ記録済みのオーディオ信号を新たな音楽の文脈に適合させるために、極端な信号の操作の必要性に対処するデジタル信号処理技法がますます必要とされている。そのようにするために、ピッチ、調及び音階などの高度にセマンティックな信号特性を調整する必要がある。これらの操作はすべて、本質的な音楽品質を可能な限り良好に維持しつつ、元々のオーディオマテリアルの音楽的特性を大きく変更することを共通の目的としている。換言すると、これらの編集は、オーディオマテリアルの音楽的内容を強く変更するが、それでもなお、処理後のオーディオサンプルの自然さが保存され、したがって真実性が維持されることを必要とする。これは、理想的には、多声の混合の音楽コンテンツを含むさまざまな種類の信号に広く適用することができる信号処理方法を必要とする。

そのため、マルチバンド変調コンポーネントに基づくオーディオ信号の分析、操作及び合成のための方法が最近になって提案されている（S.Disch及びB. Edlerの「An amplitude- and frequency modulation vocoder for audio signal processing」、Proc. of the Int. Conf. on Digital Audio Effects (DAFx)、2008、ならびにS. Disch及びB. Edlerの「Multiband perceptual modulation analysis, processing and synthesis of audio signals」、Proc. of the IEEE-ICASSP、2009を参照)。この手法の基本的な考え方は、多声の混合体をいずれにせよ音の構成要素として知覚されるコンポーネントに分解し、１つのコンポーネントに含まれるすべての信号要素を結合する方法でさらに操作することにある。さらに、平滑かつ知覚的に好ましいが、加えられた操作の種類に応じて劇的に変更されている出力信号を提供する合成方法が紹介されている。その方法では、コンポーネントに対していかなる操作も加えられない場合、多数のテスト信号について、透過的又は準透過的な本質的なオーディオ品質をもたらすことが示されている（S. Disch及びB. Edlerの「An amplitude- and frequency modulation vocoder for audio signal processing」、Proc. of the Int. Conf. on Digital Audio Effects (DAFx)、2008を参照)。

例えばマルチバンド変調分解など、多声の音楽のブロックベースの操作のための重要な工程は、時間において連続するスペクトルの局部重心（ＣＯＧ）の推定である（J. Anantharaman、A. Krishnamurthy、及びL. Fethの「Intensity-weighted average of instantaneous frequency as a model for frequency discrimination」、J. Acoust. Soc. Am.、vol. 94、pp. 723-729、1993、並びにQ. Xu、L. L. Feth、J. N. Anantharaman、及びA. K. Krishnamurthyの「Bandwidth of spectral resolution for the “c-o-g” effect in vowel-like complex sounds」、Acoustical Society of America Journal、vol. 101、pp. 3149-+、May 1997を参照）。この文献は、信号の局部ＣＯＧに整列させた信号適応型のスペクトル分解を決定するために使用することができる反復アルゴリズムを示している。

ＣＯＧの手法は、古典的な時間周波数の再割り当て（ｔ−ｆリアサインメント）法を連想させるかもしれない。この技法の広範囲にわたる概説については、A. Fulop及びK. Fitzの「Algorithms for computing the time corrected instantaneous frequency (reassigned) spectrogram, with applications」、Journal of the Acoustical Society of America、vol. 119、pp. 360-371、2006を参照されたい。基本的には、ｔ−ｆリアサインメントは、従来からの短時間フーリエ変換（ＳＴＦＴ）の規則的な時間−周波数グリッドを、時間補正された瞬間の周波数スペクトログラムに向かって変化させ、ＳＴＦＴスペクトルグラムにつきもののｔ−ｆ分解能の妥協に巻き込まれるよりも良好に局在したエネルギーの時間的及びスペクトル的な蓄積を明らかにする。多くの場合に、リアサインメントは、後のパーシャルトラッキングのための改善されたフロントエンドとして使用される（K. Fitz及びL. Hakenの「On the use of time-frequency reassignment in additive sound modeling」、Journal of the Audio Engineering Society、vol. 50(11)、pp. 879-893、2002を参照)。

他の関連の刊行物は、特定の調和的関係を呈するスペクトルピークを別々のソースへグループ化することによる複数の基本周波数の推定を目的としている（A Klapuriの「Signal Processing Methods For the Automatic Transcription of Music」、Ph.D. 学位論文、Tampere University of Technology、2004、及びChunghsin Yehの「Multiple fundamental frequency estimation of polyphonic recordings」、Ph.D. 学位論文、Ecole doctorale edite、 Universite de Paris、2008を参照)。しかしながら、多数のソースで構成される複雑な音楽（オーケストラ音楽など）においては、この手法は妥当な機会を有さない。

いくつかの用途においては、ボコーダが信号の操作に使用される。ボコーダの１つの種類は、位相ボコーダである。位相ボコーダについての指導書は、「The Phase Vocoder: A tutorial」、Mark Dolson、Computer Music Journal、Volume 10、No. 4、pages 14 to 27、1986という刊行物である。さらなる刊行物は、「New phase vocoder techniques for pitch-shifting, harmonizing and other exotic effects」、L. Laroche及びM. Dolson、proceedings 1999、IEEE workshop on applications of signal processing to audio and acoustics、New Paltz、New York、October 17 to 20、1999、pages 91 - 94である。

図１７及び１８が、位相ボコーダの種々の実例及び用途を示している。図１７は、オーディオ信号が入力５００に供給され、出力５１０において合成されたオーディオ信号が得られる位相ボコーダ１７００のフィルタバンクの実例を示している。具体的には、図１７に示したフィルタバンクの各チャネルが、帯域通過フィルタ５０１と、その後に接続された発振器５０２とを備えている。すべてのチャネルからのすべての発振器５０２の出力信号が、加算器として示されている結合器５０３によって合成される。結合器５０３の出力に出力信号５１０が得られる。

各々のフィルタ５０１は、一方では振幅信号Ａ（ｔ）をもたらし、他方では周波数信号ｆ（ｔ）をもたらすように実現されている。振幅信号及び周波数信号は時間信号である。振幅信号はフィルタの帯域内の振幅の時間につれての進行を示し、周波数信号はフィルタの出力信号の周波数の時間につれての進行を示している。

フィルタ５０１の概略的な実例が図１８に示されている。到来する信号が、２つの平行な経路へと案内される。一方の経路においては、５５１に示されるように、信号に１．０という振幅及び帯域通過フィルタの中心周波数に等しい周波数を有する正弦波が乗算される。他方の経路においては、５５１に示されるように、信号に同じ振幅及び周波数の余弦波が乗算される。すなわち、２つの平行な経路は、乗算の波形の位相を除いて同一である。次いで、各々の経路において、乗算の結果が低域通過フィルタ５５３へ送り込まれる。乗算の操作そのものは単純なリング変調としても知られている。任意の信号を一定の周波数の正弦（余弦）波で乗算することは、正弦波の周波数のプラス又はマイナスの両方によって元の信号のすべての周波数成分を同時にシフトさせるという効果を有している。この結果が、次に適切な低域通過フィルタに通されると、低周波数部分のみが残る。この一連の操作はヘテロダイニングとしても知られている。このヘテロダイニングが平行な２つの経路の各々において実行されるが、一方の経路が正弦波でヘテロダインを行い、他方の経路は余弦波を使用するため、２つの経路において得られるヘテロダイン後の信号は９０°だけ位相がずれている。したがって、上側の低域通過フィルタ５５３が直角信号５５４をもたらし、下側のフィルタ５５３は同相信号をもたらす。Ｉ信号及びＱ信号としても知られるこれら２つの信号が、座標変換器５５６へ送られ、直交表現から振幅／位相表現が生成される。

振幅信号が５５７において出力され、図１７からのＡ（ｔ）に相当する。位相信号は、位相アンラッパー５５８へ入力される。要素５５８の出力には、０〜３６０°の間の位相値は存在しないが、線形な方法で増加する位相値が存在する。この「アンラップ後」の位相値が、例えば先行の時刻における位相を現在の時刻における位相から引き算して現在の時刻についての周波数値を得る位相差装置として実現することができる位相／周波数変換器５５９へ入力される。

この周波数値がフィルタチャネルｉの一定の周波数値ｆ_iへ加えられ、出力５６０に時間変化する周波数値が得られる。

出力５６０における周波数値は、ＤＣ部分Ｆ_i及び「周波数変動」としても知られる変化部分を有しており、その変化部分によってフィルタの信号の現在の周波数が平均周波数Ｆ_iから離れる。

このように、図５及び６に示されているような位相ボコーダは、スペクトル情報及び時間情報の分離を提供する。スペクトル情報は個々のフィルタ・バンク・チャネル及び周波数ｆ_iに含まれ、時間情報は周波数変動及び時間につれての振幅に含まれる。

位相ボコーダの他の説明はフーリエ変換の解釈である。それは、有限長の時間ウインドウについて行われる重なり合うフーリエ変換の連続で構成される。フーリエ変換の解釈においては、ただ１つの時点における種々のフィルタ帯域又は周波数ビンのすべてについての振幅及び位相の値が注目される。フィルタバンクの解釈においては、再合成を、各々の発振器についての時間変化する振幅及び周波数の制御による加算合成の古典的な例として見ることができるが、フーリエの実例においては、合成は、実及び虚の形態へ再び変換し、連続する逆フーリエ変換を重なり合い加算することによって達成される。フーリエの解釈においては、位相ボコーダのフィルタ帯域の数がフーリエ変換における点の数である。同様に、個々のフィルタの周波数の等しい間隔を、フーリエ変換の基本的特徴として認識することができる。他方で、フィルタ通過帯の形状、すなわち帯域の縁におけるカットオフの急峻さは、変換の計算に先立って適用されるウインドウ関数の形状によって決定される。例えばハミングウインドウなど、特定の特徴的な形状において、フィルタのカットオフの急峻さは、ウインドウの長さに正比例して増加する。

位相ボコーダ分析の２つの異なる解釈が、帯域通過フィルタのバンクの実例についてのみ当てはまることを理解することが有用である。これらのフィルタの出力を時間変化する振幅及び周波数として表現するための操作は、両方の実例において同じである。位相ボコーダの基本的な目標は、時間情報をスペクトル情報から分離することにある。実施されている方法は、信号をいくつかのスペクトル帯に分割して、各帯域の時間変化する信号の特徴を明らかにすることである。

２つの基本的な操作が特に重要である。それらの操作は、時間スケーリング及びピッチ移調である。録音済みの音を、単純により低いサンプルレートで再生することによって遅くすることは常に可能なことである。これは、テープ録音をより遅い再生速度で再生することに似ている。しかしながら、この種の単純すぎる時間の拡大は、同時に、ピッチも時間の拡大と同じ係数で低くなる。ピッチを変化させることなく、音の時間的進展をゆっくりにすることは、時間情報及びスペクトル情報の明確な分離を必要とする。上述のように、これがまさに位相ボコーダが行おうとしていることである。図５Ａに対して、時間変化する振幅信号Ａ（ｔ）及び周波数信号ｆ（ｔ）を引き伸ばすと、個々の発振器の周波数をまったく変化させないで、複合音の時間的進展をゆっくりにする。その結果は、元のピッチを有しつつ時間的に引き伸ばされた音である。時間スケーリングについてのフーリエ変換の見方は、音を時間的に引き伸ばすために、単純に逆ＦＦＴの間隔を分析ＦＦＴよりもさらに広げることができるというものである。結果として、この用途において、スペクトル変化が、合成された音において元の音よりもゆっくりと生じ、位相が、音の時間的な引き伸ばしと正確に同じ係数でスケーリングし直される。

他の用途は、ピッチ移調である。位相ボコーダを、ピッチを変化させることなく音の時間的進展を変化させるために使用することができるため、この反対を行うことも可能なはずであり、すなわち継続時間を変えることなくピッチを変えることが可能なはずである。これは、所望のピッチ変更係数を使用して時間スケーリングを行い、得られた音を同じ係数だけ変更されたサンプルレートで再生することによって行われる。例えば、ピッチを１オクターブだけ上げる場合、音が最初に時間的に２倍に引き伸ばされ、引き伸ばされたものが、元のサンプルレートの２倍で再生される。

オーディオ信号の処理のためのボコーダの用途が、例えばSascha Disch及びBernd Edlerの「An Amplitude- and Frequency-Modulation Vocoder for Audio Signal Processing」、Proceedings of the 11th International Conference on Digital Audio Effects (DAFx-08)、Espoo、Finland、September 1-4、2008に示されている。この文献においては、局部重心候補が、重心位置関数の正から負への移行を探すことによって推定されている。このために、重心位置関数が、オーディオ信号の各々の時間ブロックのスペクトルの各々の値（例えば、各々のスペクトル振幅値又は各々のパワー密度値）について計算される。この文脈において、４８ｋＨｚのサンプル周波数におけるＮ＝２¹⁴という値のブロックサイズが述べられている。したがって、局部重心候補を推定するための計算量がきわめて多い。

さらに、最終的に推定された重心位置が知覚スケールにおいてほぼ等距離であることを保証するために、事後の選択手順が必要である。

本発明の目的は、オーディオ信号のスペクトルの複数の局部重心周波数を決定するための優れた考え方であって、計算量の削減を可能にする考え方を提供することにある。

この目的は、請求項１に記載の装置及び請求項２０に記載の方法によって達成される。

本発明の実施の形態は、オーディオ信号のスペクトルの複数の局部重心周波数を決定するための装置を提供する。この装置は、オフセット決定部、周波数決定部、及び反復コントローラを備えている。オフセット決定部は、複数の反復開始周波数の各々の反復開始周波数についてのオフセット周波数を、オーディオ信号のスペクトルに基づいて決定するように構成されており、ここではスペクトルの個々のサンプル値の数が反復開始周波数の数よりも多い。周波数決定部は、複数の反復開始周波数の各々の反復開始周波数を、決定された該当のオフセット周波数だけ増加又は減少させることによって、新たな複数の反復開始周波数を決定するように構成されている。さらに、反復コントローラは、さらなる反復のためにオフセット決定部へ前記新たな複数の反復開始周波数を供給し、又は所定の終息条件が満たされた場合に、前記新たな複数の反復開始周波数に等しく設定される複数の局部重心周波数を供給するように構成されている。

本発明による実施の形態は、オフセット周波数が複数の反復開始周波数について決定され、次いで反復開始周波数が、それらについて決定されたオフセット周波数によって更新されるという中心的な考え方に基づいている。これが、所定の終息条件が満たされるまで繰り返し行われる。反復開始周波数の数が、スペクトルの個々のサンプル値の数よりも少ないため、計算の複雑さが公知の考え方に比べて大幅に軽減される。

例えば、反復開始周波数の数は１０〜１００の間であることができる。これは、例えば、上述したＮ＝２¹⁴という個々のサンプル値の数よりも大幅に少ない。この例では、計算量を（１／１００）よりも少ないように削減することができる。

さらに、スペクトル分解能を、反復開始周波数の数を変え、及び／又はオフセット周波数の計算パラメータを調節することによって、容易に適合させることができる。

本発明によるいくつかの実施の形態は周波数マージャを備えている。周波数マージャは、複数の反復開始周波数のうちの２つの隣接する反復開始周波数の間の周波数距離が最小周波数距離よりも小さい場合に、それらの２つの隣接する反復開始周波数を併合する。

本発明によるいくつかのさらなる実施の形態は周波数加算器を備えている。周波数加算器は、複数の反復開始周波数のうちの２つの隣接する反復開始周波数の間の周波数距離が最大周波数距離よりも大きい場合に、複数の反復開始周波数へと反復開始周波数を追加する。例えば、これは、初期化が先の（時間）ブロックの推定によって行われる場合に有用となりうる。

本発明によるいくつかの実施の形態は、オーディオ信号のスペクトルの複数の局部重心周波数を決定するための本発明の実施の形態による方法に関する。この方法は、複数の反復開始周波数の各々の反復開始周波数についてオフセット周波数を決定するステップ、新たな複数の反復開始周波数を決定するステップ、及びさらなる反復のために前記新たな複数の反復開始周波数を提供するステップ、又は前記複数の局部重心周波数をもたらすステップを含んでいる。複数の反復開始周波数の各々の反復開始周波数についてのオフセット周波数はオーディオ信号のスペクトルに基づいて決定され、そこではスペクトルの個々のサンプル値の数が反復開始周波数の数よりも多い。新たな複数の反復開始周波数は、複数の反復開始周波数の各々の反復開始周波数を、決定された該当のオフセット周波数だけ増加又は減少させることによって決定される。所定の決定条件が満たされた場合に、複数の局部重心周波数が、保存、送信又はさらなる処理のために供給される。このために、供給された複数の局部重心周波数は新たな複数の反復開始周波数に等しい。

本発明によるいくつかの実施の形態においては、オーディオ信号の先の時間ブロックについて決定された複数の局部重心周波数が、オーディオ信号の次の時間ブロックの最初の反復のための反復開始周波数として使用される。この場合に、反復開始周波数の間の大きな間隔を周波数加算器によって埋めることができる。

次に、本発明による実施の形態を、添付の図面を参照して詳述する。

複数の局部重心周波数を決定するための装置のブロック図である。複数の局部重心周波数を決定するための装置のブロック図である。前処理を使用して複数の局部重心周波数を決定するための装置のブロック図である。写像されたスペクトル−対−平滑化スペクトルの図である。２つの別個の音について、局部重心の推定−対−写像されたスペクトル（抜粋）の概略図である。うなりを生じる２つの音について、局部重心の推定−対−写像されたスペクトル（抜粋）の概略図である。撥弦について、局部重心の推定−対−写像されたスペクトル（抜粋）の概略図である。オーケストラ音楽について、局部重心の推定−対−写像されたスペクトル（抜粋）の概略図である。信号適応フィルタバンクのブロック図である。撥弦について、局部重心をもって整列させたバンドパスセグメンテーション−対−パワースペクトル（抜粋）の概略図である。オーケストラ音楽について、局部重心をもって整列させたバンドパスセグメンテーション−対−パワースペクトル（抜粋）の概略図である。オーディオ信号をパラメータ化表現へと変換するための装置のブロック図である。オーディオ信号をパラメータ化表現へと変換するための装置のブロック図である。オーディオ信号をパラメータ化表現へと変換するための装置のブロック図である。合成モジュールのブロック図である。多声のキーモード変化のための応用の概略図である。５度圏の概略図である。複数の局部重心周波数を決定するための方法のフロー図である。複数の局部重心周波数を決定するための方法のフロー図である。反復ＣＯＧ推定の概略図である。反復開始周波数を追加するための方法のフロー図である。従来技術の分析−合成−ボコーダ構造の概略図である。図１７に示したボコーダ構造について、従来技術のフィルタの実例の概略図である。

以下では、実施の形態の説明の冗長さを減らすために、一部において、同じ又は類似の機能的特性を有している対象物及び機能ユニットについて、同じ参照番号が使用され、そのような物件及び機能ユニットの或る図に関する説明は、他の図にも当てはまる。

図１はオーディオ信号のスペクトル１０２の複数の局部重心周波数１３２を決定するための本発明の実施の形態による装置１００のブロック図を示している。装置１００は、オフセット決定部１１０、周波数決定部１２０及び反復コントローラ１３０を備えている。オフセット決定部１１０は周波数決定部１２０へ接続され、周波数決定部１２０は反復コントローラ１３０へ接続され、反復コントローラ１３０はオフセット決定部１１０へ接続されている。オフセット決定部１１０は、オーディオ信号のスペクトル１０２に基づき、複数の反復開始周波数の各々の反復開始周波数についてオフセット周波数１１２を決定する。スペクトル１０２は別個のサンプル値によって表わされ、スペクトル１０２のサンプル値の数は反復開始周波数の数よりも多い。周波数決定部１２０は、複数の反復開始周波数の各々の反復開始周波数を、決定された該当のオフセット周波数１１２だけ増加又は減少させることによって、新たな複数の反復開始周波数１２２を決定する。次いで、反復コントローラ１３０は、新たな複数の反復開始周波数１２２をさらなる反復のためにオフセット決定部１１０へ供給する。これに代え、あるいはこれに加えて、所定の終息条件が満たされた場合に、複数の局部重心周波数１３２がもたらされ、その複数の局部重心周波数１３２は、新たな複数の反復開始周波数１２２に等しくなり、又は新たな複数の反復開始周波数１２２に等しく設定される。

反復開始周波数の数がスペクトルの個々のサンプル値の数よりも少ないため、スペクトルの個々のサンプル値の各々について計算されなければならない関数に基づいて局部重心周波数を決定する考え方に比べて、複数の局部重心周波数１３２を決定するための計算量が少なくなる。

局部重心周波数決定の分解能及び／又は精度を、反復開始周波数の数及び／又はオフセット周波数の計算パラメータを変えることによって、個々の用途に合わせることができる。この方法では、計算量も変化するが、反復開始周波数の数が通常はスペクトルの個々のサンプル値の数よりも明らかに少ないため、計算の複雑性が低いことを保証することができる。

例えば、スペクトル１０２の個々のサンプル値は、スペクトル振幅、パワースペクトル密度値、又はオーディオ信号のフーリエ変換によって得られる他の値であることができる。オーディオ信号の時間ブロックについて、スペクトル１０２の個々のサンプル値の数は、例えば１，０００〜１００，０００の間又は２⁹〜２²⁰の間であることができる。対照的に、反復開始周波数の数は、例えば５〜５００の間であることができる。スペクトル１０２の個々のサンプル値の数と反復開始周波数の数との間のこの大きな差が、公知の方法と比べて、計算の複雑性の大幅な低減を可能にする。

局部重心周波数１３２は、オーディオ信号のスペクトル１０２がスペクトル振幅、パワースペクトル密度、又はオーディオ信号のフーリエ変換によって得られる他の値について、例えば極大又は局部集合を含むことができる周波数であることができる。

例えば、複数の反復開始周波数は、最初の反復について、スペクトル１０２において互いに等しく離れることができ、又は分布関数もしくは所与の分布に従って離れることができる。この反復開始周波数及びスペクトル１０２に基づき、オフセット決定部１１０は、反復開始周波数が局部重心からどれだけ離れて位置するかを表わすことができるオフセット周波数１１２を決定する。したがって、周波数決定部１２０は、この局部重心と反復開始周波数との間の距離を、反復開始周波数を決定された該当のオフセット周波数だけ（オフセット周波数の正又は負の値に応じて）増加又は減少させることによって補償しようと試みる。その後、さらなる反復のために、その新たな複数の反復開始周波数１２２がオフセット決定部１１０へ提供され、又は所定の終息条件が満たされる場合、その新たな複数の反復開始周波数１２２が決定されるべき複数の局部重心周波数１３２として提供される。

装置１００は、オーディオ信号の複数の時間ブロックの各々の時間ブロックについて、複数の局部重心周波数１３２を決定することができる。換言すると、オーディオ信号を、時間ブロックにて処理することができる。各々の時間ブロックについて、スペクトル１０２をフーリエ変換によって生成することができ、複数の局部重心周波数１３２を決定することができる。

考えられる所定の終息条件は、例えば、各々のオフセット周波数が最大オフセット周波数を下回ることであってよく、すべてのオフセット周波数の合計が最大オフセット周波数合計値を下回ることであってよく、又は現在の時間ブロックについて決定されたオフセット周波数と先の時間ブロックについて決定されたオフセット周波数との合計がしきい値オフセットを下回ることであってよい。

オフセット決定部１１０へもたらされるスペクトル１０２は、例えば、線形又は対数のスケールを備えることができる。例えば、決定された複数の重心周波数１３２が知覚スケールに分布することができるように、複数の局部重心周波数１３２の決定の傾向を設定するために、第１の反復について、複数の反復開始周波数を対数スペクトル１０２において等間隔に分布させることができる。

オフセット決定部１１０、周波数決定部１２０及び反復コントローラ１３０は、独立したハードウェアユニットであることができ、又はデジタル信号プロセッサ、マイクロコントローラもしくはコンピュータの一部であることができる。又は、マイクロコントローラもしくはコンピュータ上で動作するように構成された、コンピュータプログラム又はコンピュータプログラム製品として実現することもできる。

図２は、オーディオ信号のスペクトル１０２の複数の局部重心周波数１３２を決定するための本発明の実施の形態による装置２００のブロック図を示している。装置２００は、図１に示した装置に類似しているが、周波数加算器２１０、周波数マージャ２２０、及び周波数リムーバ２３０をさらに備えている。この実施例では、周波数決定部１２０が周波数リムーバ２３０へ接続され、周波数リムーバ２３０が反復コントローラ１３０へ接続され、反復コントローラ１３０が周波数加算器２１０へ接続され、周波数加算器２１０が周波数マージャ２２０へ接続され、周波数マージャ２２０がオフセット決定部１１０へ接続されている。代案として、周波数加算器２１０と周波数マージャ２２０の位置を交換することが可能であり、及び／又は周波数リムーバ２３０を、反復コントローラ１３０と周波数加算器２１０との間、周波数加算器２１０と周波数マージャ２２０との間、又は周波数マージャ２２０とオフセット決定部１１０との間に配置してもよい。

周波数加算器２１０は、新たな複数の反復開始周波数１２２の２つの隣接する反復開始周波数の間の周波数距離が最大周波数距離よりも大きい場合に、反復開始周波数を新たな複数の反復開始周波数１２２へ加えることができる。このために、周波数距離及び最大周波数距離を、線形又は対数のスケールにおいて測定することができる。

換言すると、周波数加算器２１０は、２つの隣接する反復開始周波数の間のギャップが大きすぎる場合に、反復開始周波数を加える。例えば、これは、現在の時間ブロックについて決定された複数の局部重心周波数１３２が、次の時間ブロックの最初の反復のための複数の反復開始周波数として使用されるべくオフセット決定部１１０へもたらされる場合に特に重要かもしれない。しかしながら、同じ時間ブロックについての反復の最中にも、反復開始周波数を加えることが可能である。

複数の局部重心周波数を、新たな複数の反復開始周波数を生成するためのベースとして利用することができる。

時間ブロックの最初の反復のための複数の反復開始周波数は、上述のように、互いに等間隔とすることができ、又はオーディオ信号の先の時間ブロックについて決定された複数の局部重心周波数１３２を現在の時間ブロックの最初の反復のための反復開始周波数として使用することもできる。

周波数マージャ２２０は、新たな複数の反復開始周波数１２２の２つの隣接する反復開始周波数の間の周波数距離が最小周波数距離よりも小さい場合に、それらの２つの隣接する反復開始周波数を併合する。やはり、周波数距離及び最小周波数距離を線形又は対数のスケールにおいて測定することができる。

換言すると、周波数マージャ２２０は、２つの隣接する反復開始周波数の間の距離が限界よりも小さい場合に、２つの隣接する反復開始周波数を１つの反復開始周波数によって置き換えることができる。

周波数リムーバ２３０は、反復開始周波数がオーディオ信号のスペクトル１０２の所定の最大周波数よりも高い場合、又は反復開始周波数がオーディオ信号のスペクトル１０２の所定の最小周波数よりも低い場合に、その反復開始周波数を新たな複数の反復開始周波数１３２から取り除く。例えば、所定の最大周波数は、スペクトル１０２に含まれる最高の周波数であってよく、所定の最小周波数は、スペクトル１０２に含まれる最低の周波数であってよい。

換言すると、周波数リムーバ２３０は、反復開始周波数がオーディオ信号のスペクトル１０２の周波数範囲の外側に位置する場合に、それらの反復開始周波数を新たな複数の反復開始周波数１２２から取り除く。

周波数加算器２１０及び周波数リムーバ２３０は、装置２００の任意によるユニットである。

周波数加算器２１０、周波数マージャ２２０及び周波数リムーバ２３０は、オフセット決定部１１０、周波数決定部１２０及び反復コントローラ１３０について述べたように、独立したハードウェアユニットであっても、統合されていてもよい。

図３は、オーディオ信号３０２のスペクトル１０２の複数の局部重心周波数１３２を決定するための本発明の実施の形態による装置３００のブロック図を示している。装置３００は、図１に示した装置に類似しているが、プリプロセッサ３１０をさらに備えている。プリプロセッサ３１０はオフセット決定部１１０へ接続されている。プリプロセッサ３１０は、オーディオ信号３０２の時間ブロックについてフーリエ変換スペクトルを生成し、この時間ブロックのフーリエ変換スペクトルに基づいて平滑化スペクトルを生成する。さらに、プリプロセッサ３１０は、フーリエ変換スペクトルを平滑化スペクトルによって除算することによって、オフセット決定部１１０へ供給されるべきオーディオ信号３０２のスペクトル１０２を生成する。次いで、プリプロセッサ３１０は、スペクトルを対数のスケールに写像し、対数スペクトル１０２をオフセット決定部１１０へ供給する。又は、プリプロセッサ３１０は、平滑化スペクトルを生成する前及びフーリエ変換スペクトルを平滑化スペクトルによって除算する前に、フーリエ変換スペクトルを対数のスケールへと写像してもよい。

いくつかの実施の形態においては、各々の信号ブロック（時間ブロック）について、パワースペクトル密度（ｐｓｄ）の推定が、ＤＦＴスペクトルエネルギーを計算することによって得られる。次いで、グローバルトレンドを除去するために、例えば低次の多項式のフィッティング、ケプストラム(cepstral)平滑化の実行、又は周波数方向に沿ったフィルタ処理によって計算される平滑化ｐｓｄについてｐｓｄが正規化される。除算に先立ち、両方の量を、例えば２００ｍｓの時定数を有する一次ＩＩＲフィルタによって時間的に平滑化することもできる。次に、例えばスペクトルを知覚的に調整された非一様であると同時にＣＯＧに中心を有する帯域へ分割する作業を容易にするために、ＣＯＧの計算及び分割に先立ってｐｓｄの写像が知覚のスケール（対数のスケール）へ実行される。これにより、信号の推定による局部ＣＯＧ位置をもつ一組のほぼ一様なセグメントを整列させるという作業へと問題を単純化することができる。知覚的なスケールとして、低い周波数において例えばＢＡＲＫスケールよりも良好なスペクトル分解能を提供するＥＲＢスケール（B. C. J. Moore及びB. R. Glasbergの「A revision of Zwicker's loudness model」、Acta Acustica、vol. 82、pp. 335-345、1996を参照)を適用することができる。しかしながら、ＢＡＲＫスケールも使用可能である。写像されたスペクトルは、ＥＲＢスケールに従って離間したスペクトルサンプルに対して一様にサンプルされたスペクトルを補間することによって計算することができる（式２を参照）。

あるいは、各々の信号ブロックについて、パワースペクトル密度（ｐｓｄ）の推定が、ＤＦＴスペクトルエネルギーを計算することによって得られる。次に、スペクトルを知覚的に調整された非一様であると同時にＣＯＧに中心を有する帯域へと分割する作業を容易にするために、ＣＯＧの計算及び分割に先立って、ｐｓｄの写像が知覚のスケールへ実行される。これにより、信号の推定による局部ＣＯＧ位置をもつ一組のほぼ一様なセグメントを整列させるという作業へと、問題が単純化される。知覚的なスケールとして、低い周波数において例えばＢＡＲＫスケールよりも良好なスペクトル分解能を提供するＥＲＢスケールが適用される。写像されたスペクトルは、ＥＲＢスケールに従って離間したスペクトルサンプルに対して一様にサンプルされたスペクトルを補間することによって計算することができる（式２を参照）。

次いで、実世界のオーディオ信号スペクトルにつきもののグローバルトレンドを除去するために、写像されたｐｓｄが、最小二乗基準を最小にする線形回帰によって計算される自身のトレンドについて正規化される。除算に先立ち、両方の量が、式２ａによって定義されるように、例えばτ＝２００ｍｓの時定数を各々が有している一次ＩＩＲフィルタＨ（ｚ）を適用することによって時間的に平滑化される。ここでＴは、ＤＦＴの時間ストライドに入力サンプル期間を掛けることによって与えられるＤＦＴサブバンドサンプル期間である。

これらの前処理工程は、後のＣＯＧ位置の反復において低い周波数へと向かうグローバルバイアスを防止でき、時間的に連続するブロックについてそれぞれ推定される位置を安定にすることができる。

図３Ａは、線形なトレンドによって表わされた写像されたスペクトル３６０及び平滑化スペクトル３７０のダイヤグラム３５０の例を示している。

プリプロセッサ３１０は、別個のハードウェアユニットであることができ、又はデジタル信号プロセッサ、マイクロプロセッサもしくはコンピュータの一部であることができ、又はソフトウェアプログラムとして実現することもできる。

図１５はが、オーディオ信号のスペクトルの複数の局部重心周波数を決定するための本発明の実施の形態による方法１５００のフロー図を示している。方法１５００は、上述した反復の重心の推定のさらに詳細な例を説明している。

各々の時間ブロックｋについて、分類された位置候補リストｃを、間隔Ｓを有するＮ個の候補位置ｃ（ｎ）からなる一様な間隔の格子によって、初期化１５１０することができる。パラメータＳが、反復プロセスの経過において得られる推定のスペクトル分解能を設定する。換言すると、パラメータＳが、ＣＯＧ推定の局部の範囲と考えられるべきものを決定する。

例えば、２¹⁴個のサンプルからなる時間ブロック長を使用し、ＤＦＴスペクトルは、２¹³＋１個のサンプルで構成される。それらが、やはり２¹³＋１個のサンプルを有するＥＲＢスケールの表現へと写像される。０．５ＥＲＢに相当するＣＯＧ分解能を選択すると、これは、４８ｋＨｚのサンプリング周波数においてＳ＝４７のサンプルをもたらし、したがってＮ＝１７４の初期の等間隔の候補をもたらす。反復において、例えば４０〜５０個の最終的なＣＯＧ位置が推定される。最終的なＣＯＧ位置の総数は、信号の特性、重みｇ（ｉ）、及びＥＲＢにおいて測定されるＣＯＧ分解能に依存する（式４も参照）。ＣＯＧ分解能についての賢明な値は、例えば０．１〜１ＥＲＢの区間にある。

反復プロセスは、２つのループからなる。第１のループは、重みｇ（ｉ）によって重み付けされたサイズ２Ｓの負から正への線形スロープ関数を、信号ブロックの前処理されたｐｓｄ推定において各々の候補位置ｎへ適用することによって、真の局部重心からの候補位置ｃ（ｎ）の位置オフセットｐｏｓＯｆｆ（ｎ）を計算１４１０する（式４を参照）。

換言すると、オフセット決定部１１０は、位置オフセットとも称されるオフセット周波数を、スペクトルの複数の個々のサンプル値（この例では、パワースペクトル密度値）、重みパラメータｇ（ｉ）の複数の対応する値及び距離パラメータｉｄｘＯｆｆ（ｉ）の対応する値に基づいて決定することができる。距離パラメータの値は、対数スケールにおいて互いに等間隔であってよく、距離パラメータのすべての値が、最大距離値（この例では、Ｓ）よりも小さい。さらに、距離パラメータは、例えば式４によって示されるように、正又は負の値をとることができる。重みパラメータは、例えば矩形又は多少なりとも険しい縁を有するウインドウなど、ウインドウ関数に基づくことができる。この方法で、現時点においてオフセット周波数が決定される反復開始周波数（この例では、候補とも呼ばれる）から遠く離れた大きなピークの影響が小さくされる。換言すると、重みパラメータの値が、（例えば、矩形について）すべて同じであってよく、あるいは重みパラメータの値を、対応する距離パラメータの増加する絶対値について減少させる（例えば、大きな距離を有するピークの影響を小さくするために）ことができる。

図１５Ａに、候補位置オフセットｐｏｓＯｆｆ（ｎ）の手順が視覚化されている。ステムプロット１５９０が、候補位置ｃ（ｎ）に中心を有する局部ｐｓｄサンプルｗｎ（ｉ）に対応しており、ウインドウ関数が、値ｇ（ｉ）によって表わされ、線形スロープ関数が、ｉｄｘＯｆｆ（ｉ）によって示されている。

次の段階（式５を参照）において、リストからのすべての候補位置が、それらの位置オフセットによって更新１４２０される。

境界の制限に違反（スペクトルの最大周波数よりも高い周波数及びスペクトルの最小周波数よりも低い周波数）する各々の候補位置が、（式６を参照）によって示されるとおりにリストから除去１５２５され、残りの候補位置の数Ｎが１だけ減らされる。

（式７ａを参照）において定義されるように、候補の実際及び先の位置オフセットの合計の絶対値が所定のしきい値よりも小さい場合、この候補位置ｃ（ｎ）は、さらなる反復において更新されないが、依然としてリストに残り、したがって後の候補融合機構の対象となる。

すべての候補の｜ｓｕｍＯｆｆ（ｎ）｜が所定のしきい値よりも小さい場合（式７ｂを参照）、第１の反復ループから退出１４４０し、反復プロセスが終息する。リストからのすべての残りの候補が、最終的な一組のＣＯＧ位置の推定を構成する。この種の条件を使用することが、位置オフセットが２つの値の間を交互に切り換わる場合にも反復を終了させることで、適切な終息を常に保証することに注意すべきである。

そうでない場合、次の反復の工程を、更新された候補位置１５２０によって実行することができる。

例えば、ｔｈｒｅｓ１を、１つのサンプル（２つのサンプル、５つのサンプル又は１０個のサンプル）に等しく設定することができ、又はそれよりも小さく設定することができる。

第２のループは、第１のループによってもたらされる位置の更新によって所定の近接制限に違反１５７０する（特定の近接性の指標に従って）最も近い２つの位置候補を、１つの単一の新たな候補へと繰り返し融合１５４０させることで、知覚融合を考慮する。近接性の指標ｐｒｏｘ２１５３０は、２つの候補のスペクトル距離である（式８を参照）。

例えば、ｔｈｒｅｓ２を、Ｓ個のサンプル、Ｓ／２個のサンプル、２Ｓ個のサンプル、又は１つのサンプル〜１０Ｓ個のサンプルの間の他の値へと設定することができる。

新たに計算されるジョイント候補の各々が、それまでの２つの候補のエネルギーに関して重み付けされた平均位置を占めるように初期化される（式９を参照）。

これまでの候補が両方ともリストから削除され、新たなジョイント候補がリストへと追加される。結果として、残りの候補位置の数Ｎが１だけ減らされる。第２のループの反復は、近接制限に違反する候補がもはや存在しない場合に終息１５７０する。最終的な一組のＣＯＧ候補が、推定された局部重心位置を構成する。

推定された重心周波数を保存１５６０することができ、あるいはさらなる処理のために送信又は供給することができる。

反復プロセスを高速にするために、新たなブロックの各々の初期化を、先のブロックのＣＯＧ位置の推定を使用して好都合に行うことができる。なぜならば、先のブロックのＣＯＧ位置の推定は、すでに現在の位置のかなり良好な推定であるからである。例えば、これは、分析におけるブロックの重なり合い及び前処理における時間的平滑化、したがってＣＯＧ位置の時間的進展における変化速度が限られているという適切な仮定ゆえに当てはまる。

それでも、考えられる新たなＣＯＧの発生も捕捉するために充分な初期位置の推定をもたらすように、注意を払わなければならない。したがって、例えば間隔Ｓ、・・・、２Ｓに位置する所定の値よりも大きい距離をまたぐ推定における位置候補の間隔が、新たなＣＯＧ位置候補によって埋められ（式１０を参照）、潜在的な新たな候補が位置更新関数の範囲内にあることが保証される。図１６は、アルゴリズムのこの拡張１６００のフロー図を示している。リストへの追加の候補の付加が、２Ｓよりも大きい間隔がもはや発見されない場合に終息１６２０するループによって達成される。

換言すると、複数の局部重心周波数又は局部重心の推定１６０２について、隣接する局部重心周波数の間の周波数距離が計算１６１０される。１６２０において、２つの隣接する重心周波数の間の周波数距離が、最大周波数距離よりも大きい場合に、その複数の局部重心周波数へ１つの局部重心周波数が追加１６３０される。最大周波数距離よりも大きいすべての間隔を埋めた後で、その複数の局部重心周波数を次の時間ブロックのために保存１６４０することができる。

図４、５、６及び７は、上記提案の反復的な局部ＣＯＧ推定アルゴリズムを種々の試験アイテムに適用することによって得られた結果を示している。試験アイテムは、２つの別々の純音４００、互いに響く２つの音５９０、撥弦６００（「MPEG Test Set - sm03」）、及びオーケストラ音楽（「ビバルディ−四季、春、アレグロ）７００である。これらの図においては、知覚的に写像され、平滑化され、全体的にトレンド除去（正規化）されたスペクトル４１０、５９５、６１０、７１０が、ＣＯＧの推定（参照番号１２〜２６）とともに表示されている。ＣＯＧの推定には、昇順で番号が付けられている。例えば、図４の２２番及び２６番の推定ならびに図６の１８番及び１９番の推定が正弦の信号成分に対応する一方で、図５の２２番の推定、図６の２３番及び２５番の推定、ならびに図７の大部分の推定は、スペクトル的に広がり、又はうなりを生じている成分を捕捉しており、これらの成分が、それにもかかわらず良好に検出及びセグメント化されており、知覚ユニットへグループ化されている。

図８は、本発明の実施の形態による信号適応フィルタバンク８００のブロック図を示している。信号適応フィルタバンク８００は、オーディオ信号８０２のスペクトルの複数の局部重心周波数１３２を決定するための装置１００と、複数の帯域通過フィルタ８１０とを備えている。複数の帯域通過フィルタ８１０は、オーディオ信号８０２をフィルタ処理し、フィルタ処理後のオーディオ信号８１２を送信、保存又はさらなる処理のために供給するように構成されている。このために、複数の帯域通過フィルタ８１０の各々の帯域通過フィルタの中心周波数及び帯域幅は複数の局部重心周波数１３２に基づいている。

例えば、複数の帯域通過フィルタ８１０の各々の帯域通過フィルタが局部重心周波数に対応し、帯域通過フィルタの中心周波数及び帯域幅が該当の局部重心周波数及び該当の局部重心周波数に隣接する局部重心周波数に依存する。

複数の帯域通過フィルタ８１０の帯域幅を、スペクトル全体が穴がなくカバーされるように決定することができる。

フィルタを対数スケールで得られる元のＣＯＧ推定に従って対数の周波数スケールにて設計することができ、得られるスペクトルの重みを線形ドメインへ写像することができ、又は他の実施の形態においては、フィルタを再写像されたＣＯＧ位置に従って線形ドメインにおいて設計することができる。

換言すると、後者の実施の形態においては、例えばＥＲＢ適応のドメインにおいてＣＯＧ推定を割り出した後で、ｆについて式２を解くことによってＣＯＧ位置が線形ドメインへ再び写像され、次いで線形ドメインにおいて、Ｎ個の帯域通過フィルタの組が広帯域信号の元のＤＦＴスペクトルへ直接適用されるスペクトルの重みの形態にて計算される。

第１の好ましい実施の形態においては、ＣＯＧ位置が、ＥＲＢドメインにおいてさらに処理される。Ｎ個の帯域通過フィルタの組が、式（１０ａ）に従って長さＭのスペクトル重み付け関数の重み_n（weights_n）の形態にて計算される。換言すると、帯域通過フィルタの組を、線形ドメインへの写像後に広帯域の信号の元のＤＦＴスペクトルへ適用されるスペクトルの重みの形態にて計算することができる。

例えば、帯域通過フィルタは、正弦二乗の特性を有する長さ２?rollOffの所定のロールオフを有するように設計される。推定されたＣＯＧ位置との所望の整列を達成するために、以下で説明される設計の手順を適用することができる。

第１に、隣接するＣＯＧ位置の推定の間の中間位置が計算され、ここでｍ_L（ｎ）が、ＣＯＧ位置ｃ（ｎ）の隣のＣＯＧ位置に対する下側の中間点を指し、ｍ_U（ｎ）が、上側の中間点を指している。次いで、これらの移行点において、スペクトルの重みのロールオフ部分が、隣接するフィルタのロールオフ部分の合計が１になるように中心付けされる。帯域通過重み関数の中央部は、１に等しい平坦な上部となるように選択され、残りのサンプル点はゼロに設定される。ｎ＝０及びｎ＝Ｎについてのフィルタは、１つのロールオフ部分しか有さず、それぞれ低域通過又は高域通過として構成される。

ロールオフ特性の設計において、一方でスペクトル選択性、他方で時間分解能に関して、トレードオフを行わなければならない。また、複数のフィルタのスペクトル的な重なり合いを許すことで、設計の制約にさらなる自由度を追加することが可能である。トレードオフを、例えば過渡の再現の改善のために、信号適応的なやり方で選択することができる。

最後に、ＣＯＧ位置及びスペクトル重み関数が、ｆについて式（２）を解いて式（１０ｂ）を得ることによって、線形ドメインへ再び写像される。最終的に、広帯域の信号のＤＦＴスペクトルへ適用される線形スケールでのスペクトルの重みがもたらされる。

対数スペクトル及び等間隔の反復開始周波数での初期化を使用することによって、知覚的なセグメンテーションの傾向（低い周波数については狭く、高い周波数については広い帯域幅）を達成できるが、局部重心周波数の位置はオーディオ信号に依存するため、スペクトルのいくつかの領域においては、低い周波数のフィルタの帯域幅が、より高い周波数のフィルタの帯域幅よりも広くてもよい。

例えば、帯域通過フィルタのエッジを、対数又は線形スケールにおいて隣接する２つの重心周波数の真ん中ごとに位置させることができる。あるいは、いくつかの帯域通過フィルタの重なり合いも可能である。

本発明のいくつかの実施の形態は、フィルタバンク又は位相ボコーダについての上述の考え方の応用に関する。上述の考え方を、例えばチャネルのうちのただ１つ又は所定の数のチャネルのピッチを変更するための音楽の操作に使用することができる。

図９及び１０に、信号ブロック９００、１０００の前処理なしの元々のｐｓｄ９１０、１０１０が示されており、上記のように設計された一組の帯域通過フィルタ９２０、１０２０が示されている。各々のフィルタがＣＯＧ推定をもって整列しており、隣のサブバンドフィルタにペアをなして滑らかに重なっていることを明確に見て取ることができる。図９は図６に対応し、図１０は図７に対応している。

図１１は、オーディオ信号１１０２をパラメータ化表現１１３２へと変換するための本発明の実施の形態による装置１１００のブロック図を示している。装置１１００は、オーディオ信号１１０２のスペクトルの複数の局部重心周波数１３２を決定するための装置１００と、帯域通過推定部１１１０と、変調推定部１１２０と、出力インターフェイス１１３０とを備えている。複数の局部重心周波数１３２を決定するための装置１００は、信号分析器とも呼ばれ、変調推定部１１２０が複数の帯域通過フィルタ８１０を備えている。

信号分析器１００は、局部重心周波数１３２に関する信号分析結果１３２を得るために、オーディオ信号１１０２の一部分を分析する。信号分析結果１３２は、その信号分析結果１３２に基づいてオーディオ信号の前記部分について複数の帯域通過フィルタ８１０についての情報１１１２を推定するための帯域通過推定部１１１０へ入力される。その結果、複数の帯域通過フィルタ８１０についての情報１１１２が信号適応の方法で計算される。

具体的には、複数の帯域通過フィルタ８１０についての情報１１１２がフィルタ形状についての情報を含んでいる。フィルタ形状は、信号の前記一部分についての帯域通過フィルタの帯域幅及び／又は帯域通過フィルタの中心周波数、及び／又はパラメータ形式又は非パラメータ形式での大きさ伝達関数のスペクトル形態を含むことができる。重要なことには、帯域通過フィルタの帯域幅が全周波数範囲にわたって一定というわけではなく、帯域通過フィルタの中心周波数に依存してよい。例えば、依存性は、より高い中心周波数に対しては帯域幅が増加し、より低い中心周波数に対しては帯域幅が減少するようであってよい。

信号分析器１００は、オーディオ信号の信号部分のスペクトル分析を実行し、特にパワーの集中を有する領域（そのような領域は、音の受信及びさらなる処理の際に人間の耳によっても決定されるため）を見つけるために、スペクトルにおけるパワー分布を分析することができる。

本発明の装置１１００は、オーディオ信号の前記一部分について複数の帯域通過フィルタ８１０の各々の帯域のための振幅変調１１２２又は周波数変調１１２４を推定するための変調推定部１１２０をさらに備えている。この目的を達成するために、変調推定部１１２０は、後述されるように、複数の帯域通過フィルタ８１０についての情報１１１２を使用する。

図１１の本発明による装置は、振幅変調１１１２についての情報、周波数変調１１２４の情報、又は複数の帯域通過フィルタ８１０についての情報（オーディオ信号のこの特定の部分／ブロックのための帯域通過フィルタの中心周波数の値などのフィルタ形状情報又は上述のような他の情報を含むことができる）を送信、保存又は修正するための出力インターフェイス１１３０をさらに備えている。出力はパラメータ化表現１１３２である。

図１２及び１２Ａは、変調推定部１１２０と、「キャリア周波数推定」と呼ばれる単一のユニットへ組み合わせられた信号分析器１００及び帯域通過推定部１１１０の２つの好ましい実施の形態を示している。変調推定部１１２０は、好ましくは、帯域通過信号をもたらす帯域通過フィルタ１１２０ａを備えている。帯域通過信号は分析信号変換部１１２０ｂへ入力される。ブロック１１２０ｂの出力はＡＭ情報及びＦＭ情報の計算に有用である。ＡＭ情報を計算するために、分析信号の大きさがブロック１１２０ｃによって計算される。分析信号ブロック１１２０ｂの出力が乗算器１１２０ｄへ入力される。乗算器１１２０ｄは、他方の入力において、帯域通過１１２０ａの実際のキャリア周波数ｆｃ１２１０によって制御される発振器１１２０ｅからの発振器信号を受信する。次いで、乗算器出力の位相がブロック１１２０ｆにおいて決定される。瞬間の位相が、最終的にＦＭ情報を得るためにブロック１１２０ｇにおいて微分される。さらに、図１２Ａは、オーディオ信号のＤＦＴスペクトルを生成するプリプロセッサ３１０を示している。

マルチバンド変調分解が、オーディオ信号を（分析）帯域通過信号の信号適応セットへと分解し、帯域通過信号のそれぞれが、正弦波キャリアと、その帯域通過信号の振幅変調（ＡＭ）及び周波数変調（ＦＭ）へとさらに分割される。帯域通過フィルタの組が、一方では全帯域のスペクトルが継ぎ目なくカバーされ、他方ではフィルタがそれぞれ局部ＣＯＧをもって整列するように計算される。さらに、フィルタの帯域幅を例えばＥＲＢスケールなどの知覚スケールに一致するように選択することによって人間の聴覚が考慮される（B. C. J. Moore及びB. R. Glasbergの「A revision of Zwicker's loudness model」、Acta Acustica、vol. 82, pp. 335-345、1996を参照）。

局部ＣＯＧは、その周波数領域におけるスペクトル的な寄与ゆえに、聴取者によって知覚される平均周波数に対応する。さらに、局部ＣＯＧ位置に中心を有する帯域は、古典的な位相ボコーダの影響ベースの位相ロックの領域に対応する（J. Laroche及びM. Dolsonの「Improved phase vocoder timescale modification of audio」、IEEE Transactions on Speech and Audio Processing、vol. 7、no. 3、pp. 323-332、1999、 Ch. Duxbury、M. Davies、及びM. Sandlerの「Improved timescaling of musical audio using phase locking at transients」、in 112th AES Convention、2002、A. Roebelの「A new approach to transient processing in the phase vocoder」、Proc. of the Int. Conf. on Digital Audio Effects (DAFx)、pp. 344-349、2003、 A. Roebelの「Transient detection and preservation in the phase vocoder」、Int. Computer Music Conference (ICMC' 03)、pp. 247-250、2003を参照)。帯域通過信号の包絡線表現及び影響位相ロックの伝統的な領域の両方が、内在的に、又は後者の場合には合成の際の局部スペクトル位相コヒーレンスを保証することによって、帯域通過信号の時間的包絡線を保存する。推定された局部ＣＯＧに対応する周波数の正弦波キャリアに関して、ＡＭ及びＦＭの両方が、それぞれ振幅の包絡線及び分析帯域通過信号のヘテロダインされた位相に捕捉される。専用の合成方法が、キャリア周波数、ＡＭ及びＦＭから出力信号を与える。

キャリア信号及び関連の変調成分への信号の分解のブロック図が、図１２に示されている。図においては、１つの成分の抽出についての概略の信号の流れが示されている。他のすべての成分も、同様のやり方で得られる。実際には、抽出が、各々のウインドウの信号ブロックに離散型フーリエ変換（ＤＦＴ）を適用することによって、例えば４８ｋＨｚのサンプリング周波数におけるＮ＝２¹⁴というブロックサイズ及び７５％の分析の重なり合い（大まかに、３４０ｍｓの時間間隔及び８５ｍｓのストライドに相当）を使用して、ブロックごとのやり方ですべての成分について一緒に実行される。ウインドウは、式（１）による「平坦な上部」のウインドウであってよい。これは、後の変調合成に渡される中心出しされたＮ／２のサンプルが、分析ウインドウの傾斜によって影響されないことを保証することができる。精度の改善のために、重なり合いの程度を大きくすることができるが、計算の複雑さが増すという対価を伴う。

スペクトル表現が与えられると、次いで、局部ＣＯＧ位置をもって整列した一組の信号適応スペクトル重み関数（帯域通過特性を有している）を計算することができる。スペクトルに帯域通過の重み付けを加えた後で、信号が時間ドメインへと変換され、ヒルベルト変換によって分析信号が導出される。これら２つの処理段階を、各々の帯域通過信号について片側のＩＤＦＴを計算することによって、効率的に組み合わせることができる。その後に、各々の分析信号が、その推定されたキャリア周波数によってヘテロダインされる。最後に、信号が、位相の導関数を計算することによって得られる振幅の包絡線及び瞬間の周波数（ＩＦ）トラックへとさらに分解され、所望のＡＭ及びＦＭ信号がもたらされる（S. Disch及びB. Edlerの「An amplitude- and frequency modulation vocoder for audio signal processing」、Proc. of the Int. Conf. on Digital Audio Effects (DAFx)、2008も参照)。

合わせて、図１３Ａが、オーディオ信号のパラメータ化表現を合成するための装置１３００のブロック図を示している。例えば、好都合な実施例は、変調ドメイン、すなわち時間ドメイン帯域通過信号の生成前のドメインにおけるオーバーラップ加算操作（ＯＬＡ）に基づいている。ビットストリームであってよいが、分析器又は変更器への直接接続であってもよい入力信号が、ＡＭ成分１３０２、ＦＭ成分１３０４、及びキャリア周波数成分１３０６へと分離される。ＡＭシンセサイザが、好ましくはオーバーラップ加算器１３１０を備えており、さらに成分結合コントローラ１３２０を備えており、好ましくはブロック１３１０を備えるだけでなく、ＦＭシンセサイザ内のオーバラップ加算器であるブロック１３３０も備えている。ＦＭシンセサイザは、周波数オーバーラップ加算器１３３０、位相積分器１３３２、位相結合器１３３４（やはり、通常の加算器として実現することができる）、及び位相シフタ１３３６（先のブロックからの信号の位相が実際のブロックの位相と連続的であるよう、ブロックからブロックへと一定の位相を再成するために、成分結合コントローラ１３２０によって制御することができる）をさらに備えている。したがって、要素１３３４、１３３６における位相の付加が、分析器側での図１２のブロック１１２０ｇでの微分の際に失われた定数の再生に対応すると言うことができる。知覚ドメインにおける情報損失の観点から、これが唯一の情報損失であり、すなわち図１２の微分装置１１２０ｇによる定数部分の損失であることに注意すべきである。この損失を、成分結合装置１３２０によって決定される一定の位相を加えることによって再生することができる。

オーバーラップ加算（ＯＬＡ）が、隣接する時間ブロックの間のうなりの影響を回避するために、すぐに合成される信号についてではなく、パラメータドメインにおいて適用される。ＯＬＡは、スペクトルの近接性（ＥＲＢスケールにおいて測定される）によって案内されて、実際のブロックのコンポーネントについて先のブロックのそれらの先行物とのペアごとの縁組みを実行するコンポーネント結合機構によって制御される。さらに、結合が、実際のブロックの絶対の成分の位相を先のブロックのそれに整列させる。

詳しくは、最初にＦＭ信号がキャリア周波数へと加えられ、結果がＯＬＡ段へと渡され、その出力がその後に積分される。正弦波発振器１３４０に、得られた位相信号が供給される。ＡＭ信号は、第２のＯＬＡ段によって処理される。最後に、発振器の出力が、得られたＡＭ信号によって振幅変調１３５０され、出力信号１３６０への成分の付加的寄与が得られる。

変調分析における信号の適切なスペクトルセグメンテーションが、さらなる変調パラメータ処理の説得力のある結果のために最も重要であることを、強調しておかなければならない。したがって、本明細書において、新規かつ適切なセグメンテーションアルゴリズムが提示される。

合わせて、図１３Ｂが、多声のキーモード変化についての上述の考え方１３００の応用を示している。

オーディオ信号の移調を、元の再生速度を維持しつつ実行することは、難しい作業である。これが、ここで提案されるシステムを使用して、すべてのキャリア成分に一定の係数を掛け算することによって単刀直入に実現される。入力信号の時間構造は、ＡＭ信号によってのみ捕捉されるため、キャリアのスペクトル間隔を引き伸ばすことによる影響を受けることがない。

さらに要求の厳しい効果も選択的な処理によって得ることができる。１曲の音楽のキーモードを、例えば短調から長調、あるいはその反対に変更することができる。したがって、特定の所定の周波数間隔に対応するキャリアの部分集合のみが適切な新たな値へと写像される。これを達成するために、キャリア周波数がＭＩＤＩピッチへと量子化１３７０され、次いで適切な新たなＭＩＤＩピッチへ写像１３７２される（処理対象の音楽アイテムのモード及びキーについての推測的な知識を使用して）。必要な処理が、図１３Ｂに示されている。

長音階と自然的短音階との間の変換の場合には、写像されるべきＭＩＤＩピッチを、図１３ｃに示されるように、５度圏表１３９０から導出することができる。長音階から短音階への変換は反時計方向の３段階の跳躍によって得られ、短音階から長音階への変化は時計方向の３段階によって得られる。最後に、合成１３７８に使用される変更されたキャリア周波数を取得１３７６するために、写像されたＭＩＤＩ音調が再び変換１３７４される。専用のＭＩＤＩ音調の開始／終了の検出は、時間的特徴が変更されていないＡＭによってもっぱら表わされ、従って保存されるため、不要である。他の短音階フレーバー（例えば、和声的短音階）への変換及び他の短音階フレーバーからの変換を可能にする任意の写像テーブルを定義することが可能である。

図１４は、オーディオ信号のスペクトルの複数の局部重心周波数を決定するための本発明の実施の形態による方法１４００のフロー図を示している。この方法１４００は、複数の反復開始周波数の各々の反復開始周波数についてオフセット周波数を決定するステップ１４１０、新たな複数の反復開始周波数を決定するステップ１４２０、ならびに新たな複数の反復開始周波数をさらなる反復のために提供するステップ１４３０、又は複数の局部重心周波数をもたらすステップ１４４０を含んでいる。複数の反復開始周波数の各々の反復開始周波数についてのオフセット周波数は、オーディオ信号のスペクトルに基づいて決定１４１０され、ここでスペクトルの個々のサンプル値の数が、反復開始周波数の数よりも多い。新たな複数の反復開始周波数は、複数の反復開始周波数の各々の反復開始周波数を、決定された該当のオフセット周波数だけ増加又は減少させることによって決定１４２０される。所定の終息条件が満たされたならば、複数の局部重心周波数が、保存、送信、又はさらなる処理のために供給１４４０される。このために、複数の局部重心周波数が、新たな複数の反復開始周波数に等しく設定される。

本発明によるいくつかの実施の形態は、推定された局部重心に依存するオーディオ信号スペクトルのための反復セグメンテーションアルゴリズムに関する。

現代の音楽の生成及び音の生成は、巨大なデータベースから取られる録音済みのオーディオ片（いわゆる、サンプル）の操作に依存することが多い。結果として、これらのサンプルを柔軟な方法で新たな音楽の文脈に幅広く適合させる要求が増している。この目的のために、先進のデジタル信号処理が、ピッチの変更、時間的な引き伸ばし、又は和音などのオーディオ効果を実現するために必要とされる。多くの場合、これらの処理方法の重要部は、信号に適応したブロックベースのスペクトルセグメンテーション操作である。したがって、局部重心（ＣＯＧ）に基づくそのようなスペクトルセグメンテーションのための新規なアルゴリズムが提案される。例えば、この方法を、オーディオ信号のマルチバンド変調分解に使用することができる。さらに、このアルゴリズムを、優れたボコーダ関連の用途というさらに一般的な文脈においても使用することができる。

いくつかの実施の形態において、本明細書において提案されるセグメンテーションアルゴリズムは、洗練された推定によって反復的に更新される初期のＣＯＧスペクトル位置候補リストで構成される。洗練のプロセスにおいて、候補の追加、削除、又は融合が取り入れられ、従って本方法は、最終的なＣＯＧ推定の総数を先験的に知る必要がない。反復を、２つのループによって実行することができる。すべての必要な操作は、信号のスペクトル表現に対して実行される。

ブロックベースの（多声の）音楽の操作の重要な工程は、時間において連続するスペクトルの局部重心（ＣＯＧ）の推定である。信号に適応したマルチバンド変調分解の発展によって動機付けられ、任意のオーディオ信号のスペクトルの多数の局部ＣＯＧを推定する詳細な方法及びアルゴリズムが提案されている。さらに、推定されたＣＯＧ位置に整列させて得られる一組の帯域通過フィルタの設計の考え方も説明されている。これらのフィルタを、後に広帯域の信号を信号依存の知覚的に適応させたサブバンド信号へと分割するために使用することができる。

この方法を適用することによって得られる典型的な結果が、提示及び説明されている。専用のマルチバンド変調分解の考え方の文脈において開発され、ここに提案されるアルゴリズムを、潜在的に、オーディオの事後処理、オーディオ効果及び優れたボコーダの用途というさらに一般的な文脈において使用することができる。

ｔ−ｆリアサインメント法と対照的に、ここで説明されるアルゴリズムが、知覚的に適応させたスケールでのスペクトルセグメンテーションを直接的に実行する一方で、ｔ−ｆリアサインメントは、より良好に局部化したスペクトログラムをもたらすだけであり、例えばパーシャルトラッキングなど、後の段階にセグメンテーションの問題を残す。

複数の基本周波数の推定を目的とする方法と対照的に、ここに提示される手法は、信号をそのソースへと分解しようとするのではなく、スペクトルを連帯してさらに操作することができる知覚ユニットへとセグメント分けする。

他の態様の中でもとりわけ、推定されたＣＯＧ位置をもって整列した一組の帯域通過フィルタの導出につながる複数の局部ＣＯＧの推定の新規なアルゴリズムが説明される。ＣＯＧ推定のいくつかの典型的な結果データ及び関連の一組の帯域通過フィルタが、提示及び説明される。

いくつかの態様は、装置の文脈において説明されているが、これらの態様が、対応する方法の説明も代表することは明らかであり、そこでは、ブロック又は装置が、方法の各工程又は方法の各工程の特徴に対応する。同様に、方法の文脈において説明された態様も、対応するブロック又は項目あるいは対応する装置の特徴の説明を代表する。

本発明によるエンコード後のオーディオ信号を、デジタル記憶媒体に保存することができ、あるいは伝送媒体（インターネットなどの無線の伝送媒体又は有線の伝送媒体など）において伝送することができる。

特定の実施の要件に応じて、本発明の実施の形態を、ハードウェア又はソフトウェアにて実現することができる。その実現は、それぞれの方法を実行するようにプログラマブルなコンピュータシステムと協働する（又は協働できる）電子的に読み取ることができる制御信号が保存されてなるデジタル記憶媒体（例えば、フロッピーディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、又はフラッシュメモリ）を使用して実行することができる。したがって、デジタル記憶媒体は、コンピュータにとって読み取り可能であってよい。

本発明によるいくつかの実施の形態は、本明細書に記載の方法のうちの１つを実行するように、プログラマブルなコンピュータシステムと協働することができる電子的に読み取ることができる制御信号を有しているデータ担体を備える。

一般に、本発明の実施の形態を、プログラムコードを有するコンピュータプログラム製品として実現することができ、このコンピュータプログラム製品がコンピュータ上で実行されるときに、プログラムコードが本方法のうちの１つを実行するように動作することができる。プログラムコードを、例えば機械で読み取ることができる担体に保存することができる。

他の実施の形態は、機械で読み取ることができる担体に保存された本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを含む。

したがって、換言すると、本発明の方法の実施の形態は、コンピュータ上で実行されたときに本明細書に記載の方法のうちの１つを実行するためのプログラムコードを有しているコンピュータプログラムである。

したがって、本発明の方法のさらなる実施の形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムが記録されてなるデータ担体（又はデジタル記憶媒体、又はコンピュータによって読み取り可能な媒体）である。

したがって、本発明の方法のさらなる実施の形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを表わしているデータストリーム又は信号の並びである。データストリーム又は信号の並びを、例えば、データ通信接続（例えば、インターネット）を介して伝達されるように構成することができる。

さらなる実施の形態は、本明細書に記載の方法のうちの１つを実行するように構成又は調整された処理手段（例えば、コンピュータ）又はプログラマブルな論理デバイスを含む。

さらなる実施の形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

いくつかの実施の形態においては、プログラマブルな論理デバイス（例えば、フィールド・プログラマブル・ゲート・アレイ）を、本明細書に記載の方法の機能の一部又はすべてを実行するために使用することができる。いくつかの実施の形態においては、フィールド・プログラマブル・ゲート・アレイが、本明細書に記載の方法のうちの１つを実行すべくマイクロプロセッサと協働することができる。一般に、これらの方法は、任意のハードウェア装置によって好ましく実行される。

上述の実施の形態は、あくまでも本発明の原理の例示にすぎない。本明細書に記載の構成及び細部の変更及び変種が、当業者にとって明らかであることを、理解すべきである。したがって、本発明は、後述の特許請求の範囲の技術的範囲によってのみ限定され、本明細書において実施の形態の解説及び説明として提示した具体的詳細には限定されない。

Claims

オーディオ信号のスペクトル（１０２）の複数の局部重心周波数（１３２）を決定するための装置（１００）であって、
オーディオ信号のスペクトル（１０２）に基づいて、該スペクトル（１０２）の個々のサンプル値の数より少ない複数の反復開始周波数の各々の反復開始周波数について、オフセット周波数（１１２）を決定するように構成されたオフセット決定部（１１０）と、
前記複数の反復開始周波数の各々の反復開始周波数を、前記決定された該当のオフセット周波数（１１２）だけ増加又は減少させることによって、新たな複数の反復開始周波数（１２２）を決定するように構成された周波数決定部（１２０）と、
さらなる反復のために前記オフセット決定部（１１０）へ前記新たな複数の反復開始周波数（１２２）を提供し、又は所定の終息条件が満たされた場合に、前記新たな複数の反復開始周波数（１２２）に等しい複数の局部重心周波数（１３２）を提供するように構成された反復コントローラ（１３０）と、を備えている装置。
前記オフセット決定部（１１０）は、前記スペクトル（１０２）の複数の個々のサンプル値と、対応する重みパラメータの値と、対応する距離パラメータの値とに基づいて、反復開始周波数についてオフセット周波数（１１２）を決定するように構成されている請求項１に記載の装置。
前記距離パラメータの値は対数スケールにおいて互いに等間隔であり、前記距離パラメータのすべての値は最大距離値よりも小さい請求項２に記載の装置。
前記重みパラメータの値はすべて等しく、又は前記重みパラメータの値は対応する距離パラメータの絶対値の増加において減少している請求項２又は３に記載の装置。
前記オフセット決定部（１１０）は、対数スケールを含んでいる前記スペクトル（１０２）に基づいて、各々の反復開始周波数についてオフセット周波数（１１２）を決定するように構成されている請求項１から４のいずれか一項に記載の装置。
オーディオ信号の複数の時間ブロックの各々の時間ブロックについて複数の局部重心周波数（１３２）を決定するように構成されている請求項１から５のいずれか一項に記載の装置。
前記複数の反復開始周波数が、前記複数の時間ブロックのうちのある時間ブロックの第１の反復において、対数スケール上で互いに等間隔に初期化される請求項６に記載の装置。
ある時間ブロックの第１の反復のための複数の反復開始周波数が、先の時間ブロックにおいて決定された複数の局部重心周波数（１３２）に基づく請求項６に記載の装置。
前記新たな複数の反復開始周波数（１２２）の２つの隣接する反復開始周波数の間の周波数距離が最大周波数距離よりも大きい場合に、反復開始周波数を前記新たな複数の反復開始周波数（１２２）へ加えるように構成された周波数加算器（２１０）を備えている請求項１から８のいずれか一項に記載の装置。
前記複数の反復開始周波数（１２２）の２つの隣接する反復開始周波数の間の周波数距離が最小周波数距離よりも小さい場合に、該２つの隣接する反復開始周波数を併合するように構成された周波数マージャ（２２０）を備えている請求項１から９のいずれか一項に記載の装置。
前記周波数マージャ（２２０）は、前記２つの隣接する反復開始周波数を、該２つの隣接する反復開始周波数の間に位置する新たな反復開始周波数によって置き換えることで、前記２つの隣接する反復開始周波数を併合するように構成されている請求項１０に記載の装置。
反復開始周波数がオーディオ信号のスペクトル（１０２）の所定の最大周波数よりも高い場合、又は反復開始周波数がオーディオ信号のスペクトル（１０２）の所定の最小周波数よりも低い場合に、該反復開始周波数を前記新たな複数の反復開始周波数（１２２）から取り除くように構成された周波数リムーバ（２３０）を備えている請求項１から１１のいずれか一項に記載の装置。
各々の反復開始周波数について、現在の時間ブロックについて決定された周波数オフセットと先の時間ブロックについて決定された時間オフセットの合計の絶対値が所定のしきい値オフセットよりも小さい場合に、前記所定の終息条件が満たされる請求項６から１２のいずれか一項に記載の装置。
オーディオ信号の時間ブロックについてフーリエ変換スペクトルを生成し、該時間ブロックのフーリエ変換スペクトルに基づいて平滑化スペクトルを生成し、前記フーリエ変換スペクトルを前記平滑化スペクトルで除算することによって前記オフセット決定部（１１０）へ供給されるべきオーディオ信号（３０２）のスペクトル（１０２）を生成し、該スペクトル（１０２）を対数スケールへ写像して、該対数スペクトル（１０２）を前記オフセット決定部（１１０）へ供給するように構成されているか、
又はオーディオ信号の時間ブロックについてフーリエ変換スペクトルを生成し、該フーリエ変換スペクトル（１０２）を対数スケールへ写像し、該時間ブロックの対数フーリエ変換スペクトルに基づいて平滑化スペクトルを生成し、前記対数フーリエ変換スペクトルを前記平滑化スペクトルで除算することによって前記オフセット決定部（１１０）へ供給されるべきオーディオ信号（３０２）のスペクトル（１０２）を生成して、該スペクトル（１０２）を前記オフセット決定部（１１０）へ供給するように構成されたプリプロセッサ（３１０）を備えている請求項１から１３のいずれか一項に記載に装置。
前記プリプロセッサ（３１０）は、前記フーリエ変換スペクトル又は前記対数フーリエ変換スペクトルを前記平滑化スペクトルで除算する前に、前記フーリエ変換スペクトル、前記対数フーリエ変換スペクトル及び／又は前記平滑化スペクトルを時間的に平滑化するように構成されたフィルタを備えている請求項１４に記載の装置。
オーディオ信号（８０２）をフィルタ処理するための信号適応フィルタバンク（８００）であって、
オーディオ信号（８０２）のスペクトルの複数の局部重心周波数を決定するための請求項１から１５のいずれか一項に記載の装置と、
前記オーディオ信号（８０２）をフィルタ処理してフィルタ処理済みオーディオ信号（８１２）を得、該フィルタ処理済みオーディオ信号（８１２）を供給するように構成された複数の帯域通過フィルタ（８１０）と、を備えており、
前記複数の帯域通過フィルタ（８１０）の各々の帯域通過フィルタの中心周波数及び帯域幅が、前記複数の局部重心周波数（１３２）に基づいている信号適応フィルタバンク。
前記複数の帯域通過フィルタ（８１０）の各々の帯域通過フィルタは局部重心周波数に対応しており、帯域通過フィルタの中心周波数及び帯域幅は該当の局部重心周波数及び相関する重心周波数の隣接の局部重心周波数に依存する請求項１６に記載の信号適応フィルタバンク。
前記複数の帯域通過フィルタ（８１０）の帯域幅はスペクトル全体が穴がなくカバーされるように決定される請求項１６又は１７に記載の信号適応フィルタバンク。
請求項１６から１８のいずれか一項に記載の信号適応フィルタバンクを備えている位相ボコーダ。
オーディオ信号（１１０２）をパラメータ化表現（１１３２）へと変換するための装置（１１００）であって、
オーディオ信号（１１０２）のスペクトルの複数の局部重心周波数（１３２）を決定するための請求項１から１５のいずれか一項に記載の装置と、
前記複数の局部重心周波数（１３２）に基づいて、オーディオスペクトルにおいて帯域幅が異なっている複数の帯域通過フィルタ（８１０）について、オーディオ信号の一部分に関するフィルタ形状についての情報を含む情報（１１１２）を推定するための帯域通過推定部（１１１０）と、
前記複数の帯域通過フィルタ（８１０）についての前記情報（１１１２）を使用し、前記オーディオ信号の一部分に関して、前記複数の帯域通過フィルタ（８１０）の各々の帯域の振幅変調（１１２２）、周波数変調（１１２４）又は位相変調（１１２４）を推定するための変調推定部（１１２０）と、
前記オーディオ信号の一部分に関して、前記振幅変調についての情報、前記周波数変調又は位相変調についての情報、又は前記複数の帯域通過フィルタ（８１０）についての情報を送信、保存又は変更するための出力インターフェイス（１１３０）と、を備えている装置。
オーディオ信号のスペクトルの複数の局部重心周波数を決定するための方法（１４００）であって、
オーディオ信号のスペクトルに基づいて、該スペクトルの個々のサンプル値より少ない複数の反復開始周波数の各々の反復開始周波数について、オフセット周波数を決定するステップ（１４１０）と、
前記複数の反復開始周波数の各々の反復開始周波数を、前記決定された該当のオフセット周波数だけ増加又は減少させることによって、新たな複数の反復開始周波数を決定するステップ（１４２０）と、
さらなる反復のために前記新たな複数の反復開始周波数を提供（１４３０）し、又は所定の終息条件が満たされた場合に、前記新たな複数の反復開始周波数に等しい複数の局部重心周波数を提供（１４４０）するステップと、を含んでいる方法。
コンピュータ上又はマイクロコントローラ上で実行されたときに請求項２１に記載の方法を実行するためのプログラムコードを有しているコンピュータプログラム。