JP5467098B2

JP5467098B2 - オーディオ信号をパラメータ化された表現に変換するための装置および方法、パラメータ化された表現を修正するための装置および方法、オーディオ信号のパラメータ化された表現を合成するための装置および方法

Info

Publication number: JP5467098B2
Application number: JP2011500074A
Authority: JP
Inventors: サッシャディスヒ
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2008-03-20
Filing date: 2009-03-10
Publication date: 2014-04-09
Anticipated expiration: 2029-03-10
Also published as: EP3242294B1; US8793123B2; ES2796493T3; EP2104096B1; ES2895268T3; EP3242294C0; EP2255357A2; HK1250089A1; CN102150203B; WO2009115211A2; ES2770597T3; CN102150203A; KR101196943B1; EP3296992A1; AU2009226654A1; MY152397A; MX2010010167A; EP3242294A1; ES2741200T3; WO2009115211A3

Description

本発明は、オーディオ符号化に関し、特に、ボコーダにおいて適用されるパラメータ化されたオーディオ符号化スキームに関する。

ボコーダの１つの種類は、位相ボコーダである。位相ボコーダに関するチュートリアルは、出版物、ＭａｒｋＤｏｌｓｏｎ、「位相ボコーダ（ＴｈｅＰｈａｓｅＶｏｃｏｄｅｒ）：チュートリアル」、ＣｏｍｐｕｔｅｒＭｕｓｉｃＪｏｕｒｎａｌ、１９８６年、第１０巻、第４号、１４−２７頁である。さらなる出版物は、Ｌ．ＬａｒｏｃｈｅおよびＭ．Ｄｏｌｓｏｎ、「ピッチシフト、ハーモナイジングおよび他の外来影響のための新しい位相ボコーダ技術（Ｎｅｗｐｈａｓｅｖｏｃｏｄｅｒｔｅｃｈｎｉｑｕｅｓｆｏｒｐｉｔｃｈ−ｓｈｉｆｔｉｎｇ，ｈａｒｍｏｎｉｚｉｎｇａｎｄｏｔｈｅｒｅｘｏｔｉｃｅｆｆｅｃｔｓ）」、ｐｒｏｃｅｅｄｉｎｇｓ１９９９、ＩＥＥＥｗｏｒｋｓｈｏｐｏｎａｐｐｌｉｃａｔｉｏｎｓｏｆｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇｔｏａｕｄｉｏａｎｄａｃｏｕｓｔｉｃｓ、ニューヨーク、ニューパルツ、１９９９年１０月１７日−２０日、９１−９４頁である。

図５−図６は、位相ボコーダのための異なる実施およびアプリケーションを示す。図５は、位相ボコーダのフィルタバンク実施を示し、そこにおいて、オーディオ信号は入力５００に提供され、さらに、出力５１０で、合成されたオーディオ信号が得られる。特に、図５に示されるフィルタバンクのそれぞれチャネルは、帯域通過フィルタ５０１およびその後に接続された発振器５０２を含む。全てのチャネルからの全ての発振器５０２の出力信号は、加算器として示される結合器５０３を介して結合される。結合器５０３の出力で、出力信号５１０が得られる。

それぞれのフィルタ５０１は、一方では振幅信号Ａ（ｔ）、および、他方では周波数信号ｆ（ｔ）を提供するように実施される。振幅信号および周波数信号は、時間信号である。振幅信号は、時間にわたってフィルタ帯域を有する振幅の進展を示し、さらに、周波数信号は、時間にわたってフィルタ出力信号の周波数の進展を示す。

フィルタ５０１の概略実施が図６に示される。入力信号は、２つの平行パスを経由する。１つのパスにおいて、信号は、５５１で示されるように、１．０の振幅および帯域通過フィルタの中心周波数に等しい周波数を有する正弦波で乗算される。他のパスにおいて、信号は、５５１で示されるように、同じ振幅および周波数の余弦波で乗算される。このように、２つの平行パスは、乗算波形の位相を除いて同一である。次に、それぞれパスにおいて、乗算の結果が低域通過フィルタ５５３に供給される。乗算演算自体は、単純なリングモジュレーションとしても知られている。一定の周波数の正弦（または余弦）波をどんな信号に乗算することも、正弦波の周波数を加算することおよび減算することの両方によって元の信号において全ての周波数成分を同時にシフトする効果を有する。この結果が適切な低域通過フィルタを通過する場合、低周波部分だけが残る。この演算のシーケンスも、ヘテロダイニングとして知られている。このヘテロダイニングは、２つの平行パスのそれぞれにおいて実行されるが、１つのパスが正弦波を用いて周波数変換処理を施すので、他のパスは余弦波を用いるとともに、２つのパスにおいて生じる周波数変換が施された信号は、位相が９０度ずれている。したがって、上側の低域通過フィルタ５５３は、直角信号５５４を提供し、下側のフィルタ５５３は、同相信号を提供する。これらの２つの信号は、Ｉ信号およびＱ信号として知られ、直角表現から振幅／位相表現を生成する座標変換器５５６に送られる。

振幅信号は、５５７で出力され、図５からのＡ（ｔ）に対応する。位相信号は、位相アンラッパー（ｐｈａｓｅｕｎｗｒａｐｐｅｒ）５５８に入力される。エレメント５５８の出力で、線形的に増加する位相値以外の０および３６０度間の位相値が存在しない。この「アンラップされた（ｕｎｗｒａｐｐｅｒｅｄ）」位相値は、位相／周波数変換器５５９に入力され、それは、例えば、現在の瞬間のための周波数値を得るために、現在の瞬間での位相から先行する瞬間での位相を減算する位相差装置として実施され得る。

この周波数値は、出力５６０で時間的に変化する周波数値を得るために、フィルタチャネルｉの一定の周波数値ｆ_iに加算される。

出力５６０での周波数値はＤＣ直流部分ｆ_iおよび変化部分を有し、それは「周波数変動（ｆｒｅｑｕｅｎｃｙｆｌｕｃｔｕａｔｉｏｎ）」としても知られ、それによって、フィルタチャネルにおいて信号の現在の周波数は中心周波数ｆ_iから外れる。

このように、図５および図６に示されるように、位相ボコーダは、スペクトル情報および時間情報の分離を提供する。スペクトル情報は、周波数ｆ_iで特定のフィルタバンクチャネルの位置に含まれ、時間情報は、周波数変動においてさらに時間にわたって振幅にある。

位相ボコーダの別の言い方は、フーリエ変換解釈である。それは、時間において有限持続時間ウィンドウにわたって取られる一連のオーバーラップするフーリエ変換からなる。フーリエ変換解釈において、時間において一点で、異なるフィルタ帯域または周波数ビン（ｆｒｅｑｕｅｎｃｙｂｉｎｓ）の全てのための振幅値および位相値が焦点となる。フィルタバンク解釈において、再合成は、発振器ごとに時間的に変化する振幅および周波数制御を有する加算合成の古典的な例として見られるが、フーリエ実施において、合成は、実数および虚数の形式に逆に変換することによってさらに連続する逆フーリエ変換をオーバーラップ加算することによって達成される。フーリエ解釈において、位相ボコーダにおけるフィルタ帯域の数は、フーリエ変換における周波数点の数である。同様に、個々のフィルタの周波数において等しい間隔は、フーリエ変換の基本的な特徴と認められ得る。一方、フィルタ通過帯域の形状、すなわち、帯域エッジでのカットオフの峻度は、変換を計算する前に適用されるウィンドウ関数の形状によって決定される。特定の特徴形状、例えばハミングウィンドウのために、フィルタカットオフの峻度は、ウィンドウの持続時間に正比例して増加する。

位相ボコーダ解析の２つの異なる解釈が帯域通過フィルタのバンクの実施だけに適用されるということを知ることは役立つ。これらのフィルタの出力が時間的に変化する振幅および周波数として表される演算は、両方の実施のために同じである。位相ボコーダの基本的な狙いは、スペクトル情報から時間的情報を分離することである。演算戦略は、信号を多くのスペクトル帯域に分割しさらにそれぞれの帯域において時間的に変化する信号を特徴付けることである。

２つの基本演算は、特に重要である。これらの演算は、時間スケーリングおよびピッチ転移である。単に、記録されたサウンドをより低いサンプルレートで再生することによって、記録されたサウンドの速度を落とすことは常に可能である。これは、テープ録音をより低い再生速度で再生することに類似している。しかしながら、この種の安易な時間拡大は、時間拡大と同じファクタによって同時にピッチを低下する。そのピッチを変えることなくサウンドの時間的発生を遅くすることは、時間的およびスペクトル情報の明確な分離を必要とする。上述のように、これは、まさに位相ボコーダがしようと試みることである。図５における時間的に変化する振幅信号Ａ（ｔ）および周波数信号ｆ（ｔ）を引き伸ばすことは、個々の発振器の周波数を全く変えないが、それは複合サウンドの時間的発生を遅くする。結果は、元のピッチを有する時間拡大されたサウンドである。時間スケーリングのフーリエ変換観は、サウンドを時間拡大するために、逆ＦＦＴが解析ＦＦＴより大きく離れて間隔を簡単に置かれ得るということである。その結果、スペクトル変化は、このアプリケーションにおいて元のものに比べて合成されたサウンドにおいてゆっくり発生し、さらに、位相は、まさにサウンドが時間拡大される同じファクタによって再スケーリングされる。

他のアプリケーションは、ピッチ転移である。位相ボコーダがそのピッチを変えることのないサウンドの時間的発生を変えるために用いられ得るので、逆のことをすること、すなわち持続時間を変えることなくピッチを変えることは、可能であるべきでもある。これは、所望のピッチ変化ファクタを用いて時間スケーリングし次に結果として生じるサウンドを誤ったサンプルレートで再生することによって行われ、または、所望のファクタでダウンサンプリングしさらに未変化レートで再生することである。例えば、ピッチを１オクターブ上げるために、サウンドは、最初に２倍に時間拡大され、そして、時間拡大は、元のサンプルレートの２倍で再生される。

ボコーダ（または「ＶＯＤＥＲ」）は、人間のスピーチを生成するための手動操作の合成装置としてダッドリー（Ｄｕｄｌｅｙ）によって発明された（非特許文献２）。相当な時間の後に、その作動原理は、いわゆる位相ボコーダに拡張された（非特許文献３）（非特許文献４）。位相ボコーダは、オーバーラップする短時間ＤＦＴスペクトルに、したがって、一定の中心周波数を有する１セットのサブバンドフィルタに作用する。ボコーダは、オーディオファイルを操作するための基本原理として広い受け入れを見つけた。例えば、時間引き伸ばしおよびピッチ転移のようなオーディオ効果が、ボコーダによって容易に達成される（非特許文献５）。その後、この技術に対する多くの修正および改良が発表された。特に、固定周波数を有することの解析フィルタの制約は、例えば、「ストレイト（ＳＴＲＡＩＧＨＴ）」ボコーダにおいてマッピングを導出する基本周波数（「ｆ₀」）を加算することによって減少された（非特許文献６）。しかしながら、一般的な使用事例は、スピーチ符号化／処理のままであった。

オーディ処理地域のために興味がある他のエリアは、変調された成分へのスピーチ信号の分解であった。それぞれの成分は、キャリア、振幅変調（ＡＭ）および何らかの周波数変調（ＦＭ）部分からなる。そのような分解の信号適応方法は、例えば、１セットの信号適応帯域通過フィルタの使用を提案する非特許文献７に発表された。非特許文献８において、「正弦曲線プラスノイズ（ｓｉｎｕｓｏｉｄｓｐｌｕｓｎｏｉｓｅ）」パラメトリックコーダと組み合わせてＡＭ情報を利用するアプローチが提示された。他の分解方法は、いわゆる「フェーム（ＦＡＭＥ）」戦略を用いる非特許文献９に発表された：ここでは、スピーチ信号は、それらのＡＭおよびＦＭ内容をその後に抽出するために帯域通過フィルタを用いて４つの帯域に分解された。また、ごく最近の出版物は、ＡＭ情報（サブバンドエンベロープ）だけからオーディオ信号を再生することを意図し、さらに、ＦＭを主に含む関連した位相情報の回復のための反復方法を提案する（非特許文献１０）。

ここに提示される我々のアプローチは、一般的なオーディオ信号したがって音楽もを含む処理をターゲットにしている。それは、位相ボコーダと類似しているが、それぞれ関連したＡＭおよびＦＭを有する１セットのサブバンドキャリア周波数への信号の依存する知覚的に動機付けられたサブバンド分解を実行するために修正される。我々は、この分解が知覚的に意味がありさらにそのエレメントが直接的な方法で解釈可能であると指摘したく、これにより、分解の成分に関する各種の変調処理が可能になる。

図９ｂ（上部および中央部のプロット）において、両方の信号の時間信号およびヒルベルトエンベロープが示される。第２信号と対照的に、エンベロープのゼロで、第１の信号においてπの位相跳躍に留意されたい。図９ａは、２つの信号のパワースペクトル密度プロットを表示する（上部および中央部のプロット）。

これらの信号がそれらのスペクトル内容においてかなり異なるにもかかわらず、それらの支配的な知覚的なキュー、すなわちＣＯＧによって表される「平均（ｍｅａｎ）」周波数および振幅エンベロープは、類似している。これは、図９ａおよび図９ｂ（下部のプロット）に示されるように、ＣＯＧに集中する帯域制限されたスペクトル領域に関して、それらに知覚的に相互の代替物を作る。同じ原理は、より複合的な信号に対して近似的にまだ当てはまる。

一般的に、キャリア、振幅変調および周波数変調情報を含む１セットの成分のそれぞれへの広帯域信号を分解する変調解析／合成システムは、この作業が一般に不良設定問題であるので、多自由度を有する。複合オーディオスペクトルのサブバンド振幅エンベロープを修正しその後に再合成のためのそれらの未修正の位相でそれらを再結合する方法は、これらの手順がサウンドの最終的なレシーバすなわち人間の耳に留意を払わないので、アーチファクトをもたらす。

さらに、細かい周波数分解能を得るために、非常に長いＦＦＴすなわち非常に長いウィンドウを適用することは、同時に時間分解能を低減する。一方、一時的な信号は、高い周波数分解能を必要としないが、高い時間分解能を必要とし、その理由は、特定の瞬間で、帯域通過信号は、「垂直コヒーレンス（ｖｅｒｔｉｃａｌｃｏｈｅｒｅｎｃｅ）」としても知られている、強い相互相関を呈するからである。この専門用語において、水平軸に時間変数が用いられさらに垂直軸に周波数変数が用いられる、時間スペクトログラムプロットをイメージする。したがって、非常に高い周波数分解能を有する一時的な信号を処理することは、低い時間分解能をもたらし、同時に、垂直コヒーレンスのほぼ完全な消失を意味する。また、サウンドの最終的なレシーバすなわち人間の耳は、そのようなモデルにおいて考慮されない。

出版物（非特許文献２２）は、オーディオ信号から正確な正弦波パラメータを抽出するための解析方法論を開示する。その方法は、修正されたボコーダパラメータ推定を正弦波モデリングにおいて現在用いられるピーク検出アルゴリズムと結合する。このシステムは、フレームごとに入力を処理し、正弦波解析モデルのようなピークを検索するが、ＦＦＴドメインにおいて不鮮明になったピークが処理されるボコーダチャネルを動的に選択する。このように、フレーム内の周波数変化の正弦曲線の周波数軌道は、正確にパラメータ化され得る。スペクトル構文解析ステップにおいて、振幅ＦＦＴにおけるピークおよび谷が確認される。ピークの隔離において、スペクトルは興味があるピークの外側でゼロにセットされ、さらに、ピークの正および負の周波数バージョンの両方が保持される。次に、このスペクトルのヒルベルト変換が計算され、その後、元のＩＦＦＴおよびヒルベルト変換されたスペクトルが、互いに位相が９０度ずれている２つの時間ドメイン信号を得るために計算される。信号は、ボコーダ解析に用いられる解析信号を得るために用いられる。スプリアスピークは、検出され得り、後でノイズとしてモデル化され、または、モデルから除外される。

また、スペクトルにわたって人間の耳の変化する帯域幅のような、すなわち、例えばスペクトルのより低い部分において小さい帯域幅およびスペクトルのより高い部分においてより大きい帯域幅などような、知覚基準は、説明がつかない。さらに、人間の耳の重要な特徴は、図９ａ、図９ｂおよび図９ｃと関連して述べられるように、人間が小さい周波数差を有する２つの安定なトーンを聞かないが、変化する振幅を有する１つのトーンを知覚するように、人間の耳が人間の耳の臨界帯域幅に対応する帯域幅内の正弦波トーンを結合し、そこにおいて、このトーンの周波数は、元のトーンの周波数間に位置付けられる。この効果は、人間の耳の臨界帯域幅が増加するときにますます増加する。

さらに、スペクトルにおいて臨界帯域の位置決めは、一定でないが、信号に依存する。人間の耳がスペクトルに応じて臨界帯域の中心周波数を動的に選択することは、心理音響学によって発見された。例えば、人間の耳が大きいトーンを知覚するときに、それから、臨界帯域は、この大きいトーンの周囲に集中する。後で、大きいトーンが異なる周波数で知覚されるときに、それから、人間の知覚が時間にわたって信号適応できるだけでなく、低い周波数部分において高いスペクトル分解能を有しかつ低いスペクトル分解能すなわちスペクトルのより高い部分において大きい帯域幅を有するフィルタも有するように、人間の耳は、この異なる周波数の周囲に臨界帯域を位置付ける。

Ｍ．ＶｉｎｔｏｎおよびＬ．Ａｔｌａｓ、「スケーラブルおよびプログレッシブオーディオコーデック（ＡＳｃａｌａｂｌｅＡｎｄＰｒｏｇｒｅｓｓｉｖｅＡｕｄｉｏＣｏｄｅｃ）」、Ｐｒｏｃ．ｏｆＩＣＡＳＳＰ２００１、２００１年、３２７７−３２８０頁Ｈ．Ｄｕｄｌｅｙ、「ボコーダ（Ｔｈｅｖｏｃｏｄｅｒ）」、ＢｅｌｌＬａｂｓＲｅｃｏｒｄ、１９３９年、第１７巻、１２２−１２６頁Ｊ．Ｌ．ＦｌａｎａｇａｎおよびＲ．Ｍ．Ｇｏｌｄｅｎ、「位相ボコーダ（ＰｈａｓｅＶｏｃｏｄｅｒ）」、ＢｅｌｌＳｙｓｔｅｍＴｅｃｈｎｉｃａｌＪｏｕｒｎａｌ、１９６６年、第４５巻、１４９３−１５０９頁Ｊ．Ｌ．Ｆｌａｎａｇａｎ、「スピーチスペクトルのパラメトリック符号化（Ｐａｒａｍｅｔｒｉｃｃｏｄｉｎｇｏｆｓｐｅｅｃｈｓｐｅｃｔｒａ）」、Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．、１９８０年、第６８巻（２）、４１２−４１９頁Ｕ．Ｚｏｅｌｚｅｒ、ＤＡＦＸ：「デジタルオーディオ効果（ＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ）」、Ｗｉｌｅｙ＆Ｓｏｎｓ、２００２年、２０１−２９８頁Ｈ．Ｋａｗａｈａｒａ、「重み付けられたスペクトルの適応補間を用いるスピーチ表現および変換：再訪されるボコーダ（Ｓｐｅｅｃｈｒｅｐｒｅｓｅｎｔａｔｉｏｎａｎｄｔｒａｎｓｆｏｒｍａｔｉｏｎｕｓｉｎｇａｄａｐｔｉｖｅｉｎｔｅｒｐｏｌａｔｉｏｎｏｆｗｅｉｇｈｔｅｄｓｐｅｃｔｒｕｍ：ｖｏｃｏｄｅｒｒｅｖｉｓｉｔｅｄ）」、Ｐｒｏｃ．ｏｆＩＣＡＳＳＰ１９９７、１９９７年、第２巻、１３０３−１３０６頁Ａ．ＲａｏおよびＲ．Ｋｕｍａｒｅｓａｎ、「変調された成分へのスピーチの分解に関して（Ｏｎｄｅｃｏｍｐｏｓｉｎｇｓｐｅｅｃｈｉｎｔｏｍｏｄｕｌａｔｅｄｃｏｍｐｏｎｅｎｔｓ）」、ＩＥＥＥＴｒａｎｓ．ｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ、２０００年、第８巻、２４０−２５４頁Ｍ．Ｃｈｒｉｓｔｅｎｓｅｎｅｔａｌ．、「マルチ帯域振幅変調された正弦波オーディオモデリング（Ｍｕｌｔｉｂａｎｄａｍｐｌｉｔｕｄｅｍｏｄｕｌａｔｅｄｓｉｎｕｓｏｉｄａｌａｕｄｉｏｍｏｄｅｌｌｉｎｇ）」、ＩＥＥＥＰｒｏｃ．ｏｆＩＣＡＳＳＰ２００４、２００４年、第４巻、１６９−１７２頁Ｋ．ＮｉｅおよびＦ．Ｚｅｎｇ、「蝸牛移植およびスピーチ符号化のための知覚に基づく処理戦略（Ａｐｅｒｃｅｐｔｉｏｎ−ｂａｓｅｄｐｒｏｃｅｓｓｉｎｇｓｔｒａｔｅｇｙｆｏｒｃｏｃｈｌｅａｒｉｍｐｌａｎｔｓａｎｄｓｐｅｅｃｈｃｏｄｉｎｇ）」、Ｐｒｏｃ．ｏｆｔｈｅ２６ｔｈＩＥＥＥ−ＥＭＢＳ、２００４年、第６巻、４２０５−４２０８頁Ｊ．ＴｈｉｅｍａｎｎおよびＰ．Ｋａｂａｌ、「修正された非コヒーレントヒルベルトエンベロープからのオーディオ信号の再構成（ＲｅｃｏｎｓｔｒｕｃｔｉｎｇＡｕｄｉｏＳｉｇｎａｌｓｆｒｏｍＭｏｄｉｆｉｅｄＮｏｎ−ＣｏｈｅｒｅｎｔＨｉｌｂｅｒｔＥｎｖｅｌｏｐｅｓ、Ｐｒｏｃ．Ｉｎｔｅｒｓｐｅｅｃｈ（ベルギー、アントワープ）、２００７年、５３４−５３７頁Ｚ．Ｍ．Ｓｍｉｔｈ、Ｂ．ＤｅｌｇｕｔｔｅおよびＡ．Ｊ．Ｏｘｅｎｈａｍ、「空想的なサウンドは聴覚における分裂を明らかにする（Ｃｈｉｍａｅｒｉｃｓｏｕｎｄｓｒｅｖｅａｌｄｉｃｈｏｔｏｍｉｅｓｉｎａｕｄｉｔｏｒｙｐｅｒｃｅｐｔｉｏｎ）」、Ｎａｔｕｒｅ、２００２年、第４１６巻、８７−９０頁Ｊ．Ｎ．ＡｎａｎｔｈａｒａｍａｎおよびＡ．Ｋ．Ｋｒｉｓｈｎａｍｕｒｔｈｙ、Ｌ．ＬＦｅｔｈ、「周波数弁別のためのモデルとしての瞬時周波数の強度重み付けられた平均（Ｉｎｔｅｎｓｉｔｙｗｅｉｇｈｔｅｄａｖｅｒａｇｅｏｆｉｎｓｔａｎｔａｎｅｏｕｓｆｒｅｑｕｅｎｃｙａｓａｍｏｄｅｌｆｏｒｆｒｅｑｕｅｎｃｙｄｉｓｃｒｉｍｉｎａｔｉｏｎ）」、Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．、１９９３年、第９４巻（２）、７２３−７２９頁Ｏ．Ｇｈｉｔｚａ、「スピーチ知覚との関連で聴覚臨界帯域エンベロープ検出器の上側カットオフ周波数に関して（Ｏｎｔｈｅｕｐｐｅｒｃｕｔｏｆｆｆｒｅｑｕｅｎｃｙｏｆｔｈｅａｕｄｉｔｏｒｙｃｒｉｔｉｃａｌ−ｂａｎｄｅｎｖｅｌｏｐｅｄｅｔｅｃｔｏｒｓｉｎｔｈｅｃｏｎｔｅｘｔｏｆｓｐｅｅｃｈｐｅｒｃｅｐｔｉｏｎ）」、Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍｅｒ．、２００１年、第１１０巻（３）、１６２８−１６４０頁Ｅ．ＺｗｉｃｋｅｒおよびＨ．Ｆａｓｔｌ、「心理音響学−事実およびモデル（Ｐｓｙｃｈｏａｃｏｕｓｔｉｃｓ − ＦａｃｔｓａｎｄＭｏｄｅｌｓ）」、Ｓｐｒｉｎｇｅｒ、１９９９年Ｅ．Ｔｅｒｈａｒｄｔ、「周期サウンド変動（粗さ）の知覚に関して（Ｏｎｔｈｅｐｅｒｃｅｐｔｉｏｎｏｆｐｅｒｉｏｄｉｃｓｏｕｎｄｆｌｕｃｔｕａｔｉｏｎｓ（ｒｏｕｇｈｎｅｓｓ））」、Ａｃｕｓｔｉｃａ、１９７４年、第３０巻、２０１−２１３頁Ｐ．ＤａｎｉｅｌおよびＲ．Ｗｅｂｅｒ、「心理音響学的な粗さ：最適化モデルの実施（ＰｓｙｃｈｏａｃｏｕｓｔｉｃａｌＲｏｕｇｈｎｅｓｓ：ＩｍｐｌｅｍｅｎｔａｔｉｏｎｏｆａｎＯｐｔｉｍｉｚｅｄＭｏｄｅｌ）」、Ａｃｕｓｔｉｃａ、１９９７年、第８３巻、１１３−１２３頁Ｐ．ＬｏｕｇｈｌｉｎおよびＢ．Ｔａｃｅｒ、「瞬時周波数の解釈に関するコメント（Ｃｏｍｍｅｎｔｓｏｎｔｈｅｉｎｔｅｒｐｒｅｔａｔｉｏｎｏｆｉｎｓｔａｎｔａｎｅｏｕｓｆｒｅｑｕｅｎｃｙ）」、ＩＥＥＥＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＬｅｔｔ．、１９９７年、第４巻、１２３−１２５頁Ｄ．ＷｅｉおよびＡ．Ｂｏｖｉｋ、「マルチ成分ＡＭ−ＦＭ信号の瞬時周波数に関して（ＯｎｔｈｅｉｎｓｔａｎｔａｎｅｏｕｓｆｒｅｑｕｅｎｃｉｅｓｏｆｍｕｌｔｉｃｏｍｐｏｎｅｎｔＡＭ−ＦＭｓｉｇｎａｌｓ）」、ＩＥＥＥＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＬｅｔｔ．、１９９８年、第５巻、８４−８６頁Ｑ．ＬｉおよびＬ．Ａｔｌａｓ、「過度に変調されたＡＭ−ＦＭ分解（Ｏｖｅｒ−ｍｏｄｕｌａｔｅｄＡＭ−ＦＭｄｅｃｏｍｐｏｓｉｔｉｏｎ）」、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＳＰＩＥ、２００４年、第５５５９巻、１７２−１８３頁Ｍ．Ｄｉｅｔｚ、Ｌ．Ｌｉｌｊｅｒｙｄ、Ｋ．ＫｊｏｅｒｌｉｎｇおよびＯ．Ｋｕｎｚ、「スペクトル帯域複製、オーディオ符号化における新規なアプローチ（ＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ，ａｎｏｖｅｌａｐｐｒｏａｃｈｉｎａｕｄｉｏｃｏｄｉｎｇ）」、１１２ｔｈＡＥＳＣｏｎｖｅｎｔｉｏｎ、ミュンヘン、２００２年５月ＩＴＵ−ＲＲｅｃｏｍｍｅｎｄａｔｉｏｎＢＳ．５３４−１、「中間音質の主観評価のための方法（ＭＵＳＨＲＡ）（Ｍｅｔｈｏｄｆｏｒｔｈｅｓｕｂｊｅｃｔｉｖｅａｓｓｅｓｓｍｅｎｔｏｆｉｎｔｅｒｍｅｄｉａｔｅｓｏｕｎｄｑｕａｌｉｔｙ（ＭＵＳＨＲＡ））」、ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＵｎｉｏｎ、スイス、ジュネーブ、２００１年「動的チャネルボコーダモデルを介する正弦波モデリングパラメータ推定（Ｓｉｎｕｓｏｉｄａｌｍｏｄｅｌｉｎｇｐａｒａｍｅｔｅｒｅｓｔｉｍａｔｉｏｎｖｉａａｄｙｎａｍｉｃｃｈａｎｎｅｌｖｏｃｏｄｅｒｍｏｄｅｌ）」、Ａ．Ｓ．Ｍａｓｔｅｒ、２００２ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ

本発明の目的は、オーディオ信号をパラメータ化するためのおよび修正または合成によってパラメータ化された表現を処理するための改良された概念を提供することである。

この目的は、請求項１、１７に記載のオーディオ信号を変換するための装置、請求項７、１８に記載のオーディオ信号を変換する方法、請求項８、１９に記載のパラメータ化された表現を修正するための装置、請求項１０、２０に記載のパラメータ化された表現を修正する方法、請求項１１、２１に記載のパラメータ化された表現を合成するための装置、請求項１５、２２に記載のオーディオ信号のパラメータ化された表現を合成する方法または請求項１６、２３に記載のコンピュータプログラムによって達成される。

本発明は、臨界帯域の可変帯域幅が異なる目的のために有利に利用され得る知見に基づく。１つの目的は、人間の耳の低い分解能を利用することによって効率をよくすることである。これに関連して、本発明は、効率を高めるために必要でないデータを計算しようとしない。

しかしながら、第２の利点は、高い分解能が必要である領域において、必要なデータがパラメータ化されさらに再合成された信号の品質を高めるために計算されるということである。

しかしながら、主要な利点は、例えば粗さ、ピッチなどのような特性を直接的にアドレッシングするために、直接的な、直感的なおよび知覚的に適合された方法で信号演算のための処理を提供するという事実にある。

この目的のために、オーディオ信号の信号適応解析が実行され、さらに、解析結果に基づいて、複数の帯域通過フィルタが信号適応方法で推定される。特に、帯域通過フィルタの帯域幅は、一定でないが、帯域通過フィルタの中心周波数に依存する。したがって、本発明は、帯域通過フィルタ周波数を変えることおよび帯域通過フィルタ帯域幅を変えることを可能にし、それにより、知覚的に正しい帯域通過信号ごとに、計算された帯域通過中心周波数に近似する現在の中心周波数ととともに振幅変調および周波数変調が得られる。好ましくは、帯域において中心周波数の周波数値は、できるだけ人間の耳をモデル化するために、この帯域の範囲内でエネルギーの重心（ＣＯＧ）を表す。そのため、帯域通過フィルタの中心周波数の周波数値は、帯域において特定のトーンにあるように必ずしも選択されないが、帯域通過フィルタの中心周波数は、周波数値に容易に位置することができ、そこにおいて、ピークは、ＦＦＴスペクトルに存在しなかった。

周波数変調情報は、帯域通過信号を決定された中心周波数とダウンミックスするによって得られる。そのため、中心周波数は、ＦＦＴに基づく（スペクトルに基づく）決定による低い時間分解能で決定されたにもかかわらず、瞬時的な時間情報は、周波数変調においてセーブされる。しかしながら、キャリア周波数への長時間変化および振幅変調とともに周波数変調情報への短時間変化の分離は、知覚的に正しい感覚においてボコーダのようなパラメータ化された表現を可能にする。

このように、本発明は、変調情報に適用される変調処理が変調表現自体の制限によって導入される望まれていないアーチファクトを回避する知覚的に平滑な結果を作り出すべきであるという感覚において、抽出された情報が知覚的に意味のあり解釈できることを、条件が満足するという点で有利である。

本発明の他の利点は、すでに単独で抽出されたキャリア情報が、粗いけれどもオーディオ信号の知覚的に楽しく表現的な「スケッチ」再構成を可能にすることであり、さらに、ＡＭおよびＦＭ関連情報のどんな連続するアプリケーションも、この表現を全詳細および透過性（ｔｒａｎｓｐａｒｅｎｃｙ）に改良すべきであり、それは、本発明の概念が、すでに知覚的に楽しい抽出されたキャリア情報だけを用いる「スケッチ」再構成に依存する低いスケーリング層から、増加する精度／時間分解能においてＡＭおよびＦＭ関連情報を有するさらなるより高いスケーリング層を用いる高品質まで、全スケーラビリティを可能にすることを意味する。

本発明の利点は、一方では新しいオーディオ効果の開発のために、他方では将来の効率的なオーディオ圧縮アルゴリズムのための構成要素として、非常に望ましいことである。従来、パラメトリック符号化方法および波形符号化間の差異が常にあるとともに、この差異は大部分が本発明によって埋められ得る。波形符号化方法は、必要なビットレートが利用できるならば透過性まで容易にスケーリングされるが、例えばＣＥＬＰまたはＡＣＥＬＰスキームなどのパラメトリック符号化スキームは、基礎となるソースモデルの制限を受け、さらに、ビットレートがこれらのコーダにおいてますます増加する場合であっても、それらは透過性に接近することができない。しかしながら、パラメトリック方法は、通常、オーディオ効果のアプリケーションのために利用され得る広範囲にわたる操作可能性を提供するが、波形符号化は、元の信号の可能な再生として最も厳しく制限される。

本発明は、両方のアプローチ間にシームレスな遷移を可能にすることによってこのギャップを埋める。

その後、本発明の実施形態は、添付図面との関連で述べられる。

図１ａは、オーディオ信号を変換するのための装置または方法の実施形態の略図である。図１ｂは、他の好適な実施形態の略図である。図２ａは、図１ａの実施形態との関連で処理操作を示すフローチャートである。図２ｂは、好適な実施形態において複数の帯域通過信号を生成するための操作プロセスを示すためのフローチャートである。図２ｃは、ＣＯＧ計算および知覚の制約に基づく信号適応スペクトルセグメンテーションを示す。図２ｄは、図１ｂの実施形態との関連で実行されるプロセスを示すためのフローチャートを示す。図３ａは、パラメータ化された表現を修正するための概念の実施形態の略図を示す。図３ｂは、図３ａに示される概念の好適な実施形態を示す。図３ｃは、粗いおよび細かい情報へのＡＭ情報の分解を説明するための略図を示す。図３ｄは、図３ｃの実施形態に基づいて圧縮シナリオを示す。図４ａは、合成概念の略図を示す。図４ｂは、図４ａの概念の好適な実施形態概念を示す。図４ｃは、処理された時間ドメインオーディオ信号、オーディオ信号のビットストリームおよび変調情報合成のためのオーバーラップ／加算手順のオーバーラップの表現を示す。図４ｄは、パラメータ化された表現を用いてオーディオ信号を合成するための好適な実施形態のフローチャートを示す。図５は、従来技術の解析／合成ボコーダ構造を示す。図６は、図５の従来技術のフィルタ実施を示す。図７ａは、元の音楽アイテムのスペクトログラムを示す。図７ｂは、合成されたキャリアだけのスペクトログラムを示す。図７ｃは、粗いＡＭおよびＦＭによって改良されたキャリアのスペクトログラムを示す。図７ｄは、粗いＡＭおよびＦＭ並びに加算された「グレースノイズ（ｇｒａｃｅｎｏｉｓｅ）」によって改良されたキャリアのスペクトログラムを示す。図７ｅは、合成後のキャリア並びに未処理のＡＭおよびＦＭのスペクトログラムを示す。図８は、主観的なオーディオ品質テストの結果を示す。図９ａは、２つのトーン信号、マルチトーン信号および適切に帯域制限されたマルチトーン信号のパワースペクトル密度を示す。図９ｂは、２つのトーン信号、マルチトーン信号および適切に帯域制限されたマルチトーン信号の波形およびエンベロープを示す。図９ｃは、帯域通過感覚において、２つの知覚的に等価な信号を生成するための方程式を示す。

図１ａは、オーディオ信号１００をパラメータ化された表現１８０に変換するための装置を示す。装置は、解析結果１０４を得るためにオーディオ信号の部分を解析するための信号解析器１０２を含む。解析結果は、信号解析結果に基づいてオーディオ信号部分のための複数の帯域通過フィルタに関する情報を推定するための帯域通過推定器１０６に入力される。そのため、複数の帯域通過フィルタに関する情報１０８は、信号適応方法で計算される。

特に、複数の帯域通過フィルタに関する情報１０８は、フィルタ波形に関する情報を含む。フィルタ波形は、帯域通過フィルタの帯域幅および／またはオーディオ信号の部分のための帯域通過フィルタの中心周波数、および／またはパラメトリック形式またはノンパラメトリック形式において振幅伝達関数のスペクトル形状を含むことができる。重要なことに、帯域通過フィルタの帯域幅は、全周波数範囲にわたって一定でないが、帯域通過フィルタの中心周波数に依存する。好ましくは、依存関係は、帯域幅がより高い中心周波数まで増加しさらにより低い中心周波数まで減少するということである。さらにより好ましくは、帯域通過フィルタの帯域幅は、例えばバークスケールなどの完全に知覚的に正しいスケールにおいて決定され、その結果、帯域通過フィルタの帯域幅は、特定の信号最応的に決定された中心周波数のための人間の耳によって実際に実行される帯域幅に常に依存する。

この目的のために、信号解析器１０２がオーディオ信号の信号部分のスペクトル解析を実行し、特に、パワー集中を有する領域を見つけるためにスペクトルにおいてパワー分布を解析することが好ましく、その理由は、そのような領域は、サウンドを受信しさらに処理するときと同様に人間の耳によって決定されるからである。

本発明の装置は、さらに、オーディオ信号の部分のための複数の帯域通過フィルタの帯域ごとに振幅変調１１２または周波数変調１１４を推定するための変調推定器１１０を含む。この目的ために、変調推定器１１０は、後述されるように、複数の帯域通過フィルタに関する情報１０８を用いる。

図１ａの本発明の装置は、さらに、振幅変調に関する情報１１２、周波数変調の情報１１４または複数の帯域通過フィルタに関する情報１０８を送信し、格納しまたは修正するための出力インターフェース１１６を含み、それは、上述のように、例えばオーディオ信号のこの特定部分／ブロックのための帯域通過フィルタの中心周波数の値などのフィルタ波形情報または他の情報を含んでもよい。出力は、図１ａに示されるように、パラメータ化された表現１８０である。

図１ｂは、変調推定器１１０並びに図１ｂに「キャリア周波数推定」と呼ばれる単一のユニットに結合される図１ａの信号解析器１０２および図１ａの帯域通過推定器１０６の好適な実施形態を示す。変調推定器１１０は、好ましくは帯域通過フィルタ１１０ａを含み、それは、帯域通過信号を提供する。これは、解析信号変換器１１０ｂに入力される。ブロック１１０ｂの出力は、ＡＭ情報およびＦＭ情報を計算するために役立つ。ＡＭ情報を計算するために、解析信号の振幅は、ブロック１１０ｃによって計算される。解析信号ブロック１１０ｂの出力は、乗算器１１０ｄに入力され、それは、他の入力で、発振器１１０ｅからの発振器信号を受信し、それは、帯域通過１１０ａの実際のキャリア周波数ｆ_cによって制御される。次に、乗算器出力の位相は、ブロック１１０ｆにおいて決定される。瞬時位相は、ＦＭ情報を最終的に得るためにブロック１１０ｇで微分される。

このように、キャリア信号およびそれらの関連した変調成分への分解は、図１ｂに示される。

代わりの重心値計算関数が考えられ、それは反復または非反復であり得る。非反復関数は、例えば、帯域の異なる部分のための加算演算の結果を比較して、帯域の異なる部分のための加算エネルギー値を含む。

局所ＣＯＧは、その周波数領域においてスペクトル貢献による人間のリスナーによって知覚される「平均（ｍｅａｎ）」周波数に対応する。この関係を参照ために、非特許文献１２において導出されるように「強度重み付け平均瞬時周波数（ｉｎｔｅｎｓｉｔｙｗｅｉｇｈｔｅｄａｖｅｒａｇｅｉｎｓｔａｎｔａｎｅｏｕｓｆｒｅｑｕｅｎｃｙ）」（ＩＷＡＩＦ）およびＣＯＧの等価に留意されたい。ＣＯＧ推定ウィンドウおよび結果として生じるフィルタの遷移帯域幅は、人間の耳の分解能に関して選択される（「臨界帯域（ｃｒｉｔｉｃａｌｂａｎｄ）」）。ここで、約０．５バークの帯域幅は、各種のテストアイテム（スピーチ、音楽、環境）のための良好な値であると経験的にわかった。さらに、この選択は、文献（非特許文献１３）によって支持される。

その後、解析信号は、帯域通過フィルタリングされた信号のヒルベルト変換を用いて得られ、推定されたＣＯＧ周波数によって周波数変換処理が施される。最終的に、信号は、所望のＡＭおよびＦＭ信号を得るその振幅エンベロープおよびその瞬時周波数（ＩＦ）トラックにさらに分解される。局所ＣＯＧ位置に集中する帯域通過信号の使用が従来の位相ボコーダの「影響の領域（ｒｅｇｉｏｎｓｏｆｉｎｆｌｕｅｎｃｅ）」パラダイムに対応することに留意されたい。両方の方法は、帯域通過信号の時間的エンベロープを保存する：第１のものは本質的に後の１つは局所スペクトル位相コヒーレンスを確実にすることによる。

フィルタの結果として生じるセットは、一方ではスペクトルをシームレスにカバーし、他方では隣接するフィルタがそれほどオーバーラップしないことに留意が取られる必要があり、その理由は、これは（修正された）成分の合成の後に望まれていない打撃効果（ｂｅａｔｉｎｇｅｆｆｅｃｔｓ）をもたらすからである。これは、知覚スケールに従うが同時にシームレスなスペクトル範囲を設ける必要があるフィルタの帯域幅に関していくらかの妥協を含む。そのため、キャリア周波数推定および信号適応フィルタ設計が、分解成分の知覚的な重要性のための臨界部分という結果になり、したがって、再合成された信号の品質に関する強い影響力を有する。そのような補償のセグメンテーションの例が図２ｃに示される。

図２ａは、図２ｂに示されるようにオーディオ信号をパラメータ化された表現に変換するための好適なプロセスを示す。第１のステップ１２０において、オーディオサンプルのブロックが形成される。この目的のために、ウィンドウ関数が好ましくは用いられる。しかしながら、ウィンドウ関数の使用は、どんな場合でも必要でない。次に、ステップ１２１において、高い周波数分解能スペクトル１２１へのスペクトル変換が実行される。それから、ステップ１２２において、重心関数が好ましくは方程式（３）を用いて計算される。この計算は、信号解析器１０２において実行され、後に決定されるゼロ交差は、図１ａの信号解析器１０２から図１ａの帯域通過推定器１０６に提供される解析結果１０４である。

それが方程式（３）から明らかなように、重心関数は、異なる帯域幅に基づいて計算される。特に、方程式（３）において分子ｎｏｍ（ｋ，ｍ）および分母（ｋ，ｍ）のための計算において用いられる帯域幅Ｂ（ｋ）は、周波数に依存する。したがって、周波数インデックスｋは、Ｂの値を決定し、さらにより好ましくは、Ｂの値は、増加する周波数インデックスｋのために増加する。したがって、ｎｏｍ（ｋ，ｍ）のための方程式（３）において明らかになるように、スペクトル領域においてウィンドウ幅Ｂを有する「ウィンドウ（ｗｉｎｄｏｗ）」は、特定の周波数値ｋの周囲に集中し、そこにおいて、ｉは、−Ｂ（ｋ）／２から＋Ｂ（ｋ）／２である。

ｎｏｍタームにおいてウィンドウｗ（ｉ）に乗算されるこのインデックスｉは、実際の周波数値ｋの左のスペクトルパワー値Ｘ²（そこにおいてＸはスペクトル振幅である）が負符号を有する加算演算に入るとともに、周波数インデックスｋの右の２乗スペクトル値が正符号を有する加算演算に入ることを確認する。必然的に、この関数は異なることがあり、その結果、例えば、上半分が負符号とともに入り、さらに、下半分が正符号とともに入る。関数Ｂ（ｋ）は、重心の知覚的に正しい計算が起こることを確認し、さらに、この関数は、好ましくは、例えば図２ｃに示されるように決定され、そこにおいて、知覚的に正しいスペクトルセグメンテーションが示される。

代わりの実施において、スペクトル値Ｘ（ｋ）は、重心関数を計算する前に、対数ドメインに変換される。次に、方程式（３）において分子および分母のためのタームにおいて値Ｂは、（対数スケール）周波数から独立している。ここで、知覚的に正しい依存関係は、スペクトル値Ｘにすでに含まれ、それは、この実施形態において、対数スケールに存在する。必然的に、対数スケールにおける等しい帯域幅は、非対数スケールにおける中心周波数に関して増加する帯域幅に対応する。

ゼロ交差および特に正から負への遷移がステップ１２２において計算されるとすぐに、ステップ１２４において後の選択手順が実行される。ここで、ゼロ交差での周波数値は、知覚基準に基づいて修正される。この修正は、いくつかの制約に従い、それらは、全スペクトルが好ましくはカバーされることになり、さらに、スペクトル全体が好ましくは可能にされない。さらに、帯域通過フィルタの中心周波数は、できるだけ重心関数ゼロ交差に位置付けられ、さらに、好ましくは、スペクトルのより低い部分において中心周波数の位置決めは、スペクトルのより高い部分における位置決めに関して支持される。これは、信号適応スペクトルセグメンテーションがより密接にスペクトルのより低い部分においてステップ１２２の重心結果に従おうとすることを意味し、さらに、この決定に基づいて、スペクトルのより高い部分において重心が帯域通過中心周波数と一致しないときに、このオフセットは、受け入れられる。

帯域通過フィルタの中心周波数値および対応する幅が決定されるとすぐに、オーディオ信号ブロックは、ステップ１２４によって得られるように修正された周波数値において変化する帯域幅を有する帯域通過フィルタを有するフィルタバンクでフィルタリング１２６される。そのため、図２ｃにおける例に関して、信号適応スペクトルセグメンテーションに示されるようにフィルタバンクは、フィルタ係数を計算しさらにこれらのフィルタ係数をセットすることによって適用され、さらに、フィルタバンクは、これらのスペクトルセグメンテーションを計算するために用いられたオーディオ信号の部分をフィルタリングするために後に用いられる。

次に、１つのブロックのための計算が完了され、さらに、ステップ１３０において、ストライドまたはアドバンス値が、図２ａにおいて１２０で示されるようにオーディオサンプルの次のブロックを得るためにオーバーラップ方法で時間ドメインにおいて適用される。

この手順は、図４ｃに示される。時間ドメインオーディオ信号は上部に示され、そこにおいて、それぞれの部分が好ましくは同数のオーディオサンプルを含む例示的に７つの部分が示される。それぞれのブロックは、Ｎ個のサンプルからなる。示されるように、第１のブロック１は、最初の４つの隣接する部分１、２、３、および４からなる。次のブロック２は、信号部分２、３、４、５からなり、第３のブロックすなわちブロック３は、信号部分３、４、５、６を含み、さらに、第４のブロックすなわちブロック４は、後の信号部分４、５、６および７を含む。ビットストリームにおいて、図２ａからステップ１２８は、ブロックごとにすなわちブロック１、ブロック２、ブロック３、ブロック４またはブロックの選択された部分、好ましくはＮ／２個の中央部分ごとにパラメータ化された表現を生成し、その理由は、外側部分がフィルタリンギングまたはそれに応じて設計される変換ウィンドウのロールオフ特徴を含んでもよいからである。好ましくは、ブロックごとにパラメータ化された表現は、シーケンシャルな方法でビットストリームにおいて送信される。図４ｃの上部のプロットに示される例において、４重のオーバーラップ演算が形成される。代わりに、ステップ１３０において適用されるストライドまたはアドバンス値が１つの部分の代わりに図４ｃにおいて２つの部分を有するように、２重のオーバーラップが同様に実行され得る。基本的に、オーバーラップ演算は、全く必要でないが、それは、アーチファクトをブロックすることを回避するためにさらにブロックからブロックにクロスフェード演算を有利に可能にするために好ましく、それは、本発明の好適な実施形態に従って、時間ドメインにおいて実行されないが、図４ｃに示されるようにさらに図４ａおよび図４ｂに関して後述するように、ＡＭ／ＦＭドメインにおいて実行される。

図２ｂは、方程式（３）に関して図２ａにおいて特定の手順の一般的な実施を示す。図２ｂにおいてこの手順は、信号解析器および帯域通過推定器において部分的に実行される。ステップ１３２において、オーディオ信号の部分は、パワーのスペクトル分布に関して解析される。ステップ１３２は、時間／周波数変換を含んでもよい。ステップ１３４において、スペクトルにおいて局所パワー集中のための推定された周波数値が、異なる帯域通過フィルタの知覚的に動機付けられた帯域幅を有しさらにスペクトルにおいてどんなホールも有しない、例えば図２ｃにおけるスペクトルセグメンテーションなどの知覚的に正しいスペクトルセグメンテーションを得るために、適合される。ステップ１３５において、オーディオ信号の部分は、フィルタバンクまたは変換方法を用いて決定されたスペクトルセグメンテーションでフィルタリングされ、そこにおいて、フィルタバンク実施のための例は、帯域通過１１０ａを有する１つのチャネルおよび図１ｂにおいて他の成分１０１のための対応する帯域通過フィルタに対して図１ｂにおいて与えられる。ステップ１３５の結果は、より高い周波数に増加する帯域幅を有する帯域のための複数の帯域通過信号である。次に、ステップ１３６において、それぞれの帯域通過信号は、好適な実施形態においてエレメント１１０ａ〜１１０ｇを用いて別々に処理される。しかしながら、代わりに、ＡＭ変調およびＦＭ変調を抽出するための他の全ての方法が、それぞれの帯域通過信号をパラメータ化するために実行され得る。

その後、図２ｄが述べられ、そこにおいて、それぞれの帯域通過信号を別々に処理するためのステップの好適なシーケンスが示される。ステップ１３８において、帯域通過フィルタは、計算された中心周波数値を用いて、さらに、図２ｂのステップ１３４において得られるようにスペクトルセグメンテーションによって決定されるように帯域幅を用いてセットされる。このステップは、帯域通過フィルタ情報を用い、さらに、帯域通過フィルタ情報を図１ａにおいて出力インターフェース１１６に出力するために用いられることもできる。ステップ１３９において、オーディオ信号は、ステップ１３８においてセットされた帯域通過フィルタを用いてフィルタリングされる。ステップ１４０において、帯域通過信号の解析信号が形成される。ここで、真のヒルベルト変換または近似ヒルベルト変換アルゴリズムが適用され得る。これは、図１ｂにおいてアイテム１１０ｂで示される。次に、ステップ１４１において、図１ｂのボックス１１０ｃの実施が実行され、すなわち、解析信号の振幅がＡＭ情報を提供するために決定される。基本的に、ＡＭ情報は、ブロック１１０ａの出力で帯域通過信号の分解能と同じ分解能において得られる。この多量のＡＭ情報を圧縮するために、どんなデシメーションまたはパラメータ化技術も実行され得るが、それは後述される。

位相または周波数情報を得るために、ステップ１４２は、帯域通過フィルタの中心周波数を有する発振器信号と解析信号との乗算を含む。乗算の場合において、後の低い通過フィルタリング演算が、ステップ１４２において乗算によって生成される高い周波数部分を阻止するために好ましい。発振器信号が複合的であるときに、次に、フィルタリングは必要でない。ステップ１４２は、ダウンミックスされた解析信号をもたらし、それは、図１ｂにおいてボックス１１０ｆによって示されるように瞬時位相情報を抽出するためにステップ１４３において処理される。この位相情報は、ＡＭ情報に加えてパラメトリック情報として出力され得るが、図１ｂにおいて１１４で示されるように、真の周波数変調情報を得るために、ボックス１４４においてこの位相情報を微分することが好ましい。また、位相情報は、周波数／位相関連変動を表すために用いられ得る。パラメータ化情報として位相情報が十分であるときに、次に、ブロック１１０ｇにおいて微分は必要でない。

図３ａは、オーディ信号のパラメータ化された表現を修正するための装置を示し、それは、時間部分に対して、例えば図４ｃの中央部のプロットにおけるブロック１などの複数の帯域通過フィルタからの帯域通過フィルタ情報を有する。帯域通過フィルタ情報は、帯域通過フィルタに依存する帯域幅および帯域通過フィルタの周波数を有しさらにそれぞれの時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報を有する帯域通過フィルタの時間／変化する帯域通過フィルタ中心周波数（キャリア周波数）を示す。修正するための装置は、情報修正器１６０を含み、それは、時間変化する中心周波数を修正しまたは振幅変調情報、周波数変調情報若しくは位相変調情報を修正するように作動し、さらに、オーディオ信号部分、修正されたＡＭ情報、修正されたＰＭ情報または修正されたＦＭ情報のためのキャリア周波数を有する修正されたパラメータ化された表現を出力する。

図３ｂは、図３ａにおいて情報修正器１６０の好適な実施形態を示す。好ましくは、ＡＭ情報は、粗い／細かいスケール構造にＡＭ情報を分解するための分解ステージに導入される。この分解は、好ましくは、例えば図３ｃに示されるような分解などの非線形分解である。ＡＭ情報のための送信データを圧縮するために、例えば、粗い構造だけが合成器に送信される。この合成器の部分は、加算器１６０ｅおよび帯域通過ノイズ源１６０ｆであり得る。しかしながら、これらのエレメントは、情報修正器の部分でもあり得る。しかしながら、好適な実施形態において、伝送路は、ブロック１６０ａおよび１６０ｅ間にあり、この伝送チャネルにおいて、粗い構造と例えば細かい構造を表しまたはそれから導出されるエネルギー値とのパラメータ化された表現がライン１６１を介して解析器から合成器に送信される。次に、合成器側において、ノイズ源１６０ｆは、特定の帯域通過信号のための帯域通過ノイズ信号を提供するためにスケーリングされ、さらに、ノイズ信号は、例えばライン１６１において例えばエネルギー値などのパラメータを介して示されるようにエネルギーを有する。それから、デコーダ／合成器側において、ノイズは、粗い構造によって時間的に整形され、そのターゲットエネルギーによって重み付けられ、さらに、細かい構造の人工的な合成による送信のための低ビットレートを必要とするだけの信号を合成するために、送信された粗い構造に加算される。一般的に、ノイズ加算器１６０ｆは、特定のグローバルなエネルギー値および所定の時間的エネルギー分布を有する（疑似ランダム）ノイズ信号を加算するためのものである。それは、送信されたサイド情報を介して制御されまたは例えば帯域ごとに決定される固定値などの経験的図表に基づいて固定的にセットされる。代わりに、それは、修正器または合成器において局所解析によって制御され、そこにおいて、利用できる信号は解析され、さらに、ノイズ加算器制御値が導出される。これらの制御値は、好ましくはエネルギー関連値である。

情報修正器１６０は、さらに、制約多項式フィット関数１６０ｂおよび／またはキャリア周波数のための転移器１６０ｄを含んでもよく、それは、ＦＭ情報を乗算器１６０ｃを介して転移する。代わりに、ＦＭ情報またはＡＭ情報を修正せずに、キャリア周波数だけを修正することに役立ち、または、ＡＭ情報またはキャリア周波数情報を修正しないが、ＦＭ情報だけを修正することに役立つはずである。

目前に変調成分を有すると、新しいおよび興味深い処理方法が可能になる。ここで提示される変調分解の大きな利点は、提案された解析／合成方法が、処理の正確な性質から大きく独立しているどんな変調処理の結果も知覚的に平滑である（クリック、一時的な反復などがない）ことを暗に保証するということである。変調処理のいくつかの例は、図３ｂに包含される。

確かに、顕著なアプリケーションは、元の再生速度を維持するととともにオーディオ信号を「転移すること（ｔｒｎｓｐｏｒｔｉｎｇ）」である：これは、一定のファクタと全てのキャリア成分との乗算によって容易に達成される。入力信号の時間的構造が単にＡＭ信号によって捕えられるだけであるので、それはキャリアのスペクトル間隔の引き伸ばしに影響を受けない。

特定の所定の周波数間隔に対応するキャリアのサブセットが適切な新しい値にマップされる場合、楽曲のキーモードは例えばマイナーからメジャーにまたはその逆に変えられる得る。これを達成するために、キャリア周波数は、（処理される音楽アイテムのモードおよびキーについての演繹的知識を用いて）適当な新しいＭＩＤＩ番号に後にマップされるＭＩＤＩ番号に量子化される。最後に、マップされたＭＩＤＩ番号は、合成のために用いられる修正されたキャリア周波数を得るために、逆に変換される。また、専用のＭＩＤＩノートオンセット／オフセット検出は、時間的特徴が未修正のＡＭによって主に表されて保存されるので必要でない。

より高度な処理は、信号の変調特性の修正をターゲットにしている：例えば、変調フィルタリングによって信号の「粗さ（ｒｏｕｇｈｎｅｓｓ）」（非特許文献１４）（非特許文献１５）を修正することは、望ましくあり得る。ＡＭ信号において、音楽イベントなどのオンおよびオフセットに関連する粗い構造およびより速い変調周波数（〜３０−３００Ｈｚ）に関連する細かい構造がある。この細かい構造は（２ｋＨｚまでのキャリアのための）オーディオ信号の粗さ特性を表しているので（非特許文献１５）（非特許文献１６）、聴覚粗さは細かい構造を除去しさらに粗い構造を維持することによって修正され得る。

エンベロープを粗いおよび細かい構造に分解するために、非線形方法が利用され得る。例えば、粗いＡＭを捕らえるために、（低次の）多項式の区分的フィットを適用できる。細かい構造（残余）は、元のおよび粗いエンベロープの差として得られる。細かいＡＭ構造の消失は、必要に応じて、残余のエネルギーによってスケーリングされ粗いＡＭエンベロープによって時間的に整形される帯域制限された「グレース」ノイズを加算することによって、知覚的に補償され得る。

どんな修正もＡＭ信号に適用される場合、ゆっくり変化しているＦＭ信号だけを制限することが望ましいことに留意されたく、その理由は、未処理のＦＭが１つの帯域通過領域内で打撃効果よる突然のピークを含んでもよいからである（非特許文献１７）（非特許文献１８）。これらのピークは、ＡＭ信号のゼロ（非特許文献１９）の近くに現れて、知覚的に無視できる。ＩＦにおいてそのようなピークの例は、ヒルベルトエンベロープのゼロ位置でπの位相跳躍の形式で図９において方程式（１）に従って信号に見られる。望まれていないピークは、例えば、元のＡＭ信号が所望の適合度のための重み付けとして作用するＦＭに関する制約された多項式フィッティングによって除去され得る。そのため、ＦＭにおいてスパイクは、望まれていないバイアスを導入することなしに除去され得る。

他のアプリケーションは、信号からＦＭを除去することである。ここで、簡単にＦＭをゼロにセットすることができる。キャリア信号が局所ＣＯＧに集中するので、それらは知覚的に正しい局所平均周波数を表す。

図３ｃは、帯域通過信号から粗い構造を抽出するための例を示す。図３ｃは、上部のプロットにおいて特定の楽器によって作り出されるトーンのための典型的な粗い構造を示す。最初に楽器は静かであり、次にアタック瞬間に振幅の急激な上昇が見られ、それからそれはいわゆるサステイン期間において一定に保たれる。次に、トーンはリリースされる。これは、サステイン期間の終わりに始まる一種の指数関数的減衰によって特徴付けられる。これは、リリース期間すなわちリリース瞬間の始まりである。サステイン期間は、楽器において必ずしもそこにあるとは限らない。例えば、ギターが考慮されるときに、トーンがストリングを励起することによって励起瞬間のアタックの後に生成されることが明らかになり、かなり長いリリース部分が直ぐに続き、それは、その後にストリングがリリース時間の終わりである定常状態になるまでストリング振動が弱められるという事実によって特徴付けられる。典型的な楽器に対して、そのようなトーンのための典型的な形式または粗い構造が存在する。帯域通過信号からそのような粗い構造を抽出するために、帯域通過信号に多項式フィットを実行することが好ましく、そこにおいて、多項式フィットは、図３ｃの上部のプロットにおける形式と類似した一般的な形式を有し、それは、多項式係数を決定することによってマッチされ得る。最もマッチしている多項式フィットが得られるとすぐに、信号は、細かい構造が得られるように帯域通過信号の粗い構造が実際の帯域通過信号から抽出されるという、多項式供給によって決定され、多項式フィットが十分に良好なときに、多項式係数である粗い構造情報に加えて解析器側から合成器側に送信され得る特定のエネルギーを有するノイズの多い信号である。その粗い構造およびその細かい構造への帯域通過信号の分解は、非線形分解のための例である。他の非線形合成は、帯域通過信号から他の特徴を抽出するために、さらに、低ビットレートアプリケーションにおいてＡＭ情報を送信するためのデータ転送速度を大きく低減するために、同様に実行され得る。

図３ｄは、そのような手順におけるステップを示す。ステップ１６５において、粗い構造は、例えば多項式フィッティングによって、さらに、その後に解析器から合成器に送信される振幅変調情報である多項式パラメータを計算することによって抽出される。この送信をより効率的に実行するために、送信のためのパラメータのさらなる量子化および符号化演算１６６が実行される。量子化は、均一またま不均一であり得る、さらに、符号化演算は、例えばハフマン符号化などのように、例えばビデオ圧縮で知られる算術符号化に基づくコンテクストなどのテーブルまたは算術符号化の有無にかかわらず、周知のエントロピー符号化演算のいずれかであり得る。

次に、非常に効率的な方法で伝送路にわたって送信され得る低ビットレートのＡＭ情報またはＦＭ／ＰＭ情報が形成される。合成器側において、ステップ１６８は、送信されたパラメータを復号化しさらに非量子化するために実行される。それから、ステップ１６９において、粗い構造は、例えば、送信された多項式係数を有する多項式によって定義される全ての値を実際に計算することによって再構成される。さらに、好ましくは送信されたエネルギーパラメータに基づいて、さらに、粗いＡＭ情報によってまたは、代わりに、極端なビットレートアプリケーションにおいて、経験的に選択されたエネルギーを有する（グレース）ノイズを加算することによって時間的に整形される帯域ごとにグレースノイズを加算することは、役立つはずである。

代わりに、信号修正は、上述のように、ＭＩＤＩ番号にまたは一般的には音階に中心周波数のマッピングを含んでもよく、次に、例えばメジャースケールをマイナースケールにまたはその逆に楽曲を変換するためにスケールを変換する。この場合、最も重要なことだが、キャリア周波数は修正される。好ましくは、ＡＭ情報またはＰＭ／ＦＭ情報はこの場合に修正されない。

代わりに、他の種類のキャリア周波数修正は、例えば、１より大きい整数であってもよくまたは１および０間の小数であってもよい同じ転移ファクタを用いて全てのキャリア周波数を転移することを実行され得る。後者の場合、トーンのピッチは修正の後により小さく、前者の場合、トーンのピッチは修正の前より修正の後により大きい。

図４ａは、オーディオ信号のパラメータ化された表現を合成するための装置を示し、パラメータ化された表現は、例えば帯域通過フィルタのためのキャリア周波数または帯域通過中心周波数などの帯域通過情報を含む。パラメータ化された表現のさらなる成分は、振幅変調に関する情報、周波数変調に関する情報または帯域通過信号の位相変調に関する情報である。

信号を合成するために、合成するための装置は、全ての帯域通過フィルタのための情報を含む未修正のまたは修正されたパラメータ化された表現を受信する入力インターフェース２００を含む。例示的に、図４ａは、単一の帯域通過フィルタ信号のための合成モジュールを示す。ＡＭ情報を合成するために、ＡＭ変調に基づいてＡＭ成分を合成するためのＡＭ合成器２０１が設けられる。さらに、キャリア周波数に関する情報および送信されたＰＭまたはＦＭ変調情報に基づいて瞬時周波数または位相情報を合成するためのＦＭ／ＰＭ合成器も、設けられる。両方のエレメント２０１、２０２は、フィルタバンクチャネルごとにＡＭ／ＦＭ／ＰＭ変調された発振信号２０４である、出力信号を生成するための発振器モジュール２０３に接続される。さらに、結合器２０５が、帯域通過フィルタチャネルからの信号、例えば他の帯域通過フィルタチャネルのための発振器からの信号２０４などを結合するために、および、帯域通過フィルタチャネルからの信号に基づくオーディオ出力信号を生成するために設けられる。まさに好適な実施形態においてサンプル的な方法で帯域通過信号を加算するだけで、合成されたオーディオ信号２０６を生成する。しかしながら、他の結合方法が同様に用いられる得る。

図４ｂは、図４ａの合成器の好適な実施形態を示す。有利な実施は、変調ドメインにおいて、すなわち時間ドメイン帯域通過信号を生成する前にドメインにおいて、オーバーラップ加算演算（ＯＬＡ）に基づく。図４ｃの中央部のプロットに示されるように、ビットストリームであってもよいが同様に解析器または修正器に直接接続されるものであってもよい入力信号は、ＡＭ成分２０７ａ、ＦＭ成分２０７ｂおよびキャリア周波数成分２０７ｃに分離される。ＡＭ合成器２０１は、好ましくは、オーバーラップ加算器２０１ａを含み、さらに、成分結合制御器２０１ｂを含み、それは、好ましくは、ブロック２０１ａだけでなく、ＦＭ合成器２０２内のオーバーラップ加算器であるブロック２０２ａも含む。ＦＭ合成器２０２は、さらに、周波数オーバーラップ加算器２０２ａ、位相積分器２０２ｂ、標準的な加算器として実施され得る位相結合器２０２ｃ、および、先行するブロックからの信号の位相が実際のブロックの位相と連続的であるようにブロックからブロックに一定の位相を再生するために成分結合制御器２０１ｂによって制御可能である移相器２０２ｄを含む。したがって、エレメント２０２ｄ、２０２ｃにおいて位相加算は、解析器側において図１ｂのブロック１１０ｇにおける微分の間に消失した定数の再生に対応すると言うことができる。知覚的なドメインの情報消失の観点から、これは、唯一の情報消失、すなわち図１ｂにおいて微分装置１１０ｇによる一定の部分の消失である点に留意する必要がある。この消失は、図４ｂにおいて成分結合装置２０１ｂにより決定される一定の位相を加算することによって再現される。

信号は、全ての成分の加算基準で合成される。１つの成分のために、処理チェーンが、図４ｂに示される。解析のように、合成は、ブロックごとに実行される。それぞれの解析ブロックの中央に置かれたＮ／２部分だけが合成のために用いられるので、１／２のオーバーラップファクタがもたらされる。成分結合メカニズムは、ＡＭおよびＦＭを混合し、さらに、以前のブロックにおいてそれらの先行するもののスペクトル近接における成分のための絶対位相を整列するために利用される。また、スペクトル近接は、ピッチ知覚に関して人間の耳の感度を反映するためにバークスケール基準で計算される。

詳細については、まず、ＦＭ信号がキャリア周波数に加算され、さらに、その結果がオーバーラップ加算（ＯＬＡ）ステージに伝えられる。次に、合成される成分の位相を得るために積分される。正弦波発振器は、結果として生じる位相信号によって供給される。ＡＭ信号は、他のＯＬＡステージによって同様に処理される。最後に、発振器の出力は、出力信号に成分の加算貢献を得るために、結果として生じるＡＭ信号によってその振幅において変調される。

図４ｃの下部のブロックは、５０％オーバーラップの場合においてオーバーラップ加算演算の好適な実施を示す。この実施において、現在のブロックからの実際に利用された情報の第１の部分は、以前のブロックの第２の部分である対応する部分に加算される。さらに、図４ｃの下部のブロックは、フェードアウトするブロックの部分が１から０に減少する重み付けを受信し同時にフェードインするブロックが０から１に増加する重み付けを受信する、クロスフェージング演算を示す。これらの重み付けは、解析器側ですでに適用され得り、さらに、それから、デコーダ側で加算器演算だけが必要である。しかしながら、好ましくは、これらの重み付けは、エンコーダ側で適用されないが、所定の方法でデコーダ側に適用される。上述のように、それぞれの解析ブロックの中央に置かれたＮ／２部分だけは、図４ｃに示されるように１／２のオーバーラップファクタが生じるように、合成のために用いられる。しかしながら、図４ｃの上部に示されるように４重のオーバーラップが示されるように、オーバーラップ／加算のためのそれぞれの解析ブロックの完全な部分を用いることもできる。中央部分が用いられる記載されている実施形態は、外側の４分の１の部分が解析ウィンドウのロールオフを含みさらに中央の４分の１の部分だけがフラットトップ部分を有するので、好ましい。

他の全てのオーバーラップ率が、場合によっては実施され得る。

以下に、提案された変調処理スキームの特性を示すいくつかのスペクトログラムが提示される。図７ａは、オーケストラクラシック音楽アイテム（ビバルディ）の抜粋の元のログスペクトログラムを示す。

図７ｂから図７ｅは、だんだんと回復する変調詳細の順に、変調処理のさまざまな方法の後の対応するスペクトログラムを示す。図７ｂは、単にキャリアからの信号再構成を示す。白い領域は、高いスペクトルエネルギーに対応し、図７ａの元の信号のスペクトログラムにおける局所エネルギー集中と一致する。図７ｃは、同じキャリアを示すが、非線形に平滑化されたＡＭおよびＦＭによって改良される。詳細の加算は、明らかに見える。さらに、図７ｄにおいて、ＡＭの消失の詳細は、多くの詳細を信号に再び加算する、エンベロープ整形された「グレース（ｇｒａｃｅ）」ノイズの加算によって補償される。最後に、未処理の変調成分からの合成された信号のスペクトログラムが、図７ｅに示される。図７ｅにおけるスペクトログラムを図７ａにおける元の信号のスペクトログラムと比較すると、全詳細の非常に良好な再生を示す。

提案された方法の性能を評価するために、主観的なリスニングテストが行われた。ＭＵＳＨＲＡ（非特許文献２１）タイプのリスニングテストが、ＳＴＡＸの高品質静電型ヘッドホンを用いて行われた。全６人のリスナーがテストに参加した。全ての主体は、経験豊かなリスナーと考慮され得る。

図８にリストされるアイテムからなるテストセットおよびテストに基づく構成が、図９に包含される。

図８におけるチャートプロットが結果を示す。アイテムごとに９５％の信頼区間を有する平均結果が示される。プロットは、全てのリスナーのためのテスト結果の統計解析の後の結果を示す。Ｘ軸は処理タイプを表し、さらに、Ｙ軸は０（悪い）から１００（透過的）にわたっている１００ポイントのＭＵＳＨＲＡスケールに従ってスコアを表す。

結果から、完全なＡＭおよび完全なまたは粗いＦＭの詳細を有する２つのバージョンが平均において約８０ポイントでベストをスコアするが、元のものからまだ識別可能であることがわかる。両方のバージョンの信頼区間が主にオーバーラップするので、細かいＦＭ詳細の消失が実際に知覚的にごくわずかであると結論することができる。粗いＡＭおよびＦＭ並びに加算された「グレース（ｇｒａｃｅ）」ノイズを有するバージョンは、平均でまだ６０ポイントであるがかなり低くスコアする：これは、細かいＡＭ詳細情報の脱落の増加とともに、提案された方法のグレースフルな劣化特性を反映する。

大部分の劣化は、グロッケンシュピールおよびハープシコードのような強い一時的な内容を有するアイテムのために知覚される。これは、スペクトル全体の異なる成分間の元の位相関係の消失に起因する。しかしながら、この問題は、全ての成分のために共同でＡＭエンベロープの時間的な重心でキャリア位相を調整することによって、提案された合成方法の将来のバージョンにおいて解決され得る。

テストセットにおいてクラシック音楽アイテムのために、観察された劣化は、統計学的に意味がない。

提示される解析／合成方法は、異なるアプリケーションシナリオにおいて有用であり得る：オーディオ符号化のために、それは、改善された知覚的に正しい細かい粒子のスケーラブルオーディオコーダの構成要素として働き、その基本原理が非特許文献１に発表されている。ビットレートの減少とともに、より少ない詳細は、例えば完全なＡＭエンベロープを粗いものおよび加算された「グレース（ｇｒａｃｅ）」ノイズと置き換えることによってレシーバ側に伝えられる可能性がある。

オーディオ帯域幅拡張のさらに新しい概念（非特許文献２０）が考えられ、それは、ハイバンドを形成するためにシフトされおよび変更されたベースバンド成分を用いる。人間の聴覚器官特性の改良された実験は、変調構造（非特許文献１１）の人間の知覚をさらに評価するために、空想的なサウンドの実行可能な例えば改良された創造物になる。

最後に、音楽製品のための特に新しく刺激的で芸術的なオーディ効果は、手の届く範囲にある：音楽アイテムのスケールおよびキーモードは、キャリア信号の適切な処理によって変更され得る、または、粗さ感覚の心理音響特性は、ＡＭ成分に関する操作によってアクセスされ得る。

知覚的に意味があるキャリアおよびＡＭ／ＦＭ成分に任意のオーディオ信号を分解するためのシステムの提案が提示され、それは、変調の詳細修正の細かい粒子のスケーラビリティを可能にする。適切な再合成方法が与えられた。変調処理原理のいくつかの例が概説され、例のオーディオファイルの結果として生じるスペクトろグラムが提示された。リスニングテストは、変調処理および後の再合成の異なるタイプの知覚的な品質を実証するために行われた。この有望な新しい解析／合成方法のための将来のアプリケーションシナリオが確認された。結果は、提案された方法がパラメトリックおよび波形オーディオ処理間のギャップを埋めるための適切な手段を提供しさらに新しい魅力的なオーディオ効果を可能にすることを実証する。

記載された実施形態は、本発明の原理のために単に示すだけである。ここに記載されている構成および詳細の修正および変更が他の当業者にとって明らかであるものと理解される。したがって、間近に迫った特許請求の範囲だけによって制限されるが、ここに実施形態の記載および説明として提示される具体的な詳細によっては制限されないことが意図である。

本発明の方法の特定の実施要求に応じて、本発明の方法は、ハードウェアにおいてまたはソフトウェアにおいて実施され得る。実施は、本発明の方法が実行されるように、プログラミング可能なコンピュータシステムと協働する、それに格納される電子的に読み出すことができる制御信号を有するデジタル記憶媒体、特にディスク、ＤＶＤまたはＣＤを用いて実行され得る。そのため、本発明は、一般的に、機械で読み取り可能なキャリアに格納されたプログラムコードを有するコンピュータプログラム製品であり、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、本発明の方法を実行するために作動される。したがって、言い換えると、本発明の方法は、コンピュータプログラムがコンピュータ上で実行されるときに、本発明の方法のうちの少なくとも１つを実行するためのプログラムコードを有するコンピュータプログラムである。

Claims

オーディオ信号をパラメータ化された表現に変換するための装置であって、
解析結果（１０４）を得るために前記オーディオ信号の部分（１２２）を解析するための信号解析器（１０２）であって、前記信号解析器（１０２）は、前記オーディオ信号の前記部分（１２２）のスペクトル表現のための重心位置関数を計算するように作動し、前記重心位置関数において所定のイベントは、複数の帯域通過フィルタの中心周波数のための候補値（１２４）を示す、信号解析器（１０２）、
前記解析結果（１０４）に基づいて前記複数の帯域通過フィルタの情報（１０８）を推定するための帯域通過推定器（１０６）であって、前記複数の帯域通過フィルタに関する前記情報は、前記オーディオ信号の前記部分のためのフィルタ波形に関する情報を含み、帯域通過フィルタの帯域幅は、オーディオスペクトルにわたって異なりさらに前記帯域通過フィルタの中心周波数に依存し、前記帯域通過推定器（１０６）は、前記候補値（１２４）に基づいて前記中心周波数を決定するように作動する、帯域通過推定器（１０６）、
前記複数の帯域通過フィルタに関する前記情報（１０８）を用いて前記オーディオ信号の前記部分のための前記複数の帯域通過フィルタの帯域ごとに振幅変調、周波数変調または位相変調を推定するための変調推定器（１１０）、および
前記振幅変調に関する情報、前記周波数変調若しくは位相変調に関する情報または前記オーディオ信号の前記部分のための前記複数の帯域通過フィルタに関する前記情報を送信し、格納しまたは修正するための出力インターフェース（１１６）を含む、装置。
前記信号解析器（１０２）は、帯域のための重心位置値を計算するように作動する、請求項１に記載の装置。
前記信号解析器（１０２）は、重心位置候補値を得るために、帯域の前半の負のパワー値を加算しさらに帯域の後半の正のパワー値を加算するように作動し、前記重心位置候補値は、平滑化された重心位置値を得るために時間にわたって平滑化され、さらに
前記帯域通過推定器（１０６）は、時間にわたって前記平滑化された重心位置値のゼロ交差の周波数を決定するように作動する、請求項１または請求項２に記載の装置。
前記帯域通過推定器（１０６）は、より低い始値からより高い終値までのスペクトルがスペクトルホールなしにカバーされるように、前記帯域通過フィルタの前記中心周波数または前記帯域幅の前記情報を決定するように作動し、前記より低い始値および前記より高い終値は、少なくとも５つの帯域通過フィルタ帯域幅を含む、請求項１ないし請求項３のいずれかに記載の装置。
前記帯域通過推定器（１０６）は、知覚スケールに関して近似的に等しい帯域通過中心周波数間隔が生じるような方法でゼロ交差の周波数が修正されるように、前記情報を決定するように作動し、前記帯域通過フィルタの前記中心周波数および重心位置関数においてゼロ交差の周波数間の距離は、最小化される、請求項１、請求項３または請求項４に記載の装置。
前記変調推定器（１１０）は、前記帯域通過フィルタの前記帯域幅において前記オーディオ信号の前記振幅変調に関する情報を得るために、前記帯域通過フィルタのための帯域通過信号の解析信号（１１０ｂ）を形成しさらに前記解析信号の振幅を計算するように作動する、請求項１ないし請求項５のいずれかに記載の装置。
オーディオ信号をパラメータ化された表現に変換する方法であって、
解析結果（１０４）を得るために前記オーディオ信号の部分（１２２）を解析するステップ（１０２）であって、前記オーディオ信号の前記部分（１２２）のスペクトル表現のための重心位置関数は、計算され、前記重心位置関数において所定のイベントは、複数の帯域通過フィルタの中心周波数のための候補値（１２４）を示す、ステップ（１０２）、
前記解析結果（１０４）に基づいて前記複数の帯域通過フィルタの情報（１０８）を推定するステップ（１０６）であって、前記複数の帯域通過フィルタに関する前記情報は、前記オーディオ信号の前記部分のためのフィルタ波形に関する情報を含み、帯域通過フィルタの帯域幅は、オーディオスペクトルにわたって異なりさらに前記帯域通過フィルタの中心周波数に依存し、前記推定するステップ（１０６）は、前記候補値（１２４）に基づいて前記中心周波数を決定する、ステップ（１０６）、
前記複数の帯域通過フィルタに関する前記情報（１０８）を用いて前記オーディオ信号の前記部分のための前記複数の帯域通過フィルタの帯域ごとに振幅変調、周波数変調または位相変調を推定するステップ（１１０）、および
前記振幅変調に関する情報、前記周波数変調若しくは位相変調に関する情報または前記オーディオ信号の前記部分のための前記複数の帯域通過フィルタに関する前記情報を送信し、格納しまたは修正するステップ（１１６）を含む、方法。
オーディオ信号の時間部分に対して、複数の帯域通過フィルタのための帯域通過フィルタ情報を有するパラメータ化された表現を修正するための装置であって、前記帯域通過フィルタ情報は、対応する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数に依存する帯域幅と前記オーディオ信号の前記時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報とを有する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数を示し、前記変調情報は、前記時間的に変化する帯域通過フィルタ中心周波数に関連し、前記装置は、
前記時間的に変化する帯域通過フィルタ中心周波数を修正しさらに修正されたパラメータ化された表現を生成するための修正器（１６０）を含み、前記帯域通過フィルタの前記帯域幅は、前記対応する帯域通過フィルタの前記時間的に変化する帯域通過フィルタ中心周波数に依存する、装置。
前記修正器（１６０）は、楽曲のキーモードを例えばメジャーからマイナーにまたはその逆に変えるために、一定のファクタとの乗算によってまたは選択された中心周波数を変えることによって、すべての中心周波数を修正するように作動する、請求項８に記載の装置。
オーディオ信号の時間部分に対して、複数の帯域通過フィルタのための帯域通過フィルタ情報を有するパラメータ化された表現を修正する方法であって、前記帯域通過フィルタ情報は、対応する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数に依存する帯域幅と前記オーディオ信号の前記時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報とを有する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数を示し、前記変調情報は、前記時間的に変化する帯域通過フィルタ中心周波数に関連し、前記方法は、
前記時間的に変化する帯域通過フィルタ中心周波数を修正するステップ（１６０）および修正されたパラメータ化された表現を生成するステップを含み、前記帯域通過フィルタの前記帯域幅は、前記対応する帯域通過フィルタの前記時間的に変化する帯域通過フィルタ中心周波数に依存する、方法。
オーディオ信号の時間部分および複数の帯域通過フィルタのための帯域通過フィルタ情報を含むオーディオ信号のパラメータ化された表現を合成するための装置であって、前記帯域通過フィルタ情報は、対応する帯域通過フィルタの帯域通過フィルタ中心周波数に依存する変化する帯域幅と前記オーディオ信号の前記時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報とを有する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数を示し、
前記振幅変調情報に基づいて振幅変調成分を合成するための振幅変調合成器（２０１）、
キャリア周波数に関する情報およびそれぞれの帯域幅のための周波数変調情報に基づいて位相情報の瞬時周波数を合成するための周波数変調または位相変調合成器、
隣接するキャリア周波数間の周波数における距離は、周波数スペクトルにわたって異なり、
帯域通過フィルタチャネルごとに瞬時に振幅変調され、周波数変調されまたは位相変調された発振信号（２０４）を表す出力信号を生成するための発振器（２０３）、および
前記帯域通過フィルタチャネルからの信号を結合しさらに前記帯域通過フィルタチャネルからの前記信号に基づいてオーディオ出力信号（２０６）を生成するための結合器（２０５）を含み、
前記振幅変調合成器（２０１）は、前記振幅変調成分を得るために振幅変調情報の後のブロックをオーバーラップしさらに重み付け加算するためのオーバーラップ加算器（２０１ａ）を含み、または
前記周波数変調または位相変調合成器（２０２）は、合成された周波数情報を得るために、周波数変調若しくは位相変調情報の２つの後のブロックまたは前記周波数変調情報および帯域通過信号のための前記キャリア周波数の結合表現を重み付け加算するためのオーバーラップ加算器を含む、装置。
前記周波数変調または位相変調合成器（２０２）は、前記合成された周波数情報を積分しさらに前記発振器（２０３）の出力信号の以前のブロックからのスペクトル近接における成分の位相から導出される位相ターム（２０２ｄ、２０２ｃ）を前記合成された周波数情報に加算するための積分器（２０２ｂ）を含む、請求項１１に記載の装置。
前記発振器（２０３）は、加算演算（２０２ｃ）によって得られる位相信号によって供給される正弦波発振器である、請求項１２に記載の装置。
前記発振器（２０３）は、前記帯域通過フィルタチャネルのための前記振幅変調成分を用いて前記正弦波発振器の出力信号を変調するための変調器（２０３ｂ）を含む、請求項１３に記載の装置。
オーディオ信号の時間部分および複数の帯域通過フィルタのための帯域通過フィルタ情報を含むオーディオ信号のパラメータ化された表現を合成する方法であって、前記帯域通過フィルタ情報は、対応する帯域通過フィルタの帯域通過フィルタ中心周波数に依存する変化する帯域幅と前記オーディオ信号の前記時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報とを有する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数を示し、
前記振幅変調情報に基づいて振幅変調成分を合成するステップ（２０１）、
キャリア周波数に関する情報およびそれぞれの帯域幅のための周波数変調情報に基づいて瞬時周波数または位相情報を合成するステップ（２０２）、
隣接するキャリア周波数間の周波数における距離は、周波数スペクトルにわたって異なり、
帯域通過フィルタチャネルごとに瞬時に振幅変調され、周波数変調されまたは位相変調された発振信号（２０４）を表す出力信号を生成するステップ（２０３）、および
前記帯域通過フィルタチャネルからの信号を結合するステップ（２０５）および前記帯域通過フィルタチャネルからの前記信号に基づいてオーディオ出力信号（２０６）を生成するステップを含み、
前記振幅変調成分を合成するステップ（２０１）は、前記振幅変調成分を得るために振幅変調情報の後のブロックをオーバーラップしさらに重み付け加算するステップ（２０１ａ）を含み、または
前記瞬時周波数または位相情報を合成するステップ（２０２）は、合成された周波数情報を得るために、周波数変調若しくは位相変調情報の２つの後のブロックまたは前記周波数変調情報および帯域通過信号のための前記キャリア周波数の結合表現を重み付け加算するステップを含む、方法。
コンピュータ上で実行されるときに、請求項７、請求項１０または請求項１５に記載の方法を実行するためのコンピュータプログラム。
オーディオ信号をパラメータ化された表現に変換するための装置であって、
解析結果（１０４）を得るために前記オーディオ信号の部分を解析するための信号解析器（１０２）、
前記解析結果（１０４）に基づいて複数の帯域通過フィルタの情報（１０８）を推定するための帯域通過推定器（１０６）であって、前記複数の帯域通過フィルタに関する前記情報は、前記オーディオ信号の前記部分のためのフィルタ波形に関する情報を含み、帯域通過フィルタの帯域幅は、オーディオスペクトルにわたって異なりさらに前記帯域通過フィルタの中心周波数に依存する、帯域通過推定器（１０６）、
前記複数の帯域通過フィルタに関する前記情報（１０８）を用いて前記オーディオ信号の前記部分のための前記複数の帯域通過フィルタの帯域ごとに振幅変調、周波数変調または位相変調を推定するための変調推定器（１１０）であって、前記変調推定器（１１０）は、前記帯域通過フィルタの前記帯域において前記周波数変調または位相変調に関する情報を得るために、帯域通過信号をそれぞれの帯域通過の前記中心周波数を有するキャリアとダウンミックスする（１１０ｄ）ように作動する、変調推定器（１１０）、および
前記振幅変調に関する情報、前記周波数変調若しくは位相変調に関する情報または前記オーディオ信号の前記部分のための前記複数の帯域通過フィルタに関する前記情報を送信し、格納しまたは修正するための出力インターフェース（１１６）を含む、装置。
オーディオ信号をパラメータ化された表現に変換する方法であって、
解析結果（１０４）を得るために前記オーディオ信号の部分を解析するステップ（１０２）、
前記解析結果（１０４）に基づいて複数の帯域通過フィルタの情報（１０８）を推定するステップ（１０６）であって、前記複数の帯域通過フィルタに関する前記情報は、前記オーディオ信号の前記部分のためのフィルタ波形に関する情報を含み、帯域通過フィルタの帯域幅は、オーディオスペクトルにわたって異なりさらに前記帯域通過フィルタの中心周波数に依存する、ステップ（１０６）、
前記複数の帯域通過フィルタに関する前記情報（１０８）を用いて前記オーディオ信号の前記部分のための前記複数の帯域通過フィルタの帯域ごとに振幅変調、周波数変調または位相変調を推定するステップ（１１０）であって、帯域通過信号は、前記帯域通過フィルタの前記帯域において前記周波数変調または位相変調に関する情報を得るために、それぞれの帯域通過の前記中心周波数を有するキャリアとダウンミックスされる（１１０ｄ）、ステップ（１１０）、および
前記振幅変調に関する情報、前記周波数変調若しくは位相変調に関する情報または前記オーディオ信号の前記部分のための前記複数の帯域通過フィルタに関する前記情報を送信し、格納しまたは修正するステップ（１１６）を含む、方法。
オーディオ信号の時間部分に対して、複数の帯域通過フィルタのための帯域通過フィルタ情報を有するパラメータ化された表現を修正するための装置であって、前記帯域通過フィルタ情報は、対応する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数に依存する帯域幅と前記オーディオ信号の前記時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報とを有する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数を示し、前記変調情報は、前記時間的に変化する帯域通過フィルタ中心周波数に関連し、前記装置は、
前記帯域通過フィルタの前記時間的に変化する中心周波数を修正しまたは前記振幅変調、位相変調若しくは周波数変調情報を修正しさらに修正されたパラメータ化された表現を生成するための修正器（１６０）を含み、前記帯域通過フィルタの前記帯域幅は、前記対応する帯域通過フィルタの前記時間的に変化する帯域通過フィルタ中心周波数に依存し、
前記修正器（１６０）は、粗い構造および細かい構造への非線形分解によってさらに前記粗い構造または前記細かい構造を修正することによって、前記振幅変調情報、前記位相変調情報または前記周波数変調情報を修正するように作動する、装置。
オーディオ信号の時間部分に対して、複数の帯域通過フィルタのための帯域通過フィルタ情報を有するパラメータ化された表現を修正する方法であって、前記帯域通過フィルタ情報は、対応する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数に依存する帯域幅と前記オーディオ信号の前記時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報とを有する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数を示し、前記変調情報は、前記時間的に変化する帯域通過フィルタ中心周波数に関連し、前記方法は、
前記時間的に変化する帯域通過フィルタ中心周波数を修正するステップ（１６０）または前記振幅変調、位相変調若しくは周波数変調情報を修正するステップおよび修正されたパラメータ化された表現を生成するステップを含み、前記帯域通過フィルタの前記帯域幅は、前記対応する帯域通過フィルタの前記帯域通過フィルタ中心周波数に依存し、
前記修正するステップ（１６０）は、粗い構造および細かい構造への非線形分解によってさらに前記粗い構造または前記細かい構造を修正することによって、前記振幅変調情報、前記位相変調情報または前記周波数変調情報を修正する、方法。
オーディオ信号の時間部分および複数の帯域通過フィルタのための帯域通過フィルタ情報を含むオーディオ信号のパラメータ化された表現を合成するための装置であって、前記帯域通過フィルタ情報は、対応する帯域通過フィルタの帯域通過フィルタ中心周波数に依存する変化する帯域幅と前記オーディオ信号の前記時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報とを有する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数を示し、
前記振幅変調情報に基づいて振幅変調成分を合成するための振幅変調合成器（２０１）であって、前記振幅変調合成器（２０１）は、ノイズを加算するためのノイズ加算器（１６０ｆ）を含み、前記ノイズ加算器は、固定的にセットされまたは局所解析によって制御される送信されたサイド情報を介して制御される、振幅変調合成器（２０１）、
キャリア周波数に関する情報およびそれぞれの帯域幅のための周波数変調情報に基づいて位相情報の瞬時周波数を合成するための周波数変調または位相変調合成器、
隣接するキャリア周波数間の周波数における距離は、周波数スペクトルにわたって異なり、
帯域通過フィルタチャネルごとに瞬時に振幅変調され、周波数変調されまたは位相変調された発振信号（２０４）を表す出力信号を生成するための発振器（２０３）、および
前記帯域通過フィルタチャネルからの信号を結合しさらに前記帯域通過フィルタチャネルからの前記信号に基づいてオーディオ出力信号（２０６）を生成するための結合器（２０５）を含む、装置。
オーディオ信号の時間部分および複数の帯域通過フィルタのための帯域通過フィルタ情報を含むオーディオ信号のパラメータ化された表現を合成する方法であって、前記帯域通過フィルタ情報は、対応する帯域通過フィルタの帯域通過フィルタ中心周波数に依存する変化する帯域幅と前記オーディオ信号の前記時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報とを有する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数を示し、
前記振幅変調情報に基づいて振幅変調成分を合成するステップ（２０１）であって、前記合成するステップ（２０１）は、送信されたサイド情報を介して制御されるノイズを加算するステップを含み、前記サイド情報は、固定的にセットされまたは局所解析によって制御される、ステップ（２０１）、
キャリア周波数に関する情報およびそれぞれの帯域幅のための周波数変調情報に基づいて瞬時周波数または位相情報を合成するステップ（２０２）、
隣接するキャリア周波数間の周波数における距離は、周波数スペクトルにわたって異なり、
帯域通過フィルタチャネルごとに瞬時に振幅変調され、周波数変調されまたは位相変調された発振信号（２０４）を表す出力信号を生成するステップ（２０３）、および
前記帯域通過フィルタチャネルからの信号を結合するステップ（２０５）および前記帯域通過フィルタチャネルからの前記信号に基づいてオーディオ出力信号（２０６）を生成するステップを含む、方法。
コンピュータ上で実行されるときに、請求項１８、請求項２０または請求項２２に記載の方法を実行するためのコンピュータプログラム。