JP6553657B2

JP6553657B2 - オーディオプロセッサおよび垂直位相訂正を用いたオーディオ信号を処理する方法

Info

Publication number: JP6553657B2
Application number: JP2016575802A
Authority: JP
Inventors: サッシャディスヒ; ミッコーヴィレライティネン; ビーレプルッキ
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2014-07-01
Filing date: 2015-06-25
Publication date: 2019-07-31
Anticipated expiration: 2035-06-25
Also published as: CN106663438A; EP3164869A1; CA2953413A1; AU2015282747A1; CA2953427C; US10283130B2; WO2016001068A1; JP2017521705A; MY192221A; MY182904A; PL3164869T3; CA2953421A1; EP3164869B1; KR102025164B1; BR112016030149B1; AR101082A1; KR20170033328A; TWI587288B; WO2016001067A1; MX356672B

Description

本発明は、オーディオ信号を処理するためのオーディオプロセッサおよび方法、オーディオ信号を復号するためのデコーダおよび方法、並びにオーディオ信号を符号化するためのエンコーダおよび方法に関連する。さらに、位相訂正データを決定するための計算器および方法、オーディオ信号、並びに前述の方法のうちの１つを実行するためのコンピュータプログラムが説明される。すなわち、本発明は、知覚オーディオ符号器のための位相デリバティブ（派生）訂正およびバンド幅拡張（ＢＷＥ）を示す、または、知覚の重要性に基づくＱＭＦ領域のバンド幅拡張信号の位相スペクトルを訂正することを示す。

知覚オーディオ符号化
年代に見られる知覚オーディオ符号化は、知覚の効果の公言された利用を通して、時間／周波数領域処理と冗長性縮小（エントロピー符号化）と不適切除去との使用を含む、いくつかの共通のテーマに続いている［非特許文献１］。一般に、入力信号は、時間領域信号をスペクトル（時間／周波数）表現に変換する分析フィルタバンクによって分析される。スペクトル係数への変換は、それらの周波数内容に依存している信号コンポーネント（例えば、それらの個々の倍音構造を有する種々の器具）を選択的に処理することを許す。

並行して、入力信号はその知覚の特性について分析される。すなわち、特に、時間および周波数依存のマスキング閾値が計算される。時間／周波数依存マスキング閾値は、個々の周波数バンドおよび符号化時間フレームのための絶対エネルギー値またはマスク対信号比（ＭＳＲ）の形式で、目標符号化閾値を通して量子化ユニットに伝えられる。

分析フィルタバンクによって伝えられたスペクトル係数は、信号を表現するために必要なデータ転送速度を減らすために量子化される。このステップは情報の損失を暗示し、符号化歪み（エラー、雑音）を信号の中に導入する。この符号化雑音の可聴衝撃を最小化するために、量子化ステップサイズは、個々の周波数バンドとフレームのための目標符号化閾値に従って制御される。理想的に、個々の周波数バンドに注入された符号化雑音は、符号化（マスキング）閾値より低く、従って、主体のオーディオの悪化は知覚できない（不適切の除去）。音響心理学的な要求に応じた周波数上および時間上の量子化雑音のこの制御は、洗練された雑音形成効果をもたらし、符号器を知覚オーディオ符号器にするものである。

その後、現代オーディオ符号器は、量子化されたスペクトルデータに関するエントロピー符号化（例えば、ハフマン符号化、算術的符号化）を実行する。エントロピー符号化は無損失符号化ステップである。それはビット転送速度をさらに節約する。

最後に、全ての符号化されたスペクトルデータおよび関連する追加パラメータ（例えば個々の周波数バンドのための量子化器の設定のようなサイド情報）は、ファイルの格納または転送のために意図された、最終的に符号化された表現であるビットストリームの中に、一緒に詰め込まれる。

バンド幅拡張
フィルタバンクに基づく知覚オーディオ符号化において、消費されたビット転送速度の大部分は、通常、量子化されたスペクトル係数に費やされる。従って、非常に低いビット転送速度では、十分なビットが、知覚的に損なわれていない再生を達成するために必要な
精度において、全ての係数を表現するように入手できない。従って、低いビット転送速度要件は、知覚オーディオ符号化によって得られるオーディオバンド幅に対して、有効に制限する。バンド幅拡張［非特許文献２］は、この長年の根本的制限を取り除く。バンド幅拡張の中心的アイデアは、コンパクトなパラメータ形式において、失った高周波数の内容を伝送して修復させる追加の高周波プロセッサによって、バンドを制限された知覚符号器を補足することである。高周波数の内容は、ベースバンド信号の１つのサイドバンド変調に基づいて、または、スペクトルバンド複製（ＳＢＲ）［非特許文献３］において使われたようなコピーアップ技術に基づいて、または、例えばボコーダー［非特許文献４］のようなピッチシフト技術の応用に基づいて生成される。

デジタルオーディオの効果
時間伸長化またはピッチシフト化効果は、通常、同期したオーバーラップ加算（ＳＯＬＡ）のような時間領域技術または周波数領域技術（ボコーダー）を適用することによって得られる。また、ハイブリッドシステムは、サブバンドにおいて処理しているＳＯＬＡを適用することを提案している。ボコーダーおよびハイブリッドシステムは、通常、垂直位相コヒーレンスの損失に帰される位相性（フェージネス、［非特許文献８］）と呼ばれる人工物から損害を被る。いくつかの出版物は、重要な垂直位相コヒーレンスを守ることによる時間伸長化アルゴリズムの音質についての改良に関係する（［非特許文献７］、［非特許文献６］）。

最先端オーディオコーダ［非特許文献１］は、通常、符号化される信号の重要な位相特性を無視することによって、オーディオ信号の知覚の品質を解決する。知覚オーディオコーダにおいて位相コヒーレンスを訂正する一般的な提案は、［非特許文献９］に記載される。

しかし、全ての種類の位相コヒーレンスエラーは同時に訂正できず、全ての位相コヒーレンスエラーが知覚的に重要であるわけではない。例えば、オーディオバンド幅拡張において、どの位相コヒーレンス関連エラーが最も高い優先性によって訂正されるべきで、どのエラーが部分的に訂正されるだけで残れるか、または、それらのエラーの取るに足りない知覚衝撃について全く無視されるか、が最新技術から明確ではない。

特に、オーディオバンド幅拡張（［非特許文献２］、［非特許文献３］、［非特許文献４］）の応用のため、周波数上および時間上の位相コヒーレンスがしばしば害される。結果は、聴覚の粗さを示す鈍い音であり、オリジナル信号の中の聴覚の目的物から崩壊する追加的に知覚されるトーンを含み、それゆえ、それ自身の聴覚の目的物として、オリジナル信号に追加的に知覚される。さらに、音は、遠くから来るようにも見え、少しざわつき、それから、小さい聴衆契約［非特許文献５］を呼び起す。

Painter, T.: Spanias, A. Perceptual coding of digital audio, Proceedings of the IEEE, 88(4), 2000; pp. 451-513. Larsen, E.; Aarts, R. Audio Bandwidth Extension: Application of psychoacoustics, signal processing and loudspeaker design, John Wiley and Sons Ltd, 2004, Chapters 5, 6. Dietz, M.; Liljeryd, L.; Kjorling, K.; Kunz, 0. Spectral Band Replication, a Novel Approach in Audio Coding, 112th AES Convention, April 2002, Preprint 5553. Nagel, F.; Disch, S.; Rettelbach, N. A Phase Vocoder Driven Bandwidth Extension Method with Novel Transient Handling for Audio Codecs, 126th AES Convention, 2009. D. Griesinger 'The Relationship between Audience Engagement and the ability to Perceive Pitch, Timbre, Azimuth and Envelopment of Multiple Sources' Tonmeister Tagung 2010. D. Dorran and R. Lawlor, "Time-scale modification of music using a synchronized subband/time domain approach," IEEE International Conference on Acoustics, Speech and Signal Processing, pp. IV 225 - IV 228, Montreal, May 2004. J. Laroche, "Frequency-domain techniques for high quality voice modification," Proceedings of the International Conference on Digital Audio Effects, pp. 328-322, 2003. Laroche, J.; Dolson, M.; , "Phase-vocoder: about this phasiness business," Applications of Signal Processing to Audio and Acoustics, 1997. 1997 IEEE ASSP Workshop on, vol., no., pp.4 pp., 19-22, Oct 1997 M. Dietz, L. Liljeryd, K. Kjoerling, and O. Kunz, "Spectral band replication, a novel approach in audio coding," in AES 112th Convention, (Munich, Germany), May 2002. P. Ekstrand, "Bandwidth extension of audio signals by spectral band replication," in IEEE Benelux Workshop on Model based Processing and Coding of Audio, (Leuven, Belgium), November 2002. B. C. J. Moore and B. R. Glasberg, "Suggested formulae for calculating auditory-filter bandwidths and excitation patterns," J. Acoust. Soc. Am., vol. 74, pp. 750-753, September 1983. T. M. Shackleton and R. P. Carlyon, "The role of resolved and unresolved harmonics in pitch perception and frequency modulation discrimination," J. Acoust. Soc. Am., vol. 95, pp. 3529-3540, June 1994. M.-V. Laitinen, S. Disch, and V. Pulkki, "Sensitivity of human hearing to changes in phase spectrum," J. Audio Eng. Soc., vol. 61, pp. 860[877, November 2013. A. Klapuri, "Multiple fundamental frequency estimation based on harmonicity and spectral smoothness," IEEE Transactions on Speech and Audio Processing, vol. 11, November 2003.

従って、改善されたアプローチの要求がある。

オーディオ信号を処理するための改善された概念を提供することが、本発明の目的である。この目的は独立した請求項の主題によって解決される。

本発明は、オーディオ信号の位相が、オーディオプロセッサまたはデコーダによって計算された目標位相に従って訂正できる、という発見に基づいている。目標位相は、未処理のオーディオ信号の位相の表現と考えられる。従って、処理されたオーディオ信号の位相は、未処理のオーディオ信号の位相により良く合致して調整される。例えばオーディオ信号の時間周波数表現を有することによって、オーディオ信号の位相は、サブバンドの中のその後の時間フレームのために調整されるか、または、位相は、その後の周波数サブバンドのための時間フレームの中で調整される。従って、計算器は、最も適した訂正方法を自動的に検出して選択することを見付けられた。説明された発見は、種々の実施の形態において実施されるか、または、デコーダおよび／またはエンコーダにおいて一緒に実施され
る。

実施の形態は、時間フレームのためのオーディオ信号の位相尺度（ｐｈａｓｅｍｅａｓｕｒｅ）を計算するように構成されたオーディオ信号位相尺度計算器を含む、オーディオ信号を処理するためのオーディオプロセッサを示す。さらに、オーディオ信号は、前記時間フレームのための目標位相尺度を決定するための目標位相尺度決定器と、処理されたオーディオ信号を得るために、計算された位相尺度および目標位相尺度を使用して、時間フレームのためのオーディオ信号の位相を訂正するように構成された位相訂正器と、を含む。

別の実施の形態によると、オーディオ信号は、時間フレームのための複数のサブバンド信号を含む。目標位相尺度決定器は、第１サブバンド信号のための第１目標位相尺度と、第２サブバンド信号のための第２目標位相尺度と、を決定するように構成される。さらに、オーディオ信号位相尺度計算器は、第１サブバンド信号のための第１位相尺度と、第２サブバンド信号のための第２位相尺度と、を決定する。位相訂正器は、オーディオ信号の第１位相尺度および第１目標位相尺度を使って、第１サブバンド信号の第１位相を訂正すると共に、オーディオ信号の第２位相尺度および第２目標位相尺度を使って、第２サブバンド信号の第２位相を訂正するように構成される。従って、オーディオプロセッサは、訂正第１サブバンド信号および訂正第２サブバンド信号を使って、訂正オーディオ信号を合成するためのオーディオ信号シンセサイザーを含む。

本発明に従って、オーディオプロセッサは、水平方向におけるオーディオ信号の位相を訂正するように、すなわち時間上の訂正をするように構成される。従って、オーディオ信号は、時間フレームのセットの中に再分割される。個々の時間フレームの位相は、目標位相に従って調整できる。目標位相は、オリジナルのオーディオ信号の表現である。オーディオプロセッサは、オリジナルのオーディオ信号の符号化された表現であるオーディオ信号を復号するためのデコーダの一部である。任意に、仮にオーディオ信号が時間周波数表現で入手可能ならば、水平位相訂正は、オーディオ信号のサブバンドの数に対して別々に適用される。オーディオ信号の位相の訂正は、オーディオ信号の目標位相および位相の時間上の位相デリバティブの偏差を、オーディオ信号の位相から取り去ることによって実行される。

従って、時間上の位相デリバティブが、周波数（位相であるφによってｄφ／ｄｔ＝ｆ）であるので、説明された位相訂正は、オーディオ信号の個々のサブバンドごとに周波数調整を実行する。すなわち、目標周波数に対するオーディオ信号の個々のサブバンドの差が、オーディオ信号のためのより良好な品質を得るために減少できる。

目標位相を決定するために、目標位相決定器は、現在の時間フレームのための基本的周波数推定を得ると共に、時間フレームのための基本的周波数推定を使って、時間フレームの複数のサブバンドのサブバンドごとに周波数推定を計算するように構成される。周波数推定は、サブバンドの全体の数およびオーディオ信号のサンプリング周波数を使って、時間上の位相デリバティブの中に変換できる。別の実施の形態において、オーディオプロセッサは、時間フレームの中のオーディオ信号のための目標位相尺度を決定するための目標位相尺度決定器と、オーディオ信号の位相および目標位相尺度の時間フレームを使って、位相エラーを計算するための位相エラー計算器と、位相エラーを使ってオーディオ信号の位相および時間フレームを訂正するように構成された位相訂正器と、から成る。

別の実施の形態によると、オーディオ信号は時間周波数表現で入手可能である。オーディオ信号は、時間フレームのための複数のサブバンドから成る。目標位相尺度決定器は、第１サブバンド信号のための第１目標位相尺度と、第２サブバンド信号のための第２目標
位相尺度とを決定する。さらに、位相エラー計算器は、位相エラーのベクトルを形成する。ベクトルの第１要素は、第１サブバンド信号の位相および第１目標位相尺度の第１偏差と呼ぶ。ベクトルの第２要素は、第２サブバンド信号の位相および第２目標位相尺度の第２偏差と呼ぶ。さらに、この実施の形態のオーディオプロセッサは、訂正第１サブバンド信号および訂正第２サブバンド信号を使って、訂正オーディオ信号を合成するためのオーディオ信号シンセサイザーを含む。この位相訂正は、平均の訂正位相値を作成する。

追加的にまたは２者択一的に、複数のサブバンドは、ベースバンドおよび周波数パッチ（部分修正）のセットにグループ分けされる。ベースバンドは、オーディオ信号の１つのサブバンドを含む。周波数パッチのセットは、ベースバンドのうちの少なくとも１つのサブバンドの周波数より高い周波数で、ベースバンドの少なくとも１つのサブバンドを含む。

別の実施の形態は、平均位相エラーを得るために、周波数パッチの第２番目の最初のパッチと呼ぶ位相エラーのベクトルの要素の平均を計算するように構成された位相エラー計算器を示す。位相訂正器は、重み付けされた平均位相エラーを使って、パッチ信号の周波数パッチのセットの最初とその後の周波数パッチの中のサブバンド信号の位相を訂正するように構成される。平均位相エラーは、修正されたパッチ信号を得るために、周波数パッチのインデックスに従って分割される。この位相訂正は、２つの連続する周波数パッチの間の境界周波数であるクロスオーバー周波数で、良好な品質を提供する。

別の実施の形態によると、２つ前述の実施の形態は、平均しておよびクロスオーバー周波数で良好である値に訂正位相を含む、訂正オーディオ信号を得るために結合される。従って、オーディオ信号位相デリバティブ計算器は、ベースバンドのための周波数上の位相デリバティブの平均を計算するように構成される。位相訂正器は、現在のサブバンドインデックスによって重み付けされた周波数上の位相デリバティブの平均を、オーディオ信号のベースバンドの中の最も高いサブバンドインデックスによってサブバンド信号の位相に付加することによって、最適化された第１周波数パッチによって別の修正されたパッチ信号を計算する。さらに、位相訂正器は、結合され修正されたパッチ信号を得るために、修正されたパッチ信号および別の修正されたパッチ信号の重み付けされた平均を計算すると共に、現在のサブバンドのサブバンドインデックスによって重み付けされた周波数上の位相デリバティブの平均を、結合され修正されたパッチ信号の前の周波数パッチの中の最も高いサブバンドインデックスによって、サブバンド信号の位相に付加することによって、周波数パッチに基づいて結合され修正されたパッチ信号を再帰的に更新するように構成される。

目標位相を決定するために、目標位相尺度決定器は、オーディオ信号の現在の時間フレームの中のピーク位置およびピーク位置の基本周波数を、データストリームから取り出すように構成されたデータストリーム抽出器を含む。あるいは、目標位相尺度決定器は、現在の時間フレームの中のピーク位置およびピーク位置の基本周波数を計算するために、現在の時間フレームを分析するように構成されたオーディオ信号分析器を含む。さらに、目標位相尺度決定器は、ピーク位置およびピーク位置の基本周波数を使って、現在の時間フレームの中の別のピーク位置を推定するための目標スペクトル生成器を含む。詳しくは、目標スペクトル生成器は、時間のパルス列を生成するためのピーク検出器と、ピーク位置の基本周波数に従ってパルス列の周波数を調整する信号形成器と、位置に従ってパルス列の位相を調整するパルス位置器と、調整されたパルス列の位相スペクトルを生成するスペクトル分析器とを含む。時間領域信号の位相スペクトルは、目標位相尺度である。説明された目標位相尺度決定器の実施の形態は、ピークを有する波形を有するオーディオ信号のための目標スペクトルを生成するために有利である。

第２オーディオプロセッサの実施の形態は、垂直位相訂正を説明する。垂直位相訂正は、全てのサブバンドに亘って、１つの時間フレームの中のオーディオ信号の位相を調整する。サブバンドごとに独立して適用されるオーディオ信号の位相の調整は、オーディオ信号のサブバンドを合成した後に、訂正されていないオーディオ信号とは異なるオーディオ信号の波形を結果としてもたらす。従って、それは、例えば、不鮮明なピークまたはトランジェント（ｔｒａｎｓｉｅｎｔ）を作り直すことが可能である。

別の実施の形態によると、計算器は、オーディオ信号のための位相訂正データを決定するために、第１および第２バリエーションモードの中のオーディオ信号の位相のバリエーションを決定するためのバリエーション決定器と、位相バリエーションモードを使って決定された第１バリエーションと第２バリエーションモードを使って決定された第２バリエーションとを比較するためのバリエーション比較器と、比較の結果に基づいて第１バリエーションモードまたは第２バリエーションモードに従って位相訂正を計算するための訂正データ計算器とを示す。

別の実施の形態は、第１バリエーションモードの中の位相のバリエーションとして、オーディオ信号の複数の時間フレームのための時間上の位相デリバティブ（ＰＤＴ）の標準偏差尺度、または、第２バリエーションモードの中の位相のバリエーションとして、複数のサブバンドのための周波数上の位相デリバティブ（ＰＤＦ）の標準偏差尺度を決定するためのバリエーション決定器を示す。バリエーション比較器は、オーディオ信号の時間フレームのために、第１バリエーションモードとして時間上の位相デリバティブの尺度と、第２バリエーションモードとして周波数上の位相デリバティブの尺度とを比較する。別の実施の形態によると、バリエーション決定器は、第３バリエーションモードの中のオーディオ信号の位相のバリエーションを決定するように構成される。第３バリエーションモードは、トランジェント検出モードである。それゆえ、バリエーション比較器は、３つのバリエーションモードを比較し、訂正データ計算器は、比較の結果に基づいて、第１バリエーションモードまたは第２バリエーションまたは第３バリエーションモードに従って、位相訂正を計算する。

訂正データ計算器の決定規則は、以下の通り説明できる。仮にトランジェントが検出されるならば、位相は、トランジェントの形を復元するように、トランジェントのために位相訂正に従って訂正される。さもなければ、仮に第１バリエーションが第２バリエーションより小さいか、または等しいならば、第１バリエーションモードの位相訂正が適用される。または、仮に第２バリエーションが第１バリエーションより大きいならば、第２バリエーションモードに従って位相訂正が適用される。仮にトランジェントの不存在が検出され、かつ、第１および第２バリエーションの両方が閾値値を越えるならば、位相訂正モードのどれも適用されない。

計算器は、例えばオーディオ符号化段階において、最良の位相訂正モードを決定し、決定された位相訂正モードのための関連したパラメータを計算するように、オーディオ信号を分析するように構成される。復号段階において、パラメータは、最先端符号器を使って復号されたオーディオ信号に比べて良好な品質を有する復号されたオーディオ信号を得るために用いられる。計算器が、オーディオ信号の個々の時間フレームのための正しい訂正モードを自律的に検出することは、注目する必要がある。

実施の形態は、第１訂正データを使って、オーディオ信号の第２信号の第１時間フレームのための目標スペクトルを生成するための第１目標スペクトル生成器と、位相訂正アルゴリズムによって決定されたオーディオ信号の第１時間フレームの中のサブバンド信号の位相を訂正するための第１位相訂正器とによって、オーディオ信号を復号するためのデコーダを示す。訂正は、オーディオ信号の第１時間フレームの中のサブバンド信号の尺度と
目標スペクトルとの間の差を減らして実行される。付加的に、デコーダは、時間フレームのための訂正位相を使って、第１時間フレームのためのオーディオサブバンド信号を計算すると共に、第２時間フレームの中のサブバンド信号の尺度を使うか、または前記位相訂正アルゴリズムと異なる別の位相訂正アルゴリズムに従って訂正位相計算を使って、第１時間フレームと異なる第２時間フレームのためのオーディオサブバンド信号を計算するためのオーディオサブバンド信号計算器を含む。

別の実施の形態によると、デコーダは、第１目標スペクトル生成器と等価の第２および第３目標スペクトル生成器と、第１位相訂正器と等価の第２および第３位相訂正器とを含む。従って、第１位相訂正器は水平位相訂正を実行でき、第２位相訂正器は垂直位相訂正を実行でき、第３位相訂正器はトランジェント位相訂正を実行できる。別の実施の形態によると、デコーダは、オーディオ信号に関して、数が減らされたサブバンドによって時間フレームの中のオーディオ信号を復号するように構成されたコアデコーダを含む。さらに、デコーダは、数が減らされたサブバンドによって、コア復号されたオーディオ信号のサブバンドのセットをパッチするためのパッチ器（部分修正器）を含む。サブバンドのセットは、正規の数のサブバンドによってオーディオ信号を得るために、数が減らされたサブバンドに隣接する、時間フレームの中の別のサブバンドに第１パッチを形成する。さらに、デコーダは、時間フレームの中のオーディオサブバンド信号のマグニチュード値を処理するためのマグニチュードプロセッサと、合成され復号されたオーディオ信号を得るために、オーディオサブバンド信号または処理されたオーディオサブバンド信号のマグニチュードを合成するためのオーディオ信号シンセサイザーとを含む。この実施の形態は、復号されたオーディオ信号の位相訂正を含むバンド幅拡張のためのデコーダを確立できる。

従って、オーディオ信号の位相を決定するための位相決定器を含むオーディオ信号を符号化するためのエンコーダと、オーディオ信号の決定された位相に基づいてオーディオ信号のための位相訂正データを決定するための計算器と、オーディオ信号について、数が減らされたサブバンドによってコア符号化されたオーディオ信号を得るためにオーディオ信号をコア符号化するように構成されたコアエンコーダと、コア符号化されたオーディオ信号に含まれないサブバンドの第２セットのための低解像度パラメータ表現を得るためのオーディオ信号のパラメータを取り出すように構成されたパラメータ抽出器と、パラメータとコア符号化されたオーディオ信号と位相訂正データとを含む出力信号を形成するためのオーディオ信号形成器とは、バンド幅拡張のためのエンコーダを形成できる。

前述の実施の形態のうちの全ては、例えば、復号されたオーディオ信号の位相訂正によって、バンド幅拡張のためのエンコーダおよび／またはデコーダにおいて、全部の中にまたは組み合わせの中に見られる。あるいは、お互いに無視して、説明された実施の形態のうちの全てを独立して見ることも可能である。

本発明の実施の形態は、後に続く図面を参照して議論される。

図１Ａは、時間周波数表現においてバイオリン信号のマグニチュードスペクトルを示す。図１Ｂは、図１Ａのマグニチュードスペクトルに対応する位相スペクトルを示す。図１Ｃは、時間周波数表現においてＱＭＦ領域のトロンボーン信号のマグニチュードスペクトルを示す。図１Ｄは、図１Ｃのマグニチュードスペクトルに対応する位相スペクトルを示す。図２は、時間フレームとサブバンドとにより定義された時間周波数タイル（例えば、ＱＭＦビン（貯蔵箱）、求積法鏡フィルタバンクビン）を含む時間周波数図を示す。図３Ａは、オーディオ信号の例示的な周波数図を示す。周波数のマグニチュードは、１０個を超える異なるサブバンドを記載する。図３Ｂは、中間的なステップでの受信の後、例えば復号プロセス中のオーディオ信号の例示的な周波数表現を示す。図３Ｃは、再構築されたオーディオ信号Ｚ（ｋ，ｎ）の例示的な周波数表現を示す。図４Ａは、時間周波数表現において、直接コピーアップＳＢＲを使って、ＱＭＦ領域のバイオリン信号のマグニチュードスペクトルを示す。図４Ｂは、図４Ａのマグニチュードスペクトルに対応する位相スペクトルを示す。図４Ｃは、時間周波数表現において、直接コピーアップＳＢＲを使って、ＱＭＦ領域のトロンボーン信号のマグニチュードスペクトルを示す。図４Ｄは、図４Ｃのマグニチュードスペクトルに対応する位相スペクトルを示す。図５は、異なる位相値によって単一のＱＭＦビンの時間領域表現を示す。図６は、１つの非ゼロ周波数バンドを有し、位相が固定値π／４（上）および３π／４（下）によって変化する信号の時間領域および周波数領域の提供を示す。図７は、１つの非ゼロ周波数バンドを有し、位相がランダムに変化する信号の時間領域および周波数領域の提供を示す。図８は、４つの時間フレームおよび４つの周波数サブバンドの時間周波数表現の図６について説明した効果を示す。第３サブバンドだけが、ゼロと異なる周波数から成る。図９は、１つの非ゼロ時間的フレームを有し、位相が固定値π／４（上）および３π／４（下）によって変化する信号の時間領域および周波数領域の提供を示す。図１０は、１つの非ゼロ時間的フレームを有し、位相がランダムに変化する信号の時間領域及び周波数領域の提供を示す。図１１は、図８において示された時間周波数図と同様な時間周波数図を示す。第３時間フレームだけが、ゼロと異なる周波数から成る。図１２Ａは、時間周波数表現においてＱＭＦ領域のバイオリン信号の時間上の位相デリバティブを示す。図１２Ｂは、図１２Ａにおいて示された時間上の位相デリバティブに対応する位相デリバティブ周波数を示す。図１２Ｃは、時間周波数表現においてＱＭＦ領域のトロンボーン信号の時間上の位相デリバティブを示す。図１２Ｄは、図１２Ｃの時間上の対応する位相デリバティブの周波数上の位相デリバティブを示す。図１３Ａは、時間周波数表現において、直接コピーアップＳＢＲを使って、ＱＭＦ領域のバイオリン信号の時間上の位相デリバティブを示す。図１３Ｂは、図１３Ａにおいて示された時間上の位相デリバティブに対応する周波数上の位相デリバティブを示す。図１３Ｃは、時間周波数表現において、直接コピーアップＳＢＲを使って、ＱＭＦ領域のトロンボーン信号の時間上の位相デリバティブを示す。図１３Ｄは、図１３Ｃにおいて示された時間上の位相デリバティブに対応する周波数上の位相デリバティブを示す。図１４Ａは、ユニット円において、例えばその後の時間フレームまたは周波数サブバンドの４つの位相を模式的に示す。図１４Ｂは、ＳＢＲ処理後の図１４Ａにおいて説明された位相と、点線の訂正位相とを示す。図１５は、オーディオプロセッサ５０の模式的ブロック図を示す。図１６は、別の実施の形態に従う模式的ブロック図のオーディオプロセッサを示す。図１７は、時間周波数表現において、直接コピーアップＳＢＲを使って、ＱＭＦ領域のバイオリン信号のＰＤＴの中の平滑化されたエラーを示す。図１８Ａは、時間周波数表現において、訂正ＳＢＲのためのＱＭＦ領域のバイオリン信号のＰＤＴの中のエラーを示す。図１８Ｂは、図１８Ａにおいて示されたエラーに対応する時間上の位相デリバティブを示す。図１９は、デコーダの模式的ブロック図を示す。図２０は、エンコーダの模式的ブロック図を示す。図２１は、オーディオ信号であるデータストリームの模式的ブロック図を示す。図２２は、別の実施の形態に従う図２１のデータストリームを示す。図２３は、オーディオ信号を処理する方法の模式的ブロック図を示す。図２４は、オーディオ信号を復号する方法の模式的ブロック図を示す。図２５は、オーディオ信号を符号化する方法の模式的ブロック図を示す。図２６は、別の実施の形態に従うオーディオプロセッサの模式的ブロック図を示す。図２７は、好ましい実施の形態に従うオーディオプロセッサの模式的ブロック図を示す。図２８Ａは、より詳細に信号の流れを説明するオーディオプロセッサの中の位相訂正器の模式的ブロック図を示す。図２８Ｂは、図２６〜図２８Ａに比べて別の観点から位相訂正のステップを示す。図２９は、目標位相尺度決定器をより詳細に説明するオーディオプロセッサの中の目標位相尺度決定器の模式的ブロック図を示す。図３０は、目標スペクトル生成器をより詳細に説明するオーディオプロセッサの中の目標スペクトル生成器の模式的ブロック図を示す。図３１は、デコーダの模式的ブロック図を示す。図３２は、エンコーダの模式的ブロック図を示す。図３３は、オーディオ信号であるデータストリームの模式的ブロック図を示す。図３４は、オーディオ信号を処理する方法の模式的ブロック図を示す。図３５は、オーディオ信号を復号する方法の模式的ブロック図を示す。図３６は、オーディオ信号を復号する方法の模式的ブロック図を示す。図３７は、時間周波数表現において，直接コピーアップＳＢＲを使って、ＱＭＦ領域のトロンボーン信号の位相スペクトルの中のエラーを示す。図３８Ａは、時間周波数表現において、訂正ＳＢＲを使って、ＱＭＦ領域のトロンボーン信号の位相スペクトルの中のエラーを示す。図３８Ｂは、図３８Ａにおいて示されたエラーに対応する周波数上の位相デリバティブを示す。図３９は、計算器の模式的ブロック図を示す。図４０は、バリエーション決定器の中の信号の流れをより詳細に説明する計算器の模式的ブロック図を示す。図４１は、別の実施の形態に従う計算器の模式的ブロック図を示す。図４２は、オーディオ信号のための位相訂正データを決定する方法の模式的ブロック図を示す。図４３Ａは、時間周波数表現において、ＱＭＦ領域のバイオリン信号の時間上の位相デリバティブの標準偏差を示す。図４３Ｂは、図４３Ａについて示された時間上の位相デリバティブの標準偏差に対応する、周波数上の位相デリバティブの標準偏差を示す。図４３Ｃは、時間周波数表現において、ＱＭＦ領域のトロンボーン信号の時間上の位相デリバティブの標準偏差を示す。図４３Ｄは、図４３Ｃにおいて示された時間上の位相デリバティブの標準偏差に対応する、周波数上の位相デリバティブの標準偏差を示す。図４４Ａは、時間周波数表現において、ＱＭＦ領域のバイオリン＋拍手信号のマグニチュードを示す。図４４Ｂは、図４４Ａにおいて示されたマグニチュードスペクトルに対応する位相スペクトルを示す。図４５Ａは、時間周波数表現において、ＱＭＦ領域のバイオリン＋拍手信号の時間上の位相デリバティブを示す。図４５Ｂは、図４５Ａにおいて示された時間上の位相デリバティブに対応する、周波数上の位相デリバティブを示す。図４６Ａは、時間周波数表現において、訂正ＳＢＲを使って、ＱＭＦ領域のバイオリン＋拍手信号の時間上の位相デリバティブを示す。図４６Ｂは、図４６Ａにおいて示された時間上の位相デリバティブに対応する、周波数上の位相デリバティブを示す。図４７は、時間周波数表現において、ＱＭＦバンドの周波数を示す。図４８Ａは、時間周波数表現において示されたオリジナル周波数に比べられた、ＱＭＦバンドの直接コピーアップＳＢＲの周波数を示す。図４８Ｂは、時間周波数表現において、オリジナル周波数に比べられた訂正ＳＢＲを使って、ＱＭＦバンドの周波数を示す。図４９は、時間周波数表現において、オリジナル信号のＱＭＦバンドの周波数に比べられた、高調波の推定周波数を示す。図５０Ａは、時間周波数表現において、圧縮された訂正データによって、訂正ＳＢＲを使って、ＱＭＦ領域のバイオリン信号の時間上の位相デリバティブの中のエラーを示す。図５０Ｂは、図５０Ａにおいて示された時間上の位相デリバティブのエラーに対応する、時間上の位相デリバティブを示す。図５１Ａは、時間図においてトロンボーン信号の波形を示す。図５１Ｂは、推定ピークのみ含む図５１Ａのトロンボーン信号に対応する時間領域信号を示す。ピークの位置は、送信されたメタデータを使って得られている。図５２Ａは、時間周波数表現において、圧縮された訂正データによって、訂正ＳＢＲを使って、ＱＭＦ領域のトロンボーン信号の位相スペクトルの中のエラーを示す。図５２Ｂは、図５２Ａにおいて示された位相スペクトルの中のエラーに対応する周波数上の位相デリバティブを示す。図５３は、デコーダの模式的ブロック図を示す。図５４は、好ましい実施の形態に従う模式的ブロック図を示す。図５５は、別の実施の形態に従うデコーダの模式的ブロック図を示す。図５６は、エンコーダの模式的ブロック図を示す。図５７は、図５６において示されたエンコーダの中で使われる計算器のブロック図を示す。図５８は、オーディオ信号を復号するための方法の模式的ブロック図を示す。図５９は、オーディオ信号を符号化するための方法の模式的ブロック図を示す。

以下において、本発明の実施の形態は、より詳細に説明される。同じまたは同様な機能を有する個々の図面において示された要素は、それらと関連した同一の符号を有する。

本発明の実施の形態は、特定の信号処理について説明される。従って、図１〜図１４は、オーディオ信号に適用される信号処理を説明する。たとえ実施の形態がこの特定の信号処理について説明されていても、本発明はこの処理に制限されず、さらに、多くの別の処理計画に同様に適用できる。さらに、図１５〜図２５は、オーディオ信号の水平位相訂正のために使われるオーディオプロセッサの実施の形態を示す。図２６〜図３８は、オーディオ信号の垂直位相訂正のために使われるオーディオプロセッサの実施の形態を示す。さらに、図３９〜図５２は、オーディオ信号のための位相訂正データを決定するための計算器の実施の形態を示す。計算器はオーディオ信号を分析し、前述のオーディオプロセッサのうちのどれが適用されるかを決定する。または、仮にオーディオプロセッサのどれもオーディオ信号に適さないならば、オーディオプロセッサのどれもオーディオ信号に適用されないように決定する。図５３〜図５９は、第２プロセッサと計算器を含むデコーダとエンコーダの実施の形態を示す。

１．導入
知覚オーディオ符号化は、制限された容量で、送信または格納チャンネルを使って、顧客にオーディオおよびマルチメディアを提供する応用の全てのタイプのためにデジタル技術をもたらす主流として急増した。現代知覚オーディオ符号器は、ますます低いビット転送速度で、満足するオーディオの品質を派生することが必要とされる。それは、次々と、多数の聴衆によって殆んど耐えられる特定の符号化人工物を我慢する必要がある。オーディオバンド幅拡張（ＢＷＥ）は、特定の人工物を導入する価格で、送信された低バンド信号部分のスペクトル変換または交換によって、オーディオ符号器の周波数範囲を高バンドに人工的に拡張する技術である。

発見は、これらの人工物のうちのいくつかが、人工的に拡張された高バンド内の位相デリバティブの変化に関連することである。これらの人工物のうちの１つは、周波数上の位相デリバティブの変更である（「垂直」位相コヒーレンスも参照のこと）［非特許文献８］。前記位相デリバティブの保存は、時間領域の波形のようなパルス列とかなり低い基本周波数とを有するトーン信号に対して、知覚的に重要である。垂直位相デリバティブの変化に関連した人工物は、時間内の局部的なエネルギー拡散に対応し、ＢＷＥ技術により処理されたオーディオ信号の中にしばしば見つけられる。別の人工物は、どの基本周波数のオーバートーン豊かなトーン信号に対しても知覚的に重要である、時間上の位相デリバティブの変更である（「水平」位相コヒーレンスも参照のこと）。水平位相デリバティブの変更に関連した人工物は、ピッチ内の局部的な周波数オフセットに対応し、ＢＷＥ技術により処理されたオーディオ信号の中にしばしば見つけられる。

この特性がいわゆるオーディオバンド幅拡張（ＢＷＥ）の応用により解決されたとき、本発明は、そのような信号の垂直または水平位相デリバティブのいずれか一方を再調整するための手段を提供する。別の手段は、仮に位相デリバティブの復元が知覚的に有益であるならば、垂直または水平位相デリバティブのいずれを調整することが、知覚的に好ましいかを決定するために提供される。

スペクトルのバンド複製（ＳＢＲ）［非特許文献９］などのバンド幅拡張方法は、低ビット転送速度符号器においてしばしば使われる。それらは、より高いバンドについてのパラメータ情報によって、相対的に狭い低周波数領域だけをそばに送信することを許す。パラメータ情報のビット転送速度が小さいので、符号化効率の重要な改良が得られる。

一般に、より高いバンドのための信号は、送信された低周波数領域からそれを簡単にコ
ピーすることによって得られる。処理は、複雑に組み立てられた求積法鏡フィルタバンク（ＱＭＦ）［非特許文献１０］領域で通常実行される。それは、以下においても推定される。コピーアップされた信号は、送信されたパラメータに基づいて、最適ゲインでそれのマグニチュードスペクトルを乗算することによって処理される。目的は、オリジナル信号のそれとして、同様のマグニチュードスペクトルを得ることである。それどころか、コピーアップされた信号の位相スペクトルは一般に全然処理されないけれども、代わりに、コピーアップされた位相スペクトルは直接に使われる。

コピーアップされた位相スペクトルを直接に使うことの知覚的結果は、以下において調査される。観察された効果に基づいて、知覚的に最も重要な効果を検出するための２つの利点が提案される。さらに、それらに基づいて位相スペクトルを訂正する方法が提案される。最後に、訂正を実行するために送信されたパラメータ値の量を最小化するための戦略が提案される。

本発明は、位相デリバティブの保存または復元が、オーディオバンド幅拡張（ＢＷＥ）技術により引き起こされた突出した人工物を治すことができる、という発見に関連する。例えば、位相デリバティブの保存が重要である典型的な信号は、ボイススピーチまたは金管楽器またはバイオリンなどの弓のような、豊かな調和的なオーバートーンの内容を有するトーンである。

本発明は、さらに、仮に、与えられた信号のフレームに対して、位相デリバティブの復元が知覚的に有益であるならば、垂直または水平位相デリバティブ雑音を調整することが、知覚的に好ましいかを決定する手段を提供する。

本発明は、以下の面により、ＢＷＥ技術を使って、オーディオ符号器の中の位相デリバティブ訂正のための装置と方法とを教える。
１．位相デリバティブ訂正の「重要性」の定量化
２．垂直（「周波数」）位相デリバティブ訂正または水平（「時間」）位相デリバティブ訂正の信号依存優先度付け
３．訂正方向（「周波数」または「時間」）の信号依存切り替え
４．トランジェントのための専念された垂直位相デリバティブ訂正モード
５．平滑な訂正のための安定したパラメータの取得
６．訂正パラメータのコンパクトなサイド情報送信形式

２．ＱＭＦ領域の信号の提示
ｍが離散的な時間である時間領域信号ｘ（ｍ）は、例えば複雑に組み立てられた求積法鏡フィルタバンク（ＱＭＦ）を使って、時間周波数領域の中で提示される。結果として生じる信号は、Ｘ（ｋ，ｎ）である。ｋは周波数バンドインデックスであり、ｎは時間的（ｔｅｍｐｏｒａｌ）フレームインデックスである。６４個のバンドのＱＭＦおよび４８ｋＨｚのサンプリング周波数ｆ_sは、視覚化および実施の形態のために推定される。従って
、個々の周波数バンドのバンド幅ｆ_BWは３７５Ｈｚであり、時間的ホップサイズｔ_hop（
図２の中の１７）は１．３３ミリ秒である。しかし、処理はそのような変換に制限されない。代わりに、ＭＤＣＴ（修正された離散コサイン変換）またはＤＦＴ（離散フーリエ変換）が使われてもよい。

結果として生じる信号は、Ｘ（ｋ，ｎ）である。ｋは周波数バンドインデックスであり、ｎは時間的フレームインデックスである。Ｘ（ｋ，ｎ）は複雑な信号である。従って、それは、マグニチュードＸ^mag（ｋ，ｎ）と、複素数であるｊを有する位相コンポーネン
トＸ^pha（ｋ，ｎ）と、を使って提示もできる。

オーディオ信号は、たいていＸ^mag（ｋ，ｎ）とＸ^pha（ｋ，ｎ）とを使って提示される（２つの例のために図１を参照のこと）。

図１Ａは、バイオリン信号のマグニチュードスペクトルＸ^mag（ｋ，ｎ）を示す。図１
Ｂは、対応する位相スペクトルＸ^pha（ｋ，ｎ）を示す。両者は、ＱＭＦ領域内である。
さらに、図１Ｃは、トロンボーン信号のマグニチュードスペクトルＸ^mag（ｋ，ｎ）を示
す。図１Ｄは、また、対応するＱＭＦ領域内の、対応する位相スペクトルを示す。図１Ａおよび図１Ｃのマグニチュードスペクトルについて、色勾配は、赤色＝０ｄＢから青色＝−８０ｄＢまでのマグニチュードを示す。さらに、図１Ｂおよび図１Ｄの位相スペクトルに対して、色勾配は、赤色＝πから青色＝−πまでの位相を示す。

３．オーディオデータ
説明されるオーディオ処理の効果を示すために用いられるオーディオデータは、トロンボーンのオーディオ信号に対して「トロンボーン」と名付けられ、バイオリンのオーディオ信号に対して「バイオリン」と名付けられ、そして、途中で追加された拍手を伴うバイオリン信号に対して「バイオリン＋拍手」と名付けられる。

４．ＳＢＲの基本的な操作
図２は、時間フレーム１５とサブバンド２０とにより定義された時間周波数タイル１０（例えば、ＱＭＦビン、求積法鏡フィルタバンクビン）を含む時間周波数グラフ５を示す。オーディオ信号は、ＱＭＦ（求積法鏡フィルタバンク）変換、または、ＭＤＣＴ（修正された離散コサイン変換）、または、ＤＦＴ（離散フーリエ変換）を使って、時間周波数表現に変換される。時間フレームの中のオーディオ信号の分割は、オーディオ信号のオーバーラップしている部分から成る。図２の下の部分において、時間フレーム１５の１つのオーバーラップが示される。最大２つの時間フレームが同時にオーバーラップする。さらに、仮により多くの冗長性が必要であるならば、オーディオ信号は、さらに複数のオーバーラップを使って分割される。複数のオーバーラップアルゴリズムにおいて、３つ以上の時間フレームは、特定の時間ポイントにてオーディオ信号の同じ部分を含む。オーバーラップの期間はホップサイズｔ_hop１７である。

信号Ｘ（ｋ，ｎ）を推定すると、バンド幅拡張された（ＢＷＥ）信号Ｚ（ｋ，ｎ）が、送信された低周波数バンドの特定の部分をコピーアップすることによって、入力信号Ｘ（ｋ，ｎ）から得られる。ＳＢＲアルゴリズムは、送信されるべき周波数領域を選択することによって開始する。この例において、１から７までのバンドが選択される。

送信されるべき周波数バンドの量は、要求されたビット転送速度に依存する。図および式は、７個のバンドを使って作成され、５から１１までのバンドは、対応するオーディオデータのために使われる。従って、送信された周波数領域とより高いバンドとの間のクロスオーバー周波数は、それぞれ１８７５Ｈｚから４１２５Ｈｚまでである。この領域より上の周波数バンドは全く送信されないけれども、代わりに、パラメータのメタデータがそれらを説明するために作成される。Ｘ_trans（ｋ，ｎ）は符号化されて送信される。簡単
のために、たとえ別の処理が、推定された場合に制限されないと見える必要があっても、符号化は、どのような点においても信号を修正しないと推定される。

受信の終わりに、送信された周波数領域は、対応する周波数のために直接に使われる。

より高いバンドのために、信号は、何とかして、送信された信号を使って作成される。１つのアプローチが、送信された信号を、より高い周波数に単にコピーすることである。わずかに修正されたバージョンは、ここで使われる。先ず、ベースバンド信号が選択される。それは、送信された信号全体であるけれども、この実施の形態において、第１周波数バンドは省略される。この理由は、位相スペクトルが、多くの場合において、第１バンドに対して不規則であると気付いたことである。従って、コピーアップされるべきベースバンドは、式（３）と定義される。

別のバンド幅も、送信されたベースバンド信号のために使われる。ベースバンド信号を使うことによって、より高い周波数のための生の信号が作成される。
ここで、Ｙ_raw（ｋ，ｎ，ｉ）は、周波数パッチｉのための複雑なＱＭＦ信号である。
生の周波数パッチ信号は、送信されたメタデータに従って、ゲインｇ（ｋ，ｎ，ｉ）とそれらを乗算させることによって処理される。

ゲインが実数値であることに注目するべきであり、その結果、マグニチュードスペクトルのみが影響されて、要求された目標値に適応される。周知のアプローチは、ゲインが得られる方法を示す。目標位相は、前記周知のアプローチにおいて、訂正されないで残る。

再生されるべき最終信号は、要求されたバンド幅のＢＷＥ信号を得るために、バンド幅を継ぎ目なく拡張するために送信されたパッチ信号を連結することによって得られる。この実施の形態において、ｉ＝７が推定される。

図３は、グラフ表現において、説明された信号を示す。図３Ａはオーディオ信号の例示的な周波数図面を示す。周波数のマグニチュードは、１０個以上の異なるサブバンド上に記載されている。最初の７つのサブバンドは、送信された周波数バンドＸ_trans（ｋ，ｎ
）２５を反映する。ベースバンドＸ_base（ｋ，ｎ）３０は、そこから、２番目から７番目までのサブバンドを選択することによって引き出される。図３Ａは、オリジナルのオーディオ信号、すなわち送信または符号化の前のオーディオ信号を示す。図３Ｂは、受信後、例えば中間的なステップで復号プロセス中のオーディオ信号の例示的な周波数表現を示す。オーディオ信号の周波数スペクトルは、送信された周波数バンド２５と、ベースバンドの周波数より高い周波数を構成するオーディオ信号３２を形成している周波数スペクトルのより高いサブバンドにコピーされた７個のベースバンド信号３０と、を含む。完全なベースバンド信号は、周波数パッチとも呼ばれる。図３Ｃは、再構成されたオーディオ信号Ｚ（ｋ，ｎ）３５を示す。図３Ｂに比べて、ベースバンド信号のパッチは、ゲインファクターによって個々に増加される。従って、オーディオ信号の周波数スペクトルは、主要な周波数スペクトル２５と、複数のマグニチュード訂正パッチＹ（ｋ，ｎ，１）４０と、を含む。このパッチ化方法は、直接コピーアップパッチ化と呼ばれる。たとえ本発明がそのようなパッチ化アルゴリズムに制限されなくても、直接コピーアップパッチは、本発明を説明するために例示的に用いられる。使われる別のパッチ化アルゴリズムは、例えば高調波パッチ化アルゴリズムである。

より高いバンドのパラメータ表現が完全であること、すなわち、再構成された信号のマグニチュードスペクトルが、オリジナル信号のそれと同一であることが推定される。

しかし、位相スペクトルが、アルゴリズムによって、どのような点でも訂正されない、ことに注目するべきである。従って、たとえアルゴリズムが完全に働いても、それは訂正されない。従って、実施の形態は、知覚品質の改良が得られるように、Ｚ（ｋ，ｎ）の位相スペクトルを、目標値に付加的に適応させて訂正する方法を示す。実施の形態において、訂正は、３つの異なる処理モード、「水平」と「垂直」と「トランジェント」とを使って実行できる。これらのモードは、以下において別々に議論される。

Ｚ^mag（ｋ，ｎ）およびＺ^pha（ｋ，ｎ）は、バイオリン信号とトロンボーン信号とのために、図４において記載される。図４は、直接コピーアップパッチ化によって、スペクトルバンド幅複製（ＳＢＲ）を使って、再構成されたオーディオ信号３５の例示的スペクトルを示す。バイオリン信号のマグニチュードスペクトルＺ^mag（ｋ，ｎ）は、図４Ａにお
いて示される。図４Ｂは、対応する位相スペクトルＺ^pha（ｋ，ｎ）を示す。図４Ｃおよ
び図４Ｄは、トロンボーン信号のための対応するスペクトルを示す。全ての信号はＱＭＦ領域の中で提供される。図１において既に示されているように、色勾配は、赤色＝０ｄＢから青色＝−８０ｄＢまでのマグニチュードと、赤色＝πから青色＝−πまでの位相を示す。それらの位相スペクトルが、オリジナル信号のスペクトルと異なる、ことが認められる（図１を参照のこと）。ＳＢＲのため、バイオリンは不調和性を含むことに気づかれ、トロンボーンはクロスオーバー周波数で組み立てられる雑音を含むことに気づかれる。しかし、位相プロットは全くランダムに見え、それらがどれほど違うか、および、違いの知覚的効果が何であるか、を言うことは本当に難しい。さらに、この種類のランダムなデータのために送られる訂正データは、低いビット転送速度を必要とする符号化応用において、適さない。従って、位相スペクトルの知覚的効果を理解すること、および、それらを説明することに対する利点を見付けることが必要である。これらの話題は、以下の節で議論される。

５．ＱＭＦ領域の位相スペクトルの意義
しばしば、周波数バンドのインデックスが単一のト−ンコンポーネントの周波数を定義し、マグニチュードがそれのレベルを定義し、位相がそれの「タイミング」を定義することが考えられる。しかし、ＱＭＦバンドのバンド幅は相対的に大きく、データは過剰にサンプリングされる。従って、時間周波数タイル（すなわち、ＱＭＦビン）間の相互作用は、実際、これらの特性の全てを定義する。

３つの異なる位相値によって、単一のＱＭＦビンの時間領域の提示、すなわち、Ｘ^mag
（３，１）＝１およびＸ^pha（３，１）＝０またはπ／２またはπは、図５において記載
される。結果は、１３．３ミリ秒の長さを有する正弦状関数である。関数の正確な形は、位相パラメータによって定義される。

唯一の周波数バンドが、全ての時間的（ｔｅｍｐｏｒａｌ）フレームに対して非ゼロである場合を考慮する。すなわち、

固定値αによって時間的フレーム間の位相を変更すること、すなわち、
によって、正弦曲線が作成される。結果として生じる信号（すなわち、逆ＱＭＦ変換の後の時間領域信号）は、α＝π／４（上方）と３π／４（下方）の値によって、図６において示される。正弦曲線の周波数は、位相変化により影響されることが認められる。信号の周波数領域は図６の右側に示される。信号の時間領域は図６の左側に示される。

対応して、仮に位相が無作為に選択されるならば、結果は狭バンド雑音である（図７を参照のこと）。従って、ＱＭＦビンの位相は、対応する周波数バンドの内側の周波数内容を制御している、と言うことができる。

図８は、４つの時間フレームおよび４つの周波数サブバンドの時間周波数表現において、図６について説明した効果を示す。第３サブバンドだけが、ゼロと異なる周波数から成る。これは、図８の右側に図式的に提示された図６から周波数領域信号を結果として生じ、および図８の下方に図式的に提示された図６の時間領域表現を結果として生じる。

唯一の時間的フレームが、全ての周波数バンドに対して非ゼロである場合を考慮する。すなわち、

固定値αによって周波数バンド間の位相を変更すること、すなわち、
によって、トランジェントが作成される。結果として生じる信号（すなわち、逆ＱＭＦ変換の後の時間領域信号）は、α＝π／４（上方）と３π／４（下方）の値によって図９において示される。トランジェントの時間的位置は、位相変化により影響されることが認められる。周波数領域は図９の右側に示される。信号の時間領域は図９の左側に示される。

対応して、仮に位相が無作為に選択されるならば、結果は短い雑音爆発である（図１０を参照のこと）。従って、ＱＭＦビンの位相も、対応する時間的フレームの内側の高調波の時間的位置を制御している、と言うことができる。

図１１は、図８において示された時間周波数図と同様な時間周波数図を示す。図１１において、第３時間フレームだけが、あるサブバンドから別のサブバンドへπ／４の時間シフトを有する、ゼロと異なる値から成る。周波数領域に変換されると、図９の右側から周波数領域信号が得られ、図１１の右側に図式的に提示される。図９の左側部分の時間領域表現の図が、図１１の下方に提示される。この信号は、時間周波数領域を時間領域信号に変換することによって、結果として生じる。

６．位相スペクトルの知覚的に関連する特性を記載するための尺度
４節で議論されたように、位相スペクトルそれ自体は、全く乱雑に見え、その知覚への効果が何であるかを直接見ることは難しい。５節は、ＱＭＦ領域の位相スペクトルを処理することによって引き起こされる２つの効果を提示した：（ａ）時間上の一定の位相変化は正弦曲線を作り出し、位相変化の量は正弦曲線の周波数を制御する、そして、（ｂ）周波数上の一定の位相変化はトランジェントを生み出し、位相変化の量はトランジェントの時間的位置を制御する。

部分的な周波数および時間的位置は、明らかに、人間の知覚に重要である。従って、これらの特性を検出することは潜在的に有益である。それらは、時間上の位相デリバティブ（ＰＤＴ）を計算すること、
そして、周波数上の位相デリバティブ（ＰＤＦ）を計算すること、
によって推定される。

Ｘ^pdt（ｋ，ｎ）は部分的な周波数に関連し、Ｘ^pdf（ｋ，ｎ）は部分的な時間的位置に関連する。ＱＭＦ分析（隣接する時間的フレームのモジュレータ（変調器）の位相が、どのようにトランジェントの位置で合致するか）の特性のため、πが、平滑な曲線を作成するために、視覚化目的の図面において、Ｘ^pdf（ｋ，ｎ）の等しい時間的フレームに追加
される。

次に、これらの尺度が、私達の例示信号に対して、どのように見えるかが検査される。図１２は、バイオリン信号およびトロンボーン信号のデリバティブを示す。より明確には、図１２Ａは、ＱＭＦ領域において、オリジナルの、すなわち無処理のバイオリンオーディオ信号の時間上の位相デリバティブＸ^pdt（ｋ，ｎ）を示す。図１２Ｂは、対応する周
波数上の位相デリバティブＸ^pdf（ｋ，ｎ）を示す。図１２Ｃおよび図１２Ｄは、それぞ
れ、トロンボーン信号のための時間上の位相デリバティブおよび周波数上の位相デリバティブを示す。色勾配は、赤色＝πから青色＝−πまでの位相値を示す。バイオリンに対して、マグニチュードスペクトルは、基本的に約０．１３秒までの雑音（図１を参照のこと）であり、それゆえ、デリバティブも雑音的である。約０．１３秒のＸ^pdtからの開始は
、時間上の相対的に安定した値を有するように見える。これは、信号が、強く、相対的に安定した正弦曲線を含むことを意味する。これらの正弦曲線の周波数は、Ｘ^pdt値によっ
て決定される。それどころか、Ｘ^pdfプロットは相対的に騒々しく見える。従って、関連
したデータは、バイオリンに対して、それを使って全然見つけられない。

トロンボーンに対して、Ｘ^pdtは相対的に雑音的である。それどころか、Ｘ^pdfは、全ての周波数で、およそ同じ値を有するように見える。実際に、これは、全ての高調波コンポーネントが、トランジェント状信号を作成する時間内に、位置合わせされることを意味する。トランジェントの時間的位置は、Ｘ^pdf値によって決定される。

同じデリバティブも、ＳＢＲ処理された信号Ｚ（ｋ，ｎ）のために計算できる（図１３を参照のこと）。図１３Ａから図１３Ｄまでは、前述の直接コピーアップＳＢＲアルゴリズムを使って引き出された図１２Ａから図１２Ｄまでに直接に関連する。位相スペクトルが、ベースバンドからより高い周波数のパッチに簡単にコピーされるので、周波数パッチのＰＤＴは、ベースバンドのそれと同一である。従って、バイオリンに対して、ＰＤＴは、オリジナル信号の場合のように、安定した正弦曲線を作成している時間に亘って、相対的に平滑である。しかし、Ｚ^pdtの値は、オリジナル信号Ｘ^pdtを有するそれらより種々であり、作成された正弦曲線は、オリジナル信号より種々の周波数を有することを引き起こす。これの知覚効果は７節で議論される。

対応して、周波数パッチのＰＤＦは、ベースバンドのそれと違った形で同一であるけれども、クロスオーバー周波数では、ＰＤＦは、実際、ランダムである。クロスオーバーで、ＰＤＦは、実際、周波数パッチの最後と最初の位相値の間で計算される、すなわち、

これらの値は実際のＰＤＦとクロスオーバー周波数とに依存し、それらはオリジナル信号の値に合致しない。

トロンボーンに対して、コピーアップされた信号のＰＤＦ値は、クロスオーバー周波数から離れて訂正される。従って、殆どの高調波の時間的位置は、訂正場所にあるけれども、クロスオーバー周波数の高調波は、実際、ランダムな位置にある。これの知覚的効果は７節で議論される。

７．位相エラーの人間の知覚
音は、２つのカテゴリー：高調波信号と雑音状信号とに、粗く分けられる。雑音状信号は、既に定義によって雑音的な位相特性を有する。従って、ＳＢＲにより引き起こされた位相エラーは、それらによって知覚的に重要でないと推定される。代わりに、それは高調波信号に集中される。殆どの楽器とスピーチが、信号に対して高調波構造を作成する。すなわち、トーンは、基本周波数によって、周波数の中で間隔をおいて配置された強い正弦曲線コンポーネントを含む。

人間のヒアリングは、しばしば、あたかも、それが、オーバーラップするバンド通過フィルタ（聴覚のフィルタと呼ばれる）のバンクを含む、かのように振る舞うと推定される。従って、ヒアリングは、聴覚のフィルタの内側の部分的な音が、１つの実在として分析されるように、複雑な音を処理すると推定される。これらのフィルタの幅は、等価矩形バンド幅（ＥＲＢ）［非特許文献１１］に続くように近づくことができる。ＥＲＢは、式（１５）に従って決定される。
ここで、ｆ_cは、バンド（ｋＨｚにおいて）の中心周波数である。４節で議論されたよ
うに、ベースバンドとＳＢＲパッチとの間のクロスオーバー周波数は、約３ｋＨｚである。これらの周波数で、ＥＲＢは約３５０Ｈｚである。ＱＭＦ周波数バンドのバンド幅は、実際、これに相対的に近く、３７５Ｈｚである。ここに、ＱＭＦ周波数バンドのバンド幅は、興味ある周波数でＥＲＢに続くように推定される。

６節で、誤った位相スペクトルのため悪くなる音の２つの特性：部分的コンポーネントの周波数およびタイミングが、観察された。周波数に集中すると、問題は、人間のヒアリングは個々の高調波の周波数を知覚することができるか？である。仮にそれができるならば、ＳＢＲにより引き起こされた周波数オフセットが訂正されるべきであり、仮にそれができなければ、訂正は必要ない。

解決された高調波および未だ解決されていない高調波の概念［非特許文献１２］が、この話題を明確にするために用いられる。仮にＥＲＢの内側に唯一の高調波が存在するならば、高調波は解決されたと見做される。人間のヒアリングが、解決された高調波を個々に処理し、従って、それらの周波数に敏感であることは、一般的に推定される。実際、解決された高調波の周波数を変更することは、不調和性を引き起こすことに気付かされる。

対応して、仮にＥＲＢの内側に複数の高調波が存在するならば、高調波は未だ解決されていないと見做される。人間のヒアリングは、これらの高調波を個々に処理しないと推定されるけれども、代わりに、それらの結合効果は聴覚のシステムによって見られる。結果は周期的信号であり、周期の長さは高調波の間隔によって決定される。ピッチ知覚は、周期の長さに関連する。従って、人間のヒアリングはそれに敏感であると推定される。それにもかかわらず、仮にＳＢＲの中の周波数パッチの内側の全ての高調波が、同じ量だけシフトされるならば、高調波間の間隔（知覚されるピッチ）は、同じであり続ける。ここに、未だ解決されていない高調波の場合において、人間のヒアリングは、不調和性として、周波数オフセットを知覚しない。

ＳＢＲにより引き起こされるタイミング関連のエラーが、次に考慮される。タイミングによって、高調波コンポーネントの時間的位置または位相は意味がある。これはＱＭＦビンの位相と混同されるべきでない。タイミング関連のエラーの知覚は、非特許文献１３において詳細に研究された。殆どの信号に対して、人間のヒアリングは、高調波コンポーネントのタイミングまたは位相に敏感でない、ことが観察された。しかし、人間のヒアリングが一部のタイミングに非常に敏感である特定の信号が存在する。この信号は、例えばトロンボーン音とトランペット音とスピーチを含む。これらの信号によって、特定の位相角が、同時に即時に全ての高調波に起こる。異なる聴覚バンドの神経の興奮速度は、非特許文献１３においてシミュレーションされた。これらの位相敏感信号によって、生み出された神経の興奮速度は、全ての聴覚のバンドでピークであり、ピークは時間内に位置合わせされることが発見された。等しく単一の高調波の位相を変更することは、これらの信号によって神経の興奮速度のピーク度を変更できる。公式の聞き取りテストの結果によると、人間のヒアリングはこれに敏感である［非特許文献１３］。生み出された効果は、位相が修正された周波数における、付加された正弦曲線のコンポーネントまたは狭周波数バンド雑音の知覚である。

さらに、タイミング関連の効果への敏感性は、高調波トーンの基本周波数に依存することが発見された［非特許文献１３］。基本周波数が低ければ低いほど、知覚効果はより大きい。仮に基本周波数が約８００Ｈｚより上であるならば、聴覚のシステムはタイミング関連効果に全く敏感でない。

従って、仮に基本周波数が低く、高調波の位相が周波数上で位置合わせされる（それは、高調波の時間的位置が位置合わせされることを意味する）ならば、高調波のタイミングまたは位相の変化は、人間のヒアリングによって知覚される。仮に基本周波数が高く、および／または、高調波の位相が周波数上で位置合わせされないならば、人間のヒアリングは、高調波のタイミングの変化に敏感でない。

８．訂正方法
７節において、人間は解決された高調波の周波数の中のエラーに敏感である、ことに注目された。さらに、仮に基本周波数が低く、高調波が周波数上で位置合わせされるならば、人間は高調波の時間的位置の中のエラーに敏感である。ＳＢＲは、６節で議論されたように、これらのエラーの両方を引き起こす。従って、知覚の品質は、それらを訂正することによって改良される。そうする方法が、この節において提案される。

図１４は、訂正方法の基本的なアイデアを図式的に説明する。図１４Ａは、ユニット円において、例えば、連続する時間フレームまたは周波数サブバンドの４つの位相４５ａ−ｄを図式的に示す。位相４５ａ−ｄは、９０°で等しく間隔をおいて配置される。図１４Ｂは、ＳＢＲ処理後の位相を示し、点線で訂正位相を示す。処理前の位相４５ａは、位相角４５ａ´にシフトされる。同じことが位相４５ｂから位相４５ｄまでに適用される。処理後の位相間、すなわち位相デリバティブ間の差は、ＳＢＲ処理後に壊れる、ことが示される。例えば、位相４５ａ´と位相４５ｂ´との間の差は、ＳＢＲ処理後に１１０°である。それは処理前に９０°であった。訂正方法は、９０°の古い位相デリバティブを取り戻すために、位相値４５ｂ´を新しい位相値４５ｂ´´に変更する。同じ訂正は、位相４５ｄ´と位相４５ｄ´´とに適用される。

８．１周波数エラーを訂正すること−水平位相デリバティブ訂正
７節で議論されたように、１つのＥＲＢの内側に唯一の高調波が存在するとき、人間は、たいてい高調波の周波数の中のエラーを知覚できる。さらに、ＱＭＦ周波数バンドのバンド幅は、最初のクロスオーバーでＥＲＢを推定するために用いられる。ここに、１つの周波数バンドの内側に１つの高調波が存在するときだけ、周波数は訂正される必要がある
。５節が、仮に１つのバンド当たり１つの高調波が存在するならば、生み出されたＰＤＴ値は安定しているか、または、時間上ゆっくり変化し、低いビット転送速度を使って潜在的に訂正されることを示したので、これは非常に便利である。

図１５は、オーディオ信号５５を処理するためのオーディオプロセッサ５０を示す。オーディオプロセッサ５０は、オーディオ信号位相尺度計算器６０と目標位相尺度決定器６５と位相訂正器７０とから成る。オーディオ信号位相尺度計算器６０は、時間フレーム７５のためのオーディオ信号５５の位相尺度８０を計算するように構成される。目標位相尺度決定器６５は、前記時間フレーム７５のための目標位相尺度８５を決定するように構成される。さらに、位相訂正器７０は、処理されたオーディオ信号９０を得るために、計算された位相尺度８０と目標位相尺度８５とを使用して、時間フレーム７５のためのオーディオ信号５５の位相４５を訂正するように構成される。任意で、オーディオ信号５５は、時間フレーム７５のための複数のサブバンド信号９５を含む。オーディオプロセッサ５０の別の実施の形態は、図１６について説明される。実施の形態によると、目標位相尺度決定器６５は、第１目標位相尺度８５ａと、第２サブバンド信号９５ｂのための第２目標位相尺度８５ｂとを決定するように構成される。従って、オーディオ信号位相尺度計算器６０は、第１サブバンド信号９５ａのための第１位相尺度８０ａと、第２サブバンド信号９５ｂのための第２位相尺度８０ｂとを決定するように構成される。位相訂正器７０は、オーディオ信号５５の第１位相尺度８０ａおよび第１目標位相尺度８５ａを使って、第１サブバンド信号９５ａの位相４５ａを訂正するように、そして、オーディオ信号５５の第２位相尺度８０ｂおよび第２目標位相尺度８５ｂを使って、第２サブバンド信号９５ｂの第２位相４５ｂを訂正するように構成される。さらに、オーディオプロセッサ５０は、処理された第１サブバンド信号９５ａおよび処理された第２サブバンド信号９５ｂを使って、処理されたオーディオ信号９０を合成するためのオーディオ信号シンセサイザー１００を含む。別の実施の形態によれば、位相尺度８０は、時間上の位相デリバティブである。従って、オーディオ信号位相尺度計算器６０は、複数のサブバンドの個々のサブバンド９５に対して、現在の時間フレーム７５ｂの位相値４５と未来の時間フレーム７５ｃの位相値との位相デリバティブを計算する。それに応じて、位相訂正器７０は、現在の時間フレーム７５ｂの複数のサブバンドの個々のサブバンド９５に対して、目標位相デリバティブ８５と時間上位相デリバティブ８０との間の偏差を計算できる。位相訂正器７０により実行される訂正は、偏差を使って実行される。

実施の形態は、訂正サブバンド信号９５の周波数が、オーディオ信号５５の基本周波数に高調波的に割り当てられている周波数値を有するように、時間フレーム７５内のオーディオ信号５５の種々のサブバンドのサブバンド信号９５を訂正するように構成されている位相訂正器７０を示す。基本周波数は、オーディオ信号５５、または、別の言葉で、オーディオ信号５５の第１高調波の中に存在する最も低い周波数である。

さらに、位相訂正器７０は、前の時間フレーム７５ａおよび現在の時間フレーム７５ｂおよび未来の時間フレーム７５ｃ上の複数のサブバンドの個々のサブバンド９５のための偏差１０５を平滑化するように構成され、サブバンド９５内の偏差１０５の急速な変化を減らすように構成される。別の実施の形態によると、平滑化は、重み付けされた平均である。位相訂正器７０は、前の時間フレーム７５ａおよび現在の時間フレーム７５ｂおよび未来の時間フレーム７５ｃの中のオーディオ信号５５のマグニチュードによって重み付けされた、前の時間フレーム７５ａおよび現在の時間フレーム７５ｂおよび未来の時間フレーム７５ｃに亘って重み付けされた平均を計算するように構成される。

実施の形態は、ベクトルに基づく前述した処理ステップを示す。従って、位相訂正器７０は、偏差１０５のベクトルを形成するように構成される。ベクトルの第１要素は、前の時間フレーム７５ａから現在の時間フレーム７５ｂまでの、複数のサブバンドの第１サブ
バンド９５ａのための第１偏差１０５ａと呼ばれる。ベクトルの第２要素は、前の時間フレーム７５ａから現在の時間フレーム７５ｂまでの、複数のサブバンドの第２サブバンド９５ｂのための第２偏差１０５ｂと呼ばれる。さらに、位相訂正器７０は、偏差１０５のベクトルを、オーディオ信号５５の位相４５に適用できる。ベクトルの第１要素は、オーディオ信号５５の複数のサブバンドの第１サブバンド９５ａの中のオーディオ信号５５の位相４５ａに適用される。ベクトルの第２要素は、オーディオ信号５５の複数のサブバンドの第２サブバンド９５ｂの中のオーディオ信号５５の位相４５ｂに適用される。

別の観点から、オーディオプロセッサ５０の中の全体の処理が、ベクトルに基づいていると言える。個々のベクトルは時間フレーム７５を表す。複数のサブバンドの個々のサブバンド９５は、ベクトルの要素を含む。別の実施の形態は、現在の時間フレーム７５ｂのための基本周波数推定８５ｂを得るように構成される目標位相尺度決定器６５に焦点を当てる。目標位相尺度決定器６５は、時間フレーム７５のための基本周波数推定８５を使って、時間フレーム７５のための複数のサブバンドの個々のサブバンドごとに周波数推定８５を計算するように構成される。さらに、目標位相尺度決定器６５は、サブバンド９５の全体の数およびオーディオ信号５５のサンプリング周波数を使って、複数のサブバンドの個々のサブバンド９５に対して、周波数推定８５を、時間上の位相デリバティブの中に転換する。明確化のために、目標位相尺度決定器６５の出力８５は、時間上の周波数推定または位相デリバティブのいずれか一方であることが、実施の形態に依存して注目する必要がある。従って、一方の実施の形態において、周波数推定は、位相訂正器７０の中の別の処理のために正しい形式を既に含み、他方の実施の形態において、周波数推定は、時間上の位相デリバティブである適した形式に転換される必要がある。

従って、目標位相尺度決定器６５は、同様に、ベクトルに基づくように見える。ゆえに、目標位相尺度決定器６５は、複数のサブバンドの個々のサブバンド９５のための周波数推定８５のベクトルを形成できる。ベクトルの第１要素は、第１サブバンド９５ａのための周波数推定８５ａと呼ぶ。ベクトルの第２要素は、第２サブバンド９５ｂのための周波数推定８５ｂと呼ぶ。さらに、目標位相尺度決定器６５は、基本周波数の倍数を使って、周波数推定８５を計算できる。現在のサブバンド９５の周波数推定８５は、サブバンド９５の中心に最も近い基本周波数の倍数か、または、仮に基本周波数の倍数が現在のサブバンド９５内にないならば、現在のサブバンドの周波数推定８５は、現在のサブバンド９５の境界周波数である。

言い換えると、オーディオプロセッサ５０を使って高調波の周波数の中のエラーを訂正するための提案されたアルゴリズムは、以下の通り機能する。先ず、ＰＤＴが計算され、ＳＢＲが信号Ｚ^pdtを処理した。Ｚ^pdt（ｋ，ｎ）＝Ｚ^pha（ｋ，ｎ＋１）−Ｚ^pha（ｋ，ｎ）。水平訂正のために、それと目標ＰＤＴとの間の差が、次に計算される。

この時、目標ＰＤＴは、入力信号の入力のＰＤＴに等しいと推定される。

後で、目標ＰＤＴが、低いビット転送速度によって得られる方法が提示される。

この値（すなわち、エラー値１０５）は、ハン窓（Ｈａｎｎｗｉｎｄｏｗ）Ｗ（ｌ）を使って、時間上、平滑化される。例えば、適した長さは、ＱＭＦ領域の中の４１個のサンプルである（５５ミリ秒の間隔に相当している）。平滑化は、対応する時間周波数タイルのマグニチュードによって重み付けされる。

次に、変調器マトリクスが、要求されたＰＤＴを得るために、位相スペクトルを修正するために作成される。

位相スペクトルは、このマトリクスを使って処理される。

別の実施の形態において、オーディオプロセッサ５０は、デコーダ１１０の一部である。従って、オーディオ信号５５を復号するためのデコーダ１１０は、オーディオプロセッサ５０とコアデコーダ１１５とパッチ器１２０とを含む。コアデコーダ１１５は、オーディオ信号５５について、数が減らされたサブバンドを有する時間フレーム７５の中のオーディオ信号２５をコア復号するように構成される。パッチ器１２０は、数が減らされたサブバンドによってコア復号されたオーディオ信号２５のサブバンド９５のセットをパッチする。サブバンドのセットは、正規の数のサブバンドによってオーディオ信号５５を得るために、第１パッチ３０ａを、数が減らされたサブバンドに隣接する時間フレーム７５の中の別のサブバンドに形成する。さらに、オーディオプロセッサ５０は、目標関数８５に従って第１パッチ３０ａのサブバンド内の位相４５を訂正するように構成される。オーディオプロセッサ５０およびオーディオ信号５５は、図１５および図１６に関して説明されている。ここにおいて記載されていない符号が、図１９の中で説明される。実施の形態に従うオーディオプロセッサは、位相訂正を実行する。実施の形態に依存すると、オーディオプロセッサは、ＢＷＥまたはＳＢＲパラメータをパッチに適用するバンド幅拡張パラメ
ータ応用器１２５によって、オーディオ信号のマグニチュード訂正をさらに含む。さらに、オーディオプロセッサは、正規のオーディオファイルを得るために、オーディオ信号のサブバンドを組み合わせるための、すなわち合成するためのシンセサイザー１００（例えば、合成フィルタバンク）を含む。

別の実施の形態によると、パッチ器１２０は、オーディオ信号２５のサブバンド９５のセットを、第１パッチに隣接する時間フレームの別のサブバンドにパッチするように構成される。サブバンドのセットは、第２パッチを形成する。オーディオプロセッサ５０は、第２パッチのサブバンド内の位相４５を訂正するように構成される。代わりに、パッチ器１２０は、訂正第１パッチを、第１パッチに隣接する時間フレームの別のサブバンドにパッチするように構成される。

言い換えると、第１オプションにおいて、パッチ器が、オーディオ信号の送信された部分から、正規の数のサブバンドによってオーディオ信号を組み立て、その後、オーディオ信号の個々のパッチの位相が訂正される。第２オプションは、オーディオ信号の送信された部分に関して第１パッチの位相を最初に訂正し、その後、既に訂正第１パッチによって正規の数のサブバンドによってオーディオ信号を組み立てる。

別の実施の形態は、オーディオ信号５５の現在の時間フレーム７５の基本周波数１１４を、データストリーム１３５から取り出すように構成されたデータストリーム抽出器１３０を含むデコーダ１１０を示す。データストリームは、数が減らされたサブバンドによって符号化されたオーディオ信号１４５をさらに含む。代わりに、デコーダは、基本周波数１４０を計算するために、コア復号されたオーディオ信号２５を分析するように構成された基本周波数分析器１５０を含む。言い換えると、基本周波数１４０を引き出すためのオプションは、例えば、デコーダまたはエンコーダの中のオーディオ信号の分析である。値がエンコーダからデコーダに送信される必要があるので、後者の場合、基本周波数は、より高いデータ転送速度にて、より正確である。

図２０は、オーディオ信号５５を符号化するためのエンコーダ１５５を示す。エンコーダは、オーディオ信号に関して、数が減らされたサブバンドを有するコア符号化されたオーディオ信号１４５を得るために、オーディオ信号５５をコア符号化するためのコアエンコーダ１６０を含む。そして、エンコーダは、オーディオ信号５５、または、オーディオ信号の基本周波数推定を得るためのオーディオ信号５５のローパスフィルタされたバージョンを分析するための基本周波数分析器１７５を含む。さらに、エンコーダは、コア符号化されたオーディオ信号１４５に含まれないオーディオ信号５５のサブバンドのパラメータを取り出すためのパラメータ抽出器１６５を含むと共に、エンコーダは、コア符号化されたオーディオ信号１４５とパラメータと基本周波数推定とから成る出力信号１３５を形成するための出力信号形成器１７０を含む。この実施の形態において、エンコーダ１５５は、コアデコーダ１６０の前のローパスフィルタ１８０と、パラメータ抽出器１６５の前のハイパスフィルタ１８５とを含む。別の実施の形態によると、出力信号形成器１７０は、一連のフレームの中に出力信号１３５を形成するように構成される。個々のフレームは、コア符号化された信号１４５と、パラメータ１９０とを含む。そして、個々のｎ（ｎ≧２）番目のフレームだけが、基本周波数推定１４０を含む。実施の形態において、コアエンコーダ１６０は、例えばＡＡＣ（高度なオーディオ符号化）エンコーダである。

代わりの実施の形態において、インテリジェントなギャップを満たすエンコーダが、オーディオ信号５５を符号化するために使われる。従って、コアエンコーダは、オーディオ信号の少なくとも１つのサブバンドが除外される、満たされたバンド幅オーディオ信号を符号化する。従って、パラメータ抽出器１６５は、コアエンコーダ１６０の符号化プロセスから除外されるサブバンドを再構成するためのパラメータを取り出す。

図２１は、出力信号１３５の模式的説明を示す。出力信号は、オリジナルオーディオ信号５５に関して、数が減らされたサブバンドを有するコア符号化されたオーディオ信号１４５と、コア符号化されたオーディオ信号１４５に含まれないオーディオ信号のサブバンドを表現するパラメータ１９０と、オーディオ信号１３５またはオリジナルオーディオ信号５５の基本周波数推定１４０と、から成るオーディオ信号である。

図２２は、一連のフレーム１９５の中に形成されるオーディオ信号１３５の実施の形態を示す。個々のフレーム１９５は、コア符号化されたオーディオ信号１４５と、パラメータ１９０とを含む。そして、個々のｎ（ｎ≧２）番目のフレーム１９５だけが、基本周波数推定１４０を含む。これは、例えば全ての２０番目のフレームに対して、等しく間隔をおいて配置された基本周波数推定送信を説明する。または、基本周波数推定は、例えば要求または目的のために、不規則に送信される。

図２３は、「オーディオ信号位相デリバティブ計算器で、時間フレームのためにオーディオ信号の位相尺度を計算する」というステップ２３０５と、「目標位相デリバティブ決定器で、前記時間フレームのために目標位相尺度を決定する」というステップ２３１０と、「処理されたオーディオ信号を得るために、計算する位相尺度および目標位相尺度を使って、位相訂正器で、時間フレームのためにオーディオ信号の位相を訂正する」というステップ２３１５と、によってオーディオ信号を処理するための方法２３００を示す。

図２４は、「オーディオ信号に関して、数が減らされたサブバンドによって時間フレームの中のオーディオ信号を復号する」というステップ２４０５と、「数が減らされたサブバンドによって復号されたオーディオ信号のサブバンドのセットをパッチする、ここで、サブバンドのセットは、正規の数のサブバンドによってオーディオ信号を得るために、第１パッチを、数が減らされたサブバンドに隣接する時間フレームの中の別のサブバンドに形成する」というステップ２４１０と、「オーディオプロセスによって、目標関数に従って、第１パッチのサブバンド内の位相を訂正する」というステップ２４１５と、によってオーディオ信号を復号するための方法２４００を示す。

図２５は、「オーディオ信号に関して、数が減らされたサブバンドを有するコア符号化されたオーディオ信号を得るために、コアエンコーダによってオーディオ信号をコア符号化する」というステップ２５０５と、「オーディオ信号のための基本周波数推定を得るために、基本周波数分析器によって、オーディオ信号またはオーディオ信号のローパスフィルタされたバージョンを分析する」というステップ２５１０と、「パラメータ抽出器によって、コア符号化されたオーディオ信号の中に含まれないオーディオ信号のサブバンドのパラメータを引き出す」というステップ２５１５と、「出力信号形成器によって、コア符号化されたオーディオ信号とパラメータと基本周波数推定とから成る出力信号を形成する」というステップ２５２０と、によってオーディオ信号を符号化するための方法２５００を示す。

説明された方法２３００および方法２４００および方法２５００は、コンピュータプログラムがコンピュータ上を稼働するとき、その方法を実行するためのコンピュータプログラムのプログラムコードの中に実装される。

８．２時間的エラーを訂正すること−垂直位相デリバティブ訂正
前述したように、仮に高調波が周波数上で同期し、かつ、基本周波数が低いならば、人間は、高調波の時間的位置の中のエラーを知覚することができる。５節では、仮に周波数上の位相デリバティブが、ＱＭＦ領域において一定であるならば、高調波が同期することが示された。従って、個々の周波数バンドの中に、少なくともに１つの高調波を有するこ
とは、有利である。さもなければ、「空の」周波数バンドは、ランダムな位相を有し、この尺度を妨害する。幸運にも、人間は、基本周波数が低い時にだけ、高調波の時間的な位置に敏感である（７節を参照のこと）。従って、周波数上の位相デリバティブは、高調波の時間的な動きのため、知覚的に重要な効果を決定するための尺度として使われる。

図２６は、オーディオ信号５５を処理するためのオーディオプロセッサ５０´の模式的ブロック図を示す。オーディオプロセッサ５０´は、目標位相尺度決定器６５と位相エラー計算器２００と位相訂正器７０とを含む。目標位相尺度決定器６５´は、時間フレーム７５の中のオーディオ信号５５のための目標位相尺度８５´を決定する。位相エラー計算器２００は、時間フレーム７５の中のオーディオ信号５５の位相と目標位相尺度８５´とを使って、位相エラー１０５´を計算する。位相訂正器７０´は、処理されたオーディオ信号９０´を形成する位相エラー１０５´を使って、時間フレームの中のオーディオ信号５５の位相を訂正する。

図２７は、別の実施の形態に従うオーディオプロセッサ５０´の模式的ブロック図を示す。従って、オーディオ信号５５は、時間フレーム７５のための複数のサブバンド９５を含む。従って、目標位相尺度決定器６５´は、第１サブバンド信号９５ａのための第１目標位相尺度８５ａ´と、第２サブバンド信号９５ｂのための第２目標位相尺度８５ｂ´とを決定するように構成される。位相エラー計算器２００は、位相エラー１０５´のベクトルを形成する。ベクトルの第１要素は、第１サブバンド信号９５ａの位相と第１目標位相尺度８５ａ´との第１偏差１０５ａ´を参照する。ベクトルの第２要素は、第２サブバンド信号９５ｂの位相と第２目標位相尺度との第２偏差１０５ｂ´を参照する。さらに、オーディオプロセッサ５０´は、訂正第１サブバンド信号９０ａ´および訂正第２サブバンド信号９０ｂ´を使って、訂正オーディオ信号９０´を合成するためのオーディオ信号シンセサイザー１００を含む。

別の実施の形態について、複数のサブバンド９５は、ベースバンド３０と周波数パッチ４０のセットとにグループ化される。ベースバンド３０は、オーディオ信号５５の１つのサブバンド９５を含む。周波数パッチ４０のセットは、ベースバンドの中の少なくとも１つの別バンドの周波数より高い周波数で、ベースバンド３０の少なくとも１つのサブバンド９５を含む。オーディオ信号のパッチ化は、既に図３に関して説明されていることに注目する必要があり、従って、この部分の説明は詳細にしない。周波数パッチ４０が、位相訂正が適用できるゲインファクターによって乗算された、より高い周波数にコピーされた生のベースバンド信号であることは、ちょうど言及される必要がある。さらに、好ましい実施の形態によると、ゲインと位相訂正との乗算は、生のベースバンド信号の位相が、ゲインファクターによって乗算される前に、より高い周波数にコピーされるように、切り替えることができる。実施の形態は、平均位相エラー１０５´´を得るために、周波数パッチ４０のセットの第１パッチ４０ａを参照する位相エラー１０５´のベクトルの要素の平均を計算する位相エラー計算器２００をさらに示す。さらに、オーディオ信号位相デリバティブ計算器２１０が、ベースバンド３０のための周波数上の位相デリバティブ２１５の平均２１５を計算するために示される。

図２８Ａは、ブロック図の位相訂正器７０´のより詳細な説明を示す。図２８Ａの上方の位相訂正器７０´は、周波数パッチのセットの最初および次の周波数パッチ４０の中のサブバンド信号９５の位相を訂正するように構成される。図２８Ａの実施の形態において、サブバンド９５ｃおよびサブバンド９５ｄはパッチ４０ａに属し、サブバンド９５ｅおよびサブバンド９５ｆはパッチ４０ｂに属することが示される。位相は、重み付けされた平均位相エラーを使って訂正される。平均位相エラー１０５は、修正されたパッチ信号４０´を得るために、周波数パッチ４０のインデックスに従って重み付けされる。

別の実施の形態は、図２８Ａの下方に記載されている。位相訂正器７０´の左上隅において、既に説明された実施の形態が、パッチ４０および平均位相エラー１０５´´から、修正されたパッチ信号４０´を得るために示される。さらに、位相訂正器７０´は、初期設定ステップにおいて、オーディオ信号５５のベースバンド３０の中の最も高いサブバンドインデックスによって、現在のサブバンドインデックスによって重み付けされた周波数上の位相デリバティブの平均２１５を、サブバンド信号の位相に追加することによって、最適化された第１周波数パッチによって別の修正されたパッチ信号４０´´を計算する。この初期設定ステップに対しては、スイッチ２２０ａはその左の位置にある。別の処理ステップに対しては、スイッチは、垂直に向いた接続を形成している別の位置にある。

別の実施の形態において、オーディオ信号位相デリバティブ計算器２１０は、サブバンド信号９５の中のトランジェントを検出するために、ベースバンド信号３０より高い周波数を含む複数のサブバンド信号のための周波数上の位相デリバティブの平均２１５を計算するように構成される。トランジェント訂正が、ベースバンド３０の中の周波数がトランジェントのより高い周波数を反映しないという差によって、オーディオプロセッサ５０´の垂直位相訂正と同様であることは、注目する必要がある。従って、これらの周波数は、トランジェントの位相訂正のために考慮される必要がある。

初期設定ステップの後で、位相訂正器７０´は、周波数パッチ４０に基づいて、前の周波数パッチの中の最も高いサブバンドインデックスによって、現在のサブバンド９５のサブバンドインデックスによって重み付けされた周波数上の位相デリバティブの平均２１５を、サブバンド信号の位相に追加することによって別の修正されたパッチ信号４０´´を再帰的に更新するように構成される。好ましい実施の形態は、前述の実施の形態の組み合わせである。位相訂正器７０´は、結合され修正されたパッチ信号４０´´´を得るために、修正されたパッチ信号４０´と別の修正されたパッチ信号４０´´との重み付けされた平均を計算する。従って、位相訂正器７０´は、周波数パッチ４０に基づいて、結合され修正されたパッチ信号４０´´´の前の周波数パッチの最も高いサブバンドインデックスによって、現在のサブバンド９５のサブバンドインデックスによって重み付けされた周波数上の位相デリバティブの平均２１５を、サブバンド信号の位相に追加することによって、結合され修正されたパッチ信号４０´´´を再帰的に更新する。結合され修正されたパッチ４０ａ´´´およびパッチ４０ｂ´´´などを得るために、スイッチ２２０ｂは、個々の再帰の後の次の位置、初期設定ステップのための結合され修正されたパッチ４８´´´での開始、最初の再帰の後の結合され修正されたパッチ４０ｂ´´´への切り換えなどに移行する。

さらに、位相訂正器７０´は、第１特定重み付け関数によって重み付けされた現在の周波数パッチの中のパッチ信号４０´と第２特定重み付け関数によって重み付けされた現在の周波数パッチの中の修正されたパッチ信号４０´´との円平均を使って、パッチ信号４０´と修正されたパッチ信号４０´´との重み付けされた平均を計算する。

オーディオプロセッサ５０とオーディオプロセッサ５０´との間の相互運用性を提供するために、位相訂正器７０´は、位相偏差のベクトルを形成する。位相偏差は、結合され修正されたパッチ信号４０´´´とオーディオ信号５５とを使って計算される。

図２８Ｂは、別の観点から位相訂正のステップを説明する。第１時間フレーム７５ａに対して、パッチ信号４０´が、第１位相訂正モードをオーディオ信号５５のパッチに適用することによって引き出される。パッチ信号４０´は、修正されたパッチ信号４０´´を得るために、第２訂正モードの初期設定ステップにおいて用いられる。パッチ信号４０´と修正されたパッチ信号４０´´との結合は、結合され修正されたパッチ信号４０´´´を結果として生じる。

従って、第２訂正モードは、第２時間フレーム７５ｂに対して、修正されたパッチ信号４０´´を得るために、結合され修正されたパッチ信号４０´´´に適用される。さらに、第１訂正モードが、パッチ信号４０´を得るために、第２時間フレーム７５ｂの中のオーディオ信号５５のパッチに適用される。また、パッチ信号４０´と修正されたパッチ信号４０´´との結合は、結合され修正されたパッチ信号４０´´´を結果として生じる。第２時間フレームのために記述された処理計画は、第３時間フレーム７５ｃに、従ってオーディオ信号５５の別の時間フレームにも適用される。

図２９は、目標位相尺度決定器６５´の詳細なブロック図を示す。実施の形態によると、目標位相尺度決定器６５´は、オーディオ信号５５の現在の時間フレームの中のピーク位置２３０およびピーク位置の基本周波数２３５を、データストリーム１３５から取り出すためのデータストリーム抽出器１３０´を含む。代わりに、目標位相尺度決定器６５´は、現在の時間フレームの中のピーク位置２３０およびピーク位置の基本周波数２３５を計算するために、現在の時間フレームの中のオーディオ信号５５を分析するためのオーディオ信号分析器２２５を含む。さらに、目標位相尺度決定器は、ピーク位置２３０およびピーク位置の基本周波数２３５を使って、現在の時間フレームの中の別のピーク位置を推定するための目標スペクトル生成器２４０を含む。

図３０は、図２９において記載された目標スペクトル生成器２４０の詳細なブロック図を示す。目標スペクトル生成器２４０は、時間上のパルス列２６５を生成するためのピーク生成器２４５を含む。信号形成器２５０は、ピーク位置の基本周波数２３５に従って、パルス列の周波数を調整する。さらに、パルス位置器２５５は、ピーク位置２３０に従ってパルス列２６５の位相を調整する。すなわち、信号形成器２５０は、パルス列の周波数がオーディオ信号５５のピーク位置の基本周波数に等しいように、パルス列２６５のランダムな周波数の形を変える。さらに、パルス位置器２５５は、パルス列のピークのうちの１つがピーク位置２３０に等しいように、パルス列の位相をシフトする。その後、スペクトル分析器２６０は、調整されたパルス列の位相スペクトルを生成する。時間領域信号の位相スペクトルは目標位相尺度８５´である。

図３１は、オーディオ信号５５を復号するためのデコーダ１１０´の図式的ブロック図を示す。デコーダ１１０は、ベースバンドの時間フレームの中のオーディオ信号２５を復号するように構成されたコアデコーダ１１５と、復号されたベースバンドのサブバンド９５のセットをパッチするためのパッチ器１２０とを含む。サブバンドのセットは、ベースバンドの周波数より高い周波数を含むオーディオ信号３２を得るために、ベースバンドに隣接する時間フレームの中の別のサブバンドに、パッチを形成する。さらに、デコーダ１１０´は、目標位相尺度に従ってパッチのサブバンドの位相を訂正するためのオーディオプロセッサ５０´を含む。

別の実施の形態によると、パッチ器１２０は、オーディオ信号２５のサブバンド９５のセットをパッチするように構成される。サブバンドのセットは、パッチに隣接する時間フレームの別のサブバンドに、別のパッチを形成する。オーディオプロセッサ５０´は、別のパッチのサブバンド内の位相を訂正するように構成される。代わりに、パッチ器１２０は、パッチに隣接する時間フレームの別のサブバンドに、訂正パッチをパッチするように構成される。

別の実施の形態は、トランジェントを含むオーディオ信号を復号するためのデコーダに関連する。オーディオプロセッサ５０´は、トランジェントの位相を訂正するように構成される。トランジェント処理は、８．４節の中で言い換えて説明される。従って、デコーダ１１０は、周波数の別の位相デリバティブを受信するための別のオーディオプロセッサ
５０´を含み、受信された位相デリバティブまたは周波数を使って、オーディオ信号３２の中のトランジェントを訂正する。さらに、図３１のデコーダ１１０´は、図１９のデコーダ１１０と同様であることに注目する必要がある。その結果、主要な要素についての説明が、オーディオプロセッサ５０とオーディオプロセッサ５０´との違いに関連しないこれらの場合において、相互に交換可能である。

図３２は、オーディオ信号５５を符号化するためのエンコーダ１５５´を示す。エンコーダ１５５´は、コアエンコーダ１６０と基本周波数分析器１７５´とパラメータ抽出器１６５と出力信号形成器１７０とを含む。コアエンコーダ１６０は、オーディオ信号５５について、数が減らされたサブバンドを有するコア符号化されたオーディオ信号１４５を得るために、オーディオ信号５５をコア符号化するように構成される。基本周波数分析器１７５´は、オーディオ信号の中のピーク位置の基本周波数推定２３５を得るために、オーディオ信号５５またはオーディオ信号のローパスフィルタされたバージョンの中のピーク位置２３０を分析する。さらに、パラメータ抽出器１６５は、コア符号化されたオーディオ信号１４５に含まれないオーディオ信号５５のサブバンドのパラメータ１９０を引き出す。出力信号形成器１７０は、コア符号化されたオーディオ信号１４５と、パラメータ１９０と、ピーク位置の基本周波数２３５と、ピーク位置２３０のうちの１つと、を含む出力信号１３５を形成する。実施の形態によると、出力信号形成器１７０は、出力信号１３５を、一連のフレームの中に形成するように構成される。個々のフレームは、コア符号化されたオーディオ信号１４５とパラメータ１９０とを含む。そして、個々のｎ（ｎ≧２）番目のフレームだけが、ピーク位置の基本周波数推定２３５とピーク位置２３０とを含む。

図３３は、オリジナルオーディオ信号５５について数が減らされたサブバンドを含むコア符号化されたオーディオ信号１４５と、コア符号化されたオーディオ信号の中に含まれないオーディオ信号のサブバンドを表現するパラメータ１９０と、ピーク位置の基本周波数推定２３５と、オーディオ信号５５のピーク位置推定２３０と、を含むオーディオ信号１３５の実施の形態を示す。代わりに、オーディオ信号１３５は、一連のフレームの中に形成される。個々のフレームは、コア符号化されたオーディオ信号１４５とパラメータ１９０とを含む。そして、個々のｎ（ｎ≧２）番目のフレームだけが、ピーク位置の基本周波数推定２３５とピーク位置２３０とを含む。このアイデアは既に図２２に関して説明されている。

図３４は、オーディオプロセッサによってオーディオ信号を処理するための方法３４００を示す。方法３４００は、「目標位相尺度によって、時間フレームの中のオーディオ信号のために目標位相尺度を決定する」というステップ３４０５と、「位相エラー計算器によって、時間フレームの中のオーディオ信号の位相と目標位相尺度とを使って、位相エラーを計算する」というステップ３４１０と、「訂正位相によって、位相エラーを使って、時間フレームの中のオーディオ信号の位相を訂正する」というステップ３４１５とを含む。

図３５は、デコーダによってオーディオ信号を復号するための方法３５００を示す。方法３５００は、「コアデコーダによって、ベースバンドの時間フレームの中のオーディオ信号を復号する」というステップ３５０５と、「パッチ器によって、復号されたベースバンドのサブバンドのセットをパッチする、ここに、サブバンドのセットは、ベースバンドの中の周波数より高い周波数を含むオーディオ信号を得るために、ベースバンドに隣接する時間フレームの中の別のサブバンドに、パッチを形成する」というステップ３５１０と、「目標位相尺度に従って、オーディオプロセッサによって、第１パッチのサブバンドによって位相を訂正する」というステップ３５１５とを含む。

図３６は、エンコーダによってオーディオ信号を符号化するための方法３６００を示す。方法３６００は、「オーディオ信号に関して、数が減らされたサブバンドを有するコア符号化されたオーディオ信号を得るために、コアエンコーダによって、オーディオ信号をコア符号化する」というステップ３６０５と、「オーディオ信号の中のピーク位置の基本周波数推定を得るために、基本周波数分析器によって、オーディオ信号またはオーディオ信号のローパスフィルタされたバージョンを分析する」というステップ３６１０と、「パラメータ抽出器によって、コア符号化されたオーディオ信号に含まれないオーディオ信号のサブバンドのパラメータを引き出す」というステップ３６１５と、「コア符号化されたオーディオ信号とパラメータとピーク位置の基本周波数とピーク位置とを含む出力信号形成器によって、出力信号を形成する」というステップ３６２０とを含む。

これは、図３７において記載される。図３７は、直接コピーアップＳＢＲを使って、ＱＭＦ領域のトロンボーン信号の位相スペクトルＤ^pha（ｋ，ｎ）の中のエラーを示す。こ
の点で、目標位相スペクトルは、入力信号のそれに等しいと推定される。

後で、目標位相スペクトルが低いビット転送速度によって得られる方法が提供される。

垂直位相デリバティブ訂正は、２つの方法を使って実行される。最終的な訂正位相スペクトルは、それらの混合として得られる。

先ず、エラーは、周波数パッチの内側で相対的に一定であると見られる。エラーは、新しい周波数パッチに入るとき、新しい値に跳ぶ。位相は、オリジナル信号の中の全ての周波数で、周波数上の一定値と交換されるので、これは意味をなす。エラーはクロスオーバーで形成され、エラーはパッチの内側で一定であり続ける。従って、単一の値は、全体の周波数パッチに対して、位相エラーを訂正するために十分である。さらに、より高い周波数パッチの位相エラーが、周波数パッチのインデックス数による乗算の後に、この同じエラー値を使って訂正できる。

従って、位相エラーの円平均が、第１周波数パッチのために計算される。

位相スペクトルは、それを使って訂正できる。

別の訂正方法は、ベースバンドの中のＰＤＦの平均を計算して始まる。

８．３異なる位相訂正方法間での切り替え
８．１節および８．２節は、ＳＢＲ−引き起こされた位相エラーが、ＰＤＴ訂正をバイオリンに適用すると共にＰＤＦ訂正をトロンボーンに適用することによって訂正できることを示した。しかし、それは、どのように、訂正のうちの１つが未知の信号に適用されるべきであるか、または、それらのうちのどれが適用されるべきであるかを知る方法は、考慮されなかった。この節は、訂正方向を自動的に選択するための方法を提案する。訂正方向（水平／垂直）は、入力信号の位相デリバティブのバリエーションに基づいて決められる。

従って、図３９において、オーディオ信号５５のための位相訂正データを決定するための計算器が示される。バリエーション決定器２７５は、第１および第２バリエーションモードの中のオーディオ信号５５の位相４５のバリエーションを決定する。バリエーション比較器２８０は、第１バリエーションモードを使って決定された第１バリエーション２９０ａと、第２バリエーションモードを使って決定された第２バリエーション２９０ｂとを比較する。訂正データ計算器２８５は、比較器の結果に基づいて、第１バリエーションモードまたは第２バリエーションモードに従って、位相訂正データ２９５を計算する。

さらに、バリエーション決定器２７５は、第１バリエーションモードの中の位相のバリエーション２９０ａとして、オーディオ信号５５の複数の時間フレームのための時間上の位相デリバティブ（ＰＤＴ）の標準偏差尺度を決定するように、そして、第２バリエーションモードの中の位相のバリエーション２９０ｂとして、オーディオ信号５５の複数のサブバンドのための周波数上の位相デリバティブ（ＰＤＦ）の標準偏差尺度を決定するように構成される。従って、バリエーション比較器２８０は、第１バリエーション２９０ａとして、時間上の位相デリバティブの尺度と、オーディオ信号の時間フレームのための第２バリエーション２９０ｂとして、周波数上の位相デリバティブの尺度とを比較する。

実施の形態は、標準偏差尺度としてオーディオ信号５５の現在と複数の前のフレームとの時間上の位相デリバティブの円標準偏差を決定すると共に、標準偏差尺度として現在の時間フレームのためのオーディオ信号５５の現在と複数の未来のフレームとの時間上の位相デリバティブの円標準偏差を決定するための、バリエーション決定器２７５を示す。さらに、バリエーション決定器２７５は、第１バリエーション２９０ａを決定するとき、両方の円標準偏差の最小を計算する。別の実施の形態において、バリエーション決定器２７５は、周波数の平均された標準偏差尺度を形成するために、時間フレーム７５の中の複数のサブバンド９５のための標準偏差尺度の組み合わせとして、第１バリエーションモードの中のバリエーション２９０ａを計算する。バリエーション比較器２８０は、エネルギー尺度として、現在の時間フレーム７５の中のサブバンド信号９５のマグニチュード値を使って、複数のサブバンドの標準偏差尺度のエネルギーで重み付けされた平均を計算することによって、標準偏差尺度の組み合わせを実行するように構成される。

好ましい実施の形態において、バリエーション決定器２７５は、第１バリエーション２９０ａを決定するとき、平均された標準偏差尺度を、現在の、複数の前のおよび複数の未来の時間フレームに亘って平滑化する。エネルギーに従って重み付けされるような平滑化
は、対応する時間フレームと窓化関数とを使って計算される。さらに、バリエーション決定器２７５は、第２バリエーション２９０ｂを決定するとき、現在の、複数の前のおよび複数の未来の時間フレーム７５に亘って標準偏差尺度を平滑化するように構成される。平滑化は、対応する時間フレーム７５と窓化関数とを使って計算されたエネルギーに従って、重み付けされる。従って、バリエーション比較器２８０は、平滑化された平均標準偏差尺度を、第１バリエーションモードを使って決定された第１バリエーション２９０ａと比較すると共に、平滑化された標準偏差尺度を、第２バリエーションモードを使って決定された第２バリエーション２９０ｂと比較する。

好ましい実施の形態が、図４０に記載される。この実施の形態によると、バリエーション決定器２７５は、第１および第２バリエーションを計算するための２つの処理パスから成る。第１処理パッチは、オーディオ信号５５またはオーディオ信号の位相から、時間上の位相デリバティブ３０５ａの標準偏差尺度を計算するためのＰＤＴ計算器３００ａを含む。円標準偏差計算器３１０ａは、時間上の位相デリバティブ３０５ａの標準偏差尺度から、第１円標準偏差３１５ａと第２円標準偏差３１５ｂとを決定する。第１円標準偏差３１５ａと第２円標準偏差３１５ｂとは、比較器３２０によって比較される。比較器３２０は、２つの円標準偏差尺度３１５ａと３１５ｂとの最小３２５を計算する。組み合わせ器３３０は、平均標準偏差尺度３３５ａを形成するために、周波数上の最小３２５を組み合わせる。平滑化器３４０ａは、平滑な平均標準偏差尺度３４５ａを形成するために、平均標準偏差尺度３３５ａを平滑化する。

第２処理パスは、オーディオ信号５５またはオーディオ信号の位相から、周波数上の位相デリバティブ３０５ｂを計算するためのＰＤＦ計算器３００ｂを含む。円標準偏差計算器３１０ｂは、周波数上の位相デリバティブ３０５ｂの標準偏差尺度３３５ｂを形成する。標準偏差尺度３０５は、平滑な標準偏差尺度３４５ｂを形成するために、平滑化器３４０ｂによって平滑化される。平滑化された平均標準偏差尺度３４５ａと平滑化された標準偏差尺度３４５ｂとは、それぞれ、第１および第２バリエーションである。バリエーション比較器２８０は第１および第２バリエーションを比較する。訂正データ計算器２８５は、第１および第２バリエーションの比較に基づいて位相訂正データ２９５を計算する。

別の実施の形態は、３つの異なる位相訂正モードを処理する計算器２７０を示す。図的ブロック図は、図４１において示される。図４１は、第３バリエーションモードの中のオーディオ信号５５の位相の第３バリエーション２９０ｃを更に決定するバリエーション決定器２７５を示す。第３バリエーションモードは、トランジェント検出モードである。バリエーション比較器２８０は、第１バリエーションモードを使って決定された第１バリエーション２９０ａと、第２バリエーションモードを使って決定された第２バリエーション２９０ｂと、第３バリエーションモードを使って決定された第３バリエーション２９０ｃとを比較する。従って、訂正データ計算器２８５は、比較の結果に基づいて、第１訂正モード、第２訂正モードまたは第３訂正モードに従って、位相訂正データ２９５を計算する。第３バリエーションモードの中の第３バリエーション２９０ｃを計算するために、バリエーション比較器２８０は、現在の時間フレームの瞬時のエネルギー推定と、複数の時間フレーム７５の時間平均されたエネルギー推定とを計算するように構成される。従って、バリエーション比較器２８０は、瞬時のエネルギー推定と時間平均されたエネルギー推定との比率を計算するように構成されると共に、時間フレーム７５の中のトランジェントを検出するために、前記比率を、定義された閾値と比較するように構成される。

バリエーション比較器２８０は、３つのバリエーションに基づいて、適した訂正モードを決定する必要がある。この決定に基づき、訂正データ計算器２８５は、仮にトランジェントが検出されるならば、第３バリエーションモードに従って位相訂正データ２９５を計算する。さらに、訂正データ計算器８５は、仮にトランジェントの不在が検出され、かつ
、第１バリエーションモードにおいて決定された第１バリエーション２９０ａが、第２バリエーションモードにおいて決定された第２バリエーション２９０ｂより小さいかまたは等しいならば、第１バリエーションモードに従って位相訂正データ２９５を計算する。従って、位相訂正データ２９５は、仮にトランジェントの不在が検出され、かつ、第２バリエーションモードにおいて決定された第２バリエーション２９０ｂが、第１バリエーションモードにおいて決定された第１バリエーション２９０ａより小さいならば、第２バリエーションモードに従って計算される。

訂正データ計算器２８５は、さらに、現在の、および、１つ以上前の、および、１つ以上未来の時間フレームのための第３バリエーション２９０ｃのための位相訂正データ２９５を計算するように構成される。従って、訂正データ計算器２８５は、現在の、および、１つ以上前の、および、１つ以上未来の時間フレームのための第２バリエーション２９０ｂのための位相訂正データ２９５を計算するように構成される。さらに、訂正データ計算器２８５は、第１バリエーションモードの中の水平位相訂正のための訂正データ２９５と、第２バリエーションモードの中の垂直位相訂正のための訂正データ２９５と、第３バリエーションモードのトランジェント訂正のための訂正データ２９５とを計算するように構成される。

図４２は、オーディオ信号から位相訂正データを決定するための方法４２００を示す。方法４２００は、「第１および第２バリエーションモードにおいて、バリエーション決定器によって、オーディオ信号の位相のバリエーションを決定する」というステップ４２０５と、「バリエーション比較器によって、第１および第２バリエーションモードを使って決定されたバリエーションを比較する」というステップ４２１０と、「比較の結果に基づいて、第１バリエーションモードまたは第２バリエーションモードに従って、訂正データ計算器によって、位相訂正を計算する」というステップ４２１５とを含む。

言い換えると、トロンボーンのＰＤＦが、周波数上、平滑なのに対して、バイオリンのＰＤＴは、時間上、平滑である。ここで、バリエーションの尺度として、これらの尺度の標準偏差（ＳＴＤ）が、適切な訂正方法を選択するために用いられる。時間上の位相デリバティブのＳＴＤは、式（２７）として計算できる。
そして、周波数上の位相デリバティブのＳＴＤは、式（２８）として計算できる。
ここで、ｃｉｒｃｓｔｄ｛｝は、円ＳＴＤを計算すること示す（角度値は、雑音の低エネルギービンのため、高いＳＴＤを避けるために、エネルギーによって潜在的に重み付けされる。または、ＳＴＤ計算は、十分なエネルギーによってビンに限定される）。バイオリンのＳＴＤは図４３Ａと図４３Ｂとにおいて示され、トロンボーンのＳＴＤは図４３Ｃと図４３Ｄとにおいて示される。図４３Ａと図４３Ｃとは、ＱＭＦ領域の中の時間上の位相デリバティブの標準偏差Ｘ^stdt（ｋ，ｎ）を示す。図４３Ｂと図４３Ｄとは、位相訂正無しで、対応する周波数上の標準偏差Ｘ^stdf（ｎ）を示す。色勾配は、赤色＝１から青色＝０までの値を示す。ＰＤＦのＳＴＤが、トロンボーンに対して、より低いのに対して、ＰＤＴのＳＴＤが、バイオリンに対して、より低いこと、が認められる（特に、高いエネルギーを有する時間周波数タイルに対して）。

個々の時間的フレームのために使われる訂正方法は、ＳＴＤのうちのどちらが、より低いかに基づいて選択される。そのために、Ｘ^stdt（ｋ，ｎ）値は、周波数上、組み合わされる必要がある。組み合わせは、予め定義された周波数範囲のために、エネルギーで重み付けされた平均を計算することによって実行される。

８．４トランジェント処理−トランジェントのための位相デリバティブ訂正
途中で加えられた拍手を有するバイオリン信号は、図４４において提供される。ＱＭＦ領域のバイオリン＋拍手信号のマグニチュードＸ^mag（ｋ，ｎ）は、図４４Ａにおいて示
される。対応する位相スペクトルＸ^pha（ｋ，ｎ）は、図４４Ｂにおいて示される。図４
４Ａに関して、色勾配は、赤色＝０ｄＢから青色＝−８０ｄＢまでのマグニチュード値を示す。従って、図４４Ｂに対して、位相勾配は、赤色＝πから青色＝−πまでの位相値を示す。時間上および周波数上の位相デリバティブは、図４５において提供される。ＱＭＦ領域のバイオリン＋拍手信号の時間上の位相デリバティブＸ^pdt（ｋ，ｎ）は、図４５Ａ
において示される。対応する周波数上の位相デリバティブＸ^pdf（ｋ，ｎ）は、図４５Ｂ
において示される。色勾配は、赤色＝πから青色＝−πまでの位相値を示す。ＰＤＴは拍手のために雑音的であるけれども、ＰＤＦは少なくとも高周波数で多少平滑である、と認められる。従って、ＰＤＦ訂正は、その鋭さを維持するために、拍手に対して適用されるべきである。しかし、バイオリン音が、低周波数にてデリバティブを妨害しているので、８．２節の中で提案された訂正方法は、この信号によって適切に働かない。結果として、ベースバンドの位相スペクトルは高周波数を反映せず、従って、単一の値を使う周波数パッチの位相訂正は働かない。さらに、ＰＤＦ値（８．３節を参照のこと）のバリエーションに基づいてトランジェントを検出することは、低周波数にて雑音的なＰＤＦ値のため困難である。

問題の解決策は、直接的である。先ず、トランジェントが、簡単なエネルギーベースの方法を使って検出される。中間周波数／高周波数の瞬時エネルギーが、平滑化されたエネルギー推定と比較される。中間周波数／高周波数の瞬時エネルギーは、式（３１）として
計算される。

平滑化は、一次ＩＩＲフィルタを使って実行される。

理論において、垂直訂正モードも、トランジェントに対して適用される。しかし、トランジェントの場合において、ベースバンドの位相スペクトルは、しばしば高周波数を反映しない。これは、処理された信号の中の前のエコーおよび次のエコーに導くことができる。従って、わずかに修正された処理が、トランジェントのために提案される。

高周波数でのトランジェントの平均ＰＤＦが、式（３３）によって計算される。

トランジェント訂正の結果は、図４６において提示される。位相訂正ＳＢＲを使って、ＱＭＦ領域のバイオリン＋拍手信号の時間上の位相デリバティブＸ^pdt（ｋ，ｎ）が示さ
れる。図４７Ｂは、対応する周波数上の位相デリバティブＸ^pdf（ｋ，ｎ）を示す。また
、色勾配は、赤色＝πから青色＝−πまでの位相値を示す。直接コピーアップに比較された差は、大きくないけれども、位相訂正拍手は、オリジナル信号と同じ鋭さ有することが知覚される。ゆえに、トランジェント訂正は、直接コピーアップだけが可能である全ての場合に、必ずしも必要であるわけではない。それどころか、仮にＰＤＴ訂正が可能ならば、ＰＤＴ訂正が、トランジェントを違った形で厳しく不鮮明にするので、トランジェント処理を有することは重要である。

９訂正データの圧縮
８節は、位相エラーが訂正できることを示したけれども、訂正のために適正なビット転送速度は全然考慮されなかった。この節は、低いビット転送速度によって訂正データを表現する方法を提案する。

先ず、パラメータに適正な更新転送速度が議論される。値が、全てのＮフレームのみに対して更新され、間に線形的に内挿される。良好な品質のための更新間隔は、約４０ミリ秒である。特定の信号に対して、より少ないビットが有利であり、別の信号に対して、より多いビットが有利である。公式の聞き取りテストは、最適な更新転送速度を推定することに対して有益である。それにもかかわらず、相対的に長い更新間隔が容認できるように見える。

考慮する最後のものは、適正なスペクトル精度である。図１７において見られるように、多くの周波数バンドが、およそ同じ値を共有するように見える。従って、１つの値が、たぶん、いくつかの周波数バンドを表現するために用いられる。さらに、高周波数にて、１つの周波数バンドの内側に複数の高調波が存在する。従って、たぶん、少ない正確さが必要である。それにもかかわらず、別の、潜在的により良いアプローチが見つけられた。従って、これらのオプションは完全に調査されなかった。提案された、より効果的なアプローチが以下において議論される。

９．１．１ＰＤＴ訂正データを圧縮するために周波数推定を使うこと
５節で議論されたように、時間上の位相デリバティブは、基本的に、作成された正弦曲線の周波数を意味する。適用された６４バンド複合ＱＭＦのＰＤＴは、以下の式（３４）を使って周波数に変えられる。

作成された周波数は、間隔ｆ_inter（ｋ）＝［ｆ_c（ｋ）−ｆ_BW，ｆ_c（ｋ）＋ｆ_BW］の
内側にある。ｆ_c（ｋ）は周波数バンドｋの中心周波数であり、ｆ_BWは３７５Ｈｚである
。結果は、バイオリン信号のためのＱＭＦバンドの周波数Ｘ^freq（ｋ，ｎ）の時間周波数表現において、図４７に示される。周波数は、ト−ンの基本周波数の倍数に続いているように見え、従って、高調波は、基本周波数によって、周波数の中に間隔をおいて配置されていることが認められる。さらに、ビブラートは周波数変調を引き起こすように見える。

Ｘ^freq（ｋ，ｎ）の周波数は、同じ量で間隔をおいて配置されるので、仮に周波数の間の間隔が推定されて送信されるならば、全ての周波数バンドの周波数は近づくことができる。高調波信号において、間隔はト−ンの基本周波数に等しいはずである。従って、単一の値だけが、全ての周波数バンドを表現するために送信される必要がある。より不規則な信号の場合、より多くの値が、高調波の振舞いを説明するために必要である。例えば、高調波の間隔は、ピアノト−ン［非特許文献１４］の場合において僅かに増加する。簡単のために、高調波が同じ量で間隔をおいて配置されることが、以下において推定される。それにもかかわらず、これは、説明されるオーディオ処理の一般性を制限しない。

あるいは、基本周波数は復号段階において推定され、情報は送信される必要がない。しかし、仮に推定が符号化段階のオリジナルの信号によって実行されるならば、より良好な推定が期待される。

高調波の周波数は、それをインデックスベクトルで乗算することによって得られる。

結果は図４９に記載される。図４９は、オリジナル信号Ｘ^freq（ｋ，ｎ）のＱＭＦバンドの周波数に比較された高調波Ｘ^harm（κ，ｎ）の推定周波数の時間周波数表現を示す。また、青色はオリジナル信号を示し、赤色は推定された信号を示す。推定された高調波の周波数は、オリジナル信号に全く良く合致する。これらの周波数は、「許された」周波数として考えられる。仮にアルゴリズムがこれらの周波数を生み出すならば、人工物に関連した不調和性は避けられるはずである。

訂正データ圧縮アルゴリズムの最終ステップは、周波数データをＰＤＴデータに戻す変換をすることである。

実施の形態は、個々の値ごとに合計１２ビットを使って、低周波数に対しては、より多くの精度を使い、高周波数に対しては、より少ない精度を使う。結果として生じるビット転送速度は、約０．５ｋｂｐｓである（エントロピー符号化のように、どんな圧縮も無しで）。この精度は、非量子化と等しい知覚された品質を生み出す。しかし、重要なことに、より低いビット転送速度が、たぶん、十分に良好な知覚された品質を生む多くの場合に使われる。

低ビット転送速度計画のための１つのオプションは、送信された信号を使って、復号位相の基本周波数を推定することである。この場合において、どの値も送信される必要がない。別のオプションは、送信された信号を使って、基本周波数を推定し、それを、ブロードバンド信号を使って得られた推定と比較し、差だけを送信することである。この差は、非常に低いビット転送速度を使って表現されることが、推定される。

トロンボーンのための図１２を検査すると、ＰＤＦが周波数上の相対的に一定の値を有し、同じ値が少しの時間的フレームのために存在すること、が見られる。同じトランジェントが、ＱＭＦ分析窓のエネルギーを支配している限り、値は、時間上、一定である。新しいトランジェントが支配的であることを開始するとき、新しい値が存在する。これらのＰＤＦ値の間の角度変化は、１つのトランジェントから別のトランジェントまで同じであるように見える。ＰＤＦがトランジェントの時間的位置を制御するので、これは感覚を作る。仮に信号が一定の基本周波数を有するならば、トランジェント間の間隔は一定である。

従って、ＰＤＦ（または、トランジェントの位置）は、時間内に、まばらにのみ送信される。これらの時間瞬間の間のＰＤＦの振舞いは、基本周波数の知識を使って推定される。ＰＤＦ訂正は、この情報を使って実行できる。このアイデアは、ＰＤＴ訂正に対して、実際に、２つの部分から成る。高調波の周波数は、等しく間隔をおいて配置されると推定される。ここで、同じアイデアが使われるけれども、代わりに、トランジェントの時間的位置が、等しく間隔をおいて配置されると推定される。波形の中のピークの位置を検出することに基づいた方法が、以下に提案され、この情報を使うことによって、参照スペクトルが位相訂正のために作成される。

９．２．１ＰＤＦ訂正データを圧縮するためにピーク検出を使うこと−垂直訂正のための目標スペクトルを作成すること
ピークの位置は、成功したＰＤＦ訂正を実行するために推定される必要がある。１つの解決策は、式（３４）と同様に、ＰＤＦ値を使ってピークの位置を計算し、推定された基本周波数を使って、間のピークの位置を推定することである。しかし、このアプローチは、相対的に安定した基本的周波数推定を必要とする。実施の形態は、提案された圧縮アプローチが可能であることを示す、簡単に速く実施する、代わりの方法を示す。

トロンボーン信号の時間領域表現は、図５１に示される。図５１Ａは、時間領域表現においてトロンボーン信号の波形を示す。図５１Ｂは、推定されたピークだけを含む、対応する時間領域信号を示す。ピークの位置は、送信されたメタデータを使って得られる。図
５１Ｂの信号は、例えば図３０に関して説明されたパルス列２６５である。アルゴリズムは、波形の中のピークの位置を分析することによって開始する。これは、局部的な最大を検索することによって実行される。個々の２７ミリ秒に対して（すなわち、個々の２０個のＱＭＦフレームに対して）、フレームの中心点に最も近いピークの位置が送信される。送信されたピーク位置の間において、ピークは時間内に均等に間隔をおいて配置されると推定される。従って、基本周波数を知ることによって、ピークの位置が推定される。この実施の形態において、検出されたピークの数が送信される。（これが、全てのピークの成功した検出を必要とすることは注目するべきである。基本的周波数に基づく推定は、たぶん、より頑強な結果を産む。）結果として生じるビット転送速度は、約０．５ｋｂｐｓである（エントロピー符号化のように、どんな圧縮も無しで）。それは、９ビットを使って、全ての２７ミリ秒に対して、ピークの位置を送信すること、および、４ビットを使って、間のトランジェントの数を送信すること、を含む。この精度は、非量子化と等しい知覚された品質を生むために見付けられた。しかし、重要なことに、より低いビット転送速度が、たぶん、十分に良好な知覚された品質を生む多くの場合に使われる。

垂直位相コヒーレンスを有する信号の波形は、一般に急峻で、パルス列を思い出させる。従って、垂直訂正のための目標位相スペクトルは、対応する位置および対応する基本周波数にてピークを有するパルス列の位相スペクトルとして、それをモデル化することによって推定できる、ことが提案される。

時間的フレームの中心に最も近い位置が、例えば全ての２０番目の時間的フレーム（２７ミリ秒の間隔に対応する）に対して送信される。等しい転送速度で送信される、推定された基本周波数は、ピーク位置を、送信された位置の間に内挿するために用いられる。

あるいは、基本周波数およびピーク位置は、復号段階において推定され、情報は送信される必要がない。しかし、仮に推定が、符号化段階においてオリジナル信号によって実行されるならば、より良好な推定が期待できる。

提案された方法は、例えば２７ミリ秒の更新転送速度によって、推定されたピーク位置および基本周波数だけを送信するために、符号化段階を用いる。さらに、基本周波数が相対的に低い時にだけ、垂直位相デリバチィブの中のエラーが知覚可能である、ことに注目
するべきである。従って、基本周波数は相対的に低いビット転送速度によって送信される。

仮にビット転送速度が、トランジェントのために圧縮される必要があるならば、同様なアプローチが、ＰＤＦ訂正のために使われる（９．２節を参照のこと）。簡単にトランジェントの位置（すなわち、１つの値）が送信される。目標位相スペクトルおよび目標ＰＤＦは、９．２節の中のように、この位置の値を使って得ることができる。

あるいは、トランジェント位置は、復号段階において推定され、情報は送信される必要がない。しかし、仮に推定が符号化段階においてオリジナル信号によって実行されるならば、より良好な推定が期待できる。

前述の実施の形態の全ては、別の実施の形態から分離して、または、実施の形態の組み合わせにおいて、見られる。従って、図５３から図５７までは、初めに説明された実施の形態のうちのいくつかを組み合わせるエンコーダおよびデコーダを提供する。

図５３は、オーディオ信号を復号するためのデコーダ１１０´´を示す。デコーダ１１０´´は、第１目標スペクトル生成器６５ａと、第１位相訂正器７０ａと、オーディオサブバンド信号計算器３５０とを含む。第１目標スペクトル生成器６５ａ（目標位相尺度決定器とも呼ぶ）が、第１訂正データ２９５ａを使って、オーディオ信号３２のサブバンド信号の第１時間フレームのための目標スペクトル８５ａ´´を生成する.
第１位相訂正器
７０ａは、位相訂正アルゴリズムによって決定されたオーディオ信号３２の第１時間フレームの中のサブバンド信号の位相４５を訂正する。訂正は、オーディオ信号３２の第１時間フレームのサブバンド信号の尺度と、目標スペクトル８５´´との間の差を、減らすことによって実行される。オーディオサブバンド信号計算器３５０は、時間フレームのための訂正位相９１ａを使って、第１時間フレームのためのオーディオサブバンド信号３５５を計算する。あるいは、オーディオサブバンド信号計算器３５０は、第２時間フレームの中のサブバンド信号の尺度８５ａ´´を使うか、または、前記位相訂正アルゴリズムとは異なる別の位相訂正アルゴリズムに従って訂正位相計算を使って、第１時間フレームとは異なる第２時間フレームのためのオーディオサブバンド信号３５５を計算する。図５３は
、さらに、マグニチュード４７および位相４５に関して、オーディオ信号３２を任意に分析する分析器３６０を示す。別の位相訂正アルゴリズムは、第２位相訂正器７０ｂまたは第３位相訂正器７０ｃにおいて実行される。これらの別の位相訂正器は、図５４に関して説明されるだろう。オーディオサブバンド信号計算器２５０は、第１時間フレームのための訂正位相９１と第１時間フレームのオーディオサブバンド信号のマグニチュード値４７とを使って、第１時間フレームのためのオーディオサブバンド信号を計算する。マグニチュード値４７は、第１時間フレームの中のオーディオ信号３２のマグニチュード、または、第１時間フレームの中のオーディオ信号３５の処理されたマグニチュードである。

図５４は、デコーダ１１０´´の別の実施の形態を示す。従って、デコーダ１１０´´は、第２目標スペクトル生成器６５ｂを含む。第２目標スペクトル生成器６５ｂは、第２訂正データ２９５ｂを使って、オーディオ信号３２のサブバンドの第２時間フレームのための目標スペクトル８５ｂ´´を生成する。検出器１１０´´は、さらに、第２位相訂正アルゴリズムによって決定されたオーディオ信号３２の時間フレームの中のサブバンドの位相４５を訂正するための第２位相訂正器７０ｂを含む。訂正は、オーディオ信号のサブバンドの時間フレームの尺度と、目標スペクトル８５ｂ´´との間の差を減らすことによって実行される。

従って、デコーダ１１０´´は、第３目標スペクトル生成器６５ｃを含む。第３目標スペクトル生成器６５ｃは、第３訂正データ２９５ｃを使って、オーディオ信号３２のサブバンドの第３時間フレームのための目標スペクトルを生成する。さらに、デコーダ１１０´´は、第３位相訂正アルゴリズムによって決定された、サブバンドの位相４５とオーディオ信号３２の時間フレームとを訂正するための第３位相訂正器７０ｃを含む。訂正は、オーディオ信号のサブバンドの時間フレームの尺度と、目標スペクトル８５ｃとの間の差を減らすことによって実行される。オーディオサブバンド信号計算器３５０は、第３位相訂正器の位相訂正を使って、第１および第２時間フレームとは異なる第３時間フレームのためのオーディオサブバンド信号を計算できる。

実施の形態によると、第１位相訂正器７０ａは、オーディオ信号の前の時間フレームの位相訂正サブバンド信号９１ａを格納するように、または第２位相訂正器７０ｂまたは第３位相訂正器７０ｃからオーディオ信号の前の時間フレームの位相訂正サブバンド信号３７５を受信するように構成される。さらに、第１位相訂正器７０ａは、前の時間フレームの格納された、または、受信された位相訂正サブバンド信号９１ａ，３７５に基づいて、オーディオサブバンド信号の現在の時間フレームの中のオーディオ信号３２の位相４５を訂正する。

別の実施の形態は、水平位相訂正を実行する第１位相訂正器７０ａと、垂直位相訂正を実行する第２位相訂正器７０ｂと、トランジェントのための位相訂正を実行する第３位相訂正器７０ｃとを示す。

別の観点から、図５４は、位相訂正アルゴリズムの中の復号段階のブロック図を示す。処理への入力は、時間周波数領域の中のＢＷＥ信号とメタデータとである。また、実際の応用において、発明の位相デリバティブ訂正は、既存のＢＷＥ計画のフィルタバンクまたは変換を共同使用することが好ましい。現在の例において、これは、ＳＢＲにおいて使われるＱＭＦ領域である。第１デマルチプレクサー（多重分離器、図示せず）は、位相デリバティブ訂正データを、発明の訂正によって拡張されている知覚符号器を備えたＢＷＥのビットストリームから引き出す。

第２デマルチプレクサー１３０（ＤＥＭＵＸ）は、先ず、受信したメタデータ１３５を、種々の訂正モードのために、活性化データ３６５と訂正データ２９５ａ−ｃとに分割す
る。活性化データに基づいて、目標スペクトルの計算は、正しい訂正モードに対して活性化される（他の訂正モードは待機する）。目標スペクトルを使って、位相訂正は、要求された訂正モードを使って、受信されたＢＷＥ信号に対して実行される。水平訂正７０ａが、再帰的に（すなわち、前の信号フレームに依存して）実行されると、それは、別の訂正モード７０ｂおよび７０ｃから、前の訂正マトリクスも受信する、ことは注目するべきである。最後に、訂正信号、または、無処理の信号が、活性化データに基づいて出力に設定される。

図５５は、デコーダ１１０´´の別の実施の形態を示す。この実施の形態によると、デコーダ１１０´´は、コアデコーダ１１５と、パッチ器１２０と、シンセサイザー１００と、ブロックＡとを含む。ブロックＡは、図５４において示された前の実施の形態に従うデコーダ１１０´´である。コアデコーダ１１５は、オーディオ信号５５に関して、数が減らされたサブバンドによって、時間フレームの中のオーディオ信号２５を復号するように構成される。パッチ器１２０は、数が減らされたサブバンドによってコア復号されたオーディオ信号２５のサブバンドのセットをパッチする。サブバンドのセットは、正規の数のサブバンドを有するオーディオ信号３２を得るために、第１パッチを、数が減らされたサブバンドに隣接する時間フレームの中の別のサブバンドに形成する。マグニチュードプロセッサ１２５´は、時間フレームの中のオーディオサブバンド信号３５５のマグニチュード値を処理する。前のデコーダ１１０および１１０´によると、マグニチュードプロセッサは、バンド幅拡張パラメータ応用器１２５である。

多くの別の実施の形態は、信号プロセッサブロックが切り替わる、と考えられる。例えば、マグニチュードプロセッサ１２５´とブロックＡとは交換できる。従って、ブロックＡは、再構成されたオーディオ信号３５に働く。ここで、パッチのマグニチュード値は既に訂正されている。あるいは、オーディオサブバンド信号計算器３５０が、オーディオ信号の位相が訂正されかつマグニチュードが訂正部分から、訂正オーディオ信号３５５を形成するために、マグニチュードプロセッサ１２５´の後に置かれる。

さらに、デコーダ１１０´´は、周波数結合処理されたオーディオ信号９０を得るために、位相およびマグニチュードが訂正オーディオ信号を合成するためのシンセサイザー１００を含む。任意に、マグニチュード訂正も位相訂正もどちらも、コア復号されたオーディオ信号２５に適用されないので、前記オーディオ信号は、シンセサイザー１００に直接に送信される。前述のデコーダ１１０または１１０´のうちの１つの中に適用された、どのような任意の処理ブロックでも、同様に、デコーダ１１０´´の中に適用される。

図５６は、オーディオ信号５５を符号化するためのエンコーダ１５５´´を示す。エンコーダ１５５´´は、計算器２７０に接続された位相決定器３８０と、コアエンコーダ１６０と、パラメータ抽出器１６５と、出力信号形成器１７０とを含む。位相決定器３８０は、オーディオ信号５５の位相４５を決定する。計算器２７０は、オーディオ信号５５の決定された位相４５に基づいて、オーディオ信号５５のための位相訂正データ２９５を決定する。コアエンコーダ１６０は、オーディオ信号５５に関して、数が減らされたサブバンドを有するコア符号化されたオーディオ信号１４５を得るために、オーディオ信号５５
をコア符号化する。パラメータ抽出器１６５は、コア符号化されたオーディオ信号に含まれないサブバンドの第２セットのための低解像度パラメータ表現を得るために、パラメータ１９０を、オーディオ信号５５から取り出す。出力信号形成器１７０は、パラメータ１９０と、コア符号化されたオーディオ信号１４５と、位相訂正データ２９５´と、を含む出力信号１３５を形成する。任意に、エンコーダ１５５´´は、オーディオ信号５５をコア符号化する前のローパスフィルタ１８０と、パラメータ１９０をオーディオ信号５５から取り出す前のハイパスフィルタ１８５とを含む。あるいは、オーディオ信号５５をローパスフィルタまたはハイパスフィルタする代わりに、ギャップを満たすアルゴリズムが使われる。コアエンコーダ１６０は、数が減らされたサブバンドをコア符号化する。サブバンドのセット内の少なくとも１つのサブバンドが、コア符号化されない。さらに、パラメータ抽出器１６５は、パラメータ１９０を、コアエンコーダ１６０によって符号化されなかった少なくとも１つのサブバンドから取り出す。

実施の形態によると、計算器２７０は、第１バリエーションモードまたは第２バリエーションモードまたは第３バリエーションモードに従って、位相訂正を訂正するための訂正データ計算器２８５ａ−ｃのセットを含む。さらに、計算器２７０は、訂正データ計算器２８５ａ−ｃのセットのうちの１つの訂正データ計算器を活性化するための活性化データ３６５を決定する。出力信号形成器１７０は、活性化データとパラメータとコア符号化されたオーディオ信号と位相訂正データとを含む出力信号を形成する。

図５７は、図５６に示されたエンコーダ１５５´´の中で使われる計算器２７０の代わりの実施を示す。訂正モード計算器３８５は、バリエーション決定器２７５とバリエーション比較器２８０とを含む。活性化データ３６５は、種々のバリエーションを比較することの結果である。さらに、活性化データ３６５は、決定されたバリエーションに従って、訂正データ計算器１８５ａ−ｃのうちの１つを作動させる。計算された訂正データ２９５ａまたは２９５ｂまたは２９５ｃは、エンコーダ１５５´´の出力信号形成器１７０の入力であり、それ故、出力信号１３５の一部である。

実施の形態は、メタデータ形成器３９０を含む計算器２７０を示す。メタデータ形成器３９０は、計算された訂正データ２９５ａまたは２９５ｂまたは２９５ｃと活性化データ３６５とから成るメタデータストリーム２９５´を形成する。仮に訂正データ自身が、現在の訂正モードの十分な情報を含まないならば、活性化データ３６５はデコーダに送信される。十分な情報は、例えば、訂正データ２９５ａおよび訂正データ２９５ｂおよび訂正データ２９５ｃに対して異なる訂正データを説明するために用いられた多数のビットである。さらに、出力信号形成器１７０は、メタデータ形成器３９０が省略できるように、活性化データ３６５を追加して使う。

別の観点から、図５７のブロック図は、位相訂正アルゴリズムの中の符号化段階を示す。処理への入力は、オリジナルのオーディオ信号５５と時間周波数領域である。実際的な応用において、発明の位相デリバティブ訂正は、既存のＢＷＥ計画のフィルタバンクまたは変換を共同使用することが好ましい。現在の例において、これは、ＳＢＲにおいて使われるＱＭＦ領域である。

訂正モード計算ブロックは、先ず、個々の時間的フレームに適用される訂正モードを計算する。活性化データ３６５に基づき、訂正データ２９５ａ−ｃの計算は、正しい訂正モードにおいて活性化される（他の訂正モードは待機する）。最後に、マルチプレクサー（ＭＵＸ）は、種々の訂正モードから、活性化データと訂正データとを組み合わせる。

別のマルチプレクサー（図示せず）は、位相デリバティブ訂正データを、ＢＷＥのビットストリームの中に組み合わせる。知覚的エンコーダは、発明の訂正によって拡張される
。

図５８は、オーディオ信号を復号するための方法５８００を示す。方法５８００は、「第１目標スペクトル生成器によって、第１訂正データを使って、オーディオ信号のサブバンド信号の第１時間フレームのための目標スペクトルを生成する」というステップ５８０５と、「位相訂正アルゴリズムによって決定された第１位相訂正器によって、オーディオ信号の第１時間フレームの中のサブバンド信号の位相を訂正する。訂正は、オーディオ信号の第１時間フレームの中のサブバンド信号の尺度と目標スペクトルとの間の差を減らすことによって実行される」というステップ５８１０と、「オーディオサブバンド信号計算器によって、時間フレームの訂正位相を使って、第１時間フレームのためのオーディオサブバンド信号を計算すると共に、第２時間フレームの中のサブバンド信号の尺度を使って、または、前記位相訂正アルゴリズムとは異なる別の位相訂正アルゴリズムに従って訂正位相計算を使って、第１時間フレームとは異なる第２時間フレームのためのオーディオサブバンド信号を計算する」というステップ５８１５とを含む。

図５９は、オーディオ信号を符号化するための方法５９００を示す。方法５９００は、「位相決定器によってオーディオ信号の位相を決定する」というステップ５９０５と、「オーディオ信号の決定された位相に基づいて、計算器によって、オーディオ信号のための位相訂正データを決定する」というステップ５９１０と、「コアエンコーダによって、オーディオ信号に関して、数が減らされたサブバンドを有するコア符号化されたオーディオ信号を得るために、オーディオ信号をコア符号化する」というステップ５９１５と、「パラメータ抽出器によって、コア符号化されたオーディオ信号の中に含まれないサブバンドの第２セットのための低解像度パラメータ表現を得るために、オーディオ信号からパラメータを取り出す」というステップ５９２０と、「出力信号形成器によって、パラメータおよびコア符号化されたオーディオ信号および位相訂正データを含む出力信号を形成する」というステップ５９２５とを含む。

前述された方法２３００および方法２４００および方法２５００および方法３４００および方法３５００および方法３６００および方法４２００と同様に、方法５８００と方法５９００とは、コンピュータにおいて実行されるコンピュータプログラムの中で実施される。

オーディオ信号５５が、オーディオ信号、特にオリジナル（すなわち、処理されていない）オーディオ信号、または、オーディオ信号Ｘ_trans（ｋ，ｎ）の送信された部分２５
、または、ベースバンド信号Ｘ_base（ｋ，ｎ）３０、または、オリジナルのオーディオ信号と比較されるときに、より高い周波数３２を含む処理されたオーディオ信号、または、再構成されたオーディオ信号３５、または、マグニチュード訂正周波数パッチＹ（ｋ，ｎ，ｉ）４０、または、オーディオ信号の位相４５、または、オーディオ信号のマグニチュード４７に対して、一般用語として使われる、ことに注目する必要がある。従って、異なるオーディオ信号は、実施の形態の文脈のために、相互に交換される。

代わりの実施の形態は、発明の時間周波数処理、例えば短時間フーリエ変換（ＳＴＦＴ）または複合修正離散コサイン変換（ＣＭＤＣＴ）または離散フーリエ変換（ＤＦＴ）領域のために使われる種々のフィルタバンクまたは変換領域に関連する。従って、変換に関連した特定の位相特性が考慮される。詳細すると、仮に、例えばコピーアップ係数が、偶数から奇数にコピーされる（または、逆もまた同様）ならば、すなわち、オリジナルのオーディオ信号の２番目のサブバンドが、実施の形態において説明されるように、８番目のサブバンドの代わりに９番目のサブバンドにコピーされるならば、パッチの共役の複合が、処理のために使われる。同じことは、パッチ内の位相角の逆順を克服するために、例えばコピーアップアルゴリズムを使う代わりに、パッチのミラー化に適用される。

別の実施の形態は、エンコーダからのサイド情報を放棄し、デコーダ側でいくつかのまたは全ての必要な訂正パラメータを推定し得る。別の実施の形態は、例えば異なるベースバンド部分、または、パッチの異なる数またはサイズ、または、異なる入れ換え技術（例えばスペクトルのミラー化、または、単一のサイドバンド変調（ＳＳＢ））を使う別の潜在的なＢＷＥパッチ化計画を有する。位相訂正がＢＷＥ合成信号流れの中に正確に協調するバリエーションも存在する。さらに、平滑化は、例えば１次のＩＩＲによって、より良いコンピュータ処理効率のために置き替えられる、スライディングハン窓を使って実行される。

最先端知覚オーディオ符号器の状態の使用は、しばしば、特に低いビット転送速度で、オーディオ信号のスペクトルコンポーネントの位相コヒーレンスを害する。ここでは、バンド幅拡張のようなパラメータの符号化技術が適用される。これは、オーディオ信号の位相デリバティブの変更を引き起こす。しかし、特定の信号のタイプにおいて、位相デリバティブの保存は重要である。結果として、そのような音の知覚の品質が害される。仮に位相デリバティブの復元が、知覚的に有益ならば、本発明は、そのような信号の周波数上（「垂直」）または時間上（「水平」）の何れか一方の位相デリバティブを再調整する。さらに、垂直または水平位相デリバティブを調整するかどうかを決定することは、知覚的に好ましい。非常にコンパクトなサイド情報だけの送信は、位相デリバティブ訂正処理を制御するために必要である。従って、本発明は、適切なサイド情報コストで、知覚的オーディオコーダの音の品質を改良する。

言い換えると、スペクトルのバンド複製（ＳＢＲ）は、位相スペクトルの中のエラーを引き起こすことができる。これらのエラーの人間の知覚は、２つの知覚的に重要な効果（高調波の周波数および時間的な位置における差）を明らかにすることを学んだ。周波数エラーは、基本周波数が十分に高い時にだけ、ＥＲＢバンドの内側に唯一の高調波が存在することを知覚できるように見える。対応して、仮に基本周波数が低く、かつ、高調波の位相が周波数上で位置合わせされるならば、そのときのみ、時間的位置エラーは知覚できるように見える。

周波数エラーは、時間上の位相デリバティブ（ＰＤＴ）を計算することによって検出できる。仮にＰＤＴの値が、時間上、安定しているならば、ＳＢＲ処理された信号とオリジナル信号との間のそれらの差は、訂正されるべきである。これは高調波の周波数を効果的に訂正し、それにより、不調和性の知覚が避けられる。

時間的位置エラーは、周波数上の位相デリバティブ（ＰＤＦ）を計算することによって検出できる。仮にＰＤＦ値が、周波数上、安定しているならば、ＳＢＲ処理された信号とオリジナル信号との間のそれらの差は、訂正されるべきである。これは高調波の時間的位置を効果的に訂正し、それにより、クロスオーバー周波数での変調する雑音の知覚が避けられる。

本発明は、ブロックが現実のまたは論理的なハードウェア組成物を表すブロック図の文脈において説明されたけれども、本発明は、また、コンピュータで実施される方法によっても実施できる。後者の場合において、ブロックは、対応する方法ステップを表す。これらのステップは、対応する論理的なまたは物質的なハードウェアブロックによって実行される機能を表す。

いくつかの面が、装置の文脈において説明されているけれども、これらの面も、対応する方法の説明を表していることは明確である。ブロックまたはデバイスが、方法ステップまたは方法ステップの特徴に対応する。相似的に、方法ステップの文脈において説明され
た面も、対応するブロックの説明または対応する装置のアイテムまたは特徴を表している。方法ステップのうちのいくつかまたは全てが、例えばマイクロプロセッサまたはプログラム可能なコンピュータまたは電子回路のような、ハードウェア装置によって（を使って）実行される。いくつかの実施の形態において、最も重要な方法ステップのうちの１つ以上は、そのような装置によって実行される。

発明の送信されたまたは符号化された信号は、デジタルの記憶媒体に格納されるか、またはインターネットのような無線送信媒体または有線送信媒体などの送信媒体に送信される。

特定の実施要件に依存することによって、発明の実施の形態は、ハードウェアまたはソフトウェアにおいて実施される。実施は、その上に格納された電子的に読み取り可能な制御信号を有するデジタル記憶媒体（例えばフロッピーディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、およびＥＰＲＯＭ、ＥＥＰＲＯＭ、またはフラッシュメモリ）を使って実行できる。それは、個々の方法が実行されるように、プログラム可能なコンピュータシステムと協働する（または、協働する可能性がある）。従って、デジタル記憶媒体は読み取り可能なコンピュータでもよい。

発明に応じたいくつかの実施の形態は、ここで説明された方法のうちの１つが実行されるように、プログラム可能なコンピュータシステムと協働する可能性がある、電子的に読み取り可能な制御信号を有するデータキャリアを含む。

一般に、本発明の実施の形態は、プログラム符号を有するコンピュータプログラム製品として実施される。コンピュータプログラム製品が、コンピュータにおいて稼動するとき、プログラム符号は、方法のうちの１つを実行するために作動する。プログラム符号は、例えば、機械読み取り可能なキャリアに格納される。

別の実施の形態は、ここに説明された方法のうちの１つを実行するためのコンピュータプログラムを含み、機械読み取り可能なキャリアに格納される。

言い換えると、発明の方法の実施の形態は、コンピュータプログラムがコンピュータ上で稼働するとき、ここに説明された方法のうちの１つを実行するためのプログラム符号を有するコンピュータプログラムである。

従って、発明の方法の別の実施の形態は、ここに説明された方法のうちの１つを実行するためのコンピュータプログラムをその上に記録されたデータキャリア（または、デジタルの記憶媒体などの非一時的な記憶媒体、または、コンピュータ読み取り可能な媒体）を含む。データキャリアまたはデジタルの記憶媒体または記録された媒体は、一般に、実体的および／または非一時的である。

従って、発明の方法の別の実施の形態は、ここに説明された方法のうちの１つを実行するためのコンピュータプログラムを表しているデータストリームまたは一連の信号である。データストリームまたは信号の連続は、例えば、データ通信接続を介して、例えばインターネットを介して、転送されるように構成される。

別の実施の形態は、ここに説明された方法のうちの１つを実行するように構成されるか、またはそれに適応した処理手段、例えばコンピュータまたはプログラム可能な論理デバイスを含む。

別の実施の形態は、その上に、ここに説明された方法のうちの１つを実行するためのコ
ンピュータプログラムをインストールしているコンピュータを含む。

発明に従う別の実施の形態は、ここに記述された方法のうちの１つを実行するためのコンピュータプログラムを、受信器に転送（例えば、電子的にまたは光学的に）するように構成された装置またはシステムを含む。受信器は、例えば、コンピュータまたは携帯機器または記憶デバイスなどである。装置またはシステムは、例えば、コンピュータプログラムを受信器に転送するためのファイルサーバーを含む。

いくつかの実施の形態において、プログラム可能な論理デバイス（例えば、フィールドプログラム可能ゲートアレイ）は、ここに説明された方法の機能のいくつかまたは全てを実行するために使用される。いくつかの実施の形態において、フィールドプログラム可能ゲートアレイは、ここに説明された方法のうちの１つを実行するために、マイクロプロセッサと協働する。一般に、方法は、好ましくは、どのようなハードウェア装置によっても実行される。

前述の実施の形態は、単に、本発明の原則のための例示である。ここに説明された配列と詳細の修正とバリエーションとが当業者に明白であることは理解される。従って、それは、差し迫った特許請求の範囲によってのみ制限されるという意図であって、実施の形態の記述と説明によって提供された特定の詳細によって制限されるという意図ではない。

Claims

オーディオ信号（５５）を処理するためのオーディオプロセッサ（５０´）であって、
時間フレーム（７５）の中の前記オーディオ信号（５５）のための目標位相尺度（８５´）を決定するための目標位相尺度決定器（６５´）と、
前記時間フレーム（７５）の中の前記オーディオ信号（５５）の位相と前記目標位相尺度（８５´）とを使って、位相エラー（１０５´）を計算するための位相エラー計算器（２００）と、
前記位相エラー（１０５´）を使って、前記時間フレームの中の前記オーディオ信号（５５）の前記位相を訂正するように構成される、位相訂正器（７０´）と、
を含む、オーディオプロセッサ。
前記オーディオ信号（５５）は、前記時間フレーム（７５）のための複数のサブバンド（９５）を含み、
前記目標位相尺度決定器（６５´）は、第１サブバンド信号（９５ａ）のための第１目標位相尺度（８５ａ´）と、第２サブバンド信号（９５ｂ）のための第２目標位相尺度（８５ｂ´）とを決定するように構成され、
前記位相エラー計算器（２００）は、位相エラー（１０５´）のベクトルを形成するように構成され、前記ベクトルの第１要素は、前記第１サブバンド信号（９５ａ）の前記位相と前記第１目標位相尺度（８５ａ´）との第１偏差（１０５ａ´）を参照し、前記ベクトルの第２要素は、前記第２サブバンド信号（９５ｂ）の前記位相と前記第２目標位相尺度（８５ｂ´）との第２偏差（１０５ｂ´）を参照し、
訂正第１サブバンド信号（９０ａ´）および訂正第２サブバンド信号（９０ｂ´）を使って、訂正オーディオ信号（９０´）を合成するためのオーディオ信号シンセサイザー（１００）を含む、請求項１に記載のオーディオプロセッサ。
複数のサブバンド（９５）は、ベースバンド（３０）と周波数パッチ（４０）のセットにグループ化され、前記ベースバンド（３０）は、前記オーディオ信号（５５）の１つのサブバンド（９５）を含み、そして、周波数パッチ（４０）の前記セットは、前記ベースバンドの前記サブバンド（９５）の周波数より高い周波数で、前記ベースバンド（３０）の少なくとも１つのサブバンドを含み、
前記位相エラー計算器（２００）は、平均位相エラー（１０５´´）を得るために、周波数パッチ（４０）の前記セットの第１パッチ（４０ａ）を参照する位相エラー（１０５´）のベクトルの要素の平均を計算するように構成され、
前記位相訂正器（７０´）は、重み付けされた平均位相エラーを使って、周波数パッチの前記セットの最初および次の周波数パッチ（４０）の中のサブバンド信号の位相を訂正するように構成され、前記平均位相エラー（１０５´´）は、修正されたパッチ信号（４０´）を得るために、前記周波数パッチ（４０）のインデックスに従って重み付けされる、請求項１に記載のオーディオプロセッサ。
前記オーディオプロセッサ（５０´）は、さらに、ベースバンド（３０）のための周波数上の位相デリバティブ（ＰＤＦ）の平均（２１５）を計算するように構成されるオーディオ信号位相デリバティブ計算器（２１０）を含み、
前記位相訂正器（７０´）は、現在のサブバンドインデックスによって重み付けされた周波数上の前記位相デリバティブの平均（２１５）を、前記オーディオ信号（５５）の前記ベースバンド（３０）の中で最も高いサブバンドインデックスを有する前記サブバンド信号の位相に追加することによって、最適化された第１周波数パッチによって別の修正されたパッチ信号（４０´´）を計算するように構成される、請求項３に記載のオーディオプロセッサ。
オーディオ信号位相デリバティブ計算器（２１０）は、サブバンド信号（９５）の中のトランジェントを検出するために、ベースバンド信号（３０）より高い周波数を含む複数のサブバンド信号のための周波数上の位相デリバティブ（ＰＤＦ）の平均（２１５）を計算するように構成され、
前記位相訂正器（７０´）は、現在のサブバンドインデックスによって重み付けされた周波数上の前記位相デリバティブの平均（２１５）を、前記オーディオ信号（５５）の前記ベースバンド（３０）の中で最も高いサブバンドインデックスを有する前記サブバンド信号の位相に追加することによって、最適化された第１周波数パッチによって別の修正されたパッチ信号（４０´´）を計算するように構成される、請求項１ないし請求項３のいずれかに記載のオーディオプロセッサ。
前記位相訂正器（７０´）は、前記周波数パッチ（４０）に基づいて、現在のサブバンドの前記サブバンドインデックスによって重み付けされた周波数上の位相デリバティブの平均（２１５）を、前の周波数パッチの中で最も高いサブバンドインデックスを有するサブバンド信号の位相に追加されることによって別の修正されたパッチ信号（４０´´）を再帰的に更新するように構成される、請求項４または請求項５に記載のオーディオプロセッサ。
前記位相訂正器（７０´）は、結合され修正されたパッチ信号（４０´´´）を得るために、前記修正されたパッチ信号（４０´）と前記別の修正されたパッチ信号（４０´´）との重み付けされた平均を計算するように構成され、
前記位相訂正器（７０´）は、前記周波数パッチ（４０）に基づいて、前記現在のサブバンド（９５）の前記サブバンドインデックスによって重み付けされた周波数上の前記位相デリバティブの前記平均（２１５）を、前記結合され修正されたパッチ信号（４０´´´）の前記前の周波数パッチの中で前記最も高いサブバンドインデックスを有する前記サブバンド信号の前記位相に追加することによって、前記結合され修正されたパッチ信号（４０´´´）を再帰的に更新するように構成される、請求項６に記載のオーディオプロセッサ。
前記位相訂正器（７０´）は、第１特定重み付け関数によって重み付けされた現在の周波数パッチの中のパッチ信号（４０´）と第２特定重み付け関数によって重み付けされた前記現在の周波数パッチの中の修正されたパッチ信号（４０´´）との円平均を使って、前記パッチ信号（４０´）と前記修正されたパッチ信号（４０´´）との重み付けされた平均を計算するように構成される、請求項１ないし請求項７のいずれかに記載のオーディオプロセッサ。
前記位相訂正器（７０´）は、位相偏差のベクトルを形成するように構成され、前記位相訂正器（７０´）は、結合され修正されたパッチ信号（４０´´´）と前記オーディオ信号（５５）とを使って、前記位相偏差を計算するように構成される、請求項１ないし請求項８のいずれかに記載のオーディオプロセッサ。
前記目標位相尺度決定器（６５´）は、
前記オーディオ信号（５５）の現在の時間フレームの中のピーク位置（２３０）およびピーク位置の基本周波数（２３５）を、データストリーム（１３５）から取り出すように構成される、データストリーム抽出器（１３０´）、または、
前記現在の時間フレームの中のピーク位置（２３０）およびピーク位置の基本周波数（２３５）を計算するために、前記現在の時間フレームの中の前記オーディオ信号（５５）を分析するように構成されるオーディオ信号分析器（２２５）と、
前記ピーク位置（２３０）およびピーク位置の前記基本周波数（２３５）を使って、前記現在の時間フレームの中の別のピーク位置を推定するための目標スペクトル生成器（２４０）と、
を含む、請求項１ないし請求項９のいずれかに記載のオーディオプロセッサ。
前記目標スペクトル生成器（２４０）は、
時間上のパルス列（２６５）を生成するためのピーク生成器（２４５）と、
ピーク位置の前記基本周波数（２３５）に従って、前記パルス列（２６５）の周波数を調整するための信号形成器（２５０）と、
前記ピーク位置（２３０）に従って、前記パルス列（２６５）の位相を調整するためのパルス位置器（２５５）と、
前記調整されたパルス列の位相スペクトルを生成するためのスペクトル分析器（２６０）であって、時間領域信号の前記位相スペクトルは、前記目標位相尺度（８５´）である、前記スペクトル分析器（２６０）と、
を含む、請求項１０に記載のオーディオプロセッサ。
オーディオ信号（２５）を復号するためのデコーダ（１１０´）であって、前記デコーダは、
ベースバンドのサブバンド（９５）のセットを得るために、時間フレームの中のオーディオ信号（２５）を復号するように構成されるコアデコーダ（１１５）と、
前記ベースバンドのサブバンド（９５）の前記セットをパッチするように構成されるパッチ器（１２０）であって、サブバンドの前記セットは、前記ベースバンドの前記周波数より高い周波数を含むオーディオ信号（３２）を得るために、前記ベースバンドに隣接する前記時間フレームの中の別のサブバンドに、パッチを形成する、パッチ器（１２０）と、
請求項１ないし請求項１１のいずれかに記載のオーディオプロセッサ（５０´）であって、前記オーディオプロセッサ（５０´）は、目標位相尺度に従って前記パッチの前記サブバンドの位相を訂正するように構成される、オーディオプロセッサ（５０´）と、
を含む、デコーダ。
前記パッチ器（１２０）は、前記オーディオ信号（２５）のサブバンド（９５）の前記セットをパッチするように構成され、サブバンドの前記セットは、前記パッチに隣接する前記時間フレームの別のサブバンドに、別のパッチを形成し、
前記オーディオプロセッサ（５０´）は、前記別のパッチの前記サブバンド内の前記位相を訂正するように構成されるか、または
前記パッチ器（１２０）は、前記パッチに隣接する前記時間フレームの別のサブバンドに、前記訂正パッチをパッチするように構成される、請求項１２に記載のデコーダ。
前記デコーダ（１１０´）は、請求項１ないし請求項１１のいずれかに記載の別のオーディオプロセッサ（５０）を含み、前記別のオーディオプロセッサ（５０）は、周波数上の別の位相デリバティブを受信するように構成され、そして、周波数上の前記受信された位相デリバティブを使って、前記オーディオ信号（３２）の中のトランジェントを訂正するように構成される、請求項１２または請求項１３に記載のデコーダ。
オーディオ信号（５５）を符号化するためのエンコーダ（１５５´）であって、
前記オーティオ信号（５５）について、数が減らされたサブバンドを有するコア符号化されたオーディオ信号（１４５）を得るために、前記オーディオ信号（５５）をコア符号化するように構成されるコアエンコーダ（１６０）と、
前記オーディオ信号の中のピーク位置の基本周波数推定（２３５）を得るために、前記オーディオ信号（５５）または前記オーディオ信号のローパスフィルタされたバージョンの中のピーク位置（２３０）を分析するための基本周波数分析器（１７５）と、
前記コア符号化されたオーディオ信号（１４５）に含まれない前記オーディオ信号（５５）のサブバンドのパラメータ（１９０）を引き出すように構成されるパラメータ抽出器（１６５）と、
出力信号（１３５）を形成するように構成される出力信号形成器（１７０）であって、前記出力信号は前記コア符号化されたオーディオ信号（１４５）を含み、前記出力信号は前記パラメータ（１９０）をさらに含み、前記出力信号はピーク位置の前記基本周波数推定（２３５）をさらに含み、かつ、前記出力信号は前記ピーク位置（２３０）のうちの少なくとも１つを含む、出力信号形成器（１７０）と、
を含む、エンコーダ。
前記出力信号形成器（１７０）は、前記出力信号（１３５）を、一連のフレームの中に形成するように構成され、個々のフレームは、前記コア符号化されたオーディオ信号（１４５）とパラメータ（１９０）とを含み、Ｎ−１個おきのフレームがすべて、ピーク位置の前記基本周波数推定（２３５）と前記ピーク位置（２３０）とを含み、Ｎは、２以上の整数である、請求項１５に記載のエンコーダ。
オーディオ信号（５５）を処理するための方法（３４００）であって、
時間フレーム（７５）の中の前記オーディオ信号のための目標位相尺度（８５´）を決定するステップと、
前記時間フレーム（７５）の中の前記オーディオ信号（５５）の位相と前記目標位相尺度（８５´）とを使って、位相エラー（１０５´）を計算するステップと、
前記位相エラー（１０５´）を使って、前記時間フレーム（７５）の中の前記オーディオ信号（５５）の前記位相を訂正するステップと、
を含む、方法。
オーディオ信号（２５）を復号するための方法（３５００）であって、前記方法は、
ベースバンドの中のサブバンドのセットを得るために、前記ベースバンドの時間フレームの中のオーディオ信号（２５）を復号するステップと、
前記ベースバンドの中のサブバンドの前記セットをパッチするステップであって、サブバンド（９５）の前記セットは、前記ベースバンドの前記周波数より高い周波数を含むオーディオ信号（３２）を得るために、前記ベースバンドに隣接する前記時間フレームの中の別のサブバンドに、パッチを形成する、パッチするステップと、
目標位相尺度に従って、請求項１７に記載の処理するための方法（３４００）によって、前記パッチの前記サブバンドの位相を訂正するステップと、
を含む、方法。
オーディオ信号（５５）を符号化するための方法（３６００）であって、前記方法は、
前記オーディオ信号（５５）に関して、数が減らされたサブバンドを有するコア符号化されたオーディオ信号（１４５）を得るために、前記オーディオ信号をコア符号化するステップと、
前記オーディオ信号（５５）の中のピーク位置の基本周波数推定を得るために、前記オーディオ信号（５５）または前記オーディオ信号（５５）のローパスフィルタされたバージョンを分析するステップと、
前記オーディオ信号（５５）の特定のサブバンドのパラメータ（１５０）を引き出すステップであって、前記特定のサブバンドは、前記コア符号化されたオーディオ信号に含まれない、引き出すステップと、
出力信号（１３５）を形成するステップであって、前記出力信号は前記コア符号化されたオーディオ信号（１４５）を含み、前記出力信号は前記パラメータ（１９０）をさらに含み、前記出力信号はピーク位置の前記基本周波数推定（２３５）をさらに含み、前記出力信号は前記ピーク位置（２３０）のうちの少なくとも１つをさらに含む、形成するステップと、
を含む、方法。
コンピュータプログラムがコンピュータ上で実行されるとき、請求項１７ないし請求項１９のいずれかに記載の方法を実行するプログラムコードを有する、コンピュータプログラム。