JP2014510301A

JP2014510301A - 復号後オーディオ信号をスペクトル領域で処理する装置及び方法

Info

Publication number: JP2014510301A
Application number: JP2013553881A
Authority: JP
Inventors: ギルラウム・フッハス; ラルフ・ゲイゲル; マルクス・シュネル; エマヌエル・ラベリ; シュテファン・デーラ
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2011-02-14
Filing date: 2012-02-10
Publication date: 2014-04-24
Anticipated expiration: 2032-02-10
Also published as: CA2827249C; HK1192048A1; BR112013020482B1; EP2676268A1; EP2676268B1; RU2560788C2; PL2676268T3; MY164797A; KR20130133843A; RU2013142138A; BR112013020482A2; SG192746A1; CN103503061B; AU2012217269B2; TWI469136B; TW201237848A; CN103503061A; WO2012110415A1; US20130332151A1; AR085362A1

Abstract

復号後オーディオ信号（１００）を処理する装置であって、復号後オーディオ信号をフィルタ処理して、フィルタ処理後のオーディオ信号（１０４）を得るフィルタ（１０２）と、復号後オーディオ信号及びフィルタ処理後のオーディオ信号を、対応するスペクトル表現へ変換するステージであって、各スペクトル表現は複数のサブバンド信号を有する、時間−スペクトル変換部ステージ（１０６）と、サブバンド信号にそれぞれの重み付け係数を掛けることによって、フィルタ処理後のオーディオ信号の周波数選択的な重み付けを行って、重み付けされたフィルタ処理後のオーディオ信号を得る重み付け部（１０８）と、重み付けされたフィルタ処理後のオーディオ信号と復号後オーディオ信号のスペクトル表現とのサブバンドに関する減算を行う減算部（１１２）と、結果オーディオ信号又は結果オーディオ信号から導き出された信号を時間領域表現に変換して、処理された復号後オーディオ信号（１１６）を得るスペクトル−時間変換部（１１４）とを含む、装置である。
【選択図】図１Ａ

Description

本発明は、オーディオ処理に関し、詳しくは品質向上のために復号後オーディオ信号（復号された後のオーディオ信号）を処理することに関する。

最近、スイッチング式オーディオコーデック（コーデック＝符号器／復号器）に関して、さらなる展開が成し遂げられている。高品質かつ低ビットレートのスイッチング式オーディオコーデックとして、統合スピーチ及びオーディオ符号化概念（ＵＳＡＣ(unified speech and audio coding)concept）がある。そこでは、ステレオ処理又はマルチチャンネル処理を扱うＭＰＥＧサラウンド（ＭＰＥＧｓ）機能ユニット、及び入力信号内の高域オーディオ周波数のパラメータ表現を扱う改良ＳＢＲ（ｅＳＢＲ）ユニットから成る周知の前処理／後処理が存在する。続いて２つの分岐があり、一方は、先進的音響符号化（ＡＡＣ：advanced audio coding）ツールの経路からなり、他方は、線形予測符号化（ＬＰ（linear prediction＝線形予測）領域又はＬＰＣ（LP coding＝ＬＰ符号化）領域）ベースの、さらにＬＰＣ残差の周波数領域表現又は時間領域表現を特徴づける経路からなる。ＡＡＣ及びＬＰＣの全伝送スペクトルは、ＭＤＣＴ領域、続いて量子化及び算術符号化内で表現される。時間領域表現は、ＡＣＥＬＰ励振符号化方式を用いる。符号器（エンコーダ）及び復号器（デコーダ）のブロック図は、ＩＳＯ／ＩＥＣＣＤ２３００３−３の図１．１及び図１．２で与えられる。

スイッチング式オーディオコーデックの新たな例は、３ＧＰＰＴＳ２６．２９０Ｖ１０．０．０（２０１１−３）に説明されている、拡張適応マルチレート広帯域（ＡＭＲ−ＷＢ＋：extended adaptive multi-rate-wide band）コーデックである。ＡＭＲ−ＷＢ＋オーディオコーデックは、内部サンプリング周波数Ｆ_sにおいて２０４８サンプルに等しい入力フレームを処理する。内部サンプリング周波数は、１２８００Ｈｚから３８４００Ｈｚまでの範囲に制限される。２０４８サンプルのフレームは、最大間引きされた２つの等しい周波数帯域に分割される。これにより、結果的に低周波数（ＬＦ：low frequency）帯域及び高周波数（ＨＦ：high frequency）帯域に対応する１０２４サンプルの２つのスーパーフレームがもたらされる。各スーパーフレームは、４つの２５６サンプルのフレームに分割される。入力信号を再サンプリングする可変サンプリング変換方式を用いることによって、内部サンプリングレートでのサンプリングがなされる。次いでＬＦ信号及びＨＦ信号は、２つの異なるアプローチを用いて符号化され、ＬＦは、スイッチング式ＡＣＥＬＰ及び変換符号化励振（ＴＣＸ：transform coded excitation）に基づき、「コア」符号器／復号器を用いて符号化され復号される。ＡＣＥＬＰモードでは、標準のＡＭＲ−ＷＢコーデックが用いられる。ＨＦ信号は、帯域拡張（ＢＷＥ：bandwidth extension）方法を用いて、比較的少数のビット（フレーム当たり１６ビット）で符号化される。ＡＭＲ−ＷＢ符号器（ＡＭＲ−ＷＢコーダ）は、前処理機能、ＬＰＣ分析、開ループ探索機能、適応コードブック探索機能、革新的（固定）コードブック探索機能及びメモリ更新を含む。ＡＣＥＬＰ復号器は、適応コードブックの復号処理ブロック、利得の復号処理ブロック、革新的コードブックの復号処理ブロック、復号ＩＳＰブロック、長期予測フィルタ（ＬＴＰ（long term prediction）フィルタ）ブロック、構造励振機能ブロック、４つのサブフレームに対するＩＳＰの補間ブロック、後処理ブロック、合成フィルタブロック、デエンファシスブロック及びアップ・サンプリング・ブロックなどの、最後にスピーチ出力の低域部分を得るためのいくつかの機能を含む。スピーチ出力の高域部分は、ＨＢ利得率、ＶＡＤフラグ、及び１６ｋＨｚランダム励振を用い、利得スケーリングすることによって発生する。さらに、ＨＢ合成フィルタが用いられ、その後に帯域通過フィルタが続く。さらなる詳細が、Ｇ．７２２．２の図３にある。

この方式は、ＡＭＲ−ＷＢ＋において、モノラル低域信号の後処理を行うことによって改良されている。ＡＭＲ−ＷＢ＋の機能を図示する図７、図８及び図９を参照する。図７は、ピッチ強調器７００、低域通過フィルタ７０２、高域通過フィルタ７０４、ピッチ追跡ステージ（ピッチ・トラッキング・ステージ）７０６及び加算器７０８を図示する。これらの複数のブロックが、図７に図示されたように接続され、復号後信号によって供給される。

低周波数ピッチ強調では、２帯域分解が用いられ、適応フィルタ処理が低域だけに適用される。これにより、結果的に合成スピーチ信号の第１高調波近傍の周波数を主にターゲットとする後処理全体がもたらされる。図７は、２帯域ピッチ強調器のブロック図を示す。上側の分岐では、復号後信号は、高域通過フィルタ７０４によってフィルタ処理されて、高域信号ｓ_Hを生成する。下側の分岐では、復号後信号は、最初に適応ピッチ強調器７００を通して処理され、次いで低域通過フィルタ７０２を通してフィルタ処理されて、低域後処理信号（低域の後処理信号）（ｓ_LEE）を得る。後処理復号後信号（後処理復号された後の信号）は、低域後処理信号と高域信号を加算することによって得られる。ピッチ強調器の目的は、復号後信号内の高調波間雑音を低減することであり、これは、図９の第１行に示されかつ図９の第２行に方程式で説明された伝達関数Ｈ_Eを用いて、時変線形フィルタによって達成される。αは、高調波間の減衰を制御する係数である。Ｔは入力信号?（ｎ）のピッチ周期であり、ｓ_LE（ｎ）はピッチ強調器の出力信号である。パラメータＴ及びαは、時間とともに変化し、α＝１の値を有するピッチ追跡ステージモジュール７０６によって与えられ、図９の第２行の方程式で説明されたフィルタの利得は、周波数１／（２Ｔ）、３／（２Ｔ）、５／（２Ｔ）などにおいて、すなわち直流（０Ｈｚ）と高調波周波数１／Ｔ、３／Ｔ、５／Ｔなどとの間の中間点において正確にゼロとなる。αがゼロに接近すると、図９の第２行に定義されたフィルタによって生成された高調波間の減衰は、低下する。αがゼロになると、フィルタはどんな影響も与えず、全域通過となる。後処理を低周波数領域に制限するために、強調された信号ｓ_LEは、低域通過フィルタ処理されて信号ｓ_LEFを生成し、同信号は高域通過フィルタ信号ｓ_Hへ加算されて後処理合成信号ｓ_Eを得る。

図７に図示されたものに等価な別の構成が図８に図示されるが、図８の構成は、高域通過フィルタ処理の必要性を排除する。このことは、図９内の３番目のｓ_E用の方程式に関して説明される。ｈ_LP（ｎ）は低域通過フィルタのインパルス応答であり、ｈ_HP（ｎ）は相補的高域通過フィルタのインパルス応答である。次いで図９の３番目の方程式によって、後処理信号ｓ_E(n)が与えられる。このように、後処理は、合成信号

から、スケーリングされ低域通過フィルタ処理された長期誤差信号αｅ_LT（ｎ）を減算することに等価である。長期予測フィルタの伝達関数は、図９の最後の行に示されるように与えられる。この代わりの後処理構成が、図８に図示されている。値Ｔは、各サブフレーム内で受信された閉ループ・ピッチ・ラグ（ラグ＝遅延）によって与えられる（ピッチラグの小数点以下は最も近い整数に丸められる）。ピッチ倍増を検査する単純な追跡が行われる。遅延Ｔ／２における正規化されたピッチ相関関係が０．９５よりも大きい場合、後処理用の新たなピッチラグとして値Ｔ／２が用いられる。係数αは、α＝０．５ｇ_pによって、ゼロ以上かつ０．５以下のαに制約されて与えられる。ｇ_pは、０と１の間に制限された復号後ピッチ利得である。ＴＣＸモード内では、αの値はゼロに設定される。大略５００Ｈｚのカットオフ周波数を有する２５個の係数の直線位相ＦＩＲ低域通過フィルタが用いられる。そのフィルタ遅延は、１２サンプルである。減算を行う前に、２つの分岐内の信号を時間的にタイミングが合った状態にしておくために、上側の分岐は、下側の分岐内の処理遅延に対応する遅延を導入する必要がある。ＡＭＲ−ＷＢ＋では、Ｆｓ＝２×コア・サンプリング・レートである。コア・サンプリング・レートは、１２８００Ｈｚに等しい。上述のようにカットオフ周波数は、５００Ｈｚに等しい。

特に低遅延用途としては、直線位相ＦＩＲ低域通過フィルタによって導入された１２サンプルのフィルタ遅延は、符号処理／復号処理体系の全体にわたる遅延の原因となることが見いだされていた。符号処理／復号処理チェーン内の他の場所ではシステム的遅延の他の発生源があり、ＦＩＲフィルタ遅延はこれらの他の発生源とともに蓄積する。

本発明の目的は、リアルタイム用途又は携帯電話シナリオなどの双方向通信シナリオに対してより良好に適合した、改善されたオーディオ信号処理概念を提供することである。

この目的は、請求項１に従って復号後オーディオ信号を処理する装置、もしくは請求項１５に従って復号後オーディオ信号を処理する方法、又は請求項１６に従うコンピュータプログラムによって達成される。

本発明は、復号後信号の低音ポストフィルタ処理における低域通過フィルタの全体にわたる遅延に与える寄与が、問題が多く低減しなければならないことを見いだしたことに基づいている。この目的のために、フィルタ処理後の（フィルタ処理された）オーディオ信号は、時間領域で低域通過フィルタ処理されず、ＱＭＦ領域などのスペクトル領域又は例えばＭＤＣＴ領域、ＦＦＴ領域などの他の任意のスペクトル領域で低域通過フィルタ処理される。スペクトル領域から周波数領域への変換、及び例えばＱＭＦ領域などの低解像度周波数領域への変換は低遅延で行うことができること、スペクトル領域で実装すべきフィルタの周波数選択性は、フィルタ処理後のオーディオ信号の周波数領域表現からの個々のサブバンド（サブ帯域）信号を重み付けすることだけによって実装することができることが見いだされた。サブバンド信号との掛ける演算又は重み付けする演算がどんな遅延も招かないので、この周波数選択的特性の「押し付け（compression）」は、どんなシステム的遅延も無しに行われる。フィルタ処理後のオーディオ信号と元のオーディオ信号との減算も、同様にスペクトル領域で行われる。その上に、例えばスペクトル帯域複製復号処理又はステレオもしくはマルチチャンネル復号処理などのどうしても必要な演算であって、さらに１つのかつ同一のＱＭＦ領域で行われる、さらなる演算を行うことが好ましい。周波数−時間変換は、最後に生成されたオーディオ信号を時間領域に戻すために、復号処理チェーンの終端においてだけ行われる。それゆえに、用途によるが、ＱＭＦ領域での新たな処理演算がもはや必要とされない場合は、減算部によって発生した結果オーディオ信号はそのまま時間領域へ変換し戻すことができる。しかしながら、復号処理アルゴリズムがＱＭＦ領域で新たな処理演算を有する場合は、周波数−時間変換部は、減算部出力に接続されずに、最後の周波数領域処理デバイスの出力に接続される。

復号後オーディオ信号をフィルタ処理するフィルタは、長期予測フィルタであることが好ましい。その上に、スペクトル表現がＱＭＦ表現であることが好ましく、さらに加えて周波数選択性が低域通過特性であることが好ましい。

しかしながら、復号後オーディオ信号の低遅延の後処理を得るために、長期予測フィルタとは異なる他の任意のフィルタ、ＱＭＦ表現とは異なる他の任意のスペクトル表現又は低域通過特性とは異なる他の任意の周波数選択性を用いることができる。

好ましい本発明の実施の形態が、以下の添付の図面に関して、続いて説明される。

図１Ａは一実施の形態に従って復号後オーディオ信号を処理する装置のブロック図である。図１Ｂは復号後オーディオ信号を処理する装置用の好ましい実施の形態のブロック図である。図２Ａは周波数選択的特性を典型的には低域通過特性として示す。図２Ｂは重み付け係数及び関連したサブバンドを示す。図２Ｃは、時間／スペクトル変換部と、続いて接続された重み付け部であって個々のサブバンド信号に重み付け係数を適用する重み付け部との従属接続を示す。図３は、図８に図示されたＡＭＲ−ＷＢ＋内の低域通過フィルタの周波数応答におけるインパルス応答を示す。図４はインパルス応答及びＱＭＦ領域へ変換された周波数応答を示す。図５は３２個のＱＭＦサブバンドの例に対する重み付け部の重み付け係数を示す。図６は１６個のＱＭＦ帯域及び関連した１６個の重み付け係数の周波数応答を示す。図７はＡＭＲ−ＷＢ＋の低周波数ピッチ強調器のブロック図を示す。図８はＡＭＲ−ＷＢ＋の実装された後処理構成を示す。図９は図８の実装の導出過程を示す。図１０は一実施の形態に従って長期予測フィルタの低遅延実装を示す。

図１Ａは、復号後オーディオ信号１００（線１００上の復号後オーディオ信号）を処理する装置を示す。復号後オーディオ信号１００は、復号後オーディオ信号をフィルタ処理するフィルタ１０２へ入力されて、フィルタ処理後のオーディオ信号１０４（線１０４上のオーディオ信号）を得る。フィルタ１０２は時間−スペクトル変換部ステージ１０６に接続されている。時間−スペクトル変換部ステージ１０６は、フィルタ処理後のオーディオ信号用の時間−スペクトル変換部１０６ａ及び復号後オーディオ信号１００用の時間−スペクトル変換部１０６ｂからなる２つの別個の時間−スペクトル変換部として示されている。時間−スペクトル変換部ステージは、オーディオ信号及びフィルタ処理後のオーディオ信号を、対応するスペクトル表現であってそれぞれ複数のサブバンド信号を有するスペクトル表現へ変換するように構成されている。これは図１Ａにおいて２重線で示され、ブロック１０６ａ、１０６ｂの出力が、ブロック１０６ａ、１０６ｂへの入力用に図示されるような単一信号ではなくて、複数の別個のサブバンド信号を含むことを示す。

処理用の装置は、さらに重み付け部１０８を含み、重み付け部１０８は、個々のサブバンド信号にそれぞれの重み付け係数を掛けることによって、ブロック１０６ａによるフィルタ処理後のオーディオ信号出力について周波数選択的な重み付けを行って、重み付けされたフィルタ処理後のオーディオ信号１１０（線１１０上のオーディオ信号）を得る。

さらに、減算部１１２が設けられている。減算部は、重み付けされたフィルタ処理後のオーディオ信号とブロック１０６ｂによって発生したオーディオ信号のスペクトル表現とのサブバンドに関する減算を行うように構成されている。

さらに、スペクトル−時間変換部１１４が設けられている。ブロック１１４によって行われるスペクトル−時間変換は、減算部１１２によって発生した結果オーディオ信号又は結果オーディオ信号から導き出された信号が時間領域表現へ変換されて、処理された復号後オーディオ信号１１６（線１１６上の復号後オーディオ信号）を得るようにする。

図１Ａは、時間−スペクトル変換及び重み付けによる遅延がＦＩＲフィルタ処理による遅延よりも著しく小さいと記載しているが、これは、すべての状況において必須なことではない。なぜならＱＭＦが絶対的に必須であるような状況下では、ＦＩＲフィルタ処理の遅延とＱＭＦの遅延との積み重ねが回避されるからである。それゆえに、時間−スペクトル変換重み付けによる遅延が、低音ポストフィルタ処理用のＦＩＲフィルタの遅延よりも大きいときであっても、本発明は、同様に有益である。

図１Ｂは、ＵＳＡＣ復号器又はＡＭＲ−ＷＢ＋復号器との関連で、本発明の好ましい実施の形態を示す。図１Ｂに示された装置は、ＡＣＥＬＰ復号器ステージ１２０、ＴＣＸ復号器ステージ１２２、及び復号器１２０、１２２の出力が接続された接続点１２４を含んでいる。接続点１２４は、２つの別個の分岐を開始する。第１分岐は、好ましくはピッチラグＴによって設定された長期予測フィルタとして構成されたフィルタ１０２を含み、その後に適応利得αの増幅器１２９が続く。さらに、第１分岐は、好ましくはＱＭＦ分析フィルタバンクとして実装された時間−スペクトル変換部１０６ａを含む。さらに、第１分岐は、ＱＭＦ分析フィルタバンク１０６ａによって発生したサブバンド信号を重み付けするように構成された重み付け部１０８を含む。

第２分岐内で、復号後オーディオ信号は、ＱＭＦ分析フィルタバンク１０６ｂによってスペクトル領域へ変換される。

個々のＱＭＦブロック１０６ａ、１０６ｂが２つの独立したエレメントとして図示されているが、フィルタ処理後のオーディオ信号及びオーディオ信号を分析することにとっては、２つの別個のＱＭＦ分析フィルタバンクを有することは必ずしも必要でないことに留意されたい。その代わりに、信号が次々に変換される場合は、単一のＱＭＦ分析フィルタバンクとメモリで十分であるとすることができる。しかしながら、極めて低遅延の実装に対しては、単一のＱＭＦブロックがアルゴリズムのボトルネックを形成しないように、信号ごとに別個のＱＭＦ分析フィルタバンクを用いることが好ましい。

好ましくは、スペクトル領域への変換及び時間領域への変換し戻しは、前方変換及び後方変換の遅延が時間領域での周波数選択的特性を有するフィルタ処理の遅延よりも少ないアルゴリズムによって行われる。それゆえに、これらの変換の全体にわたる遅延は、問題になっているフィルタの遅延よりも少ないようにするべきである。ＱＭＦベースの変換などの低解像度変換は特に有益であり、これは、低周波数解像度が結果的に小さい変換窓の必要性をもたらすから、すなわちシステム的遅延が低減されるからである。好ましい用途は、３２サブバンド又はたった１６サブバンドだけなどの、４０サブバンド未満に信号を分解する低解像度変換だけを必要とする。しかしながら、時間−スペクトル変換及び重み付けが低域通過フィルタよりも多い遅延を導入する用途においてさえも利点が得られる。それは、他の処理ではどうしても必要な低域通過フィルタと時間−スペクトル変換の遅延積み重ねが回避されるという事実からである。

しかしながら、再サンプリング、ＳＢＲ又はＭＰＳなどの他の処理演算に起因して、時間周波数変換をどうしても必要とする用途にとっては、時間−周波数変換又は周波数−時間変換によって招かれる遅延に関係なく遅延が削減される。これは、フィルタ実装をスペクトル領域に「包含（inclusion）」することによって、サブバンドに関する重み付けがシステム的遅延無しに行われるという事実から、時間領域フィルタ遅延が完全に節約されるからである。

適応増幅器１２９は、コントローラ１３０によって制御される。コントローラ１３０は、入力信号がＴＣＸ復号後信号のとき、増幅器１２９の利得αをゼロに設定するように構成されている。典型的には、ＵＳＡＣ又はＡＭＲ−ＷＢ＋などのスイッチング式オーディオコーデックにおいて、接続点１２４における復号後信号は、典型的にはＴＣＸ復号器１２２又はＡＣＥＬＰ復号器１２０のいずれかからの信号である。それゆえに、２つの復号器１２０、１２２の復号後出力信号が時間多重化される。コントローラ１３０は、出力信号がＴＣＸ復号後信号からのものかそれともＡＣＥＬＰ復号後信号からのものかを、現在の時刻に対して決定するように構成されている。ＴＣＸ信号が存在すると、適応利得αがゼロに設定されて、エレメント１０２、１２９、１０６ａ、１０８からなる第１分岐が重要性を有しないようにする。これは、ＡＭＲ−ＷＢ＋又はＵＳＡＣ内で用いられるポストフィルタ処理の具体的な種類が、ＡＣＥＬＰ符号化信号に必要なものだけであるという事実に起因している。しかしながら、高調波フィルタ処理又はピッチ強調処理は別にして、他のポストフィルタ処理実装が行われると、可変利得αは、必要に応じて相異なるように設定することができる。

しかしながら、コントローラ１３０が、現在利用可能な信号がＡＣＥＬＰ復号後信号であると決定すると、増幅器１２９の値は、αに対して典型的には０と０．５の間の正確な値に設定される。この場合、第１分岐は重要であり、減算部１１２の出力信号は、接続点１２４における当初の復号後オーディオ信号とは実質的に異なる。

フィルタ１２０及び増幅器１２８内で用いられるピッチ情報（ピッチラグ及び利得アルファ）は、復号器及び／又は専用のピッチ追跡部から得ることができる。好ましくは、この情報は復号器から得られ、次いで復号後信号の専用のピッチ追跡／長期予測分析を通して再処理（改善）される。

帯域（バンド）ごと又はサブバンドごとの減算を行う減算部１１２によって発生した結果オーディオ信号は、直ちには時間領域へ戻されない。その代わりに、この信号は、ＳＢＲ復号器モジュール１２８へ送られる。モジュール１２８は、モノラル−ステレオ復号器又はＭＰＳ復号器１３１などのモノラル−マルチチャンネル復号器に接続されるが、ここでＭＰＳはＭＰＥＧサラウンドのことである。

典型的には、帯域の数は、スペクトル帯域幅複製復号器によって増強され、これは、ブロック１２８の出力において３本の追加の線１３２によって示されている。

その上に、出力の数は、ブロック１３１によってさらに増強される。ブロック１３１は、ブロック１２９の出力におけるモノラル信号から、例えば５チャンネル信号又は２つ以上のチャンネルを有する他の任意の信号を発生させる。典型的には、５チャンネルシナリオは、図示されるように左チャンネルＬ、右チャンネルＲ、センターチャンネルＣ、左サラウンドチャンネルＬ_s及び右サラウンドチャンネルＲ_sを有する。したがって、図１Ｂの例ではＱＭＦ領域であるスペクトル領域からブロック１１４の出力における時間領域へ個々のチャンネル信号を変換し戻すために、スペクトル−時間変換部１１４は、個々のチャンネルに対して存在し、すなわち図１Ｂ内に５つ存在する。この場合も、別個の複数のスペクトル−時間変換部が、必ずしも存在しなくてよい。順々に変換を処理する単一のスペクトル−時間変換部が、同様に存在することができる。しかしながら、極めて低遅延の実装が必要とされるとき、各チャンネルに対して単一のスペクトル時間変換部を用いることが好ましい。

本発明は、低音ポストフィルタによって、特に低域通過フィルタＦＩＲフィルタの実装によって導入された遅延が低減されるという点で、有利である。それゆえに、ＱＭＦ又は一般に定められた時間／周波数変換に必要とされる遅延に関して、どんな種類の周波数選択的なフィルタ処理も、追加の遅延を導入しない。

例えば図１Ｂにおいて、スペクトル領域でＳＢＲ機能及びＭＰＳ機能がどうしても行われる場合のように、ＱＭＦ又は一般的に、時間／周波数変換がどうしても必要とされるとき、本発明は特に有利である。復号後信号を用いて再サンプリングが行われるとき、ならびに再サンプリングのために異なる数のフィルタバンクチャンネルを有するＱＭＦ分析フィルタバンク及びＱＭＦ合成フィルタバンクが必要とされるときには、ＱＭＦが必要とされる、代わりの実装がある。

さらに、両信号、すなわちＴＣＸ及びＡＣＥＬＰが今では同一の遅延を有するという事実ゆえに、ＡＣＥＬＰとＴＣＸの間で一定のフレーム処理が保持される。

帯域拡張復号器１２９の機能は、ＩＳＯ／ＩＥＣＣＤ２３００３−３の６．５章において詳細に説明されている。マルチチャンネル復号器１３１の機能は、例えばＩＳＯ／ＩＥＣＣＤ２３００３−３の６．１１章において詳細に説明されている。ＴＣＸ復号器及びＡＣＥＬＰ復号器の後方の機能は、ＩＳＯ／ＩＥＣＣＤ２３００３−３のブロック６．１２から６．１７において詳細に説明されている。

続いて、模式的例を示すために、図２Ａから図２Ｃを説明する。図２Ａは、模式的低域通過フィルタの周波数選択的周波数応答を図示する。

図２Ｂは、サブバンド番号に対する、すなわち図２Ａで示されたサブバンドに対する重み付け指数を示す。図２Ａの模式的事例では、サブバンド１から６は、１に等しい重み付け係数を有し、すなわち重み付けされず、サブバンド７から１０は減少する重み付け係数を有し、サブバンド１１から１４は係数ゼロを有する。

１０６ａなどの時間−スペクトル変換部と、続いて接続された重み付け部１０８との従属接続に対応する実装が図２Ｃに示されている。各サブバンド１、２、・・・、１４は、Ｗ₁、Ｗ₂、・・・、Ｗ₁₄によって示された個々の重み付けブロックへ入力される。重み付け部１０８は、サブバンド信号の各サンプリングに図２Ｂの表の重み付け係数を掛けることによって、個々のサブバンド信号にその重み付け係数を適用する。次いで、重み付け部の出力において、重み付けされたサブバンド信号が存在し、同信号は次いで図１Ａの減算部１１２へ入力され、同減算部はさらにスペクトル領域で減算を行う。

図３は、ＡＭＲ−ＷＢ＋符号器の図８内にある低域通過フィルタのインパルス応答及び周波数応答を示す。時間領域の低域通過フィルタｈ_LP（ｎ）は、ＡＭＲ−ＷＢ＋内で次の係数によって定義される。
ａ[13]＝［0.088250, 0.086410, 0.081074, 0.072768, 0.062294, 0.050623, 0.038774, 0.027692, 0.018130, 0.010578, 0.005221, 0.001946, 0.000385］
ｈ_LP（ｎ）＝ａ（１３−ｎ）、ここでｎは１から１２まで
ｈ_LP（ｎ）＝ａ（ｎ−１２）、ここでｎは１３から２５まで

図３で図示されたインパルス応答及び周波数応答は、フィルタが１２．８ｋＨｚの時間−領域信号サンプルに適用されるときの状況を示す。発生した遅延は、１２サンプルの遅延、すなわち０．９３７５ｍｓである。

図３で示されたフィルタは、ＱＭＦ領域で周波数応答を有し、ここで各ＱＭＦは４００Ｈｚの解像度を有する。３２個のＱＭＦ帯域で１２．８ｋＨｚにおける信号サンプルの帯域幅をカバーする。その周波数応答及びＱＭＦ領域を図４に示す。

４００Ｈｚの解像度を有する振幅周波数応答は、ＱＭＦ領域で低域通過フィルタを適用するときに用いられる重みを形成する。重み付け部１０８の重みは、上述した典型的なパラメータに対して図５で概説されるようになる。

これらの重みは、次の通りに計算することができる。

Ｗ＝ａｂｓ（ＤＦＴ（ｈ_LP（ｎ）、６４））、ここでＤＦＴ（ｘ，Ｎ）は、長さＮの信号ｘについての離散フーリエ変換である。ｘがＮよりも短い場合、信号は、Ｎサイズのｘをゼロで埋められる。長さＮのＤＦＴは、ＱＭＦサブバンドの数の２倍に対応する。ｈ_LP（ｎ）が実係数の信号なので、Ｗは、エルミート対称を示し、周波数０とナイキスト周波数の間の（Ｎ／２）個の周波数係数を示す。

フィルタ係数の周波数応答を分析すると、この応答は、大略２×π×１０／２５６のカットオフ周波数に対応する。これは、フィルタを設計するのに用いられる。次いで係数は、ある程度のＲＯＭ消費を節約するためにかつ固定小数点実装を考慮して、１４ビットで量子化され書き込まれた。

次いでＱＭＦ領域でのフィルタ処理は、次の通りに行われる。
Ｙ＝ＱＭＦ領域での後処理信号
Ｘ＝ＱＭＦ信号内にあるコア符号器からの復号後信号
Ｅ＝ＴＤで発生した、Ｘから除去すべき高調波間雑音
Ｙ（ｋ）＝Ｘ（ｋ）−Ｗ（ｋ）．Ｅ（ｋ）、１から３２までのｋに対して

図６はさらなる例を示していて、同図でＱＭＦは８００Ｈｚの解像度を有し、したがって１６帯域がで１２．８ｋＨｚでサンプリングされた信号の全帯域幅をカバーする。次いで係数Ｗは、図６で図面の下方に示されている。フィルタ処理は、図６に関して説明したのと同様に行われるが、ｋは１から１６まで進むだけである。

１６個の帯域ＱＭＦ内のフィルタの周波数応答は、図６に示されたように描かれる。

図１０は、図１Ｂ内で符号１０２で示された長期予測フィルタのさらなる改良形を示す。

特に、低遅延の実装にとって、図９の最後から３行目の項

は問題が多い。これは、Ｔサンプルが現実の時間ｎに関して未来に存在するという事実に起因している。したがって、低遅延実装のゆえに未来の値がまだ利用できない状況に対処するために、

は、図１０に示されるように、

で置き換える。次いで、長期予測フィルタは、先行技術の長期予測であって、しかし遅延が先行技術よりも小さい又はゼロの長期予測を概算する。概算は十分に良好であり、かつ低減された遅延に関して利得はピッチ強調処理におけるわずかな損失よりも有利であることが見いだされている。

いくつかの態様が装置との関連で説明されているが、これらの態様が対応する方法の説明も表すことは明白であり、ブロック又はデバイスは方法ステップもしくは方法ステップの特徴に対応する。同様に、方法ステップとの関連で説明された態様は、対応するブロック又は対応する装置の項目もしくは特徴の説明も表す。

実装の要請によっては、本発明の実施の形態は、ハードウェア又はソフトウェアで実装することができる。その実装は、デジタル記憶媒体を用いて行うことができ、同記憶媒体は、例えばフロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、又はフラッシュメモリであり、電子的に読み取り可能な制御信号が同記憶媒体上に記憶され、それらの制御信号は、それぞれの方法が実行されるようにプログラミング可能なコンピュータシステムと協働する（又は協働することができる）。

本発明によるいくつかの実施の形態は、電子的に読み取り可能な制御信号を有する非一過性データ担体を含み、同担体は、プログラミング可能なコンピュータシステムと協働することができ、本明細書で説明された方法のうちの１つが実行されるようにする。

一般に、本発明の実施の形態は、プログラムコードをもったコンピュータプログラム製品として実装することができ、そのプログラムコードは、このコンピュータプログラム製品がコンピュータ上で実行されると、本方法のうちの１つを実行するように動作する。そのプログラムコードは、例えばコンピュータ読み取り可能な担体上に記憶することができる。

別の実施の形態は、コンピュータ読み取り可能な担体上に記憶された、本明細書で説明された方法のうちの１つを実行するコンピュータプログラムを含む。

したがって言い換えれば、本発明の方法の一実施の形態は、コンピュータプログラムがコンピュータ上で実行されると、本明細書で説明された方法のうちの１つを実行するプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法のさらなる一実施の形態は、本明細書で説明された方法のうちの１つを実行するコンピュータプログラムをもったデータ担体であって、同プログラムが記録されたデータ担体（もしくはデジタル記憶媒体、又はコンピュータ読み取り可能な媒体）である。

したがって、本発明の方法のさらなる一実施の形態は、本明細書で説明された方法のうちの１つを実行するコンピュータプログラムを表すデータストリーム又は一連の信号である。そのデータストリーム又は一連の信号は、例えば、データ通信接続を経由して、例えばインターネットを経由して伝達するように構成することができる。

さらなる一実施の形態は、本明細書で説明された方法のうちの１つを実行するように構成された、又は適合させられた処理手段、例えば、、コンピュータ又はプログラマブル・ロジック・デバイスを含む。

さらなる一実施の形態は、本明細書で説明された方法のうちの１つを実行するコンピュータプログラムをインストールされたコンピュータを含む。

いくつかの実施の形態において、プログラマブル・ロジック・デバイス（例えばフィールド・プログラマブル・ゲート・アレイ）は、本明細書で説明された方法の一部又はすべての機能を実行するのに用いることができる。いくつかの実施の形態において、フィールド・プログラマブル・ゲート・アレイは、本明細書で説明された方法のうちの１つを実行するために、マイクロプロセッサと協働することができる。一般に、本方法は、好ましくは任意のハードウェア装置によって実行される。

上述した実施の形態は、本発明の原理にとっては単に説明のための形態である。本明細書で説明された装置ならびに細部についての修正形態及び変形形態は、当業者には明らかであることを理解されたい。したがって、本発明は、直下の特許請求の範囲によってだけ限定され、本明細書における実施の形態の記載及び説明によって提示された具体的な詳細によっては限定されないように意図される。

フィルタ１０２及び増幅器１２９内で用いられるピッチ情報（ピッチラグ及び利得アルファ）は、復号器及び／又は専用のピッチ追跡部から得ることができる。好ましくは、この情報は復号器から得られ、次いで復号後信号の専用のピッチ追跡／長期予測分析を通して再処理（改善）される。

その上に、出力の数は、ブロック１３１によってさらに増強される。ブロック１３１は、ブロック１２８の出力におけるモノラル信号から、例えば５チャンネル信号又は２つ以上のチャンネルを有する他の任意の信号を発生させる。典型的には、５チャンネルシナリオは、図示されるように左チャンネルＬ、右チャンネルＲ、センターチャンネルＣ、左サラウンドチャンネルＬ_s及び右サラウンドチャンネルＲ_sを有する。したがって、図１Ｂの例ではＱＭＦ領域であるスペクトル領域からブロック１１４の出力における時間領域へ個々のチャンネル信号を変換し戻すために、スペクトル−時間変換部１１４は、個々のチャンネルに対して存在し、すなわち図１Ｂ内に５つ存在する。この場合も、別個の複数のスペクトル−時間変換部が、必ずしも存在しなくてよい。順々に変換を処理する単一のスペクトル−時間変換部が、同様に存在することができる。しかしながら、極めて低遅延の実装が必要とされるとき、各チャンネルに対して単一のスペクトル時間変換部を用いることが好ましい。

帯域拡張復号器１２８の機能は、ＩＳＯ／ＩＥＣＣＤ２３００３−３の６．５章において詳細に説明されている。マルチチャンネル復号器１３１の機能は、例えばＩＳＯ／ＩＥＣＣＤ２３００３−３の６．１１章において詳細に説明されている。ＴＣＸ復号器及びＡＣＥＬＰ復号器の後方の機能は、ＩＳＯ／ＩＥＣＣＤ２３００３−３のブロック６．１２から６．１７において詳細に説明されている。

Claims

復号後オーディオ信号（１００）を処理する装置であって、
前記復号後オーディオ信号をフィルタ処理して、フィルタ処理後のオーディオ信号（１０４）を得るフィルタ（１０２）と、
前記復号後オーディオ信号及び前記フィルタ処理後のオーディオ信号を、対応するスペクトル表現へ変換するステージであって、各スペクトル表現は複数のサブバンド信号を有する、時間−スペクトル変換部ステージ（１０６）と、
サブバンド信号にそれぞれの重み付け係数を掛けることによって、前記フィルタ処理後のオーディオ信号の前記スペクトル表現の周波数選択的な重み付けを行って、重み付けされたフィルタ処理後のオーディオ信号を得る重み付け部（１０８）と、
前記重み付けされたフィルタ処理後のオーディオ信号と前記オーディオ信号の前記スペクトル表現とのサブバンドに関する減算を行って、結果オーディオ信号を得る減算部（１１２）と、
前記結果オーディオ信号又は前記結果オーディオ信号から導き出された信号を時間領域表現に変換して、処理された復号後オーディオ信号（１１６）を得るスペクトル−時間変換部（１１４）と、を備えた装置。
前記結果オーディオ信号から導き出された前記信号を計算する、帯域幅強調復号器（１２９）又はモノラル−ステレオ復号器もしくはモノラル−マルチチャンネル復号器（１３１）をさらに備え、
前記スペクトル−時間変換部（１１４）は、前記結果オーディオ信号ではなく前記結果オーディオ信号から導き出された信号を前記時間領域へ変換するように構成され、前記帯域幅強調復号器（１２９）又は前記モノラル−ステレオ復号器もしくはモノラル−マルチチャンネル復号器（１３１）によるすべての処理が、時間−スペクトル変換部ステージ（１０６）によって定められたスペクトル領域と同一のスペクトル領域で行われるようにする請求項１に記載の装置。
前記復号後オーディオ信号はＡＣＥＬＰ復号後出力信号であり、
前記フィルタ（１０２）はピッチ情報によって制御される長期予測フィルタである請求項１又は２に記載の装置。
前記重み付け部（１０８）は、低域周波数サブバンドが高域周波数サブバンドよりも減衰が少なく又は減衰しないように前記フィルタ処理後のオーディオ信号を重み付けするように構成され、前記周波数選択的な重み付けが前記フィルタ処理後のオーディオ信号に対して低域通過特性を強調ようにする請求項１から３のいずれか１項に記載の装置。
前記時間−スペクトル変換部ステージ（１０６）及び前記スペクトル−時間変換部（１１４）は、それぞれＱＭＦ分析フィルタバンク及びＱＭＦ合成フィルタバンクを実装するように構成されている請求項１から４のいずれか１項に記載の装置。
前記減算部（１１２）は、前記重み付けされたフィルタ処理後のオーディオ信号のサブバンド信号を前記オーディオ信号の対応するサブバンド信号から減算して、前記結果オーディオ信号のサブバンドであって同一のフィルタバンクチャンネルに属するサブバンドを得るように構成されている請求項１から５のいずれか１項に記載の装置。
前記フィルタ（１０２）は、前記オーディオ信号と、少なくとも、一ピッチ周期だけ時間的にシフトされた前記オーディオ信号との重み付けされた組み合わせを行うように構成されている請求項１から６のいずれか１項に記載の装置。
前記フィルタ（１０２）は、前記オーディオ信号と以前の時刻に存在していた前記オーディオ信号とを組み合わせることだけによって、前記重み付けされた組み合わせを行うように構成されている請求項７に記載の装置。
前記スペクトル−時間変換部（１１４）は、サンプルレート変換が得られるように前記時間−スペクトル変換部ステージ（１０６）に関して異なる数の入力チャンネルを有し、前記スペクトル−時間変換部への入力チャンネルの数が前記時間−スペクトル変換部ステージの出力チャンネルの数よりも多いとアップサンプリングが得られ、前記スペクトル−時間変換部への入力チャンネルの数が前記時間−スペクトル変換部ステージからの出力チャンネルの数よりも少ないとダウンサンプリングが行われる請求項１から８のいずれか１項に記載の装置。
第１の時間部分に前記復号後オーディオ信号を提供する第１復号器（１２０）と、
異なる第２の時間部分にさらなる復号後オーディオ信号を提供する第２復号器（１２２）と、
前記第１復号器（１２０）及び前記第２復号器（１２２）に接続された第１処理分岐と、
前記第１復号器（１２０）及び前記第２復号器（１２２）に接続された第２処理分岐と、をさらに含み、
前記第２処理分岐は、前記フィルタ（１０２）及び前記重み付け部（１０８）を含み、さらに制御可能利得ステージ（１２９）及びコントローラ（１３０）を含み、
前記コントローラ（１３０）は、前記利得ステージ（１２９）の利得を、前記第１の時間部分用に第１値に設定し、前記第２の時間部分用に前記第１値よりも低い第２値又はゼロに設定するように構成されている請求項１から９の１項に記載の装置。
ピッチラグを提供し、かつ前記ピッチ情報としての前記ピッチラグに基づいて前記フィルタ（１０２）を設定するピッチ追跡部をさらに備えている請求項１から１０のいずれか１項に記載の装置。
前記第１復号器（１２０）は、前記フィルタ（１０２）を設定するために、前記ピッチ情報又は前記ピッチ情報の一部を提供するように構成されている請求項１０又は１１の１項に記載の装置。
前記第１処理分岐の出力及び前記第２処理分岐の出力は、前記減算部（１１２）の入力に接続されている請求項１０、１１又は１２に記載の装置。
前記復号後オーディオ信号は、この装置に含まれるＡＣＥＬＰ復号器（１２０）によって提供され、
この装置は、ＴＣＸ復号器として実装されたさらなる復号器（１２２）をさらに備えている請求項１から１３のいずれか１項に記載の装置。
復号後オーディオ信号（１００）を処理する方法であって、
前記復号後オーディオ信号をフィルタ処理して、フィルタ処理後のオーディオ信号（１０４）を得るステップ（１０２）と、
前記復号後オーディオ信号及び前記フィルタ処理後のオーディオ信号を、対応するスペクトル表現へ変換するステップであって、各スペクトル表現は複数のサブバンド信号を有するステップ（１０６）と、
サブバンド信号にそれぞれの重み付け係数を掛けることによって、前記フィルタ処理後のオーディオ信号の周波数選択的な重み付けを行って、重み付けされたフィルタ処理後のオーディオ信号を得るステップ（１０８）と、
前記重み付けされたフィルタ処理後のオーディオ信号と前記オーディオ信号の前記スペクトル表現とのサブバンドに関する減算を行って結果オーディオ信号を得るステップ（１１２）と、
前記結果オーディオ信号又は前記結果オーディオ信号から導き出された信号を時間領域表現に変換して処理された復号後オーディオ信号（１１６）を得るステップ（１１４）と、を含む方法。
コンピュータ上で実行するとき、請求項１５に記載の復号後オーディオ信号を処理する方法を実行するプログラムコードを有するコンピュータプログラム。