JP2016194711A

JP2016194711A - ピッチフィルタ及び関連する方法

Info

Publication number: JP2016194711A
Application number: JP2016127884A
Authority: JP
Inventors: レスク，バルバラ; Resch Barbara; クヨエルリン，クリストフェル; Kjoerling Kristofer; ヴィレモーズ，ラーシュ; Villemoes Lars
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2010-07-02
Filing date: 2016-06-28
Publication date: 2016-11-17
Also published as: EP2757560B1; JP2022177215A; RU2562422C2; RU2013102794A; CA2958350C; EP2757560A1; CN105390140A; EP3079154A1; CN105261370A; HK1199135A1; CN105244035A; CN105261372B; IL278805A; IL295473A; EP4407615A3; KR20220053032A; RU2616774C1; CA2976490C; JP2016186652A; RU2015117332A

Abstract

【課題】異なる音源の成分を混合したオーディオ信号の符号化及び復号化方法と装置を提供する。【解決手段】ポストフィルタで、予備的オーディオ信号がフィルタリング情報を用いてフィルタされ、フィルタ後オーディオ信号が得られるアクティブモードと、ポストフィルタがディスエーブルされる非アクティブモードとのうち一つから選択される動作モードを有する。予備的オーディオ信号は、少なくとも２つの区別できる符号化モードから選択される符号化モードで動作するオーディオデコーダで生成され、符号化モードの場合、ポストフィルタは制御情報に基づきアクティブモードまたは非アクティブモードで選択的に動作でき、オーディオビットストリームはオーディオコンテンツのフレームに分割され、制御情報のフレームタイプパラメータの第１の値はポストフィルタがアクティブモードで、第２の値では非アクティブモードを示す。【選択図】図１０

Description

本発明は、概してデジタルオーディオコーディングに関し、より詳しくは異なるキャラクタの成分を含むオーディオ信号のコーディング手法に関する。

広く普及した、スピーチや歌唱を含むオーディオ信号のコーディング方法のクラスには、特に音楽に適合した周波数ドメインコーディング方法や一般的性質の方法を含む複数の異なるコーディング方法を時間的に切り換えて用いて、オーディオ信号の連続した期間の間のキャラクタの変化に対応するＣＥＬＰ（code excited linear prediction）がある。例えば、単純化されたＭＰＥＧ（Moving Pictures Experts Group）ＵＳＡＣ（Unified Speech and Audio Coding；ＩＳＯ／ＩＥＣ２３００３−３標準を参照）デコーダは、図２の上部に示したように、少なくとも３つの符号化モードで、すなわちＡＡＣ（Advanced Audio Coding；ＩＳＯ／ＩＥＣ１３８１８−７標準を参照）、ＡＣＥＬＰ（algebraic CELP）、及びＴＣＸ（transform-coded excitation）で動作する。

ＣＥＬＰの様々な実施形態が、人間の発話器官の特性に、及び場合によっては人間の聴覚に適合されている。本出願では、ＣＥＬＰは、可能性のあるすべての実施形態や変形例を指し、ACELP、wide- and narrow-band CELP、SB-CELP (sub-band CELP)、low- and high-rate CELP、RCELP (relaxed CELP)、LD- CELP (low-delay CELP)、CS-CELP (conjugate-structure CELP)、CS-ACELP (conjugate-structure ACELP)、PSI-CELP (pitch-synchronous innovation CELP)及びVSELP (vector sum excited linear prediction)を含むが、これらに限定されない。ＣＥＬＰの原理は、非特許文献１で説明されており、そのいくつかの応用は非特許文献２で引用された参考文献２５−２９に説明されている。前者の論文に詳しく説明されているように、ＣＥＬＰデコーダ（又は、同様にＣＥＬＰスピーチシンセサイザ）は、ピッチ予測器とパルスコードブックとを含む。ピッチ予測器は、符号化されたスピーチ信号の周期的成分を回復する。パルスコードブックからは、イノベーションシーケンスが付加される。ピッチ予測器は、ピッチを回復する長遅延予測器と、スペクトルエンベロープ形成によりフォルマントを回復する短遅延予測器とを含む。ここでは、ピッチは概して、声帯により生じ、さらに声道の共鳴部分により色づけされる調性音の基本周波数として理解される。この周波数はその高調波とともにスピーチや歌唱を特色付ける。一般的に言って、ＣＥＬＰ法は、ソロ又は１つのパートの歌唱であって、ピッチ周波数が明確に定義され、決定が比較的容易なものの処理に最も適している。

ＣＥＬＰ符号化したスピーチの知覚品質を改善するため、ＣＥＬＰ法をポストフィルタリング（あるいは、言い換えるとピッチエンハンスメント）と組み合わせることがよく行われる。特許文献１と非特許文献２のセクション２には、かかるポストフィルタの望ましい特性が、すなわち検出されたボイスピッチ（長期部分；セクション４を参照）の高調波間にあるノイズ成分を抑制する機能が開示されている。このノイズの重要部分はスペクトルエンベロープ形成に由来すると信じられている。図１と図２に示すように、単純なポストフィルタの長期部分は、伝達関数

を有するように設計される。ここで、Ｔはサンプル数に対する推定ピッチ期間であり、αはポストフィルタのゲインである。かかるフィルタは、コムフィルタと同様に、周波数１／（２Ｔ）、３／（２Ｔ）、５／（２Ｔ）（これらはピッチ周波数の高調波間の間にある）と隣接周波数とを減衰する。減衰はゲインαの値に依存する。もう少し高度なポストフィルタは、この減衰を、ノイズが最も知覚される低周波数だけに適用する−そのため、一般的にはバスポストフィルタと言う。これは、上記の伝達関数Ｈ_ＥとローパスフィルタＨ_ＬＰをカスケードすることにより表せる。よって、ポストフィルタにより出力される後処理した符号化Ｓ_Ｅは、変換領域では

により与えられる。ここで、

であり、Ｓはポストフィルタへの入力として供給される符号化信号である。図３は、これらの特徴を有するポストフィルタの一実施形態である。このポストフィルタは、非特許文献３のセクション６．１．３でさらに説明されている。この図が示唆するように、ピッチ情報はビットストリーム信号中のパラメータとして符号化され、Ｐ_ＬＴにより表される演算を実行する長期予測フィルタに通信可能に接続されたピッチトラッキングモジュールにより読み出される。

前出のパラグラフで説明した長期部分のみを用いてもよい。あるいは、フォルマントに対応する周波数区間の成分を保存し、他のスペクトル領域（短期部分；セクション３を参照）の、すなわちフォルマントエンベロープの「スペクトルの谷」のノイズを減衰するノイズ成形フィルタと直列に構成される。可能性のある他の変形例として、このフィルタ集合は、短期部分のスペクトル傾斜による知覚される劣化を低減する漸進的ハイパスタイプフィルタによりさらに補完される。

調性、非調性、ボーカル、楽器、非音楽など音源が異なる成分がミックスされたオーディオ信号は、必ずしも今あるデジタルコーディング技術で満足がいく再生をできるとは限らない。より詳しく言うと、今ある技術では、このような不均質なオーディオ素材を処理するには不足であり、ある成分には適していても、他の成分には適していないことがある。具体的には、歌と１つ又は複数の楽器又はコーラスパートとがある音楽であって、上記の性質の方法で符号化されたものを復号すると、知覚でき、リスニング体験の一部を損ねるアーティファクトが生じることが多い。

米国特許第４９６９１９２号

R. Schroeder and S. Atal in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), vol. １０, pp. ９３７-９４０, １９８５ Chen and Gersho, IEEE Transactions on Speech and Audio Processing, vol. ３, no. １ , １９９５ Technical Specification ETSI TS １２６２９０, version ６.３.０, release ６

前のセクションで説明した欠点の少なくとも一部を緩和するために、本発明の目的は、異なる音源の成分を混合した信号のオーディオ符号化及び復号をするように構成された方法と装置を提供することである。具体的な目的として、本発明は、コーディング効率又は（知覚される）再生フィデリティ又はその両方の観点から適した方法と装置を提供しようとするものである。

本発明は、独立請求項に規定したように、エンコーダシステム、デコーダシステム、符号化方法、復号方法、及びこれらの各方法を実行するコンピュータプログラム製品を提供することにより、これらの目的のうち少なくとも一を達成する。従属項は本発明の実施形態を規定している。

発明者は、不均一音源（non-homogeneous origin）の符号化オーディオ信号において知覚される一部のアーティファクトは、複数の符号化モードであってそのうちの少なくとも一がデコーダにポストフィルタリングを含み、少なくとも一は含まない複数のコーディングモードの不適切なスイッチングにより生じることに気づいた。より正確には、利用可能なポストフィルタが高調波ノイズ（及び、場合によっては、スペクトルの谷のノイズ）だけでなく、「所望の」性質を有する楽器やボーカル伴奏その他の素材を表す信号成分も除去する。（Ghitza and Goldstein, IEEE Trans. Acoust, Speech, Signal Processing, vol. ASSP-４, pp. ６９７-７０８, １９８６に記載されているように）スペクトルの谷の丁度可知差異は１０ｄＢであることが、多くの設計者によりこれらの周波数帯域を強くフィルタリングする正当化として考えられている。しかし、高調波間（及びスペクトルの谷の）減衰自体による音質低下は、スイッチングの場合の音質低下より重要度は低い。ポストフィルタをオンにスイッチングすると、歌っている声のバックグラウンドが急に小さくなり、フィルタを非アクティブにすると、バックグラウンドがすぐに大きくなる。スイッチングが頻繁に行われると、オーディオ信号の性質により、又はコーディング装置の構成により、スイッチングアーティファクトが生じる。一例として、ＵＳＡＣデコーダは、ポストフィルタリングと組み合わせたＡＣＥＬＰモードで、又はポストフィルタリング無しのＴＣＸモードで動作できる。ＡＣＥＬＰモードは、支配的なボーカル成分がある場合に使われる。よって、ＡＣＥＬＰモードへのスイッチングは、新しい音楽フレーズの始めなど歌の始めで、新しいバースの始めで、又はボーカル成分が目立たないという意味で伴奏が歌声をかき消した後などにトリガーされる。実験により確認したところ、ＴＣＸコーディングを通しで使う代替的ソリューションでは、又はむしろ問題の迂回では、反響状のアーティファクトが現れるので、問題の解決にならない。

したがって、第１と第２の態様では、本発明は、符号化方法により出力されるビットストリームを復号する装置が高調波間ノイズの減衰を含むポストフィルタリングを適用すべきか決定することを特徴とするオーディオ符号化方法（及び対応する機能を有するオーディオ符号化システム）を提供する。決定の結果はビットストリームにエンコードされ、復号装置にとってアクセス可能である。

本発明により、ポストフィルタを使うかの決定は、最も適したコーディングモードに関する決定とは別に行われる。これにより、スイッチングがリスナをわずらわさないだけの時間にポストフィルタリング状態を維持可能になる。よって、本符号化方法により、従来はフィルタがアクティブであったコーディングモードにスイッチングされても、ポストフィルタを非アクティブに保つように指示する。

留意点として、ポストフィルタリングを適用するかの決定は、通常、フレームごとに行われる。よって、第１に、ポストフィルタリングは一度に一フレーム未満には適用されない。第２に、ポストフィルタリングをディスエーブルするかの決定は、現在のフレーム中においてのみ有効であり、後続のフレームにおいてはそのまま維持されても、再評価されてもよい。主フレームフォーマットと、通常のフォーマットの一部（例えば、１／８の長さ）である短いフォーマットとを許容するコーディングフォーマットでは、個々の短いフレームに対してポストフィルタリングの決定をする必要はない。代わりに、まとめると通常フレームになる複数の短いフレームを考え、その平均又はメジアンを計算して、フィルタリング決定に関するパラメータを求めてもよい。

本発明の第３と第４の態様では、高調波間ノイズ減衰を含み、ビットストリーム信号にエンコードされたポストフィルタリング情報によりポストフィルタをディスエーブルするステップを有する、ポストフィルタリング段階が続く復号ステップを有するオーディオ復号方法（及び対応する機能を有するオーディオ復号システム）が提供される。

これらの特徴を有する復号方法は、ポストフィルタリング情報のみにより、そのため現在のコーディングモードなどのファクタとは独立して、ポストフィルタを非アクティブ化する機能があるので、混合音源オーディオ信号のコーディングに適している。従来のようにポストフィルタ機能が特定のコーディングモードに付随していたコーディング方法に適用する場合、ポストフィルタリングをディスエーブルする機能により、新しい動作モード、すなわち従来のフィルタリングされた復号モードをフィルタリングをせずに適用するモードが可能となる。

さらに別の態様では、本発明は、上記の方法の一を実行するコンピュータプログラム製品も提供される。さらにまた、本発明により、ポストフィルタに供給されるポストフィルタリング信号により示される、アクティブモード又はパススルーモードで動作可能な、高調波間ノイズを減衰するポストフィルタが提供される。このポストフィルタは、ポストフィルタリング動作を自律的に制御する決定部を有していてもよい。

当業者には言うまでもないが、デコーダと協働するように構成されたエンコーダには、機能的に等価なモジュールが備えられており、符号化された信号の忠実な再生が可能になっている。かかる等価なモジュールは、同じ又は類似したモジュールか、同じ又は類似した伝達特性を有するモジュールである。特に、エンコーダとデコーダのモジュールは、それぞれ、等価な数学的演算を実行するコンピュータプログラムを実行する類似した、または非類似のユニットであってもよい。

一実施形態では、本方法の符号化は、（フォルマントエンベロープ（上記参照）の）スペクトルの谷の減衰をさらに含むポストフィルタに関する意思決定を含む。これはポストフィルタの短期部分に対応する。決定が基づく基準をポストフィルタの性質に適合させると都合がよい。

一実施形態は、特にスピーチ符号化に適合したエンコーダに関する。本発明の動機付けとなる問題は、ボーカルとその他の成分の混合を符号化する時に見られるので、本発明によるスピーチコーディングとポストフィルタリングに関する独立した意思決定との組合せは、特に都合がよい。具体的に、かかるデコーダは、ＣＥＬＰ符号化モジュールを含み得る。

一実施形態では、エンコーダによる決定は、支配的基本周波数（ピッチ）を有する信号成分と、基本周波数より下にある他の信号成分が同時に存在することの検出に基づく。また、検出は、支配的基本周波数を有する成分と、この基本周波数の高調波間にエネルギーを有する他の成分との共起（co-occurrence）の発見を目的としてもよい。これは、問題のタイプのアーティファクトが頻繁に生じる場合である。よって、このように同時に存在することが分かったら、エンコーダは、ポストフィルタリングが適していないと決定する。これはビットストリーム中に含まれるポストフィルタリング情報により示される。

一実施形態では、その検出基準として、ピッチ周波数より下のオーディオ時間信号中の全信号パワーコンテンツを用いる。ピッチ周波数は、場合によっては、エンコーダの長期予測により推定されたピッチ周波数である。これが所定閾値より大きいとき、ピッチ成分（高調波を含む）以外の成分があると考えられる。そのため、ポストフィルタはディスエーブルされる。

ＣＥＬＰモジュールを有するエンコーダでは、かかるモジュールはオーディオ時間信号のピッチ周波数を推定することを用いることができる。そして、詳細は上記したように、さらに別の検出基準は、この周波数の高調波間の、又はそれより下のエネルギーコンテンツをチェックすることである。

ＣＥＬＰモジュールを含む前述の実施形態のさらなる発展として、決定は、ＣＥＬＰコード化（すなわち、符号化及び復号）された時のオーディオ信号の推定パワー間と、ＣＥＬＰコード化及びポストフィルタされた時のオーディオ信号の推定パワーとの比較を含み得る。パワー差が閾値より大きく場合、これは信号の非ノイズ成分が失われることを示し、エンコーダはポストフィルタをディスエーブルする決定をする。

有利な実施形態では、エンコーダはＣＥＬＰモジュールとＴＣＸモジュールとを有する。本技術分野では知られているように、ＴＣＸコーディングはある種の信号、特に非ボーカル信号には有利である。ＴＣＸコーディングした信号にポストフィルタリングをかけるのは実務上一般的ではない。よって、エンコーダは、ＴＣＸコーディング、ポストフィルタリングを伴うＣＥＬＰコーディング、又はポストフィルタリングを伴わないＣＥＬＰコーディングのいずれかを選択して、広い範囲の信号タイプをカバーできる。

前述の実施形態のさらなる発展として、３つのコーディングモード間の決定は、レート・歪み基準に基づき、すなわち本技術分野でそれ自体知られた最適化手順を適用して行う。

前述の実施形態の他のさらなる発展では、エンコーダはさらに、ＡＡＣ（Advanced Audio Coding）コーダを有する。ＡＡＣコーダもある種の信号に対して特に適していることが知られている。好ましくは、ＡＡＣ（周波数領域）コーディングを適用するかの決定は、他のどの（線形予測）モードを用いるかに関する決定とは別に行われる。このように、エンコーダは、２つのスーパーモード、すなわちＡＡＣ又はＴＣＸＣＥＬＰで動作するととらえることができ、後者では、エンコーダはＴＣＸ、ポストフィルタリングを伴うＣＥＬＰ、又はフィルタリングを伴わないＣＥＬＰを選択する。この実施形態により、さらに広い範囲のオーディオ信号タイプの処理が可能となる。

一実施形態では、エンコーダは、復号におけるポストフィルタリングを徐々に適用することを、すなわちゲインを徐々に上げることを決定できる。同様に、ポストフィルタリングを徐々に除去することを決定できる。このように徐々に適用したり除去したりすることによって、ポストフィルタリングの有無の切替が知覚しずらくなる。一例として、ポストフィルタリングを伴うＣＥＬＰコーディングが好適である歌唱部分には、その前に、ＴＣＸコーディングが最適なインストルメンタル部分があるとする。本発明によるデコーダは、歌唱部分の始め又はその近くでポストフィルタリングを徐々にかけて、煩わしいスイッチングアーティファクトを回避しつつ、ポストフィルタリングの利益を保つようにできる。

一実施形態では、ポストフィルタリングを適用するかの決定は、近似差分信号に基づき行われる。この信号は、ポストフィルタにより復号される信号から除かれる信号成分を近似するものである。一オプションとして、近似差分信号を、オーディオ時間信号と、（シミュレーションされた）ポストフィルタリングをかけたオーディオ時間信号との間の差分として、計算する。他の一オプションとして、符号化部は、中間復号信号を取り出す。これにより、オーディオ時間信号と、ポストフィルタリングをかけた中間復号信号との間の差分として、近似差分信号を計算できる。中間復号信号はエンコーダの長期予測バッファに格納できる。これは信号の励起を表し、さらなる合成フィルタリング（ボーカルトラクト、共鳴）を適用して、最終的な復号信号を得る必要があることを示唆する。中間復号信号を用いるポイントは、中間復号信号がコーディング方法の特殊性、特に弱点の一部を捉え、それによりポストフィルタの効果の推定がより現実的になることにある。第３のオプションとして、復号部は、中間復号信号を取り出す。これにより、中間復号信号と、ポストフィルタリングをかけた中間復号信号との間の差分として、近似差分信号を計算できる。この手順による推定は、おそらく、最初の２つのオプションによる推定より信頼性は高くないが、他方で、デコーダによりスタンドアロンで実行できる。

このように求めた近似差分信号は、次の基準：
ａ）近似差分信号のパワーが所定の閾値を越え、信号の大部分がポストフィルタにより除去されるか、
ｂ）前記近似差分信号の特徴がノイズ状でなく音調的であるか；
ｃ）近似差分信号の強度周波数スペクトルとオーディオ時間信号の強度周波数スペクトルとの間の差分が、周波数について不均一に分散しており、ノイズではなく、人間のリスナにとって意味を成す信号であるか、
ｄ）近似差分信号の強度周波数スペクトルは、処理されるタイプの信号から期待できる、所定の関連エンベロープ内の周波数区間にあるか、
ｅ）前記近似差分信号の強度周波数スペクトルが、所定のスケールファクタによりダウンスケールされた最大信号成分の強度により前記オーディオ時間信号の強度周波数スペクトルに閾値を設けることにより得られた関連エンベロープ内の周波数区間にあるか；
の一について評価される。肯定的に評価されると、ポストフィルタをディスエーブルする決定がなされる。

基準ｅ）を評価する時、強度スペクトルにピークトラッキングを適用すると有利である。すなわち、ノイズではなく通常は音調的成分に関連するピーク状形状を有する部分を区別すると有利である。本技術分野でそれ自体知られている何らかのアルゴリズムにより行われるピークトラッキングにより特定される成分は、さらに、ピークの高さに閾値を適用することによりソートされる。残りの成分はある強度を有する音調素材である。かかる成分は、通常は、ノイズではなく関連信号コンテンツを表し、これはポストフィルタをディスエーブルする決定の動機付けとなる。

デコーダとしての本発明の一実施形態では、ポストフィルタをディスエーブルする決定は、制御部により制御可能であり、回路においてポストフィルタをバイパスできるスイッチにより実行される。他の一実施形態では、ポストフィルタは制御部により又はその中のゲインコントローラにより制御可能な可変ゲインを有し、ディスエーブルする決定は、ポストフィルタゲイン（前のセクションを参照）をゼロに設定することにより、又はその絶対値を所定閾値より下に設定することにより、行われる。

一実施形態では、本発明による復号は、復号されるビットストリーム信号からのポストフィルタリング情報の取り出しを含む。より正確には、ポストフィルタリング情報は、伝送に適したフォーマットの、少なくとも１ビットを含むデータフィールドにエンコードされている。有利にも、データフィールドは、適用可能な標準により画定されたが使われていない既存のフィールドであり、ポストフィルタリング情報は伝送されるペイロードを増加させない。

留意点として、このセクションで開示した方法と装置は、通常の実験を含む当業者の能力の範囲内で適当な修正をして、ステレオチャンネルなどの異なる複数のチャンネルに対応する、複数の成分を有する信号のコーディングに適用できる。本願を通して、ピッチエンハンスメントとポストフィルタリングは同意語として用いられている。さらに留意点として、ＡＡＣは、周波数領域のコーディング方法の代表例として説明されている。実際、本発明を、ＡＡＣ以外の周波数領域コーディングモードで動作可能なデコーダやエンコーダに適用するには、必要であれ、当業者の能力範囲内の小さな修正を加えるだけでよい。同様に、ＴＣＸは、重み付け線形予測変換コーディング及び変換コーディング一般の例として説明したものである。

さらに別の実施形態では、上記の２つ以上の実施形態の特徴を、明らかに補完的でない限り、組み合わせられる。２つの特徴が異なるクレームに記載されていても、それらを組み合わせられないと言うわけではない。同様に、さらに別の実施形態では、所望の目的に対して必要でない、または本質的でない特徴を省略してもよい。

ここで添付した図面を参照して、本発明の実施形態を詳細に説明する。
ポストフィルタを伴う従来のデコーダを示すブロック図である。ＡＡＣ、ＡＣＥＬＰ、及びＴＣＸモードで動作可能であり、ＡＣＥＬＰモジュールの下流に接続されたポストフィルタを含む従来のデコーダを示すブロック図である。ポストフィルタの構成を示すブロック図である。本発明によるデコーダを示すブロック図である。本発明による他のデコーダを示すブロック図である。従来のデコーダを示すブロック図である。本発明によるデコーダを示すブロック図である。図６と図７により、従来のデコーダと本発明によるデコーダとの相違点を示す。本発明によるエンコーダを示すブロック図である。従来のデコーダを示すブロック図である。本発明によるデコーダを示すブロック図である。図９と図１０により、従来のデコーダと本発明によるデコーダとの相違点を示す。選択的にアクティブにしたり非アクティブにできる自律的ポストフィルタを示すブロック図である。

図４は、ビットストリーム信号が入力され、オーディオ信号が出力される本発明の一実施形態によるデコーダシステム４００を示す図である。図１に示した従来のデコーダのように、ポストフィルタ４４０は、復号モジュール４１０の後段に配置され、スイッチ４４２の動作により復号経路に加えられたりはずされたりできる。ポストフィルタは、図に示したスイッチ位置でイネーブルされる。ポストフィルタがディスエーブルされるのは、スイッチが反対位置に設定され、それにより復号モジュール４１０からの信号がバイパスライン４４４に流れたときである。発明的貢献として、スイッチ４４２はビットストリーム信号に含まれるポストフィルタリング情報により制御可能であり、復号モジュール４１０の現在の状態にかかわらずポストフィルタリングを適用したり除いたりできるようになっている。ポストフィルタ４４０は多少遅れて動作するので（例えば、図３に示したポストフィルタは少なくともピッチ期間Ｔの遅延を生じる）、補償遅延モジュール４４３をバイパスライン４４４に配置し、スイッチング時にモジュールを同期状態に維持する。遅延モジュール４４３は、ポストフィルタ４４０と同じ時間だけ信号を遅延させるが、信号の処理はしない。切替時間を最小にするため、補償遅延モジュール４４３は、常にポストフィルタ４４０と同じ信号を受け取る。ポストフィルタ４４０をゼロ遅延ポストフィルタ（例えば、２つのタップを有し、将来の信号値には依存しない因果性フィルタ（causal filter）など）と置き換えた実施形態では、補償遅延モジュール４４３は省略できる。

図５は、図２のトリプルモードデコーダシステム５００の発明の教示をさらに発展させたものである。ＡＣＥＬＰ復号モジュール５１１は、ＴＣＸ復号モジュール５１２及びＡＡＣ復号モジュール５１３と並列に配置されている。ＡＣＥＬＰ復号モジュール５１１と直列に、ノイズを減衰するポストフィルタ５４０が配置されている。ポストフィルタ５４０は、具体的には、デコーダシステム５００が合わせられたビットストリーム信号から直接的又は間接的に求まるピッチ周波数の高調波間にあるノイズを減衰するものである。また、ビットストリーム信号は、図４に示したように、上側スイッチ５４１の設定（positions）を制御するポストフィルタリング情報をエンコードしている。この上側スイッチ５４１は、ポストフィルタ５４０を処理経路からはずすスイッチをし、補正遅延５４３と置き換えるように動作する。下側スイッチ５４２は、異なる復号モード間のスイッチをするのに用いられる。このように構成されているので、ＴＣＸモジュール５１２又はＡＡＣモジュール５１３の一方を用いる場合、上側スイッチ５４１の設定（position）は重要ではない。よって、ポストフィルタリング情報は、ＡＣＥＬＰモードを除き、必ずしもこの設定（position）を示さない。現在どんな復号モードが使われていても、信号は、下側スイッチ５４２のダウンストリーム接続点からスペクトル帯域複製（ＳＢＲ）モジュール５５０に供給され、ＳＢＲモジュール５５０はオーディオ信号を出力する。当業者には言うまでもないが、図面は概念的なものであり、図に示したスイッチは可動接触手段を有する物理的には別々の実体として示した。デコーダシステムの実際の実施形態では、スイッチやその他のモジュールはコンピュータ読み取り可能命令により実施される。

図６と図７も、ＡＣＥＬＰ、ＴＣＸ又は周波数領域復号モードで動作可能なトリプルモードデコーダシステムを示すブロック図である。図７を参照して、本発明の一実施形態を示すが、ビームストリーム信号は、入力点７０１に供給される。入力点７０１は、それぞれの分岐を介して復号モジュール７１１、７１２、７１３に永続的に接続されている。また、入力点７０１は、ピッチエンハンスメントモジュール７４０への接続分岐７０２（これは、図６の従来の復号システムには無い）を有する。このピッチエンハンスメントモジュール７４０は、上記の一般的なタイプのポストフィルタとして機能する。本技術分野における一般的な実務として、第１の移行窓モジュール７０３がＡＣＥＬＰモジュール７１１とＴＣＸモジュール７１２の下流に配置されていて、復号モジュール間の移行を行う。第２の移行モジュール７０４は、周波数領域復号モジュール７１３と第１の移行窓モジュール７０３の下流に配置され、２つのスーパーモード間の移行を行う。さらに、ＳＢＲモジュール７５０は、出力点７０５のすぐ上流に設けられている。明らかに、ビットストリーム信号は、すべての復号モジュール７１１、７１２、７１３及びピッチエンハンスメントモジュール７４０に直接的に（又は、場合によっては逆多重後に）供給される。ビットストリームに含まれる情報が、どの復号モジュールをアクティブ化するか制御する。しかし、本発明により、ピッチエンハンスメントモジュール７４０は類似の自己起動を行う。これは、ビットストリーム中のポストフィルタリング情報に応じて、ポストフィルタ又は単なるパススルーとして機能する。これは、例えば、ピッチエンハンスメントモジュール７４０に制御部（図示せず）を設け、その制御部によりポストフィルタリング機能をオン・オフすることにより実現できる。デコーダシステムが周波数領域復号モード又はＴＣＸ復号モードで動作している時、厳密に言えば、ポストフィルタリング情報は不要であり、ピッチエンハンスメントモジュール７４０は、常にパススルーモードにある。言うまでもなく、本発明の貢献の部分を構成せず、当業者にはあることが自明なモジュールは、例えばデマルチプレクサは、明りょうかのために図７その他の同様の図面では省略した。

バリエーションとして、図７のデコーダシステムには、合成による分析アプローチを用いてポストフィルタリングを適用するか決定する制御モジュール（図示せず）を設けてもよい。かかる制御モジュールは、ピッチエンハンスメントモジュール７４０とＡＣＥＬＰモジュール７１１に通信可能に接続され、復号プロセスの中間段階を表し、好ましくは信号の励起に対応したものを表す中間復号信号ｓ_{ｉ＿ＤＥＣ}（ｎ）を取り出す。検出モジュールは、伝達関数Ｐ_ＬＴ（ｚ）とＨ_ＬＰ（ｚ）（背景技術欄及び図３を参照）、又は等価であるであるがこれらのフィルタインパルス応答ｐ_ＬＴ（ｚ）とｈ_ＬＰ（ｎ）で画定されるピッチエンハンスメントモジュール７４０の機能をシミュレーションするのに必要な情報を有する。背景技術欄で説明したように、ポストフィルタリングで減算される成分は、
［外１］

に比例する近似差分信号ｓ_ＡＤ（ｎ）により推定できる。ここで、＊は離散畳み込みを示す。これは、元のオーディオ信号とポストフィルタリングされた復号信号との間の真の差分の近似である。すなわち、

であり、ここでαはポストフィルタゲインである。発明の概要欄及び特許請求の範囲に開示したように、この信号の全エネルギー、低周波帯域エネルギー、実強度スペクトル、又は過去の強度スペクトルが分かれば、制御部はピッチエンハンスメントモジュール７４０をアクティブ化又は非アクティブ化するか決定する基本を見つけることができる。

図８は、本発明の一実施形態によるエンコーダシステム８００を示す図である。エンコーダシステム８００は、デジタルオーディオ信号を処理するように構成され、そのデジタルオーディオ信号は一般的にマイクロホンで音波をキャプチャし、その音波をアナログの電気信号に変換することにより取得される。電気信号は、サンプリングされて、エンコーダシステム８００に好適なフォーマットで提供され得るデジタル信号にされる。このシステムは、一般的には、符号化モジュール８１０、決定モジュール８２０、及びマルチプレクサ８３０よりなる。（象徴的に表された）スイッチ８１４、８１５により、符号化モジュール８１０は、モジュール８１１、８１２、８１３を選択的にアクティブ化することにより、ＣＥＬＰ、ＴＣＸ、又はＡＡＣモードのいずれかにより動作可能である。決定モジュール８２０は、所定の基準を適用して、符号化システム８００により生成されるビットストリーム信号の復号中にポストフィルタリングをディスエーブルしてオーディオ信号をエンコードするか決定する。この目的のため、決定モジュール８２０は、オーディオ信号を直接調べて、又は接続ライン８１６を介して符号化モジュール８１０からデータを受け取る。決定モジュール８２０によりなされる決定を示す信号は、符号化モジュール８１０からの符号化オーディオ信号とともに、マルチプレクサ８３０に供給され、マルチプレクサ８３０はこれらの信号を連結して、エンコーダシステム８００の出力を構成するビットストリームにする。

好ましくは、決定モジュール８２０は、中間復号信号ｓ_{ｉ＿ＤＥＣ}から計算した近似差分信号に基づいて決定をする。この中間復号信号ｓ_{ｉ＿ＤＥＣ}は符号化モジュール８１０から取得できる。前述の通り、中間復号信号は復号プロセスの中間段階を表すが、符号化プロセスの対応する段階から得ることもできる。しかし、エンコーダシステム８００では、有利にも近似差分信号が

となるように、元のオーディオ信号ｓ_ＯＲＩＧを得ることができる。近似した点は、最終的復号信号の替わりに中間復号信号を用いている。これにより、復号でポストフィルタが除去する成分の性質を評価でき、発明の概要欄で説明した基準の１つを適用することにより、決定モジュール８２０はポストフィルタリングをディスエーブルするか決定をすることができる。

これのバリエーションとして、決定モジュール８２０は、中間復号信号の替わりに元の信号を用いて、近似差分信号が
［外２］

となるようにしても良い。これは忠実さが低い近似となるが、他方では、決定モジュール８２０と符号化モジュール８１０との間の接続ライン８１６の在否が任意的となる。

決定モジュール８２０がオーディオ信号を直接調べる（study）する本実施形態の他のバリエーションでは、以下の基準の１つ又は複数が適用できる：
・オーディオ信号は基本周波数が支配的な成分と、基本周波数よりも低い成分とを両方とも含むか？（基本周波数は符号化モジュール８１０の副作用として供給される。）
・オーディオ信号は基本周波数が支配的な成分と、基本周波数の高調波間にある成分とを両方とも含むか？
・オーディオ信号は基本周波数より低い大きな信号エネルギーを含むか？
・ポストフィルタリングした復号は、レート歪み最適性の点でフィルタリングしない復号よりも好ましいか（好ましそうか）？
図８に示したエンコーダ構成について説明したすべてのバリエーションでは、すなわち基礎となる決定基準にはかかわらずに、決定部８２０は、スムースな移行を実現するように、ポストフィルタリングを徐々にかけること又は除くことを決定できる。ポストフィルタのゲインを調性することにより、ポストフィルタリングを徐々にかけたり除いたりできる。

図９は、デコーダに供給されるビットストリーム信号に応じて周波数復号モードとＣＥＬＰ復号モードで動作できる従来のデコーダを示す。ＣＥＬＰ復号モードが選択されているときはいつもポストフィルタリングがかけられる。このデコーダの改良を図１０に示す。図１０は本発明の一実施形態によるデコーダ１０００を示す。このデコーダは、周波数領域復号モジュール１０１３がアクティブである周波数領域ベースの復号モードと、ＣＥＬＰ復号モジュール１０１１とポストフィルタ１０４０がアクティブであるフィルタリングされたＣＥＬＰ復号モードとにおいて動作可能であるだけでなく、ＣＥＬＰモジュール１０１１がその信号をバイパスライン１０４４を介して補正遅延モジュール１０４３に供給する、フィルタリングされていないＣＥＬＰモードでも動作可能である。スイッチ１０４２は、デコーダ１０００に提供されるビットストリーム信号に含まれるポストフィルタリング情報に応じて、今どの復号モードを使うか制御する。このデコーダと図９のデコーダでは、最後の処理ステップはＳＢＲモジュール１０５０により行われ、ＳＢＲ１０５０から最終的なオーディオ信号が出力される。

図１１は、デコーダ１１９９の下流に配置するのに好適なポストフィルタ１１００を示す。フィルタ１１００はポストフィルタリングモジュール１１４０を含む。ポストフィルタリングモジュール１１４０は、ポストフィルタ１１００内の決定モジュール１１２０から受け取るポストフィルタリング信号に応じて制御モジュール（図示せず）により、特にバイナリ又は非バイナリのゲインコントローラにより、イネーブル又はディスエーブルされる。決定モジュールは、デコーダから得られる信号に１つ以上のテストをして、ポストフィルタリングモジュール１１４０をアクティブにするか否か決定する。決定は、図８の決定モジュール８２０の機能のある時点で行われる。決定モジュール８２０は、元の信号及び／又は中間復号信号を用いて、ポストフィルタの動作を予測する。また、決定モジュール１１２０の決定は、決定モジュールが中間復号信号が構成される上記の実施形態で用いるのと同様の情報に基づく。一例として、決定モジュール１１２０は、（ビットストリーム信号からピッチ周波数を容易に得られない限り）ピッチ周波数を推定し、そのピッチ周波数より下の信号とその高調波の間の信号のエネルギーコンテンツを計算する。このエネルギーコンテンツが大きければ、ノイズよりも信号成分を表すだろう。これはポストフィルタリングモジュール１１４０をディスエーブルする決定をするモチベーションとなる。

６人の被験者によるリスニングテストを行い、その間に、本発明により符号化及び復号をした音楽サンプルを、符号化された同じ音楽を含む基準サンプルと比較した。ポストフィルタリングは従来通りかけたが、他のパラメータはすべて変更していない。結果として音質が改善されることが確認された。

本発明のさらなる実施形態は、上記の説明を読めば、当業者には明らかになるだろう。本明細書と図面は実施形態と実施例を開示しているが、本発明はこれらの具体的な例に制約されない。添付した特許請求の範囲で規定した本発明の範囲から逸脱することなく、多数の修正や変形をすることができる。

ここに開示したシステムと方法は、ソフトウェア、ファームウェア、ハードウェアまたはこれらの組み合わせとして実施できる。一部または全部のコンポーネントは、デジタルシグナルプロセッサやマイクロプロセッサにより実行されるソフトウェアとして実施でき、またはハードウェアまたは特定目的集積回路として実施できる。かかるソフトウェアは、コンピュータ読み取り可能媒体で配布可能である。コンピュータ読み取り可能媒体は、コンピュータ記憶媒体（すなわち非一時的媒体）と通信媒体（すなわち一時的媒体）とを含む。当業者には周知だが、コンピュータ記憶媒体には、コンピュータ読み取り可能命令、データ構造、プログラムモジュールその他のデータなどの情報を記憶するための任意の方法や技術で実施された、揮発性および不揮発性、取り外し可能および取り外し不可能媒体を含む。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリその他のメモリ技術、ＣＤ−ＲＯＭ、デジタルバーサタイルディスク（ＤＶＤ）その他の光ディスク記憶媒体、磁気カセット、磁気テープ、磁気ディスク記憶その他の磁気記憶デバイス、またはその他の、所望の情報の記憶に使える任意の媒体を含むが、これらに限定されない。さらに、当業者には周知であるように、通信媒体は、一般的に、コンピュータ読み取り可能命令、データ構造、プログラムモジュール、その他の搬送波その他の伝送メカニズムなどの変調データ信号中のデータを化体し、任意の情報配信媒体を含む。

実施形態のリスト
１. オーディオ時間信号としてビットストリーム信号を復号するデコーダシステム（４００；５００；７００；１０００）であって：
ビットストリーム信号を予備的オーディオ時間信号として復号する復号部（４１０；５１１，５１２，５１３；７１１，７１２，７１３；１０１１，１０１３）と；
前記予備的オーディオ時間信号をフィルタリングしてオーディオ時間信号を取得する高調波間ノイズ減衰ポストフィルタ（４４０；５４０；７４０；１０４０）とを有し、
前記ビットストリーム信号にエンコードされたポストフィルタリング情報に応じて前記ポストフィルタをディスエーブルするように構成された制御部を有し、
前記予備的オーディオ時間信号が前記オーディオ時間信号として出力されることを特徴とする、デコーダシステム。

２. 前記ポストフィルタはさらにスペクトルの谷にあるノイズを減衰するように構成されている、実施形態１に記載のデコーダシステム。

３. 前記制御部は、前記デコーダシステムの信号処理経路から前記ポストフィルタを選択的に除外するスイッチ（４４２；５４１；１０４２）を含み、これにより前記ポストフィルタはディスエーブルされる、実施形態１に記載のデコーダシステム。

４. 前記ポストフィルタは前記高調波間減衰を決定する可変ゲインを有し、前記制御部は前記ゲインの絶対値を所定閾値より下に設定するように動作可能なゲインコントローラを含む、実施形態１に記載のデコーダシステム。

５. 前記復号部はスピーチ復号モジュールを含む、実施形態１に記載のデコーダシステム。

６. 前記復号部は、コード励起線形予測、ＣＥＬＰ、復号モジュール（５１１；７１１；１０１１）を含む、実施形態１に記載のデコーダシステム。

７. 前記エンコーダの長期予測部により推定されたピッチ周波数が前記ビットストリーム信号にエンコードされる、実施形態５に記載のデコーダシステム。

８. 前記ポストフィルタは、前記ピッチ周波数の高調波間にあるスペクトル成分を減衰するように構成されている、実施形態７に記載のデコーダシステム。

９. 前記ビットストリーム信号はピッチ周波数の表示を含み、前記ポストフィルタは前記ピッチ周波数の高調波間にあるスペクトル成分を減衰するように構成されている、
実施形態１に記載のデコーダシステム。

１０. 前記ポストフィルタは、所定のカットオフ周波数より下にあるスペクトル成分のみを減衰するように構成されている、実施形態８または９に記載のデコーダシステム。

１１. 前記復号部は、ビットストリーム信号をオーディオ時間信号として復号するＴＣＸ（transform-coded excitation）復号モジュール（５１２；７１２）をさらに有し、
前記制御部は少なくとも次のモード：
ａ）前記ＴＣＸモジュールがイネーブルされ、前記ポストフィルタがディスエーブルされる；
ｂ）前記ＣＥＬＰモジュールと前記ポストフィルタがイネーブルされている；及び
ｃ）前記ＣＥＬＰモジュールがイネーブルされ、前記ポストフィルタがディスエーブルされており、前記呼びオーディオ時間信号と前記オーディオ時間信号が同時である、
で前記デコーダシステムを動作させるように構成されている、実施形態６に記載のデコーダシステム。

１２. 前記復号部は、ビットストリーム信号をオーディオ時間信号として復号するＡＡＣ（Advanced Audio Coding）復号モジュール（５１３；７１３）をさらに有し、
前記制御部は少なくとも次のモード：
ｄ）前記ＡＡＣモジュールがイネーブルされ、前記ポストフィルタがディスエーブルされる
で前記デコーダシステムを動作させるように構成されている、実施形態１０に記載のデコーダシステム。

１３. 前記ビットストリーム信号は時間フレームに分割され、前記制御部は一時間フレーム全体又は一連の時間フレームをディスエーブルするように構成されている、
実施形態１に記載のデコーダシステム。
１４. 前記制御部は、さらにＭＰＥＧ（Moving Pictures Experts Group）ビットストリーム中の各時間フレームに対して、この時間フレームに関連するデータフィールドを受け取るように構成され、前記データフィールドの値に応じて、前記ポストフィルタをディスエーブルするように動作可能である、実施形態１３に記載のデコーダシステム。

１５. 前記制御部は前記ポストフィルタのゲインを徐々に下げる及び／又は上げるように構成されている、実施形態４に記載のデコーダシステム。

１６. デコーダシステム（４００；５００；７００；１０００）であって：
ビットストリーム信号を予備的オーディオ時間信号として復号する復号部（４１０；５１１，５１２，５１３；７１１，７１２，７１３；１０１１，１０１３）と；
前記予備的オーディオ時間信号をフィルタリングしてオーディオ時間信号を取得する高調波間ノイズ減衰ポストフィルタ（４４０；５４０；７４０；１０４０）とを有し、
前記復号部は励起を表す中間復号信号を生成し、それを前記制御部に提供するように構成されており；
前記制御部は、前記中間復号信号と前記ポストフィルタリングをかけ、次の基準：
ａ）前記近似差分信号のパワーが所定閾値を越えている；
ｂ）前記近似差分信号の特徴が音調的である；
ｃ）前記近似差分信号の強さ・周波数スペクトルと前記オーディオ信号の強さ・周波数スペクトルとの間の差分が、周波数に対して不均一に分布している；
ｄ）前記近似差分信号の強度周波数スペクトルは所定の関連エンベロープ内の周波数区間にあるか、
ｅ）前記近似差分信号の強度周波数スペクトルが、所定のスケールファクタによりダウンスケールされた最大信号成分の強度により前記オーディオ時間信号の強度周波数スペクトルに閾値を設けることにより得られた関連エンベロープ内の周波数区間にあるか；
のうち少なくとも一を評価した前記中間復号信号との間の差分として、前記ポストフィルタにより前記復号信号から除去される信号成分を近似する近似差分信号を計算するよう構成され、及び、
肯定的な決定に応じて、前記ポストフィルタをディスエーブルし、それにより前記予備的オーディオ時間信号が前記オーディオ時間信号として出力される、デコーダシステム。

１７. 予備的オーディオ信号を含む入力信号を受け取り、出力オーディオ信号を供給するように構成された高調波間ノイズ減衰ポストフィルタ（４４０；５５０；７４０；１０４０；１１４０）であって、
ポストフィルタリング信号の値により、次のモード：
ｉ）前記予備的オーディオ信号をフィルタリングしてフィルタリングされた信号を求め、これを出力オーディオ信号として供給するフィルタリングモードと、
ｉｉ）前記予備的オーディオ信号を出力オーディオ信号として供給するパススルーモード、
の一で前記ポストフィルタを選択的に動作させる制御部を有することを特徴とする、ポストフィルタ。

１８. 前記ポストフィルタリング信号は前記入力信号に含まれる、
実施形態１７に記載のポストフィルタ。

１９. 前記予備的オーディオ信号のピッチ周波数を推定し、次の基準：
ａ）前記ピッチ周波数より下のスペクトル成分のパワーが所定閾値を越えているか；
ｂ）前記ピッチ周波数より下のスペクトル成分は音調的であるか；
ｃ）前記ピッチ周波数の高調波間のスペクトル成分のパワーが所定閾値を越えているか；
ｄ）前記ピッチ周波数の高調波間のスペクトル成分は音調的であるか；
のうち少なくとも一を評価するように構成された決定モジュール（１１２０）を更に有する、及び、
肯定的な決定に応じて、前記ポストフィルタをディスエーブルする負のポストフィルタリング信号を生成する決定をする、
実施形態１７に記載のポストフィルタ。

２０. ビットストリーム信号をオーディオ時間信号として復号する方法であって、
ビットストリーム信号を予備的オーディオ時間信号として復号するステップと；
高調波間ノイズを減衰することにより前記予備的オーディオ時間信号をポストフィルタリングして、それによりオーディオ時間信号を求めるステップとを有し、
前記ポストフィルタリングするステップは、前記ビットストリーム信号にエンコードされたポストフィルタリング情報に応じて選択的に省略されることを特徴とする、方法。

２１. 前記ポストフィルタリングするステップは、さらにスペクトルの谷にあるノイズを減衰するステップを含む、実施形態２０に記載の方法。

２２. 前記復号するステップは、スピーチコーディング用のコーディング方法を適用するステップを含む、実施形態２０に記載の方法。

２３. 前記復号するステップは、ＣＥＬＰ（code-excited linear prediction）復号を適用するステップを含む、実施形態２０に記載の方法。

２４. 前記ポストフィルタリングするステップは、前記ピッチ周波数の高調波間にあるスペクトル成分を減衰するステップを含み、前記ピッチ周波数は前記ビットストリーム信号から取り出されるか、又は前記復号ステップで推定される、
実施形態２２又は２３に記載の方法。

２５. 前記ポストフィルタリングするステップは、所定のカットオフ周波数より下にあるスペクトル成分のみを減衰するステップを含む、
実施形態２０に記載の方法。

２６. 前記復号するステップとポストフィルタリングするステップは、次の：
ａ）ＴＣＸ復号；
ｂ）ポストフィルタリング付きのＣＥＬＰ復号と；及び
ｃ）ポストフィルタリング無しのＣＥＬＰ復号；
のうちの一を選択的に実行する、実施形態２３に記載の方法。

２７. 前記復号するステップとポストフィルタリングするステップは、モードａ）、ｂ）、ｃ）、及び
ｄ）ＡＡＣ（Advanced Audio Coding）復号
のうちの一を選択的に実行する、実施形態２６に記載の方法。

２８. 前記ビットストリーム信号は時間フレームに分割され、前記ポストフィルタリングするステップは一時間フレーム全体又は一連の時間フレームの間省略される、
実施形態２０に記載の方法。

２９. 前記ビットストリーム信号はＭＰＥＧ（Moving Pictures Experts Group）ビットストリームであり、各時間フレームに対して、関連するデータフィールドを含み、
前記ポストフィルタリングするステップは、前記関連するデータフィールドの値に応じて時間フレームにおいて省略される、実施形態２８に記載の方法。

３０. 前記ポストフィルタリングの省略は、次の：
減衰の完全省略、
減衰の部分的省略、
減衰を徐々に大きくすること、及び
減衰を徐々に小さくすること、
うちの一を含む、実施形態２０に記載の方法。

３１. ビットストリーム信号をオーディオ時間信号として復号する方法であって、
ビットストリーム信号を予備的オーディオ時間信号として復号するステップと；
高調波間ノイズを減衰することにより前記予備的オーディオ時間信号をポストフィルタリングして、それによりオーディオ時間信号を求めるステップとを有し、
前記復号するステップは、
励起を表す中間復号信号を取り出すステップと；
前記ポストフィルタにより前記復号信号から除去される信号成分を近似する近似的差分信号を、前記中間復号信号と、ポストフィルタリングをかけられた中間復号信号との差分として計算するステップと；
次の基準：
ａ）前記近似差分信号のパワーが所定閾値を越えている；
ｂ）前記近似差分信号の特徴が音調的である；
ｃ）前記近似差分信号の強さ・周波数スペクトルと前記オーディオ信号の強さ・周波数スペクトルとの間の差分が、周波数に対して不均一に分布している；
ｄ）前記近似差分信号の強度周波数スペクトルは所定の関連エンベロープ内の周波数区間にあるか、
ｅ）前記近似差分信号の強度周波数スペクトルが、所定のスケールファクタによりダウンスケールされた最大信号成分の強度により前記オーディオ時間信号の強度周波数スペクトルに閾値を設けることにより得られた関連エンベロープ内の周波数区間にあるか；
のうち少なくとも一を評価するステップと；及び、
肯定的な決定に応じて、前記ポストフィルタをディスエーブルし、それにより前記予備的オーディオ時間信号が前記オーディオ時間信号として出力される、エンコーダシステム。

３２. オーディオ時間信号をビットストリーム信号として符号化するエンコーダシステム（８００）であって、
オーディオ時間信号をビットストリーム信号として符号化する符号化部（８１０）を含み、
前記ビットストリームの復号において、高調波間ノイズの減衰を含むポストフィルタリングをディスエーブルするか決定し、この決定をポストフィルタリング情報として前記ビットストリーム信号にエンコードするように構成された決定部（８２０）を有することを特徴とする、エンコーダシステム。

３３. 前記決定部は、スペクトルの谷にあるノイズの減衰をさらに含むポストフィルタリングをディスエーブルするか決定するように構成されている、
実施形態３２に記載のエンコーダシステム。

３４. 前記符号化部はスピーチコーディングモジュールを含む、
実施形態３２に記載のエンコーダシステム。

３５. 前記符号化部は、ＣＥＬＰ（code-excited linear prediction）符号化モジュールを含む、実施形態３２に記載のエンコーダシステム。

３６. 前記決定部は：
支配的基本周波数を有する信号成分と、前記基本周波数より下にあり、及び任意的にその高調波の間にある信号成分とが共に存在することを検出し、
それに応じて、ディスエーブルする決定を行う、
実施形態３２に記載のエンコーダシステム。

３７. 前記ＣＥＬＰ符号化モジュールは前記オーディオ時間信号中のピッチ周波数を推定するように構成され、
前記決定部は、前記推定されたピッチ周波数より下にあるスペクトル成分を検出し、それに応じて、ディスエーブルする決定をするように構成されている、
実施形態３５に記載のエンコーダシステム。

３８. 前記決定部は：
ＣＥＬＰ符号化された時の前記オーディオ時間信号の予測パワーと、ＣＥＬＰ符号化されポストフィルタリングされた時の前記オーディオ時間信号の予測パワーとの間の差分を計算し、
この差分が所定の閾値を越えるのに応じて、ディスエーブルする決定をする、
実施形態３５に記載のエンコーダシステム。

３９. 前記符号化部はさらにＴＣＸ（transform-coded excitation）符号化モジュールを含み、
前記決定部は、次の符号化モード：
ａ）ＴＣＸ符号化；
ｂ）ポストフィルタリング付きのＣＥＬＰコーディングと；及び
ｃ）ポストフィルタリング無しのＣＥＬＰコーディング；
のうちの一を選択するように構成されている、実施形態３５に記載のエンコーダシステム。

４０. 次のスーパーモード：
ｉ）前記決定部がディスエーブルされるＡＡＣ（Advanced Audio Coding）コーディングと；
ｉｉ）前記決定部はコーディングモードａ）、ｂ）及びｃ）のうちの一を選択できるＴＣＸ／ＣＥＬＰコーディング；
のうちの一を選択するように構成されたコーディングセレクタ（８１４）を更に有する、実施形態３９に記載のエンコーダシステム。

４１. 前記決定部は、レート・歪み最適化に基づきどのモードを用いるか決定するように構成されている、実施形態３９に記載のエンコーダシステム。

４２. 前記ビットストリーム信号を時間フレームに分割するように構成され、前記決定部は全フレームよりなる時間セグメントにおいて前記ポストフィルタをディスエーブルする決定をするように構成されている、実施形態３２に記載のエンコーダシステム。

４３. 前記決定部は前記ポストフィルタの減衰を徐々に下げる及び／又は上げることを決定するように構成されている、実施形態３２に記載のエンコーダシステム。

４４. 前記決定部は：
推定されたピッチ周波数より下のオーディオ時間信号のパワーを計算し、
このパワーが所定の閾値を越えるのに応じて、ディスエーブルする決定をする、
実施形態３２に記載のエンコーダシステム。

４５. 前記決定部は：
前記オーディオ時間信号から、前記ポストフィルタによりさらなる復号信号から除去される信号成分を近似する近似差分信号を求め、
次の基準：
ａ）前記近似差分信号のパワーが所定閾値を越えている；
ｂ）前記近似差分信号の特徴が音調的である；
ｃ）前記近似差分信号の強さ・周波数スペクトルと前記オーディオ信号の強さ・周波数スペクトルとの間の差分が、周波数に対して不均一に分布している；
ｄ）前記近似差分信号の強度周波数スペクトルは所定の関連エンベロープ内の周波数区間にあるか、
ｅ）前記近似差分信号の強度周波数スペクトルが、所定のスケールファクタによりダウンスケールされた最大信号成分の強度により前記オーディオ時間信号の強度周波数スペクトルに閾値を設けることにより得られた関連エンベロープ内の周波数区間にあるか；
のうち少なくとも一を評価する；及び、
肯定的な決定に応じて、前記ポストフィルタをディスエーブルする決定をする、
実施形態３２に記載のエンコーダシステム。

４６. 前記決定部は、前記近似差分信号を、前記オーディオ時間信号と、ポストフィルタリングをかけたオーディオ時間信号との間の差分として、計算するように構成されている、
実施形態４５に記載のエンコーダシステム。

４７. 前記符号化部は励起を表す中間復号信号を取り出し、それを前記決定部に提供するように構成されており；
前記決定部は、前記近似差分信号を、前記オーディオ時間信号と、ポストフィルタリングをかけた中間復号信号との間の差分として、計算するように構成されている、
実施形態４５に記載のエンコーダシステム。

４８. オーディオ時間信号をビットストリーム信号として符号化する方法であって、オーディオ時間信号をビットストリーム信号として符号化するステップを含み、
前記ビットストリームの復号において、高調波間ノイズの減衰を含むポストフィルタリングをディスエーブルするか決定し、この決定をポストフィルタリング情報として前記ビットストリーム信号にエンコードするステップをさらに有することを特徴とする、方法。

４９. 前記決定するステップは、さらにスペクトルの谷にあるノイズを減衰するステップを含むポストフィルタリングに関する、実施形態４８に記載の方法。

５０. 前記符号化するステップは、スピーチコーディング用のコーディング方法を適用するステップを含む、実施形態４８に記載の方法。

５１. 前記符号化するステップは、ＣＥＬＰ（code-excited linear prediction）コーディングを適用するステップを含む、実施形態４８に記載の方法。

５２. 支配的基本周波数を有する信号成分と、前記基本周波数より下にあり、及び任意的にその高調波の間にある信号成分とが共に存在することを検出するステップをさらに有し、
肯定的決定の場合に、ポストフィルタリングをディスエーブルする決定が行われる、
実施形態４８に記載の方法。

５３. 前記ＣＥＬＰコーディングするステップは、前記オーディオ時間信号中のピッチ周波数を推定するステップを含み、
決定するステップは、前記推定されたピッチ周波数より下にあるスペクトル成分を検出するステップを含み、肯定的な検出結果の場合に、ポストフィルタリングをディスエーブルする決定が行われる、
実施形態５１に記載の方法。

５４. ＣＥＬＰ符号化された時の前記オーディオ時間信号の予測パワーと、ＣＥＬＰ符号化されポストフィルタリングされた時の前記オーディオ時間信号の予測パワーとの間の差分を計算するステップをさらに含み、
この差分が所定の閾値を越えた場合、ポストフィルタリングをディスエーブルする決定が行われる、実施形態５１に記載の方法。

５５. 符号化するステップは、ＣＥＬＰコーディング又はＴＣＸコーディングのいずれかを選択的に適用するステップを含み、
ポストフィルタリングをディスエーブルするか決定するステップは、ＣＥＬＰコーディングが適用されている時にのみ行われる、
実施形態５１に記載の方法。
５６. 前記決定するステップは、レート・歪み最適化に基づき、次の動作モード：
ａ）ＴＣＸコーディング；
ｂ）ポストフィルタリング付きのＣＥＬＰコーディングと；及び
ｃ）ポストフィルタリング無しのＣＥＬＰコーディング；
のうちの一を選択するステップを含む、実施形態５５に記載の方法。

５７. 前記決定するステップは、レート・歪み最適化に基づき、次の動作モード：
ａ）ＴＣＸコーディング；
ｂ）ポストフィルタリング付きのＣＥＬＰコーディングと；及び
ｃ）ポストフィルタリング無しのＣＥＬＰコーディング；及び
ｄ）ＡＡＣ（Advanced Audio Coding）コーディング
のうちの一を選択するステップを含む、実施形態５５に記載の方法。

５８. 符号化するステップは、前記オーディオ時間信号を時間フレームに分割し、対応する時間フレームを有するビットストリーム信号を構成するステップを含み、
ポストフィルタリングをディスエーブルすることを決定するステップは、時間フレームごとに一度行われる、
実施形態４８に記載の方法。

５９.
ポストフィルタリングをディスエーブルすることを決定するステップの結果は、次から：
減衰無し、
全減衰、
部分的減衰、
減衰を徐々に大きくすること、及び
減衰を徐々に小さくすること、
選択される、実施形態４８に記載の方法。

６０. 決定するステップは、推定されたピッチ周波数より下のオーディオ時間信号のパワーを計算し、そのパワーが所定の閾値を越えるのに応じて、前記ポストフィルタをディスエーブルするステップを含む、
実施形態４８に記載の方法。

６１. 符号化するステップは、前記オーディオ時間信号から、前記ポストフィルタによりさらなる復号信号から除去される信号成分を近似する近似差分信号を求めるステップを含む、
決定するステップは、次の基準：
ａ）前記近似差分信号のパワーが所定閾値を越えている；
ｂ）前記近似差分信号の特徴が音調的である；
ｃ）前記近似差分信号の強さ・周波数スペクトルと前記オーディオ信号の強さ・周波数スペクトルとの間の差分が、周波数に対して不均一に分布している；
ｄ）前記近似差分信号の強度周波数スペクトルは所定の関連エンベロープ内の周波数区間にあるか、
ｅ）前記近似差分信号の強度周波数スペクトルが、所定のスケールファクタによりダウンスケールされた最大信号成分の強度により前記オーディオ時間信号の強度周波数スペクトルに閾値を設けることにより得られた関連エンベロープ内の周波数区間にあるか；
のうち少なくとも一を評価するステップを含む、及び、
少なくとも肯定的な決定に応じて、前記ポストフィルタをディスエーブルするステップ
実施形態４８に記載の方法。

６２. 前記近似差分信号を、前記オーディオ時間信号と、ポストフィルタリングをかけたオーディオ時間信号との間の差分として、計算する、
実施形態６１に記載の方法。

６３. 符号化するステップは、励起を表す中間復号信号を取り出すステップを含み、
決定するステップは、前記近似差分信号を、前記オーディオ時間信号と、ポストフィルタリングをかけた中間復号信号との間の差分として、計算するステップを含む、
実施形態６１に記載の方法。

６４. 実施形態２０乃至３１、及び４８乃至６３いずれか一項に記載の方法を実行する命令を記憶したデータ担体を含むコンピュータ読み取り可能媒体。

Claims

オーディオビットストリームから生成された予備的オーディオ信号をフィルタするピッチフィルタであって、前記ピッチフィルタは
（ｉ）前記予備的オーディオ信号がフィルタリング情報を用いてフィルタされ、フィルタ後オーディオ信号が得られるアクティブモードと、
（ｉｉ）前記ピッチフィルタがディスエーブルされる非アクティブモードと
のうち一つから選択される動作モードを有し、
前記予備的オーディオ信号は、少なくとも２つの区別できる符号化モードから選択される符号化モードで動作するオーディオデコーダで生成され、前記オーディオデコーダが前記符号化モードで動作しているとき、前記ピッチフィルタは制御情報に基づきアクティブモードまたは非アクティブモードで選択的に動作でき、
前記オーディオビットストリームはオーディオコンテンツのフレームに分割され、前記制御情報はフレームタイプパラメータを含み、前記フレームタイプパラメータの第１の値は前記ピッチフィルタが前記アクティブモードで動作すべきことを示し、前記フレームタイプパラメータの第２の値は前記ピッチフィルタが前記非アクティブモードで動作すべきことを示す、
ピッチフィルタ。
前記制御情報は、前記オーディオビットストリームに含まれ、前記符号化モードとは独立である、
請求項１に記載のピッチフィルタ。
前記フィルタリング情報はピッチ情報とゲインとを含み、前記ゲインまたはピッチ情報は前記オーディオビットストリームに含まれる、請求項１に記載のピッチフィルタ。
前記符号化モードは前記オーディオビットストリームにおいて符号化モードパラメータとしてシグナリングされる、請求項１に記載のピッチフィルタ。
前記フレームタイプパラメータは、それぞれのフレームが音声コンテンツを含むか、またはそれぞれのフレームが非音声コンテンツを含むかを示す、
請求項１に記載のピッチフィルタ。
前記ピッチフィルタはポストフィルタまたはピッチエンハンスメントフィルタである、
請求項１に記載のピッチフィルタ。
前記ポストフィルタ及びピッチエンハンスメントフィルタは、ハーモニクス間の信号成分を減衰、またはスペクトルの谷を減衰するように適応されている、請求項６に記載のピッチフィルタ。
前記ポストフィルタとピッチエンハンスメントフィルタは、前記予備的オーディオ信号の周期的成分を回復するように適応されている、請求項６に記載のピッチフィルタ。
前記第１の符号化モードは周波数領域符号化または変換符号化を含み、前記第２の符号化モードは線形予測符号化を含む、請求項１に記載のピッチフィルタ。
前記予備的オーディオ信号は励起信号であり、前記第１の符号化モードは周波数領域符号化または変換符号化を含み、前記第２の符号化モードは線形予測を含む、
請求項１に記載のピッチフィルタ。
前記ピッチフィルタは、前記ピッチフィルタの変換中に前記ゲインを時間的に平滑化するように適応されている、請求項３に記載のピッチフィルタ。
前記ピッチフィルタは一以上のコムフィルタで実装される、
請求項１に記載のピッチフィルタ。
前記ピッチフィルタは長期フィルタ及び短期フィルタで実装される、
請求項１に記載のピッチフィルタ。
前記長期フィルタは長期予測合成フィルタであり、前記短期フィルタは線形予測符号化合成フィルタであり、前記短期フィルタは前記長期フィルタの後に前記予備的オーディオ信号を処理する、
請求項１３に記載のピッチフィルタ。
前記ピッチフィルタは低周波数特性を有する、請求項１に記載のピッチフィルタ。
予備的オーディオ信号をピッチフィルタでフィルタする方法であって、
前記ピッチフィルタは、前記予備的オーディオ信号がフィルタリング情報を用いてフィルタされるアクティブモード、または前記予備的オーディオ信号がフィルタされない非アクティブモードから選択される動作モードを有し、
前記方法は、
前記予備的オーディオ信号を取得するステップであって、前記予備的オーディオ信号は第１の符号化モードまたは第２の符号化モードから選択された符号化モードでオーディオビットストリームから生成されるステップと、
制御情報を取得するステップと、
前記制御情報に基づき前記符号化モードで動作しているときに、アクティブモードまたは非アクティブモードで前記ピッチフィルタを選択的に動作させるステップとを含み、
前記予備的オーディオ信号はオーディオコンテンツのフレームに分割され分割されたオーディオビットストリームから求められ、前記制御情報はフレームタイプパラメータを含み、前記フレームタイプパラメータの第１の値は前記ピッチフィルタが前記アクティブモードで動作すべきことを示し、前記フレームタイプパラメータの第２の値は前記ピッチフィルタが前記非アクティブモードで動作すべきことを示す、
方法。
前記ピッチフィルタの動作モードは前記制御情報により決定され、前記制御情報は前記ビットストリームに含まれ、前記符号化モードとは独立である、請求項１６に記載のピッチフィルタ。
前記ピッチフィルタは低周波数特性を有する、請求項１６に記載のピッチフィルタ。