JP6076247B2

JP6076247B2 - ディジタルオーディオ信号エンコーダでのノイズシェーピングフィードバックループの制御

Info

Publication number: JP6076247B2
Application number: JP2013515945A
Authority: JP
Inventors: ステファン・ラゴ; バラーツ・コヴシ; アラン・ル・ギヤデール
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2010-06-24
Filing date: 2011-06-17
Publication date: 2017-02-08
Anticipated expiration: 2031-06-17
Also published as: KR101776177B1; JP2013536450A; CN103081366A; US9489961B2; KR20130095726A; EP2586133A1; WO2011161362A1; EP2586133B1; FR2961980A1; US20130204630A1; CN103081366B

Description

本発明は、ディジタル信号の符号化の分野に関する。

本発明による符号化は、可聴周波数信号(音声、音楽、他)のようなディジタル信号の伝送および/または記録に特に適している。

本発明は、より具体的には、ADPCM(「適応差分パルス符号変調」を表す)符号化方式の波形符号化でのフィードバックループの制御に関係し、特に、スケーラブルなバイナリ列(binary train)の量子化インデックスを送出することを可能にするエンベデッド符号(embedded-codes)ADPCM方式の符号化に関係する。

ITU-T G.722、ITU-T G.726またはITU-T G.727の勧告によって指定されるエンベデッド符号ADPCM符号化/復号化の一般的な原理は、図1および2を参照して説明するようなものである。

図1は、このように、1サンプルあたりBビットとB+Kビットとの間で動作するADPCM方式(例えば、G.722低域、G.727)のエンベデッド符号コーダを示しており、非スケーラブルなADPCM符号化(例えば、G.726、G.722ハイバンド)の場合はK=0に対応することに注意されたい。

このコーダは、
信号

の予測を、量子化誤差信号

(v(n')は量子化スケールファクタである)の前のサンプルに基づいて、且つ、再構成信号r^B(n')n'=n-1,...,n-N_P(nは現在の時点である)に基づいて与えることを可能にする予測モジュール110と、
e(n)で示される予測誤差信号を得るために、入力信号x(n)の予測

を後部から差し引く減算モジュール120と、
B+Kビットから成る量子化インデックスI^B+K(n)を与えるために、入力として誤差信号e(n)を受信する、誤差信号用の量子化モジュール130 Q^B+Kとを備える。量子化モジュール130 Q^B+Kは、エンベデッド符号方式のものであり、すなわち、Bビットのコア量子化器と、コア量子化器に埋め込まれるB+k k=1,...,Kビットの量子化器とを備える。

ITU-T G.722標準(低域の符号化)の場合では、B=4に対するQ^B、Q^B+1、Q^B+2の識別レベルおよび再構成レベルは、X.Maitre、「7kHz audio coding within 64kbit/s」、IEEE Journal on Selected Areas in Communication、第6-2巻、1988年2月による、G.722標準を説明する概要の表IVおよびVIによって与えられる。

量子化モジュール130 Q^B+Kの出力部におけるB+Kビットの量子化インデックスI^B+K(n)は、伝送チャネル140を経て、図2を参照して説明するようなデコーダに伝送される。

コーダは、さらに、
低ビットレートインデックスI^B(n)を与えるためにインデックスI^B+K(n)のK個の低次ビットを除去するためのモジュール150と、
出力としてBビットの量子化誤差信号

を与えるための逆量子化モジュール121 (Q^B)^-1と、
量子化器および逆量子化器を適合させるために、以降の時点に対する、スケールファクタとも呼ばれるレベル制御パラメータv(n)を与えるためのモジュール170 Q_Adaptと、
低ビットレート再構成信号r^B(n)を与えるために予測

を量子化誤差信号に加えるための加算モジュール180と、
Bビットの量子化誤差信号

および1+P_z(z)によってフィルタ処理される信号

に基づいて予測モジュールを適応させるためのモジュール190 P_Adaptとを備える。

図1では、155と符号が付けられたハッチング部分が、予測器165および175と逆量子化器121とを含む低ビットレートローカルデコーダを示すことに留意されたい。したがって、このローカルデコーダは、170で、低ビットレートインデックスI^B(n)に基づいて逆量子化器を適応させることを可能にし、且つ、再構成された低ビットレートデータに基づいて予測器165および175を適応させることを可能にする。

この部分は、図2を参照して説明するようなエンベデッド符号ADPCMデコーダでも同様に見られる。

フレーム損失がない場合、図2のエンベデッド符号ADPCMデコーダは、入力として、伝送チャネル140から生じるインデックスI^B+K(ここで0≦k≦K)と、バイナリエラーによって乱される可能性があるI^B+Kの変形とを受信する。デコーダは、信号

を得るために、1サンプルあたりBビットのビットレートの逆量子化モジュール210 (Q^B)^-1による逆量子化を実行する。記号「'」は、受信ビットに基づいて復号化された値であって、伝送エラーのためにコーダによって使用される値と異なっている場合がある値を示す。Bビットの出力信号r'^B(n)は、信号の予測

と、Bビット逆量子化器の出力

との和に等しくなる。デコーダのこの部分255は、図1の低ビットレートローカルデコーダ155と同一である。

ビットレートインジケータモードおよびセレクタ220を用いることによって、デコーダは、再構成される信号を改善することができる。

実際は、モードが、B+1ビットが伝送されていることを示すならば、出力は、予測

と、B+1ビットの逆量子化器230の出力

との和に等しくなる。

実際は、モードが、B+2ビットが伝送されていることを示すならば、出力は、予測

と、B+2ビットの逆量子化器240の出力

との和に等しくなる。

ITU-T標準G.722(以下、G.722と呼ぶ)のエンベデッド符号ADPCM符号化は、[50-7000Hz]の最小帯域幅で規定され、且つ、16kHzでサンプリングされる、広帯域の信号の符号化を実行する。G.722符号化は、直交ミラーフィルタで信号を分解することによって得られる2つの信号サブバンド[0-4000Hz]および[4000-8000Hz]の各々のADPCM符号化である。低域は、6、5および4ビットでのエンベデッド符号ADPCM符号化によって符号化され、高域は、1サンプルあたり2ビットのADPCMコーダによって符号化される。全体のビットレートは、低域を復号化するために使用されるビット数に応じて、64、56または48bit/sとなる。

この符号化は、最初にISDN(統合サービスディジタル網)で使用されるために開発された。最近では、IPネットワークでの改善された品質の電話用途で配備されている。

レベルの数が多い量子化器に関しては、量子化ノイズのスペクトルは比較的平坦になる。しかしながら、信号が低いエネルギーを有する周波数帯域では、ノイズは、信号より大きいレベルを有する可能性があり、したがって、もはやマスクされる必要はない。その後、これらの領域では可聴になりうる。

したがって符号化ノイズのシェーピングが必要である。G.722のようなコーダでは、エンベデッド符号の符号化に適応する符号化ノイズのシェーピングがさらに望ましい。

一般に、符号化ノイズシェーピングの目的は、そのスペクトル包絡線が短期間のマスキングしきい値に続く量子化ノイズを得ることであり、この原理は、ノイズのスペクトルが信号のスペクトルにほぼ続くようにしばしば単純化され、信号のより低いエネルギーの帯域であってもノイズが聞こえないままであるような均一な信号対ノイズ比を確保する。

エンベデッド符号によるPCM(「パルス符号変調」を表す)方式の符号化に対するノイズシェーピング技術は、ITU-T G.711.1勧告、「Wideband embedded extension for G.711 pulse code modulation」またはY. Hiwasaki、S. Sasaki、H. Ohmuro、T. Mori、J. Seong、M. S. Lee、B. Kovesi、S. Ragot、J.-L. Garcia、C. Marro、L. M.、J. Xu、V. Malenovsky、J. Lapierre、R. Lefebvre、「G.711.1: A wideband extension to ITU-T G.711」、EUSIPCO、Lausanne、2008年で説明される。

この勧告は、図3に例示するようなノイズフィードバックによる符号化ノイズのシェーピングを伴う符号化を説明する。符号化ノイズをシェーピングする(ブロック305)ための知覚フィルタF(z)は、逆コア量子化器から生じる(ブロック301)、64kbit/sのコアビットレートの復号化信号

(レイヤ0に対してL0)に基づいて演算される(ブロック303)。したがって、コアビットレートローカルデコーダ(ブロック301)は、ノイズシェーピングフィルタF(z)を演算することを可能にする。このように、デコーダでは、コアビットレートの復号化信号に基づいて同じノイズシェーピングフィルタを演算することも可能にする。

コアビットを供給する量子化器(ブロック308)および改善ビットを供給する量子化器(ブロック309)が、G.711.1コーダでは使用される。

コアバイナリストリーム(L0)および改善ビット(L1)を受信するG.711.1デコーダは、符号化ノイズをシェーピングするためのフィルタF(z)を、コーダと同じように、コアビットレート(64kbit/s)の復号化信号に基づいて演算し、このフィルタを改善ビットのための逆量子化器の出力信号に適用し、シェーピングされた高ビットレート信号が、フィルタ処理された信号を復号化されたコア信号に加えることによって得られる。

このように、ノイズシェーピングは、コアビットレート信号の知覚品質を改善する。それは、改善ビットについて品質の限定的な改善を提供する。実際には、符号化ノイズシェーピングは、改善ビットの符号化に対しては実行されず、量子化器の入力は、コア量子化については、改善される量子化についてと同じである。

次いで、コアビットに加えて改善ビットが復号化されるとき、デコーダは、結果として生じるスプリアス成分を適応化フィルタ処理によって除去しなければならない。

勧告G.711.1で実施されるようなノイズフィードバックによるノイズシェーピングは、G.711以外のPCMコーダと、ADPCM方式の符号化とに一般化可能である。

PCM/ADPCM符号化での典型的な既知のノイズフィードバック構造を図4に示す。
以下、次の表記が使用される。
s(n):符号化すべき入力信号
s'(n):コーダの入力信号(符号化すべき変更された信号)

:ローカルデコーダによって提供される復号化信号

:コーダの量子化ノイズ

図4は、PCM/ADPCM符号化ノイズのシェーピングの典型的な実施を例示する。このコーダは、PCM/ADPCM符号化ブロック502およびローカルデコーダ503を備える。符号化ノイズ

は、信号s(n)上でフィルタ処理され(ブロック504)、再導入される(ブロック505)。予測係数は、G.711.1(図3)では、コアビットレートの過去の復号化信号に基づいて推定されるのに対して、信号s(n)に基づいて推定される(ブロック500)。既知の方法では、フィルタ

は、通常は、信号s(n)の短期相関をモデル化する線形予測フィルタA(z)に基づいて、線形予測フィルタA(z)の係数を減衰させることによって得られる(ブロック500)。符号化ノイズは、典型的な値としてγ=0.92のフィルタ

によってシェーピングされる。

実際に、図4のスキームについて、

から開始し、

のPCM/ADPCM量子化ノイズにより、z変換領域では、

を示すことができる。別に述べられる「グローバル」符号化ノイズ

は、

によってフィルタ処理(シェーピング)されるPCM/ADPCM量子化ノイズq(n)に対応する。

ADPCM符号化に用いられるノイズフィードバックは、特に、音声または音楽のような「自然な」オーディオ信号に対して符号化ノイズをマスキングすることによって、PCM/ADPCMコーダの品質を改善する効果的な技術である。図4のスキームは、周波数に応じてより均一な信号対ノイズ比を得るために、マスキングフィルタ

によって符号化ノイズをシェーピングすることを可能にする。

しかしながら、音声または音楽より「自然」信号らしさがないものに対して、ノイズフィードバックは、ループ化されたシステムの場合としばしば同様に、不安定になり、復号化信号の劣化または飽和をもたらすおそれがある。ここで、飽和は、復号化信号の振幅が、有限精度(例えば、16ビット符号付き整数)で表現できる最大値を越え、したがって、信号のクリッピングをもたらすという意味に解釈されるべきである。

ノイズフィードバックに関して問題のある信号の例は、例えば、無音の短いセグメントによって分離される異なった周波数の一連の純粋な正弦波のような、大きいスペクトルダイナミックレンジの固定シーケンス間で高速遷移を示す信号である。

特に、「トーナル」信号(純粋な正弦波)は、ノイズフィードバックによる符号化スキームの不安定性または飽和の問題を生じさせる可能性がある危険性がある信号と考えられる。

この方式の信号について、推定されるマスキング(またはシェーピング)フィルタ

は、正弦波間の遷移と、アタックとで急激に変化し、再導入される量子化ノイズは、しばしば非常に高くなる。

ノイズフィードバックで観察される安定性および飽和の問題は、ADPCM符号化で特に重大である。実際に、G.722で実施されるようなADPCM符号化は、符号化パラメータ(量子化間隔、予測係数)の順次適応に依存する。この適応は、適応化フィルタ処理のLMS(「最小二乗平均」を表す)アルゴリズムと類似した原理によって1サンプルずつ行われ、これによって、適応は、符号化すべき信号の非定常特性にすぐには従わないことを意味する。特定の信号では、ADPCM符号化単独(ノイズフィードバックなし)での適応は、適応が再収束前に一定時間後に発散するという意味で、ドロップアウトする(「ミストラッキングする」)可能性があることが知られている。

図4に戻ると、符号化すべき信号s(n)は、信号s'(n)を形成するように、再導入されるノイズd(n)によって変更されるため、問題のある信号では、ノイズフィードバックは、ADPCM符号化の適応を乱す可能性がある。

再導入されるノイズd(n)が信号s(n)のレベルと同様のレベルである場合(これはしばしば、大きいスペクトルダイナミックレンジの固定シーケンス間の高速遷移の場合である)、ADPCMコーダの入力での信号s'(n)は、信号s(n)およびd(n)が同位相であるかまたは位相を異にしているかに応じて、非常に「不安定」になる可能性がある。さらに、ADPCM符号化がドロップアウトする(「ミストラッキングする」)適応を行う場合、ノイズフィードバックは、ドロップアウトの期間および大きさを増幅させる。

この現象の原因を示すために、知覚信号対ノイズ比RSB_P(符号化ノイズをマスキングすることを目的とするノイズフィードバックの効果を含むため知覚的な)

を演算することができる。

を示すことができ、ここで、G_MICDAはADPCMコーダの予測ゲインであり、RSB_QはADPCM量子化器の信号対ノイズ比(5ビットラプラス量子化器に関して約24dB)であり、E_Dはマスキングフィルタのインパルス応答f_D(n)のエネルギーである。

この式によれば、ゲインG_ADPCMがより低くなるおよび/またはエネルギーE_Dがより高くなると、RSB_Pはより低くなることがわかる。ゲインG_ADPCMが非常に低くなるため(第1の純粋な正弦波に適応するADPCM符号化は、第2の純粋な正弦波に再適応する前に特定の時間を要する)、これらの2つの条件(低いG_ADPCMおよび高いE_D)の両方は、純粋な正弦波の2つのシーケンス間の遷移の状況で持続し、正弦波は非常に共鳴する再導入フィルタを与えるため、E_Dは高い。この場合、ADPCMコーダは不安定になるか、不安定に近くなる。

このような不安定および飽和現象は、可聴アーティファクト(例えば、時間において局在的な振幅スパイク)を生成するおそれがあるため、または、実際には、信号の時間的レベルの完全な飽和の場合に「音響衝撃(acoustic shock)」を生成するおそれがあるため、許容され得ない。

X.Maitre、「7kHz audio coding within 64kbit/s」、IEEE Journal on Selected Areas in Communication、第6-2巻、1988年2月 ITU-T G.711.1勧告、「Wideband embedded extension for G.711 pulse code modulation」 Y. Hiwasaki、S. Sasaki、H. Ohmuro、T. Mori、J. Seong、M. S. Lee、B. Kovesi、S. Ragot、J.-L. Garcia、C. Marro、L. M.、J. Xu、V. Malenovsky、J. Lapierre、R. Lefebvre、「G.711.1: A wideband extension to ITU-T G.711」、EUSIPCO、Lausanne、2008年 J. D. MarkelおよびA. H. Gray「Linear Prediction of Speech」、Springer-verlag、1976年 PaezおよびGlisson「Minimum Mean-Squared-Error Quantization in Speech PCM and DPCM Systems」the IEEE review Trans.、1972年4月のCommunications、225〜230頁

したがって、特に、種々の周波数の純粋な正弦波の列のような問題のある信号に関して、フィードバックを伴う符号化構造での不安定および飽和現象を未然に防ぎ、制御する必要性が存在する。

本発明は、飽和を改善する。

この目的のため、ディジタルオーディオ入力信号のADPCM方式符号化中における符号化ノイズのシェーピングを制御する方法を提案し、ノイズシェーピングは、ノイズのフィルタ処理を含むフィードバックの実施によって実行される。方法は、
フィードバックの不安定性のリスクを示す、信号の大スペクトルダイナミックレンジを示すパラメータを得るステップと、
指示パラメータを少なくとも1つの所定のしきい値と比較することによって不安定性のリスクを検出するステップと、
不安定性のリスクが検出された場合にフィードバックを制限するステップと、
フィードバックが制限されている現在のフレーム以降の所定の数のフレームの間のフィードバックを順次再有効化するステップとを備えるようなものである。

このように、方法は、フィードバックで不安定性の現象を生じさせるリスクを冒している潜在的に問題のある信号の高速且つ効果的な検出を行うことを可能にする。このように、この現象は、フィードバックの制限がこれらのリスクのある信号の出現時に実行されるため、回避される。この制限は、このフィードバックの完全な無効化からさえ成りうる。

したがって、方法は、厄介な現象の出現への予防作用を有する。フィードバックループの再有効化は、その後、符号化信号の過度に急激な変動を生じさせないように、順次行われる。

特定の実施形態では、信号の大きいスペクトルダイナミックレンジを示すためのパラメータは、入力信号の線形予測分析から生じる第2の反射係数か、復号化信号の線形予測分析から生じる第2の反射係数である。

このように、このパラメータは、リスクのある信号を非常に代表し、したがって、フィードバックの不安定性のリスクを示す。このパラメータは、特にノイズシェーピングフィルタを演算するために行われる線形予測分析中に得られる。したがって、フィードバックを制御するためにここでそれを再利用するのが有利である。

他の実施形態では、信号の大きいスペクトルダイナミックレンジを示すためのパラメータは、入力信号とノイズとの間の信号対ノイズ比である。

このパラメータは、正弦波を示す信号だけでなく、任意のタイプのリスクのある信号に対するフィードバックの不安定性のリスクを測定することを可能にする。

可能な実施形態では、フィードバックの制限は、ノイズフィルタリングパラメータに用いられる重み付け係数にゼロを設定することによって実行される。

これは、ノイズシェーピングフィルタの作用をキャンセルし、したがって簡単な方法でフィードバックを無効化することになる。

変形実施形態では、フィードバックの制限は、ノイズフィルタリングの出力でゼロ値のゲインを適用することによって実行される。

このように、フィルタは不変のままであるが、その作用は、このゲインの適用によって出力においてキャンセルされる。これは、フィルタの演算を変更することなく、フィードバックを無効化することを可能にする。

簡単な方法で、フィードバックの順次再有効化は、重み付け係数をフィルタリングパラメータに適用することによって実行され、フィードバックループの無効化が重み付け係数にゼロを設定することによって実行される場合、重み付け係数は、所定の数のフレームにわたる増加によって規定される。

フィードバックループの無効化が、ノイズフィルタリングの出力でゼロ値のゲインを適用することによって実行される場合、フィードバックの順次再有効化は、所定の数のフレームにわたって、ノイズフィルタリングの出力で増加するゲイン値を適用することによって実行される。

方法は、階層型のコーダの場合に有利に適合し、階層符号化のコア符号化中および改善符号化中に一度に且つ同時に実施することができる。

このように、不安定性の問題はコア符号化中に回避されるだけでなく、改善符号化中にも回避されるが、符号化の複雑さが比例して増加することはない。

本発明は、ノイズフィルタリングモジュールを含む、符号化ノイズをシェーピングするためのフィードバックを含むディジタルオーディオ信号ADPCM方式コーダにも関する。コーダは、
フィードバックの不安定性のリスクを示す、信号の大スペクトルダイナミックレンジを示すパラメータを得る手段と、
指示パラメータを少なくとも1つの所定のしきい値と比較することによって不安定性のリスクを検出する手段と、
不安定性のリスクが検出された場合にフィードバックを制限する手段と、
フィードバックが制限されている現在のフレーム以降の所定の数のフレームの間のフィードバックを順次再有効化する手段とを含むノイズシェーピング制御モジュールを備えるようなものである。

本発明は、プロセッサによって実行される場合に本発明による制御方法のステップを実施するためのコード命令を備えるコンピュータプログラムにも関する。

本発明は、最後に、上述したようなコンピュータプログラムを格納する、プロセッサによって読み取り可能な記録手段に関する。

本発明の他の特徴および利点は、単に限定的でない例として与えられる、添付図面を参照する以下の説明を読むことにより、より明瞭に明らかとなる。

従来技術による、および先に説明されたような、エンベデッド符号ADPCM方式のコーダを示す図である。従来技術による、および先に説明されたような、エンベデッド符号ADPCM方式のデコーダを示す図である。従来技術による、および先に説明されたような、標準化されたG.711.1タイプのコーダに用いられるノイズシェーピングを示す図である。従来技術による、および先に説明されたような、PCM/ADPCMコーダの場合の典型的なノイズシェーピングを示す図である。本発明によるノイズシェーピング制御モジュールを備える改善層を有するPCM/ADPCM方式のコーダの一実施形態を示す図である。本発明によるノイズシェーピング制御モジュールを備えるコーダの変形実施形態を示す図である。本発明によるノイズシェーピング制御方法の一実施形態のステップを表すフローチャートを示す図である。本発明によるノイズシェーピング制御方法の変形実施形態のステップを表すフローチャートを示す図である。改善層を有するPCM/ADPCM方式の第2の典型的なコーダのための、本発明によるノイズシェーピング制御方法およびモジュールの変形実施形態を示す図である。本発明によるコーダの可能な実施形態を表す図である。

図5を参照して、本発明を組み込むエンベデッド符号コーダをここで説明する。

このコーダは、8kHzで標本化され、5msのフレームを有する信号で動作する。このコーダは、ノイズフィードバック(ステップ606、604、605)によって実施される符号化ノイズシェーピングを備える。ノイズフィードバックは、ここでは、ノイズを得るステップ(606)、ノイズをフィルタリングするステップ(604)および信号を変更するステップ(605)を意味することが意図される。ここで、フィードバックによって変更される信号は入力信号s(n)であるが、ADPCM符号化の場合の等価の方法では、他の信号が符号化ステップ(601)の前に変更されてよく、例えば、フィードバックによって変更される信号は、入力信号s(n)と、ADPCMスカラ量子化を用いる前にADPCM符号化によって予測される信号との間の差であってもよい。

ここで説明する例では、符号化は、追加のサンプルあたり1ビットを与える改善ステージで実行される。この選択は、ここでは、コーダの表現を簡単にするために採用される。しかしながら、以下に説明される本発明は、改善ステージがサンプルあたり1より多いビットを与えるより一般的な場合に適合することは明らかである。

さらに、「コアコーダ」という用語は、本明細書では広い意味で使用される。したがって、例えばITU-T G.722の56または64kbit/sのような既存のマルチビットレートコーダが、「コアコーダ」であるとみなされてもよい。

このコーダは、例えば、標準化されたG.722またはG.727コーダのようなADPCM符号化のタイプの、あるいは標準化されたG.711コーダのようなPCM(「パルス符号変調」を表す)のタイプの、B+k-1ビットの量子化(ブロック601)を伴うコアビットレート符号化ステージ603を備える。

このコア符号化ステージは、ローカル復号化モジュール(ブロック602)を備える。

コアビットレートコーダは、図4を参照して説明したものと同様のノイズシェーピングフィードバックループを備える。したがって、符号化ノイズは、演算され(ブロック606)、フィルタリングされ(ブロック604)、再導入される(ブロック605)。

コーダは、1サンプルあたりB+k-1ビットのビットレートから1サンプルあたりB+kビットのビットレートに変化するために、1サンプルあたり1ビットを与える改善ステージ613も備える。

コア符号化ステージ単独で、以後説明されるノイズシェーピング制御の方法を実施することができるため、この改善ステージは、本発明の実施に関して任意である。

この改善ステージは、量子化器(610)およびローカルデコーダ(ブロック611)を使用し、コアコーダと同じマスキングフィルタ

を使用するノイズのシェーピングを行う。

したがって、コアコーダおよび改善ステージは、その係数がブロック600によって演算される同じノイズシェーピングフィルタ

に依存する。

図6は、図5と等価の解決法を与えるが、フィルタリング部分については別の解釈を与える。予測

を使用する代わりに、フィルタ

(モジュール614および615)を使用し、これらのフィルタの入力(それぞれs_c(n)およびt_c(n))は、それぞれブロック616および617によって以下のように作成される。
s_c(n')=t(n) n'=n-n_D,...,n-1
s_c(n')=s(n') n'=n
および

ブロック600は、本発明によるノイズシェーピング制御モジュールを表す。

本例では、制御モジュール600は、とりわけ、図7を参照して後に説明するように、入力信号s(n)に基づいてマスキングフィルタの係数の演算を実行する。マスキングフィルタの係数のこの演算は、図3を参照して説明したG.711.1コーダの場合のように、復号化信号に基づいて実行することもできる。

このモジュールは、特に、フィードバックの不安定性のリスクを示すパラメータを得るための手段を備える。このパラメータを得るいくつかの例は、後に説明される。

このモジュールは、さらに、例えば、得られたパラメータと所定のしきい値との比較を実行する比較器の形態の、フィードバックの不安定性のリスクを検出する手段を備える。

モジュールは、例えば、後に説明するように、ゲインまたは重み付け係数を0または低い値に設定することによって、フィードバックを制限する手段を備える。

モジュールは、さらに、フィードバックが制限されている現在のフレームに続く所定の数のフレームにわたってフィードバックを順次再有効化する手段を備える。順次再有効化のこれらの手段は、例えば、所定の数のフレームと連係して重み付けまたはゲインの値を順次増加させる手段である。

この制御モジュールは、図7を参照してここで説明する実施形態では、フローチャートの方式で表されるノイズシェーピング制御方法を実施する。

この実施形態では、ステップ701から704は任意であり、必ずしも本発明による制御方法の一部を形成するものではない。

ここで、Mは、ノイズシェーピングに使用される線形予測次数であり、その代表的な値はM=4である。

このように、ステップ701では、信号s(n)の自己相関r(k)、k=0,...,M(Mは線形予測次数)の演算が実行される。これらの自己相関は、方法の性質を変えることなく、G.711.1でのように復号化信号

に基づいて演算することもできることに留意されたい。

したがって、信号s(n)は、最初に、
S^pre(n)=s(n)-β_es(n-1)
を得るために、(1-β_ez^-1)のタイプのフィルタによって予め強調され、ここで、β_eは、G.711.1でのように、以下の式、
β_e=1-0.007813c_zcl
にしたがって演算され、ここで、c_zclはゼロ交差の数である。

その後、次数M=4の線形予測フィルタ(LPC)が、1フレームあたり(5msごとに)1回推定される。したがって、予め強調された信号s^pre(n)は、

を得るために、現在のフレームの開始を中心に80サンプル(10ms)の非対称でハイブリッドの余弦ハミング窓によって重み付けされる。その後、自己相関は、式、

にしたがって演算される。

このようにして得られた相関は、G.711.1でのように、40dBのノイズフロアを表す1/1.0001の補正係数を含む120Hzの帯域拡張によりr'(k)で変更され、

となり、ここで、

であり、f₀=120Hzおよびf_s=8000Hzである。

ステップ701では、

によって定義される、G.711.1でのような固定小数点算術表現でバイナリシフトの数を計数する正規化係数も演算され、ここで、

は、最も近い整数への切り捨てを表す。

ステップ702は、ITU-T勧告G.711.1に記載されるレビンソン-ダービンアルゴリズムに対応し、結果として、
予測係数a_i, i=0...Mと、
線形予測フィルタのトレリス実装に関連付けられる反射係数k_i, i=1,...,Mとを与える。

レビンソン-ダービンアルゴリズムは、そのステップが以下
繰り返し数i=1、

および

、
演算

、
固定

、
演算

、
i=Mまでiを1だけ増分し、ステップ2に戻る、
のように呼び戻される再帰アルゴリズムである。

結果は、線形予測器A(z)=1+a₁z^-1+a₂z^-2+a₃z^-3+a₄z^-4の係数である

によって、且つ、J. D. MarkelおよびA. H. Gray「Linear Prediction of Speech」、Springer-verlag、1976年による参照で説明されるようなフィルタA(z)のトレリス実装に対応する反射係数k_iによって与えられる。

反射係数k₁は、線形予測によってモデル化される信号の短期スペクトルの「傾斜」を表し、反射係数k₂は、レビンソン-ダービンアルゴリズムの2回目の繰り返しで見られる2次の線形予測の品質係数(共鳴の程度)に関連付けられるため、信号のスペクトルダイナミックレンジの指標である。

ここに示す例では、この反射係数k₂は、図7を参照して示すようなフィードバックの不安定性のリスクを示すパラメータを構成する。

ここで、係数k₂は、非常に大きい過電圧を有する信号、特に正弦波の検出を可能にすることが示される。

先に説明したように、大きい過電圧を有する信号、特に正弦波は、検出されるべき(ノイズフィードバックに関して)リスクのある信号である。これらのリスクのある信号の検出は、重み付けフィルタ

が演算される際に基づくフィルタA(z)を演算するために使用されるレビンソン-ダービンアルゴリズムの出力で第2の偏相関係数を検査することによって行われてもよい。

我々は、第2の偏相関係数を、過電圧をその周波数のレベルで所有するサンプリング周波数1/Tの角周波数

の正弦波s(n)=cos(nωT)に関するレビンソン-ダービンアルゴリズムによって演算するものとする。その相関関数は

に等しくなる。

アルゴリズムの第1のステップは、
k₁=-cos(ωT)

を与える。

そして第2のステップは、
k₂=1

E¹=0
を与える。

予測エラーがゼロのとき、正弦波は2つのサンプルに基づいて予測可能であり、
x(n)=2cos(ωT)x(n-1)-x(n-2)
となる。

予測器の演算前の相関関数の種々の減衰のため、過電圧係数はその理想値に等しくない。3000Hzの正弦波の場合、k₂=0.97が一般的に見られる。したがって、実施される解決法は、一般的に0.95のしきい値より大きい偏相関係数k₂を与える大きい過電圧を有する信号を検出することにある。

ステップ703は、正規化係数ηが限界値(MAXNORM=16)を越えるか否かを確認し、これによって、G.711.1でのように低レベルの信号(無音または非常に低い信号)を検出することを可能にする。この正規化係数が所定のしきい値を超える場合、すなわちη≧MAXNORMの場合、線形予測係数a_i, i=0,...,Mは減衰され(ステップ704)、これは、ノイズマスキング(またはシェーピング)フィルタの効果を減少させることになる。

この場合、マスクフィルタW(z)-1は、以下の式

にしたがってステップ704で得られる係数a_i, i=0,...,Mを使用することによって得られる。

逆の場合では、ノイズシェーピングフィルタは、式

にしたがって規定される。

減衰係数γの値は、メモリに保持され、各フレームの処理の開始時に引き出されるとする。メモリに保持されるこの値は、γ_memで示される。この引き出し動作は、ステップ711で実行される。

低レベルの信号(η≧MAXNORM)が検出されるフレームでは、ステップ712で、パラメータγ_memが、例えばGAMMA₁=0.92に等しい値に再初期化される。

ノイズシェーピング制御方法は、指示パラメータを少なくとも1つの所定のしきい値と比較することによって、不安定性のリスクを検出するステップ705を備える。

いくつかの技術が、正弦波のような大きいスペクトルダイナミックレンジを有する信号を検出するために存在する。ここで説明するように、反射係数k₂による線形予測分析が展開される場合、上述したように第2の反射係数を再利用するのが有利である。

この典型的な実施では、ステップ705は、第2の反射係数が所定の値、ここでは0.95(k₂>0.95)を超えるか否かを確認することから成る。このテストは、大きいスペクトルダイナミックレンジを有する信号を検出することを可能にし、特に、(強い振幅変調はせず、比較的一定の振幅の)純粋な正弦波を検出することを可能にする。

テストが肯定的であることがわかる場合、このフィードバックの不安定のリスクが実証されるため、フィードバックを制限するステップが実行される。

可能な制限は、例えば、ステップ706での、係数γを0に固定することによるフィードバックの無効化である。

変形では、係数γは、非常に低いがゼロではない値、例えば0.001に固定される。この変形は、フィードバックの完全な無効化には対応しないが、フィードバックの制限には対応し、これは同じ効果(不安定または飽和を回避する)を与える。

等価な方法では、γ=0の場合のフレームでは、図5および6で、s'(n)=s(n)に固定することが可能であり、これは、信号s(n)にどのようなノイズも導入しないことになる。

線形予測係数a_i, i=0,...,Mは、

の係数を演算するために、ステップ707でγによって重み付けされる。

メモリに保持される値γ_memは、その後、ステップ708で次のフレームのために更新される。この値は、最初に、例えばGAMMA₁=0.92の場合の

によってγを増分することによって演算され、結果は、ステップ709および710でGAMMA₁で飽和される。4による除算は、4フレーム後にGAMMA₁の値を引き出すことを可能にする。

706でγが非常に低い値に固定される場合(GAMMA₀=0.001)、γを

の値によって増分することができる。

この典型的な場合は、4に等しい所定の数のフレームについて説明されるが、このステップは、4より大きいまたは小さい数のフレームでまったく明らかに実行されてもよい。同様に、増分値は異なってもよく、増分は、非線形的に分配された間隔で実行されてもよい。

これらのステップ708から710は、フィードバックが制限されている現在のフレームに続く所定の数のフレーム(ここでは4フレーム)にわたってフィードバックの順次再有効化を実行することになる。

したがって、本発明によるノイズシェーピング制御方法は、本実施形態で第2の反射係数に行われるテストによって不安定または飽和を引き起こしそうな問題のある信号を検出し、このテストが肯定的な場合はすぐにノイズフィードバックを制限することから成る。肯定的な検出後、γの値は、その「通常」値GAMMA₁まで、順次(ここで説明される例では4フレーム後に)増加される。γの現在の値は、このパラメータの値をあるフレームから次のフレームに渡すために、γ_mem中に複製される。

いくつかのフレームにわたるγの連続的な増分は、ノイズフィードバックを順次復元し、ループ化システムが、信号の「ローカル」統計の突然の変動を引き起こす可能性があるあまりに突然なフィードバックの再有効化に続いて発散するのを防ぐことを可能にする。

ノイズシェーピング制御方法の変形実施形態では、不安定性のリスクを示すパラメータが異なる。

例えば、スペクトルの平坦さの測定は、LPCウィンドウによってウィンドウ処理された短期信号に基づいて演算されるパワースペクトルのスペクトル線の算術平均と幾何平均との比を演算することによって実行される。この測定は、1本のラインのみを含むスペクトル(純粋な正弦波)に対して非常に大きい値になる傾向がある。

この変形実施形態では、ステップ705で大きいダイナミックレンジの信号を検出することを可能にする検出しきい値は、状況(context)(フレーム長、ウィンドウなど)に依存する。しかしながら、この変形は、短期的な時間-周波数変換(フーリエ型の)を演算するステップと、先に説明された測定を演算するステップとを含む。

他の変形実施形態では、大きいダイナミックレンジを有する信号を経験的に検出する努力はなされず、ノンパラメトリックで後天的な方法で、フィードバックの不安定性を生じさせる問題のある信号を検出する。この実施形態では、不安定性のリスクパラメータは、図5および6で定義される、入力信号s(n)と符号化ノイズt(n)との間の瞬間的な信号対ノイズ比である。ステップ705での問題のある信号の検出は、例えばこの比が5dBを下回るとすぐに、信号対ノイズ比のしきい値を固定することによって行われる。この実施形態では、明確に定義される信号対ノイズ比を演算できるようにするために、入力信号とノイズとの平均を演算する必要がある。

しかしながら、この方式の後天的な検出は、しばしば、不安定性の問題または飽和の問題がすでにある程度観察可能である場合を生じる。さらに、この変形は、かなり高い誤警報率を有する欠点を示す。

フィードバックの不安定性のリスクを示すパラメータを得るための、および、不安定性のリスクの検出のための他の実施形態が図8に示される。

このアルゴリズムは、ステップ702が802になり、705が805になったことのみが、図7を参照して説明されたアルゴリズムと異なる。

実際に、ステップ802では、図7を参照して説明したように得られる線形予測器の係数a_i, i=0,...,Mおよび反射係数k_i, i=1,...,Mだけでなく、現在のフレームのマスキングフィルタE_Dのエネルギーも、以下の、

のように得られ、これはレビンソン-ダービンアルゴリズムの出力での予測ゲインによって近似されてもよい。E^[M]は

によって除算される。

実際は、マスキングフィルタは

に等しく、そのエネルギーを演算するために、

から開始するより低次の連続する予測器と、偏相関係数とを再演算するアルゴリズムを使用することが適切である。

702で演算される結果として生じるフィルタのエネルギーE_Dは、

によって与えられる。

不安定性のリスクを示すパラメータは、その後、

によって与えられる。G_ADPCMにより、ADPCMコーダの予測ゲインは前のフレームで予測する。これは、入力信号

のエネルギーに関して、おそらくフィルタリングされた、量子化器の飽和しきい値V(n)²の商によって近似される。

不安定のリスクを検出するステップ805は、その後、指示パラメータ

をリスクの程度を調節する係数k_RSBを乗算したADPCM量子化器の信号対ノイズ比としてここでは定義されるしきい値(k_RSBRSB_Q)と比較することによって実行される。

RSB_Qは、実際には、ADPCM量子化器の信号対ノイズ比である(5ビットラプラス量子化器に関して、24dBのオーダの1/0.00414≒241)。種々のビット数およびラプラス確率密度に対するRSB_Qの値は、Paez および Glissonによる文献「Minimum Mean-Squared-Error Quantization in Speech PCM and DPCM Systems」the IEEE review Trans.、1972年4月のCommunications、225〜230頁のTable IIに与えられる。

フィードバックを制限するステップ706は、種々の方法で行うことができる。

別の実施形態では、ノイズフィードバックは、係数γを0に設定することによってではなく、ゼロ値のスケールファクタ(またはゲイン)gをフィルタW(z)-1の出力に適用することによって無効化される。

この実施形態は、図9を参照して示される。

この図は、同じ要素を有する、図5に示されるような階層的コーダを示す。唯一の違いは、ノイズシェーピングのための制御モジュール900から始まり、制御モジュール900は、913でコア符号化のためにフィルタリングモジュール604の出力として、且つ、914で改善符号化のためのフィルタリングモジュール608の出力として、0に設定されている場合にフィードバックを無効化するゲインgを供給する。

係数gは、値が図7のステップ711でメモリγ_mem内に配置されるパラメータγについてと同じ方法でg_memに格納される。

ブロック900で、フィルタW(z)-1の係数の演算は、したがって、η<MAXNORMの場合に我々がγ=GAMMA₁=0.92に固定したことを除いて、ブロック600と同様である。ブロック900は、さらに、k₂の関数として現在のフレームに適用可能なゲインgの値を提供し、k₂>0.95の場合、g=0である。

代わりに、ゲインgは、非常に低いがゼロではない値、例えば0.001に固定される。この変形は、フィードバックの完全な無効化には対応しないが、フィードバックの制限に対応する。

ノイズフィードバックの順次復旧は、この変形では、gの値を0から1へ順次変化させることによって行われる。例えば、k₂>0.95の検出に続くk₂≦0.95のフレームでは、後続のフレームでgの値を0.25、0.5、0.75および1に固定することができる。

これらの値は、gに与えられる制限値(例えば、不安定性のリスクが検出された場合、g=0.001)にしたがってまったく明らかに適応されてもよい。

さらに、703で低レベルの信号が検出される(η≧MAXNORM)フレームでは、ゲインg_memは、γの値を復元する図7のステップ712と同様に、値1に復元される。

本発明によるコーダ1000の例示的な実施形態を、ここで図10を参照して説明する。

ハードウェアに関して、本発明の意味の範囲内で図5、6および9の実施形態によって説明されたようなコーダは、典型的に、記録および/または作業メモリを含むメモリブロックBMと協働するプロセッサμPと、例えば不安定性検出しきい値の値、または、図5、6、7、8および9を参照して説明したようなノイズシェーピング制御方法の実施に必要なすべての他のデータを格納するための手段の形の上述したバッファメモリMEMとを備える。このコーダは、入力としてディジタル信号s(n)を受信し、多重化された量子化インデックスI^B+Kを供給する。

メモリブロックBMは、コーダのプロセッサμPによって実行されたときに本発明による方法のステップ、特に、フィードバックの不安定性のリスクを示すパラメータを得るステップと、指示パラメータを少なくとも1つの所定のしきい値と比較することによって不安定性のリスクを検出するステップと、不安定性のリスクが検出された場合にフィードバックを制限するステップと、フィードバックが制限されている現在のフレームに続く所定の数のフレームにわたってフィードバックを順次再有効化するステップとを実施するためのコード命令を含むコンピュータプログラムを備えることができる。

より一般的な方法では、コンピュータまたはプロセッサによって読み取り可能で、コーダ内に任意に組み込まれ、あるいは取り外し可能な記録手段が、本発明によるノイズシェーピング制御方法を実施するコンピュータプログラムを格納する。

例えば、図7および8は、このようなコンピュータプログラムのアルゴリズムを示すことができる。

110 予測モジュール
120 減算モジュール
121 逆量子化モジュール
130 量子化モジュール
140 伝送チャネル
150 低次ビットを除去するためのモジュール
155 低ビットレートローカルデコーダ
165 予測器
170 レベル制御パラメータv(n)を与えるためのモジュール
175 予測器
180 加算モジュール
190 予測モジュールを適応させるためのモジュール
210 逆量子化モジュール
220 セレクタ
230 逆量子化器
240 逆量子化器
255 低ビットレートローカルデコーダ
301 ブロック
303 ブロック
305 ブロック
308 ブロック
309 ブロック
500 ブロック
502 PCM/ADPCM符号化ブロック
503 ローカルデコーダ
504 ブロック
505 ブロック
600 ブロック
601 ブロック
602 ローカル復号化モジュール
603 コアビットレート符号化ステージ
604 ブロック
605 ブロック
606 ブロック
608 フィルタリングモジュール
610 量子化器
611 ブロック
613 改善ステージ
615 モジュール
617 ブロック
900 制御モジュール
1000 コーダ

Claims

ディジタルオーディオ入力信号のADPCM方式符号化中における符号化ノイズのシェーピングを制御する方法であって、前記ノイズシェーピングは、前記ノイズのフィルタリングを含むフィードバックの実施によって実行される、方法において、
前記入力信号の線形予測分析から生じる第2の反射係数を得るステップであって、前記第2の反射係数であるパラメータは、前記信号の大きいスペクトルダイナミックレンジと前記フィードバックの不安定性のリスクを示す、得るステップ(702)と、
前記第2の反射係数を少なくとも1つの所定のしきい値と比較することによって不安定性のリスクを検出するステップ(705)と、
不安定性のリスクが検出された場合に前記フィードバックを無効化するステップ(706)と、
前記フィードバックが無効化されている現在のフレームに続く所定の数のフレームにわたって、前記フィードバックを順次再有効化するステップ(708、709、710)と
を備えることを特徴とする方法。
前記フィードバックの無効化は、ノイズフィルタリングパラメータ(604)に適用される重み付け係数をゼロに設定することによって実行されることを特徴とする、請求項1に記載の方法。
前記フィードバックの前記無効化は、前記ノイズフィルタリングの出力にゼロ値のゲインを適用することによって実行されることを特徴とする、請求項1に記載の方法。
前記フィードバックの順次再有効化は、前記フィルタリングパラメータに重み付け係数を適応することによって実行され、前記重み付け係数は、前記所定の数のフレームにわたる増分によって規定されることを特徴とする、請求項2に記載の方法。
前記フィードバックの順次再有効化は、前記所定の数のフレームにわたって前記ノイズフィルタリングの出力に増加するゲイン値を適用することによって実行されることを特徴とする、請求項3に記載の方法。
前記方法の前記ステップが、階層的符号化のコア符号化および改善符号化の両方の符号化中で実施されることを特徴とする、請求項1に記載の方法。
ノイズフィルタリングモジュールを含む符号化ノイズをシェーピングするためのフィードバックを備えるディジタルオーディオ信号ADPCM方式コーダであって、
前記ディジタルオーディオ信号の線形予測分析から生じる第2の反射係数を得るステップであって、前記第2の反射係数であるパラメータは、前記信号の大きいスペクトルダイナミックレンジと前記フィードバックの不安定性のリスクを示す、パラメータを得る手段と、
前記第2の反射係数を少なくとも1つの所定のしきい値と比較することによって不安定性のリスクを検出する手段と、
前記不安定性のリスクが検出された場合に前記フィードバックを無効化する手段と、
前記フィードバックが無効化されている現在のフレームに続く所定の数のフレームにわたって、前記フィードバックを順次再有効化する手段と
を含むノイズシェーピング制御モジュール(600、800)を備えることを特徴とする、ディジタルオーディオ信号ADPCM方式コーダ。
プロセッサによって実行された場合に請求項1から6のいずれか1項に記載の制御する方法を実施するためのコード命令を含む、コンピュータプログラム。