JP5978227B2

JP5978227B2 - 予測符号化と変換符号化を繰り返す低遅延音響符号化

Info

Publication number: JP5978227B2
Application number: JP2013545471A
Authority: JP
Inventors: ステファン・ラゴ; バラツ・コヴェシ; ピエール・ベルテ
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2010-12-23
Filing date: 2011-12-20
Publication date: 2016-08-24
Anticipated expiration: 2031-12-20
Also published as: RU2584463C2; US9218817B2; CN103384900A; RU2013134227A; EP2656343B1; KR101869395B1; JP2014505272A; BR112013016267A2; ES2529221T3; FR2969805A1; US20130289981A1; CN103384900B; BR112013016267B1; WO2012085451A1; EP2656343A1; KR20130133816A

Description

本発明はデジタル信号の符号化の分野に関する。

有利なことに、本発明は音声と音楽を交互に有する音響の符号化に適用する。

音声の音響を効率的に符号化するためには、CELP(符号励振線形予測)タイプの技法が推奨される。音楽の音響を効率的に符号化するためには、変換符号化技法が優先的に推奨される。

CELPタイプのエンコーダは予測エンコーダである。それらの目的は、声道をモデル化するための短期線形予測、有声期間で声帯の振動をモデル化するための長期予測、および、モデル化できなかった「革新」を表現するために固定辞書(ホワイトノイズ、代数励振)から取り出された励振などのさまざまな構成要素に基づいて音声の作成をモデル化することである。

最も広く使用されている変換エンコーダ(例えば、MPEG AACすなわちITU-T G.722.1 Annex Cエンコーダ)は、変換領域内で信号を圧縮するために臨界サンプリング変換を使用する。「臨界サンプリング変換」は、変換領域内の係数の数が解析される時間サンプルの数と等しい変換である。

これら2つのタイプのコンテンツを含む信号を効率的に符号化するための1つの解決策は、経時的に最良の技法を選択することにある。この解決策は、3GPP(第3世代パートナーシッププロジェクト)標準化機構によって特に推奨されており、AMR WB+と呼ばれる技法が提案された。

この技法はAMR-WBタイプの、より具体的にはACELP(「代数符号励振線形予測」)タイプのCELP技術、およびTCX(「変換符号化励振」)タイプのモデルで重複フーリエ変換に基づいた変換符号化に基づく。

ACELP符号化およびTCX符号化は、どちらも予測線形タイプの技法である。AMR-WB+コーデックは、3GPP PSS(「パケット交換ストリーミング」)、MBMS(「マルチメディアブロードキャスト/マルチキャストサービス」)、およびMMS(「マルチメディアメッセージングサービス」)のサービス用に、言い換えればアルゴリズムの遅延に強い制約条件がない、放送およびストレージのサービス用に開発されたことに留意すべきである。

この解決策は音楽の不十分な品質を抱える。この不十分さは、特に変換符号化によってもたらされる。特に、重複フーリエ変換は臨界サンプリング変換ではなく、したがって次善の策である。

さらに、このエンコーダで使用されるウィンドウはエネルギーの集中に関して最適ではなく、これらの実質的に長方形のウィンドウの周波数の形は次善の策である。

MPEG AAC(「アドバンストオーディオコーディング」)の符号化原理と組み合わされたAMR-WB+符号化の改良は、ISO/MPEGで依然開発中のMPEG USAC(「統合音声オーディオコーディング」)コーデックによって与えられる。MPEG USACが対象とする応用は会話型ではないが、アルゴリズムの遅延に強い制約条件がない放送およびストレージのサービスに対応する。

RM0(参照モデル0)と呼ばれるUSACコーデックの最初のバージョンは、M. Neuendorfらによる記事、A Novel Scheme for Low Bitrate Unified Speech and Audio Coding - MPEG RM0、2009年5月7〜10日、126th AES Conventionに記載されている。このRM0コーデックはいくつかの符号化モードを繰り返す。
・音声タイプの信号の場合:AMR-WB+符号化から取り出された以下の2つの異なるモードを含むLPD(「線形予測領域」)モード
-ACELPモード
-(AMR-WB+コーデックとは異なる)MDCTタイプの変換を使用するwLPT(「加重線形予測変換」)と呼ばれるTCXモード
・音楽タイプの信号の場合:1024サンプル上でMPEG AAC(「アドバンストオーディオコーディング」)タイプのMDCT(「修正ディスクリートコサイン変換」)変換符号化を使用するFD(「周波数領域」)モード

AMR-WB+コーデックと比べて、モノラル部分にUSAC RM0符号化によって与えられるさまざまな主要な要素は、変換符号化用のMDCTタイプの臨界デシメーション変換の使用、および代数符号化付きのスカラ量子化によるMDCTスペクトルの量子化である。さまざまなモード(LPD、FD)によって符号化された音響帯域は選択されたモードに依存し、それはACELPモードおよびTCXモードが同じ内部サンプリング周波数で動作するAMR-WB+コーデックのケースではないことに留意すべきである。さらに、USAC RM0コーデックでのモードに関する決定は、1024サンプルの各フレームについて開ループで実行される。閉ループの決定は、さまざまな符号化モードを並行して実行することにより、かつ既定の基準に従って最良の結果をもたらすモードを帰納的に選ぶことによって行われることに留意されたい。開ループ決定の場合、決定は、利用可能なデータおよび観測結果の関数として、しかしこの決定が最適か否かをテストせずに、先験的に採用される。

USACコーデックでは、LPDモードとFDモードの間の遷移は、切り換えの障害がない十分な品質を保証するために非常に重要であり、各モード(ACELP、TCX、FD)が特有の(人為要素の用語で)「署名」をもつこと、ならびにFDモードとLPDモードが異なる種類-FDモードは信号の領域内の変換符号化に基づき、LPDモードは正しく管理されているフィルタメモリで知覚的に重み付けされた分野で予測線形符号化を使用する-であることを知る。USAC RM0コーデックでのモード間の管理は、J. Lecomteらによる記事、「Efficient cross-fade windows for transitions between LPC-based and non-LPC based audio coding」、2009年5月7〜10日、126th AES Conventionで詳細に説明されている。この記事で説明されたように、主な困難は、LPDモードからFDモードへの遷移、および逆の遷移に存在する。ここで保持されていることのすべてはACELPからFDへの遷移のケースである。

動作を完全に理解するために、ここで通常の例示的な実施形態を介したMDCT変換符号化の原理の要約を示す。

エンコーダで、MDCT変換は以下の3ステップに分割される。
・この場合「MDCTウィンドウ」と呼ばれる2Mの長さをもつウィンドウによる信号の重み付け
・長さMのブロックを形成するための時間領域エイリアシング
・長さMのDCT(「ディスクリートコサイン変換」)変換

MDCTウィンドウは、「クォート」と呼ばれる、等しい長さM/2の4つの隣接する部分に分割される。

信号は解析ウィンドウによって乗算され、次いで、エイリアシングが実行される。(ウィンドウ化された)最初のクォートが2番目のクォートにエイリアスされ(すなわち時間で反転され、重複するようにされ)、4番目のクォートが3番目のクォートにエイリアスされる。

より正確には、1つのクォートの別のクォートへのエイリアスは、以下の方式で実行される。最初のクォートの最初のサンプルが2番目のクォートの最後のサンプルに加算され(または2番目のクォートの最後のサンプルから減算され)、最初のクォートの2番目のサンプルが2番目のクォートの最後から2番目のサンプルに加算され(または2番目のクォートの最後から2番目のサンプルから減算され)、2番目のクォートの最初のサンプルに加算される(または2番目のクォートの最初のサンプルから減算される)最初のクォートの最後のサンプルまで続く。

したがって、これにより、4つのクォートに基づいて、各サンプルが符号化されるべき信号の2つのサンプルの線形結合の結果である2つのエイリアスクォートが与えられる。この線形結合は時間領域エイリアシングと呼ばれる。

次いで、これら2つのエイリアスクォートは、DCT変換の後一緒に符号化される。次に続くフレームの場合、ウィンドウの半分のオフセット(50%の重複)が存在し、次いで、先行するフレームの3番目および4番目のクォートは、現在のフレームの最初および2番目のクォートになる。エイリアシングの後、同じサンプルのペアの第2の線形結合は、先行するフレームとして送信されるが、異なる重みをもつ。

デコーダで、逆DCT変換の後、これらのエイリアス信号の復号バージョンが次いで取得される。2つの連続するフレームは、同じクォートの2つの異なるエイリアシングの結果を含む。すなわち、サンプルのペアのそれぞれについて、異なるが既知の重みをもつ2つの線形結合の結果が存在する。その結果、方程式体系は、入力信号の復号バージョンを取得するために解かれる。その結果、時間領域エイリアシングは、2つの連続する復号フレームを使用することによって取り除くことができる。

言及された方程式体系の解答は、通常、アンチエイリアシング、注意深く選ばれた合成ウィンドウによる乗算、および、次いで共通部分の加算重複によって実行される。同時にこの加算重複により、2つの連続する復号フレーム間の(量子化エラーに起因する中断のない)ソフト遷移が起こり、具体的には、この動作はクロスフェードのように振る舞う。最初のクォートまたは4番目のクォートのためウィンドウが各サンプルについてゼロである場合、ウィンドウのこの部分で時間領域エイリアシングのないMDCT変換と呼ばれる。この場合、ソフト遷移はMDCT変換によって保証されず、例えば外部クロスフェードなどの他の手段によって実行されなければならない。

特に、時間領域が変換されるべきブロックをどのようにエイリアスするかについてのDCT変換の定義に関して、MDCT変換の変形実施形態が存在することに留意すべきである(例えば、エイリアスクォートに付けられた符号を左右に反転すること、または、2番目および3番目のクォートをそれぞれ最初および4番目のクォートにエイリアスすることは可能である、など)。これらの変形形態は、MDCT合成解析の原理を変更せず、ウィンドウ化、時間領域エイリアシングにより、次いで変換により、最終的にウィンドウ化、エイリアシング、および加算重複により、サンプルブロックが削減される。

Lecomteらによる記事に記載されたUSAC RM0エンコーダの場合、ACELP符号化によって符号化されたフレームとFD符号化によって符号化されたフレームとの間の遷移は、以下の方式で起こる。

FDモード用の遷移ウィンドウは、図1に示されたように、128サンプルの左への重複で使用される。この重複ゾーンの時間領域エイリアシングは、復元されたACELPフレームの右に「人為的な」時間領域エイリアシングを導入することによって実行される。遷移に使用されるMDCTウィンドウは2304サンプルのサイズをもち、DCT変換は1152サンプルに動作するが、通常、FDモードのフレームは、2048サンプルのサイズをもつウィンドウおよび1024サンプルのDCT変換で符号化される。したがって、通常のFDモードのMDCT変換は遷移ウィンドウで直接使用することができず、エンコーダはFDモード用の遷移の実装を複雑化するこの変換の修正版も組み込まなければならない。

これら従来技術の符号化技法、AMR-WB+またはUSACは、100から200ms程度のアルゴリズム遅延を有する。これらの遅延は、符号化遅延が通常、モバイルアプリケーション(例えば、GSM（登録商標） EFR、3GPP AMRおよびAMR-WB)用の音声エンコーダについて20〜25ms程度であり、ビデオ会議(例えば、ITU-T G.722.1 Annex C and G.719)用の会話型変換エンコーダについて40ms程度である、会話型アプリケーションと相容れない。

M. Neuendorf et al., A Novel Scheme for Low Bitrate Unified Speech and Audio Coding - MPEG RM0, 7-10 May 2009, 126th AES Convention J. Lecomte et al., "Efficient cross-fade windows for transitions between LPC-based and non-LPC based audio coding", 7-10 May 2009, 126th AES Convention

したがって、音声および音楽の同時に良好な符号化品質と、通常20msのフレームについて20から40ms程度である会話型アプリケーションと相容れるアルゴリズム遅延とをもつ、音声および音楽を交互に有する音を符号化するアプリケーション用の、予測および変換の符号化技法を繰り返す符号化に対する需要が存在する。

本発明は状況を改善する。

したがって、本発明は、
-予測符号化によりデジタル信号のサンプルの先行するフレームを符号化するステップと、
-変換符号化によりデジタル信号のサンプルの現在のフレームを符号化するステップと
を含む、デジタル音響信号を符号化するための方法を提案する。

方法は、現在のフレームの第1の部分が、先行するフレームの予測符号化の少なくとも1つのパラメータを再利用すること、および現在のフレームのこの第1の部分の再使用されていないパラメータのみを符号化することにより、先行するフレームの予測符号化に対して制限された予測符号化によって符号化されるものである。

したがって、予測タイプの符号化と変換符号化が交互になる符号化の場合、予測符号化によって符号化されたフレームおよび変換符号化によって符号化されたフレームが流れている間に、遷移フレームがこうして提供される。現在のフレームの第1の部分も予測符号化によって符号化されるという事実により、この遷移フレーム用の変換符号化のメモリが利用可能ではなく、先行するフレームが変換符号化されていないので変換符号化だけでは復元することが可能でないエイリアス期間を、復元することが可能になる。

加えて、制限された予測符号化を使用するという事実により、この部分の符号化ビットレートへの影響を限定することが可能になる。具体的には、先行するフレームの再使用されていないパラメータのみが、制限された予測符号化によって符号化される現在のフレームの一部について符号化される。

さらに、この第1の部分が遷移フレームの先頭に位置しているので、このフレーム部分の符号化により、いかなる別の遅延も誘導されない。

最後に、このタイプの符号化により、遷移フレームの符号化用またはその他の変換符号化フレームの符号化用のどちらにしろ、変換符号化用の同一の長さの重み付けウィンドウのサイズにとどまることが可能になる。符号化方法の複雑度はそれによって削減される。

下記に言及されるさまざまな特定の実施形態は、独立して、またはお互いと組み合わせて、上記に規定された方法のステップに追加することができる。

1つの特定の実施形態では、制限された予測符号化は、予測符号化の先行するフレームからコピーされた予測フィルタを使用する。

変換符号化の使用は、通常、符号化されるセグメントが実質的に固定されているときに選択される。したがって、信号のスペクトル包絡線パラメータは、フレームの一部、例えばサブフレームの継続時間の間1つのフレームから別のフレームに再使用することができ、符号化品質にかなりの影響を有することはない。したがって、先行するフレームに使用された予測フィルタの使用により、符号化品質は影響されず、そのパラメータの伝送用の別のビットなしで済ますことが可能になる。

変形実施形態では、制限された予測符号化は、予測符号化の先行するフレームのピッチおよび/またはその関連するゲインの復号された値も使用する。

これらのパラメータは、1つのフレームから別のフレームでほとんど変化しない。1つのフレームから別のフレームでこれらの同じパラメータを使用すると、符号化品質が少ししか影響されず、サブフレームの予測符号化がより簡略化される。

別の変形実施形態では、制限された予測符号化で使用される予測符号化のある特定のパラメータは、予測符号化の先行するフレームの復号されたパラメータに対して差動モードで量子化される。

したがって、これにより、遷移サブフレームの予測符号化をさらに簡略化することが可能になる。

1つの特定の実施形態によれば、方法は、現在のフレームの最初のサブフレームの予測および変換のローカルの符号化および復号から生じる復元された信号を取得するステップと、これらの復元された信号のクロスフェードによって結合するステップとを含む。

こうして、現在のフレームでの符号化遷移はソフトであり、厄介な人為要素を誘導しない。

1つの特定の実施形態によれば、復元された信号の前記クロスフェードは、変換符号化の重み付けウィンドウの形の関数として、現在のフレームの第1の部分の一部に実行される。

これにより、変換符号化のより良い適応がもたらされる。

1つの特定の実施形態によれば、復元された信号の前記クロスフェードは現在のフレームの第1の部分の一部に実行され、前記一部は時間領域エイリアシングを含まない。

これにより、現在のフレームの第1の部分の変換符号化から生じる復元された信号がいかなる時間領域エイリアシングも含まない場合、量子化エラーなしで信号の完全な復元を実行することが可能になる。

1つの特定の実施形態では、低遅延の符号化のために、変換符号化は、ウィンドウの終端と先頭でゼロの値が選ばれた数連続する重み付け係数を含む、重み付けウィンドウを使用する。

別の特定の実施形態では、低遅延符号化を向上するために、変換符号化は、ウィンドウの少なくとも1つの終端でゼロの値が選ばれた数連続する重み付け係数を含む、非対称な重み付けウィンドウを使用する。

本発明は、また、
-予測符号化によって受信および符号化されたデジタル信号のサンプルの先行するフレームを予測復号するステップと、
-変換符号化によって受信および符号化されたデジタル信号のサンプルの現在のフレームを逆変換復号するステップと
を含む、デジタル音響信号を復号する方法に関し、
方法は、現在のフレームの第1の部分の先行するフレームの予測復号に対して制限された予測復号によって復号するステップも含むものである。

復号方法は符号化方法の相手方であり、符号化方法について記載された利点と同じ利点を提供する。

したがって、1つの特定の実施形態によれば、復号方法は、先行するフレームの予測復号の少なくとも1つのパラメータを再使用すること、および現在のフレームのこの第1の部分について受信されたパラメータのみを復号することにより、逆変換、および制限された予測符号化によって受信および符号化された現在のフレームの第1の部分の少なくとも一部についての制限された予測復号によって復号された信号のクロスフェードによって結合するステップを含む。

好ましい実施形態によれば、制限された予測復号は、先行するフレームの予測復号によって復号および使用された予測フィルタを使用する。

変形実施形態では、制限された予測復号は、先行するフレームの予測復号のピッチおよび/またはその関連するゲインの復号された値も使用する。

本発明は、また、
-デジタル信号のサンプルの先行するフレームを符号化するための予測符号化モジュールと、
-デジタル信号のサンプルの現在のフレームを符号化するための変換符号化モジュールと
を含む、デジタル音響エンコーダに関する。エンコーダは、また、先行するフレームの予測符号化の少なくとも1つのパラメータを再使用すること、および現在のフレームの第1の部分の再使用されていないパラメータのみを符号化することにより、現在のフレームの第1の部分を符号化するために先行するフレームの予測符号化に対して制限された予測符号化モジュールを含む。

同様に、本発明は、
-予測符号化によって受信および符号化されたデジタル信号のサンプルの先行するフレームを復号するための予測復号モジュールと、
-変換符号化によって受信および符号化されたデジタル信号のサンプルの現在のフレームを復号するための逆変換復号モジュールと
を含む、デジタル音響信号デコーダに関する。デコーダは、また、先行するフレームの予測復号の少なくとも1つのパラメータを再使用すること、および現在のフレームのこの第1の部分について受信されたパラメータのみを復号することにより、制限された予測符号化によって受信および符号化された現在のフレームの第1の部分を復号するための、先行するフレームの予測復号に対して制限された予測復号モジュールを含むものである。

最後に、本発明は、これらの命令がプロセッサによって実行されると、上述された符号化方法および/または上述された復号方法のステップを実装するためのコード命令を含む、コンピュータプログラムに関する。

本発明は、また、エンコーダまたはデコーダに内蔵される場合もされない場合もあるプロセッサによって読むことができ、場合によってはリムーバルで、上述された符号化方法および/または復号方法を実装するコンピュータプログラムを格納する格納手段に関する。

本発明の他の特徴および利点は、以下の詳細説明および添付の図を検討すると明らかになる。

上述されたMPEG USACコーデックのCELP符号化とFD符号化の間の遷移用の従来技術の遷移ウィンドウの例を示す図である。本発明の一実施形態によるエンコーダおよび符号化方法をブロック図の形で示す図である。本発明の変換符号化で使用される重み付けウィンドウの例を示す図である。本発明によって使用される重複変換符号化を示す図である。本発明の方法の一実施形態により予測符号化で符号化されたフレームと変換符号化されたフレームの間の遷移を示す図である。本発明の方法の2つの変形実施形態により予測符号化で符号化されたフレームと変換符号化されたフレームの間の遷移を示す図である。本発明の方法の2つの変形実施形態により予測符号化で符号化されたフレームと変換符号化されたフレームの間の遷移を示す図である。本発明の方法の2つの変形実施形態により予測符号化で符号化されたフレームと変換符号化されたフレームの間の遷移を示す図である。 MDCT変換が非対称ウィンドウを使用するケースについて、本発明の方法の1つの変形実施形態により予測符号化で符号化されたフレームと変換符号化されたフレームの間の遷移を示す図である。本発明の一実施形態によるデコーダおよび復号方法を示す図である。本発明による符号化方法の主要ステップを流れ図の形で示す図である。本発明による復号方法の主要ステップを流れ図の形で示す図である。本発明によるエンコーダおよびデコーダの1つの実現可能なハードウェア実施形態を示す図である。

図2は、本発明による符号化方法が適用されたマルチモードCELP/MDCTエンコーダを表す。

この図は、各信号フレームについて実行される符号化ステップを表す。x(n')と記された入力信号は16kHzでサンプリングされ、フレーム長は20msである。本発明は、一般に、他のサンプリング周波数が使用されるケースに、例えば32kHzでサンプリングされた超広帯域信号に対して、場合によっては本発明を低帯域に適用するために2つのサブバンドに分割して適用する。この場合、フレーム長は、3GPP AMRおよびAMR-WBなどのモバイルエンコーダのフレーム長に対応するように選ばれるが、他の長さも実現可能である(例えば10ms)。

慣例により、現在のフレームのサンプルは、x(n')、n'=0,...,319に対応する。この入力信号は、周波数を50Hz以下に減衰し連続成分を除去するために、まず第一に高域通過フィルタ(ブロック200)によってフィルタリングされ、次いで、256サンプルの信号s(n)のフレームを取得するために12.8kHzの内部周波数でサブサンプリングされる(ブロック201)。デシメーションフィルタ(ブロック201)は、(通常60程度の)有限インパルス応答フィルタを用いて低遅延で作成されることが考えられる。

CELP符号化モードでは、3GPP標準TS26.190または等価なITU-TG.722.2-このアルゴリズムはAMR-WB(「適応マルチレート-広帯域」)と呼ばれる-に記載された、12.8kHzでマルチレートACELP符号化(6.6から23.05キロビット/秒)によって引き起こされたCELPエンコーダによって、本発明の好ましい実施形態により256サンプルの現在のフレームs(n)が符号化される。

信号s(n)は、最初に1-αz^-1ここでα=0.68、によって事前強調され(ブロック210)、次いで、(3GPP標準TS26.190のセクション5に記載されたように)ACELPアルゴリズムによって符号化される(ブロック211)。

20msの連続フレームは、12.8kHzで256個の時間サンプルを含む。CELP符号化は、30msの信号:5msのルックバック信号、20msの現在のフレームおよび5msのルックアヘッド信号のメモリ(またはバッファ)buf(n)、n=64,...,319を使用する。

s(n)の事前強調の後取得された信号は、位置n=64,...,319でこのバッファにコピーされ、その結果、位置n=0,...,255に対応する現在のフレームは、5msのルックバック信号(n=0,...,63)および符号化されるべき15msの「新しい」信号(n=64,...,255)を含む-それは、「ルックアヘッド」がこの場合サブサンプリングフィルタ遅延(ブロック201)用の補償なしでちょうど5msであるため、本明細書に適用されたCELP符号化がAMR-WB標準のACELP符号化とは異なるバッファの定義にある。

このバッファに基づいて、CELP符号化(ブロック211)は、AMR-WB標準のACELP符号化と同様な方式で適用されたいくつかのステップを含む。主要なステップはここで例示的な実施形態として与えられる。

a)LPC解析:30msの非対称ウィンドウがバッファbuf(n)に重み付けし、次いで、自己相関が計算される。次いで、(16程度の)線形予測係数がレヴィンソン-ダービンのアルゴリズムを介して計算される。これにより、LPC線形予測フィルタA(z)が与えられる。

LPC係数のISP(「イミタンススペクトルペア」)スペクトル係数への変換および(量子化フィルタ

を与える)量子化が実行される。

最後に、現在のフレームのフィルタと先行するフレームのフィルタの間のサブフレーム毎の補間により、各サブフレーム用のLPCフィルタが計算される。この補間ステップでは、ここでルックバックフレームがCELPモードによって符号化されたと想定され、この反対の場合では、CELPエンコーダの状態が更新されたと想定される。

b)信号の知覚的な重み付け:事前強調された信号が、次いで、W(z)=A(z/γ)/(1-αz^-1)ここでα=0.68およびγ=0.92、によって定義されたフィルタによって重み付けされる。

c)重み付けされた(場合によっては複雑度を削減するためにサブサンプリングされた)信号の自己相関関数の最大値を検索することによる開ループ内のピッチの計算。

d)現在のフレームの各サブフレームについて開ループ内で取得されたピッチの近傍の値の間の合成による解析による閉ループ内の「適応励振」の検索。適応励振の低域通過フィルタリングも、実行される場合かされない場合がある。したがって、フィルタが適用されるべきか否かを示すビットが生成される。この検索により、v(n)と記された成分が与えられる。ピッチ、およびピッチフィルタに関連するビットがビットストリーム内で符号化される。

e)また合成による解析による閉ループ内のc(n)と記された固定励振または革新の検索。この励振はゼロおよび符号付きのインパルスからなる。これらのインパルスの位置および符号はビットストリーム内で符号化される。

f)適応励振のゲインおよび代数励振のゲイン、それぞれ

、

がビットストリーム内で一緒に符号化される。

この例示的な実施形態では、CELPエンコーダは20msの各フレームを5msの4サブフレームに分割し、量子化LPCフィルタは最後(4番目)のサブフレームに対応する。

復元された信号

は、励振の復元

、場合によってはu(n)の後処理、および(3GPP標準TS26.190のセクション5.10に記載された)量子化合成フィルタ

によるフィルタリングにより、ブロック211に含まれたローカルデコーダによって取得される。この信号は、最終的に、CELP復号信号

を取得するために伝達関数フィルタ1/(1-αz^-1)によって強調解除される(ブロック212)。

当然、本発明の本質に影響を与えずに、上述された実施形態以外のCELP符号化の他の変形形態を使用することができる。

一変形形態では、ブロック211は、4つの実現可能なCELP符号化モード:無声モード(UC)、有声モード(VC)、遷移モード(TC)または汎用モード(GC)のうちの1つによる、ITU-T標準G.718に記載された8キロビット/秒でのCELP符号化に対応する。別の変形形態では、CELP符号化の別の実施形態、例えば、ITU-T標準G.718のAMR-WB符号化と相互作用できるモードでのACELP符号化が選ばれる。ISFの形でのLPC係数の表現は、スペクトル線(LSF)のペアまたは他の等価な表現によって置き換えることができる。

CELPモードの選択の場合には、ブロック211は、ビットストリーム内で多重化されるべき符号化されたCELPインデックスI_CELPを配信する。

図2のMDCT符号化モードでは、現在のフレーム、s(n)、n=0,...,255は、以下の変換係数を取得するために、好ましい実施形態により最初に変換される(ブロック220)。

ここで、M=256はフレーム長であり、Mz=96は、ウィンドウw(n)内の左右へのゼロの数である。ウィンドウw(n)は、

の形で対称「低遅延」ウィンドウとして好ましい実施形態で選ばれる。

M=256およびL_ov=64についてのこの低遅延ウィンドウw_shift(m)、m=0,...,511は、64サンプル(5ms)の重複を想定するw(n)=w_shift(n+96)を採用することにより、インデックスn=0,...,255に対応する現在のフレームに適用する。

このウィンドウは図3aに示される。ウィンドウは2(M-Mz)=320個のゼロでないサンプルをもつか、または12.8kHzで25msであることに留意されたい。図3bは、w(n)=w_shift(n+96)を採用することにより、ウィンドウw(n)が20msの各時間枠にどのように適用されるかを示す。

このウィンドウは、20msの現在のフレームおよび5msのルックアヘッド信号に適用する。したがって、MDCTウィンドウの中間の「フラット」の左および上への重複のおかげで、MDCTデコーダが加算重複により現在のフレーム全体を復元することができる限りにおいて、MDCT符号化はCELP符号化と同期され、5msのルックアヘッドフレームにも重複をもつことに留意されたい。ここで、このウィンドウの場合、現在のMDCTフレームは、重複が起こるフレームの第1の部分に(実際には最初の5msに)時間領域エイリアシングを誘導することに留意されたい。

CELPおよびMDCTのエンコーダ/デコーダによって復元されたフレームは、同時に発生する時間サポートをもつことが重要である。復元のこの時間領域が同期すると、符号化モデルの切り換えが容易になる。

本発明の変形形態では、w(n)以外の他のMDCTウィンドウも実現可能である。ブロック220の実装形態は、本明細書では詳細に与えられない。例はITU-T標準G.718(節6.11.2および7.10.6)で与えられる。

係数S(k)、k=0,...,255は、好ましい実施形態では、ITU-T標準G.729.1の「TDAC」(「時間領域エイリアシング取り消し」)符号化によって引き起こされたブロック221によって符号化される。ここで、B_totは、各フレーム内でMDCT符号化に割り当てられたビットの集まり全体を記す。不連続スペクトルS(k)はサブバンドに分割され、次いで、サブバンド毎にr.m.s(「二乗平均平方根」、すなわちエネルギーの二乗平均平方根)に対応するスペクトル包絡線は、3dBずつ対数領域内で量子化され、エントロピー符号化によって符号化される。この包絡線の符号化によって使用されるビットの集まりは、ここでB_envと記され、エントロピー符号化のため可変である。

G.729.1標準の「TDAC」符号化とは異なり、B_inj(集まりB_totの関数)と記された所定の数のビットは、ゼロ値で符号化された係数をノイズで「満たし」、その他の方法では聞こえるはずの「音楽ノイズ」の人為要素を隠すために、ノイズ注入段階の符号化用に確保される。次いで、スペクトルS(k)のサブバンドは、B_tot-B_env-B_injビットの残りの集まりで球形ベクトル量子化によって符号化される。これらの詳細は本発明の文脈を逸脱するので、この量子化は、詳細には、サブバンド毎のビットの適応配分と同様には与えられない。MDCTモードまたは遷移モードの選択の場合、ブロック221は、ビットストリーム内で多重化されるべき符号化されたMDCTインデックスI_MDCTを配信する。

ブロック222は、復号されたスペクトル

、k=0,...,255を復元するために、ブロック221によって作成されたビットストリームを復号する。最後に、ブロック223は、信号

、n=0,...,255を見いだすために、現在のフレームを復元する。

MDCT変換符号化の本質(フレーム間の重複)故に、現在のフレームのMDCT符号化で2つの状況が想像されるべきである。
-第1のケース:先行するフレームがMDCTモードによって符号化された。この場合、ローカル(およびリモート)のデコーダ内でMDCT合成に必要なメモリ(または状態)は利用可能であり、時間領域エイリアシングを取り消すためにMDCTによって使用される加算/重複の動作は実現可能である。MDCTフレームは全フレームにわたって正確に復号される。これはMDCT符号化/復号の「通常」動作を要する。
-第2のケース:先行するフレームがCELPモードによって符号化された。この場合、(ローカルおよびリモート)のデコーダでのフレームの復元は完璧ではない。上記で説明したように、MDCTは、復号されるべきフレームの時間領域エイリアシングを取り除き、ブロックの影響も防止し、フレームより長いウィンドウの使用により周波数分解能を高めるために、(メモリに格納された状態で)現在のフレームと先行するフレームの間の加算/重複の動作を復元に使用する。最も広く使用されているMDCTウィンドウ(正弦曲線タイプ)で、時間領域エイリアシングに起因する信号のひずみは、ウィンドウの終端部でより大きく、ウィンドウの中央で実質的にゼロである。この厳密なケースでは、先行するフレームがCELPタイプの場合、最後のフレームがMDCT変換符号化されていないので、MDCTメモリは利用可能ではない。

フレームの先頭でエイリアスされたゾーンは、MDCT変換に固有の時間領域エイリアシングによって破壊されたMDCTフレーム内の信号のゾーンに対応する。

したがって、現在のフレームがMDCTモードによって符号化され(ブロック220から223)、先行するフレームがCELPモードによって符号化される(ブロック210から212)と、CELPからMDCTへの特定の遷移処理が必要になる。

この場合、図4aで示されたように、最初のフレームはCELPモードによって符号化され、(ローカルまたはリモート)のCELPデコーダによって完全に復元することができる。一方、2番目のフレームはMDCTモードによって符号化され、この2番目のフレームが現在のフレームであると考えられる。MDCTウィンドウの左に重複するゾーンは、先行するフレームがMDCTによって符号化されていないので、このウィンドウの(時間領域エイリアシングでの)補間部分が利用可能でないため、問題をもたらす。したがって、MDCTウィンドウのこの左の部分でのエイリアシングは、取り除くことができない。

この遷移の場合、本発明による符号化方法は、予測遷移エンコーダまたは制限された予測符号化により、現在のフレームの左へのエイリアシングゾーンを表す現在の変換符号化(MDCT)フレーム内で、例えば5msの別のサブフレームとして選ばれた、フレームの長さ以下の長さのサンプルのブロックを符号化するステップを含む。MDCT遷移フレームに先行するフレーム内の符号化のタイプは、CELP符号化以外の符号化、例えばMICDA符号化またはTCX符号化のタイプであり得ることに留意すべきである。本発明は、先行するフレームが信号の領域内のMDCTメモリを更新しない符号化によって符号化されたケース全般に適用され、本発明は、先行するフレームの符号化情報を使用する遷移符号化により、現在のフレームの一部に対応するサンプルのブロックの符号化を要する。

予測遷移符号化は、先行するフレームの予測符号化に対して制限され、予測符号化によって符号化された先行するフレームの安定したパラメータの使用、および現在の遷移フレーム内の別のサブフレーム用の少しの最小限のパラメータのみの符号化が必要になる。

したがって、この制限された予測符号化は、先行するフレーム予測符号化の少なくとも1つのパラメータを再使用し、そのため、再使用されたパラメータのみを符号化する。この意味で、(符号化されたパラメータの制限による)制限符号化と呼ぶことが可能である。

図4aから図4eに示された実施形態は、最初のMDCTウィンドウの左への重複がサブフレーム(5ms)の長さ以下であることを想定する。反対のケースでは、1つまたは複数の別のCELPサブフレームも符号化されなければならず、適応励振辞書および/または重複の長さに適用されたサイズの固定辞書が使用されなければならない。

図4aから図4eでは、混合線(ドットとダッシュを交互にもつ線)は、MDCT符号化エイリアシング線およびMDCT復号アンチエイリアシング線に対応する。これらの図の上部では、太線はエンコーダの入口でフレームを分離する。こうして定義されたフレームが完全に利用可能な場合、新しいフレームの符号化を開始することが可能である。エンコーダでのこれらの太線は現在のフレームに対応しないが、各フレームに着信する新しいサンプルのブロックに対応し、現在のフレームは実際には5msだけ遅延することに留意することが重要である。下部では、太線は、デコーダの出口で復号されたフレームを分離する。

遷移フレームの特定の処理は、図2のブロック230から232およびブロック240に対応する。この処理は、mode_preと記された先行するモード、すなわち先行するフレームの符号化のタイプ(CELPまたはMDCT)がCELPタイプの場合実行される。

CELP符号化とMDCT符号化の間の現在の遷移フレーム(図4aから図4eでの2番目のフレーム)の符号化は、ブロック231によって実装されたいくつかのステップに基づく。
-フレームのMDCT符号化:図4aの上部に示された例示的な実施形態では、この符号化用に選ばれたウィンドウは、25msの効率的な長さをもつ、上記に定義されたウィンドウw(n)である。MDCT遷移フレーム(CELPフレームに続く最初のMDCTフレーム)内でw(n)と交換する他の形態のウィンドウは、25msとは異なる可能性がある全く同一の効率的な長さで、図4b、4c、4dおよび4eで示される。図4aの場合、現在のフレームの20msは、ウィンドウのゼロでない部分の先頭に配置され、残りの5msはルックアヘッドフレームの最初の5ミリ秒である。(エイリアシングおよびディスクリートコサイン変換(DCT)による)MDCTの計算後、MDCTスペクトルの256サンプルがその結果取得される。これらの係数の量子化は、この場合、スペクトル包絡線の伝送、および包絡線の標準化された各サブバンドについての球形ベクトル量子化によって実行される。「通常の」MDCT符号化の前の説明との差異は、遷移フレーム内でベクトル量子化に割り当てられた集まりがもはやB_tot-B_env-B_injではなく、むしろB_tot-B_env-B_inj-B_transであることであり、B_transは遷移エンコーダ内でフィルタ

の入力励振を生成する不明情報の伝送に必要なビットの数を表す。このビットの数B_transは、エンコーダの全ビットレートの関数として可変である。
-(図4aから図4eの下部での)量子化スペクトルの復号:(MDCTメモリが先行するフレームから利用可能でないので加算重複のない、合成ウィンドウによるアンチエイリアシングおよび乗算による)量子化スペクトルの復元および部分的な逆MDCT変換動作の後、時間領域信号が取得され、その中で最初の5ミリ秒(最初のサブフレーム)が時間領域エイリアシングを含み、次いで、復元信号の15ms、最後の5ミリ秒が、後者がMDCTタイプの場合次のフレームの復元に必要なMDCTメモリに与える働きを最後にする。次のフレームがCELPタイプの場合、このメモリは通常使用されない。
-制限された予測符号化を含む遷移符号化による最初のサブフレーム(図4aから図4eで「TR」と記されたグレイゾーン)の符号化。

この制限された予測符号化は以下のステップを含む。

最初のサブフレームのフィルタ

は、例えば、先行するフレームの4番目のサブフレームのフィルタ

をコピーすることによって取得される。これにより、このフィルタを計算する必要性が節約され、ビットストリーム内でその符号化に関連するビットの数が節約される。

CELPとMDCTを繰り返すコーデックでは、周波数領域での符号化が時間領域よりも効率的な、実質的に固定されたセグメント内でMDCTモードが通常選択されるので、この選択は正当化される。ACELPモードとMDCTモードの間を切り換えた瞬間に、この固定化は通常すでに確立されている。スペクトル包絡線などのある特定のパラメータは、フレームからフレームで非常に少ししか変化しないことを想定することが可能である。したがって、信号のスペクトル包絡線を表す、先行するフレームの間で伝送された量子化合成フィルタ

は、効率的に再使用することができる。

(ルックバック励振を使用して適応励振を復元することを可能にする)ピッチは、この最初の遷移サブフレーム用の閉ループ内で計算される。後者は、場合によっては最後のCELPサブフレームのピッチに対する差動方式で、ビットストリーム内で符号化される。適応励振v(n)(n=0,...,63)はそこから推論される。変形形態では、最後のCELPフレームのピッチ値は、それを伝送せずに再使用することもできる。

適応励振v(n)が係数(0.18、0.64、0.18)の低域通過フィルタによってフィルタリングされたか否かを示すように、1つのビットが割り当てられる。しかしながら、このビットの値は、最後の先行するCELPフレームから採用することができる。

サブフレームの代数励振の検索は、この遷移サブフレームのみについて閉ループで実行され、励起パルスの位置および符号の符号化は、ここで、再びエンコーダのビットレートに依存するいくつかのビットをもつビットストリーム内で符号化される。

適応励振および代数励振にそれぞれ関連するゲイン

、

はビットストリーム内で符号化される。この符号化に関連するビットの数は、エンコーダのビットレートに依存する。

例として、12.65キロビット/秒の全ビットレートの場合、9ビットがサブフレームのピッチの完全な符号化用に確保され、6ビットがゲインの符号化用に確保され、52ビットが固定励振の符号化用に確保され、1ビットが、適応励振がフィルタリングされたか否かを示す。したがって、B_tr=68ビット(3.4キロビット/秒)がこの遷移サブフレームの符号化用に確保され、その結果、遷移フレーム内のMDCT符号化用に9.25キロビット/秒が残る。

すべてのパラメータが取得および符号化されると、取得された励振をもつフィルタ

の励振により不足サブフレームを生成することが可能である。ブロック231は、ビットストリーム内で多重化されるべき、制限された予測符号化のパラメータI_TRも供給する。図の中でMemと記された、遷移フレームに先行するフレームで実行される符号化(ブロック211)の情報を、ブロック231が使用することに留意することが重要である。例えば、情報は、最後のサブフレームのLPCおよびピッチのパラメータを含む。

次いで、現在のCELPからMDCTへの遷移フレームの最初のサブフレーム内で復元された信号

、n=0,...,63を取得するために、取得された信号はフィルタ1/(1-αz^-1)によって強調解除される(ブロック232)。

最後に、残りの作業は、復元された信号

、n=0,...,63と

、n=0,...,255を結合することである。このために、2つの信号間の線形漸進混合(クロスフェード)が実行され、次に続く出力信号を与える(ブロック240)。例えば、第1の実施形態では、このクロスフェードは、図4aで示された以下の方式で最初の5msに実行される。

2つの信号間のクロスフェードは、この場合5msであるが、より小さい場合があることに留意すべきである。CELPエンコーダおよびMDCTエンコーダが、完全または実質的に完全な復元を有すると想定すると、クロスフェードを供給することさえ可能である。具体的には、フレームの最初の5ミリ秒が(制限されたCELPにより)完全に符号化され、次の15msも(MDCTエンコーダにより)完全に符号化される。クロスフェードによる人為要素の減衰は、理論的にはもはや必要でない。この場合、信号

はより簡潔に書かれる。

図4bの変形形態では、ウィンドウは、左へのエイリアシングのない長方形の形の解析および合成に同一のウィンドウにより取り替えられる。

n<0およびn>255の場合、仕様はここで作成されない。n<0の場合w(n)の値はゼロであり、n>255の場合、ウィンドウは「通常の」MDCT符号化に使用されるMDCT解析および合成ウィンドウによって決定される。

図4bでのクロスフェードは以下の方式で実行される。

図4cの変形形態では、ウィンドウは、1.25msを超えるゼロ値の第1の部分、次いで2.5msを超える正弦曲線立ち上がりエッジ、および1.25msを超える単一の値のフラットを含む形の解析および合成に同一のウィンドウにより取り替えられる。

図4cでのクロスフェードは、クロスフェードが実行されるゾーンが時間領域エイリアシングの対象外であることを示す以下の方式で実行される。

図4dおよび図4eの変形形態では、現在の遷移フレーム(n=0,...,255)内の解析および合成MDCT重み付けウィンドウが

によって与えられることが想定される。n<0およびn>255の場合、仕様はここで作成されないことに留意されたい。n<0の場合w(n)の値はゼロであり、n>255の場合、ウィンドウは「通常の」MDCT符号化に使用されるMDCT解析および合成ウィンドウによって決定される。

クロスフェードは以下の方式で実行される。

図4bから図4dのクロスフェードは、図4aの構成でも使用できることに留意されたい。このように進める利点は、クロスフェードが、エイリアシングに起因するエラーが最小であるMDCT復号部分で実行されることである。図4aで表された構造は完全な復元に近づく。

エンコーダが閉ループ内のモード決定で動作することは、例示的な実施形態で考えられる。

12.8kHzでの元の信号s(n)、n=0,...,255、ならびに、2つのモードCELPおよびMDCTのそれぞれによって復元された信号

および

、n=0,...,255に基づいて、符号化エラー

および

を計算する(ブロック250、252)ことにより、次いで、フィルタW(z)=A(z/γ)/(1-αz^-1)ここで係数がCELP符号化(ブロック211)の状態から得られるγ=0.92、による知覚的重み付け毎の64サンプル(5ms)のサブフレームにより適用することにより、最後に、(時間領域の5msのまとまりをもつ)セグメントにより信号対ノイズ比基準を計算することにより、現在のフレームについてのモード決定が採用される(ブロック254)。閉ループ内の決定の動作(ブロック254)はさらに詳細には記載されない。ブロック254の決定は符号化され(I_SEL)、ビットストリーム内で多重化される。

マルチプレクサ260は、符号化された決定I_SELと、ビットストリームbst内の符号化モジュールから来るさまざまなビットとを、モジュール254の決定の関数として結合する。CELPフレームの場合ビットI_CELPが送信され、純粋なMDCTフレームの場合ビットI_MDCTが送信され、CELPからMDCTへの遷移フレームの場合ビットI_TRおよびI_MDCTが送信される。

本発明の本質を変更することなく、決定は開ループ内で実行するか、またはエンコーダの外部の方式で指定することもできることに留意すべきである。

本発明の一実施形態によるデコーダが図5で示される。デマルチプレクサ(ブロック511)は、ビットストリームbstを受信し、最初にモードインデックスI_SELを抽出する。このインデックスは、復号モジュールおよびスイッチ509の動作を制御する。インデックスI_SELがCELPフレームを示す場合、CELPデコーダ501が作動され、CELPインデックスI_CELPを復号する。励振

の復元、場合によってはu(n)の後処理、および量子化合成フィルタ

のフィルタリングにより、CELPデコーダ501によって復元された信号

は、CELP復号信号

を取得するために、伝達関数1/(1-αz^-1)を有するフィルタによって強調解除される(ブロック502)。スイッチ509はこの信号

を12.8kHzでの出力信号

として選ぶ。インデックスI_SELが「純粋な」MDCTフレームまたは遷移フレームを示す場合、MDCTデコーダ503が作動され、後者はMDCTインデックスI_MDCTを復号する。伝送されたインデックスI_MDCTに基づいて、ブロック503は復号スペクトル

、k=0,...,255を復元し、次いで、ブロック504は現在のフレームを復元して信号

、n=0,...,255を見いだす。遷移フレームでは、インデックスI_TRもモジュール505によって復号される。図の中でMemと記された、遷移フレームに先行するフレームで実行される復号(ブロック501)の情報を、ブロック505が使用することに留意することが重要である。例えば、情報は、最後のサブフレームのLPCおよびピッチのパラメータを含む。

こうして、デコーダは、先行するフレームの予測復号の少なくとも1つのパラメータを再使用して、遷移フレームの第1の部分を復号する。また、再使用されないパラメータに対応するこの第1の部分について、受信されたパラメータのみを使用する。

ブロック505の出力は、伝達関数1/(1-αz^-1)を有するフィルタによって強調解除されて(ブロック506)、制限された予測符号化によって復元された信号

を取得する。この処理(ブロック505から507)は、mode_preと記された先行するモード、すなわち先行するフレームの復号のタイプ(CELPまたはMDCT)がCELPタイプの場合実行される。

遷移フレームでは、信号

および

はブロック507によって結合される。通常、クロスフェード動作は、本発明を使用するエンコーダについて上述したように、信号

を取得するためにフレームの第1の部分で実行される。「純粋な」MDCTフレームの場合、すなわち現在のフレームおよび先行するフレームがMDCTによって符号化された場合、

である。スイッチ509は、この信号

を12.8kHzでの出力信号として選ぶ

。次いで、16kHzで復元された信号

が、12.8kHzから16kHzにオーバサンプリングすることによって取得される(ブロック510)。このレート変更は、(60程度の)多相内で有限インパルス応答フィルタの助けを借りて実行されると考えられる。

こうして、本発明の符号化方法により、変換符号化によって符号化された現在のフレームの最初のサブフレームに対応するサンプルは、(不変のビットレートの場合)変換符号化に利用可能なビットに被害が及ぶまで制限された予測エンコーダにより、または(可変のビットレートの場合)伝送ビットレートを増やすことによって符号化される。

図4aに示された本発明の実施形態では、エイリアスされたゾーンは、CELP復元とMDCT復元の間の中断のないソフト遷移を提供するクロスフェードを実行するためだけに使用される。

変形形態では、このクロスフェードは、エイリアシングの影響があまり著しくないエイリアスされたゾーンの第2の部分に実行できることに留意されたい。ビットレートを増やすことにより図4aに示されたこの変形形態では、クロスフェードに使用される信号の一部が時間領域エイリアシングによって破壊されるので、完全な復元に収束しない。

この変形形態は、この低ビットレートの破壊が完全に受け入れられたとしても、透過的であることはできす、一般に、低ビットレートの符号化の固有の劣化に比べて実質的に聞き取れない。

別の変形形態では、CELPフレーム(遷移フレーム)の直後のMDCTフレーム(図4bに示されたケース)では、エイリアシング線上のサブフレームの中央で始まる長方形ウィンドウで、左へのエイリアシングなしにMDCT変換を使用することが可能である。

図のフレーム化され灰色に塗られた部分では、クロスフェード内のCELPおよびMDCTの成分の重みにおける変化を見ることができる。遷移フレームの最初の2.5msの間、出力は制限された予測符号化の復号信号と同一であり、次いで、遷移は、CELP成分の重みを次第に削減すること、およびMDCTウィンドウの正確な定義の関数としてMDCT成分の重みを増加させることにより、次の2番目の2.5msの間に行われる。したがって、遷移は、エイリアシングなしに復号されたMDCT信号を使用することによって行われる。こうして、ビットレートを増やすことにより透過的な符号化を取得することが可能である。しかしながら、長方形のウィンドウ化は、MDCT符号化ノイズの存在にブロック効果をもたらすことができる。

図4cは、(時間領域エイリアシングをもつ)ウィンドウの左への立ち上がり部分が(例えば2.5msに)短くされ、したがって、MDCTモードによって復元された信号の最初の5ミリ秒が5msのこの最初のサブフレーム内で右へのエイリアシングのない部分(1.25ms)を含む、別の変形形態を示す。こうして、MDCTウィンドウの「フラット」(すなわちエイリアシングのない1で固定の値)は、図4aの構成と比べて、制限された予測符号化によって符号化されたサブフレームの左に拡張される。

再度、図4cのフレーム化され灰色に塗られた部分では、この変形形態の場合、クロスフェード内のCELPおよびMDCTの成分の重みにおける変化を見ることができる。与えられた例によれば、最初の3.75ミリ秒の間、出力は、制限された予測復号によって復元された信号と同一である。このゾーンの場合、MDCT成分は、使用されないので復号されてはならない。その結果、重み付けウィンドウの形は、このゾーンには重要でない。遷移は、CELP成分の重みを次第に削減すること、およびMDCT成分の重みを増加させることにより、最後の1.25msの間に行われる。このように進めることにより、クロスフェード内ではエイリアシングによってゾーンが破壊されないので、高ビットレートで完全な復元が、したがって量子化エラーなしで保証される。これらの復元された信号のクロスフェードは、現在のフレームの第1の部分の変換符号化から生じる復元された信号が時間領域エイリアシングを含まないウィンドウの一部で実行される。図4bに示された変形形態に対するこの変形形態の利点は、使用されるウィンドウのより良いスペクトル性状および長方形の部分がないブロック効果内の減少である。

図4bの変形形態は、(時間領域エイリアシングをもつ)ウィンドウの左への立ち上がり部分が0に短くされた、図4cの変形形態の極端なケースであることに留意すべきである。本発明の別の変形形態では、(時間領域エイリアシングをもつ)ウィンドウの左への立ち上がり部分は、ビットレートに依存する。例えば、ビットレートでの増加で短くなる。このケースで使用されるクロスフェードの重みは、選ばれたウィンドウに適用することができる。

図4a、図4bおよび図4cでは、低遅延MDCTウィンドウが示された。後者は、ウィンドウの終端および先頭でゼロの値が選ばれた数連続する重み付け係数を含む。本発明は、従来の(正弦曲線の)MDCT重み付けウィンドウが使用されるケースにも適用する。

線形重みをもつクロスフェードが上記に与えられた例で示された。明らかに、例えば、正弦曲線関数の立ち上がりエッジなどの、重みの変形形態の他の関数を使用することもできる。一般に、その他の成分の重みは、常に、2つの重みの合計が常に1に等しいように選ばれる。

また、MDCT成分のクロスフェードの重みは、示されたすべての変形形態について、MDCT合成重み付けウィンドウにクロスフェードの重みを乗ずることにより、遷移フレームのMDCT合成重み付けウィンドウに組み込むことができ、したがって計算の複雑度を削減することに留意されたい。

この場合、制限された予測符号化成分と変換符号化成分の間の遷移は、重みによる別の重み付けなしに、最初にクロスフェードの重みを乗算された予測符号化成分を、2番目にこうして取得された変換符号化成分を加算することによって行われる。さらに、図4bに示された変形形態の場合、クロスフェードの重みの統合は、解析重み付けウィンドウで実行することができる。有利なことに、クロスフェードゾーンが完全にフレームのエイリアシングのない部分にあり、元の解析重み付けウィンドウはエイリアシングゾーンに先行するサンプルについてゼロ値をもたなかったので、図4bの変形形態ではこれを行うことが可能である。

また、この手法は、このようにして解析重み付けウィンドウのスペクトル性状が、図4bの(左側の)長方形ウィンドウに比べて、または線形重みをもつ三角形ウィンドウに比べて大幅に改善されるので、正弦曲線クロスフェードの重みが使用される場合、さらにより役に立つ。さらにより有利なことに、同じウィンドウは、記憶領域を削減するMDCT解析および合成ウィンドウとして使用することができる。この変形形態は図4dに示される。

その中で、遷移解析/合成重み付けウィンドウの立ち上がり部分はエイリアシングのないゾーン(エイリアシング線の後)にあることを見ることができる。この場合、この立ち上がり部分は、正弦曲線サイクルのクォートとして定義され、その結果、解析/合成ウィンドウの結合効果がクロスフェードの重みを平方サインの形で暗黙的に与える。この立ち上がり部分は、MDCTウィンドウ化とクロスフェードのどちらにも役立つ。制限された予測符号化成分用のクロスフェードの重みは、結合された解析/合成重み付けウィンドウの立ち上がり部分を、クロスフェードが実行されるゾーンで2つの重みの合計が常に1になるように補完する。正弦曲線サイクルのクォートとして定義された立ち上がり部分をもつMDCT解析/合成ウィンドウの例の場合、制限された予測符号化成分用のクロスフェードの重みは、したがって平方コサイン(1ひく平方サイン)の形になる。こうして、クロスフェードの重みは、遷移フレームの解析と合成のどちらの重み付けウィンドウにも組み込まれる。図4dに示された変形形態により、クロスフェードが時間領域エイリアシングのないゾーンで実行されるので、完全な高ビットレート復元を実現することが可能になる。

本発明は、MDCTウィンドウが非対称であるケース、ならびにMDCT解析および合成ウィンドウがITU-T標準G.718と同一でないケースにも適用される。そのような例は図4eに与えられる。この例では、(図の中で太線の)MDCT遷移ウィンドウの左側およびクロスフェードの重みは、図4dのそれらに同一である。明らかに、すでに説明されたその他の実施形態に対応するウィンドウおよびクロスフェード(例えば図4aから図4cのそれら)は、遷移ウィンドウの左の部分で同様に使用することができる。

非対象MDCTウィンドウの場合、エンコーダで、遷移解析ウィンドウの右の部分が通常使用されるMDCT解析ウィンドウの右の部分に同一であり、デコーダで、遷移MDCT合成ウィンドウの右の部分が通常使用されるMDCT合成ウィンドウの右の部分に同一であることを、図4eで見ることができる。遷移MDCT重み付けウィンドウの左側に関しては、図4aから図4dですでに説明されたMDCT遷移ウィンドウのうちの1つの左の部分が使用される(図4eの例では図4dの左の部分が使用される)。

上述された本発明の変形実施形態で(例えば図4aから図4dで)説明されたように、クロスフェードの重みは使用されるウィンドウの関数として選ばれる。

本発明により遷移フレーム内のMDCT成分を一般化して、使用されるMDCT解析重み付けウィンドウの左半分は、(例えば、図4aから図4eの例のうちの1つにより)このハーフウィンドウに対応するゾーンの右の部分が時間領域エイリアシングを含まないように選ばれ、対応するMDCT合成重み付けウィンドウの左半分は、解析および合成ウィンドウの結合効果の後、このエイリアシングのないゾーンが少なくとも右側に(減衰なしに)1の重みをもつように選ばれる。図4aから図4eは、これらの基準を検証する解析および合成ウィンドウのペアの例を示す。これらの例によれば、遷移MDCT重み付けウィンドウの左半分は解析および合成と同一であるが、これは必ずしも本発明のすべての実施形態のケースではない。例えば、クロスフェードでのMDCT成分の重みがゼロであるゾーンでは、これらのサンプルが使用されないので、合成ウィンドウの形は重要ではないことに留意すべきである。それは計算さえされてはならない。一方、クロスフェードの重みでの解析および合成ウィンドウの寄与も、不均一な方式で分散される可能性があり、それは遷移MDCT重み付けウィンドウの左半分にさまざまな解析および合成ウィンドウを与える。遷移解析および合成ウィンドウの右半分に関しては、それらは、変換符号化によってのみ符号化されたゾーンで通常使用されるMDCT重み付けウィンドウのそれらに同一である。(非常に高いビットレートで)量子化エラーのない完全な復元を保証するために、制限された予測デコーダによって復元された信号と変換デコーダによって復元された信号の間のクロスフェードは、時間領域エイリアシングのないゾーンで実行されなければならない。解析および合成ウィンドウの結合効果は、変換デコーダによって復元された成分のクロスフェードの重みを暗黙的に統合することができる。

MDCT符号化に割り当てられたビットレートに対する影響を限定するために、良い品質を保証しながら、この制限された予測符号化について最も可能性の少ないビットを使用することは価値がある。CELPとMDCTが交互のコーデックでは、周波数領域での符号化が時間領域より効率的な実質的に固定されたセグメントでは、MDCTモードが通常選択される。しかしながら、定常性の想定が検証される保証なしに、モード決定が開ループ内で採用されるか、またはエンコーダの外部で管理されるケースも考えられる。

ACELPモードとMDCTモードの間の切り換え時に、この定常性は通常すでに確立されている。スペクトル包絡線などのある特定のパラメータがフレームからフレームで非常に少ししか変化しないことを想定することができる。したがって、信号のスペクトル包絡線を表す、先行するフレームの間で伝送された量子化合成フィルタ1/A(z)は、MDCT符号化用のビットを節約するために再使用することができる。伝送された最後の合成フィルタは、(符号化されるべき信号に最も近い)CELPモードで使用される。

遷移フレーム内の信号を符号化するために使用される情報は、(長期励振に関連する)ピッチ、励振(または革新)ベクトル、および励振に関連するゲインである。

本発明の別の実施形態では、最後のサブフレームに関連するピッチおよび/またはそのゲインの復号された値は、これらのパラメータも固定されたゾーンで緩やかに変化するので、再使用することもできる。これにより、CELPからMDCTへの遷移の間に伝送されるべき情報量がさらに削減される。

変形実施形態では、先行するCELPフレームの最後のサブフレームで復号されたパラメータに対して少ないビットにわたる差動として、これらのパラメータを量子化することも可能である。この場合、したがって、これらのパラメータでの緩やかな変化を表現する補正のみが符号化される。

CELPからMDCTへの遷移の必要な性状のうちの1つは、高漸近的ビットレートで、CELPエンコーダおよびMDCTエンコーダが実質的に完全な復元をもつ場合、遷移フレーム(CELPフレームに続くMDCTフレーム)で実行される符号化は、それ自体実質的に完全な復元をもたなければならないことである。図4bおよび図4cで示された変形形態により、非常に高いビットレートで実質的に完全な復元が提供される。

品質の均一性を目的として、制限された予測符号化のこれらのパラメータに割り当てられたビットの数は、可変であり、全ビットレートに比例することができる。

1つのタイプの符号化から他のタイプの符号化への遷移の影響を限定するために、予測符号化によって符号化された信号の部分と、変換符号化(クロスフェード、変換成分用フェードイン、予測成分用フェードアウト)された残りのフレームとの間の進行形遷移が実行される。透過的な品質を実現するために、このクロスフェードは、エイリアシングのないMDCT復号信号で実行されなければならない。

別の変形形態における図4bおよび図4cの変形形態に加えて、高ビットレートで実現可能な透過性を保証するために、MDCT符号化の原理は、遷移フレームのMDCTウィンドウで左への時間領域エイリアシングが使用されないように修正される。(ブロックのサイズを削減する)時間領域エイリアシングが右にのみ実行されるのでエイリアスされた信号の長さが異なるため、この変形形態はMDCT変換の心臓部でDCT変換の修正版を使用することが必要になる。

本発明が、MDCTモードで符号化された(遷移フレームを除く)各フレームで同一のMDCT解析および合成ウィンドウの簡略化されたケースについて、図4aから図4dで記載されたことに留意すべきである。本発明の変形形態では、MDCTウィンドウは、図4eで示されたように非対称になることができる。さらに、MDCT符号化は、少なくとも1つの通常20〜40msの「長い」ウィンドウと一連の通常5〜10msの短いウィンドウとの間のウィンドウの切り換え(ウィンドウスイッチング)を使用することができる。

さらに、他の変形形態は、CELP/MDCTモードの選択が最適でなく、遷移フレーム内の信号の定常性の想定が検証されておらず、最後のCELPフレームのパラメータ(LPC、ピッチ)の再使用が音響の劣化をもたらす可能性があるケースで、同様に規定される。そのようなケースの場合、本発明により、CELPからMDCTへの遷移フレームで符号化されるべきより多くのCELPパラメータおよび/またはCELPサブフレームを保持するために、上述された方法の異なる遷移モードを示す少なくとも1つのビットが伝送される。例えば、第1のビットは、残りのビットストリーム内で、LPCフィルタが符号化されるか、または受信された最後のバージョンがデコーダで使用できるかを信号伝達することができ、別のビットは、ピッチの値について同じことを信号伝達することができる。パラメータの符号化が必要と考えられるケースでは、これは、最後のフレームで伝送された値に対する差動として行うことができる。

したがって、一般に、上述された実施形態と一致して、本発明による符号化方法は、図6aに示された流れ図の形で示すことができる。

符号化されるべき信号s(n)について、ステップE601では、現在のフレームが変換符号化によって符号化されるべきであり、かつ先行するフレームが予測タイプの符号化によって符号化されたケースであることの検証が行われる。こうして、現在のフレームは予測符号化と変換符号化の間の遷移フレームである。

ステップE602では、制限された予測符号化が現在のフレームの第1の部分に適用される。この予測符号化は、先行するフレームについて使用された予測符号化に対して制限される。

この制限された予測符号化ステップの後、信号

が取得される。

現在のフレームのMDCT符号化が、すべての現在のフレームに対して並行にステップE603で実行される。

この変換符号化ステップの後、信号

が取得される。

本発明について記載された実施形態によれば、方法は、信号の復元後、ステップE604でクロスフェードによって結合するステップを含み、遷移フレーム内の予測符号化と変換符号化の間でソフト遷移を実行することを可能にする。このステップの後、復元された信号

が取得される。

同様に、一般に、本発明による復号方法が図6bを参照して示される。

復号の間、先行するフレームが予測タイプの復号方法によって復号され、現在のフレームが変換タイプの復号方法によって復号されるべきである場合(E605での検証)、復号方法は、E606で制限された予測復号により現在のフレームの第1の部分を復号するステップを含む。復号方法は、現在のフレームをE607で変換復号するステップも含む。

次いで、上述された実施形態により、現在のフレームの全部または一部にわたるクロスフェードによって取得された復号信号、それぞれ

および

の結合を実行し、こうして現在のフレームの復号信号

を取得するステップE608が実行される。

最後に、本発明はCELPからMDCTへの遷移の特定のケースで提示された。CELP符号化がMICDA、TCXなどの別のタイプの符号化と置き換えられるケース、および遷移フレームの一部にわたる遷移符号化が遷移MDCTフレームに先行するフレームの符号化からの情報を使用することによって実行されるケースに、この発明が適用されることは明らかである。

図7は、本発明の一実施形態によるエンコーダまたはデコーダを作成するのに適したハードウェア装置を記載する。

この装置DISPは、エンコーダの場合入力信号x(n')であり、デコーダの場合ビットストリームbstである、デジタル信号SIGを受信するための入力装置を含む。

また、装置は、特に入力装置Eから生じる信号に符号化/復号動作を実行するのに適したデジタル信号プロセッサPROCを含む。

このプロセッサは、符号化/復号用に装置を駆動するために必要な情報を記憶するのに適した1つまたは複数のメモリ装置MEMに結合される。例えば、装置がエンコーダタイプの場合、これらのメモリ装置は、上述された符号化方法のアプリケーション用、特に、予測符号化によるデジタル信号のサンプルの先行するフレームの符号化と、変換符号化によるデジタル信号のサンプルの現在のフレームの符号化とのステップを適用し、その結果、現在のフレームの第1の部品が先行するフレームの予測符号化に対して制限された予測符号化によって符号化されるための命令を含む。

装置がデコーダタイプの場合、これらのメモリ装置は、上述された復号方法のアプリケーション用、特に、予測符号化によって受信および符号化されたデジタル信号のサンプルの先行するフレームの予測復号と、変換符号化によって受信および符号化されたデジタル信号のサンプルの現在のフレームの逆変換復号とのステップ、ならびに現在のフレームの第1の部分の先行するフレームの予測復号に対して制限された予測復号による復号のステップも適用するための命令を含む。

また、これらのメモリ装置は、計算パラメータまたは他の情報を含むことができる。

より一般には、エンコーダまたはデコーダに統合される場合もされない場合もあり、場合によってはリムーバブルである、プロセッサによって読むことができる格納手段は、本発明による符号化方法および/または復号方法を適用するコンピュータプログラムを格納する。図6aおよび図6bは、例えばそのようなコンピュータプログラムのアルゴリズムを示すことができる。

また、プロセッサは、これらのメモリ装置に結果を格納するのに適している。最後に、装置は、エンコーダの場合ビットストリームbstの形の信号であり、デコーダの場合出力信号

である、出力信号SIG*を提供するためにプロセッサに結合された出力装置Sを含む。

200 高域通過フィルタ
201 デシメーションフィルタ
210 事前強調
211 予測符号化モジュール
212 強調解除
220 MDCTウィンドウ
221 変換符号化モジュール
222 復号
223 MDCTインデックス
230 事前強調
231 予測符号化モジュール
232 強調解除
240 結合
250 符号化エラー計算
251 フィルタ
252 符号化エラー計算
253 フィルタ
254 モード選択
260 マルチプレクサ
501 予測復号モジュール
502 強調解除
503 逆変換復号モジュール
504 MDCTインデックス
505 予測復号モジュール
506 強調解除
507 結合
509 スイッチ
510 復元信号
511 デマルチプレクサ

Claims

デジタル音響信号を符号化するための方法であって、
-予測符号化により前記デジタル信号のサンプルの先行するフレームを符号化する(E601)ステップと、
-変換符号化により前記デジタル信号のサンプルの現在のフレームを符号化する(E603)ステップと
を含み、
前記現在のフレームは、複数のサブフレームを含み、
前記先行するフレームの前記予測符号化の少なくとも1つのパラメータを再使用すること、および前記現在のフレームの第1のサブフレームの再使用されていないパラメータのみを符号化することにより、前記現在のフレームの前記第1のサブフレームが前記先行するフレームの前記予測符号化に対して制限された予測符号化によって符号化される(E602)ことを特徴とする方法。
前記制限された予測符号化が、予測符号化の前記先行するフレームからコピーされた予測フィルタを使用することを特徴とする、請求項1に記載の方法。
前記制限された予測符号化が、予測符号化の前記先行するフレームのピッチおよび/またはそれに関連するゲインの復号された値も使用することを特徴とする、請求項2に記載の方法。
前記制限された予測符号化に使用される予測符号化のある特定のパラメータが、予測符号化の前記先行するフレームの復号されたパラメータに対して差動モードで量子化されることを特徴とする、請求項1に記載の方法。
前記現在のフレームの前記第1のサブフレームの前記予測および変換のローカルの符号化および復号から生じる復元された信号を取得するステップと、これらの復元された信号のクロスフェードによって結合する(E604)ステップとを含むことを特徴とする、請求項1に記載の方法。
前記復元された信号の前記クロスフェードが、前記変換符号化のウィンドウの形の関数として前記現在のフレームの前記第1のサブフレームの一部に実行されることを特徴とする、請求項5に記載の方法。
前記復元された信号の前記クロスフェードが、前記現在のフレームの前記第1のサブフレームの一部に実行されることを特徴とし、前記一部が時間領域エイリアシングを含まない、請求項5に記載の方法。
前記変換符号化が、重み付けウィンドウの終端および先頭でゼロの値が選ばれた数連続する重み付け係数を含む重み付けウィンドウを使用することを特徴とする、請求項1に記載の方法。
前記変換符号化が、非対称重み付けウィンドウの少なくとも1つの終端でゼロの値が選ばれた数連続する重み付け係数を含む非対称重み付けウィンドウを使用することを特徴とする、請求項1に記載の方法。
デジタル音響信号を復号するための方法であって、
-予測符号化によって受信および符号化された前記デジタル信号のサンプルの先行するフレームを予測復号する(E605)ステップと、
-変換符号化によって受信および符号化された前記デジタル信号のサンプルの現在のフレームを逆変換復号する(E607)ステップと
を含み、
前記現在のフレームは、複数のサブフレームを含み、
前記先行するフレームの前記予測復号の少なくとも1つのパラメータを再使用すること、および前記現在のフレームの第1のサブフレームについて受信された前記パラメータのみを復号することにより、制限された予測符号化により受信および符号化された前記現在のフレームの前記第1のサブフレームを、前記先行するフレームの前記予測復号に対して制限された予測復号によって復号する(E606)ステップをさらに含むことを特徴とする方法。
逆変換によって復号された信号のクロスフェード、および前記現在のフレームの前記第1のサブフレームの少なくとも1つの部分についての制限された予測復号によって結合する(E608)ステップを含むことを特徴とする、請求項10に記載の方法。
前記制限された予測復号が、前記先行するフレームの前記予測復号によって復号および使用された予測フィルタを使用することを特徴とする、請求項10に記載の方法。
前記制限された予測復号が、前記先行するフレームの前記予測復号のピッチおよび/またはそれに関連するゲインの復号された値も使用することを特徴とする、請求項12に記載の方法。
デジタル音響信号エンコーダであって、
-前記デジタル信号のサンプルの先行するフレームを符号化するための予測符号化モジュール(211)と、
-前記デジタル信号のサンプルの現在のフレームを符号化するための変換符号化モジュール(221)と
を含み、
前記現在のフレームは、複数のサブフレームを含み、
前記先行するフレームの予測符号化の少なくとも1つのパラメータを再使用すること、および前記現在のフレームの第1のサブフレームの再使用されていないパラメータのみを符号化することにより、前記現在のフレームの前記第1のサブフレームを符号化するための、前記先行するフレームの前記予測符号化に対して制限された予測符号化モジュール(231)をさらに含むことを特徴とするデジタル音響信号エンコーダ。
デジタル音響信号デコーダであって、
-予測符号化によって受信および符号化された前記デジタル信号のサンプルの先行するフレームを復号するための予測復号モジュール(501)と、
-変換符号化によって受信および符号化された前記デジタル信号のサンプルの現在のフレームを復号するための逆変換復号モジュール(503)と
を含み、
前記現在のフレームは、複数のサブフレームを含み、
前記先行するフレームの前記予測復号の少なくとも1つのパラメータを再使用すること、および前記現在のフレームの第1のサブフレームについて受信された前記パラメータのみを復号することにより、制限された予測符号化によって受信および符号化された前記現在のフレームの前記第1のサブフレームを復号するための、前記先行するフレームの前記予測復号に対して制限された予測復号モジュール(505)をさらに含むことを特徴とするデジタル音響信号デコーダ。
プロセッサによってこれらの命令が実行されると、請求項1から請求項9のいずれか一項に記載の符号化方法のステップを実施するためのコード命令を含む、コンピュータプログラム。
プロセッサによってこれらの命令が実行されると、請求項10から請求項13のいずれか一項に記載の復号方法のステップを実施するためのコード命令を含む、コンピュータプログラム。