JP2017523471A

JP2017523471A - Ｆｄ／ｌｐｄ遷移コンテキストにおけるフレーム喪失管理

Info

Publication number: JP2017523471A
Application number: JP2017504685A
Authority: JP
Inventors: ジュリアン・フォール; ステファーヌ・ラゴ
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2014-07-29
Filing date: 2015-07-27
Publication date: 2017-08-17
Anticipated expiration: 2035-07-27
Also published as: CN113571070B; CN106575505B; EP3175444B1; US20170213561A1; ES2676834T3; CN113571070A; CN106575505A; FR3024582A1; JP7026711B2; JP2020091496A; US10600424B2; KR20170037661A; KR102386644B1; WO2016016567A1; US20200175995A1; JP6687599B2; US11475901B2; EP3175444A1

Abstract

本発明は、予測コーディングおよび変換コーディングを使用してエンコードされたデジタル信号をデコードするための方法に関し、以下のステップを備える。-予測コーディングパラメータのセットによってエンコードされた、デジタル信号の先行フレームを予測デコードするステップ(304)と、-エンコードされたデジタル信号の現在のフレームの喪失を検出するステップ(302)と、-先行フレームをエンコードする少なくとも1つの予測コーディングパラメータから、現在のフレームを置換するためのフレームを、予測によって生成するステップ(312)と、-先行フレームをエンコードする少なくとも1つの予測コーディングパラメータから、デジタル信号の追加セグメントを、予測によって生成するステップ(316)と、-デジタル信号の前記追加のセグメントを一時的に記憶するステップ(317)とを備える。

Description

本発明は、デジタル信号のエンコード/デコードの分野に関し、特に、フレーム喪失訂正に関する。

本発明は、交互するまたは組み合わされた音声および音楽を含み得る音のエンコード/デコードに有利に適合する。

低ビットレートの音声を効率的にコード化するために、CELP(「Code Excited Linear Prediction(符号励振線形予測)」)技術が推奨される。音楽を効率的にコード化するために、変換コーディング技術が推奨される。

CELPエンコーダは、予測コーダである。それらの目的は、声道をモデル化するための短期的線形予測、発声された期間中、声帯の振動をモデル化するための長期的予測、および、モデル化されなかった「イノベーション」を表すために、固定コードブック(ホワイトノイズ、代数励振)から由来する励振のような様々な要素を使用して音声再生をモデル化することである。

MPEG AAC、AAC-LD、AAC-ELD、またはITU-T G.722.1付録Cなどの変換コーダは、変換領域内の信号を圧縮するために、批判的にサンプルされた変換を使用する。「批判的にサンプルされた変換」という用語は、変換領域内の係数の数が、分析された各フレーム内の時間領域サンプルの数に等しい変換を称するために使用される。

組み合わされた音声/音楽を含む信号の効率的なコーディングのための1つの解決策は、少なくとも2つのコーディングモード、すなわち、CELPタイプである一方と、変換タイプである他方とのうち、経時的に最良の技術を選択することである。

これは、たとえば、コーデック3GPP AMR-WB+およびMPEG USAC(「Unified Speech Audio Coding」)のためのケースである。AMR-WB+およびUSACのためのターゲットアプリケーションは、会話ではなく、アルゴリズム遅れに関する厳格な制約のない配信および記憶サービスに対応する。

RM0(Reference Model 0)と呼ばれるUSACコーデックの初期バージョンは、M. Neuendorfらによる寄稿である「A Novel Scheme for Low Bitrate Unified Speech and Audio Coding- MPEG RM0」、2009年5月7日〜10日、第126回AES会議、に記述されている。このRM0コーデックは、多数のコーディングモードを交互し、
・音声信号の場合、AMR-WB+コーディングに由来する2つの異なるモード、すなわち、
- ACELPモード、
- FFT変換を使用するMDCT変換(AMR-WB+コーデックとは異なる)を使用する、wLPT(「weighted Linear Predictive Transform」)と呼ばれるTCX(「Transform Coded Excitation」)モード、を備えるLPD(「Linear Predictive Domain」)モード。
・音楽信号の場合、1024のサンプルを使用するタイプMPEG AAC(「Advanced Audio Coding」)のMDCT(「Modified Discrete Cosine Transform」)によるコーディングを使用するFD(「Frequency Domain」)モード。

USACコーデックでは、各モード(ACELP、TCX、FD)が、特定の「シグニチャ」(アーティファクトの観点から)を有し、FDモードとLPDモードが異なるタイプ、すなわち、FDモードは、信号領域における変換コーディングに基づく一方、LPDモードは、適切に管理されるべきフィルタメモリを備える知覚的に重み付けられた領域において線形予測コーディングを使用するということを認識して、LPDモードとFDモードとの間の遷移は、モード間の切り替えにおける誤りのない十分な品質を保証するために重要である。USAC RM0コーデックにおけるモード間の切り替えの管理は、J. Lecomteらによる寄稿である「Efficient cross-fade windows for transitions between LPC-based and non-LPC based audio coding」、2009年5月7日〜10日、第126回AES会議、に詳述されている。その寄稿において説明されているように、主な困難は、LPDモードからFDモードおよびその逆における遷移にある。我々は、ACELPからFDへの遷移のケースのみを本明細書で議論する。

その機能を適切に理解するために、我々は、その実施の典型例を使用してMDCT変換コーディングの原理を検討する。

エンコーダでは、MDCT変換は典型的に3つのステップに分割される。その信号は、MDCTコーディングの前に、M個のサンプルからなるフレームへ細分割される。
・本明細書において長さ2Mの「MDCTウィンドウ」と称されるウィンドウによって信号を重み付けるステップ。
・長さMのブロックを形成するために時間領域(「時間領域エイリアシング」)において折り重ねるステップ。
・長さMのDCT(「Discrete Cosine Transform(離散コサイン変換)」)変換。

MDCTウィンドウは、本明細書において「クォータ」と呼ばれる、等しい長さM/2の4つの隣接した部分へ分割される。

信号は、分析ウィンドウによって乗され、その後、時間領域エイリアシングが実行される。第1のクォータ(ウィンドウ)は、第2のクォータ上に折り重ねられ(言い換えると、時間反転およびオーバラップされ)、第4のクォータは、第3のクォータ上に折り重ねられる。

特に、別のクォータ上の1つのクォータの時間領域エイリアシングは、以下の方式で行われる。第2のクォータの第1のサンプルへ(または、から)加えられた(引かれた)第1のクォータの最後のサンプルまで、第1のクォータの第1のサンプルが、第2のクォータの最後のサンプルへ(または、から)加えられ(引かれ)、第1のクォータの第2のサンプルが、第2のクォータの最後の前のサンプルへ(または、から)加えられ(引かれ)るという具合である。

よって、我々は、4つのクォータから、2つのラップしたクォータを取得する。各サンプルは、エンコードされるべき信号の2つのサンプルの線形結合の結果である。この線形結合は、時間領域エイリアシングを含む。

2つのラップしたクォータは、その後、DCT変換後、統合的にエンコードされる(タイプIV)。次のフレームについて、先行フレームの第3および第4のクォータは、その後、ウィンドウの半分までシフトされ(50%オーバラップ)、その後、現在のフレームの第1および第2のクォータになる。ラップ後、先行フレームにおけるものと同じサンプルの同じペアの第2の線形結合が送信されるが、異なる重みを持つ。

デコーダでは、逆DCT変換後、我々は、これらラップされた信号のデコードバージョンを取得する。2つの連続したフレームは、同じクォータの2つの異なるオーバラップの結果を含む。これは、サンプルの各ペアについて、異なるが既知の重みを有する2つの線形結合の結果を我々が有することを意味する。よって、入力信号のデコードバージョンを取得するために、連立方程式が解かれ、よって、時間領域エイリアシングが、2つの連続してデコードされたフレームの使用によって除去され得る。

上述した連立方程式を解くことは、一般に、折り重なりを取り消し、思慮深く選択された合成ウィンドウによって乗じられ、その後、共通部分をオーバラップ追加することによって、暗黙的になされ得る。このオーバラップ追加はまた、2つの連続してデコードされたフレーム間のスムーズな(量子化誤りによる不連続なしの)遷移を保証し、クロスフェードとして有効に動作する。第1のクォータまたは第4のクォータのためのウィンドウが、各サンプルに関するゼロにおける場合、我々は、ウィンドウのその部分における時間領域エイリアシングなしで、MDCT変換を有する。そのようなケースでは、スムーズな遷移は、MDCT変換によって提供されず、たとえば外部クロスフェードのような他の手段によってなされねばならない。

特に、DCT変換の定義、変換されるべきブロックを折り重ねる方式(たとえば、1つのブロックが、左および右において折り重ねられたクォータへ適用される符号を反転し得るか、または、第1および第4のクォータ上に第2および第3の各々のクォータを折り重ね得る)等に関して、MDCT変換の変形実施が存在することが注目されるべきである。これら変形は、ウィンドウ化、時間領域エイリアシング、その後の変換、および最終的なウィンドウ化、折り重ね、およびオーバラップ追加によるサンプルブロックの減少によって、MDCT分析合成の原理を変えない。

CELPコーディングとMDCTコーディングとの間の遷移におけるアーティファクトを回避するために、本願において参照によって本願に組み込まれる国際特許出願WO2012/085451は、遷移フレームをコーディングするための方法を提供する。遷移フレームは、予測コーディングによってエンコードされた先行フレームに後続する変換によってエンコードされた現在のフレームとして定義される。前記新規の方法によれば、遷移フレームの一部、たとえば、12.8kHzにおけるコアCELPコーディングのケースにおける5ミリ秒のサブフレームと、16kHzにおけるコアCELPコーディングのケースにおける各々4ミリ秒の2つの追加CELPフレームは、先行フレームの予測コーディングよりもより限定された予測コーディングによってエンコードされる。

限定された予測コーディングは、たとえば、線形予測フィルタの係数のような予測コーディングによってエンコードされた先行フレームの安定なパラメータを使用するステップと、遷移フレームにおける追加サブフレームのための少数の最小パラメータのみをコーディングするステップとからなる。

先行フレームは、変換コーディングとともにエンコードされなかったので、このフレームの第1の部分において時間領域エイリアシングを取り消すことは不可能である。上記引用された特許出願WO2012/085451はさらに、通常折り重ねられた第1のクォータにおける時間領域エイリアシングを有さないようにMDCTウィンドウの前半を修正するステップを提案する。それはさらに、デコードされたCELPフレームと、デコードされたMDCTフレームとの間のオーバラップ追加(「クロスフェード」とも呼ばれる)の一部を、分析/合成ウィンドウの係数を変化させながら、統合するステップを提案する。前記特許出願の図4eを参照して示すように、(点と長点とが交互する)破線は、MDCTエンコードの折り重なり線(上図)と、MDCTデコードの非折り重なり線(下図)とに対応する。上図では、太線は、エンコーダに入る新たなサンプルのフレームを分離する。新たなMDCTフレームのエンコードは、このように定義された新たな入力サンプルのフレームが完全に利用可能である場合に始まり得る。エンコーダにおけるこれら太線は、現在のフレームではなく、各フレームのために新たに到来するサンプルのブロックに対応し、現在のフレームは、実際は、先読みに対応して5ミリ秒遅れていることに注目することが重要である。下図では、太線は、デコーダ出力においてデコードされたフレームを分離する。

エンコーダでは、遷移ウィンドウは、折り重なり点までゼロである。したがって、折り重ねられたウィンドウの左側の係数は、非折り重なりウィンドウのものと同一になるであろう。折り重なり点と、CELP遷移サブフレーム(TR)の終了との間の部分は、sin(半)ウィンドウに相当する。デコーダでは、広げられた後、信号に、同じウィンドウが適用される。折り重なり点と、MDCTフレームの先頭との間のセグメントでは、ウィンドウの係数は、sin²のタイプのウィンドウに相当する。デコードされたCELPサブフレームと、MDCTからの信号との間のオーバラップ追加を達成するために、CELPサブフレームのオーバラップ部分にcos²のタイプのウィンドウを適用し、MDCTフレームとともに後者を加えることが十分である。この方法は、完全な再構築を提供する。

しかしながら、エンコードされたオーディオ信号フレームは、エンコーダとデコーダとの間のチャネルにおいて喪失され得る。

既存のフレーム喪失訂正技術は、しばしば、使用されているコーディングのタイプに高く依存する。

たとえばCELPなどの、予測技術に基づく音声コーディングのケースでは、フレーム喪失訂正は、しばしば、音声モデルに結び付けられる。たとえば、ITU-T G.722.2規格は、2003年7月のバージョンにおいて、喪失パケットを減衰させながら、長期予測ゲインを延長し、LPCフィルタのA(z)係数を表す周波数スペクトルライン(「Immittance Spectral Frequency(イミタンススペクトル周波数)」、略してISF)を、それぞれの平均に向かわせながら延長することによって、喪失パケットを置換することを提案する。ピッチ期間も繰り返される。固定コードブック寄与は、ランダムな値で満たされる。そのような変換方法またはPCMデコーダの応用は、デコーダにおけるCELP分析を必要とする。これは、顕著な追加の複雑さをもたらすであろう。さらに、CELPデコードにおけるフレーム喪失訂正のより進化した方法は、8および12キロビット/秒のレートのみならず、AMR-WBと相互利用可能なデコードレートに関して、ITU-T G.718規格に記述されていることにも注目されたい。

別の解決策は、ITU-T G.711規格に表されている。その解決策は変換コーダを記述しており、「付録I」セクションにおいて議論されているその変換コーダに対するフレーム喪失訂正アルゴリズムは、既にデコードされた信号におけるピッチ期間を発見するステップと、既にデコードされた信号と、繰り返された信号との間にオーバラップ追加を適用することによってそれを繰り返すステップとからなる。このオーバラップ追加は、オーディオアーティファクトを消去するが、それを実施するために、(オーバラップ追加の持続時間に対応する)デコーダにおける追加時間を必要とする。

変換コーディングのケースでは、フレーム喪失を訂正するための一般的な技術は、受信された最後のフレームを繰り返すことである。そのような技術は、標準化された様々なエンコーダ/デコーダ(特にG.719、G.722.1およびG.722.1C)において実施される。たとえば、G.722.1デコーダのケースでは、50%のオーバラップとsinウィンドウとを用いたMDCT変換に等価なMLT変換(「Modulated Lapped Transform」)が、フレームの単純な繰り返しに関連するアーティファクトを消去するために、最後の喪失フレームと、繰り返されたフレームとの間の十分に緩やかな遷移を保証する。

そのような技術に対してコストはほとんどかからないが、その主な欠陥は、フレーム喪失の直前の信号と、繰り返された信号との間の不整合である。これは、MLT変換のために使用されるウィンドウが低遅延ウィンドウである場合におけるケースのように、2つのフレーム間のオーバラップの持続時間が小さいのであれば、顕著なオーディオアーティファクトをもたらし得るフレーズ不連続という結果になる。

既存の技術では、フレームが失われた場合、適切なPLC(packet loss concealment)アルゴリズムを使用して、デコーダにおいて、置換フレームが生成される。一般に、パケットは多数のフレームを含み得るので、PLCという用語は曖昧であり得、本明細書では、現在の喪失フレームの訂正を示すために使用される。たとえば、CELPフレームが正しく受信されデコードされた後、後続するフレームが喪失されると、CELPコーディングのために適切なPLCに基づく置換フレームが使用され、CELPコーダのメモリを活用する。MDCTフレームが正しく受信されデコードされた後、次のフレームが喪失されたのであれば、MDCTコーディングのために適切なPLCに基づく置換フレームが生成される。

CELPフレームとMDCTフレームとの間の遷移、および、遷移フレームはCELPサブフレーム(直接的に先行するCELPフレームと同じサンプリング周期である)と、「左」折り重ねをキャンセルアウトする修正MDCTウィンドウを備えるMDCTフレームとから構成されることを考慮したコンテキストでは、既存の技術が解決策を提供しない状況がある。

第1の状況では、前のCELPフレームが正しく受信およびデコードされ、現在の遷移フレームが喪失され、次のフレームがMDCTフレームである。このケースでは、CELPフレームの受信後、PLCアルゴリズムは、喪失フレームが遷移フレームであることを知らず、したがって、置換CELPフレームを生成する。したがって、以前に説明されたように、次のMDCTフレームの最初の折り重ねられた部分は補償されず、2つのタイプのエンコーダ間の時間は、(遷移フレームとともに喪失された)遷移フレームに含まれるCELPサブフレームで満たされ得ない。周知の解決策は、この状況に対処しない。

第2の状況では、12.8kHzにおける前のCELPフレームが、正しく受信およびデコードされ、16kHzにおける現在のCELPフレームが喪失され、次のフレームが遷移フレームである。その後、PLCアルゴリズムは、12.8kHzである最後に正しく受信されたフレームの周波数においてCELPフレームを生成し、(16kHzにおいて喪失したCELPフレームのCELPパラメータを使用して部分的にエンコードされた)遷移CELPサブフレームはデコードされ得ない。

国際特許出願WO2012/085451

M. Neuendorfら、「A Novel Scheme for Low Bitrate Unified Speech and Audio Coding - MPEG RM0」、2009年5月7日〜10日、第126回AES会議 J. Lecomteら、「Efficient cross-fade windows for transitions between LPC-based and non-LPC based audio coding」、2009年5月7日〜10日、第126回AES会議 ITU-T G.718規格、パラグラフ7.11.1.2「ISF estimation and interpolation」および7.11.1.7「Spectral envelope concealment, synthesis, and updates」 ITU-T G.722.2規格、付録I、パラグラフ1.5.2.3.3 パラグラフ7.11.1.3「Extrapolation of future pitch」、7.11.1.4「Construction of the periodic part of the excitation」、7.11.1.15「Glottal pulse resynchronization in low-delay」、7.11.1.6「Construction of the random part of excitation」

本発明は、この状況を改善することを目的とする。

この目的のために、本発明の第1の態様は、予測コーディングおよび変換コーディングを使用してエンコードされたデジタル信号をデコードするための方法であって、
- 予測コーディングパラメータのセットによってエンコードされた、デジタル信号の先行フレームを予測デコードするステップと、
- エンコードされたデジタル信号の現在のフレームの喪失を検出するステップと、
- 先行フレームをエンコードする少なくとも1つの予測コーディングパラメータから、予測によって、現在のフレームのための置換フレームを生成するステップと、
- 先行フレームをエンコードする少なくとも1つの予測コーディングパラメータから、予測によって、デジタル信号の追加セグメントを生成するステップと、
- デジタル信号のこの追加セグメントを一時的に記憶するステップと
を備える方法に関する。

よって、置換CELPフレームが生成される場合には常に、デジタル信号の追加セグメントが利用可能である。先行フレームの予測デコードは、正しく受信されたCELPフレームの予測デコード、または、CELPのために適切なPLCアルゴリズムによる置換CELPフレームの生成をカバーする。

この追加セグメントは、フレーム喪失のケースにおいてでさえ、CELPコーディングと変換コーディングとの間の遷移を可能にする。

確かに、上述された第1の状況では、次のMDCTフレームへの遷移は、追加セグメントによって提供され得る。以下に記述されるように、追加セグメントは、取り消されていない時間領域エイリアシングを含む領域におけるクロスフェードによって、このMDCTフレームの最初の折り重ねられた部分を補償するために、次のMDCTフレームへ追加され得る。

上述された第2の状況では、遷移フレームのデコードは、追加セグメントの使用によって可能となる。遷移CELPサブフレームをデコードすることが可能ではない(16kHzにおいてコーディングされた先行フレームのCELPパラメータが利用不可能)のであれば、以下に記述されるように、それを追加セグメントで置換することが可能である。

さらに、フレーム喪失管理および遷移に関連する計算は、時間的に拡散する。生成された各置換CELPフレームについて、追加セグメントが生成され、記憶される。したがって、後続する遷移の検出を待つことなく、フレーム喪失が検出された場合に、遷移セグメントが生成される。よって、この遷移は、各フレーム喪失とともに予想される。これは、新たな正しいフレームが受信されデコードされたときに、「複雑さスパイク」を管理する必要性を回避する。

1つの実施形態では、この方法はさらに、
- 変換によってエンコードされた少なくとも1つのセグメントを備えるエンコードされたデジタル信号の次のフレームを受信するステップと、
- デジタル信号の追加セグメントと、変換によってエンコードされたセグメントとをオーバラップ追加するサブステップを備える、次のフレームをデコードするステップとを備える。オーバラップ追加サブステップは、出力信号をクロスフェードすることを可能とする。そのようなクロスフェードは、(「リンギングノイズ」などの)音アーティファクトの発生を低減し、信号エネルギにおける整合性を保証する。

別の実施形態では、次のフレームが、変換コーディングによって全体的にエンコードされ、喪失された現在のフレームは、予測コーディングによってエンコードされた先行フレームと、変換コーディングによってエンコードされた次のフレームとの間の遷移フレームである。

あるいは、先行フレームが、第1の周波数において動作するコア予測コーダを介した予測コーディングによってエンコードされる。この変形では、次のフレームは、第1の周波数とは異なる第2の周波数において動作するコア予測コーダを介した予測コーディングによってエンコードされた少なくとも1つのサブフレームを備える遷移フレームである。この目的のために、次の遷移フレームは、使用されているコア予測コーディングの周波数を示すビットを備え得る。

よって、遷移CELPサブフレームにおいて使用されるCELPコーディング(12.8または16kHz)のタイプは、遷移フレームのビットストリームにおいて示され得る。よって、本発明は、遷移CELPサブフレームと先行CELPフレームとの間のCELPエンコード/デコードにおける周波数差の検出を可能にするために、遷移フレームへ体系的なインジケーション(1ビット)を追加する。

別の実施形態では、線形的な重み付けを適用する以下の式を適用することによって、オーバラップ追加が与えられる。

ここで、
rは、生成された追加セグメントの長さを表す係数であり、
iは、0とL/rとの間の、次のフレームのサンプルの時間であり、
Lは、次のフレームの長さであり、
S(i)は、サンプルiに関する、追加後の次のフレームの振幅であり、
B(i)は、サンプルiに関する、変換によってデコードされたセグメントの振幅であり、
T(i)は、サンプルiに関する、デジタル信号の追加セグメントの振幅である。したがって、オーバラップ追加は、実施することが簡単な線形結合および演算を使用して行われ得る。よって、これら計算のために使用されるプロセッサに少ない負荷しかかけずに、デコードのために必要な時間が低減される。あるいは、他の形式のクロスフェードが、本発明の原理を変更せずに実施され得る。

1つの実施形態では、予測によって置換フレームを生成するステップはさらに、
デコーダの内部メモリを更新するステップを備え、予測によってデジタル信号の追加セグメントを生成するステップは、
- 置換フレームの予測による生成中に更新されたデコーダのメモリから、テンポラリメモリへコピーするステップと、
- テンポラリメモリを使用して、デジタル信号の追加セグメントを生成するステップと
からなるサブステップを備え得る。

よって、デコーダの内部メモリは、追加セグメントの生成のために更新されない。その結果、追加の信号セグメントの生成は、次のフレームがCELPフレームであるケースにおいて、次のフレームのデコードにインパクトを与えない。

確かに、次のフレームがCELPフレームであれば、デコーダの内部メモリは、置換フレーム後、デコーダのステータスに対応しなければならない。

1つの実施形態では、予測によってデジタル信号の追加セグメントを生成するステップは、
- 先行フレームをエンコードする少なくとも1つの予測コーディングパラメータから、予測によって、追加フレームを生成するステップと、
- 追加フレームのセグメントを抽出するステップとからなるサブステップを備える。

この実施形態では、デジタル信号の追加セグメントは、追加フレームの前半に対応する。置換CELPフレームの生成のために使用される一時的な計算データが、追加CELPフレームの生成のために直接的に利用可能であるので、この方法の効率はさらに向上される。典型的には、一時的な計算データが記憶されるレジスタおよびキャッシュは、更新される必要はなく、追加CELPフレームの生成のためにこれらデータを直接的に再使用することが可能となる。

本発明の第2の態様は、プロセッサによって実行されたときに本発明の第1の態様による方法を実施するための命令を備えるコンピュータプログラムを提供する。

本発明の第3の態様は、予測コーディングおよび変換コーディングを使用してエンコードされたデジタル信号のためのデコーダであって、
- デジタル信号の現在のフレームの喪失を検出するための検出ユニットと、
- 以下の動作を実行するように構成されたプロセッサを備える予測デコーダと
を備え、その動作は、
*予測コーディングパラメータのセットによってコーディングされた、デジタル信号の先行フレームを予測デコードし、
*先行フレームをエンコードする少なくとも1つの予測コーディングパラメータから、予測によって、現在のフレームのための置換フレームを生成し、
*先行フレームをエンコードする少なくとも1つの予測コーディングパラメータから、予測によって、デジタル信号の追加セグメントを生成し、
*このデジタル信号の追加セグメントを、テンポラリメモリに一時的に記憶することである、デコーダを提供する。

1つの実施形態では、本発明の第3の態様に従うデコーダはさらに、以下の動作を実行するように構成されたプロセッサを備えた変換デコーダをさらに備え、その動作は、
*変換によってエンコードされた少なくとも1つのセグメントを備えるエンコードされたデジタル信号の次のフレームを受信し、
*デジタル信号の追加セグメントと、変換によってエンコードされたセグメントとの間のオーバラップ追加のサブステップを備える、次のフレームをデコードすることである。

エンコーダにおいて、本発明は、遷移サブフレームをコーディングするために使用されるCELPコアに関する情報を提供するビットの遷移フレームへの挿入を備え得る。

本発明の他の特徴および利点が、以下の詳細説明および添付図面を検討して明らかになるであろう。

本発明の1つの実施形態に従うオーディオデコーダを例示する図である。本発明の1つの実施形態に従う図1のオーディオデコーダなどのオーディオデコーダのCELPデコーダを例示する図である。本発明の1つの実施形態に従う図1のオーディオデコーダによって実施されるデコード方法のステップを例示する図である。本発明の1つの実施形態に従うコンピューティングデバイスを例示する図である。

図1は、本発明の1つの実施形態に従うオーディオデコーダ100を例示する。

オーディオエンコーダの構成は図示されていない。しかしながら、本発明に従ってデコーダによって受信されたエンコードされたデジタルオーディオ信号は、特許出願WO2012/085451に記述されているエンコーダなどの、CELPフレーム、MDCTフレーム、およびCELP/MDCT遷移フレームの形式でオーディオ信号をエンコードするように適合されたエンコーダから由来し得る。この目的のために、変換によってコーディングされた遷移フレームはさらに、予測コーディングによってコーディングされたセグメント(たとえば、サブフレーム)を備え得る。エンコーダはさらに、使用されているCELPコアの周波数を識別するために、遷移フレームへビットを追加し得る。CELPコーディングの例は、任意のタイプの予測コーディングに適用可能な説明を例示するために提供される。同様に、MDCTコーディングの例は、任意のタイプの変換コーディングに適用可能な説明を例示するために提供される。

デコーダ100は、エンコードされたデジタルオーディオ信号を受信するためのユニット101を備える。デジタル信号は、CELPフレーム、MDCTフレーム、およびCELP/MDCT遷移フレームの形式でエンコードされる。本発明の変形では、本発明の原理を変更することなく、CELPおよびMDCT以外のモードが可能であり、他のモードの組合せが可能である。さらに、CELPコーディングは、別のタイプの予測コーディングによって置換され得、MDCTコーディングは、別のタイプの変換コーディングによって置換され得る。

デコーダ100はさらに、現在のフレームが、CELPフレーム、MDCTフレーム、または遷移フレームであるかを、一般には、単に、ビットストリームを読み、エンコーダから受信したインジケーションを解釈することによって判定するために適合された分類ユニット102を備える。現在のフレームの分類に依存して、フレームは、CELPデコーダ103またはMDCTデコーダ104へ送信され得る(または、遷移フレームのケースでは両方であり、CELP遷移サブフレームが、以下に記述するデコードユニット105へ送信される)。それに加えて、現在のフレームが適切に受信された遷移フレームであり、CELPコーディングが少なくとも2つの周波数(12.8および16kHz)において生じ得る場合、分類ユニット102は、追加CELPサブフレームにおいて使用されるCELPコーディングのタイプを判定し得る。このコーディングタイプは、エンコーダから出力されたビットレートで示される。

CELPデコーダ構成103の例が、図2を参照して図示される。

逆多重化機能を含み得る受信ユニット201は、現在のフレームのためのCELPコーディングパラメータを受信するように適合される。これらパラメータは、励振を生成することができるデコードユニット202へ送信される励振パラメータ(たとえば、ゲインベクトル、固定コードブックベクトル、適応コードブックベクトル)を含み得る。それに加えて、CELPコーディングパラメータは、たとえば、LSFまたはISFとして表されるLPC係数を含み得る。LPC係数は、LPC係数をLPC合成フィルタ205へ提供するように適合されたデコードユニット203によってデコードされる。

ユニット202によって生成された励振によって励振される合成フィルタ205は、ディエンファシスフィルタ206(1/(1-αz^-1)の形式の関数、ここで、たとえばα=0.68)へ送信されるデジタル信号フレーム(または、一般に、サブフレーム)を合成する。ディエンファシスフィルタの出力において、CELPデコーダ103は、ITU-T G.718規格に記述されたものに類似の低周波数後処理(バスポストフィルタ207)を含み得る。CELPデコーダ103はさらに、出力周波数(MDCTデコーダ104の出力周波数)において合成された信号の再サンプリング208と、出力インターフェース209とを備える。本発明の変形では、CELP合成の追加の後処理は、再サンプリング前または後に実施され得る。

それに加えて、コーディング前にデジタル信号が高周波数帯域と低周波数帯域とに分割された場合、CELPデコーダ103は、高周波数デコードユニット204を備え得る。低周波数信号は、上述したユニット202〜208によってデコードされる。CELP合成は、
- 励振をデコードするために使用される状態、
- 合成フィルタ205のメモリ、
- ディエンファシスフィルタ206のメモリ、
- 後処理メモリ207、
- 再サンプリングユニット208のメモリなどのCELPエンコーダの内部状態を更新するステップ(または内部メモリを更新するステップ)を含み得る。

図1を参照して示すように、デコーダはさらに、フレーム喪失管理ユニット108およびテンポラリメモリ107を備える。

遷移フレームをデコードするために、デコーダ100はさらに、受信した信号のオーバラップ追加によって遷移フレームをデコードするために、MDCTデコーダ104から出力されたCELP遷移サブフレームおよび変換デコード遷移フレームを受信するように適合されたデコードユニット105を備える。デコーダ100はさらに、出力インターフェース106を備え得る。

本発明に従うデコーダ100の動作は、本発明の実施形態に従う方法のステップを図示する図である図3を参照することによってより良く理解されるであろう。

ステップ301では、エンコードされたデジタルオーディオ信号の現在のフレームが、受信ユニット101によってエンコーダから受信され得るか、または、受信され得ない。オーディオ信号の先行フレームは、適切に受信されデコードされたフレーム、または、置換フレームであると考えられる。

ステップ302では、エンコードされた現在のフレームが失われたか、または、受信ユニット101によって受信されたかが検出される。

エンコードされた現在のフレームが実際に受信されているのであれば、分類ユニット102は、ステップ303において、エンコードされた現在のフレームがCELPフレームであるか否かを判定する。

エンコードされた現在のフレームがCELPフレームであれば、この方法は、CELPデコーダ103によって、エンコードされたCELPフレームをデコードし、再サンプリングするステップ304を備える。CELPデコーダ103の上述した内部メモリは、その後、ステップ305において更新され得る。ステップ306では、デコードされ再サンプリングされた信号が、デコーダ100から出力される。現在のフレームの励振パラメータおよびLPC係数は、メモリ107に記憶され得る。

エンコードされた現在のフレームがCELPフレームではない場合、現在のフレームは、変換コーディングによってエンコードされた少なくとも1つのセグメント(MDCTフレームまたは遷移フレーム)を備える。その後、ステップ307は、エンコードされた現在のフレームが、MDCTフレームであるか否かをチェックする。MDCTフレームであれば、現在のフレームは、ステップ308においてMDCTデコーダ104によってデコードされ、デコードされた信号が、ステップ306においてデコーダ100から出力される。

しかしながら、現在のフレームがMDCTフレームではないのであれば、それは、ステップ306において、デコーダ100からの出力としてデジタル信号を取得するために、CELP遷移サブフレームと、MDCT変換によってエンコードされた現在のフレームとの両方をデコードし、CELPデコーダとMDCTデコーダとからの信号をオーバラップ追加することによって、ステップ309においてデコードされた遷移フレームである。

現在のサブフレームが喪失された場合、ステップ310において、受信されデコードされた先行フレームがCELPフレームであったか否かが判定される。CELPフレームでないのであれば、フレーム喪失管理ユニット108において実施される、MDCTのために適合されたPLCアルゴリズムが、ステップ311においてデジタル出力信号を取得するために、MDCTデコーダ104によってデコードされたMDCT置換フレームを生成する。

最後に正しく受信されたフレームがCELPフレームであれば、CELPのために適合されたPLCアルゴリズムは、ステップ312において、置換CELPフレームを生成するために、フレーム喪失管理ユニット108およびCELPデコーダ103によって実施される。

PLCアルゴリズムは、以下のステップを含み得る。
- ステップ313において、メモリに記憶されたLSF予測数量詞(これは、たとえばタイプARまたはMAであり得る)を更新しながら、先行フレームのLSFパラメータに基づくLSFパラメータとLPCフィルタとの内挿による推定。ISFパラメータのケースのためのフレーム喪失のケースにおけるLPCパラメータの推定の例示的な実施は、ITU-T G.718規格のパラグラフ7.11.1.2「ISF estimation and interpolation」および7.11.1.7「Spectral envelope concealment, synthesis, and updates」に与えられる。あるいは、ITU-T G.722.2規格、付録Iのパラグラフ1.5.2.3.3に記述された推定もまた、MAタイプ数量詞のケースにおいて使用され得る。
- ステップ313において、次のフレームのために、先行フレームの適合ゲインおよび固定ゲインに基づく励振を推定し、これら値を更新する。励振の例示的な推定は、パラグラフ7.11.1.3「Extrapolation of future pitch」、7.11.1.4「Construction of the periodic part of the excitation」、7.11.1.15「Glottal pulse resynchronization in low-delay」、7.11.1.6「Construction of the random part of excitation」に記述されている。固定コードブックベクトルは、典型的に、ランダム信号によって各サブフレームにおいて置換される一方、適合コードブックは、外挿されたピッチを使用し、先行フレームからのコードブックゲインは、典型的に、最後に受信されたフレームにおける信号のクラスに従って減衰されている。あるいは、ITU-T G.722.2規格、付録Iに記述された励振の推定もまた使用され得る。
- ステップ313において、励振および更新された合成フィルタ205に基づいて信号を合成し、先行フレームのための合成メモリを使用して、先行フレームのための合成メモリを更新する。
- ステップ313において、ディエンファシスユニット206を使用することによる、および、ディエンファシスユニット206のメモリを更新することによる、合成信号のディエンファシス。
- オプションで、ステップ313において、後処理メモリを更新しながら、合成信号を後処理するステップ207。後処理は、フレーム喪失訂正中は無効とされ得ることに注目されたい。なぜなら、後処理が使用する情報は、単純に外挿され、信頼性が低いからである。このケースでは、受信された次のフレームとの通常の動作を可能にするために、後処理メモリは未だに更新されるべきである。
- ステップ313においてフィルタメモリ208を更新しながら、再サンプリングユニット208によって出力周波数において合成信号を再サンプリングするステップ。

内部メモリを更新するステップは、CELP予測によってエンコードされる可能な次のフレームのシームレスなデコードを可能にする。ITU-T G.718規格では、フレーム喪失訂正後に受信されたフレームをデコードする場合、合成エネルギの回復および制御のための技術も(たとえば、節7.11.1.8および7.11.1.8.1において)使用されることに注目されたい。この態様は、本発明のスコープ外であるので、本明細書では考慮されない。

ステップ314では、この方式で更新されたメモリは、テンポラリメモリ107へコピーされ得る。デコードされた置換CELPフレームは、ステップ315においてデコーダから出力される。

ステップ316では、本発明に従う方法は、デジタル信号の追加セグメントの予測による生成を提供し、CELPのために適合されたPLCアルゴリズムを活用する。ステップ316は、以下のサブステップを備え得る。
- メモリに記憶されたLSF数量詞を更新することなく、先行CELPフレームのLSFパラメータに基づく、LSFパラメータの内挿およびLPCフィルタによる推定。内挿による推定は、上述されたように(メモリに記憶されたLSF数量詞を更新することなく)置換フレームの内挿による推定に関して同じ方法を使用して実施され得る。
- 次のフレームのためのこれら値を更新することなく、適合ゲインおよび先行CELPフレームの固定ゲインに基づく励振の推定。励振は、(適合ゲインおよび固定ゲイン値を更新することなく)置換フレームのための励振の決定に関して同じ方法を使用して決定され得る。
- 励振および再計算された合成フィルタ205に基づいて、および、先行フレームのための合成メモリを使用して、信号セグメント(たとえば、半フレームまたはサブフレーム)を合成するステップ。
- ディエンファシスユニット206を使用することによって合成された信号をディエンファシスするステップ。
- オプションで、後処理メモリ207を使用することによって合成された信号を後処理するステップ。
- 再サンプリングメモリ208を使用して、再サンプリングユニット208によって、出力周波数において合成された信号を再サンプリングするステップ。

これらステップの各々について、本発明は、これらステップを実行する前に、各ステップにおいて修正されたCELPデコード状態を、一時的な変数に記憶するステップを提供し、これによって、あらかじめ決定された状態が、一時的なセグメントの生成後、これら記憶された値へ戻され得るようになることに注目することが重要である。

生成された追加の信号セグメントは、ステップ317においてメモリ107に記憶される。

ステップ318では、デジタル信号の次のフレームが、受信ユニット101によって受信される。ステップ319は、次のフレームがMDCTフレームであるか遷移フレームであるかをチェックする。

そのようなケースではないのであれば、次のフレームはCELPフレームであり、それは、ステップ320においてCELPデコーダ103によってデコードされる。ステップ316において合成された追加のセグメントは使用されず、メモリ107から削除され得る。

次のフレームがMDCTフレームまたは遷移フレームであれば、それは、ステップ322においてMDCTデコーダ104によってデコードされる。並行して、メモリ107に記憶された追加のデジタル信号セグメントが、ステップ323において管理ユニット108によって取得され、デコードユニット105へ送信される。

次のフレームがMDCTフレームであれば、取得された追加の信号セグメントは、ユニット103が、ステップ324において、次のMDCTフレームの第1の部分を正しくデコードするために、オーバラップ追加を実行することを可能にする。たとえば、追加セグメントが、サブフレームの半分である場合、0と1との間の線形ゲインが、オーバラップ追加中に、MDCTフレームの前半へ適用され得、1と0との間の線形ゲインが、追加信号セグメントへ適用される。この追加信号セグメントがなければ、MDCTデコードは、量子化誤差による不連続という結果になり得る。

次のフレームが遷移フレームである場合、我々は、以下に見られるような2つのケースを区別する。遷移フレームのデコードは、「遷移フレーム」としての現在のフレームの分類のみならず、多数のCELPコーディングレートが可能である場合、CELPコーディングのタイプを示すインジケーション(12.8または16kHz)にも依存することを思い出して頂きたい。したがって、
- 先行CELPフレームが、第1の周波数(たとえば、12.8kHz)においてコアコーダによってエンコードされ、遷移CELPサブフレームが、第2の周波数(たとえば、16kHz)においてコアコーダによってエンコードされたのであれば、遷移サブフレームはデコードされ得ず、追加信号セグメントが、デコードユニット105に対して、ステップ322のMDCTデコードの結果得られた信号とのオーバラップ追加を実行することを可能にする。たとえば、追加セグメントがサブフレームの半分である場合、0と1との間の線形ゲインが、オーバラップ追加中に、MDCTフレームの前半へ適用され得、1と0との間の線形ゲインが、追加信号セグメントへ適用される。
- 先行CELPフレームと遷移CELPサブフレームとが同じ周波数においてコアコーダによってエンコードされたのであれば、遷移フレームをデコードしたMDCTデコーダ104から由来するデジタル信号とのオーバラップ追加のために、遷移CELPサブフレームが、デコードユニット105によってデコードされ使用され得る。

追加信号セグメントとデコードされたMDCTフレームのオーバラップ追加は、以下の式によって与えられ得る。

ここで、
- rは、生成された追加セグメントの長さを表す係数であり、この長さは、L/rに等しい。値rに制限はない。これは、追加信号セグメントと、デコードされた遷移MDCTフレームとの間の十分なオーバラップを可能にするように選択されるであろう。たとえば、rは、2に等しくなり得る。
- iは、0とL/rとの間の、次のフレームのサンプルに対応する時間であり、
- Lは、次のフレームの長さ(たとえば、20ミリ秒)であり、
- S(i)は、サンプルiに関する、追加後の次のフレームの振幅であり、
- B(i)は、サンプルiに関する、変換によってデコードされたセグメントの振幅であり、
- T(i)は、サンプルiに関する、デジタル信号の追加セグメントの振幅である。

オーバラップ追加後に取得されたデジタル信号は、ステップ325においてデコーダから出力される。

先行CELPフレームに続く現在のフレームの喪失がある場合、本発明は、置換フレームに加えて、追加セグメントの生成を提供する。いくつかのケースでは、特に、次のフレームがCELPフレームであれば、前記追加セグメントは使用されない。しかしながら、先行フレームのコーディングパラメータは再使用されるので、計算は、何ら追加の複雑性をもたらさない。対照的に、次のフレームが、MDCTフレームであるか、または、先行するCELPフレームをエンコードするために使用されるコア周波数とは異なるコア周波数におけるCELPサブフレームを伴う遷移フレームである場合、生成され記憶された追加信号セグメントは、次のフレームのデコードを可能にする。これは、先行技術の解決先では可能ではない。

図4は、CELPコーダ103およびMDCTコーダ104へ統合され得る例示的なコンピューティングデバイス400を表す。

デバイス400は、(CELPコーダ103またはMDCTコーダ104によって実施される)上述した方法のステップの実施を可能にする命令を記憶するためのランダムアクセスメモリ404およびプロセッサ403を備える。デバイスはまた、方法の適用後に保持されるべきデータを記憶するための大容量記憶装置405を備える。デバイス400はさらに、デジタル信号のフレームを受信すること、および、デコードされた信号フレームを送信することが各々意図されている入力インターフェース401および出力インターフェース406を備える。

デバイス400はさらに、デジタル信号プロセッサ(DSP)402を備え得る。

DSP402は、これらフレームを周知の方式でフォーマット、復調、および増幅するために、デジタル信号フレームを受信する。

本発明は、例として上述された実施形態に限定されず、他の変形まで及ぶ。

上記で我々は、デコーダが個別のエンティティである実施形態を記述した。もちろん、そのようなデコーダは、モバイル電話、コンピュータなどの任意のタイプの大型デバイスへ組み込まれ得る。

それに加えて、我々は、デコーダのための特定のアーキテクチャを提案する実施形態を記述した。これらのアーキテクチャは、例示的な目的のためにのみ提供される。これら構成要素の異なる構成、および、これら構成要素の各々に割り当てられたタスクの異なる分散も可能である。

100 オーディオデコーダ
101 受信ユニット
102 分類ユニット
103 CELPデコーダ
104 MDCTデコーダ
105 デコードユニット
106 出力インターフェース
107 メモリ
108 フレーム喪失管理ユニット
201 受信ユニット
202 デコードユニット
203 デコードユニット
204 高周波数デコードユニット
205 LPC合成フィルタ
206 ディエンファシスフィルタ
207 後処理メモリ
208 再サンプリングユニット
209 出力インターフェース
400 コンピューティングデバイス
401 入力インターフェース
402 デジタル信号プロセッサ
403 プロセッサ
404 ランダムアクセスメモリ
405 大容量記憶装置
406 出力インターフェース

Claims

予測コーディングおよび変換コーディングを使用してエンコードされたデジタル信号をデコードするための方法であって、
- 予測コーディングパラメータのセットによってエンコードされた、前記デジタル信号の先行フレームを予測デコードするステップ(304)と、
- 前記エンコードされたデジタル信号の現在のフレームの喪失を検出するステップ(302)と、
- 前記先行フレームをエンコードする少なくとも1つの予測コーディングパラメータから、予測によって、前記現在のフレームのための置換フレームを生成するステップ(312)と、
- 前記先行フレームをエンコードする少なくとも1つの予測コーディングパラメータから、予測によって、デジタル信号の追加セグメントを生成するステップ(316)と、
- デジタル信号の前記追加セグメントを一時的に記憶するステップ(317)と
を備える方法。
- 変換によってエンコードされた少なくとも1つのセグメントを備えるエンコードされたデジタル信号の次のフレームを受信するステップ(318)と、
- デジタル信号の前記追加セグメントと、変換によってエンコードされた前記セグメントとをオーバラップ追加するサブステップを備える、前記次のフレームをデコードするステップ(322; 323; 324)とをさらに備える、請求項1に記載の方法。
前記次のフレームが、変換コーディングによって全体的にエンコードされ、
前記喪失された現在のフレームは、予測コーディングによってエンコードされた前記先行フレームと、変換コーディングによってエンコードされた前記次のフレームとの間の遷移フレームである、請求項2に記載の方法。
前記先行フレームは、第1の周波数において動作するコア予測コーダを介した予測コーディングによってエンコードされ、
前記次のフレームは、前記第1の周波数とは異なる第2の周波数において動作するコア予測コーダを介した予測コーディングによってエンコードされた少なくとも1つのサブフレームを備える遷移フレームである、請求項2に記載の方法。
前記次のフレームは、使用されている前記コア予測コーディングの周波数を示すビットを備える、請求項4に記載の方法。
前記オーバラップ追加は、以下の式を適用することによって与えられ、

- rは、前記生成された追加セグメントの長さを表す係数であり、
- iは、0とL/rとの間の、前記次のフレームのサンプルに対応する時間であり、
- Lは、前記次のフレームの長さであり、
- S(i)は、サンプルiに関する、追加後の前記次のフレームの振幅であり、
- B(i)は、サンプルiに関する、変換によってデコードされた前記セグメントの振幅であり、
- T(i)は、サンプルiに関する、デジタル信号の前記追加セグメントの振幅である、請求項2から5のいずれか一項に記載の方法。
予測によって前記置換フレームを生成する前記ステップはさらに、前記デコーダの内部メモリを更新するステップ(313)を備え、
予測によってデジタル信号の追加セグメントを生成する前記ステップは、
- 前記置換フレームを予測によって生成する前記ステップ中に更新された前記デコーダのメモリから、テンポラリメモリ(107)へコピーするステップ(314)と、
- 前記テンポラリメモリを使用して、デジタル信号の前記追加セグメントを生成するステップ(316)とからなるサブステップを備える、請求項1から6のいずれか一項に記載の方法。
予測によってデジタル信号の追加セグメントを生成する前記ステップは、
- 前記先行フレームをエンコードする少なくとも1つの予測コーディングパラメータから、予測によって、追加フレームを生成するステップと、
- 前記追加フレームのセグメントを抽出するステップとからなるサブステップを備え、
デジタル信号の前記追加セグメントは、前記追加フレームの前半に対応する、請求項1から7のいずれか一項に記載の方法。
プロセッサによって実行されたときに請求項1から8のいずれか一項に記載の方法を実施するための命令を備えるコンピュータプログラム。
予測コーディングおよび変換コーディングを使用してエンコードされたデジタル信号のためのデコーダであって、
- 前記デジタル信号の現在のフレームの喪失を検出するための検出ユニット(108)と、
- 以下の動作を実行するように構成されたプロセッサを備える予測デコーダ(103)とを備え、前記動作は、
*予測コーディングパラメータのセットによってコーディングされた、前記デジタル信号の先行フレームを予測デコードし、
*前記先行フレームをエンコードする少なくとも1つの予測コーディングパラメータから、予測によって、前記現在のフレームのための置換フレームを生成し、
*前記先行フレームをエンコードする少なくとも1つの予測コーディングパラメータから、予測によって、デジタル信号の追加セグメントを生成し、
*デジタル信号の前記追加セグメントを、テンポラリメモリ(107)に一時的に記憶することである、デコーダ。
以下の動作を実行するように構成されたプロセッサを備えた変換デコーダ(104)をさらに備え、前記動作は、
*変換によってエンコードされた少なくとも1つのセグメントを備えるエンコードされたデジタル信号の次のフレームを受信し、
*変換によって前記次のフレームをデコードすることであり、
前記デコーダはさらに、デジタル信号の前記追加セグメントと、変換によってコーディングされた前記セグメントとの間のオーバラップ追加を実行するように構成されたプロセッサを備えるデコードユニット(105)を備える、請求項10に記載のデコーダ。