JP5324450B2

JP5324450B2 - 音声信号の符号変換のための方法及び装置

Info

Publication number: JP5324450B2
Application number: JP2009528672A
Authority: JP
Inventors: ヤクス，ペーター; コルドン，スヴェン
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2006-09-20
Filing date: 2007-09-06
Publication date: 2013-10-23
Anticipated expiration: 2027-09-06
Also published as: TWI423251B; WO2008034723A1; CA2662910A1; ZA200901367B; EP1903559A1; EP2064700B1; CA2662910C; US20090240507A1; US9093065B2; JP2010504544A; KR20090055579A; KR101341317B1; BRPI0718465A2; CN101563726A; EP2064700A1; TW200816167A

Description

本発明は、音声信号を符号変換する方法及び装置に関する。本発明は、音声圧縮、より具体的には、異なる知覚音声符号化（perceptual audio coding）フォーマットの間の符号変換の分野に関する。しかし、また、他の音声処理応用で本発明の基本概念を使用することも有利である。

語「音声符号変換（audio transcoding）」は、通常、特定の音声符号化フォーマットに従う音声信号を表すビットストリームの、異なる音声符号化フォーマットに従って編成されている他のビットストリームからの導出を意味する。この意味において、「符号変換」は、例えば、ＭＰＥＧ−ＡＡＣに準拠したビットストリームをＭＰＥＧ−１レイヤＩＩＩ（ｍｐ３）に準拠したビットストリームから得るプロシージャ全体を意味する。

しかし、本願で、語「音声符号変換」は、より技術的な意味において、１つのサブバンド又は変換領域から他への音声信号の変換を表すために使用されている。すなわち、この語は、プロシージャ全体ではなく、１つの表現から他の表現への変換における唯１つの主たるステップを表す。

非特許文献１から知られる一般的な知覚音声符号化の基本原理が図１に示されている。今日の音声信号の圧縮方法及びフォーマットは、概して、音声信号１０７のパラメータ１１０を表すために、時間−周波数解析１０２、すなわち、フィルタバンク又は変換を使用する。かかるパラメータは、量子化及び符号化１０４、エントロピー符号化１０５及びビットストリーム演算１０６を受ける。これらのステップの全てが、入力音声信号のサイコアコースティック解析１０１によって制御される。図２には、ビットストリーム演算２０１、エントロピー復号化２０２、ビット割り当て２０３、復号化及び逆量子化２０４並びに最後に時間周波数合成２０５を有する対応する一般的な知覚音声デコーダが示されている。時間−周波数合成２０５は、パラメータ２１２，２１３から時間領域信号２１４を生成する。

図１及び図２は、知覚音声コーデックの基本原理を例示し及び説明する。しかし、たとえ具体的な実装は幾分相違することがあるとしても、それらは、通常、時間−周波数解析及びその逆、時間−周波数合成を用いる。

ここで時間−周波数解析及び合成に着目すると、中間の符号化及び復号化のステップは更に考慮されない。

時間−周波数解析１０２に関して、多数の異なるアルゴリズムが今日の音声コーデックで使用されている。例えば、ＭＰＥＧ音声コーデック標準には、３２帯域疑似ＱＭＦ（quadrature mirror filter）フィルタバンクを使用するＭＰＥＧ−１レイヤＩ及びＩＩコーデックと、複合フィルタバンク、すなわち、３２帯域疑似ＱＭＦフィルタバンクに続いてＭＤＣＴ（modified DCT）フィルタバンクを用いるＭＰＥＧ−１レイヤＩＩＩとが含まれる。ＭＤＣＴフィルタリング（デフォルトは１８ｂｉｎであり、過渡（transient）のために６ｂｉｎまで減らされる。）は、５７６又は１９２ｂｉｎのスペクトル分解を夫々もたらす。ＭＰＥＧ−ＡＡＣコーデック及びその派生物は、（過渡のために２５６ｂｉｎまで低減される）１０２４ｂｉｎのデフォルト分解能を有する全帯域ＭＤＣＴアプローチを使用する。音声フレームは、しばしば、ある程度、例えば５０％、一時的に重ね合わされる。これは、所謂フレームアドバンス（１００％−重複）×フレームサイズを定義する。続いて、時間−周波数解析１０２の出力と時間−周波数合成２０５の入力との間の領域（このとき、エンコーダの出力信号１１６はデコーダへの入力２０６である。）は、特定の音声符号化フォーマットが時間−周波数解析のためにフィルタバンク又はブロック変換を使用するかどうかに関わらず、「周波数領域」又は「パラメータ領域」と表される。

存在及び出現する音声フォーマットの増え続ける数により、音声コンテンツを１つのビットストリームフォーマットから他のフォーマットへ符号変換するためのアルゴリズムの必要性が生じている。図３には、今日一般的に使用されている音声符号変換へのアプローチが示されている。それは、図１及び図２で既に記載されている利用可能な標準モジュールのみを含む。ソースフォーマットで符号化される入力ビットストリームは、連続する時間領域ＰＣＭ信号ＴＤにデコードされる（ＤＥＣ＿Ａ）。次いで、独立したエンコーダＥＮＣ＿Ｂは、目的のフォーマットに従う新たなビットストリームを生成する。信号処理ブロックの間のインターフェースのみが、デコーダからエンコーダへ送られる時間領域音声信号ＴＤである。

このアプローチは使用が簡単であるが、以下の問題が生ずる。第１に、２つのブロックＤＥＣ＿Ａ、ＥＮＣ＿Ｂは互いに知らないので、時間−周波数解析プロシージャは非同期でありうる。すなわち、概して、信号品質の劣化、所謂タンデム誤差をもたらす復号化（逆量子化）及び符号化（量子化）のための動作の連続が存在する。第２に、アプローチの計算複雑性が高く、これにより、その複雑性を有意に低減することが望ましい。

ある程度はソースフォーマット及び目的のフォーマットに共通するあるサイド情報が、デコーダによって取り出されて、エンコーダで再使用される場合に、より良い符号変換結果が得られる。図４ａには、このアプローチの例が示されている。このアプローチは、例えば、ドルビー（登録商標）ＡＣ−３からＢＳＡＣ（Bit Sliced Arithmetic Coding）フォーマットへの符号変換に使用され得る（非特許文献２）。この具体例で、ＡＣ−３ビット割り当ては、ＢＳＡＣエンコーダ内の新たなビット割り当て４０３を導出し及び制御するために再使用され得る。ソースビットストリームからサイド情報ＳＩを再使用することに加えて、時間−周波数合成及び解析プロシージャは、時間的に同期する。この場合に、図４ａの高度な概念は、前出の符号変換スキームに比べて計算複雑性を低減し、目的の信号の品質をより良いものとする。

ソース及び目的のビットストリームのコーデックフォーマットがそれらの時間−周波数解析領域に関して同じである、すなわち、解析及び合成のブロックが完全に相補的である（例えば、所与のデータレートからより低いデータレートへのｍｐ３ビットストリームの符号変換。）場合には（及びその場合にのみ）、その符号変換は、図４ｂに示されるように、更に簡単化され得る。時間−周波数解析及び合成プロシージャは削除され得る。これにより、データレートの変更が、例えば、あるパラメータを再量子化することによって、パラメータ領域ＰＤで直接的に行われる。また、ソースビットストリームからのサイド情報、例えば、ビット割り当てを再使用することも有利である。

T.Painter、A.Spanias、「Perceptual Coding of Digital Audio」、ＩＥＥＥ議事録８８巻、２０００年 Kyoung Ho Bang、Young Cheol Park、Dae Hee Youn、「Audio Transcoding Algorithm for Mobile Multimedia Application」、ＩＣＡＳＳＰ議事録３巻、２００６年

異なる時間−周波数解析領域を有する符号化フォーマットの間での符号変換のための簡単な方法及び装置が欠けていることは、上記記載から明らかである。本発明の１つの観点は、このような、具体的には、異なる時間−周波数解析領域を有する音声信号の間での容易化された且つより速い符号変換のための、方法及び装置を提供することである。

本発明は、ソースパラメータ領域から目的のパラメータ領域への線形マッピングを使用する。目的のパラメータは、２又はそれ以上の入力フレームからのソースパラメータに依存する。これは、複雑性が低い異なる時間−周波数解析領域の間での符号変換を可能にし、従来の処理による信号劣化の問題を防ぐ。

従来の符号変換アプローチの時間−周波数合成及びその後の時間−周波数解析が線形演算として表され得ることが認識されている。しかし、これらは、通常、時間変化する（time variant）。

本発明の１つの観点に従って、音声信号を（時間領域とは対照的な）第１又は入力パラメータ領域から第２又は出力パラメータ領域に符号変換する方法は、前記入力パラメータ領域のパラメータを前記出力パラメータ領域のパラメータへマッピングするステップを有し、少なくとも１つの出力パラメータは２又はそれ以上の入力パラメータに線形依存する（すなわち、出力パラメータは、２又はそれ以上の入力パラメータの線形結合である。）。この２又はそれ以上の入力パラメータは、２又はそれ以上の異なる入力フレームから得られる。

一実施形態で、前記出力パラメータと前記２又はそれ以上の入力パラメータとの間の関係を表すマッピング及び変換は時間変化する。しかし、フレーム構造化されている入力及び／又は出力フォーマットに関して、それは、複数の時間不変の関係のシーケンスである。これは、特に、入力パラメータ領域の時間−周波数解析及び出力パラメータ領域の時間−周波数合成の（フレームの時間的な重複を表す）フレームアドバンスが相違する場合に有利である。

一実施形態で、時間変化するマッピングは、周期的に繰り返す。すなわち、それは、時間不変のマッピングの周期的な繰り返しである。

一実施形態で、マッピングは、異なるソースフレームから部分入力ベクトルをマッピングするサブステップを有する。かかる部分入力ベクトルは、次いで、単一出力フレームについて合算され、又は重ね合わされる。

一実施形態で、スーパーフレームが、整数個の出力フレームに対応する整数個の入力フレームにわたって作られる。この整数個は、入力及び出力フォーマットのフレーム長さ及びフレームシフトに依存する。１つのスーパーフレームは、時間変化するマッピングの１又はそれ以上の繰り返し周期に対応しうる。

一実施形態で、時間変化する関係の各時間不変の位相は、入力フォーマット信号の複数の連続するフレームから入力を得て、出力フォーマット信号の１つのフレームについて出力を生成する線形な動作として表される。このように、かかる周期的な繰り返しから、スーパーフレームについての線形動作のシーケンスが得られる。

一実施形態で、時間変化するマッピングは、予め計算されている変換係数についてのルックアップテーブルを用いる線形変換のシーケンスとして実施される。しかし、他の実施形態では、線形変換は、入力パラメータに適用される所定の解析表示、例えば関数である。
一実施形態では、第１のパラメータ領域及び第２のパラメータ領域は、時間解析窓を用いる時間−周波数解析に基づき、第２のパラメータ領域に対する時間−周波数解析は、長い解析窓及び短い解析窓を使用し、線形に変換するステップは、長い解析窓及び短い解析窓ごとに異なる。

本発明の利点は、連続した時間領域信号を伝送しない１つのパラメータ領域から他のパラメータ領域への直接的な線形変換に必要とされる計算複雑性が、連続した時間領域信号を介する従来のストレートフォワード符号変換プロシージャに比べて著しく低い点である。

他の利点は、符号変換の品質と計算複雑性との間のトレードオフが、周波数選択方式においてさえ、時間的に変化するアプリケーション要求に適合され得る点である。

更なる利点は、単一の線形変換を介する直接的な符号変換が、時間領域信号を介する従来の符号変換スキームに比べて、数値的により良く調整される点である。ソース領域の特定のパラメータｂｉｎの影響は、目的の領域の狭い範囲のパラメータｂｉｎに限定されるので、（例えば、従来の符号変換の固定小数点実装（fixed-point implementation）に共通する）量子化の広まった効果及び不正確な算術演算は最小限とされる。

本発明の有利な実施形態は、従属請求項、以下の記載及び図面において開示される。

本発明の例となる実施形態を、添付の図面を参照して記載する。

一般的な知覚音声エンコーダの構造一般的な知覚音声デコーダの構造従来のストレートフォワード符号変換ビット割り当ての再使用を伴う従来の符号変換同一の音声フォーマット間の従来の符号変換異なるパラメータ領域の間の直接的な符号変換異なるフレームアドバンスを有する異なる時間−周波数領域の間の符号変換ｍｐ３及び可逆拡張（lossless extension）の複合型の音声フォーマットのためのエンコーダｍｐ３及び可逆拡張の複合型の音声フォーマットのためのデコーダ例となる変換マトリクスの係数例となる変換マトリクスの詳細パラメータ領域にある異なる音声フォーマットの間の符号変換器の構造

図５には、異なるパラメータ領域ＰＤ_Ａ、ＰＤ_Ｂを有する２つのフォーマット間でのパラメータ領域における直接的な符号変換（transcoding）が示されている。ソースフォーマットＡ、例えばｍｐ３に従う多数の隣接するパラメータフレーム５０１は、ソースフォーマットの時間−周波数解析スキームによって、前もってＰＣＭ音声信号から取り出されている（図示せず。）。各フレームｍ−１，ｍ，ｍ＋１は、多数のパラメータを有しており、ソースパラメータ領域ＰＤ_Ａでパラメータベクトルとして見なされる。線形変換マトリクスＴ_Ｔは、入力されるパラメータベクトル５０１へ適用され、出力フォーマットＢの出力パラメータ領域ＰＤ_Ｂでのフレームに対応する出力パラメータベクトル５０２を提供する。

単一の出力フレームｎに関し、変換又はマッピングは時間変化する。変換マトリクスＴ_Ｔが同時に複数の入力フレームに適用されるのか、あるいは、別個の変換マトリクスが（同時に又は連続して）夫々の入力フレームに適用されて、部分的な結果が合計されるのかに関わらず、結果として得られるマトリクスＴ_Ｔは、変換ステップが線形であることから、いずれの場合にも同じである。

原理上は、変換マッピングＴ_Ｔは、従来の処理５１０の全てのサブステップを対象とする。このとき、各パラメータベクトルＰ_Ａ（ｍ），Ｐ_Ａ（ｍ＋１）．．．は、線形変換マトリクスＴ_ＳＡ（Ｓ_Ａは、ソースフォーマットに従う合成を意味する。）との乗算によって、対応する時間領域セグメントに変換される。この例で、時間セグメントは重なり合っており、デコードされた連続する時間領域ＴＤ_Ｃ音声信号５０４を得るよう重複加算プロシージャ５０３に供給される。次いで、目的のフォーマットＢに従う時間−周波数解析が、従来の符号変換処理で行われる。連続する時間領域信号５０４は、（通常）重複するセグメントの連続に分解される（５０５）。このとき、重複は、フォーマットＡによって用いられる重複とは異なっても良く、その場合に、セグメントベクトルは、マトリクスＴ_ＡＢ（Ａ_Ｂは、フォーマットＢに従う解析（Ａ）を意味する。）との乗算によって、目的のパラメータ領域ＰＤ_Ｂに変換される。目的のフォーマットＢはソースフォーマットＡとは異なるフレームシフトを適用することができるので、別のフレームインデックスｎが使用される。

先の記載及び図５は、それらが、今日音声符号化で実際に関与する全ての時間−周波数解析スキームを対象とするという意味で一般的である。マトリクスＴ_ＳＡ及びＴ_ＡＢは、線形ブロック変換及び線形フィードフォワード（ＦＩＲ，finite impulse response）フィルタバンクに基づく如何なる時間−周波数合成又は解析スキームも正確に表すことができる。例えば、ｍｐ３コーデックの複合型フィルタバンクのカスケード構造は、マトリクスＴ_ＳＡ及びＴ_ＡＢで結合され得る。また、線形不完全再構成（linear non-perfect reconstructing）フィルタバンク又は変換が対象とされる。ＩＩＲ（infinite impulse response）フィルタバンクに関し、十分に正確な表現が、無視可能な値をクリッピングすることによって有限インパルス応答により無限インパルス応答を近似することによって定式化され得る。

本発明に従う符号変換の考えは、符号変換処理に含まれる時間−周波数合成及び解析ステップＴ_ＳＡ，Ｔ_ＡＢ並びに重複加算及びセグメンテーションブロック５０３，５０４の線形性を利用する。時間−周波数合成Ｔ_ＳＡ、重複加算５０３、セグメンテーション５０５及び時間―周波数解析Ｔ_ＡＢは、単一の線形変換Ｔ_Ｔによって置換される。これにより、有利に、連続する時間領域信号５０４を発生することが不要となる。

以下で、線形変換Ｔ_Ｔの幾つかの特性について記載する。

変換マトリクスＴ_Ｔの正確な導出は可能であるが、自明でなく（non-trivial）ても良い。解析的な導出プロシージャに加えて、目的のパラメータ領域にある目的のフレームに対するソースパラメータ領域の各パラメータ要素（例えば、スペクトルｂｉｎ）の線形寄与をシミュレーションし及び測定することによってマトリクスを作り上げることが可能である。マトリクスＴ_Ｔは、例えば、解析表示によって又はルックアップテーブルによって表され得る。

従来の変換パスでの幾つかの連続的な時間セグメントの重複加算５０３の結果として、線形変換Ｔ_Ｔは、概して、１対１ではなく、多対１のマッピングである。それは、ソース領域の少なくとも２つの、通常３又はそれ以上のフレームが目的の領域の１つのフレームに作用することを意味する。逆に、ソース領域の各フレームは、目的の領域の１よりも多いフレームに作用する。

パラメータ領域Ａ及びＢを定義する時間−周波数解析及び合成プロシージャは線形であると考えられるが、それは通常時間変化する。従って、直接変換Ｔ_Ｔは、ソース領域の時間セグメント対目的の領域の時間セグメントの時間領域同期化に依存する。言い換えると、表現Ａ及びＢについてのフレーム間の時間的差異の変化は、概して、他の直接変換マトリクスＴ_Ｔをもたらす。結果として、ソースフォーマットの時間−周波数合成及び目的のフォーマットの時間−周波数解析のフレームシフトが異なる場合は、マトリクスＴ_Ｔは時間変化する。図６には、ＭＰＥＧ−ＡＡＣ（１０２４個のサンプルのフレームアドバンス）とｍｐ３（５７６個のサンプルのフレームアドバンス）との間の符号変換についての例が示されている。時間変化する変換は、（ウィンドウ切替スキームを無視して）この場合に用いられる１６個の時間不変の変換とマトリクスＴ_Ｔのシーケンスを有する。図６は、ＡＡＣ及びｍｐ３について周波数領域ベクトルのシーケンスを示す。異なるフレームアドバンスに起因して、フレーム間の時間シフトは時間とともに変化する。ＡＡＣ及びｍｐ３のフレーム間の等しい時間シフトは、９個のＡＡＣフレーム又は１６個のｍｐ３フレームの周期の後に夫々起こる。この例で、この周期はスーパーフレーム（superframe）である。各スーパーフレームで、１６個の異なる所定の変換マトリクス（例えば、テーブル）は、ＡＡＣ領域から１６個のｍｐ３フレームへの符号変換のために使用される。この変換シーケンスは、各スーパーフレームについて繰り返す。このように、（スーパーフレーム内の）変換は時間変化する。

一般に、スーパーフレーム内の周期的なシーケンスにおける変換の数は、目的のフォーマットにおけるフレームの数に対応する。例えば、ｍｐ３からＡＡＣへの符号変換に関して、時間変化する変換は、スーパーフレーム９ｍ，９ｍ＋１，．．．，９ｍ＋８の各フレームにつき１つである９個の時間変化する変換を有する。フレーム間の関係は、図６と比較してこの場合には反対である。例えば、２番目のＡＡＣフレーム９ｍ＋１は５個のｍｐ３フレーム１６ｍ，．．．，１６ｍ＋４に依存する。しかし、変換の線形性により、１つのソースフォーマットフレームから１つの目的フォーマットフレームへの別個の変換を実行し、目的のフレームを得るために必然的な結果ベクトルを合算することも可能である。本例に関して、このことは、目的のフレームごとの４０の変換のシーケンス及び必要とされる加算をもたらす。

語「フレームアドバンス」は、連続する時間−周波数解析フレームの相互シフトを表す。これは、連続するフレームの時間的な重複に依存し、フレームの時間的な存続期間とは異なるものである。

２つの含まれる時間−周波数解析プロシージャが隣接するパラメータｂｉｎの適切な分離を示す場合及び更にスペクトル分解が同じである場合に、変換マトリクスＴ_Ｔは、通常まばら（sparse）であり、事実上対角である。すなわち、Ｔ_Ｔの大部分は零に等しく、変換において考慮される必要はない。従って、マトリクスＴ_Ｔを用いた線形変換による符号変換は、連続する時間領域信号を介する従来の符号変換方法に比べて、計算的に極めて複雑でないと期待され得る。

例となる変換マトリクスが図９に示されている。グレーレベルは、ｍｐ３複合型フィルタバンクから全帯域ＭＤＣＴへ（いずれも長い窓を有する）の符号変換のための変換マトリクスＴ_Ｔの係数の大きさを対数で示す。例えば、３つの連続するｍｐ３フレームが目的のＭＤＣＴフレームに作用する。暗領域での係数の値は、明領域での値よりも高い。この例で、変換係数の９７．７％の大きさは−６０ｄＢを下回る。かかる係数は、符号変換に関して無視され得る。これにより、マトリクス乗算は、非常に小さい計算努力で実現され得る。

図１０は、グレーレベル符号に代えて３次元バーグラフとして表される、図９の中央部の詳細を示す。表されている４１×４１＝１６８１個の係数のうち、ほとんどは−６０ｄＢを下回り（−８０ｄＢでクリッピングされ）、すなわち、無視可能である。理想的には、線形領域沿いの数個の係数のみが該当レベルの値を有する。この解析的に得られる例で、更に、１８個のｂｉｎの周期的な距離にある線形領域を超える付加的な領域は、ｍｐ３複合フィルタバンクでのエイリアシング歪み効果によって引き起こされる無視できない値を有する。すなわち、たとえエイリアシング補正が複合ｍｐ３フィルタバンクで適用されたとしても、相当量のエイリアシング要素が残る。このエイリアシングは、全帯域ＭＤＣＴの場合には存在しない。

時間変化する変換に関して、図９及び図１０に従う変換マトリクスＴ_Ｔは、１つの出力フレーム（すなわち、各スーパーフレーム内の特定のフレーム）について有効であり、一方、他の出力フレームについては係数が異なる。

計算複雑性は、周波数選択精度条件を考慮に入れることによって更に低減され得る。例えば、ｍｐ３コアビットストリームが低ビットレートを有する場合は、高周波ｂｉｎは概してエンコードされず、それらはデコーダで零に設定される（すなわち、マスキングされる）。この場合に、符号変換Ｔ_Ｔの高周波部分は削除され得る。一般に、如何なる周波数範囲も容易にマスキングされ得る。マスキングは、また、例えば、サイド情報に含まれるビット割り当てに基づいて、時間変化し及び／又は信号依存しうる。この容易且つフレキシブルなマスキングは、連続する時間領域信号を介する従来の符号変換に比べて有利である。

原理上は、変換マトリクスＴ_Ｔは、要するに、目的のフレームの各周波数ｂｉｎについての変換を表す。変換の線形性により、変換マトリクスはサブマトリクスに分化され得る。サブマトリクスの幾つかは、また、（例えば、ある目的の周波数ｂｉｎが必要とされない場合に、）無視され得る。このように、全体の変換からのスライス又はシェアは、実際に計算される必要があるものが選択される。この目的のために、例えば、ソース及び／又は目的のフレームのビット割り当て等のサイド情報又は支配的な周波数が評価され得る。

符号変換の必要とされる精度が周波数選択である場合に、変換マトリクスＴ_Ｔの使用は時間変化しうる。例えば、１つの圧縮音声フォーマットから他のフォーマットへの符号変換において、符号変換精度についての周波数依存の必要条件は、ソース又は目的の音声フォーマットのビット割り当ての関数として決定され得る。例えば、より低い符号変換精度を要求する目的の周波数ｂｉｎに関して（１つの可能な理由は、割り当てられるビットの数が小さいことである。）、符号変換係数を計算する場合に考慮されるべきマトリクスＴ_Ｔの非零要素は、より少ない。このようにして、計算複雑性は更に低減され得る。

開示される符号変換スキームにより、ソース領域の各パラメータｂｉｎの影響は、目的の領域にある極めて限られたパラメータｂｉｎの組に制約される。従って、提案されるスキームの数値的挙動は、時間領域信号を介する従来の符号変換に関してよりもずっと良く調整される。従来の符号変換では、周波数スペクトルのある部分での強い信号要素は、時間−周波数合成及び解析プロシージャの数値的な不正確性のために、符号変換されるパラメータ領域にあるスペクトル全体に影響を及ぼしうる。

本発明の１つの例となる実施形態は、ＭＰＥＧ−１レイヤＩＩＩ（ｍｐ３）で用いられる複合フィルタバンクに従うパラメータ領域から、全帯域ＭＤＣＴ又は整数ＭＤＣＴに従う目的のパラメータ領域へと同一のフレームアドバンス及び同量の周波数ｂｉｎを有して符号変換を行うことに関する。応用例は、埋め込まれるｍｐ３ビットストリームの上での音声ＰＣＭサンプルの複合可逆符号化である。ここで、開示される高速符号変換スキームは、デコードされたｍｐ３からの全帯域整数ＭＤＣＴｂｉｎの予測のために使用される。なお、符号変換は、ｍｐ３ｂｉｎの唯一の現在のフレームよりも多くを伴うことができる。

図７には、夫々のエンコーダ信号フローが示されている。エンコーダ信号フローの下側部分は、多相フィルタバンク及びデシメーション（decimation）７０１と、セグメンテーション及びＭＤＣＴ７０２と、高速フーリエ変換ＦＦＴ７０４と、サイコアコースティック解析７０５と、ビット割り当て及び量子化器７０３と、サイド情報エンコーダ７０６と、マルチプレクサ（ＭＵＸ）７０７とを有する従来のｍｐ３エンコーダを表す。複合可逆エンコーダの上側の信号パスでは、並列セグメンテーション及び全帯域整数ＭＤＣＴ７０９が適用される。全帯域ＭＤＣＴのためのセグメンテーション及び制御は、ｍｐ３コアコーデックと同じ適合ウィンドウ切替スキームを提供する。また、全帯域整数ＭＤＣＴのスペクトル分解は、ｍｐ３フィルタバンクの時間変化するスペクトル分解に従って制御される。２つの並行する時間−周波数解析プロシージャの簡便な同期化のために、特に、１よりも多いｍｐ３フレーム（通常は３又はそれ以上）を伴う符号変換係数が用いられる場合は、ＰＣＭサンプルの遅延７０８が、整数ＭＤＣＴ及び対応するセグメンテーション７０９の前に導入されるべきである。

全帯域整数ＭＤＣＴ７０９及びその後の信号処理ブロックの目的は、時間領域ＰＣＭサンプルの数学的に可逆の符号化を可能にすることである。従って、可逆的な整数ＭＤＣＴが使用される。その考えは、ＭＰＥＧ−ＳＬＳ（scalable to lossless）音声コーデックで適用される原理と比較される。なお、この考えは、全帯域ＭＤＣＴｂｉｎからの逆量子化され且つ丸められたｍｐ３周波数ｂｉｎの減算に基づく。しかし、ｍｐ３フィルタバンクと全帯域ＭＤＣＴとの間の有意な相違のために、単に全帯域ＭＤＣＴｂｉｎからこれらの逆量子化され且つ丸められたｍｐ３周波数ｂｉｎを減ずることによって残余信号を計算することは、低レート可逆符号化に必要とされる信号エントロピーの十分な低減につながらない。従って、本発明に従う開示される符号変換スキームは、ｍｐ３ｂｉｎから全帯域ＭＤＣＴｂｉｎのより正確な予測を決定するようエンコーダ及びデコーダで使用される。このため、（マトリクスＴ_Ｔを介する）符号変換係数７１１は、概して、その係数を逆量子化した（逆量子化７１０）後、少なくとも３つのｍｐ３フレームを考慮に入れる。

ｍｐ３フィルタバンク７０１は短い解析／合成窓と長い解析／合成窓との間の信号適応切替を適用するので、変換マトリクスＴ_Ｔは時間変化する（図７には示さず。）。異なる変換が長い窓、短い窓及び遷移位相に適用される。例えば、２又はそれ以上の隣接する変換は１つにマージされ得、あるいは、１つの変換は２又はそれ以上に分けられ得る。これにより、スーパーフレームごとの異なる時間不変変換の数はストリーム内で変化することができる。

上述されるように、計算複雑性は、周波数選択性、例えば、符号変換係数Ｔ_Ｔの高周波部分及び／又は低周波部分を削除することによって、更に低減され得る。

可逆のｍｐ３復号化のための夫々のデコーダが図８に示されている。デコーダの符号変換及び丸め込み８０５は、エンコーダの符号変換及び丸め込み７１１と同じである。また、逆量子化器７１０，８０３は、エンコーダ及びデコーダで同じである。可逆復号化プロシージャ８０２は、可逆符号化プロシージャ７１３に対して相補的であり、サイド情報デコーダ８０４は、サイド情報エンコーダ７０６に対して相補的である。

他の実施形態は、異なる音声フォーマットの間の高速な符号変換を対象としており、語「符号変換」、すなわち、１つの圧縮フォーマットから他への音声コンテンツの変換のこれまでの理解に関連する。一般に、符号変換は、ソースフォーマットのいずれかのフレームから始まることができる。

パラメータ領域で直接的な符号変換を適用する提案されるシステムのブロック図は、図１１に表されている。図４の従来の符号変換システムと比べて、本発明のこの実施形態は、ソースパラメータ領域ＰＤ_Ａから目的のパラメータ領域ＰＤ_Ｂへの直接的な符号変換によって、デコーダＤＥＣ＿Ａについての時間−周波数合成及びエンコーダＥＮＣ＿Ｂについての時間−周波数解析のシーケンスを置換する。このアプローチの１つの利点は、計算複雑性がより低く、効率がより高く、数値的挙動がより良くて信号歪みが小さいことである。これは、特に、符号変換に通常用いられる数学演算の限られた精度を有する固有小数点実装（fixed-point implementations）に有効である。従って、本発明は、ソース音声フォーマットから目的の音声フォーマットへのより高速な符号変換と、従来の符号変換スキームよりも良好な結果品質とを可能にする。更に、サイド情報ＳＩ’は、従来の符号変換システムでのサイド情報と同じく使用される。

開示されるアルゴリズムの利用は、１つの符号化フォーマットから他への完全な変換に限られず、上記実施形態の幾つかの例示に過ぎないことなら、他の音声関連アルゴリズムの基礎的要素として使用されも良い。

本発明の典型的な例となる応用は、可逆符号化のための時間−周波数パラメータの予測、異なる音声フォーマットの間での高品質の符号変換等である。

Claims

フレーム音声信号を第１のパラメータ領域から第２のパラメータ領域に符号変換する装置の動作方法であって、
前記フレーム音声信号は、時間領域音声信号のパラメータ領域表示であり、
前記第１のパラメータ領域及び前記第２のパラメータ領域の夫々は、時間−周波数解析によって生じ、時間−周波数合成へ入力されるのに適し、
当該方法は、
前記第１のパラメータ領域のパラメータを、前記時間領域音声信号を生成することなく、前記第２のパラメータ領域のパラメータへ線形に変換するステップを有し、
前記第１のパラメータ領域の２又はそれ以上のパラメータは前記第２のパラメータ領域の少なくとも１つのパラメータへ線形に変換され、
前記第１のパラメータ領域の前記２又はそれ以上のパラメータは、前記第１のパラメータ領域における音声信号の異なるフレームから生じ、時間−周波数変換によって得られる周波数成分である、方法。
前記第１のパラメータ領域のパラメータから前記第２のパラメータ領域のパラメータへの線形変換は、時間変化する、請求項１記載の方法。
前記線形変換は、複数の線形変換の周期的な繰り返しであり、該複数の線形変換の夫々は時間不変である、請求項２記載の方法。
前記第２のパラメータ領域の全てのパラメータは、前記第１のパラメータ領域の線形に変換されたパラメータから得られる、請求項２又は３記載の方法。
前記周期的な繰り返しの周期は、前記第２のパラメータ領域の整数個のフレームに対応する前記第１のパラメータ領域の異なる整数個のフレームにわたる、請求項３又は４記載の方法。
前記第１のパラメータ領域及び前記第２のパラメータ領域は、時間解析窓を用いる時間−周波数解析に基づき、前記第２のパラメータ領域に対する該時間−周波数解析は、長い解析窓及び短い解析窓を使用し、
前記線形変換は、長い解析窓の場合と短い解析窓の場合で異なる、請求項２乃至５のうちいずれか一項記載の方法。
前記線形に変換するステップは、
異なる入力フレームからの入力ベクトルを出力ベクトルへマッピングするステップと、
出力フレームを発生させるよう前記出力ベクトルを重ね合わせるステップと
を有する、請求項１乃至６のうちいずれか一項記載の方法。
前記第１のパラメータ領域の２又はそれ以上のパラメータを線形に変換するステップは、変換係数を保持するルックアップテーブルを用いる、請求項１乃至７のうちいずれか一項記載の方法。
前記第１のパラメータ領域の２又はそれ以上のパラメータを線形に変換するステップは、所定の解析表示を用いるステップを含む、請求項１乃至８のうちいずれか一項記載の方法。
フレーム音声信号を第１のパラメータ領域から第２のパラメータ領域に符号変換する装置であって、
前記フレーム音声信号は、時間領域音声信号のパラメータ領域表示であり、
前記第１のパラメータ領域及び前記第２のパラメータ領域の夫々は、時間−周波数解析によって生じ、時間−周波数合成へ入力されるのに適し、
当該装置は、
前記第１のパラメータ領域のパラメータを線形に変換することによって前記第２のパラメータ領域のパラメータを計算する手段を有し、
前記第１のパラメータ領域の２又はそれ以上のパラメータは前記第２のパラメータ領域の少なくとも１つのパラメータへ線形に変換され、
前記第１のパラメータ領域の前記２又はそれ以上のパラメータは、前記第１のパラメータ領域における音声信号の異なるフレームから生じ、時間−周波数変換によって得られる周波数成分である、装置。
前記第１のパラメータ領域のパラメータから前記第２のパラメータ領域のパラメータへの線形変換は、時間変化する、請求項１０記載の装置。
変換係数の記憶及び取り出しのための１又はそれ以上のルックアップテーブル手段を更に有する、請求項１０又は１１記載の装置。
所定の解析表示を用いる手段を更に有する、請求項１０乃至１２のうちいずれか一項記載の装置。
前記第１のパラメータ領域の音声フレームは、前記第２のパラメータ領域の音声フレームとは異なるフレームアドバンスを有し、該フレームアドバンスは、フレームの時間的重複を表す、請求項１乃至９のうちいずれか一項記載の方法。
前記第１のパラメータ領域及び前記第２のパラメータ領域の前記異なるパラメータは、時間−周波数解析及び時間−周波数合成を参照するパラメータであり、前記第１のパラメータ領域及び前記第２のパラメータ領域は、異なる時間−周波数解析及び／又は異なる時間―周波数合成を用いる、請求項１乃至９及び１４のうちいずれか一項記載の方法。
前記線形変換は、少なくとも、前記第１のパラメータ領域に従う時間−周波数合成、重複加算、セグメンテーション及び前記第２のパラメータ領域に従う時間−周波数解析を表す、請求項１乃至９、１４及び１５のうちいずれか一項記載の方法。
前記時間−周波数合成及び／又は前記時間−周波数解析は、線形ブロック変換又は線形フィードフォワードフィルタバンクに対応する、請求項１６記載の方法。
前記第１のパラメータ領域の各フレームのパラメータは、前記第２のパラメータ領域の１よりも多いフレームに作用し、音声信号の波形を表す、請求項１乃至９及び１４乃至１７のうちいずれか一項記載の方法。
前記線形変換は、音声信号の特定の周波数部分を削除する、請求項１乃至９及び１４乃至１８のうちいずれか一項記載の方法。
前記音声信号の特定の周波数部分の削除は、時間変化し、前記第１のパラメータ領域にある音声信号に使用されるビット割り当てに依存する、請求項１９記載の方法。
前記第１のフィルタバンク領域又は前記第２のフィルタバンク領域は、ＭＰＥＧ−１レイヤＩＩＩによって用いられるＭＰＥＧ−ＡＡＣ、ＭＤＣＴ、整数ＭＤＣＴ、又は複合フィルタバンクの中の１つである、請求項１乃至９及び１４乃至２０のうちいずれか一項記載の方法。
前記第１のパラメータ領域の音声フレームは、前記第２のパラメータ領域の音声フレームとは異なるフレームアドバンスを有し、該フレームアドバンスは、フレームの時間的重複を表す、請求項１０乃至１３のうちいずれか一項記載の装置。
前記第１のパラメータ領域及び前記第２のパラメータ領域の前記異なるパラメータは、時間−周波数解析及び時間−周波数合成を参照するパラメータであり、前記第１のパラメータ領域及び前記第２のパラメータ領域は、異なる時間−周波数解析及び／又は異なる時間―周波数合成を用いる、請求項１０乃至１３及び２２のうちいずれか一項記載の装置。
前記線形変換は、少なくとも、前記第１のパラメータ領域に従う時間−周波数合成、重複加算、セグメンテーション及び前記第２のパラメータ領域に従う時間−周波数解析を表す、請求項１０乃至１３、２２及び２３のうちいずれか一項記載の装置。
前記時間−周波数合成及び／又は前記時間−周波数解析は、線形ブロック変換又は線形フィードフォワードフィルタバンクに対応する、請求項２４記載の装置。
前記第１のパラメータ領域の各フレームのパラメータは、前記第２のパラメータ領域の１よりも多いフレームに作用し、音声信号の波形を表す、請求項１０乃至１３及び２２乃至２５のうちいずれか一項記載の装置。
前記線形変換は、音声信号の特定の周波数部分を削除する、請求項１０乃至１３及び２２乃至２６のうちいずれか一項記載の装置。
前記音声信号の特定の周波数部分の削除は、時間変化し、前記第１のパラメータ領域にある音声信号に使用されるビット割り当てに依存する、請求項２７記載の装置。
前記第１のフィルタバンク領域又は前記第２のフィルタバンク領域は、ＭＰＥＧ−１レイヤＩＩＩによって用いられるＭＰＥＧ−ＡＡＣ、ＭＤＣＴ、整数ＭＤＣＴ、又は複合フィルタバンクの中の１つである、請求項１０乃至１３及び２２乃至２８のうちいずれか一項記載の装置。