JP2008513823A

JP2008513823A - 知覚的歪みを最小化する結合オーディオ符号化

Info

Publication number: JP2008513823A
Application number: JP2007531883A
Authority: JP
Inventors: デパール，ステーフェンエルイェーデーエーファン; スヘインデル，ニコル，ハーファン; コット，ヴァレリー，エス; ヒュースデンス，リハルト
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-09-17
Filing date: 2005-09-02
Publication date: 2008-05-01
Anticipated expiration: 2025-09-02
Also published as: RU2393552C2; BRPI0515343A8; BRPI0515343A; US20080097763A1; WO2006030340A2; CN101124626B; EP1792306A2; KR101407429B1; WO2006030340A3; CN101124626A; EP1792306B1; JP5154934B2; MX2007003063A; KR20070061881A; US7788090B2; RU2007114276A

Abstract

オーディオエンコーダであって、２つ以上の好ましくは異なるエンコーダが協働してジョイント符号化オーディオ信号を発生するものである。２つ以上のエンコーダの符号化パラメータは、所定基準に従って、ジョイント符号化オーディオ信号の歪みの大きさに応じて最適化される。歪みの大きさは、好ましくは知覚的歪みの大きさである。正弦波エンコーダと波形エンコーダを含むエンコーダの一実施形態では、各オーディオフレームの一定のトータルビットレートを２つのエンコーダ間に分配され、第１と第２のエンコーダの知覚的歪みを最小化する。他の実施形態では、第１のエンコーダの知覚的歪みを最小化するパラメータのみより大きい符号化パラメータのセットを考慮する。実施形態によっては、知覚的歪みの最小化は、別々のエンコーダに対して、符号化テンプレートの全体（すなわち、符号化パラメータの複合セット）を最適化して符号化を最適化することにより行われてもよい。個々のエンコーダは、カスケードされても、並行して動作しても、またはこれらの組み合わせであってもよい。２つ以上のオーディオセグメントが最適化手順において考慮されることが好ましい。対応するオーディオデコーダは、オーディオ信号を符号化するオーディオエンコーダの個々のエンコーダに対応する個々のデコーダを有する。これらのデコーダからの復号された信号部分は加算されて、最終的なオーディオ信号となる。ここに提示するオーディオ符号化は効率的であり、音声品質がよい。符号化方式（scheme）が柔軟であり、各オーディオ信号の個々の必要性に適応できるからである。

Description

本発明は高品質低ビットレートのオーディオ信号符号化に関する。本発明は、特に、目標ビットレートを考慮しつつ、知覚される音声品質に関して最適化された効果的な符号化に関する。より具体的には、本発明は複数のエンコーダを用いて結合符号化信号表現を生成するオーディオ信号符号化に関する。また、本発明は、エンコーダ、デコーダ、符号化及び復号方法、符号化オーディオ信号、かかる符号化信号を表すデータを有する記憶及び伝送媒体、エンコーダ及び／またはデコーダを有するオーディオ装置にも関する。

高品質のオーディオ符号化の分野では、多様なオーディオ信号に対して音声品質対ビットレートの点で最適な結果を提供するには、異なる符号化方法が必要だということは周知である。１つの符号化方法は、あるタイプのオーディオ信号に対してはよい結果を与えるが、他のタイプのオーディオ信号では性能がよくない。非常に低ビットレートでは正弦波エンコーダとノイズモデルが最も効率的であり、波形符号化包はビットレートが高いときによい結果を与える。

現在のＭＰＥＧ２とＭＰＥＧ４標準では、ビットレートに応じて符号化ストラテジ（strategies）を変更すると効率的であることが分かっている。そのため、この標準には幅広いオーディオエンコーダが含まれており、限られたビットレートの範囲で最良の結果を得られるようになっている。

しかし、通常、オーディオ信号には、短い時間であっても多様な信号特性が混ざっている。それゆえ、一般的には、数秒のオーディオ信号であっても純粋音、ノイズ、過渡音等が支配的な部分が含まれている。これらは特徴が異なるため、最適符号化のための符号化特性も異なる。すなわち、１種類のエンコーダを使用しても、信号のある部分に対しては、ビットレートまたは品質の点で非常に貧しい結果しか得られないことがある。

Scott Levineによる博士論文［１］（添付した参照文献リストを参照）は、正弦波（すなわちパラメトリック）エンコーダと波形エンコーダが混在したエンコーダを記載している。オーディオ信号の大部分はパラメトリックエンコーダで符号化されるが、オーディオ信号の過渡的部分だけには波形エンコーダが使用される。この仕組みでは、パラメトリックエンコーダと波形エンコーダの間の分割は所定のものである。

フィリップス社の米国特許第５，８０８，５６９号には、信号の異なる部分を２つの異なる符号化ストラテジを用いて符号化する符号化スキーム（scheme）が記載されている。しかし、ビットレートをエンコーダにわたって以下に配分するかを決定する仕様は与えられていない。

このように、先行技術のオーディオエンコーダは、オーディオ信号のパラメータの変化に応じて２つ以上の異なる符号化スキームを制御する問題を解決していない。

本発明の１つの目的は、多様なオーディオ信号特性と異なる目標ビットレートに対して効率が高い高品質なオーディオ符号化を提供できる、柔軟なオーディオエンコーダを提供することである。

本発明の第１の態様によると、この目的は、オーディオ信号を符号化するオーディオエンコーダにより達成される。該オーディオエンコーダは：
−第１の符号化信号部分を発生する第１のエンコーダと、
−少なくとも、第２の符号化信号部分を発生する第２のエンコーダと、
−制御部であって、
− 歪みの大きさに関して第１と第２の符号化信号部分を有するオーディオ信号のジョイント表現を評価する評価手段と、
− 第１と第２のエンコーダの少なくとも一方の符号化パラメータを調整し、その調整に応じて、所定基準に従って符号化パラメータを最適化するように、オーディオ信号のジョイント表現の歪みの大きさを監視する最適化手段とを有する制御部と、を有する。

用語「歪みの大きさ（distortion measure）」は、オーディオ信号と符号化オーディオ信号（すなわち、オーディオ信号のジョイント表現（joint representation））間の差の任意の尺度と解釈すべきである。

用語「符号化パラメータ」は、具体的なエンコーダに対して調整できる１つ以上の符号化変数の１つとして広く解釈すべきである。これらの符号化パラメータの性質はエンコーダの種類に応じて決まる。

第１の態様によるオーディオエンコーダは、オーディオ信号の各信号（excerpt）の最適な符号化を適応させて、最大ビットレートを制限した場合に、２つのジョイントエンコーダを最適に利用して、知覚的歪みを最低にする、すなわち知覚される音声品質を最良にする。特に、まったく異なる符号化原理を使用する第１と第２のエンコーダを選択して、効率的に符号化する。例えば、ある信号特性を有する信号（excerpt）の場合、第１のエンコーダがほとんど全てのビットレートを使用した場合に符号化が最も効率的になり、次の信号（excerpt）の特性は異なり、最適な符号化をするには両方のエンコーダをミックスして使用する必要がある。第１の態様によるエンコーダは、異なるオーディオ信号の特性に適応することができ、異なる最大ビットレートの制限において性能が最適になる。あるエンコーダは特定のビットレートで最良の性能を発揮することが分かっている。このことは、２つのエンコーダを最適にミックスすることにより考慮され、目標ビットレートの広い範囲にわたって最適な符号化効率が得られる。第１と第２のエンコーダの両方の符号化パラメータが好ましくは最適化される。

原理的には、本発明によるエンコーダにより、広い範囲の基準に従って、個々のエンコーダの符号化パラメータの最適化が可能である。一実施形態では、最適化手段は、歪みの大きさを最小化するように符号化パラメータを調整する、すなわち、この基準に従って、利用可能なビットレートを考慮せずに音声品質を最適化する。しかし、この実施形態は、第１と第２のエンコーダの所定の最大トータルビットレートの制約により修正されてもよい。

他の実施形態では、最適化手段は、所定の最大トータルビットレート内で第１と第２のビットレートをそれぞれ第１と第２のエンコーダに分配することにより歪みの大きさを最小化する、このオーディオエンコーダの実施形態は、歪みを最小化するように、２つのエンコーダ間で最も効率的にトータルビットレートを分配しようとするものである。２つのエンコーダの簡単な実施形態であって、固定のビットレートのセットに限定され、ビットレートの合計が一定である場合、最適化手段は２つのエンコーダ間のビットレートの分配を調整するのみでよい。

他の実施形態では、最適化手段は、所定の最大の歪みの大きさの制約下で第１と第２の信号部分のトータルビットレートを最小化する。この実施形態によると、最適化基準は歪みの大きさが一定の場合にトータルビットレートを最小化する。好ましい実施形態では、歪みの大きさは知覚的歪みの大きさを含む、用語「知覚的歪みの大きさ（perceptual distortion measure）」は、例えば、音響心理的モデルに従って、知覚される音声品質に対して符号化信号が歪んでいる程度を表す量として、広く解釈すべきである。言い換えると、符号化信号の知覚的歪みの大きさは、リスナーが知覚できる、元の入力オーディオ信号の劣化の程度を表す量である。明らかに、符号化信号の音声品質を最適化するという目標を達成するためには、この大きさ（measure）を最小化することが好ましい。

好ましい実施形態では、第１のエンコーダはオーディオ信号を第１の符号化信号部分に符号化し、第２のエンコーダはオーディオ信号と第１の符号化信号部分の差である第１の残差信号を第２の符号化信号部分に符号化する。この実施形態は、２つのエンコーダのカスケードであって、第１のエンコーダが符号化しなかった原信号の残余部分を第２のエンコーダが符号化するものである。歪みの大きさは、好ましくは、第１の残差信号と第２の符号化信号部分の差である第２の残差信号に基づく。すなわち、２つのエンコーダが符号化しなかった原信号の残余部分は、歪みの尺度（distortion measure）を発生するために、原オーディオ信号とともに使用される。一般的な言葉で言うと、３つ以上のエンコーダのカスケードにおいては、各エンコーダはそのカスケードの先行するエンコーダの残差信号を符号化し、カスケードの最後のエンコーダで符号化されなかった残りの信号を最適化プロセスの制御部への入力として使用する。

他の好ましい実施形態では、オーディオエンコーダは、オーディオ信号を第１と第２の部分に分離する信号スプリッタをさらに有し、第１のエンコーダは第１のオーディオ信号部分を第１の符号化信号部分に符号化し、第２のエンコーダは第２のオーディオ信号部分を第２の符号化信号部分に符号化する。この実施形態では、第１と第２のエンコーダが並行して動作する。例えば、信号スプリッタはオーディオ信号を異なる周波数範囲に分離するフィルタバンクを有する。

オーディオエンコーダは、第３の符号化信号部分を発生する第３のエンコーダをさらに有し、制御部は第１、第２、及び第３の符号化信号部分を含むオーディオ信号のジョイント表現を処理してもよい。３つのエンコーダは、上記のようにカスケードでも並行でも、またはこれらの組み合わせで動作してもよい。オーディオエンコーダのエンコーダは３つより多くてもよく、４つ、５つ、６つ、またはそれ以上であってもよい。これらは、カスケードされ、並列に結合され、またはカスケードと並列の組み合わせで結合されてもよい。複数のエンコーダは、異なる種類であってもよく、少なくとも２つの異なる種類のものである。

最適化手段は、好ましくは、第１と第２のエンコーダの第１と第２の符号化テンプレートの所定のセットから、所定の基準に従って最良の性能になる第１と第２の符号化テンプレートのペアを選択する。ここで、「符号化テンプレート」は、エンコーダに対して、調節可能な符号化パラメータの所定のセットを意味すると解釈すべきである。「所定のテンプレートのセット」は、そのエンコーダに対して、異なる符号化パラメータのセットを意味すると解釈すべきである。

第１のエンコーダは、好ましくはパラメトリックエンコーダ（例えば、正弦波エンコーダ）、変換エンコーダ、定常パルス励起エンコーダ（Regular Pulse Excitation encoders）、符号ブック励起リニア予測エンコーダ（Codebook Excited Linear Prediction encoders）よりなる群から選択されたエンコーダである。第２のエンコーダは好ましくは同じグループから選択されたエンコーダである。第１のエンコーダは結合エンコーダであってもよい。最も好ましくは、第１と第２のエンコーダは異なる種類であり、最良の助様態で互いに補完する。しかし、第１と第２のエンコーダは、同じ種類でもよいが、符号化テンプレートは異なる。

オーディオエンコーダは、好ましくはセグメントに分割されたオーディオ信号を受信する。最適化手段は、好ましくは、オーディオ信号の１つ以上の後続セグメントにわたって符号化パラメータを最適化する。これらのセグメントは重なっていてもいなくてもよい。より好ましくは、３つ以上の後続のセグメントを最適化プロセスで使用する。

本発明の第２の態様は、符号化オーディオ信号を復号するオーディオデコーダである。該オーディオエンコーダは、
−第１の符号化信号部分から第１の復号信号部分を発生する第１のデコーダと、
−第２の符号化信号部分から第２の復号信号部分を発生する第２のデコーダと、
−第１と第２の復号信号部分の合計としてオーディオ信号の表現を発生する合計手段とを有する。

第１と第２のデコーダは、符号化プロセスで使用したものと同じ種類のものであることが必要である。さもないと、これらのデコーダは、正弦波パラメータ等のエンコーダ特有のデータを含む第１と第２の符号化信号を復号できない。デコーダは符号化信号の各部分で完全に平行して動作する。

好ましい第１と第２のデコーダは、オーディオエンコーダに関して上で列挙したのエンコーダと対応する種類のものから選択できる。

オーディオデコーダに関して、デコーダは、第３の符号化信号部分から第３の復号信号部分を発生する第３のデコーダをさらに有し、合計手段は第１、第２、及び第３の復号信号部分としてオーディオ信号の表現を発生する。オーディオデコーダは、各々が符号化オーディオ信号の個々の部分を復号する第４、第５、第６、またはそれ以上の別のデコーダをさらに有してもよい。全ての復号信号部分を加えて出力オーディオ信号を発生する。

第３の態様では、本発明は、オーディオ信号の符号化方法を提供する。該方法は：
−第１のエンコーダを用いて第１の符号化信号部分を発生する段階と、
−第２のエンコーダを用いて少なくとも第２の符号化信号部分を発生する段階と、
−歪みの大きさに関して第１と第２の符号化信号部分を有するオーディオ信号のジョイント表現を評価する段階と、
−所定の基準に従って歪みの大きさに応じて第１と第２のエンコーダの符号化パラメータを最適化する段階とを有する。

第１の態様に対するのと同じ説明が当てはまる。

第４の態様では、本発明は、オーディオ信号の復号方法を提供する。該方法は：
−第１のデコーダを用いて第１の符号化信号部分から第１の復号信号部分を発生する段階と、
−第２のデコーダを用いて第２の符号化信号部分から第２の復号信号部分を発生する段階と、
−第１と第２の復号信号部分を加える段階とを有する。

第２の態様に対するのと同じ説明が当てはまる。
第５の態様では、本発明は、異なるエンコーダが符号化した第１と第２の符号化信号部分を含む符号化オーディオ信号である。

符号化信号は、標準のデジタルオーディオフォーマットに従ったフォーマットを有するデジタル電気信号であってもよい。この信号は、電気接続ケーブルを用いて２つのオーディオ装置間を送信される。しかし、符号化信号は、ラジオ周波数の搬送波を用いた空中波等のワイヤレス信号でもよく、光ファイバを通して送信できる光信号であってもよい。

第６の態様では、本発明は、第５の態様による符号化オーディオ信号を表すデータを含む記憶媒体である。記憶媒体は、好ましくは、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−Ｒ、ＤＶＤ＋ＲＷ、ＣＤ、ＣＤ−Ｒ、ＣＤ−ＲＷ、コンパクトフラッシュ（登録商標）、メモリスティック等の標準的なオーディオデータ記憶媒体である。しかし、コンピュータのハードディスク、メモリ、フロッピー（登録商標）ディスク等のコンピュータデータ記憶媒体であってもよい。

第７の態様では、本発明は第１の態様によるオーディオエンコーダを有する装置である。

第８の態様では、本発明は、第２の態様によるオーディオデコーダを有するオーディオ装置である。

第７と第８の態様による好ましい装置は、テープ、ディスク、またはメモリベースのオーディオレコーダ、及び例えば、固体プレーヤ、ＤＶＤプレーヤ、コンピュータのオーディオプロセッサ等のプレーヤ等のオーディオ装置である。また、携帯電話にも有利である。

第９と第１０の態様は、コンピュータ読み取り可能なプログラムコード、すなわちソフトウェアであって、該プログラムコードは、それぞれ第３と第４の態様による符号化方法と復号方法を実施するアルゴリズムを有している。

本発明の範囲内において様々な修正と代替形式が可能であるが、具体的な実施形態は図面中で例として示したものであり、以下に詳細に説明する。しかし、本発明は開示された具体的な形式に限定されるものではないことに留意すべきである。本発明は、添付した請求の範囲に記載した本発明の精神と範囲に含まれるすべての修正、等価物、代替物を含むものである。

本発明を添付した図面を参照して詳細に説明する。

図１は、第１の単純なエンコーダの実施形態の原理を示すブロック図であり、一定のトータル目標ビットレート毎フレームで動作する２つの異なるエンコーダＡＥ１とＡＥ２のカスケードを含む。フレームの定義は、単一のセグメントと時間的に等しいかそれより長い時間である。第１のエンコーダＡＥ１は好ましくは正弦波エンコーダを有し、第２のエンコーダＡＥ２は変換エンコーダを有する。正弦波符号化方法は低ビットレートで効率的であり、同じ低ビットレートにおける波形エンコーダと比較して音声品質がよい。変換エンコーダはより大きなビットレートを必要とするが、正弦波エンコーダよりも音声品質がよいことが知られている。よって、要するに組み合わせることにより柔軟なオーディオエンコーダとなる。

図１に示した符号化スキームでは、オーディオ信号ε０の一部分が、目標ビットレートのある比率Ｒ１を用いて第１のエンコーダＡＥ１により符号化される。第１のエンコーダＡＥ１が使えるビットレートの比率Ｒ１は制御部ＣＵが制御する。第１のエンコーダＡＥ１における正弦波符号化の後、第１の符号化信号部分Ｅ１（すなわち、量子化されていない正弦波表示）が元の入力信号ε０から減算され、残差信号ε１（すなわち、正弦波エンコーダＡＥ１によりモデル化されていない信号の部分）が得られる。残差信号ε１は、第２のエンコーダＡＥ２（すなわち波形エンコーダ）により符号化されて第２の符号化信号部分Ｅ２になる。これには、フレームの符号化に利用できるトータルビットレートの残りの部分Ｒ２が使われる。

この実施形態では、制御部ＣＵは、結合符号化信号Ｅ１、Ｅ２の知覚的音声品質を最適化する。この最適化は、２つのエンコーダＡＥ１、ＡＥ２の間でいくつかのビットレートＲ１、Ｒ２の分配をテストして、知覚的歪み基準に関して符号化結果を評価することにより行う。知覚的歪みの基準を提供するために、知覚的モデルを使用することが好ましい。知覚的歪みを予測する方法を明示的に提案する好ましいモデルは、参照文献［４］のモデルである。一般的に、この最適化は、エンコーダをローカルな信号特性に適応させるために、フレームごとに行われる必要がある。

制御部ＣＵは、２つのエンコーダＡＥ１、ＡＥ２の間のビットレートの具体的分配の知覚的歪み基準を記憶し、最良の分配を見つけるまで、他の分配を試みる。この目的のため、制御部ＣＵは、第２のエンコーダＡＥ２の後のエラー信号ε２を元の入力信号ε０と比較する。エラー信号すなわち残差信号ε２の定義は、第１の残差信号ε１と第２の符号化信号部分Ｅ２の差異であり、換言すると、２つのエンコーダＡＥ１、ＡＥ２により符号化されていない最終的な残差信号（rest signal）である。

ビットレートの分配Ｒ１、Ｒ２の所定のセットをテストしてから、制御部ＣＵは決定された知覚的歪み基準から、知覚的歪みが最小になる使用すべきビットレートの分配Ｒ１、Ｒ２を決定する。この分配Ｒ１、Ｒ２に従って、結果として得られた第１の信号部分Ｅ１と第２の信号部分Ｅ２（すなわち、エンコーダＡＥ１、ＡＥ２からそれぞれ得られるパラメータとデータ）は、符号化出力ビットストリームＯＵＴを出力するようにビットストリームフォーマッタＢＳＦ（Bit Stream Formatter）により処理される。

テストされるビットレートの分配Ｒ１、Ｒ２の所定のセットは、例えば、トータル目標ビットレート（すなわち、Ｒ１＋Ｒ２）の５％、１０％、２０％または２５％のステップである全ての組み合わせである。例えば、目標ビットレートが６４ｋｂｐｓの場合、（Ｒ１、Ｒ２）の組み合わせは（０，６４）、（１６，４８）、（３２，３２）、（４８，６４）、（６４，０）とすることができる。

正弦波エンコーダＡＥ１が波形エンコーダＡＥ２よりも効率的になる交代点は、符号化される具体的なオーディオ素材に応じて異なる。例えば、ビットレートが３２ｋｂｐｓのオーディオ部分の符号化は正弦波エンコーダによるのが最も効率的であろうが、同じビットレートでも、他のオーディオ部分の符号化は波形エンコーダにより最も効率的であり得る。

上記の通り、制御部ＣＵはビットレートの分配Ｒ１、Ｒ２の所定のセットの全体をテストする。別の最適化プロセスでは、制御部ＣＵは、ビットレートの組み合わせＲ１、Ｒ２の結果の知覚的歪みの大きさが所定の基準値より小さくなったときに、さらに別のビットレート分配の組み合わせＲ１、Ｒ２をテストすることをやめる。

結果として、図１を参照して説明する実施形態は、関係する２つのオーディオエンコーダＡＥ１とＡＥ２の能力を最大限利用することができる。各オーディオ部分に適応するからである。これにより、１）符号化を要するオーディオのフレームに最良のオーディオエンコーダが自動的に選択され、２）音声品質がよくなる場合、オーディオエンコーダを組み合わせて使用できる。

第２のエンコーダＡＥ２後に残る残差信号ε２は、ノイズエンコーダ（図示せず）の入力信号として使用できる。このように、２つのエンコーダＡＥ１、ＡＥ２によりモデル化できないスペクトル部分の少なくとも一部は、ノイズと置き換えることができ、通常は音声品質がよくなる。

第１の正弦波エンコーダＡＥ１の好ましい実施形態では、音響心理的マッチング追跡アルゴリズム（psycho-acoustical matching pursuit algorithm）（参考文献５参照）を使用して、正弦波を推定する。正弦波の分割と分配は、参考文献６に記載の方法に従って行うことが好ましい。

第２の変換エンコーダＡＥ２の好ましい実施形態は、参考文献７に記載されたフィルタバンクに基づく。第２のエンコーダＡＥ２の分割（segmentation）は、第１のエンコーダＡＥ１の分割と同じか、一様分割（uniform segmentation）であってもよい。

第２のエンコーダＡＥ２後の残差信号ε２は、好ましくは、トータルの知覚的歪みを測定するために、知覚モデル（参考文献４参照）により評価される。これは、元の信号ＩＮの各フレームのマスク関数ｖ（ｆ）を決定することにより為される事が好ましい。マスク関数（masking function）は、問題のオーディオ信号が人間の聴覚系に入力されたときの人間のヒアリング閾値の周波数ｆの関数としてスペクトル表示であると理解されている。時間領域の残差信号ε２を使用して、周波数ｆの関数としてエラースペクトルｓ（ｆ）を求める。参考文献４の式９に示されているように、エラースペクトル信号とマスク関数の逆数との内積は、知覚された歪みのよい予測材料（predictor）である。すなわち、知覚的歪みＤは次式で計算できる：

図２は、マスキング曲線ｖ（ｆ）の例を破線で示したグラフであり、上記の知覚モデルにより計算したものである。図２にはエラースペクトルｓ（ｆ）も実線で示している。これらは、上記のように、知覚的歪み尺度Ｄを求めるために使用する。グラフは、リニアな周波数スケールｆに対してデシベル単位でレベルＬｐを示している。図２は、低周波数（例えば約１００Ｈｚ）において、エラー信号ｓ（ｆ）がマスキング曲線ｖ（ｆ）と比較してレベルがかなり高く、この周波数範囲がトータルの知覚的歪みＤに貢献していることを示している。１０−１２ｋＨｚより上では、マスキング曲線は高くなるが、これは静かだと人間のヒアリング閾値が高くなることによるものである。

図３は、図１を参照して説明したような、正弦波エンコーダと波形エンコーダを有するオーディオエンコーダの場合に、正弦波エンコーダに割り当てられるビットレート部分へのトータルな知覚的歪みＴＰＤの依存性を、異なるオーディオ信号に対して示す２つのグラフである。上のグラフのオーディオ信号はカスタネットのものであり、下のグラフのオーディオ信号はハープシコードのものである。シンボルは異なるビットレートを示している：１２ｋｂｐｓ（丸印）、２４ｋｂｐｓ（プラス印）、４８ｋｂｐｓ（星印）。太線は、様々なトータルビットレートについて選択されたビットレート分布を示す。

上のグラフでカスタネットの場合について分かるように、少なくとも１２ｋｂｐｓ（丸印）と２４ｋｂｐｓ（プラス印）では、知覚的歪みはビットレート分布の関数としてほぼ一定である。しかし、４８ｋｂｐｓ（星印）の場合、ほとんどのビットレートを波形エンコーダに送る方が、ほとんどのビットレートを正弦波エンコーダに送るよりも明らかに明らかに有利である。下の図のハープシコードの場合には、事情は異なる。ここで明らかなのは、ビットレートが高くても、正弦波エンコーダがビットレートの約半分となることが明らかであり、ビットレートが低いと正弦波エンコーダにすべてのビットレートを使用する方がよいことが明らかである。

図３に示した例は完全なオーディオ信号（complete audio excerpts）を評価し最適化することにより得られたが、この最適化方法はオーディオの短いセグメントに対して使用して、ビットレートＲ１、Ｒ２の分布を局所的な信号特性に対して適応できると考えられることに注意せよ。

図４は、符号化されたオーディオ信号（例えば、図１を参照して説明したオーディオエンコーダにより符号化されたオーディオ信号）を復号するように構成されたオーディオデコーダのブロック図である。このオーディオデコーダは、第１と第２のエンコーダＡＥ１、ＡＥ２のタイプにそれぞれ対応する第１と第２のデコーダＡＤ１、ＡＤ２を有する。第１と第２のデコーダＡＤ１、ＡＤ２は、エンコーダＡＥ１、ＡＥ２からの第１と第２の符号化された信号部分Ｅ１、Ｅ２を受信するように構成されている。復号されたオーディオ信号は入力ビットストリームＩＮとして受信され、第１と第２の復号された信号部分Ｅ１、Ｅ２がビットストリームデコーダＢＳＤにより抽出される。そして、第１の復号された信号部分Ｅ１は第１のデコーダＡＤ１に送られ、第２の復号された信号部分Ｅ２は第２のデコーダＡＤ２に送られる。デコーダＡＤ１、ＡＤ２は、それぞれのオーディオ部分を独立に復号でき、その結果の第１と第２の復号された信号部分Ｄ１、Ｄ２が単に加算されて、元のオーディオ信号の表示ＯＵＴを生成する。

図５は、第１と第２の別々のエンコーダＡＥ１、ＡＥ２のカスケードを有する他のオーディオエンコーダの実施形態のブロック図である。図１に示した第１の実施形態に関して説明した符号化方式（encoding scheme）が各所定の時間インターバルまたはセグメントで、一定のトータルビットレート（Ｒ１＋Ｒ２）の制約下で動作するが、この制約は図５の第２の実施形態では緩和される。この第２の実施形態は、原理的に、少なくとも第１のエンコーダＡＥ１のすべての可能な符号化パラメータを考慮し、好ましくは第２のエンコーダＡＥ２のすべての可能な符号化パラメータも考慮するものであり、その結果図１の第１のオーディオエンコーダと比較して知覚的歪みが低減される。しかし、第１のオーディオエンコーダの実施形態と比較して、第２のオーディオエンコーダの実施形態の実施はより複雑である。第１の実施形態と対照的に、第２の実施形態によりビットレートは各オーディオ信号（audio signal excerpt）の要求に適応可能となり、そのことにより２つのエンコーダＡＥ１、ＡＥ２をより最適化できる。そのため、第２のオーディオエンコーダの実施形態は、多数のオーディオ信号の平均として考えられる同一のビットレートにおいて、知覚的歪みを低減することができ、すなわち音声品質を増大することができる。

図５のオーディオエンコーダにおいて、第１と第２の異なるエンコーダＡＥ１、ＡＥ２は、各々多数の異なる方法で受信入力信号ε０を符号化するように構成されている。これらの符号化オプションは符号化テンプレートと呼ばれる。例えば、正弦波エンコーダの場合、１つの符号化テンプレートは入力信号セグメントを表すために使用される制限はの１つのセットを指定し、別のテンプレートは別の正弦波のセットを指定する。それゆえ、すべての可能なテンプレートのセットにより、エンコーダは可能なすべての符号化動作を実行でき、符号化を各オーディオ信号（audio excerpt）に適応させられる。第１と第２のエンコーダＡＥ１、ＡＥ２のテンプレートを、それぞれ第１と第２のテンプレートＴ１、Ｔ２で示す。

２つの符号化テンプレートＴ１とＴ２が選択されると、第１のエンコーダＡＥ１はオーディオ入力信号ε０を符号化して第１の符号化信号部分Ｅ１を得る。符号化が不完全なので、符号化結果は残差信号ε１を含み、この残差信号ε１は第２のエンコーダＡＥ２により符号化され、第２の符号化信号部分Ｅ２となる。第２の符号化処理の結果として残差信号ε２が得られる。この残差信号ε２は知覚的歪みの大きさを計算する知覚モデルを用いて制御部ＣＵにより評価される。入力オーディオ信号ε０の最終的符号化について決定をするため、制御部ＣＵは、知覚的歪みの大きさが最小になる符号化テンプレートＴ１とＴ２を所定の符号化テンプレートから見つけるために、最適化手順を実行する。このため、知覚的歪みの大きさの他に、各エンコーダＡＥ１、ＡＥ２のビットレートＲ１、Ｒ２（またはその推測値）も考慮に入れる。

最終的な符号化テンプレートＴ１とＴ２が見つかると、これらのテンプレートＴ１とＴ２を用いて、第１と第２のエンコーダＡＥ１、ＡＥ２からそれぞれ得られる第１と第２の符号化信号部分Ｅ１とＥ２を生成する。これらの第１と第２の符号化信号部分Ｅ１、Ｅ２をビットストリームフォーマッタ（bit stream formatter）ＢＳＦに送る。このビットストリームフォーマッタＢＳＦはビットストリームＯＵＴを形成する。

第１のエンコーダＡＥ１は好ましくは正弦波エンコーダを有し、第２のエンコーダＡＥ２は変換エンコーダを有する。知覚的歪みの大きさＤは、第１のエンコーダの実施形態に関して説明したように、参考文献４に従って計算することが好ましい。

制御部ＣＵが解かねばならない最適化問題の正式な定義は次の通りである：

ここで、Ｄ２はε２に基づき計算され、知覚モデル（例えば参考文献４を参照）により予測される知覚的歪みを表す。ｎはセグメント番号である。信号は、トータルの入力信号ε０から取ったいくつかの短い時間で符号化されると仮定している。この最小化問題は次の制約条件の下で最小化しなければならない。

ここで、ＲＴは目標ビットレートである。

ここで定式化された方法でこの問題を解くとき、原理的には、符号化テンプレートＴ１、Ｔ２の全ての組み合わせをこの最小化問題を解くためにテストしなければならない。各セグメントについて第１と第２のエンコーダＡＥ１、ＡＥ２にそれぞれＭ個の符号化テンプレートがあると仮定すると、テストしなければならない組み合わせの総数は次式の通りである：

現実的な状況では、この問題は効果的に解くことができないので、ここでより効率的な解放を提示する。しかし、コアとなるアイデアはここに述べた問題かまたは少なくともその派生的問題を解くことである。制約条件付き最適化理論から、この種の問題は再定式化でき、セグメントごとに解く必要があるいくつかの独立な最適化問題に分割することができることが分かっている。これは、２つのエンコーダＡＥ１、ＡＥ２のビットレートＲ１、Ｒ２が独立であり、セグメントにわたって加えることができるとの制約条件下で行うことができる。同様に、セグメントをわたる知覚的歪みは加法的であり独立であることが必要である。

この問題に対する解は、全体的なビットレート制約条件に従って知覚的歪みの大きさにより予測される知覚的歪みを最小化する。暗にビットレートはセグメントごとに変わってもよい。また、知覚的歪みはセグメントにわたって一定ではない。しかし、セグメントにわたるこれらの変化を許すと、各セグメントについてビットレートまたは知覚的歪みが一定であるときより、全体的な知覚的歪みが小さくなる。

上記の制約条件の下で、Ｎ個の独立なコスト関数を定義して、上記の制約条件の下で最小化することにより、問題を再定式化することができる。

解くべき問題は、以下のλを見つけることである：

Ｔ１，２ｍｉｎ（ｎ）は次式のように選択される：

この問題の再定式化の利点は、Ｎ個の独立の問題がラグランジュの未定定数λで結びつけられていることである。実際には、これはλの初期値を選択することを意味する。この値を用いて式（ＩＩＩ）の最小化問題を各セグメントｎについて独立に解くことができる。この最適化の後、式（ＩＩ）が満たされているかチェックできる。目標レートＲＴと使用するトータルビットレート間の差に基づいてλを適応させる。このプロセスを、（式ＩＩに基づき）λの最良値または満足のいく値が見つかるまで、繰り返す。

式（ＩＩＩ）の最適化問題を解くことは、考慮しているセグメントｎについて全ての符号化テンプレートＴ１、Ｔ２の組み合わせをテストすることを意味する。具体的なエンコーダＡＥ１、ＡＥ２について、符号化テンプレートＴ１、Ｔ２のあるサブセットの外にあるテンプレートは最適解にならないことがアプリオリに分かっているとき、すべての可能な符号化テンプレートＴ１、Ｔ２から符号化テンプレートＴ１、Ｔ２のそのサブセットを選択することができる。式（ＩＩＩ）のジョイント最適化問題の場合、２つのエンコーダＡＥ１、ＡＥ２間の依存性により、最適化プロセスにおける考慮からアプリオリに一定の符号化テンプレートＴ１、Ｔ２を破棄することは、一層難しい。しかし、符号化テンプレートＴ１が知られていると仮定すると、最適化プロセスで考慮する必要のないテンプレートＴ２を選択することができる。テンプレートＴ２は最後のエンコーダＡＥ２に適用されるからである。より具体的には、第２のエンコーダＡＥ２に対して選択された符号化テンプレートＴ２は第１のエンコーダＡＥ１の符号化には影響しないからである。第１のエンコーダＡＥ１に対して、これは可能ではない。選択されたＴ１は第２のエンコーダＡＥ２の振る舞いに影響するからである（式Ｉを参照、Ｒ２はＴ１とＴ２の両方に依存している）。それゆえ、エンコーダＡＥ２への影響を考えずにエンコーダＡＥ１の符号化テンプレートＴ１を破棄することはできない。エンコーダＡＥ１の符号化テンプレートＴ１のセットを制約することは、本来的により一層困難である。しかし、計算を複雑にしないため、例えば第１のエンコーダＡＥ１は孤立して動作すると仮定して、エンコーダＡＥ１の候補となるテンプレートＴ１の数を制限することもできる。

実際には、式（ＩＩＩ）の最適化問題を解くには、最初に符号化テンプレートＴ１を選択して、エンコーダＡＥ２に送られる残差信号ε１を計算する。Ｔ１は既知であるから、第２のエンコーダＡＥ２は式（ＩＩＩ）を簡単化したものに従って最適化される：

上記の通り、可能な全ての符号化テンプレートＴ２を考慮しなくても、第２のエンコーダＡＥ２をほぼどのように選択しようが、この最適化問題をとくことができる。最小化問題を解くと、考えているセグメントに対して式（Ｉ）の最適解が見つかるまで、第１のエンコーダＡＥ１の新しいテンプレートＴ１を選択することができる。

このセクションで説明した解法は以下のアルゴリズムでまとめることができる（Ａ１）：各セグメントの最適符号化テンプレートＴ１、Ｔ２とラグランジュの未定乗数λとを、目標ビットレートを満たすように決定する。

（Ａ１）において、Ｔ１のループにより式（ＩＩＩ）の最適解を見つける（例えばグローバルコスト関数を最小化する）。この問題の一部として、式（ＩＶ）で求めた第２のエンコーダＡＥ２についてコスト関数を最小化するＴ２のループがある。

ここで問題を定式化した方法において、同時にいくつかのセグメントの最適化が実行されることに留意せよ。このセグメントのセットでは、ビットレートはセグメントごとに変化することができる。実際的な状況では多くの場合、同時に評価できるセグメントのセットは限られている。この制約を処理するには２つのオプションがある：
１）セグメントの各セットに対してλを決定し、そのセグメントのセット内のビットレートは常に要求される目標ビットレートを満たすようにする。
２）セグメントの各セットの後にλを適応させて、過去の符号化動作におけるビットレートと目標ビットレート間のミスマッチを補償する。

ここでは、図５のエンコーダＡＥ１は正弦波エンコーダであり第２のエンコーダＡＥ２は変換エンコーダであると仮定している。第１のエンコーダＡＥ１について、すべての符号化テンプレートＴ１を考慮するわけではない。あるλ１（ｎ）のコスト関数を最小化する符号化テンプレートＴ１のみを考慮する：

ここで、Ｄ１は第１のエンコーダＡＥ１による符号化後に測定して知覚的歪みである。

２つのエンコーダＡＥ１、ＡＥ２は同じく分割（segmentation）され、各エンコーダＡＥ１、ＡＥ２は符号化段階及び復号段階において重なり合うセグメントを使用する。このためにはアルゴリズム（Ａ１）を調整しなければならない。エンコーダ２が符号化セグメントｎにおいて必要な残差信号ε１（ｎ）は符号化テンプレートＴ１（ｎ−１）、Ｔ１（ｎ）、Ｔ１（ｎ＋１）に依存するからである。

この問題を明らかにするために、図６に符号化テンプレートを含む２つのエンコーダＡＥ１、ＡＥ２のセグメント間の分割と重なりの例を、三角形のウィンドウで示した。図６から分かるように、第１のエンコーダの後の残差信号ε１（ｎ）は、セグメントｎ−１、ｎ、ｎ＋１において第１のエンコーダＡＥ１のために選択された符号化テンプレートＴ１に依存する。一般的に、符号化テンプレートＴ１（ｎ＋１）はセグメントｎを最適化するときには分からない。セグメントは１つずつ順番に最適化されるからである（アルゴリズム（Ａ１）参照）。しかし、符号化テンプレートＴ１（ｎ−１）は、セグメントｎで求められる解にも依存するから最適解ではないかも知れないが、セグメントｎを最適化するときには分かっている。

実際的な解法は、先行するセグメント（ｎ−１）の最適化で求めたＴ１（ｎ−１）をとることである。次のセグメントでは、セグメントｎ＋１に対してエンコーダＡＥ１が実行するであろう最終的な符号化について、詳細な情報を得た上での推測をする。このために、最近のセグメントの平均λを使用して、式Ｖに従って最適な符号化テンプレートＴ１（ｎ＋１）を選択する。これに基づき、残差信号ε１（ｎ）を計算でき、アルゴリズム（Ａ１）によりλに従って最適なＴ２（ｎ）を求めることができる。

ε１（ｎ−１）は、Ｔ１（ｎ）が終了したときにのみ分かり、その時に最終的なＴ２（ｎ−１）が求まる。

説明を明確にするため、上で概要を説明した実際的な解法を含む、アルゴリズム（Ａ１）をより詳細にしたもの（Ａ２）を以下に与える。（Ａ２）は、各セグメントの最適符号化テンプレートＴ１、Ｔ２とラグランジュの未定乗数λとを、目標ビットレートを満たすように決定する。セグメント間の重なりを考慮に入れる。

図１に示したエンコーダの実施形態に関して解くべき最適化問題をここで説明する。この実施形態では、図５の実施形態について説明したウィンドウが重なる問題を、後続のＮ個のセグメントに渡ってλ１を一定にして解消し、対応する符号化テンプレートＴ１（１）．．．Ｔ１（Ｎ）を各々が式（Ｖ）を最小化するエンコーダＡＥ１に適用する。この場合、第１のエンコーダＡＥ１のＮ個のセグメントのすべてを最初に求める。第２のエンコーダＡＥ２について、λに従って、式（ＩＶ）を最小化する符号化テンプレートＴ２（１）．．．Ｔ２（Ｎ−１）を求める。このように、λ１のいくつかの値を式（１）を最小化するものが見つかるまでテストすることができる。目標ビットレートが可能な最小の知覚的歪みを満たすまで、λの値をテストできる。セグメント１．．．Ｎ−１の解を求めた後、次のセグメントＮ．．．２Ｎ−１を最適化する。以下において、アルゴリズム（Ａ３）は、λ１を一定に保ってセグメント間の重なりを考慮にいれて、目標ビットレートを満たすように、各セグメントの最適な符号化テンプレートＴ１とＴ２とラグランジュの未定乗数λを求める原理をまとめたものである。

ネストになっているループの数は、アルゴリズム（Ａ２）よりも（Ａ３）の方が１つ少ないことに留意せよ。しかし、これは正しくない。λ１とλに従う符号化には対応する符号化テンプレートを求める別のループが必要だからである。

アルゴリズム（Ａ３）の利点は、２つのエンコーダＡＥ１、ＡＥ２の分割（segmentation）を一致させる必要がないことである。エンコーダＡＥ１が符号化する時間的インターバル（例えばセグメント番号ｎ＝１．．．Ｎを含む）はＡＥ２が符号化する時間的インターバルと常に長さが少なくとも同じであることだけが要求される。

アルゴリズム（Ａ３）を実装してテストしたが、ｎ２のループがＮ−１ではなくてＮまでである点だけが異なる。これによりＮ個のセグメントの終わりには符号化の正確性が若干落ちたが、品質には影響が無かったようである。実施において、第１のエンコーダＡＥ１は異なる柔軟な分割を用いた（参考文献６参照）が、第２のエンコーダＡＥ２は固定分割を用いた。

ここまで説明したエンコーダの実施形態では、２つのカスケードされたエンコーダを用いた。しかし、本発明によれば、カスケードするエンコーダの数は容易に２より大きくできる。２つのシナリオがある：
全ての符号化テンプレートを考慮する（例えば、候補のテンプレートは制限しない）。この場合、第１のエンコーダを２つ（またはそれ以上）のエンコーダのカスケードで置き換えることができる。これらのエンコーダの各々の符号化テンプレートは、各セグメントについて、符号化テンプレートの可能なすべての組み合わせを含む大きな符号化テンプレートのセットにまとめられる。そうすると、この問題は２つのエンコーダのみがカスケードされているものとして解くことができる。

すべての符号化テンプレートは考慮せず、式（Ｖ）で与えられるコスト関数を最小化するもののみを考慮する。この場合、第２のエンコーダはλに従って最適化される２つのエンコーダのカスケードとして考えることができる。この「ネストされた」拡張は、カスケードされるエンコーダの数が増えても続けることができる。

図７は、並行して動作する２つのエンコーダＡＥ１、ＡＥ２を有する第３のオーディオエンコーダの実施形態を示す図である。これは図５に示した第２のエンコーダの実施形態と、オーディオ入力信号ε０が分離部ＳＰＬＩＴにより第１の信号部ε１と第２の信号部ε２に分離される点で異なる。第１と第２の信号部分ε１、ε２は加え合わせると入力信号ε０となる。２つの信号ε１とε２は、第１のエンコーダＡＥ１と第２のエンコーダＡＥ２にそれぞれ送られる。

図７の第３のオーディオエンコーダの実施形態の制御部ＣＵは、第１と第２のエンコーダにそれぞれ符号化テンプレートＴ１、Ｔ２を送り、符号化を実行させる。このように、選択されるすべての２つの符号化テンプレートＴ１とＴ２について、エンコーダＡＥ１は第１の信号部分ε０１を処理し、これとは独立に、エンコーダＡＥ２は第２の信号部分ε０２を処理する。エンコーダＡＥ１、ＡＥ２はそれぞれ残差信号ε３とε４を発生する。これらの残差信号は制御部に送られる。制御部は知覚モデルに従って、知覚的歪みの大きさを計算する。この知覚的歪みの大きさを用いて、可能な符号化テンプレートＴ１、Ｔ２のセットから最適な符号化テンプレートＴ１、Ｔ２を求め、信号の最終的な符号化を決定する。このため、知覚的歪みの大きさのだけでなく、各エンコーダＡＥ１、ＡＥ２のビットレートＲ１、Ｒ２（またはその推測値）も考慮に入れる。第１と第２のオーディオエンコーダの実施形態について説明したように、参考文献４のモデルを使用して、知覚的歪みの大きさＤを計算できる。

第３のオーディオエンコーダの実施形態において、制御部が解かねばならない問題の正式な定義は次の通りである：

ここで、Ｄ１とＤ２は、それぞれε３とε４に基づき計算される。知覚的歪みは単純に加えることができると仮定する。パラメータｎはセグメント番号であり、信号はトータルの入力信号からいくつかの短い時間セグメントにより符号化されると仮定する。この最小化問題は次の制約条件の下で最小化しなければならない。

ここで、ＲＴは目標ビットレートである。

前のセクションで説明した制約条件の下で、２Ｎ個の独立なコスト関数を定義して、最小化することにより、問題を再定式化することができる。

解くべき問題は、以下のλを見つけることである：

Ｔ１ｍｉｎ（ｎ）とＴ２ｍｉｎ（ｎ）は次式をみたすように選択される：

この問題の再定式化の利点は、２Ｎ個の独立の問題がラグランジュの未定定数λで結びつけられていることである。実際には、これはλの初期値を選択することを意味する。この値を用いて式（ＩＸ）と（Ｘ）の最小化問題を各セグメントｎと各エンコーダについて独立に解くことができる。この最適化の後、式（ＶＩＩＩ）が満たされているかチェックする。目標レートＲＴと使用するトータルビットレート（Ｒ１＋Ｒ２）間の差に基づいて、λを適応させる。このプロセスを、（式ＶＩＩＩに基づき）λの最良値または満足のいく値が見つかるまで繰り返す。

この並行する場合の最適化は個々のエンコーダＡＥ１、ＡＥ２に対して別々であり独立にできるので、原理的には、可能な全ての符号化テンプレートＴ１、Ｔ２から符号化テンプレートＴ１、Ｔ２のサブセットを選択することが可能である。エンコーダＡＥ１、ＡＥ２の特性により、そのサブセットに入らないテンプレートＴ１、Ｔ２は最適解ではないことが分かっているからである。これは、カスケードされたエンコーダと比較して並列エンコーダの大きな利点である。

上記の並行最適化は、３個以上のエンコーダに容易に拡張できるが、これは式（ＶＩ）乃至（Ｘ）の性質から理解できるであろう。

図４の並行エンコーダの好ましい実施形態において、入力信号スプリッタＳＰＬＩＴは、オーディオ入力信号ε０の入力セグメントを変換係数に分離（split）するように構成された修正離散余弦変換（ＭＤＣＴ）を有する。変換係数は、別々に符号化される各々がスケールファクタ帯域を表すグループに分離される。各セグメントの各スケールファクタ帯域に対して、λの同じ値に従って式（ＶＩ）と（ＶＩＩ）に与えられたコスト関数を最小化するように、１つのスケールファクタと１つの符号化ブック（coding book）を選択しなければならない。スケールファクタ帯域に応じて異なる符号ブック（code book）デザインを用いて、そのスケールファクタ帯域中の変換係数の異なる統計を任意的に利用してもよい。すべての個々のスケールファクタ帯域をセグメントにわたって最適化してから、トータルのビットレートを計算し、目標ビットレートになるようにλを適応させる。

本発明によるエンコーダとデコーダは、デジタルシグナルプロセッサを有する単一チップ上で実施してもよい。このチップは、オーディオ装置のシグナルプロセッサの能力にかかわらず、かかるオーディオ装置に組み込むことができる。あるいは、エンコーダとデコーダは、応用装置のメインのシグナルプロセッサ上で実行される純粋なアルゴリズムにより実施することもできる。

参照符号が請求項に含まれているが、単に請求項を明確にするためである。これらの図面の実施形態の例への参照は請求項の範囲を限定するものであると解してはならない。
参考文献リスト
［１］Scott N. Levine著、「Audio Representations for Data Compression and Compressed Domain Processing」、博士論文、１９９８年１２月２日
［２］Wuppermann等著「Transmission system implementing different coding principles」米国特許第５，８０８，５６９号公報
［４］S. van de Par, A. Kohlrausch, G. Charestan, R.Heusdens (２００２)著「A new psychoacoustical masking model for audio coding applications」IEEE Int. Conf. Acoust, Speech and Signal Process., Orlando, USA、２００２年ページ１１−１８０５−１８０８
［５］R. Heusdens, R. Vafm, W.B. Kleijn (２００２)等著「Sinusoidal modeling using psychoacoustical matching pursuits」IEEE Signal Processing Lett, ９(８), pp. ２６２-２６５
［６］R. Heusdens and S. van de Par (２００２)等著「Rate-distortion optimal sinusoidal modeling of audio and Speech using psychoacoustical matching pursuits」IEEE Int. Conf. Acoust., Speech and Signal Process., Orlando, USA,２００２年ページ１１−１８０９−１８１２
［７］J. Princen and A. Bradley (１９８６)著「Analysis/synthesis filter bank design based on time domain aliasing cancellation」IEEE Trans. Acoust, Speech, Signal Processing, ３４ pp. １１５３- １１６１

オーディオの各部分についてトータル目標ビットレートの制約の下で動作する２つのエンコーダを有する第１のオーディオエンコーダの実施形態を示すブロック図である。知覚的歪み基準を求めるために使用されるマスキング曲線とエラースペクトルの例を示すグラフである。２つの異なる音声例の場合に、第１と第２のエンコーダの間のビットレートの分配の、結果として得られるトータルな知覚的歪みに対する影響を示すグラフである。２つのデコーダを有するオーディオデコーダのブロック図である。各オーディオ部分に対して、いくつかの符号化テンプレートで動作する２つのエンコーダのカスケードを有する第２のエンコーダの実施形態を示す図である。第２のエンコーダの実施形態による２つのエンコーダ間の分割と重なりの例を示す図である。並行して動作する２つのエンコーダを有する第３のエンコーダの実施形態を示す図である。

Claims

オーディオ信号を符号化するオーディオエンコーダであって、
第１の符号化信号部分を発生する第１のエンコーダと、
少なくとも、第２の符号化信号部分を発生する第２のエンコーダと、
制御部であって、
歪みの大きさに関して第１と第２の符号化信号部分を有するオーディオ信号のジョイント表現を評価する評価手段と、
第１と第２のエンコーダの少なくとも一方の符号化パラメータを調整し、その調整に応じて、所定基準に従って符号化パラメータを最適化するように、オーディオ信号のジョイント表現の歪みの大きさを監視する最適化手段とを有する制御部と、を有するオーディオエンコーダ。
歪みの大きさは知覚的歪みの大きさを含む、請求項１に記載のオーディオエンコーダ。
最適化手段は歪みの大きさを最小化するように符号化パラメータを調節する、請求項１に記載のオーディオエンコーダ。
最適化手段は、第１と第２のエンコーダの所定の最大トータルビットレートの制約下で歪みの大きさを最小化する、請求項３に記載のオーディオエンコーダ。
最適化手段は、所定の最大トータルビットレート内で第１と第２のビットレートをそれぞれ第１と第２のエンコーダに分配することにより歪みの大きさを最小化する、請求項４に記載のオーディオエンコーダ。
第１のエンコーダはオーディオ信号を第１の符号化信号部分に符号化し、第２のエンコーダはオーディオ信号と第１の符号化信号部分の差である第１の残差信号を第２の符号化信号部分に符号化する、請求項１に記載のオーディオエンコーダ。
歪みの大きさは、第１の残差信号と第２の符号化信号部分の差である第２の残差信号に基づく、請求項６に記載のオーディオエンコーダ。
オーディオ信号を第１と第２の部分に分離する信号スプリッタをさらに有し、
第１のエンコーダは第１のオーディオ信号部分を第１の符号化信号部分に符号化し、第２のエンコーダは第２のオーディオ信号部分を第２の符号化信号部分に符号化する、オーディオエンコーダ。
最適化手段は、所定の最大の歪みの大きさの制約下で第１と第２の信号部分のトータルビットレートを最小化する、請求項１に記載のオーディオエンコーダ。
第１のエンコーダは、パラメトリックエンコーダ、変換エンコーダ、サブバンドエンコーダ、定常パルス励起エンコーダ、符号ブック励起リニア予測エンコーダよりなる群から選択されたエンコーダである、請求項１に記載のオーディオエンコーダ。
第２のエンコーダは、パラメトリックエンコーダ、変換エンコーダ、サブバンドエンコーダ、定常パルス励起エンコーダ、符号ブック励起リニア予測エンコーダよりなる群から選択されたエンコーダである、請求項１に記載のオーディオエンコーダ。
オーディオエンコーダは重ならないセグメントに分割されたオーディオ信号を受信し、最適化手段はオーディオ信号の１つ以上の後続セグメントにわたって符号化パラメータを最適化する、請求項１に記載のオーディオエンコーダ。
オーディオエンコーダは重なっているセグメントに分割されたオーディオ信号を受信し、最適化手段はオーディオ信号の１つ以上の後続セグメントにわたって符号化パラメータを最適化する、請求項１に記載のオーディオエンコーダ。
第３の符号化信号部分を発生する第３のエンコーダをさらに有し、制御部は第１、第２、及び第３の符号化信号部分を含むオーディオ信号のジョイント表現を処理する、請求項１に記載のオーディオエンコーダ。
符号化オーディオ信号を復号するオーディオデコーダであって、
第１の符号化信号部分から第１の復号信号部分を発生する第１のデコーダと、
第２の符号化信号部分から第２の復号信号部分を発生する第２のデコーダと、
第１と第２の復号信号部分の合計としてオーディオ信号の表現を発生する合計手段とを有するオーディオデコーダ。
第１のデコーダは、パラメトリックデコーダ、変換デコーダ、サブバンドデコーダ、定常パルス励起デコーダ、符号ブック励起リニア予測デコーダよりなる群から選択されたデコーダである、請求項１５に記載のオーディオデコーダ。
第２のデコーダは、パラメトリックデコーダ、変換デコーダ、サブバンドデコーダ、定常パルス励起デコーダ、符号ブック励起リニア予測デコーダよりなる群から選択されたデコーダである、請求項１５に記載のオーディオデコーダ。
第３の符号化信号部分から第３の復号信号部分を発生する第３のデコーダをさらに有し、合計手段は第１、第２、及び第３の復号信号部分としてオーディオ信号の表現を発生する、請求項１５に記載のオーディオデコーダ。
オーディオ信号の符号化方法であって、
第１のエンコーダを用いて第１の符号化信号部分を発生する段階と、
第２のエンコーダを用いて少なくとも第２の符号化信号部分を発生する段階と、
歪みの大きさに関して第１と第２の符号化信号部分を有するオーディオ信号のジョイント表現を評価する段階と、
所定の基準に従って歪みの大きさに応じて第１と第２のエンコーダの符号化パラメータを最適化する段階とを有する方法。
符号化オーディオ信号の復号方法であって、
第１のデコーダを用いて第１の符号化信号部分から第１の復号信号部分を発生する段階と、
第２のデコーダを用いて第２の符号化信号部分から第２の復号信号部分を発生する段階と、
第１と第２の復号信号部分を加える段階とを有する方法。
異なるエンコーダにより符号化された第１と第２の符号化信号部分を含む符号化オーディオ信号。
請求項２１に記載の符号化オーディオ信号を表すデータを有する記憶媒体。
請求項１に記載のオーディオエンコーダを有する装置。
請求項１５に記載のオーディオデコーダを有する装置。
請求項１９の方法に記載のオーディオ信号を符号化するコンピュータ読み取り可能なプログラムコード。
請求項２０の方法に記載の符号化オーディオ信号を復号するコンピュータ読み取り可能なプログラムコード。