JP5154934B2 - 知覚的歪みを最小化する結合オーディオ符号化 - Google Patents

知覚的歪みを最小化する結合オーディオ符号化 Download PDF

Info

Publication number
JP5154934B2
JP5154934B2 JP2007531883A JP2007531883A JP5154934B2 JP 5154934 B2 JP5154934 B2 JP 5154934B2 JP 2007531883 A JP2007531883 A JP 2007531883A JP 2007531883 A JP2007531883 A JP 2007531883A JP 5154934 B2 JP5154934 B2 JP 5154934B2
Authority
JP
Japan
Prior art keywords
encoder
audio
signal
encoded
magnitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007531883A
Other languages
English (en)
Other versions
JP2008513823A (ja
Inventor
デ パール,ステーフェン エル イェー デー エー ファン
スヘインデル,ニコル,ハー ファン
コット,ヴァレリー,エス
ヒュースデンス,リハルト
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2008513823A publication Critical patent/JP2008513823A/ja
Application granted granted Critical
Publication of JP5154934B2 publication Critical patent/JP5154934B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は高品質低ビットレートのオーディオ信号符号化に関する。本発明は、特に、目標ビットレートを考慮しつつ、知覚される音声品質に関して最適化された効果的な符号化に関する。より具体的には、本発明は複数のエンコーダを用いて結合符号化信号表現を生成するオーディオ信号符号化に関する。また、本発明は、エンコーダ、デコーダ、符号化及び復号方法、符号化オーディオ信号、かかる符号化信号を表すデータを有する記憶及び伝送媒体、エンコーダ及び/またはデコーダを有するオーディオ装置にも関する。
高品質のオーディオ符号化の分野では、多様なオーディオ信号に対して音声品質対ビットレートの点で最適な結果を提供するには、異なる符号化方法が必要だということは周知である。1つの符号化方法は、あるタイプのオーディオ信号に対してはよい結果を与えるが、他のタイプのオーディオ信号では性能がよくない。非常に低ビットレートでは正弦波エンコーダとノイズモデルが最も効率的であり、波形符号化包はビットレートが高いときによい結果を与える。
現在のMPEG2とMPEG4標準では、ビットレートに応じて符号化ストラテジ(strategies)を変更すると効率的であることが分かっている。そのため、この標準には幅広いオーディオエンコーダが含まれており、限られたビットレートの範囲で最良の結果を得られるようになっている。
しかし、通常、オーディオ信号には、短い時間であっても多様な信号特性が混ざっている。それゆえ、一般的には、数秒のオーディオ信号であっても純粋音、ノイズ、過渡音等が支配的な部分が含まれている。これらは特徴が異なるため、最適符号化のための符号化特性も異なる。すなわち、1種類のエンコーダを使用しても、信号のある部分に対しては、ビットレートまたは品質の点で非常に貧しい結果しか得られないことがある。
Scott Levineによる博士論文[1](添付した参照文献リストを参照)は、正弦波(すなわちパラメトリック)エンコーダと波形エンコーダが混在したエンコーダを記載している。オーディオ信号の大部分はパラメトリックエンコーダで符号化されるが、オーディオ信号の過渡的部分だけには波形エンコーダが使用される。この仕組みでは、パラメトリックエンコーダと波形エンコーダの間の分割は所定のものである。
フィリップス社の米国特許第5,808,569号には、信号の異なる部分を2つの異なる符号化ストラテジを用いて符号化する符号化スキーム(scheme)が記載されている。しかし、ビットレートをエンコーダにわたって以下に配分するかを決定する仕様は与えられていない。
このように、先行技術のオーディオエンコーダは、オーディオ信号のパラメータの変化に応じて2つ以上の異なる符号化スキームを制御する問題を解決していない。
本発明の1つの目的は、多様なオーディオ信号特性と異なる目標ビットレートに対して効率が高い高品質なオーディオ符号化を提供できる、柔軟なオーディオエンコーダを提供することである。
本発明の第1の態様によると、この目的は、オーディオ信号を符号化するオーディオエンコーダにより達成される。該オーディオエンコーダは:
−第1の符号化信号部分を発生する第1のエンコーダと、
−少なくとも、第2の符号化信号部分を発生する第2のエンコーダと、
−制御部であって、
− 歪みの大きさに関して第1と第2の符号化信号部分を有するオーディオ信号のジョイント表現を評価する評価手段と、
− 第1と第2のエンコーダの少なくとも一方の符号化パラメータを調整し、その調整に応じて、所定基準に従って符号化パラメータを最適化するように、オーディオ信号のジョイント表現の歪みの大きさを監視する最適化手段とを有する制御部と、を有する。
用語「歪みの大きさ(distortion measure)」は、オーディオ信号と符号化オーディオ信号(すなわち、オーディオ信号のジョイント表現(joint representation))間の差の任意の尺度と解釈すべきである。
用語「符号化パラメータ」は、具体的なエンコーダに対して調整できる1つ以上の符号化変数の1つとして広く解釈すべきである。これらの符号化パラメータの性質はエンコーダの種類に応じて決まる。
第1の態様によるオーディオエンコーダは、オーディオ信号の各信号(excerpt)の最適な符号化を適応させて、最大ビットレートを制限した場合に、2つのジョイントエンコーダを最適に利用して、知覚的歪みを最低にする、すなわち知覚される音声品質を最良にする。特に、まったく異なる符号化原理を使用する第1と第2のエンコーダを選択して、効率的に符号化する。例えば、ある信号特性を有する信号(excerpt)の場合、第1のエンコーダがほとんど全てのビットレートを使用した場合に符号化が最も効率的になり、次の信号(excerpt)の特性は異なり、最適な符号化をするには両方のエンコーダをミックスして使用する必要がある。第1の態様によるエンコーダは、異なるオーディオ信号の特性に適応することができ、異なる最大ビットレートの制限において性能が最適になる。あるエンコーダは特定のビットレートで最良の性能を発揮することが分かっている。このことは、2つのエンコーダを最適にミックスすることにより考慮され、目標ビットレートの広い範囲にわたって最適な符号化効率が得られる。第1と第2のエンコーダの両方の符号化パラメータが好ましくは最適化される。
原理的には、本発明によるエンコーダにより、広い範囲の基準に従って、個々のエンコーダの符号化パラメータの最適化が可能である。一実施形態では、最適化手段は、歪みの大きさを最小化するように符号化パラメータを調整する、すなわち、この基準に従って、利用可能なビットレートを考慮せずに音声品質を最適化する。しかし、この実施形態は、第1と第2のエンコーダの所定の最大トータルビットレートの制約により修正されてもよい。
他の実施形態では、最適化手段は、所定の最大トータルビットレート内で第1と第2のビットレートをそれぞれ第1と第2のエンコーダに分配することにより歪みの大きさを最小化する、このオーディオエンコーダの実施形態は、歪みを最小化するように、2つのエンコーダ間で最も効率的にトータルビットレートを分配しようとするものである。2つのエンコーダの簡単な実施形態であって、固定のビットレートのセットに限定され、ビットレートの合計が一定である場合、最適化手段は2つのエンコーダ間のビットレートの分配を調整するのみでよい。
他の実施形態では、最適化手段は、所定の最大の歪みの大きさの制約下で第1と第2の信号部分のトータルビットレートを最小化する。この実施形態によると、最適化基準は歪みの大きさが一定の場合にトータルビットレートを最小化する。好ましい実施形態では、歪みの大きさは知覚的歪みの大きさを含む、用語「知覚的歪みの大きさ(perceptual distortion measure)」は、例えば、音響心理的モデルに従って、知覚される音声品質に対して符号化信号が歪んでいる程度を表す量として、広く解釈すべきである。言い換えると、符号化信号の知覚的歪みの大きさは、リスナーが知覚できる、元の入力オーディオ信号の劣化の程度を表す量である。明らかに、符号化信号の音声品質を最適化するという目標を達成するためには、この大きさ(measure)を最小化することが好ましい。
好ましい実施形態では、第1のエンコーダはオーディオ信号を第1の符号化信号部分に符号化し、第2のエンコーダはオーディオ信号と第1の符号化信号部分の差である第1の残差信号を第2の符号化信号部分に符号化する。この実施形態は、2つのエンコーダのカスケードであって、第1のエンコーダが符号化しなかった原信号の残余部分を第2のエンコーダが符号化するものである。 歪みの大きさは、好ましくは、第1の残差信号と第2の符号化信号部分の差である第2の残差信号に基づく。すなわち、2つのエンコーダが符号化しなかった原信号の残余部分は、歪みの尺度(distortion measure)を発生するために、原オーディオ信号とともに使用される。一般的な言葉で言うと、3つ以上のエンコーダのカスケードにおいては、各エンコーダはそのカスケードの先行するエンコーダの残差信号を符号化し、カスケードの最後のエンコーダで符号化されなかった残りの信号を最適化プロセスの制御部への入力として使用する。
他の好ましい実施形態では、オーディオエンコーダは、オーディオ信号を第1と第2の部分に分離する信号スプリッタをさらに有し、第1のエンコーダは第1のオーディオ信号部分を第1の符号化信号部分に符号化し、第2のエンコーダは第2のオーディオ信号部分を第2の符号化信号部分に符号化する。この実施形態では、第1と第2のエンコーダが並行して動作する。例えば、信号スプリッタはオーディオ信号を異なる周波数範囲に分離するフィルタバンクを有する。
オーディオエンコーダは、第3の符号化信号部分を発生する第3のエンコーダをさらに有し、制御部は第1、第2、及び第3の符号化信号部分を含むオーディオ信号のジョイント表現を処理してもよい。3つのエンコーダは、上記のようにカスケードでも並行でも、またはこれらの組み合わせで動作してもよい。オーディオエンコーダのエンコーダは3つより多くてもよく、4つ、5つ、6つ、またはそれ以上であってもよい。これらは、カスケードされ、並列に結合され、またはカスケードと並列の組み合わせで結合されてもよい。複数のエンコーダは、異なる種類であってもよく、少なくとも2つの異なる種類のものである。
最適化手段は、好ましくは、第1と第2のエンコーダの第1と第2の符号化テンプレートの所定のセットから、所定の基準に従って最良の性能になる第1と第2の符号化テンプレートのペアを選択する。ここで、「符号化テンプレート」は、エンコーダに対して、調節可能な符号化パラメータの所定のセットを意味すると解釈すべきである。「所定のテンプレートのセット」は、そのエンコーダに対して、異なる符号化パラメータのセットを意味すると解釈すべきである。
第1のエンコーダは、好ましくはパラメトリックエンコーダ(例えば、正弦波エンコーダ)、変換エンコーダ、定常パルス励起エンコーダ(Regular Pulse Excitation encoders)、符号ブック励起リニア予測エンコーダ(Codebook Excited Linear Prediction encoders)よりなる群から選択されたエンコーダである。第2のエンコーダは好ましくは同じグループから選択されたエンコーダである。第1のエンコーダは結合エンコーダであってもよい。最も好ましくは、第1と第2のエンコーダは異なる種類であり、最良の助様態で互いに補完する。しかし、第1と第2のエンコーダは、同じ種類でもよいが、符号化テンプレートは異なる。
オーディオエンコーダは、好ましくはセグメントに分割されたオーディオ信号を受信する。最適化手段は、好ましくは、オーディオ信号の1つ以上の後続セグメントにわたって符号化パラメータを最適化する。これらのセグメントは重なっていてもいなくてもよい。より好ましくは、3つ以上の後続のセグメントを最適化プロセスで使用する。
本発明の第2の態様は、符号化オーディオ信号を復号するオーディオデコーダである。該オーディオエンコーダは、
−第1の符号化信号部分から第1の復号信号部分を発生する第1のデコーダと、
−第2の符号化信号部分から第2の復号信号部分を発生する第2のデコーダと、
−第1と第2の復号信号部分の合計としてオーディオ信号の表現を発生する合計手段とを有する。
第1と第2のデコーダは、符号化プロセスで使用したものと同じ種類のものであることが必要である。さもないと、これらのデコーダは、正弦波パラメータ等のエンコーダ特有のデータを含む第1と第2の符号化信号を復号できない。デコーダは符号化信号の各部分で完全に平行して動作する。
好ましい第1と第2のデコーダは、オーディオエンコーダに関して上で列挙したのエンコーダと対応する種類のものから選択できる。
オーディオデコーダに関して、デコーダは、第3の符号化信号部分から第3の復号信号部分を発生する第3のデコーダをさらに有し、合計手段は第1、第2、及び第3の復号信号部分としてオーディオ信号の表現を発生する。オーディオデコーダは、各々が符号化オーディオ信号の個々の部分を復号する第4、第5、第6、またはそれ以上の別のデコーダをさらに有してもよい。全ての復号信号部分を加えて出力オーディオ信号を発生する。
第3の態様では、本発明は、オーディオ信号の符号化方法を提供する。該方法は:
−第1のエンコーダを用いて第1の符号化信号部分を発生する段階と、
−第2のエンコーダを用いて少なくとも第2の符号化信号部分を発生する段階と、
−歪みの大きさに関して第1と第2の符号化信号部分を有するオーディオ信号のジョイント表現を評価する段階と、
−所定の基準に従って歪みの大きさに応じて第1と第2のエンコーダの符号化パラメータを最適化する段階とを有する。
第1の態様に対するのと同じ説明が当てはまる。
第4の態様では、本発明は、オーディオ信号の復号方法を提供する。該方法は:
−第1のデコーダを用いて第1の符号化信号部分から第1の復号信号部分を発生する段階と、
−第2のデコーダを用いて第2の符号化信号部分から第2の復号信号部分を発生する段階と、
−第1と第2の復号信号部分を加える段階とを有する。
第2の態様に対するのと同じ説明が当てはまる。
第5の態様では、本発明は、異なるエンコーダが符号化した第1と第2の符号化信号部分を含む符号化オーディオ信号である。
符号化信号は、標準のデジタルオーディオフォーマットに従ったフォーマットを有するデジタル電気信号であってもよい。この信号は、電気接続ケーブルを用いて2つのオーディオ装置間を送信される。しかし、符号化信号は、ラジオ周波数の搬送波を用いた空中波等のワイヤレス信号でもよく、光ファイバを通して送信できる光信号であってもよい。
第6の態様では、本発明は、第5の態様による符号化オーディオ信号を表すデータを含む記憶媒体である。記憶媒体は、好ましくは、DVD、DVD−ROM、DVD−R、DVD+RW、CD、CD−R、CD−RW、コンパクトフラッシュ(登録商標)、メモリスティック等の標準的なオーディオデータ記憶媒体である。しかし、コンピュータのハードディスク、メモリ、フロッピー(登録商標)ディスク等のコンピュータデータ記憶媒体であってもよい。
第7の態様では、本発明は第1の態様によるオーディオエンコーダを有する装置である。
第8の態様では、本発明は、第2の態様によるオーディオデコーダを有するオーディオ装置である。
第7と第8の態様による好ましい装置は、テープ、ディスク、またはメモリベースのオーディオレコーダ、及び例えば、固体プレーヤ、DVDプレーヤ、コンピュータのオーディオプロセッサ等のプレーヤ等のオーディオ装置である。また、携帯電話にも有利である。
第9と第10の態様は、コンピュータ読み取り可能なプログラムコード、すなわちソフトウェアであって、該プログラムコードは、それぞれ第3と第4の態様による符号化方法と復号方法を実施するアルゴリズムを有している。
本発明の範囲内において様々な修正と代替形式が可能であるが、具体的な実施形態は図面中で例として示したものであり、以下に詳細に説明する。しかし、本発明は開示された具体的な形式に限定されるものではないことに留意すべきである。本発明は、添付した請求の範囲に記載した本発明の精神と範囲に含まれるすべての修正、等価物、代替物を含むものである。
本発明を添付した図面を参照して詳細に説明する。
図1は、第1の単純なエンコーダの実施形態の原理を示すブロック図であり、一定のトータル目標ビットレート毎フレームで動作する2つの異なるエンコーダAE1とAE2のカスケードを含む。フレームの定義は、単一のセグメントと時間的に等しいかそれより長い時間である。第1のエンコーダAE1は好ましくは正弦波エンコーダを有し、第2のエンコーダAE2は変換エンコーダを有する。正弦波符号化方法は低ビットレートで効率的であり、同じ低ビットレートにおける波形エンコーダと比較して音声品質がよい。変換エンコーダはより大きなビットレートを必要とするが、正弦波エンコーダよりも音声品質がよいことが知られている。よって、要するに組み合わせることにより柔軟なオーディオエンコーダとなる。
図1に示した符号化スキームでは、オーディオ信号ε0の一部分が、目標ビットレートのある比率R1を用いて第1のエンコーダAE1により符号化される。第1のエンコーダAE1が使えるビットレートの比率R1は制御部CUが制御する。第1のエンコーダAE1における正弦波符号化の後、第1の符号化信号部分E1(すなわち、量子化されていない正弦波表示)が元の入力信号ε0から減算され、残差信号ε1(すなわち、正弦波エンコーダAE1によりモデル化されていない信号の部分)が得られる。残差信号ε1は、第2のエンコーダAE2(すなわち波形エンコーダ)により符号化されて第2の符号化信号部分E2になる。これには、フレームの符号化に利用できるトータルビットレートの残りの部分R2が使われる。
この実施形態では、制御部CUは、結合符号化信号E1、E2の知覚的音声品質を最適化する。この最適化は、2つのエンコーダAE1、AE2の間でいくつかのビットレートR1、R2の分配をテストして、知覚的歪みの大きさに関して符号化結果を評価することにより行う。知覚的歪みの大きさを提供するために、知覚的モデルを使用することが好ましい。知覚的歪みを予測する方法を明示的に提案する好ましいモデルは、参照文献[4]のモデルである。一般的に、この最適化は、エンコーダをローカルな信号特性に適応させるために、フレームごとに行われる必要がある。
制御部CUは、2つのエンコーダAE1、AE2の間のビットレートの具体的分配の知覚的歪みの大きさを記憶し、最良の分配を見つけるまで、他の分配を試みる。この目的のため、制御部CUは、第2のエンコーダAE2の後のエラー信号ε2を元の入力信号ε0と比較する。エラー信号すなわち残差信号ε2の定義は、第1の残差信号ε1と第2の符号化信号部分E2の差異であり、換言すると、2つのエンコーダAE1、AE2により符号化されていない最終的な残差信号(rest signal)である。
ビットレートの分配R1、R2の所定のセットをテストしてから、制御部CUは決定された知覚的歪みの大きさから、知覚的歪みが最小になる使用すべきビットレートの分配R1、R2を決定する。この分配R1、R2に従って、結果として得られた第1の信号部分E1と第2の信号部分E2(すなわち、エンコーダAE1、AE2からそれぞれ得られるパラメータとデータ)は、符号化出力ビットストリームOUTを出力するようにビットストリームフォーマッタBSF(Bit Stream Formatter)により処理される。
テストされるビットレートの分配R1、R2の所定のセットは、例えば、トータル目標ビットレート(すなわち、R1+R2)の5%、10%、20%または25%のステップである全ての組み合わせである。例えば、目標ビットレートが64kbpsの場合、(R1、R2)の組み合わせは(0,64)、(16,48)、(32,32)、(48,64)、(64,0)とすることができる。
正弦波エンコーダAE1が波形エンコーダAE2よりも効率的になる交代点は、符号化される具体的なオーディオ素材に応じて異なる。例えば、ビットレートが32kbpsのオーディオ部分の符号化は正弦波エンコーダによるのが最も効率的であろうが、同じビットレートでも、他のオーディオ部分の符号化は波形エンコーダにより最も効率的であり得る。
上記の通り、制御部CUはビットレートの分配R1、R2の所定のセットの全体をテストする。別の最適化プロセスでは、制御部CUは、ビットレートの組み合わせR1、R2の結果の知覚的歪みの大きさが所定の基準値より小さくなったときに、さらに別のビットレート分配の組み合わせR1、R2をテストすることをやめる。
結果として、図1を参照して説明する実施形態は、関係する2つのオーディオエンコーダAE1とAE2の能力を最大限利用することができる。各オーディオ部分に適応するからである。これにより、1)符号化を要するオーディオのフレームに最良のオーディオエンコーダが自動的に選択され、2)音声品質がよくなる場合、オーディオエンコーダを組み合わせて使用できる。
第2のエンコーダAE2後に残る残差信号ε2は、ノイズエンコーダ(図示せず)の入力信号として使用できる。このように、2つのエンコーダAE1、AE2によりモデル化できないスペクトル部分の少なくとも一部は、ノイズと置き換えることができ、通常は音声品質がよくなる。
第1の正弦波エンコーダAE1の好ましい実施形態では、音響心理的マッチング追跡アルゴリズム(psycho-acoustical matching pursuit algorithm)(参考文献5参照)を使用して、正弦波を推定する。正弦波の分割と分配は、参考文献6に記載の方法に従って行うことが好ましい。
第2の変換エンコーダAE2の好ましい実施形態は、参考文献7に記載されたフィルタバンクに基づく。第2のエンコーダAE2の分割(segmentation)は、第1のエンコーダAE1の分割と同じか、一様分割(uniform segmentation)であってもよい。
第2のエンコーダAE2後の残差信号ε2は、好ましくは、トータルの知覚的歪みを測定するために、知覚モデル(参考文献4参照)により評価される。これは、元の信号INの各フレームのマスク関数v(f)を決定することにより為される事が好ましい。マスク関数(masking function)は、問題のオーディオ信号が人間の聴覚系に入力されたときの人間のヒアリング閾値の周波数fの関数としてスペクトル表示であると理解されている。時間領域の残差信号ε2を使用して、周波数fの関数としてエラースペクトルs(f)を求める。参考文献4の式9に示されているように、エラースペクトル信号とマスク関数の逆数との内積は、知覚された歪みのよい予測材料(predictor)である。すなわち、知覚的歪みDは次式で計算できる:
Figure 0005154934
図2は、マスキング曲線v(f)の例を破線で示したグラフであり、上記の知覚モデルにより計算したものである。図2にはエラースペクトルs(f)も実線で示している。これらは、上記のように、知覚的歪み尺度Dを求めるために使用する。グラフは、リニアな周波数スケールfに対してデシベル単位でレベルLpを示している。図2は、低周波数(例えば約100Hz)において、エラー信号s(f)がマスキング曲線v(f)と比較してレベルがかなり高く、この周波数範囲がトータルの知覚的歪みDに貢献していることを示している。10−12kHzより上では、マスキング曲線は高くなるが、これは静かだと人間のヒアリング閾値が高くなることによるものである。
図3は、図1を参照して説明したような、正弦波エンコーダと波形エンコーダを有するオーディオエンコーダの場合に、正弦波エンコーダに割り当てられるビットレート部分へのトータルな知覚的歪みTPDの依存性を、異なるオーディオ信号に対して示す2つのグラフである。上のグラフのオーディオ信号はカスタネットのものであり、下のグラフのオーディオ信号はハープシコードのものである。シンボルは異なるビットレートを示している:12kbps(丸印)、24kbps(プラス印)、48kbps(星印)。太線は、様々なトータルビットレートについて選択されたビットレート分布を示す。
上のグラフでカスタネットの場合について分かるように、少なくとも12kbps(丸印)と24kbps(プラス印)では、知覚的歪みはビットレート分布の関数としてほぼ一定である。しかし、48kbps(星印)の場合、ほとんどのビットレートを波形エンコーダに送る方が、ほとんどのビットレートを正弦波エンコーダに送るよりも明らかに明らかに有利である。下の図のハープシコードの場合には、事情は異なる。ここで明らかなのは、ビットレートが高くても、正弦波エンコーダがビットレートの約半分となることが明らかであり、ビットレートが低いと正弦波エンコーダにすべてのビットレートを使用する方がよいことが明らかである。
図3に示した例は完全なオーディオ信号(complete audio excerpts)を評価し最適化することにより得られたが、この最適化方法はオーディオの短いセグメントに対して使用して、ビットレートR1、R2の分布を局所的な信号特性に対して適応できると考えられることに注意せよ。
図4は、符号化されたオーディオ信号(例えば、図1を参照して説明したオーディオエンコーダにより符号化されたオーディオ信号)を復号するように構成されたオーディオデコーダのブロック図である。このオーディオデコーダは、第1と第2のエンコーダAE1、AE2のタイプにそれぞれ対応する第1と第2のデコーダAD1、AD2を有する。第1と第2のデコーダAD1、AD2は、エンコーダAE1、AE2からの第1と第2の符号化された信号部分E1、E2を受信するように構成されている。復号されたオーディオ信号は入力ビットストリームINとして受信され、第1と第2の復号された信号部分E1、E2がビットストリームデコーダBSDにより抽出される。そして、第1の復号された信号部分E1は第1のデコーダAD1に送られ、第2の復号された信号部分E2は第2のデコーダAD2に送られる。デコーダAD1、AD2は、それぞれのオーディオ部分を独立に復号でき、その結果の第1と第2の復号された信号部分D1、D2が単に加算されて、元のオーディオ信号の表示OUTを生成する。
図5は、第1と第2の別々のエンコーダAE1、AE2のカスケードを有する他のオーディオエンコーダの実施形態のブロック図である。図1に示した第1の実施形態に関して説明した符号化方式(encoding scheme)が各所定の時間インターバルまたはセグメントで、一定のトータルビットレート(R1+R2)の制約下で動作するが、この制約は図5の第2の実施形態では緩和される。この第2の実施形態は、原理的に、少なくとも第1のエンコーダAE1のすべての可能な符号化パラメータを考慮し、好ましくは第2のエンコーダAE2のすべての可能な符号化パラメータも考慮するものであり、その結果図1の第1のオーディオエンコーダと比較して知覚的歪みが低減される。しかし、第1のオーディオエンコーダの実施形態と比較して、第2のオーディオエンコーダの実施形態の実施はより複雑である。第1の実施形態と対照的に、第2の実施形態によりビットレートは各オーディオ信号(audio signal excerpt)の要求に適応可能となり、そのことにより2つのエンコーダAE1、AE2をより最適化できる。そのため、第2のオーディオエンコーダの実施形態は、多数のオーディオ信号の平均として考えられる同一のビットレートにおいて、知覚的歪みを低減することができ、すなわち音声品質を増大することができる。
図5のオーディオエンコーダにおいて、第1と第2の異なるエンコーダAE1、AE2は、各々多数の異なる方法で受信入力信号ε0を符号化するように構成されている。これらの符号化オプションは符号化テンプレートと呼ばれる。例えば、正弦波エンコーダの場合、1つの符号化テンプレートは入力信号セグメントを表すために使用される制限はの1つのセットを指定し、別のテンプレートは別の正弦波のセットを指定する。それゆえ、すべての可能なテンプレートのセットにより、エンコーダは可能なすべての符号化動作を実行でき、符号化を各オーディオ信号(audio excerpt)に適応させられる。第1と第2のエンコーダAE1、AE2のテンプレートを、それぞれ第1と第2のテンプレートT1、T2で示す。
2つの符号化テンプレートT1とT2が選択されると、第1のエンコーダAE1はオーディオ入力信号ε0を符号化して第1の符号化信号部分E1を得る。符号化が不完全なので、符号化結果は残差信号ε1を含み、この残差信号ε1は第2のエンコーダAE2により符号化され、第2の符号化信号部分E2となる。第2の符号化処理の結果として残差信号ε2が得られる。この残差信号ε2は知覚的歪みの大きさを計算する知覚モデルを用いて制御部CUにより評価される。入力オーディオ信号ε0の最終的符号化について決定をするため、制御部CUは、知覚的歪みの大きさが最小になる符号化テンプレートT1とT2を所定の符号化テンプレートから見つけるために、最適化手順を実行する。このため、知覚的歪みの大きさの他に、各エンコーダAE1、AE2のビットレートR1、R2(またはその推測値)も考慮に入れる。
最終的な符号化テンプレートT1とT2が見つかると、これらのテンプレートT1とT2を用いて、第1と第2のエンコーダAE1、AE2からそれぞれ得られる第1と第2の符号化信号部分E1とE2を生成する。これらの第1と第2の符号化信号部分E1、E2をビットストリームフォーマッタ(bit stream formatter)BSFに送る。このビットストリームフォーマッタBSFはビットストリームOUTを形成する。
第1のエンコーダAE1は好ましくは正弦波エンコーダを有し、第2のエンコーダAE2は変換エンコーダを有する。知覚的歪みの大きさDは、第1のエンコーダの実施形態に関して説明したように、参考文献4に従って計算することが好ましい。
制御部CUが解かねばならない最適化問題の正式な定義は次の通りである:
Figure 0005154934
ここで、D2はε2に基づき計算され、知覚モデル(例えば参考文献4を参照)により予測される知覚的歪みを表す。nはセグメント番号である。信号は、トータルの入力信号ε0から取ったいくつかの短い時間で符号化されると仮定している。この最小化問題は次の制約条件の下で最小化しなければならない。
Figure 0005154934
ここで、RTは目標ビットレートである。
ここで定式化された方法でこの問題を解くとき、原理的には、符号化テンプレートT1、T2の全ての組み合わせをこの最小化問題を解くためにテストしなければならない。各セグメントについて第1と第2のエンコーダAE1、AE2にそれぞれM個の符号化テンプレートがあると仮定すると、テストしなければならない組み合わせの総数は次式の通りである:
Figure 0005154934
現実的な状況では、この問題は効果的に解くことができないので、ここでより効率的な解放を提示する。しかし、コアとなるアイデアはここに述べた問題かまたは少なくともその派生的問題を解くことである。制約条件付き最適化理論から、この種の問題は再定式化でき、セグメントごとに解く必要があるいくつかの独立な最適化問題に分割することができることが分かっている。これは、2つのエンコーダAE1、AE2のビットレートR1、R2が独立であり、セグメントにわたって加えることができるとの制約条件下で行うことができる。同様に、セグメントをわたる知覚的歪みは加法的であり独立であることが必要である。
この問題に対する解は、全体的なビットレート制約条件に従って知覚的歪みの大きさにより予測される知覚的歪みを最小化する。暗にビットレートはセグメントごとに変わってもよい。また、知覚的歪みはセグメントにわたって一定ではない。しかし、セグメントにわたるこれらの変化を許すと、各セグメントについてビットレートまたは知覚的歪みが一定であるときより、全体的な知覚的歪みが小さくなる。
上記の制約条件の下で、N個の独立なコスト関数を定義して、上記の制約条件の下で最小化することにより、問題を再定式化することができる。
Figure 0005154934
解くべき問題は、以下のλを見つけることである:
Figure 0005154934
T1,2 min(n)は次式のように選択される:
Figure 0005154934
この問題の再定式化の利点は、N個の独立の問題がラグランジュの未定定数λで結びつけられていることである。実際には、これはλの初期値を選択することを意味する。この値を用いて式(III)の最小化問題を各セグメントnについて独立に解くことができる。この最適化の後、式(II)が満たされているかチェックできる。目標レートRTと使用するトータルビットレート間の差に基づいてλを適応させる。このプロセスを、(式IIに基づき)λの最良値または満足のいく値が見つかるまで、繰り返す。
式(III)の最適化問題を解くことは、考慮しているセグメントnについて全ての符号化テンプレートT1、T2の組み合わせをテストすることを意味する。具体的なエンコーダAE1、AE2について、符号化テンプレートT1、T2のあるサブセットの外にあるテンプレートは最適解にならないことがアプリオリに分かっているとき、すべての可能な符号化テンプレートT1、T2から符号化テンプレートT1、T2のそのサブセットを選択することができる。式(III)のジョイント最適化問題の場合、2つのエンコーダAE1、AE2間の依存性により、最適化プロセスにおける考慮からアプリオリに一定の符号化テンプレートT1、T2を破棄することは、一層難しい。しかし、符号化テンプレートT1が知られていると仮定すると、最適化プロセスで考慮する必要のないテンプレートT2を選択することができる。テンプレートT2は最後のエンコーダAE2に適用されるからである。より具体的には、第2のエンコーダAE2に対して選択された符号化テンプレートT2は第1のエンコーダAE1の符号化には影響しないからである。第1のエンコーダAE1に対して、これは可能ではない。選択されたT1は第2のエンコーダAE2の振る舞いに影響するからである(式Iを参照、R2はT1とT2の両方に依存している)。それゆえ、エンコーダAE2への影響を考えずにエンコーダAE1の符号化テンプレートT1を破棄することはできない。エンコーダAE1の符号化テンプレートT1のセットを制約することは、本来的により一層困難である。しかし、計算を複雑にしないため、例えば第1のエンコーダAE1は孤立して動作すると仮定して、エンコーダAE1の候補となるテンプレートT1の数を制限することもできる。
実際には、式(III)の最適化問題を解くには、最初に符号化テンプレートT1を選択して、エンコーダAE2に送られる残差信号ε1を計算する。T1は既知であるから、第2のエンコーダAE2は式(III)を簡単化したものに従って最適化される:
Figure 0005154934
上記の通り、可能な全ての符号化テンプレートT2を考慮しなくても、第2のエンコーダAE2をほぼどのように選択しようが、この最適化問題をとくことができる。最小化問題を解くと、考えているセグメントに対して式(I)の最適解が見つかるまで、第1のエンコーダAE1の新しいテンプレートT1を選択することができる。
このセクションで説明した解法は以下のアルゴリズムでまとめることができる(A1):各セグメントの最適符号化テンプレートT1、T2とラグランジュの未定乗数λとを、目標ビットレートを満たすように決定する。
Figure 0005154934
(A1)において、T1のループにより式(III)の最適解を見つける(例えばグローバルコスト関数を最小化する)。この問題の一部として、式(IV)で求めた第2のエンコーダAE2についてコスト関数を最小化するT2のループがある。
ここで問題を定式化した方法において、同時にいくつかのセグメントの最適化が実行されることに留意せよ。このセグメントのセットでは、ビットレートはセグメントごとに変化することができる。実際的な状況では多くの場合、同時に評価できるセグメントのセットは限られている。この制約を処理するには2つのオプションがある:
1)セグメントの各セットに対してλを決定し、そのセグメントのセット内のビットレートは常に要求される目標ビットレートを満たすようにする。
2)セグメントの各セットの後にλを適応させて、過去の符号化動作におけるビットレートと目標ビットレート間のミスマッチを補償する。
ここでは、図5のエンコーダAE1は正弦波エンコーダであり第2のエンコーダAE2は変換エンコーダであると仮定している。第1のエンコーダAE1について、すべての符号化テンプレートT1を考慮するわけではない。あるλ1(n)のコスト関数を最小化する符号化テンプレートT1のみを考慮する:
Figure 0005154934
ここで、D1は第1のエンコーダAE1による符号化後に測定して知覚的歪みである。
2つのエンコーダAE1、AE2は同じく分割(segmentation)され、各エンコーダAE1、AE2は符号化段階及び復号段階において重なり合うセグメントを使用する。このためにはアルゴリズム(A1)を調整しなければならない。エンコーダ2が符号化セグメントnにおいて必要な残差信号ε1(n)は符号化テンプレートT1(n−1)、T1(n)、T1(n+1)に依存するからである。
この問題を明らかにするために、図6に符号化テンプレートを含む2つのエンコーダAE1、AE2のセグメント間の分割と重なりの例を、三角形のウィンドウで示した。図6から分かるように、第1のエンコーダの後の残差信号ε1(n)は、セグメントn−1、n、n+1において第1のエンコーダAE1のために選択された符号化テンプレートT1に依存する。一般的に、符号化テンプレートT1(n+1)はセグメントnを最適化するときには分からない。セグメントは1つずつ順番に最適化されるからである(アルゴリズム(A1)参照)。しかし、符号化テンプレートT1(n−1)は、セグメントnで求められる解にも依存するから最適解ではないかも知れないが、セグメントnを最適化するときには分かっている。
実際的な解法は、先行するセグメント(n−1)の最適化で求めたT1(n−1)をとることである。次のセグメントでは、セグメントn+1に対してエンコーダAE1が実行するであろう最終的な符号化について、詳細な情報を得た上での推測をする。このために、最近のセグメントの平均λを使用して、式Vに従って最適な符号化テンプレートT1(n+1)を選択する。これに基づき、残差信号ε1(n)を計算でき、アルゴリズム(A1)によりλに従って最適なT2(n)を求めることができる。
ε1(n−1)は、T1(n)が終了したときにのみ分かり、その時に最終的なT2(n−1)が求まる。
説明を明確にするため、上で概要を説明した実際的な解法を含む、アルゴリズム(A1)をより詳細にしたもの(A2)を以下に与える。(A2)は、各セグメントの最適符号化テンプレートT1、T2とラグランジュの未定乗数λとを、目標ビットレートを満たすように決定する。セグメント間の重なりを考慮に入れる。
Figure 0005154934
図1に示したエンコーダの実施形態に関して解くべき最適化問題をここで説明する。この実施形態では、図5の実施形態について説明したウィンドウが重なる問題を、後続のN個のセグメントに渡ってλ1を一定にして解消し、対応する符号化テンプレートT1(1)...T1(N)を各々が式(V)を最小化するエンコーダAE1に適用する。この場合、第1のエンコーダAE1のN個のセグメントのすべてを最初に求める。第2のエンコーダAE2について、λに従って、式(IV)を最小化する符号化テンプレートT2(1)...T2(N−1)を求める。このように、λ1のいくつかの値を式(1)を最小化するものが見つかるまでテストすることができる。目標ビットレートが可能な最小の知覚的歪みを満たすまで、λの値をテストできる。セグメント1...N−1の解を求めた後、次のセグメントN...2N−1を最適化する。以下において、アルゴリズム(A3)は、λ1を一定に保ってセグメント間の重なりを考慮にいれて、目標ビットレートを満たすように、各セグメントの最適な符号化テンプレートT1とT2とラグランジュの未定乗数λを求める原理をまとめたものである。
Figure 0005154934
ネストになっているループの数は、アルゴリズム(A2)よりも(A3)の方が1つ少ないことに留意せよ。しかし、これは正しくない。λ1とλに従う符号化には対応する符号化テンプレートを求める別のループが必要だからである。
アルゴリズム(A3)の利点は、2つのエンコーダAE1、AE2の分割(segmentation)を一致させる必要がないことである。エンコーダAE1が符号化する時間的インターバル(例えばセグメント番号n=1...Nを含む)はAE2が符号化する時間的インターバルと常に長さが少なくとも同じであることだけが要求される。
アルゴリズム(A3)を実装してテストしたが、n2のループがN−1ではなくてNまでである点だけが異なる。これによりN個のセグメントの終わりには符号化の正確性が若干落ちたが、品質には影響が無かったようである。実施において、第1のエンコーダAE1は異なる柔軟な分割を用いた(参考文献6参照)が、第2のエンコーダAE2は固定分割を用いた。
ここまで説明したエンコーダの実施形態では、2つのカスケードされたエンコーダを用いた。しかし、本発明によれば、カスケードするエンコーダの数は容易に2より大きくできる。2つのシナリオがある:
全ての符号化テンプレートを考慮する(例えば、候補のテンプレートは制限しない)。この場合、第1のエンコーダを2つ(またはそれ以上)のエンコーダのカスケードで置き換えることができる。これらのエンコーダの各々の符号化テンプレートは、各セグメントについて、符号化テンプレートの可能なすべての組み合わせを含む大きな符号化テンプレートのセットにまとめられる。そうすると、この問題は2つのエンコーダのみがカスケードされているものとして解くことができる。
すべての符号化テンプレートは考慮せず、式(V)で与えられるコスト関数を最小化するもののみを考慮する。この場合、第2のエンコーダはλに従って最適化される2つのエンコーダのカスケードとして考えることができる。この「ネストされた」拡張は、カスケードされるエンコーダの数が増えても続けることができる。
図7は、並行して動作する2つのエンコーダAE1、AE2を有する第3のオーディオエンコーダの実施形態を示す図である。これは図5に示した第2のエンコーダの実施形態と、オーディオ入力信号ε0が分離部SPLITにより第1の信号部ε1と第2の信号部ε2に分離される点で異なる。第1と第2の信号部分ε1、ε2は加え合わせると入力信号ε0となる。2つの信号ε1とε2は、第1のエンコーダAE1と第2のエンコーダAE2にそれぞれ送られる。
図7の第3のオーディオエンコーダの実施形態の制御部CUは、第1と第2のエンコーダにそれぞれ符号化テンプレートT1、T2を送り、符号化を実行させる。このように、選択されるすべての2つの符号化テンプレートT1とT2について、エンコーダAE1は第1の信号部分ε01を処理し、これとは独立に、エンコーダAE2は第2の信号部分ε02を処理する。エンコーダAE1、AE2はそれぞれ残差信号ε3とε4を発生する。これらの残差信号は制御部に送られる。制御部は知覚モデルに従って、知覚的歪みの大きさを計算する。この知覚的歪みの大きさを用いて、可能な符号化テンプレートT1、T2のセットから最適な符号化テンプレートT1、T2を求め、信号の最終的な符号化を決定する。このため、知覚的歪みの大きさのだけでなく、各エンコーダAE1、AE2のビットレートR1、R2(またはその推測値)も考慮に入れる。第1と第2のオーディオエンコーダの実施形態について説明したように、参考文献4のモデルを使用して、知覚的歪みの大きさDを計算できる。
第3のオーディオエンコーダの実施形態において、制御部が解かねばならない問題の正式な定義は次の通りである:
Figure 0005154934
ここで、D1とD2は、それぞれε3とε4に基づき計算される。知覚的歪みは単純に加えることができると仮定する。パラメータnはセグメント番号であり、信号はトータルの入力信号からいくつかの短い時間セグメントにより符号化されると仮定する。この最小化問題は次の制約条件の下で最小化しなければならない。
Figure 0005154934
ここで、RTは目標ビットレートである。
前のセクションで説明した制約条件の下で、2N個の独立なコスト関数を定義して、最小化することにより、問題を再定式化することができる。
Figure 0005154934
解くべき問題は、以下のλを見つけることである:
Figure 0005154934
T1min(n)とT2min(n)は次式をみたすように選択される:
Figure 0005154934
この問題の再定式化の利点は、2N個の独立の問題がラグランジュの未定定数λで結びつけられていることである。実際には、これはλの初期値を選択することを意味する。この値を用いて式(IX)と(X)の最小化問題を各セグメントnと各エンコーダについて独立に解くことができる。この最適化の後、式(VIII)が満たされているかチェックする。目標レートRTと使用するトータルビットレート(R1+R2)間の差に基づいて、λを適応させる。このプロセスを、(式VIIIに基づき)λの最良値または満足のいく値が見つかるまで繰り返す。
この並行する場合の最適化は個々のエンコーダAE1、AE2に対して別々であり独立にできるので、原理的には、可能な全ての符号化テンプレートT1、T2から符号化テンプレートT1、T2のサブセットを選択することが可能である。エンコーダAE1、AE2の特性により、そのサブセットに入らないテンプレートT1、T2は最適解ではないことが分かっているからである。これは、カスケードされたエンコーダと比較して並列エンコーダの大きな利点である。
上記の並行最適化は、3個以上のエンコーダに容易に拡張できるが、これは式(VI)乃至(X)の性質から理解できるであろう。
図4の並行エンコーダの好ましい実施形態において、入力信号スプリッタSPLITは、オーディオ入力信号ε0の入力セグメントを変換係数に分離(split)するように構成された修正離散余弦変換(MDCT)を有する。変換係数は、別々に符号化される各々がスケールファクタ帯域を表すグループに分離される。各セグメントの各スケールファクタ帯域に対して、λの同じ値に従って式(VI)と(VII)に与えられたコスト関数を最小化するように、1つのスケールファクタと1つの符号化ブック(coding book)を選択しなければならない。スケールファクタ帯域に応じて異なる符号ブック(code book)デザインを用いて、そのスケールファクタ帯域中の変換係数の異なる統計を任意的に利用してもよい。すべての個々のスケールファクタ帯域をセグメントにわたって最適化してから、トータルのビットレートを計算し、目標ビットレートになるようにλを適応させる。
本発明によるエンコーダとデコーダは、デジタルシグナルプロセッサを有する単一チップ上で実施してもよい。このチップは、オーディオ装置のシグナルプロセッサの能力にかかわらず、かかるオーディオ装置に組み込むことができる。あるいは、エンコーダとデコーダは、応用装置のメインのシグナルプロセッサ上で実行される純粋なアルゴリズムにより実施することもできる。
参照符号が請求項に含まれているが、単に請求項を明確にするためである。これらの図面の実施形態の例への参照は請求項の範囲を限定するものであると解してはならない。
参考文献リスト
[1]Scott N. Levine著、「Audio Representations for Data Compression and Compressed Domain Processing」、博士論文、1998年12月2日
[2]Wuppermann等著「Transmission system implementing different coding principles」米国特許第5,808,569号公報
[4]S. van de Par, A. Kohlrausch, G. Charestan, R.Heusdens (2002)著「A new psychoacoustical masking model for audio coding applications」IEEE Int. Conf. Acoust, Speech and Signal Process., Orlando, USA、2002年ページ11−1805−1808
[5]R. Heusdens, R. Vafm, W.B. Kleijn (2002)等著「Sinusoidal modeling using psychoacoustical matching pursuits」IEEE Signal Processing Lett, 9(8), pp. 262-265
[6]R. Heusdens and S. van de Par (2002)等著「Rate-distortion optimal sinusoidal modeling of audio and Speech using psychoacoustical matching pursuits」IEEE Int. Conf. Acoust., Speech and Signal Process., Orlando, USA,2002年ページ11−1809−1812
[7]J. Princen and A. Bradley (1986)著「Analysis/synthesis filter bank design based on time domain aliasing cancellation」IEEE Trans. Acoust, Speech, Signal Processing, 34 pp. 1153- 1161
オーディオの各部分についてトータル目標ビットレートの制約の下で動作する2つのエンコーダを有する第1のオーディオエンコーダの実施形態を示すブロック図である。 知覚的歪みの大きさを求めるために使用されるマスキング曲線とエラースペクトルの例を示すグラフである。 2つの異なる音声例の場合に、第1と第2のエンコーダの間のビットレートの分配の、結果として得られるトータルな知覚的歪みに対する影響を示すグラフである。 2つのデコーダを有するオーディオデコーダのブロック図である。 各オーディオ部分に対して、いくつかの符号化テンプレートで動作する2つのエンコーダのカスケードを有する第2のエンコーダの実施形態を示す図である。 第2のエンコーダの実施形態による2つのエンコーダ間の分割と重なりの例を示す図である。 並行して動作する2つのエンコーダを有する第3のエンコーダの実施形態を示す図である。

Claims (17)

  1. オーディオ信号を符号化するように構成されたオーディオエンコーダであって
    第1の符号化信号部分を発生するように構成された第1のエンコーダと、
    少なくとも第2の符号化信号部分を発生するように構成された第2のエンコーダと、
    制御部であって
    前記オーディオ信号を表し、歪みの大きさに関する前記第1と第2の符号化信号部分を有する符号化オーディオ信号を評価するように構成された、前記歪みの大きさは前記符号化オーディオ信号と前記オーディオ信号との間の差の大きさである、評価手段と、
    所定基準に従って符号化パラメータを最適化するために、前記第1と第2のエンコーダの両方の符号化パラメータを調整し、その調整に応じて前記歪みの大きさを監視するように構成された最適化手段とを有する制御部と、
    を有するオーディオエンコーダ。
  2. 歪みの大きさは知覚的歪みの大きさを含む、請求項1に記載のオーディオエンコーダ。
  3. 最適化手段は前記歪みの大きさを最小化するように前記符号化パラメータを調節するように構成された、請求項1に記載のオーディオエンコーダ。
  4. 最適化手段は、第1と第2のエンコーダの所定の最大トータルビットレートの制約下で歪みの大きさを最小化するように構成された、請求項3に記載のオーディオエンコーダ。
  5. 最適化手段は、所定の最大トータルビットレート内で第1と第2のビットレートをそれぞれ第1と第2のエンコーダに分配することにより歪みの大きさを最小化するように構成された、請求項4に記載のオーディオエンコーダ。
  6. 第1のエンコーダはオーディオ信号を第1の符号化信号部分に符号化するように構成され、第2のエンコーダはオーディオ信号と第1の符号化信号部分の差である第1の残差信号を第2の符号化信号部分に符号化するように構成された、請求項1に記載のオーディオエンコーダ。
  7. 歪みの大きさは、第1の残差信号と第2の符号化信号部分の差である第2の残差信号に基づく、請求項6に記載のオーディオエンコーダ。
  8. オーディオ信号を第1と第2の部分に分離するように構成された信号スプリッタをさらに有し、
    第1のエンコーダは第1のオーディオ信号部分を第1の符号化信号部分に符号化するように構成され、第2のエンコーダは第2のオーディオ信号部分を第2の符号化信号部分に符号化するように構成された、請求項1に記載のオーディオエンコーダ。
  9. 最適化手段は、所定の最大の歪みの大きさの制約下で第1と第2の信号部分のトータルビットレートを最小化するように構成された、請求項1に記載のオーディオエンコーダ。
  10. 第1のエンコーダはパラメトリックエンコーダ、変換エンコーダ、サブバンドエンコーダ、定常パルス励起エンコーダ、符号ブック励起リニア予測エンコーダよりなる群から選択されたエンコーダである、請求項1に記載のオーディオエンコーダ。
  11. 第2のエンコーダはパラメトリックエンコーダ、変換エンコーダ、サブバンドエンコーダ、定常パルス励起エンコーダ、符号ブック励起リニア予測エンコーダよりなる群から選択されたエンコーダである、請求項1に記載のオーディオエンコーダ。
  12. オーディオエンコーダは重ならないセグメントに分割されたオーディオ信号を受信するように構成され、最適化手段はオーディオ信号の1つ以上の後続セグメントにわたって符号化パラメータを最適化するように構成された、請求項1に記載のオーディオエンコーダ。
  13. オーディオエンコーダは重なっているセグメントに分割されたオーディオ信号を受信するように構成され、最適化手段はオーディオ信号の1つ以上の後続セグメントにわたって符号化パラメータを最適化するように構成された、請求項1に記載のオーディオエンコーダ。
  14. 第3の符号化信号部分を発生するように構成された第3のエンコーダをさらに有し、前記符号化オーディオ信号は第1、第2、及び第3の符号化信号部分を含む請求項1に記載のオーディオエンコーダ。
  15. オーディオ信号の符号化方法であって、
    第1のエンコーダを用いて第1の符号化信号部分を発生する段階と、
    第2のエンコーダを用いて少なくとも第2の符号化信号部分を発生する段階と、
    前記オーディオ信号を表し、歪みの大きさに関する前記第1と第2の符号化信号部分を有する符号化オーディオ信号を評価する、前記歪みの大きさは前記符号化オーディオ信号と前記オーディオ信号との間の差の大きさである、段階と、
    所定の基準に従って前記歪みの大きさに応じて前記第1と第2のエンコーダの両方の符号化パラメータを最適化する段階とを有する方法。
  16. 請求項1に記載のオーディオエンコーダを有する装置。
  17. 請求項15の方法に記載のオーディオ信号を符号化するように構成されたコンピュータ読み取り可能なプログラムコード。
JP2007531883A 2004-09-17 2005-09-02 知覚的歪みを最小化する結合オーディオ符号化 Expired - Fee Related JP5154934B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP04104514 2004-09-17
EP04104514.7 2004-09-17
PCT/IB2005/052879 WO2006030340A2 (en) 2004-09-17 2005-09-02 Combined audio coding minimizing perceptual distortion

Publications (2)

Publication Number Publication Date
JP2008513823A JP2008513823A (ja) 2008-05-01
JP5154934B2 true JP5154934B2 (ja) 2013-02-27

Family

ID=35207750

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007531883A Expired - Fee Related JP5154934B2 (ja) 2004-09-17 2005-09-02 知覚的歪みを最小化する結合オーディオ符号化

Country Status (9)

Country Link
US (1) US7788090B2 (ja)
EP (1) EP1792306B1 (ja)
JP (1) JP5154934B2 (ja)
KR (1) KR101407429B1 (ja)
CN (1) CN101124626B (ja)
BR (1) BRPI0515343A8 (ja)
MX (1) MX2007003063A (ja)
RU (1) RU2393552C2 (ja)
WO (1) WO2006030340A2 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1989707A2 (fr) * 2006-02-24 2008-11-12 France Telecom Procede de codage binaire d'indices de quantification d'une enveloppe d'un signal, procede de decodage d'une enveloppe d'un signal et modules de codage et decodage correspondants
KR100788706B1 (ko) * 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
KR101149448B1 (ko) * 2007-02-12 2012-05-25 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
KR101149449B1 (ko) * 2007-03-20 2012-05-25 삼성전자주식회사 오디오 신호의 인코딩 방법 및 장치, 그리고 오디오 신호의디코딩 방법 및 장치
CN101743586B (zh) 2007-06-11 2012-10-17 弗劳恩霍夫应用研究促进协会 音频编码器、编码方法、解码器、解码方法
KR101346771B1 (ko) * 2007-08-16 2013-12-31 삼성전자주식회사 심리 음향 모델에 따른 마스킹 값보다 작은 정현파 신호를효율적으로 인코딩하는 방법 및 장치, 그리고 인코딩된오디오 신호를 디코딩하는 방법 및 장치
WO2009047675A2 (en) * 2007-10-10 2009-04-16 Koninklijke Philips Electronics N.V. Encoding and decoding of an audio signal
EP2313885B1 (en) * 2008-06-24 2013-02-27 Telefonaktiebolaget L M Ericsson (PUBL) Multi-mode scheme for improved coding of audio
US8204744B2 (en) * 2008-12-01 2012-06-19 Research In Motion Limited Optimization of MP3 audio encoding by scale factors and global quantization step size
KR101433701B1 (ko) 2009-03-17 2014-08-28 돌비 인터네셔널 에이비 적응형으로 선택가능한 좌/우 또는 미드/사이드 스테레오 코딩과 파라메트릭 스테레오 코딩의 조합에 기초한 진보된 스테레오 코딩
GB0915766D0 (en) * 2009-09-09 2009-10-07 Apt Licensing Ltd Apparatus and method for multidimensional adaptive audio coding
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
RU2445719C2 (ru) * 2010-04-21 2012-03-20 Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ улучшения восприятия синтезированной речи при реализации процедуры анализа через синтез в вокодерах с линейным предсказанием
US9591374B2 (en) 2010-06-30 2017-03-07 Warner Bros. Entertainment Inc. Method and apparatus for generating encoded content using dynamically optimized conversion for 3D movies
US8755432B2 (en) 2010-06-30 2014-06-17 Warner Bros. Entertainment Inc. Method and apparatus for generating 3D audio positioning using dynamically optimized audio 3D space perception cues
US8917774B2 (en) * 2010-06-30 2014-12-23 Warner Bros. Entertainment Inc. Method and apparatus for generating encoded content using dynamically optimized conversion
US10326978B2 (en) 2010-06-30 2019-06-18 Warner Bros. Entertainment Inc. Method and apparatus for generating virtual or augmented reality presentations with 3D audio positioning
KR101525185B1 (ko) * 2011-02-14 2015-06-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법
US9549178B2 (en) 2012-12-26 2017-01-17 Verizon Patent And Licensing Inc. Segmenting and transcoding of video and/or audio data
CA2899013C (en) 2013-01-29 2017-11-07 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for selecting one of a first audio encoding algorithm and a second audio encoding algorithm
JP6248186B2 (ja) 2013-05-24 2017-12-13 ドルビー・インターナショナル・アーベー オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ
CN108352166B (zh) * 2015-09-25 2022-10-28 弗劳恩霍夫应用研究促进协会 使用线性预测编码对音频信号进行编码的编码器和方法
WO2019049543A1 (ja) * 2017-09-08 2019-03-14 ソニー株式会社 音声処理装置、音声処理方法及びプログラム
TWI702780B (zh) 2019-12-03 2020-08-21 財團法人工業技術研究院 提升共模瞬變抗擾度的隔離器及訊號產生方法
CN111081264B (zh) * 2019-12-06 2022-03-29 北京明略软件系统有限公司 一种语音信号处理方法、装置、设备及存储介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4622680A (en) 1984-10-17 1986-11-11 General Electric Company Hybrid subband coder/decoder method and apparatus
IT1232084B (it) * 1989-05-03 1992-01-23 Cselt Centro Studi Lab Telecom Sistema di codifica per segnali audio a banda allargata
JPH0773249B2 (ja) * 1989-06-29 1995-08-02 富士通株式会社 音声符号化・復号化伝送方式
JPH0335300A (ja) * 1989-06-30 1991-02-15 Fujitsu Ltd 音声符号・復号化伝送方式
JP2549016B2 (ja) * 1990-10-22 1996-10-30 日本電信電話株式会社 ベクトル量子化法
BE1007617A3 (nl) * 1993-10-11 1995-08-22 Philips Electronics Nv Transmissiesysteem met gebruik van verschillende codeerprincipes.
KR970005131B1 (ko) * 1994-01-18 1997-04-12 대우전자 주식회사 인간의 청각특성에 적응적인 디지탈 오디오 부호화장치
CN1090409C (zh) * 1994-10-06 2002-09-04 皇家菲利浦电子有限公司 采用不同编码原理的传送系统
DE19549621B4 (de) * 1995-10-06 2004-07-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung zum Codieren von Audiosignalen
US5867814A (en) * 1995-11-17 1999-02-02 National Semiconductor Corporation Speech coder that utilizes correlation maximization to achieve fast excitation coding, and associated coding method
KR100251453B1 (ko) * 1997-08-26 2000-04-15 윤종용 고음질 오디오 부호화/복호화장치들 및 디지털다기능디스크
US6263312B1 (en) * 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
DE19747132C2 (de) * 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
US6161088A (en) * 1998-06-26 2000-12-12 Texas Instruments Incorporated Method and system for encoding a digital audio signal
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6691082B1 (en) 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
FI109393B (fi) 2000-07-14 2002-07-15 Nokia Corp Menetelmä mediavirran enkoodaamiseksi skaalautuvasti, skaalautuva enkooderi ja päätelaite
KR100898879B1 (ko) * 2000-08-16 2009-05-25 돌비 레버러토리즈 라이쎈싱 코오포레이션 부수 정보에 응답하여 하나 또는 그 이상의 파라메터를변조하는 오디오 또는 비디오 지각 코딩 시스템
DE60208426T2 (de) * 2001-11-02 2006-08-24 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur signalkodierung, signaldekodierung und system zum verteilen von audiodaten
JP4272897B2 (ja) * 2002-01-30 2009-06-03 パナソニック株式会社 符号化装置、復号化装置およびその方法
CN1266673C (zh) 2002-03-12 2006-07-26 诺基亚有限公司 可伸缩音频编码的有效改进
DE10328777A1 (de) * 2003-06-25 2005-01-27 Coding Technologies Ab Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals
US20070106505A1 (en) * 2003-12-01 2007-05-10 Koninkijkle Phillips Electronics N.V. Audio coding

Also Published As

Publication number Publication date
CN101124626A (zh) 2008-02-13
BRPI0515343A (pt) 2008-07-22
EP1792306B1 (en) 2013-03-13
KR20070061881A (ko) 2007-06-14
RU2393552C2 (ru) 2010-06-27
WO2006030340A2 (en) 2006-03-23
EP1792306A2 (en) 2007-06-06
WO2006030340A3 (en) 2007-07-05
CN101124626B (zh) 2011-07-06
US7788090B2 (en) 2010-08-31
US20080097763A1 (en) 2008-04-24
RU2007114276A (ru) 2008-10-27
MX2007003063A (es) 2007-05-16
KR101407429B1 (ko) 2014-06-17
JP2008513823A (ja) 2008-05-01
BRPI0515343A8 (pt) 2016-11-29

Similar Documents

Publication Publication Date Title
JP5154934B2 (ja) 知覚的歪みを最小化する結合オーディオ符号化
RU2764287C1 (ru) Способ и система для кодирования левого и правого каналов стереофонического звукового сигнала с выбором между моделями двух и четырех подкадров в зависимости от битового бюджета
JP6173288B2 (ja) マルチモードオーディオコーデックおよびそれに適応されるcelp符号化
JP4991854B2 (ja) オーディオ信号に関連付けられるフレームを持つ窓を修正するためのシステムと方法
JP5096468B2 (ja) サイド情報なしの時間的ノイズエンベロープの自由な整形
US8374883B2 (en) Encoder and decoder using inter channel prediction based on optimally determined signals
RU2487428C2 (ru) Устройство и способ для вычисления числа огибающих спектра
CA2833868C (en) Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor
JP6126006B2 (ja) 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法
KR20130107257A (ko) 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치
CA2840785A1 (en) Encoding device and method, decoding device and method, and program
US9230551B2 (en) Audio encoder or decoder apparatus
US20100250260A1 (en) Encoder
EP3550563B1 (en) Encoder, decoder, encoding method, decoding method, and associated programs
JP4639073B2 (ja) オーディオ信号符号化装置および方法
US20130346073A1 (en) Audio encoder/decoder apparatus
JP4354561B2 (ja) オーディオ信号符号化装置及び復号化装置
Melkote et al. Trellis-based approaches to rate-distortion optimized audio encoding
WO2011114192A1 (en) Method and apparatus for audio coding
JP2005003835A (ja) オーディオ信号符号化装置、オーディオ信号符号化方法、及びプログラム
JPH09269798A (ja) 音声符号化方法および音声復号化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110524

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110817

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120214

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120425

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120814

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121206

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees