JP2008519308A - 信号特性を用いた効率的なオーディオ符号化 - Google Patents

信号特性を用いた効率的なオーディオ符号化 Download PDF

Info

Publication number
JP2008519308A
JP2008519308A JP2007539679A JP2007539679A JP2008519308A JP 2008519308 A JP2008519308 A JP 2008519308A JP 2007539679 A JP2007539679 A JP 2007539679A JP 2007539679 A JP2007539679 A JP 2007539679A JP 2008519308 A JP2008519308 A JP 2008519308A
Authority
JP
Japan
Prior art keywords
encoding
audio signal
encoder
audio
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007539679A
Other languages
English (en)
Other versions
JP2008519308A5 (ja
Inventor
イー エフ ノルデン,トル
ファオ アンデルセン,セーレン
ハー ヤンセン,セーレン
ベー クレイン,ウィレム
スヘインデル,ニコレ ハー ファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2008519308A publication Critical patent/JP2008519308A/ja
Publication of JP2008519308A5 publication Critical patent/JP2008519308A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

オーディオエンコーダであって、特性ベクトル等の入力オーディオ信号INの特性PVに基づき、最適符号化テンプレートOETを生成するように構成された最適化手段ET OPTを有する。最適符号化テンプレートOETは所定の符号化効率基準に関して最適化されている。符号化手段ENCは、最適化符号化テンプレートOETに従って符号化オーディオ信号OUTを発生する。オーディオエンコーダは、入力信号INに基づいて一組の入力信号特性PVを生成するように構成された分析手段ANを有してもよい。好ましい実施形態では、最適化手段ET OPTは、符号化テンプレートに関連する歪みを推定するように構成される。最適化手段ET OPTは、さらに、符号化テンプレートと関連するビットレートを推定することができる。一実施形態では、最適化手段ET OPTは入力信号特性(PV)に基づきいくつかのサブエンコーダへのビットレートの分配を最適化するように構成されている。他の実施形態では、最適化手段は、入力信号特性(PV)に基づき適応セグメンテーションを事前に決定するように構成される。本発明によるエンコーダは、最適符号化テンプレートOETが入力信号特性(PV)に基づき求められるので、最適化された符号化テンプレートOETの決定の前の複数の符号化の複雑な処理を回避できる点で有利である。

Description

発明の詳細な説明
本発明は、効率が高く品質がよいオーディオ信号符号化に関する。より具体的に、本発明は、入力信号に適応的な、すなわち、レート−歪み基準の点で最適な符号化信号を取得するために最適化されるいくつかの符号化設定を有するオーディオコーデックのクラスに関する。本発明は、オーディオエンコーダ及びその設定の最適化方法を提供する。
符号化における重大な問題は、各入力信号の最も効率的な表示を見つけることである。オーディオ信号は広い範囲の特徴を有し、信号の特徴が異なれば異なる符号化方法が最も効率的であるから、例えば、異なる符号化方法を組み合わせるコーデックのようにフレキシブルなコーデックを使用することが望ましい。例えば、オーディオ信号は正弦波部分と残り部分(residual)に分かれる。通常、音色信号(tonal signals)は正弦波でできた信号のための符号化方法で符号化され、残りの信号は波形またはノイズエンコーダで符号化される。その結果、かかるコーデックにおいて、どの設定(すなわち、どの符号化テンプレート)を使用するか、例えば、信号のどの部分をどの符号化方法で符号化するか、決定しなければならない。かかる決定は入力信号全体、すなわち入力信号自体に基づいて行われ、多数の符号化方法を試してから、各方法についてその結果の(知覚的な)歪みを計算する。しかし、最新のフレキシブルかつアダプティブなコーデックは、多数の符号化方法を組み合わせるため可能な設定の数が多いので、符号化設定に関する決定は複雑な問題(problem regarding complexity)である。
また、符号化方法が1つしかないほとんどのコーデックでは、入力信号の部分ごとに異なるエンコーダの設定等を決めなければならない。これは、例えば、アダプティブ(adaptive)な時間セグメンテーションをするコーデックの場合である。セグメンテーションをレート・歪み最適化(rate-distortion optimisation)により適応させられるが、非常に複雑になってしまう。他の例をパラメトリック正弦波符号化で見つけることができる。それでは、あるセグメントにいくつの正弦波を割り当てるか決定しなければならない。最適数は入力信号に応じて決まる。また、変換またはサブバンドコーデックでは、量子化レベルとスケールファクタ帯域(同じ量子化レベルで符号化される周波数帯域のグループ)に関する決定をしなければならない。これらの決定は入力信号の全体に基づき、異なる周波数帯域での対応する符号化エラーが考慮される。
特許文献1には入力信号の変換方法が記載されている。変換(transcode)する入力信号に応じた変換方法を選択することができる。特許文献1では、変換する入力信号の前に判定された特性(prior established properties)に基づき異なる方法を選択することが提案されている。しかし、特許文献1では、エンコーダの設定を最適化する方法得は開示されていない。
つまり、技術水準としては、最適なエンコーダ設定をいかに決定し、どの符号化方法で入力信号のどの部分を符号化するのがよいかという問題に対する満足のいく解答はない。それゆえ、高品質のオーディオ符号化の分野では、符号化を入力信号に適応させるように符号化テンプレート(すなわちエンコーダ設定)を効率的に最適化する方法が必要とされている。
米国特許出願第US2004/0006644号
よって、本発明の一目的は、エンコーダテンプレートを複雑でなく最適化することができるオーディオエンコーダとオーディオ符号化方法を提供し、またレート・歪み基準の点で効率的な符号化信号を提供することである。
第1の態様では、本発明は符号化テンプレートに従ってオーディオ信号を符号化するように構成されたオーディオエンコーダである。該オーディオエンコーダは、前記オーディオ信号の所定の一組の特性に基づいて最適化された符号化テンプレートを生成するように構成された最適化手段と、前記最適化された符号化テンプレートに従って符号化オーディオ信号を発生するように構成された符号化手段とを有する。
「オーディオテンプレート」という用語は、エンコーダに対して選択しなければならない一組のパラメータ、すなわち設定を意味する。「最適化(された)符号化テンプレート」とは、符号化出力信号が所定の符号化効率基準の点でより最適に近づくように一部または全部のパラメータがオーディオ信号の前記所定の一組の特性に応じて選択または修正された符号化テンプレートであると解釈すべきである。「オーディオ信号の所定の一組の特性」とは、そのオーディオ信号の信号特性を示す1つ以上のパラメータを含むオーディオ信号の数値的表示である。オーディオ信号の所定の一組の特性は、例えば各パラメータを表すスカラー値を有する特性ベクトルである。
オーディオエンコーダは、例えば、特性ベクトルによるオーディオ信号の所定の一組の特性を用いて、符号化するオーディオ信号の特性に関する事前の知識を用いることにより、符号化プロセスに使用すべき符号化テンプレートを最適化することができる。このように、好ましくは、オーディオエンコーダは、オーディオ信号の所定の一組の特性に基づきレート及び/または歪みの大きさを推定し、これによりオーディオ信号を実際に符号化することなく最適化(された)符号化テンプレートを供給する。言い換えると、例えば入力信号特性ベクトルを用いることにより最適なエンコーダ設定を決定でき、最適符号化テンプレートを最終決定する前に、可能な多数の設定を試してその結果の符号化出力信号をレートと歪みに関してモニターすることは要さない。
これにより、従来のエンコーダと比較して、複雑性が低いエンコーダで符号化テンプレートを最適化できる。これは、最適なレート・歪み効率を実現するために最適化すべき多数のパラメータを有する符号化テンプレートを有する符号化方式(encoding schemes)の場合に特に有利である。一例として、2つ以上のサブエンコーダを有するエンコーダのクラスであって、最適なレート・歪み効率を求めるためにサブエンコーダ間のビットレートの分配を決定することが少なくとも1つのタスクであるエンコーダのクラスがある。全入力信号と(知覚的)歪みの大きさを用いて可能なすべての符号化テンプレートを網羅的にサーチすることが最適ではあるが、おそらく効率的ではなく、利用できる処理パワーが限られた状態で実現するには複雑に成りすぎる。
オーディオ信号の一組の特性を表すデータは、特性ベクトルや特性行列などいかなる形式で構成することもできる。
オーディオエンコーダは、前記オーディオ信号を分析し、前記入力信号に応じてその一組の特性を生成するように構成された分析手段をさらに有してもよい。しかし、オーディオ信号の一組の特性はオーディオエンコーダの外部で求めてもよい。オーディオエンコーダは、オーディオ信号とともに、その所定の一組の特性を入力として受け取るように構成される。
好ましくは、前記最適化手段は前記オーディオ信号の前記所定の一組の特性に基づき前記符号化テンプレートに関連する知覚歪みを予測するように構成された手段を有する。「符号化テンプレートに関連する歪み」とは、符号化テンプレートに従ってオーディオ信号を符号化することによる、符号化(された)オーディオ信号とオーディオ信号自体との間の差異である。「知覚的歪み」とは、人間の聴覚システムにより近くされるものの歪みの大きさであり、すなわち知覚された音声品質を反映する歪みの大きさである。
好ましくは、知覚的歪みの大きさは、人間のマスキング曲線(masking curve)等を表す知覚モデルに基づく。
好ましくは、前記最適化手段は前記オーディオ信号の前記所定の一組の特性に基づき前記符号化テンプレートに関連するビットレートを予測するように構成された手段を有する。
最も好ましくは、前記最適化手段は前記オーディオ信号の前記所定の一組の特性に基づき前記符号化テンプレートに関連する知覚的歪みとビットレートの両方を予測するように構成されている。これにより、エンコーダは、所与の最大目標ビットレートにおける最高の音声品質との基準に従って符号化テンプレートを最適化することも、知覚的歪みの点で所定の最低音声品質における最低ビットレートとの基準に従って符号化テンプレートを最適化することもできる。
好ましくは、オーディオ信号の一組の特性は、調性、うるささ、調和性、静止性、線形予測ゲイン、長期予測ゲイン、スペクトルフラットネス、低周波スペクトルフラットネス、高周波スペクトルフラットネス、ゼロクロスレート、ラウドネス、有声化率、スペクトル中心、スペクトル帯域幅、メルケプストラム、フレームエネルギー、ERB帯域1−10のスペクトルフラットネス、ERB帯域10−20のスペクトルフラットネス、ERB帯域20−30のスペクトルフラットネス、ERB帯域30−37のスペクトルフラットネスにより構成されたグループから選択された少なくとも1つの特性を含む。好ましくは、オーディオ信号の所定の一組の特性は、1つ以上の上記のパラメータを表すスカラーを有する特性ベクトルを含む。しかし、言うまでもなく、別のタイプのパラメータを使用してもよい。原理的には、信号を記述するいかなるパラメータを選択することもできる。しかし、好ましくは、オーディオ信号の所定の一組の特性は、知覚的な特性、すなわち人間の聴覚システムにより知覚されるものに関する特性を含む。
オーディオ信号の所定の一組の特性は、本技術分野で知られている標準的な定義により決定できる特性を含んでいてもよい。
一組のオーディオ信号特性は問題になっているエンコーダの特性を考慮するように設計されていることが好ましい。例えば、正弦波エンコーダ部とノイズエンコーダ部とを有する結合エンコーダの場合、調性とうるささのパラメータが含まれる。これにより、ビットレートを分配するタスクが簡単になり、調性パラメータとうるささパラメータから容易に決定される。例えば、非常に簡単な決定基準では、調性パラメータが所定値より大きい場合に正弦波エンコーダを選択し、それ以外の場合にノイズエンコーダ部を選択する。しかし、言うまでもなく、問題となっているエンコーダに関する事前の知識に基づき、オーディオ信号を記述するパラメータが1だけ、または少ししか無くても、符号化の振る舞いを正確に予測することができる。
好ましくは、オーディオエンコーダは、前記符号化テンプレートを前記オーディオ信号の各セグメントに対して最適化するように構成されている。よって、エンコーダは、過渡信号等のオーディオ信号の急激な変化に追随でき、符号化テンプレートを適宜適応させることができる。
前記最適化手段は前記オーディオ信号の前記一組の特性に基づき前記オーディオ信号のセグメンテーションを最適化するように構成されていてもよい。符号化テンプレートとは別に、適応的セグメンテーションを使用することが効率的であることが分かっている。オーディオ信号の信号特性に基づいた事前の適応的セグメンテーションを用いると、かかる適応的セグメンテーションはより一層効率的となる。先行技術では、エンコーダの適応的セグメンテーションは符号化テンプレートの最適化とは別に余分で複雑な最適化タスクを加えるだけだからである。
前記最適化手段は、一組の所定の符号化テンプレートから前記最適化された符号化テンプレートを選択するように構成されていてもよい。符号化テンプレート最適化プロセスをさらに容易にするため、所定の一組の符号化テンプレートがエンコーダパラメータ空間の大部分をカバーすることが好ましい。そうすると、最適化タスクは、所定の一組の符号化パラメータを評価して、所定の符号化効率基準の点で最適なものを選択することとなる。
好ましい実施形態では、符号化手段は第1と第2のサブエンコーダを有し、一方最適化手段はオーディオ信号の所定の一組の特性に従って第1と第2のサブエンコーダの第1と第2の符号化テンプレートを最適化するように構成されている。好ましければ、オーディオエンコーダは、3つ以上の別々のサブエンコーダを有し、オーディオ信号の所定の一組の特性に基づき、すべてのサブエンコーダの符号化テンプレートを最適化するように構成されてもよい。このように、この実施形態は組み合わせコーデック(combined codecs)をカバーする。
第2の態様では、本発明は、オーディオ信号の符号化方法を提供する。該方法は:前記オーディオ信号の所定の一組の特性に基づいて、所定の符号化効率基準に関して最適化された、最適化符号化テンプレートを生成する段階と、前記最適化符号化テンプレートに従って符号化オーディオ信号を発生する段階とを有する。
本発明の第1の態様に関する上記説明と好ましい変形例は、第2の態様にも当てはまる。
第3の態様では、本発明はオーディオ信号を符号化するように構成されたオーディオエンコーダの符号化テンプレートの最適化方法である。該方法は、前記オーディオ信号の所定の一組の特性を受け取る段階と、前記オーディオ信号の前記所定の一組の特性に基づいて、所定の符号化効率基準に関して前記符号化テンプレートを最適化する段階とを有する。
特性ベクトル等のオーディオ信号の所定の一組の特性に基づいてエンコーダの符号化テンプレートを最適化することにより、先行技術の符号化テンプレート最適化と比べて、最適化を大幅に簡単(less complex)にすることができる。その理由は、先行技術の符号化効率最適化方法は、実際に符号化したオーディオ信号について求めた必要ビットレートと歪みに基づくからである。このように、かかる先行技術の方法は符号化プロセスを含む。オーディオ信号の所定の一組の特性に基づく最適化方法により、最適化方法の符号化プロセスがなくなる。これは、最適化すべき設定が多数あるエンコーダでは特に有利である。あるいは、最適化は知覚的歪みの大きさの予測と、所与の符号化テンプレートのビットレートの予測とに基づいてもよい。
符号化テンプレートに従って実際に信号を符号化するほど正確ではないが、例えばどのデータをオーディオ信号の所定の一組の特性に含めるか注意深く検討し、問題のエンコーダの正確なモデルを作ることにより、予測精度を高くすることができる。各々が多数の設定を有する一組のエンコーダを組み合わせた複雑な場合、先行技術の方法の結果はよくない。全パラメータ空間を実際にテストすることはできず、パラメータ空間を非常に粗くしかテストできないからである。これと比べて、全パラメータ空間を十分速くカバーでき、利用できる所与の計算パワーの下で符号化テンプレートが理論的に最適なものにより近くなることが分かる。
第3の態様による方法は、オーディオ信号の分析とそれに従ったオーディオ信号の所定の一組の特性の生成との最初の組を含む。
好ましくは、最適化ステップは、知覚的歪みの大きさを予測する段階を含む(上記定義を参照)。
好ましくは、最適化段階はビットレートの予測を含む。好ましくは、最適化段階は、所与の最大目標ビットにおいて最高の音声品質という基準に従って、または知覚的歪みに関する所定の最低音声品質における最低ビットレートという基準に従って、符号化テンプレートの最適化を可能とするように、知覚的歪みとビットレートとの両方を予測することを含む。
好ましくは、最適化方法はオーディオ信号の各セグメントに対して行われる。
好ましくは、最適化方法は、前記オーディオ信号の前記所定の一組の特性に基づき前記オーディオ信号のセグメンテーションを最適化することを含む。
第4の態様では、本発明は第1の態様によるオーディオエンコーダを有する装置である。かかる装置は、好ましくは固体メモリオーディオ装置、CDプレーヤ、CDレコーダ、DVDプレーヤ、ハードディスクレコーダ、モバイル通信装置、(ポータブル)コンピュータ等のオーディオ装置である。しかし、オーディオ装置以外の装置でもよい。
第5の態様では、本発明は、第2の態様の方法によるオーディオ信号を符号化するように構成されたコンピュータ読み取り可能プログラムコードである。
第6の態様では、本発明は、第3の態様の方法による符号化テンプレートを最適化するように構成されたコンピュータ読み取り可能プログラムコードである。
第5の態様と第6の態様によるコンピュータ読み取り可能プログラムコードは、信号プロセッサ、パーソナルコンピュータ等のために構成されたソフトウェアアルゴリズムを含み得る。このプログラムコードは、ディスク、メモリカード、メモリスティック等のポータブル媒体上のものであっても、ROMチップに格納されたものであっても、その他の装置に格納されたものであってもよい。
以下、添付した図面を参照して本発明を詳細に説明する。
本発明はいろいろな一部変更や代替的形体をとりうるが、具体的な実施形態を図面中で例として示し、以下に詳細に説明する。しかし、言うまでもなく、本発明は開示した具体的な形体に限定されるものではない。むしろ、本発明は、添付した請求の範囲に記載された本発明の精神と範囲に含まれるすべての修正、等価物、代替物を含むものである。
図1は先行技術のエンコーダENCを示す。このエンコーダENCは、入力信号INを受けて、それに応答して符号化(された)出力信号OUTを発生する。先行技術のエンコーダENCでは、エンコーダ設定すなわちエンコーダテンプレートは、固定されているか、入力信号の符号化を含む最適化アルゴリズムに基づく。異なった符号化テンプレートを試み、各符号化テンプレートについて、入力オーディオ信号INを符号化し、その符号化テンプレートに関連する例えば歪みとビットレートをモニターし、最終的に最も効率的な符号化テンプレートを選択し、それを使用して出力信号OUTを発生する。
図2は、本発明の原理を、好ましいオーディオエンコーダの実施形態により示している。入力オーディオ信号INは信号分析手段ANが受信して分析する。分析手段ANは、それに応じてオーディオ信号INの一組の特性を含む特性ベクトルPVを生成する。符号化テンプレート最適化ユニットET OPTは、この特性ベクトルPVを受け取り、その受け取った特性ベクトルPVに基づき最適符号化テンプレートOETを生成する。エンコーダ手段ENCは、最適符号化テンプレートOETと入力オーディオ信号INを使用して、入力オーディオ信号INの符号化バージョンである符号化出力信号OUTを生成する。
このように、図2のオーディオエンコーダでは、特性ベクトルPVと、異なる符号化設定(例えば、そのレート・歪み性能)の数学的モデルとを使用して、最適符号化テンプレートOETを発生する。その時、可能なすべての符号化テンプレートを試みる必要はない。その理由は、特性ベクトルPVが符号化テンプレートの入力タイプに依存する(input-type-dependent)性能を既に示しているからである。図1の先行技術のエンコーダと比べて、本発明によるオーディオエンコーダは、入力オーディオ信号INを符号化しなくてもエンコーダ手段の符号化テンプレートを最適化でき、入力オーディオ信号INの特性だけを用いて最適符号化テンプレートを決定することができる。
言うまでもなく、図2に示した分析手段ANは任意的である。このように、本発明によるオーディオエンコーダは、入力オーディオ信号INと特性ベクトルPVを入力として受け取るように構成され得る。
特性ベクトルPVを使用することにより、効率的となり、最適化プロセスの複雑性が低下する。特性ベクトルPVを使用する不利な点は、符号化が(少し)最適ではなくなることである。しかし、オーディオ符号化で現在使用されているその場しのぎの方法は、最適解からはより一層遠いものであろう。
入力オーディオ信号の所定の一組の特性はいくつかの方法で使用できる。これらの方法は同時に使用できる。それらの方法を以下に説明する。説明を簡単にするため、以下、入力オーディオ信号の所定の一組の特性を特性ベクトルとして示す。
第1の実施形態では、特性ベクトルを使用して、異なる符号化テンプレートの歪み(知覚的歪み等)を推定する。例えば、異なる符号化方法または1つの符号化方法における異なる設定の組み合わせである。これには、複雑性の点で2つの有利な点がある:1)実際の符号化が必要なく、2)(知覚的)歪みを計算する必要がない。言い換えると、特性ベクトルを使用して、実際の符号化をして歪みを計算せずに、(知覚的)歪みを求める。
第2の実施形態では、特性ベクトルを使用して、ハイブリッドエンコーダにおいて、すなわちいくつかの符号化方法またはサブエンコーダの組み合わせを有するエンコーダにおいて、入力信号のどの部分をどの符号化方法で符号化するか直接決定する。これは前のものよりもさらに一歩進んだものである:この場合、特性ベクトルは符号化方法の入力タイプ依存の性能を示すだけでなく、どれを使用すべきかということも示す。
例えば、入力信号は顕著な正弦波を含んでいる場合、この入力信号をすべての符号化方法で符号化して最も効率的なものを選ぶ必要はない。その一方、特性ベクトルが、その信号が顕著な正弦波を含むことを示しているので、どの符号化方法が正弦波を効率的に符号化できるかチェックして、それで符号化すればよい。このように、特性ベクトルを見ると、どの符号化方法がその入力信号(の一部)を最も効率的に符号化できるか、実際に符号化しなくてもすぐに明らかである。特性ベクトルを使用して、符号化方法間の潜在的なインターラクション(interactions)を推定することもできる。これらのインターラクションに関する知識もコーデックの設定のために重要である。
第3の実施形態では、特性ベクトルはコーデックの最適時間変化適応的セグメンテーションを推定する。特性ベクトルにより、適応的セグメンテーションを入力信号の時間変化する特徴に基づいて前もっと設定できる。これにより、いくつかの可能なセグメンテーションの効果を見る方法と比較して、複雑性が低下する。
ここで、上記の3つの実施形態をより詳細に説明する。
第1の実施形態は、特性ベクトルベースの瞬間歪み推定方法である。このフレームワークは、符号化するフレームから抽出した特性ベクトルに基づくものであり、このフレームから歪み推定が実行される。より詳細に、コーダQ(.)の場合に生じる符号化歪みθを推定するタスクを扱う。フレームxについて、生じる歪みは次式(1)で表される
Figure 2008519308
ここで、δ(.,.)は適当な歪みの大きさ(measure)である。
この推定は特性抽出f(.)と推定g(.)に分離できる。ランダム入力ベクトルXを処理して低次元(dimension reduced)ランダムベクトルPを求め、これから符号化歪みΘの推定
(外1)
Figure 2008519308
を求める。本方法の目的は、無バイアス推定を実行して、次式(2)に示す推定誤差分散を最小化することである
Figure 2008519308
かかる方法の実行は特性ベクトルの選び方に大きく依存する。このように、特性抽出器f(.)の基本的なタスクは、必要な推定精度σ に対してΘに関して十分な情報を含む、すなわち十分に高い相互情報I(Θ;P)を含む特性Pを抽出することである。相互情報I(Θ;P)は、例えばT.M.カバー及びJ.A.トーマス著「初歩の情報理論」(John Wiley & Sons, New York, NY, 1991)に記載されている。
推定器g(.)の目的は、特性ベクトルの観察P=pに基づき、生じる歪みθの推定
(外2)
Figure 2008519308
を求めることである。このタスクの最小平均平方誤差推定器(MMSE)、すなわちσ を最小化するものは、次式(3)の条件付き平均推定器である
Figure 2008519308
図3は、モデルベースアプローチを用いた実施形態を示す。このモデルベースアプローチは、J.リンドブロム、J.サミュエルソン、P.ヘデリン著「モデルベーススペクトル予測」(Proc. IEEE Workshop Speech Coding, (Delawan, WI, USA), 2000, pp. 117-119)に記載されている。図3において、T O−Lは、同時確率密度関数
(外3)
Figure 2008519308
がオフライントレーニングされることを示している。
同時確率密度関数
(外4)
Figure 2008519308
についてガウシアンミクスチャモデル(GMM)を利用すると、各符号化時点でMMSEは次式(4)で近似できる
Figure 2008519308
ここで、
(外5)
Figure 2008519308
は条件付きモデル確率密度関数であり、これはガウシアン密度のミクスチャであることが示せ、同時モデル確率密度関数
(外6)
Figure 2008519308
から容易に求められる。実際には、この推定器は次式(5)の条件付き平均の重みつけ合計を計算する
Figure 2008519308
ここで、Mはミクスチャ成分の数であり、{ρ′}と{mi,Θ|P=p}は、それぞれ重みと条件付きモデル確率密度関数
(外7)
Figure 2008519308
の平均とを表す。推定器出力は、モデル確率密度関数が真の確率密度関数に近づくにつれて、真の条件付き平均(式(3)参照)に近づく。
符号化と歪み計算ではなく歪み推定により得られる複雑性の低下は3つの要因に依存する:特性ベクトルを用いた歪み推定の複雑性、符号化方法の複雑性、及び歪み計算の複雑性。
歪み推定の複雑性は、明らかに使用するモデルに依存する。ここで示した実施形態の場合、各RD点は独立に推定されると仮定して、複雑性は次のように表せる:NRD・Nmixt・(Cproduct+Cpdf)。ここで、NRDはRD点の数であり、Nmixtはミクスチャの数であり、Cproductは行列ベクトル積の複雑性であり、Cpdfはガウシアン確率密度関数推定の複雑性である。行列ベクトル積は使用した特性ベクトルの「次元」を有するが、行列は対称であり、複雑性はその約半分に低下する。
符号化方法の複雑性は、明らかに使用する方法に依存し、コーデックごとに大きく異なる。それでもなお、この複雑性は歪み推定の複雑性よりも高いことが予想される。
実施した推定方法は、生じた信号対雑音比(SNR)を推定すべき歪みΘとして用いて、CELP類似のエンコーダQ(.)の場合に評価した。次の6つの異なる特性ベクトルに対してテストした:10次のリニア予測ゲイン(GLPC)、長期予測ゲイン(GLTP)、スペクトルフラットネス(G)、低周波数スペクトルフラットネス(Glow)、高周波スペクトルフラットネス(Ghigh)、及びLPCゲインとLTPゲインの結合(GLPCLTP)。すべての予測器は32ミクスチャモデルに基づき、結果は評価セットとトレーニングセットを別々に用いて、Timitスピーチデータベースで評価した。
その結果、使用する特性ベクトルPの相互情報量I(Θ;P)を増やすと、誤差分散σ が減少した。よって、使用した特性ベクトルの相互情報量I(Θ;P)によって、真の歪みにますます近づいた。その結果分かったことは、相互情報量I(Θ;P)が十分大きい特性ベクトルにより、精度が高い推定をすることが可能だということである。結果として確認できたことは、符号化設定の入力タイプに依存する(input-type-dependent)性能を示すために特性ベクトルを使用して、複雑性を減少させることができることである。
特性ベクトルによる方法を、フレーム毎に30の正弦波を使用する正弦波エンコーダに対しても評価した。エンコーダは、R. Heusdens、S. van de Par著「Rate-distortion optimal sinusoidal modeling of audio and speech using psychoacoustical matching pursuits」(Proc. IEEE Int. Conf. Acoust, Speech, and Signal Proc, (Orlando, FL, USA), 2002, vol. 2, pp. 1809-1812)にある音響心理的マッチング追跡に基づき、推定する歪みθとして、S. van de Par、S. Kohlrausch、A. Charestan、R. Heusdens著「A new psychoacoustical masking model for audio coding applications」(Proc. Proc. IEEE Int. Conf. Acoust., Speech, and Signal Proc, (Orlando, FL, USA), 2002, vol. 2, pp. 1805-1808)にある知覚的スペクトル歪みの大きさを用いる。
異なる8つの特性ベクトルの場合にテストした:ゼロクロスレート(ZCR)、ラウドネス(L)、有声化率(V)、スペクトル中心(SC)、スペクトル帯域幅(BW)、スペクトルフラットネス(SF)、12次メルケプストラム(MFCC)、およびL+SF+SC+BWの組み合わせに基づく4次元特性ベクトル。すべての推定器は16ミクスチャモデルに基づき、評価の組とトレーニングの組に分かれた、35msの900,000フレームを含むオーディオデータベースで結果を評価した。また、この実施形態の場合、結果が示していることは、相互情報量I(Θ;P)が十分に大きい特性ベクトルでは、歪みを高い精度で推定できることである。
以下に第2の実施形態を説明する。特性ベクトルを使用して、入力信号のどの部分をハイブリッドエンコーダのどの符号化方法で符号化するか決定する。
本実施形態のハイブリッドエンコーダは、2つの符号化方法を有する:すなわち、正弦波エンコーダと、それに続く変換エンコーダである。正弦波エンコーダは、第1の実施形態に関して説明したものと同様である。変換エンコーダは、MDCTフィルタバンクに基づくものであり、正弦波エンコーダの残差信号(residual)を符号化する。MDCTフィルタバンクは、例えばR. D. Koilpillai、P. P. Vaidyanathan著「Cosine- modulated fir filter banks satisfying perfect reconstruction」(IEEE Trans. Signal Processing, vol. 40, no. 4, pp. 770-783, April 1992)に記載されている。重要な問題は、どの信号成分を正弦波エンコーダで符号化し、どの成分を変換エンコーダで符号化するかということである。この実施形態では、この問題は、利用できるビットのバジェット(budget)のうちどれだけを正弦波エンコーダが使い、どれだけを変換エンコーダが使うかということになる。
図4は先行技術によるアプローチを示す。入力信号INは正弦波エンコーダSENCに入力される。正弦波エンコーダSENCは変換エンコーダTENCに残差信号resを送る。変換エンコーダTENCは、このように、正弦波エンコーダSENCが符号化できないものを符号化するためのものである。レート・歪み最適化ユニットR−D OPTは、2つのエンコーダSENCとTENCにそれぞれビットレートR−SEとR−TEを分配する。それに応じて、最適化ユニットR−D OPTは、最後のエンコーダTENCからその結果の歪みDを受け取る。異なるいくつかのビット分配R−SEとR−TEを試み、最適なもの、すなわち歪みDが最低となるものがレート・歪み最適化ユニットR−D OPTにより選択され、この分配R−SEとR−TEを使用して符号化出力信号OUTを発生する。
ここに示した例では、以下のビット分配を試した:正弦波エンコーダ(SENC)に100%で変換エンコーダ(TENC)に0%の場合、SENC75%とTENC25%の場合、TENC50%とSENC50%の場合、SENC25%とTENC75%の場合、SENC0%とTENC100%の場合である。信号を異なるビット分配を用いて符号化し、結果として得られるパラメータから信号を合成して、その知覚的歪みを決定した。このため、S. van de Par、A. Kohlrausch、G. Charestan、R. Heusdens著「A new psychoacoustical masking model for audio coding applications」(Proc. Proc. IEEE Int. Conf. Acoust, Speech, and Signal Proc, (Orlando, Florida, USA), 2002, vol. 2, pp. 1805-1808)に記載されている知覚的歪み測定を使用する。これは入力信号のスペクトル聴覚マスキング特性を利用するものである。最適化アルゴリズムにより、知覚的歪みが最低になるビット分配が選択される。
図5は、本発明によるアプローチを示す。図4の先行技術のアプローチとの相違点は、上記のとおり、特性ベクトルPVがビットレート最適化ユニットR−OPTに入力され、そのビットレート最適化ユニットR−OPTが2つのエンコーダSENC、TENCへの最適ビット分配R−SE、R−TEを決定する。図示した実施形態では、分析ユニットANが入力信号INを分析して、それに応じて特性ベクトルPVを生成する。異なるビット分配を試みるのではなく、最適分配R−SE、R−TEの推定はこの特性ベクトルPVを用いて行われる。
このタスクのためにどの特性が有用であるか決定するために、12通りの特性ベクトルを調べた:すなわち、8通りの1次元ベクトル(ゼロクロスレート、ラウドネス(L)、有声化率、スペクトル中心、スペクトル帯域幅(BW)、スペクトルフラットネス、フレームエネルギー、LPCフラットネス)、2通りの4次元ベクトル(L+BW及びSFERB:ERBバンド1−10、10−20、20−30、30−37のスペクトルフラットネス)、2つの4次元特性ベクトルの組み合わせに基づく1つの8次元ベクトル、及び1つの12次元ベクトル(12次のメルケプストラム)。ガウシアンミクスチャモデルを使用して、上記のようなビット歪みを推定する。すべての予測器は32ミクスチャモデルに基づき、43msの6,000フレームを含むオーディオデータベースを用いてトレーニングされている。最高の結果は、多次元特性ベクトルを用いることにより得られる。それゆえ、トレーニングに用いたものとは別のデータベースを用いた推定には4次元特性ベクトルSFERBを使用する。
図4と図5の2つのアプローチの比較をした。フレームごとの知覚的歪みの決定には、S. van de Par、A. Kohlrausch、G. Charestan、R. Heusdens著「A new psychoacoustical masking model for audio coding applications」(Proc. Proc. IEEE Int. Conf. Acoust, Speech, and Signal Proc, (Orlando, Florida, USA), 2002, vol. 2, pp. 1805-1808)に記載されている歪み測定を使用した。2つのアプローチによる歪みは同様であったが、ビット分配の決定に特性ベクトルを使用できることが示された。
しかし、図5に示した実施形態は、例えば、よりよい特性の使用や、図3に示したガウシアンミクスチャモデルを改良などのいくつかの方法で改良することができる。後者の例としては、より多くのミクスチャ(mixtures)の使用、推定器の結果の0%と100%の間への限定(現在の推定器はガウシアンに基づき、ガウシアンはどの値でも取れる)、モデルのタスクの変更(0−100%の間の推定パーセンテージではなく、フレームを0、25、50、75、100%のクラスに分けてもよい)。ガウシアンミクスチャモデルではなく、他のモデルを使用することもできる。
異なるコーデックストラテジSENC、TENCの間のビット分配R−SE、R−TEの推定をするため特性ベクトルPVを使用することにより、この分配をレート・歪み最適化により決定するコーデックと比較して、計算の複雑性が大幅に減少する。上記の実施形態では、複雑性は、最適化で調べたビット分布の数と同じファクタで減少する。そこで、上記の実施例では、複雑性は1/5に減少する。
図6は、第3の実施形態を示し、入力信号INに適応させた事前最適化セグメンテーションOSEGを決定する特性ベクトルPVベースの方法を示している。
適応的セグメンテーションOSEGに関するセグメンテーション最適化ユニットSEG OPTによる決定は、特性ベクトルPVと、異なるセグメンテーションのモデル(例えば、そのレート・歪み性能)とに基づく。最適化されたセグメンテーションOSEGは、入力信号INとともにエンコーダENCにも入力され、符号化出力信号OUTが生成される。その時、可能なすべての異なるセグメンテーションの可能性を試みる必要はない。その理由は、特性ベクトルPVがセグメンテーションの入力タイプに依存する(input-type-dependent)性能を既に示しているからである。
実際には、事前のセグメンテーションのために特性ベクトルをレート・歪み推定と同様に使用できる。第1の実施形態に関して説明したのと同様に、特性ベクトルを使用して異なるセグメンテーションの可能性のレート・歪み性能を推定して、性能が最も良いものを選択することができる。
事前の適応的時間セグメンテーションに特性ベクトルを使用すると、完全なレート・歪み最適化によるレート・歪みと比較して、計算上の複雑性が大幅に減少する。複雑性は、許容されるセグメント長の数と同じファクタだけ減少する(特性ベクトルにより生じる余分な複雑性は無視する)。例えば、適応セグメンテーションを用いる正弦波エンコーダでは、4つの異なるセグメント長が許容される:すなわち10.7、16.0、21.3及び26.8msである。複雑性は事前のセグメンテーションにより1/4に減少する。
言うまでもなく、本発明による符号化原理は、固体メモリオーディオ装置、CDプレーヤ/レコーダ、DVDプレーヤ/レコーダ、モバイル通信装置、(ポータブル)コンピュータ、インターネット等のオーディオのマルチメディアストリーミング等の広い範囲のアプリケーションに使用できる。
図面の参照符号が請求項に含まれているが、単に請求項を明確にするためである。これらの図面の実施形態例への参照は、決して請求項の範囲を限定するものであると解してはならない。
先行技術のエンコーダを示し、符号化設定は固定されているか、あるいは符号化信号の歪みに基づいて反復的に調節される。 本発明によるエンコーダを示し、エンコーダ設定は入力信号の事前分析に基づく。 符号化歪みを推定するための好ましいガウシアンミクスチャベース最小平均2乗誤差エスティメータ(Gaussian mixture based minimum mean square error estimator)を示す。 先行技術の複合エンコーダを示し、2つのサブエンコーダ間のビットレートの分配は符号化信号の歪みの評価により決まる。 本発明による複合エンコーダを示し、2つのサブエンコーダ間のビットレートの分配は入力信号の特性により決まる。 本発明によるエンコーダを示し、入力信号の適応的セグメンテーションは入力信号の特性に基づき決まる。

Claims (13)

  1. 符号化テンプレートによりオーディオ信号を符号化するように構成されたオーディオエンコーダであって、
    前記オーディオ信号の所定の一組の特性に基づいて最適化された符号化テンプレートを生成するように構成された最適化手段と、
    前記最適化された符号化テンプレートに従って符号化オーディオ信号を発生するように構成された符号化手段とを有する、オーディオエンコーダ。
  2. 前記オーディオ信号を分析し、前記入力信号に応じてその一組の特性を生成するように構成された分析手段をさらに有する、請求項1に記載のオーディオエンコーダ。
  3. 前記最適化手段は前記オーディオ信号の前記所定の一組の特性に基づき前記符号化テンプレートに関連する知覚歪みを予測するように構成された手段を有する、請求項1に記載のオーディオエンコーダ。
  4. オーディオ信号の一組の特性は、調性、うるささ、調和性、静止性、線形予測ゲイン、長期予測ゲイン、スペクトルフラットネス、低周波スペクトルフラットネス、高周波スペクトルフラットネス、ゼロクロスレート、ラウドネス、有声化率、スペクトル中心、スペクトル帯域幅、メルケプストラム、フレームエネルギー、ERB帯域1−10のスペクトルフラットネス、ERB帯域10−20のスペクトルフラットネス、ERB帯域20−30のスペクトルフラットネス、ERB帯域30−37のスペクトルフラットネスにより構成されたグループから選択された少なくとも1つの特性を含む、請求項1に記載のオーディオエンコーダ。
  5. 前記符号化テンプレートを前記オーディオ信号の各セグメントに対して最適化するように構成された、請求項1に記載のオーディオエンコーダ。
  6. 前記予測手段は前記オーディオ信号の前記一組の特性に基づき前記符号化テンプレートに関連するビットレートを予測するように構成された手段をさらに有する、請求項1に記載のオーディオエンコーダ。
  7. 前記最適化手段は前記オーディオ信号の前記一組の特性に基づき前記オーディオ信号のセグメンテーションを最適化するように構成されている、請求項1に記載のオーディオエンコーダ。
  8. 前記最適化手段は一組の所定の符号化テンプレートから前記最適化された符号化テンプレートを選択するように構成されている、請求項1に記載のオーディオエンコーダ。
  9. 前記符号化手段は第1と第2のサブエンコーダを有し、前記最適化手段は前記オーディオ信号の前記所定の一組の特性に応じて前記第1と第2のサブエンコーダの最適化された第1と第2の符号化テンプレートを生成するように構成されている、請求項1に記載のオーディオエンコーダ。
  10. オーディオ信号の符号化方法であって、
    前記オーディオ信号の所定の一組の特性に基づいて、所定の符号化効率基準に関して最適化された、最適化符号化テンプレートを生成する段階と、
    前記最適化符号化テンプレートに従って符号化オーディオ信号を発生する段階とを有する、方法。
  11. オーディオ信号を符号化するように構成されたオーディオエンコーダの符号化テンプレートの最適化方法であって、
    前記オーディオ信号の所定の一組の特性を受け取る段階と、
    前記オーディオ信号の前記所定の一組の特性に基づいて、所定の符号化効率基準に関して前記符号化テンプレートを最適化する段階とを有する方法。
  12. 請求項1に記載のオーディオエンコーダを有する装置。
  13. 請求項10に記載の方法によりオーディオ信号を符号化するように構成されたコンピュータ読み取り可能なプログラムコード。
JP2007539679A 2004-11-05 2005-11-02 信号特性を用いた効率的なオーディオ符号化 Pending JP2008519308A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04105545 2004-11-05
PCT/IB2005/053570 WO2006048824A1 (en) 2004-11-05 2005-11-02 Efficient audio coding using signal properties

Publications (2)

Publication Number Publication Date
JP2008519308A true JP2008519308A (ja) 2008-06-05
JP2008519308A5 JP2008519308A5 (ja) 2008-07-17

Family

ID=35965990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007539679A Pending JP2008519308A (ja) 2004-11-05 2005-11-02 信号特性を用いた効率的なオーディオ符号化

Country Status (6)

Country Link
US (1) US20090063158A1 (ja)
EP (1) EP1815463A1 (ja)
JP (1) JP2008519308A (ja)
KR (1) KR20070085788A (ja)
CN (1) CN101053020A (ja)
WO (1) WO2006048824A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015092254A (ja) * 2010-07-19 2015-05-14 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 帯域幅拡張のためのスペクトル平坦性制御

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7818168B1 (en) * 2006-12-01 2010-10-19 The United States Of America As Represented By The Director, National Security Agency Method of measuring degree of enhancement to voice signal
KR101411900B1 (ko) * 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
CN101221766B (zh) * 2008-01-23 2011-01-05 清华大学 音频编码器切换的方法
GB0915766D0 (en) * 2009-09-09 2009-10-07 Apt Licensing Ltd Apparatus and method for multidimensional adaptive audio coding
PL2951820T3 (pl) 2013-01-29 2017-06-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie i sposób wyboru jednego spośród pierwszego algorytmu kodowania i drugiego algorytmu kodowania

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5341456A (en) * 1992-12-02 1994-08-23 Qualcomm Incorporated Method for determining speech encoding rate in a variable rate vocoder
US20020049585A1 (en) * 2000-09-15 2002-04-25 Yang Gao Coding based on spectral content of a speech signal
JP2002523806A (ja) * 1998-08-24 2002-07-30 コネクサント システムズ, インコーポレイテッド 雑音補償のための音声分類を採用した音声コーデック
US20040006644A1 (en) * 2002-03-14 2004-01-08 Canon Kabushiki Kaisha Method and device for selecting a transcoding method among a set of transcoding methods

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3276651D1 (en) * 1982-11-26 1987-07-30 Ibm Speech signal coding method and apparatus
DK0556354T3 (da) * 1991-09-05 2001-12-17 Motorola Inc Fejlbeskyttelse til multitilstandstalekodere
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
AUPS270902A0 (en) * 2002-05-31 2002-06-20 Canon Kabushiki Kaisha Robust detection and classification of objects in audio using limited training data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5341456A (en) * 1992-12-02 1994-08-23 Qualcomm Incorporated Method for determining speech encoding rate in a variable rate vocoder
JP2002523806A (ja) * 1998-08-24 2002-07-30 コネクサント システムズ, インコーポレイテッド 雑音補償のための音声分類を採用した音声コーデック
US20020049585A1 (en) * 2000-09-15 2002-04-25 Yang Gao Coding based on spectral content of a speech signal
US20040006644A1 (en) * 2002-03-14 2004-01-08 Canon Kabushiki Kaisha Method and device for selecting a transcoding method among a set of transcoding methods

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015092254A (ja) * 2010-07-19 2015-05-14 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 帯域幅拡張のためのスペクトル平坦性制御
US10339938B2 (en) 2010-07-19 2019-07-02 Huawei Technologies Co., Ltd. Spectrum flatness control for bandwidth extension

Also Published As

Publication number Publication date
CN101053020A (zh) 2007-10-10
EP1815463A1 (en) 2007-08-08
WO2006048824A1 (en) 2006-05-11
KR20070085788A (ko) 2007-08-27
US20090063158A1 (en) 2009-03-05

Similar Documents

Publication Publication Date Title
CN101903945B (zh) 编码装置、解码装置以及编码方法
US20160064013A1 (en) Apparatus and method for encoding and decoding signal for high frequency bandwidth extension
TWI576832B (zh) 產生帶寬延伸訊號的裝置與方法
JP6272619B2 (ja) オーディオ信号の符号化用エンコーダ、オーディオ伝送システムおよび補正値の判定方法
Ozerov et al. Coding-based informed source separation: Nonnegative tensor factorization approach
JP2009524108A (ja) 拡張帯域周波数コーディングによる複素変換チャネルコーディング
CN104321815A (zh) 用于带宽扩展的高频编码/高频解码方法和设备
JP2009524100A (ja) 符号化/復号化装置及び方法
RU2568278C2 (ru) Расширение полосы пропускания звукового сигнала нижней полосы
JP2017528751A (ja) 信号符号化方法及びその装置、並びに信号復号方法及びその装置
JP2008519308A (ja) 信号特性を用いた効率的なオーディオ符号化
JP2008519308A5 (ja)
JP4382808B2 (ja) 基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム
CN112927703A (zh) 对线性预测系数量化的方法和装置及解量化的方法和装置
CA2671068C (en) Multicodebook source-dependent coding and decoding
KR101996307B1 (ko) 부호화 장치, 복호 장치, 이들의 방법, 프로그램 및 기록 매체
Vali et al. End-to-end optimized multi-stage vector quantization of spectral envelopes for speech and audio coding
JP5336942B2 (ja) 符号化方法、復号方法、符号化器、復号器、プログラム
AU2014280258B9 (en) Apparatus and method for audio signal envelope encoding, processing and decoding by modelling a cumulative sum representation employing distribution quantization and coding
AU2014280256B2 (en) Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding
JP2019531505A (ja) オーディオコーデックにおける長期予測のためのシステム及び方法
US20220392458A1 (en) Methods and system for waveform coding of audio signals with a generative model
EP3514791B1 (en) Sample sequence converter, sample sequence converting method and program
JP3192051B2 (ja) 音声符号化装置
JP2000132195A (ja) 信号符号化装置及び方法

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080502

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110614

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111122