JP5308519B2 - 改善されたオーディオ符号化のマルチモード方式 - Google Patents

改善されたオーディオ符号化のマルチモード方式 Download PDF

Info

Publication number
JP5308519B2
JP5308519B2 JP2011514524A JP2011514524A JP5308519B2 JP 5308519 B2 JP5308519 B2 JP 5308519B2 JP 2011514524 A JP2011514524 A JP 2011514524A JP 2011514524 A JP2011514524 A JP 2011514524A JP 5308519 B2 JP5308519 B2 JP 5308519B2
Authority
JP
Japan
Prior art keywords
mode
output
input signal
frequency domain
domain representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011514524A
Other languages
English (en)
Other versions
JP2011525636A (ja
Inventor
ボローディア グランチャロフ,
ステファン ブルーン,
ハラルド ポブロス,
Original Assignee
テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲット エル エム エリクソン(パブル) filed Critical テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Publication of JP2011525636A publication Critical patent/JP2011525636A/ja
Application granted granted Critical
Publication of JP5308519B2 publication Critical patent/JP5308519B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、オーディオ符号化の改良に関する。特に、本発明は、符号化装置及び符号化システムにおいて入力信号を符号化する方法に関する。
オーディオ等を符号化する従来の手法は、エンコーダにおいて入力信号の低周波数領域を量子化し、デコーダにおいて再構成コードブックに従いスペクトルの高周波数領域を再構成するというものである。このように、全てのビットは、事前定義された周波数閾値又はインデックスを下回る周波数成分に割り当てられ、残りの(量子化されていない)周波数成分は、デコーダにおいて量子化された周波数成分から再構成される。
可変ビットレートに好適なより高度な手法は、入力の周波数帯域におけるエネルギ等に基づいて量子化される領域及び再構成される領域を動的に検出するというものである。
また、当該入力信号の領域を符号化することの難度に基づいて量子化される領域の大きさを調整することが提案されている。領域は、量子化するのが困難なスペクトルを含む場合はより小さくされ、量子化するのが容易なスペクトルを含む場合はより大きくされる。
しかしながら、オーディオ符号化手法の改良依然として必要である。
したがって、本発明の目的は、受信端末でのオーディオ品質を改善できる符号化方式を提供する符号化装置及び方法を提供することである。
符号化システムにおいて入力信号を符号化する方法が提供される。方法は、入力信号に第1モードを適用して第1の出力を形成するステップと、入力信号に第2モードを適用して第2の出力を形成するステップとを有する。第1の出力の少なくとも一部から第1の処理出力が形成され、第2の出力の少なくとも一部から第2の処理出力が形成される。第2の処理出力を形成するステップは、第2の出力の少なくとも一部から入力信号の一部を推定するステップを含む。
第1の処理出力及び第2の処理出力に基づいて最適モードが判定され、その最適モードに従って出力が選択される。
更に、符号化装置が提供される。符号化装置は、コントローラと、該コントローラに接続された符号化部とを有する。符号化部は、入力信号に第1モードを適用して第1の出力を形成するとともに、入力信号に第2モードを適用して第2の出力を形成するように構成される。コントローラは、第1の出力の少なくとも一部から第1の処理出力を形成するとともに、第2の出力の少なくとも一部から第2の処理出力を形成するように構成される。コントローラにおいて、第2の処理出力を形成する処理は、第2の出力の少なくとも一部から入力信号の一部を推定する処理を含む。コントローラは更に、第1の処理出力及び第2の処理出力に基づいて最適モードを判定し、その最適モードに従って出力を選択するように構成される。
本発明の重要な利点は、オーディオ信号を送信する品質が改善されるように、符号化の最適モードが複数のモードから選択されることである。
入力信号を量子化する間、使用可能なビット数が制限されるために量子化誤差が発生する。入力信号の選択された部分のみを量子化し残りの部分を再構成することにより、より高い精度の量子化を行うことができる。既知の量子化された低周波数成分から未知の高周波数成分等の信号を再構成することにより、その結果得られる出力信号に再構成アーチファクトが発生する。従って、入力信号を符号化するにあたっては、量子化誤差と再構成アーチファクトとのトレードオフが存在する。
本発明によれば、複数のモードを入力信号に適用した結果として得られる出力を復号化すること等を含む処理に基づいて、最適な出力に対応する最適モードが、第1モード及び第2モードを含む複数モードから判定され選択される。
本発明の上記の特徴及び利点、並びに他の特徴及び利点は、添付の図面を参照して、以下の本発明の例示的な実施形態の詳細な説明を読めば、当業者には容易に理解されよう。
本発明に係る符号化装置の一実施形態を概略的に示す図。 本発明に係る符号化装置の一実施形態を概略的に示す図。 図1の符号化部の一実施形態を概略的に示す図。 図1のコントローラの一実施形態を概略的に示す図。 図2の符号化部の一実施形態を概略的に示す図。 図2のコントローラの一実施形態を概略的に示す図。 本発明に係る符号化装置の一実施形態を概略的に示す図。 本発明に係る符号化装置及び方法において適用される種々モードを示す図。 本発明に係る方法の一実施形態を概略的に示す図。 本発明に係る方法の一実施形態を概略的に示す図。 20msの音声フレームのスペクトル包絡及び圧縮された残差を示す図である。
(略語)
AR auto-regrressive 自己回帰
BWE bandwidth extension 帯域幅拡張
DFT discrete Fourier transform 離散フーリエ変換
GMM Gaussian mixture models 混合正規分布モデル
KLT Karhunen Loeve transform KL変換
MDCT modified descrete cosine transform 修正離散コサイン変換
SBR spectral band replication スペクトル帯域複製
SQ scalar quantizer スカラー量子化器
VQ vector quantizer ベクトル量子化器
(詳細な説明)
図面は、理解しやすいように概略的であり簡略化されたものであり、本発明を理解するのに必須な箇所の詳細のみを示し、その他の詳細は省略する。図中、同一の符号は、同一の部分又は対応する部分に用いるものとする。
本発明に係る方法は、第1モード及び第2モードを含む複数モードを入力信号に適用することを含む。入力信号は、例えば、モードを適用する前にスペクトル包絡を適用することにより前処理されてもよい。
モードを入力信号に適用することは、入力信号の選択された部分を量子化することを含んでもよく、例えば第1モードを入力信号に適用することは、入力信号の第1の部分を量子化することを含んでもよく、及び/又は、第2モードを入力信号に適用することは、入力信号の第2の部分を量子化することを含んでもよい。第1の部分と第2の部分は重複してもよい。
例示的なモードにおいて、量子化閾値を下回るか、あるいは量子化閾値に達する入力信号の周波数又は係数は、量子化されて量子化閾値を上回る周波数又は係数が再構成される。異なる量子化閾値によって異なるモードを特徴付けることができる。
方法において、第2の処理出力を形成することは、帯域幅拡張を使用して入力信号の一部を再構成することを含んでもよい。
本発明に係る方法において、モードの適切な数Mは、入力信号に適用されてM個の出力を形成するようにすることができる。一実施形態において、選択された出力又は好ましくは全ての出力は、処理出力を形成するように処理される。選択された処理出力又は好ましくは全ての処理出力は、最適モードを判定するための基礎を部分的に、あるいは完全に形成してもよい。
方法において、最適モードを判定することは、入力信号、並びに第1の処理出力及び第2の処理出力から算出された選択基準に基づいて最適モードを判定することを含んでもよい。
選択基準は、次式で与えられる最小化問題として定義できる。
Figure 0005308519
ただし、m(*)は最適モード、Dは歪み、m=(1, ..., M)はM個のモードにわたるインデックス、X=(x0, ..., xN-1)は入力信号、Y m,proc=(y0, ..., yN-1)m,procはモードmでの処理出力である。
全てのモードMに対する基準D(X,Y m,proc)の計算が非常に複雑である場合、全てのモードのうちのサブセットのみに対する基準及び/又は係数のサブセットのみに対する基準を計算するようにしてもよい。そして、残りのモードについては基準を補間してもよい。これにより、算出すべき基準よりも選択すべきより多くのモードを有することができ、基準が補間されるモードに対するD及びY m,procの計算が省かれる。すなわち、アルゴリズムの計算にかかる演算量を低くしながら、符号化からBWEへの遷移において高解像度が達成される。
一実施形態において、選択基準は、次式により与えられた最小化問題として定義できる。
Figure 0005308519
ただし、m(*)は最適モード、Dは歪み、mはM個のモードのサブセットにわたるインデックス、X=(x0, ..., xN-1)は入力信号、Y m,proc=(y0, ..., yN-1)m,procはモードmでの処理出力である。
歪みDは、例えば選択された少なくとも1つのモード又は全てのモードに対して、次式で与えられる。
Figure 0005308519
ただし、Nは入力信号における係数の数、
全ての1≦n<Nに対して、x0 *=|x0|及びxn *=(1−αn)|xn|+αnx* n-1,
全ての1≦n<Nに対して、y0 *=|y0|及びyn *=(1−αn)|yn|+αny* n-1 である。
重み係数αnは次式で与えられる。
Figure 0005308519
かつ/あるいは、ペナルティ係数βnは定数であってもよく、例えばβn=2であるか、又は、次式で与えられることが好ましい。
Figure 0005308519
一実施形態において、歪みDは、例えば選択された少なくとも1つのモード又は全てのモードに対して、次式により与えられる。
Figure 0005308519
ただし、Nは入力信号における係数の数、Iは0〜N-1の整数の部分集合、NIはIにおける要素数、
全ての1≦n<Nに対して、x0 *=|x0|及びxn *=(1−αn)|xn|+αnx* n-1,
全ての1≦n<Nに対して、y0 *=|y0|及びyn *=(1−αn)|yn|+αny* n-1 である。
重み係数αnは次式で与えられる。
Figure 0005308519
かつ/あるいは、ペナルティ係数βnは定数であってもよく、又は、次式で与えられることが好ましい。
Figure 0005308519
一実施形態において、歪みDは、例えば選択された少なくとも1つのモード又は全てのモードに対して推定される。
方法は、最適モードに従って選択された出力信号を符号化装置の出力信号に含めるステップ、すなわち、選択された出力信号を送信するステップを含むことができる。選択された最適モードに関する情報は、選択された出力信号と共に送信されてもよい。
入力信号は一般に、符号化装置によりフレームに分割される。最適モードは、フレーム毎に又は選択された周波数において判定され、例えば入力信号の10個のフレーム毎に1つの出力が判定される。
一般に、オーディオ符号化において、オーディオ信号は、デジタル化され、例えば修正離散コサイン変換(MDCT)により変換される。
符号化装置への入力信号は、デジタル化及び変換された入力信号であるのが好ましい。入力信号が時間領域にある場合、符号化装置は、変換された入力信号をプリプロセッサ又は符号化部に提供するためにMDCT部等の変換部を備えてもよい。
入力信号に適用されるモードは、量子化のために考慮される入力信号ベクトルの次元により特徴付けられ、例えば、量子化のために考慮された第1次元の集合は第1モードと関連付けられ、量子化のために考慮された第2次元の集合は第2モードと関連付けられる。種々の集合は重複してもよく、すなわちいくつかの要素を共有してもよい。モードのオプションの数は、トータルのビット数や演算量の制約に依存する。モードの数は、2以上のいかなる正の整数であってもよい。本明細書において、簡潔にするために2つのモードが考慮され、他の箇所において説明するために4つのモードが考慮される。
本発明に係る符号化装置は、本発明に係る方法のステップを実行するように構成されてもよい。
符号化装置の符号化部は、第1モード及び第2モード等の複数モードを連続して適用し、かつ第1の出力及び第2の出力等の出力を例えば第1の接続を介してコントローラにシリアルに転送する。符号化は、量子化、圧縮及び/又は正規化を含むことができる。
符号化部は、第1のエンコーダと第2のエンコーダとを含む。第1のエンコーダは、第1モードを適用するように構成され、第1の出力を第1の接続を介してコントローラに転送するように構成される。第2のエンコーダは、第2モードを適用するように構成され、第2の出力を第2の接続を介してコントローラに転送するように構成される。
符号化部はプリプロセッサを備えてもよい。プリプロセッサは、スペクトル包絡を入力信号に適用し、結果として得られる残差信号をエンコーダに供給するように構成されてもよい。
コントローラは、適用されたモードの中から最適モードを判定し、対応する出力信号を転送するように構成されてもよい。コントローラは、対応するモードに従って、例えばそれぞれ第1モード及び第2モードに従って第1の出力及び第2の出力等の出力を処理するように構成された少なくとも1つのデコーダを備えてもよい。更にコントローラは、入力信号、並びに処理後の又は復号化後の出力、例えば第1の処理出力及び第2の処理出力から算出された選択基準に基づいて最適モードを判定するように構成されたプロセッサを備えてもよい。出力のうちの少なくとも1つの処理出力は、再構成された部分を含んでもよい。すなわち、復号化後の信号又は処理後の信号の一部は、帯域幅拡張等により推定されるか又は再構成される。所定のモードにおける送信機側の再構成コードブック及び受信機側の再構成コードブックは、符号化部が当該モードに提供する出力から生成される。これらのコードブックの好適な目的は、量子化において考慮されない入力ベクトルの次元を推定することである。入力ベクトルが周波数領域を示す場合、これは帯域幅拡張に対応する。
符号化装置は、符号化システムにおいて実現されてもよい。
図1は、本発明に係る符号化装置の一実施形態を示す。符号化装置2は、コントローラ4と符号化部6とを備える。符号化装置への入力信号Xは、デジタル化及び好ましくは変換された入力信号である。入力信号Xは、MDCTを使用して変換されるのが好ましいが、DFT、ウェーブレット変換又はKL変換等の他の適切な変換方式を用いてもよい。入力信号Xは、シリアルに又はパラレルに接続8を介して符号化部6に供給される。符号化部6は、モードの数Mを入力信号に適用するように構成される。符号化部6の出力Y 1, Y 2, ..., Y Mは、接続10を介してコントローラ4に供給される。出力Y 1, Y 2, ..., Y Mは、符号化部6とコントローラ4との間に図1に示されたようにシリアルに又は図2に示されたようにパラレルに供給されてもよい。
符号化部6において、入力信号Xの係数は、スペクトル包絡により入力信号Xの係数を平坦化することにより、プリプロセッサにおいて必要に応じて前処理される。更に、平坦化された信号のプリプロセッサは残差信号X resと呼ばれる。次に、前処理された信号は、符号化部6において第1モードA及び第2モードBを含む種々のモードに従って符号化又は量子化され、出力信号はコントローラ4に提供される。
好適な一実施形態において、モードの数は2である。すなわち、符号化部6は、第1モードA及び第2モードBを入力信号に適用し、出力Y 1及び出力Y 2をコントローラ4に供給する。別の好適な実施形態において、モードの数は3である。すなわち、符号化部6は、第1モードA、第2モードB及び第3モードCを入力信号に適用し、出力Y 1Y 2及びY 3をコントローラ4に供給する。
適用されるモードの数は、符号化の品質と符号化部6の符号化容量とのトレードオフの関係にある。一実施形態において、4つのモードA、B、C及びDを適用することは適度な妥協であることが示された。符号化容量が継続的に増加するにつれ、5個、6個、7個、8個、9個、又は10個以上等、より多くの数のモードが考えられる。
コントローラ4は、符号化部6に適用されたモードの最適モードを判定するように構成される。コントローラ4は、出力Y 1, Y 2, ..., Y Mを処理し、少なくとも各出力の一部から処理出力(Y m,proc, m=1, ..., M)を形成する。出力のうちの少なくとも1つを処理することは、少なくとも処理される出力の一部から入力信号の一部を推定することを含む。コントローラ4は、少なくとも第1の処理出力及び第2の処理出力に基づいて最適モードを判定するように構成される。
最適モードは、事前定義された選択基準等の選択基準を最小限にするモードとして選択される。一実施形態において、最適モードは、選択基準を最大限にするモードとして選択される。
第1モードAが最適モードである場合、コントローラ4は、符号化出力信号Y outにおいて出力Y 1等の最適モードに対応する出力を含むように更に構成される。
符号化出力信号Y outは、最適モードに関する情報を含むのが好ましい。あるいは又は組み合わせて、符号化出力信号Y outは、入力信号Xの前処理に関する情報を含んでもよい。符号化出力信号Y outは、受信機に送信され、受信機側の再構成コードブックに従って、好ましくは最適モード及び/又は入力信号Xの前処理に関する情報に従って再構成されるか又は復号化される。送信機側の再構成コードブックと受信機側の再構成コードブックとは同一であるのが好ましい。
図2は、本発明に係る符号化装置の一実施形態を示す。符号化装置は、4つのモードを入力信号Xに適用するように構成される。符号化装置2’は、出力Y 1Y 4が図1のようにシリアルではなく符号化部6’からコントローラ4’にパラレルに供給される点を除き、同様の構成要素を含む符号化装置2に類似する。図示する実施形態において、4つの異なるモードは入力信号に適用される。
図1及び図2に示された実施形態において、スペクトル包絡は、符号化部に配置されたプリプロセッサ又は符号化装置の符号化部に接続されたプリプロセッサユニットとして配置されたプリプロセッサにおいて入力信号Xに適用される。一実施形態において、プリプロセッサは符号化装置の外部の別個のユニットであるため、入力信号Xを前処理する必要がなくなる。スペクトル包絡は種々の方法で規定されてもよい。スペクトル包絡は、静的であってもよくかつ事前定義されてもよい。しかし、スペクトル包絡は、周波数領域又は時間領域において入力信号の特性に基づいて動的に判定あるいは算出されうる。従って、スペクトル包絡の特性は、例えば図1に示されたような符号化装置の外部のコントローラから又はコントローラ4からの外部制御信号X conに従って制御されてもよい。一実施形態において、スペクトル包絡の特性は、AR係数の周波数応答に基づいて制御される。スペクトル包絡は、MDCT係数をグループ化することにより算出してもよく、各グループにおける平均エネルギを計算する。これらのグループは均一の長さであってもよく、あるいは高周波数に対して長くなってもよい。
図3は、図1の符号化部6の一実施形態を示す。符号化部6は、オプションのプリプロセッサ20とエンコーダ22とを備える。入力信号Xは、スペクトル包絡を入力信号Xに適用しかつ残差信号X resをエンコーダ22に供給するように構成されるプリプロセッサ20に供給される。エンコーダ22は、M個の異なるモードに従って残差信号X resを符号化又は量子化し、図1に示したように結果として得られる出力をコントローラにシリアルに送出するように構成される。プリプロセッサ20及びエンコーダ22は、制御信号X conにより制御される。X conは、符号化装置の外部のコントローラからの制御変数及び/又はコントローラ4からの制御変数を含んでもよい。
図4は、図1のコントローラ4の一実施形態を示す。コントローラ4は、デコーダ24とプロセッサ26とを備える。出力Y 1, Y 2, ..., Y Mは、少なくとも入力信号の一部の推定値を含む送信機側の再構成コードブックに従って出力Y 1, Y 2, ..., Y Mを復号化するデコーダ24において処理される。全てのM個のモードに対する処理後の又は復号化後の出力Y m,procは、全てのモード又は選択されたモードに対する処理された信号Y m,proc及び入力信号Xに基づいて最適モードを判定するように構成されるプロセッサ26にシリアルに供給される。
示された実施形態において、コントローラ4は、m(*)=arg mimmD(X,Y m,proc)で与えられる最小化問題を解決するように構成される。ただし、m(*)は最適モード、Dは歪み、m=(1, ..., M)はM個のモードにわたるインデックス、X=(x0, ..., xN-1)は入力信号、Y m,proc=(y0, ..., yN-1)m,procはモードmでの処理出力である。
歪みDは次式で与えられる。
Figure 0005308519
ただし、Nは入力信号における係数の数、すなわちベクトルの次元であり、
全ての1≦n<Nに対して、x0 *=|x0|及びxn *=(1−αn)|xn|+αnx* n-1,
全ての1≦n<Nに対して、y0 *=|y0|及びyn *=(1−αn)|yn|+αny* n-1
Figure 0005308519
である。
一実施形態において、βnは定数値であり、例えば全てのnに対してβn=2である。
ベクトル係数から符号が除去されて、ベクトル係数が平滑化される。本実施形態においては、重み係数αnは(N、すなわちベクトルの次元数により)高周波に向かうにつれ増加するが、重み係数αnはあらゆる適切な形態をとってもよい。
「ペナルティ係数」βnは、「新しい」スペクトル成分に対してより重いペナルティを追加しかつ上述したような「失われた」スペクトル成分に対してより軽いペナルティを追加してもよいし、あるいはその逆であってもよい。このようなペナルティ係数は、従来は音声/オーディオ符号化の分野では使用されていなかったものである。
全てのモードMに対する基準D(X,Y m,proc)が非常に複雑である場合、全てのモードのサブセットのみに対する基準を計算するようにしてもよい。そして、残りモードに対しては、基準は、補間されてもよく又は省略されてもよい。これにより、算出すべき基準よりも選択すべきモードをより多く有することができ、基準が補間されるモードに対するD及びY m,procの計算が省かれる。すなわち、アルゴリズムの計算にかかる演算量を低く保ちつつ、符号化から帯域幅拡張(BWE)への遷移において高解像度が達成される。
コントローラ4は、符号化出力信号Y outにおいて最適モードに従って出力を含むように更に構成される。制御信号X conは、プリプロセッサ20に適用されたスペクトル包絡に関する情報を含みうる。符号化出力信号Y outは、最適モードに関する情報及び/又はプリプロセッサ20に適用されたスペクトル包絡に関する情報を含みうる。
本発明の重要な利点は、従来技術において示唆されたように入力信号の特性に従って符号化又は量子化を動的に適合させるのではなく、入力信号と復号化された出力信号との比較に基づいて最適モードを判定することである。
図5は、図2の符号化部6’の一実施形態を示す。符号化部6’は、オプションのプリプロセッサ20と、各モードに対する、4つのエンコーダ28、30、32、34とを備える。入力信号Xは、制御信号X con及び/又は事前定義された動作パラメータに従ってスペクトル包絡を入力信号Xに適用するように構成されるプリプロセッサ20に供給される。プリプロセッサが省略される場合、残差信号X res又は入力信号Xは、エンコーダ28、30、32、34に供給される。エンコーダ28、30、32、34は、4つの異なるモードを残差信号X res又は入力信号Xに適用することにより、残差信号X res又は入力信号Xを符号化する。出力Y 1Y 2Y 3Y 4は、コントローラにパラレルに供給される。エンコーダ28、30、32、34の各々は、複数のモードに従って符号化し複数の出力をコントローラにシリアルに供給するように構成されてもよい。従って、出力信号Yをコントローラにシリアルに供給することとパラレルに供給することとの組合せが採用されてもよい。
示された実施形態において、エンコーダ28、30、32、34は事前定義された動作パラメータに従って動作するが、エンコーダ28、30、32、34の動作は制御信号X conにより動的に制御されてもよい。
図6は、図2のコントローラ4’の一実施形態を示す。コントローラ4’は、出力Y 1Y 2Y 3Y 4がコントローラ4のようにシリアルではなくパラレルに処理されるか又は復号化されるように出力毎にデコーダ36、38、40、42が提供されることを除き、図4に関連して説明したコントローラ4に類似する。コントローラ4’は、全てのモード又は選択されたモードに対する処理された信号Y m,proc及び入力信号Xに基づいて最適モードを判定するように構成されるプロセッサ26’を更に備える。デコーダ36、38、40、42は、送信機側の再構成コードブックに従って出力Y 1Y 2Y 3Y 4を処理又は復号化する。デコーダ36、38、40、42は、それぞれ、デコーダ36、38、40、42にシリアルに供給される複数の出力を復号化するように構成されうる。
図7は、本発明に係る符号化装置の一実施形態を示す。符号化装置2”において、入力信号Xはスペクトル包絡で前処理され、残差信号X resは符号化部6”に供給される。
図8は、4つの異なるモードA、B、C、Dを有する一例を示す。第1モードAが例えば符号化装置2、2’、2”のうちの1つにおいて適用される場合、必要に応じて前処理された入力信号全体が実線で示されたように量子化されるため、使用可能なビットは全ての次元0〜N-1にわたり拡散される。第2モードBにおいては、使用可能なビット、実線で示されたようベクトルの最初の4分の3量子化ために使用され、破線で示されたような残りの次元又は係数、すなわち、ベクトルの量子化されていない部分に対応する周波数、再構成コードブックに従って再構成される。第3モードCにおいては、使用可能なビット、ベクトルのめの半分を量子化するために使用され、残りの半分、すなわち、ベクトルの量子化されていない部分に対応する周波数、帯域幅拡張を使用して、すなわち再構成コードブックに従って再構成又は推定される。第4モードDにおいては、全てのベクトルが下部の4分の1のベクトルを量子化するために用いられ、残りの次元が再構成される。
一般に、人間の知覚は低周波数領域における微細構造の誤差に対して感度が高いので、ビット数が少なくなるほど、モードの基本設定は、スペクトルのより多くの部分の量子化からスペクトルのより少ない部分の量子化になる(図8において、モードAからモードDになる。)。十分なビットが使用可能である場合、低周波数領域は十分な解像度で量子化され、上記の例における好適なモードはA及びBである。再構成の処理でなるべく異音が生じないよう、信号の自己相似性が高くなるにつれ、基本設定はスペクトルの大部分の符号化からスペクトルのより小部分の符号化になる(図8の例においては、モードAからモードDになる。)。
符号化装置は、全てのモードにわたって探索することにより、低周波数領域の高解像度量子化と高周波数領域における異音の発生との間でバランスを保ち、符号化された信号の品質を高める。
図9及び図10は、本発明に従って符号化システムにおいて入力信号を符号化する方法の実施形態を示す。方法100、100’は、第1モードを入力信号X又は入力信号の残差に適用して第1の出力を形成するステップ102を含む。更に方法は、第2モードを入力信号又は入力信号の残差に適用して第2の出力を形成するステップ104を含む。ステップ102及び104は、図9のように並列に実行してもよいし、図10のように順番に実行してもよい。他のモードが、並列に適用されてもよいし、順番に実行されてもよい。ステップ102及び104は、入力信号の部分又は入力信号の残差信号を量子化すること、すなわち第1モードに対して入力信号の第1の部分を量子化すること及び第2モードに対して入力信号の第2の部分を量子化することを含む。
各モードの適用後又は適用中、少なくとも第1の出力の一部から第1の処理出力を形成し、少なくとも第2の出力の一部から第2の処理出力を形成するステップ105に進む。第2の処理出力を形成することは、少なくとも第2の出力の一部から入力信号の一部を推定することを含む。次に、ステップ106において、第1の処理出力及び第2の処理出力に基づいて最適モードを判定する。示された実施形態において、ステップ106は、m(*)=arg mimmD(X,Y m,proc)により与えられた最小化問題を解決することを含む。式中、m(*)は最適モード、Dは歪み、m=(1, ..., M)はM個のモード(本実施形態においてはM=2)にわたるインデックス、X=(x0, ..., xN-1)は入力信号、Y m,proc=(y0, ..., yN-1)m,procはモードmでの処理出力である。入力信号の残差信号X resは、入力信号Xを置換してもよい。
歪みDは次式で与えられる。
Figure 0005308519
ただし、Nは入力信号における係数の数、すなわちベクトルの次元数、
全ての1≦n<Nに対して、x0 *=|x0|及びxn *=(1−αn)|xn|+αnx* n-1,
全ての1≦n<Nに対して、y0 *=|y0|及びyn *=(1−αn)|yn|+αny* n-1
Figure 0005308519
である。
ステップ106において最適モードを判定すると、最適モードに従って出力を選択するステップ108に進む。ステップ108は、選択された出力信号を送信すると共に選択されたモードに関する情報を送信すること又は示すことを含む。
本発明に係る方法は、入力信号の各フレームに適用されてもよいし、特定の周波数で適用されてもよい。例えば方法は、10番目のフレーム毎に及び次に最適モードが判定されるまでフレームに対して適用される最適モードに適用されてもよい。
本発明に係る残差量子化によるマルチモード方式によれば、変換オーディオ符号化方式における品質を向上させることができる。最適モードを選択することにより、現状のビットレート及び入力源の特性に対し、改善される。
図1のスペクトル包絡及び圧縮された残差で、図8に係るモード及び広帯域音源でシミュレーションを行った。表1及び表2は、ビットレート及び音源の種類(音声-ドイツ人男性、音楽-カスタネット)ごとのモード選択の統計である。表3は、従来手法に対するマルチモード方式の全体的な品質の改善を示す。
Figure 0005308519
Figure 0005308519
Figure 0005308519
送信機側の再構成コードブック及び受信機側の再構成コードブックは、スペクトルの量子化された領域におけるスペクトル係数から生成することができる。一般に量子化アルゴリズムは、量子化された領域において使用可能なトータルのビット数を係数の部分集合のみに分配する。残りの係数は、通常、ゼロに設定されるか、あるいはノイズ・フィル・アルゴリズム(noise fill algorithm)等の他の何らかのアルゴリズムにより近似される。再構成コードブックについては、再構成コードブックを構成する他の手法がいくつかある。ビットを全く受信しないスペクトルの量子化された領域における係数は、再構成コードブックにおいて省略されるか、ゼロに設定されるか、あるいはそれらの推定された値が使用される。
このように受信されたスペクトル係数は、高周波数領域を再構成するために必ずしも直接使用されないが、再構成コードブックを作成するように処理される。そのような処理の一例は2つのステップからなる。すなわち、1)上位10%の係数を絶対値の最大値で圧縮。絶対値の最高値を含む0.1N個の係数は、残りの係数の絶対値の極大値に設定される。2)全体的なエネルギ減衰(初期レベルの70%しか維持されない)。
再構成コードブックにおけるベクトルの減衰は、一般に、スペクトルの高周波数部分においてエネルギ低下を招く。デコーダにおいて、これは、H(z)=1-μ・z-1の形式の傾斜補償フィルタで補償される。ただし、μは適切な値であり、例えばμ=0.4である。
高周波数の低下を補償するフィルタの別の形式は、H(z)=α・z-1−β+α・z+1である。ただし、例えば、α=0.0825、β=0.5825である。
これらの傾斜補償フィルタは、従来の形式又はピッチポストフィルタと組み合わされてもよい。
受信機側において、デコーダが受信した信号に含まれたモード情報からモード情報を取得することにより、デコーダで量子化された入力信号スペクトルの部分及び再構成されるものを判定する。スペクトルの量子化された部分が直接使用される。再構成コードブックは、上述されたように生成され、スペクトルの量子化されていない部分をデータを埋めるために使用される。次に、2つの状況が区別される。すなわち、a)拡張された領域が再構成コードブックより大きい場合、b)拡張された領域が再構成コードブックより小さい場合。a)の場合、再構成コードブックは、スペクトル全体にデータが埋められるまで繰り返される。b)の場合は、再構成コードブックは単に打ち切られる。
図8の例に戻ると、モードBの場合は再構成コードブックの1/3のみが使用され、モードCの場合は再構成コードブックは正確に適合し、モードDの場合は再構成コードブックは2回繰り返されなければならない。ここで、量子化のためのビットを受信しなかった量子化領域の係数が再構成コードブックに含まれると仮定する。
オプションの傾斜補償フィルタを適用してもよく、本発明に関連しないポストフィルタ等の他のオプションの処理ステップに加えて、最後に、スペクトル全体に対してスペクトル包絡の制限を加えるようにしてもよい。
なお、本発明は、添付の図面に示された本発明の例示的な実施形態のみならず、種々の形態で実施することが可能であり、本明細書において説明した実施形態に限定されるものと解釈されるべきではない。これらの実施形態は、その開示内容が完璧で完全なものとなり、本発明の概念が当業者に完全に理解されるように提供されるものである。

Claims (11)

  1. 符号化システムにおいて入力信号を符号化するための方法であって、
    前記入力信号の周波数領域表現のうち第1モードを特徴付ける量子化閾値までの第1の部分を量子化することにより、前記入力信号の周波数領域表現X)に前記第1モードを適用して第1の出力(Y 1)を形成するステップ(102)と、
    前記入力信号の周波数領域表現のうち第2モードを特徴付ける量子化閾値までの第2の部分を量子化することにより、前記入力信号の周波数領域表現X)に前記第2モードを適用して第2の出力(Y 2)を形成するステップ(104)と、
    前記第1の出力(Y 1)の少なくとも一部から第1の処理出力(Y 1,proc)を形成するとともに、前記第2の出力(Y 2)の少なくとも一部から第2の処理出力(Y 2,proc)を形成するステップ(105)であって、前記第2の処理出力を形成するステップは、帯域幅拡張を用いて、前記入力信号の周波数領域表現のうち前記第2モードを特徴付ける量子化閾値を超える部分を再構成することにより、前記第2の出力(Y 2)の少なくとも一部から前記入力信号の周波数領域表現の一部を推定するステップを含むステップ(105)と、
    前記第1の処理出力(Y 1,proc)及び前記第2の処理出力(Y 2,proc)に基づいて、かつ、前記入力信号の周波数領域表現と前記第1及び第2の処理出力とから算出される選択基準に基づいて、最適モードを判定するステップ(106)と、
    前記最適モードに従って前記出力(Y 1Y 2)を選択するステップ(108)と、
    を有し、
    m(*)を最適モード、Dを歪み、m=(1, ..., M)をM個のモードにわたるインデックス、X=(x0, ..., xN-1)を前記入力信号の周波数領域表現Y m,proc=(y0, ..., yN-1)m,procをモードmでの前記処理出力とするとき、前記選択基準は、
    Figure 0005308519
    で与えられる最小化問題として定義されることを特徴とする方法。
  2. 前記入力信号の周波数領域表現にM個(M>2)のモードを適用してM個の出力を形成することを特徴とする請求項1に記載の方法。
  3. Nを前記入力信号の周波数領域表現における係数の数、
    全ての1≦n<Nに対して、x0 *=|x0|及びxn *=(1−αn)|xn|+αnx* n-1
    全ての1≦n<Nに対して、y0 *=|y0|及びyn *=(1−αn)|yn|+αny* n-1
    Figure 0005308519
    とするとき、少なくとも1つのモードにおける前記歪みDは、
    Figure 0005308519
    で与えられることを特徴とする請求項1又は2に記載の方法。
  4. Nを前記入力信号の周波数領域表現における係数の数、Iを0からN-1までの整数の部分集合、NIをIにおける要素数、
    全ての1≦n<Nに対して、x0 *=|x0|及びxn *=(1−αn)|xn|+αnx* n-1
    全ての1≦n<Nに対して、y0 *=|y0|及びyn *=(1−αn)|yn|+αny* n-1
    Figure 0005308519
    とするとき、少なくとも1つのモードにおける前記歪みDは、
    Figure 0005308519
    で与えられることを特徴とする請求項1乃至3のいずれか1項に記載の方法。
  5. 前記歪みDは、少なくとも1つのモードに対して推定されることを特徴とする請求項1乃至4のいずれか1項に記載の方法。
  6. 前記最適モードに関する情報を送信するステップを更に有することを特徴とする請求項1乃至5のいずれか1項に記載の方法。
  7. コントローラ(4、4’)と、該コントローラ(4、4’)に接続された符号化部(6、6’)とを有する符号化装置(2、2’、2”)であって、
    前記符号化部は、前記入力信号の周波数領域表現のうち第1モードを特徴付ける量子化閾値までの第1の部分を量子化することにより、前記入力信号の周波数領域表現X)に前記第1モードを適用して第1の出力(Y 1)を形成するとともに、前記入力信号の周波数領域表現のうち第2モードを特徴付ける量子化閾値までの第2の部分を量子化することにより、前記入力信号の周波数領域表現X)に前記第2モードを適用して第2の出力(Y 2)を形成するように構成され、
    前記コントローラ(4、4’)は、前記第1の出力(Y 1)の少なくとも一部から第1の処理出力(Y 1,proc)を形成するとともに、前記第2の出力(Y 2)の少なくとも一部から第2の処理出力(Y 2,proc)を形成するように構成され、該第2の処理出力を形成する処理は、帯域幅拡張を用いて、前記入力信号の周波数領域表現のうち前記第2モードを特徴付ける量子化閾値を超える部分を再構成することにより、前記第2の出力(Y 2)の少なくとも一部から前記入力信号の周波数領域表現の一部を推定する処理と、前記第1の処理出力及び前記第2の処理出力に基づいて、かつ、前記入力信号の周波数領域表現と前記第1及び第2の処理出力とから算出される選択基準に基づいて、最適モードを判定する処理と、前記最適モードに従って前記出力(Y 1Y 2)を選択する処理とを含み、
    m(*)を最適モード、Dを歪み、m=(1, ..., M)をM個のモードにわたるインデックス、X=(x0, ..., xN-1)を前記入力信号の周波数領域表現Y m,proc=(y0, ..., yN-1)m,procをモードmでの前記処理出力とするとき、前記選択基準は、
    Figure 0005308519
    で与えられる最小化問題として定義されることを特徴とする符号化装置。
  8. 前記符号化部(6)は、前記第1モード及び前記第2モードを順番に適用し、前記第1の出力及び前記第2の出力を第1の接続(10)を介して前記コントローラ(4、4’)にシリアルに転送するように構成されるエンコーダ(22)を含むことを特徴とする請求項7に記載の符号化装置。
  9. 前記符号化部(6)は、第1のエンコーダ(28)と、第2のエンコーダ(30)とを含み、前記第1のエンコーダは、前記第1モードを適用して前記第1の出力を第1の接続を介して前記コントローラに転送するように構成され、前記第2のエンコーダは、前記第2モードを適用して前記第2の出力を第2の接続を介して前記コントローラに転送するように構成されることを特徴とする請求項7に記載の符号化装置。
  10. 前記コントローラ(4、4’)は、それぞれ前記第1モード及び前記第2モードに従って前記第1の処理出力及び前記第2の処理出力を形成するように構成された少なくとも1つのデコーダと、前記入力信号の周波数領域表現並びに前記第1の処理出力及び前記第2の処理出力から算出された選択基準に基づいて前記最適モードを判定するように構成されたプロセッサと、を含むことを特徴とする請求項7乃至9のいずれか1項に記載の符号化装置。
  11. 請求項7乃至10のいずれか1項に記載の符号化装置を含む符号化システム。
JP2011514524A 2008-06-24 2008-06-24 改善されたオーディオ符号化のマルチモード方式 Expired - Fee Related JP5308519B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/SE2008/050758 WO2009157824A1 (en) 2008-06-24 2008-06-24 Multi-mode scheme for improved coding of audio

Publications (2)

Publication Number Publication Date
JP2011525636A JP2011525636A (ja) 2011-09-22
JP5308519B2 true JP5308519B2 (ja) 2013-10-09

Family

ID=41444744

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011514524A Expired - Fee Related JP5308519B2 (ja) 2008-06-24 2008-06-24 改善されたオーディオ符号化のマルチモード方式

Country Status (5)

Country Link
US (1) US8494864B2 (ja)
EP (1) EP2313885B1 (ja)
JP (1) JP5308519B2 (ja)
ES (1) ES2406422T3 (ja)
WO (1) WO2009157824A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101441897B1 (ko) * 2008-01-31 2014-09-23 삼성전자주식회사 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치
AU2014211586B2 (en) 2013-01-29 2017-02-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for coding mode switching compensation
EP3550562B1 (en) * 2013-02-22 2020-10-28 Telefonaktiebolaget LM Ericsson (publ) Methods and apparatuses for dtx hangover in audio coding
US9741349B2 (en) * 2014-03-14 2017-08-22 Telefonaktiebolaget L M Ericsson (Publ) Audio coding method and apparatus
CN105719660B (zh) * 2016-01-21 2019-08-20 宁波大学 一种基于量化特性的语音篡改定位检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
FR2852172A1 (fr) * 2003-03-04 2004-09-10 France Telecom Procede et dispositif de reconstruction spectrale d'un signal audio
CN101124626B (zh) * 2004-09-17 2011-07-06 皇家飞利浦电子股份有限公司 用于最小化感知失真的组合音频编码
CN101053018A (zh) * 2004-11-01 2007-10-10 皇家飞利浦电子股份有限公司 包括幅度包络的参数音频编码
WO2007043642A1 (ja) * 2005-10-14 2007-04-19 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置、スケーラブル復号装置、およびこれらの方法
US20070192086A1 (en) * 2006-02-13 2007-08-16 Linfeng Guo Perceptual quality based automatic parameter selection for data compression

Also Published As

Publication number Publication date
ES2406422T3 (es) 2013-06-06
EP2313885A1 (en) 2011-04-27
WO2009157824A1 (en) 2009-12-30
JP2011525636A (ja) 2011-09-22
EP2313885A4 (en) 2011-12-14
US8494864B2 (en) 2013-07-23
US20110153336A1 (en) 2011-06-23
EP2313885B1 (en) 2013-02-27

Similar Documents

Publication Publication Date Title
US11990147B2 (en) Adaptive transition frequency between noise fill and bandwidth extension
US10311884B2 (en) Advanced quantizer
JP6321072B2 (ja) オーディオ/音声符号化方法およびオーディオ/音声復号方法
US12027175B2 (en) Transform encoding/decoding of harmonic audio signals
US9728195B2 (en) Noise signal processing method, noise signal generation method, encoder, decoder, and encoding and decoding system
JP5308519B2 (ja) 改善されたオーディオ符号化のマルチモード方式
RU2505921C2 (ru) Способ и устройство кодирования и декодирования аудиосигналов (варианты)
EP2727105A1 (en) Transform audio codec and methods for encoding and decoding a time segment of an audio signal
CN101853664B (zh) 一种信号去噪的方法和装置及音频解码系统
EP2581904B1 (en) Audio (de)coding apparatus and method
KR101387808B1 (ko) 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치
EP2309493A1 (en) Coding and decoding of source signals using constrained relative entropy quantization
CN102074243A (zh) 一种基于比特平面的感知音频分级编码系统及方法
JP4796583B2 (ja) 量子化雑音を低減する方法
Madhukumar et al. A novel method for wavelet quantization of noisy speech

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130628

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5308519

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees