JP4782006B2 - 低ビットレートオーディオ符号化 - Google Patents

低ビットレートオーディオ符号化 Download PDF

Info

Publication number
JP4782006B2
JP4782006B2 JP2006520077A JP2006520077A JP4782006B2 JP 4782006 B2 JP4782006 B2 JP 4782006B2 JP 2006520077 A JP2006520077 A JP 2006520077A JP 2006520077 A JP2006520077 A JP 2006520077A JP 4782006 B2 JP4782006 B2 JP 4782006B2
Authority
JP
Japan
Prior art keywords
sine wave
frequency
value
phase
track
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006520077A
Other languages
English (en)
Other versions
JP2007519027A (ja
Inventor
イェー ヘリッツ アンドレアス
セー デン ブリンカー アルベルトゥス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2007519027A publication Critical patent/JP2007519027A/ja
Application granted granted Critical
Publication of JP4782006B2 publication Critical patent/JP4782006B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models

Description

本発明は特定のオーディオ信号のような放送信号の符号化及び復号化技術に関するものである。
放送信号、例えば音声のようなオーディオ信号を伝送する際、信号の帯域幅またはビットレートを低減するために圧縮技術または符号化技術が使用されている。
図1は、本発明に使用するWO01/69593に開示されている既知のパラメトリック符号化方式、特に正弦波エンコーダを示す。このエンコーダでは、入力オーディオ信号x(t)を代表的には各20msの持続時間の数個の(オーバラップすることもある)セグメント(時間区分)またはフレームに分割する。各セグメントをトランジェント(過渡)成分、正弦波成分及びノイズ成分に分解する。本発明の目的に関係ないが、ハーモニックコンプレクスのような入力オーディオ信号の他の成分を導出することもできる。
正弦波アナライザ130において、各セグメントの信号x2を振幅、周波数および位相で表される複数の正弦波を用いてモデル化する。通常この情報は、フーリエ変換を実行することによって分析時間インターバルごとに抽出され、フーリエ変換はインターバルのスペクトル表現を供給し、このスペクトル表現は周波数、各周波数の振幅および各周波数の位相を含み、各位相は「ラップ(wrapped)」、即ちレンジ{−π,π}に限定される。各セグメントの正弦波情報が推定されたら、トラッキングアルゴリズムを開始する。このアルゴリズムはコスト関数を用いて種々のセグメントの正弦波をセグメント単位に互いにリンクして所謂トラックを得る。従ってトラッキングアルゴリズムは、特定の瞬時に開始し複数の時間セグメントに亘る所定の持続時間に亘って展開し終了する正弦波トラックを具える正弦波符号を生ずる。
このような正弦波符号化においては、エンコーダで形成されたトラックの周波数情報を伝送するのが普通である。これは簡単に低コストで行うことができる。その理由は、これらのトラックはゆっくり変化する周波数を有するのみであるためである。従って、周波数情報は時間差分符号化(time differential encoding)により効率よく送信することができる。一般に、振幅も時間差分符号化することができる。
周波数と異なり、位相変化は時間とともに急速に変化する。周波数が一定の場合、位相は時間とともに線形変化し、周波数が変化すると線形コースから対応する位相偏差を生ずる。位相はトラックセグメントインデックスの関数としてほぼ線形の挙動を有する。従って、符号化された位相の伝送は複雑になる。しかし、伝送時に、フーリエ変換により与えられる位相はレンジ{−π,π}に制限され、即ち位相が「ラップ」される。位相のこのモジュロ2π表現のために、位相の構造上のフレーム間関係は失われ、一見するとランダム変数のように見える。
しかし、位相は周波数の積分であるため、位相は冗長であり、原理的には送信する必要はない。これは位相連続と言われ、ビットレートを大きく低減する。
位相連続では、ビットレートを節約するために各トラックの最初の正弦波のみを送信する。後続の各位相はトラックの初期位相および周波数から計算する。周波数は量子化され、必ずしも極めて精密に推定されないので、連続位相は測定位相からずれる。実験の結果、位相連続はオーディオ信号の品質を悪化することが判明した。
すべての正弦波の位相を送信することは受信側の復号信号の品質を増大するが、ビットレート/帯域幅の大きな増大を生ずる。このため、合同周波数/位相量子化器において、測定周波数及びリンク情報を用いて−πとπとの間の値を有する正弦波トラックの測定位相をアンラップし、トラックに沿って単調に増大するアンラップ位相を生じさせる。このエンコーダでは、アンラップ位相が適応差分パルス符号変調(ADPCM)量子化器で量子化され、デコーダに送信される。デコーダはアンラップ位相軌跡から正弦波トラックの周波数及び位相を導出する。
位相連続では、符号化された周波数のみが送信され、位相はデコーダにおいて周波数データから、位相と周波数の関係を利用して復元される。しかし、位相連続を使用するとき、位相は完全には復元できないことが知られている。周波数誤差が例えば周波数の測定誤差または量子化雑音によって生ずる場合には、積分により再構成される位相は代表的にはドリフト特性を有する誤差を示す。これは、周波数誤差がほぼランダム特性を有するためである。低周波数誤差が積分により増幅され、その結果として復元される位相は正確に測定された位相からドリフトしやすい。
このことが図2aに示されている。この図において、Ω及びΨはあるトラックの実周波数及び実位相である。エンコーダでもデコーダでも、周波数と位相は“I”で示す積分関係を有している。エンコーダにおける量子化処理は付加ノイズnとしてモデル化されている。従って、デコーダでは、復元位相
Figure 0004782006
は2つの成分:実位相Ψとノイズ成分ε2を含んでいる。ここで、復元位相のスペクトルとノイズε2の電力スペクトル密度関数は顕著な低周波数特性を有する。
従って、位相連続では、復元位相が低周波数信号の積分になるために、復元位相はそれ自身低周波数信号になる。しかし、再構成処理において導入されるノイズもこの低周波数レンジにおいて顕著になる。このため、符号化中に導入されるノイズnをフィルタリングすることによりこれらを分離することは困難である。
慣例の量子化方法では、周波数と位相を互いに独立に量子化する。一般に、均一スカラ量子化器が位相パラメータに適用される。知覚的理由のために、低周波数は高周波数より精密に量子化する必要がある。このため、周波数はERBまたはバーク関数(Bark function)を用いて不均一表現に変換された後に均一に量子化される。また、ハーモニックコンプレクッスでは、高次のハーモニック周波数が低い周波数より高い周波数変化を有する傾向があるという物理的根拠を見出すことができる。
周波数と位相を合同で量子化する場合には、周波数依存量子化精度はストレートフォワードにならない。均一量子化アプローチの使用は低品質の音声再構成を生ずる。更に、量子化精度を下げることができる高周波数に対して低ビットの量子化器を実現できるのみである。
本発明は、広帯域信号、特に音声信号のようなオーディオ信号を低ビットレートで符号化する方法を提供する。正弦波エンコーダでは、オーディオセグメントごとに複数の正弦波を推定する。正弦波は周波数、振幅及び位相で表す。通常、位相は周波数と独立に量子化される。本発明では位相の周波数依存量子化を用い、特に低周波数は高い周波数のときより小さい量子化間隔またはステップを用いて量子化する。こうして、低周波数のアンラップ位相を高い周波数の位相よりも精密に、できれば小さい量子化レンジで量子化する。本発明は特に低ビットレート量子化器に対して復号信号品質の著しい向上をもたらす。
本発明によれば、不均一周波数量子化をしながらも周波数と位相の合同量子化の使用が可能になる。その結果、全周波数において、特に低周波数においても良好な位相精度及び信号品質を維持しながら位相情報を低ビットレートで送信する利点が得られる。
この方法の利点は、位相誤差が高周波数のときより大きな時間誤差になる特に低周波数における位相精度の向上にある。この利点は重要であり、それは人間の耳は周波数と位相に感応するのみならず遷移のタイミングにも感応するためであり、本発明の方法は、特に位相値および周波数値の量子化に少数のビットを使用するのみでも音質の向上をもたらす。他方、もっと少数ビットを用いて所要の音質を得ることができる。低周波数はゆっくり変化するため、量子化レンジを更に制限することができ、更に精密な量子化を得ることができる。更に、より細かい量子化への適応化がより速くなる。
本発明は正弦波を使用するオーディオエンコーダに使用することができる。本発明はエンコーダにも、デコーダにも関する。
本発明の好適実施例を図面を参照して以下に説明する。図面において類似の参照番号を有する構成要素は特に明記しない限り類似の機能を行なうものである。本発明の好適実施例では、エンコーダ1はWO01/69593の図1に示されているタイプの正弦波エンコーダである。この従来のエンコーダ及びそのデコーダの動作はこれに十分に記載されており、本明細書には本発明に関連する説明のみを記載する。
従来の実施例でも本発明の好適実施例でも、オーディオエンコーダ1は入力オーディオ信号を所定のサンプリング周波数でサンプリングしてオーディオ信号のディジタル表現x(t)を生成する。エンコーダ1は次にサンプリングされた入力信号を3つの成分:トランジェント信号成分、持続決定論的成分及び持続確率論的成分:に分離する。オーディオエンコーダ1はトランジェントエンコーダ11、正弦波エンコーダ13及びノイズエンコーダ14を具える。
トランジェントエンコーダ11はトランジェントディテクタ(TD)110と、トランジェントアナライザ(TA)111と、トランジェントシンセサイザ(TS)112を具える。最初に、信号x(t)はトランジェントディテクタ110に入力する。ディテクタ110は、トランジェント信号成分がある場合にその位置を推定する。この情報はトランジスタアナライザ111に供給される。トランジェント信号成分の位置が決定される場合には、トランジェントアナライザ111はトランジェント信号成分(の主要部)を抽出することを試みる。トランジェントアナライザはシェイプ関数を好ましくは推定された開始位置で開始する信号セグメントに照合し、例えば複数(少数)の正弦波成分を用いてシェイプ関数の下にある内容を決定する。この情報はトランジェント符号Cに含められ、トランジスタ符号Cの生成についての詳細な情報はWO01/69593に記載されている。
トランジェント符号Cはトランジェントシンセサイザ112に供給される。合成されたトランジェント信号成分が減算器16において入力信号x(t)から減算され、信号x1を生成する。利得制御機構(GC)12を用いてx1からx2を生成する。
信号x2は正弦波エンコーダ13に供給され、ここで信号x2は(決定論的)正弦波成分を決定する正弦波アナライザ(SA)130により分析される。従って、トランジェントアナライザの存在は望ましいが、これは必ずしも必要なく、本発明はこのようなアナライザなしでも実現できる。また、上述したように、本発明は例えばハーモニックコンプレックスアナライザを用いて実現することもできる。要するに、正弦波エンコーダは入力信号x2を1つのフレームセグメントから次のフレームセグメントにリンクされる正弦波成分のトラックとして符号化する。
図3aにつき説明すると、従来と同様に、本発明の好適実施例では、入力信号x2の各セグメントをフーリエ変換(FT)ユニット40で周波数領域に変換する。各セグメントに対して、FTユニットは測定振幅A、位相φ及び周波数ωを出力する。先に述べたように、フーリエ変換により与えられる位相の範囲は−π≦φ<πに限定される。トラッキングアルゴリズム(TA)ユニット42は各セグメントに対する前記情報を取得し、適切なコスト関数を用いて正弦波を1つのセグメントから次のセグメントへリンクさせて各トラックに対する測定位相の系列φ(k)と周波数の系列ω(k)を生成する。
従来と異なり、アナライザ130により最終的に生成される正弦波符号Cは位相情報を含み、周波数はデコーダにてこの情報から再構成される。
しかし、上述したように、測定位相はラップされる。つまり、測定位相はモジュロ2π表現に制限される。このため、好適実施例では、アナライザ130は位相アンラップ(PU)ユニット44を具え、ここでモジュロ2π表現がアンラップされてトラックに対する構造的フレーム間位相挙動Ψを暴露する。正弦波トラック内の周波数はほぼ一定であるので、アンラップ位相Ψは一般にほぼ直線増大(または減少)関数であり、これは位相の安価な送信、即ち低ビットレートでの伝送を可能にする。アンラップ位相Ψは位相エンコーダ(PE)46への入力として供給され、このエンコーダが伝送に好適な量子化された表現レベルrを出力する。
位相アンラップユニット44の動作につき説明すると、上述したように、トッラクの瞬時位相Ψと瞬時周波数Ωは次式の関係にある。
Figure 0004782006
ここで、T0は基準瞬時である。
フレームk=K,K+1...K+L−1内の正弦波トラックは測定周波数ω(k)(ラジアン/秒で表される)と測定位相φ(k)(ラジアンで表される)を有する。フレームの中心間の距離はU(1秒当たりに更新レートで表される)で与えられる。測定周波数は仮定の連続時間周波数トラックΩのサンプル、即ちω(k)=Ω(kU)であるはずであり、同様に測定位相は関連する連続時間位相トラックΨのサンプル、即ちφ(k)=Ψ(kU)であるはずである。正弦波符号化に対してΩはほぼ一定関数である。
周波数はセグメント内でほぼ一定であるものと仮定すると、式1は次のように近似することができる。
Figure 0004782006
従って、所与のセグメントに対する位相及び周波数と次のセグメントの周波数を知っていれば、次のセグメントに対するアンラップ位相を推定することができ、トラックの各セグメントについても同様である。
好適実施例では、位相アンラップユニットは瞬時kにおけるアンラップ係数m(k)を決定する。
Ψ(kU)=φ(k)+m(k)2π (3)
アンラップ係数m(k)はアンラップ位相を得るために加える必要があるサイクル数を位相アンラップユニット44に教える。
式2及び3を組み合わせて、位相アンラップユニットは次のようにインクリメントアンラップ係数e(k)を決定する。
2πe(k)=2π{m(k)−m(k-1)}={ω(k)+ω(k-1)}U/2−{φ(k)−φ(k-1)}
ここで、eは整数である。しかし、測定誤差及びモデル誤差のために、インクリメントアンラップ係数は正確に整数にならいので、モデル誤差及び測定誤差が小さいものと仮定して、
e(k)=round([{ω(k)+ω(k-1)}U/2−{φ(k)−φ(k-1)}]/2π)
とする。
インクリメントアンラップ係数eを得たら、式3からm(k)を累積和として計算する。この場合、一般性を失うことなく、位相アンラップユニットは第1フレームKにおいてm(K)=0で計算を開始し、(アンラップ)位相Ψ(kU)をm(k)及びφ(k)から決定する。
実際には、サンプルデータΨ(kU)及びΩ(kU)は測定誤差により歪んでおり、
φ(k)=Ψ(kU)+ε(k)
ω(k)=Ω(kU)+ε(k)
になる。ここで、ε及びεは位相及び周波数誤差である。アンラップ係数の決定が不明確にならないように、測定データは十分な精度で決定する必要がある。従って、好適実施例では、トラッキングを、
δ(k)=e(k)−[{ω(k)+ω(k-1)}U/2−{φ(k)−φ(k-1)}]/2π<δ
となるように制限する。ここでδは丸め処理の誤差である。誤差δは主としてUとの乗算に起因するωの誤差により決まる。ωはサンプリング周波数Fでサンプリングされた入力信号からのフーリエ変換の絶対値の最大値から決定され且つフーリエ変換の解像度が2π/L(Lは分析サイズ)であるものと仮定する。考慮範囲内にするために、
/U=δ
とする。
これは、分析サイズはアンラップ処理を精密にするためには更新サイズより数倍大きくする必要があることを意味し、例えばδ=1/4を設定するものとすると、分析サイズは更新サイズの4倍にする必要がある(位相測定の誤差εは無視する)。
丸め処理における決定後差を避けるために取る第2の予防措置はトラックを適正に定義することにある。トラッキングユニット42において、正弦波トラックは一般に振幅差と周波数差を考慮して決定される。加えて、リンク基準に位相情報も考慮することができる。例えば、位相予測誤差εは、測定値と予測値
Figure 0004782006
との差として次式で定義できる。
Figure 0004782006
ここで、予測値は次式で表せる。
Figure 0004782006
従って、トラッキングユニット42はεが所定値より大きい場合(例えばε>π/2)にはトラックを禁止し、e(k)の明確な定義を生ずる。
更に、エンコーダは、デコーダで行なわれるように位相及び周波数を計算することができる。デコーダで得られる位相又は周波数がエンコーダに存在する位相及び/又は周波数から大きく相違する場合には、トラックの中断を決定し、即ちトラックの終了を信号し、現在周波数及び位相とそれらのリンクされた正弦波データを用いて新しいトラックを開始させることができる。
位相アンラップ(PU)ユニットにより生成されたサンプルアンラップ位相Ψ(kU)が位相エンコーダ(PE)46に入力され、一組の表現レベルrを生成する。アンラップ位相のようなほぼ単調に変化する特性の効率的な伝送技術は既知である。好適実施例(図3b)では、適応差分パルス符号変調(ADPCM)を使用する。本例では、予測器(PF)48を用いて次のトラックセグメントの位相を推定し、差分のみを量子化器(G)50で符号化する。Ψはほぼ一次関数であるものと予想されるため及び簡単のために、予測器48は次式の二次フィルタとして選択する。
y(k+1)=2x(k)−x(k-1)
ここで、xは入力、yは出力である。しかし、他の機能的関係(高次の関係を含む)を使用し、フィルタ係数の(後方向または前方向)適応を含むものとすることもできる。好適実施例では、簡単のために後方向適応制御機構(QC)52を用いて量子化器50を制御している。前方向適応制御も可能であるが追加のビットレートオーバヘッドを必要とする。
図に示すように、トラックに対するエンコーダ(及びデコーダ)の初期化は開始位相φ(0)及び周波数ω(0)のナレッジから開始する。これらのデータは別の機構で量子化され伝送される。更に、エンコーダの量子化コントローラ52及びデコーダの対応するコントローラ62(図5b)で使用される初期量子化値は伝送されるか、エンコーダ及びデコーダにおいて所定値にセットされる。最後に、トラックの終わりは別のサイドストリームで信号するか、位相のビットストリーム内のユニークシンボルとして信号することができる。
アンラップ位相の開始周波数はエンコーダとデコーダの双方に既知である。この周波数に基づいて、量子化精度を選択する。高い周波数で開始するアンラップ位相軌跡の場合よりも低い周波数で開始するアンラップ位相軌跡の場合に対して精密な量子化格子、即ち高分解能を選択する。
ADPCM量子化器では、アンラップ位相Ψ(k)(ここでkはトラックの番号を表す)をトラック内の先行位相から予測/推定する。次に、予測位相
Figure 0004782006
とアンラップ位相Ψ(k)との差を量子化し、伝送する。量子化器はトラック内のすべてのアンラップ位相に対して適応化される。予測誤差が小さいときは、量子化器は可能値のレンジを制限し、量子化をより精密にすることができる。他方、予測誤差が大きいときは、量子化器は粗い量子化を使用する。
量子化器(図3b)は、
Figure 0004782006
で計算される予測誤差Δを量子化する。
予測誤差Δはルックアップテーブルを用いて量子化することができる。この目的のために、テーブルQが保持される。例えば、2ビットADPCM量子化器に対しては、Qの初期テーブルは表1に示すテーブルにすることができる。
Figure 0004782006
量子化は次のように行なう。予測誤差Δを限界値bと、次の式:
bl<Δ≦bu
を満足するように比較する。
上記の関係を満足するiの値から、r=iにより表現レベルrを計算する。
関連する表現レベルは表現テーブルRに記憶され、このテーブルを表2に示す。
Figure 0004782006
トラック内の次の正弦波成分の量子化のために表Q及びRのエントリにファクタcを乗算する。
Q(k+1)=Q(k)・c
R(k+1)=R(k)・c
トラックのデコーディング中に、両テーブルは発生された表現レベルrに従ってスケーリングされる。現サブフレームにおけるrが1または2(内部レベル)の場合には、量子化テーブルのスケールファクタcは
c=2-1/4
にセットされる。
c<1であるため、トラック内の正弦波の周波数及び位相は一層精密になる。
rが0または3(外部レベル)の場合には、スケールファクタcは
c=21/2
にセットされる。
c>1であるため、トラック内の次の正弦波に対する量子化精度は減少する。これらのファクタを使用すると、1つのアップスケーリングを2つのダウンスケーリングにより実行しないですむ。アップスケールファクタとダウンスケールファクタの差はアップスケーリングの高速オンセットを生じるのに対し、対応するダウンスケーリングは2ステップを必要とする。
量子化テーブル内の極めて小さいまたは極めて大きいエントリを避けるために、適応化は内部レベルの絶対値がπ/64と3π/4との間にある場合にのみ行なう。この場合には、cは1にセットされる。
デコーダには、受信表現レベルrを量子化された予測誤差に変換するためにテーブルRのみを保持する必要がある。この逆量子化処理は図5bのブロックDQで行なわれる。
上述のセッティングを使用する場合、再構成される音声の品質は改善を必要とする。本発明では、開始周波数に依存して、アンラップ位相トラックのための異なる初期テーブルを使用する。これは次のように行なう。初期テーブルQ及びRをトラックの最初の周波数に基づいてスケーリングする。表3に、スケールファクタが周波数レンジと一緒に示されている。トラックの最初の周波数が所定の周波数レンジにある場合に、適切なスケールファクタが選択され、このスケールファクタでテーブルR及びQが除算される。終点もトラックの最初の周波数に依存させることができる。デコーダでは、対応するプロシージャを実行して正しい初期テーブルで開始する。
Figure 0004782006
表3は2ビットADPCM量子化器のための周波数依存スケールファクタ及び対応する初期テーブルQ及びRの一例を示す。0〜11050Hzのオーディオ周波数レンジは4つの周波数サブレンジに分割されている。この表から、高い周波数レンジより低い周波数レンジに対して位相精度が高められている。
周波数サブレンジの数及び周波数依存スケールファクタは変えることができ、それぞれの目的及び要件に合うように選択することができる。上述したように、表3の周波数依存初期テーブルQ及びRは1つの時間セグメントから次の時間セグメントへの位相の展開に適応するように動的にアップスケール及びダウンスケールすることができる。
例えば3ビットADPCM量子化器においては、3ビットで決定される8つの量子化インターバルの初期限界値は次のように定めることができる。
Q={-∞ -1.41 -0.707 -0.35 0 0.35 0.707 1.41 ∞}及び最小格子サイズπ/64と最大格子サイズπ/2を有するものとすることができる。同様に、表現テーブルRは、
R={-2.117, -1.0585, -0.5285, -0.1750, 0.1750, 0.5285, 1.5085, 2.117}
にすることができる。この場合にも表3に示すものと同様の周波数依存初期テーブルQ及びRを使用することができる。
正弦波エンコーダで発生される正弦波符号Cから正弦波信号成分が正弦波シンセサイザ(SS)131によって再構成され、この再構成はデコーダの正弦波シンセサイザ(SS)32につき説明するのと同様に行なわれる。この正弦波信号成分が減算器17に置いて入力x2から減算されて残差信号x3を生じる。正弦波エンコーダ13により生成されたこの残差信号x3は好適実施例のノイズアナライザ14に供給され、このノイズアナライザは、例えば国際特許出願PCT/EP00/04599に記載されているように、このノイズを表すノイズ符号Cを生成する。
最後に、マルチプレクサ15において、符号C,C及びCを含むオーディオストリームASが構成される。オーディオストリームASは、例えばデータバス、アンテナシステム、蓄積媒体などに出力される。
図4は、データバス、アンテナシステム、蓄積媒体などから得られる、例えば図1のエンコーダにより生成されたオーディオストリームAS’を復号するのに好適なオーディオプレーヤを示す。オーディオストリームAS’はデマルチプレクサ30でデマルチプレクスされて符号C,C及びCを得る。これらの符号はトランジェントシンセサイザ31、正弦波シンセサイザ32及びノイズシンセサイザ33にそれぞれ供給される。トランジェントシンセサイザ31において、トランジェント符号Cからトランジェント信号成分が計算される。トランジェント符号がシェイプ関数を示す場合には、そのシェイプが受信パラメータに基づいて計算される。更に、シェイプコンテントが正弦波成分の周波数及び振幅に基づいて計算される。トランジェント符号Cがステップを示す場合には、トランジェントは計算されない。全トランジェント信号yはすべてのトランジェントの和である。
アナライザ130により符号化された情報を含む正弦波符号Cは正弦波シンセサイザ32で使用されて信号yを生成する。図5a及び5bに付き説明すると、正弦波シンセサイザ32は位相エンコーダ46とコンパチブルな位相デコーダ(PD)56を具える。位相デコーダでは、逆量子化器(DQ)60が二次予測フィルタ(PF)64と共同して、表現レベルrと予測フィルタ(PF)64に供給される初期情報
Figure 0004782006
と量子化コントローラ(QC)62に対する初期量子化ステップから、アンラップ位相
Figure 0004782006
(の推定)を生成する。
図2bに示すように、周波数はアンラップ位相
Figure 0004782006
から微分により復元することができる。デコーダにおける位相誤差が近似的に白色雑音であるものと仮定すると、微分は高周波数を増幅するため、微分は低域フィルタと組み合わせて雑音を低減することによってデコーダにおいて周波数の精密な推定を得ることができる。
好適実施例では、フィルタリングユニット(FR)58はアンラップ位相から周波数
Figure 0004782006
を得るのに必要な微分を前方向差分、後方向差分または中央差分として近似する。これによりデコーダは出力として、符号化された信号の正弦波成分を合成するのに慣例の方法で使用し得る位相
Figure 0004782006
及び周波数
Figure 0004782006
を生成する。
同時に、信号の正弦波成分の合成中に、ノイズ符号CがイズシンセサイザNS33に供給される。このシンセサイザは主としてノイズのスペクトルを近似する周波数応答を有するフィルタである。NS33はノイズ符号Cを有する白色雑音をフィルタリングすることにより再構成されたノイズyを生成する。全信号y(t)はトランジェント信号yと、正弦波信号yとノイズ信号yNの和と振幅復元値(g)との積との和を具える。オーディオプレーヤはそれぞれの信号を加算するために2つの加算器36及び37を具える。全信号は例えばスピーカである出力装置35に供給される。
図6は本発明によるオーディオシステムを示し、本システムは図1に示すオーディオエンコーダ1と図4に示すオーディオプレーヤ3を具える。このシステムは再生及び記録機能を提供する。オーディオストリームASはオーディオエンコーダから、無線接続、データバスまたは蓄積媒体を可とする通信チャネル2を経て、オーディオプレーヤに供給される。通信チャネル2が蓄積媒体の場合には、蓄積媒体はシステム内に固定のものとすることができ、またリムーバブルディスク、メモリスティックなどにすることもできる。通信チャネル2はオーディオシステムの一部とすることができるが、多くの場合はオーディオシステム外にある。
複数の連続するセグメントからの符号化データを連結する。これは次のように行なわれる。各セグメント毎に複数の正弦波が決定される(例えばFFTを用いる)。正弦波は周波数、振幅及び位相からなる。正弦波の数はセグメント毎に変化する。1つのセグメントについて正弦波が決定されたら、分析を行なって前セグメントからの正弦波に接続する。これは「リンキング」または「トラッキング」と言われている。分析は現セグメントの正弦波と前セグメントからのすべての正弦波との差に基づいて行なわれる。リンク/トラックは最小の差を有する前セグメントの正弦波と行なわれる。最小の差が所定のしきい値より大きい場合には、前セグメントの正弦波への接続は行なわれない。こうして、新しい正弦波が生成され、または、「生まれる」。
正弦波間の差は正弦波の周波数、振幅及び位相を使用するコスト関数を用いて決定される。この分析は各セグメント毎に行なわれる。その結果はオーディオ信号に対しては多数のトラックになる。1つのトラックは出生正弦波を有し、これは前セグメントからの正弦波との接続を持たない正弦波である。出生正弦波は非差分符号化する。前セグメントからの正弦波に接続される正弦波は連続と言い、前セグメントからの正弦波に対して差分符号化する。これは絶対値ではなく差分のみを符号化するので、多数のビットが節約される。
f(n-1)が前セグメントからの正弦波の周波数であり、f(n)が現セグメントからの接続された正弦波の周波数である場合、f(n)−f(n-1)がデコーダに伝送される。nはトラックの番号を表し、n=1は出生正弦波であり、n=2は第1の連続正弦波である。同じことが振幅についても真である。初期正弦波(出生正弦波)の位相値は伝送するのに対して、連続正弦波に対しては位相を伝送しないが、位相は周波数から取り出すことができる。トラックが次のセグメントで連続しない場合には、このトラックは終了または「死亡」する。
図1は本発明を実施することができる従来のオーディオエンコーダを示す。 図2aは従来のシステムの位相と周波数との関係を示す図であり、 図2bは本発明のオーディオシステムの位相と周波数の関係を示す図である。 図3a及び3bは図1のオーディオエンコーダの正弦波エンコーダの好適実施例を示す図である。 本発明の実施例を実現したオーディオプレーヤを示す図である。 図5a及び5bは図4のオーディオプレーヤの従来の正弦波シンセサイザの好適実施例を示す図である。 図6は本発明のオーディオエンコーダとオーディオプレーヤを具えるシステムを示す図である。

Claims (19)

  1. 複数の順次のセグメントの各セグメントにつき1組のサンプル信号値を生成するステップと、
    サンプル信号値を分析して前記複数の順次のセグメントの各セグメントにつき1以上の正弦波成分を決定し、各正弦波成分が周波数値及び位相値を含むステップと、
    複数の順次セグメントに亘って正弦波成分をリンクさせて正弦波トラックを供給するステップと、
    前記複数の順次のセグメントの各セグメントの各正弦波トラック毎に、少なくとも1つの前セグメントに対するアンラップ位相値の関数として予測アンラップ位相値を決定するステップと、
    各正弦波トラック毎に、アンラップ測定位相値を決定するステップと、
    前記複数のセグメントの各セグメントに対して、アンラップ位相値を表す正弦波符号を生成し、該正弦波符号は前記アンラップ予測位相値と前記アンラップ測定位相値の関数として、それぞれの正弦波トラックの少なくとも1つの周波数値に依存して量子化される、ステップと、
    各正弦波トラックについての基準周波数前記複数のセグメントのアンラップ位相値及びリンク情報を表す正弦波符号を含む符号化信号を出力するステップと、
    を具えることを特徴とする信号符号化方法。
  2. 第1の周波数値を有する第1の正弦波成分を含む第1の正弦波トラックにおいては、正弦波符号は第1の量子化精度を用いて量子化し、第1の周波数値より高い第2の周波数値を有する第2の正弦波成分を含む第2の正弦波トラックにおいては、正弦波符号は第1の量子化精度以下の第2の量子化精度を用いて量子化することを特徴とする請求項1記載の方法。
  3. 1トラックに対する正弦波符号は初期位相値と初期周波数値を含み、前記予測ステップは初期周波数と初期位相値を用いて第1の予測値を出力することを特徴とする請求項1記載の方法。
  4. リンクされる各セグメントの予測アンラップ位相値は、前セグメントの周波数および該リンクされるセグメントの周波数の積分値と前セグメントのアンラップ位相との関数として決定されることを特徴とする請求項1記載の方法。
  5. 前記正弦波符号の量子化ステップは、
    各予測アンラップ位相値と、対応するアンラップ測定位相値との間の位相差を決定するステップを含むことを特徴とする請求項1記載の方法。
  6. 前記出力ステップは、前記量子化ステップを量子化された正弦波符号の関数として制御するステップを含むことを特徴とする請求項4記載の方法。
  7. 前記正弦波符号はトラックの終了インジケータを含むことを特徴とする請求項6記載の方法。
  8. 前記正弦波符号を用いて前記正弦波成分を合成するステップと、
    前記合成された信号値を前記サンプル信号値から減算してオーディオ信号の残差成分を表す値の系列を生成するステップと、
    前記残差成分を近似するパラメータを決定することにより前記オーディオ信号の残差成分をモデル化するステップと、
    前記パラメータをオーディオストリームに含めるステップと、
    を更に含むことを特徴とする請求項1記載の方法。
  9. 前記サンプル信号値はトランジェント成分が除去されたオーディオ信号を表すことを特徴とする請求項1記載の方法。
  10. 正弦波トラックについての基準周波数、前記正弦波トラックの諸セグメントについてのアンラップ位相値及びリンク情報を表す正弦波符号を含むオーディオストリームを復号する方法であって、
    前記オーディオストリームを受信するステップと、
    前記アンラップ位相値を表す前記正弦波符号を逆量子化するステップであって、前記正弦波符号各正弦波トラックの少なくとも1つの周波数値に依存して逆量子化される、ステップと、
    逆量子化された正弦波符号に応じて前記複数のセグメントについてのアンラップ逆量子化位相値を生成するステップと、
    逆量子化されたアンラップ位相値から周波数値を計算するステップと、
    前記アンラップ逆量子化位相値及び前記周波数値を用いて前記正弦波トラックの正弦波成分を合成するステップと、
    を具えることを特徴とする復号方法。
  11. 第1の周波数値を有する第1の正弦波成分を含む第1の正弦波トラックにおいては、正弦波符号は第1の量子化精度を用いて逆量子化し、第1の周波数値より高い第2の周波数値を有する第2の正弦波成分を含む第2の正弦波トラックにおいては、正弦波符号は第1の量子化精度以下の第2の量子化精度を用いて逆量子化することを特徴とする請求項10記載の方法。
  12. リンクされる各セグメントの予測アンラップ位相値は、前セグメントの周波数および該リンクされるセグメントの周波数の積分値と前セグメントのアンラップ位相の関数として決定されることを特徴とする請求項10記載の方法。
  13. 前記量子化精度は量子化された正弦波符号の関数として制御されることを特徴とする請求項12記載の方法。
  14. 複数の順次のセグメントの各セグメントにつき1組のサンプル信号値を処理するように構成され、
    サンプル信号値を分析して前記複数の順次のセグメントの各セグメントにつき周波数値及び位相値を含む1以上の正弦波成分を決定するアナライザと、
    複数の順次セグメントに亘って正弦波成分をリンクして正弦波トラックを供給するリンク装置と、
    前記複数の順次のセグメントの各セグメントの各正弦波トラック毎に、少なくとも1つの前セグメントに対するアンラップ位相値の関数として予測アンラップ位相値を決定するとともに、各正弦波トラック毎に、アンラップ測定位相値を決定する位相アンラップ装置と、
    前記複数のセグメントの各セグメントに対して、前記予測アンラップ位相値と前記アンラップ測定位相値に応じて、アンラップ位相値を表す正弦波符号を生成する手段と、
    正弦波符号を、前記アンラップ予測位相値と前記アンラップ測定位相値の関数として、各正弦波トラックの少なくとも1つの周波数値に依存して量子化する量子化器と、
    各正弦波トラックについての基準周波数及び前記複数のセグメントのアンラップ位相を表す正弦波符合を含む符号化信号を出力する手段と、
    を具えることを特徴とするオーディオエンコーダ。
  15. 前記量子化器は、第1の周波数値を有する第1の正弦波成分を含む第1の正弦波トラックにおいては、正弦波符号は第1の量子化精度を用いて量子化し、第1の周波数値より高い第2の周波数値を有する第2の正弦波成分を含む第2の正弦波トラックにおいては、正弦波符号は第1の量子化精度以下の第2の量子化精度を用いて量子化するよう構成されていることを特徴とする請求項14記載のエンコーダ。
  16. 請求項14記載のオーディオエンコーダを具えることを特徴とするオーディオプレーヤ。
  17. 請求項14に記載のオーディオエンコーダを具えるオーディオシステム。
  18. コンピュータに請求項1ないし9のうちいずれか一項記載の方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  19. コンピュータに請求項10ないし13のうちいずれか一項記載の方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2006520077A 2003-07-18 2004-07-08 低ビットレートオーディオ符号化 Expired - Fee Related JP4782006B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP03102225.4 2003-07-18
EP03102225 2003-07-18
PCT/IB2004/051172 WO2005008628A1 (en) 2003-07-18 2004-07-08 Low bit-rate audio encoding

Publications (2)

Publication Number Publication Date
JP2007519027A JP2007519027A (ja) 2007-07-12
JP4782006B2 true JP4782006B2 (ja) 2011-09-28

Family

ID=34072659

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006520077A Expired - Fee Related JP4782006B2 (ja) 2003-07-18 2004-07-08 低ビットレートオーディオ符号化

Country Status (11)

Country Link
US (1) US7640156B2 (ja)
EP (1) EP1649453B1 (ja)
JP (1) JP4782006B2 (ja)
KR (1) KR101058064B1 (ja)
CN (1) CN1826634B (ja)
AT (1) ATE425533T1 (ja)
BR (1) BRPI0412717A (ja)
DE (1) DE602004019928D1 (ja)
ES (1) ES2322264T3 (ja)
RU (1) RU2368018C2 (ja)
WO (1) WO2005008628A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
KR101315075B1 (ko) 2005-02-10 2013-10-08 코닌클리케 필립스 일렉트로닉스 엔.브이. 사운드 합성
DE102006022346B4 (de) 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
KR20080073925A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치
KR101149448B1 (ko) * 2007-02-12 2012-05-25 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
KR101317269B1 (ko) * 2007-06-07 2013-10-14 삼성전자주식회사 정현파 오디오 코딩 방법 및 장치, 그리고 정현파 오디오디코딩 방법 및 장치
KR20090008611A (ko) * 2007-07-18 2009-01-22 삼성전자주식회사 오디오 신호의 인코딩 방법 및 장치
KR101410229B1 (ko) 2007-08-20 2014-06-23 삼성전자주식회사 오디오 신호의 연속 정현파 신호 정보를 인코딩하는 방법및 장치와 디코딩 방법 및 장치
KR101425355B1 (ko) * 2007-09-05 2014-08-06 삼성전자주식회사 파라메트릭 오디오 부호화 및 복호화 장치와 그 방법
CA2704812C (en) 2007-11-06 2016-05-17 Nokia Corporation An encoder for encoding an audio signal
KR101325760B1 (ko) * 2009-12-17 2013-11-08 한국전자통신연구원 오디오/음성 신호 처리 장치의 복부호화 장치 및 방법
EP3648104B1 (en) 2013-01-08 2021-05-19 Dolby International AB Model based prediction in a critically sampled filterbank
KR20160087827A (ko) * 2013-11-22 2016-07-22 퀄컴 인코포레이티드 고대역 코딩에서의 선택적 위상 보상
PL232466B1 (pl) 2015-01-19 2019-06-28 Zylia Spolka Z Ograniczona Odpowiedzialnoscia Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio
WO2017064264A1 (en) 2015-10-15 2017-04-20 Huawei Technologies Co., Ltd. Method and appratus for sinusoidal encoding and decoding
EP3483886A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
US10847172B2 (en) 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001069593A1 (en) * 2000-03-15 2001-09-20 Koninklijke Philips Electronics N.V. Laguerre fonction for audio coding
US6577995B1 (en) * 2000-05-16 2003-06-10 Samsung Electronics Co., Ltd. Apparatus for quantizing phase of speech signal using perceptual weighting function and method therefor

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
JPH11224099A (ja) * 1998-02-06 1999-08-17 Sony Corp 位相量子化装置及び方法
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
EP1088304A1 (en) * 1999-04-05 2001-04-04 Hughes Electronics Corporation A frequency domain interpolative speech codec system
DE60113034T2 (de) * 2000-06-20 2006-06-14 Koninkl Philips Electronics Nv Sinusoidale kodierung
KR100849375B1 (ko) * 2001-01-16 2008-07-31 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 또는 스피치 신호의 파라메트릭 코딩
KR20020084199A (ko) * 2001-01-16 2002-11-04 코닌클리케 필립스 일렉트로닉스 엔.브이. 파라메트릭 엔코딩에서 신호 성분들의 링킹
PL365018A1 (en) * 2001-04-18 2004-12-27 Koninklijke Philips Electronics N.V. Audio coding
JP4359499B2 (ja) * 2001-06-08 2009-11-04 アイピージー エレクトロニクス 503 リミテッド オーディオ信号の編集
DE60311891T2 (de) * 2003-05-27 2008-02-07 Koninklijke Philips Electronics N.V. Audiocodierung

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001069593A1 (en) * 2000-03-15 2001-09-20 Koninklijke Philips Electronics N.V. Laguerre fonction for audio coding
US6577995B1 (en) * 2000-05-16 2003-06-10 Samsung Electronics Co., Ltd. Apparatus for quantizing phase of speech signal using perceptual weighting function and method therefor

Also Published As

Publication number Publication date
US7640156B2 (en) 2009-12-29
EP1649453B1 (en) 2009-03-11
RU2368018C2 (ru) 2009-09-20
CN1826634A (zh) 2006-08-30
RU2006105017A (ru) 2006-06-27
WO2005008628A1 (en) 2005-01-27
DE602004019928D1 (de) 2009-04-23
KR101058064B1 (ko) 2011-08-22
ATE425533T1 (de) 2009-03-15
KR20060037375A (ko) 2006-05-03
US20070112560A1 (en) 2007-05-17
CN1826634B (zh) 2010-12-01
JP2007519027A (ja) 2007-07-12
EP1649453A1 (en) 2006-04-26
BRPI0412717A (pt) 2006-09-26
ES2322264T3 (es) 2009-06-18

Similar Documents

Publication Publication Date Title
JP4782006B2 (ja) 低ビットレートオーディオ符号化
US10096323B2 (en) Frame error concealment method and apparatus and decoding method and apparatus using the same
KR101868926B1 (ko) 노이즈 신호 처리 및 생성 방법, 인코더/디코더 및 인코딩/디코딩 시스템
JP2011203752A (ja) オーディオ符号化方法及び装置
JP2011150357A (ja) スーパーフレーム構造のlpcハーモニックボコーダ
US7596490B2 (en) Low bit-rate audio encoding
EP1568012B1 (en) Audio decoding
US20060009967A1 (en) Sinusoidal audio coding with phase updates
JP3437421B2 (ja) 楽音符号化装置及び楽音符号化方法並びに楽音符号化プログラムを記録した記録媒体
KR20210130743A (ko) 위상 ecu f0 보간 분할을 위한 방법 및 관련 제어기
JP2003228397A (ja) インテンシティステレオ符号化のための位相検出方法および装置
KR20070019650A (ko) 오디오 인코딩

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070705

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070705

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20080902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101109

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110202

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110607

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110706

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140715

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4782006

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees