JP4649208B2 - オーディオコーディング - Google Patents

オーディオコーディング Download PDF

Info

Publication number
JP4649208B2
JP4649208B2 JP2004521016A JP2004521016A JP4649208B2 JP 4649208 B2 JP4649208 B2 JP 4649208B2 JP 2004521016 A JP2004521016 A JP 2004521016A JP 2004521016 A JP2004521016 A JP 2004521016A JP 4649208 B2 JP4649208 B2 JP 4649208B2
Authority
JP
Japan
Prior art keywords
time
frame
lsf
signal
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004521016A
Other languages
English (en)
Other versions
JP2005533272A (ja
Inventor
ヘー ペー スハイエルス,エリク
イェー レインベルフ,アドリアーン
トパロヴィッチ,ナタサ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2005533272A publication Critical patent/JP2005533272A/ja
Application granted granted Critical
Publication of JP4649208B2 publication Critical patent/JP4649208B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、オーディオ信号の少なくとも一部の符号化に関する。
オーディオコーディングの技術分野において、線形予測符号化(LPC)は、スペクトルコンテントを表すものとして周知である。また、線形予測符号化については、効率的な量子化方法が多数提案されている。例えば、ログエリア比(非特許文献1参照)、反射係数(非特許文献2参照)があり、また、ラインスペクトルペアまたはラインスペクトル周波数(非特許文献3、4、5参照)等のラインスペクトル表示がある。
フィルター係数をどのようにラインスペクトル表示に変換するかについては、ここでは詳説しない(非特許文献6、7、8、9、10参照)が、結果だけを記せば、M次の全極(all-pole)LPCフィルターH(z)をM個の周波数に変換する。この周波数はラインスペクトル周波数(LSF)と呼ぶことが多い。この周波数により、フィルターH(z)がユニークに表される。図1に例が示してある。ここで、説明を明瞭にするため、図1においては、ラインスペクトル周波数をフィルターの振幅応答に向かう線として描いたことに注意されたい。ラインスペクトル周波数は周波数であって、振幅についての情報は何も含んでいない。
R. ViswanathanおよびJ. Makhoul、「線形予測システムにおける送信パラメータの量子化特性Quantization properties of transmission parameters in linear predictive system」、IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-23, pp. 309-321, 1975年6月 A.H. Gray, Jr.およびJ.D. Markel、「スピーチ処理における量子化およびビットアロケーションQuantization and bit allocation in speech processing」、IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-24, pp. 459-473、1976年12月 F.K. SoongおよびB.H. Juang、「ラインスペクトルペア(LSP)およびスピーチデータ圧縮Line spectrum Pair (LSP) and Speech Data Compression」、Proc. ICASSP-84, Vol. 1, pp. 1.10.1-4、1984年 K.K. Paliwal、「24ビット/フレームにおけるLPCパラメータの効率的ベクトル量子化Efficient Venctor Quantization of LPC Parameters at 24 Bits/Frame」、IEEE Trans. On Speech and Audio Processing, Vol. 1, pp. 3-14、1993年1月 F.K. SoongおよびB.H. Juang、「LSPパラメータの最適量子化Optimal Quantization of LSPParameters」、IEEE Trans. On Speech and Audio Processing, Vol. 1, pp. 15-24、1993年1月 F. Itakura、「スピーチ信号の線形予測係数のラインスペクトル表示Line Spectrum Representation of Linear Predictive Coefficients of Speech Signals」、J. Acoust. Soc. Am., 57, 535(A)、1975年 N. SagumuraおよびF. Itakura、「LSPスピーチ分析・合成方法によるスピーチデータ圧縮Speech Data Compression by LSP Speech Analysis-Synthesis Technique」、Trans. IECE ‘81/8, Vol. J64-A, No. 8, pp. 599.606 P. KabalおよびR.P. Ramachandran、「チェビシェフ多項式を用いたラインスペクトル周波数の計算Computation of line spectral frequencies using chebyshev polynomials」、IEEE Trans. on ASSP, vol. 34, no. 6, pp. 1419-1426、1986年12月 J. Rothweiler、「ラインスペクトル周波数のための解法アルゴリズムA rootfinding algorithm for line spectral frequencies」、ICASSP-99 Engin ErzinおよびA. Enis Cetin、「ラインスペクトル周波数のフレーム間差分ベクトル符号化Interframe Differential Vector Coding of Line Spectrum Frequencies」、Proc. Of the Int. Conf. on Acoustic, Speech and Signal Processing 1993 (ICASSP ’93), Vol. II, pp. 25-28、1993年4月27日
本発明の目的は、オーディオ信号の少なくとも一部を符号化する有利な方法を提供することである。このために、本発明は、符号化方法、エンコーダ、符号化されたオーディオ信号、記憶媒体、復号方法、デコーダ、トランスミッタ、レシーバ、およびシステムを提供する。独立クレームに明記したとおりである。従属クレームとして有利な実施形態を記載した。
本発明の第1の態様によると、符号化信号を得るためにオーディオ信号の少なくとも一部を符号化する。符号化は、予測係数を得るためにオーディオ信号の少なくとも一部を予測符号化するステップを有する。この予測係数は、オーディオ信号の少なくとも一部の時間特性(例えば時間エンベロープ)を表す。また、符号化は、予測係数を一組の時間に変換するステップと、その一組の時間を符号化信号に含めるステップとを有する。振幅に関する情報を何ら有さない時間だけで、十分に予測係数を表すことができることに注意されたい。
信号またはその成分の時間的形状を直接符号化して、一組の振幅やゲイン値とすることもできる。しかし、本願発明者の洞察によると、質のより良いオーディオ符号化をするためには、時間的特性(例えば時間的エンベロープ)を表す予測係数を予測符号化により取得し、この予測係数を一組の時間に変換すればよい。質のより良いオーディオ符号化をすることができる理由は、時間軸が固定された方法と比較して、時間の分解能を(必要に応じて)局所的に高くすることができるからである。予測符号化を実施するのに、LPCフィルターの振幅応答を用いて時間的エンベロープを表してもよい。
さらに、本願発明者の洞察によると、特に時間領域におけるラインスペクトル表示の派生物または等価物を用いることにより、時間的エンベロープを表す予測係数の符号化が有利になる。その理由は、この方法においては、時間または時間インスタンスがはっきりしており、さらに符号化することができるからである。それゆえ、本発明のこの形態によると、オーディオ信号の少なくとも一部の時間的特性を符号化する方法を効率的なものとすることができ、オーディオ信号の少なくとも一部をよりよく圧縮することができる。
本発明の実施形態の解釈によると、LPCスペクトルを用いてスペクトルのエンベロープではなく時間的エンベロープを記述する。スペクトルのエンベロープの場合の時間に相当するものは周波数であり、その逆も成り立つ。これが意味するところによると、ラインスペクトル表示を用いた結果得られるのは、周波数ではなく一組の時間または時間インスタンスである。このアプローチにおいては、時間は時間軸上の所定のインターバルに固定されてはおらず、時間そのものが予測係数を表すことに注意されたい。
時間的エンベロープに重複したフレーム分析・合成を用いると、その重複におけるラインスペクトル表示の冗長性をうまく利用できることに、本願発明者は気づいた。本発明の実施形態では、この冗長性をうまく利用している。
本発明とその実施形態によると、WO01/69593-A1に開示されているようなパラメトリックオーディオ符号化方法において、オーディオ信号中のノイズ成分の時間的エンベロープを有利に符号化することができる。このようなパラメトリックオーディオ符号化方法において、オーディオ信号は過渡的信号成分、シヌソイド信号成分、ノイズ成分に分けることができる。シヌソイド成分を表すパラメータは、振幅、周波数、位相である。過渡的成分については、上記のパラメータを拡張してエンベロープを効率的に表すことができる。
本発明とその実施形態はオーディオ信号の周波数帯域全体やその成分に適用することができ、より狭い範囲の周波数帯域に適用することもできる。
本発明の上記その他の態様は、添付した図面を参照して詳細な説明を読めば明らかとなるであろう。
図面には本発明の実施形態を理解するのに必要な要素だけを示した。
以下、LPCフィルタの使用および時間領域におけるLSFの派生物や等価物の計算について説明するが、本発明はクレームの範囲に入る他のフィルターや表示についても適用可能である。
図2は、LPCフィルター等の予測フィルターをどのように用いてオーディオ信号またはその成分の時間的エンベロープを表すかを示している。従来のLPCフィルターを使用できるようにするため、例えばフーリエ変換により、入力信号は最初に時間領域から周波数領域に変換される。実際、時間的形状はスペクトル形状に変換され、後続する従来のLPCフィルターにより符号化される。従来のLPCフィルターは、通常、スペクトル形状を符号化するものである。LPCフィルター分析により、入力信号の時間的形状を表す予測係数が得られる。時間分解能と周波数分解能の間にはトレードオフの関係がある。例えば、LPCスペクトルが非常に鋭いピーク(シヌソイド)を多数含んでいると仮定する。そのとき、聴覚システムは時間分解能の変化にはあまり敏感でないので、分解能も低くてよい。逆に、過渡状態においては、周波数スペクトルの分解能は正確である必要は無い。この意味において、結合符号化であるとみなすこともでき、時間領域の分解能は周波数領域の分解能に依存し、その逆も成り立つ。低い周波数帯域と高い周波数帯域などの複数のLPC曲線を時間領域の予測に利用することもできる。このときも、分解能は周波数予測等の分解能に依存するので、これをうまく利用することができる。
LPCフィルターH(z)は、一般に以下のように表すことができる。
Figure 0004649208
係数aiは、LPC分析の結果得られる予測フィルタ係数であり、iは1からmまでの整数である。係数aiによりH(z)が決まる。
LSFの時間領域における等価物を計算するために、以下の方法を用いる。この方法は、一般の全極(all-pole)フィルターの場合にも、周波数領域の場合にもほとんどそのまま使用することができる。周波数領域においてLSFを導出する方法として他に知られたものを用いて、LSFの時間領域の等価物を計算することができる。
多項式A(z)は、m+1次の2つの多項式P(z)とQ(z)に分けられる。多項式P(z)は、A(z)に反射係数+1(格子フィルター形式の)を加えることにより得られる。Q(z)は、A(z)に反射係数-1を加えることにより得られる。直接形式(上記の式)のLPCフィルターと格子形式のLPCフィルターの間には、以下の再現関係がある。
Figure 0004649208
ここで、i=1,2,...,m、A0(z)=1、kiは反射係数である。
多項式P(z)とQ(z)は、以下の式により求められる。
Figure 0004649208
このように求めた多項式
Figure 0004649208
Figure 0004649208
は、それぞれ対称および反対称である。
Figure 0004649208
この多項式には重要な特長がいくつかある。
−P(z)とQ(q)のすべてのゼロ点は、z平面の単位円上にある。
−P(z)とQ(z)のゼロ点は、単位円上で交互になっており、重複しない。
−A(z)の最小位相特性は量子化後も保存され、H(z)の安定性が保証される。
多項式P(z)とQ(z)は、いずれもm+1個のゼロ点を有する。z=-1とz=1とは常にP(z)またはQ(z)のゼロ点であることは明らかである。それゆえ、1+z-1と1-z-1により割ることにより除外することができる。mが偶数の場合、
Figure 0004649208
mが奇数の場合、
Figure 0004649208
となる。
多項式P’(z)とQ’(z)のゼロ点は、zi=ejtと表すことができる。LPCフィルタは時間領域に適用されるからである。よって、多項式P’(z)とQ’(z)のゼロ点は、時間tにより完全に特徴付けられる。時間tは1フレームの間に0からπの間を動く。0はフレームの最初に対応し、πはフレームの最後に対応する。フレームの長さは、例えば10msまたは20msなどのいかなる長さであってもよい。こうして得られる時間tは、ラインスペクトル周波数の時間領域における等価物であると解釈することができる。この時間をここではLSF時間と呼ぶ。実際のLSF時間を計算するには、P’(z)とQ’(z)の根を求めなければならない。別の方法が非特許文献9、10、11で提案されており、同様に使用することができる。
図3は、時間的エンベロープの分析と合成の例を示す模式図である。各フレームkにおいて、ウィンドウ(必ずしも方形である必要は無い)を用いてセグメントをLPCにより分析する。各フレームについて、変換後、N個のLSF時間が得られる。Nは定数である必要は無いが、定数である多くの場合には、表示がより効率的になることに注意されたい。本実施形態では、LSF時間が一様に量子化されると仮定したが、ベクトル量子化等の他の方法を適用してもよい。
実験によると、図3に示したような重複において、フレームk-1のLSF時間とフレームkのLSF時間の間に冗長性があることが多いことが分かった。ここで図4と5も参照する。以下に説明する本発明の実施形態においては、この冗長性をうまく利用してLSF時間の符号化をより効率的にする。この効率化により、オーディオ信号の少なくとも一部をよりよく圧縮することができる。図4と5は、重複するエリアのフレームkのLSF時間が、フレームk-1のLSF時間と同じではないが近いような通常の場合を示していることに注意されたい。

重複するフレームを用いる第1の実施形態
重複するフレームを用いる第1の実施形態では、重複するエリアのLSF時間の差は小さく、無視できるかまたはそれによる画像の劣化を許容できるものと仮定する。フレームk-1のLSF時間とフレームkのLSF時間からなるLSF時間のペアに対して、導出LSF時間を導く。この導出LSF時間は、ペアになっているLSF時間の重み付け平均である。このアプリケーションにおける重み付け平均には、LSF時間のペアのうち一方だけが選択される場合も含むものとする。この選択は、選択されたLSF時間の重みが1で、選択されなかったLSF時間の重みが0である場合と解釈することができる。ペアのLSF時間の両方に同じ重みを付けることも可能である。
例えば、図4に示したように、フレームk-1にLSF時間{l0, l1, l2,...,lN}があり、フレームkにLSF時間{l0,l1,l2,...,lM}があると仮定する。フレームkのLSF時間がシフトされ、量子化レベルlが2つのフレームの各々において同じ位置に来るようにする。ここでは、各フレームの重複するエリアには3つのLSF時間があると仮定する。図4と5に示した場合である。対応するペアが以下のように形成される:{lN-2,k-1l0,k, lN-1,k-1l1,k, lN,k-1l2,k}。本実施形態においては、3つの導出LSF時間からなる新しい組が、3つのLSF時間のもとの組2つに基づき構成される。実際のアプローチとしては、フレームk-1(またはk)のLSF時間を取り、フレームk-1(またはk)のLSF時間を単にシフトしてフレームを時間的に調整することにより、フレームk(またはk-1)のLSF時間を計算する。このシフトは、エンコーダとデコーダの両方で行われる。エンコーダでは、右側のフレームkのLSF時間がシフトされ、左側のフレームk-1のLSF時間に一致するようにする。こうすることが必要なのは、ペアを見つけ、最終的に重み付け平均を決定するためである。
好ましい実施形態において、導出時間または重み付け平均が「表示レベル」としてビットストリームに符号化される。この「表示レベル」は、例えば0からπを表す0から255(8ビット)までの整数値である。実際の実施形態ではハフマン符号化も適用される。第1のフレームについて、第1のLSF時間は絶対的(参照ポイントなし)に符号化される。後続のLSF時間(最後に重み付けされたものも含む)は、先行するものとの差分として符号化される。ここで、フレームkが「トリック」を用いてフレームk-1の最後の3つのLSF時間を使用すると仮定する。復号において、フレームkはフレームk-1の最後の3つの表示レベル(0から255の領域の最後にある)を取り、それを自分の時間軸(0から255の領域の最初)にシフトする。フレームkの後続するLSF時間はすべて、重複したエリアの最後のLSFに対応する(フレームkの軸上の)表示レベルで始まる先行するLSF時間との差分として符号化される。フレームkで「トリック」を使えない場合、フレームkの第1のLSF時間は絶対的に符号化され、フレームkの後続するLSF時間はすべて先行するLSF時間との差分として符号化される。
実際的なアプローチとしては、対応するLSF時間のペアごとの平均をとればよい。例えば、(lN-2,k-1+l0,k)/2、(lN-1,k-1+l1,k)/2、および(lN,k-1+l2,k)/2である。
より一層有利なアプローチとして、図3に示したように、ウィンドウは一般的にフェードイン、フェードアウトのような振る舞いをすることを考慮に入れる。このアプローチでは、各ペアの重み付けは聴いて結果がよいものを計算する。以下にその方法を示す。重複するエリアはエリア(π-r,π)である。重み関数は図6に示したように導出される。各ペアに対して左側のフレームk-1の時間の重みが以下のように別々に計算される:
Figure 0004649208
ここで、lmeanはペアの平均である。すなわちlmean=(lN-2,k-1+l0,k)/2。
フレームkの重みはwk=1-wk-1として計算される。
新しいLSF時間が:
lweighted=lk-1wk-1+lkwk
として計算される。ここで、lk-1とlkがペアを形成している。最後に、重み付けされたLSF時間が一様に量子化される。
ビットストリームの最初のフレームには先行するフレームがないので、LSF時間の最初のフレームの符号化には、上記の方法を利用することができない。最初のLSF時間はハフマン符号化を用いて絶対的に符号化しなければならない。後続の値は、同じフレーム内の先行する値との差分として固定ハフマンテーブルを用いて符号化する。第1のフレームに続くフレームには、本質的にはすべて上記の方法を利用することができる。もちろん、上記の方法が常に有利であるとは限らない。例えば、両方のフレームが重複するエリアには同数のLSF時間があるが、まったく一致していない状況を考える。(重み付け)平均を計算しても劣化するだけである。フレームk-1のLSF時間の数がフレームkのLSF時間の数と異なる状況においても、上記の方法は好ましくない。それゆえ、LSF時間の各フレームに対して、符号化信号に単一ビット等の表示を含め、上記の方法を用いたか否かを表示する。すなわち、LSF時間を先行するフレームから読み出すか、それともビットストリームに含まれているかを表示する。例えば、表示するビットが1であるとき、重み付けLSF時間はフレームk-1中の先行するLSF時間との差分として符号化される。フレームkにおいては、重複するエリア内のLSF時間はフレームk-1内のLSF時間から導出される。表示ビットが0のとき、フレームkの第1のLSF時間は絶対的に符号化され、それに続くLSF時間は先行するLSF時間との差分として符号化される。
実際の実施形態においては、LSF時間のフレームは長く、例えば44.1kHzの周波数において1440サンプルである。この場合、余分な表示ビットとして30ビット毎秒程度が必要となるだけである。実験によると、ほとんどのフレームに上記の方法を使用して有利に符号化することができ、結果としてフレームあたりのビットを節約することができた。

重複するフレームを用いたさらに別の実施形態
本発明のさらに別の実施形態によると、LSF時間データをロスレス符号化する。重複したペアを単一のLSF時間にするのではなく、与えられたフレーム中のLSF時間の差が、他のフレーム中のLSF時間により符号化される。図3の例において、値l0からlNがフレームk-1から読み出すとき、フレームkの最初の3つの値l0からl3は、それぞれフレームk-1の値lN-2、lN-1、lNとの(ビットストリーム中の)差を復号することにより読み出される。他のフレーム中のどのLSF時間よりも時間的に近いLSF時間を参照して、LSF時間を符号化することにより、冗長性をうまく利用することができる。時間は最も近い時間を参照して最もよく符号化することができるからである。通常、差は小さいので、別々のハフマンテーブルを用いて非常に効率的に符号化することができる。第1の実施形態で説明した方法を用いるか否かを表示するビットを離れて、この例についても、第1の実施形態が問題となる重複に用いられない場合、差分l0,k-lN-2,k-1、l1,k-lN-1,k-1、l2,k-lN,k-1がビットストリームに含められる。
他の実施形態と比較してより有利というわけではないが、先行するフレーム中の他のLSF時間に対して差分を符号化することも可能である。例えば、後続するフレームの第1のLSF時間の差のみを先行するフレームの最後のLSF時間に対して符号化し、後続するフレーム中の後続するLSF時間の各々を同じフレーム中の先行するLSF時間に対して符号化することが可能である。例えば、フレームk-1についてlN-1-lN-2、lN-lN-1、またその後フレームkについてl0,k-lN,k-1、l1,k-l0,k等である。

システムの説明
図7は、本発明の一実施形態によるシステムを示す図である。本システムは、符号化された信号[S]を送信または記録する装置1を有する。装置1は、オーディオ信号Sの少なくとも一部、好ましくはそのオーディオ信号のノイズ成分を受信する入力部10を有する。入力部10は、例えばアンテナ、マイクロホン、ネットワーク接続である。符号化された信号を得るため、装置1は本発明の上記の実施形態(特に図4、5、6を参照)による、信号Sを符号化するエンコーダ11をさらに有する。入力部10はオーディオ信号全体を受信し、その成分を他の専用エンコーダに供給してもよい。符号化された信号は出力部12に送られ、その出力部12は、送信媒体または記憶媒体2を介して送信または格納するのに好適なフォーマットを有するビットストリーム[S]に符号化されたオーディオ信号を変換する。本システムはレシーバまたは再生装置3をさらに有する。レシーバまたは再生装置3は符号化された信号[S]を入力部30で受信する。入力部30は、符号化された信号[S]をデコーダ31に送る。デコーダ31は、復号プロセスを実行して符号化された信号を復号する。この復号プロセスは実質的にエンコーダ11における符号化と逆の動作である。これにより復号された信号S’が得られるが、この信号は、符号化プロセスで失われた部分を除いて、元の信号Sと同じものである。デコーダ31は、復号された信号S’を出力部32に送り、出力部32が復号された信号S’を出力する。出力部32は、復号された信号S’を再生する、スピーカ等の再生部であってもよい。出力部32は、例えばホームネットワークを介して復号された信号S’をさらに送信するトランスミッタであってもよい。信号S’がノイズ成分等のオーディオ信号の成分を再構成したものである場合、出力部32は、オーディオ信号全体を供給するために、信号S’を他の再構成された成分と結合する結合手段を含んでいても良い。
本発明の実施形態は、インターアリア、インターネット配信、ソリッドステートオーディオ、3Gターミナル、GPRS、およびこれらの後継機種に適用することができる。
上記の実施形態は本発明を例示するものであり、限定するものではないことに注意すべきである。また、添付したクレームの範囲から逸脱することなく、当業者は別の実施形態を多数設計することも可能であることに注意すべきである。クレーム中の括弧でくくった参照符号はクレームを限定するものと解してはならない。「有する」という言葉は、クレームに記載された要素やステップとは別の要素やステップが存在することを排除するものではない。本発明は異なる要素を有するハードウェアによって実施することができ、またコンピュータを好適にプログラムすることにより実施することができる。いくつかの手段を列挙した装置クレームにおいて、まったく同一のハードウェアにより実施することができる。いくつかの手段が互いに異なる従属クレームに列挙されていたとしても、この手段の組み合わせを用いて本発明の利益を得ることができないということを示しているわけではない。
先行技術による、8個のラインスペクトル周波数を有する8極のLPCスペクトルの例を示す図である。 LPCを使用した例を示し、上図においてはH(z)は周波数スペクトルを表し、下図においてはLPCは時間的エンベロープを表す。 分析/合成ウィンドウを例示する模式図である。 2つの後続フレームのLSF時間のシーケンスを例示する図である。 フレームkのLSF時間を先行するフレームk-1に対してシフトすることによるLSF時間のマッチングを示す図である。 重複部分の関数として重み付け関数を示すグラフである。 本発明の一実施形態によるシステムを示す図である。

Claims (14)

  1. 符号化信号を得るために、少なくとも第1のフレームと第2のフレームとにセグメント化され、前記第1のフレームと第2のフレームとは重複部分を有するオーディオ信号の少なくとも一部を符号化する方法であって、各フレームについて、
    前記オーディオ信号の少なくとも一部の、時間的エンベロープを表す予測係数を求めるために、前記オーディオ信号の少なくとも一部を予測符号化するステップと、
    前記予測係数を表す一組の時間に前記予測系数を変換するステップと、
    前記符号化信号に前記一組の時間を含めるステップとを有し、
    前記第1のフレームの第2のフレームとの重複部分には各フレームの少なくとも1つの時間を含み、前記重複部分にある前記第1のフレームの1つの時間と、前記重複部分にある前記第2のフレームの1つの時間とからなる1組の時間に対して、導出時間が前記符号化された信号に含まれ、前記導出時間は前記第1のフレームの前記1つの時間と前記第2のフレームの前記1つの時間の重み付け平均であることを特徴とする方法。
  2. 記予測符号化するステップはフィルターを用いて実行され、前記予測係数はフィルター係数である、請求項1に記載の方法。
  3. 記予測符号化は線形予測符号化である、請求項1または2に記載の方法。
  4. 記予測符号化するステップの前に、周波数領域信号を求めるために、時間領域から周波数領域への変換を前記オーディオ信号の少なくとも一部に実行し、前記予測符号化するステップは、前記オーディオ信号の少なくとも一部ではなく前記周波数領域信号に実行される、請求項1または2に記載の方法。
  5. 記時間はラインスペクトル周波数の時間領域の等価物である、請求項1または2に記載の方法。
  6. 記導出時間は前記1組の時間の選択された一方と同一である、請求項1に記載の方法。
  7. レームの境界に近い時間は、前記境界から遠い時間より軽い重み付けがなされる、請求項1に記載の方法。
  8. 記第2のフレームの時間は前記第1のフレームの時間に対する差分として符号化される、請求項1に記載の方法。
  9. 記第2のフレームの前記時間は、時間的に、前記第1のフレームの他のいずれの時間よりも前記第2のフレームの前記時間に近い前記第1のフレームの時間に対する差分として符号化される、請求項8に記載の方法。
  10. らに単一ビット表示が前記符号化された信号に含まれ、前記表示は前記符号化信号が前記重複部分に導出時間を含むかどうかを示す、請求項1,6,7,8または9いずれか一項に記載の方法。
  11. らに単一ビット等の表示が前記符号化された信号に含まれ、前記表示は前記重複部分の前記時間または導出時間を符号化するのに使用された符号化の種類を表示する、請求項1,6,7,8または9いずれか一項に記載の方法。
  12. オーディオ信号の少なくとも一部を表す符号化信号を復号する方法であって、前記符号化信号は少なくとも第1のフレームと第2のフレームとを含み、前記第1のフレームと第2のフレームとは重複部分を有し、各符号化信号は予測係数を表す一組の時間を含むフレームに対応し、前記予測係数は前記オーディオ信号の少なくとも一部の時間的エンベロープを表し、前記方法は、
    前記一組の時間から前記時間的エンベロープを導出し、復号信号を求めるために、前記時間的エンベロープを使用するステップと、
    前記復号信号を提供するステップとを有し、
    前記時間は前記オーディオ信号の少なくとも一部の少なくとも第1のフレームおよび第2のフレームに関係し、前記第1のフレームと前記第2のフレームは各フレームの少なくとも1つの時間を含む重複部分を有し、前記符号化信号は少なくとも1つの導出時間を含み、前記導出時間は元の前記オーディオ信号の少なくとも一部の前記重複部分にある前記第1のフレームの1つの時間と前記重複部分にある前記第2のフレームの1つの時間とを有する一組の時間の重み付け平均であり、前記方法は前記第1のフレームを復号し前記第2のフレームを復号するのに前記少なくとも1つの導出時間を使用するステップをさらに有することを特徴とする方法。
  13. 記方法は、前記予測係数を求めるために前記一組の時間を変換するステップを有し、前記時間的エンベロープは前記一組の時間からではなく前記予測係数から導出される、請求項12に記載の復号方法。
  14. 記符号化信号はさらに単一ビット表示を有し、前記表示は前記符号化信号は前記重複部分に導出時間を含むかどうかを示し、前記方法は、
    前記符号化信号から前記表示を求めるステップと、
    前記重複部分が導出時間を含むことを前記表示が示している場合に限って、前記第1のフレームの復号と前記第2のフレームの復号に前記少なくとも1つの導出時間を使用するステップを実行するステップをさらに有する、請求項12に記載の復号方法。
JP2004521016A 2002-07-16 2003-07-11 オーディオコーディング Expired - Fee Related JP4649208B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP02077870 2002-07-16
PCT/IB2003/003152 WO2004008437A2 (en) 2002-07-16 2003-07-11 Audio coding

Publications (2)

Publication Number Publication Date
JP2005533272A JP2005533272A (ja) 2005-11-04
JP4649208B2 true JP4649208B2 (ja) 2011-03-09

Family

ID=30011204

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004521016A Expired - Fee Related JP4649208B2 (ja) 2002-07-16 2003-07-11 オーディオコーディング

Country Status (9)

Country Link
US (1) US7516066B2 (ja)
EP (1) EP1527441B1 (ja)
JP (1) JP4649208B2 (ja)
KR (1) KR101001170B1 (ja)
CN (1) CN100370517C (ja)
AU (1) AU2003247040A1 (ja)
BR (1) BR0305556A (ja)
RU (1) RU2321901C2 (ja)
WO (1) WO2004008437A2 (ja)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
ATE353465T1 (de) * 2001-11-30 2007-02-15 Koninkl Philips Electronics Nv Signalkodierung
US7805313B2 (en) * 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
TWI498882B (zh) 2004-08-25 2015-09-01 Dolby Lab Licensing Corp 音訊解碼器
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
JP5017121B2 (ja) * 2004-11-30 2012-09-05 アギア システムズ インコーポレーテッド 外部的に供給されるダウンミックスとの空間オーディオのパラメトリック・コーディングの同期化
WO2006060279A1 (en) * 2004-11-30 2006-06-08 Agere Systems Inc. Parametric coding of spatial audio with object-based side information
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
US7903824B2 (en) * 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
EP1989703A4 (en) * 2006-01-18 2012-03-14 Lg Electronics Inc DEVICE AND METHOD FOR CODING AND DECODING A SIGNAL
FR2911031B1 (fr) * 2006-12-28 2009-04-10 Actimagine Soc Par Actions Sim Procede et dispositif de codage audio
CN101231850B (zh) * 2007-01-23 2012-02-29 华为技术有限公司 编解码方法及装置
KR20080073925A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치
CN101266795B (zh) * 2007-03-12 2011-08-10 华为技术有限公司 一种格矢量量化编解码的实现方法及装置
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US20090006081A1 (en) * 2007-06-27 2009-01-01 Samsung Electronics Co., Ltd. Method, medium and apparatus for encoding and/or decoding signal
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
ES2650492T3 (es) 2008-07-10 2018-01-18 Voiceage Corporation Dispositivo y método de cuantificación de filtro LPC de múltiples referencias
US8380498B2 (en) * 2008-09-06 2013-02-19 GH Innovation, Inc. Temporal envelope coding of energy attack signal by using attack point location
US8276047B2 (en) * 2008-11-13 2012-09-25 Vitesse Semiconductor Corporation Continuously interleaved error correction
EP3723090B1 (en) * 2009-10-21 2021-12-15 Dolby International AB Oversampling in a combined transposer filter bank
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
KR101747917B1 (ko) 2010-10-18 2017-06-15 삼성전자주식회사 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
JP5674015B2 (ja) * 2010-10-27 2015-02-18 ソニー株式会社 復号装置および方法、並びにプログラム
US8615394B1 (en) * 2012-01-27 2013-12-24 Audience, Inc. Restoration of noise-reduced speech
US8725508B2 (en) * 2012-03-27 2014-05-13 Novospeech Method and apparatus for element identification in a signal
RU2612589C2 (ru) * 2013-01-29 2017-03-09 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Низкочастотное акцентирование для основанного на lpc кодирования в частотной области
KR102150496B1 (ko) 2013-04-05 2020-09-01 돌비 인터네셔널 에이비 오디오 인코더 및 디코더
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
EP2916319A1 (en) 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
EP3696816B1 (en) * 2014-05-01 2021-05-12 Nippon Telegraph and Telephone Corporation Periodic-combined-envelope-sequence generation device, periodic-combined-envelope-sequence generation method, periodic-combined-envelope-sequence generation program and recording medium
CN104217726A (zh) * 2014-09-01 2014-12-17 东莞中山大学研究院 一种无损音频压缩编码方法及其解码方法
CN107112025A (zh) 2014-09-12 2017-08-29 美商楼氏电子有限公司 用于恢复语音分量的系统和方法
WO2016084764A1 (ja) * 2014-11-27 2016-06-02 日本電信電話株式会社 符号化装置、復号装置、これらの方法及びプログラム
DE112016000545B4 (de) 2015-01-30 2019-08-22 Knowles Electronics, Llc Kontextabhängiges schalten von mikrofonen
KR102125410B1 (ko) * 2015-02-26 2020-06-22 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 타깃 시간 도메인 포락선을 사용하여 처리된 오디오 신호를 얻도록 오디오 신호를 처리하기 위한 장치 및 방법
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
CN107871492B (zh) * 2016-12-26 2020-12-15 珠海市杰理科技股份有限公司 音乐合成方法和系统
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08506434A (ja) * 1993-11-30 1996-07-09 エイ・ティ・アンド・ティ・コーポレーション 通信システムにおける伝送ノイズ低減
JPH10133695A (ja) * 1996-10-28 1998-05-22 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法および音響信号復号化方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5781888A (en) * 1996-01-16 1998-07-14 Lucent Technologies Inc. Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
US5749064A (en) 1996-03-01 1998-05-05 Texas Instruments Incorporated Method and system for time scale modification utilizing feature vectors about zero crossing points
JP2000509847A (ja) * 1997-02-10 2000-08-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声信号を伝送する伝送システム
JPH11143498A (ja) * 1997-08-28 1999-05-28 Texas Instr Inc <Ti> Lpc係数のベクトル量子化方法
FI973873A (fi) * 1997-10-02 1999-04-03 Nokia Mobile Phones Ltd Puhekoodaus
CN1154975C (zh) 2000-03-15 2004-06-23 皇家菲利浦电子有限公司 用于声频编码的拉盖尔函数

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08506434A (ja) * 1993-11-30 1996-07-09 エイ・ティ・アンド・ティ・コーポレーション 通信システムにおける伝送ノイズ低減
JPH10133695A (ja) * 1996-10-28 1998-05-22 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法および音響信号復号化方法

Also Published As

Publication number Publication date
RU2321901C2 (ru) 2008-04-10
AU2003247040A1 (en) 2004-02-02
RU2005104122A (ru) 2005-08-10
BR0305556A (pt) 2004-09-28
US20050261896A1 (en) 2005-11-24
WO2004008437A3 (en) 2004-05-13
WO2004008437A2 (en) 2004-01-22
KR101001170B1 (ko) 2010-12-15
US7516066B2 (en) 2009-04-07
EP1527441B1 (en) 2017-09-06
JP2005533272A (ja) 2005-11-04
CN100370517C (zh) 2008-02-20
CN1669075A (zh) 2005-09-14
KR20050023426A (ko) 2005-03-09
EP1527441A2 (en) 2005-05-04

Similar Documents

Publication Publication Date Title
JP4649208B2 (ja) オーディオコーディング
KR100427753B1 (ko) 음성신호재생방법및장치,음성복호화방법및장치,음성합성방법및장치와휴대용무선단말장치
US8862463B2 (en) Adaptive time/frequency-based audio encoding and decoding apparatuses and methods
US7149683B2 (en) Method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
JP5208901B2 (ja) 音声信号および音楽信号を符号化する方法
US5012518A (en) Low-bit-rate speech coder using LPC data reduction processing
KR100487136B1 (ko) 음성복호화방법및장치
US7599833B2 (en) Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same
US9852741B2 (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
JP3680374B2 (ja) 音声合成方法
JP4970046B2 (ja) ディジタル信号圧縮のためのコーディングのために用いられるマルチパルス・ディクショナリのインデクス間のトランスコーディング
US20090210219A1 (en) Apparatus and method for coding and decoding residual signal
JP3237178B2 (ja) 符号化方法及び復号化方法
RU2409874C9 (ru) Сжатие звуковых сигналов
JP3916934B2 (ja) 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置
Ozaydin et al. A 1200 bps speech coder with LSF matrix quantization
JPH09244695A (ja) 音声符号化装置及び復号化装置
JPH1049200A (ja) 音声情報圧縮蓄積方法及び装置
KR20080092823A (ko) 부호화/복호화 장치 및 방법
JP3350340B2 (ja) 音声符号化方法および音声復号化方法
JPH09120300A (ja) ベクトル量子化装置
JP3576805B2 (ja) 音声符号化方法及びシステム並びに音声復号化方法及びシステム
JPH05265488A (ja) ピッチ抽出方法
Ozaydin et al. Matrix quantization based speech coder at 1200 bps
JPH02238499A (ja) ベクトル量子化方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101116

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101213

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131217

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4649208

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees