JP2007507726A - オーディオ信号の符号化 - Google Patents
オーディオ信号の符号化 Download PDFInfo
- Publication number
- JP2007507726A JP2007507726A JP2006527534A JP2006527534A JP2007507726A JP 2007507726 A JP2007507726 A JP 2007507726A JP 2006527534 A JP2006527534 A JP 2006527534A JP 2006527534 A JP2006527534 A JP 2006527534A JP 2007507726 A JP2007507726 A JP 2007507726A
- Authority
- JP
- Japan
- Prior art keywords
- cross
- correlation function
- frequency
- complex
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 86
- 238000005314 correlation function Methods 0.000 claims abstract description 72
- 238000000034 method Methods 0.000 claims description 4
- 230000001427 coherent effect Effects 0.000 claims 1
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Abstract
エンコーダは、オーディオ信号(x(n)、y(n))を時間領域から周波数領域に変換し、周波数領域において相互相関関数(Ri、Pi)を決定する。複素コヒーレンス値(Qi)は、周波数領域において(複素)相互相関関数値(Ri、Pi)を合計することにより計算される。チャンネル間位相差(IPDi)は、複素コヒーレンス値(Qi)の偏角により推定され、チャンネル間コヒーレンス(ICi)は、複素コヒーレンス値(Qi)の絶対値により推定される。先行技術においては、計算量の多い逆高速フーリエ変換と時間領域における相互相関関数(Ri;Pi)の最大値のサーチが必要である。
Description
本発明は、オーディオ信号用エンコーダ及びオーディオ信号の符号化方法に関する。
オーディオコーディングの技術分野では、一般的には、オーディオ信号の知覚品質を過度に落とすことなくビットレートを下げるために、オーディオ信号を符号化することが望ましい。ビットレートを下げることにより、オーディオ信号を伝送する際の帯域幅やオーディオ信号を格納するのに必要な記憶容量を制限することができるので、有利である。
近年、オーディオ信号の数値表現が注目されており、オーディオコーディングの技術分野では特にそうである。受信側で実質的に等しいオーディオ信号を合成するためには、オーディオ信号を表す(数量化された)パラメータの送信には、限定された送信容量しか必要ではないことが示されている。
米国特許公報第2003/0026441号は、1つ以上の空間的パラメータ(例えば、耳間レベル差または耳間時間差)の2つ以上の組を合成されたオーディオ信号の2つ以上の異なる周波数帯域に適用することによる聴覚情景の合成が示されている。これでは、異なる周波数帯域はそれぞれ聴覚情景中の単一のオーディオ源に対応するものとして取り扱われる。一実施形態において、合成オーディオ信号は、入力聴覚情景に対応するバイノーラル信号の左右のオーディオ信号の組み合わせに対応する。空間的パラメータの異なる組を適用して入力聴覚情景を再構成する。聴覚情景を合成/再構成するように構成されたレシーバに送信する必要がある異なるオーディオ信号の数を1つに減らすことにより、送信帯域幅の要件を低くすることができる。
トランスミッタにおいて、入力バイノーラル信号の左右のオーディオ信号のそれぞれの対応する部分にTF変換を適用して、信号を周波数領域に変換する。聴覚情景アナライザは左右のオーディオ信号を周波数領域に変換して、変換された信号中の複数の異なる周波数帯域のそれぞれに対して聴覚情景パラメータの組を生成する。周波数帯域の対応するペアのそれぞれについて、アナライザは変換された左右のオーディオ信号を比較して、1つ以上の空間的パラメータを生成する。特に、それぞれの周波数帯域について、変換された左右のオーディオ信号間の相互相関関数を推定する。相互相関の最大値は、その2つの信号がどのくらい相関しているかを示す。相互相関の最大値の時間的位置はITDに対応する。ILDは、左右のオーディオ信号のパワーレベルのレベル差を計算することにより求められる。
(発明の開示)
本発明の目的の1つは、より少ない処理パワーでオーディオ信号を符号化するエンコーダを提供することである。
(発明の開示)
本発明の目的の1つは、より少ない処理パワーでオーディオ信号を符号化するエンコーダを提供することである。
この目的を達成するため、本発明の一態様によると、オーディオ信号を符号化するエンコーダが提供される。本発明の第2の態様によると、オーディオ信号の符号化方法が提供される。有利な実施形態を従属項に記載した。
米国特許公報第2003/0026441号に開示されたエンコーダは、最初にオーディオ信号を時間領域から周波数領域に変換する。この変換は通常高速フーリエ変換と呼ばれ、さらにFFTとも呼ばれる。通常、時間領域のオーディオ信号は、時間セグメントまたはフレームのシーケンスに分割され、周波数領域への変換はそれぞれのフレームに対して順次実行される。周波数領域の関連部分は、周波数帯域に分割される。各周波数帯域において、入力オーディオ信号の相互相関関数が決定される。この相互相関関数を周波数領域から時間領域に変換しなければならない。この変換は、通常、逆FFTと呼ばれ、さらにIFFTと呼ばれる。時間領域において、相互相関関数の最大値を決定して、この最大値の時間的位置を見いだしてITDの値を得る。
本発明の第1の態様によるエンコーダは、また、オーディオ信号を時間領域から周波数領域に変換しなければならず、周波数領域における相互相関を決定しなければならない。本発明によるエンコーダにおいて、使用される空間的パラメータは、チャンネル間位相差(IPDとも呼ばれる)、またはチャンネル間コヒーレンス(ICとも呼ばれる)、または両方である。また、他の空間的パラメータ、例えばチャンネル間レベル差(ILDとも呼ばれる)を符号化してもよい。チャンネル間位相差IPDは、先行技術の耳間時間差に対応するものである。
しかし、IFFTを実行して時間領域で相互相関関数の最大値を探すのではなく、周波数領域における(複素)相互相関関数を合計することにより、複素コヒーレンス値を計算する。チャンネル間位相差IPDは、複素コヒーレンス値の偏角により推定され、チャンネル間コヒーレンスICは、複素コヒーレンス値の絶対値により推定される。
先行技術文献である米国特許公報第2003/0026441号では、逆FFTと時間領域における相互相関関数の最大値のサーチに大きな処理負荷がかかる。この先行技術文献には、コヒーレンスパラメータの決定は記載されていない。
本発明によるエンコーダにおいて、逆FFTは必要なく、複素コヒーレンス値は周波数領域において(複素)相互相関関数値を合計することにより計算される。IPD、またはIC、またはIPDとICの両方をこの合計値から簡単に決定することができる。よって、逆FFTのための大きな計算負荷を簡単な加算演算で置き換えることができる。その結果として、本発明によるアプローチでは、より少ない計算負荷しかかからない。
留意すべきことは、先行技術文献である米国特許公報第2003/0026441号では、FFTを用いて入力信号の複素数値周波数領域表現を求めているが、複素フィルタバンクを用いてもよいことである。このようなフィルタバンクは、複素モジュレータを用いて、帯域制限された複素信号の組を求める(Ekstrand, P. (2002). Bandwidth extension of audio signals by spectral band replication. Proc. 1st Benelux Workshop on model based processing and coding of audio (MPCA-2002), Leuven, Belgiumを参照)。パラメータIPDとICは、FFTに関しては同様に計算することができ、周波数ビンではなく時間にわたる合計が必要であるという点だけが異なる。
請求項2に記載した実施形態において、相互相関関数は、帯域制限された複素領域の入力オーディオ信号の1つと、入力オーディオ信号の他の1つの複素共役との乗算により複素相互相関関数を求めることにより計算される。この複素相互相関関数は、絶対値と偏角により表すことができる。
請求項3に記載した実施形態において、補正相互相関関数は、偏角をその偏角の微分で置き換えた相互相関関数として計算される。高い周波数において、人間の聴覚システムは、2つの入力チャンネル間の位相差の微細な構造には敏感ではないことが知られている。しかし、時間差と包絡線のコヒーレンスに対してはかなり敏感である。よって、高い周波数においては、それぞれの周波数帯域について、包絡線ITDとコヒーレンスITDを計算する方がより適切である。しかし、(ヒルベルト)包絡線を計算する段階が追加的に必要となる。請求項3に記載した発明の実施形態において、周波数領域において補正相互相関関数を直接的に合計することにより、複素コヒーレンス値を計算することができる。また、IPD及び/またはICをこの合計の偏角と位相として簡単に決定することができる。
請求項4に記載の実施形態において、周波数領域は、所定数の周波数サブバンド(サブバンドとも呼ぶ)に分割される。異なるサブバンドによりカバーされる周波数範囲は、周波数とともに大きくなる。それぞれのサブバンドに対する複素相互相関関数の決定は、そのサブバンドの周波数領域の入力オーディオ信号を両方用いて行う。サブバンドの1つの周波数領域の入力オーディオ信号は、サブバンドオーディオ信号とも呼ばれる。結果として、サブバンドのそれぞれに対して相互相関関数が求められる。あるいは、相互相関関数は、合成されたオーディオ信号に要求される品質に応じて、サブバンドのサブセットについても決められる。複素コヒーレンス値は、サブバンドのそれぞれにおいて(複素)相互相関関数値を合計することにより計算される。このように、IPD及び/またはICもサブバンドごとに決定される。このサブバンドアプローチにより、異なる周波数サブバンドに対して異なるコーディングが可能となり、符号化されたオーディオ信号のビットレートに対して復号されたオーディオ信号の品質をさらに最適化することができる。
請求項5に記載の実施形態において、周波数が低い場合、サブバンドオーディオ信号の1つとサブバンドオーディオ信号の他の1つの複素共役を乗算することにより、サブバンドごとの複素相互相関関数を求める。複素相互相関関数は、絶対値と偏角とを有する。複素コヒーレンス値は、サブバンドのそれぞれにおいて相互相関関数値を合計することにより求められる。より高い周波数の場合、補正相互相関関数が周波数の低い場合の相互相関関数と同様に決定されるが、偏角はその偏角の微分により置き換えられる。ここで、サブバンドごとに補正相互相関関数値を合計することにより、サブバンドごとの複素コヒーレンス値を求める。IPD及び/またはICは、複素コヒーレンス値から同様に決定され、周波数には依存しない。
本発明の上記その他の態様は、以下に説明する実施形態を参照して明らかになり、説明される。
図1は、オーディオエンコーダを示すブロック図である。オーディオエンコーダは、2つの入力オーディオ信号x(n)とy(n)を受信する。これらの入力オーディオ信号x(n)とy(n)は、時間領域における、例えば、ステレオ信号の左オーディオ信号と右オーディオ信号をデジタル化表現である。インデックスnは、入力オーディオ信号x(n)とy(n)のサンプルを示す。結合回路1は、これらの2つの入力オーディオ信号x(n)とy(n)を結合して、モノラル信号MASにする。入力オーディオ信号x(n)とy(n)中のステレオ情報は、数値化回路10で数値化される。この数値化回路10は、回路100ないし113を有し、例えば、パラメータITDi、すなわち周波数サブバンドごとのチャンネル間時間差(または、IPDi、すなわち周波数サブバンドごとのチャンネル間位相差)、及びICi(周波数サブバンドごとのチャンネル間コヒーレンス)を供給する。モノラル信号MASとパラメータITDi、ICiは、伝送システムで伝送されるか、または記憶媒体(図示せず)に格納される。レシーバまたはデコーダ(図示せず)において、元の信号x(n)とy(n)は、モノラル信号MASとパラメータITDi、ICiから再構成される。
通常は、入力信号x(n)とy(n)は、時間セグメントまたはフレームごとに処理される。セグメンテーション回路100は、入力オーディオ信号x(n)を受け取り、フレームの間、受け取ったサンプルを格納し、格納したフレームのサンプルSx(n)をFFT回路102に供給する。セグメンテーション回路101は、入力オーディオ信号y(n)を受け取り、フレームの間、受け取ったサンプルを格納し、格納したフレームのサンプルSy(n)をFFT回路103に供給する。
FFT回路102は、格納されたサンプルSx(n)に高速フーリエ変換を実行し、周波数領域のオーディオ信号X(k)を求める。同様に、FFT回路103は、格納されたサンプルSy(n)に高速フーリエ変換を実行し、周波数領域のオーディオ信号Y(k)を求める。サブバンドドライバ104と105は、それぞれオーディオ信号X(k)とY(k)を受け取り、これらのオーディオ信号X(k)とY(k)の周波数スペクトルを周波数サブバンドi(図4を参照)に分割して、サブバンドオーディオ信号Xi(k)とYi(k)を求める。この動作は、図4を参照してさらに説明する。
相互相関決定回路106は、関連するそれぞれのサブバンドについて、サブバンドオーディオ信号Xi(k)とYi(k)の複素相互相関関数Riを計算する。通常、周波数領域のオーディオ信号の1つXi(k)と周波数領域のオーディオ信号の他の1つYi(k)の複素共役を乗算することにより、関連するそれぞれのサブバンドにおける相互相関関数Riを求める。相互相関関数は、Ri(X,Y)(k)またはRi(X(k),Y(k))と表す方がより正確であるが、明確にするためRiと省略する。
任意的な規格化回路107は、相互相関関数Riを規格化して規格化相互相関関数Pi(X,Y)(k)またはPi(X(k),Y(k))を求める。規格化相互相関関数は、省略してPiと表され:
留意すべきことは、この規格化過程には、2つの入力信号x(n)、y(n)のサブバンド信号Xi(k)、Yi(k)のエネルギーの計算が必要であることである。しかし、この動作は、現在のサブバンドiについてチャンネル間強度差IIDを計算するために、いずれにしても必要である。IIDはこれらのエネルギーの商により決定される。このように、相互相関関数Riは、2つの入力信号Xi(k)、Yi(k)の対応するサブバンド強度の角度平均を取ることにより規格化できる。
既知のIFFT(逆高速フーリエ変換)回路108は、周波数領域の規格化された相互相関関数Piを時間領域に変換し戻し、時間領域の規格化された相互相関ri(x(n),y(n))またはri(x,y)(n)(省略してriとも呼ぶ)にする。回路109は、規格化された相互相関riのピーク値を決定する。1つのサブバンドのチャンネル間時間遅延ITDiは、ピーク値となる規格化相互相関riの偏角nである。または、言い換えると、規格化された相互相関riのこの最大値に対応する遅延がITDiである。サブバンドのチャンネル間コヒーレンスICiは、ピーク値である。ITDiは、類似度が最も高くなるように、2つの入力オーディオ信号x(n)、y(n)を互いにシフトさせる。ICiは、シフトされた入力オーディオ信号x(n)、y(n)が各サブバンドにおいてどのくらい類似しているかを示す。あるいは、IFFTは、規格化されていない相互相関関数Riに実行してもよい。
このブロック図は、別々のブロックが動作を実行しているように示したが、その動作は単一の専用回路または集積回路で実行してもよい。動作のすべてまたはその一部を好適にプログラムしたマイクロプロセッサで実行することもできる。
図2は、本発明の一実施形態によるオーディオエンコーダを示すブロック図である。このオーディオエンコーダは、図1に示したものと同一の回路1、100ないし107を有し、これらは同様に動作する。また、任意的な規格化回路107は、相互相関関数Riを規格化し、規格化された相互相関関数Piを求める。コヒーレンス値計算回路111は、規格化された複素相互相関関数Piを合計することにより、関連する各サブバンドについて複素コヒーレンス値Qiを計算する:
よって、関連する各サブバンドにおいて、IFFTの実行と規格化された相互相関riの最大値のサーチをしなくても、関連する各サブバンドiについてチャンネル間コヒーレンスICiとチャンネル間位相差IPDiを求めることができる。これにより、処理パワーを大幅に節約することができる。あるいは、複素コヒーレンス値Qiは、正規化されていない相互相関関数Piを合計することにより、求めてもよい。
図3は、本発明の他の実施形態によるオーディオエンコーダの一部を示すブロック図である。
周波数が高い場合、例えば、2kHzまたは4kHzより高い場合、先行技術(Baumgarte, F.,Faller. C (2002). Estimation of auditory spatial cues for binaural cue coding. Proc. ICASSP'02を参照)においては、図1を参照して説明したように、波形コヒーレンスの計算よりもより一層多くの計算を必要とする包絡線コヒーレンスを計算する。実験結果によると、周波数領域の(規格化された)複素相互相関関数Riの位相値ARGを、この位相値ARGの微分DAにより置き換えることにより、包絡線コヒーレンスをかなり正確に推定することができることが示された。
図3は、図1と同じ相互相関決定回路106を示している。 相互相関決定回路106は、関連するそれぞれのサブバンドについて、サブバンドオーディオ信号Xi(k)とYi(k)の複素相互相関関数Riを計算する。通常、周波数領域のオーディオ信号の1つXi(k)と周波数領域のオーディオ信号の他の1つYi(k)の複素共役を乗算することにより、関連するそれぞれのサブバンドにおける相互相関関数Riを求める。相互相関関数Riを受け取る回路114は、この複素相互相関関数Riの偏角ARGの微分DAを決定する計算部1140を有する。相互相関関数Riの振幅AVは変化しない。回路114の出力信号は、補正相互相関関数R′i(Xi(k),Yi(k))(R′iとも呼ぶ)である。この補正相互相関関数は、相互相関関数Riの振幅AVと、偏角ARGの微分DAである偏角とを有する。
上記のアプローチは、もちろん、正規化された複素相互相関関数Piにも適用して、正規化された補正複素相互相関関数P′iを求めることもできる。
図4は、周波数領域におけるオーディオ信号のサブバンド分割を示す概略図である。図4Aは、周波数領域のオーディオ信号X(k)が周波数スペクトルfのサブバンドi中のサブバンドオーディオ信号Xi(k)にどのように分割されるかを示している。図4Bは、周波数領域のオーディオ信号Y(k)が周波数スペクトルfのサブバンドi中のサブバンドオーディオ信号Yi(k)にどのように分割されるかを示している。周波数領域信号X(k)とY(k)は、サブバンドiにグループ分けされ、サブバンドXi(k)とYi(k)になる。各サブバンドXi(k)は、FFTビンインデックスk=[ksi...kei]に対応する。ここでksiとkeiは、それぞれ最初と最後のFFTビンインデックスkを示す。同様に、各サブバンドYi(k)は、FFTビンインデックスkの同じ範囲に対応する。
留意すべきことは、上記の実施形態が本発明を限定するものではなく例示するものであり、当業者が添付した請求項の範囲から逸脱することなく、多数の別の実施形態を設計することができることである。
本発明は、ステレオ信号に限定されるものではなく、例えば、DVDやSACDで使用されているようなマルチチャンネルオーディオでも実施可能である。
請求項において、括弧に入れた参照符号は請求項を限定するものと解してはならない。「有する」という動詞及びその変化形を用いたが、請求項に記載された要素または段階以外の要素の存在を排除するものではない。構成要素に付された「1つの」、「一」という前置詞は、その構成要素が複数あることを排除するものではない。本発明は、複数の異なる構成要素を有するハードウェア手段によって、または好適にプログラムされたコンピュータによって実施してもよい。複数の手段を挙げる装置クレームにおいて、これらの手段は、1つの同じハードウェアにより実施してもよい。手段が相互に異なる従属項に記載されていても、これらの手段を有利に組み合わせて使用することができないことを示しているのではない。
Claims (6)
- オーディオ信号を符号化するエンコーダであって、
少なくとも2つの入力オーディオ信号の組み合わせを含むモノラル信号を生成する手段と、
前記少なくとも2つの入力オーディオ信号の空間的特性を示す空間パラメータの組を生成する手段と、を有し、
前記空間的パラメータの組は少なくともチャネル間コヒーレンス値及び/またはチャネル間位相差値を含み、
前記空間的パラメータの組を生成する手段は、
少なくとも2つの入力オーディオ信号の相互相関関数を生成する手段と、
前記相互相関関数の値を合計することにより複素コヒーレンス値を決定する手段と、
前記複素コヒーレンス値の絶対値を決定してチャンネル間コヒーレンス値の推定値を得る手段と、
前記複素コヒーレンス値の偏角を決定してチャンネル間位相差値の推定値を得る手段と、を有することを特徴とするエンコーダ。 - 請求項1に記載の、オーディオ信号を符号化するエンコーダであって、
前記空間的パラメータの組を生成する手段は、前記入力オーディオ信号を周波数またはサブバンド領域に変換して周波数またはサブバンド領域のオーディオ信号を求める手段を有し、
前記相互相関関数を生成する手段は、周波数またはサブバンド領域の前記オーディオ信号の1つと、周波数またはサブバンド領域の前記オーディオ信号の他の1つの複素共役の乗算として複素相互相関を計算するように構成されていることを特徴とするエンコーダ。 - 請求項2に記載の、オーディオ信号を符号化するエンコーダであって、
前記相互相関関数を生成する手段は、偏角が前記偏角の微分と置き換えられた相互相関関数である補正相互相関関数を計算するように構成され、
前記複素コヒーレント値を決定する手段は、前記補正相互相関関数の値を合計するように構成されていることを特徴とするエンコーダ。 - 請求項1に記載の、オーディオ信号を符号化するエンコーダであって、
前記空間的パラメータの組を生成する手段は、前記入力オーディオ信号を周波数領域に変換して周波数領域のオーディオ信号を求める手段と、前記周波数領域のオーディオ信号を周波数サブバンドと関連付けられた対応する複数のサブバンド信号に分割する手段と、を有し、
前記相互相関関数を生成する手段は、前記周波数サブバンドのサブセットに属する前記周波数サブバンドの少なくともそれぞれについて、前記サブバンド信号から前記相互相関関数を決定するように構成され、
前記複素コヒーレンス値を決定する手段は、前記サブセットに属する前記周波数サブバンドの少なくともそれぞれにおいて前記相互相関関数の値を合計するように構成され、
前記複素コヒーレンス値の絶対値を決定する手段は、前記サブセットの前記周波数サブバンドの少なくともそれぞれについて、前記コヒーレンス値の推定値を求めるように構成され、
前記複素コヒーレンス値の偏角を決定する手段は、少なくとも前記サブセットの前記周波数サブバンドのそれぞれについて、前記チャンネル間位相差値を求めるように構成されていることを特徴とするエンコーダ。 - 請求項4に記載の、オーディオ信号を符号化するエンコーダであって、
前記相互相関関数を生成する手段は、
所定周波数より低い周波数サブバンドに対して、前記サブバンド信号の1つと前記サブバンド信号の他の1つの複素共役の乗算として前記相互相関関数を計算し、前記複素コヒーレンス値を決定する手段は、少なくとも前記サブセットの前記周波数サブバンドのそれぞれにおいて、前記相互相関関数の値を合計するように構成され、
前記相互相関関数を計算する手段は、前記所定周波数より高い周波数サブバンドに対して、前記相互相関関数である補正相互相関関数を計算し、前記補正相互相関関数の偏角は前記偏角の微分により置き換えられ、前記複素コヒーレンス値を決定する手段は、少なくとも前記サブセットの前記周波数サブバンドのそれぞれの前記補正相互相関関数の値を合計するように構成されていることを特徴とするエンコーダ。 - オーディオ信号を符号化する方法であって、
少なくとも2つの入力オーディオ信号の組み合わせを含むモノラル信号を生成する段階と、
前記少なくとも2つの入力オーディオ信号の空間的特性を示す空間パラメータの組を生成する段階と、を有し、
前記空間的パラメータの組は少なくともチャネル間コヒーレンス値及び/またはチャネル間位相差値を含み、
前記空間的パラメータの組を生成する段階は、
周波数領域の少なくとも2つの入力オーディオ信号の相互相関関数を生成する段階と、
前記相互相関関数の値を合計することにより複素コヒーレンス値を決定する段階と、
前記複素コヒーレンス値の絶対値を決定してチャンネル間コヒーレンス値の推定値を得る段階と、
前記複素コヒーレンス値の偏角を決定してチャンネル間位相差値の推定値を得る段階と、を有することを特徴とする方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03103591 | 2003-09-29 | ||
PCT/IB2004/051775 WO2005031704A1 (en) | 2003-09-29 | 2004-09-16 | Encoding audio signals |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007507726A true JP2007507726A (ja) | 2007-03-29 |
Family
ID=34384664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006527534A Withdrawn JP2007507726A (ja) | 2003-09-29 | 2004-09-16 | オーディオ信号の符号化 |
Country Status (9)
Country | Link |
---|---|
US (1) | US7720231B2 (ja) |
EP (1) | EP1671316B1 (ja) |
JP (1) | JP2007507726A (ja) |
KR (1) | KR20060090984A (ja) |
CN (1) | CN1860526B (ja) |
AT (1) | ATE368921T1 (ja) |
DE (1) | DE602004007945T2 (ja) |
ES (1) | ES2291939T3 (ja) |
WO (1) | WO2005031704A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011527456A (ja) * | 2008-07-11 | 2011-10-27 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | オーディオのエンコーディング及びデコーディングにおける位相情報の効率的な使用 |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7240001B2 (en) * | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US7460990B2 (en) * | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
CN1985544B (zh) * | 2004-07-14 | 2010-10-13 | 皇家飞利浦电子股份有限公司 | 处理立体声下混合信号的方法、装置、编译码器和系统 |
KR100657916B1 (ko) * | 2004-12-01 | 2006-12-14 | 삼성전자주식회사 | 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법 |
EP1691348A1 (en) * | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
US7630882B2 (en) * | 2005-07-15 | 2009-12-08 | Microsoft Corporation | Frequency segmentation to obtain bands for efficient coding of digital media |
US7562021B2 (en) * | 2005-07-15 | 2009-07-14 | Microsoft Corporation | Modification of codewords in dictionary used for efficient coding of digital media spectral data |
KR101356586B1 (ko) * | 2005-07-19 | 2014-02-11 | 코닌클리케 필립스 엔.브이. | 다중 채널 오디오 신호를 생성하기 위한 디코더, 수신기 및 방법 |
ES2609449T3 (es) | 2006-03-29 | 2017-04-20 | Koninklijke Philips N.V. | Decodificación de audio |
US8346546B2 (en) * | 2006-08-15 | 2013-01-01 | Broadcom Corporation | Packet loss concealment based on forced waveform alignment after packet loss |
JP4940888B2 (ja) * | 2006-10-23 | 2012-05-30 | ソニー株式会社 | オーディオ信号伸張圧縮装置及び方法 |
CN101308655B (zh) * | 2007-05-16 | 2011-07-06 | 展讯通信(上海)有限公司 | 一种音频编解码方法与装置 |
US8107321B2 (en) * | 2007-06-01 | 2012-01-31 | Technische Universitat Graz And Forschungsholding Tu Graz Gmbh | Joint position-pitch estimation of acoustic sources for their tracking and separation |
US7761290B2 (en) | 2007-06-15 | 2010-07-20 | Microsoft Corporation | Flexible frequency and time partitioning in perceptual transform coding of audio |
US8046214B2 (en) | 2007-06-22 | 2011-10-25 | Microsoft Corporation | Low complexity decoder for complex transform coding of multi-channel sound |
US7885819B2 (en) | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
GB2453117B (en) * | 2007-09-25 | 2012-05-23 | Motorola Mobility Inc | Apparatus and method for encoding a multi channel audio signal |
US8249883B2 (en) * | 2007-10-26 | 2012-08-21 | Microsoft Corporation | Channel extension coding for multi-channel source |
US8296136B2 (en) * | 2007-11-15 | 2012-10-23 | Qnx Software Systems Limited | Dynamic controller for improving speech intelligibility |
US20100324708A1 (en) * | 2007-11-27 | 2010-12-23 | Nokia Corporation | encoder |
CN101188878B (zh) * | 2007-12-05 | 2010-06-02 | 武汉大学 | 立体声音频信号的空间参数量化及熵编码方法和所用系统 |
CN101673545B (zh) * | 2008-09-12 | 2011-11-16 | 华为技术有限公司 | 一种编解码方法及装置 |
US8452192B2 (en) * | 2008-11-28 | 2013-05-28 | Fujitsu Limited | Apparatus and method for monitoring statistical characteristics of phase noises, and coherent optical communication receiver |
CN101848412B (zh) * | 2009-03-25 | 2012-03-21 | 华为技术有限公司 | 通道间延迟估计的方法及其装置和编码器 |
US8848925B2 (en) * | 2009-09-11 | 2014-09-30 | Nokia Corporation | Method, apparatus and computer program product for audio coding |
CN102157149B (zh) | 2010-02-12 | 2012-08-08 | 华为技术有限公司 | 立体声信号下混方法、编解码装置和编解码系统 |
CN102157152B (zh) * | 2010-02-12 | 2014-04-30 | 华为技术有限公司 | 立体声编码的方法、装置 |
CN102844808B (zh) * | 2010-11-03 | 2016-01-13 | 华为技术有限公司 | 用于编码多通道音频信号的参数编码器 |
EP2638541A1 (en) * | 2010-11-10 | 2013-09-18 | Koninklijke Philips Electronics N.V. | Method and device for estimating a pattern in a signal |
EP2528358A1 (en) * | 2011-05-23 | 2012-11-28 | Oticon A/S | A method of identifying a wireless communication channel in a sound system |
US8666753B2 (en) * | 2011-12-12 | 2014-03-04 | Motorola Mobility Llc | Apparatus and method for audio encoding |
WO2013149671A1 (en) * | 2012-04-05 | 2013-10-10 | Huawei Technologies Co., Ltd. | Multi-channel audio encoder and method for encoding a multi-channel audio signal |
CN107358960B (zh) * | 2016-05-10 | 2021-10-26 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
GB2582749A (en) * | 2019-03-28 | 2020-10-07 | Nokia Technologies Oy | Determination of the significance of spatial audio parameters and associated encoding |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2729246A1 (fr) * | 1995-01-06 | 1996-07-12 | Matra Communication | Procede de codage de parole a analyse par synthese |
TW317051B (ja) * | 1996-02-15 | 1997-10-01 | Philips Electronics Nv | |
US6697491B1 (en) * | 1996-07-19 | 2004-02-24 | Harman International Industries, Incorporated | 5-2-5 matrix encoder and decoder system |
US6754630B2 (en) * | 1998-11-13 | 2004-06-22 | Qualcomm, Inc. | Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation |
US6823018B1 (en) * | 1999-07-28 | 2004-11-23 | At&T Corp. | Multiple description coding communication system |
US6728669B1 (en) * | 2000-08-07 | 2004-04-27 | Lucent Technologies Inc. | Relative pulse position in celp vocoding |
US7116787B2 (en) * | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
-
2004
- 2004-09-16 DE DE602004007945T patent/DE602004007945T2/de active Active
- 2004-09-16 US US10/573,310 patent/US7720231B2/en active Active
- 2004-09-16 CN CN2004800281847A patent/CN1860526B/zh active Active
- 2004-09-16 JP JP2006527534A patent/JP2007507726A/ja not_active Withdrawn
- 2004-09-16 ES ES04770014T patent/ES2291939T3/es active Active
- 2004-09-16 KR KR1020067006093A patent/KR20060090984A/ko not_active Application Discontinuation
- 2004-09-16 WO PCT/IB2004/051775 patent/WO2005031704A1/en active IP Right Grant
- 2004-09-16 EP EP04770014A patent/EP1671316B1/en active Active
- 2004-09-16 AT AT04770014T patent/ATE368921T1/de not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011527456A (ja) * | 2008-07-11 | 2011-10-27 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | オーディオのエンコーディング及びデコーディングにおける位相情報の効率的な使用 |
Also Published As
Publication number | Publication date |
---|---|
ATE368921T1 (de) | 2007-08-15 |
DE602004007945T2 (de) | 2008-05-15 |
EP1671316B1 (en) | 2007-08-01 |
KR20060090984A (ko) | 2006-08-17 |
US20070036360A1 (en) | 2007-02-15 |
EP1671316A1 (en) | 2006-06-21 |
WO2005031704A1 (en) | 2005-04-07 |
CN1860526B (zh) | 2010-06-16 |
DE602004007945D1 (de) | 2007-09-13 |
ES2291939T3 (es) | 2008-03-01 |
US7720231B2 (en) | 2010-05-18 |
CN1860526A (zh) | 2006-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007507726A (ja) | オーディオ信号の符号化 | |
JP7091411B2 (ja) | マルチチャネル信号の符号化方法およびエンコーダ | |
US10469978B2 (en) | Audio signal processing method and device | |
JP6641018B2 (ja) | チャネル間時間差を推定する装置及び方法 | |
JP5498525B2 (ja) | 空間的オーディオのパラメータ表示 | |
EP1649723B1 (en) | Multi-channel synthesizer and method for generating a multi-channel output signal | |
TWI714046B (zh) | 用於估計聲道間時間差的裝置、方法或計算機程式 | |
JP5724044B2 (ja) | 多重チャネル・オーディオ信号の符号化のためのパラメトリック型符号化装置 | |
WO2018188424A1 (zh) | 多声道信号的编解码方法和编解码器 | |
JP2011043853A (ja) | 符号化装置、復号化装置、およびこれらの方法 | |
JP6487569B2 (ja) | チャネル間時間差パラメータを決定するための方法および装置 | |
WO2017206416A1 (zh) | 一种声道间相位差参数的提取方法及装置 | |
EP2489036B1 (en) | Method, apparatus and computer program for processing multi-channel audio signals | |
JP2006325162A (ja) | バイノーラルキューを用いてマルチチャネル空間音声符号化を行うための装置 | |
RU2641463C2 (ru) | Структура декоррелятора для параметрического восстановления звуковых сигналов | |
JP2006323314A (ja) | マルチチャネル音声信号をバイノーラルキュー符号化する装置 | |
JP2017058696A (ja) | インターチャネル差分推定方法及び空間オーディオ符号化装置 | |
CN105336334B (zh) | 多声道声音信号编码方法、解码方法及装置 | |
CN107358961B (zh) | 多声道信号的编码方法和编码器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070914 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20090911 |