JP2005533271A - オーディオ符号化 - Google Patents
オーディオ符号化 Download PDFInfo
- Publication number
- JP2005533271A JP2005533271A JP2004520996A JP2004520996A JP2005533271A JP 2005533271 A JP2005533271 A JP 2005533271A JP 2004520996 A JP2004520996 A JP 2004520996A JP 2004520996 A JP2004520996 A JP 2004520996A JP 2005533271 A JP2005533271 A JP 2005533271A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- transient
- audio signal
- time
- sets
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000001052 transient effect Effects 0.000 claims abstract description 72
- 230000005236 sound signal Effects 0.000 claims description 39
- 238000000034 method Methods 0.000 claims description 35
- 238000005314 correlation function Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000004807 localization Effects 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 5
- 239000010410 layer Substances 0.000 description 37
- 238000013139 quantization Methods 0.000 description 25
- 230000000875 corresponding effect Effects 0.000 description 19
- 230000007704 transition Effects 0.000 description 14
- 239000002356 single layer Substances 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000035945 sensitivity Effects 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 238000002156 mixing Methods 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 241001123248 Arma Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
バイノーラルステレオ符号化において、1つのモノラルチャンネルだけが符号化される。付加的レイヤーは左右の信号を再生するパラメータを保持する。エンコーダが開示されている。このエンコーダは、モノラルの符号化信号から抽出したトランジェント情報をパラメトリックマルチチャンネルレイヤーにリンクさせ、性能を上げる。トランジェントの位置は、ビットストリームから直接導き出してもよいし、他の符号化パラメータ(例えば、mp3におけるウィンドウスイッチングフラグ)から予測してもよい。
Description
MPEG-LII、mp3、AAC(MPEG-2アドバンストオーディオコーディング)等の従来の波形ベースのオーディオ符号化方法においては、ステレオ信号の符号化は、2つのモノラルオーディオ信号を1つのビットストリームに符号化することにより行われる。しかし、ミッド/サイドステレオ符号化やインテンシティ符号化等の方法とともにチャンネル間の相関と無関係性を利用することにより、ビットレートを節約することができる。
ミッド/サイドステレオ符号化の場合、モノラルのコンテント量が多いステレオ信号は、和信号M=(L+R)/2と差信号S=(L-R)/2に分離することができる。こうして分離した信号は、主成分分析または時間変動スケールファクターと組み合わせられることもある。そして、パラメトリックコーダまたは波形コーダ(例えばトランスフォームまたはサブバンドコーダ)により、信号を独立に符号化する。この方法によると、周波数領域によっては、M信号(またはS信号)のいずれかのエネルギーがS信号(またはM信号)のエネルギーを若干上回る。しかし、周波数領域によっては、M信号またはS信号のいずれかのエネルギーを大きく減らすことができる。この方法によりどのくらい情報量を減らすことができるかは、ソース信号の空間的特性に強く依存する。例えば、ソース信号がモノラルの場合、差信号はゼロであり、無視することができる。しかし、左右のオーディオ信号の相関が低いとき(高い周波数領域でしばしば起こる)、この方法はあまり有利ではない。
インテンシティステレオ符号化の場合、周波数領域によっては、1つの信号I=(L+R)/2だけがL信号とR信号の強度情報とともに符号化される。デコーダ側では、この信号IがL信号とR信号の強度情報でスケーリングされた後、L信号とR信号として使用される。この方法では、高い周波数(一般的には5kHzより上)は単一のオーディオ信号(すなわちモノラル)により表され、時間変動かつ周波数依存スケールファクターと組み合わされる。
近年、オーディオ信号のパラメトリック表示が、特にオーディオ符号化の分野で、注目されている。オーディオ信号を表す(量子化された)パラメータの送信にはほとんど送信容量を必要とせず、受信側で聞いても違いが分からない信号を再合成することができることが示された。しかし、現在のパラメトリックオーディオコーダではモノラル信号の符号化に重点が置かれており、ステレオ信号は2つのモノラル信号として処理されることが多い。
EP-A-1107232には、左チャンネル信号と右チャンネル信号からなるステレオオーディオ信号の表示を生成するパラメトリック符号化方法が開示されている。送信帯域幅を効率的に利用するため、この表示には、左チャンネル信号または右チャンネル信号いずれかのモノラル信号だけに関する情報と、パラメトリック情報とが含まれている。他のステレオ信号はモノラル信号とパラメトリック情報に基づき再生できる。そのパラメトリック情報は、ステレオオーディオ信号のローカライゼーションキューを有し、左右チャンネルの強度と位相特性が含まれている。
バイノーラルステレオ符号化においては、インテンシティステレオ符号化と同様に、1つのモノラルチャンネルだけが符号化される。付加的なサイド情報は、左右の信号を再生するパラメータを有している。2002年4月に出願された欧州特許出願第02076588.9号(Attorney Docket No. PHNL020356)には、マルチチャンネルオーディオのパラメトリック表示が開示されている。このパラメトリック表示は、以下の文献に提示されたバイノーラル処理モデルに関する:Breebaart et al,「反対側性抑制に基づくバイノーラル処理モデル I.モデル設定」、J. Acoust. Soc. Am., 110, 1074-1088, Aug. 2001;「反対側性抑制に基づくバイノーラル処理モデル II.空間的パラメータへの依存性」, J. Acoust. Soc. Am., 110, 1089-1104, Aug. 2001;「反対側性抑制に基づくバイノーラル処理モデル III.時間的パラメータへの依存性」, J. Acoust. Soc. Am., 110, 1105-1117, Aug. 2001。これらはバイノーラル処理モデルを開示している。このバイノーラル処理モデルは、入力オーディオ信号を帯域限定信号に分割するステップを有する。この帯域限定信号は、ERB(等価方形帯域幅)レートスケールで線形に離間している。この信号の帯域幅は、中心周波数に依存し、ERBレートに従う。その後、すべての周波数帯域について、入来信号について以下の特性が分析される:
−両耳間レベル差(ILD)。これは左右の耳により起こる帯域限定信号の相対的レベルとして定義される。
−両耳間時間差(ITDまたはIPD)。これは両耳間相互相関関数のピークに対応する両耳間遅延(位相シフト)として定義される。
−ITDやILDによっては説明できない波形の(非)類似性。これは最大両耳間相互相関(すなわち、最大ピーク位置における相互相関値)によりパラメータ表示できる。
上記の開示から分かることは、ILD、ITD(またはIPD)、および最大相互相関を時間および周波数の関数として特定してやれば、マルチチャンネルオーディオ信号はいかなるものであっても、その空間的特性を記述することができるということである。
−両耳間レベル差(ILD)。これは左右の耳により起こる帯域限定信号の相対的レベルとして定義される。
−両耳間時間差(ITDまたはIPD)。これは両耳間相互相関関数のピークに対応する両耳間遅延(位相シフト)として定義される。
−ITDやILDによっては説明できない波形の(非)類似性。これは最大両耳間相互相関(すなわち、最大ピーク位置における相互相関値)によりパラメータ表示できる。
上記の開示から分かることは、ILD、ITD(またはIPD)、および最大相互相関を時間および周波数の関数として特定してやれば、マルチチャンネルオーディオ信号はいかなるものであっても、その空間的特性を記述することができるということである。
このパラメトリック符号化方法により、一般的なオーディオ信号を質のよいものとすることができる。しかし、特に高い非定常性を有する信号、例えばカスタネット、ハープシコード、グロッケンシュピールの信号等においては、この方法はプリエコーアーティファクトの問題を生じる。
本発明の目的は、パラメトリックマルチチャンネル符号化に関係するアーティファクトを軽減する、オーディオコーダ、デコーダ、およびこれに対応する方法を提供することである。
本発明によると、請求項1に記載の、オーディオ信号を符号化する方法と、請求項13に記載の、ビットストリームを復号する方法とが提供される。
本発明の一態様によると、マルチチャンネルオーディオ信号の空間的属性がパラメータ表示される。その空間的属性は、レベル差、時間差、および左右信号の相関を有することが好ましい。
本発明を用いて、トランジェント位置が直接的または間接的にモノラル信号から抽出され、パラメータ表示されたマルチチャンネル表示レイヤーにリンクされる。このパラメータ表示されたマルチチャンネルレイヤー中のトランジェント情報を利用して、性能を向上させる。
多数のオーディオコーダにおいて、トランジェント情報を用いて符号化プロセスの性能をよくしている。例えば、WO01/69593-A1に開示されたシヌソイドコーダでは、ビットストリーム中のトランジェント位置を符号化する。そのコーダは、このトランジェント位置を用いてビットストリームを適応的にセグメント化する(適応的フレーミング)。また、デコーダにおいて、この位置を用いて、シヌソイドおよびノイズの合成をするウィンドウをガイドする。しかし、これらの方法は、モノラル信号に限定されている。
本発明の好ましい実施形態において、モノラルコンテントが上記のシヌソイドコーダにより生成されたビットストリームを復号するとき、トランジェント位置をビットストリームから直接導くことができる。
mp3やAAC等の波形コーダの場合、トランジェント位置はビットストリームには直接的には符号化されない。例えば、mp3の場合、トランジェントインターバルはモノラルレイヤー内のより短いウィンドウ長に切り替える(ウィンドウ切り替え)ことによりマークされる。よって、トランジェント位置はmp3ウィンドウ切り替えフラグ等のパラメータから推定することができる。
図1を参照して、本発明の好ましい実施形態による、左右の入力信号からなるステレオオーディオ信号を符号化するエンコーダ10が示されている。好ましい実施形態において、2002年4月に出願された欧州特許出願第02076588.9号(Attorney Docket No. PHNL020356)に開示されたように、エンコーダはマルチチャンネルオーディオ信号を生成する。そのマルチチャンネルオーディオ信号は、複数の入力オーディオ信号の組み合わせからなる1つのモノラル信号12と、チャンネルごとに一組の空間的パラメータ14とを有する。この一組の空間的パラメータ14は、2つのローカライゼーションキュー(ILD、およびITDまたはIPD)と、好ましくはすべての時間/周波数スロットについて、ILDおよび/またはITD(例えば、相互相関関数の最大値)では説明できない、波形の類似性または非類似性を記述するパラメータ(r)とを有する。
一組の空間的パラメータは、オーディオコーダの拡張レイヤーとして用いることができる。例えば、モノラル信号が送信されるのはビットレートを低くせざるを得ないときである。しかし、空間的拡張レイヤーを含めることにより、デコーダはステレオやマルチチャンネルのサウンドを再生することができる。
本実施形態においては、一組の空間的パラメータがモノラル(単一チャンネル)オーディオコーダと組み合わされ、ステレオオーディオ信号を符号化するが、このアイデアはnチャンネル(n>1)オーディオ信号に一般化できることが分かる。よって、(n-1)組の空間的パラメータが送信されたとき、本発明を用いて、1つのモノラル信号からnチャンネルの信号を生成することができる。この場合、空間的パラメータは単一のモノラル信号からn個の異なるオーディオチャンネルをどのように形成するかを説明する。よって、デコーダにおいては、一組の空間的パラメータをモノラルで符号化された信号と組み合わせることによって、後続のチャンネルが形成される。
分析方法
一般的に、エンコーダ10は変換モジュール20を有する。各変換モジュール20は、(左右)それぞれの入来信号をサブバンド信号16に分離する(帯域幅は周波数が高くなるに従って広くなることが好ましい)。好ましい実施形態において、モジュール20は、時間ウィンドウにより時間/周波数スライシングをする変換動作をするが、連続時間法を用いてもよい(例えば、フィルターバンク)。
分析方法
一般的に、エンコーダ10は変換モジュール20を有する。各変換モジュール20は、(左右)それぞれの入来信号をサブバンド信号16に分離する(帯域幅は周波数が高くなるに従って広くなることが好ましい)。好ましい実施形態において、モジュール20は、時間ウィンドウにより時間/周波数スライシングをする変換動作をするが、連続時間法を用いてもよい(例えば、フィルターバンク)。
次のステップである和信号12を決定するステップと、パラメータ14を抽出するステップとは、分析モジュール18内で実行され、以下のステップを有する。
−対応するサブバンド信号16のレベル差(ILD)を見出すステップ、
−対応するサブバンド信号16の時間差(ITDまたはIPD)を見出すステップ、および
−ILDまたはITDにより説明できない、波形の類似性または非類似性の量を記述するステップ。
ILDの分析
ILDはある時刻におけるある周波数帯域の信号のレベル差により決定される。ILDを決定する方法の1つは、両方の入力チャンネルの対応する周波数帯域の2乗平均値を測定し、その比を計算することである(dB単位で表すことが好ましい)。
ITDの分析
ITDは、両チャンネルの波形が最もよく一致する時間または位相のアライメントにより決定される。ITDを求める方法の1つは、2つの対応するサブバンド信号間の相互相関関数を計算し、その最大値を探すことである。その相互相関関数の最大値に対応する遅れをITD値として用いることができる。
−対応するサブバンド信号16のレベル差(ILD)を見出すステップ、
−対応するサブバンド信号16の時間差(ITDまたはIPD)を見出すステップ、および
−ILDまたはITDにより説明できない、波形の類似性または非類似性の量を記述するステップ。
ILDの分析
ILDはある時刻におけるある周波数帯域の信号のレベル差により決定される。ILDを決定する方法の1つは、両方の入力チャンネルの対応する周波数帯域の2乗平均値を測定し、その比を計算することである(dB単位で表すことが好ましい)。
ITDの分析
ITDは、両チャンネルの波形が最もよく一致する時間または位相のアライメントにより決定される。ITDを求める方法の1つは、2つの対応するサブバンド信号間の相互相関関数を計算し、その最大値を探すことである。その相互相関関数の最大値に対応する遅れをITD値として用いることができる。
方法の2つめは、左右のサブバンドの信号を計算し(すなわち、位相とエンベロープ値を計算し)、チャンネル間の位相差をIPDパラメータとして用いることである。ここで、複雑なフィルターバンク(例えばFFT)を用い、あるビン(周波数領域)に注目することにより、時間にわたる位相関数を導くことができる。これを左右のチャンネルについて行うことにより、位相差IPD(2つのフィルターされた信号を相互相関するのではなく)を推定することができる。
相関の分析
相関は、まず、対応するサブバンド信号が最も良くマッチするILDおよびITDを見出し、そのITDおよび/またはILDを補償した後、波形の類似性を測定することにより求められる。よって、このフレームワークにおいては、相関は、ILDおよび/またはITDで説明できない、対応するサブバンド信号の類似性または非類似性として定義される。このパラメータの測定基準は、相互相関関数の最大値(すなわち、一組の遅延の最大値)であることが好適である。しかし、他の測定基準を用いることもできる。例えば、ILDおよび/またはITD補償後の差信号の、対応するサブバンドの和信号(ILDおよび/またはITDについて補償されていることが好ましい)に対する相対的エネルギーなどである。この差パラメータは、基本的には、(最大)相関の線形変換である。
パラメータ量子化
パラメータの送信に関して重要な問題は、そのパラメータが正しく表示されているかどうか(すなわち、量子化エラーの大きさ)である。これは、必要となる送信キャパシティとオーディオ品質とに直接関係している。このセクションでは、空間的パラメータの量子化について、いくつかの問題点を説明する。基本的なアイデアとしては、量子化エラーを空間的キューのいわゆる顕著な違いのみ(just-noticeable differences (JND))に基づかせることである。より具体的にいうと、量子化エラーは、パラメータの変化に対する人間の聴覚システムの感度により決定される。パラメータの変化に対する感度はパラメータの値そのものに強く依存することは周知であり、以下の方法で離散的な量子化ステップを決定することができる。
ILDの量子化
IIDの変化に対する感度はILD自体に依存することが、音響心理学の研究により知られている。ILDをdBで表したとき、0dBを基準として1dBの違いは検出可能である。しかし、20dBをレベル差の基準とすると、検出可能な変化は3dBのオーダーである。それゆえ、左右のチャンネルの信号が大きなレベル差を有せば、量子化エラーはより大きくすることができる。例えば、このことを適用して、まず、チャンネル間のレベル差を測定し、得られたレベル差を非線形(圧縮)変換し、その後量子化する。または、非線形の分布をしたILD値のルックアップテーブルを用いる。好ましい実施形態においては、ILDは次の集合I
I=[-19、-16、-13、-10、-8、-6、-4、-2、0、2、4、6、8、10、13、16、19]
中の最も近い値に量子化される。
ITDの量子化
被験者のITDの変化に対する感度は、一定の位相の閾値を有するものとして特徴付けることができる。遅延時間に関して、周波数が上がればITDの量子化ステップは減少する。あるいは、ITDが位相差の形式で表されているとき、量子化ステップは周波数には依存しない。実装方法の1つとして、量子化ステップとして位相差を固定し、各周波数帯域について対応する時間遅延を決定する。このITD値を量子化ステップとして用いる。好ましい実施形態において、ITD量子化ステップを、0.1ラジアン(rad)のサブバンドごとに一定の位相差としてもよい。よって、各サブバンドについて、サブバンドの中心周波数の0.1ラジアンに対応する時間差を量子化ステップとして用いる。2kHzより上の周波数については、ITD情報は送信しない。
相関の分析
相関は、まず、対応するサブバンド信号が最も良くマッチするILDおよびITDを見出し、そのITDおよび/またはILDを補償した後、波形の類似性を測定することにより求められる。よって、このフレームワークにおいては、相関は、ILDおよび/またはITDで説明できない、対応するサブバンド信号の類似性または非類似性として定義される。このパラメータの測定基準は、相互相関関数の最大値(すなわち、一組の遅延の最大値)であることが好適である。しかし、他の測定基準を用いることもできる。例えば、ILDおよび/またはITD補償後の差信号の、対応するサブバンドの和信号(ILDおよび/またはITDについて補償されていることが好ましい)に対する相対的エネルギーなどである。この差パラメータは、基本的には、(最大)相関の線形変換である。
パラメータ量子化
パラメータの送信に関して重要な問題は、そのパラメータが正しく表示されているかどうか(すなわち、量子化エラーの大きさ)である。これは、必要となる送信キャパシティとオーディオ品質とに直接関係している。このセクションでは、空間的パラメータの量子化について、いくつかの問題点を説明する。基本的なアイデアとしては、量子化エラーを空間的キューのいわゆる顕著な違いのみ(just-noticeable differences (JND))に基づかせることである。より具体的にいうと、量子化エラーは、パラメータの変化に対する人間の聴覚システムの感度により決定される。パラメータの変化に対する感度はパラメータの値そのものに強く依存することは周知であり、以下の方法で離散的な量子化ステップを決定することができる。
ILDの量子化
IIDの変化に対する感度はILD自体に依存することが、音響心理学の研究により知られている。ILDをdBで表したとき、0dBを基準として1dBの違いは検出可能である。しかし、20dBをレベル差の基準とすると、検出可能な変化は3dBのオーダーである。それゆえ、左右のチャンネルの信号が大きなレベル差を有せば、量子化エラーはより大きくすることができる。例えば、このことを適用して、まず、チャンネル間のレベル差を測定し、得られたレベル差を非線形(圧縮)変換し、その後量子化する。または、非線形の分布をしたILD値のルックアップテーブルを用いる。好ましい実施形態においては、ILDは次の集合I
I=[-19、-16、-13、-10、-8、-6、-4、-2、0、2、4、6、8、10、13、16、19]
中の最も近い値に量子化される。
ITDの量子化
被験者のITDの変化に対する感度は、一定の位相の閾値を有するものとして特徴付けることができる。遅延時間に関して、周波数が上がればITDの量子化ステップは減少する。あるいは、ITDが位相差の形式で表されているとき、量子化ステップは周波数には依存しない。実装方法の1つとして、量子化ステップとして位相差を固定し、各周波数帯域について対応する時間遅延を決定する。このITD値を量子化ステップとして用いる。好ましい実施形態において、ITD量子化ステップを、0.1ラジアン(rad)のサブバンドごとに一定の位相差としてもよい。よって、各サブバンドについて、サブバンドの中心周波数の0.1ラジアンに対応する時間差を量子化ステップとして用いる。2kHzより上の周波数については、ITD情報は送信しない。
他の方法としては、周波数に依存しない量子化方法による位相差を送信してもよい。人間の聴覚システムは、ある周波数より上では、波形の微細構造におけるITDには敏感ではないことが知られている。この現象を利用して、ある周波数(一般的には2kHz)までのITDパラメータを送信する。
ビットストリームを減らす第3の方法は、ILDおよび/または同じサブバンドの相関パラメータに依存するITD量子化ステップを組み込むことである。ILDが大きければ、ITDの符号化は正確でなくてもよい。さらにまた、相関が非常に低いとき、ITDの変化に対する感度は低くなることが知られている。よって、相関が小さいときには、ITDの量子化エラーが大きくてもよい。このアイデアの極端な例として、相関がある閾値よりも低いときは、ITDをまったく送信しなくてもよい。
相関の量子化
相関の量子化エラーは、(1)相関値そのもの、および可能性として(2)ILDに依存する。相関値が+1に近いと非常に正確に符号化され(すなわち、量子化ステップが小さい)、相関値が0に近いと符号化の正確性が低くなる(量子化ステップが大きくなる)。好ましい実施形態において、非線形に分布した一組の相関値(r)が次のアンサンブルR
R=[1、0.95、0.9、0.82、0.75、0.6、0.3、0]
の一番近い値に量子化される。この量子化には相関値あたり3ビットかかる。
相関の量子化
相関の量子化エラーは、(1)相関値そのもの、および可能性として(2)ILDに依存する。相関値が+1に近いと非常に正確に符号化され(すなわち、量子化ステップが小さい)、相関値が0に近いと符号化の正確性が低くなる(量子化ステップが大きくなる)。好ましい実施形態において、非線形に分布した一組の相関値(r)が次のアンサンブルR
R=[1、0.95、0.9、0.82、0.75、0.6、0.3、0]
の一番近い値に量子化される。この量子化には相関値あたり3ビットかかる。
カレントサブバンドの(量子化された)ILDの絶対値が19dBになったとき、このサブバンドのITDと相関値は送信されない。あるサブバンドの(量子化された)相関値がゼロのとき、そのサブバンドのITD値は送信されない。
このように、各フレームについて空間的パラメータを送信するのに233ビットかかる。更新フレーム長が1024サンプルかつサンプリングレートが44.1kHzのとき、送信ビットレートの最大値は10.25kbit/secより小さい[233*44100/1024=10.034kbit/s]。(エントロピー符号化または差分符号化を用いるとこのビットレートはさらに減らすことができる。)
第2の可能性として、同じサブバンドについて測定されたILDに依存する相関の量子化ステップを用いる。ILDが大きいとき(すなわち、エネルギーに関して1つのチャンネルが支配的であるとき)、相関の量子化エラーは大きくなる。この原理の極端な例として、そのサブバンドのIIDの絶対値がある閾値より大きいとき、そのサブバンドの相関値はまったく送信しない。
詳細な実施
より詳細に、モジュール20において、左右の入来信号は時間フレーム(44.1kHzサンプリングレートで2048サンプル)に分けられ、平方根ハニングウィンドウでウィンドウが開けられる。その後、FFTが計算される。負のFFT周波数は捨てられ、その結果得られるFFTがグループまたはFFTビンのサブバンド16に分割される。サブバンドgにまとめられるFFTビンの数は周波数に依存する。高い周波数では低い周波数よりより多くのビンがまとめられる。現行の実施においては、約1.8ERBに対応するFFTビンがグループ化され、可聴周波数範囲全体を20個のサブバンドで表す。(最低周波数から始まる)各後続サブバンドのFFTビンS[g]の数は、
S=[4 4 4 5 6 8 9 12 13 17 21 25 30 38 45 55 68 82 100 477]
である。最初の3つのサブバンドはFFTビンを4つずつ含んでおり、4つめのサブバンドはFFTビンを5つ含んでいる、等である。各サブバンドについて、分析モジュール18は対応するILD、ITD、相関(r)を計算する。ITDと相関は他のグループに属するFFTビンをすべてゼロに設定し、左右チャンネルの(帯域制限された)FFTを乗算し、逆FFT変換をすることにより簡単に計算できる。結果として得られる相互相関関数をスキャンして、-64と+63のチャンネル間遅延内のピークを探す。ピークに対応する内部遅延はITD値として用い、このピークにおける相互相関関数の値はこのサブバンドにおけるインターオーラル相関として用いられる。最後に、ILDが各サブバンドの左右チャンネルのパワー比を取ることにより簡単に計算される。
和信号の生成
アナライザ18は和信号ジェネレータ17を含む。和信号ジェネレータ17は、左右のサブバンドに位相訂正(時間的アライメント)を施してから信号を加算する。この位相訂正は、そのサブバンドについて計算されたITDにより行われ、左チャンネルサブバンドをITD/2、右チャンネルサブバンドを-ITD/2遅延させるステップを有する。各FFTビンの位相角を適当に修正することにより、周波数ドメインにおいて遅延を実行する。その後、位相修正した左右サブバンド信号を加えて和信号を計算する。最後に、相関されていない和信号または相関された和信号を補償するため、和信号の各サブバンドにsqrt(2/(1+r))をかけ、最終的な和信号12を生成する。ここでrは対応するサブバンドの相関である。必要なら、(1)負の周波数に共役複素数を代入し、(2)逆FFTを施し、(3)ウィンドウを開け、(4)加算することによって、和信号を時間ドメインに変換することもできる。
第2の可能性として、同じサブバンドについて測定されたILDに依存する相関の量子化ステップを用いる。ILDが大きいとき(すなわち、エネルギーに関して1つのチャンネルが支配的であるとき)、相関の量子化エラーは大きくなる。この原理の極端な例として、そのサブバンドのIIDの絶対値がある閾値より大きいとき、そのサブバンドの相関値はまったく送信しない。
詳細な実施
より詳細に、モジュール20において、左右の入来信号は時間フレーム(44.1kHzサンプリングレートで2048サンプル)に分けられ、平方根ハニングウィンドウでウィンドウが開けられる。その後、FFTが計算される。負のFFT周波数は捨てられ、その結果得られるFFTがグループまたはFFTビンのサブバンド16に分割される。サブバンドgにまとめられるFFTビンの数は周波数に依存する。高い周波数では低い周波数よりより多くのビンがまとめられる。現行の実施においては、約1.8ERBに対応するFFTビンがグループ化され、可聴周波数範囲全体を20個のサブバンドで表す。(最低周波数から始まる)各後続サブバンドのFFTビンS[g]の数は、
S=[4 4 4 5 6 8 9 12 13 17 21 25 30 38 45 55 68 82 100 477]
である。最初の3つのサブバンドはFFTビンを4つずつ含んでおり、4つめのサブバンドはFFTビンを5つ含んでいる、等である。各サブバンドについて、分析モジュール18は対応するILD、ITD、相関(r)を計算する。ITDと相関は他のグループに属するFFTビンをすべてゼロに設定し、左右チャンネルの(帯域制限された)FFTを乗算し、逆FFT変換をすることにより簡単に計算できる。結果として得られる相互相関関数をスキャンして、-64と+63のチャンネル間遅延内のピークを探す。ピークに対応する内部遅延はITD値として用い、このピークにおける相互相関関数の値はこのサブバンドにおけるインターオーラル相関として用いられる。最後に、ILDが各サブバンドの左右チャンネルのパワー比を取ることにより簡単に計算される。
和信号の生成
アナライザ18は和信号ジェネレータ17を含む。和信号ジェネレータ17は、左右のサブバンドに位相訂正(時間的アライメント)を施してから信号を加算する。この位相訂正は、そのサブバンドについて計算されたITDにより行われ、左チャンネルサブバンドをITD/2、右チャンネルサブバンドを-ITD/2遅延させるステップを有する。各FFTビンの位相角を適当に修正することにより、周波数ドメインにおいて遅延を実行する。その後、位相修正した左右サブバンド信号を加えて和信号を計算する。最後に、相関されていない和信号または相関された和信号を補償するため、和信号の各サブバンドにsqrt(2/(1+r))をかけ、最終的な和信号12を生成する。ここでrは対応するサブバンドの相関である。必要なら、(1)負の周波数に共役複素数を代入し、(2)逆FFTを施し、(3)ウィンドウを開け、(4)加算することによって、和信号を時間ドメインに変換することもできる。
上で説明したように、時間および/または周波数ドメインにおける和信号12の表現を与えられたとき、信号はたくさんある従来の方法を用いてビットストリーム50のモノラルレイヤー40で符号化することができる。例えば、mp3エンコーダを用いて、ビットストリームのモノラルレイヤー40を生成することができる。入力信号が急激に変化したことを上記エンコーダが検出したとき、その時間期間に利用するウィンドウの長さを変更し、入力信号のその部分を符号化するときに時間または周波数の定位を改善することができる。ウィンドウ切り替えフラグをビットストリームに内蔵し、後で信号を合成するデコーダにこの切り替えを示す。本発明の目的のために、このウィンドウ切り替えフラグは、入力信号中の推定されたトランジェント位置として用いられる。
しかし、好ましい実施形態においては、WO01/69593-A1に記述されたタイプのシヌソイドコーダ30を用いて、モノラルレイヤー40を生成する。このコーダ30は、トランジェントコーダ11、シヌソイドコーダ13、およびノイズコーダ15を有する。
信号12がトランジェントコーダ11に入力されると、各更新期間において、コーダはトランジェント信号成分があるかどうか、および分析ウィンドウ内でのそのトランジェント信号成分の位置を(サンプル精度まで)推定する。トランジェント信号成分の位置が決定されると、コーダ11はそのトランジェント信号成分(の主要部分)の抽出を試みる。好ましくは推定された開始位置で始まる信号セグメントに形状関数をマッチさせ、例えば多(小)数のシヌソイド成分を用いてこの形状関数の下にあるコンテントを決定する。この情報はトランジェントコードCTに含まれる。
和信号12からトランジェント成分を引いた信号が、シヌソイドコーダ13に供給され、分析されて、(決定論的)シヌソイド成分が決定される。簡単に言えば、シヌソイドコーダは、入力信号を1つのフレームセグメントから次のフレームセグメントへリンクしたシヌソイド成分のトラックとして符号化する。このトラックは最初、あるセグメント(誕生)で始まるシヌソイドのスタート周波数、スタート振幅、スタート位相により表される。その後は、トラックが終了するセグメント(死)まで、トラックは後続セグメントにおいては周波数差、振幅差、および位相差により表される。この情報はシヌソイドコードCSに含まれる。
この信号からトランジェント成分とシヌソイド成分を引いた信号は、主にノイズ成分を有すると仮定され、好ましい実施形態のノイズアナライザ15がこのノイズを表すノイズコードCNを生成する。従来、例えばWO01/89086-A1に開示されたように、ノイズのスペクトルは、ノイズコーダおよびこれに組み込まれた、等価方形帯域幅(ERB)スケールによる、AR(自己回帰)MA(移動平均)フィルターパラメータ(pi、qi)によりモデル化されている。デコーダにおいて、フィルターパラメータはノイズシンセサイザに入力される。このノイズシンセサイザは、主にフィルターであり、ノイズのスペクトルと近似した周波数応答を有する。該シンセサイザはARMAフィルターパラメータ(pi、qi)で白色ノイズ信号をフィルターすることによりノイズを再構成し、合成されたトランジェント信号およびシヌソイド信号にこのノイズを加え、オリジナルの和信号を推測する。
マルチプレクサー41は、モノラルオーディオレイヤー40を生成する。このモノラルオーディオレイヤー40はフレーム42に分割される。フレーム42は16msの時間セグメントが重複しており、8msごとに更新される(図4参照)。各フレームはそれぞれのコードCT、CS、CNを含み、デコーダにおいてモノラルの和信号を合成するとき、連続するフレームのコードは重複領域では混ざり合う。本実施形態においては、各フレームはトランジットコードは1つまで含み、トランジットの例は参照符号44により示されている。
空間的パラメータの生成
アナライザ18は空間的パラメータレイヤージェネレータ19をさらに有する。この構成要素は、上で説明したように、各空間的パラメータフレームの空間的パラメータを量子化する。一般的に、ジェネレータ19は各空間的レイヤーチャンネル14をフレーム46に分割する。そのフレーム46は、64msの時間が重なっており、32msごとに更新される(図4参照)。各フレームはそれぞれのILD、ITDまたはIPD、および相関係数を含む。デコーダにおいて、後続フレームの値が重複した領域で混ぜ合わされ、信号が合成されるときに空間的レイヤーパラメータが決定される。
空間的パラメータの生成
アナライザ18は空間的パラメータレイヤージェネレータ19をさらに有する。この構成要素は、上で説明したように、各空間的パラメータフレームの空間的パラメータを量子化する。一般的に、ジェネレータ19は各空間的レイヤーチャンネル14をフレーム46に分割する。そのフレーム46は、64msの時間が重なっており、32msごとに更新される(図4参照)。各フレームはそれぞれのILD、ITDまたはIPD、および相関係数を含む。デコーダにおいて、後続フレームの値が重複した領域で混ぜ合わされ、信号が合成されるときに空間的レイヤーパラメータが決定される。
好ましい実施形態において、モノラルレイヤー40においてトランジェントコーダ11により(または和信号12において対応するアナライザモジュールにより)検出されたトランジェントの位置はジェネレータ19により用いられ、空間的パラメータレイヤー14を一様でなく時間セグメント化することが必要かどうかを決定する。エンコーダがmp3コーダを用いてモノラルレイヤーを生成するときは、ジェネレータはモノラルストリーム中のウィンドウ切り替えフラグによりトランジェントの位置を推定する。
図4を参照して、ジェネレータ19は、フレームを生成しようとしている空間的パラメータレイヤーの時間ウィンドウに対応するモノラルレイヤーの後続フレームの1つにおいてトランジェント44が符号化される必要があるとの表示を受け取る。各空間的パラメータレイヤーは時間セグメントが重複したフレームを有するので、ジェネレータはいつも1つの空間的パラメータレイヤーにつき2つのフレームを生成することが分かる。いかなる場合も、ジェネレータは、トランジェント位置の周りの、より短いウィンドウ48を表すフレームの空間的パラメータを生成する。このフレームは、通常の空間的パラメータレイヤーフレームと同じフォーマットであり、同様に計算されるが、トランジェント位置44の周りのより短い時間ウィンドウに関するものである点が異なることに注意すべきである。フレームのウィンドウ長が短いと、マルチチャンネル画像の時間的分解能が向上する。トランジェントウィンドウフレームの前後で生成されたフレームを用いて、特殊な遷移ウィンドウ47と49を表す。この遷移ウィンドウ47、49は、短いトランジェントウィンドウ48を通常フレームで表されるウィンドウ46に接続する。
好ましい実施形態において、トランジェントウィンドウ48を表すフレームは、空間的表現レイヤービットストリーム14中の付加的フレームであるが、トランジェントの頻度は余り高くないので、ビットレート全体への影響は少ない。それにもかかわらず、この好ましい実施形態を用いて生成されたビットストリームを読むデコーダは、この付加的フレームを考慮に入れることが重要である。さもなければ、モノラルレイヤーおよび空間的表現レイヤーの同期に影響があるからである。
本実施形態における仮定として、トランジェントは頻繁には発生しないので、通常のフレーム46のウィンドウ内のただ1つのトランジェントは、空間的パラメータレイヤー表示に関係する。通常のフレームの期間中にたとえ2つのトランジェントが発生したとしても、図3に示したように、第1のトランジェントの周りで一様でないセグメント化がおこるものと仮定する。ここでは、3つのトランジェント44がそれぞれのモノラルフレーム内で符号化されていることが示されている。しかし、第3のトランジェントではなく第2のトランジェントが用いられ、トランジェントウィンドウがエンコーダにより挿入された付加的空間的パラメ―タレイヤーフレームから導かれる前の、かつ第2のトランジションウィンドウを表すフレームが後に続く、(このトランジェントの下に示した)同じ時間期間を第1のトランジションウィンドウとして用いるべきことを示す。
それでもなお、図3の第1のトランジェントの場合のように、モノラルレイヤーで符号化されたトランジェントの位置はすべて、空間的パラメータレイヤーに関係する。よって、モノラルレイヤーまたは空間的表示レイヤーのいずれかのビットストリームシンタックスは、空間的表示レイヤーに関係するトランジェント位置または関係しないトランジェント位置の表示を含んでもよい。
好ましい実施形態において、ジェネレータ19が空間的表示レイヤーのトランジェントの関係性を決定する。この決定は、トランジェント位置44を取り囲む大きなウィンドウ(例えば、1024サンプル)から、またはトランジェント位置の周りのより短いウィンドウ48から導かれた推定空間的パラメータ(ILD、ITD、および相関(r))の間の差異を見ることにより行う。短い時間期間と粗い時間期間からのパラメータ間に大きな変化があるとき、トランジェント位置の周りで推定された余分な空間的パラメータが、短い時間ウィンドウ48を表す付加的フレームに挿入される。ほとんど違いがないときは、空間的表示のためにはトランジェント位置は選択されず、ビットストリーム中にその旨の表示が含められる。
最後に、一旦モノラルレイヤー40と空間的表示レイヤー14が生成されると、マルチプレクサ43によりビットストリーム50に順番に書きこまれる。このオーディオストリーム50は、順番に、例えばデータバス、アンテナシステム、記録媒体等に送られる。
合成
図2を参照して、デコーダ60はデマルチプレクサ62を含む。そのデマルチプレクサ62は、入来オーディオストリーム50をモノラルレイヤー40´および、この場合、単一の空間的表示レイヤー14´に分割する。モノラルレイヤー40´は、従来のシンセサイザ64に読み込まれる。このシンセサイザ64は、そのレイヤーを生成しオリジナルの和信号12´の時間ドメインの推定を提供したエンコーダに対応する。
合成
図2を参照して、デコーダ60はデマルチプレクサ62を含む。そのデマルチプレクサ62は、入来オーディオストリーム50をモノラルレイヤー40´および、この場合、単一の空間的表示レイヤー14´に分割する。モノラルレイヤー40´は、従来のシンセサイザ64に読み込まれる。このシンセサイザ64は、そのレイヤーを生成しオリジナルの和信号12´の時間ドメインの推定を提供したエンコーダに対応する。
デマルチプレクサ62により抽出された空間的パラメータ14´は、後処理モジュール66により和信号12´に適用され、左右の出力信号が生成される。好ましい実施形態による後処理器は、モノラルレイヤー14´の情報を読み込み、この信号中のトランジェントの位置を特定する。(あるいは、シンセサイザ64が後処理モジュールにトランジションの位置を知らせてもよい。しかし、この場合は従来のシンセサイザ64を少し変更する必要がある。)
いかなる場合にも、後処理器が、処理しようとしている空間的パラメータレイヤー14´のフレームの通常の時間ウィンドウに対応するモノラルレイヤーフレーム42内のトランジェント44を検出したとき、このフレームは短いトランジェントウィンドウ48の前のトランジションウィンドウ47を表していることがわかる。後処理器はトランジェント44の時間位置を知っており、トランジェントウィンドウの前のトランジションウィンドウ47の長さと、トランジェントウィンドウ48の後ろのトランジションウィンドウ49の長さを知っている。好ましい実施形態において、後処理器66は混合モジュール68を含む。この混合モジュール68は、ウィンドウ47の第1の部分について、空間的表示レイヤーを合成するにあたり、ウィンドウ47のパラメータを先行するフレームのパラメータを混ぜ合わせる。その時からトランジェントウィンドウ48の始まりまで、ウィンドウ47を表すフレームのパラメータのみが、空間的表示レイヤーを合成するのに用いられる。トランジェントウィンドウ48の第1の部分では、トランジションウィンドウ47とトランジェントウィンドウ48のパラメータは混ぜ合わされる。トランジェントウィンドウ48の第2の部分では、トランジションウィンドウ49のパラメータとトランジェントウィンドウ48のパラメータとが混ぜ合わされる、等である。これはトランジションウィンドウ49の中央まで続き、その後はフレーム間の混ぜ合わせは通常のように続く。
いかなる場合にも、後処理器が、処理しようとしている空間的パラメータレイヤー14´のフレームの通常の時間ウィンドウに対応するモノラルレイヤーフレーム42内のトランジェント44を検出したとき、このフレームは短いトランジェントウィンドウ48の前のトランジションウィンドウ47を表していることがわかる。後処理器はトランジェント44の時間位置を知っており、トランジェントウィンドウの前のトランジションウィンドウ47の長さと、トランジェントウィンドウ48の後ろのトランジションウィンドウ49の長さを知っている。好ましい実施形態において、後処理器66は混合モジュール68を含む。この混合モジュール68は、ウィンドウ47の第1の部分について、空間的表示レイヤーを合成するにあたり、ウィンドウ47のパラメータを先行するフレームのパラメータを混ぜ合わせる。その時からトランジェントウィンドウ48の始まりまで、ウィンドウ47を表すフレームのパラメータのみが、空間的表示レイヤーを合成するのに用いられる。トランジェントウィンドウ48の第1の部分では、トランジションウィンドウ47とトランジェントウィンドウ48のパラメータは混ぜ合わされる。トランジェントウィンドウ48の第2の部分では、トランジションウィンドウ49のパラメータとトランジェントウィンドウ48のパラメータとが混ぜ合わされる、等である。これはトランジションウィンドウ49の中央まで続き、その後はフレーム間の混ぜ合わせは通常のように続く。
上で説明したように、いかなる時間においても使用される空間的パラメータは、2つの通常のウィンドウ46フレームのパラメータ、通常のウィンドウ46とトランジションフレーム47、49のパラメータを混ぜ合わせたもの、トランジションウィンドウフレーム47、49のパラメータのみ、トランジションウィンドウフレーム47、49のパラメータを混ぜ合わせたもの、およびトランジェントウィンドウフレーム48のパラメータである。空間的表示レイヤーのシンタックスを用いて、モジュール68は空間的表示レイヤーの一様でない時間セグメント化を示すトランジェントを選択することができ、この適当なトランジェント位置において、短いトランジェントウィンドウによりマルチチャンネル画像の時間定位がよくなる。
後処理器66内においては、分析のセクションで説明したように、和信号12´の周波数ドメイン表示を処理に利用することができる。この表示は、シンセサイザ64により生成された時間ドメイン波形のウィンドウおよびFFTにより取得することができる。和信号は左右の出力信号経路にコピーされる。その後、左右信号間の相関が、パラメータrを用いてデコリレータ69´、69´´で変更される。これをどのように実施するかについての詳細な説明は、2002年7月12日に出願された欧州特許出願「信号合成Signal synthesizing」を参照されたい。D.J.Breebaartが第1発明者である(弊社参照番号PHNL020639)。この欧州特許出願には、入力から第1と第2の出力信号を合成する方法が開示されている。この方法は、入力信号をフィルターしてフィルター信号を生成するステップと、相関パラメータを取得するステップと、第1と第2の出力信号間の所望のレベル差を示すレベルパラメータを取得するステップと、入力信号とフィルター信号を行列演算により第1と第2の出力信号に変換するステップとを有する。ここで行列演算は相関パラメータとレベルパラメータに依存する。その後、それぞれの段階70´、70´´において、左信号の各サブバンドは-ITD/2だけ遅らせ、右信号はITD/2だけ遅らされる。(量子化された)ITDはサブバンドに対応する。最後に、左右のサブバンドは、それぞれの段階71´、71´´においてそのサブバンドのILDによりスケールされる。それぞれの変換段階72´、72´´は、出力信号を時間ドメインに変換する。この変換は、(1)負の周波数に複素共役を挿入するステップ、(2)逆FFTするステップ、(3)ウィンドウを空けるステップ、(4)重複して加えるステップにより実行される。
デコーダとエンコーダの好ましい実施形態を、2つの信号の組み合わせであるモノラル信号の生成に関して説明した。デコーダでモノラル信号のみが使用される場合を主に扱った。しかし、本発明はこれらの実施形態のみに限定されるものではなく、モノラル信号は付加的チャンネルを作るそれぞれのコピーに適用される空間的パラメータレイヤーを有する信号入出力チャンネルに相当することを分かるべきである。
本発明は専用のハードウェア、DSP(デジタル信号プロセッサ)または汎用コンピュータ上で動作するソフトウェアで実施することができることが分かっている。本発明による符号化方法を実行するコンピュータプログラムを格納したCD-ROMまたはDVD-ROM等の有形媒体として、本発明を実施することもできる。本発明は、インターネット等のデータネットワークを介して送信された信号、または放送サービスにより送信された信号として実施することもできる。本発明は、インターネットによるダウンロード、インターネットラジオ、ソリッドステートオーディオ(SSA)、帯域幅拡張方法、例えばmp3プロ、CT-aacプラス(www.codingtechnologies.com参照)、およびほとんどのオーディオ符号化方法の分やに適用可能である。
Claims (15)
- オーディオ信号を符号化する方法であって、
モノラル信号を生成するステップと、
少なくとも2つのオーディオチャンネルの空間的特徴を分析し、後続の時間スロットのために一組以上の空間的パラメータを取得するステップと、
前記モノラル信号がある時刻にトランジェントを含むことに応じて、前記トランジェント時刻を含む期間の前記一組の空間的パラメータの一様でない時間セグメンテーションを決定するステップと、
前記モノラル信号と前記一組以上の空間的パラメータとを有する符号化信号を生成するステップとを有することを特徴とする方法。 - 請求項1に記載の方法であって、前記モノラル信号は少なくとも2つの入力オーディオチャンネルの組み合わせを有することを特徴とする方法。
- 請求項1に記載の方法であって、前記モノラル信号はパラメトリックシヌソイドコーダで生成され、前記コーダは前記モノラル信号の後続の時間スロットに対応するフレームを生成し、前記フレームの少なくとも一部は、前記フレームにより表された時間スロットそれぞれで生起するトランジェントを表すパラメータを含むことを特徴とする方法。
- 請求項1に記載の方法であって、前記モノラル信号は波形エンコーダで生成され、前記エンコーダは、前記トランジェント時刻を含む期間の前記モノラル信号の一様でない時間セグメンテーションを決定することを特徴とする方法。
- 請求項4に記載の方法であって、前記波形エンコーダはmp3エンコーダであることを特徴とする方法。
- 請求項1に記載の方法であって、前記一組以上の空間的パラメータは少なくとも2つのローカライゼーションキューを含むことを特徴とする方法。
- 請求項6に記載の方法であって、前記一組以上の空間的パラメータは、前記ローカライゼーションキューによって説明できない、波形の類似性または非類似性を記述するパラメータをさらに有することを特徴とする方法。
- 請求項7に記載の方法であって、前記パラメータは相互相関関数の最大値であることを特徴とする方法。
- オーディオ信号を符号化するエンコーダであって、
モノラル信号を生成する手段と、
少なくとも2つのオーディオチャンネルの空間的特徴を分析し、後続の時間スロットのために一組以上の空間的パラメータを取得する手段と、
前記モノラル信号がある時刻にトランジェントを含むことに応じて、前記トランジェント時刻を含む期間の前記一組の空間的パラメータの一様でない時間セグメンテーションを決定する手段と、
前記モノラル信号と前記一組以上の空間的パラメータとを有する符号化信号を生成する手段とを有することを特徴とするエンコーダ。 - オーディオ信号を供給する装置であって、
オーディオ信号を受信する入力部と、
前記オーディオ信号を符号化し符号化オーディオ信号を取得する、請求項9に記載のエンコーダと、
前記符号化オーディオ信号を供給する出力部とを有することを特徴とする装置。 - 符号化オーディオ信号であって、
ある時刻に生起するトランジェントの少なくとも1つの表示を含むモノラル信号と、
前記符号化オーディオ信号の後続の時間スロットのための一組以上の空間的パラメータを有し、前記一組以上の空間的パラメータは、前記トランジェント時刻を含む期間のオーディオ信号の一様でない時間セグメンテーションを提供することを特徴とする符号化オーディオ信号。 - 請求項11に記載の符号化オーディオ信号が格納された記憶媒体。
- 符号化オーディオ信号を復号する方法であって、
前記符号化オーディオ信号からモノラル信号を取得するステップと、
前記符号化オーディオ信号から一組以上の空間的パラメータを取得するステップと、
前記モノラル信号がある時刻にトランジェントを含むことに応じて、前記トランジェント時刻を含む期間に対して前記一組以上の空間的パラメータの一様でない時間セグメンテーションを決定するステップと、
前記一組以上の空間的パラメータを前記モノラル信号に適用し、マルチチャンネルの出力信号を生成するステップとを有することを特徴とする方法。 - 符号化オーディオ信号を復号するデコーダであって、
前記符号化オーディオ信号からモノラル信号を取得する手段と、
前記符号化オーディオ信号から一組以上の空間的パラメータを取得する手段と、
前記モノラル信号がある時刻にトランジェントを含むことに応じて、前記トランジェント時刻を含む期間に対して前記一組以上の空間的パラメータの一様でない時間セグメンテーションを決定する手段と、
前記一組以上の空間的パラメータを前記モノラル信号に適用し、マルチチャンネルの出力信号を生成する手段とを有することを特徴とするデコーダ。 - 復号オーディオ信号を供給する装置であって、
符号化オーディオ信号を受信する入力部と、
前記符号化オーディオ信号を復号しマルチチャンネル出力信号を取得する、請求項14に記載のデコーダと、
前記マルチチャンネル出力信号を供給または再生する出力部とを有することを特徴とする装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02077871 | 2002-07-16 | ||
PCT/IB2003/003041 WO2004008806A1 (en) | 2002-07-16 | 2003-07-01 | Audio coding |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005533271A true JP2005533271A (ja) | 2005-11-04 |
Family
ID=30011205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004520996A Withdrawn JP2005533271A (ja) | 2002-07-16 | 2003-07-01 | オーディオ符号化 |
Country Status (9)
Country | Link |
---|---|
US (1) | US7542896B2 (ja) |
EP (1) | EP1523863A1 (ja) |
JP (1) | JP2005533271A (ja) |
KR (1) | KR20050021484A (ja) |
CN (1) | CN1669358A (ja) |
AU (1) | AU2003281128A1 (ja) |
BR (1) | BR0305555A (ja) |
RU (1) | RU2325046C2 (ja) |
WO (1) | WO2004008806A1 (ja) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007526522A (ja) * | 2004-03-01 | 2007-09-13 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | マルチチャンネルオーディオコーディング |
JP2008527431A (ja) * | 2005-01-10 | 2008-07-24 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 空間音声のパラメトリック符号化のためのコンパクトなサイド情報 |
JP2008543227A (ja) * | 2005-06-03 | 2008-11-27 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | サイド情報を有するチャンネルの再構成 |
JP2009522895A (ja) * | 2006-01-09 | 2009-06-11 | ノキア コーポレイション | バイノーラルオーディオ信号の復号 |
JP2009533910A (ja) * | 2006-04-12 | 2009-09-17 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | アンビエンス信号を生成するための装置および方法 |
WO2009157213A1 (ja) | 2008-06-27 | 2009-12-30 | パナソニック株式会社 | 音響信号復号装置および音響信号復号装置におけるバランス調整方法 |
JP2010507113A (ja) * | 2006-10-18 | 2010-03-04 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 情報信号の符号化 |
JP2010154548A (ja) * | 2004-04-16 | 2010-07-08 | Dolby Internatl Ab | 低ビットレート用パラメトリック表現の生成方法 |
WO2010082471A1 (ja) | 2009-01-13 | 2010-07-22 | パナソニック株式会社 | 音響信号復号装置及びバランス調整方法 |
WO2010098120A1 (ja) | 2009-02-26 | 2010-09-02 | パナソニック株式会社 | チャネル信号生成装置、音響信号符号化装置、音響信号復号装置、音響信号符号化方法及び音響信号復号方法 |
WO2010140350A1 (ja) | 2009-06-02 | 2010-12-09 | パナソニック株式会社 | ダウンミックス装置、符号化装置、及びこれらの方法 |
JP2011527456A (ja) * | 2008-07-11 | 2011-10-27 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | オーディオのエンコーディング及びデコーディングにおける位相情報の効率的な使用 |
US8126721B2 (en) | 2006-10-18 | 2012-02-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
JP2012070428A (ja) * | 2004-12-01 | 2012-04-05 | Samsung Electronics Co Ltd | 多チャンネルオーディオ信号処理装置、多チャンネルオーディオ信号処理方法、圧縮効率向上方法及び多チャンネルオーディオ信号処理システム |
WO2012066727A1 (ja) * | 2010-11-17 | 2012-05-24 | パナソニック株式会社 | ステレオ信号符号化装置、ステレオ信号復号装置、ステレオ信号符号化方法及びステレオ信号復号方法 |
US8417532B2 (en) | 2006-10-18 | 2013-04-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
JP2013524267A (ja) * | 2010-03-29 | 2013-06-17 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 空間オーディオプロセッサおよび音響入力信号に基づいて空間パラメータを提供する方法 |
US8605909B2 (en) | 2006-03-28 | 2013-12-10 | France Telecom | Method and device for efficient binaural sound spatialization in the transformed domain |
JP2020531912A (ja) * | 2017-08-23 | 2020-11-05 | 華為技術有限公司Huawei Technologies Co.,Ltd. | ステレオ信号符号化の間に信号を再構成する方法及び機器 |
Families Citing this family (117)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7292901B2 (en) | 2002-06-24 | 2007-11-06 | Agere Systems Inc. | Hybrid multi-channel/cue coding/decoding of audio signals |
US7644003B2 (en) | 2001-05-04 | 2010-01-05 | Agere Systems Inc. | Cue-based audio coding/decoding |
US7583805B2 (en) * | 2004-02-12 | 2009-09-01 | Agere Systems Inc. | Late reverberation-based synthesis of auditory scenes |
US7116787B2 (en) | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
US7240001B2 (en) | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US6934677B2 (en) | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
US7460990B2 (en) | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
US20090299756A1 (en) * | 2004-03-01 | 2009-12-03 | Dolby Laboratories Licensing Corporation | Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners |
US7805313B2 (en) | 2004-03-04 | 2010-09-28 | Agere Systems Inc. | Frequency-based coding of channels in parametric multi-channel coding systems |
JP4939933B2 (ja) * | 2004-05-19 | 2012-05-30 | パナソニック株式会社 | オーディオ信号符号化装置及びオーディオ信号復号化装置 |
ATE474310T1 (de) * | 2004-05-28 | 2010-07-15 | Nokia Corp | Mehrkanalige audio-erweiterung |
CN101015230B (zh) | 2004-09-06 | 2012-09-05 | 皇家飞利浦电子股份有限公司 | 音频信号增强 |
JP4809234B2 (ja) * | 2004-09-17 | 2011-11-09 | パナソニック株式会社 | オーディオ符号化装置、復号化装置、方法、及びプログラム |
US7720230B2 (en) | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
US8204261B2 (en) * | 2004-10-20 | 2012-06-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Diffuse sound shaping for BCC schemes and the like |
SE0402650D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Improved parametric stereo compatible coding of spatial audio |
US7787631B2 (en) | 2004-11-30 | 2010-08-31 | Agere Systems Inc. | Parametric coding of spatial audio with cues based on transmitted channels |
US8340306B2 (en) | 2004-11-30 | 2012-12-25 | Agere Systems Llc | Parametric coding of spatial audio with object-based side information |
US7761304B2 (en) | 2004-11-30 | 2010-07-20 | Agere Systems Inc. | Synchronizing parametric coding of spatial audio with externally provided downmix |
EP1691348A1 (en) | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
US7573912B2 (en) * | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
JP4887288B2 (ja) * | 2005-03-25 | 2012-02-29 | パナソニック株式会社 | 音声符号化装置および音声符号化方法 |
US7961890B2 (en) | 2005-04-15 | 2011-06-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. | Multi-channel hierarchical audio coding with compact side information |
JP4988716B2 (ja) | 2005-05-26 | 2012-08-01 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のデコーディング方法及び装置 |
WO2006126859A2 (en) | 2005-05-26 | 2006-11-30 | Lg Electronics Inc. | Method of encoding and decoding an audio signal |
US8917874B2 (en) | 2005-05-26 | 2014-12-23 | Lg Electronics Inc. | Method and apparatus for decoding an audio signal |
EP1946294A2 (en) | 2005-06-30 | 2008-07-23 | LG Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
JP2009500657A (ja) | 2005-06-30 | 2009-01-08 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号をエンコーディング及びデコーディングするための装置とその方法 |
AU2006266579B2 (en) | 2005-06-30 | 2009-10-22 | Lg Electronics Inc. | Method and apparatus for encoding and decoding an audio signal |
US8626503B2 (en) | 2005-07-14 | 2014-01-07 | Erik Gosuinus Petrus Schuijers | Audio encoding and decoding |
US20070055510A1 (en) * | 2005-07-19 | 2007-03-08 | Johannes Hilpert | Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding |
TWI396188B (zh) * | 2005-08-02 | 2013-05-11 | Dolby Lab Licensing Corp | 依聆聽事件之函數控制空間音訊編碼參數的技術 |
US7987097B2 (en) | 2005-08-30 | 2011-07-26 | Lg Electronics | Method for decoding an audio signal |
US8577483B2 (en) | 2005-08-30 | 2013-11-05 | Lg Electronics, Inc. | Method for decoding an audio signal |
KR100891686B1 (ko) | 2005-08-30 | 2009-04-03 | 엘지전자 주식회사 | 오디오 신호의 인코딩 및 디코딩 장치, 및 방법 |
WO2007027056A1 (en) * | 2005-08-30 | 2007-03-08 | Lg Electronics Inc. | A method for decoding an audio signal |
AU2006285538B2 (en) * | 2005-08-30 | 2011-03-24 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
US7788107B2 (en) | 2005-08-30 | 2010-08-31 | Lg Electronics Inc. | Method for decoding an audio signal |
RU2473062C2 (ru) * | 2005-08-30 | 2013-01-20 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Способ кодирования и декодирования аудиосигнала и устройство для его осуществления |
US8090587B2 (en) * | 2005-09-27 | 2012-01-03 | Lg Electronics Inc. | Method and apparatus for encoding/decoding multi-channel audio signal |
US7696907B2 (en) | 2005-10-05 | 2010-04-13 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
EP1946302A4 (en) | 2005-10-05 | 2009-08-19 | Lg Electronics Inc | SIGNAL PROCESSING METHOD AND APPARATUS, ENCODING AND DECODING METHOD, AND ASSOCIATED APPARATUS |
KR100857115B1 (ko) | 2005-10-05 | 2008-09-05 | 엘지전자 주식회사 | 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치 |
US7751485B2 (en) | 2005-10-05 | 2010-07-06 | Lg Electronics Inc. | Signal processing using pilot based coding |
US7646319B2 (en) | 2005-10-05 | 2010-01-12 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
US8068569B2 (en) | 2005-10-05 | 2011-11-29 | Lg Electronics, Inc. | Method and apparatus for signal processing and encoding and decoding |
KR100813269B1 (ko) | 2005-10-12 | 2008-03-13 | 삼성전자주식회사 | 비트 스트림 처리/전송 방법 및 장치, 비트 스트림수신/처리 방법 및 장치 |
CN102237094B (zh) * | 2005-10-12 | 2013-02-20 | 三星电子株式会社 | 处理/发送比特流以及接收/处理比特流的方法和设备 |
EP2555187B1 (en) * | 2005-10-12 | 2016-12-07 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding/decoding audio data and extension data |
US20080262853A1 (en) * | 2005-10-20 | 2008-10-23 | Lg Electronics, Inc. | Method for Encoding and Decoding Multi-Channel Audio Signal and Apparatus Thereof |
US7716043B2 (en) | 2005-10-24 | 2010-05-11 | Lg Electronics Inc. | Removing time delays in signal paths |
EP1946310A4 (en) * | 2005-10-26 | 2011-03-09 | Lg Electronics Inc | METHOD FOR CODING AND DECODING A MULTI CHANNEL AUDIO SIGNAL AND DEVICE THEREFOR |
WO2007080225A1 (en) * | 2006-01-09 | 2007-07-19 | Nokia Corporation | Decoding of binaural audio signals |
JP4806031B2 (ja) | 2006-01-19 | 2011-11-02 | エルジー エレクトロニクス インコーポレイティド | メディア信号の処理方法及び装置 |
US7831434B2 (en) | 2006-01-20 | 2010-11-09 | Microsoft Corporation | Complex-transform channel coding with extended-band frequency coding |
CN101410891A (zh) | 2006-02-03 | 2009-04-15 | 韩国电子通信研究院 | 使用空间线索控制多目标或多声道音频信号的渲染的方法和装置 |
KR100983286B1 (ko) | 2006-02-07 | 2010-09-24 | 엘지전자 주식회사 | 부호화/복호화 장치 및 방법 |
US20080004883A1 (en) * | 2006-06-30 | 2008-01-03 | Nokia Corporation | Scalable audio coding |
EP2070392A2 (en) * | 2006-09-14 | 2009-06-17 | Koninklijke Philips Electronics N.V. | Sweet spot manipulation for a multi-channel signal |
MX2008012251A (es) | 2006-09-29 | 2008-10-07 | Lg Electronics Inc | Metodos y aparatos para codificar y descodificar señales de audio basadas en objeto. |
RU2407072C1 (ru) * | 2006-09-29 | 2010-12-20 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов |
ATE539434T1 (de) * | 2006-10-16 | 2012-01-15 | Fraunhofer Ges Forschung | Vorrichtung und verfahren für mehrkanalparameterumwandlung |
CA2874454C (en) * | 2006-10-16 | 2017-05-02 | Dolby International Ab | Enhanced coding and parameter representation of multichannel downmixed object coding |
JP5463143B2 (ja) | 2006-12-07 | 2014-04-09 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のデコーディング方法及びその装置 |
EP2102858A4 (en) | 2006-12-07 | 2010-01-20 | Lg Electronics Inc | METHOD AND DEVICE FOR PROCESSING AN AUDIO SIGNAL |
JP5554065B2 (ja) * | 2007-02-06 | 2014-07-23 | コーニンクレッカ フィリップス エヌ ヴェ | 複雑さの軽減されたパラメトリックステレオデコーダ |
KR101049143B1 (ko) | 2007-02-14 | 2011-07-15 | 엘지전자 주식회사 | 오브젝트 기반의 오디오 신호의 부호화/복호화 장치 및 방법 |
US20100121633A1 (en) * | 2007-04-20 | 2010-05-13 | Panasonic Corporation | Stereo audio encoding device and stereo audio encoding method |
US7885819B2 (en) | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
KR101425355B1 (ko) * | 2007-09-05 | 2014-08-06 | 삼성전자주식회사 | 파라메트릭 오디오 부호화 및 복호화 장치와 그 방법 |
GB2453117B (en) * | 2007-09-25 | 2012-05-23 | Motorola Mobility Inc | Apparatus and method for encoding a multi channel audio signal |
ES2461601T3 (es) * | 2007-10-09 | 2014-05-20 | Koninklijke Philips N.V. | Procedimiento y aparato para generar una señal de audio binaural |
EP2214163A4 (en) * | 2007-11-01 | 2011-10-05 | Panasonic Corp | CODING DEVICE, DECODING DEVICE AND METHOD THEREFOR |
US8527282B2 (en) | 2007-11-21 | 2013-09-03 | Lg Electronics Inc. | Method and an apparatus for processing a signal |
US8548615B2 (en) | 2007-11-27 | 2013-10-01 | Nokia Corporation | Encoder |
CN101188878B (zh) * | 2007-12-05 | 2010-06-02 | 武汉大学 | 立体声音频信号的空间参数量化及熵编码方法和所用系统 |
AU2008344073B2 (en) | 2008-01-01 | 2011-08-11 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
US20100284549A1 (en) * | 2008-01-01 | 2010-11-11 | Hyen-O Oh | method and an apparatus for processing an audio signal |
KR101441897B1 (ko) * | 2008-01-31 | 2014-09-23 | 삼성전자주식회사 | 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치 |
EP2250641B1 (en) * | 2008-03-04 | 2011-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for mixing a plurality of input data streams |
WO2009135532A1 (en) * | 2008-05-09 | 2009-11-12 | Nokia Corporation | An apparatus |
US8355921B2 (en) | 2008-06-13 | 2013-01-15 | Nokia Corporation | Method, apparatus and computer program product for providing improved audio processing |
CA2871268C (en) | 2008-07-11 | 2015-11-03 | Nikolaus Rettelbach | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program |
KR101428487B1 (ko) * | 2008-07-11 | 2014-08-08 | 삼성전자주식회사 | 멀티 채널 부호화 및 복호화 방법 및 장치 |
CN102089816B (zh) * | 2008-07-11 | 2013-01-30 | 弗朗霍夫应用科学研究促进协会 | 音频信号合成器及音频信号编码器 |
BRPI0905069A2 (pt) * | 2008-07-29 | 2015-06-30 | Panasonic Corp | Aparelho de codificação de áudio, aparelho de decodificação de áudio, aparelho de codificação e de descodificação de áudio e sistema de teleconferência |
WO2010037427A1 (en) * | 2008-10-03 | 2010-04-08 | Nokia Corporation | Apparatus for binaural audio coding |
WO2010053728A1 (en) | 2008-10-29 | 2010-05-14 | Dolby Laboratories Licensing Corporation | Signal clipping protection using pre-existing audio gain metadata |
US9384748B2 (en) | 2008-11-26 | 2016-07-05 | Electronics And Telecommunications Research Institute | Unified Speech/Audio Codec (USAC) processing windows sequence based mode switching |
KR101315617B1 (ko) | 2008-11-26 | 2013-10-08 | 광운대학교 산학협력단 | 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기 |
US8504378B2 (en) | 2009-01-22 | 2013-08-06 | Panasonic Corporation | Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same |
US20100324915A1 (en) * | 2009-06-23 | 2010-12-23 | Electronic And Telecommunications Research Institute | Encoding and decoding apparatuses for high quality multi-channel audio codec |
KR20110018107A (ko) * | 2009-08-17 | 2011-02-23 | 삼성전자주식회사 | 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치 |
TWI433137B (zh) | 2009-09-10 | 2014-04-01 | Dolby Int Ab | 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法 |
WO2011046329A2 (ko) * | 2009-10-14 | 2011-04-21 | 한국전자통신연구원 | 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법 |
KR101137652B1 (ko) * | 2009-10-14 | 2012-04-23 | 광운대학교 산학협력단 | 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법 |
CN102157152B (zh) * | 2010-02-12 | 2014-04-30 | 华为技术有限公司 | 立体声编码的方法、装置 |
CN102157150B (zh) * | 2010-02-12 | 2012-08-08 | 华为技术有限公司 | 立体声解码方法及装置 |
JP6075743B2 (ja) * | 2010-08-03 | 2017-02-08 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
CN103098131B (zh) | 2010-08-24 | 2015-03-11 | 杜比国际公司 | 调频立体声无线电接收器的间歇单声道接收的隐藏 |
EP2477188A1 (en) | 2011-01-18 | 2012-07-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoding and decoding of slot positions of events in an audio signal frame |
WO2013107602A1 (en) | 2012-01-20 | 2013-07-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for audio encoding and decoding employing sinusoidal substitution |
ES2560402T3 (es) | 2012-04-05 | 2016-02-18 | Huawei Technologies Co., Ltd | Método para la codificación y la decodificación de audio espacial paramétrica, codificador de audio espacial paramétrico y decodificador de audio espacial paramétrico |
FR2990551A1 (fr) * | 2012-05-31 | 2013-11-15 | France Telecom | Codage/decodage parametrique d'un signal audio multi-canal, en presence de sons transitoires |
WO2013184130A1 (en) * | 2012-06-08 | 2013-12-12 | Intel Corporation | Echo cancellation algorithm for long delayed echo |
CN104050969A (zh) | 2013-03-14 | 2014-09-17 | 杜比实验室特许公司 | 空间舒适噪声 |
US10219093B2 (en) * | 2013-03-14 | 2019-02-26 | Michael Luna | Mono-spatial audio processing to provide spatial messaging |
FR3008533A1 (fr) * | 2013-07-12 | 2015-01-16 | Orange | Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences |
CN103413553B (zh) * | 2013-08-20 | 2016-03-09 | 腾讯科技(深圳)有限公司 | 音频编码方法、音频解码方法、编码端、解码端和系统 |
EP2963646A1 (en) | 2014-07-01 | 2016-01-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder and method for decoding an audio signal, encoder and method for encoding an audio signal |
EP3107096A1 (en) | 2015-06-16 | 2016-12-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Downscaled decoding |
CN107358960B (zh) * | 2016-05-10 | 2021-10-26 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
CN106782573B (zh) * | 2016-11-30 | 2020-04-24 | 北京酷我科技有限公司 | 一种编码生成aac文件的方法 |
GB2559200A (en) | 2017-01-31 | 2018-08-01 | Nokia Technologies Oy | Stereo audio signal encoder |
GB2559199A (en) * | 2017-01-31 | 2018-08-01 | Nokia Technologies Oy | Stereo audio signal encoder |
EP3588495A1 (en) | 2018-06-22 | 2020-01-01 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Multichannel audio coding |
US11451919B2 (en) * | 2021-02-19 | 2022-09-20 | Boomcloud 360, Inc. | All-pass network system for colorless decorrelation with constraints |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5388181A (en) * | 1990-05-29 | 1995-02-07 | Anderson; David J. | Digital audio compression system |
US5285498A (en) * | 1992-03-02 | 1994-02-08 | At&T Bell Laboratories | Method and apparatus for coding audio signals based on perceptual model |
US5278909A (en) * | 1992-06-08 | 1994-01-11 | International Business Machines Corporation | System and method for stereo digital audio compression with co-channel steering |
JP3343962B2 (ja) * | 1992-11-11 | 2002-11-11 | ソニー株式会社 | 高能率符号化方法及び装置 |
US5451954A (en) * | 1993-08-04 | 1995-09-19 | Dolby Laboratories Licensing Corporation | Quantization noise suppression for encoder/decoder system |
WO1995018523A1 (en) * | 1993-12-23 | 1995-07-06 | Philips Electronics N.V. | Method and apparatus for encoding multibit coded digital sound through subtracting adaptive dither, inserting buried channel bits and filtering, and encoding and decoding apparatus for use with this method |
US5781130A (en) * | 1995-05-12 | 1998-07-14 | Optex Corporation | M-ary (d,k) runlength limited coding for multi-level data |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US5848391A (en) * | 1996-07-11 | 1998-12-08 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Method subband of coding and decoding audio signals using variable length windows |
US6049766A (en) * | 1996-11-07 | 2000-04-11 | Creative Technology Ltd. | Time-domain time/pitch scaling of speech or audio signals with transient handling |
US6931291B1 (en) * | 1997-05-08 | 2005-08-16 | Stmicroelectronics Asia Pacific Pte Ltd. | Method and apparatus for frequency-domain downmixing with block-switch forcing for audio decoding functions |
US6173061B1 (en) * | 1997-06-23 | 2001-01-09 | Harman International Industries, Inc. | Steering of monaural sources of sound using head related transfer functions |
US5890125A (en) * | 1997-07-16 | 1999-03-30 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method |
DE19736669C1 (de) * | 1997-08-22 | 1998-10-22 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals |
US6430529B1 (en) * | 1999-02-26 | 2002-08-06 | Sony Corporation | System and method for efficient time-domain aliasing cancellation |
US6539357B1 (en) * | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
US6691082B1 (en) * | 1999-08-03 | 2004-02-10 | Lucent Technologies Inc | Method and system for sub-band hybrid coding |
ATE369600T1 (de) | 2000-03-15 | 2007-08-15 | Koninkl Philips Electronics Nv | Laguerre funktion für audiokodierung |
US7212872B1 (en) * | 2000-05-10 | 2007-05-01 | Dts, Inc. | Discrete multichannel audio with a backward compatible mix |
KR100701452B1 (ko) | 2000-05-17 | 2007-03-29 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 스펙트럼 모델링 |
US6778953B1 (en) * | 2000-06-02 | 2004-08-17 | Agere Systems Inc. | Method and apparatus for representing masked thresholds in a perceptual audio coder |
CN1408146A (zh) * | 2000-11-03 | 2003-04-02 | 皇家菲利浦电子有限公司 | 音频信号的参数编码 |
US6636830B1 (en) * | 2000-11-22 | 2003-10-21 | Vialta Inc. | System and method for noise reduction using bi-orthogonal modified discrete cosine transform |
JP2002196792A (ja) * | 2000-12-25 | 2002-07-12 | Matsushita Electric Ind Co Ltd | 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム |
US7069208B2 (en) * | 2001-01-24 | 2006-06-27 | Nokia, Corp. | System and method for concealment of data loss in digital audio transmission |
CN1240048C (zh) * | 2001-04-18 | 2006-02-01 | 皇家菲利浦电子有限公司 | 音频编码 |
ATE334556T1 (de) * | 2001-04-18 | 2006-08-15 | Koninkl Philips Electronics Nv | Audiokodierung mit partieller enkryption |
US20030035553A1 (en) * | 2001-08-10 | 2003-02-20 | Frank Baumgarte | Backwards-compatible perceptual coding of spatial cues |
US7292901B2 (en) * | 2002-06-24 | 2007-11-06 | Agere Systems Inc. | Hybrid multi-channel/cue coding/decoding of audio signals |
CN1237507C (zh) * | 2001-06-08 | 2006-01-18 | 皇家菲利浦电子有限公司 | 音频信号的编辑 |
US7460993B2 (en) * | 2001-12-14 | 2008-12-02 | Microsoft Corporation | Adaptive window-size selection in transform coding |
WO2004072956A1 (en) * | 2003-02-11 | 2004-08-26 | Koninklijke Philips Electronics N.V. | Audio coding |
-
2003
- 2003-07-01 US US10/520,872 patent/US7542896B2/en not_active Expired - Fee Related
- 2003-07-01 AU AU2003281128A patent/AU2003281128A1/en not_active Abandoned
- 2003-07-01 EP EP03740950A patent/EP1523863A1/en not_active Withdrawn
- 2003-07-01 JP JP2004520996A patent/JP2005533271A/ja not_active Withdrawn
- 2003-07-01 BR BR0305555-8A patent/BR0305555A/pt not_active IP Right Cessation
- 2003-07-01 CN CNA03816440XA patent/CN1669358A/zh active Pending
- 2003-07-01 WO PCT/IB2003/003041 patent/WO2004008806A1/en active Application Filing
- 2003-07-01 KR KR10-2005-7000761A patent/KR20050021484A/ko not_active Application Discontinuation
- 2003-07-01 RU RU2005104123/09A patent/RU2325046C2/ru not_active IP Right Cessation
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4867914B2 (ja) * | 2004-03-01 | 2012-02-01 | ドルビー ラボラトリーズ ライセンシング コーポレイション | マルチチャンネルオーディオコーディング |
JP2007526522A (ja) * | 2004-03-01 | 2007-09-13 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | マルチチャンネルオーディオコーディング |
JP2010154548A (ja) * | 2004-04-16 | 2010-07-08 | Dolby Internatl Ab | 低ビットレート用パラメトリック表現の生成方法 |
US9552820B2 (en) | 2004-12-01 | 2017-01-24 | Samsung Electronics Co., Ltd. | Apparatus and method for processing multi-channel audio signal using space information |
JP2012070428A (ja) * | 2004-12-01 | 2012-04-05 | Samsung Electronics Co Ltd | 多チャンネルオーディオ信号処理装置、多チャンネルオーディオ信号処理方法、圧縮効率向上方法及び多チャンネルオーディオ信号処理システム |
JP2013251919A (ja) * | 2004-12-01 | 2013-12-12 | Samsung Electronics Co Ltd | 多チャンネルオーディオ信号処理装置、多チャンネルオーディオ信号処理方法、圧縮効率向上方法及び多チャンネルオーディオ信号処理システム |
US9232334B2 (en) | 2004-12-01 | 2016-01-05 | Samsung Electronics Co., Ltd. | Apparatus and method for processing multi-channel audio signal using space information |
US8824690B2 (en) | 2004-12-01 | 2014-09-02 | Samsung Electronics Co., Ltd. | Apparatus and method for processing multi-channel audio signal using space information |
JP2008527431A (ja) * | 2005-01-10 | 2008-07-24 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 空間音声のパラメトリック符号化のためのコンパクトなサイド情報 |
JP2008543227A (ja) * | 2005-06-03 | 2008-11-27 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | サイド情報を有するチャンネルの再構成 |
JP2009522895A (ja) * | 2006-01-09 | 2009-06-11 | ノキア コーポレイション | バイノーラルオーディオ信号の復号 |
JP2009522894A (ja) * | 2006-01-09 | 2009-06-11 | ノキア コーポレイション | バイノーラルオーディオ信号の復号 |
US8605909B2 (en) | 2006-03-28 | 2013-12-10 | France Telecom | Method and device for efficient binaural sound spatialization in the transformed domain |
JP2009533910A (ja) * | 2006-04-12 | 2009-09-17 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | アンビエンス信号を生成するための装置および方法 |
JP4664431B2 (ja) * | 2006-04-12 | 2011-04-06 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | アンビエンス信号を生成するための装置および方法 |
US9326085B2 (en) | 2006-04-12 | 2016-04-26 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Device and method for generating an ambience signal |
US8577482B2 (en) | 2006-04-12 | 2013-11-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Device and method for generating an ambience signal |
US8126721B2 (en) | 2006-10-18 | 2012-02-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
US8417532B2 (en) | 2006-10-18 | 2013-04-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
JP2010507113A (ja) * | 2006-10-18 | 2010-03-04 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 情報信号の符号化 |
WO2009157213A1 (ja) | 2008-06-27 | 2009-12-30 | パナソニック株式会社 | 音響信号復号装置および音響信号復号装置におけるバランス調整方法 |
US8644526B2 (en) | 2008-06-27 | 2014-02-04 | Panasonic Corporation | Audio signal decoding device and balance adjustment method for audio signal decoding device |
JP2011527456A (ja) * | 2008-07-11 | 2011-10-27 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | オーディオのエンコーディング及びデコーディングにおける位相情報の効率的な使用 |
WO2010082471A1 (ja) | 2009-01-13 | 2010-07-22 | パナソニック株式会社 | 音響信号復号装置及びバランス調整方法 |
US8737626B2 (en) | 2009-01-13 | 2014-05-27 | Panasonic Corporation | Audio signal decoding device and method of balance adjustment |
US9053701B2 (en) | 2009-02-26 | 2015-06-09 | Panasonic Intellectual Property Corporation Of America | Channel signal generation device, acoustic signal encoding device, acoustic signal decoding device, acoustic signal encoding method, and acoustic signal decoding method |
WO2010098120A1 (ja) | 2009-02-26 | 2010-09-02 | パナソニック株式会社 | チャネル信号生成装置、音響信号符号化装置、音響信号復号装置、音響信号符号化方法及び音響信号復号方法 |
WO2010140350A1 (ja) | 2009-06-02 | 2010-12-09 | パナソニック株式会社 | ダウンミックス装置、符号化装置、及びこれらの方法 |
JP2013524267A (ja) * | 2010-03-29 | 2013-06-17 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 空間オーディオプロセッサおよび音響入力信号に基づいて空間パラメータを提供する方法 |
US9626974B2 (en) | 2010-03-29 | 2017-04-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Spatial audio processor and a method for providing spatial parameters based on an acoustic input signal |
US10327088B2 (en) | 2010-03-29 | 2019-06-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Spatial audio processor and a method for providing spatial parameters based on an acoustic input signal |
JP5753540B2 (ja) * | 2010-11-17 | 2015-07-22 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | ステレオ信号符号化装置、ステレオ信号復号装置、ステレオ信号符号化方法及びステレオ信号復号方法 |
WO2012066727A1 (ja) * | 2010-11-17 | 2012-05-24 | パナソニック株式会社 | ステレオ信号符号化装置、ステレオ信号復号装置、ステレオ信号符号化方法及びステレオ信号復号方法 |
US9514757B2 (en) | 2010-11-17 | 2016-12-06 | Panasonic Intellectual Property Corporation Of America | Stereo signal encoding device, stereo signal decoding device, stereo signal encoding method, and stereo signal decoding method |
JP2020531912A (ja) * | 2017-08-23 | 2020-11-05 | 華為技術有限公司Huawei Technologies Co.,Ltd. | ステレオ信号符号化の間に信号を再構成する方法及び機器 |
US11361775B2 (en) | 2017-08-23 | 2022-06-14 | Huawei Technologies Co., Ltd. | Method and apparatus for reconstructing signal during stereo signal encoding |
Also Published As
Publication number | Publication date |
---|---|
US7542896B2 (en) | 2009-06-02 |
EP1523863A1 (en) | 2005-04-20 |
BR0305555A (pt) | 2004-09-28 |
RU2005104123A (ru) | 2005-07-10 |
KR20050021484A (ko) | 2005-03-07 |
WO2004008806A1 (en) | 2004-01-22 |
AU2003281128A1 (en) | 2004-02-02 |
CN1669358A (zh) | 2005-09-14 |
US20050177360A1 (en) | 2005-08-11 |
RU2325046C2 (ru) | 2008-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005533271A (ja) | オーディオ符号化 | |
KR101049751B1 (ko) | 오디오 코딩 | |
JP5498525B2 (ja) | 空間的オーディオのパラメータ表示 | |
Schuijers et al. | Advances in parametric coding for high-quality audio | |
EP1738356B1 (en) | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing | |
US8817992B2 (en) | Multichannel audio coder and decoder | |
JP4664371B2 (ja) | バイノーラルキュー符号化方法等のための個別に行うチャネル時間エンベロープ整形 | |
RU2551797C2 (ru) | Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов | |
US8577482B2 (en) | Device and method for generating an ambience signal | |
RU2449388C2 (ru) | Способы и устройства для кодирования и декодирования объектно-базированных аудиосигналов | |
JP2011507050A (ja) | オーディオ信号処理方法及び装置 | |
RU2455708C2 (ru) | Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов | |
Baumgarte et al. | Audio coder enhancement using scalable binaural cue coding with equalized mixing | |
JP2000151414A (ja) | ディジタルオーディオ符号化装置、同符号化方法、及び同符号化プログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060630 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20091008 |