JP2005533271A

JP2005533271A - オーディオ符号化

Info

Publication number: JP2005533271A
Application number: JP2004520996A
Authority: JP
Inventors: ヘーペースハイエルス，エリク; ウェーイェーオーメン，アルノルデュス
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-07-16
Filing date: 2003-07-01
Publication date: 2005-11-04
Also published as: US7542896B2; EP1523863A1; BR0305555A; RU2005104123A; KR20050021484A; WO2004008806A1; AU2003281128A1; CN1669358A; US20050177360A1; RU2325046C2

Abstract

バイノーラルステレオ符号化において、１つのモノラルチャンネルだけが符号化される。付加的レイヤーは左右の信号を再生するパラメータを保持する。エンコーダが開示されている。このエンコーダは、モノラルの符号化信号から抽出したトランジェント情報をパラメトリックマルチチャンネルレイヤーにリンクさせ、性能を上げる。トランジェントの位置は、ビットストリームから直接導き出してもよいし、他の符号化パラメータ（例えば、mp3におけるウィンドウスイッチングフラグ）から予測してもよい。

Description

MPEG-LII、mp3、AAC（MPEG-2アドバンストオーディオコーディング）等の従来の波形ベースのオーディオ符号化方法においては、ステレオ信号の符号化は、２つのモノラルオーディオ信号を１つのビットストリームに符号化することにより行われる。しかし、ミッド／サイドステレオ符号化やインテンシティ符号化等の方法とともにチャンネル間の相関と無関係性を利用することにより、ビットレートを節約することができる。

ミッド／サイドステレオ符号化の場合、モノラルのコンテント量が多いステレオ信号は、和信号M=(L+R)/2と差信号S=(L-R)/2に分離することができる。こうして分離した信号は、主成分分析または時間変動スケールファクターと組み合わせられることもある。そして、パラメトリックコーダまたは波形コーダ（例えばトランスフォームまたはサブバンドコーダ）により、信号を独立に符号化する。この方法によると、周波数領域によっては、M信号（またはS信号）のいずれかのエネルギーがS信号（またはM信号）のエネルギーを若干上回る。しかし、周波数領域によっては、M信号またはS信号のいずれかのエネルギーを大きく減らすことができる。この方法によりどのくらい情報量を減らすことができるかは、ソース信号の空間的特性に強く依存する。例えば、ソース信号がモノラルの場合、差信号はゼロであり、無視することができる。しかし、左右のオーディオ信号の相関が低いとき（高い周波数領域でしばしば起こる）、この方法はあまり有利ではない。

インテンシティステレオ符号化の場合、周波数領域によっては、１つの信号I=(L+R)/2だけがL信号とR信号の強度情報とともに符号化される。デコーダ側では、この信号IがL信号とR信号の強度情報でスケーリングされた後、L信号とR信号として使用される。この方法では、高い周波数（一般的には5kHzより上）は単一のオーディオ信号（すなわちモノラル）により表され、時間変動かつ周波数依存スケールファクターと組み合わされる。

近年、オーディオ信号のパラメトリック表示が、特にオーディオ符号化の分野で、注目されている。オーディオ信号を表す（量子化された）パラメータの送信にはほとんど送信容量を必要とせず、受信側で聞いても違いが分からない信号を再合成することができることが示された。しかし、現在のパラメトリックオーディオコーダではモノラル信号の符号化に重点が置かれており、ステレオ信号は２つのモノラル信号として処理されることが多い。

EP-A-1107232には、左チャンネル信号と右チャンネル信号からなるステレオオーディオ信号の表示を生成するパラメトリック符号化方法が開示されている。送信帯域幅を効率的に利用するため、この表示には、左チャンネル信号または右チャンネル信号いずれかのモノラル信号だけに関する情報と、パラメトリック情報とが含まれている。他のステレオ信号はモノラル信号とパラメトリック情報に基づき再生できる。そのパラメトリック情報は、ステレオオーディオ信号のローカライゼーションキューを有し、左右チャンネルの強度と位相特性が含まれている。

バイノーラルステレオ符号化においては、インテンシティステレオ符号化と同様に、１つのモノラルチャンネルだけが符号化される。付加的なサイド情報は、左右の信号を再生するパラメータを有している。2002年4月に出願された欧州特許出願第02076588.9号（Attorney Docket No. PHNL020356）には、マルチチャンネルオーディオのパラメトリック表示が開示されている。このパラメトリック表示は、以下の文献に提示されたバイノーラル処理モデルに関する：Breebaart et al,「反対側性抑制に基づくバイノーラル処理モデル I.モデル設定」、J. Acoust. Soc. Am., 110, 1074-1088, Aug. 2001；「反対側性抑制に基づくバイノーラル処理モデル II.空間的パラメータへの依存性」, J. Acoust. Soc. Am., 110, 1089-1104, Aug. 2001；「反対側性抑制に基づくバイノーラル処理モデル III.時間的パラメータへの依存性」, J. Acoust. Soc. Am., 110, 1105-1117, Aug. 2001。これらはバイノーラル処理モデルを開示している。このバイノーラル処理モデルは、入力オーディオ信号を帯域限定信号に分割するステップを有する。この帯域限定信号は、ERB（等価方形帯域幅）レートスケールで線形に離間している。この信号の帯域幅は、中心周波数に依存し、ERBレートに従う。その後、すべての周波数帯域について、入来信号について以下の特性が分析される：
−両耳間レベル差（ILD）。これは左右の耳により起こる帯域限定信号の相対的レベルとして定義される。
−両耳間時間差（ITDまたはIPD）。これは両耳間相互相関関数のピークに対応する両耳間遅延（位相シフト）として定義される。
−ITDやILDによっては説明できない波形の（非）類似性。これは最大両耳間相互相関（すなわち、最大ピーク位置における相互相関値）によりパラメータ表示できる。
上記の開示から分かることは、ILD、ITD（またはIPD）、および最大相互相関を時間および周波数の関数として特定してやれば、マルチチャンネルオーディオ信号はいかなるものであっても、その空間的特性を記述することができるということである。

このパラメトリック符号化方法により、一般的なオーディオ信号を質のよいものとすることができる。しかし、特に高い非定常性を有する信号、例えばカスタネット、ハープシコード、グロッケンシュピールの信号等においては、この方法はプリエコーアーティファクトの問題を生じる。

本発明の目的は、パラメトリックマルチチャンネル符号化に関係するアーティファクトを軽減する、オーディオコーダ、デコーダ、およびこれに対応する方法を提供することである。

本発明によると、請求項１に記載の、オーディオ信号を符号化する方法と、請求項１３に記載の、ビットストリームを復号する方法とが提供される。

本発明の一態様によると、マルチチャンネルオーディオ信号の空間的属性がパラメータ表示される。その空間的属性は、レベル差、時間差、および左右信号の相関を有することが好ましい。

本発明を用いて、トランジェント位置が直接的または間接的にモノラル信号から抽出され、パラメータ表示されたマルチチャンネル表示レイヤーにリンクされる。このパラメータ表示されたマルチチャンネルレイヤー中のトランジェント情報を利用して、性能を向上させる。

多数のオーディオコーダにおいて、トランジェント情報を用いて符号化プロセスの性能をよくしている。例えば、WO01/69593-A1に開示されたシヌソイドコーダでは、ビットストリーム中のトランジェント位置を符号化する。そのコーダは、このトランジェント位置を用いてビットストリームを適応的にセグメント化する（適応的フレーミング）。また、デコーダにおいて、この位置を用いて、シヌソイドおよびノイズの合成をするウィンドウをガイドする。しかし、これらの方法は、モノラル信号に限定されている。

本発明の好ましい実施形態において、モノラルコンテントが上記のシヌソイドコーダにより生成されたビットストリームを復号するとき、トランジェント位置をビットストリームから直接導くことができる。

mp3やAAC等の波形コーダの場合、トランジェント位置はビットストリームには直接的には符号化されない。例えば、mp3の場合、トランジェントインターバルはモノラルレイヤー内のより短いウィンドウ長に切り替える（ウィンドウ切り替え）ことによりマークされる。よって、トランジェント位置はmp3ウィンドウ切り替えフラグ等のパラメータから推定することができる。

図１を参照して、本発明の好ましい実施形態による、左右の入力信号からなるステレオオーディオ信号を符号化するエンコーダ１０が示されている。好ましい実施形態において、2002年4月に出願された欧州特許出願第02076588.9号（Attorney Docket No. PHNL020356）に開示されたように、エンコーダはマルチチャンネルオーディオ信号を生成する。そのマルチチャンネルオーディオ信号は、複数の入力オーディオ信号の組み合わせからなる１つのモノラル信号１２と、チャンネルごとに一組の空間的パラメータ１４とを有する。この一組の空間的パラメータ１４は、２つのローカライゼーションキュー（ILD、およびITDまたはIPD）と、好ましくはすべての時間／周波数スロットについて、ILDおよび／またはITD（例えば、相互相関関数の最大値）では説明できない、波形の類似性または非類似性を記述するパラメータ（r）とを有する。

一組の空間的パラメータは、オーディオコーダの拡張レイヤーとして用いることができる。例えば、モノラル信号が送信されるのはビットレートを低くせざるを得ないときである。しかし、空間的拡張レイヤーを含めることにより、デコーダはステレオやマルチチャンネルのサウンドを再生することができる。

本実施形態においては、一組の空間的パラメータがモノラル（単一チャンネル）オーディオコーダと組み合わされ、ステレオオーディオ信号を符号化するが、このアイデアはnチャンネル（n>1）オーディオ信号に一般化できることが分かる。よって、（n-1）組の空間的パラメータが送信されたとき、本発明を用いて、１つのモノラル信号からnチャンネルの信号を生成することができる。この場合、空間的パラメータは単一のモノラル信号からn個の異なるオーディオチャンネルをどのように形成するかを説明する。よって、デコーダにおいては、一組の空間的パラメータをモノラルで符号化された信号と組み合わせることによって、後続のチャンネルが形成される。
分析方法
一般的に、エンコーダ１０は変換モジュール２０を有する。各変換モジュール２０は、（左右）それぞれの入来信号をサブバンド信号１６に分離する（帯域幅は周波数が高くなるに従って広くなることが好ましい）。好ましい実施形態において、モジュール２０は、時間ウィンドウにより時間／周波数スライシングをする変換動作をするが、連続時間法を用いてもよい（例えば、フィルターバンク）。

次のステップである和信号１２を決定するステップと、パラメータ１４を抽出するステップとは、分析モジュール１８内で実行され、以下のステップを有する。
−対応するサブバンド信号１６のレベル差（ILD）を見出すステップ、
−対応するサブバンド信号１６の時間差（ITDまたはIPD）を見出すステップ、および
−ILDまたはITDにより説明できない、波形の類似性または非類似性の量を記述するステップ。
ILDの分析
ILDはある時刻におけるある周波数帯域の信号のレベル差により決定される。ILDを決定する方法の１つは、両方の入力チャンネルの対応する周波数帯域の２乗平均値を測定し、その比を計算することである（dB単位で表すことが好ましい）。
ITDの分析
ITDは、両チャンネルの波形が最もよく一致する時間または位相のアライメントにより決定される。ITDを求める方法の１つは、２つの対応するサブバンド信号間の相互相関関数を計算し、その最大値を探すことである。その相互相関関数の最大値に対応する遅れをITD値として用いることができる。

方法の２つめは、左右のサブバンドの信号を計算し（すなわち、位相とエンベロープ値を計算し）、チャンネル間の位相差をIPDパラメータとして用いることである。ここで、複雑なフィルターバンク（例えばFFT）を用い、あるビン（周波数領域）に注目することにより、時間にわたる位相関数を導くことができる。これを左右のチャンネルについて行うことにより、位相差IPD（２つのフィルターされた信号を相互相関するのではなく）を推定することができる。
相関の分析
相関は、まず、対応するサブバンド信号が最も良くマッチするILDおよびITDを見出し、そのITDおよび／またはILDを補償した後、波形の類似性を測定することにより求められる。よって、このフレームワークにおいては、相関は、ILDおよび／またはITDで説明できない、対応するサブバンド信号の類似性または非類似性として定義される。このパラメータの測定基準は、相互相関関数の最大値（すなわち、一組の遅延の最大値）であることが好適である。しかし、他の測定基準を用いることもできる。例えば、ILDおよび／またはITD補償後の差信号の、対応するサブバンドの和信号（ILDおよび／またはITDについて補償されていることが好ましい）に対する相対的エネルギーなどである。この差パラメータは、基本的には、（最大）相関の線形変換である。
パラメータ量子化
パラメータの送信に関して重要な問題は、そのパラメータが正しく表示されているかどうか（すなわち、量子化エラーの大きさ）である。これは、必要となる送信キャパシティとオーディオ品質とに直接関係している。このセクションでは、空間的パラメータの量子化について、いくつかの問題点を説明する。基本的なアイデアとしては、量子化エラーを空間的キューのいわゆる顕著な違いのみ（just-noticeable differences (JND)）に基づかせることである。より具体的にいうと、量子化エラーは、パラメータの変化に対する人間の聴覚システムの感度により決定される。パラメータの変化に対する感度はパラメータの値そのものに強く依存することは周知であり、以下の方法で離散的な量子化ステップを決定することができる。
ILDの量子化
IIDの変化に対する感度はILD自体に依存することが、音響心理学の研究により知られている。ILDをdBで表したとき、0dBを基準として1dBの違いは検出可能である。しかし、20dBをレベル差の基準とすると、検出可能な変化は3dBのオーダーである。それゆえ、左右のチャンネルの信号が大きなレベル差を有せば、量子化エラーはより大きくすることができる。例えば、このことを適用して、まず、チャンネル間のレベル差を測定し、得られたレベル差を非線形（圧縮）変換し、その後量子化する。または、非線形の分布をしたILD値のルックアップテーブルを用いる。好ましい実施形態においては、ILDは次の集合I
I=［-19、-16、-13、-10、-8、-6、-4、-2、0、2、4、6、8、10、13、16、19］
中の最も近い値に量子化される。
ITDの量子化
被験者のITDの変化に対する感度は、一定の位相の閾値を有するものとして特徴付けることができる。遅延時間に関して、周波数が上がればITDの量子化ステップは減少する。あるいは、ITDが位相差の形式で表されているとき、量子化ステップは周波数には依存しない。実装方法の１つとして、量子化ステップとして位相差を固定し、各周波数帯域について対応する時間遅延を決定する。このITD値を量子化ステップとして用いる。好ましい実施形態において、ITD量子化ステップを、0.1ラジアン（rad）のサブバンドごとに一定の位相差としてもよい。よって、各サブバンドについて、サブバンドの中心周波数の0.1ラジアンに対応する時間差を量子化ステップとして用いる。2kHzより上の周波数については、ITD情報は送信しない。

他の方法としては、周波数に依存しない量子化方法による位相差を送信してもよい。人間の聴覚システムは、ある周波数より上では、波形の微細構造におけるITDには敏感ではないことが知られている。この現象を利用して、ある周波数（一般的には2kHz）までのITDパラメータを送信する。

ビットストリームを減らす第３の方法は、ILDおよび／または同じサブバンドの相関パラメータに依存するITD量子化ステップを組み込むことである。ILDが大きければ、ITDの符号化は正確でなくてもよい。さらにまた、相関が非常に低いとき、ITDの変化に対する感度は低くなることが知られている。よって、相関が小さいときには、ITDの量子化エラーが大きくてもよい。このアイデアの極端な例として、相関がある閾値よりも低いときは、ITDをまったく送信しなくてもよい。
相関の量子化
相関の量子化エラーは、（１）相関値そのもの、および可能性として（２）ILDに依存する。相関値が+1に近いと非常に正確に符号化され（すなわち、量子化ステップが小さい）、相関値が0に近いと符号化の正確性が低くなる（量子化ステップが大きくなる）。好ましい実施形態において、非線形に分布した一組の相関値（r）が次のアンサンブルR
R=[1、0.95、0.9、0.82、0.75、0.6、0.3、0]
の一番近い値に量子化される。この量子化には相関値あたり3ビットかかる。

カレントサブバンドの（量子化された）ILDの絶対値が19dBになったとき、このサブバンドのITDと相関値は送信されない。あるサブバンドの（量子化された）相関値がゼロのとき、そのサブバンドのITD値は送信されない。

このように、各フレームについて空間的パラメータを送信するのに233ビットかかる。更新フレーム長が1024サンプルかつサンプリングレートが44.1kHzのとき、送信ビットレートの最大値は10.25kbit/secより小さい［233*44100/1024=10.034kbit/s］。（エントロピー符号化または差分符号化を用いるとこのビットレートはさらに減らすことができる。）
第２の可能性として、同じサブバンドについて測定されたILDに依存する相関の量子化ステップを用いる。ILDが大きいとき（すなわち、エネルギーに関して１つのチャンネルが支配的であるとき）、相関の量子化エラーは大きくなる。この原理の極端な例として、そのサブバンドのIIDの絶対値がある閾値より大きいとき、そのサブバンドの相関値はまったく送信しない。
詳細な実施
より詳細に、モジュール２０において、左右の入来信号は時間フレーム（44.1kHzサンプリングレートで2048サンプル）に分けられ、平方根ハニングウィンドウでウィンドウが開けられる。その後、FFTが計算される。負のFFT周波数は捨てられ、その結果得られるFFTがグループまたはFFTビンのサブバンド１６に分割される。サブバンドgにまとめられるFFTビンの数は周波数に依存する。高い周波数では低い周波数よりより多くのビンがまとめられる。現行の実施においては、約1.8ERBに対応するFFTビンがグループ化され、可聴周波数範囲全体を20個のサブバンドで表す。（最低周波数から始まる）各後続サブバンドのFFTビンS[g]の数は、
S=[4 4 4 5 6 8 9 12 13 17 21 25 30 38 45 55 68 82 100 477]
である。最初の３つのサブバンドはFFTビンを４つずつ含んでおり、４つめのサブバンドはFFTビンを５つ含んでいる、等である。各サブバンドについて、分析モジュール１８は対応するILD、ITD、相関（r）を計算する。ITDと相関は他のグループに属するFFTビンをすべてゼロに設定し、左右チャンネルの（帯域制限された）FFTを乗算し、逆FFT変換をすることにより簡単に計算できる。結果として得られる相互相関関数をスキャンして、-64と+63のチャンネル間遅延内のピークを探す。ピークに対応する内部遅延はITD値として用い、このピークにおける相互相関関数の値はこのサブバンドにおけるインターオーラル相関として用いられる。最後に、ILDが各サブバンドの左右チャンネルのパワー比を取ることにより簡単に計算される。
和信号の生成
アナライザ１８は和信号ジェネレータ１７を含む。和信号ジェネレータ１７は、左右のサブバンドに位相訂正（時間的アライメント）を施してから信号を加算する。この位相訂正は、そのサブバンドについて計算されたITDにより行われ、左チャンネルサブバンドをITD/2、右チャンネルサブバンドを-ITD/2遅延させるステップを有する。各FFTビンの位相角を適当に修正することにより、周波数ドメインにおいて遅延を実行する。その後、位相修正した左右サブバンド信号を加えて和信号を計算する。最後に、相関されていない和信号または相関された和信号を補償するため、和信号の各サブバンドにsqrt(2/(1+r))をかけ、最終的な和信号１２を生成する。ここでrは対応するサブバンドの相関である。必要なら、（１）負の周波数に共役複素数を代入し、（２）逆FFTを施し、（３）ウィンドウを開け、（４）加算することによって、和信号を時間ドメインに変換することもできる。

上で説明したように、時間および／または周波数ドメインにおける和信号１２の表現を与えられたとき、信号はたくさんある従来の方法を用いてビットストリーム５０のモノラルレイヤー４０で符号化することができる。例えば、mp3エンコーダを用いて、ビットストリームのモノラルレイヤー４０を生成することができる。入力信号が急激に変化したことを上記エンコーダが検出したとき、その時間期間に利用するウィンドウの長さを変更し、入力信号のその部分を符号化するときに時間または周波数の定位を改善することができる。ウィンドウ切り替えフラグをビットストリームに内蔵し、後で信号を合成するデコーダにこの切り替えを示す。本発明の目的のために、このウィンドウ切り替えフラグは、入力信号中の推定されたトランジェント位置として用いられる。

しかし、好ましい実施形態においては、WO01/69593-A1に記述されたタイプのシヌソイドコーダ３０を用いて、モノラルレイヤー４０を生成する。このコーダ３０は、トランジェントコーダ１１、シヌソイドコーダ１３、およびノイズコーダ１５を有する。

信号１２がトランジェントコーダ１１に入力されると、各更新期間において、コーダはトランジェント信号成分があるかどうか、および分析ウィンドウ内でのそのトランジェント信号成分の位置を（サンプル精度まで）推定する。トランジェント信号成分の位置が決定されると、コーダ１１はそのトランジェント信号成分（の主要部分）の抽出を試みる。好ましくは推定された開始位置で始まる信号セグメントに形状関数をマッチさせ、例えば多（小）数のシヌソイド成分を用いてこの形状関数の下にあるコンテントを決定する。この情報はトランジェントコードCTに含まれる。

和信号１２からトランジェント成分を引いた信号が、シヌソイドコーダ１３に供給され、分析されて、（決定論的）シヌソイド成分が決定される。簡単に言えば、シヌソイドコーダは、入力信号を１つのフレームセグメントから次のフレームセグメントへリンクしたシヌソイド成分のトラックとして符号化する。このトラックは最初、あるセグメント（誕生）で始まるシヌソイドのスタート周波数、スタート振幅、スタート位相により表される。その後は、トラックが終了するセグメント（死）まで、トラックは後続セグメントにおいては周波数差、振幅差、および位相差により表される。この情報はシヌソイドコードCSに含まれる。

この信号からトランジェント成分とシヌソイド成分を引いた信号は、主にノイズ成分を有すると仮定され、好ましい実施形態のノイズアナライザ１５がこのノイズを表すノイズコードCNを生成する。従来、例えばWO01/89086-A1に開示されたように、ノイズのスペクトルは、ノイズコーダおよびこれに組み込まれた、等価方形帯域幅（ERB）スケールによる、AR（自己回帰）MA（移動平均）フィルターパラメータ（pi、qi）によりモデル化されている。デコーダにおいて、フィルターパラメータはノイズシンセサイザに入力される。このノイズシンセサイザは、主にフィルターであり、ノイズのスペクトルと近似した周波数応答を有する。該シンセサイザはARMAフィルターパラメータ（pi、qi）で白色ノイズ信号をフィルターすることによりノイズを再構成し、合成されたトランジェント信号およびシヌソイド信号にこのノイズを加え、オリジナルの和信号を推測する。

マルチプレクサー４１は、モノラルオーディオレイヤー４０を生成する。このモノラルオーディオレイヤー４０はフレーム４２に分割される。フレーム４２は16msの時間セグメントが重複しており、8msごとに更新される（図４参照）。各フレームはそれぞれのコードCT、CS、CNを含み、デコーダにおいてモノラルの和信号を合成するとき、連続するフレームのコードは重複領域では混ざり合う。本実施形態においては、各フレームはトランジットコードは１つまで含み、トランジットの例は参照符号４４により示されている。
空間的パラメータの生成
アナライザ１８は空間的パラメータレイヤージェネレータ１９をさらに有する。この構成要素は、上で説明したように、各空間的パラメータフレームの空間的パラメータを量子化する。一般的に、ジェネレータ１９は各空間的レイヤーチャンネル１４をフレーム４６に分割する。そのフレーム４６は、64msの時間が重なっており、32msごとに更新される（図４参照）。各フレームはそれぞれのILD、ITDまたはIPD、および相関係数を含む。デコーダにおいて、後続フレームの値が重複した領域で混ぜ合わされ、信号が合成されるときに空間的レイヤーパラメータが決定される。

好ましい実施形態において、モノラルレイヤー４０においてトランジェントコーダ１１により（または和信号１２において対応するアナライザモジュールにより）検出されたトランジェントの位置はジェネレータ１９により用いられ、空間的パラメータレイヤー１４を一様でなく時間セグメント化することが必要かどうかを決定する。エンコーダがmp3コーダを用いてモノラルレイヤーを生成するときは、ジェネレータはモノラルストリーム中のウィンドウ切り替えフラグによりトランジェントの位置を推定する。

図４を参照して、ジェネレータ１９は、フレームを生成しようとしている空間的パラメータレイヤーの時間ウィンドウに対応するモノラルレイヤーの後続フレームの１つにおいてトランジェント４４が符号化される必要があるとの表示を受け取る。各空間的パラメータレイヤーは時間セグメントが重複したフレームを有するので、ジェネレータはいつも１つの空間的パラメータレイヤーにつき２つのフレームを生成することが分かる。いかなる場合も、ジェネレータは、トランジェント位置の周りの、より短いウィンドウ４８を表すフレームの空間的パラメータを生成する。このフレームは、通常の空間的パラメータレイヤーフレームと同じフォーマットであり、同様に計算されるが、トランジェント位置４４の周りのより短い時間ウィンドウに関するものである点が異なることに注意すべきである。フレームのウィンドウ長が短いと、マルチチャンネル画像の時間的分解能が向上する。トランジェントウィンドウフレームの前後で生成されたフレームを用いて、特殊な遷移ウィンドウ４７と４９を表す。この遷移ウィンドウ４７、４９は、短いトランジェントウィンドウ４８を通常フレームで表されるウィンドウ４６に接続する。

好ましい実施形態において、トランジェントウィンドウ４８を表すフレームは、空間的表現レイヤービットストリーム１４中の付加的フレームであるが、トランジェントの頻度は余り高くないので、ビットレート全体への影響は少ない。それにもかかわらず、この好ましい実施形態を用いて生成されたビットストリームを読むデコーダは、この付加的フレームを考慮に入れることが重要である。さもなければ、モノラルレイヤーおよび空間的表現レイヤーの同期に影響があるからである。

本実施形態における仮定として、トランジェントは頻繁には発生しないので、通常のフレーム４６のウィンドウ内のただ１つのトランジェントは、空間的パラメータレイヤー表示に関係する。通常のフレームの期間中にたとえ２つのトランジェントが発生したとしても、図３に示したように、第１のトランジェントの周りで一様でないセグメント化がおこるものと仮定する。ここでは、３つのトランジェント４４がそれぞれのモノラルフレーム内で符号化されていることが示されている。しかし、第３のトランジェントではなく第２のトランジェントが用いられ、トランジェントウィンドウがエンコーダにより挿入された付加的空間的パラメ―タレイヤーフレームから導かれる前の、かつ第２のトランジションウィンドウを表すフレームが後に続く、（このトランジェントの下に示した）同じ時間期間を第１のトランジションウィンドウとして用いるべきことを示す。

それでもなお、図３の第１のトランジェントの場合のように、モノラルレイヤーで符号化されたトランジェントの位置はすべて、空間的パラメータレイヤーに関係する。よって、モノラルレイヤーまたは空間的表示レイヤーのいずれかのビットストリームシンタックスは、空間的表示レイヤーに関係するトランジェント位置または関係しないトランジェント位置の表示を含んでもよい。

好ましい実施形態において、ジェネレータ１９が空間的表示レイヤーのトランジェントの関係性を決定する。この決定は、トランジェント位置４４を取り囲む大きなウィンドウ（例えば、1024サンプル）から、またはトランジェント位置の周りのより短いウィンドウ４８から導かれた推定空間的パラメータ（ILD、ITD、および相関（r））の間の差異を見ることにより行う。短い時間期間と粗い時間期間からのパラメータ間に大きな変化があるとき、トランジェント位置の周りで推定された余分な空間的パラメータが、短い時間ウィンドウ４８を表す付加的フレームに挿入される。ほとんど違いがないときは、空間的表示のためにはトランジェント位置は選択されず、ビットストリーム中にその旨の表示が含められる。

最後に、一旦モノラルレイヤー４０と空間的表示レイヤー１４が生成されると、マルチプレクサ４３によりビットストリーム５０に順番に書きこまれる。このオーディオストリーム５０は、順番に、例えばデータバス、アンテナシステム、記録媒体等に送られる。
合成
図２を参照して、デコーダ６０はデマルチプレクサ６２を含む。そのデマルチプレクサ６２は、入来オーディオストリーム５０をモノラルレイヤー４０´および、この場合、単一の空間的表示レイヤー１４´に分割する。モノラルレイヤー４０´は、従来のシンセサイザ６４に読み込まれる。このシンセサイザ６４は、そのレイヤーを生成しオリジナルの和信号１２´の時間ドメインの推定を提供したエンコーダに対応する。

デマルチプレクサ６２により抽出された空間的パラメータ１４´は、後処理モジュール６６により和信号１２´に適用され、左右の出力信号が生成される。好ましい実施形態による後処理器は、モノラルレイヤー１４´の情報を読み込み、この信号中のトランジェントの位置を特定する。（あるいは、シンセサイザ６４が後処理モジュールにトランジションの位置を知らせてもよい。しかし、この場合は従来のシンセサイザ６４を少し変更する必要がある。）
いかなる場合にも、後処理器が、処理しようとしている空間的パラメータレイヤー１４´のフレームの通常の時間ウィンドウに対応するモノラルレイヤーフレーム４２内のトランジェント４４を検出したとき、このフレームは短いトランジェントウィンドウ４８の前のトランジションウィンドウ４７を表していることがわかる。後処理器はトランジェント４４の時間位置を知っており、トランジェントウィンドウの前のトランジションウィンドウ４７の長さと、トランジェントウィンドウ４８の後ろのトランジションウィンドウ４９の長さを知っている。好ましい実施形態において、後処理器６６は混合モジュール６８を含む。この混合モジュール６８は、ウィンドウ４７の第１の部分について、空間的表示レイヤーを合成するにあたり、ウィンドウ４７のパラメータを先行するフレームのパラメータを混ぜ合わせる。その時からトランジェントウィンドウ４８の始まりまで、ウィンドウ４７を表すフレームのパラメータのみが、空間的表示レイヤーを合成するのに用いられる。トランジェントウィンドウ４８の第１の部分では、トランジションウィンドウ４７とトランジェントウィンドウ４８のパラメータは混ぜ合わされる。トランジェントウィンドウ４８の第２の部分では、トランジションウィンドウ４９のパラメータとトランジェントウィンドウ４８のパラメータとが混ぜ合わされる、等である。これはトランジションウィンドウ４９の中央まで続き、その後はフレーム間の混ぜ合わせは通常のように続く。

上で説明したように、いかなる時間においても使用される空間的パラメータは、２つの通常のウィンドウ４６フレームのパラメータ、通常のウィンドウ４６とトランジションフレーム４７、４９のパラメータを混ぜ合わせたもの、トランジションウィンドウフレーム４７、４９のパラメータのみ、トランジションウィンドウフレーム４７、４９のパラメータを混ぜ合わせたもの、およびトランジェントウィンドウフレーム４８のパラメータである。空間的表示レイヤーのシンタックスを用いて、モジュール６８は空間的表示レイヤーの一様でない時間セグメント化を示すトランジェントを選択することができ、この適当なトランジェント位置において、短いトランジェントウィンドウによりマルチチャンネル画像の時間定位がよくなる。

後処理器６６内においては、分析のセクションで説明したように、和信号１２´の周波数ドメイン表示を処理に利用することができる。この表示は、シンセサイザ６４により生成された時間ドメイン波形のウィンドウおよびFFTにより取得することができる。和信号は左右の出力信号経路にコピーされる。その後、左右信号間の相関が、パラメータrを用いてデコリレータ６９´、６９´´で変更される。これをどのように実施するかについての詳細な説明は、2002年7月12日に出願された欧州特許出願「信号合成Signal synthesizing」を参照されたい。D.J.Breebaartが第１発明者である（弊社参照番号PHNL020639）。この欧州特許出願には、入力から第１と第２の出力信号を合成する方法が開示されている。この方法は、入力信号をフィルターしてフィルター信号を生成するステップと、相関パラメータを取得するステップと、第１と第２の出力信号間の所望のレベル差を示すレベルパラメータを取得するステップと、入力信号とフィルター信号を行列演算により第１と第２の出力信号に変換するステップとを有する。ここで行列演算は相関パラメータとレベルパラメータに依存する。その後、それぞれの段階７０´、７０´´において、左信号の各サブバンドは-ITD/2だけ遅らせ、右信号はITD/2だけ遅らされる。（量子化された）ITDはサブバンドに対応する。最後に、左右のサブバンドは、それぞれの段階７１´、７１´´においてそのサブバンドのILDによりスケールされる。それぞれの変換段階７２´、７２´´は、出力信号を時間ドメインに変換する。この変換は、（１）負の周波数に複素共役を挿入するステップ、（２）逆FFTするステップ、（３）ウィンドウを空けるステップ、（４）重複して加えるステップにより実行される。

デコーダとエンコーダの好ましい実施形態を、２つの信号の組み合わせであるモノラル信号の生成に関して説明した。デコーダでモノラル信号のみが使用される場合を主に扱った。しかし、本発明はこれらの実施形態のみに限定されるものではなく、モノラル信号は付加的チャンネルを作るそれぞれのコピーに適用される空間的パラメータレイヤーを有する信号入出力チャンネルに相当することを分かるべきである。

本発明は専用のハードウェア、DSP（デジタル信号プロセッサ）または汎用コンピュータ上で動作するソフトウェアで実施することができることが分かっている。本発明による符号化方法を実行するコンピュータプログラムを格納したCD-ROMまたはDVD-ROM等の有形媒体として、本発明を実施することもできる。本発明は、インターネット等のデータネットワークを介して送信された信号、または放送サービスにより送信された信号として実施することもできる。本発明は、インターネットによるダウンロード、インターネットラジオ、ソリッドステートオーディオ（SSA）、帯域幅拡張方法、例えばmp3プロ、CT-aacプラス（www.codingtechnologies.com参照）、およびほとんどのオーディオ符号化方法の分やに適用可能である。

本発明の一実施形態による、エンコーダを示す概略図である。本発明の一実施形態による、デコーダを示す概略図である。モノラル信号のそれぞれのサブフレーム中で符号化されたトランジェント位置と対応するマルチチャンネルレイヤーのフレームを示す図である。パラメトリックマルチチャンネルレイヤーを復号するために、モノラル符号化レイヤーからのトランジェント位置を利用する例を示す図である。

Claims

オーディオ信号を符号化する方法であって、
モノラル信号を生成するステップと、
少なくとも２つのオーディオチャンネルの空間的特徴を分析し、後続の時間スロットのために一組以上の空間的パラメータを取得するステップと、
前記モノラル信号がある時刻にトランジェントを含むことに応じて、前記トランジェント時刻を含む期間の前記一組の空間的パラメータの一様でない時間セグメンテーションを決定するステップと、
前記モノラル信号と前記一組以上の空間的パラメータとを有する符号化信号を生成するステップとを有することを特徴とする方法。
請求項１に記載の方法であって、前記モノラル信号は少なくとも２つの入力オーディオチャンネルの組み合わせを有することを特徴とする方法。
請求項１に記載の方法であって、前記モノラル信号はパラメトリックシヌソイドコーダで生成され、前記コーダは前記モノラル信号の後続の時間スロットに対応するフレームを生成し、前記フレームの少なくとも一部は、前記フレームにより表された時間スロットそれぞれで生起するトランジェントを表すパラメータを含むことを特徴とする方法。
請求項１に記載の方法であって、前記モノラル信号は波形エンコーダで生成され、前記エンコーダは、前記トランジェント時刻を含む期間の前記モノラル信号の一様でない時間セグメンテーションを決定することを特徴とする方法。
請求項４に記載の方法であって、前記波形エンコーダはmp3エンコーダであることを特徴とする方法。
請求項１に記載の方法であって、前記一組以上の空間的パラメータは少なくとも２つのローカライゼーションキューを含むことを特徴とする方法。
請求項６に記載の方法であって、前記一組以上の空間的パラメータは、前記ローカライゼーションキューによって説明できない、波形の類似性または非類似性を記述するパラメータをさらに有することを特徴とする方法。
請求項７に記載の方法であって、前記パラメータは相互相関関数の最大値であることを特徴とする方法。
オーディオ信号を符号化するエンコーダであって、
モノラル信号を生成する手段と、
少なくとも２つのオーディオチャンネルの空間的特徴を分析し、後続の時間スロットのために一組以上の空間的パラメータを取得する手段と、
前記モノラル信号がある時刻にトランジェントを含むことに応じて、前記トランジェント時刻を含む期間の前記一組の空間的パラメータの一様でない時間セグメンテーションを決定する手段と、
前記モノラル信号と前記一組以上の空間的パラメータとを有する符号化信号を生成する手段とを有することを特徴とするエンコーダ。
オーディオ信号を供給する装置であって、
オーディオ信号を受信する入力部と、
前記オーディオ信号を符号化し符号化オーディオ信号を取得する、請求項９に記載のエンコーダと、
前記符号化オーディオ信号を供給する出力部とを有することを特徴とする装置。
符号化オーディオ信号であって、
ある時刻に生起するトランジェントの少なくとも１つの表示を含むモノラル信号と、
前記符号化オーディオ信号の後続の時間スロットのための一組以上の空間的パラメータを有し、前記一組以上の空間的パラメータは、前記トランジェント時刻を含む期間のオーディオ信号の一様でない時間セグメンテーションを提供することを特徴とする符号化オーディオ信号。
請求項１１に記載の符号化オーディオ信号が格納された記憶媒体。
符号化オーディオ信号を復号する方法であって、
前記符号化オーディオ信号からモノラル信号を取得するステップと、
前記符号化オーディオ信号から一組以上の空間的パラメータを取得するステップと、
前記モノラル信号がある時刻にトランジェントを含むことに応じて、前記トランジェント時刻を含む期間に対して前記一組以上の空間的パラメータの一様でない時間セグメンテーションを決定するステップと、
前記一組以上の空間的パラメータを前記モノラル信号に適用し、マルチチャンネルの出力信号を生成するステップとを有することを特徴とする方法。
符号化オーディオ信号を復号するデコーダであって、
前記符号化オーディオ信号からモノラル信号を取得する手段と、
前記符号化オーディオ信号から一組以上の空間的パラメータを取得する手段と、
前記モノラル信号がある時刻にトランジェントを含むことに応じて、前記トランジェント時刻を含む期間に対して前記一組以上の空間的パラメータの一様でない時間セグメンテーションを決定する手段と、
前記一組以上の空間的パラメータを前記モノラル信号に適用し、マルチチャンネルの出力信号を生成する手段とを有することを特徴とするデコーダ。
復号オーディオ信号を供給する装置であって、
符号化オーディオ信号を受信する入力部と、
前記符号化オーディオ信号を復号しマルチチャンネル出力信号を取得する、請求項１４に記載のデコーダと、
前記マルチチャンネル出力信号を供給または再生する出力部とを有することを特徴とする装置。