JP5539926B2

JP5539926B2 - マルチチャンネル・エンコーダ

Info

Publication number: JP5539926B2
Application number: JP2011124944A
Authority: JP
Inventors: ハーホトー，ヘラルド; イェーブレーバールト，ディルク; アーフェルビトスキー，イフゲニー; ブリンケル，アルベルテュスセーデン
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-04-05
Filing date: 2011-06-03
Publication date: 2014-07-02
Anticipated expiration: 2025-03-25
Also published as: KR101135869B1; RU2006139082A; EP1895512A2; US7813513B2; JP4938648B2; EP1895512A3; BRPI0509100A; JP2011209745A; EP1735777A1; MXPA06011359A; KR20070001206A; JP2007531914A; EP3573055B1; CN1938760A; TW200612392A; BRPI0509100B1; WO2005098824A1; US20070239442A1; US20110040398A1; CN1938760B

Description

本発明は、マルチチャンネル・エンコーダ、たとえば空間音響のパラメータ式の記述を利用したマルチチャンネル・オーディオエンコーダに関する。さらに、本発明はそのようなマルチチャンネル・エンコーダにおいて信号、たとえば空間音響を処理する方法にも関する。さらに、本発明は、そのようなマルチチャンネル・エンコーダによって生成される信号を復号するよう動作できるデコーダに関する。

オーディオの録音および再生は近年、モノラルの単一チャンネル形式から二チャンネルのステレオ形式に、より最近には多チャンネル形式、たとえばホームシアターシステムにおいてしばしば使われるような５チャンネルのオーディオ形式へと発達してきた。スーパーオーディオ・コンパクトディスク（SACD: super audio compact disk）およびデジタル多用途ディスク（DVD: digital versatile disc）のデータ担体が導入された結果、そのような５チャンネルのオーディオ再生が現在関心を得てきている。多くのユーザーは現在、家庭で５チャンネルのオーディオ再生を提供できる装置を所有している。それに応じて、好適なデータ担体上の５チャンネルのオーディオ・プログラム・コンテンツがますます手にはいるようになっている。たとえば、前述したSACDおよびDVDの型のデータ担体である。多チャンネルのプログラム・コンテンツへの関心の高まりのため、多チャンネルのオーディオ・プログラム・コンテンツのより効率的な符号化、たとえば音質向上、再生時間延長あるいはチャンネル増といったことの一つまたは複数を提供することが重要な課題となりつつある。

パラメータ式の記述子によってオーディオ・プログラム・コンテンツなどの空間音響情報を表現できるエンコーダは既知である。たとえば、公開されている国際PCT特許出願第PCT/IB2003/002858（WO2004/008805）では、少なくとも第一の信号成分（LF）、第二の信号成分（LR）および第三の信号成分（RF）を含む多チャンネルオーディオ信号のエンコードが記載されている。このエンコードは：
（ａ）第一のパラメータ式エンコーダを使って第一のエンコード信号（L）およびエンコードパラメータの第一の組（P2）を生成することによって前記第一および第二の信号成分をエンコードし、
（ｂ）第二のパラメータ式エンコーダを使って第二のエンコード信号（T）およびエンコードパラメータの第二の組（P1）を生成することによって前記第一のエンコード信号およびさらなる信号（R）をエンコードし、ここで、前記さらなる信号（R）は少なくとも前記第三の信号成分（RF）から導かれるものであり、
（ｃ）少なくとも前記第二のエンコード信号（T）、エンコードパラメータの前記第一の組（P2）およびエンコードパラメータの前記第二の組（P1）から導かれる、結果として得られるエンコード信号（T）に少なくともよって、前記多チャンネルオーディオ信号を表現する、
ステップを有する方法を利用している。

オーディオ信号を記述する量子化されたパラメータを伝送するには比較的少ない伝送容量しか必要でないことが示されたため、オーディオ信号のパラメータ式の記述は、近年関心を得ている。これらの量子化されたパラメータは、対応するもともとのオーディオ信号から知覚的に著しく異なりはしないオーディオ信号を再生成するために、デコーダ内で受信され、処理されることができる。

現代のマルチチャンネル・エンコーダからの出力がその後復号されるとき、著しいチャンネル間干渉の問題が生じる。そのような干渉は、２チャンネルのダウンミックスとの関連で良好なステレオ音像を生成するよう構成されたマルチチャンネル・エンコーダにおいて特に顕著である。本発明は、この問題に少なくとも部分的に対処するよう構成されており、それにより対応する復号された多チャンネルオーディオの品質を向上させるものである。

本発明の目的は、あとで復号するときのチャンネル間干渉が削減されうるようなエンコード出力データを生成しうる、マルチチャンネル・エンコーダ内で使用できる代替的なマルチチャンネル・エンコーダまたはブロックを提供することである。

本発明の第一の側面によれば、複数の入力チャンネルにおいて伝達される入力信号を処理して、ダウンミックス出力信号を相補的なパラメータ用データとともに有する対応する出力データを生成するよう動作しうるマルチチャンネル・エンコーダであって：
（ａ）入力信号をダウンミックスして対応するダウンミックス出力信号を生成するダウンミキサと、
（ｂ）前記ダウンミックス出力信号と相補的な前記パラメータ用データを生成するよう動作しうる、前記入力信号を処理する解析器とを含んでおり、
前記ダウンミックス出力信号を生成するときに、当該エンコーダ内で処理され、そして破棄されるチャンネルの信号を予測するための前記ダウンミックス出力信号のその後の復号を許容するよう動作しうる、マルチチャンネル・エンコーダが提供される。

本発明は、当該エンコーダからの出力データが、削減されたチャンネル間干渉をもって復号されうる、すなわち入力信号の後刻の向上された再生成を可能にするという点で有利である。

さらに、入力信号を表現するために必要とされる当該マルチチャンネル・エンコーダからのデータ出力の量も潜在的には削減される。

好ましくは、当該エンコーダは入力信号を時間／周波数タイルをベースとして処理するよう動作しうる。より好ましくは、それらのタイルは事前に、あるいは入力信号の処理中にエンコーダ内で定義される。

好ましくは、当該エンコーダにおいて、前記解析器は、一つまたは複数の入力信号と、当該マルチチャンネル・エンコーダからの出力データから生成されうる前記一つまたは複数の入力信号の予測値との間の差から導出される少なくとも一つの信号の最適化を適用することによって、前記パラメータ用データ（C_1,i;C_2,i）の少なくとも一部を生成するよう動作しうる。より好ましくは、前記最適化はユークリッド・ノルムを最小にすることに関わる。

好ましくは、当該エンコーダにおいて、入力チャンネルはN個あり、前記解析器はこれを処理して各時間／周波数タイルについて前記パラメータ用データを生成するよう動作でき、前記解析器は出力データ中で入力データを表現するためにM個のダウンミックス出力信号とともにM(N−M)個のパラメータを出力するよう動作できる。ここでMおよびNは整数で、M＜Nである。より好ましくは、当該エンコーダにおいて整数Mが２に等しい場合、前記ダウンミキサは、２チャンネルのステレオ音響装置において再生でき、標準的なステレオ・コーダによってコードされうる２つのダウンミックス出力信号を生成するよう動作できる。そのような特性は、当該エンコーダおよび関連する出力データを以前の再生システム、たとえばステレオ音響２チャンネル再生システムに対して上位互換にすることができる。

本発明の第二の側面によれば、本発明の第一の側面に基づくマルチチャンネル・エンコーダに含めるための信号プロセッサが提供される。該プロセッサは、当該マルチチャンネル・エンコーダ内でデータを処理し、そのダウンミックス出力信号およびパラメータ用データを生成するよう動作しうる。

本発明の第三の側面によれば、マルチチャンネル・エンコーダにおいて入力信号をエンコードして、ダウンミックス出力信号を相補的なパラメータ用データとともに有する対応する出力データを生成する方法であって：
（ａ）複数（N）の入力チャンネルを介して当該マルチチャンネル・エンコーダに入力信号を提供し、
（ｂ）入力信号をダウンミックスして前記対応する（M個の）ダウンミックス出力信号を生成し、
（ｃ）入力信号を処理して前記ダウンミックス出力信号と相補的な前記パラメータ用データを生成する、
ステップを含んでおり、当該マルチチャンネル・エンコーダにおける前記入力信号の処理が、入力信号の表現を後刻再生成できるようにするためのパラメータ・データを決定することに関わり、前記ダウンミックス信号が、当該エンコーダにおいて処理され、そして破棄されるチャンネルの信号の内容を予測するための該ダウンミックス信号の復号を許容するものであるような方法が提供される。

本発明の第四の側面によれば、本発明の第三の側面の方法によって生成される、データ担体上に保存される、エンコードされた出力データが提供される。

本発明の第五の側面によれば、本発明の第一の側面に基づくエンコーダによって生成された出力データを復号するデコーダであって：
（ａ）エンコーダからのパラメータ用データとともにダウンミックス出力信号を受け取り、該パラメータ用データを処理して一つまたは複数の係数すなわちパラメータを決定するよう動作できる処理手段と、
（ｂ）前記パラメータ・データおよびまたステップ（ａ）で決定された前記一つまたは複数の係数を使って、さらなる処理によってエンコーダによって生成された出力信号のもとになった入力信号の表現を実質的に再生成するために、出力データ中にエンコードされている各入力信号の近似表現を計算する計算手段、
とを有するデコーダが提供される。

本発明の第六の側面によれば、本発明の第五の側面に基づくマルチチャンネル・デコーダに含めるための信号プロセッサであって、入力信号の表現を再生成することに関係してデータを処理することにおいて支援するよう動作しうる信号プロセッサが提供される。

本発明の第七の側面によれば、マルチチャンネル・デコーダにおいて、本発明の第一の側面に基づくマルチチャンネル・エンコーダによって生成されたような形のエンコードデータを復号する方法であって：
（ａ）エンコードデータ中に存在するパラメータ用データとともにダウンミックス出力信号を処理し、その際、前記パラメータ用データを一つまたは複数の係数すなわちパラメータを決定するために利用し、
（ｂ）前記パラメータ・データおよびまたステップ（ａ）で決定された前記一つまたは複数の係数を使って、さらなる処理によってエンコーダによって生成されたエンコードデータのもとになった入力信号の表現を実質的に再生成するために、エンコードデータ中にエンコードされた各入力信号の近似表現を計算する、
ステップを含む方法が提供される。

本発明の諸特徴は、本発明の範囲から外れることなくいかなる組み合わせにおいても組み合わせうることは理解されるであろう。
本発明の実施形態について、これからあくまでも例として、付属の図面を参照しつつ説明する。

本発明の第一のコンテキストに関係する本発明に基づくコーダを含んでいるマルチチャンネル・エンコーダの実施形態の概略的なブロック図である。本発明の第一のコンテキストに関係する図１のエンコーダと互換な、本発明に基づくデコーダの実施形態の概略的なブロック図である。前記コーダが本発明の第二のコンテキストに関係する本発明に基づくマルチチャンネル・エンコーダ内で用いられる、本発明の好ましい実施形態である。本発明の第二のコンテキストに関係する図３のエンコーダと互換な、本発明のコーダを使ったデコーダの実施形態を示す図である。本発明に基づくマルチチャンネル・エンコーダおよびマルチチャンネル・デコーダが標準的なステレオ・エンコーダおよびデコーダを用いて相互に構成される構成を示す図である。

本発明について、第一および第二のコンテキストにおいて述べる。第一のコンテキストでは、本発明に関わるエンコーダは、もとの入力信号を処理して対応するエンコードされた出力データを生成するよう動作しうる。そのエンコードされた出力データは、後刻デコーダで復号されてこれまで可能であった以上に知覚的に精確なもとの入力信号の表現を再生成できる。第二のコンテキストでは、本発明は、本発明の特定の実施例に関わる。

第一のコンテキストについてこれから図１および図２に関連して考察する。概観としては、本発明が関わるのは図１で全体として５で指示されるエンコーダである。エンコーダ５は、対応するもとの入力信号を受け取るためのN個の入力チャネルを含んでいる。たとえば、当該エンコーダはN＝3のときには３つの入力チャンネルCH1、CH2、CH3を含む。エンコーダ５はNチャンネルのもとの入力信号を処理して：
（ａ）M＜NとしてM個のダウンミックス・チャンネル出力における対応するエンコードされた出力信号、たとえばM＝2のときにはそれぞれ６１０、６２０で表される２つのチャンネル出力OP1、OP2と、
（ｂ）一つまたは複数のパラメータ用信号出力、たとえば６００で表されるパラメータ用出力、
とを生成するよう動作しうる。

後刻デコーダにおいてエンコーダ５によって生成された出力信号を最も最適に、すなわち最小二乗誤差に関して復号するためには、現在のところ、エンコードされた出力信号６００、６１０、６２０を生成する際にエンコーダ５において主成分解析（PCA: Principal Component Analysis）が用いられることが有益である。図２で１０で指示されるデコーダにおいて、エンコーダ５に呈示されたN個の入力信号に対応する信号を可能な限り最良に再生成するためにこれらの出力信号６００、６１０、６２０を処理することは、エンコーダ５のPCAによって生成されたパラメータを考慮に入れた場合に可能となりうる。信号６００、６１０、６２０におけるPCAパラメータのための値はもとの入力信号そのものによって誘導され、したがってエンコーダ５において生起するダウンミックスに対しては何らの影響力も許容しない。そのような影響力の欠如のため、現在のところ、エンコーダ５および対応するデコーダ１０においてPCAが用いられる際に満足なステレオ音像品質を得ることが実質的に不可能となっている。

本発明人らは、本発明について、エンコーダ５において前述したM個のダウンミックス・チャンネルに関して固定ダウンミックスが用いられるときには、これらM個のダウンミックス・チャンネルを相補的情報を伝達する追加的なN−M個のチャンネルの適切な集合によって拡張すれば、相補的なデコーダ１０におけるもとの入力信号の実質的に完璧な再生成が可能となりうることを認識するに至った。よって、そのようなN−M個のチャンネルに関係する情報が少なくとも部分的にエンコード中に破棄されている場合には、固定ダウンミックスによって生成されるM個のダウンミックス・チャンネルの出力信号を使って、N個のチャンネルのもとの入力信号の実質的に完璧な表現を再生成することはできないのである。しかし、本発明人らは、M個のダウンミックス・チャンネルに、たとえば出力６１０、６２０に好適な処理を適用すれば、これらのN−M個のチャンネルが少なくとも部分的には予測できることを認識するに至った。

よって、エンコーダ５は、本発明によれば、デコーダにおいてM個のダウンミックス・チャンネルから少なくともN−M個のチャンネルに対応するなにがしかの情報を予測する一方、同時にエンコーダ５からデコーダ１０にある種のパラメータを送る必要は回避する。そのような予測は、N個のチャンネルの信号どうしの間に存在する信号冗長性を利用するのであるが、これについてはのちにより詳細に述べる。さらに、対応する互換デコーダ１０は、エンコーダ５から与えられたエンコードデータを復号する際にその冗長性を回復する。

本発明をさらに解説するため、図１に示したエンコーダ５の実施例を述べ、それからそこにおいて用いられる信号処理の方法を数学的基礎を参照しつつ呈示する。

前述の第二のコンテキストに従う本発明の実施例についてこれから図３および図４を参照しつつ説明する。

図３には、全体として１５で指示されるマルチチャンネル・エンコーダが示されている。エンコーダ１５は４００ないし４５０で示される６つの入力信号を受け取るための３つの処理ユニット２０、３０、４０を含んでいる。これら６つの入力信号の性質はのちに解説する。３つの処理ユニット２０、３０、４０は、エンコーダ５に関連して前述したN個のチャンネル５００ないし５２０を生成するよう動作しうる。エンコーダ１５はまた、それぞれ処理ユニット２０、３０、４０の処理済み出力５００、５１０、５２０を受け取る混合およびパラメータ抽出ユニット１８０を有している。抽出ユニット１８０からの出力には、前述の第三のパラメータ・セット出力６００と、それぞれ左および右の中間信号９５０、９６０とがある。これらの中間信号はそれぞれ左および右のチャンネルのための前述のダウンミックス出力６１０、６２０を生成するために逆変換およびOLAユニット３６０を介して接続される。パラメータ・セット出力７２０、８２０、９２０、６００およびダウンミックス出力６１０、６２０は、エンコーダ１５からのエンコードされた出力データに対応し、その後対応する互換デコーダに通信されるのに好適である。該デコーダでは、６つの入力信号４００ないし４５０のうちの一つまたは複数の表現を再生成するため、出力データが復号される。あるいはまた、ダウンミックス出力６１０および６２０が標準的なステレオ・コーダに供給されることもできる。

４００ないし４５０で表される６つのもとの入力信号は：左前方オーディオ信号４００、左後方オーディオ信号４１０、効果オーディオ信号４２０、中央オーディオ信号４３０、右前方オーディオ信号４４０および右後方オーディオ信号４５０を含んでいる。効果信号４２０は好ましくは、たとえばとどろき、爆発、雷鳴の効果をシミュレートする際に使うための実質的に120Hzの帯域幅を有する。さらに、入力信号４００、４１０、４３０、４４０、４５０は好ましくは５チャンネルのホームシアター・サウンド・チャンネルに対応する。

処理ユニット２０、３０、４０は好ましくは、公開されている欧州特許出願第EP1,107,232号において解説されている仕方で実装される。該出願はこれらのユニット２０、３０、４０に関し、ここに参照によって組み込まれる。

処理ユニット２０はセグメントおよび変換ユニット１００、パラメータ解析ユニット１１０、パラメータ‐PCA角ユニット１２０およびPCA回転ユニット１３０を含んでいる。変換ユニット１００は変換後左前方出力および変換後左後方出力７００、７１０を含んでおり、これらはそれぞれPCA回転ユニット１３０およびパラメータ解析ユニット１１０に結合されている。第一のパラメータ・セット出力７２０はPCA角ユニット１２０を介してPCA回転ユニット１３０に結合されている。回転ユニット１３０は、出力７００、７１０および第一のパラメータ・セット出力を処理し、処理された出力５００を出力するよう動作しうる。ユニット２０内での処理は時間／周波数タイルをベースとして実行される。

同様に、処理ユニット３０はセグメントおよび変換ユニット２００、パラメータ解析ユニット２１０、パラメータ‐PCA角ユニット２２０およびPCA回転ユニット２３０を含んでいる。変換ユニット２００は変換後左前方出力および変換後左後方出力８００、８１０を含んでおり、これらはそれぞれPCA回転ユニット２３０およびパラメータ解析ユニット２１０に結合されている。第四のパラメータ・セット出力８２０はPCA角ユニット２２０を介してPCA回転ユニット２３０に結合されている。回転ユニット２３０は、出力８００、８１０および第四のパラメータ・セット出力を処理し、処理された出力５１０を出力するよう動作しうる。ユニット３０内での処理は時間／周波数タイルをベースとして実行される。

同様に、処理ユニット４０はセグメントおよび変換ユニット３００、パラメータ解析ユニット３１０、パラメータ‐PCA角ユニット３２０およびPCA回転ユニット３３０を含んでいる。変換ユニット３００は変換後左前方出力および変換後左後方出力９００、９１０を含んでおり、これらはそれぞれPCA回転ユニット３３０およびパラメータ解析ユニット３１０に結合されている。第二のパラメータ・セット出力９２０はPCA角ユニット３２０を介してPCA回転ユニット３３０に結合されている。回転ユニット３３０は、出力９００、９１０および第二のパラメータ・セット出力を処理し、処理された出力５２０を出力するよう動作しうる。ユニット４０内での処理は時間／周波数タイルをベースとして実行される。

処理された出力５００、５１０、５２０はそれぞれ左、中央および右の処理された信号に対応する。さらに、ダウンミックス出力６１０、６２０は、現在の２チャンネル・ステレオ再生装置を介して再生されうるので、以前のステレオ音響システムに対する上位互換性を維持する。第三のパラメータ・セット出力６００は追加的なパラメータ・データを含んでおり、それはデコーダ、たとえば図２に示したデコーダ１０において出力パラメータ・セット７２０、８２０、９２０およびダウンミックス出力６１０、６２０とともに処理されて、６つの入力信号４００ないし４５０の表現を再生成する。ダウンミックス出力６１０、６２０と第三のパラメータ・セット出力６００におけるパラメータ・データとを生成するためにこのダウンミックスが行われる仕方について次に説明する。

再び図１および図２に関する本発明の第一のコンテキストを参照すると、N個のチャンネルCH1ないしCH3のもとの入力信号、すなわちz₁[n]、z₂[n]、…z_N[n]はN個のチャンネルの離散的な時間領域の波形を記述する。これらのz₁[n]ないしz_N[n]の信号は３つの処理ユニット２０、３０、４０において、好ましくは時間的に重なり合う解析窓を用いてセグメント分割される。その後、各セグメントは時間形式から周波数形式に、すなわち時間領域から周波数領域に、好適な変換、たとえば高速フーリエ変換（FFT: Fast Fourier Transform）または同様の等価な型の変換を適用することによって変換される。そのような形式の変換は好ましくは、好適なソフトウェアを実行する計算ハードウェアにおいて実装される。あるいはまた、変換は時間／周波数タイルを得るためにフィルタバンク構造を使って実装されてもよい。さらに、変換の結果、チャンネルCH1ないしCH3について入力信号のセグメント分割されたサブバンド表現が生じる。便宜上、入力信号z₁[n]ないしz_N[n]のこれらのセグメント分割されたサブバンド表現をそれぞれZ₁[k]ないしZ_N[k]で表す。ここでkは周波数の添え字である。

便宜上、エンコーダ１５について示したような２つのダウンミックス・チャンネルを考えるが、ダウンミックス・チャンネル数の他の数への拡張も可能である。エンコーダ５は、N個のチャンネルCH1ないしCH3において伝達されるもとの入力信号からの前述のサブバンド表現Z₁[k]ないしZ_N[k]を処理して、式１および２で与えられるような２つのダウンミックス・チャンネルL₀[k]およびR₀[k]を生成する。

ここで、パラメータα_iおよびβ_iは好ましくは２つのダウンミックス・チャンネルL₀[k]およびR₀[k]における良好なステレオ音像のために必要とされるように設定される。以上のことからわかるように、CH1ないしCH3についてのもとの入力信号の表現を再生成するその後のデコーダ、たとえばデコーダ１０は、２つのダウンミックス・チャンネルL₀[k]およびR₀[k]がN−2個の欠けているチャンネルを実質的に再生成するために適切なパラメータのセットによって補足されるときにのみ、実質的に完璧な表現を生成することができる。固定ダウンミックスが用いられるときには、ある程度までは、N−2個の破棄されたチャンネルの情報が２つのダウンミックス・チャンネルL₀[k]およびR₀[k]から予測できる。それにより対応するデコーダ、たとえばデコーダ１０におけるチャンネルCH1ないしCH3のもとの入力信号の前述した表現の再生成の精度を高める方法が提供される。

N個のチャンネルのあるものに関係した情報が、出力信号６００、６１０、６２０を生成する際に破棄されている状況では、すなわち破棄されたチャンネルをC_0,i[k]で表すと、これらの破棄されたチャンネルはダウンミックス・チャンネルL₀[k]およびR₀[k]から式３を適用することによって予測できる。

ここでパラメータ~C_1,iおよび~C_2,i〔~Cはチルダ付きCを表す〕は一つまたは複数の最適化基準に基づいて選択される。好ましくは、エンコーダ５において用いられる最適化基準は、信号C_0,i[k]およびその推定値^C_0,i[k]〔^Cはカレット付きCを表す〕の最小ユークリッド・ノルムである。エンコーダ５と相補的なデコーダで式３に基づく処理が用いられうるようにするために、パラメータ~C_1,iおよび~C_2,iは好ましくはエンコーダ５から出力される第三のパラメータ・セット６００に含められる。

本発明人らは、式３におけるパラメータ~C_1,iおよび~C_2,iが、信号Z_i[k]とデコーダ１０で生成されるその推定値^Z_i[k]との差のユークリッド・ノルムをエンコーダ５において最小にするときに生成されるパラメータに関係していることを認識するに至った。エンコーダ５は好ましくはこれらのパラメータZ_i[k]および^Z_i[k]を用いるよう構成される。もとの入力信号Z_i[k]の差のユークリッド・ノルムの二乗が次いでエンコーダ５において式４を適用することによって計算可能である。

式４を最小にすることは、好ましくは式６および７を適用することによって達成される。

ここで、式６および７から計算可能なパラメータC_1,ZiおよびC_2,Ziについて、式１０ないし１３からの以下の関係が導出可能である。ここで係数α_iおよびβ_iはたとえば式１および２に関するものである。

このように、エンコーダ５において、式１ないし１３によって記述される処理動作を適用して、N個のチャンネルに対応する入力信号、すなわちN＝3としてCH1ないしCH3についての入力信号を、チャンネルあたり２つのパラメータおよび２つのダウンミックス・チャンネルを用いて変換することが実行可能である。i番目のチャンネルについての２つのパラメータはC_1,ZiおよびC_2,Ziである。ダウンミックスがすべての時間／周波数タイルについて固定で、ダウンミックスがデコーダ１０において既知であれば、パラメータ間の関係は事前に既知である。他方、ダウンミックスを変動させることを選ぶ場合には、実際のダウンミックスに関する情報をデコーダ１０に送る必要がある。

エンコーダ５において、入力信号CH1ないしCH3はチャンネル・ユニット１００、２００、３００において処理されて、時間／周波数タイルにおける入力信号の表現を与える。式１ないし１３によって描かれる処理動作はこれらのタイルのそれぞれについて反復される。全周波数タイルの信号L₀[k]がエンコーダ５で組み合わされて、時間領域に変換されて、現在のセグメントについての信号が形成される。この信号は少なくとも部分的に少なくともそれに先行するセグメントと関する信号と組み合わされ、エンコードされた出力信号６２０が生成される。信号R₀[k]は信号L₀[k]と同様の仕方で処理されて、エンコードされた出力信号６１０が生成される。

まとめると、エンコーダ５は、そして本発明の特定の実施例であるエンコーダ１５も同様に、３つの入力信号CH1ないしCH3を、該入力信号CH1ないしCH3を処理するときに適用される時間／周波数タイルそれぞれについて２つのダウンミックス・チャンネル６１０、６２０、すなわちl₀[n]、r₀[n]および2N−4個のパラメータとしてエンコードするよう動作しうる。

図１に示したエンコーダ５、同様に図３に示したエンコーダ１５と相補的なのが、図２に概略的に呈示した相補的なデコーダであり、図２では全体として１０で示した。デコーダ１０は処理ユニット１０００を含む。この処理ユニット１０００は、エンコーダ５からのダウンミックス出力信号６１０、６２０、およびまたパラメータ情報たとえば前述のパラメータC_1,ZiおよびC_2,Ziについての値を伝達する第三のパラメータ・セット６００を受け取る。デコーダ１０はそこで受け取られた出力６００、６１０、６２０からの信号を処理して復号された出力信号１５００、１５１０、１５２０を生成するよう動作しうる。これらの復号された出力信号は、それぞれ入力信号CH1、CH2、CH3の復号された表現である。

デコーダ１０において、たとえばインターネットならびに／またはデジタルビデオディスク（DVD）もしくは同様のデータ媒体のようなデータ担体のような通信ネットワークによって伝達された、エンコーダ５からの出力６００、６１０、６２０を、それぞれの時間／周波数タイルについて受け取るとき、以下の処理機能が実行される：
（ａ）すべてのN個のチャンネルについて2N−4個の係数および４つの式すなわち係数間の関係を記述する式１０ないし１３に関する情報を使って係数C_1,ZiおよびC_2,Ziが計算される。
（ｂ）各入力信号Z_i[k]の近似表現^Z_i[k]が式１４を使って計算される：
^Z_i＝C_1,ZiL₀[k]＋C_2,ZiR₀[k] (14)
ここで、L₀[k]およびR₀[k]はデコーダ１０において受け取られる２つのダウンミックス・チャンネルの時間／周波数タイルを表現する信号、すなわちそれぞれ６１０、６２０である。

第一のコンテキストにおいて図２で示されたデコーダ１０の特定の実施例についてこれから第二のコンテキストにおいて図４を参照しつつ説明する。図４では、全体として１８と指示されるデコーダが示されている。デコーダ１８は、r₀、l₀によって表される前述のダウンミックス出力６１０、６２０を変換してそれぞれR₀、L₀で表される対応する変換信号１６５０、１６６０を生成するためのセグメントおよび変換ユニット１６００を有している。さらに、デコーダ１８は、信号６００、１６５０、１６６０を受け取ってそれを処理して、それぞれ左チャンネル（L）、中央チャンネル（C）および右チャンネル（R）に関係する対応する処理された信号１７００、１７１０、１７２０を生成するための復号プロセッサ１６１０をも含んでいる。

信号１７００は、直接、およびまた図のような脱相関器１７５０を介して逆PCAユニット１８００に結合される。逆PCAユニット１８００は２つの中間出力L_f、L_sを生成するよう動作でき、該中間出力は逆変換およびOLAユニット１９００に結合される。逆変換ユニット１９００は、中間出力L_f、L_sを処理して図２の出力１５００に対応するデコーダ出力２０００、２０１０、すなわち入力信号４００、４１０の再生成版を生成するよう動作しうる。

同様に、信号１７１０は、直接、およびまた図のような脱相関器１７６０を介して逆PCAユニット１８１０に結合される。逆PCAユニット１８１０は２つの中間出力C_s、LFEを生成するよう動作でき、該中間出力は逆変換およびOLAユニット１９１０に結合される。逆変換ユニット１９１０は、中間出力C_s、LFEを処理して図２の出力１５１０に対応するデコーダ出力２０２０、２０３０、すなわち入力信号４２０、４３０の再生成版を生成するよう動作しうる。

同様に、信号１７２０は、直接、およびまた図のような脱相関器１７７０を介して逆PCAユニット１８２０に結合される。逆PCAユニット１８２０は２つの中間出力R_f、R_sを生成するよう動作でき、該中間出力は逆変換およびOLAユニット１９２０に結合される。逆変換ユニット１９２０は、中間出力R_f、R_sを処理して図２の出力１５２０に対応するデコーダ出力２０４０、２０５０、すなわち入力信号４４０、４５０の再生成版を生成するよう動作しうる。

ユニット１８００、１８１０、１８２０は、正しい動作のために十分なデータを受け取るよう、動作中、パラメータ入力９２０、８２０、７２０を必要とする。

本発明によればデコーダとしても知られる復号プロセッサ１６１０内で実行される処理動作は、図２に示したデコーダ１０に関して先に述べた数学的動作に関わっている。

先に述べた本発明の実施形態は、付属の請求項によって定義される本発明の範囲から外れることなく修正されうることは理解されるであろう。

たとえば、エンコーダ５、同様にエンコーダ１５は、好ましくは、処理中に式１５および１６を適用することによって、ダウンミックス出力において良好なステレオ音像を生成するよう機能するよう構成される。

L₀[k]＝L[k]＋C_s[k] (15)
R₀[k]＝R[k]＋C_s[k] (16)
よって、N＝3のような状況では、エンコーダ５からデコーダ１０に伝送する必要があるパラメータは、タイルごとに2N−4によって決まる2つだけである。そのような構成は、２つのパラメータまたは係数C_1,ZiおよびC_2,Ziが名目上同じような数値範囲にあるので同じような量子化が適用できるという点で有利である。

したがって、デコーダ１０において、３つ以上のチャンネル再生を提供するとき、各タイルについて６つのパラメータ、すなわちC_1,L、C_2,L、C_1,R、C_2,R、C_1,Cs、C_2,Csが計算される。そのような計算は、２つの伝送されたパラメータおよびこれら６つのパラメータの間の関係に関する情報に基づいている。

例として、係数C_1,LおよびC_2,Lがエンコーダ５からデコーダ１０に伝送される。このとき、デコーダ１０はそれから他の係数を式１７によって導出することができる。すなわち：
C_2,L＝C_2,R−1 C_1,R＝C_1,L−1
C_1,Cs＝1−C_1,L C_2,Cs＝1−C_2,R (17)
各タイルについてこれら６つの係数が導出されたとき、エンコーダ５内の出力信号の表現、すなわち^L[k]、^R[k]、^Cs[k]は、デコーダ１０内において式１８を使うことによって、デコーダ１０内で実行される計算において再生成できる。

これらの信号^L[k]、^R[k]、^Cs[k]は次いで、たとえばホームシアターでの呈示の間のユーザー鑑賞のためにデコーダ１０から出力するための信号１５００ないし１５２０を生成するため、周波数領域から時間領域に変換されることができる。

マルチチャンネル・エンコーダ５、１５の最もストレートな使用では、M＝2である標準的なステレオ・コーダ、すなわちエンコーダおよびデコーダ両方が、先に述べたマルチチャンネル・エンコーダ５、１５とマルチチャンネル・デコーダ１０、１８の間で用いられる。換言すれば、図３および図４を参照して図３の出力信号６１０、６２０は、図５に示すように、直接的には標準的なステレオ・エンコーダ３０００に、その後、マルチプレクサ３００２を介して与えられる。マルチプレクサ３００２の出力３００５はパラメータ・データ（６００；６００、７２０、８２０、９２０）を含んでおり、次いでその後、データ通信経路３０１０を介して、たとえばデータ担体または通信ネットワークを介してデマルチプレクサ３０１２に、そしてその後ステレオ・エンコーダ３０００と相補的なステレオ・デコーダ３０２０に伝達される。デコーダ３０２０からの復号された出力信号３０３０は、デマルチプレクサ３０１２からのパラメータ・データ（６００；６００、７２０、８２０、９２０）とともにマルチチャンネル・コーダ１０、１８に与えられる。デコーダ３０２０の出力３０３０は、マルチチャンネル・エンコーダ５、１５からの出力信号６１０、６２０の再生成版である。図５に描いたような構成は、マルチチャンネル・エンコーダ５、１５およびマルチチャンネル・デコーダ１０、１８が互いに相互接続されうる仕方の一例である。

付属の請求項において、括弧内に含められた数字その他の記号があったとしても、それは請求項の理解を支援するために含められているのであって、特許請求の範囲をいかなる仕方であれ限定することを意図したものではない。

「有する」「含む」「組み込む」「包含する」「である」「もつ」のような表現は、説明および関連する請求項を解釈する際、非排他的仕方において解釈されるべきものである。すなわち、明示的に規定されていないその他の要素またはコンポーネントも存在することを許容するものと解釈される。単数形への言及は複数への言及であるとも解釈され、その逆もある。

原出願である特願２００７−５０６８７８の当初請求項を以下に記載しておく。
〔請求項１〕
複数の入力チャンネルにおいて伝達される入力信号を処理して、ダウンミックス出力信号を相補的なパラメータ用データとともに有する対応する出力データを生成するよう動作しうるマルチチャンネル・エンコーダであって：
（ａ）入力信号をダウンミックスして対応するダウンミックス出力信号を生成するダウンミキサと、
（ｂ）前記ダウンミックス出力信号と相補的な前記パラメータ用データを生成するよう動作しうる、前記入力信号を処理する解析器とを含んでおり、
前記ダウンミックス出力信号を生成するときに、当該エンコーダ内で処理され、そして破棄されるチャンネルの信号を予測するための前記ダウンミックス出力信号のその後の復号を許容するよう動作しうることを特徴とする、マルチチャンネル・エンコーダ。
〔請求項２〕
当該エンコーダが入力信号を時間／周波数タイルをベースとして処理するよう動作しうることを特徴とする、請求項１記載のマルチチャンネル・エンコーダ。
〔請求項３〕
前記タイルが事前に、あるいは入力信号の処理中にエンコーダ内で、定義されることを特徴とする、請求項２記載のマルチチャンネル・エンコーダ。
〔請求項４〕
前記解析器が、一つまたは複数の入力信号と、当該マルチチャンネル・エンコーダからの出力データから生成されうる前記一つまたは複数の入力信号の予測値との間の差から導出される少なくとも一つの信号の最適化を適用することによって、前記パラメータ用データ（C_1,i;C_2,i）の少なくとも一部を生成するよう動作しうることを特徴とする、請求項１記載のマルチチャンネル・エンコーダ。
〔請求項５〕
前記最適化がユークリッド・ノルムを最小にすることを含むことを特徴とする、請求項４記載のマルチチャンネル・エンコーダ。
〔請求項６〕
MおよびNを整数、M＜Nとして、入力チャンネルがN個あり、前記解析器はこれを処理して各時間／周波数タイルについて前記パラメータ用データを生成するよう動作でき、前記解析器は出力データ中で入力データを表現するためにM個のダウンミックス出力信号とともにM(N−M)個のパラメータを出力するよう動作できることを特徴とする、請求項１記載のマルチチャンネル・エンコーダ。
〔請求項７〕
整数Mが２に等しく、前記出力信号が２チャンネルのステレオ音響装置において再生でき、標準的なステレオ・コーダによってコードされうることを特徴とする、請求項６記載のマルチチャンネル・エンコーダ。
〔請求項８〕
請求項１記載のマルチチャンネル・エンコーダに含めるための信号プロセッサであって、当該マルチチャンネル・エンコーダ内でデータを処理し、そのダウンミックス出力信号およびパラメータ用データを生成するよう動作しうることを特徴とする信号プロセッサ。
〔請求項９〕
マルチチャンネル・エンコーダにおいて入力信号をエンコードして、ダウンミックス出力信号を相補的なパラメータ用データとともに有する対応する出力データを生成する方法であって：
（ａ）複数（N）の入力チャンネルを介して当該エンコーダに入力信号を提供し、
（ｂ）入力信号をダウンミックスして前記対応する（M個の）ダウンミックス出力信号を生成し、
（ｃ）入力信号を処理して前記ダウンミックス出力信号と相補的な前記パラメータ用データを生成する、
ステップを含んでおり、当該マルチチャンネル・エンコーダにおける前記入力信号の処理が、入力信号の表現を後刻再生成できるようにするためのパラメータ・データを決定することを含んでおり、前記ダウンミックス信号が、当該エンコーダにおいて処理され、そして破棄されるチャンネルの信号の内容を予測するための該ダウンミックス信号の復号を許容するものであることを特徴とする方法。
〔請求項１０〕
請求項９記載の方法に基づいて生成されることを特徴とする、データ担体上に記憶された、エンコードされた出力データ。
〔請求項１１〕
請求項１記載のマルチチャンネル・エンコーダによって生成された出力データを復号するマルチチャンネル・デコーダであって：
（ａ）エンコーダからのパラメータ用データとともにダウンミックス出力信号を受け取り、該パラメータ用データを処理して一つまたは複数の係数すなわちパラメータを決定するよう動作できる処理手段と、
（ｂ）前記パラメータ・データおよびまたステップ（ａ）で決定された前記一つまたは複数の係数を使って、さらなる処理によってエンコーダによって生成された出力信号のもとになった入力信号の表現を実質的に再生成するために、出力データ中にエンコードされている各入力信号の近似表現を計算する計算手段、
とを有することを特徴とするマルチチャンネル・デコーダ。
〔請求項１２〕
請求項１１記載のマルチチャンネル・デコーダでの使用のための信号プロセッサであって、入力信号の表現を再生成することに関係してデータを処理することにおいて支援するよう動作しうることを特徴とする信号プロセッサ。
〔請求項１３〕
マルチチャンネル・デコーダにおいて、請求項１記載のマルチチャンネル・エンコーダによって生成されたような形のエンコードデータを復号する方法であって：
（ａ）エンコードデータ中に存在するパラメータ用データとともにダウンミックス出力信号を処理し、その際、前記パラメータ用データを一つまたは複数の係数すなわちパラメータを予測するために利用し、
（ｂ）前記パラメータ・データおよびまたステップ（ａ）で決定された前記一つまたは複数の係数を使って、さらなる処理によってエンコーダによって生成されたエンコードデータのもとになった入力信号の表現を実質的に再生成するために、エンコードデータ中にエンコードされた各入力信号の近似表現を計算する、
ステップを含むことを特徴とする方法。

Claims

少なくとも第一の左側デジタル・オーディオ信号成分、第二の右側デジタル・オーディオ信号成分および第三のデジタル・オーディオ信号成分を含むNチャネルのデジタル・オーディオ信号をエンコードする装置であって、N＞2であり、当該装置が：
・前記第一、第二および第三のデジタル・オーディオ信号成分を受け取り、これから少なくとも第一および第二の合成デジタル・オーディオ信号を導出するマトリクス処理ユニットであって、前記第一の合成デジタル・オーディオ信号は少なくとも前記第一および第三のデジタル・オーディオ信号成分の線形結合であり、前記第二の合成デジタル・オーディオ信号は少なくとも前記第二および第三のデジタル・オーディオ信号成分の線形結合である、マトリクス処理ユニットと、
・少なくとも前記第一および第二の合成デジタル・オーディオ信号からパラメータ信号を導出する手段と；
・前記第一および第二の合成デジタル・オーディオ信号ならびに前記パラメータ信号を伝送信号に組み合わせる信号組み合わせユニットとを有しており、
前記パラメータ信号が、前記第一および第二の合成デジタル・オーディオ信号から第三の合成デジタル・オーディオ信号成分の予測を生成することを許容する、
装置。
前記第三の合成デジタル・オーディオ信号は前記第一、第二および第三のデジタル・オーディオ信号成分の線形結合である、請求項１記載の装置。
前記信号組み合わせユニットが前記伝送信号の生成を、前記第三の合成デジタル・オーディオ信号成分と前記第三の合成デジタル・オーディオ信号成分の前記予測との間の差を表す差信号がないように行うよう適応されている、請求項２記載の装置。
第一および第二の合成デジタル・オーディオ信号ならびに少なくとも前記第一および第二の合成デジタル・オーディオ信号から導出されたパラメータ信号を含む伝送信号を、少なくとも第一の左側デジタル・オーディオ信号成分、第二の右側デジタル・オーディオ信号成分および第三のデジタル・オーディオ信号成分を含むNチャネルのデジタル・オーディオ信号に復号する装置であって、N＞2であり、当該復号装置が：
・前記伝送信号を受け取る入力ユニットと、
・前記伝送信号から前記第一および第二の合成デジタル・オーディオ信号および前記パラメータ信号を取り出すデマルチプレクサ・ユニットと、
・前記第一および第二の合成デジタル・オーディオ信号を受け取ってそこから、前記パラメータ信号に応じて、前記少なくとも第一、第二および第三のデジタル・オーディオ信号成分を導出する逆マトリクス処理ユニットとを有しており、
前記少なくとも第一、第二および第三のデジタル・オーディオ信号成分は前記第一および第二の合成デジタル・オーディオ信号のマトリクス処理係数を使った線形結合であり、前記マトリクス処理係数のうち少なくとも一部の係数の値は前記パラメータ信号によって制御できる、
装置。
請求項４記載の装置であって、前記逆マトリクス処理ユニットが：
・前記第一および第二の合成デジタル・オーディオ信号および前記パラメータ信号から第三の合成デジタル・オーディオ信号を生成するよう適応された第一の回路部分であって、前記第三の合成デジタル・オーディオ信号は前記第一および第二の合成デジタル・オーディオ信号の、第一の逆マトリクス処理係数を使った線形結合であり、前記係数の値は前記パラメータ信号によって制御可能である、第一の回路部分と、
・前記第一、第二および第三の合成デジタル・オーディオ信号から第二の逆マトリクス処理係数を使って前記少なくとも第一、第二および第三のデジタル・オーディオ信号成分を生成する第二の回路部分と、
・前記少なくとも第一、第二および第三のデジタル・オーディオ信号成分は前記第一、第二および第三の合成デジタル・オーディオ信号の線形結合であり、前記第二の逆マトリクス処理係数は前記パラメータ信号に依存しない、
装置。
請求項４記載の装置であって、前記合成デジタル・オーディオ信号は部分信号に分割され、複数の周波数帯のそれぞれに一つの部分信号とされ、前記パラメータ信号もパラメータ部分信号に分割され、前記複数の周波数帯のそれぞれに一つのパラメータ部分信号とされ、
前記逆マトリクス処理ユニットは、前記第一および第二の合成デジタル・オーディオ信号の対応する部分信号から、前記パラメータ信号の前記対応するパラメータ部分信号に応じて、前記少なくとも第一、第二および第三の広帯域デジタル・オーディオ信号成分の対応する部分信号を導出するよう適応されており、
当該装置がさらに、前記第一、第二および第三の広帯域デジタル・オーディオ信号の部分信号を前記広帯域デジタル・オーディオ信号成分に変換する変換ユニットを有する、
装置。
請求項６記載の装置であって、前記部分信号が相続く時間信号に分割され、時間領域において相続く時間区間のそれぞれについて一つの時間信号とされ、前記パラメータ部分信号も前記相続く時間区間のそれぞれについてのパラメータ部分信号に分割され、
前記逆マトリクス処理ユニットは、ある周波数帯域において前記相続く時間区間について、前記周波数帯域における前記第一および第二の合成デジタル・オーディオ信号の対応する部分信号の相続く時間信号から、前記相続く時間区間についての前記対応するパラメータ部分信号に応じて、前記周波数帯域における前記少なくとも第一、第二および第三の広帯域デジタル・オーディオ信号成分の対応する部分信号の時間信号をさらに導出するよう適応されている、
装置。