JP5032977B2

JP5032977B2 - マルチチャンネル・エンコーダ

Info

Publication number: JP5032977B2
Application number: JP2007506877A
Authority: JP
Inventors: イェーブレーバールト，ディルク; ヘーペースハイエルス，エリク; ハーホトー，ヘラルド; ローン，マヒールウェーファン
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-04-05
Filing date: 2005-03-25
Publication date: 2012-09-26
Anticipated expiration: 2025-03-25
Also published as: KR101158698B1; BRPI0509113A; JP2007531913A; US20070194952A1; JP2012191625A; ES2307160T3; US7602922B2; DE602005006777D1; EP1735774A2; TWI393119B; KR20070001208A; WO2005098821A2; PL1735774T3; EP1735774B1; MXPA06011361A; BRPI0509113B8; RU2006139048A; CN102122509B; WO2005098821A3; CN102122509A

Description

本発明は、マルチチャンネル・エンコーダ、たとえば空間音響のパラメータ式の記述を利用したマルチチャンネル・オーディオエンコーダに関する。さらに、本発明はそのようなマルチチャンネル・エンコーダにおいて信号、たとえば空間音響信号を処理する方法にも関する。さらに、本発明は、そのようなマルチチャンネル・エンコーダによって生成される信号を復号するよう動作できるデコーダに関する。

オーディオの録音および再生は近年、モノラルの単一チャンネル形式から二チャンネルのステレオ形式に、より最近には多チャンネル形式、たとえばホームシアターシステムにおいてしばしば使われるような５チャンネルのオーディオ形式へと発達してきた。スーパーオーディオ・コンパクトディスク（SACD: super audio compact disk）およびデジタル多用途ディスク（DVD: digital versatile disc）のデータ担体が導入された結果、そのような５チャンネルのオーディオ再生が現在関心を得てきている。多くのユーザーは現在、家庭で５チャンネルのオーディオ再生を提供できる装置を所有している。それに応じて、好適なデータ担体上の５チャンネルのオーディオ・プログラム・コンテンツがますます手にはいるようになっている。たとえば、前述したSACDおよびDVDの型のデータ担体である。多チャンネルのプログラム・コンテンツへの関心の高まりのため、多チャンネルのオーディオ・プログラム・コンテンツのより効率的な符号化、たとえば音質向上、再生時間延長あるいはチャンネル増といったことの一つまたは複数を提供することが重要な課題となりつつある。

パラメータ式の記述子によってオーディオ・プログラム・コンテンツなどのための空間音響情報を表現できるエンコーダは既知である。たとえば、公開されている国際PCT特許出願第PCT/IB2003/002858（WO2004/008805）では、少なくとも第一の信号成分（LF）、第二の信号成分（LR）および第三の信号成分（RF）を含む多チャンネルオーディオ信号のエンコードが記載されている。この符号化は：
（ａ）第一のパラメータ式エンコーダを使って第一のエンコード信号（L）およびエンコードパラメータの第一の組（P2）を生成することによって前記第一および第二の信号成分をエンコードし、
（ｂ）第二のパラメータ式エンコーダを使って第二のエンコード信号（T）およびエンコードパラメータの第二の組（P1）を生成することによって前記第一のエンコード信号およびさらなる信号（R）をエンコードし、ここで、前記さらなる信号（R）は少なくとも前記第三の信号成分（RF）から導かれるものであり、
（ｃ）少なくとも前記第二のエンコード信号（T）、エンコードパラメータの前記第一の組（P2）およびエンコードパラメータの前記第二の組（P1）から導かれる、結果として得られるエンコード信号（T）に少なくともよって、前記多チャンネルオーディオ信号を表現する、
ステップを有する方法を利用している。

オーディオ信号を記述する量子化されたパラメータを伝送するには比較的少ない伝送容量しか必要でないことが示されたため、オーディオ信号のパラメータ式の記述は、近年関心を得ている。これらの量子化されたパラメータは、対応するもともとのオーディオ信号から知覚的に著しく異なりはしないオーディオ信号を再生成するために、デコーダ内で受信され、処理されることができる。

現代のマルチチャンネル・エンコーダが出力するエンコードデータのビットレートは、出力エンコードデータにおいて伝達されるオーディオチャンネル数について実質的に線形にスケールする。そのような特性のため、追加チャンネルを含めることには問題がある。所与のデータ担体記憶容量について、チャンネル増を受け入れるために再生継続時間またはオーディオ表現の品質が相応して犠牲にされなければならなくなるからである。

本発明の目的は、マルチチャンネル・データコンテンツ、たとえばマルチチャンネルのオーディオ・データコンテンツのより効率的なエンコードを提供するよう動作しうる、マルチチャンネル・エンコーダを提供することである。

本発明人らは、適切なエンコード方法の使用により、２チャンネルのオーディオ・プログラム・コンテンツ、すなわちステレオを伝達するのに従来必要とされていたビットレートを使いながら、出力されるエンコードデータが、たとえば５チャンネルのオーディオ・プログラム・コンテンツに対応する情報を伝達できるということを認識するに至った。

よって、本発明の第一の側面によれば、MとNを整数、NがMより大きいとして、N個の入力チャンネルで伝達される入力信号を処理してM個の出力チャンネルで伝達される対応する出力信号をパラメータ・データとともに生成するよう構成されたマルチチャンネル・エンコーダであって：
（ａ）入力信号をダウンミックスして対応する出力信号を生成するダウンミキサと、
（ｂ）ダウンミックスの間に、あるいは別個のプロセスとして前記入力信号を処理して、前記出力信号と相補的な前記パラメータ・データを生成するよう動作しうる解析器であって、該パラメータ・データが前記入力信号のN個のチャンネルの間の相互の差を記述して復号の際に前記M個のチャンネルの出力信号から前記N個のチャンネルの入力信号の一つまたは複数を再生成することを実質的に許容するようにするものであり、前記出力信号は過去のものとの互換性（backwards compatibility）を可能にするためにN個またはN個より少ない出力チャンネルを提供するデコーダでの再生にも互換な形であるような解析器とを含むことを特徴とする、エンコーダが提供される。

本発明は、前記マルチチャンネル・エンコーダがマルチチャンネル入力信号を、たとえば２チャンネルステレオ再生装置と互換にされることができる出力ストリームに、より効率的にエンコードできるという点で有利である。

対応するデコーダの以前の型に対する当該エンコーダのそのような上位互換性は、３つの方法で提供される：
（ａ）エンコーダからの出力ダウンミックス信号は、該信号の、すなわち追加的な処理や復号のない再生の結果として、対応する限られた数のスピーカーの限界を考えれば、たとえば５チャンネルの空間像のよい近似である空間的像が生じるように生成される；
（ｂ）ダウンミックス信号に付随する空間的パラメータはビットストリームの補助データ部分に置かれる。補助データ部分を復号できないデコーダでも伝送された信号を復号することはできる。この属性が過去のものとの復号の互換性を保証する；
（ｃ）ビットストリームおよびデコーダ構造の前記補助部分に保存されたパラメータは、パラメータ式デコーダが適切な２チャンネル、３チャンネルおよび４チャンネルの信号を再生できるように定式化される。

好ましくは、当該エンコーダにおいて、前記解析器は、時間領域から周波数領域への変換により入力信号を変換するための、および該変換された入力信号を処理して前記パラメータ・データを生成するための処理手段を含む。入力信号の周波数領域での処理は、当該エンコーダ内での効率的なエンコードを提供するのに有益である。より好ましくは、当該エンコーダにおいて、前記ダウンミキサおよび解析器の少なくとも一つは入力信号を時間‐周波数タイルのシーケンスとして処理して出力信号を生成するよう構成される。

好ましくは、当該エンコーダにおいて、前記タイルは互いに重なり合う解析窓の変換によって得られる。そのような重なり合いは、出力信号がその後復号されて入力信号の表現を再生成する際に、よりよい連続性を、よってエンコードの人工効果（アーチファクト）の低減を許容する。

好ましくは、当該エンコーダは、入力信号を処理してM個の出力信号に含めるためのM個の中間オーディオデータ・チャンネルを生成する符号器を含み、前記解析器は前記パラメータ・データ中で：
（ａ）チャンネル間の入力信号のパワー比または対数レベル差；
（ｂ）入力信号どうしの間のチャンネル間コヒーレンス；
（ｃ）一つまたは複数のチャンネルの入力信号と一つまたは複数のチャンネルの入力信号のパワーの和との間のパワー比；
（ｄ）信号対の間の位相差または時間差、
のうちの少なくとも一つに関係する情報を出力するよう構成される。より好ましくは、（ｄ）の位相差は平均位相差である。

好ましくは、当該エンコーダにおいて、位相差、コヒーレンスデータおよびパワー比のうちの少なくとも一つの計算に続いて出力信号を生成するために主成分解析（PCA: principal component analysis）および／またはチャンネル間位相整列が行われる。

好ましくは、入力データが再生成されるときにもともとの入力信号により近くなるようにするために、当該エンコーダにおいて、N個のチャンネルで伝達される入力信号の少なくとも一つが効果チャンネルに対応する。

好ましくは、当該エンコーダは、出力信号を、従来式再生システムを使った再生に好適な形で生成するよう適応される。

本発明の第二の側面によれば、MとNを整数、NがMより大きいとして、マルチチャンネル・エンコーダにおいてN個の入力チャンネルで伝達される入力信号をエンコードしてM個の出力チャネルにおいて伝達される対応する出力信号をパラメータ・データとともに生成する方法であって：
（ａ）入力信号をダウンミックスして前記対応する出力信号を生成し、
（ｂ）解析器においてダウンミックスの際に、あるいは別個に前記入力信号を処理して、前記出力信号と相補的な前記パラメータ・データを提供するステップを含んでおり、該パラメータ・データが前記入力信号のN個のチャンネルの間の相互の差を記述して復号の際に前記M個のチャンネルの出力信号から前記N個のチャンネルの入力信号の再生成を実質的に許容するようにするものであり、前記出力信号はN個またはN個より少ない出力チャンネルを提供するデコーダでの再生に互換な形であることを特徴とする方法。

好ましくは、当該方法は、５チャンネルに対応する入力信号をエンコードして、対応する２チャンネルステレオデコーダ、３チャンネルデコーダおよび４チャンネルデコーダのうちの一つまたは複数と互換な形で出力信号およびパラメータ・データを生成するよう適応される。

好ましくは、当該方法において、前記処理は、時間領域から周波数領域への変換により入力信号を変換することを含む。

好ましくは、当該方法において、入力信号の少なくとも一つが、出力信号を生成するために時間‐周波数タイルのシーケンスとして処理される。

好ましくは、当該方法において、前記タイルは互いに重なり合う解析窓に対応する。

好ましくは、当該方法は、入力信号を処理して出力信号に含めるためのM個の中間オーディオデータ・チャンネルを生成する符号器を使用するステップを含み、前記符号器は前記パラメータ・データ中で：
（ａ）チャンネル間の入力信号のパワー比または対数レベル差；
（ｂ）入力信号どうしの間のチャンネル間コヒーレンス；
（ｃ）一つまたは複数のチャンネルの入力信号と一つまたは複数のチャンネルの入力信号のパワーの和との間のパワー比；
（ｄ）信号対の間の位相差または時間差、
のうちの少なくとも一つに関係する情報を出力するよう構成される。より好ましくは、（ｄ）の位相差は平均位相差である。

好ましくは、当該方法において、レベル差、コヒーレンスデータおよびパワー比のうちの少なくとも一つの計算に続いて出力信号を生成するために主成分解析（PCA: principal component analysis）および／または位相整列が行われる。

好ましくは、当該方法において、N個のチャンネルで伝達される入力信号の少なくとも一つが効果チャンネルに対応する。

本発明の第三の側面によれば、本発明の第二の側面に基づく方法を使って生成される、データ担体上に保存される、エンコードされたデータ・コンテンツが提供される。

本発明の第四の側面によれば、本発明の第一の側面に基づくエンコーダによって生成されるようなエンコードされた出力データを復号するよう動作できるデコーダであって、前記エンコードされた出力データは、MとNを整数、M＜Nとして、Nチャンネルの入力信号からのMチャンネルおよび付随するパラメータ・データを有し、当該デコーダが：
（ａ）前記エンコードされた出力データを受け取り、それを時間領域から周波数領域に変換するための；
（ｂ）周波数領域において前記パラメータ・データを適用して、M個のチャンネルから前記エンコードされた出力データには直接含まれていない、または省略されているN個のチャンネルのうちの一つまたは複数の入力信号に対応する再生成データ・コンテンツを再生成するため、M個のチャンネルからのコンテンツを抽出するための；および、
（ｃ）当該デコーダの一つまたは複数の出力においてNチャンネルの再生成された入力信号の一つまたは複数を出力するために前記再生成データ・コンテンツを処理するための、
プロセッサを含むことを特徴とするデコーダが提供される。

好ましくは、当該デコーダにおいて、前記プロセッサは、全域通過の脱相関フィルタを適用して、当該デコーダにおいてNチャンネルの前記一つまたは複数の入力信号を再生成する際に使用するための脱相関されたバージョンの信号を得るよう動作しうる。

好ましくは、当該デコーダにおいて、前記プロセッサは、当該デコーダにおいてNチャンネルの前記一つまたは複数の入力信号を再生成するために、Mチャンネルの信号およびその脱相関バージョンをその構成成分に分割するために逆エンコーダ回転を適用するよう動作しうる。

本発明の諸特徴は、本発明の範囲から外れることなくいかなる組み合わせにおいても組み合わせうることは理解されるであろう。

本発明の実施形態について、これからあくまでも例として、付属の図面を参照しつつ説明する。

Nチャンネルの入力データを与えられ、該入力データをエンコードして対応するエンコードされた出力データストリームを生成するよう構成されたマルチチャンネル・エンコーダ内で実行されるエンコードを改良するために、本発明人らは、当該エンコーダが：
（ａ）Nチャンネルの入力信号をダウンミックスしてM＜NであるようなMチャンネルにし、
（ｂ）前記出力データストリームを生成する際に、前記Mチャンネルのデータと組み合わせるための比較的小さな量のパラメータ・オーバーヘッド・データを生成するよう動作でき、該パラメータ・データが前記出力データストリームを供給されるその後のデコーダにおいて前記Ｎチャンネルに対応するデータの再構築を可能にするよう構築される、
ことが有益であることを構想するに至った。

たとえば、前記マルチチャンネル・エンコーダは好ましくは５チャンネル・エンコーダである、すなわちN＝5である。該５チャンネル・エンコーダは、５つの入力チャンネルに対応するデータをダウンミックスして２チャンネルの、すなわちM＝2の中間チャンネルを生成するよう構成される。さらに、前記５チャンネル・エンコーダは、前記出力データストリームを生成するために前記２チャンネルのデータと組み合わせるための付随するパラメータ・オーバーヘッド・データを生成するよう動作しうる。前記パラメータ・データは、デコーダが５つの入力チャンネルの表現を再構築できるようにするのに十分である。前記デコーダは、N＝2, 3, 4の状況をサポートするよう上位互換である、すなわち２チャンネル、３チャンネルおよび４チャンネルの出力状況に対して上位互換であることができることにおいて有益である。

本発明のある好ましい実施形態においては、エンコーダがN個の入力データチャンネルを処理するよう動作可能である。N個の入力チャンネルは好ましくは中央オーディオデータ・チャンネル、左前方オーディオデータ・チャンネル、左後方オーディオデータ・チャンネル、右前方オーディオデータ・チャンネル、右後方オーディオデータ・チャンネルに対応し、該５つのチャンネルは、ホームシアター型のプログラム・コンテンツ再生に適切な見かけ上三次元の音の分布を創り出すことができる。N個の入力データチャンネルはダウンミックスされて、たとえば現代のステレオオーディオ符号器を使ってエンコードされた２つの中間オーディオデータ・チャンネルにされる。前記符号器は、左前方および左後方のデータチャンネルの主成分解析および／または位相整列を有益に用いる。当該エンコーダはまた、右前方および右後方の入力チャンネルに対する、別個の主成分解析および／または位相整列を用いるようにも構成される。さらに、当該エンコーダは：
（ａ）左前方および左後方のデータチャンネルの間のチャンネル間レベル差：
（ｂ）右前方および右後方のデータチャンネルの間のチャンネル間レベル差：
（ｃ）左前方および左後方のチャンネルに関係するチャンネル間コヒーレンスデータ；
（ｄ）右前方および右後方のデータチャンネルに関係するチャンネル間コヒーレンスデータ；および
（ｅ）中央データチャンネルと、左前方、左後方、右前方、右後方のデータチャンネルのパワーの和との間のパワー比、
に関係する情報を含むパラメータ・オーバーヘッド・データを生成するよう動作しうる。

前記２つの中間データチャンネルおよびパラメータ・オーバーヘッド・データは組み合わされて、当該エンコーダからのエンコードされた出力データを生成する。任意的に、左前方および左後方データチャンネルの間の、ならびに右前方および右後方データチャンネルの間のチャンネル間位相差および好ましくは全体としての位相差に関係するデータが当該エンコーダからの前記エンコードされた出力データに含められる。本発明のこの実施例に関して（ａ）ないし（ｅ）において実行されるパラメータ解析は、好ましくは時間および周波数解析を含む。より好ましくは、前記解析は、のちにさらに解説されるような時間‐周波数タイルによって実行される。

本発明の好ましい実施形態における当該エンコーダの動作についてこれからより詳細に、関連する数学的関数を使って、図１を参照しつつ説明する。図１の諸部分および信号の定義は符号の説明で与えられるとおりである。

図１では、全体として１０と示されるエンコーダが示されている。エンコーダ１０は第一、第二および第三の入力チャンネル、それぞれ２０、３０、４０を有する。これら３つのチャンネル２０、３０、４０のそれぞれからの出力信号３８０、４００、４４０、すなわちLI、CI、RIは、混合およびパラメータ抽出ユニット２００に結合される。抽出ユニット２００は付随する右前出力信号４６０および左前出力信号４７０、すなわちPR_out、PL_outを有しており、これらはそれぞれエンコードされた右および左の出力信号４８０、４９０すなわちR_out、L_outを生成するために、逆変換およびOLAユニット２１０に接続されている。

第一のチャンネル２０は、左前方および左後方の入力信号、それぞれ３００、３１０すなわちS_lf、S_lrを受け取る、セグメント分割および変換ユニット１００を含んでいる。対応する左前方および左後方の変換信号３５０、３６０すなわちTS_lf、TS_lrは、チャンネル２０のダウンミックス・ユニット１３０に、そしてまたチャンネル２０のパラメータ解析ユニット１１０に結合されている。第一のパラメータセット信号３７０すなわちPS1は、パラメータ‐ダウンミックス・ベクトル変換ユニット１２０の入力に結合され、その対応する出力はダウンミックス・ユニット１３０に結合される。

第二のチャンネル３０は、中央入力信号３２０すなわちS_cを受け取るよう構成されたセグメント分割および変換ユニット１４０を含んでいる。中央中間信号４００すなわちCIは、該変換ユニット１４０から前述したパラメータ抽出ユニット２００へと結合される。

第三のチャンネル４０は、右前方および右後方の入力信号、それぞれ３３０、３４０すなわちS_rf、S_rrを受け取る、セグメント分割および変換ユニット１５０を含んでいる。対応する右前方および右後方の変換信号４１０、４２０すなわちTS_rf、TS_rrは、チャンネル４０のダウンミックス・ユニット１８０に、そしてまたチャンネル４０のパラメータ解析ユニット１６０に結合されている。第二のパラメータセット信号４３０すなわちPS2は、パラメータ‐ダウンミックス・ベクトル変換ユニット１７０の入力に結合され、その対応する出力はダウンミックス・ユニット１８０に結合される。

パラメータ抽出ユニット２００はチャンネル２０、３０、４０からの信号３８０、４００、４４０を受け取って第三のパラメータセット出力４５０すなわちPS3ならびにOLAユニット２１０のための前出力信号４７０、４６０すなわちPR_out、PL_outを生成するよう構成されている。

エンコーダ１０は専用ハードウェアで実装されうる。あるいはまた、エンコーダ１０は、該エンコーダ１０の処理機能を実装するためのソフトウェアを実行するよう構成されたコンピュータハードウェアをベースとしていてもよい。さらなる代替としては、エンコーダ１０は、ソフトウェア制御のもとで動作するコンピュータハードウェアに結合された専用ハードウェアの組み合わせによって実装されることもできる。

エンコーダ１０の動作について、これから図１を参照しつつ説明する。信号S_lf[n]、S_lr[n]、S_rf[n]、S_rr[n]、S_c[n]はそれぞれ左前方、左後方、右前方、右後方および中央のオーディオ信号についての離散的な時間的波形を記述する。チャンネル２０、３０、４０において、これら５つの信号は共通のセグメント分割を使って、好ましくは重なり合う解析窓を使ってセグメント分割される。その後、各セグメントは複素変換、たとえばフーリエ変換または等価な型の変換を使って時間領域から周波数領域に変換される。あるいはまた、たとえばハードウェアまたはソフトウェアシミュレーションの少なくとも一つを使って実装される複素フィルタバンク構造を、時間／周波数タイルを得るために用いてもよい。そのような信号処理は、周波数領域における入力信号のセグメント分割されたサブバンド表現を生じる。これをL_f[k]、L_r[k]、R_f[k]、R_r[k]、C[k]で表す。ここで、パラメータkは周波数の添え字を表し、Lは左、Rは右、fは前方、rは後方、Cは中央を表す。

パラメータ抽出ユニット２００において、第一のステップで、左前方および左後方信号の間の関連パラメータを推定するデータ処理が実行される。これらのパラメータは、レベル差IID_L、位相差IPD_LおよびコヒーレンスICC_Lを含む。好ましくは、位相差IPD_Lは平均位相差に対応する。さらに、これらのパラメータIID_L、IPD_LおよびICC_Lは式１ないし３に与えられるように計算される。

ここで、アステリスク記号は複素共役を表す。

式１ないし３によって記述されるプロセスは、右前方および右後方信号についても繰り返され、そのような処理は、それぞれレベル差、位相差およびコヒーレンスに関係する対応するパラメータIID_R、IPD_RおよびICC_Rを生じる。

パラメータ‐ダウンミックス・ベクトル変換ユニット１２０においては、第二のステップで、左前方L_fおよび左後方L_rの２つの信号のダウンミックスのための複素重みを計算するデータ処理が実行される。好ましい実施形態では、ダウンミックス・ユニット１３０に送られるダウンミックス・ベクトルは、入力信号空間の回転αおよび／または複素位相整列を適用することによりダウンミックス信号Y[k]のエネルギーを最大化するよう構成される。

ダウンミックスは次のように適用される。２つの信号L_fおよびL_rを回転させて、主要信号Y[k]および対応する残差信号Q[k]を得る。使用される回転角αは、式４に示すような主要信号Y[k]のエネルギーを最大化するものである。

ここで、角OPD_Lは全体としての位相回転角を表し、位相差IPD_Lは２つの信号L_f、L_rの最大限の位相整列を保証するよう計算される。回転角αは、式５および式６を使って抽出されるパラメータから計算可能である。

式４からの信号Q[k]はその後、パラメータ抽出ユニット２００において破棄され、信号Y[k]がスカラーβによってスケーリングされて、信号Q[k]のパワーに信号Y[k}のパワーを加えたものと同様のパワーを有するようにした信号L[k]が得られる。換言すれば、信号Q[k]は破棄されるが、それに伴う信号パワーの対応する損失は信号Y[k]をスケーリングすることにより補償されるのである。スカラーβは式７および８を使って計算可能である。

前記の第一および第二のステップはまた、右前方および右後方の信号対についても繰り返され、対応する信号R[k]が生成される。PCA回転の使用は、回転角αについての固定値を使用することによって回避できることを注意しておく。

エンコーダ１０内で実行される第三の処理ステップは、中央信号C[k]を信号L[k]およびR[k]の両方に混合することに関わるもので、結果としてそれぞれの前出力信号４７０、４６０、すなわちPL_out、PR_outが生成される。そのような混合は式９に従って実行される。

ここで、パラメータεは式９に関わる混合における信号C[k]の強さを決定する重みを表す。たとえば、典型的にはε＝0.707である。好ましくは、L、C、Rのそれぞれの組み合わせは位相に関して整列させられる。そうでなければ位相打ち消しが起こることになる。

信号LおよびRのパワーに対する信号Cのパワーを記述するパラメータIID_Cは式１０から計算可能である。

上述した第一、第二および第三のステップを有する以上のプロセスは、エンコーダ１０において、各時間／周波数タイルについて繰り返される。

信号PL_out[k]およびPR_out[k]はその後、エンコーダにおいて、時間領域に変換され、重なり‐加算（overlap-add）式の和を使って以前の諸セグメントと組み合わされる。それによりそれぞれの前述の出力信号４９０、４８０、すなわちL_out、R_outが生成される。

エンコーダ１０からの出力データは通信ネットワークによって、たとえばインターネットまたはその他の同様のブロードキャストネットワークを通じて通信されうる。

代替的または追加的に、出力データは、たとえばDVD光データディスクまたは他の同様の種類のデータ担持媒体のようなデータ担体によって運ばれることもできる。

エンコーダ１０からの出力データは、エンコーダ１０と互換なデコーダにおいて復号されることができる。その例が図３で全体として８００と示したデコーダである。デコーダ８００は、エンコーダ１０、６００から受け取られた出力信号４８０、４９０および付随するパラメータ・データ３７０、４３０、４５０、６９０をさまざまな数学的処理にかけ、対応する復号された出力信号（DOP: decoded output signals）を生成するデータ処理ユニット８１０を含んでいる。

上位互換性を提供するため、そのようなデコーダは少なくともステレオ、３チャンネルおよび５チャンネルの装置のうちの一つであることができる。エンコーダ１０と互換なステレオ型のデコーダでは、すなわちデコーダ８００がDOPとしてデコードされた出力を２つしか含んでいない場合、そのステレオ型のデコーダは２つの再生チャンネルをもっており、エンコーダ１０によって与えられる信号R_out、L_outは、該ステレオ型のデコーダにおいて、２つの再生チャンネル上でさらなる処理が実行されることもなく再生される。

エンコーダ１０と互換な３チャンネルのデコーダでは、デコーダは３つの再生チャンネルをもっており、すなわちデコーダ８００はDOPとしてデコードされた出力を３つ含んでおり、たとえばDVD光ディスクのようなデータ担体から読み込まれた２つの信号R_out、L_outはセグメント分割され、次いで前述した周波数領域に変換される。次いで対応する再生成された信号L[k]、R[k]、C[k]が式１１ないし１６を使って導出される。

次いでユーザー鑑賞のための３チャンネルのオーディオ信号が信号L[k]、R[k]、C[k]から前述したのと同様の仕方で導出される。

エンコーダ１０と互換な５チャンネルのデコーダでは、すなわちデコーダ８００がデコードされた出力を５つ含んでおり、前述したような３チャンネル再生再構築が用いられて、デコーダにおいて信号L[k]、R[k]、C[k]の再生成が生じる。５チャンネルのデコーダでは、さらなるステップが実行されるが、それは信号L[k]をその構成成分、すなわち前方左成分L_f[k]および後方左成分L_r[k]に分割することを含む。同様に、信号R[k]もその構成成分、すなわち前方右成分R_f[k]および後方右成分R_r[k]に分割される。そのような信号分割は、前述したエンコーダ１０において実行される回転と相補的な逆エンコーダ回転演算を利用する。逆回転に必要とされる主要信号Y[k]および残差信号Q[k]は、式１７および１８を使って５ウェイ・デコーダにおいて導出される。

ここで、パラメータμは先の式８においてすでに定義してある。式１７では、H[k]は、信号L[k]の脱相関バージョンを得るための全域通過脱相関フィルタを表す。その後、信号L_f[k]およびL_r[k]が、式１９で記述される逆エンコーダ回転関数を使って生成される。

同様の処理は右側のチャンネル成分にも適用される。

エンコーダ１０と互換な４チャンネルのデコーダでは、該４チャンネルデコーダはまず、５つのチャンネルを、前述の５チャンネルのデコーダにおいて用いられるのと似た仕方で復号して５つのオーディオ信号S_lf、S_lr、S_rf、S_rr、S_cを生成するよう動作しうる。その後、式２０、２１に基づく単純な混合が行われて、ユーザー鑑賞のための左前方および右前方のオーディオ信号S_lf,再生およびS_rf,再生が生成される。

S_lf,再生＝S_lf＋qS_c (20)
S_rf,再生＝S_rf＋qS_c (21)
ここで、係数q＝0.707である。

係数qは、当該４チャンネルデコーダについて、単一の中央のスピーカーを通じた再生か、あるいは当該４チャンネルデコーダに結合された左前方および右前方のスピーカーによって生成されるユーザーのための見かけのファントム音源としての再生かに関わりなく、中央信号成分の全パワーが実質的に一定であることを保証する
以上に述べた本発明の諸実施形態が、付属の請求項によって定義される本発明の範囲から外れることなく修正されうることは理解されるであろう。

本発明人らは、エンコーダ１０が効果チャンネル（LFE）、たとえば低周波効果チャンネルの符号化をサポートしないことを識別するに至った。そのようなLFEチャンネルは、たとえば、ホームシアターシステムなどにおいてユーザーに同時的に呈示される視覚情報に伴うことが有益である雷鳴情報または爆音情報のような音響効果情報を伝達するために有益である。こうして、本発明人らは、本発明のある実施形態においては、エンコーダ１０を修正してその第二のチャンネル３０を向上させ、それにより図２に描かれ、そこで全体として６００と示されるようなエンコーダを生成することが有益であることを認識するに至った。任意的に、LFEチャンネルは実質的に120Hzという比較的制約された周波数帯域幅をもつ。ただし、選択的な比較的大きな帯域幅も受け入れることができる。

エンコーダ６００は概してエンコーダ１０と同様であるが、エンコーダ６００の第二のチャンネル３０はパラメータ解析ユニット６３０、パラメータ‐ダウンミックス・ベクトル・ユニット６４０およびダウンミックス・ユニット６５０を具備しており、これらは第一および第三のチャンネル２０、４０の対応するコンポーネントとそれぞれ同様の仕方で接続されている。エンコーダ６００のチャンネル３０は、第四のパラメータセット６９０すなわちPS4を出力するよう動作しうる。さらに、エンコーダ６００の第二のチャンネル３０は、低周波効果信号S_lfeを受け取るための低周波効果（lfe: low frequency effects）入力６１０、そしてまた前述した中央信号S_cを受け取るための入力６２０を含んでいる。好ましくは、信号S_lfeの処理は可聴下周波から上へ120Hzの周波数帯域幅に制限され、よって潜在的には現代のサブウーファー型のスピーカーを駆動するために好適である。しかしながら、本発明の実施形態は、たとえばインパルス状の音に対応する高周波信号情報を提供するために、この第二のチャンネル３０が120Hzよりずっと大きな帯域幅を有する実装もされうる。

低周波効果情報をエンコーダ６００からの出力に含めることは、エンコーダ１０に比較して追加的なパラメータの使用を必要とする。入力６１０に呈示される信号はエンコーダ６００において解析され、対応する代表パラメータが決定され、それがエンコーダ１０を通じて処理される前述の他のオーディオ信号と同様の仕方で時間／周波数タイルベースで解析される。対応するデコーダは好ましくは、たとえばホームシアターシステムにおいてオーディオ・サブウーファー・スピーカーを駆動するための増幅に好適な信号を再生成するため、低周波情報を復号するための追加的な機能を含むよう構成される。

付属の請求項において、括弧内に入れられた数字その他の記号があったとしても、それは請求項の理解を支援するために入れられているのであって、特許請求の範囲をいかなる仕方であれ限定することを意図したものではない。

「有する」「含む」「組み込む」「包含する」「である」「もつ」のような表現は、明細書および関連する請求項を解釈する際、非排他的仕方において解釈されるべきものである。すなわち、明示的に規定されていないその他の要素またはコンポーネントも存在することを許容するものと解釈される。単数形への言及は複数への言及であるとも解釈され、その逆もある。

本発明に基づく第一のマルチチャンネル・エンコーダの概略図である。本発明に基づく、低周波効果などの効果のための備えを含む第二のマルチチャンネル・エンコーダの概略図である。本発明に基づく、図１および図２のエンコーダと相補的であり、そのようなエンコーダから提供される出力データを復号できるマルチチャンネル・デコーダの概略図である。

符号の説明

１０エンコーダ
２０第一のチャンネル
３０第二のチャンネル
４０第三のチャンネル
１００セグメント分割および変換ユニット
１１０パラメータ解析ユニット
１２０パラメータ‐ダウンミックス・ベクトル変換ユニット
１３０ダウンミックス・ユニット
１４０セグメント分割および変換ユニット
１５０セグメント分割および変換ユニット
１６０パラメータ解析ユニット
１７０パラメータ‐ダウンミックス・ベクトル変換ユニット
１８０ダウンミックス・ユニット
２００混合およびパラメータ抽出ユニット
２１０逆変換およびOLAユニット
３００左前方（left front）入力信号S_lf
３１０左後方（left rear）入力信号S_lr
３２０中央（central）信号S_c
３３０右前方（right front）信号S_rf
３４０右後方（right rear）信号S_rr
３５０左前方変換信号（transformed signal）TS_lf
３６０左後方変換信号TS_lr
３７０第一のパラメータセット（parameter set）PS1
３８０左中間（left intermediate）信号LI
４００中央中間（centre intermediate）信号CI
４１０右前方変換信号TS_rf
４２０右後方変換信号TS_rr
４３０第二のパラメータセットPS2
４４０右中間信号RI
４５０第三のパラメータセットPS3
４６０右前出力（pre-output）信号PR_out
４７０左前出力信号PL_out
４８０右出力信号R_out
４９０左出力信号L_out

Claims

MとNを整数、NがMより大きいとして、N個の入力チャンネルで伝達されるオーディオ入力信号を処理してM個の出力チャンネルで伝達される対応する出力信号をパラメータ・データとともに生成するよう構成されたマルチチャンネル・エンコーダであって：
（ａ）入力信号をダウンミックスして対応する出力信号を生成するダウンミキサと、
（ｂ）ダウンミックスのプロセスの一部またはダウンミックスとは別個のプロセスであるプロセスにおいて前記入力信号を処理して、前記出力信号と相補的な前記パラメータ・データを生成するよう動作しうる解析器であって、該パラメータ・データが前記入力信号のN個のチャンネルの間の相互の差を記述して復号の際に前記M個のチャンネルの出力信号から前記N個のチャンネルの入力信号の一つまたは複数を再生成することを実質的に許容するようにするものであり、前記出力信号はN個またはN個より少ない出力チャンネルを提供するデコーダでの再生にも互換な形であるような解析器とを含み、
前記パラメータ・データは、中央チャンネル信号、右チャンネル信号および左チャンネル信号の二チャンネル・ダウンミックスのための前記右チャンネル信号および前記左チャンネル信号のパワーに対する前記中央チャンネル信号のパワーを記述する少なくとも一つのパラメータを含み、該少なくとも一つのパラメータは実質的に

によって与えられ、ここで、C[k]は中央チャンネル信号Cのサンプルkを表し、R[k]は右チャンネル信号Rのサンプルkを表し、L[k]は左チャンネル信号Lのサンプルkを表し、εは二チャンネル・ダウンミックスにおける中央信号の強さを決定する重みを表す、
ことを特徴とするエンコーダ。
対応する２チャンネルステレオデコーダ、３チャンネルデコーダおよび４チャンネルデコーダのうちの少なくとも一つと互換な形で前記出力信号およびパラメータ・データを生成するよう構成された５チャンネル・エンコーダであることを特徴とする、請求項１記載のエンコーダ。
前記解析器が、時間領域から周波数領域への変換によって入力信号を変換するための、および該変換された入力信号を処理して前記パラメータ・データを生成するための処理手段を含むことを特徴とする、請求項１記載のエンコーダ
前記ダウンミキサおよび前記解析器のうちの少なくとも一つが、前記出力信号を生成するために前記入力信号を時間‐周波数タイルのシーケンスとして処理するよう構成されていることを特徴とする、請求項３記載のエンコーダ。
前記タイルが互いに重なり合う解析窓の変換によって得られることを特徴とする、請求項４記載のエンコーダ。
請求項１記載のエンコーダであって、前記解析器が前記パラメータ・データ中で：
（ａ）チャンネル間の入力信号のパワー比または対数レベル差；
（ｂ）入力信号どうしの間のチャンネル間コヒーレンス；
（ｃ）一つまたは複数のチャンネルの入力信号と一つまたは複数のチャンネルの入力信号のパワーの和との間のパワー比；および
（ｄ）信号対の間の位相差または時間差、
のうちの少なくとも一つに関係する情報を出力するよう構成されることを特徴とするエンコーダ。
請求項６記載のエンコーダであって、（ｄ）において前記位相差が平均位相差であることを特徴とするエンコーダ。
請求項６記載のエンコーダであって、位相差、コヒーレンスデータおよびパワー比のうちの少なくとも一つの計算に続いてM個の出力信号を生成するために主成分解析（PCA）および／またはチャンネル間位相整列が行われることを特徴とするエンコーダ。
前記N個のチャンネルで伝達される入力信号の少なくとも一つが効果チャンネルに対応することを特徴とする、請求項１記載のエンコーダ。
出力信号を、Mチャンネル・オーディオ信号用の再生システムを使った再生に適する形で生成するよう適応されていることを特徴とする、請求項１記載のエンコーダ。
MとNを整数、NがMより大きいとして、マルチチャンネル・エンコーダにおいてN個のオーディオ入力チャンネルで伝達される入力信号をエンコードしてM個の出力チャンネルにおいて伝達される対応する出力信号をパラメータ・データとともに生成する方法であって：
（ａ）入力信号をダウンミックスして前記対応する出力信号を生成し、
（ｂ）解析器においてダウンミックスの際に、あるいは別個に前記入力信号を処理して、前記出力信号と相補的な前記パラメータ・データを提供するステップを含んでおり、該パラメータ・データが前記入力信号のN個のチャンネルの間の相互の差を記述して復号の際に前記M個のチャンネルの出力信号から前記N個のチャンネルの入力信号の再生成を実質的に許容するようにするものであり、前記出力信号はN個またはN個より少ないチャンネルを提供するデコーダでの再生に互換な形であり、
前記パラメータ・データは、中央チャンネル信号、右チャンネル信号および左チャンネル信号の二チャンネル・ダウンミックスのための前記右チャンネル信号および前記左チャンネル信号のパワーに対する前記中央チャンネル信号のパワーを記述する少なくとも一つのパラメータを含み、該少なくとも一つのパラメータは実質的に

によって与えられ、ここで、C[k]は中央チャンネル信号Cのサンプルkを表し、R[k]は右チャンネル信号Rのサンプルkを表し、L[k]は左チャンネル信号Lのサンプルkを表し、εは二チャンネル・ダウンミックスにおける中央信号の強さを決定する重みを表す、
ことを特徴とする方法。
５チャンネルに対応する入力信号をエンコードして、対応する２チャンネルステレオデコーダ、３チャンネルデコーダおよび４チャンネルデコーダのうちの一つまたは複数と互換な形で出力信号およびパラメータ・データを生成するよう適応されていることを特徴とする、請求項１１記載の方法。
前記処理が、時間領域から周波数領域への変換により入力信号を変換することを含むことを特徴とする、請求項１１記載の方法。
入力信号の少なくとも一つが、出力信号を生成するために時間‐周波数タイルのシーケンスとして処理されることを特徴とする、請求項１３記載の方法。
前記タイルが互いに重なり合う解析窓に対応することを特徴とする、請求項１４記載の方法。
符号器を使用するステップを含み、前記符号器は前記パラメータ・データ中で：
（ａ）チャンネル間の入力のパワー比または対数レベル差；
（ｂ）入力信号どうしの間のチャンネル間コヒーレンス；
（ｃ）一つまたは複数のチャンネルの入力信号と一つまたは複数のチャンネルの入力信号のパワーの和との間のパワー比；および
（ｄ）信号対の間の位相差または時間差、
のうちの少なくとも一つに関係する情報を出力するよう構成されることを特徴とする、請求項１１記載の方法。
前記位相差が平均位相差であることを特徴とする、請求項１６記載の方法。
位相差、コヒーレンスデータおよびパワー比のうちの少なくとも一つの計算に続いて出力信号を生成するために主成分解析（PCA）および／またはチャンネル間位相整列が行われることを特徴とする、請求項１６記載の方法。
N個のチャンネルで伝達される入力信号の少なくとも一つが効果チャンネルに対応することを特徴とする、請求項１１記載の方法。
エンコーダによって生成されるエンコードされたオーディオ出力データを復号するよう動作できるデコーダであって、前記エンコードされた出力データは、MとNを整数、M＜Nとして、N個のチャンネルの入力信号から生成されるM個のチャンネルおよび付随するパラメータ・データを有するものであり、前記M個のチャンネルは、前記N個のチャンネルのうち中央チャンネル信号、右チャンネル信号および左チャンネル信号の二チャンネル・ダウンミックスを含み、当該デコーダが：
（ａ）前記エンコードされた出力データを受け取り、それを時間領域から周波数領域に変換するための；
（ｂ）周波数領域において前記パラメータ・データを適用して、前記M個のチャンネルから前記エンコードされた出力データには直接含まれていない、または省略されているN個のチャンネルのうちの一つまたは複数の入力信号に対応する再生成データ・コンテンツを再生成するため、前記M個のチャンネルからのコンテンツを抽出するための；および、
（ｃ）当該デコーダの一つまたは複数の出力においてN個のチャンネルの再生成された入力信号の一つまたは複数を出力するために前記再生成データ・コンテンツを処理するための、
プロセッサを含み、前記プロセッサは、再生成された左チャネルL[k]、再生成された右チャネルR[k]および再生成された中央チャネルC[k]を

として生成するよう構成されており、ここで、L_outは前記二チャンネル・ダウンミックスの左チャンネルであり、R_outは前記二チャンネル・ダウンミックスの右チャンネルであり、w_lcおよびw_rcは前記パラメータ・データのチャンネル間レベル・パラメータに依存し、前記チャンネル間レベル・パラメータは前記右チャンネル信号および前記左チャンネル信号のパワーに対する前記中央チャンネル信号のパワーを記述し、実質的に

によって与えられ、ここで、C[k]は中央チャンネル信号Cのサンプルkを表し、R[k]は右チャンネル信号Rのサンプルkを表し、L[k]は左チャンネル信号Lのサンプルkを表し、εは前記二チャンネル・ダウンミックスにおける中央信号の強さを決定する重みを表す、
ことを特徴とするデコーダ。
前記プロセッサが、全域通過の脱相関フィルタを適用して、当該デコーダにおいてN個のチャンネルのうちの前記一つまたは複数の入力信号を再生成する際に使用するための脱相関されたバージョンの信号を得るよう動作しうることを特徴とする、請求項２０記載のデコーダ。
前記プロセッサが、当該デコーダにおいてN個のチャンネルの前記一つまたは複数の入力信号を再生成するために、M個のチャンネルの信号およびその脱相関バージョンをその構成成分に分割するために逆エンコーダ回転を適用するよう動作しうることを特徴とする、請求項２１記載のデコーダ。
請求項２２記載のデコーダであって、当該デコーダにおいて受け取られた前記エンコードされた出力データのみから一つまたは複数のデコーダ出力を生成するよう動作しうることを特徴とするデコーダ。