JP5592974B2

JP5592974B2 - 多チャネルダウンミックスされたオブジェクト符号化における強化された符号化及びパラメータ表現

Info

Publication number: JP5592974B2
Application number: JP2013100865A
Authority: JP
Inventors: ヨナスエングデガルド; ラルスヴィレモース; ハイコプルンハーゲン; バーバラレッシュ
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2006-10-16
Filing date: 2013-05-13
Publication date: 2014-09-17
Anticipated expiration: 2027-10-05
Also published as: RU2011102416A; AU2007312598A1; CN103400583A; RU2009113055A; AU2007312598B2; TWI347590B; WO2008046531A1; CN103400583B; CA2666640C; JP5297544B2; JP2013190810A; EP2054875A1; AU2011201106B2; KR20090057131A; CA2874451C; PL2068307T3; EP2372701A1; EP2054875B1; CN102892070A; US20110022402A1

Description

本発明は、有効な多チャネルダウンミックスと追加的制御データとに基づく、符号化された多オブジェクト信号からの多オブジェクトの復号化に関する。

オーディオ技術における近年の発展により、ステレオ（又はモノラル）信号及び対応する制御データに基づいて、オーディオ信号の多チャネル表現を再生することが可能となった。これらパラメトリックサラウンド符号化の方法は、通常はパラメータ化を含んでいる。パラメトリック多チャネルオーディオ復号器（例えばISO/IEC23003-1の非特許文献１及び非特許文献２に定義されるようなＭＰＥＧサラウンド復号器）は、伝送されたＫ個のチャネルに基づいてＭ個のチャネルを再生する。ここで、Ｍ＞Ｋであり、追加の制御データが使用される。この制御データは、IID（チャネル間強度差）及びICC（チャネル間コヒーレンス）に基づく多チャネル信号のパラメータ化からなる。これらのパラメータは、通常、符号化の段階で抽出され、アップミックスの過程におけるチャネル・ペア間のパワー比及び相関関係を表わしている。このような復号化の枠組みを使用することで、符号化において、Ｍ個の全てのチャネルを伝送する場合に比べてかなり低いデータレートを達成できるため、符号化をきわめて効率的にすると同時に、Ｋチャネルの装置とＭチャネルの装置との両方への互換性を保証している。

L. Villemoes, J. Herre, J. Breebaart, G. Hotho, S. Disch, H. Purnhagen, and K. Kjorling, "MPEG Surround: The Forthcoming ISO Standard for Spatial Audio Coding," in 28th International AES Conference, The Future of Audio Technology Surround and Beyond, Pitea, Sweden, June 30-July 2, 2006. J. Breebaart, J. Herre, L. Villemoes, C. Jin, , K. Kjorling, J. Plogsties, and J. Koppens, "Multi-Channels goes Mobile: MPEG Surround Binaural Rendering," in 29th International AES Conference, Audio for Mobile and Handheld Devices, Seoul, Sept 2-4, 2006. C. Faller, "Parametric Joint-Coding of Audio Sources," Convention Paper 6752 presented at the 120th AES Convention, Paris, France, May 20-23, 2006. E. Schuijers, J. Breebart, and H. Purnhagen "Low complexity parametric stereo coding" Proc 116th AES convention Berlin, Germany 2004, Preprint 6073

C. Faller, “Parametric Joint-Coding of Audio Sources,” Patent application PCT/EP2006/050904, 2006.

非常に関連する符号化システムとして、非特許文献３と特許文献１に開示された対応するオーディオオブジェクト符号器が挙げられる。この中では、複数のオーディオオブジェクトが符号器でダウンミックスされ、その後、制御データに従ってアップミックスされる。このアップミックスの過程は、ダウンミックスにおいてミキシングされたオブジェクトの分離過程としても見ることができる。その結果として得るアップミックスされた信号は、１つ又は複数の再生チャネルへと再現される。さらに詳しく言えば、非特許文献３及び特許文献１は、（合計信号と呼ばれる）ダウンミックスからのオーディオチャネルと、ソースオブジェクトに関する統計的な情報と、好ましい出力フォーマットを表すデータとを統合する方法を提供している。複数のダウンミックス信号が使用される場合には、これらのダウンミックス信号はオブジェクトの様々なサブセットから成り、かつアップミックスは各ダウンミックスチャネルについて個別に実行される。本発明が提供する新たな方法においては、アップミックスが全てのダウンミックスチャネルについて合同的(jointly)に実行される。オブジェクト符号化の方法として、本発明の以前には、複数のチャネルを備えるダウンミックスを合同的に復号化するための解決方法を提供するものが存在しなかった。

本発明の第１の実施形態は、符号化されたオーディオオブジェクト信号を使用して出力データを生成するオーディオ合成器であって、所定のオーディオ出力形態を持ちかつ複数のオーディオオブジェクトを表す複数の出力チャネルを再現するために、使用可能な出力データを生成する出力データ合成器を含み、当該出力データ合成器は、前記複数のオーディオオブジェクトの少なくとも２つのダウンミックスチャネルへの配分を示すダウンミックス情報と、前記オーディオオブジェクトのためのオーディオオブジェクトパラメータとを使用し、前記オーディオ出力形態の中の前記オーディオオブジェクトの目標位置を追加的に使用することで、前記オーディオオブジェクトパラメータを前記所定のオーディオ出力形態のための空間パラメータへとトランスコードすることを特徴とする、オーディオ合成器である。

本発明の第２の実施形態は、符号化されたオーディオオブジェクト信号を用いて出力データを生成するためのオーディオ合成方法において、複数のオーディオオブジェクトを表す所定のオーディオ出力形態の複数の出力チャネルを作り出すために用いられる前記出力データを生成する工程を含み、その工程は、前記複数のオーディオオブジェクトの少なくとも２つのダウンミックスチャネルへの配分を示すダウンミックス情報と、前記オーディオオブジェクトのためのオーディオオブジェクトパラメータとを使用し、前記オーディオ出力形態の中の前記オーディオオブジェクトの目標位置を追加的に使用することで、前記オーディオオブジェクトパラメータを前記所定のオーディオ出力形態のための空間パラメータへとトランスコードすることを特徴とする、オーディオ合成方法である。

本発明の第３の実施形態は、複数のオーディオオブジェクトを用いて符号化されたオーディオオブジェクト信号を生成するためのオーディオオブジェクト符号器であって、前記複数のオーディオオブジェクトの少なくとも２つのダウンミックスチャネルへの配分を示すダウンミックス情報を生成するためのダウンミックス情報生成器であって、前記少なくとも２つのダウンミックスチャネルのパワー特性と相関関係特性とをそれぞれ示すパワー情報と相関関係情報とを生成する、ダウンミックス情報生成器と、前記オーディオオブジェクトのためのオブジェクトパラメータを生成するためのオブジェクトパラメータ生成器と、前記ダウンミックス情報と前記パワー情報と前記相関関係情報と前記オブジェクトパラメータとを含む前記符号化されたオーディオオブジェクト信号を生成するための出力インターフェースと、を備えたことを特徴とするオーディオオブジェクト符号器である。

本発明の第４の実施形態は、複数のオーディオオブジェクトを用いて符号化されたオーディオオブジェクト信号を生成するためのオーディオオブジェクト符号化方法であって、前記複数のオーディオオブジェクトの少なくとも２つのダウンミックスチャネルへの配分を示すダウンミックス情報を生成するステップと、前記少なくとも２つのダウンミックスチャネルのパワー特性と相関関係特性とをそれぞれ示すパワー情報と相関関係情報とを生成するステップと、前記オーディオオブジェクトのためのオブジェクトパラメータを生成するステップと、前記パワー情報と前記相関関係情報と前記ダウンミックス情報と前記オブジェクトパラメータとを含む、前記符号化されたオーディオオブジェクト信号を生成するステップと、を備えたことを特徴とするオーディオオブジェクト符号化方法である。

本発明の第５の実施形態は、複数のオーディオオブジェクトの少なくとも２つのダウンミックスチャネルへの配分を示すダウンミックス情報と、前記少なくとも２つのダウンミックスチャネルのパワー特性及び相関関係特性をそれぞれ示すパワー情報及び相関関係情報と、オブジェクトパラメータとを含む符号化されたオーディオオブジェクト信号を記憶した、コンピュータにより読み出し可能な記憶媒体であって、前記オブジェクトパラメータと前記少なくとも２つのダウンミックスチャネルとを使用して前記オーディオオブジェクトの再構成が可能となるように、前記オブジェクトパラメータが設定されている記憶媒体である。

本発明の実施例を添付の図面を参照しながら以下に説明するが、これらの図面は本発明の範囲や思想を限定するものではない。

符号化と復号化とを含む空間オーディオオブジェクト符号化の動作を示した図である。ＭＰＥＧサラウンド復号器を再使用する空間オーディオオブジェクト符号化の動作を示した図である。空間オーディオオブジェクト符号化の動作を示した図である。オーディオオブジェクトパラメータ抽出器のエネルギーベースのモードにおける動作を示した図である。オーディオオブジェクトパラメータ抽出器の予測ベースのモードにおける動作を示した図である。ＳＡＯＣ（空間オーディオオブジェクト符号化）からＭＰＥＧサラウンドへのトランスコーダの構造を示した図である。ダウンミックス変換器の様々な作動モードを示した図である。ステレオダウンミックスのためのＭＰＥＧサラウンド復号器の構造を示した図である。ＳＡＯＣ符号器を含む現実の使用状況を示した図である。符号器の実施例を示した図である。復号器の実施例を示した図である。様々な好ましい復号器／合成器のモードを示すための表である。所定の空間アップミックスパラメータを計算するための方法を示した図である。追加的な空間アップミックスパラメータを計算するための方法を示した図である。予測パラメータを使用した計算方法を示した図である。符号器／復号器システムの概略図である。オブジェクト予測パラメータを計算するための方法を示した図である。ステレオ再現の方法を示した図である。

後述する実施例は、本発明が提供する多チャネルダウンミックスされたオブジェクト符号化における強化された符号化及びパラメータ表現の原理を説明するための、単に例示的な実施例である。ここに示す形態及び詳細の修正あるいは変形が可能であることは、当業者には明らかである。従って、本発明の趣旨は特許請求の範囲の記載によってのみ限定されるものであり、以下の明細書に記載する具体的な詳細説明によって限定されるものではない。

本発明の好ましい実施の形態は、オブジェクト符号化の枠組みの機能性と多チャネル復号器の再現能力とを組み合わせた、符号化の枠組みを提供する。伝送された制御データは個々のオブジェクトに関連するものであり、従って空間的な位置やレベルに関しては、復元する際には手動操作が可能となる。そのため、制御データは所謂、場面描写に直接的に関連し、各オブジェクトの位置決めに関する情報を与える。場面描写は、復号器側でリスナーによって相互作用的に制御されても良いし、あるいは符号器側で製作者によって制御されても良い。

本発明が示すトランスコーダの段階は、オブジェクトに関連する制御データとダウンミックス信号とを変換し、復元システム、例えばＭＰＥＧサラウンド復号器に関連する制御データとダウンミックス信号とを得るために使用される。

本発明の符号化の枠組の中では、符号器において利用可能なダウンミックスチャネルの中に、オブジェクトを任意の方法で分配することができる。トランスコーダは多チャネルダウンミックス情報をそのまま使用し、トランスコードされたダウンミックス信号とオブジェクトに関連する制御データとを供給する。この手段により、復号器におけるアップミキシングは、非特許文献３に開示されたように全てのチャネルについて個々に実行されるのではなく、全てのダウンミックスチャネルが１つの単一アップミキシング工程において同時に処理される。本発明の新たな枠組みの中では、多チャネルダウンミックス情報は制御データの一部分であり、オブジェクト符号器によって符号化される。

オブジェクトをダウンミックスチャネルへと分配する際には、自動的に分配されても良いし、符号器側の設計に合わせて分配されても良い。後者の場合には、ダウンミックスが既存の多チャネル復元の枠組み（例えばステレオ復元システム）に対しても適合するように設計することができる。即ち、復元を主眼とし、トランスコード化及び多チャネル復号化段階を省略するような枠組みにも適合するよう設計することができる。この適合性は、単一のダウンミックスチャネルから構成されるかあるいはソースオブジェクトのサブセットを有する複数のダウンミックスチャネルから構成される従来技術による符号化の枠組みと比較して、さらに有利といえる。

従来技術によるオブジェクト符号化の枠組みにおける復号化の過程では、単一のダウンミックスチャネルを使用していたが、本発明にかかる方法においてはこのような制限を受けることはない。なぜなら、本発明の方法では、複数チャネルのダウンミックスを含むダウンミックスを合同して復号化するからである。オブジェクトを分離する際に取得可能となる品質は、ダウンミックスチャネルの数が増大するにつれて高くなる。ゆえに、本発明は、単一のモノラルダウンミックスチャネルを有するオブジェクト符号化の枠組みと、多チャネル符号化の枠組みであって各オブジェクトが別々のチャネルによって伝送される枠組みとの間のギャップを埋める役割を果たす。従って本発明が提案する枠組みでは、個々のオブジェクトの品質について、適用条件と伝送システムの特性（例えばチャネル容量等）とに基づいて、柔軟なスケーリングが可能となる。

さらに、従来のオブジェクト符号化の枠組みのように、場面描写を強度の違いに限定することなく、複数のダウンミックスを使用することで、個々のオブジェクト間の相関関係を追加的に考慮することが可能となるので、有利である。従来技術の枠組みは、全てのオブジェクトが独立しており、互いに相関関係がない（クロス相関ゼロ）であるという仮定の上に成り立っている。しかし、現実には、例えばステレオ信号の左と右のチャネルのように、オブジェクト間に相関関係がないという可能性は少ない。本発明のように、描写（制御データ）の中に相関関係を組み入れることで、描写がより完全なものとなり、その結果、オブジェクトを分離する能力をさらに高めることになる。

本発明の好ましい実施の形態は、以下の特徴のうちの少なくとも１つを含む。多チャネルダウンミックスとオブジェクトを表す追加的制御データとを使用して、複数の個々のオーディオオブジェクトを伝送しかつ作り出すシステムであって、複数のオーディオオブジェクトを、多チャネルダウンミックス、その多チャネルダウンミックスについての情報、及びオブジェクトパラメ―タへと符号化するための空間オーディオオブジェクト符号器を備えるか、又は、多チャネルダウンミックス、その多チャネルダウンミックスについての情報、オブジェクトパラメ―タ、及びオブジェクト再現行列をオーディオ復元に適した第２の多チャネルオーディオ信号へと復号化するための空間オーディオオブジェクト復号器と、を備える。

図１Ａは空間オーディオオブジェクト符号化（ＳＡＯＣ）の作動を示す図であり、ＳＡＯＣ符号器１０１とＳＡＯＣ復号器１０４とが含まれる。ＳＡＯＣ符号器１０１は、符号化パラメータに従って、Ｎ個のオブジェクトを、Ｋ個（Ｋ>１）のオーディオチャネルから成る１つのオブジェクトダウンミックスへと符号化する。ダウンミックスのパワーと相関関係に関する任意のデータと共に、適用されたダウンミックス重み行列Ｄに関する情報がこのＳＡＯＣ符号器から出力される。この行列Ｄは、必ずしも常にというわけではないが、多くの場合には時間と周波数とに関して一定である。従って、比較的少量の情報を表している。最後に、ＳＡＯＣ符号器は各オブジェクトについて、時間及び周波数の両方の関数としてのオブジェクトパラメータを、知覚を考慮して定義された解像度で抽出する。ＳＡＯＣ復号器１０４は、(符号器によって生成された)オブジェクトダウンミックスチャネルと、ダウンミックス情報と、オブジェクトパラメータとを入力として取り入れ、Ｍ個のオーディオチャネルを有する出力を、ユーザーに対する表示のために生成する。Ｎ個のオブジェクトからＭ個のオーディオチャネルへの再現は、ＳＡＯＣ復号器へのユーザー入力として与えられる再現行列(rendering matrix)を利用している。

図１ＢはＭＰＥＧサラウンド復号器を使用する空間オーディオオブジェクト符号化の作動を示した図である。本発明に従うＳＡＯＣ復号器１０４は、ＳＡＯＣからＭＰＥＧサラウンドへのトランスコーダ１０２と、ステレオダウンミックスに基づくＭＰＥＧサラウンド復号器１０３として実現できる。Ｍ×Ｎの大きさを持つユーザーにより制御される再現行列Ａが、Ｎ個のオブジェクトからＭ個のオーディオチャネルへの目標再現を定義する。この行列は時間と周波数との両方に依存することが可能であり、この行列は、オーディオオブジェクト操作（外部から与えられる場面描写も利用可能である）のためのユーザーにとってより好ましいインターフェースの最終的な出力となる。５．１スピーカのセットアップの場合には、出力オーディオチャネルの数はＭ＝６である。ＳＡＯＣ復号器の役割は、元のオーディオオブジェクトの目標再現を知覚的に再現することである。ＳＡＯＣからＭＰＥＧサラウンドへのトランスコーダ１０２は、再現行列Ａと、オブジェクトダウンミックスと、ダウンミックス重み行列Ｄを含むダウンミックス・サイド情報と、オブジェクト・サイド情報とを入力として取り込み、ステレオダウンミックスとＭＰＥＧサラウンド・サイド情報とを生成する。このトランスコーダを本発明に従って構成した場合には、これらのデータを与えられた後続のＭＰＥＧサラウンド復号器１０３はＭチャネルのオーディオ出力を好適な特性とともに生成するであろう。

図２は本発明に従う空間オーディオオブジェクト（ＳＡＯＣ）符号器１０１の作動を示す。Ｎ個のオーディオオブジェクトが、ダウンミキサ２０１とオーディオオブジェクトパラメータ抽出器２０２との両方に入力される。ダウンミキサ２０１は、符号器パラメータに従って、入力されたオブジェクトをミキシングし、Ｋ個(Ｋ＞１)のオーディオチャネルから成る一つのオブジェクトダウンミックスを出力するとともに、ダウンミックス情報をも出力する。このダウンミックス情報は、適用されたダウンミックス重み行列Ｄに関する記述を含み、さらに、後続のオーディオオブジェクトパラメータ抽出器が予測モードで動作する場合には、オブジェクトダウンミックスのパワーと相関関係とを示すパラメータを含んでも良い。後述するように、このような追加的なパラメータの役割は、オブジェクトパラメータの表現がダウンミックスに対する相対的な表現だけである場合、即ち５．１スピーカのセットアップのための前／後のキューが第１の例として挙げられるような場合に、再現されるオーディオチャネルのサブセットのエネルギー及び相関関係に対してアクセスを提供することである。オーディオオブジェクトパラメータ抽出器２０２は、符号器パラメータに従ってオブジェクトパラメータを抽出する。この符号器制御は、時間と周波数とで変化する基準に基づいて、２つの符号器モードのうちの１つ、即ちエネルギーに基づくモードかあるいは予測に基づくモードのうちのいずれを適用するかを決定する。エネルギーに基づくモードにおいては、符号器パラメータは、Ｎ個のオーディオオブジェクトからＰ個のステレオオブジェクト及び（Ｎ−２Ｐ）個のモノラルオブジェクトへのグループ化に関する情報をさらに含む。各モードについては図３及び図４を用いてさらに詳細に説明する。

図３はエネルギーに基づくモードで作動しているオーディオオブジェクトパラメータ抽出器２０２を示す。符号器パラメータに含まれるグループ化情報に従い、Ｐ個のステレオオブジェクト及び（Ｎ−２Ｐ）個のモノラルオブジェクトへのグループ化３０１が実行される。次に、対象となる各時間周波数区間に対し、以下の操作が実行される。即ち、ステレオパラメータ抽出器３０２により、Ｐ個のステレオオブジェクトの各個について、２つのオブジェクトパワーと１つの正規化された相関関係とが抽出される。また、モノラルパラメータ抽出器３０３により、（Ｎ−２Ｐ）個のモノラルオブジェクトの各個について、１つのパワーパラメータが抽出される。Ｎ個のパワーパラメータとＰ個の正規化された相関関係パラメータとからなる全体のセットは、グループ化データとともに次の符号化３０４において、オブジェクトパラメータを形成する。この符号化３０４は、最大のオブジェクトパワー又は抽出されたオブジェクトパワーの合計に関し、正規化ステップを含んでも良い。

図４は予測に基づくモードで作動しているオーディオオブジェクトパラメータ抽出器２０２を示す。対象となる各時間周波数区間に対し、以下の操作が実行される。即ち、Ｎ個のオブジェクトの各個について、Ｋ個のオブジェクトダウンミックスチャネルの一次結合(linear combination)であって、最小自乗法(least squares sense)において所与のオブジェクトに適合するものが導出される。この一次結合のこれらＫ個の重みはオブジェクト予測係数（ＯＰＣ）と呼ばれ、ＯＰＣ抽出器４０１で算出される。Ｎ・Ｋ個のＯＰＣからなる全体のセットは、次の符号化４０２においてオブジェクトパラメータを形成する。この符号化４０２は、一次相互依存性(linear interdependencies)に基づいて、ＯＰＣの全体数の減少を含んでも良い。本発明が教示するように、ダウンミックス重み行列Ｄが完全な階数(full rank)を有する場合には、この全体数をmax{K・(N-K), 0}まで削減することができる。

図５は本発明が開示するＳＡＯＣからＭＰＥＧサラウンドへのトランスコーダ１０２の構成を示す。パラメータ計算器５０２により、時間周波数区間のそれぞれについて、ダウンミックス・サイド情報及びオブジェクトパラメータが再現行列と組み合わされ、タイプCLD，CPC，ICCのＭＰＥＧサラウンドパラメータと、２×Ｋのサイズを持つダウンミックス変換行列Ｇとが形成される。ダウンミックス変換器５０１は、行列Ｇに従う行列動作を適用することで、オブジェクトダウンミックスをステレオダウンミックスへと変換する。Ｋ＝２である簡素なモードを有する変換器においては、この行列は恒等行列であり、オブジェクトダウンミックスはステレオダウンミックスとしてそのまま送られる。図５においては、このモードは選択切替器５０３がＡの位置にある場合として示され、他方、通常の作動モードは切替器がＢの位置にある場合として示される。本発明のトランスコーダのさらなる利点は、独立形適用(stand alone application)として、即ちＭＰＥＧサラウンドパラメータが無視されかつダウンミックス変換器の出力がステレオ再現に直接的に使用される場合であっても、このトランスコーダが使用できる点である。

図６は本発明が開示するダウンミックス変換器５０１の様々な作動モードを示す。Ｋチャネルのオーディオ符号器から出力されたビットストリーム形式のオブジェクトダウンミックスが送信されたと仮定する。この場合、このビットストリームは、まずオーディオ復号器６０１によりＫ個の時間ドメインオーディオ信号へと復号化される。これらの信号は次に、Ｔ／Ｆユニット６０２内のＭＰＥＧサラウンドハイブリッドＱＭＦフィルタにより、全て周波数ドメインへと変換される。その結果生成されるハイブリッドＱＭＦドメイン信号に対し、変換器行列データで定義され時間及び周波数で変化する行列操作が、行列化ユニット６０３により実行され、行列化ユニット６０３はハイブリッドＱＭＦドメインで１つのステレオ信号を出力する。ハイブリッド合成ユニット６０４は、このステレオハイブリッドＱＭＦドメイン信号を、１つのステレオＱＭＦドメイン信号へと変換する。ハイブリッドＱＭＦドメインは、後続のＱＭＦサブバンドのフィルタリングを用い、低周波に向かうより良好な周波数解像度を達成するために定義されている。この後続のフィルタリングがナイキストフィルタのバンクによって定義される場合には、ハイブリッドから標準ＱＭＦドメインへの変換は、単にハイブリッドサブバンド信号のグループを合計することから構成される（非特許文献４を参照）。この信号は、選択切替器６０７が位置Ａにある場合の、ダウンミックス変換器の可能性のある第１の出力フォーマットを構成する。このようなＱＭＦドメイン信号は、ＭＰＥＧサラウンド復号器の対応するＱＭＦドメインインターフェースへと、直接的に入力することができる。これは、遅延，複雑性，及び品質の観点から、最も有利な作動モードである。第２の可能性は、ステレオ時間ドメイン信号を得るために、ＱＭＦフィルタバンク合成６０５を実行することで達成される。選択切替器６０７が位置Ｂにある場合、変換器はデジタルオーディオステレオ信号を出力するが、この信号は後続のＭＰＥＧサラウンド復号器の時間ドメインインターフェースへと入力することができるか、あるいはステレオ再生装置によって直接的に再現することができる。第３の可能性は、選択切替器６０７が位置Ｃにある場合であり、時間ドメインステレオ信号をステレオオーディオ符号器６０６により符号化することで達成される。ダウンミックス変換器の出力フォーマットは、この場合はステレオオーディオビットストリームであり、ＭＰＥＧ復号器に含まれる中核の復号器に対して互換性を持つ。この第３の作動モードは、ＳＡＯＣからＭＰＥＧサラウンドへのトランスコーダが、ＭＰＥＧ復号器とビットレートに関して制限を加えるような接続を介して分離されている場合か、又はユーザーが将来の再生のために特別なオブジェクト再現を記憶させたいと希望する場合にとって、好適である。

図７はステレオダウンミックスのためのＭＰＥＧサラウンド復号器の構造を示す。ステレオダウンミックスは「２→３（TTT）」ボックスにより３つの中間チャネルへと変換される。これらの各中間チャネルは、「１→２（OTT）」ボックスにより２つに分かれ、５．１チャネル形式の６つのチャネルを生み出す。

図８はＳＡＯＣ符号器を含む現実的な使用例を示す。オーディオミキサ８０２は、ステレオ信号（Ｌ及びＲ）を出力するが、これらのステレオ信号は、典型的にはミキサの入力信号（ここでは入力チャネル１−６）と、例えば残響等の影響反射からの選択的な追加の入力との組合せにより構成される。ミキサは、さらにこのミキサからの個別チャネル（ここではチャネル５）をも出力する。この出力は、例えば「直接出力」又は「補助送信」等のように一般的に使用されるミキサ機能を用いて実行されても良く、何らかの挿入プロセス（例えばダイナミックプロセス及びＥＱ）に続いて個別チャネルが出力されても良い。前記ステレオ信号（Ｌ及びＲ）と個別チャネル出力（obj５）とは、ＳＡＯＣ符号器８０１へと入力されるが、この符号器は図１に示したＳＡＯＣ符号器１０１の特別型に過ぎない。しかし、図８は、例えば会話等を含むオーディオオブジェクト（obj５）が、ステレオミックス（Ｌ及びＲ）の一部である一方で、復号器側においてユーザーによりレベル修正が制御可能であることを明確に示す。本発明の概念から、２つ以上のオーディオオブジェクトを符号器８０１内の「オブジェクト入力」パネルへと接続しても良いことは自明である。さらに、ステレオミックスは例えば５．１ミックスのような多チャネルミックスにより拡張されても良い。

以下に、本発明を数学的に説明する。離散複素信号ｘ，ｙについて、複素内積と自乗ノルム（エネルギー）は次の式で定義される。

ここで、

はy(k)の複素共役信号である。ここで考慮する全ての信号は、１つの修正フィルタバンクか、又は離散時間信号のウインドウ化されたＦＦＴ（高速フーリエ変換）分析からのサブバンドサンプルである。これらのサブバンドは、対応する合成フィルタバンク操作によって離散時間ドメインへと逆変換されなければならないことが知られている。Ｌ個のサンプルを持つ１つの信号ブロックは、時間及び周波数の１つの区間内における信号を表し、この区間は、信号特性を説明するために用いられた時間―周波数平面の知覚的動機に基づくタイル張りの一部である。この設定において、所与のオーディオオブジェクトは、1つの行列内の長さＬを有するＮ行として次の式で表すことができる。

Ｋ×Ｎの大きさを有しＫ＞１であるダウンミクス重み行列Ｄが、次の行列の掛け算を通してＫ行を有する行列の形式でＫチャネルダウンミックス信号を決定する。

Ｍ×Ｎの大きさを有し、ユーザーにより制御されるオブジェクト再現行列Ａが、次の行列の掛け算を通してＭ行を有する行列の形式でオーディオオブジェクトのＭチャネル目標再現を決定する。

ここで暫く中核のオーディオ符号化の影響を考慮せずにおくと、ＳＡＯＣ復号器の役割は、再現行列Ａ、ダウンミックスＸ、ダウンミックス行列Ｄ及びオブジェクトパラメータを与えられたとして、原オーディオオブジェクトの目標再現Ｙの知覚的意味における近似を生成することである。

本発明が教示するエネルギーモードにおけるオブジェクトパラメータは、原オブジェクトの共分散に関する情報を有する。後続の導出のために便利でありかつ典型的な符号器操作を説明できる決定版においては、この共分散は、行列の積ＳＳ^*により非正規化された形式で与えられる。このとき星印は複素共役転位行列操作を示す。このようにして、エネルギーモードのオブジェクトパラメータは、できればあるスケールファクタまでは、次式（５）を満たすような半正定値(positive semi-definite)のＮ×Ｎの行列Ｅを供給する。

従来技術によるオーディオオブジェクト符号化では、全てのオブジェクトに相互関係がないオブジェクトモデルを考慮して来た。この場合には、行列Ｅは対角行列であり、オブジェクトエネルギー

に対する近似だけを含む。図３に示すオブジェクトパラメータ抽出器は、このアイデアを具体化することに役立ち、相関関係がないとする仮定が成り立たないようなステレオ信号としてオブジェクトが供給される場合に、特に重要となる。オブジェクトのＰ個の選択されたステレオペアのグループ化は、インデックスのセット{(n_p,m_p),p=1,2,...,P}で表現される。これらのステレオペアのために、相関関係＜s_n,s_m＞が計算され、次式（６）に示す正規化された相関関係（ICC）の複素数、実数、又は絶対値がステレオパラメータ抽出器３０２により抽出される。

復号器では、２Ｐの非対角エントリを有する行列Ｅを形成するために、ICCデータはエネルギーと組み合わされても良い。例えば、全体でＮ＝３のオブジェクトであり、この内最初の２つが単一のペア（1,2）を構成するオブジェクトについては、送信されるエネルギー及び相関関係データはS₁,S₂,S₃ 及びρ_1,2である。この場合、行列Ｅへの組合せにより、次の結果となる。

本発明が教示する予測モードにおけるオブジェクトパラメータは、次式（７）で表すように、復号器にとって有効であるＮ×Ｋオブジェクト予測係数（ＯＰＣ）行列Ｃを作り出すことを目的とする。

換言すれば、各オブジェクトについて、そのオブジェクトが次式（８）により近似的に回復できるようなダウンミックスチャネルの一次結合が存在する。

ある好ましい実施の形態においては、ＯＰＣ抽出器４０１が次の正規方程式を解くか、

あるいは、より好ましい実数値のＯＰＣの場合には、次式を解く。

前記両方の場合において、実数値のダウンミックス重み行列Ｄと正則ダウンミックス共分散とを用いたと仮定すると、Ｄを左側から掛け算することにより、次式（１１）となる。

ここで、Ｉは大きさＫの恒等行列である。もしＤが完全な階数を有する場合には、初歩的な線形代数により、式（９）の解のセットは、max{K・(N-K), 0}パラメータによりパラメータ化できることになる。この点は、ＯＰＣデータの結合符号化(joint encoding) ４０２の中で活用されている。復号器においては、完全な予測行列Ｃが、パラメータの減数されたセットとダウンミックス行列とから再形成可能となる。

例えば、１つのステレオダウンミックス（K=2）について、１つのステレオ音楽トラック（Ｓ₁，Ｓ₂）と中央にパンされた単一楽器又は音声トラックＳ₃とを備える３つのオブジェクト(N=3)がある場合を考える。このときダウンミックス行列は次式で与えられる。

つまり、ダウンミックス左チャネルと右チャネルはそれぞれ

となる。単一トラックのためのＯＰＣは、

を近似することを目的としており、上述の式（１１）は、この場合、次式を達成するように解くことができる。

よって、満足するＯＰＣの数はK(N-K)=2・(3-2)=2となる。

オブジェクト予測係数（ＯＰＣ）のＣ₃₁，Ｃ₃₂は次の正規方程式から導くことができる。

ＳＡＯＣからＭＰＥＧサラウンドへのトランスコーダ

図７を参照すれば、５．１形式のＭ＝６出力チャネルは、（y₁,y₂,...,y₆)＝(l_f,l_s,r_f,r_s,c,lfe)である。トランスコーダは、１つのステレオダウンミックス(l₀,r₀)と、TTT及びOTTボックスのためのパラメータとを出力しなければならない。ここではステレオダウンミックスに焦点を当てているので、以下の説明ではＫ＝２と仮定する。オブジェクトパラメータとＭＰＳのTTTパラメータとの両方が、エネルギーモードと予測モードとの両方で存在するので、４つの全ての組合せを考慮すべきである。エネルギーモードは、例えばダウンミックスオーディオ符号器が当該の周波数区間において波形符号器ではない場合に、適切な選択といえる。後述する説明から導出されるＭＰＥＧサラウンドパラメータが、伝送される前に適切に量子化されかつ符号化されなければならないことは公知である。

前記４つの組合せをさらに明確に記載すれば、以下のようになる。
１．オブジェクトパラメータはエネルギーモードであり、トランスコーダは予測モードである。
２．オブジェクトパラメータはエネルギーモードであり、トランスコーダもエネルギーモードである。
３．オブジェクトパラメータは予測モード（ＯＰＣ）であり、トランスコーダも予測モードである。
４．オブジェクトパラメータは予測モード（ＯＰＣ）であり、トランスコーダはエネルギーモードである。

ダウンミックスオーディオ符号器が当該の周波数区間において波形符号器である場合には、オブジェクトパラメータはエネルギーモードでも予測モードでも良いが、トランスコーダは好ましくは予測モードで作動すべきである。反対に、ダウンミックスオーディオ符号器が当該の周波数区間において波形符号器ではない場合には、オブジェクト符号器とトランスコーダとはエネルギーモードで作動すべきである。４番目の組合せはあまり適切ではないので、以下の説明では最初の３つの組合せについてだけ述べる。

エネルギーモードで与えられたオブジェクトパラメータ

エネルギーモードにおいては、トランスコーダに使用されるデータは３つのマトリクス（Ｄ，Ｅ，Ａ）の組により記述される。ＭＰＥＧサラウンドOTTパラメータは、伝送されたパラメータと６×Ｎの再現マトリクスＡとから導出される仮想再現について、エネルギー及び相関関係の推定を実施することで取得できる。６つのチャネルの目標共分散は、次の式で与えられる。

ここで、式（５）を式（１３）に代入すると、次の近似が得られる。

この近似式は、使用可能なデータにより完全に定義される。ｆ_ktがＦの要素を表すものとすると、CLD及びICCは以下の式から読み取ることができる。

ここで、φは絶対値φ(z)=|z|又は実数値演算子φ(z)=Re{z}である。

具体例として、前記式（１２）に関連して前に説明した３つのオブジェクトの場合を考える。このとき、再現行列を次のように仮定する。

このとき再現目標は、オブジェクト１を右前と右サラウンドとの間に配置し、オブジェクト２を左前と左サラウンドとの間に配置し、オブジェクト３を右前、中央、低周波強化の中に配置するものとする。さらに、簡素にするために、これら３つのオブジェクトは互いに相関関係がなく、全て同一のエネルギーを有するものとし、次のように仮定する。

この場合、式（１４）の右側は次のようになる。

前記式（１５）−（１９）に対して適切な値を挿入すると、次の結果が得られる。

その結果、ＭＰＥＧサラウンド復号器は、右前と右サラウンドとの間ではある非相関化処理を使用し、左前と左サラウンドとの間では非相関化処理を使用しないように指示を受けるであろう。

予測モードのＭＰＥＧサラウンドTTTパラメータにとって、第１のステップは、

である結合されたチャネル(l,r,qc)について、３×Ｎの大きさを持つ減数された再現行列Ａ₃を形成することである。このとき、Ａ₃＝Ｄ₃₆Ａであり、６から３への部分ダウンミックス行列は次式で定義される。

前記部分ダウンミックスの重みｗ_p（p=1,2,3）は、ｗ_p(ｙ_2p-1+ｙ_2p）のエネルギーがある限度ファクタまではエネルギー||ｙ_2p-1||²+||ｙ₂||²の合計に等しくなるように調整される。部分ダウンミックス行列Ｄ₃₆を導出するために必要な全てのデータは、Ｆにおいて使用可能である。

次に、３×２の大きさを持つ予測行列Ｃ₃が以下のように生成される。

このような行列は、好ましくはまず次の正規方程式を考慮することで導出される。
Ｃ₃（ＤＥＤ^*）＝Ａ₃ＥＤ^*

前記正規方程式の解は、オブジェクト共分散モデルＥを与えられた場合、前記式（２１）について可能な最良の波形適合を生成する。全体又は個別チャネル単位の予測損失補償のための行要素を含む、行列Ｃ₃の後処理を行うことが好ましい。

上述のステップを明確に理解するためには、上述した具体的な６チャネル再現例の続きを考慮すべきである。Ｆの行列要素に関して言えば、ダウンミックスの重みは次式の解であり、

上述の具体例においては次式となり、

次の結果となる。

これを上述の式（２０）に代入すると、次式が得られる。

次に（有限精度に切り換えると）、上述の式Ｃ₃（ＤＥＤ^*）＝Ａ₃ＥＤ^*のシステムを解くことで次式が得られる。

この行列Ｃ₃は、オブジェクトダウンミックスから結合チャネル(l,r,qc)への望ましいオブジェクト再現に対する近似を得るための最良の重みを包含する。しかし、行列操作のこの一般的なタイプは、ＭＰＥＧサラウンド復号器により実行されることは不可能である。なぜなら、ＭＰＥＧサラウンド復号器はたった２つのパラメータしか使用しないので、TTT行列のための大きさが制限されているからである。本発明のダウンミックス変換器の目的は、オブジェクトダウンミックスを前処理し、この前処理とＭＰＥＧサラウンドTTT行列との組合せ効果が、行列Ｃ₃により示される望ましいアップミックスと同一となるようにすることである。

ＭＰＥＧサラウンドにおいては、(l₀,r₀) から(l,r,qc)を予測するためのTTT行列は、次式を介して３つのパラメータ(α,β,γ)によりパラメータ化される。

本発明が教示するダウンミックス変換行列Ｇは、γ＝１を選択し、次式のシステムを解くことで取得される。

容易に証明できるように、上の式からＤ_TTTＣ_TTT＝Ｉとなり、Ｉは２×２の恒等行列であり、次式が成り立つ。

従って、式（２３）の両側にＤ_TTTを左側から行列掛け算を行うと、次式の結果となる。

一般的な場合では、Ｇは反転可能であり、式（２３）はＤ_TTTＣ_TTT＝Ｉに従うＣ_TTTについて唯一の解を持つ。TTTパラメータ(α,β)は、この解により決定される。

前述した具体例について、その解が次のように得られることは容易に証明できる。

ここで注意すべきは、ステレオダウンミックスの主要部分は、この変換行列のために右と左の間で入れ替わることである。これは、前記再現例では、左のオブジェクトダウンミックスチャネル内にあるオブジェクトが右の音声場面に位置するように再現され、その逆もまた然りとなるという事実を反映したものである。このような現象は、ステレオモードのＭＰＥＧサラウンド復号器からは得られない現象である。

もしダウンミックス変換器を適用できない場合には、以下のような次善策をとることができる。エネルギーモードのＭＰＥＧサラウンドTTTパラメータに対しては、結合されたチャネル(l,r,c)のエネルギー配分が必要となる。ゆえに、関連するCLDパラメータはＦの要素から次式を通じて直接導出することができる。

この場合には、ダウンミックス変換器のため正のエントリを持つ対角行列Ｇだけを使用するのが良い。TTTアップミックスの前に、ダウンミックスチャネルの正確なエネルギー配分を達成することが可能になる。６から２へのチャネルダウンミックス行列Ｄ₂₆＝Ｄ_TTTＤ₃₆と、次式からの定義とを基にして、

次の行列を単純に選択できる。

さらに、上述のような対角形式のダウンミックス変換器は、オブジェクトからＭＰＥＧサラウンドへのトランスコーダから省略することもでき、ＭＰＥＧサラウンド復号器の任意のダウンミックスゲイン（ＡＤＧ）パラメータを活性化することで実現できると考えられる。これらゲインは、ＡＤＧ_i＝10log₁₀(w_ii/z_ii) (i=1,2)によって、対数ドメインにおいて与えられるであろう。

予測モード（ＯＰＣ）で与えられたオブジェクトパラメータ

オブジェクト予測モードにおいては、利用できるデータは行列の３つの組（Ｄ，Ｃ，Ａ）によって表され、ここで、ＣはＯＰＣのＮ個のペアを有するＮ×２の行列である。予測係数の相対的な特性により、エネルギーベースのＭＰＥＧサラウンドパラメータの推定にとっては、次式のようにオブジェクトダウンミックスの２×２の共分散行列への近似に対してアクセスを有することがさらに必要となる。

この情報は、オブジェクト符号器からダウンミックス・サイド情報の一部として伝送されることが好ましいが、トランスコーダにおいて、受信されたダウンミックスについて測定された結果から推定することも可能であるし、近似オブジェクトモデルを考慮することにより（Ｄ，Ｃ）から間接的に導出することも可能であろう。Ｚが与えられた場合、オブジェクト共分散は予測モデルＹ＝ＣＸを挿入することで推定可能であり、次式が得られる。
Ｅ＝ＣＺＣ^*
そして、全てのＭＰＥＧサラウンドOTTとエネルギーモードTTTのパラメータは、エネルギーベースのオブジェクトパラメータの場合と同様に、Ｅから推定可能である。しかし、ＯＰＣを使用する大きな利点は、予測モードのＭＰＥＧサラウンドTTTパラメータとの組合せにおいて発生する。この場合、波形近似

は、直ちに減数された予測行列

をもたらし、この予測行列からTTTパラメータ(α,β)とダウンミックス変換器とに到達するまでの残りのステップは、エネルギーモードで与えられたオブジェクトパラメータの場合と同様である。現実に、上述の式（２２）から（２５）までのステップは、完全に同一である。結果として生まれる行列Ｇはダウンミックス変換器へと入力され、TTTパラメータ(α,β)はＭＰＥＧサラウンド復号器へと伝送される。

ステレオ再現のためのダウンミックス変換器の独立型適用

上述した全ての場合において、ステレオダウンミックス変換器５０１へのオブジェクトは、オーディオオブジェクトの５．１チャネル再現のステレオダウンミックスに対する近似を出力する。このステレオ再現は、Ａ₂＝Ｄ₂₆Ａにより定義される２×Ｎの行列Ａ₂により表現できる。多くの適用例において、このダウンミックスはそのもの自身の特性から興味深いるものであるし、ステレオ再現Ａ₂の直接的な操作も魅力的である。図解的な例として、ステレオトラックと、それに重畳され中央にパンされたモノラル音声トラックとが、図８に示しかつ式（１２）で説明した特別な方法の場合に従って符号化された場合について考察する。音声音量のユーザーによる制御は、次式の再現により実現することができる。

ここで、νは音声と演奏曲との制御比率である。ダウンミックス変換行列の設計は、次式に基づく。

予測ベースのオブジェクトパラメータについては、次の近似式

を単に挿入し、次の変換行列を得る。

エネルギーベースのオブジェクトパラメータについては、次の正規方程式を解けばよい。

図９は本発明の１つの実施態様に従うオーディオオブジェクト符号器の好ましい一実施例を示す。このオーディオオブジェクト符号器１０１は、図８までの図面に関連して既に概略を説明したものと同様である。符号化されたオブジェクト信号を生成するためのオーディオオブジェクト符号器は、図９では、ダウンミキサ９２とオブジェクトパラメータ生成器９４とへの入力として示される、複数のオーディオオブジェクト９０を使用する。オーディオオブジェクト符号器１０１は、ダウンミックス情報９７を生成するためのダウンミックス情報生成器９６をさらに備え、ダウンミックス情報９７は、ダウンミキサ９２からの出力として示される少なくとも２つのダウンミックスチャネル９３に対する、前記複数のオーディオオブジェクトの配分を示している。

オブジェクトパラメータ生成器は、オーディオオブジェクトのためのオブジェクトパラメータ９５を生成する。このとき、オブジェクトパラメータは、これらのオブジェクトパラメータと少なくとも２つのダウンミックスチャネル９３とを使用して、オーディオオブジェクトの再構成が可能となるように計算される。しかし重要なことは、この再構成は符号器側において実行されるのではなく、復号器側において実行されることである。とはいえ、符号器側のオブジェクトパラメータ生成器９４は、復号器側でこの完全な再構成が可能となるように、オブジェクトのためのオブジェクトパラメータ９５を計算する。

オーディオブジェクト符号器１０１は、ダウンミックス情報９７とオブジェクトパラメータ９５とを使用して符号化されたオーディオオブジェクト信号９９を生成するための、出力インターフェース９８をさらに備えている。適用方法にも依るが、ダウンミックスチャネル９３もまた使用され、符号化されたオーディオオブジェクト信号へと符号化されても良い。しかし、出力インターフェース９８が、ダウンミックスチャネルを含まない符号化されたオーディオオブジェクト信号９９を生成する場合もありうる。このような状況は、復号器側で使用されるべきあらゆるダウンミックスチャネルも既に復号器側に存在しており、オーディオオブジェクトのためのダウンミックス情報とオブジェクトパラメータとが、ダウンミックスチャネルから分離して伝送されるような場合に起こりうる。このような状況は、復号器側のユーザーが、オブジェクトパラメータ及びダウンミックス情報とは別に、オブジェクトダウンミックスチャネル９３を安価で購入することができ、さらに、オブジェクトパラメータ及びダウンミックス情報を追加的な価格で購入することで、追加的な価値を得ることができる場合に有利となる。

オブジェクトパラメータ及びダウンミックス情報がない場合には、ユーザーは、ダウンミックスに含まれるチャネルの数に依存して、ダウンミックスチャネルをステレオ又は多チャネルの信号として再現することができる。当然ながら、前記少なくとも２つの伝送されたオブジェクトダウンミックスチャネルを単に加算することで、ユーザーはモノラル信号を再現することも可能である。再現の柔軟性とリスニングの品質と使用性とを高めるために、オブジェクトパラメータ及びダウンミックス情報はユーザーに対し、例えばステレオシステム、多チャネルシステム、あるいは波面合成システムさえ含むような、どのように意図されたオーディオ復元設定においても、オーディオオブジェクトの柔軟な再現を可能にする。波面合成システムはまだ一般的に普及してはいないが、５．１システム又は７．１システムのような多チャネルシステムは、消費者市場に日増しに普及しつつある。

図１０は出力データを生成するためのオーディオ合成器(audio synthesizer)を示し、このオーディオ合成器は出力データ合成器１００を含む。出力データ合成器は、入力として、ダウンミックス情報９７と、オーディオオブジェクトパラメータ９５とを受け取り、さらにおそらくは、符号１０５で示すように、例えばソースが再現された時にあるべきオーディオソースの位置又はユーザーから特定された特定ソースの音量等のような、目標オーディオソースデータを受け取る。

出力データ合成器１００は、複数のオーディオオブジェクトを表現する、所定のオーディオ出力形態（audio output configuration）の複数の出力チャネルを再現するために使用できる出力データを生成する。特に、出力データ合成器１００は、ダウンミックス情報９７とオーディオオブジェクトパラメータ９５とを使用して作動する。後で図１１を参照しながら説明するが、この出力データは様々に異なる適用方法を有するデータであって良い。即ち、出力チャネルの特定の再現を含む適用方法や、ソース信号の再構成だけを含む適用方法や、あるいは、出力チャネルの特定の再現はないが、例えば空間パラメータを記憶又は伝送するための空間アップミキサ設定用の空間再現パラメータへと、パラメータを符号変換することを含む適用方法を有するデータであっても良い。

図１４は本発明の一般的な適用のシナリオを示す。符号器側１４０はオーディオオブジェクト符号器１０１を含み、入力としてＮ個のオーディオオブジェクトを受け取る。この好ましいオーディオオブジェクト符号器の出力には、図１４には示されていないダウンミックス情報とオブジェクトパラメータとに加えて、Ｋ個のダウンミックスチャネルが含まれる。本発明に係るダウンミックスチャネルの数は、２以上である。

ダウンミックスチャネルは、空間アップミキサ１４３を含む復号器側１４２に伝送される。空間アップミキサ１４３は、本発明のオーディオ合成器を備えても良く、このときオーディオ合成器はトランスコーダモードで作動される。しかし、図１０に示すようなオーディオ合成器が空間アップミキサモードで作動する時には、空間アップミキサ１４３とオーディオ合成器とは、この実施例において同一の装置である。空間アップミキサは、Ｍ個のスピーカを介して再生されるべきＭ個の出力チャネルを生成する。これらのスピーカは、所定の空間位置に配置されたものであり、一体として所定のオーディオ出力形態を形成する。この所定のオーディオ出力形態を構成する１つの出力チャネルは、空間アップミキサ１４３の出力から、前記所定のオーディオ出力形態における複数の所定位置のうち１つの所定位置にある１つのスピーカの入力へと送られるべき、デジタル又はアナログのスピーカ信号であっても良い。状況に応じ、ステレオ再現が実行される場合には、出力チャネルの数Ｍは２個であって良い。しかし、多チャネル再現が実行される場合には、出力チャネルの数Ｍは２よりも大きな数字となる。典型的には、伝送リンクの条件により、ダウンミックスチャネルの数が出力チャネルの数よりも小さい状況が起こるであろう。この場合には、ＭはＫよりも大きいか、あるいは２倍以上になるようなＫよりもはるかに大きな数字であっても良い。

図１４は、本発明の符号器側と復号器側との機能を示すため、複数の行列表記をさらに含む。一般的には、サンプリング値のブロックが処理される。ゆえに、式（２）に示すように、１つのオーディオオブジェクトはＬ個のサンプリング値からなる１つの行として表現できる。行列Ｓは、オブジェクト数に対応するＮ個の行と、サンプル数に対応するＬ個の列とを持つ。行列Ｅは、式（５）に従って計算され、Ｎ個の行とＮ個の列とを持つ。オブジェクトパラメータがエネルギーモードで与えられた時、行列Ｅはオブジェクトパラメータを含む。相関関係がないオブジェクトについては、式（６）に関して上述したように、行列Ｅは、１つの主対角要素が１つのオーディオオブジェクトのエネルギーを与える主対角要素だけを備える。上述のように、全ての非対角要素は、２つのオーディオオブジェクトの相関関係を表しており、あるオブジェクトがステレオ信号の２つのチャネルである場合に特に有用である。

ある実施例においては、式（２）は時間ドメイン信号である。このとき、オーディオオブジェクトの全帯域のための単一のエネルギー値が生成される。しかし好ましくは、オーディオオブジェクトは、例えば変換の１つのタイプ又は１つのフィルタバンクを含む、時間／周波数変換器により処理される。後者の場合（１つのフィルタバンクを含む場合）には、式（２）は各サブバンドについて有効であり、その結果、各サブバンド及び各時間フレームについて行列Ｅを得ることになる。

ダウンミックスチャネル行列ＸはＫ個の行とＬ個の列とを備え、式（３）に従って計算される。式（４）に示すように、Ｍ個の出力チャネルは、Ｎ個のオブジェクトを使用して、これらＮ個のオブジェクトに対しいわゆる再現行列Ａを適用することで計算される。状況によるが、これらＮ個のオブジェクトは復号器側においてダウンミックスとオブジェクトパラメータとを使用して再生成可能であるし、この再現行列は、再構成されたオブジェクト信号に対して直接的に適用できる。

他の方法として、ダウンミックスは、ソース信号の格別な計算なしに出力チャネルへと直接的に変換されても良い。一般的に再現行列Ａは、所定のオーディオ出力形態に対する個別のソースの配置を示す。仮に６個のオブジェクトと６個の出力チャネルとを有する場合を想定する。この場合には、各オブジェクトを各出力チャネルに配置することができ、再現行列もこの枠組みを反映することになるだろう。しかし、もし全てのオブジェクトを２つの出力スピーカ位置の間に配置したい場合には、再現行列Ａは異なる形となるであろうし、かつこの異なる状況を反映することになるだろう。

再現行列、又はさらに一般的にはオーディオオブジェクトの目標配置ともオーディオソースの目標相対的音量とも呼ばれるものは、一般的には符号器により計算され、復号器に対し、いわゆる場面描写として伝送される。しかし他の実施例においては、この場面描写は、ユーザー特定オーディオ出力形態のためのユーザー特定アップミックスを生成するために、ユーザー自身によって生成されても良い。従って、場面描写の伝送は必ずしも必要というわけではなく、反対に、ユーザーの要望を叶えるために、ユーザー自身によって場面描写が生成されても良い。例えば、ユーザーは、あるオーディオオブジェクトを生成する際に、これらのオブジェクトがあった位置とは異なる位置に、これらのオブジェクトを配置させたいと希望するかもしれない。さらには、オーディオオブジェクトがそれら自身でデザインされ、他のオブジェクトに対する「元の」配置を持たない場合も有りうる。このような場合には、オーディオソースの相対的な配置は、ユーザーによって初めて生成されることになる。

図９にダウンミキサ９２を示す。このダウンミキサは、複数のオーディオオブジェクトを複数のダウンミックスチャネルへとダウンミキシングするためのものであり、オーディオオブジェクトの数はダウンミックスチャネルの数よりも多く、かつダウンミキサはダウンミックス情報生成器と一体となり、複数のオーディオオブジェクトから複数のダウンミックスチャネルへの配分はダウンミックス情報に示されるように実行される。図９のダウンミックス情報生成器９６により生成されるダウンミックス情報は、自動的に生成可能か、あるいは手動的に調整可能である。このダウンミックス情報には、オブジェクトパラメータの解像度よりも小さな解像度を与えるのが好ましい。この場合、サイド情報ビットは大きな品質損失なしに削減できる。なぜなら、ある種のオーディオ曲のための固定のダウンミックス情報、又は低速でしか変化せず必ずしも周波数選択的である必要のないダウンミックス状況で十分だからである。１つの実施例においては、ダウンミックス情報は、Ｋ個の行とＮ個の列とを有するダウンミックス行列を表す。

ダウンミックス行列の１つの行内の値は、このダウンミックス行列内のこの値に対応するオーディオオブジェクトが、このダウンミックス行列の行により表されるダウンミックスチャネル内にある時、１つの所定値を持つ。１つのオーディオオブジェクトが２つ以上のダウンミックスチャネルに含まれる時、ダウンミックス行列の２つ以上の行の値は、１つの所定値を持つ。しかし、単一のオーディオオブジェクトについて平方値が合算された時、１．０になるのが好ましい。とは言え、他の値でも可能である。さらに、オーディオオブジェクトは、レベルが変化する１以上のダウンミックスチャネルへと入力されても良く、かつこれらのレベルは、所定のオーディオオブジェクトについて、１とは異なり、合算しても１．０にはならないダウンミックス行列内の重みにより示されても良い。

ダウンミックスチャネルは、出力インターフェース９８により生成された符号化されたオーディオオブジェクト信号の中に包含されており、この符号化されたオーディオオブジェクト信号は、例えば所定の形式を持つ時分割多重信号(time-multiplex signal)であっても良い。代わりに、この符号化されたオーディオオブジェクト信号は、復号器側においてオーディオオブジェクトパラメータ９５と、ダウンミックス情報９７と、ダウンミックスチャネル９３との分割を可能にする、いかなる信号であっても良い。さらには、出力インターフェース９８は、オブジェクトパラメータ、ダウンミックス情報、あるいはダウンミックスチャネルのための符号器を備えていても良い。オブジェクトパラメータとダウンミックス情報のための符号器は、差分符号器及び／又はエントロピー符号器であっても良く、ダウンミックスチャネルのための符号器は、ＭＰＥＧ符号器又はＡＡＣ符号器のような、モノラル又はステレオオーディオ符号器であっても良い。これら全ての符号化操作は、符号化されたオーディオオブジェクト信号９９のために必要なデータレートをさらに減少させ、さらなるデータ圧縮をもたらす。

ある実施例においては、ダウンミキサ９２は所定の比率で、前記少なくとも２つのダウンミックスチャネルの中へ背景音楽のステレオ表現を包含させ、さらに、これら少なくとも２つのダウンミックスチャネルの中へ音声トラックを導入させることができる。この実施例においては、背景音楽の第１のチャネルは第１のダウンミックスチャネルの中に含まれ、背景音楽の第２のチャネルは第２のダウンミックスチャネルの中に含まれる。その結果、ステレオ再現装置におけるステレオ背景音楽の最適な再生が可能になる。しかし、ユーザーは、左ステレオスピーカと右ステレオスピーカとの間の音声トラックの位置を、さらに修正することができる。他の方法としては、第１及び第２の背景音楽チャネルは１つのダウンミックスチャネル内に含まれ、音声トラックは他のダウンミックスチャネル内に含まれても良い。このようにして、１つのダウンミックスチャネルを排除することで、背景音楽から音声トラックを完全に分割することができ、カラオケには特に適した適用方法を作り出せる。しかしこの場合、当然ながら損失を伴う圧縮方法であるオブジェクトパラメータ化のために、背景音楽チャネルのステレオ再生品質は劣化する恐れがある。

ダウンミキサ９２は、時間ドメインにおいてサンプル単位での足し算を実行する。この足し算は、単一のダウンミックスチャネルへとダウンミックスされるべきオーディオオブジェクトからのサンプルを使用する。１つのオーディオオブジェクトがある所定の割合で１つのダウンミックスチャネルへと導入される時、サンプル単位での足し算処理の前に、ある事前の重み付けが実行される。他の方法としては、前記足し算はまた、周波数ドメインあるいはサブバンドドメインすなわち時間／周波数変換に続くドメインにおいて実行されても良い。さらに、前記ダウンミックスは、前記時間／周波数変換がフィルタバンクである場合にはフィルタバンクドメインにおいて実行しても良く、前記時間／周波数変換がＦＦＴ，ＭＤＣＴ又は他のいずれかの変換タイプである場合には、変換ドメインにおいて実行しても良い。

本発明の１つの実施形態によれば、オブジェクトパラメータ生成器９４はエネルギーパラメータを生成し、また、式（６）から分かるように、２つのオーディオオブジェクトが一体となってステレオ信号を表現する場合には、２つのオブジェクト間の相関関係パラメータを追加的に生成する。他の方法として、オブジェクトパラメータが予測モードのパラメータであっても良い。図１５はこれらのオブジェクト予測パラメータを計算するための計算装置のアルゴリズムステップ又は手段を示す。式（７）〜（１２）に関して上述したように、行列Ｘ内のダウンミックスチャネルと行列Ｓ内のオーディオオブジェクトとに関するある統計的な情報が計算されなければならない。特に、ブロック１５０はＳ・Ｘ^*の実数部分とＸ・Ｘ^*の実数部分とを計算する第１のステップを示す。これらの実数部分は、単に数値であるだけではなく、行列である。また、これらの行列は、ある実施例においては式（１）の表記を通して決定されるが、それは式（１２）に続く実施例が考慮される時である。一般的に、ステップ１５０の値は、オーディオオブジェクト符号器１０１内で使用できるデータを用いて計算することができる。その後、ステップ１５２に示すように予測行列Ｃが計算される。特に、Ｎ個の行とＫ個の列とを備えた予測行列Ｃの全ての値が得られるように、この方程式のシステムが従来技術から公知の方法で解かれる。一般的には、全てのダウンミックスチャネルの重み付けられた線形加算が対応するオーディオオブジェクトを最良の状態で再構成するように、式（８）に示す重みファクタＣ_n,_iが計算される。この予測行列は、ダウンミックスチャネルの数が増える時、オーディオオブジェクトのより良い再構成を可能にする。

次に、図１１についてさらに詳細に説明する。図１１は、ある所定のオーディオ出力形態の複数の出力チャネルを作り出すために使用できるいくつかの種類の出力データを示す。行１１１は、出力データ合成器１００の出力データが再構成されたオーディオソースである場合を示す。この再構成されたオーディオソースを再現するために出力データ合成器１００に必要となる入力データは、ダウンミックス情報と、ダウンミックスチャネルと、オーディオオブジェクトパラメータである。しかし、この再構成されたオーディオソースを再現するためには、空間オーディオ出力形態内におけるオーディオソース自身の出力形態及び目標配置は、必ずしも必要ではない。図１１内にモード番号１により示された第１のモードにおいては、出力データ合成器１００は再構成されたオーディオソースを出力するであろう。オーディオオブジェクトパラメータのような予測パラメータの場合には、出力データ合成器１００は、式（７）に定義されるような役割を果たす。オブジェクトパラメータがエネルギーモードである場合は、ソース信号を再構成するために、出力データ合成器はダウンミックス行列とエネルギー行列との逆を使用する。

他の方法では、出力データ合成器１００は、例えば図１Ｂのブロック１０２で示すように、トランスコーダとして作動する。この出力データ合成器が空間ミキサパラメータを生成するためのトランスコーダの一種である時には、ダウンミックス情報と、オーディオオブジェクトパラメータと、出力形態と、ソースの目標配置とが必要となる。特に、出力形態と目標配置とが再現行列Ａを介して与えられる。しかし、図１２に関して後述するように、ダウンミックスチャネルは、空間ミキサパラメータを生成するために必要ではない。状況によるが、出力データ合成器１００により生成される空間ミキサパラメータは、この場合、ダウンミックスチャネルをアップミックスためのＭＰＥＧサラウンドミキサ等のような単純な空間ミキサにより使用することができる。この実施例では、オブジェクトダウンミックスチャネルを必ずしも修正する必要がなく、式（１３）に示すように対角要素だけを持つ単純な変換行列があれば良い。図１１の行１１２で示すモード番号２においては、出力データ合成器１００は空間ミキサパラメータを出力し、かつ好ましくは、ＭＰＥＧサラウンド復号器の任意のダウンミックスゲインパラメータ（ADG）として使用できるゲインを含む、式（１３）に示す変換行列Ｇを出力する。

図１１の行１１３で示すモード番号３においては、出力データは、式（２５）に関連して示した変換行列等のような１つの変換行列及び空間ミキサパラメータを含む。この場合、出力データ合成器１００は、オブジェクトダウンミックスをステレオダウンミックスへと変換する現実のダウンミックス変換を、必ずしも実行する必要はない。

図１１の行１１４で示すモード番号４は、図１０における出力データ合成器１００を示す。この場合、トランスコーダは図１Ｂの１０２で示すように操作され、空間ミキサパラメータを出力するだけではなく、変換されたダウンミックスをも追加的に出力する。しかし、この変換されたダウンミックスに加えて変換行列Ｇを出力する必要はない。図１Ｂで示すように、変換されたダウンミックスと空間ミキサパラメータとを出力することで十分である。

モード番号５は、図１０における出力データ合成器１００の他の適用例を示す。図１１の行１１５で示す場合においては、出力データ合成器により生成された出力データは、いかなる空間ミキサパラメータも含んではいないが、例えば式（３５）により示される変換行列Ｇだけを含むか、あるいは行１１５に示すようにステレオ信号そのものの出力を現実に含む。この実施例においては、ステレオ再現だけを目的としており、いかなる空間ミキサパラメータも必要ではない。しかし、ステレオ出力を生成するためには、図１１に示す利用可能な全ての入力情報が必要とされる。

出力データ合成器モードのさらに他の例を、モード番号６を付した行１１６で示す。この場合、出力データ合成器１００は１つの多チャネル出力を生成し、かつ出力データ合成器１００は、図１Ｂの要素１０４に類似している。つまり、出力データ合成器１００は利用可能な全ての入力情報を必要とし、かつ１つの多チャネル出力信号する。この多チャネル出力信号は、２よりも大きい数の出力チャネルを備え、所定のオーディオ出力形態に従って目標スピーカ位置に配置された、出力チャネル数に対応する数のスピーカにより再現されるべきものである。このような多チャネル出力とは、５．１出力か、７．１出力か、あるいは左スピーカと中央スピーカと右スピーカとを備えた３．０出力である。

次に図１１を参照し、ＭＰＥＧサラウンド復号器において公知である図７のパラメータ化の概念から、いくつかのパラメータを計算するための１つの例を説明する。図示するように、図７は、左ダウンミックスチャネルｌ₀と右ダウンミックスチャネルｒ₀とを有するステレオダウンミックス７０から始まる、ＭＰＥＧサラウンド復号器側のパラメータ化を示す。概念的には、両方のダウンミックスチャネルは所謂２→３のボックス７１に入力される。この２→３のボックス７１は複数の入力パラメータ７２により制御される。ボックス７１は３つの出力チャネル７３ａ,７３ｂ,７３ｃを生成する。各出力チャネルは１→２のボックスへと入力される。即ち、チャネル７３ａはボックス７４ａに入力され、チャネル７３ｂはボックス７４ｂに入力され、チャネル７３ｃはボックス７４ｃに入力される。各ボックスは２つの出力チャネルを出力する。即ち、ボックス７４ａは左前チャネルｌ_fと左サラウンドチャネルｌ_sとを出力し、ボックス７４ｂは右前チャネルｒ_fと右サラウンドチャネルｒ_sとを出力し、ボックス７４ｃは中央チャネルｃと低周波強化チャネルlfeとを出力する。重要な点は、ダウンミックスチャネル７０から出力チャネルへの全体のアップミックスがある行列演算を用いて実行される点であり、また、図７に示すツリー構造が、必ずしもステップ毎に実行される必要がなく、単一又は複数の行列演算によって実行されても良い点である。さらには、７３ａ,７３ｂ,７３ｃで示す中間信号は所定の具体例を用いて格別に計算されている訳ではなく、図７において、単に例示的な目的で示されているに過ぎない点である。さらには、ボックス７４ａと７４ｂとは、出力信号に対して所定の無作為性を導入するために使用できる複数の残余信号res₁ ^OTTとres₂ ^OTTとを受信する。

ＭＰＥＧサラウンド復号器から公知であるように、ボックス７１は予測パラメータCPC又はエネルギーパラメータCLD_TTTにより制御される。２チャネルから３チャネルへのアップミックスのために、少なくとも２つの予測パラメータCPC１及びCPC２か、又は少なくとも２つのエネルギーパラメータCLD¹ _TTT及びCLD² _TTTが必要となる。さらに、相関関係を示すICC_TTTがボックス７１へと入力されても良いが、これは単に選択的な特徴であり、本発明の１つの実施例においては使用されてはいない。図１２と図１３とは、図９のオブジェクトパラメータ９５と、図９のダウンミックス情報９７と、例えば図１０に示す場面描写のようなオーディオソースの目標配置１０５とを基にして、全てのパラメータCPC/CLD_TTT,CLD0,CLD1,ICC1,CLD2,ICC2を計算するために必要なステップ及び／又は手段を示す。これらのパラメータは、５．１サラウンドシステムの所定のオーディオ出力フォーマットに合わせたものである。

当然ながら、この具体例のために記載したパラメータの具体的な計算方法は、本発明にかかる他の出力形式又はパラメータ化にも適用できる。さらに、図１２及び図１３Ｂに記載の一連のステップあるいは手段の配列は、単に例示的なものであって、数学的方程式の論理上の意味の範囲内で変更可能である。

ステップ１２０では、ある再現行列Ａが与えられる。この再現行列は、複数ソースの中のあるソースが、所定の出力形態のコンテキストの中でどこに位置すべきかを示す。ステップ１２１は、式（２０）に示すような部分ダウンミックス行列Ｄ₃₆の導出を示す。この行列は、６個の出力チャネルから３個のチャネルへのダウンミックス状況を反映し、３×Ｎの大きさを持つ。例えば８チャネル出力形態７．１等のような、５．１構成よりも多い出力チャネルを生成したい場合には、ブロック１２１で決定される行列はＤ₃₈行列となる。ステップ１２２では、減数された再現行列Ａ₃が、掛け算行列Ｄ₃₆とステップ１２０で定義された完全な再現行列とにより生成される。ステップ１２３では、ダウンミックス行列Ｄが導入される。このダウンミックス行列Ｄは、符号化されたオーディオオブジェクト信号の中にこの行列Ｄが完全に含まれている時、このオーディオオブジェクト信号から復活させることが可能である。代わりに、このダウンミックス行列Ｄは、例えば特定のダウンミックス情報とダウンミックス行列Ｇに関してパラメータ化されても良い。

さらに、ステップ１２４ではオブジェクトエネルギー行列が与えられる。このオブジェクトエネルギー行列は、Ｎ個のオブジェクトのためのオブジェクトパラメータにより反映され、かつ取り込まれたオーディオオブジェクトから抽出されるか、所定の再構成規則を用いて再構成されることができる。この再構成規則は、エントロピー復号化を含んでも良い。

ステップ１２５では、「減数された」予測行列Ｃ₃が定義される。この行列の値は、ステップ１２５に示す線形方程式のシステムを解くことで計算できる。具体的には、行列Ｃ₃の要素は、方程式の両側に（ＤＥＤ^*）の逆を掛け算することで計算できる。

ステップ１２６では、変換行列Ｇが計算される。変換行列Ｇは、Ｋ×Ｋの大きさを持ち、かつ式（２５）に定義するように生成される。ステップ１２６の方程式を解くために、ステップ１２７で示したように特定の行列Ｄ_TTTが与えられる。この行列の例として式（２４）が挙げられ、式（２２）に定義されたようなＣ_TTTに対応する式から、その定義を導くことができる。よって、式（２２）は、ステップ１２８において何を準備すべきかを定義している。ステップ１２９は、行列Ｃ_TTTを計算するための方程式を定義する。ブロック１２９内の方程式に従って行列Ｃ_TTTが決定されるとすぐに、CPCパラメータであるパラメータα，β，γが出力可能となる。好ましくは、γは１に設定され、ブロック７１に入力される残りのCPCパラメータはα，βだけとなる。

図７に示す枠組みにとって必要となる残りのパラメータは、ブロック７４ａ,７４ｂ,７４ｃに入力されるパラメータである。これらのパラメータの計算については、図１３Ａを参照しながら説明する。ステップ１３０では、再現行列Ａが与えられる。この再現行列Ａの大きさは、オーディオオブジェクト数のＮ個の行と、出力チャネル数のＭ個の列である。この再現行列は、ある場面ベクトルが使用された場合、この場面ベクトルからの情報を含む。一般的には、再現行列は、１つのオーディオソースを１つの出力設定の中である所定の位置に配置するための情報を含む。例えば式（１９）の下方に記載した再現行列Ａを考える時、オーディオオブジェクトの所定の配置が、この再現行列の内部でどのように符号化されるかが明らかになる。当然ながら、１とは異なる値によって示す等、ある所定の配置を示す他の方法も使用可能である。さらには、一方では１よりも小さな値を使用し、他方では１よりも大きな値を使用する場合には、所定のオーディオオブジェクトのラウドネスは相応の影響を受けることがある。

ある実施例においては、再現行列は復号器側で、符号器側からの情報が全くない状態で生成される。この場合、ユーザーは、オーディオオブジェクトの符号器設定内での空間的関係を何ら考慮せずに、ユーザーの好みの位置にオーディオオブジェクトを配置できる。他の実施例においては、オーディオソースの相対的又は絶対的な配置が符号器側で符号化され、復号器に対して一種の場面ベクトルとして伝送される。その後、好ましくは目標オーディオ再現設定から独立したオーディオソースの配置に係るこの情報は、復号器側において処理され、その結果、特定のオーディオ出力形態に対してカスタマイズされたオーディオソースの配置を反映する、ある再現行列を作り出す。

ステップ１３１では、図１２のステップ１２４に関連して上述したオブジェクトエネルギー行列Ｅが供給される。この行列はＮ×Ｍの大きさを持ち、オーディオオブジェクトパラメータを含む。ある実施例においては、このようなオブジェクトエネルギー行列が、各サブバンドと時間ドメインサンプル又はサブバンドドメインサンプルの各ブロックとに対して供給される。

ステップ１３２では、出力エネルギー行列Ｆが計算される。Ｆは出力チャネルの共分散行列である。しかし、出力チャネルは未知の状態であるため、出力エネルギー行列Ｆは再現行列とエネルギー行列とを用いて計算される。これらの行列はステップ１３０と１３１において供給され、復号器側においていつでも利用可能である。その後、上述の(１５)、(１６)、(１７)、(１８)、(１９)で具体的に示した式を用いてチャネルレベル差パラメータCLD₀, CLD₁, CLD₂ とチャネル間コヒーレンスパラメータICC₁, ICC₂とが計算され、ボックス７４ａ,７４ｂ,７４ｃのためのパラメータが利用可能となる。重要な点は、空間パラメータは出力エネルギー行列Ｆの特定の要素を結合することで計算される点である。

ステップ１３３の後では、図７に概略的に示す空間アップミキサのようなある空間アップミキサのために、全てのパラメータが利用可能となる。

上述の実施例においては、オブジェクトパラメータはエネルギーパラメータとして与えられていた。しかし、オブジェクトパラメータが予測パラメータとした場合、即ち、図１２内の項目１２４ａで示すオブジェクト予測行列Ｃとして与えられる場合には、減数された予測行列Ｃ₃の計算は、ブロック１２５ａ内に示されかつ式（３２）に関連して説明したような行列の掛け算に過ぎない。ブロック１２５ａ内で使用される行列Ａ₃は、図１２のブロック１２２で説明した行列Ａ₃と同じである。

オブジェクト予測行列Ｃがオーディオオブジェクト符号器により生成され、復号器へと伝送される時、ボックス７４ａ,７４ｂ,７４ｃのためのパラメータを生成するための追加的な計算が必要となる。これらの追加的なステップは図１３Ｂに示す。図１３Ｂ内の１２４ａで示すようにオブジェクト予測行列Ｃが供給されるが、この行列は図１２のブロック１２４ａに関連して説明した行列と同じである。その後、式（３１）に関連して説明したように、オブジェクトダウンミックスの共分散行列Ｚが、伝送されたダウンミックスを用いて計算されるか又は生成され、追加のサイド情報として伝送される。行列Ｚの情報が伝送された時、ある種の遅延処理を内在的に導入しかつ復号器側の処理の負担を増大させるようないかなるエネルギー計算をも、復号器は必ずしも実行する必要がない。しかし、これらのエネルギー計算は、ある適用例においては決定的な問題とはならず、その場合には伝送帯域幅を節減することができ、かつオブジェクトダウンミックスの共分散行列Ｚもまた、当然ながら復号器側で有効であるダウンミックスサンプルを用いて計算することができる。ステップ１３４が完了し、オブジェクトダウンミックスの共分散行列が準備されると直ぐに、ステップ１３５に示すように、予測行列Ｃとダウンミックス共分散行列又は「ダウンミックスエネルギー」行列Ｚとを用いて、オブジェクトエネルギー行列Ｅが計算できる。このステップ１３５が完了すると直ぐに、図１３Ａに関連して説明したステップ１３２、１３３等の全てのステップが、図７のブロック７４ａ,７４ｂ,７４ｃのための全てのパラメータを生成するために実行可能となる。

図１６は、ステレオ再現だけを必要とする、さらなる実施例を示す。このステレオ再現は、図１１のモード番号５又は行１１５により供給された出力である。この例では、図１０の出力データ合成器１００にとっては、いかなる空間アップミックスパラメータも目的ではなく、オブジェクトダウンミックスを、活用性に優れかつ当然ながら感応性にも制御性にも優れたステレオダウンミックスへと変換するための、ある特定の変換行列Ｇを得ることが主目的である。

図１６のステップ１６０においては、Ｍ→２の部分ダウンミックス行列が計算される。６個の出力チャネルの場合には、部分ダウンミックス行列は６→２チャネルのダウンミックス行列になるであろうが、他のダウンミックス行列も同様に利用可能である。この部分ダウンミックス行列の計算は、例えば図１２のステップ１２１で生成された部分ダウンミックス行列Ｄ₃₆及びステップ１２７で使用された行列Ｄ_TTTから導出されても良い。

さらに、ステップ１６１に示されるように、ステレオ再現行列Ａ₂がステップ１６０の結果と「大きな」再現行列Ａとを用いて生成される。この再現行列Ａは、図１２のブロック１２０に関連して説明した行列と同じである。

その後、ステップ１６２において、ステレオ再現行列は配置パラメータμとκとによりパラメータ化されても良い。μが１に設定されκも１に設定された場合、式（３３）が得られ、式（３３）の関連で説明した例における音声の音量を変えることが可能になる。しかし、μとκ以外のパラメータが使用される場合にも、ソースの配置を同様に変えることができる。

このように、ステップ１６３において、式（３５）を用いて変換行列Ｇが計算される。特に、行列（ＤＥＤ^*）が計算されて逆転され、その逆行列はブロック１６３の式の右側に対して掛け算することができる。当然ながら、ブロック１６３の式を解くための他の方法も適用できる。その後、変換行列Ｇが生成され、ブロック１６４に示すように、変換行列とオブジェクトダウンミックスとを掛け算することで、オブジェクトダウンミックスＸを変換することができる。その後、変換されたダウンミックスＸ’は、２つのステレオスピーカを用いてステレオ再現できる。実施形態によるが、変換行列Ｇを計算するために、μ，ν，κのための所定の値を設定することができる。代わりに、変換行列Ｇは、これら３つの全てのパラメータを変数として用いることで計算することができ、この場合、これらのパラメータは、ステップ１６３の後でユーザーが自由に設定することができる。

好ましい実施例では、複数の独立したオーディオオブジェクトを（多チャネルダウンミックスとこのオブジェクトを表現する追加的な制御データとを用いて）伝送し、さらに、オブジェクトを準備された再構成システム（スピーカ構成）へと再現するという課題を解決する。オブジェクトに関連する制御データを、再構成システムに対して互換性のある制御データへと修正する方法についての技術が導入される。この技術は、さらにＭＰＥＧサラウンド符号化の枠組みに基づく適切な符号化方法も提案している。

本発明の方法のいくつかの実施条件にもよるが、本発明の方法及び信号は、ハードウエアにおいてもソフトウエアにおいても実現可能である。この実施の形態は、本発明の方法が実行されるようにプログラム可能なコンピュータシステムと協働するデジタル記憶媒体、特にディスクやＣＤを用いて実行でき、その中に電子的に読出し可能な制御信号が格納される。したがって、一般に本発明は、機械読出し可能なキャリアに格納されたプログラムコードを有するコンピュータプログラム製品であり、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、本発明の方法の少なくとも１つを実行するように動作する。換言すれば、本発明の方法は、コンピュータプログラムがコンピュータ上で実行されるときに、本発明の方法を実行するためのプログラムコードを有するコンピュータプログラムである。

本発明のある実施例によれば、複数のオーディオオブジェクトを用いて符号化されたオーディオオブジェクト信号を生成するためのオーディオオブジェクト符号器は、複数のオーディオオブジェクトの少なくとも２つのダウンミックスチャネルへの配分を示すダウンミックス情報を生成するためのダウンミックス情報生成器と、オーディオオブジェクトのためのオブジェクトパラメータを生成するためのオブジェクトパラメータ生成器と、ダウンミックス情報とオブジェクトパラメータとを使用して符号化されたオーディオオブジェクト信号を生成するための出力インターフェースと、を備える。

必要に応じて、前記出力インターフェースは、複数のダウンミックスチャネルを更に使用することで、符号化されたオーディオオブジェクト信号を生成しても良い。

さらに、あるいは他の方法として、前記パラメータ生成器は、第１の時間及び周波数解像度を用いてオブジェクトパラメータを生成し、前記ダウンミックス情報生成器は、第２の時間及び周波数解像度を用いてダウンミックス情報を生成しても良い。このとき、第２の時間及び周波数解像度は、第１の時間及び周波数解像度より小さい。

さらに、前記ダウンミックス情報生成器は、ダウンミックス情報がオーディオオブジェクトの全周波数帯域について同一であるように、ダウンミックス情報を生成しても良い。

さらに、前記ダウンミックス情報生成器は、ダウンミックス情報が次式で定義されるダウンミックス行列を表現するように、ダウンミックス情報を生成しても良い。
Ｘ＝ＤＳ
ここで、Ｓはオーディオオブジェクトを表現する行列であり、オーディオオブジェクトの数に等しい行数を持ち、Ｄはダウンミックス行列であり、Ｘは複数のダウンミックスチャネルを表現する行列であり、ダウンミックスチャネルの数に等しい行数を持つ。

さらに、オーディオオブジェクトの一つの部分についての情報は、１よりも小さく０よりも大きい係数であっても良い。

さらに、前記ダウンミキサは、背景音楽のステレオ表現を少なくとも２つのダウンミックスチャネルの中へと含めても良く、かつ音声トラックをこれら少なくとも２つのダウンミックスチャネルの中へ所定の比率で導入しても良い。

さらに、前記ダウンミキサは、前記ダウンミックス情報に従って１つのダウンミックスチャネル内へと入力されるべき信号の追加を、サンプル単位で実行しても良い。

さらに、前記出力インターフェースは、ダウンミックス情報とオブジェクトパラメータとのデータ圧縮を、符号化されたオーディオオブジェクト信号を生成する前に実行しても良い。

さらに、前記複数のオーディオオブジェクトは、ある所定の非ゼロの相関関係を持つ２つのオーディオオブジェクトにより表現されるステレオオブジェクトを含んでいても良く、このとき、ダウンミックス情報生成器は、このステレオオブジェクトを形成する２つのオブジェクトを示すグループ化情報を生成しても良い。

さらに、前記オブジェクトパラメータ生成器は、オーディオオブジェクトのためのオブジェクト予測パラメータを生成しても良く、この予測パラメータの計算は、予測パラメータにより制御されたあるソースオブジェクト又はそのソースオブジェクトのための重み付けされたダウンミックスチャネルの合計が、そのソースオブジェクトの近似となるように実行されても良い。

さらに、前記予測パラメータは周波数帯域毎に生成されても良く、オーディオオブジェクトは複数の周波数帯域をカバーしても良い。

さらに、オーディオオブジェクトの数はＮに等しく、ダウンミックスチャネルの数はＫに等しく、オブジェクトパラメータ生成器により計算されるオブジェクト予測パラメータの数はＮ・Ｋ以下であっても良い。

さらに、オブジェクトパラメータ生成器は、最大でＫ・（Ｎ−Ｋ）個のオブジェクト予測パラメータを計算可能であっても良い。

さらに、オブジェクトパラメータ生成器は、試験オブジェクト予測パラメータの様々なセットを用いて複数のダウンミックスチャネルをアップミックスするためのアップミキサを含んでいても良い。

さらに、オーディオオブジェクト符号器は、試験オブジェクト予測パラメータの様々なセットの中から、アップミキサによって再構成されたソース信号と対応するオリジナルソース信号との間の偏差が最小となるような試験オブジェクト予測パラメータを発見するための、反復コントローラをさらに含んでもよい。

さらに、出力データ合成器は、ダウンミックス情報を使用して変換行列を決定してもよく、この変換行列は、ステレオ面の第１半分を表す第１のダウンミックスチャネルに含まれるあるオーディオオブジェクトが、ステレオ面の第２半分において演奏されるべき時には、ダウンミックスチャネルの少なくとも一部が交換されるように計算される。

さらに、オーディオ合成器は、空間パラメータと少なくとも２つのダウンミックスチャネル又は変換されたダウンミックスチャネルとを使用して、所定のオーディオ出力形態のためのオーディオ出力チャネルを再現するためのチャネル再現器（channel renderer）をさらに含んでいても良い。

さらに、出力データ合成器は、少なくとも２つのダウンミックスチャネルを追加的に使用して、所定のオーディオ出力形態の出力チャネルを出力しても良い。

さらに、出力データ合成器は、２つのチャネルの重み付けされた合計のエネルギーが限度ファクタ内でチャネルのエネルギーに等しくなるように、部分ダウンミックス行列の実際のダウンミックス重みを計算しても良い。

さらに、出力データ合成器は、部分ダウンミックス行列のためのダウンミックス重みを次式により決定しても良く、

ここで、w_pはダウンミックス重みであり、ｐは整数のインデックス変数、f_j,iは所定の出力形態の出力チャネルの共分散行列の近似を表すエネルギー行列の行列要素である。

さらに、出力データ合成器は、ある線形方程式のシステムを解くことで、予測行列の個々の係数を計算しても良い。

さらに、出力データ合成器は、次式に基づいて前記線形方程式のシステムを解法しても良く、
Ｃ₃（ＤＥＤ^*）＝Ａ₃ＥＤ^*,
ここで、Ｃ₃は２→３の予測行列、Ｄはダウンミックス情報から導出されたダウンミックス行列、Ｅはオーディオソースオブジェクトから導出されたエネルギー行列、Ａ₃は減数された再現行列、記号^* は複素共役演算子である。

さらに、２→３のアップミックスのための予測パラメータは、予測行列が２つのパラメータだけを用いて定義されるように、この予測行列のパラメータ化から導出されても良く、出力データ合成器は、少なくとも２つのダウンミックスチャネルを前処理し、この前処理とパラメータ化された予測行列の結果が、所望のアップミックス行列へと一致するようにしても良い。

さらに、予測行列のパラメータ化は次式の通りであっても良く、

このとき、TTTはパラメータ化された予測行列のインデックス、α、β、γは係数である。

さらに、ダウンミックス変換行列Ｇは次式のように計算されても良く、
Ｇ＝Ｄ_TTTＣ₃
ここで、Ｃ₃は２→３の予測行列であり、Ｄ_TTTとＣ_TTTの積はＩに等しく、Ｉは２×２の恒等行列であり、Ｃ_TTTは次式に基づくものであり、

ここで、α、β、γは定数ファクタである。

さらに、２→３のアップミックスのための予測パラメータはαとβと１に設定されたγとから決定されても良い。

さらに、出力データ合成器は、３→６のアップミックスのためのエネルギーパラメータを、エネルギー行列Ｆを使用して次式に基づいて計算しても良く、

ここで、Ａは再現行列、Ｅはオーディオソースオブジェクトから導出されたエネルギー行列、Ｙは出力チャネル行列、記号^* は複素共役演算子である。

さらに、出力データ合成器は、エネルギー行列の要素同士を組み合わせることで、エネルギーパラメータを計算しても良い。

さらに、出力データ合成器は、次式に基づいてエネルギーパラメータを計算しても良く、

ここで、φは絶対値φ(z)=|z|又は実数値演算子φ(z)=Re{z}であり、ＣＬＤ₀は第１のチャネルレベル差エネルギーパラメータ、ＣＬＤ₁は第２のチャネルレベル差エネルギーパラメータ、ＣＬＤ₂は第３のチャネルレベル差エネルギーパラメータ、ＩＣＣ₁は第１のチャネル間コヒーレンスエネルギーパラメータ、ＩＣＣ₂は第２のチャネル間コヒーレンスエネルギーパラメータ、f_ijはエネルギー行列Ｆの位置ｉ，ｊにおける要素を示す。

さらに、パラメータの第１のグループはエネルギーパラメータを含んでいても良く、出力データ合成器はエネルギー行列Ｆの要素を組み合わせることで、このエネルギーパラメータを導出しても良い。

さらに、エネルギーパラメータは次式に基づいて導出されても良く、

ここで、ＣＬＤ⁰ _TTTはパラメータの第１グループの第１エネルギーパラメータであり、ＣＬＤ¹ _TTTはパラメータの第１グループの第２のエネルギーパラメータである。

さらに、出力データ合成器は、ダウンミックスチャネルを重み付けするための重み付けファクタを計算しても良く、この重み付けファクタは、空間復号器の任意のダウンミックスゲインファクタを制御するために使用される。

さらに、出力データ合成器は、重みファクタを次式に基づいて計算しても良く、

このとき、Ｄはダウンミックス行列、Ｅはオーディオソースオブジェクトから導出されたエネルギー行列、Ｗは中間行列、Ｄ₂₆は所定の出力形態の６→２チャネルのダウンミキシングのための部分ダウンミックス行列、Ｇは空間復号器の任意のダウンミックスゲインファクタを含む変換行列である。

さらに、出力データ合成器は、エネルギー行列を次式に基づいて計算しても良く、
Ｅ＝ＣＺＣ^*
このときＥはエネルギー行列であり、Ｃは予測パラメータ行列であり、Ｚは少なくとも２つのダウンミックスチャネルの１つの共分散行列である。

さらに、出力データ合成器は、変換行列を次式に基づいて計算しても良く、
Ｇ＝Ａ₂・Ｃ
ここで、Ｇは変換行列であり、Ａ₂は部分再現行列であり、Ｃは予測パラメータ行列である。

さらに、出力データ合成器は、変換行列を次式に基づいて計算しても良く、
Ｇ（ＤＥＤ^*）＝Ａ₂ＥＤ^*
ここで、Ｇはトラックのオーディオソースから導出されたエネルギー行列であり、Ｄはダウンミックス情報から導出されたダウンミックス行列であり、Ａ₂は減数された再現行列であり、記号^* は複素共役演算子である。

さらに、パラメータ化されたステレオ再現行列Ａ₂は次式に基づいて計算されても良く、

ここで、μ、ν、κは１つ以上のオーディオソースオブジェクトの位置と音量とに従う実数値パラメータである。

９０オーディオオブジェクト
９２ダウンミキサ
９３ダウンミックスチャネル
９４オブジェクトパラメータ生成器
９５オブジェクトパラメータ
９６ダウンミックス情報生成器
９７ダウンミックス情報
９８出力インターフェース
９９符号化されたオーディオオブジェクト信号
１００出力データ合成器
１０１オーディオオブジェクト符号器

Claims

符号化されたオーディオオブジェクト信号を使用して出力データを生成するオーディオ合成器であって、
所定のオーディオ出力形態を持ちかつ複数のオーディオオブジェクトを表す複数の出力チャネルを再現するために、使用可能な出力データを生成する出力データ合成器を含み、
当該出力データ合成器は、前記複数のオーディオオブジェクトの少なくとも２つのダウンミックスチャネルへの配分を示すダウンミックス情報と、前記オーディオオブジェクトのためのオーディオオブジェクトパラメータとを使用し、前記オーディオ出力形態の中の前記オーディオオブジェクトの目標位置を追加的に使用することで、前記オーディオオブジェクトパラメータを前記所定のオーディオ出力形態のための空間パラメータへとトランスコードするものであり、
前記空間パラメータは、２→３のアップミックスのためのパラメータからなる第１グループと、３→６のアップミックスのためのエネルギーパラメータからなる第２グループとを含み、
前記出力データ合成器は、前記オーディオオブジェクトの目標位置によって決定される再現行列Ａと、仮想の２→３のアップミックス処理によって生成される３チャネルへの前記出力チャネルのダウンミックス化を表す部分ダウンミックス行列Ｄ ₃₆ と、ダウンミックス行列Ｄと、を使用して２→３の予測行列のための予測パラメータを計算することを特徴とする、オーディオ合成器。
請求項１に記載のオーディオ合成器において、
前記出力データ合成器は、前記オーディオオブジェクトの目標位置から導出される変換行列Ｇを用いて、複数のダウンミックスチャネルを前記所定のオーディオ出力形態のためのステレオダウンミックスへと変換することを特徴とする、オーディオ合成器。
請求項１に記載のオーディオ合成器において、
前記オブジェクトパラメータはオブジェクト予測パラメータであり、前記出力データ合成器は、前記オブジェクト予測パラメータＣと前記ダウンミックス情報Ｄと前記ダウンミックスチャネルに対応するエネルギー情報Ｚとに基づいて、エネルギー行列Ｅを予め計算することを特徴とする、オーディオ合成器。
符号化されたオーディオオブジェクト信号を用いて出力データを生成するためのオーディオ合成方法において、
複数のオーディオオブジェクトを表す所定のオーディオ出力形態の複数の出力チャネルを作り出すために用いられる前記出力データを生成する工程を含み、
その工程は、前記複数のオーディオオブジェクトの少なくとも２つのダウンミックスチャネルへの配分を示すダウンミックス情報と、前記オーディオオブジェクトのためのオーディオオブジェクトパラメータとを使用し、前記オーディオ出力形態の中の前記オーディオオブジェクトの目標位置を追加的に使用することで、前記オーディオオブジェクトパラメータを前記所定のオーディオ出力形態のための空間パラメータへとトランスコードするものであり、
前記空間パラメータは、２→３のアップミックスのためのパラメータからなる第１グループと、３→６のアップミックスのためのエネルギーパラメータからなる第２グループとを含み、
前記出力データを生成する工程は、前記オーディオオブジェクトの目標位置によって決定される再現行列Ａと、仮想の２→３のアップミックス処理によって生成される３チャネルへの前記出力チャネルのダウンミックス化を表す部分ダウンミックス行列Ｄ ₃₆ と、ダウンミックス行列Ｄと、を使用して２→３の予測行列のための予測パラメータを計算することを含むことを特徴とする、オーディオ合成方法。
コンピュータに請求項４に記載の方法を実行させるためのコンピュータプログラム。