JP6612753B2

JP6612753B2 - 高チャンネル数マルチチャンネルオーディオのためのマルチプレットベースのマトリックスミキシング

Info

Publication number: JP6612753B2
Application number: JP2016534697A
Authority: JP
Inventors: ジェフリートンプソン; ゾーランフェジゾ
Original assignee: DTS Inc
Current assignee: DTS Inc
Priority date: 2013-11-27
Filing date: 2014-11-26
Publication date: 2019-11-27
Anticipated expiration: 2034-11-26
Also published as: CN105981411B; EP3444815B1; EP3444815A1; KR20160090869A; PL3444815T3; KR102294767B1; ES2772851T3; WO2015081293A1; EP3074969B1; ES2710774T3; EP3074969A4; PL3074969T3; US9552819B2; US20150170657A1; EP3074969A1; JP2017501438A; CN105981411A

Description

（関連出願の相互参照）
本出願は、２０１３年１１月２７日出願の米国仮特許出願番号６１／９０９，８４１「高チャンネル数マルチチャンネルオーディオのためのマルチプレットベースのマトリックスミキシング」の非仮出願である２０１４年１１月２６日出願の米国特許出願番号１４／５５５，３２４「高チャンネル数マルチチャンネルオーディオのためのマルチプレットベースのマトリックスミキシング」、及び２０１４年７月３０日出願の米国特許出願番号１４／４４７，５１６「コンスタントパワーペアワイズパニングを備えたマトリックス復号器」の利益を主張し、その開示内容全体は引用により本明細書に組み込まれている。

多くのオーディオ再生システムは、「サラウンドサウンド」と呼ばれる場合もある同期マルチチャンネルオーディオを記録、伝送、及び再生することができる。娯楽用オーディオは単純なモノラルシステムから始まったが、まもなく聴取者を魅了する圧倒的な空間的イメージ及び感覚を表現するために２チャンネル（ステレオ）及び高チャンネル数フォーマット（サラウンドサウンド）が開発された。サラウンドサウンドは、３以上のオーディオチャンネルを使用することによってオーディオ信号の再生を強化するための技術である。コンテンツは、複数のディスクリートオーディオチャンネル上で供給され、ラウドスピーカ（又はスピーカ）のアレイを使用して再生される。付加的なオーディオチャンネル、又は「サラウンドチャンネル」は、聴取者に実体験のようなリスニング経験を提供する。

サラウンドサウンドシステムは、典型的には、聴取者の周りに配置されたスピーカを有し、聴取者に音の定位感及び包囲感を与える。数チャンネル（５．１フォーマットなど）だけをもつ多くのサラウンドサウンドシステムは、聴取者の周りの３６０度の円弧の特定の位置に配置されたスピーカを有する。また、これらのスピーカは、スピーカの全てが相互に及び聴取者の耳と同一平面になるように配置される。また、多くの高チャンネル数サラウンドサウンドシステム（例えば、７．１、１１．１）は、聴取者の耳の平面の上方に配置されたハイトスピーカ又は高さ方向スピーカを含み、オーディオコンテンツに高さの感覚を与える。このようなサラウンドサウンド構成は、付加的な低周波数の低音を提供するディスクリートな低域効果（ＬＦＥ）チェンネルを含み、他の主オーディオチャンネルにおける低音を増強する。このＬＦＥチャンネルは、他のオーディオチャンネルの帯域幅の一部分だけを必要とするので、「Ｘ」チャンネルとして指定され、ここでＸは、ゼロを含む任意の正の整数である（例えば、５．１又は７．１サラウンドサウンド）。

理想的には、サラウンドサウンドオーディオは、ディスクリートチャンネルにミキシングされ、このチャンネルは、聴取者への再生を通して離散したままである。しかしながら、現実的には、記憶装置及び伝送の制限によって、サラウンドサウンドオーディオのファイルサイズは、記憶スペース及び伝送帯域幅を最小にするために制限されることを要求する。さらに、２チャンネルオーディオコンテンツは、典型的には、３以上のチャンネルを有するオーディオコンテンツに比べて、多様な放送及び再生システムと互換性がある。

マトリクス化はこのようなニーズに対処するために開発された。マトリクス化は、３以上のディスクリートオーディオチャンネルを有する原信号を２チャンネルオーディオ信号に「ダウンミキシング」することを含む。２つのチャンネルを上回る付加的なチャンネルが、事前に決められたプロセスに従ってダウンミキシングされ、オーディオチャンネルの全てからの情報を含む２チャンネルダウンミックスを生成する。その後、付加的なオーディオチャンネルは、「アップミックス」プロセスを使用して２チャンネルダウンミックスから抽出して合成することができ、オリジナルチャンネルミックスが、ある近似レベルに回復される。アップミキシングは入力として２チャンネルオーディオ信号を受信して、再生のためのより多い数のチャンネルを生成する。この再生は、原信号のディスクリートオーディオチャンネルの許容可能な近似である。

いくつかのアップミキシング技術はコンスタントパワーパンニングを利用する。「パンニング」の概念は、動画、具体的には「パノラマ」という語に由来する。パノラマは、あらゆる方向において所定の領域の完全な視覚的表示を有することを意味する。オーディオ分野では、オーディオはステレオ音場でパンニングすることができ、これによってオーディオは物理的空間に位置付けられるものとして知覚され、聴取者は、演奏における全ての音を適切な位置及び大きさで聞き取る。音楽記録に関して、一般的な方法は、楽器を現実のステージに物理的に配置されることになる場所に位置付ける。例えば、ステージ左側の楽器は左側にパンニングされ、ステージ右側の楽器は右側にパンニングされる。この発想は、再生時、聴取者に対して実際の演奏を再現することを追求する。

コンスタントパワーパンニングは、入力オーディオ信号がオーディオチャンネル間で分配される際にオーディオチャンネル全体で一定の信号パワーを維持する。コンスタントパワーパンニングが普及しているが、現在のダウンミキシング及びアップミキシング技術は、オリジナルミックスに存在する精密なパンニング挙動及び定位を維持及び回復するのに苦労している。加えて、一部の技術はアーティファクトを起こし易く、全てが、時間及び周波数で重なり合うが異なる空間方向から発生する独立信号を分離する能力が制限されている。

例えば、一部の評判のよいアップミキシング技術は電圧制御増幅器を使用して、両方の入力チャンネルをほぼ同じレベルに正規化する。次にこのような２つの信号は、アドホック方式で結合され、出力チャンネルを生成する。しかしながら、このアドホック方式により、最終的な出力は、所望のパンニング挙動を実現するのが難しく、クロストークによる問題を含み、ディスクリートサラウンドサウンドオーディオを近似するのがせいぜいである。

他のタイプのアップミキシング技術は、数少ないパンニング位置でのみ正確であるが、このような位置から離れると不正確である。例示的に、一部のアップミキシング技術は、アップミキシングが正確で予測可能な挙動を生じる制限された数のパンニング位置を定義する。支配ベクトル分析は、正確なパンニング位置ポイントでのデマトリックス係数の事前に定義されたセットの制限された数を補間するために使用される。ポイントの間に入るいずれのパンニング位置も、デマトリックス係数値を見付けるために補間を使用する。この補間により、正確なポイントの間に入るパンニング位置は不正確でありオーディオ品質に悪影響を与える可能性がある。

米国仮特許出願第６１／９０９，８４１号明細書米国特許出願第１４／５５５，３２４号明細書米国特許出願第１４／４４７，５１６号明細書

この要約は、以下の詳細な説明で説明される単純化された形式における概念の選択を導入するために提供される。この要約は、請求される主題の主要な特徴又は基本的な特徴を識別することを意図するものではなく、請求される主題の範囲を制限するために使用することを意図するものでもない。

マルチプレットベースの空間的マトリクス化コーデック及び方法の実施形態は、高チャンネル数（７又はそれ以上のチャンネル）マルチチャンネルオーディオのチャンネル数（従ってビットレート）を低減する。加えて、コーデック及び方法の実施形態は、空間的精度と基本的オーディオ品質との間のトレードオフを可能にすることによって、オーディオ品質を最適化して、オーディオ信号フォーマットを再生環境構成に変換する。これは、目標ビットレートとビットレートが支援するチャンネルの数（又はサバイビングチャンネル）を決定することによって部分的に達成される。チャンネルの残り（非サバイビングチャンネル）は、サバイビングチャンネルのマルチプレットにダウンミキシングされる。これは、チャンネルのペア（又はダブレット）、トリプレットのチャンネル、クアドラプレットのチャンネル、又はいずれかの高位のマルチプレットチャンネルにすることができる。

例えば、第５非サバイビングチャンネルを４つの他のサバイビングチャンネルにダウンミキシングすることができる。アップミックス中に第５チャンネルは４つの他のチャンネルから抽出され再生環境でレンダリングされる。このような符号化された４つのチャンネルは更に、既存の復号器との後方互換性のために様々な方法で構成及び結合され、次に非可逆又は可逆ビットレート圧縮のいずれかを使用して圧縮される。復号器は、符号化された４つの符号化オーディオチャンネル並びにオリジナルソーススピーカレイアウト（１１．ｘレイアウトなど）への適正な復号を可能にする関連のあるメタデータが提供される。

復号器がチャンネル低減信号を適正に復号するために、復号器には、符号化プロセスで使用されたレイアウト、パラメータ、及び係数を通知する必要がある。例えば、符号器が１１．２チャンネルベースミックスを７．１チャンネル低減信号に符号化した場合、次にオリジナルレイアウト、チャンネル低減レイアウト、寄与ダウンミックスチャンネル、及びダウンミクス係数を記述する情報が復号器に送信して、オリジナル１１．２チャンネル数レイアウトへの適正な復号を可能にする。このタイプの情報は、ビットストリームのデータ構造で提供される。この性質の情報が提供され原信号を再構成するために使用された場合、コーデックがメタデータモードで作用する。

再生環境のリスニングレイアウトに一致する出力チャンネルレイアウトを作成するために、レガシーコンテンツのブラインドアップミキサとしてコーデック及び方法を使用することもできる。ブラインドアップミックス使用事例における違いは、コーデックが公知の符号化プロセスの代わりにレイアウト及び信号仮定に基づいて信号処理モジュールを構成することである。従って、コーデックは、明示的なメタデータ情報を持たない又は使用しない場合にブラインドモードで作用する。

本明細書で説明するマルチプレットベースの空間的マトリクス化コーデック及び方法は、ミキシング又はレンダリング技術の後方互換性及び融通性に正しい配慮を払えるように、多くのチャンネルを有するマルチチャンネルオーディオをミキシング、配信、及び再生する際に生じる幾つかの相互に関係する問題に対処しようという試みである。音源、マイクロフォン、又はスピーカに対して無数の空間配列が可能であること、及び最終消費者によって所有されるスピーカの配列が、娯楽オーディオのアーティスト、エンジニア、又は配信者にとって完璧に予測可能ではない可能性があることが、当業者によって理解されるであろう。コーデック及び方法の実施形態は、大きなチャンネル数に作用することができる、データ帯域幅、チャンネル数、及び品質間の機能的及び実際的な妥協を達成する必要性にも対処する。

マルチプレットベースの空間的マトリクス化コーデック及び方法は、チャンネル数（及び従ってビットレート）を低減し、空間的精度及び基本的なオーディオ品質間のトレードオフを可能にすることによってオーディオ品質を最適化し、且つオーディオ信号フォーマットを再生環境構成に変換するよう設計される。従って、コーデック及び方法の実施形態は、マトリクス化とディスクリートチャンネル圧縮の組合せを使用して、Ｍチャンネル（及びＬＦＥチャンネル）を有するベースミックスからＮチャンネルを有するマルチチャンネルミックスを作成して再生し、ここでＮはＭより大きくＮ及びＭの両方は２より大きいとする。この技術は、Ｎが大きい場合、例えば１０から５０の範囲にあり高位チャンネル並びにサラウンドチャンネルを含む場合に、及び５．１又は７．１サラウンドミックスなどの後方互換性ベースミックスを提供することが要求される場合に特に有利である。

ベースチャンネル（５．１又は７．１など）及び付加的なチャンネルを含むサウンドミックスを前提として、本発明は、相補的なアップミックスを可能にする方法で付加的なチャンネルをベースチャンネルにミキシングするために、ペアワイズ、トリプレット、及びクワドラプレットの組合せを使用し、前記アップミックスは、各付加的なチャンネルに対して空間的に定義された音源の本物だと思わせるような錯覚と共に、明瞭で鮮明に付加的なチャンネルを回復することができる。レガシー復号器は、ベースミックスを復号することができ、新しい復号器は、コーデック及び方法の実施形態によって可能になり、付加的なチャンネル（高位チャンネルなど）を分離するアップミックスを実行する。

他の実施形態が可能であり、本明細書で説明するステップ及び要素は、特定の実施形態に応じて変更、追加、又は削除される可能性があることに留意すべきである。このような他の実施形態は、本発明の範囲から逸脱することなく使用することができる他のステップ及び他の要素並びに行い得る構造的な変更を含む。

図面を参照すると、同じ参照番号が全体を通して対応する部分を表わす。

用語「ソース」、「波形」、及び「オーディオオブジェクト」の相違を示す図である。用語「ベッドミックス」、「オブジェクト」、及び「ベースミックス」の相違を示す図である。聴取者の耳と同じ平面にあるスピーカの数Ｌと、聴取者の耳より高い場所にあるハイトリングの周りに並べられたスピーカの数Ｐを有するコンテンツ作成環境スピーカレイアウトの概念を示す図である。マルチプレットベースの空間的マトリクス化コーデック及び方法の実施形態の概要を示すブロック図である。図４に示したマルチプレットベースの空間的マトリクス化符号器の非レガシー実施形態の詳細を示すブロック図である。図４に示したマルチプレットベースの空間的マトリクス化復号器の非レガシー実施形態の詳細を示すブロック図である。図４に示したマルチプレットベースの空間的マトリクス化符号器の後方互換性のある実施形態の詳細を示すブロック図である。図４に示したマルチプレットベースの空間的マトリクス化復号器の後方互換性のある実施形態の詳細を示すブロック図である。図５及び７に示したマルチプレットベースのマトリックスダウンミキシングシステムの例示的な実施形態の詳細を示すブロック図である。図６及び８に示したマルチプレットベースのマトリックスアップミキシングシステムの例示的な実施形態の詳細を示すブロック図である。図４に示したマルチプレットベースの空間的マトリクス化コーデック及び方法の実施形態の一般的な動作を示す流れ図である。サイン／コサインパンニング法則のパンニング角度（θ）の関数としてパンニング重みを示す図である。中心出力チャンネルの同相プロットに対応するパンニング挙動を示す図である。中心出力チャンネルの異相プロットに対応するパンニング挙動を示す図である。左サラウンド出力チャンネルの同相プロットに対応するパンニング挙動を示す図である。左サラウンド及び右サラウンドチャンネルが別個に符号化及び復号されるダウンミックス式に対応する２つの特定の角度を示す図である。修正された左出力チャンネルの同相プロットに対応するパンニング挙動を示す図である。修正された左出力チャンネルの異相プロットに対応するパンニング挙動を示す図である。信号ソース、Ｓ、のチャンネルトリプレットへのパンニングを示す図である。トリプレットにパンニングされている非サバイビング第４チャンネルの抽出を示す図である。信号ソース、Ｓ、のチャンネルクアドラプレットへのパンニングを示す図である。クアドラプレットにパンニングされている非サバイビング第５チャンネルの抽出を示す図である。再生環境及び拡張されたレンダリング技術を示す図である。拡張されたレンダリング技術を使用して単位球面上及び単位球面内のオーディオソースのレンダリングを示す図である。サバイビングレイアウトに存在しない入力レイアウトにおけるあらゆるスピーカのためのマトリックスマルチプレットのマッピングを指示するルックアップテーブルである。サバイビングレイアウトに存在しない入力レイアウトにおけるあらゆるスピーカのためのマトリックスマルチプレットのマッピングを指示するルックアップテーブルである。サバイビングレイアウトに存在しない入力レイアウトにおけるあらゆるスピーカのためのマトリックスマルチプレットのマッピングを指示するルックアップテーブルである。サバイビングレイアウトに存在しない入力レイアウトにおけるあらゆるスピーカのためのマトリックスマルチプレットのマッピングを指示するルックアップテーブルである。

マルチプレットベースの空間的マトリクス化コーデック及び方法の実施形態の以下の説明は添付の図面を参照する。これらの図面は、マルチプレットベースの空間的マトリクス化コーデック及び方法の実施形態がどのように実施されるかの特定の実施例を例示する。請求される主題の範囲から逸脱することなく、他の実施形態を利用すること及び構造的な変更を行い得ることを理解されたい。

Ｉ．用語
以下は、本文書で使用される幾つかの基本的な用語及び概念である。このような用語及び概念の一部は、他のオーディオ技術に対して使用される際に有する意味とはわずかに異なる意味を有する場合がある。

本文書は、チャンネルベースのオーディオ及びオブジェクトベースのオーディオの両方について論じる。音楽又はサウンドトラックは、伝統的には、レコーディングスタジオで幾つかの異なるサウンドを互いにミキシングして、これらのサウンドが聞かれる場所を決め、且つスピーカシステムの各個々のスピーカで再生される出力チャンネルを作成することによって作成される。このチャンネルベースのオーディオでは、チャンネルは、定義された標準的なスピーカ構成を意図している。異なるスピーカ構成が使用される場合、サウンドは、意図された場所に到達しないか又は正しい再生レベルで到達しない可能性がある。

オブジェクトベースのオーディオでは、３次元（３Ｄ）空間におけるその位置を含む、サウンドをどのように再生すべきかを記述する情報又はメタデータが、様々なサウンドの全てに結合される。所与のスピーカシステムに対してオブジェクトをレンダリングするのは再生システム次第であり、これによってオブジェクトは、正しい位置に配置されて意図されたように再生される。オブジェクトベースのオーディオによって、音楽及びサウンドトラックは、異なる数のスピーカで又は聴取者に対して異なる位置にあるスピーカによってシステム上で基本的に同じように聞こえる必要がある。この方法は、アーティストの真意を維持するのを助ける。

図１は、用語「ソース」、「波形」、及び「オーディオオブジェクト」の違いを示す図である。図１に示すように、用語「ソース」は、ベッドミックスの１つのチャンネル又は１つのオーディオオブジェクトのサウンドのいずれかを表わす単一の音波を意味するために使用される。ソースが３Ｄ空間で特定の位置を割り当てられた時に、そのサウンドと３Ｄ空間におけるサウンドの位置の組合せが「波形」と呼ばれる。「オーディオオブジェクト」（又は「オブジェクト」）は、波形が他のメタデータ（チャンネルセット、オーディオプレゼンテーション階層など）に組み合わせられ、拡張されたビットストリームのデータ構造に記憶された場合に作成される。「拡張されたビットストリーム」は、オーディオデータだけでなく空間データ及び他のタイプのメタデータを包含する。「オーディオプレゼンテーション」は、マルチプレットベースの空間的マトリクス化復号器の実施形態から最終的に出てくるオーディオである。

成句「利得係数」は、ボリュームを上げたり下げたりするためにオーディオ信号のレベルが調節される量である。用語「レンダリング」という語は、所与のオーディオ分散フォーマットを使用する特定の再生スピーカ構成に変換するプロセスを示す。レンダリングは、再生システム及び環境のパラメータ及び制限が与えられた場合に、可能な限りオリジナル空間音響スペースに近い再生空間音響スペースを再現しようと試みる。

サラウンド又はハイトスピーカのいずれかが再生環境におけるスピーカレイアウトから除外された場合、これらの除外されたスピーカに対して意図されたオーディオオブジェクトは、再生環境に物理的に存在する他のスピーカにリマッピングすることができる。この機能を可能にするために、再生環境で使用されるが出力チャンネルには直接関連付けられない「仮想スピーカ」を定義することができる。代わりに、これらの信号は、ダウンミックスマップを使用することによって物理的なスピーカチャンネルに経路変更される。

図２は、用語「ベッドミックス」、「オブジェクト」、及び「ベースミックス」の違いを示す。「ベッドミックス」及び「ベースミックス」の両方は、チャンネルとして又はチャンネルベースのオブジェクトとしてのいずれかで拡張ビットストリームに包含することができるチャンネルベースのオーディオミックス（５．１、７．１、１１．１など）を指す。２つの用語の違いは、ベッドミックスがビットストリームに包含される何らかのオーディオオブジェクトを含まないことである。ベースミックスは、標準的なスピーカレイアウト（５．１、７．１など）のチャンネルベースの形式で提示される完全なオーディオプレゼンテーションを包含する。ベースミックスでは、存在するいずれのオブジェクトもチャンネルミックスにミキシングされる。これは図２に示されており、ベースミックスがベッドミックスとあらゆるオーディオオブジェクトの両方を含むことを示している。

本文書で使用する用語「マルチプレット」は、信号がパンニングされる複数のチャンネルのグループ化を意味する。例えば、マルチプレットの１つのタイプは「ダブレット（ｄｏｕｂｌｅｔ）」であり、ダブレットにより信号は２つのチャンネルにパンニングされる。同様に、マルチプレットの別のタイプが「トリプレット（triplet）」であり、トリプレットにより信号は３つのチャンネルにパンニングされる。信号が４つのチャンネルにパンニングされた場合に、結果として得られるマルチプレットは「クアドラプレット（quadruplet）」と呼ばれる。マルチプレットは、信号がパンニングされる、５チャンネル、６チャンネル、７チャンネルなどを含む２又はそれ以上のチャンネルのグループ化を含むことができる。教育的な目的で、この文書は、ダブレット、トリプレット、及びクアドラプレトのケースだけを解説する。しかしながら、本明細書に教示される原理を５又はそれ以上のチャンネルを含むマルチプレットに拡張できる点に留意されたい。

マルチプレットベースの空間的マトリクス化コーデック及び方法の実施形態又はその態様は、特に多数のチャンネルが伝達又は記録される際に、マルチチャンネルオーディオの配信及び記録のためのシステムで使用される。本文書で使用される「高チャンネル数」マルチチャンネルオーディオは、７又はそれ以上のオーディオチャンネルがあることを意味する。例えば、１つのこのようなシステムでは、多数のチャンネルが記録され、聴取者の周りの耳のレベルに置かれたＬチャンネル、耳のレベルより高いところに置かれたハイトリングの周りに配置されたＰチャンネル、及び任意的に聴取者の上方の頂点又は頂点近くの中心チャンネルを有する公知の再生ジオメトリに構成されると仮定される（ここでＬ及びＰは１より大きな正の整数である）。

図３は、聴取者の耳と同じ平面にあるＬ数のスピーカ及び聴取者の耳より高いハイトリングの周りに置かれたＰ数のスピーカを有するコンテンツ作成環境スピーカ（又はチャンネル）レイアウト３００の概念の図である。図３に示すように、聴取者１００は、コンテンツ作成環境スピーカレイアウト３００でミキシングされるコンテンツを聞いている。コンテンツ作成環境スピーカレイアウト３００は、任意のオーバヘッドスピーカ３０５を備えた１１．１レイアウトである。聴取者の耳と同じ平面にあるスピーカのＬ数を含むＬ面３１０は、左スピーカ３１５、中央スピーカ３２０、右スピーカ３２５、左サラウンドスピーカ３３０、及び右サラウンドスピーカ３３５を含む。図示された１１．１レイアウトは、低域効果（ＬＦＥ又は「サブウーファー」）スピーカ３４０も含む。Ｌ面３１０は、サラウンド後方左スピーカ３４５及びサラウンド後方右スピーカ３５０も含む。聴取者の耳３５５の各々も、Ｌ面３１０に位置付けられる。

Ｐ（又は高位）面３６０は、左前面ハイトスピーカ３６５及び右前面ハイトスピーカ３７０を包含する。Ｐ面３６０は、左サラウンドハイトスピーカ３７５及び右サラウンドハイトスピーカ３８０も含む。任意的なオーバヘッドスピーカ３０５がＰ面３６０に位置付けられているように図示されている。代わりに、任意的なオーバヘッドスピーカ３０５は、コンテンツ作成環境の頂点のＰ面３６０の上方に位置付けることができる。Ｌ面３１０及びＰ面３６０は距離ｄによって分離される。

１１．１コンテンツ作成環境スピーカレイアウト３００（任意的なオーバヘッドスピーカ３０５と共に）が図３に示されているが、マルチプレットベースの空間的マトリクス化コーデック及び方法の実施形態は、７又はそれ以上のオーディオチャンネルを包含する高チャンネル数環境でコンテンツをミキシングできるように一般化することができる。図３では、コンテンツ作成環境スピーカレイアウト３００及び聴取者の頭部及び耳のスピーカは互いに縮尺通りでない点に留意されたい。特に、聴取者の頭部及び耳は、スピーカ及び聴取者の耳の各々がＬ面３１０と同じ水平面にあるという概念を示すために縮尺より大きく示されている。

Ｐ面３６０のスピーカは、様々な従来のジオメトリに従って並べることができ、考えられるジオメトリは、ミキシングエンジニア又は記録アーティスト／エンジニアには公知である。マルチプレットベースの空間的マトリクス化コーデック及び方法の実施形態により、（Ｌ＋Ｐ）チャンネル数が、チャンネルのより少ない数へのマトリックスミキシングの新しい方法によって低減される（例えば、（Ｌ＋Ｐ）チャンネルがＬチャンネルだけにマッピングされる）。次に減数されたチャンネルは、減数されたチャンネルのディスクリート特性を保存する公知の方法により符号化及び圧縮される。

復号では、コーデック及び方法の実施形態の動作が復号器の能力に依存する。レガシー復号器では、ミキシングされたＰチャンネルを有し、減数された（Ｌ）チャンネルが再生される。より高度な復号器では、（Ｌ＋Ｐ）チャンネルのフルコンソールが、アップミキシングによって回復可能であり、（Ｌ＋Ｐ）スピーカの対応するスピーカに各々ルーティングされる。

本発明により、アップミキシング及びダウンミキシング動作（マトリクス化／デマトリクス化）の両方が、マルチプレットパン法則の組合せ（ダブレット、トリプレット、及びクアドラプレットパン法）を含み、再生時に、記録アーティスト又はエンジニアが意図した推定位置に厳密に対応して知覚サウンドソースを配置する。マトリクス化動作（チャンネルレイアウト低減）は、（ａ）拡張ビットストリームのベッドミックスプラスオブジェクト合成、（ｂ）拡張ビットストリームのチャンネルベースのみの合成でベッドミックスチャンネルに加えることができる。加えて、マトリクス化動作は、固定オブジェクト（動き回らないオブジェクト）に加えることができ、デマトリクス化の後に、個々のオブジェクトの独立レベル修正及びレンダリングを可能にする十分なオブジェクト分離を達成するか、又は（ｃ）マトリクス化動作をチャンネルベースのオブジェクトに適用する。

ＩＩ．システムの概要
マルチプレットベースの空間的マトリクス化コーデック及び方法の実施形態は、特定のチャンネルをマルチプレットの残りのチャンネルにパンニングすることによって、高チャンネル数マルチチャンネルオーディオ及びビットレートを低減する。これは、空間的精度及び基本的オーディオ品質の間のトレードオフを可能にすることによってオーディオ品質を最適化するのに役立つ。コーデック及び方法の実施形態は、オーディオ信号フォーマットを再生環境構成に変換する。

図４は、マルチプレットベースの空間的マトリクス化コーデック４００及び方法の実施形態の概要を示すブロック図である。図４を参照すると、コーデック４００は、マルチプレットベースの空間的マトリクス化符号器４１０及びマルチプレットベースの空間的マトリクス化復号器４２０を含む。初めに、オーディオコンテンツ（音楽トラックなど）がコンテンツ作成環境４３０で作成される。この環境４３０は、複数のマイクロフォン４３５（又は他のサウンド取り込みデバイス）を含みオーディオソースを記録することができる。代わりに、オーディオソースを、ソースを記録するためにマイクロフォンを使用する必要がないように事前にデジタル信号にすることができる。サウンドを作成する方法が何であれ、オーディオソースの各々は、コンテンツ作成環境４３０の出力として最終ミックスにミキシングされる。

コンテンツクリエータは、クリエータの空間的意図を最も良く表すＮ．ｘベースミックスを選択し、ここでＮは通常のチャンネルの数を表しｘは低周波数チャンネルの数を表す。またＮは１より大きな正の整数であり、ｘは負ではない整数である。例えば、１１．１サラウンドシステムでは、Ｎ＝１１及びｘ＝１である。これは当然ながら、Ｎ＋ｘ≦ＭＡＸになるようにチャンネルの最大数の前提条件であり、ここでＭＡＸは許容可能なチャンネルの最大数を表わす正の整数である。

図４では、最終ミックスはＮ．ｘミックス４４０であり、オーディオソースの各々はＮ＋ｘ数のチャンネルにミキシングされる。次に、最終Ｎ．ｘミックス４４０がマルチプレットベースの空間的マトリクス化符号器４１０を使用して符号化されダウンミキシングされる。符号器４１０は、典型的には、１又は２以上の処理デバイスを有するコンピュータデバイスに設けられる。符号器４１０は最終Ｎ．ｘミックスをＭの通常のチャンネルとｘの低周波数チャンネルとを有するＭ．ｘミックス４５０に符号化及びダウンミックスするが、ここでＭは１より大きな正の整数であり、ＭはＮより小さい。

Ｍ．ｘ４５０ダウンミックスは、配信環境４６０を通して聴取者による聴取のために配信される。ネットワーク４６０を経由したストリーミング配信を含む幾つかの配信選択肢が利用可能である。代わりに、Ｍ．ｘ４５０ダウンミックスを聴取者による聴取のために媒体４７０（光学ディスクなど）に記録することができる。加えて、Ｍ．ｘ４５０ダウンミックスを配信するのに使用できる列挙されていない多くの他の配信選択肢が存在する。

配信環境の出力は、マルチプレットベースの空間的マトリクス化復号器４２０に入力されるＭ．ｘストリーム４７５である。復号器４２０はＭ．ｘストリーム４７５を復号及びアップミックスして、再構成されたＮ．ｘコンテンツ４８０を取得する。復号器４２０の実施形態は、典型的には、１又は２以上の処理デバイスを有するコンピュータデバイスに設けられる。

復号器４２０の実施形態は、Ｍ．ｘストリーム４７５に記憶された圧縮オーディオからＰＣＭオーディオを抽出する。使用される復号器４２０は、データを圧縮するために使用されたオーディオ圧縮方式に基づく。不可逆圧縮、低ビットレート符号化、及び可逆圧縮を含む幾つかのタイプのオーディオ圧縮方式をＭ．ｘストリームに使用することができる。

復号器４２０はＭ．ｘストリーム４７５の各チャンネルを復号して、これをＮ．ｘ出力４８０によって表現されるディスクリート出力チャンネルに展開する。この再構成されたＮ．ｘ出力４８０は、再生スピーカ（又はチャンネル）レイアウトを含む再生環境４８５で再生される。再生スピーカレイアウトは、コンテンツ作成スピーカレイアウトと同じとすることができるが、同じでなくてもよい。図４に示した再生スピーカレイアウトは１１．２レイアウトである。他の実施形態では、再生スピーカレイアウトはヘッドフォンとすることができ、スピーカは、再生環境４８５でサウンドが発生しているように出力される単なる仮想スピーカである。例えば、聴取者１００は、ヘッドフォンを介して再構成されたＮ．ｘミックスを聞くことができる。この状況では、スピーカは実際の物理的なスピーカではないが、例えば１１．２サラウンドサウンドスピーカ構成に対応する再生環境４８５の異なる空間的位置からサウンドが発生しているように出力される。

符号器の後方互換性のある実施形態
図５は、図４に示したマルチプレットベースの空間的マトリクス化符号器４１０の非レガシー実施形態の詳細を示すブロック図である。このような非レガシー実施形態では、符号器４１０は、後方互換性がレガシー復号器によって維持されるようにコンテンツを符号化しない。さらに、符号器４１０の実施形態は、オーディオデータと共にビットストリームに含まれる様々なタイプのメタデータを使用する。図５に示すように、符号器４１０はマルチプレットベースのマトリックスミキシングシステム５００並びに圧縮及びビットストリームパッキングモジュール５１０を含む。コンテンツ作成環境４３０からの出力は、Ｎ．ｘパルス符号変調（ＰＣＭ）ベッドミックス５２０を含み、Ｎ．ｘパルス符号変調（ＰＣＭ）ベッドミックス５２０は、チャンネルベースのオーディオ情報と、オブジェクトＰＣＭデータ５３０及び関連のオブジェクトメタデータ５４０を含むオブジェクトベースのオーディオ情報とを包含する。図５−８において、中空の矢印は時間ドメインデータを示し、実線の矢印は空間データを示す点に留意されたい。例えば、Ｎ．ｘＰＣＭベッドミックス５２０からマルチプレットベースのマトリックスミキシングシステム５００への矢印は中空矢印であり時間ドメインデータを示す。コンテンツ作成環境４３０からオブジェクトＰＣＭ５３０への矢印は実線の矢印であり空間データを示す。

Ｎ．ｘＰＣＭベッドミックス５２０は、マルチプレットベースのマトリックスミキシングシステム５００に入力される。システム５００は、以下に詳しく解説するようにＮ．ｘＰＣＭベッドミックス５２０を処理して、Ｎ．ｘＰＣＭベッドミックスのチャンネル数をＭ．ｘＰＣＭベッドミックス５５０に低減する。加えて、システム５００は、Ｍ．ｘＰＣＭベッドミックス５５０の空間的レイアウトに関するデータであるＭ．ｘレイアウトメタデータ５６０を含む様々な情報を出力する。また、システム５００は、オリジナルチャンネルレイアウト及びマトリクス化メタデータ５７０に関する情報を出力する。オリジナルチャンネルレイアウトは、コンテンツ作成環境４３０におけるオリジナルチャンネルのレイアウトに関する空間情報である。マトリクス化メタデータは、ダウンミキシング中に使用された様々な係数に関する情報を包含する。マトリクス化メタデータは、特に、復号器がアップミックスのための正しい方法を分かるように、チャンネルがどのようにダウンミックスに符号化されたかに関する情報を包含する。

図５に示すように、オブジェクトＰＣＭ５３０、オブジェクトメタデータ５４０、Ｍ．ｘＰＣＭベッドミックス５５０、Ｍ．ｘレイアウトメタデータ５６０、及びオリジナルチャンネルレイアウト及びマトリクス化メタデータ５７０の全ては、圧縮及びビットストリームパッキングモジュール５１０に入力される。モジュール５１０は、この情報を受け取り圧縮して、Ｍ．ｘ拡張ビットストリーム５８０にパックする。ビットストリームは、オーディオデータに加えて空間的及び他のタイプのメタデータも包含するので拡張（ｅｎｈａｎｃｅｄ）と呼ばれる。

マルチプレットベースのマトリックスミキシングシステム５００の実施形態は、これらの変数を合計の利用可能なビットレート、１チャンネル当たりの最小ビットレート、ディスクリートオーディオチャンネル等として調べることによってチャンネル数を低減する。これらの変数に基づいて、システム５００はオリジナルＮチャンネルを受け取り、これをＭチャンネルにダウンミックスする。数Ｍはデータレートに依存する。例示的に、Ｎが２２オリジナルチャンネルに等しく利用可能なビットレートが５００Ｋビット／秒である場合、システム５００は、ビットレートを達成しコンテンツを符号化するためにＭが８でなければならないと決定することができる。これは、８オーディオチャンネルを符号化するために十分な帯域幅しかないことを意味する。このような８チャンネルが次に符号化及び伝送されることになる。

復号器４２０は、これらの８チャンネルがオリジナル２２チャンネルから発生することを知っており、このような８チャンネルを最大２２チャンネルにアップミックスする。当然ながらビットレートを達成するためにあるレベルの空間忠実度損失が存在することになる。例えば、１チャンネル当たりの所与の最小ビットレートが３２Ｋビット／チャンネルであると仮定する。合計のビットレートが１２８ビット／秒である場合、４チャンネルを３２Ｋビット／チャンネルで符号化することができる。別の実施例では、符号器４１０への入力が１１．１ベースミックスであるとすると、所与のビットレートは１２８ｋビット／秒であり、１チャンネル当たりの最小ビットレートは３２Ｋビット／秒である。これは、コーデック４００及び方法がその１１オリジナルチャンネルを受け取り、これを４チャンネルにダウンミックスして４チャンネルを送信し、復号側ではこの４チャンネルを１１チャンネルにアップミックスすることを意味する。

復号器の後方互換性のない実施形態
Ｍ．ｘ拡張ビットストリーム５８０は、レンダリングのために復号器４２０を包含する受信デバイスに配信される。図６は、図４に示したマルチプレットベースの空間マトリクス化復号器の非レガシー実施形態の詳細を示すブロック図である。これらの非レガシー実施形態では、復号器４２０は、以前のビットストリームのタイプとの後方互換性を保持せずこれを復号することができない。図６に示すように、復号器４２０は、マルチプレットベースのマトリックスアップミキシングシステム６００、復元及びビットストリームアンパッキングモジュール６１０、遅延モジュール６２０、オブジェクト内包レンダリングエンジン６３０、及びダウンミキサ及びスピーカリマッピングモジュール６４０を含む。

図６に示すように、復号器４２０への入力はＭ．ｘ拡張ビットストリーム５８０である。次に、復元及びビットストリームアンパッキングモジュール６１０はビットストリーム５８０をアンパックしてＰＣＭ信号（ベッドミックス及びオーディオオブジェクトを含む）及び関連のメタデータに復元する。モジュール６１０からの出力はＭ．ｘＰＣＭベッドミックス６４５である。加えて、オリジナル（Ｎ．ｘ）チャンネルレイアウト及びマトリクス化メタデータ６５０（マトリクス化係数を含む）、オブジェクトＰＣＭ６５５、及びオブジェクトメタデータ６６０がモジュール６１０から出力される。

Ｍ．ｘＰＣＭベッドミックス６４５は、マルチプレットベースのマトリックスアップミキシングシステム６００によって処理されてアップミックスされる。マルチプレットベースのマトリックスアップミキシングシステム６００を以下に詳細に説明する。システム６００の出力はＮ．ｘＰＣＭベッドミックス６７０であり、これはオリジナルレイアウトと同じチャンネル（又はスピーカ）レイアウト構成である。Ｎ．ｘＰＣＭベッドミックス６７０は、ダウンミキサ及びスピーカリマッピングモジュール６４０によって処理され、Ｎ．ｘベッドミックス６７０を聴取者の再生スピーカレイアウトにマッピングする。例えば、Ｎ＝２２及びＭ＝１１である場合、符号器４１０によって２２チャンネルが１１チャンネルにダウンミックスされる。次に復号器４２０は１１チャンネルを受け取り、これを２２チャンネルにアップミックスする。しかし、聴取者が５．１再生スピーカレイアウトしか持たない場合、モジュール６４０はこの２２チャンネルをダウンミックスして、これを聴取者による再生のための再生スピーカレイアウトに再マッピングする。

ダウンミキサ及びスピーカリマッピングモジュール６４０は、ビットストリーム５８０に記憶されたコンテンツを所与の出力スピーカ構成に適応させることを担う。理論的には、ある任意の再生スピーカレイアウトに対してオーディオをフォーマット化することができる。再生スピーカレイアウトは、聴取者又はシステムによって選択される。この選択に基づいて、復号器４２０は、復号する必要があるチャンネルセットを選択して、スピーカリマッピング及びダウンミキシングを実行する必要があるか否かを決定する。出力スピーカレイアウトの選択は、アプリケーションプログラミングインタフェース（ＡＰＩ）コールを使用して実行される。

意図された再生ラウドスピーカレイアウトが再生環境４８５（又はリスニングスペース）の実際の再生ラウドスピーカレイアウトに一致しない場合、オーディオプレゼンテーションの全体的な印象が損なわれる可能性がある。幾つかの評判のよいスピーカ構成におけるオーディオプレゼンテーション品質を最適化するために、Ｍ．ｘ拡張ビットストリームは、ラウドスピーカリマッピング係数を包含することができる。

ダウンミキサ及びスピーカリマッピングモジュール６４０の実施形態には動作の２つのモードがある。第１は「ダイレクトモード」であり、これによって復号器４２０は空間リマッパーを構成して、可能な限り厳密に、所与の出力スピーカ構成に対するオリジナル符号化チャンネルレイアウトを生成する。第２は「非ダイレクトモード」であり、これによって復号器の実施形態が、ソース構成に関わらずにコンテンツを選択された出力チャンネル構成に変換する。

オブジェクトＰＣＭ６５５は、Ｍ．ｘＰＣＭベッドミックス６４５がマルチプレットベースのマトリックスアップミキシングシステム６００によって処理される間に、あるレベルの待ち時間が存在するように、遅延モジュール６２０によって遅延される。遅延モジュール６２０の出力は遅延オブジェクトＰＣＭ６８０である。この遅延オブジェクトＰＣＭ６８０及びオブジェクトメタデータ６６０が合計され、オブジェクト内包レンダリングエンジン６３０によってレンダリングされる。

オブジェクト内包レンダリングエンジン６３０及びオブジェクト除去レンダリングエンジン（以下に説明する）は、３Ｄオブジェクトベースオーディオレンダリングを実行するための主エンジンである。これらのレンダリングエンジンの主な役割は、登録されたオーディオオブジェクトをベースミックスに追加する又はベースミックスから登録されたオーディオオブジェクトを取り去ることである。各オブジェクトは、方位角、高度、距離、利得、及びオブジェクトを最も近いスピーカ位置にスナップさせる必要がある場合を指示するフラグを含む、３Ｄスペースにおける当該各オブジェクトの位置を指示する情報を伴う。オブジェクトレンダリングは、必要な処理を実行して指示された位置にオブジェクトを配置する。レンダリングエンジンは、点音源及び拡張音源の両方をサポートする。点音源は、空間の１つの特定のスポットから音が来るように聞こえるが、拡張音源は、「幅」、「高さ」、又はこの双方をもつ音である。

レンダリングエンジンは球座標系表現を使用する。コンテンツ作成環境４３０におけるオーサリングツールが靴箱のように部屋を表現する場合、同心ボックスから同心球への変換及びその逆を、オーサリングツール内のフードの下で実行することができる。このように、壁の上のソースの配置は、単位球面上のソースの配置に対応付ける。

ダウンミキサ及びスピーカリマッピングモジュールからのベッドミックスと、オブジェクト内包レンダリングエンジン６３０からの出力とは組み合わされてＮ．ｘオーディオプレゼンテーション６９０が提供される。Ｎ．ｘオーディオプレゼンテーション６９０は、復号器４２０から出力され再生スピーカレイアウト（図示せず）で再生される。

復号器４２０のモジュールの一部は任意とすることができる点に留意されたい。例えば、Ｎ＝Ｍである場合、マルチプレットベースのマトリックスアップミキシングシステム６００は必要ない。同様に、Ｎ＝Ｍである場合、ダウンミックス及びスピーカリマッピングモジュール６４０は必要ない。Ｍ．ｘ拡張ビットストリームにオブジェクトが無い及び信号がチャンネルベースの信号のみである場合、オブジェクト内包レンダリングエンジン６３０は必要ない。

符号器の後方互換性のある実施形態
図７は、図４に示したマルチプレットベースの空間マトリクス化符号器４１０のレガシー実施形態の詳細を示すブロック図である。このようなレガシー実施形態では、符号器４１０が、レガシー復号器との後方互換性が維持されるようにコンテンツを符号化する。多くの構成要素は、後方互換性のない実施形態と同じである。具体的には、マルチプレットベースのマトリックスミキシングシステム５００がＮ．ｘＰＣＭベッドミックス５２０をＭ．ｘＰＣＭベッドミックス５５０にダウンミックスする。符号器４１０はオブジェクトＰＣＭ５３０及びオブジェクトメタデータ５４０を受け取り、これをＭ．ｘＰＣＭベッドミックス５５０にミキシングしてエンベッディッドダウンミックスを作成する。このエンベッディッドダウンミックスはレガシー復号器によって復号可能である。これらの後方互換性のある実施形態では、エンベッディッドダウンミックスがＭ．ｘベッドミックスとオブジェクトの両方を含み、レガシー復号器が復号できるレガシーダウンミックスを作成する。

図７に示すように、符号器４１０はオブジェクト内包レンダリングエンジン７００及びダウンミックスエンベッダ７１０を含む。後方互換性の目的で、オーディオオブジェクトに記憶されたいずれのオーディオ情報もＭ．ｘベッドミックス５５０にミキシングされて、レガシー復号器が使用することのできるベースミックスを作成する。復号器システムがオブジェクトをレンダリングすることができる場合、二重に再生されないようにベースミックスからオブジェクトを取り除く必要がある。復号されたオブジェクトは、具体的にはこの目的で適切なベッドミックスにレンダリングされ、次にベースミックスから差し引かれる。

オブジェクトＰＣＭ５３０及びオブジェクトメタデータ５４０はエンジン７００に入力され、Ｍ．ｘＰＣＭベッドミックス５５０にミキシングされる。その結果は、エンベッディッドダウンミックスを作成するダウンミックスエンベッダ７１０に付与される。このエンベッディッドダウンミックス、ダウンミックスメタデータ７２０、Ｍ．ｘレイアウトメタデータ５６０、オリジナルチャンネルレイアウト及びマトリクス化メタデータ５７０、オブジェクトＰＣＭ５３０、及びオブジェクトメタデータ５４０は、圧縮及びビットストリームパッキングモジュール５１０によって圧縮されビットストリームにパッキングされる。出力は、後方互換性Ｍ．ｘ拡張ビットストリーム５８０である。

復号器の後方互換性のある実施形態
後方互換性Ｍ．ｘ拡張ビットストリーム５８０は、レンダリングのための復号器４２０を包含する受信デバイスに配信される。図８は、図４に示したマルチプレットベースの空間マトリクス化復号器４２０の後方互換性のある実施形態の詳細を示すブロック図である。これらの後方互換性のある実施形態では、復号器４２０は、復号器４２０が以前のタイプのビットストリームを復号できるように以前のタイプのビットストリームとの後方互換性を保持する。

復号器４２０の後方互換性のある実施形態は、オブジェクト除去部分があることを除いて、図６に示した非後方互換性のある実施形態に類似している。このような後方互換性のある実施形態は、レガシー復号器が復号することのできるビットストリームを提供することが要求される、コーデックのレガシー問題に対応する。この場合、復号器４２０は、エンベッディッドダウンミックスからオブジェクトを取り除き、次にアップミックスを行いい、オリジナルアップミックスを取得する。

図８に示すように、復元及びビットストリームアンパッキングモジュール６１０は、オリジナルチャンネルレイアウト及びマトリクス化係数６５０、オブジェクトＰＣＭ６５５、及びオブジェクトメタデータ６６０を出力する。また、モジュール６１０の出力は、エンベッディッドダウンミックスのエンベッディッドダウンミキシングを取り消し８００、Ｍ．ｘＰＣＭベッドミックス６４５を取得する。これは基本的にはチャンネルとオブジェクトを互いに分離する。

符号化の後に、新しい小さなチャンネルレイアウトは、レガシー復号器が使用するビットストリームの一部に記憶するあまりにも多くのチャンネルを有する。このような場合、図７を参照して上述したように、付加的なエンベッディッドダウンミックスが実行され、古い復号器ではサポートされないチャンネルからのオーディオが後方互換性ミックスに含まれることを保証する。追加のチャンネルプレゼントが後方互換性ミックスにダウンミックスされ別々に送信される。ビットストリームが、後方互換性ミックスよりも多くのチャンネルをサポートするスピーカ出力フォーマットに復号された場合、追加のチャンネルからのオーディオがミックスから取り除かれ、代わりにディスクリートチャンネルが使用される。このエンベッディッドダウンミックス８００の取り消し動作は、アップミキシングの前に発生する。

また、モジュール６１０の出力は、Ｍ．ｘレイアウトメタデータ８１０を含む。Ｍ．ｘレイアウトメタデータ８１０及びオブジェクトＰＣＭ６５５は、オブジェクト除去レンダリングエンジン８２０によって使用され、除去されたオブジェクトをＭ．ｘＰＣＭベッドミックス６４５にレンダリングする。オブジェクトＰＣＭ６５５は、遅延モジュール６２０を通過してオブジェクト内包レンダリングエンジン６３０に進む。エンジン６３０は、オブジェクトメタデータ６６０及び遅延オブジェクトＰＣＭ６５５を受け取り、再生スピーカレイアウト（図示せず）での再生のために、オブジェクト及びＮ．ｘベッドミックス６７０をＮ．ｘオーディオプレゼンテーション６９０にレンダリングする。

ＩＩＩ．システムの詳細
マルチプレットベースの空間マトリクス化コーデック及び方法の実施形態の構成要素のシステム詳細を説明する。モジュール、システム、及びコーデックを実施することができる幾つかの方法の一部が以下に詳細に説明されている点に留意されたい。多くの変形例が図９及び１０に示したものから可能である。

図９は、図５及び７に示したマルチプレットベースのマトリックスダウンミキシングシステム５００の例示的な実施形態の詳細を示すブロック図である。図９に示すように、Ｎ．ｘＰＣＭベッドミックス５２０がシステム５００に入力される。本システムは、入力チャンネルがダウンミックスされるチャンネル数と、どの入力チャンネルがサバイビングチャンネル及び非サバイビングチャンネルであるかを決定する分離モジュールを含む。サバイビングチャンネルは、保持されるチャンネルであり、非サバイビングチャンネルは、サバイビングチャンネルのマルチプレット上にダウンミックスされる入力チャンネルである。

また、システム５００はミキシング係数マトリックスダウンミキサ９１０を含む。図９の中空矢印は、信号が時間ドメイン信号であることを示す。ダウンミキサ９１０はサバイビングチャンネル９２０を受け取り、これを処理することなく通過させる。非サバイビングチャンネルは近接性に基づいてマルチプレット上にダウンミックスされる。特に、一部の非サバイビングチャンネルをサバイビングペア（又はダブレット）９３０にダウンミックスすることができる。一部の非サバイビングチャンネルをサバイビングチャンネルのサバイビングトリプレット９４０にダウンミックスすることができる。一部の非サバイビングチャンネルは、サバイビングチャンネルのサバイビングクアドラプレット９５０にダウンミックスすることができる。これは、いずれかのＹのマルチプレットに続けることができ、ここでＹは２より大きな正の整数である。例えば、Ｙ＝８である場合、非サバイビングチャンネルはサバイビングチャンネルのサバイビングオクトプレット（ｏｃｔｕｐｌｅｔ）にダウンミックスすることができる。これは省略記号９６０によって図９に示されている。マルチプレットの一部、全部、又はいずれかの組合せを使用して、Ｎ．ｘＰＣＭベッドミックス５２０をダウンミックスできる点に留意されたい。

ダウンミキサ９１０からの結果として得られるＭ．ｘダウンミックスは、ラウドネス正規化モジュール９８０に進む。正規化プロセスは以下に詳細に説明する。Ｎ．ｘＰＣＭベッドミックス５２０は、Ｍ．ｘダウンミックスを正規化するために使用され、出力は正規化Ｍ．ｘＰＣＭベッドミックス５５０である。

図１０は、図６及び８に示したマルチプレットベースのマトリックスアップミキシングシステム６００の例示的な実施形態の詳細を示すブロック図である。図１０では、太矢印が時間ドメイン信号を表し、破線矢印がサブバンドドメイン信号を表す。図１０に示すように、Ｍ．ｘＰＣＭベッドミックス６４５がシステム６００に入力される。Ｍ．ｘＰＣＭベッドミックス６４５は、オーバサンプリング分析フィルタバンク１０００によって処理され、サバイビングチャンネルＹマルチプレットにダウンミックスされた様々な非サバイビングチャンネルを取得する。初回パスにおいて、空間分析がＹマルチプレット上で実行され（１０１０）、非サバイビングチャンネルの空間における半径及び角度などの空間情報を取得する。次に、非サバイビングチャンネルがサバイビングチャンネルのＹマルチプレットから抽出される（１０１５）。次に、この最初のリキャプチャチャンネル、Ｃ１が、サブバンドパワー正規化モジュール１０２０に入力される。次にこのパスに包含されるチャンネルがリパンニングされる（１０２５）。

これらのパスは、省略記号１０３０によって示されるように、マルチプレットのＹ数の各々を通って続く。次にパスは、Ｙマルチプレットの各々が処理されるまで順次続く。図１０は、空間分析がクアドラプレットで実行され（１０４０）、クアドラプレットにダウンミックスされた非サバイビングチャンネルの空間における半径及び角度などの空間情報を取得することを示している。次に、非サバイビングチャンネルがサバイビングチャンネルのクアドラプレットから抽出される（１０４５）。抽出されたチャンネルＣ（Ｙ−３）がサブバンドパワー正規化モジュール１０２０に入力される。次にこのパスに包含されるチャンネルがリパンニングされる（１０５０）。

次のパスでは、空間分析がトリプレットで実行され（１０６０）、トリプレットにダウンミックスされた非サバイビングチャンネルの空間における半径及び角度などの空間情報を取得する。次に非サバイビングチャンネルがサバイビングチャンネルのトリプレットから抽出される（１０６５）。次に抽出されたチャンネル、Ｃ（Ｙ−２）がモジュール１０２０に入力される。次にこのパスに包含されたチャンネルがリパンニングされる（１０７０）。同様に、最後のパスでは、空間分析がダブレットで実行され（１０８０）、ダブレットにダウンミックスされた非サバイビングチャンネルの空間における半径及び角度などの空間情報を取得する。次に非サバイビングチャンネルはサバイビングチャンネルのダブレットから抽出される（１０８５）。次に抽出されたチャンネル、Ｃ（Ｙ−１）がモジュール１０２０に入力される。次にこのパスに包含されたチャンネルがリパンニングされる（１０９０）。

次に、チャンネルの各々がモジュール１０２０によって処理され、Ｎ．ｘアップミックスが取得される。このＮ．ｘアップミックスは、オーバサンプル合成フィルタバンク１０９５によって処理され、これをＮ．ｘＰＣＭベッドミックス６７０に結合する。図６及び８に示すように、次にＮ．ｘＰＣＭベッドミックスがダウンミキサ及びスピーカリマッピングモジュール６４０に入力される。

ＩＶ．動作の概要
マルチプレットベースの空間マトリクス化コーデック４００及び方法の実施形態は、空間符号化及び復号技術であり、チャンネル数（従ってビットレート）を低減し、空間精度と基本的なオーディオ品質との間のトレードオフを可能にすることによってオーディオ品質を最適化して、オーディオ信号フォーマットを再生環境構成に変換する。

符号器４１０及び復号器４２０の実施形態は、２つの主な使用事例を有する。第１の使用事例は、マルチプレットベースの空間マトリクス化コーデック４００及び方法の実施形態が高チャンネル数ディオ信号を低数のチャンネルに符号化するために使用されるメタデータ使用事例である。加えて、この使用事例は、オリジナル高チャンネル数オーディオの正確な近似を回復するために低数のチャンネルの復号を含む。第２の使用事例は、標準的なモノ、ステレオ、又はマルチチャンネルレイアウト（５．１又は７．１など）におけるレガシーコンテンツの水平及び高位チャンネル位置の両方を含む３Ｄレイアウトへのブラインドアップミキシングを実行するブラインドアップミックス使用事例である。

メタデータ使用事例
コーデック４００及び方法の実施形態の第１使用事例は、ビットレート低減ツールとしての事例である。コーデック４００及び方法をビットレート低減のために使用できる１つの例示的なシナリオは、１チャンネル当たりの利用可能なビットレートが、コーデック４００によってサポートされる１つのチャンネル当たりの最小ビットレートを下回る場合である。このシナリオでは、コーデック４００及び方法の実施形態を使用して符号化チャンネルの数を低減することができ、従って、サバイビングチャンネルのための高ビットレート割り当てを可能にする。このようなチャンネルは、デマトリクス化後のアーティファクトのアンマスキングを阻止するために、十分高いビットレートで符号化する必要がある。

このシナリオで符号器４１０は、以下の因数の１又は２以上に依存するビットレート低減のためのマトリクス化を使用することができる。１つの因数は、ディスクリートチャンネル符号化（ＭｉｎＢＲ＿Ｄｉｓｃｒとして指定）に必要な１チャンネル当たりの最小ビットレートである。別の因数は、マトリクス化されたチャンネル符号化（ＭｉｎＢＲ＿Ｍｔｒｘとして指定）に必要な１チャンネル当たりの最小ビットレートである。更に別の因数は、合計の利用可能なビットレート（ＢＲ＿Ｔｏｔとして指定）である。

符号器４１０が関与するか否かは（（Ｍ＜Ｎ）マトリクス化又はＭ＝Ｎではない場合）以下の式に基づいて決定される。

加えて、オリジナルチャンネルレイアウトとマトリクス化手順を記述するメタデータとがビットストリームで送られる。ＭｉｎＢＲ＿Ｍｔｒｘの値は、十分高く選択され（各それぞれのコーデック技術に対して）デマトリクス化後のアーティファクトのアンマスキングを阻止する。

復号器４２０側では、フォーマットをオリジナルＮ．ｘレイアウト又はＮ．ｘレイアウトの所定の適正なサブセットに持ち込むためだけにアップミキシングが実行される。更なるフォーマット変換に必要なのはアップミキシングである。オリジナルＮ．ｘレイアウトで送られる空間解像度が意図された空間解像度であることが前提とされ、従っていずれかの更なるフォーマット変換は、ダウンミキシング及び可能性のあるスピーカリマッピングだけを含むことになる。チャンネルベースのみのストリームの場合、サバイビングＭ．ｘレイアウトを、復号器側で所望のダウンミックスの偏差Ｋ．ｘに対する開始ポイント（ｋ＜Ｍ）として直接（デマトリクス化を適用することなく）使用することができる（Ｍ、Ｎは整数であり、ＮはＭより大きい）。

コーデック４００及び方法をビットレート低減のために使用することができる別の例示的なシナリオは、オリジナル高チャンネル数レイアウトが高空間精度（２２．２など）を有しかつ利用可能なビットレートが全てのチャンネルを別個に符号化するのに十分であるが、トランスペアレントに近い基本的なオーディオ品質レベルを提供するには十分でない場合である。このシナリオでは、コーデック４００及び方法の実施形態を使用して、空間的精度をわずかに犠牲にするが基本的なオーディオ品質における改善を可能にすることによって、全体的な性能を最適化することができる。これは、オリジナルレイアウトを、チャンネルの少ない十分な空間的精度を備えたレイアウト（１１．２など）に変換して、ビットプールの全てをサバイビングチャンネルに割り当てて、空間的精度に大きな影響を与えることなく基本的なオーディオ品質を高レベルに至らせることによって達成される。

この実施例では、符号器４１０は、ツールとしてマトリクス化を使用して、空間的精度をわずかに犠牲にするが代わりに基本的なオーディオ品質における向上を可能にすることによって、全体的な品質を最適化する。サバイビングチャンネルは、符号化されるチャンネルの最小数でオリジナル空間的精度をもっとも良く保持するために選択される。加えて、オリジナルチャンネルレイアウトとマトリクス化手順を記述するメタデータとはストリームで送られる。

符号器４１０は、十分に高い１チャンネル当たりのビットレートを選択して、サバイビングレイアウトにオブジェクトを内包すること、並びに更なるダウンミックスエンベッディッディングを可能にする。Ｍ．ｘ又は関連のエンベッディッドダウンミックスのいずれかは、５．１／７．１システムで直接再生可能である。

この実施例では、復号器４２０はアップミキシングを使用して、アップミキシングは、フォーマットをオリジナルＮ．ｘレイアウト又はＮ．ｘレイアウトの所定の適正なサブセットに持ち込むためだけに実行される。更なるフォーマット変換は必要ない。オリジナルＮ．ｘレイアウトで送られる空間解像度は意図された空間解像度であることが前提とされ、従って、いずれの更なるフォーマット変換も、ダウンミキシング及び可能性のあるスピーカリマッピングだけを含むことになる。

上記のシナリオでは、本明細書で説明する符号化及び方法を、チャンネルベースのフォーマット又はオブジェクトプラスベースミックスのフォーマットにおけるベースミックスチャンネルに適用することができる。対応する復号動作は、チャンネル低減レイアウトをオリジナル高チャンネル数レイアウトに持ち込むことになる。

適正に復号されるチャンネル低減信号では、本明細書で説明する復号器４２０に、符号化プロセスで使用されたレイアウト、パラメータ、及び係数を通知する必要がある。コーデック４００及び方法は、符号器４１０から復号器４２０にこのような情報を伝送するためのビットストリーム構文を定義する。例えば、符号器４１０が２２．２チャンネルベースミックスを１１．２チャンネル低減信号に符号化する場合、オリジナルレイアウト、チャンネル低減レイアウト、寄与ダウンミックスチャンネル、及びダウンミックス係数を記述する情報が復号器４２０に送信され、オリジナル２２．２チャンネル数レイアウトへの適正な復号を可能にする。

ブラインドアップミックス使用事例
コーデック４００及び方法の実施形態の第２の使用事例は、レガシーコンテンツのブラインドアップミキシングを実行することである。この機能は、コーデック４００及び方法が、レガシーコンテンツを再生環境４８５のラウドスピーカ位置に一致する水平及び高位チャンネルを含む３Ｄレイアウトに変換するのを可能にする。ブラインドアップミキシングは、モノ、ステレオ、５．１、７．１、及びその他のような標準的なレイアウトに実行することができる。

概要
図１１は、図４に示したマルチプレットベースの空間マトリクス化コーデック４００及び方法の実施形態の一般的な動作を示す流れ図である。動作は、ダウンミックスされた出力オーディオ信号に入れるチャンネルのＭ数を選択することによって始まる（ボックス１１００）。この選択は上述したように要求されるビットレートに基づく。Ｎ及びＭはゼロではない正の整数であり、ＮはＭより大きい点に留意されたい。

次に、Ｎチャンネルはマルチプレットパン法則の組合せを使用してＭチャンネルにダウンミックス及び符号化されて、Ｍマルチプレット符号化チャンネルを包含するＰＣＭベッドミックスを取得する（ボックス１１１０）。次に本方法は、ネットワークを経由して要求されるビットレートで又はそれ以下のビットレートでＰＣＭベッドミックスを送信する（ボックス１１２０）。ＰＣＭベッドミックスが受信され、複数のＭ数のマルチプレット符号化チャンネルに分離される（ボックス１１３０）。

次に本方法は、マルチプレットパン法則の組合せを使用してＭマルチプレット符号化チャンネルの各々をアップミックス及び復号して、Ｍマルチプレット符号化チャンネルからＮチャンネルを抽出してＮチャンネルを有する結果として得られる出力オーディオ信号を取得する（ボックス１１４０）。この結果として得られる出力オーディオ信号は、再生チャンネルレイアウトを有する再生環境でレンダリングされる（ボックス１１５０）。

コーデック４００及び方法の実施形態又はその態様は、特に多数のチャンネルが配信又は記録される（７より多い）場合に、マルチチャンネルオーディオの伝送及び記録のためのシステムで使用される。例えば、１つのこのようなシステムでは、複数のチャンネルが記録され、聴取者の周りの耳レベルに配置されたＬチャンネル、耳レベルより高い所に配置されたハイトリングの周りに配置されたＰチャンネル、及び任意的に聴取者の上の頂点又は頂点近くの中心チャンネル（ここでＬ及びＰは１より大きな任意の整数である）を有する公知の再生ジオメトリに構成されることを前提とする。Ｐチャンネルは、様々な従来のジオメトリに従って配置することができ、想定されるジオメトリは、ミキシングエンジニア又は記録アーティスト／エンジニアに公知である。本発明により、ＬプラスＰチャンネル数が、マトリックスミキシングの新しい方法によって低数のチャンネル（例えば、ＬだけにマップされたＬ＋Ｐ）に低減される。次に、低数のチャンネルは、減数チャンネルのディスクリート特性を保存する公知の方法によって符号化及び圧縮される。

復号する場合、本システムの動作は復号器の機能に依存する。レガシー復号器では、Ｐチャンネルをミキシングした減数（Ｌ）チャンネルが再生される。本発明による高度な復号器では、Ｌ＋Ｐチャンネルのフルコンソールが、アップミキシングによって回復可能であり、Ｌ＋Ｐスピーカの対応するスピーカに各々ルーティングされる。

本発明により、アップミキシング及びダウンミキシング動作の両方（マトリクス化／デマトリクス化）が、ペアワイズ、トリプレット、及び好ましくはクアドラプレットパン法則の組合せを含み、再生時に、記録アーティスト又はエンジニアが意図した推定位置に厳密に対応する知覚サウンドソースを配置する。

マトリクス化動作（チャンネルレイアウト低減）を、ａ）ストリームのベースミックス＋オブジェクト合成、又はｂ）ストリームのチャンネルベースのみの合成におけるベースミックスチャンネルに適用することができる。
更に、マトリクス化動作は、固定オブジェクト（動き回らないオブジェクト）に適用することができ、デマトリクス化の後に個人のレベル修正を可能にする十分なオブジェクト分離を達成する。

Ｖ．動作の詳細
マルチプレットベースの空間マトリクス化コーデック４００及び方法の実施形態の動作の詳細を説明する。

Ｖ．Ａ．ダウンミックスアーキテクチャ
マルチプレットベースのマトリックスダウンミキシングシステム５００の例示的な実施形態では、システム５００がＮチャンネルオーディオ信号を受け入れＭチャンネルオーディオ信号を出力し、ここでＮ及びＭは整数でありＮはＭより大きい。システム５００は、コンテンツ作成環境（オリジナル）チャンネルレイアウト、ダウンミックスされたチャンネルレイアウト、及び各オリジナルチャンネルが各ダウンミックスされたチャンネルに寄与するミキシング重みを記述するミキシング係数の知識を使用して構成することができる。例えば、ミキシング係数は、サイズＭ×ＮのマトリックスＣによって定義することができ、行が出力チャンネルに対応し列が入力チャンネルに対応する。

一部の実施形態では、システム５００は次式のようにダウンミキシング動作を実行することができる。

ここで

は、

である場合に入力オーディオ信号のｊ番目のチャンネルであり、

は、

である場合に出力オーディオ信号のｉ番目のチャンネルであり、ｃｉｊは、マトリックスＣのｉｊエントリに対応するミキシング係数である。

ラウドネス正規化
システム５００の一部の実施形態は、図９に示したラウドネス正規化モジュール９８０も含む。ラウドネス正規化プロセスは、ダウンミックスされた信号の知覚されるラウドネスを原信号のラウドネスに正規化するよう設計される。マトリックスＣのミキシング係数は、単一の原信号成分のためのパワーを保存するために一般的に選ばれるが、例えば標準的なサイン／コサインパンニング法則は、単一の成分のためのパワーを保存し、より複雑な信号材料では、パワー保存特性は保持されないことになる。ダウンミックスプロセスはオーディオ信号をパワードメインではなく振幅ドメインに結合するので、ダウンミックスされた信号の結果として得られる信号パワーは予測できず信号に依存する。さらに、ラウドネスは関連のある知覚特性であるので、信号パワーの代わりに、ダウンミックスされたオーディオ信号の知覚ラウドネスを保存することが望ましい。

ラウドネス正規化プロセスは、入力ラウドネス対ダウンミックスされたラウドネスの比を比較することによって実行される。入力ラウドネスは以下の式を介して推定される。

ここで、

は、入力ラウドネス推定値であり、

は、ＩＴＵ−ＲＢＳ．１７７０−３ラウドネス測定基準に記述される「Ｋ」周波数加重フィルタなどの周波数加重フィルタであり、（^*）は畳み込みを示す。

観察できるように、入力ラウドネスは、基本的には周波数加重入力チャンネルの二乗平均平方根（ＲＭＳ）尺度であり、ここで周波数加重は、ラウドネスの人間知覚との相関関係を改善するよう設計される。同様に、出力ラウドネスは以下の式を介して推定される。

ここで

は出力ラウドネス推定値である。

入力及び出力知覚ラウドネスの両方の推定値が計算されているので、ダウンミックスされた信号のラウドネスが以下の正規化式を介して原信号のラウドネスにほぼ等しくなるようにダウンミックスオーディオ信号を正規化することができる。

上記の式では、ラウドネス正規化プロセスが入力ラウドネス対出力ラウドネスの比によるダウンミックスチャンネルの全てのスケーリングを結果として生じることが観察される。

静的ダウンミックス
所与の出力チャンネルの静的ダウンミックス

は、

であり、ここで

は入力チャンネルであり、

は出力チャンネルｉ及び入力チャンネルｊに対するダウンミックス係数である。

パーチャンネルラウドネス正規化
パーチャンネルラウドネス正規化を使用した動的ダウンミックスは、

ここで

は次式のように与えられるチャンネル依存利得であり、

は、ＢＳ．１７７０で定義されるようなラウドネス推定関数である。

直観的に、時間変化パーチャンネル利得は、各静的ダウンミックスチャンネルのラウドネスによる各入力チャンネルの合計ラウドネス（適切なダウンミックス係数によって加重された）の比として見ることができる。

合計ラウドネス正規化
合計ラウドネス正規化を使用した動的ダウンミックスは、

であり、ここで

は次式のように与えられるチャンネル独立利得である。

直観的に、時間変化チャンネル独立利得は、ダウンミックスされたチャンネルの合計されたラウドネスによる入力チャンネルの合計されたラウドネスの比として見ることができる。

Ｖ．Ｂ．アップミックスアーキテクチャ
図６に示したマルチプレットベースのマトリックスアップミキシングシステム６００の例示的な実施形態では、システム６００は、Ｍチャンネルオーディオ信号を受け入れ、Ｎチャンネルオーディオ信号を出力するが、Ｍ及びＮは整数でありＮはＭより大きい。一部の実施形態では、システム６００は、ダウンミキサによって処理されたオリジナルチャンネルレイアウトと同じ出力チャンネルレイアウトを目標にする。一部の実施形態では、分析及び合成フィルタバンクを内包するアップミックス処理が周波数ドメインで実行される。周波数ドメインにおけるアップミックス処理の実行は、複数の周波数帯域での別々の処理を可能にする。マルチ周波数帯域を別々に処理することは、異なる周波数帯域がサウンドフィールドの異なる位置から同時に生じる状況にアップミキサが対処するのを可能にする。しかしながら、ブロードバンド時間ドメイン信号にアップミックス処理を実行できる点にも留意されたい。

入力オーディオ信号が周波数ドメイン表現に変換された後、本明細書に前述したクアドラプレット数学的フレームワークに従ってマトリックスされたサープラスチャンネルのあらゆるクアドラプレットチャンネルセットに空間分析が行われる。クアドラプレット空間分析に基づいて、前述したクアドラプレットフレームワークに従って、出力チャンネルがクアドラプレットセットから抽出される。抽出されたチャンネルは、ダウンミキシングシステム５００のクアドラプレットセットに最初にマトリックスされたサープラスチャンネルに対応する。次に、前述したクアドラプレットフレームワークに従って、クアドラプレットセットは、抽出したチャンネルに適切に基づいてリパンニングされる。

クアドラプレット処理が実行された後に、ダウンミックスチャンネルがトリプレット処理モジュールに渡され、ここで本明細書に前述したトリプレット数学的フレームワークに従ってサープラスチャンネルがマトリックスされたあらゆるトリプレットチャンネルセットに空間分析が行われる。トリプレット空間分析に基づいて、前述したトリプレットフレームワークに従って、出力チャンネルがトリプレットセットから抽出される。抽出されたチャンネルは、ダウンミキシングシステム５００におけるトリプレットセットに最初にマトリックスされたサープラスチャンネルに対応する。次にトリプレットセットは、前述したトリプレットフレームワークに従って、抽出されたチャンネルに適切に基づいてリパンニングされる。

トリプレット処理が実行された後に、ダウンミックスチャンネルがペアワイズ処理モジュールに渡され、本明細書に上述したペアワイズ数学的フレームワークに従ってサープラスチャンネルがマトリックスされたあらゆるペアワイズチャンネルセットに空間分析が行われる。ペアワイズ空間分析に基づいて、前述したペアワイズフレームワークに従って、出力チャンネルがペアワイズセットから抽出される。抽出されたチャンネルは、ダウンミキシングシステム５００におけるペアワイズセットに最初にマトリックスされたサープラスチャンネルに対応する。次にペアワイズセットは、前述したペアワイズフレームワークに従って、抽出されたチャンネルに基づいて適切にリパンニングされる。

この時点で、Ｎチャンネル出力信号は、（周波数ドメインで）生成され、クアドラプレット、トリプレット、及びペアワイズセットから抽出された全てのチャンネルと並びにリパンニングされたダウンミックスチャンネルとを含む。チャンネルを時間ドメインに変換する前に、アップミキシングシステム６００の一部の実施形態は、各出力サブバンド内の合計パワーを各入力ダウンミックスサブバンドのパワーに正規化するよう設計されたサブバンドパワー正規化を実行することができる。各入力ダウンミックスサブバンドの合計パワーは次式のように推定することができる。

ここで

は周波数ドメインにおけるｉ番目の入力ダウンミックスチャンネルであり、

はサブバンド合計ダウンミックスパワー推定値であり、ｍは、時間指数であり（フィルタバンク構造に起因して縮小されている可能性がある）、ｋはサブバンド指数である。

同様に、各出力サブバンドの合計パワーは次式のように推定することができる。

ここで

は周波数ドメインにおけるｊ番目の出力チャンネルであり、

はサブバンド合計出力パワー推定値である。

入力及び出力サブバンドパワーの両方の推定値が計算されているので、１つのサブバンド当たりの出力信号のパワーが以下の正規化式を介して１つのサブバンド当たりの入力ダウンミックス信号のパワーにほぼ等しくなるように出力オーディオ信号を正規化することができる。

上記の式では、結果として、サブバンドパワー正規化処理が１つのサブバンド当たりの入力パワー対出力パワーの比による出力チャンネルの全てのスケーリングを生じることが観察される。アップミキサが周波数ドメインで実行されない場合、ダウンミックスアーキテクチャで説明したものに類似のラウドネス正規化プロセスを、サブバンドパワー正規化プロセスの代わりに実行することができる。

全ての出力チャンネルが生成されサブバンドパワーが正規化された状態で、周波数ドメイン出力チャンネルは、周波数ドメインチャンネルを時間ドメインチャンネルに変換する合成フィルタバンクモジュールに送られる。

Ｖ．Ｃ．ミキシング、パンニング、及びアップミックス法則
コーデック４００及び方法の実施形態による実際のマトリックスダウンミキシング及び相補アップミキシングが、スピーカ構成に応じて、ペアワイズ、トリプレット、及び好ましくはクアドラプレットミキシング法則の組合せを使用して実行される。換言すると、記録／ミキシングにおいて特定のスピーカがダウンミキシングによって排除又は仮想化される場合、位置が、ａ）サバイビングスピーカのペア間のラインセグメント又はこの近く、ｂ）３サバイビングチャンネル／スピーカによって定義される三角形内、又はｃ）各々が頂点に配置される４つのチャンネルスピーカによって定義される四辺形内のケースであるかどうかの決定が適用される。

この最後のケースは、例えば頂点に配置された高位チャンネルをマトリクス化するのに有利である。また、コーデック４００及び方法の他の実施形態では、オリジナル及びダウンミックスチャンネルレイアウトのジオメトリが、クイントプレット（quintuplet）又はセックストプレット(sextuplet)チャンネルセット等を要求する場合、マトリクス化を、クアドラプレットを超えて拡張されたチャンネルセットにすることができる点にも留意されたい。

コーデック４００及び方法の一部の実施形態では、各オーディオチャンネルの信号が、複数のサブバンド、例えば「バークバンド」などの知覚的に関連のある周波数帯域にフィルタされる。これは、直交ミラーフィルタのバンドによって又は多相フィルタによって有利に行われ、任意的に各サブバンドにおける要求されるサンプルの数を低減するためにデシメーションが続く（当技術で公知）。フィルタリングに続いて、マトリックスダウンミックス分析を、オーディオチャンネルの各結合されたセット（ペア、トリプレット、又はクアドラプレット）の各知覚的に重要なサブバンドで独立して実行する必要がある。次に、各結合されたサブバンドのセットが分析され、好ましくは以下に示す式及び方法によって処理され適切なダウンミックスを提供し、この適切なダウンミックスから、復号器の各サブバンドチャンネルセットに相補的アップミックスを実行することによって、オリジナルディスクリートサブバンドチャンネルセットを回復することができる。

以下の説明は、サープラスチャンネルの各々が、チャンネルペア（ダブレット）、トリプレット、又はクアドラプレットのいずれかにミックスされるＮをＭチャンネルにダウンミックスする（及び相補的にアップミックスする）（逆もまた同様）ためのコーデック４００及び方法の実施形態による好ましい方法を示す。同じ式及び原理が、各サブバンド又はワイドバンド信号チャンネルにミキシングされるか否かに関し、適用可能である。

復号器アップミックスのケースでは、動作の順序が重要であり、コーデック４００及び方法の実施形態により、最初にクアドラプレットセット、次にトリプレットセット、次にチャンネルペアを処理することが極めて好ましい。これは、Ｙマルチプレットが存在するケースに拡張することができ、これによって最も大きなマルチプレットが最初に処理され、次に大きなマルチプレットが続く等々である。最も大きな数のチャンネルを備えたチャンネルセットを最初に処理することは、アップミキサが広範な最も一般的なチャンネル関係を分析するのを可能にする。トリプレット又はペアワイズセットの前にクアドラプレットセットを処理することによって、アップミキサは、クアドラプレットセットに含まれる全てのチャンネルに渡って共通する関連の信号成分を正確に分析することができる。広範囲のチャンネル関係がクアドラプレット処理を介して分析及び処理された後、次に広範なチャンネル関係がトリプレット処理によって分析及び処理される。最も制限されたチャンネル関係、ペアワイズ関係が最後に処理される。トリプレット又はペアワイズセットがクアドラプレットセットの前に偶発的に処理された場合、トリプレット又はペアワイズチャンネル全体に渡って特定の意味のあるチャンネル関係が観察される可能性があるが、このような観察されるチャンネル関係は、真のチャンネル関係のサブセットにすぎない。

例として、オリジナルオーディオ信号の所与のチャンネル（このチャンネルをＡと呼ぶ）がクアドラプレットセットにダウンミックスされるシナリオを考える。アップミキサでは、クアドラプレット処理が、そのクアドラプレットセット全体に渡るチャンネルＡの共通信号成分を分析してオリジナルオーディオチャンネルＡの近似を抽出することができる。いずれの次のトリプレット又はペアワイズ処理も、予想されるように実行され、既に抽出されているのでチャンネルＡ信号成分に更なる分析又は抽出は行われない。代わりにトリプレット処理がクアドラプレット処理の前に実行される（及びトリプレットセットがクアドラプレットセットのサブセットである）場合、トリプレット処理は、そのトリプレットセット全体に渡ってチャンネルＡの共通信号成分を分析して異なる出力チャンネル（すなわち出力チャンネルＡではない）へのオーディオ信号を抽出する。次にクアドラプレット処理がトリプレット処理の後に実行された場合、チャンネルＡ信号成分の一部分だけがクアドラプレットチャンネルセット全体に渡って存在するのでオリジナルオーディオチャンネルＡを抽出することができない（すなわち、チャンネルＡ信号成分の一部分はトリプレット処理の間に既に抽出されている）。

上述のように、最初にクアドラプレットセット、次にトリプレットセット、最後にペアワイズセットの処理が、好ましい処理のシーケンスである。上述の説明はペアワイズ（ダブレット）に対処するが、トリプレット、及びクアドラプレットセット、任意の数のセットも可能である点に注意すべきである。ペアワイズセットでは直線が形成され、トリプレットセットでは三角形が形成され、クアドラプレットセットでは四角形が形成される。しかしながら、さらなる多角形のタイプも可能である。

Ｖ．Ｄ．ペアワイズマトリクス化ケース
コーデック４００及び方法の実施形態により、非サバイビング（又はサープラス）チャンネルの位置が２つのサバイビングチャンネル（又はサバイビングチャンネルの対応するサブバンド）の位置によって定義されたダブレットの間にある場合、以下に示すように、ダウンミックスされるチャンネルをダブレットのセット（又はペアワイズ）チャンネル関係に従ってマトリックス化する必要がある。

マルチプレットベースの空間マトリクス化コーデック４００及び方法の実施形態は、左及び右チャンネルの間のチャンネル間レベル差を計算する。この計算は以下に詳細に説明する。コーデック４００及び方法は、推定パンニング角度を計算するためにチャンネル間レベル差を使用する。加えて、チャンネル間位相差は、左及び右入力チャンネルを使用する本方法によって計算される。このチャンネル間位相差は、２つのチャンネルの入力オーディオ信号の左及び右信号が同相又は異相であるかどうかを指示する左と右入力チャンネル間の相対的な位相差を決定する。

コーデック４００及び方法の一部の実施形態は、パンニング角度（θ）を利用して、２チャンネルダウンミックスからダウンミックス処理及び次のアップミックス処理を決定する。また、一部の実施形態はサイン／コサインパンニング法則を前提とする。このような状況では、２チャンネルダウンミックスが次式のようにパンニング角度の関数の通りに計算される。

ここでＸ_iは入力チャンネルであり、Ｌ及びＲはダウンミックスチャンネルであり、θはパンニング角度であり（０と１の間で正規化される）、パンニング重みの極性は入力チャンネルＸ_iの位置によって決定される。従来のマトリクス化システムでは、聴取者の前に位置付けられた入力チャンネルが同相信号成分と共に（換言すると、パンニング重みの等しい極性を備えて）ダウンミックスされ、聴取者の背後に位置付けられた出力チャンネルが位相信号成分と共に（換言すると、パンニング重みの反対の極性を備えて）ダウンミックスされるのが一般的である。

図１２は、サイン／コサインパンニング法側のパンニング角度（θ）の関数としてのパンニング重みを示す。第１プロット１２００は、右チャンネルのパンニング重み（Ｗ_R）を表わす。第２プロット１２１０は、左チャンネルの重み（Ｗ_L）を表わす。例示的に図１２を参照すると、中心チャンネルは、ダウンミックス関数をもたらす０．５のパンニング角度を使用することができる。

２チャンネルダウンミックスから付加的なオーディオチャンネルを合成するために、パンニング角度の推定値（又は

として示される推定パンニング角度）を、チャンネル間のレベル差（ＩＣＬＤとして示す）から計算することができる。ＩＣＬＤを次式のように定義するとする。

信号成分がサイン／コサインパンニング法側を使用して強度パンニングによって生成されると仮定すると、ＩＣＬＤをパンニング角度推定値の関数として表すことができる。

次に、パンニング角度推定値をＩＣＬＤの関数として表すことができる。

以下の角度の加法及び減法定理が、残りの導出を通して使用される。

さらに、以下の導出は、５．１サラウンドサウンド出力構成を前提とする。しかし、この分析は付加的なチャンネルに容易に適用することができる。

中心チャンネル合成
中心チャンネルは、以下の式を使用して２チャンネルダウンミックスから生成される。

ここでａ及びｂ係数は、特定の事前定義された目標を達成するためにパンニング角度推定値

に基づいて決定される。

同相成分
中心チャンネルの同相成分に対する所望のパンニング挙動を図１３に示す。図１３は、次式によって与えられる同相プロット１３００に対応するパンニング挙動を示す。

所望の中心チャンネルパンニング挙動を同相成分に代入すると、仮定されるサイン／コサインダウンミックス関数は次式をもたらす。

角度の加法定理を使用すると、第１デマトリクス化係数（ａとして示す）及び第２デマトリクス化係数（ｂとして示す）を含むデマトリクス化係数を次式のように導出することができる。

異相成分
中心チャンネルの異相成分に対する所望のパンニング挙動を図１４に示す。図１４は次式によって与えられる異相プロット１４００に対応するパンニング挙動を示す。

異相成分に対する所望の中心チャンネルパンニング挙動を代入して仮定されるサイン／コサインダウンミックス関数は以下になる。

角度の加法定理を使用すると、ａ及びｂ係数を以下のように導き出すことができる。

サラウンドチャンネルの合成
サラウンドチャンネルは、次式を使用して２チャンネルダウンミックスから生成される。

ここでL_Sは左サラウンドチャンネルであり、R_Sは右サラウンドチャンネルである。ａ及びｂ係数は、推定されるパンニング角度

に基づいて決定され、事前に定義される所定の目標を達成する。

同相成分
左サラウンドチャンネルの同相成分に対する理想的なパンニング挙動を図１５に示す。図１５は、次式によって与えられる同相プロット１５００に対応するパンニング挙動を示す。

同相成分に対する所望の左サラウンドチャンネルパンニング挙動を代入すると、仮定されるサイン／コサインダウンミックス関数は以下になる。

角度の加法定理を使用すると、ａ及びｂ係数は次式のように導き出される。

異相成分
異相成分に対する左サラウンドチャンネルの目標は、図１６の異相プロット１６００によって示されるようなパンニング挙動を達成することである。図１６は、左サラウンド及び右サラウンドチャンネルが別個に符号化され復号されるダウンミックス式に対応する２つの特定の角度を示す（これらの角度は図１６の異相プロット１６００において約０．２５及び０．７５である（４５°及び１３５°に対応する））。このような角度は以下のように示される。

左サラウンドチャンネルのａ及びｂ係数は、所望の出力のピースワイズ挙動によるピースワイズ関数によって生成される。

に対して、左サラウンドチャンネルの所望のパンニング挙動は以下に相当する。

異相成分に対する所望の左サラウンドチャンネルパンニング挙動を代入すると、仮定されるサイン／コサインダウンミックス関数は以下になる。

角度の加法定理を使用して、ａ及びｂ係数は以下のように導き出すことができる。

の場合、左サラウンドチャンネルの所望のパンニング挙動は以下に相当する。

異相成分の所望の左サラウンドチャンネルパンニング挙動を代入すると、仮定されるサイン／コサインダウンミックス関数は以下になる。

角度の加法定理を使用して、ａ及びｂ係数を次式のように導き出すことができる。

右サラウンドチャンネル生成のためのａ及びｂ係数は、上述のように左サラウンドチャンネル生成と同様に計算される。

修正された左及び修正された右チャンネル合成
左及び右チャンネルは、中心及びサラウンドチャンネルに生成された成分を（完全に又は部分的に）取り除くために以下の式を使用して修正される。

ここでａ及びｂ係数は、事前に定義された所定の目標を達成するためにパンニング角度推定値

に基づいて決定され、L’は修正された左チャンネルであり、R’は修正された右チャンネルである。

同相成分
同相成分の修正された左チャンネルの目標は、図１７の同相プロット１７００によって示されるパンニング挙動を達成することである。図１７では、０．５のパンニング角度θがディスクリート中心チャンネルに対応する。修正された左チャンネルのためのａ及びｂ係数が、所望の出力のピースワイズ挙動によるピースワイズ関数を介して生成される。

の場合、修正された左チャンネルの所望のパンニング挙動は次式に相当する。

同相成分に対する所望の修正左チャンネルパンニング挙動を代入すると、仮定されるサイン／コサインダウンミックス関数は以下になる。

の場合、修正された左チャンネルの所望のパンニング挙動は以下に相当する。

角度の加法定理を使用して、ａ及びｂ係数は次式のように導き出すことができる。

異相成分
異相成分のための修正された左チャンネルの目標は、図１８の異相プロット１８００によって示されるパンニング挙動を達成することである。図１８では、パンニング角度

が左サラウンドチャンネルのための符号化角度に相当する。修正された左チャンネルのためのａ及びｂ係数は、所望の出力のピースワイズ挙動によるピースワイズ関数を介して生成される。

の場合、修正された左チャンネルのための所望のパンニング挙動は以下に相当する。

異相成分に対する所望の修正左チャンネルパンニング挙動を代入すると、仮定されるサイン／コサインダウンミックス関数は以下になる。

修正された右チャンネル生成のためのａ及びｂ係数は、上述のように修正された左チャンネル生成と同様に計算される。

係数補間
上記に提示したチャンネル合成導出は、同相又は異相のいずれかであるソースコンテンツに対する所望のパンニング挙動の達成に基づく。ソースコンテンツの相対的な位相差を、次式のように適正に定義されたチャンネル間位相差（ＩＣＰＤ）によって決定することができる。

ここで^*は複素共役を示す。

ＩＣＰＤ値は、範囲［−１、１］に入り、−１の値は、成分が異相であることを示し、１の値は成分が同相であることを示す。次に、ＩＣＰＤ特性を使用して、線形補間を使用したチャンネル合成式で使用する最終的なａ及びｂ係数を決定することができる。しかしながら、ａ及びｂ係数を直接補間する代わりに、ａ及びｂ係数の全てがパンニング角度推定値

の三角関数を使用して生成される点に注目すべきである。

従って、線形補間は、三角関数の角度引数に実行される。この方式で線形補間を実行することには、２つの主な利点がある。まず、あらゆるパンニング角度及びＩＰＣＤ値に対してａ²＋ｂ²＝１という特性を維持する。次に、必要な三角関数コール数を低減して、これによって処理要件を低減する。

角度補間は、次式のように計算される範囲［０，１］に正規化された修正ＩＣＰＤ値を使用する。

チャンネル出力は以下に示すように計算される。

中心出力チャンネル
中心出力チャンネルは、次式のように定義される修正されたＩＣＰＤ値を使用して生成される。

ここで、

である。
上記の正弦関数の引数における第１項は、第１デマトリクス化係数の同相成分を表し、第２項は異相成分を表わす。従って、αは同相係数を表し、βは異相係数を表わす。同相係数及び異相係数共に、位相係数として公知である。

各出力チャンネルに対して、コーデック４００及び方法の実施形態は、推定されるパンニング角度に基づいて位相係数を計算する。中心出力チャンネルに対して、同相係数及び異相係数が次式のように与えられる。

左サラウンド出力チャンネル
左サラウンド出力チャンネルは、次式のように定義される修正ＩＣＰＤ値を使用して生成される。

ここで、

及び

である。

一部の三角関数の公式及び位相ラッピング特性は、上述の式に対するα及びβ係数を単純化するために適用される点に留意されたい。

右サラウンド出力チャンネル
右サラウンド出力チャンネルは、次式のように定義される修正されたＩＣＰＤ値を使用して生成される。

ここで、

及び

右サラウンドチャンネルのα及びβ係数が、

の代わりにパンニング角度として

を使用することは別にして、左サラウンドチャンネルと同様に生成される点に留意されたい。

修正された左出力チャンネル
修正された左出力チャンネルは、以下のように修正されたＩＣＰＤ値を使用して生成される。

ここで

及び

修正された右出力チャンネル
修正された右出力チャンネルは、次式のように修正されたＩＣＰＤ値を使用して生成される。

ここで

及び

右チャンネルのα及びβ係数は、

の代わりにパンニング角度として

を使用することは別にして、左チャンネルと同様に生成される。

上述した主題は、２チャンネルダウンミックスから、中心、左サラウンド、右サラウンド、左、及び右チャンネルを生成するためのシステムである。しかしながら、本システムは、追加のパンニング挙動を定義することによって他の追加のオーディオチャンネルを生成するために容易に修正することができる。

Ｖ．Ｅ．トリプレットマトリクス化ケース
コーデック４００及び方法の実施形態により、非サバイビング（又はサープラス）チャンネルの位置が、３つのサバイビングチャンネル（又はサバイビングチャンネルの対応するサブバンド）の位置によって定義される三角形内にある場合、ダウンミックスされるチャンネルは、以下に示すようにトリプレットチャンネル関係のセットに従ってマトリックスにする必要がある。

ダウンミキシングケース
非サバイビングチャンネルは三角形を形成する３つのサバイビングチャンネルにダウンミックスされる。数学的には、信号、Ｓ、は、チャンネルトリプレットＣ₁／Ｃ₂／Ｃ₃にパンニングされた振幅である。図１９は、チャンネルトリプレットへの信号ソース、Ｓ、のパンニングを示す図である。図１９を参照すると、チャンネルＣ₁とＣ₂の間に位置付けられる信号ソースＳの場合、チャンネルＣ₁／Ｃ₂／Ｃ₃が以下の信号モデルに従って生成されることが前提になる。

ここでｒは基点からの信号ソースの距離であり（範囲［０，１］に正規化される）、θはチャンネルＣ₁とＣ₂の間の信号ソースの角度である（範囲［０，１］に正規化される）。チャンネルＣ₁／Ｃ₂／Ｃ₃に対する上記のチャンネルパンニング重みは、Ｃ₁／Ｃ₂／Ｃ₃にパンニングされた際に信号Ｓのパワーを保存するよう設計される点に注目されたい。

アップミキシングケース
トリプレットをアップミックスする場合の目的は、入力トリプレットＣ₁／Ｃ₂／Ｃ₃から４つの出力チャンネルＣ₁´／Ｃ₂´／Ｃ₃´／Ｃ₄´を作成することによってトリプレットにダウンミックスされた非サバイビングチャンネルを取得することである。図２０は、トリプレットにパンニングされていた非サバイビング第４チャンネルの抽出を示す図である。図２０を参照すると、第４出力チャンネルＣ₄の位置は、基準点であることが前提であり、他の３つの出力チャンネルＣ₁´／Ｃ₂´／Ｃ₃´の位置は、入力チャンネルＣ₁／Ｃ₂／Ｃ₃と同一であることが前提とされる。マルチプレットベースの空間マトリクス化復号器４２０の実施形態は、原信号成分Ｓの空間位置及び信号エネルギが保存されるように４つの出力チャンネルを生成する。

サウンドソースＳの元の位置は、マルチプレットベースの空間マトリクス化復号器４２０の実施形態には送信されず、入力チャンネルＣ₁／Ｃ₂／Ｃ₃自体から推定されるだけである。復号器４２０の実施形態は、Ｓのあらゆる任意の位置に対して適切に４つの出力チャンネルを生成することができる。この段落の残りの部分では、原信号成分Ｓが普遍性を失うことなく導出を単純化するために単位エネルギ（すなわち、｜Ｓ｜＝１）を有することを前提とすることができる。

チャンネルエネルギＣ ₁ ² ／Ｃ ₂ ² ／Ｃ ₃ ² からの

及び

推定値の導出

とする。

チャンネルエネルギ比
以下のエネルギ比は、この段落の残りの部分全体で使用するものとする。

これらの３つのエネルギ比は、範囲［０，１］にあり合計すると１になる。

Ｃ ₄ チャンネル合成
出力チャンネルＣ₄は以下の式を介して生成される。

ここでａ、ｂ、及びｃ係数は、推定角度

及び半径

に基づいて決定される。

目標は次式である。

a=da'、b=db'、c=dc'とすると、ここで、

である。

上記を代入すると以下になる。

ｄを解くと以下になる。

ａ、ｂ、及びｃ係数は従って以下になる。

最終的なａ、ｂ、及びｃ係数を、チャンネルエネルギ比だけを含む表現に単純化することができる。

Ｃ ₁ ´／Ｃ ₂ ´／Ｃ ₃ ´チャンネル合成
出力チャンネルＣ₁´／Ｃ₂´／Ｃ₃´は、出力チャンネルＣ₄で既に生成された信号成分が入力チャンネルＣ₁／Ｃ₂／Ｃ₃から適切に「取り除かれる」ように入力チャンネルＣ₁／Ｃ₂／Ｃ₃から生成される。

Ｃ ₁ ´チャンネル合成

とする。

目標は次式である。

ａ係数を次式に等しくする。

ｂ＝ｄｂ′びｃ＝ｄｃ′とすると、ここで、

上記を代入すると以下になる。

ｄを解くと以下になる。

Ｃ ₂ ´チャンネル合成

とする。

目標は以下になる。

ａ係数を次式に等しくする。

ｂ＝ｄｂ′及びｃ＝ｄｃ′とすると、ここで、

上記を代入すると以下になる。

ｄを解くと以下になる。

最終的なａ、ｂ、及びｃ係数は、チャンネルエネルギ比だけを含む表現に単純化することができる。

Ｃ ₃ ´チャンネル合成

とする。

目標は以下になる。

ａ係数を以下に等しくする。

ｂ＝ｄｂ′及びｃ＝ｄｃ′とすると、ここで

上記を代入すると以下になる。

ｄを解くと以下になる。

トリプレットチャンネル間位相差（ＩＣＰＤ）
チャンネル間位相差（ＩＣＰＤ）空間特性は、元のペアワイズＩＣＰＤ値からトリプレットに対して計算することができる。

ここで元のペアワイズＩＣＰＤ値は以下の式を使用して計算される。

サウンドソースはトリプレットチャンネルに振幅パンニングされており、３つのチャンネルが十分に相関付けられることを意味することをトリプレットモデルは前提にしている点に留意されたい。トリプレットＩＣＰＤ尺度は、３つのチャンネルの総合的な相関関係を推定するために使用することができる。トリプレットチャンネルが十分に相関付けられる（又はほぼ十分に相関付けられる）場合、トリプレットフレームワークを利用して高度に予測可能な結果をもつ４つの出力チャンネルを生成することができる。トリプレットチャンネルが相関付けられていない場合、相関付けられないトリプレットチャンネルが、予測できない結果を生じる可能性がある仮定される信号モデルを妨害するので、異なるフレームワーク又は方法を使用することが望ましい。

Ｖ．Ｆ．クアドラプレットマトリクス化ケース
コーデック４００及び方法の実施形態により、特定の対称条件が普及する場合、サープラスチャンネル（又はチャンネルサブバンド）は、好都合に四角形の中に入るに考えられる。このようなケースでは、コーデック４００及び方法の実施形態は、以下に示したクアドラプレットケースセットの関係に従うダウンミキシング（及び相補アップミキシング）を含む。

ダウンミキシングケース
非サバイビングチャンネルは、四角形を形成する４つのサバイビングチャンネルにダウンミックスされる。数学的には、信号ソース、Ｓ、は、チャンネルクアドラプレットＣ₁／Ｃ₂／Ｃ₃／Ｃ₄に振幅パンニングされる。図２１は、チャンネルクアドラプレットへの信号ソース、Ｓ、のパンニングを示す図である。図２１を参照すると、チャンネルＣ₁とＣ₂の間に位置付けられる信号ソースＳに対して、チャンネルＣ₁／Ｃ₂／Ｃ₃／Ｃ₄は以下の信号モデルに従って生成されると仮定される。

ここでｒは基点からの信号ソースの距離であり（範囲［０、１］に正規化される）、θはチャンネルＣ₁とＣ₂の間の信号ソースの角度である（範囲［０、１］）に正規化される）。チャンネルＣ₁／Ｃ₂／Ｃ₃／Ｃ₄に対する上記のチャンネルパンニング重みは、Ｃ₁／Ｃ₂／Ｃ₃／Ｃ₄にパンニングされた場合に信号Ｓのパワーを保存するよう設計される点に留意されたい。

アップミキシングケース
クアドラプレットをアップミックスする場合の目的は、入力クアドラプレットＣ₁／Ｃ₂／Ｃ₃／Ｃ₄から５つの出力チャンネルＣ₁´／Ｃ₂´／Ｃ₃´／Ｃ₄´／Ｃ₅を作成することによってクアドラプレットにダウンミックスされた非サバイビングチャンネルを取得することである。図２２は、クアドラプレットにパンニングされている非サバイビング第５チャンネルの抽出を示す図である。図２２を参照すると、第５出力チャンネルＣ₅の位置は基準点にあることが前提とされ、他の４つの出力チャンネルＣ₁´／Ｃ₂´／Ｃ₃´／Ｃ₄´の位置は、入力チャンネルＣ₁／Ｃ₂／Ｃ₃／Ｃ₄に同一であることが前提とされる。マルチプレットベースの空間マトリクス化復号器４２０の実施形態は、原信号成分Ｓの空間位置及び信号エネルギが保存されるように５つの出力チャンネルを生成する。

サウンドソースＳの元の位置は、復号器４２０の実施形態に送信されず、入力チャンネルＣ₁／Ｃ₂／Ｃ₃／Ｃ₄自体から推定されるだけである。復号器４２０の実施形態は、Ｓのあらゆる任意の位置に対しても５つの出力チャンネルを適切に生成できる必要がある。

段落の残りの部分では、普遍性を失うことなく導出を単純化するために原信号成分Ｓが単位エネルギを有する（換言すると、｜Ｓ｜＝１）であることを前提とすることができる。最初に、復号器はチャンネルエネルギＣ₁ ²／Ｃ₂ ²／Ｃ₃ ²／Ｃ₄ ²から

及び

推定値を導出する。

Ｃ₃及びＣ₄チャンネルの最小エネルギが上記の式で使用され（換言すると

）入力クアドラプレットＣ１／Ｃ２／Ｃ３／Ｃ４が前に識別された信号モデルの前提を壊す状況に対処する点に留意されたい。Ｃ３及びＣ４のエネルギレベルが互いに等しくなることを信号モデルは前提とする。しかし、これが任意の入力信号のケースでなくＣ₃がＣ₄に等しくない場合、出力チャンネルＣ₁´／Ｃ₂´／Ｃ₃´／Ｃ₄´／Ｃ₅´全体に渡る入力信号のリパンニングを制限することが望ましい。これは、最小出力チャンネルＣ５を合成して可能な限りその対応する入力チャンネルＣ₁／Ｃ₂／Ｃ₃／Ｃ₄に同様に出力チャンネルＣ₁´／Ｃ₂´／Ｃ₃´／Ｃ₄´を保存することによって達成することができる。この段落では、Ｃ₃及びＣ₄チャンネルにおける最小関数の使用が、この目的を達成しようとする。

チャンネルエネルギ比
以下のエネルギ比を、この段落の残りの部分全体を通して使用するものとする。

これらの４つのエネルギ比は、範囲［０，１］にあり和が１になる。

Ｃ ₅ チャンネル合成
出力チャンネルＣ₅は、以下の式を介して生成される。

ここでａ、ｂ、ｃ、及びｄ係数は、推定される角度

及び半径

に基づいて決定される。

目標は以下になる。

ａ＝ｅａ′、ｂ＝ｅｂ′、ｃ＝ｅｃ′、及びｄ＝ｅｄ′とすると、ここで

である。

上記を代入すると以下になる。

ｅを解くと以下になる。

ａ、ｂ、ｃ、及びｄ係数は従って以下になる。

最終的なａ、ｂ、ｃ、及びｄ係数をチャンネルエネルギ比だけを含む表現に単純化することができる。

Ｃ ₁ ´／Ｃ ₂ ´／Ｃ ₃ ´／Ｃ ₄ ´チャンネル合成
出力チャンネルＣ₁´／Ｃ₂´／Ｃ₃´／Ｃ₄´は、出力チャンネルＣ５で既に生成された信号成分が入力チャンネルＣ₁／Ｃ₂／Ｃ₃／Ｃ₄から適切に「取り除かれる」ように入力チャンネルＣ₁／Ｃ₂／Ｃ₃／Ｃ₄から生成される。

Ｃ ₁ ´チャンネル合成

目標：

ａ係数を以下に等しくする。

ｂ＝ｅｂ′、ｃ＝ｅｃ′、及びｄ＝ｅｄ′とすると、ここで

上記を代入すると以下になる。

ｅを解くと以下になる。

Ｃ ₂ ´チャンネル合成

目標

ａ係数を次式に等しくする。

である。

上記を代入すると以下になる。

ｅを解くと以下になる。

Ｃ ₃ ´チャンネル合成

目標：

ａ係数を次式に等しくする。

上記を代入すると以下になる。

ｅを解くと以下になる。

Ｃ ₄ ´チャンネル合成

目標：

ａ係数を以下に等しくする。

上記を代入すると以下になる。

ｅを解くと次式になる。

クアドラプレットチャンネル間位相差（ＩＣＰＤ）
チャンネル間位相差（ＩＣＰＤ）空間特性を、元のペアワイズＩＣＰＤ値からクアドラプレットに対して計算することができる。

ここで、元のペアワイズＩＣＰＤ値は以下の式を使用して計算される。

クアドラプレット信号モデルはサウンドソースがクアドラプレットチャンネルに振幅パンニングされていること、４つのチャンネルが十分に相関付けられることを意味することを前提にしている点に留意されたい。クアドラプレットＩＣＰＤ尺度を使用して４つのチャンネルの全体の相関関係を推定することができる。クアドラプレットチャンネルが十分に相関付けられる（又は、ほぼ十分に相関付けられる）場合、クアドラプレットフレームワークを利用して高度の予測可能な結果をもつ５つの出力チャンネルを生成することができる。クアドラプレットチャンネルが相関付けられない場合、相関付けられないクアドラプレットチャンネルが予測できない結果を生じる可能性がある前提される信号モデルを妨害するので異なるフレームワーク又は方法を使用することが望ましい。

Ｖ．Ｇ．拡張レンダリング
コーデック４００及び方法の実施形態は、ベクトルベースの振幅パンニング（ＶＢＡＰ）技術の新規な拡張を使用してスピーカアレイ全体にオーディオオブジェクト波形をレンダリングする。従来のＶＢＡＰ技術は、単位球面上の任意数の任意に配置されたラウドスピーカを使用して３次元サウンドフィールドを作成する。単位球面上の半球は、聴取者上方にドームを作成する。ＶＢＡＰによって、作成できる最もローカライズ可能なサウンドは、ある三角形配列を作り上げる最大３チャンネルから発生する。サウンドが２つのスピーカの間の線上にあるポイントから偶発的に発生する場合、ＶＢＡＰは、このような２つのスピーカを使用するだけである。サウンドが、スピーカが位置付けられている場所から発していると思われる場合は、ＶＢＡＰはその１つのスピーカだけを使用する。ＶＢＡＰは、サウンドを再生するために最大で３つのスピーカ及び最小で１つのスピーカを使用する。再生環境は３より多いスピーカを有することができるが、ＶＢＡＰ技術はこのようなスピーカのうち３つだけを使用してサウンドを再生する。

コーデック４００及び方法の実施形態によって使用される拡張レンダリング技術は、単位球面から単位球面内の任意のポイントへオーディオオブジェクトをレンダリングする。例えば、三角形が３つのスピーカを使用して作成されると仮定する。直線に沿ったポイントにソースを位置付ける従来のＶＢＡＰ方法を拡張し、この方法を３つのスピーカを使用するように拡張することによって、これらの３つのスピーカによって形成される三角形内の任意の場所にソースを位置付けることができる。レンダリングエンジンの目的は、近傍のスピーカへの漏れの量を最も少なくしてこのジオメトリによって作成される３Ｄベクトルに沿った正しい位置でサウンドを作成するための利得アレイを見付けることである。

図２３は、再生環境４８５及び拡張レンダリング技術の図である。聴取者１００は単位球面２３００に対して位置付けられる。単位球面２３００の半分だけが示されている（半球）が、拡張レンダリング技術は、全単位球面２３００上及びその中でのレンダリングをサポートする点に留意されたい。図２３は、半径方向距離、ｒ、方位角、ｑ、及び極角、ｊを含む球面座標系ｘ−ｙ−ｚが使用されることを示している。

マルチプレット及び球面は、ビットストリームの全波形の位置を網羅する必要がある。この概念は、必要であれば４又はそれ以上のスピーカに拡張することができるので、その中で機能する長方形又は他の多角形を作成して、単位球面２３００の半球上の正しい空間位置を正確に実現することができる。

ＤＴＳ−ＵＨＤレンダリングエンジンは、任意のラウドスピーカレイアウトへの点音源及び拡張音源の３Ｄパンニングを実行する。点音源は、空間における１つの特定のスポットから発しているように音が出るが、拡張音源は、「幅」及び／又は「高さ」をもつサウンドである。音源の空間的拡張に対するサポートは、拡張サウンドの領域をカバーする仮想ソースのモデリング寄与によって行われる。

図２４は、拡張レンダリング技術を使用して単位球面２３００上及びその中のオーディオソースのレンダリングを示す。オーディオソースは、この単位球面２３００上又はその中の任意の場所に位置付けることができる。例えば、第１オーディオソースを単位球面２４００上に位置付けることができ、第２オーディオソース２４１０及び第３オーディオソースを、拡張レンダリング技術を使用して単位球面内に位置付けることができる。

拡張レンダリング技術は、聴取者１００を取り囲む単位球面２３００上の点音源又は拡張音源をレンダリングする。しかし、単位球面２３００の内側の点音源では、音源を単位球面２３００から移動させる必要がある。拡張レンダリング技術は３つの方法を使用して単位球面２３００からオブジェクトを移動させる。

まず、波形がＶＢＡＰ（又は類似の）技術を使用して単位球面２３００上に位置付けられた状態で、半径、ｒに沿ってサウンドを引き込むために単位球面２３００の中心に位置付けられた音源によってクロスフェードされる。システムのスピーカの全てを使用してクロスフェードが実行される。

次に、高さのある音源では、近くで動いているような印象を聴取者１００に与えるために垂直平面にサウンドが拡張される。垂直にサウンドを拡張するのに必要なスピーカだけが使用される。第３に、ゼロの高さをもつことができるか又は持たなくてもよい水平平面の音源では、聴取者１００の近くを動いているような印象を与えるために再度水平にサウンドが拡張される。拡張を行うのに必要なのはアクティブスピーカだけである。

Ｖ．Ｈ．サバイビングチャンネルの例示的な選択
入力レイアウトのカテゴリが与えられると、サバイビングチャンネルの選択された数（Ｍ）、及び以下の法則は、実際の入力レイアウトに関わらず固有の方法で各非サバイビングチャンネルのマトリクス化を指示する。図２２−２５は、サバイビングレイアウトに存在しない入力レイアウトにおけるいずれのスピーカに対してもマトリックスマルチプレットのマッピングを指示するルックアップテーブルである。

以下の法則が図２５−２８に適用される点に注目されたい。入力レイアウトは５つのカテゴリに分類される。
１．高位チャンネルなしのレイアウト
２．前面にだけ高位チャンネルをもつレイアウト
３．取り囲む高位チャンネルをもつレイアウト（２つのハイトスピーカの間の分離＞１８０°ではない）
４．取り囲む高位チャンネル及びオーバヘッドチャンネルをもつレイアウト
５．取り囲む高位チャンネル、オーバヘッドチャンネル、及び聴取者面より下のチャンネルをもつレイアウト

加えて、各非サバイビングチャンネルは、サバイビングチャンネルのペア間でペアワイズマトリックスされる。一部のシナリオでは、トリプレット、クアドラプレット、又はサバイビングチャンネルの大きなグループを、単一の非サバイビングチャンネルをマトリクス化するために使用することができる。可能である場合は必ず、サバイビングチャンネルのペアが、１つの及び１つだけの非サバイビングチャンネルをマトリクス化するために使用される。

高位チャンネルが入力チャンネルレイアウトに存在する場合、少なくとも１つの高位チャンネルがサバイビングチャンネル間に存在することになる。必要に応じて、各ラウドスピーカリングの少なくとも３つの取り囲むサバイビングチャンネルを使用する必要がある（聴取者面リング及び高位平面リングに適用する）。

オブジェクト内包又はエンベッディッドダウンミックスが要求されない場合、提案される方法の最適化に対して他の可能性が存在する。第１に、非サバイビングチャンネル（このＮ−Ｍはこのシナリオでは「疑似サバイビングチャンネル」と呼ばれる）が非常に制限された帯域幅（例えばＦｃ＝３ｋＨｚ）で符号化される。第２に、Ｆｃの上の「疑似サバイビングチャンネル」のコンテンツを選択されたサバイビングチャンネルにマトリクス化する必要がある。第３に、「疑似サバイビングチャンネル」の低バンド及びサバイビングチャンネルの全てのバンドが符号化されストリームにパックされる。

上記の最適化は、ビットレートにおける大幅な低減と共に空間的精度における最小のインパクトを可能にする。復号器ＭＩＰＳを管理するために、復号器サブバンドサンプルがデマトリクス化合成フィルタバンクに挿入されるように、デマトリクス化のための時間−周波数表現の注意深い選択が必要とされる。一方では、デマトリクス化はＦｃ以下では適用されないので、デマトリクス化のために所望の周波数解像度の緩和が可能である。

Ｖ．Ｉ．更なる情報
上記の説明では、「リパンニング」は、ダウンミックスされたチャンネルを上回ってナンバリングされたディスクリートチャンネル（Ｎ＞Ｍ）がそれによって各チャンネルセットのダウンミックスから回復されるアップミキシング動作を指すことを理解されたい。これは、各セットに対して複数の知覚的に重要なサブバンドの各々で行われるのが好ましい。

チャンネルジオメトリが記録アーティスト又はエンジニア（ソフトウェア又はハードウェアを介して明示的又は暗示的のいずれかで）によって仮定された場合、及び、更にジオメトリ及び仮定されるチャンネル構成及びダウンミックスパラメータがある手段によって復号器／受信機に伝送された場合、この方法からの最適又は最適に近い結果が適切に近似されることを理解されたい。換言すると、オリジナル記録が２２チャンネルディスクリートミックスを使用した場合、上記に示したマトリクス化方法に従って７．１チャンネルダウンミックスにミックスダウンされた特定のマイクロフォン／スピーカジオメトリに基づいて、これらの仮定を何らかの手段によって受信機／復号器に伝送して相補的なアップミックスを可能にする必要がある。

１つの方法は、仮定されるオリジナルジオメトリ及びダウンミックス構成（構成Ｘにおける高位チャンネルをもつ２２−従来の配列における７．１へのダウンミックス）をファイルヘッダで伝送することである。これは、データ帯域幅の最小量及びリアルタイムでの不定期のアップデートしか必要としない。パラメータは、例えば既存のオーディオフォーマットで確保されたフィールドにマルチプレクシングされる。クラウドストレージ、ウェブサイトアクセス、ユーザ入力などを含む他の方法も利用可能である。

コーデック４００及び方法の一部の実施形態では、アップミキシングシステム６００（又は復号器）がオリジナルオーディオ信号及びチャンネル低減オーディオ信号の双方のチャンネルレイアウト及びミキシング係数を認識している。チャンネルレイアウト及びミキシング係数の知識は、アップミキシングシステム６００がチャンネル低減オーディオ信号をオリジナルオーディオ信号の適切な近似に正確に復号することを可能にする。チャンネルレイアウト及びミキシング係数の知識なしでは、アップミキサはオリジナルオーディオチャンネルの適正な近似を生成するのに必要な目標出力チャンネルレイアウト又は正確な復号器関数を決定することができない。

実施例として、オリジナルオーディオ信号は、以下のチャンネル位置、１）中心、２）前面左、３）前面右、４）左側サラウンド、５）右側サラウンド、６）左サラウンド背面、７）右サラウンド背面、８）左又は中心、９）右又は中心、１０）中心高位、１１）左高位、１２）右高位、１３）中心高位背面、１４）左高位背面、及び１５）右高位背面に対応する１５のチャンネルを含むことができる。帯域幅制約（又は他のいくつかの目的）に起因して、この高チャンネル数ディオ信号を８チャンネルを含むチャンネル低減オーディオ信号に低減することが望ましい。

ダウンミキシングシステム５００は、オリジナル１５チャンネルを、以下のチャンネル位置、１）中心、２）前面左、３）前面右、４）左サラウンド、５）右サラウンド、６）左高位、７）右高位、及び８）中心高位背面を含む８チャンネルオーディオ信号に符号化するよう構成することができる。ダウンミキシングシステム５００は、オリジナル１５チャンネルオーディオ信号をダウンミキシングする時に以下のミキシング係数を使用するよう更に構成することができる。

ここで、一番上の行はオリジナルチャンネルに対応し、左端の列はダウンミックスされたチャンネルに対応し、数字の係数は、各オリジナルチャンネルが各ダウンミックスチャンネルに寄与したミキシング重みに対応する。

上記の実施例のシナリオでは、アップミキシングシステム６００がチャンネル低減信号からオリジナルオーディオ信号の近似を最適に又はほぼ最適に復号するために、アップミキシングシステム６００は、オリジナル及びダウンミックスされたチャンネルレイアウト（すなわち、Ｃ、ＦＬ、ＦＲ、ＬＳＳ、ＲＳＳ、ＬＳＲ、ＲＳＲ、ＬｏＣ、ＲｏＣ、ＣＨ、ＬＨ、ＲＨ、ＣＨＲ、ＬＨＲ、ＲＨＲ及びＣ、ＦＬ、ＦＲ、ＬＳ、ＲＳ、ＬＨ、ＲＨ、ＣＨＲ、それぞれ）及びダウンミックスプロセス中に使用されるミキシング係数（すなわち、上記のミキシング係数マトリックス）の知識を有することができる。この情報の知識によって、アップミキシングシステム６００は、使用された実際のダウンミックス構成を十分に認識するので上記に示されたマトリクス化／デマトリクス化数学フレームワークを使用して各出力チャンネルに必要な復号関数を正確に決定することができる。例えば、アップミキシングシステム６００は、ダウンミックスされたＬＳ及びＲＳチャンネルから出力ＬＳＲチャンネルを復号することを知り、ディスクリートＬＳＲチャンネル出力（すなわち、０．９２４及び０．３８３それぞれ）を暗示するＬＳとＲＳチャンネルの間の相対的なチャンネルレベルを知ることになる。

アップミキシングシステム６００がオリジナル及びチャンネル低減オーディオ信号に関する関連のチャンネルレイアウト及びミキシング係数情報を取得することができない場合、例えばデータチャンネルがダウンミキシングシステム５００からアップミキサにこの情報を送信するために利用できない場合、又は受信されたオーディオ信号が、このような情報が決定されていない又は未知であるレガシー又は非ダウンミックス信号である場合、次にアップミキシングシステム６００のための適切な復号関数を選択するためにヒューリスティックを使用することによって満足のいくアップミックスを実行することができる。これらの「ブラインドアップミックス」ケースでは、チャンネル低減レイアウト及び目標アップミックスレイアウトのジオメトリを使用して適切な復号関数を決定することができる。

例示的に、所与の出力チャンネルの復号関数は、その出力チャンネルの位置を入力チャンネルのペア間の最も近いラインセグメントと比較することによって決定することができる。例えば、所与の出力チャンネルが入力チャンネルのペアの間に直接ある場合、出力チャンネルへのそのペアからの等しい強度の共通信号成分を抽出することが決定される。同様に、所与の出力チャンネルが入力チャンネルの１つに接近した位置する場合、復号関数はこのジオメトリを組み入れて、近いチャンネルに大きな強度を与えることができる。代わりに、オーディオ信号の記録、ミキシング、又は生成技術に関する仮定を使用して、適切な復号関数を決定することができる。例えば、高チャンネル成分は、映画からの「フライオーバ」効果中に、７．１オーディオ信号の前面及び背面チャンネルペア（すなわち、Ｌ−Ｌｓｒ及びＲ−Ｒｓｒペア）全体に渡ってパンニングできるという仮定のような、特定のチャンネル間の関係に関する仮定を作るために復号関数は適切とすることができる。

ダウンミキシングシステム５００及びアップミキシングシステム６００で使用されるオーディオチャンネルは、特定のスピーカ位置に意図された実際のスピーカ供給信号に従う必要はないことを理解されたい。コーデック４００及び方法の実施形態は、いわゆる「オブジェクトオーディオ」フォーマットにも適用可能であり、オーディオオブジェクトは、空間的位置、利得、等化、残響、拡散等の付随のメタデータ情報と共に別々に記憶及び送信される別個のサウンド信号に対応する。一般的に、オブジェクトオーディオフォーマットは、符号器から復号器に同時に送信する必要がある多くの同期されたオーディオオブジェクトを含む。

データ帯域幅が制限されるシナリオでは、多数の同時オーディオオブジェクトの存在が、各別個のオーディオオブジェクト波形を別々に符号化する必要性による問題を生じる可能性がある。このケースでは、コーデック４００及び方法の実施形態は、符号化する必要があるオーディオオブジェクト波形の数を低減するために適用することができる。例えば、オブジェクトベースの信号にＮオーディオオブジェクトが存在する場合、コーデック４００及び方法の実施形態のダウンミックスプロセスを使用してオブジェクトの数をＭに低減することができ、ここでＮはＭより大きい。次に圧縮方式がＭオブジェクトを符号化することができ、オリジナルＮオブジェクトが必要とするよりも小さいデータ帯域幅しか必要としない。

復号器側では、アップミックスプロセスを使用して、オリジナルＮオーディオオブジェクトの近似を回復することができる。次にレンダリングシステムが付随のメタデータ情報を使用するオーディオオブジェクトを、各チャンネルが実際の再生環境におけるスピーカ位置に対応するチャンネルベースのオーディオ信号にレンダリングすることができる。例えば、共通のレンダリング方法はベクトルベースの振幅パンニング、又はＶＢＡＰである。

ＶＩ．他の実施形態及び例示的な動作環境
以下に説明するものより多い他の変種がこの文書から明らかになるであろう。例えば、実施形態に応じて、本明細書で説明する方法及びアルゴリズムのいずれの特定の動作、事象、又は関数も、異なる順序で実行することができ、追加、統合、又は互いに除外することができる（説明する動作又は事象の全てが本方法及びアルゴリズムの実施に必要ではない）。また、特定の実施形態では、順次ではなく、マルチスレッド処理、割り込み処理、又はマルチプロセッサ又はプロセッサコア又は他の並行アーキテクチャなどを介して動作又は事象を同時に実行することができる。加えて、互いに作用することができる異なる機械及びコンピュータシステムによって異なるタスク又は処理を実行することができる。

本明細書で開示した実施形態に関して説明した様々な例証の論理的ブロック、モジュール、方法、及びアルゴリズム処理及びシーケンスは、電子ハードウェア、コンピュータソフトウェア、又はこの双方の組合せとして実施することができる。このハードウェアとソフトウェアの互換性を分かり易く示すために、様々な例証の構成要素、ブロック、モジュール、及び処理動作を、その機能の点から一般的に上述している。このような機能がハードウェア又はソフトウェアとして実施されるかどうかは、全体的なシステムに課される特定の応用及び設計制約に依存する。説明した機能は、各特定の応用に関する様々な方法で実施することができるが、このような実施の決定は、本文書の範囲から逸脱するものとして解釈すべきではない。

本明細書で開示した実施形態に関して説明した様々な例証の論理的ブロック及びモジュールは、本明細書で説明した機能を実行するよう設計された、汎用プロセッサ、処理デバイス、１又は２以上の処理デバイスを有するコンピュータデバイス、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又は他のプログラマブル論理デバイス、離散的ゲート又はトランジスタ論理、離散的ハードウェア構成要素、又はこれらのあらゆる組合せなどの機械によって実施又は実行することができる。汎用プロセッサ及び処理デバイスは、マイクロプロセッサとすることができるが、代わりに、プロセッサを、コントローラ、マイクロコントローラ、又は状態機械、同じものの組合せなどにすることができる。プロセッサは、ＤＳＰ及びマイクロプロセッサの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連動した１又は２以上のマイクロプロセッサ、又はいずれかの他のこのような構成などのコンピュータデバイスの組合せとして実施することもできる。

本明細書で説明するマルチプレットベースの空間的マトリクス化コーデック４００及び方法の実施形態は、多数のタイプの汎用又は特定用途コンピュータシステム環境又は構成の中で動作可能である。一般的に、コンピュータ環境は、制限されるわけではないが、例を挙げると、１又は２以上のマイクロプロセッサに基づくコンピュータシステム、メインフレームコンピュータ、デジタル信号プロセッサ、携帯式コンピュータデバイス、パーソナルオーガナイザ、デバイスコントローラ、機器内のコンピュータエンジン、移動電話、デスクトップコンピュータ、移動コンピュータ、タブレットコンピュータ、スマートフォン、及びコンピュータを組み込んだ機器を含むいずれのタイプのコンピュータシステムを含むことができる。

このようなコンピュータデバイスは、典型的には、制限されるわけではないが、パーソナルコンピュータ、サーバコンピュータ、手持ち式コンピュータデバイス、ラップトップ又は移動コンピュータ、携帯電話及びＰＤＡなどの通信デバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル消費者電子機器、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、オーディオ又はビデオ媒体プレーヤなどを含む少なくとも一部の最小コンピュータ機能を有するデバイスに見出すことができる。一部の実施形態では、コンピュータデバイスが１又は２以上のプロセッサを含む。各プロセッサは、デジタル信号プロセッサ（ＤＳＰ）、超長命令語（ＶＬＩＷ）、又は他のマイクロコントローラなどの専用マイクロプロセッサとすることができるか、又はマルチコアＣＰＵにおける専用グラフィクス処理ユニット（ＧＰＵ）ベースのコアを含む１又は２以上の処理コアを有する従来型の中央処理ユニット（ＣＰＵ）とすることができる。

本明細書で開示した実施形態に関して説明した方法、処理、又はアルゴリズムの処理動作は、ハードウェアで直接、プロセッサによって実行されるソフトウェアモジュールで、又は２つのいずれかの組合せで実施することができる。ソフトウェアモジュールは、コンピュータデバイスによってアクセスすることができるコンピュータ可読媒体に包含することができる。コンピュータ可読媒体は、取り外し可能、取り外し不可、又はこのある組合せのいずれかとする揮発性及び不揮発性媒体の双方を含む。コンピュータ可読媒体は、コンピュータ可読又はコンピュータ実行可能命令、データ構造、プログラムモジュール、又は他のデータなどの情報を記憶するために使用される。例によって、及び制限ではなく、コンピュータ可読媒体は、コンピュータ記憶媒体及び通信媒体を含むことができる。

コンピュータ記憶媒体は、制限されるわけではないが、コンピュータ又は機械可読媒体又はブルーレイディスク（ＢＤ）のような記憶デバイス、デジタル多機能ディスク（ＤＶＤ）、コンパクトディスク（ＣＤ）、フロッピーディスク、テープドライブ、ハードドライブ、光学ドライブ、固体メモリデバイス、ＲＡＭメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、フラッシュメモリ又は他のメモリ技術、磁気カセット、磁気テープ、磁気ディスク記憶装置、又は他の磁気記憶デバイス、又は所望の情報を記憶するために使用することができ且つ１又は２以上のコンピュータデバイスによってアクセスすることができるいずれかの他のデバイスを含む。

ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、取り外し可能ディスク、ＣＤ−ＲＯＭ、又はいずれかの他の形態の非一時的コンピュータ可読記憶媒体、複数の媒体、又は当技術で公知の物理的コンピュータ記憶装置に常駐することができる。例示的な記憶媒体はプロセッサに結合することができ、これによってプロセッサは、記憶媒体から情報を読み取り且つ記憶媒体に情報を書き込むことができる。代替的に、記憶媒体はプロセッサと一体にすることができる。プロセッサ及び記憶媒体は、特定用途向け集積回路（ＡＳＩＣ）に常駐することができる。ＡＳＩＣはユーザ端末に常駐することができる。もしくは、プロセッサ及び記憶媒体はユーザ端末の離散的な構成要素として常駐することができる。

本文書で使用する「非一時的」という句は、「永続的又は長命」を意味する。「非一時的コンピュータ可読媒体」という句は、一時的な伝播信号という唯一の例外を除いていずれかの及び全てのコンピュータ可読媒体を含む。これは、例示的かつ非限定的にレジスタメモリ、プロセッサキャッシュ及びランダムアクセスメモリ（ＲＡＭ）などの非一時的コンピュータ可読媒体を含む。

コンピュータ可読又はコンピュータ実行可能命令、データ構造、プログラムモジュールなどの情報の保存は、多種多様な通信媒体を使用して、１又は２以上の変調データ信号、電磁波（搬送波など）、又は他の転送機構又は通信プロトコルを符号化することによっても達成することができ、いずれの有線又は無線情報配信機構も含む。一般的に、これらの通信媒体は、その特徴セットの１又は２以上を有するか又は信号の情報又は命令を符号化するような方式で変更された信号を指す。例えば、通信媒体は、１又は２以上の変調データ信号を伝送する有線ネットワーク又は直接有線接続などの有線媒体、及び１又は２以上の変調データ信号又は電磁波を送信、受信、又は送受信するための音響、無線周波数（ＲＦ）、赤外線、レーザ、及び他の無線媒体などの無線媒体を含む。上記のいずれの組合せも通信媒体の範囲内に含むべきである。

本明細書で説明したマルチプレットベースの空間的マトリクス化コーデック４００及び方法の様々な実施形態の一部又は全部を実施するソフトウェア、プログラム、コンピュータプログラム製品の１つ又はいずれの組合せ、又はその一部分も、コンピュータ実行可能命令又は他のデータ構造の形態のコンピュータ又は機械可読媒体又は記憶デバイス及び通信媒体のいずれの所望の組合せからも記憶、受信、送信、又は読み取ることができる。

本明細書で説明したマルチプレットベースの空間的マトリクス化コーデック４００及び方法の実施形態は、コンピュータデバイスによって実行されるプログラムモジュールのようなコンピュータ実行可能命令の一般的な概念で説明することができる。一般的に、プログラムモジュールは、ルーチン、プログラム、オブジェクト、構成要素、データ構造などを含み、特定のタスクを実行するか又は特定のアブストラクトデータタイプを実施する。本明細書で説明した実施形態は、タスクが１又は２以上の遠隔処理デバイスによって実行される分散コンピュータ環境で、又は１又は２以上の通信ネットワークを介してリンクされる１又は２以上のデバイスのクラウド内で実施することもできる。分散コンピュータ環境では、プログラムモジュールを、媒体記憶デバイスを含むローカル及びリモートのコンピュータ記憶媒体の双方に位置付けることができる。また、前述の命令を、プロセッサを含むことができるか又は含まなくてもよいハードウェア論理回路として部分的に又は全体的に実施することができる。

特に、「ｃａｎ（可能性がある）」、「ｍｉｇｈｔ（できた）」、「ｍａｙ（できる）」「ｅ．ｇ．（例えば）」などのような本明細書で使用した条件言語は、具体的に他に記述がない限り、又は使用される通りに文脈内で他に理解されない限り、一般的に特定の実施形態が含むことを伝えることを意図され、他の実施形態は、特定の特徴、要素、及び／又は状態を含まない。従ってこのような条件的言語は、特徴、要素及び／又は状態が１又は２以上の実施形態に所望のいずれかの方式であること、又は１又は２以上の実施形態が、これらの特徴、要素、及び／又は状態が、いずれかの特定の実施形態に含まれる又は実行されるかどうかというオーサー入力又は指示あり又はなしで決定するための論理を必ず含むことを意味するとは一般的に意図されないものとする。「ｃｏｍｐｒｉｓｉｎｇ（含む）」、「ｉｎｃｌｕｄｉｎｇ（包含する）」、「ｈａｖｉｎｇ（有する）」などの語は同義であり、制約のない方式で包括的に使用され、付加的な要素、特徴、動作、作用などを除外しない。「ｏｒ（又は）」という語は、その包括的な意味で使用され（及びその排他的な意味では使用されない）、例えば使用された時に、要素のリストを接続し、「ｏｒ（又は）」という語は、リストにある要素の１つ、一部、又は全てを意味する。

上記に詳述した説明は、様々な実施形態に適用されるものとして図示、記述、及び指示しているが、例証したデバイス又はアルゴリズムの形態及び詳細における様々な省略、置換、及び変更が、本開示の精神から逸脱することなく行い得ることが理解されるであろう。認識されるように、本明細書で説明した本発明の特定の実施形態は、本明細書に示した特徴及び利点の全てを提供しない形態内で実施することができ、一部の特徴を他とは別に使用又は実施することができる。

本主題を構造的特徴及び方法動作に固有の言語で説明しているが、添付の請求項に定義した主題は上述した特定の特徴又は動作に必ずしも制限されないことを理解されたい。逆に、上述した特定の特徴及び動作は、請求項を実施する例示的な形態として開示される。

１００聴取者
４００マルチプレットベースの空間的マトリクス化コーデック
４１０マルチプレットベースの空間的マトリクス化符号器
４２０マルチプレットベースの空間的マトリクス化復号器
４３０コンテンツ作成環境
４３５複数のマイクロフォン
４４０Ｎ．ｘミックス
４５０Ｍ．ｘダウンミックス
４６０配信環境
４６５ネットワーク
４７０媒体
４７５Ｍ．ｘストリーム
４８０再構成されたＮ．ｘコンテンツ
４８５再生環境

Claims

Ｎチャンネルを有する入力オーディオ信号を伝送するための１又は２以上の処理デバイスによって実行される方法であって、
所望のビットレートに基づいてダウンミックス出力オーディオ信号のためのＭチャンネルを選択する段階であって、Ｎ及びＭはゼロでない正の整数でありＮはＭより大きい、段階と、
前記１又は２以上の処理デバイス及びマルチプレットパン法則の組合せを使用して前記ＮチャンネルをＭチャンネルにダウンミックス及び符号化して、Ｍマルチプレット符号化チャンネルを包含するパルス符号変調（ＰＣＭ）ベッドミックスを取得する段階と、
前記ＰＣＭベッドミックスを前記所望のビットレートで又はそれ以下のビットレートで伝送する段階と、
前記複数のＭマルチプレット符号化チャンネルを分離する段階と、
前記１又は２以上の処理デバイス及びマルチプレットパン法則の組合せを使用して前記Ｍマルチプレット符号化チャンネルの各々をアップミックス及び復号して、前記Ｍマルチプレット符号化チャンネルから前記Ｎチャンネルを抽出して、Ｎチャンネルを有する結果として得られる出力オーディオ信号を取得する段階と、
再生チャンネルレイアウトを有する再生環境で前記結果として得られる出力オーディオ信号をレンダリングする段階と、
を含む方法。
ダウンミックス及び符号化する段階は、クアドラプレットパン法則を使用して前記Ｎチャンネルの１つを前記Ｍチャンネルの４つにダウンミックス及び符号化して、クアドラプレット符号化チャンネルを取得する段階を更に含む、請求項１に記載の方法。
ダウンミックス及び符号化する段階は、前記Ｎチャンネルの１つを前記Ｍチャンネルの４つにダウンミックス及び符号化してクアドラプレット符号化チャンネルを取得するようにクアドラプレットパン法則と、前記Ｎチャンネルの１つを前記Ｍチャンネルの３つにダウンミックス及び符号化してトリプレット符号化チャンネルを取得するようにトリプレットパン法則とを組み合わせて使用する段階を更に含む、請求項１に記載の方法。
前記クアドラプレット符号化チャンネルで使用される前記４つのＭチャンネルの少なくとも一部は、前記トリプレット符号化チャンネルで使用される前記３つのＭチャンネルと同じである、請求項３に記載の方法。
コンテンツ作成環境チャンネルレイアウトを有するコンテンツ作成環境でオーディオコンテンツをミキシングする段階と、
前記コンテンツ作成環境チャンネルレイアウト及びＭマルチプレット符号化チャンネルを包含する前記ＰＣＭベッドミックスをビットストリームに多重化して前記ビットストリームを前記所望のビットレート又はそれ以下のビットレートで伝送する段階と、
を更に含む、請求項１に記載の方法。
前記入力オーディオ信号の前記Ｎチャンネルのコンテンツ作成環境チャンネルレイアウトをカテゴライズして、前記コンテンツ作成環境チャンネルレイアウトのカテゴリを取得する段階と、
抽出されたマルチプレット符号化チャンネルを前記カテゴリ及びルックアップテーブルに基づいて前記再生チャンネルレイアウトにマッピングする段階と、
を更に含む、請求項１に記載の方法。
前記コンテンツ作成環境チャンネルレイアウトを前記以下の５つのカテゴリ、（ａ）高位チャンネルなしのレイアウト、（ｂ）前面にだけ高位チャンネルのあるレイアウト、（ｃ）取り囲む高位チャンネルを有するレイアウト、（ｄ）取り囲む高位チャンネル及びオーバヘッドチャンネルを有するレイアウト、（ｅ）取り囲む高位チャンネル、オーバヘッドチャンネル、及び聴取者の耳の面より下方のチャンネルを有するレイアウトの１又は２以上にカテゴライズする段階を更に含む、請求項６に記載の方法。
式を使用してＭを選択する段階を更に含み、

ここで、ＭｉｎＢＲ＿Ｍｔｒｘは、マトリックスチャンネル符号化に必要な１チャンネル当たりの最小ビットレートであり、ＢＲ＿Ｔｏｔは合計の利用可能なビットレートであり、ＭｉｎＢＲ＿Ｄｉｓｃｒは、ディスクリートチャンネル符号化に必要な１チャンネル当たりの最小ビットレートである、請求項１に記載の方法。
入力ラウドネス対出力ラウドネスの比によって前記Ｍチャンネルの各々をスケーリングしてラウドネス正規化を達成する段階を更に含む、請求項１に記載の方法。
前記ラウドネス正規化は、パーチャンネルラウドネス正規化であり、

として所与の出力チャンネルを定義する段階と、

として前記パーチャンネルラウドネス正規化を定義する段階と、
を更に含み、
ここで、

は、

として与えられるチャンネル依存利得であり、
Ｌ（ｘ）はラウドネス推定関数である、請求項９に記載の方法。
前記ラウドネス正規化は、合計のラウドネス正規化であり、

として前記合計のラウドネス正規化を定義する段階を更に含み、
ここで、ｇ［ｎ］は、

として与えられるチャンネル独立利得である、請求項１０に記載の方法。
Ｎチャンネルを有するオーディオ信号をマトリクスダウンミックスするためのコンピュータデバイスによって実行される方法であって、
サバイビングチャンネルが合計でＭチャンネルになるように、前記Ｎチャンネルのどれが前記サバイビングチャンネルであるか及びどれが非サバイビングチャンネルであるか選択する段階であって、Ｎ及びＭはゼロでない正の整数でありＮはＭより大きい、段階と、前記コンピュータデバイス及びマルチプレットパン法則を使用して、前記非サバイビングチャンネルの各々を前記サバイビングチャンネルのマルチプレットにダウンミックスしてパンニング重みを取得する段階であって、ダウンミックスする段階は、
一部の非サバイビングチャンネルを、ダブレットパン法則を使用してサバイビングチャンネルダブレットにダウンミックスする段階と、
一部の非サバイビングチャンネルを、トリプレットパン法則を使用してサバイビングチャンネルトリプレットにダウンミックスする段階と、
一部の非サバイビングチャンネルを、クアドラプレットパン法則を使用してサバイビングチャンネルクアドラプレットにダウンミックスする段階と
を含むことを特徴とする段階と、
前記サバイビングチャンネルダブレット、トリプレット、及びクアドラプレットを、Ｍチャンネルを有するビットストリームに符号化及び多重化して、再生環境でレンダリングするためのビットストリームを送信する段階と、
を含む方法。
前記クアドラプレットパン重みは、（ａ）再生環境の基準点からの信号ソース、Ｓ、の距離、ｒ、及び（ｂ）前記サバイビングチャンネルクアドラプレットにおける第１チャンネルと第２チャンネルの間の前記信号ソース、Ｓ、の角度、θ、に基づいて生成される、請求項１２に記載の方法。
式

を使用して、前記サバイビングチャンネルクアドラプレット、Ｃ₁、Ｃ₂、Ｃ₃、及びＣ₄のパン重みを生成する段階を更に含む、請求項１３に記載の方法。
Ｍチャンネルを有するオーディオ信号をマトリックスアップミックスするためのコンピュータデバイスによって実行される方法であって、
前記Ｍチャンネルを、ダブレットチャンネル、トリプレットチャンネル、及びクアドラプレットチャンネルに分離する段階と、
前記コンピュータデバイス及びクアドラプレットパン法則を使用して前記クアドラプレットチャンネルから第１チャンネルを抽出する段階と、
前記第１チャンネルが抽出された後、トリプレットパン法則を使用して前記トリプレットチャンネルから第２チャンネルを抽出する段階と、
前記第２チャンネルが抽出された後、ダブレットパン法則を使用して前記ダブレットチャンネルから第３チャンネルを抽出する段階と、
前記第１チャンネル、第２チャンネル、第３チャンネル、及びＭチャンネルを互いに多重化して、Ｎチャンネルを有する出力信号を取得する段階と、
前記出力信号を再生環境でレンダリングする段階と、
を含む、方法。
前記第１チャンネルを抽出する段階は、係数によって各々が加重された前記クアドラプレットチャンネルの４つのチャンネルの和として前記第１チャンネルを取得する段階を更に含む、請求項１５に記載の方法。
式、

を使用して、前記第１チャンネル、Ｃ₅を取得する段階を更に含み、
前記ａ、ｂ、ｃ、及びｄ係数は、次式

によって与えられ、
ここで、

はＣ₁及びＣ₂の間の前記Ｃ₅の推定角度であり、

は、再生環境の基点からのＣ₅の距離である、請求項１６に記載の方法。
前記再生環境における聴取者の周りのイメージ単位球面を定義する段階であって、前記聴取者は前記単位球面の中心にいる、段階と、
半径距離、ｒ、方位角、ｑ、及び極角度、ｊを含む前記単位球面上のイメージ球座標系を定義する段階と、
前記第１チャンネルを、前記単位球面の内側の位置にリパンニングする段階と、
を更に含む、請求項１５に記載の方法。
前記単位球面レンダリング技術に前記第１チャンネルを位置付ける段階と、
前記半径距離、ｒに沿って前記第１チャンネルを引き込むために、前記再生環境の全スピーカを使用して前記単位球面の中心に位置付けられたソースで前記第１チャンネルをクロスフェードする段階と、
を更に含む、請求項１８に記載の方法。
前記オーディオ信号で符号化されたオーディオコンテンツをミキシングするよう使用された前記スピーカレイアウトを示す前記オーディオ信号からのコンテンツ作成環境スピーカレイアウトを抽出する段階を更に含む、請求項１５に記載の方法。