JP2014515906A

JP2014515906A - オーディオをアップミックスして３ｄオーディオを生成する方法とシステム［関連出願との相互参照］この出願は、２０１１年４月１８日に出願された米国特許仮出願第６１／４７６，３９５号の優先権を主張するものである。この文献はここにその全体を参照援用する。

Info

Publication number: JP2014515906A
Application number: JP2014506437A
Authority: JP
Inventors: エルトゥインゴ，ニコラ; キューロビンソン，チャールズ; シャバニュ，クリストフ; ヒルヴォーネン，トニ; グリフィス，パトリック
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション; ドルビー・インターナショナル・アーベー
Priority date: 2011-04-18
Filing date: 2012-04-05
Publication date: 2014-07-03
Anticipated expiration: 2032-04-05
Also published as: EP2700250B1; CN103493513B; CN103493513A; US9094771B2; US20140037117A1; JP5893129B2; WO2012145176A1; EP2700250A1

Abstract

ある実施形態では、Ｎフルレンジチャンネルを含む入力オーディオをアップミックスしてＮ＋Ｍフルレンジチャンネルを含む３Ｄ出力オーディオを生成する方法である。ここで、Ｎ＋Ｍフルレンジチャンネルはリスナから異なる距離にある少なくとも２つのスピーカを含む複数のスピーカによりレンダされることを意図されている。Ｎチャンネル入力オーディオは、２Ｄオーディオプログラムであり、Ｎフルレンジチャンネルは、リスナから名目的に等距離にあるＮ個のスピーカによりレンダされることを意図されている。３Ｄ出力オーディオを生成するための入力オーディオのアップミキシングは、一般的には、入力オーディオに対応する立体３Ｄビデオから自動的に決定されたキューに応じて、または入力オーディオから自動的に決定されたキューに応じて、自動的に行われる。他の態様は、本発明方法の実施形態を実行するように構成されたシステム、及び本発明方法の実施形態を実装するコードを記憶したコンピュータ読み取り可能媒体を含む。

Description

本発明は、マルチチャンネルオーディオをアップミックスしてマルチチャンネル３Ｄ出力オーディオを生成するシステムと方法に関する。典型的な実施形態は、通常はリスナから等距離にあるスピーカによりレンダリングするための（Ｎフルレンジチャンネルを有する）２Ｄ入力オーディオをアップミックスして、Ｎ＋Ｍフルレンジチャンネルを有する３Ｄ出力オーディオを生成するシステムと方法である。ここで、Ｎ＋Ｍフルレンジチャンネルは、リスナから異なる距離にある少なくとも２つのスピーカを含む複数のスピーカによりレンダリングするものである。

特許請求の範囲も含めて、本開示では、信号又はデータに対する操作（例えば、信号またはデータのフィルタリングやスケーリング）を行うとの表現は、広い意味で、その信号やデータに直接的にその操作を行うこと、またはその信号やデータの処理されたバージョン（例えば、その操作の実行に先立ち予備的フィルタリングをされた信号のバージョン）に操作を行うことを意味する。

特許請求の範囲を含む本開示では、「システム」とは、広い意味で、デバイス、システム、またはサブシステムを意味する。例えば、デコーダを実装するサブシステムは、デコーダシステムと呼ばれ、かかるサブシステム（例えば、複数の入力に対するＸ個の出力信号を生成するシステムであって、サブシステムがその入力のうちのＭ個を生成し、他のＸ−Ｍ個の入力は外部ソースから受け取られるもの）を含むシステムもデコーダシステムと呼ばれることがある。

特許請求の範囲を含む本開示を通して、以下の表現は次のように定義される。

スピーカとラウドスピーカは同義で使われ、サウンド放射トランスデューサを指す。この定義には、複数のトランスデューサ（例えば、ウーファとツイータ）として実装されたラウドスピーカを含む。

スピーカフィード：ラウドスピーカに直接印加されるオーディオ信号、または増幅器とラウドスピーカに順次的に印加される信号。

チャンネル：所望のまたは名目的な位置にあるラウドスピーカへの直接的なオーディオ信号の印加と等価な方法でレンダリングされるオーディオ信号。所望の位置は、ラウドスピーカの典型的な場合である静止したものでも、動的なものでもよい。

オーディオプログラム：一組のオーディオチャンネル。

レンダ：オーディオプログラムを一または複数のスピーカフィードに変換するプロセス、またはオーディオプログラムを一または複数のスピーカフィードに変換し、一または複数のラウドスピーカを用いてスピーカフィードをサウンドに変換するプロセス（後者の場合、レンダリングは時としてラウドスピーカ「による」レンダリングと言う）。オーディオチャンネルは、信号を所望の位置にある物理的ラウドスピーカに直接印加することにより、（所望の位置「において」）レンダできることは自明であるが、または一または複数のオーディオチャンネルは、かかる自明なレンダリングと（リスナにとって）実質的に等価であるように設計された様々な仮想化技術の１つを用いてレンダすることもできる。後者の場合、各オーディオチャンネルは、一または複数のスピーカフィードに変換され、既知のロケーションにあるラウドスピーカに印加される。既知のロケーションは、一般的に、所望の位置とは異なる。そのスピーカフィードに応答してラウドスピーカにより放射されるサウンドは、その所望の位置から放射されたモノとして知覚される。かかる仮想化技術の例には、ヘッドホンを介したバイノーラルレンダリング（例えば、ヘッドホン装着者に対して７．１チャンネルのサラウンドサウンドをシミュレーションするドルビーヘッドホン処理を用いたもの）とウェーブフィールド合成が含まれる。

立体３Ｄビデオ：表示された時、ビュア（viewer）の２つの目の網膜への表示シーンの少し異なる２つのプロジェクションを用いて、奥行き感覚を作り出すビデオ。

アジマス（またはアジマス角）：水平面内における、リスナ／ビュアに対するソースの角度。一般的には、０°のアジマス角は、そのソースがリスナ／ビュアの真ん前にあることを示し、ソースがリスナ／ビュアの周りを反時計回り方向に動くにつれ、アジマス角は増加する。

エレベーション（またはエレベーション角）：垂直面内における、リスナ／ビュアに対するソースの角度。一般的に、０°のエレベーション角は、ソースがリスナ／ビュアと同じ水平面内にあることを示し、ソースがビュアに対して（０°から９０°の範囲で）上向きに動くにつれ、エレベーション角は増加する。

Ｌ：レフトフロントオーディオチャンネル。一般的に、アジマスが約３０°、エレベーションが０°に配置されたスピーカによりレンダされる。

Ｃ：センタフロントオーディオチャンネル。一般的に、アジマスが約０°、エレベーションが０°に配置されたスピーカによりレンダされる。

Ｒ：ライトフロントオーディオチャンネル。一般的に、アジマスが約−３０°、エレベーションが０°に配置されたスピーカによりレンダされる。

Ｌｓ：レフトサラウンドオーディオチャンネル。一般的に、アジマスが約１１０°、エレベーションが０°に配置されたスピーカによりレンダされる。

Ｒｓ：ライトサラウンドオーディオチャンネル。一般的に、アジマスが約−１１０°、エレベーションが０°に配置されたスピーカによりレンダされる。

フルレンジチャンネル：オーディオプログラムの、各低周波数効果チャンネル以外のすべてのオーディオチャンネル。典型的なフルレンジチャンネルは、ステレオプログラムのＬ及びＲチャンネルであり、サラウンドサウンドプログラムのＬ、Ｃ、Ｒ、Ｌｓ及びＲｓチャンネルである。低周波数効果チャンネル（例えば、サブウーファチャンネル）により決まるサウンドは、カットオフ周波数までの可聴範囲の周波数成分を含むが、（典型的なフルレンジチャンネルが含むようには）そのカットオフ周波数より高い可聴レンジの周波数成分は含まない。
フロントチャンネル：正面サウンドステージに関連する（オーディオプログラムの）オーディオチャンネル。典型的なフロントチャンネルは、ステレオプログラムのＬ及びＲチャンネル、またはサラウンドサウンドプログラムのＬ、Ｃ、Ｒチャンネルである。

２Ｄオーディオプログラム（例えば、２Ｄ入力オーディオ、または２Ｄオーディオ）：オーディオプログラムは、（一般的には、各チャンネルのオーディオ信号により決まる）少なくとも１つのフルレンジチャンネルを有し、リスナから名目的に等距離にあるスピーカ（例えば、リスナから名目的に等距離にある２つ、５つ、または７つのスピーカ、または１つのスピーカ）によりレンダされるものである。プログラムがリスナから名目的に等距離にあるスピーカによりレンダされることを「意図されている」とは、そのフルレンジチャンネルが（例えば、各スピーカがリスナに対して異なる所定のアジマス角にあり）リスナに対して適切なアジマス及びエレベーション角に位置する等距離のスピーカによりレンダされた時に、放射されるサウンドがリスナにより知覚され、知覚された音源のイメージが所望のものであるように、そのプログラムが（例えば、レコーディング、マスタリング、またはその他の任意の方法により）製作されているという意味である。例えば、サウンドは、リスナからの距離がスピーカと同じであるソースから発していると知覚され、またはリスナから異なる距離の範囲にあるソースからであると知覚される。従来の２Ｄオーディオプログラムの例は、ステレオオーディオプログラムと５．１サラウンドサウンドプログラムである。

３Ｄオーディオプログラム（例えば、３Ｄ出力オーディオ、または３Ｄオーディオ）：フルレンジチャンネルが第１のチャンネルサブセットと第２のチャンネルサブセットとを含むオーディオプログラム。第１のチャンネルサブセットは、（リスナから等距離にある少なくとも１つの「メイン」スピーカと、一般的には少なくとも２つの「メイン」スピーカによりレンダされることを意図された）２Ｄオーディオプログラムを決定する少なくとも１つのオーディオチャンネルを含む（「メイン」チャンネルと呼ばれることがある）。第２のチャンネルサブセットは、メインチャンネルをレンダするスピーカ（「メイン」スピーカ）よりリスナに物理的に近いまたは遠い位置にある少なくともスピーカによりレンダされることを意図した少なくとも１つのオーディオチャンネルを含む。第２チャンネルサブセットは、メインスピーカよりリスナに物理的に近くに配置されたスピーカ（「ニア（near）」または「ニアフィールド（nearfield）」スピーカ）によりレンダされることを意図された少なくとも１つのオーディオチャンネル（ここでは、「ニア」または「ニアフィールド」チャンネルとも呼ぶ）と、メインスピーカよりリスナから物理的に遠くに配置されたスピーカによりレンダされることを意図された少なくとも１つのオーディオチャンネル（「ファー（far）」または「ファーフィールド（farfield）」チャンネルともよぶ）とを含む。プログラムがスピーカによりレンダリングされることを「意図されている」とは、そのフルレンジチャンネルがリスナに対して適切なアジマス及びエレベーション角に位置するスピーカによりレンダされた時に、放射されるサウンドがリスナにより知覚され、知覚された音源のイメージが所望のものであるようになるように、（例えば、レコーディング、マスタリング、またはその他の任意の方法で）製作されている意味である。例えば、サウンドは、リスナからの距離範囲がスピーカと同じであるソースから発していると知覚され、またはリスナから、スピーカ・リスナ間の距離範囲より広いまたは狭いある距離範囲にあるソースから発していると知覚される。メインスピーカよりもリスナに物理的に近いニアスピーカ（またはリスナから物理的に遠いファースピーカ）によりレンダされることを「意図された」３Ｄオーディオプログラムの「ニア」（または「ファー」）チャンネルは、（自明であるが）かかる物理的に近い（または遠い）スピーカによりレンダされ得る。または、自明なレンダリングと少なくとも実質的に等価であるように設計され、リスナからの任意の物理的距離にあるスピーカを用いて（例えば、トランスノーラルまたはウェーブフィールド合成を含む任意の技術を用いて）「仮想的に」レンダできる。３Ｄオーディオプログラムのフルレンジチャンネルのレンダリングの一例は、リスナに対して異なる所定のアジマス角にある各メインスピーカ、及び実質的にゼロに等しいアジマス角にあるニアフィールドスピーカ及びファーフィールドスピーカでのレンダリングである。

空間領域：分析され奥行き値を割り振られるビジュアルイメージの一部である。

ＡＶＲ：オーディオビデオレシーバ。例えば、例えば、ホームシアターなどにおいて、オーディオ及びビデオコンテンツの再生を制御するのに用いられるある種のコンシューマエレクトロニクス製品のレシーバである。

米国では、立体３Ｄムービーがますます普及し、今日のボックスオフィスの収入の大きなパーセンテージを占めている。新しいデジタルシネマ、放送、及びブルーレイの仕様は、偏光メガネ、フルスペクトルクロマチックセパレーションメガネ、アクティブシャッターメガネ、またはメガネを必要としない自動立体ディスプレイを含む様々な技術を用いて、３Ｄムービーその他の３Ｄビデオコンテンツ（例えば、ライブスポーツ）が、別の左右の目の画像として配信及びレンダされることを可能にする。シアター及び家庭における立体３Ｄコンテンツの制作、配信、及びレンダリングのインフラストラクチャが整っている。

立体３Ｄビデオは、ビジュアルイメージに奥行きの印象を付加する。表示されたオブジェクトは、スクリーンの前でも後の方でも、ユーザから可変距離にあると見えるようにレンダできる。付随するサウンドトラック（一般的にはサラウンドサウンドトラック）は、現在、２Ｄムービーと同じ方法を用いてオーサリング及びレンダリングされている。従来の２Ｄサラウンドサウンドトラックは、一般的には、５または７のオーディオ信号（フルレンジチャンネル）を含み、これらはリスナに対して名目的に等距離にあり、リスナに対して異なる名目的アジマス角に配置されたスピーカに送られる（routed）。
例えば、図１は、リスナ１に対して、２Ｄオーディオプログラムをレンダする従来の５スピーカサウンド再生システムを示す。２Ｄオーディオプログラムは従来の５チャンネルサラウンドサウンドプログラムである。このシステムは、リスナ１から少なくとも実質的に等距離にあるスピーカ２、３、４、５及び６を含む。各スピーカ２、３、４、５及び６は、プログラムの異なるフルレンジチャンネルをレンダするのに使われることを意図している。図示したように、（プログラムのライトフロントチャンネルをレンダリングするよう意図された）スピーカ３はアジマス角３０°に配置され、（プログラムのライトサラウンドチャンネルをレンダリングするよう意図された）スピーカ６はアジマス角１１０°に配置され、（プログラムのセンターフロントチャンネルをレンダリングするよう意図された）スピーカ４はアジマス角０°に配置されている。

（反射が無い）自由場において、オーディオソースの距離に関するリスナの知覚は、主に３つのキュー（cue）によりガイドされている：音響レベルと、高低周波数コンテンツの相対的レベルと、ニアフィールド信号の場合のリスナの耳の間のレベル差である。典型的な放射レベルで話され（または話されたと仮定される）スピーチなどの良く聞くサウンドの場合、音響レベルが断然重要なキューである。リスナが、知覚したオーディオの放射レベルについて知らない場合、知覚される音響レベルの有用さは減少し、他のキューが重要になる。反響のある音響環境では、直接対反響比（direct to reverb ratio）と、早期反射のレベル及び方向を含む（リスナからのオーディオソースの距離に加え）別のキューがある。

家庭のリスニングルーム、シネマまたはシアターで再生されるオーディオ信号の場合、従来のラウドスピーカからレンダリングされる「ドライな」すなわち処理されていない信号は、一般的にそのラウドスピーカの距離にあるとイメージされる。２Ｄオーディオプログラム（例えば、サラウンドサウンドトラック）の製作では、周知のミキシング技術（例えば、リバーブ及びローパスフィルタリング）を用いて遠いこと（離れた音源からのサウンドの知覚）をシミュレートできる。（遠い音源からのオーディオをシミュレートして対比させる以上に）近いことをシミュレートする２Ｄオーディオプログラムを再生する効果的なミキシング方法はない。これは、再生する場所の自然なリバーブ（reverb）を除去または抑制することが非常に困難であることが原因の１つである。

３Ｄオーディオ（リスナから遠い音源からのものであると知覚されるオーディオだけでなく、近いオーディオ）をレンダ（render）するハードウェアベースのシステムが提案されている。かかるシステムでは、オーディオは、リスナから比較的遠くに配置された（少なくとも一スピーカを含む）第１組のスピーカと、リスナの近くに配置された（一組のヘッドホンなど少なくとも１つのスピーカを含む）第２組のスピーカとによりレンダされる。一般的には、第１組のスピーカは第２組のスピーカと時間的にそろえられている（time-aligned）。かかるシステムの一例が特許文献１に記載されている。このクラスのシステムは３Ｄオーディオプログラムをレンダできる。かかる３Ｄオーディオプログラムをかかるシステムによりレンダするために製作することはできるが、本発明まで、２Ｄオーディオプログラムをアップミックスすることによりかかる３Ｄオーディオプログラムを製作することは提案されていない。この段落で説明したクラスのシステムによりレンダするために、どのように２Ｄオーディオプログラムをアップミックスして３Ｄオーディオプログラムを作成するかは、（本発明まで）知られていない。

（リスナから名目上等距離にある複数のスピーカを用いて、またはリスナから異なる距離に配置された複数のスピーカを用いて）放射されたサウンドがリスナから異なる距離にある音源から発したものと知覚されるように、オーディオプログラムをレンダする多数の技術が提案されている。かかる技術は、トランスオーラル（transaural）サウンドレンダリング、ウェーブフィールド合成、及び専用のラウドスピーカデザインを用いたアクティブ・ダイレクト・リバーブ比制御を含む。かかる技術が実際に実装され広く展開されると、フル３Ｄオーディオをレンダすることができるだろう。しかし、現実的なレンダリング手段が利用できるようになるまで、３Ｄオーディオコンテンツを明示的にオーサリングまたは配信するインセンティブはほとんどない。反対に、３Ｄオーディオコンテンツがなければ、必要とされるレンダリング機器を開発してインストールするインセンティブはほとんどない。この「卵が先か、ニワトリが先か」というジレンマを解消するため、従来のサウンドトラックから３Ｄオーディオ信号を作る手段が望ましい。本発明の典型的な実施形態は、既存の（例えば、従来製作された）Ｎチャンネル２ＤオーディオプログラムからＮ＋Ｍチャンネル３Ｄオーディオプログラムを生成することにより、この問題に対するソリューションを提供する。

米国特許出願公開第２００６／００５０８９０（公開日２００６年３月９日、出願人Ｔｓｕｈａｋｏ）

一クラスの実施形態において、本発明は、（Ｎフルレンジチャンネルを含み、Ｎは正整数である）Ｎチャンネル入力オーディオをアップミックスして、Ｎ＋Ｍフルレンジチャンネルを含む３Ｄ出力オーディオを生成する方法であって、ここでＭは正整数であり、Ｎ＋Ｍフルレンジチャンネルはリスナから異なる距離にある少なくとも２つのスピーカを含む複数のスピーカによりレンダされることを意図されている。典型的に、前記方法は、少なくとも一オーディオソースの前記リスナからの距離を示すソース奥行きデータを提供するステップと、入力オーディオをアップミックスして、前記ソース奥行きデータを用いて前記３Ｄ出力オーディオを生成する。一般的に、Ｎチャンネル入力オーディオは、２Ｄオーディオプログラムであり、Ｎフルレンジチャンネルは、リスナから等距離にあるＮ個のスピーカによりレンダされることを意図されている。ある実施形態では、前記３Ｄオーディオは３Ｄオーディオプログラムであり、前記３ＤオーディオプログラムのＮ＋Ｍフルレンジチャンネルは、前記リスナから名目的に等距離にあるＮスピーカ（「メイン」スピーカとも呼ぶ）によりレンダされるＮチャンネルと、追加的スピーカによりレンダされることを意図されたＭチャンネルとを含み、各追加的スピーカは前記メインスピーカより前記リスナに近くまたは遠くに配置されている。他の実施形態では、３Ｄ出力オーディオのＮ＋Ｍフルレンジチャンネルは、ＮメインスピーカとＭ追加スピーカにマッピングしない。ここで、各追加的スピーカはメインスピーカよりリスナに近くまたは遠くに配置されている。例えば、出力オーディオは、ＸスピーカによりレンダされるＮ＋Ｍフルレンジチャンネルを含む３Ｄオーディオプログラムであってもよい。ここで、Ｘは出力プログラム中の３Ｄオーディオチャンネルの数（Ｎ＋Ｍ）と必ずしも等しくなく、Ｎ＋Ｍ３Ｄ出力オーディオチャンネルは、リスナが、リスナから異なる距離にあるソースから発したものであるとスピーカから放射されたサウンドを近くするように、Ｘスピーカを駆動するＸスピーカフィードを生成するように処理（例えば、ミックス及び／またはフィルタ）されることを意図されている。３Ｄ出力オーディオのＮ＋Ｍフルレンジチャンネルの２つ以上が単一のスピーカを駆動でき（または駆動するオーディオを生成するように処理され）、または３Ｄ出力オーディオのＮ＋Ｍフルレンジチャンネルの１つが、２つ以上のスピーカを駆動（または駆動するオーディオを生成するように処理され）できることを想定している。

実施形態によっては、Ｎ＋Ｍチャンネルの少なくとも１つが一または複数のスピーカを駆動して、各スピーカから異なる距離にある複数のソースから放射されたサウンドをシミュレート（すなわち、リスナにより近くされるように）するサウンドを放射するように、一または複数のスピーカを駆動できるように、３Ｄ出力オーディオのＮ＋Ｍフルレンジチャンネルの少なくとも１つを生成するステップを含む。ある実施形態は、Ｎ＋Ｍチャンネルの各々がスピーカを駆動してスピーカの場所から放射されたとリスナに近くされるサウンドを放射するように、３Ｄ出力オーディオのＮ＋Ｍフルレンジチャンネルを生成するステップを含む。ある実施形態では、３Ｄ出力オーディオは、リスナから名目的に等距離にあるＮスピーカ（「メイン」スピーカ）によりレンダされるＮフルレンジチャンネルと、追加的スピーカによりレンダされることを意図されたＭフルレンジチャンネルとを含み、追加的スピーカの各々はメインスピーカよりリスナから近くまたは遠くに配置され、前記Ｍフルレンジチャンネルの１つに応じて追加的スピーカの各々から放射されるサウンドは、メインスピーカよりリスナに近いソース（ニアフィールドソース）からとして知覚されるか、またはメインスピーカよりリスナから遠いソース（ファーフィールドソース）からとして知覚され、Ｎチャンネル入力オーディオにより駆動された時、かかるニアフィールドまたはファーフィールドソースからのサウンドをシミュレートするサウンドを放射する。

好ましい実施形態では、（Ｎフルレンジチャンネルを含む）入力オーディオをアップミックスして（Ｎ＋Ｍフルレンジチャンネルを含む）３Ｄ出力オーディオを生成するステップは、自動的に実行され、例えば、（例えば、入力オーディオが３Ｄビデオの２Ｄオーディオサウンドトラックである場合、）入力オーディオに対応する立体３Ｄビデオから自動的に決定（例えば、抽出）されたキューに応じて、または、入力オーディオから自動的に決定されたキューに応じて、または、入力オーディオから及び入力オーディオに対応する立体３Ｄビデオから自動的に決定されたキューに応じて、生成できる。このコンテキストでは、「自動的」な出力オーディオの生成は、入力オーディオのチャンネルの（例えば、マニュアルで選択したゲインファクタによるチャンネルの乗算とその加算によるチャンネルの乗算などの）マニュアルミキシング（例えば、３Ｄ出力オーディオの一または複数のチャンネルを生成するための、Ｎチャンネル２Ｄオーディオのマニュアルミキシング）だけによる出力オーディオの生成は排除することを意図している。

典型的なビデオドリブンアップミキシングの実施形態では、３Ｄビデオ中の利用可能な立体情報を用いて、オーディオ奥行きエンハンスメントキューを抽出する。かかる実施形態を用いて、立体３Ｄムービーの３Ｄサウンドトラックを生成することにより、そのムービーをエンハンスできる。典型的なオーディオドリブンアップミキシングの実施形態では、３Ｄ出力オーディオを生成するキューは、２Ｄオーディオプログラム（例えば、３Ｄビデオプログラムのオリジナル２Ｄサウンドトラック）から抽出される。また、これらの実施形態を用いて、３Ｄムービーの３Ｄサウンドトラックを生成することにより、そのムービーをエンハンスできる。

一クラスの実施形態では、本発明は、（リスナから名目的に等距離にあるＮスピーカによりレンダされることを意図された）Ｎチャンネル２Ｄ入力オーディオをアップミックスして、Ｎ＋Ｍフルレンジチャンネルを含む３Ｄ出力オーディオを生成する方法であって、ここで、Ｎ＋Ｍチャンネルはリスナから名目的に等距離にあるＮメインスピーカによりレンダされるＮフルレンジチャンネルと、メインスピーカよりリスナの近くまたは遠くにある追加的スピーカによりレンダされることを意図されたＭフルレンジチャンネルとを含む。

他の一クラスの実施形態では、本発明は、Ｎチャンネル入力オーディオに応じて３Ｄ出力オーディオの自動生成をする方法であって、３Ｄ出力オーディオはＮ＋Ｍフルレンジチャンネルを有し、ＮとＭはそれぞれ正整数であり、３Ｄ出力オーディオのＮ＋Ｍフルレンジチャンネルは、リスナから異なる距離にある少なくとも２つのスピーカを含む複数のスピーカによりレンダされることを意図している。一般的に、Ｎチャンネル入力オーディオは、リスナから名目的に等距離にあるＮ個のスピーカによりレンダされる２Ｄオーディオプログラムである。このコンテキストでは、「自動的」な出力オーディオの生成は、入力オーディオのチャンネルのマニュアルミキシング（例えば、３Ｄ出力オーディオの一または複数のチャンネルを生成するための、Ｎチャンネル２Ｄ入力オーディオのチャンネルマニュアルミキシング）だけによる出力オーディオの生成は排除することを意図している。自動的な生成は、少なくとも一オーディオソースのリスナからの距離を示すソース奥行きデータを生成（または提供）するステップと、入力オーディオをアップミックスして、そのソース奥行きデータを用いた３Ｄ出力オーディオを生成するステップとを含み得る。このクラスの典型的な実施形態では、ソース奥行きデータは、（例えば、入力オーディオが３Ｄビデオの２Ｄオーディオサウンドトラックである場合、）入力オーディオに対応する立体３Ｄビデオから自動的に決定（例えば、抽出）された奥行きキュー、または入力オーディオから自動的に決定された奥行きキュー、または入力オーディオとそれに対応する立体３Ｄビデオから自動的に決定された奥行きキューである（またはこれらから決定される）。

本発明の方法及びシステムは、従来のオーディオアップミキシング方法及びシステム（例えば、Gundry, Kenneth, A New Active Matrix Decoder for Surround Sound, AES Conference: １９th International Conference: Surround Sound - Techniques, Technology, and Perception (June ２００１)等に記載されているDolby Pro Logic II）とは異なる。既存のアップミキサは、一般的には、第１の２Ｄスピーカ構成（例えば、ステレオ）で再生することを意図された入力オーディオプログラムを変換して、（例えば、５．１構成のように）追加的アジマス及び／またはエレベーション角にあるスピーカを含む第２の（より大きい）２Ｄスピーカ構成で再生する追加的オーディオ信号を生成する。第１と第２のスピーカ構成は両方とも、すべてリスナから名目的に等距離にあるラウドスピーカよりなる。対照的に、本発明の一クラスの実施形態によるアップミキシング方法は、リスナから２以上の名目的距離に物理的に配置されたスピーカによりレンダリングすることを意図されたオーディオ出力信号を生成する。

本発明の態様には、本発明の方法の任意の実施形態を実行するように構成（例えば、プログラム）されたシステムと、本発明の方法の任意の実施形態を実施するコードを格納したコンピュータ読み取り可能媒体（例えば、ディスク）とが含まれる。

典型的な実施形態では、本発明のシステムは、ソフトウェア（又はファームウェア）でプログラムされ、さもなければ本発明の方法の一実施形態を実行するように構成された汎用又は特殊用途プロセッサである、又はそれを含む。ある実施形態では、本発明のシステムは、入力オーディオ（及び任意的に入力ビデオも）を受け取るように結合され、入力オーディオ（及び、任意的に入力ビデオ）に応じて出力オーディオを（本発明の方法の一実施形態を実行することにより）生成するように（適切なソフトウェアで）プログラムされた汎用プロセッサを含む。他の実施形態では、本発明のシステムは、入力オーディオに応じて出力オーディオを生成するように動作する適切に構成された（例えば、プログラムされ、または設定された）オーディオデジタルシグナルプロセッサ（ＤＳＰ）として実装される。

２Ｄオーディオをレンダリングする従来のシステムを示す図である。３Ｄオーディオ（例えば、本発明の一実施形態により生成された３Ｄオーディオ）をレンダリングするシステムを示す図である。ビュアの左目用の第１の画像にそのビュアの右目用の第２の画像をスーパーインポーズしたことを示す、立体３Ｄビデオプログラムのフレームを示す図である。（第１の画像の要素ごとに、対応する第２の画像の要素が異なる量だけオフセットされている）。コンピュータシステムを示すブロック図である。このシステムは、コンピュータ読み取り可能記憶媒体５０４を含み、この媒体は、システムのプロセッサ５０１をプログラミングして本発明の一実施形態を実行させるコンピュータコードを記憶している。

本発明の多くの実施形態は技術的に実現可能なものである。本技術分野の当業者には、本開示から、実施形態をいかに実施するかは明らかである。本発明のシステム、方法及び媒体の実施形態を、図１、２、３及び４を参照して説明する。

一クラスの実施形態では、本発明は、Ｎチャンネル入力オーディオ（Ｎは正整数）をアップミックスしてＮ＋Ｍフルレンジチャンネルを有する３Ｄ出力オーディオを生成する方法である。Ｍは正整数であり、３Ｄ出力オーディオのＮ＋Ｍフルレンジチャンネルは、リスナから異なる距離にある少なくとも２つのスピーカを含む複数のスピーカによりレンダされることを意図している。一般的に、Ｎチャンネル入力オーディオは２Ｄオーディオプログラムであり、Ｎフルレンジチャンネルは、リスナから名目的に等距離にあるＮ個のスピーカによりレンダされることを意図されている。

例えば、入力オーディオは、（上で説明した）図１の従来の５スピーカシステムでレンダリングすることを意図された５チャンネル、サラウンドサウンド２Ｄオーディオプログラムである。かかる２Ｄオーディオプログラムの５つのフルレンジチャンネルはそれぞれ、図１のシステムのスピーカ２、３、４、５及び６のうちの異なるものを駆動することを意図している。かかる５チャンネル２Ｄ入力オーディオをアップミックスすることにより、本発明の一実施形態により、図２の７スピーカシステムによりレンダされることを意図された７チャンネル（Ｎ＝５、Ｍ＝２）３Ｄオーディオプログラムが生成できる。図２のシステムは、（図１の同番号のスピーカと同じ）スピーカ２、３、４、５及び６と、（リスナ１に対してアジマス角０°であるがスピーカ４よりリスナ１から大幅に遠くに配置された）ファースピーカ７と、（リスナ１に対してアジマス角０°であるがスピーカ４よりリスナ１に大幅に近い）ニアスピーカ８とを含む。スピーカ４、７及び８は、リスナ１に対して異なるエレベーションで配置されてもよい。（本実施形態において生成される）３Ｄオーディオプログラムの７つのフルレンジチャンネルはそれぞれ、図２のシステムのスピーカ２、３、４、５、６、７及び８のうちの異なるものを駆動することを意図している。そのように駆動されると、スピーカ２、３、４、５、６、７及び８から放射されるサウンドは、一般的に、リスナ１により、そのリスナから異なる距離にある少なくとも２つのソースから発していると近くされる。例えば、スピーカ８からのサウンドは、スピーカ８の位置にあるニアフィールドソースから発していると知覚され、スピーカ７からのサウンドは、スピーカ７の位置にあるファーフィールドソースから発していると知覚され、スピーカ２、３、４、５及び６からのサウンドは、リスナ１からの距離がスピーカ２、３、４、５及び６と同じ少なくとも１つのソースから発していると知覚される。あるいは、一サブセットのスピーカ２、３、４、５、６、７及び８からのサウンドは、リスナ１から第１の距離にあるソースから放射されたサウンドをシミュレーションし（すなわち、リスナ１にそのように知覚され）（例えば、スピーカ２と７から放射されるサウンドはスピーカ２と７の間のソースから、またはリスナ１からスピーカ７より遠いソースから発していると知覚される）、他の一サブセットのスピーカ２、３、４、５、６、７及び８からのサウンドは、リスナ１から他の距離にあるソースから放射されたサウンドをシミュレーションする。

本発明により生成される３Ｄオーディオが、特定の方法や特定のシステムでレンダされなければならないということは想定していない。多くの異なるレンダリング方法とシステムを利用して本発明の様々な実施形態により生成された３Ｄオーディオコンテンツをレンダでき、３Ｄオーディオが本発明により生成される方法は利用されるレンダリング技術に依存することを想定している。場合によっては、（本発明により生成された３Ｄオーディオプログラムの）ニアフィールドオーディオコンテンツは、リスナの知覚に配置された一又は複数の物理的ラウドスピーカ（例えば、図２のシステムのスピーカ８またはフロントチャンネルスピーカとリスナとの間に配置されたスピーカ）を用いてレンダすることもできる。他の場合には、（リスナから距離Ｘにある音源から発していると知覚される）ニアフィールドオーディオコンテンツは、（ニアフィールドオーディオの感覚を生むように構成されたハードウェア及び／またはソフトウェアを用いて）リスナから距離Ｘより近く及び／または遠くに配置されたスピーカによりレンダでき、（本発明により生成される同じ３Ｄオーディオプログラムの）ファーフィールドオーディオコンテンツは、（より多くのスピーカの第１のサブセットであってもよい）同じ複数のスピーカまたは（より多くのスピーカの第２のサブセットであってもよい）異なる複数のスピーカによりレンダできる。

本発明の実施形態により生成される３Ｄオーディオのレンダリングに用いることを想定しているレンダリング技術の例には、以下のものが含まれる：
ヘッドホンにレンダされたニアフィールドＨＲＴＦを有するバイノーラルオーディオシステム、
ニアフィールドＨＴＲＦを有するトランスオーラルオーディオシステム、
ウェーブフィールド合成を用いる一または複数のシミュレーションされたオーディオソース、
集中イメージング（focused imaging）を用いる一または複数のシミュレーションされたオーディオソース、
一または複数のオーバーヘッドラウドスピーカ、または
ダイレクト対リバーブ比を制御するアルゴリズムまたはデバイス。

ある実施形態では、本発明は、既存の２Ｄオーディオプログラムの一部を取り出して（extract）アップミックスされた３Ｄオーディオプログラムであって、スピーカによりレンダされた時に奥行き効果を有すると知覚される３Ｄオーディオプログラムを生成するコーディング方法である。

本発明の方法の典型的な実施形態は、Ｎチャンネル入力オーディオをアップミックスして、（Ｎ＋Ｍフルレンジチャンネルを有する）３Ｄ出力オーディオを生成するが、奥行きマップＤ（θ，γ）またはＤ（θ）を用いる。奥行きマップは、アジマスθとエレベーションγを有する方向からリスナの位置に入射する３Ｄ出力オーディオにより決まる少なくとも少なくとも１つの音源の奥行き（リスナからの望ましい知覚距離）を、アジマス及びエレベーション（またはアジマスのみ）の関数として記述する。かかる奥行きマップＤ（θ，γ）は、本発明の様々な実施形態において異なる多くの方法で提供（例えば、決定または生成）される。例えば、奥行きマップは、入力オーディオと共に（例えば、入力オーディオが３Ｄビデオプログラムのサウンドトラックである場合、３Ｄブロードキャストフォーマットで利用されるタイプのメタデータとして）提供されてもよく、または（入力オーディオが関連する）ビデオと奥行きセンサから提供されてもよく、またはラスタレンダラ（例えば、ＧＰＵ）のｚバッファから提供されてもよく、または入力オーディオに関連する立体３Ｄビデオプログラムに含まれるキャプション及び／またはサブタイトル奥行きメタデータから提供されてもよく、または動きから奥行きを推定してもよい。メタデータが利用できず、入力オーディオに関連する立体３Ｄビデオが利用できる場合、奥行きマップの生成に使うために、３Ｄビデオから奥行きキュー（depth cues）を取り出しても良い。適当な処理により、（３Ｄビデオにより決まる）ビジュアルオブジェクトの距離を、生成されるオーディオ奥行き効果と相関させることができる。

次に、立体３Ｄビデオ（例えば、２Ｄ入力オーディオプログラムに対応して、それとともに提供される３Ｄビデオ）から奥行きマップＤ（θ，γ）を決定する好ましい方法を説明する。次に、奥行きマップを用いて、２Ｄ入力オーディオに応じて（レンダされると奥行き効果を示す）３Ｄ出力オーディオを作成するために（本発明の方法の実施形態により）実行される、オーディオ分析及び合成ステップを説明する。

立体３Ｄビデオプログラムのフレームは、一般的に、ビュアから異なる距離にあると知覚されるビジュアルオブジェクトを決定する。例えば、図３の立体３Ｄビデオフレームは、ビュアの左目用の第１の画像にそのビュアの右目用の第２の画像をスーパーインポーズしたものを決定する（第１の画像の要素ごとに、対応する第２の画像の要素が異なる量だけオフセットされている）。図３のフレームを見ている者は、第１の画像の要素Ｌ１及び要素Ｌ１から右に少しオフセットされた第２の画像の要素Ｒ１により決まる楕円形状のオブジェクトと、第１の画像の要素Ｌ２及び要素Ｌ２から左に少しオフセットされた第２の画像の要素Ｒ２により決まるダイヤモンド形状のオブジェクトと、を知覚する。

立体３Ｄビデオプログラムの各ビジュアル要素について、左右の目のフレームイメージは、要素の知覚される奥行きにより変わる差（disparity）を有する。典型的に、かかるプログラムの３Ｄ画像が、差がゼロの（要素の左目ビューと右目ビューとの間にオフセットが無い）点に要素を有する場合、その要素は画面の距離に見える。正のディスパリティを有する３Ｄ画像の要素（例えば、ディスパリティが＋Ｐ２である図３のダイヤモンド形状のオブジェクト。ディスパリティ＋Ｐ２はその要素の左目ビューＬ２がその要素の右目ビューＲ２から右にオフセットしている距離である）は、画面より遠くにある（画面の後にある）ように知覚される。同様に、負のディスパリティを有する３Ｄ画像の要素（例えば、ディスパリティが−Ｐ１である図３の楕円形状のオブジェクト。ディスパリティ−Ｐ１はその要素の左目ビューＬ１がその要素の右目ビューＲ１から左にオフセットしている距離である）は、画面の前にあるように知覚される。

本発明の実施形態によると、立体３Ｄビデオフレームの特定された各要素（または特定された少なくとも１つの要素）のディスパリティは、測定され、ビジュアル奥行きマップを生成するのに使われる。ビジュアル奥行きマップを使ってオーディオ奥行きマップを生成できる。または（オーディオ効果を強化するため）ビジュアル奥行きマップをオフセット及び／またはスケールして、オーディオ奥行きマップの生成に用いることができる。例えば、ビデオシーンが視覚的に主に画面の後に生じる場合、ビジュアル奥行きマップをオフセットしてオーディオを部屋に（リスナに向けて）シフトしてもよい。３Ｄビデオプログラムが奥行きをマイルドにしか使わない（すなわち、浅い奥行き「ブラケット」を有する）場合、ビジュアル奥行きマップをスケールアップしてオーディオ奥行き効果を増大してもよい。

以下の例では、立体３Ｄビデオプログラムから決定されるビジュアル奥行きマップＤ（θ、γ）は、対応する２ＤオーディオプログラムのＬとＲのラウドスピーカのロケーション（θ_Ｌとθ_Ｒ）の間のアジマスセクタに限定される。このセクタはビジュアルビュースクリーンの水平スパンであると仮定される。また、異なるエレベーションにおけるＤ（θ，γ）値は、同じ値であると近似される。このように、画像分析の目的は
［外１］

を求めることである。

画像分析への入力は、左右の目の画像の各ペアのＲＧＢマトリックスである。これは任意的に計算速度を考慮してダウンサンプリングされている。左（及び右）画像のＲＧＢ値はＬａｂ色空間（あるいは、人間の視覚を近似するその他の色空間）に変換される。色空間変換は、周知の多くの方法で実現できるので、ここでは詳しくは説明しない。以下の説明では、左画像の変換後の色値を処理して、説明の特徴及び関心領域（ＲＯＩ）値を生成するが、代替的にこれらの動作は右画像の変換後の色値に対して行っても良い。

水平及び垂直座標（ｘ，ｙ）にある左画像の各画素について、ベクトル
［外２］

があると仮定する。ここで、値Ｌ_ｘ，ｙはＬａｂ色空間の明るさ値であり、値ａ_ｘ，ｙとｂ_ｘ，ｙはＬａｂ色空間色成分値である。

左画像の各画素に対して、特徴尺度は
［外３］

として計算される。ここで、ｖ_Ａｉは画像の領域Ａ_ｉ中の画素の平均Ｌ、ａ及びｂ値のベクトルを示し、
［外４］

は領域Ａ_ｉの各画素の平均ベクトルｖ_Ａｉとベクトルｖ_ｎ，ｍとの間の差の平均を示す（インデックスｎとｍはその領域医の範囲にわたる）。典型的な一実施形態では、領域Ａ_１、Ａ_２及びＡ_３は、カレント画素（ｘ，ｙ）を中心とする、寸法が左画像高さの０．２５、０．１２５、０．０６２５倍の正方形領域である（よって、各領域Ａ_１は比較的大きな領域であり、各領域Ａ_２は中間サイズの領域であり、各領域Ａ_３は比較的小さい領域である）。各領域Ａ_ｉの画素の平均ベクトルｖ_Ａｉと各ベクトルｖ_ｎ，ｍとの間の差の平均を決定し、これらの平均を合計して各値Ｓ（ｘ，ｙ）を求める。さらに、ビデオコンテンツに応じて領域Ａ_ｉのサイズの調整を適用してもよい。各画素のＬ、ａ及びｂの値を、対応するフレーム最大値で除算して規格化して、規格化値が特徴尺度Ｓの計算と同じ重みを有するようにする。

３Ｄフレームの左画像の特徴尺度（saliency measures）に基づき、３Ｄ画像の関心領域（ＲＯＩ）を決定する。一般的に、ＲＯＩの画素は、左画像の領域中の、特徴Ｓが閾値τを越える画素として決定される。この閾値は特徴ヒストグラム（saliency histogram）から求められる。またはビデオコンテンツに応じて予め決められる。実際、このステップは、同じフレームのＲＯＩから、（３Ｄビデオの一連のフレームの各フレームから）より静的な背景部分を分離する機能を有する。（その一連の各フレームの）ＲＯＩは、対応するオーディオプログラムのサウンドに関連するビジュアルオブジェクトを含む可能性がより高い。

ビジュアル奥行きＤ（θ）の評価は、好ましくは、左右のグレースケール画像Ｉ_ＬとＩ_Ｒの間のディスパリティ計算に基づく。この実施形態では、（３Ｄプログラムのフレームの）ＲＯＩの（座標（ｘ，ｙ）にある）各左画像画素に対して、左画像グレースケール値Ｉ_Ｌ（ｘ，ｙ）を決定し、また対応する右画像グレースケール値Ｉ_Ｒ（ｘ，ｙ）を決定する。その画素を含む複数の画素の水平レンジ（すなわち、その画素と同じ垂直座標ｙを有し、画素の水平座標ｘから座標ｘ＋δまでのレンジの水平座標を有する左画像画素。ここでδは所定値である）の左画像グレースケール値を考える。また、その画素の水平座標ｘから候補ディスパリティ値ｄだけオフセットされた水平位置のレンジ中の右画像グレースケール値を考える（言い換えると、左画像値と同じ垂直座標ｙを有し、その左画像値のオフセット水平座標ｘ＋ｄから幅δのレンジの水平座標を有する、すなわち、ｘ＋ｄからｘ＋δ＋ｄまでのｘ座標を有する、対応する右画像の画素）。そこで、（異なる候補ディスパリティ値ｄを用いて）、
［外５］

として画素のディスパリティ値を計算する。これは、画素の値の差Ｉ_Ｌ−Ｉ_Ｒの平均を最小化する候補ディスパリティ値ｄの値である。Ｓとｄの値は、ビデオコンテンツの最大及び最小ディスパリティ（ｄ_ｍａｘとｄ_ｍｉｎ）と、所望の精度対計算許容複雑性に応じて調整できる。一様な背景のディスパリティは、（一部のビデオプログラムの場合）ゼロであり、間違った奥行き表示を与える。よって、より正確なビジュアルな奥行きの尺度を求めるために、上記のタイプの特徴計算を行い、背景からＲＯＩを分離することが好ましい。ディスパリティ分析は、一般的には、ＲＯＩが小さい場合と比較してＲＯＩが大きい場合に、計算がより複雑であり、コストがかかる。任意的に、背景からＲＯＩを区別するステップをスキップして、フレーム全体をＲＯＩとして扱ってディスパリティ分析を行うこともできる。

（一般的にはＲＯＩ中の各画素のディスパリティ値よりなる）決定されたディスパリティ値Ｄ（ｘ，ｙ）は、次にアジマス角にマッピングされ、奥行きマップＤ（θ）が決定される。（３Ｄビデオのフレームにより決まる）画像は複数のアジマスセクタθ_ｉ（それぞれ約３°の幅を有する）に分離され、各セクタに対してディスパリティの平均値が計算される。例えば、アジマスセクタθ_ｉの平均ディスパリティは、ＲＯＩのそのセクタとの交わりのディスパリティ値Ｄ（ｘ，ｙ）の平均Ｄ（θ_ｉ）でもよい。ディスパリティ値Ｄ（θ，γ）をオーディオ分析に直接使用できるスケールされた値として計算するため、ＲＯＩの関連アジマスセクタθ_ｉとの交わりの画素のディスパリティ値Ｄ（ｘ，ｙ）の平均は、（通常は、３Ｄビデオのｄ_ｍａｘとｄ_ｍｉｎの絶対値の最大値である）ファクタｄｎにより規格化され、任意的にさらにファクタαによりスケールされる。スケーリングファクタのデフォルト値は＝１であってもよい。しかし、スケーリングファクタは、奥行き効果の所望の強さ（severity）、及びアジマスセクタのうちの関連するものの平均的な特徴（saliency）に依存してもよい。目標が、例えば、リスナよりスクリーンに近い場所に、ディスパリティがゼロのビデオフィーチャに対応する見かけのオーディオソースを配置することにより、真のビジュアル奥行きマッピングから離れることである場合、（この目的のために調整された）奥行きバイアス値ｄ_ｂを、規格化されたディスパリティ値から引くことができる。よって、アジマスセクタθ_ｉのディスパリティ値Ｄ（θ_ｉ）を（ＲＯＩの関連アジマスセクタθ_ｉとの交わりの各画素のディスパリティ値Ｄ（ｘ，ｙ）から）

として決定できる。式（１）において、
［外６］

はＲＯＩのアジマスセクタθ_ｉとの交わりの各画素のディスパリティ値Ｄ（ｘ，ｙ）の平均を示す。このように、奥行きマップＤ（θ）（すべてのアジマスセクタの式（１）のディスパリティ値Ｄ（θ_ｉ））は、各アジマスセクタのビジュアルな距離とともにリニアに変化する一組のスケール尺度として計算できる。

式（１）により決まるマップＤ（θ）（「未修正マップ」）は、一般的には修正されてニアチャンネルまたはファーチャンネルオーディオを生成するために使われる。未修正マップＤ（θ）の負値は正のニアチャンネルゲインを示し、正値はファーチャンネルゲインを示す。例えば、第１の修正マップが生成され、ニアチャンネルオーディオの生成に使われ、第２の修正マップが生成され、ファーチャンネルオーディオの生成に使われ、未修正マップの正値は第１の修正マップでは（負ゲインではなく）ゼロゲインを示す値で置き換えられ、未修正マップの負値は第１の修正マップではその絶対値で置き換えられ、未修正マップの負値は第２の修正マップでは（負ゲインではなく）ゼロゲインを示す値で置き換えられる。

決定されたマップＤ（θ）は、（例えば上記の通り）修正したものであっても修正しないものであっても、３Ｄオーディオの生成に使う場合、オーディオソースの奥行きの相対的な尺度を示すと考えられる。これを用いて、入力２Ｄオーディオから（３Ｄオーディオプログラムの）「ニア（near）」及び／または「ファー（far）」チャンネルを生成できる。ニアチャンネル及び／またはファーチャンネルの生成において、一般的に、ニア及び／またはファーオーディオチャンネルレンダリング手段（例えば、リスナに比較的近くに配置されたファースピーカ及び／またはリスナに比較的近くに配置されたニアスピーカ）は、各「メイン」オーディオチャンネルのレンダリングに用いられる「メイン」オーディオチャンネルレンダリング手段（例えば、リスナから名目的に等距離に配置され、各ファースピーカより近い距離にあり、各ニアスピーカより遠い距離にあるスピーカ）と適宜レベル較正されている。

一般的に、レンダリングされたニア／ファーチャンネルのオーディオ信号は正面セクタ（frontal sector）から（例えば、サラウンドサウンドをレンダする一組のスピーカのレフトフロントとライトフロントスピーカの位置の間から、図２のシステムのレフトスピーカ２とライトスピーカ３の間から）聞こえてくるように近くされることが望ましい。また、マップＤ（θ）を上記のように計算した場合、（ビデオプログラムの）入力２Ｄオーディオサウンドトラックのフロントチャンネル（例えば、Ｌ、Ｒ及びＣ）のみから「ニア」及び／または「ファー」チャンネルを生成することは自然である。ビュースクリーンはレフトフロント（Ｌ）及びライトフロント（Ｒ）スピーカの間のアジマスセクタに広がっていると仮定されるからである。

本発明の方法の実施形態において、（例えば、３Ｄオーディオプログラムの「ニア」及び／または「ファー」オーディオチャンネルを生成するための奥行きマップを決定するため）ビデオプログラム分析が行われるだけでなく、オーディオ分析も行われ、オーディオ分析はビデオフレームに時間的に対応するフレーム行われることが好ましい。本発明の方法の典型的な実施形態では、最初に、適当な変換（例えば、「ＳＴＦＴ」とも呼ばれることがあるショートタームフーリエ変換）により、または複素ＱＭＦフィルタバンクを用いて、（２Ｄ入力オーディオのフロントチャンネルの）フレームオーディオを周波数ドメインに変換し、一部のアプリケーションで必要とされる周波数修正ロバストネスを提供する。以下の例では、Ｘ_ｊ（ｂ，ｔ）は、（時刻ｔで特定される）入力オーｄぇいおのフレームのチャンネルｊの周波数帯域ｂを表す周波数ドメインを示し、Ｘ_ｓ（ｂ，ｔ）は、周波数帯域ｂの（時刻ｔで特定される）入力オーディオフレームのフロントチャンネルの合計の周波数ドメイン表現を示す。

周波数ドメインでは、（各入力オーディオフレームの各周波数帯域の）入力オーディオの各フロントチャンネルに対して平均ゲイン値ｇ_ｊが、帯域の絶対値の時間平均として決められる。例えば、入力オーディオの各フレームの各周波数帯域に対して、入力５．１サラウンドサウンド２Ｄプログラムのレフトチャンネルの平均現地ｇ_Ｌと、そのプログラムのライトチャンネルの平均ゲイン値ｇ_Ｒと、そのプログラムのセンターチャンネルの平均ゲイン値ｇ_Ｃとを計算し、マトリックス［ｇ_Ｌ，ｇ_Ｃ，ｇ_Ｒ］を構成できる。これにより、全体的なアジマス方向ベクトルをカレントフレームの関数として
［外７］

により計算することが可能となる。ここで、Ｌは、各フロントラウドスピーカに向いた標準的な基本単位長ベクトルを含む３×２マトリックスである。あるいは、θ_ｔｏｔ（ｂ，ｔ）を決定する場合、チャンネル間のコヒーレンス尺度も用いることができる。

この例では、ＬとＲスピーカ間のアジマス領域は、奥行きマップＤ（θ）により与えられる情報に対応する複数のセクタに分割される。各アジマスセクタのオーディオは、

により与えられる空間的に滑らかなマスクを用いて抽出される。ここで、σはマスクの空間的幅を制御する定数である。

次に、ニアチャンネル信号は、フロントチャンネルの合計に、（式（２）の）マスクと、各アジマスセクタの奥行きマップ値とをかけ、すべてのアジマスセクタにわたり合計することにより計算できる。すなわち、

である。ここで、式（３）のＹ（ｂ，ｔ）は、（時刻ｔで特定される）ニアチャンネルオーディオフレームの周波数帯域ｂのニアチャンネルオーディオ値であり、式（３）のマップＤ_ｎ（θ）は、式（１）から決定され、その正値をゼロで置き換え負値をその絶対値で置き換えた奥行きマップである。

また、ファーチャンネル信号は、フロントチャンネルの合計（Ｘ_ｓ（ｂ，ｔ））に、（式（２）の）マスクと、各アジマスセクタの奥行きマップ値とをかけ、すべてのアジマスセクタにわたり合計することにより計算できる。すなわち、

である。ここで、式（４）のＹ（ｂ，ｔ）は、（時刻ｔで特定される）ファーチャンネルオーディオフレームの周波数帯域ｂのファーチャンネルオーディオ値であり、式（４）のマップＤ_ｆ（θ）は、式（１）から決定され、その負値をゼロで置き換えた奥行きマップである。

異なるアジマスセクタからのスケールされたオーディオは各式（３）と（４）において合計されモノ信号になるが、（式（３）と（４）における）合計を省略して、各ニアチャンネル及び各ファーチャンネルについて異なるアジマスサブセクタのオーディオを表す複数の出力チャンネル
［外８］

と
［外９］

とを決定することが可能である。

（式（３）のＹ（ｂ，ｔ）の値により決まる）ニアチャンネルのコンテンツ、及び／または（式（４）のＹ（ｂ，ｔ）の値により決まる）ファーチャンネルのコンテンツは、パワー法則

により、または線形法則

により、（本発明により生成される３Ｄオーディオの）フロントメインチャンネルから除去してもよい。

最後の処理ステップとして、（生成されたニアチャンネルとファーチャンネルの）すべての周波数ドメインフレーム信号は、変換されて時間ドメインに戻され、出力３Ｄオーディオの時間ドメインニアチャンネルと時間ドメインファーチャンネルとが生成される。また、出力３Ｄオーディオは、未修正の入力２Ｄオーディオの、または（例えば、式（５）または式（６）を参照して上で説明した演算の結果として修正されたＬ、Ｒ及びＣチャンネルを有する）入力２Ｄオーディオの修正バージョンの、フルレンジチャンネル（Ｌ、Ｒ、Ｃ及び一般的にはＬＳとＲＳ）である「メイン」チャンネルを含む。

本発明の２Ｄオーディオ（例えば、３Ｄビデオプログラムのサウンドトラック）をアップミックスする方法の他の実施形態では、２Ｄオーディオに対応する立体３Ｄビデオプログラムから求めたキューを用いて、３Ｄオーディオを生成する。これらの実施形態は、一般的に、（Ｎは正整数である、Ｎ個のフルレンジチャンネルを有する）Ｎチャンネル入力オーディオをアップミックスして、Ｎ＋Ｍ個のフルレンジチャンネルを有する３Ｄ出力オーディオを生成する。ここで、Ｍは正整数であり、Ｎ＋Ｍフルレンジチャンネルはリスナから異なる距離にある少なくとも２つのスピーカを含む複数のスピーカによりレンダされることを意図しており、（例えば、オーディオソースであると仮定された画像フィーチャの奥行きキューを推定または決定することにより）３Ｄビデオからビジュアル画像フィーチャを特定し、その画像フィーチャからオーディオソースの奥行きを示すキュー（cues）を生成することを含む。

これらの方法は、一般的には、３Ｄビデオ（または一連の３Ｄビデオフレーム）のフレームの左目画像とそれに対応する右目画像とを比較して、少なくとも一ビジュアルフィーチャのローカルな奥行きを推定するステップと、オーディオソースであると仮定された、特定された少なくとも一ビジュアルフィーチャのローカルな奥行きからオーディオソースの奥行きを示すキューを生成するステップとを含む。奥行きマップを生成する上記の実施形態のバリエーションにおいて、画像比較は、画像により決まるロバストフィーチャ（例えば、波）のランダムな組を用い、及び／または背景画素から関心領域（ＲＯＩ）の画素を分離しそのＲＯＩの画素のディスパリティを計算する色的特徴尺度を用いても良い。ある実施形態では、３Ｄビデオプログラム中に含まれるまたはそれを有する所定の３Ｄポジショニング情報を用いて、奥行きを、３Ｄビデオプログラムの少なくとも一ビジュアルフィーチャの時間（例えば、フレーム番号）の関数として決める。

３Ｄビデオからのビジュアルフィーチャの抽出は、様々な方法とコンテキストで行える。例えば、ポストプロダクションで（この場合、ビジュアルフィーチャ奥行きキューは、オーディオビジュアルプログラムストリーム中のメタデータであり、メタデータとして（３Ｄヴィデオに、またはその３Ｄビデオのサウンドトラックとして）記憶され、ポストプロセッシング効果（本発明の一実施形態による３Ｄオーディオのその後の生成を含む）を可能とする）、またはかかるメタデータを有さない３Ｄビデオから（例えば、オーディオビデオレシーバにおいて）リアルタイムで、またはかかるメタデータを有さない３Ｄビデオから（例えば、ホームメディアサーバにおいて）非リアルタイムで、行える。

３Ｄビデオプログラムのビジュアルフィーチャの奥行きを推定する典型的な方法は、３Ｄビデオ画像の（または３Ｄビデオ画像の複数の空間領域の各々の）最終的ビジュアル画像奥行き推定を、（例えば、ローカルな奥行き推定の各々が比較的小さいＲＯＩ内のビジュアルフィーチャの奥行きを示す場合）ローカルな奥行き推定の平均として、生成するステップを含む。平均は、次の方法の１つで３Ｄビデオ画像の複数の領域にわたり行える：
スクリーン全体（すなわち、３Ｄビデオフレームにより決まる３Ｄ画像全体）にわたりローカルな奥行き推定を平均化することにより、
スクリーン全体の一組の静的空間的サブリージョン（例えば、３Ｄ画像全体のレフト／センター／ライト領域）にわたりローカル奥ゆき推定を平均する（例えば、スクリーンの左のサブリージョンの最終的「レフト」ビジュアル画像奥行きと、スクリーンの中央サブリージョンの最終的「センター」ビジュアル画像奥行きと、スクリーンの右のサブリージョンの最終的「ライト」ビジュアル画像奥行きとを生成する）ことにより、
例えば、動き検出、またはローカルな奥行き推定、またはぶれ／フォーカス推定、またはオーディオ、ワイドバンド（オーディオスペクトル全体）またはマルチバンドレベル、及びチャンネル間の相関（パンされたオーディオ位置）などに基づき、一組の動的に変化する空間的サブリージョンにわたりローカルな奥行き推定を平均することにより、行える。任意的に、少なくとも１つの特徴メトリック（saliency metric）により、例えば、（例えば、スクリーンの中心のビジュアルフィーチャの距離推定を強調するため）スクリーン位置により、及び／または（例えば、フォーカスされたビジュアル画像の距離推定を強調するため）画像フォーカスにより、重み付け平均を行う。平均は、異なる複数の方法のいずれかで３Ｄビデオプログラムの時間区間にわたり行える。方法には次のものが含まれる：非時間的平均（例えば、３Ｄビデオフレームのカレント奥行き推定を用いて３Ｄオーディオを生成する）、（一連の平均奥行き推定を用いて３Ｄオーディオを生成するように）一定時間区間にわたる平均、（全体的または部分的に）ビデオの分析により決定される動的時間区間にわたる平均、またはビデオに対応する入力オーディオ（サウンドトラック）の分析に（全体的にまたは部分的に）より決定された動的時間区間にわたる平均。

本発明の方法の実施形態では、立体３Ｄビデオプログラムから求めたビジュアルフィーチャ奥行き情報を用いて２Ｄ入力オーディオ（例えば、ビデオプログラムのサウンドトラック）をアップミックスし、３Ｄオーディオを生成するものでは、様々な方法でフィーチャの奥行き情報を３Ｄオーディオと相関できる。ある実施形態では、（リスナに対する）空間領域に対応する３Ｄ出力オーディオの各ニア（またはファー）チャンネルについて、２Ｄ入力オーディオチャンネルの少なくとも１つのチャンネルからのオーディオは、ビジュアルフィーチャの奥行きに関連し、次の方法のうち一または複数を用いて、３Ｄ出力オーディオのニア（またはファー）チャンネルに割り当てられる：
推定された奥行きが中間奥行きより短い場合、空間領域に対応する２Ｄ入力オーディオ（例えば、入力オーディオの２つのチャンネルからのコンテンツのミックス）の少なくとも１チャンネルのコンテンツの全部または一部が、３Ｄオーディオのニアチャンネルに割り当てられ（その空間領域から放射されたと知覚されるようにレンダされ）、推定された奥行きが前記中間奥行きより長い場合、前記空間領域に対応する２Ｄ入力オーディオの少なくとも１チャンネルのコンテンツの全部または一部が、３Ｄオーディオのファーチャンネルに割り当てられる（その空間領域から放射されたと知覚されるようにレンダされる）（例えば、推定された奥行きが前記中間奥行きより短い場合、入力オーディオの左チャンネルのコンテンツは、「レフト」ニアチャンネルにマップされ、左空間領域から放射されたと知覚されるようにレンダされる）；または、
入力オーディオのチャンネルのペアを（ワイドバンドでまたは周波数帯域ごとに）分析して、各ペアの見かけのオーディオイメージポジションを決定し、推定された奥行きが中間奥行きより短い場合、そのチャンネルのペアのコンテンツの全部または一部を３Ｄオーディオのニアチャンネルにマップして（その見かけのオーディオイメージポジションを含む空間領域から放射されたと知覚されるようにレンダリングし）、推定された奥行きが前記中間奥行きより長い場合、そのチャンネルのペアのコンテンツの全部または一部を３Ｄオーディオのファーチャンネルにマップして（その見かけのオーディオイメージポジションを含む空間領域から放射されたと知覚されるようにレンダリングする）、または、
入力オーディオのチャンネルのペアを（ワイドバンドでまたは周波数帯域ごとに）分析して、（一般的には、相関の程度に基づいて）各ペアの見かけのオーディオイメージコヒージョン（cohesion）を決定し、推定された奥行きが中間奥行きより短い場合、そのチャンネルのペアのコンテンツの全部または一部を３Ｄオーディオのニアチャンネルにマップして（関連する空間領域から放射されたと知覚されるようにレンダリングし）、推定された奥行きが前記中間奥行きより長い場合、そのチャンネルのペアのコンテンツの全部または一部を３Ｄオーディオのファーチャンネルにマップして（関連する空間領域から放射されたと知覚されるようにレンダリングする）、マップされるコンテンツの部分は、部分的にオーディオイメージコヒージョンにより決まる。これらの方法のそれぞれは、２Ｄ入力オーディオプログラム全体に適用できる。

しかし、２Ｄ入力オーディオプログラムの少なくとも１チャンネルからのオーディオを、２Ｄ入力オーディオプログラムの時間区間及び／または周波数領域にわたり、３Ｄ出力オーディオのニア及び／またはファーチャンネルに割り当てることが一般的には好ましいだろう。

本発明方法のある実施形態では、２Ｄ入力オーディオ（例えば、３Ｄビデオプログラムのサウンドトラック）をアップミックスしその２Ｄオーディオに対応する３Ｄ出力オーディオを生成するものでは、３Ｄオーディオ信号のニア（またはファー）チャンネルは、決定されたビジュアル奥行き情報を用いて次のように生成される。（空間領域の）ビジュアルフィーチャの奥行きが決定されると、その奥行きが所定の閾値より大きい場合、２Ｄ入力オーディオの一（または２以上の）チャンネルのコンテンツが３Ｄオーディオのニアチャンネルに割り当てられ（関連する空間領域から放射されたと知覚されるようにレンダされ）、その奥行きが所定の第２の閾値より大きい場合、コンテンツが３Ｄオーディオのファーチャンネルに割り当てられる（関連する空間領域から放射されたと知覚されるようにレンダされる）。ある実施形態では、ビジュアルフィーチャ奥行き推定が、一閾値より下からその閾値に近づいて時間的に増加する場合、３Ｄ出力オーディオのメインチャンネルは増加する平均レベルを有する入力オーディオチャンネルのオーディオコンテンツ（例えば、増加するゲインで増幅されたコンテンツ）を含むように生成され、また任意的に、（関連する空間領域から放射されたと知覚されるようにレンダされる）３Ｄ出力オーディオの少なくとも一ニアチャンネルが、減少する平均レベルを有するかかる入力オーディオチャンネルのオーディオコンテンツ（例えば、減少するゲインで増幅されたコンテンツ）を含むように、生成され、（３Ｄオーディオのレンダリング中に）ソースがリスナから離れていくような知覚を生成する。

決定されたビジュアルフィーチャ奥行き情報を用いたニア（またはファー）チャンネルコンテンツの決定は、２Ｄ入力オーディオプログラム全体から求めたビジュアルフィーチャ奥行き情報を用いて実行できる。しかし、２Ｄ入力オーディオプログラムの時間区間及び／または周波数領域にわたりビジュアルフィーチャ奥行き推定を計算すること（及び３Ｄ出力オーディオの対応するニアまたはファーチャンネルコンテンツを決定すること）は一般的には好ましい。

本発明の実施形態による３Ｄ出力オーディオの生成後、３Ｄ出力オーディオチャンネルを規格化できる（が必ずしもその必要はない）。以下の規格化方法の一または複数を用いて規格化できる：規格化せずに、ある３Ｄ出力オーディオチャンネル（例えば、「メイン」出力オーディオチャンネル）が、対応する入力オーディオチャンネル（例えば、「メイン」入力オーディオチャンネル）と同じであり、生成される出力オーディオの「ニア」及び／または「ファー」チャンネルが、スケーリングや規格化を適用せずにここに説明する方法で生成されるようにする；または、線形規格化（例えば、トータル出力信号レベルをトータル入力信号レベルと一致するように規格化し、例えば、Ｎ＋Ｍチャンネルにわたり合計された３Ｄ出力信号レベルがそのＮチャンネルにわたり合計された２Ｄ入力信号と一致するようにする）；またはパワー規格化（例えば、トータル出力信号パワーがトータル入力信号パワーに一致するように規格化する）。

本発明方法の他の一クラスの実施形態では、３Ｄオーディオを生成するための２Ｄオーディオ（例えば、ビデオプログラムのサウンドトラック）のアップミキシングは、２Ｄオーディオのみを用いて（それに対応するビデオを用いないで）行われる。

例えば、コモンモード信号を（例えば、２ＤオーディオのＬ及びＲｓチャンネルから、及び／または２ＤオーディオのＲ及びＬｓチャンネルから）２Ｄオーディオの複数のチャンネルの少なくとも一サブセットの各々から取り出し、各コモンモード信号の全部または一部を３Ｄオーディオの少なくとも一ニアチャンネルの各々に割り当てる。コモンモード信号の取り出しは、具体的なアプリケーションに適した任意のアルゴリズムを用いて（例えば、３チャンネル（Ｌ、Ｃ、Ｒ）出力モードで従来のDolby Pro Logicアップミキサで利用されているアルゴリズムを用いて）２−３チャンネルアップミキサにより行え、取り出されたコモンモード信号（例えば、３チャンネル（Ｌ、Ｃ、Ｒ）出力モードにおいてDolby Pro Logicアップミキサを用いて生成されたセンターチャンネルＣ）は、（本発明により）３Ｄオーディオプログラムのニアチャンネルに割り当てられる。

本発明方法の他の実施形態では、２Ｄオーディオをアップミックスして３Ｄオーディオを生成するツーステッププロセスを用いる（対応するビデオではなく、２Ｄオーディオのみを用いる）。具体的に、ある実施形態は、（Ｎフルレンジチャンネルを含み、Ｎは正整数である）Ｎチャンネル入力オーディオをアップミックスして、Ｎ＋Ｍフルレンジチャンネルを含む３Ｄ出力オーディオを生成し、ここで、Ｍは正整数であり、Ｎ＋Ｍフルレンジチャンネルはリスナから異なる距離にある少なくとも２つのスピーカを含む複数のスピーカによりレンダされることを意図されており、次のステップを含む：入力オーディオからオーディオソース奥行きを推定するステップ；及び
推定されたソース奥行きを用いて３Ｄ出力オーディオの少なくとも一ニア（またはファー）オーディオチャンネルを決定するステップ。

例えば、２Ｄオーディオのチャンネルを分析することにより、次のようにオーディオソース奥行きを推定できる。２Ｄオーディオの少なくとも２つのチャンネルサブセットの各々の間の（例えば、２ＤオーディオのＬとＲｓチャンネル間の、及び／または２ＤオーディオのＲとＬｓチャンネル間の）相関を測定し、相関が高いほど奥行き推定が短くなる（すなわち、サブセット間の相関が低い場合に得られる推定位置よりリスナに近い、オーディオのソースの推定位置となる）ように、相関に基づき奥行き（ソース距離）推定を割り当てる。

他の例では、２Ｄオーディオのチャンネルを分析することにより、次のようにオーディオソース奥行きを推定できる。２Ｄオーディオの一または複数のチャンネルにより示される直接サウンドレベル対リバーブレベルの比率を測定し、直接対リバーブレベル比が高いオーディオに短い奥行き推定が割り当てられるように、奥行き（ソース距離）推定（すなわち、チャンネルの直接対リバーブレベル比が低い場合に得られる推定位置よりもリスナに近いオーディオソースの推定位置）を割り当てる。

かかるオーディオソース奥行き分析は２Ｄオーディオプログラム全体にわたり実行できる。しかし、一般的には、２Ｄオーディオプログラムの時間区間及び／または周波数領域にわたりソース奥行き推定を計算することが好ましい。

オーディオソース奥行きが画定すると、入力オーディオのチャンネル（または一組のチャンネル）から求めた奥行き推定を用いて、３Ｄ出力オーディオの少なくとも一ニア（またはファー）オーディオチャンネルを決定できる。例えば、２Ｄ入力オーディオのチャンネルから求めた奥行き推定が所定閾値より短い場合、チャンネル（または複数のチャンネルのミックス）が３Ｄ出力オーディオのニアチャンネル（または一組のニアチャンネルの各々）に割り当てられ（また、入力オーディオのチャンネルも３Ｄ出力オーディオのメインチャンネルとして用いられ）、２Ｄ入力オーディオのチャンネルから求めた奥行き推定が所定の第２の閾値より長い場合、チャンネル（または複数のチャンネルのミックス）が３Ｄ出力オーディオのファーチャンネル（または一組のファーチャンネルの各々）に割り当てられる（また、入力オーディオのチャンネルも３Ｄ出力オーディオのメインチャンネルとして用いられる）。ある実施形態では、入力オーディオのチャンネルについて、奥行き推定が、閾値より下の値から閾値に近づく場合、増加する平均レベルを有する入力オーディオチャンネルのオーディオコンテンツ（例えば、増加するゲインで増幅されたコンテンツ）を含むように、３Ｄ出力オーディオのメインチャンネルが生成され、また任意的に、減少する返金レベルを有する入力オーディオチャンネルのオーディオコンテンツ（例えば、減少するゲインで増幅されたコンテンツ）を含むように、３Ｄ出力オーディオのニアチャンネルが生成され、ソースがリスナから離れる方向に動いているとの知覚を（レンダリング中に）生成する。

推定されたオーディオソース奥行き情報を用いたニア（またはファー）チャンネルコンテンツの決定は、２Ｄ入力オーディオプログラム全体から求めた推定された奥行きを用いて実行できる。しかし、２Ｄ入力オーディオプログラムの時間区間及び／または周波数領域にわたり奥行き推定を計算すること（及び３Ｄ出力オーディオの対応するニアまたはファーチャンネルコンテンツを決定すること）は一般的には好ましい。

（２Ｄ入力オーディオをアップミックスして３Ｄオーディオを生成する）本発明方法のある実施形態は、エンコーディング時に取り出され、２Ｄ入力オーディオとパッケージされた（または２Ｄ入力オーディオとともに供給された）奥行きメタデータ（例えば、２Ｄ入力オーディオに関連する３Ｄビデオプログラムのビジュアルフィーチャの奥行きを示すメタデータ）を用いてＡＶＲにより実装されることが想定されている（ＡＶＲは、入力プログラムに結合され、それからメタデータを取り出すように構成され、３Ｄ出力オーディオの生成に使うため、ＡＶＲのオーディオアップミキシングサブシステムにメタデータを供給するデコーダまたはコーデックを含む）。あるいは、オーディオプログラムのオーサリングの時に、（本発明により生成された３Ｄオーディオプログラムのニアチャンネルまたはニア及びファーチャンネルを決定する）追加的ニアフィールド（またはニアフィールド及びファーフィールド）ＰＣＭオーディオチャンネルを生成することができ、これらの追加的チャンネルは、２Ｄオーディオプログラムのチャンネルを決定するオーディオビットストリームとともに提供される（これらの後者のチャンネルも３Ｄオーディオプログラムの「メイン」チャンネルとして用いることができる）。

典型的な実施形態では、本発明のシステムは、ソフトウェア（又はファームウェア）でプログラムされ、さもなければ本発明の方法の一実施形態を実行するように構成された汎用又は特殊用途プロセッサである、又はそれを含む。他の実施形態では、本発明のシステムは、構成可能オーディオデジタルシグナルプロセッサ（ＤＳＰ）を本発明の方法の実施形態を実行するように（例えば、プログラミングにより）適宜構成することにより実装される。オーディオＤＳＰは、入力オーディオデータに様々な演算を実行するように構成可能な従来のオーディオＤＳＰ（例えば、適切なソフトウェアまたはファームウェアによりプログラム可能なもの、または制御データに応じて構成可能なもの）であってもよい。

ある実施形態では、本発明のシステムは汎用プロセッサであり、入力データ（入力オーディオデータ、または立体３Ｄビデオプログラムを示す入力ビデオデータとそのビデオプログラムのＮチャンネル２Ｄサウンドトラックを示すオーディオデータ）を受け取るように結合され、本発明の方法の一実施形態を実行することにより入力データに応じて３Ｄ出力オーディオを示す出力データを生成するようにプログラムされている。このプロセッサは、一般的に、ソフトウェア（またはファームウェア）でプログラムされ、及び／または（例えば、制御データに応じて）入力データに、本発明の方法の一実施形態を含む様々な演算を実行するように構成されている。図４に示したコンピュータシステムはかかるシステムの一例である。図４のシステムは、汎用プロセッサ５０１を含み、この汎用プロセッサは、入力データに、本発明の方法の一実施形態を含む様々な演算のいずれかを実行するようにプログラムされている。

また、図４のコンピュータシステムは、プロセッサ５０１に結合された入力デバイス５０３（例えば、マウス及び／またはキーボード）、プロセッサ５０１に結合された記憶媒体５０４、及びプロセッサ５０１に結合されたディスプレイデバイス５０５を含む。プロセッサ５０１は、入力デバイス５０３のユーザ操作により入力された命令とデータに応じて、本発明の方法を実施するようにプログラムされている。コンピュータ読み取り可能記憶媒体５０４（例えば、光ディスクやその他の有体オブジェクト）は、コンピュータコードを記憶しており、そのコンピュータコードはプロセッサ５０１を本発明の方法の一実施形態を実行するようにプログラムするのに適している。動作中、プロセッサ５０１は、コンピュータコードを実行して、本発明により入力オーディオ（または入力オーディオと入力ビデオ）を示すデータを処理し、マルチチャンネル３Ｄ出力オーディオを示す出力データを生成する。従来のデジタル・ツー・アナログ変換器（ＤＡＣ）は、この出力データに作用して、物理的スピーカ（例えば、図２のシステムのスピーカ）によりレンダリングするオーディオ出力チャンネルのアナログバージョンを生成する。

本発明の態様には、本発明の方法の任意の実施形態を実行するようにプログラムされたコンピュータシステムと、本発明の方法の任意の実施形態を実施するコンピュータ読み取り可能コードを格納したコンピュータ読み取り可能媒体とが含まれる。

本発明の具体的な実施形態と、本発明のアプリケーションとをここに説明したが、当業者には言うまでもなく、ここに説明し請求する本発明の範囲から逸脱することなく、ここに説明した実施形態とアプリケーションの多くの変形例が可能である。言うまでもなく、本発明の一定の形態を図示して説明したが、本発明は、説明しかつ図示した実施形態や、説明した具体的な方法には限定されない。

【００２８】
（リスナから名目上等距離にある複数のスピーカを用いて、またはリスナから異なる距離に配置された複数のスピーカを用いて）放射されたサウンドがリスナから異なる距離にある音源から発したものと知覚されるように、オーディオプログラムをレンダする多数の技術が提案されている。かかる技術は、トランスオーラル（transaural）サウンドレンダリング、ウェーブフィールド合成、及び専用のラウドスピーカデザインを用いたアクティブ・ダイレクト・リバーブ比制御を含む。かかる技術が実際に実装され広く展開されると、フル３Ｄオーディオをレンダすることができるだろう。しかし、現実的なレンダリング手段が利用できるようになるまで、３Ｄオーディオコンテンツを明示的にオーサリングまたは配信するインセンティブはほとんどない。反対に、３Ｄオーディオコンテンツがなければ、必要とされるレンダリング機器を開発してインストールするインセンティブはほとんどない。この「卵が先か、ニワトリが先か」というジレンマを解消するため、従来のサウンドトラックから３Ｄオーディオ信号を作る手段が望ましい。本発明の典型的な実施形態は、既存の（例えば、従来製作された）Ｎチャンネル２ＤオーディオプログラムからＮ＋Ｍチャンネル３Ｄオーディオプログラムを生成することにより、この問題に対するソリューションを提供する。
特許文献２は、モノオーディオデータとビデオデータを受け取り、データを処理して、マルチチャンネルオーディオデータを出力するサウンドイメージングシステムについて記載している。このシステムは、ビデオデータからビデオオブジェクトを抽出し、顔及び声認識や動き分析などのマッチング手法を用いて各サウンドソースをビデオオブジェクトとマッチングする。
特許文献３は、オーディオ信号をローかライゼーション計算ユニットに入力するオーディオソース入力ユニットを有するオーディオシステムについて記載している。ローかライゼーション計算ユニットはオーディオ信号を出力するスピーカを選択する。
特許文献４は、マルチモードコンテンツフォーマットを用いて３次元サウンドイベントを記録及び再生するシステムと方法について説明している。
【先行技術文献】
【特許文献】

米国特許出願公開第２００６／００５０８９０（公開日２００６年３月９日、出願人Ｔｓｕｈａｋｏ）米国特許出願公開第２００３／０５３６８０号明細書米国特許出願公開第２００９／０３４７６４号明細書国際出願公開第ＷＯ２００６／０９１５４０号明細書

Claims

Ｎ＋Ｍフルレンジチャンネルを有する３Ｄ出力オーディオを生成する方法であって、ＮとＭは正整数であり、Ｎ＋Ｍフルレンジチャンネルはリスナから異なる距離にある少なくとも２つのスピーカを含むスピーカによりレンダされることを意図され、
前記方法は、
（ａ）Ｎフルレンジチャンネルを有するＮチャンネル入力オーディオを提供するステップと、
（ｂ）前記入力オーディオをアップミックスして前記３Ｄ出力オーディオを生成するステップとを有する、方法。
（ｃ）少なくとも一オーディオソースの前記リスナからの距離を示すソース奥行きデータを提供するステップをさらに有し、
前記ステップ（ｂ）は前記Ｎチャンネル入力オーディオをアップミックスして、前記ソース奥行きデータを用いて前記３Ｄ出力オーディオを生成するステップを含む、請求項１に記載の方法。
前記Ｎチャンネル入力オーディオは立体３Ｄビデオプログラムのサウンドトラックであり、ステップ（ｃ）は、前記３Ｄビデオプログラムにより決定される少なくとも一ビジュアルイメージフィーチャを特定することにより、前記ソース奥行きデータを生成し、各ビジュアルイメージフィーチャの決定された奥行きを示す前記ソース奥行きデータを生成する動作を含む、請求項２に記載の方法。
前記Ｎチャンネル入力オーディオは立体３Ｄビデオプログラムのサウンドトラックであり、ステップ（ｃ）は、前記３Ｄビデオプログラムにより決定される少なくとも一ビジュアルイメージフィーチャの奥行きを示す奥行きマップを決定することにより、前記ソース奥行きデータを生成する動作を含む、請求項２に記載の方法。
前記オーディオソースは、前記リスナに対して第１のアジマスと第１のエレベーションを有する方向から前記リスナに届く、前記３Ｄ出力オーディオにより決まるサウンドソースであり、前記ビジュアルイメージフィーチャの奥行きが前記オーディオソースの前記リスナからの距離を決定し、前記奥行きマップは前記オーディオソースの前記リスナからの距離をアジマスとエレベーションの関数として示す、請求項４に記載の方法。
前記オーディオソースは、前記リスナに対して第１のアジマスを有する方向から前記リスナに届く、前記３Ｄ出力オーディオにより決まるサウンドソースであり、前記ビジュアルイメージフィーチャの奥行きが前記オーディオソースの前記リスナからの距離を決定し、前記奥行きマップは前記オーディオソースの前記リスナからの距離をアジマスの関数として示す、請求項４に記載の方法。
ステップ（ｃ）は前記Ｎチャンネル入力オーディオから前記ソース奥行きデータを生成するステップを含む、請求項２に記載の方法。
前記Ｎチャンネル入力オーディオは立体３Ｄビデオプログラムのサウンドトラックであり、ステップ（ｃ）は前記立体３Ｄビデオプログラムから自動的に前記ソース奥行きデータを生成するステップを含む、請求項２に記載の方法。
ステップ（ｂ）は自動的に実行される、請求項８に記載の方法。
前記立体３Ｄビデオプログラムはキャプション及び／または字幕奥行きメタデータを含み、ステップ（ｃ）は前記キャプション及び／または字幕奥行きメタデータから自動的に前記ソース奥行きデータを生成するステップを含む、請求項８に記載の方法。
ステップ（ｃ）は前記Ｎチャンネル入力オーディオから前記ソース奥行きデータを生成するステップを含む、請求項２に記載の方法。
ステップ（ｂ）は自動的に実行される、請求項１１に記載の方法。
前記Ｎチャンネル入力オーディオは２Ｄオーディオプログラムである、請求項１に記載の方法。
前記Ｎチャンネル入力オーディオは２Ｄオーディオプログラムであり、前記２ＤオーディオプログラムのＮフルレンジチャンネルは、前記リスナから名目的に等距離にあるＮ個のスピーカによりレンダされることを意図されている、請求項１に記載の方法。
前記３Ｄ出力オーディオは３Ｄオーディオプログラムであり、前記３ＤオーディオプログラムのＮ＋Ｍフルレンジチャンネルは、前記リスナから名目的に等距離にあるＮメインスピーカによりレンダされるＮチャンネルと、追加的スピーカによりレンダされることを意図されたＭチャンネルとを含み、各追加的スピーカは前記メインスピーカより前記リスナに近くまたは遠くに配置されている、請求項１に記載の方法。
Ｎ＋Ｍフルレンジチャンネルを有する３Ｄ出力オーディオの自動生成をする方法であって、ＮとＭは正整数であり、Ｎ＋Ｍフルレンジチャンネルはリスナから異なる距離にある少なくとも２つのスピーカを含むスピーカによりレンダされることを意図され、
前記方法は、
（ａ）Ｎフルレンジチャンネルを有するＮチャンネル入力オーディオを提供するステップと、
（ｂ）前記入力オーディオに応じて自動的に前記３Ｄ出力オーディオを生成するステップとを有する、方法。
（ｃ）少なくとも一オーディオソースの前記リスナからの距離を示すソース奥行きデータを提供するステップをさらに有し、
前記ステップ（ｂ）は前記Ｎチャンネル入力オーディオをアップミックスして、前記ソース奥行きデータを用いて前記３Ｄ出力オーディオを生成するステップを含む、請求項１６に記載の方法。
前記Ｎチャンネル入力オーディオは立体３Ｄビデオプログラムのサウンドトラックであり、ステップ（ｃ）は、前記３Ｄビデオプログラムにより決定される少なくとも一ビジュアルイメージフィーチャを特定することにより、前記ソース奥行きデータを生成し、各ビジュアルイメージフィーチャの決定された奥行きを示す前記ソース奥行きデータを生成する動作を含む、請求項１７に記載の方法。
前記Ｎチャンネル入力オーディオは立体３Ｄビデオプログラムのサウンドトラックであり、ステップ（ｃ）は、前記３Ｄビデオプログラムにより決定される少なくとも一ビジュアルイメージフィーチャの奥行きを示す奥行きマップを決定することにより、前記ソース奥行きデータを生成する動作を含む、請求項１７に記載の方法。
前記オーディオソースは、前記リスナに対して第１のアジマスと第１のエレベーションを有する方向から前記リスナに届く、前記３Ｄ出力オーディオにより決まるサウンドソースであり、前記ビジュアルイメージフィーチャの奥行きが前記オーディオソースの前記リスナからの距離を決定し、前記奥行きマップは前記オーディオソースの前記リスナからの距離を示す、請求項１９に記載の方法。
前記オーディオソースは、前記リスナに対して第１のアジマスを有する方向から前記リスナに届く、前記３Ｄ出力オーディオにより決まるサウンドソースであり、前記ビジュアルイメージフィーチャの奥行きが前記オーディオソースの前記リスナからの距離を決定し、前記奥行きマップは前記オーディオソースの前記リスナからの距離をアジマスの関数として示す、請求項１９に記載の方法。
ステップ（ｃ）は前記Ｎチャンネル入力オーディオから前記ソース奥行きデータを生成するステップを含む、請求項１７に記載の方法。
前記Ｎチャンネル入力オーディオは立体３Ｄビデオプログラムのサウンドトラックであり、ステップ（ｃ）は前記立体３Ｄビデオプログラムから自動的に前記ソース奥行きデータを生成するステップを含む、請求項１７に記載の方法。
ステップ（ｃ）は前記Ｎチャンネル入力オーディオから前記ソース奥行きデータを生成するステップを含む、請求項１７に記載の方法。
前記Ｎチャンネル入力オーディオは２Ｄオーディオプログラムである、
請求項１６に記載の方法。
前記Ｎチャンネル入力オーディオは２Ｄオーディオプログラムであり、前記２ＤオーディオプログラムのＮフルレンジチャンネルは、前記リスナから名目的に等距離にあるＮ個のスピーカによりレンダされることを意図されている、請求項１６に記載の方法。
前記３Ｄ出力オーディオは３Ｄオーディオプログラムであり、前記３ＤオーディオプログラムのＮ＋Ｍフルレンジチャンネルは、前記リスナから名目的に等距離にあるＮメインスピーカによりレンダされるＮチャンネルと、追加的スピーカによりレンダされることを意図されたＭチャンネルとを含み、各追加的スピーカは前記メインスピーカより前記リスナに近くまたは遠くに配置されている、請求項１６に記載の方法。
Ｎフルレンジチャンネルを含むＮチャンネル入力オーディオを示す入力データを受け取るように結合されたプロセッサを含むシステムであって、
前記プロセッサは、前記入力オーディオをアップミックスして前記出力データにＮ＋Ｍフルレンジチャンネルを含む３Ｄオーディオを示すようにするように前記入力データを処理することにより、前記出力データを生成するように構成されている、ここでＮとＭは正整数であり、前記Ｎ＋Ｍフルレンジチャンネルリスナから異なる距離にある少なくとも２つのスピーカを含む複数のスピーカによりレンダされることを意図されている、システム。
前記プロセッサは、前記入力データとソース奥行きデータを処理して前記出力データを生成するように構成され、前記ソース奥行きデータは少なくとも一オーディオソースの前記リスナからの距離を示す、請求項２８に記載のシステム。
前記Ｎチャンネル入力オーディオは立体３Ｄビデオプログラムのサウンドトラックであり、前記プロセッサは、前記３Ｄビデオプログラムにより決定される少なくとも一ビジュアルイメージフィーチャを特定することにより、前記ソース奥行きデータを生成し、各ビジュアルイメージフィーチャの決定された奥行きを示す前記ソース奥行きデータを生成するように構成されている、請求項２９に記載のシステム。
前記Ｎチャンネル入力オーディオは立体３Ｄビデオプログラムのサウンドトラックであり、前記入力データは、前記立体３Ｄビデオプログラムを示し、前記プロセッサは、前記３Ｄビデオプログラムにより決定される少なくとも一ビジュアルイメージフィーチャの奥行きを示す奥行きマップを決定することにより、前記ソース奥行きデータを生成するように構成されている、請求項２９に記載のシステム。
前記オーディオソースは、前記リスナに対して第１のアジマスと第１のエレベーションを有する方向から前記リスナに届く、前記３Ｄオーディオにより決まるサウンドソースであり、前記ビジュアルイメージフィーチャの奥行きが前記オーディオソースの前記リスナからの距離を決定し、前記奥行きマップは前記オーディオソースの前記リスナからの距離を示す、請求項３１に記載のシステム。
前記オーディオソースは、前記リスナに対して第１のアジマスと第１のエレベーションを有する方向から前記リスナに届く、前記３Ｄオーディオにより決まるサウンドソースであり、前記ビジュアルイメージフィーチャの奥行きが前記オーディオソースの前記リスナからの距離を決定し、前記奥行きマップは前記オーディオソースの前記リスナからの距離を示す、請求項３１に記載のシステム。
前記プロセッサは、前記入力データから前記ソース奥行きデータを生成するように構成されている、請求項２９に記載のシステム。
前記Ｎチャンネル入力オーディオは２Ｄオーディオプログラムである、請求項２８に記載のシステム。
前記Ｎチャンネル入力オーディオは２Ｄオーディオプログラムであり、前記２ＤオーディオプログラムのＮフルレンジチャンネルは、前記リスナから名目的に等距離にあるＮ個のスピーカによりレンダされることを意図されている、請求項２８に記載のシステム。
前記３Ｄオーディオは３Ｄオーディオプログラムであり、前記３ＤオーディオプログラムのＮ＋Ｍフルレンジチャンネルは、前記リスナから名目的に等距離にあるＮメインスピーカによりレンダされるＮチャンネルと、追加的スピーカによりレンダされることを意図されたＭチャンネルとを含み、各追加的スピーカは前記メインスピーカより前記リスナに近くまたは遠くに配置されている、請求項２８に記載のシステム。
前記システムはオーディオデジタルシグナルプロセッサである、請求項２８に記載のシステム。
前記プロセッサは、前記入力データに応じて前記出力データを生成するようにプログラムされた汎用プロセッサである、請求項２８に記載のシステム。