JP5893129B2 - オーディオをアップミックスして3dオーディオを生成する方法とシステム - Google Patents

オーディオをアップミックスして3dオーディオを生成する方法とシステム Download PDF

Info

Publication number
JP5893129B2
JP5893129B2 JP2014506437A JP2014506437A JP5893129B2 JP 5893129 B2 JP5893129 B2 JP 5893129B2 JP 2014506437 A JP2014506437 A JP 2014506437A JP 2014506437 A JP2014506437 A JP 2014506437A JP 5893129 B2 JP5893129 B2 JP 5893129B2
Authority
JP
Japan
Prior art keywords
audio
listener
channel
source
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014506437A
Other languages
English (en)
Other versions
JP2014515906A (ja
Inventor
エル トゥインゴ,ニコラ
エル トゥインゴ,ニコラ
キュー ロビンソン,チャールズ
キュー ロビンソン,チャールズ
シャバニュ,クリストフ
ヒルヴォーネン,トニ
グリフィス,パトリック
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー・インターナショナル・アーベー filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2014515906A publication Critical patent/JP2014515906A/ja
Application granted granted Critical
Publication of JP5893129B2 publication Critical patent/JP5893129B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/05Application of the precedence or Haas effect, i.e. the effect of first wavefront, in order to improve sound-source localisation

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Description

本発明は、マルチチャンネルオーディオをアップミックスしてマルチチャンネル3D出力オーディオを生成するシステムと方法に関する。典型的な実施形態は、通常はリスナから等距離にあるスピーカによりレンダリングするための(Nフルレンジチャンネルを有する)2D入力オーディオをアップミックスして、N+Mフルレンジチャンネルを有する3D出力オーディオを生成するシステムと方法である。ここで、N+Mフルレンジチャンネルは、リスナから異なる距離にある少なくとも2つのスピーカを含む複数のスピーカによりレンダリングするものである。
特許請求の範囲も含めて、本開示では、信号又はデータに対する操作(例えば、信号またはデータのフィルタリングやスケーリング)を行うとの表現は、広い意味で、その信号やデータに直接的にその操作を行うこと、またはその信号やデータの処理されたバージョン(例えば、その操作の実行に先立ち予備的フィルタリングをされた信号のバージョン)に操作を行うことを意味する。
特許請求の範囲を含む本開示では、「システム」とは、広い意味で、デバイス、システム、またはサブシステムを意味する。例えば、デコーダを実装するサブシステムは、デコーダシステムと呼ばれ、かかるサブシステム(例えば、複数の入力に対するX個の出力信号を生成するシステムであって、サブシステムがその入力のうちのM個を生成し、他のX−M個の入力は外部ソースから受け取られるもの)を含むシステムもデコーダシステムと呼ばれることがある。
特許請求の範囲を含む本開示を通して、以下の表現は次のように定義される。
スピーカとラウドスピーカは同義で使われ、サウンド放射トランスデューサを指す。この定義には、複数のトランスデューサ(例えば、ウーファとツイータ)として実装されたラウドスピーカを含む。
スピーカフィード:ラウドスピーカに直接印加されるオーディオ信号、または増幅器とラウドスピーカに順次的に印加される信号。
チャンネル:所望のまたは名目的な位置にあるラウドスピーカへの直接的なオーディオ信号の印加と等価な方法でレンダリングされるオーディオ信号。所望の位置は、ラウドスピーカの典型的な場合である静止したものでも、動的なものでもよい。
オーディオプログラム:一組のオーディオチャンネル。
レンダ:オーディオプログラムを一または複数のスピーカフィードに変換するプロセス、またはオーディオプログラムを一または複数のスピーカフィードに変換し、一または複数のラウドスピーカを用いてスピーカフィードをサウンドに変換するプロセス(後者の場合、レンダリングは時としてラウドスピーカ「による」レンダリングと言う)。オーディオチャンネルは、信号を所望の位置にある物理的ラウドスピーカに直接印加することにより、(所望の位置「において」)レンダできることは自明であるが、または一または複数のオーディオチャンネルは、かかる自明なレンダリングと(リスナにとって)実質的に等価であるように設計された様々な仮想化技術の1つを用いてレンダすることもできる。後者の場合、各オーディオチャンネルは、一または複数のスピーカフィードに変換され、既知のロケーションにあるラウドスピーカに印加される。既知のロケーションは、一般的に、所望の位置とは異なる。そのスピーカフィードに応答してラウドスピーカにより放射されるサウンドは、その所望の位置から放射されたモノとして知覚される。かかる仮想化技術の例には、ヘッドホンを介したバイノーラルレンダリング(例えば、ヘッドホン装着者に対して7.1チャンネルのサラウンドサウンドをシミュレーションするドルビーヘッドホン処理を用いたもの)とウェーブフィールド合成が含まれる。
立体3Dビデオ:表示された時、ビュア(viewer)の2つの目の網膜への表示シーンの少し異なる2つのプロジェクションを用いて、奥行き感覚を作り出すビデオ。
アジマス(またはアジマス角):水平面内における、リスナ/ビュアに対するソースの角度。一般的には、0°のアジマス角は、そのソースがリスナ/ビュアの真ん前にあることを示し、ソースがリスナ/ビュアの周りを反時計回り方向に動くにつれ、アジマス角は増加する。
エレベーション(またはエレベーション角):垂直面内における、リスナ/ビュアに対するソースの角度。一般的に、0°のエレベーション角は、ソースがリスナ/ビュアと同じ水平面内にあることを示し、ソースがビュアに対して(0°から90°の範囲で)上向きに動くにつれ、エレベーション角は増加する。
L:レフトフロントオーディオチャンネル。一般的に、アジマスが約30°、エレベーションが0°に配置されたスピーカによりレンダされる。
C:センタフロントオーディオチャンネル。一般的に、アジマスが約0°、エレベーションが0°に配置されたスピーカによりレンダされる。
R:ライトフロントオーディオチャンネル。一般的に、アジマスが約−30°、エレベーションが0°に配置されたスピーカによりレンダされる。
Ls:レフトサラウンドオーディオチャンネル。一般的に、アジマスが約110°、エレベーションが0°に配置されたスピーカによりレンダされる。
Rs:ライトサラウンドオーディオチャンネル。一般的に、アジマスが約−110°、エレベーションが0°に配置されたスピーカによりレンダされる。
フルレンジチャンネル:オーディオプログラムの、各低周波数効果チャンネル以外のすべてのオーディオチャンネル。典型的なフルレンジチャンネルは、ステレオプログラムのL及びRチャンネルであり、サラウンドサウンドプログラムのL、C、R、Ls及びRsチャンネルである。低周波数効果チャンネル(例えば、サブウーファチャンネル)により決まるサウンドは、カットオフ周波数までの可聴範囲の周波数成分を含むが、(典型的なフルレンジチャンネルが含むようには)そのカットオフ周波数より高い可聴レンジの周波数成分は含まない。
フロントチャンネル:正面サウンドステージに関連する(オーディオプログラムの)オーディオチャンネル。典型的なフロントチャンネルは、ステレオプログラムのL及びRチャンネル、またはサラウンドサウンドプログラムのL、C、Rチャンネルである。
2Dオーディオプログラム(例えば、2D入力オーディオ、または2Dオーディオ):オーディオプログラムは、(一般的には、各チャンネルのオーディオ信号により決まる)少なくとも1つのフルレンジチャンネルを有し、リスナから名目的に等距離にあるスピーカ(例えば、リスナから名目的に等距離にある2つ、5つ、または7つのスピーカ、または1つのスピーカ)によりレンダされるものである。プログラムがリスナから名目的に等距離にあるスピーカによりレンダされることを「意図されている」とは、そのフルレンジチャンネルが(例えば、各スピーカがリスナに対して異なる所定のアジマス角にあり)リスナに対して適切なアジマス及びエレベーション角に位置する等距離のスピーカによりレンダされた時に、放射されるサウンドがリスナにより知覚され、知覚された音源のイメージが所望のものであるように、そのプログラムが(例えば、レコーディング、マスタリング、またはその他の任意の方法により)製作されているという意味である。例えば、サウンドは、リスナからの距離がスピーカと同じであるソースから発していると知覚され、またはリスナから異なる距離の範囲にあるソースからであると知覚される。従来の2Dオーディオプログラムの例は、ステレオオーディオプログラムと5.1サラウンドサウンドプログラムである。
3Dオーディオプログラム(例えば、3D出力オーディオ、または3Dオーディオ):フルレンジチャンネルが第1のチャンネルサブセットと第2のチャンネルサブセットとを含むオーディオプログラム。第1のチャンネルサブセットは、(リスナから等距離にある少なくとも1つの「メイン」スピーカと、一般的には少なくとも2つの「メイン」スピーカによりレンダされることを意図された)2Dオーディオプログラムを決定する少なくとも1つのオーディオチャンネルを含む(「メイン」チャンネルと呼ばれることがある)。第2のチャンネルサブセットは、メインチャンネルをレンダするスピーカ(「メイン」スピーカ)よりリスナに物理的に近いまたは遠い位置にある少なくともスピーカによりレンダされることを意図した少なくとも1つのオーディオチャンネルを含む。第2チャンネルサブセットは、メインスピーカよりリスナに物理的に近くに配置されたスピーカ(「ニア(near)」または「ニアフィールド(nearfield)」スピーカ)によりレンダされることを意図された少なくとも1つのオーディオチャンネル(ここでは、「ニア」または「ニアフィールド」チャンネルとも呼ぶ)と、メインスピーカよりリスナから物理的に遠くに配置されたスピーカによりレンダされることを意図された少なくとも1つのオーディオチャンネル(「ファー(far)」または「ファーフィールド(farfield)」チャンネルともよぶ)とを含む。プログラムがスピーカによりレンダリングされることを「意図されている」とは、そのフルレンジチャンネルがリスナに対して適切なアジマス及びエレベーション角に位置するスピーカによりレンダされた時に、放射されるサウンドがリスナにより知覚され、知覚された音源のイメージが所望のものであるようになるように、(例えば、レコーディング、マスタリング、またはその他の任意の方法で)製作されている意味である。例えば、サウンドは、リスナからの距離範囲がスピーカと同じであるソースから発していると知覚され、またはリスナから、スピーカ・リスナ間の距離範囲より広いまたは狭いある距離範囲にあるソースから発していると知覚される。メインスピーカよりもリスナに物理的に近いニアスピーカ(またはリスナから物理的に遠いファースピーカ)によりレンダされることを「意図された」3Dオーディオプログラムの「ニア」(または「ファー」)チャンネルは、(自明であるが)かかる物理的に近い(または遠い)スピーカによりレンダされ得る。または、自明なレンダリングと少なくとも実質的に等価であるように設計され、リスナからの任意の物理的距離にあるスピーカを用いて(例えば、トランスノーラルまたはウェーブフィールド合成を含む任意の技術を用いて)「仮想的に」レンダできる。3Dオーディオプログラムのフルレンジチャンネルのレンダリングの一例は、リスナに対して異なる所定のアジマス角にある各メインスピーカ、及び実質的にゼロに等しいアジマス角にあるニアフィールドスピーカ及びファーフィールドスピーカでのレンダリングである。
空間領域:分析され奥行き値を割り振られるビジュアルイメージの一部である。
AVR:オーディオビデオレシーバ。例えば、例えば、ホームシアターなどにおいて、オーディオ及びビデオコンテンツの再生を制御するのに用いられるある種のコンシューマエレクトロニクス製品のレシーバである。
米国では、立体3Dムービーがますます普及し、今日のボックスオフィスの収入の大きなパーセンテージを占めている。新しいデジタルシネマ、放送、及びブルーレイの仕様は、偏光メガネ、フルスペクトルクロマチックセパレーションメガネ、アクティブシャッターメガネ、またはメガネを必要としない自動立体ディスプレイを含む様々な技術を用いて、3Dムービーその他の3Dビデオコンテンツ(例えば、ライブスポーツ)が、別の左右の目の画像として配信及びレンダされることを可能にする。シアター及び家庭における立体3Dコンテンツの制作、配信、及びレンダリングのインフラストラクチャが整っている。
立体3Dビデオは、ビジュアルイメージに奥行きの印象を付加する。表示されたオブジェクトは、スクリーンの前でも後の方でも、ユーザから可変距離にあると見えるようにレンダできる。付随するサウンドトラック(一般的にはサラウンドサウンドトラック)は、現在、2Dムービーと同じ方法を用いてオーサリング及びレンダリングされている。従来の2Dサラウンドサウンドトラックは、一般的には、5または7のオーディオ信号(フルレンジチャンネル)を含み、これらはリスナに対して名目的に等距離にあり、リスナに対して異なる名目的アジマス角に配置されたスピーカに送られる(routed)。
例えば、図1は、リスナ1に対して、2Dオーディオプログラムをレンダする従来の5スピーカサウンド再生システムを示す。2Dオーディオプログラムは従来の5チャンネルサラウンドサウンドプログラムである。このシステムは、リスナ1から少なくとも実質的に等距離にあるスピーカ2、3、4、5及び6を含む。各スピーカ2、3、4、5及び6は、プログラムの異なるフルレンジチャンネルをレンダするのに使われることを意図している。図示したように、(プログラムのライトフロントチャンネルをレンダリングするよう意図された)スピーカ3はアジマス角30°に配置され、(プログラムのライトサラウンドチャンネルをレンダリングするよう意図された)スピーカ6はアジマス角110°に配置され、(プログラムのセンターフロントチャンネルをレンダリングするよう意図された)スピーカ4はアジマス角0°に配置されている。
(反射が無い)自由場において、オーディオソースの距離に関するリスナの知覚は、主に3つのキュー(cue)によりガイドされている:音響レベルと、高低周波数コンテンツの相対的レベルと、ニアフィールド信号の場合のリスナの耳の間のレベル差である。典型的な放射レベルで話され(または話されたと仮定される)スピーチなどの良く聞くサウンドの場合、音響レベルが断然重要なキューである。リスナが、知覚したオーディオの放射レベルについて知らない場合、知覚される音響レベルの有用さは減少し、他のキューが重要になる。反響のある音響環境では、直接対反響比(direct to reverb ratio)と、早期反射のレベル及び方向を含む(リスナからのオーディオソースの距離に加え)別のキューがある。
家庭のリスニングルーム、シネマまたはシアターで再生されるオーディオ信号の場合、従来のラウドスピーカからレンダリングされる「ドライな」すなわち処理されていない信号は、一般的にそのラウドスピーカの距離にあるとイメージされる。2Dオーディオプログラム(例えば、サラウンドサウンドトラック)の製作では、周知のミキシング技術(例えば、リバーブ及びローパスフィルタリング)を用いて遠いこと(離れた音源からのサウンドの知覚)をシミュレートできる。(遠い音源からのオーディオをシミュレートして対比させる以上に)近いことをシミュレートする2Dオーディオプログラムを再生する効果的なミキシング方法はない。これは、再生する場所の自然なリバーブ(reverb)を除去または抑制することが非常に困難であることが原因の1つである。
3Dオーディオ(リスナから遠い音源からのものであると知覚されるオーディオだけでなく、近いオーディオ)をレンダ(render)するハードウェアベースのシステムが提案されている。かかるシステムでは、オーディオは、リスナから比較的遠くに配置された(少なくとも一スピーカを含む)第1組のスピーカと、リスナの近くに配置された(一組のヘッドホンなど少なくとも1つのスピーカを含む)第2組のスピーカとによりレンダされる。一般的には、第1組のスピーカは第2組のスピーカと時間的にそろえられている(time-aligned)。かかるシステムの一例が特許文献1に記載されている。このクラスのシステムは3Dオーディオプログラムをレンダできる。かかる3Dオーディオプログラムをかかるシステムによりレンダするために製作することはできるが、本発明まで、2Dオーディオプログラムをアップミックスすることによりかかる3Dオーディオプログラムを製作することは提案されていない。この段落で説明したクラスのシステムによりレンダするために、どのように2Dオーディオプログラムをアップミックスして3Dオーディオプログラムを作成するかは、(本発明まで)知られていない。
【0028】
(リスナから名目上等距離にある複数のスピーカを用いて、またはリスナから異なる距離に配置された複数のスピーカを用いて)放射されたサウンドがリスナから異なる距離にある音源から発したものと知覚されるように、オーディオプログラムをレンダする多数の技術が提案されている。かかる技術は、トランスオーラル(transaural)サウンドレンダリング、ウェーブフィールド合成、及び専用のラウドスピーカデザインを用いたアクティブ・ダイレクト・リバーブ比制御を含む。かかる技術が実際に実装され広く展開されると、フル3Dオーディオをレンダすることができるだろう。しかし、現実的なレンダリング手段が利用できるようになるまで、3Dオーディオコンテンツを明示的にオーサリングまたは配信するインセンティブはほとんどない。反対に、3Dオーディオコンテンツがなければ、必要とされるレンダリング機器を開発してインストールするインセンティブはほとんどない。この「卵が先か、ニワトリが先か」というジレンマを解消するため、従来のサウンドトラックから3Dオーディオ信号を作る手段が望ましい。本発明の典型的な実施形態は、既存の(例えば、従来製作された)Nチャンネル2DオーディオプログラムからN+Mチャンネル3Dオーディオプログラムを生成することにより、この問題に対するソリューションを提供する。
特許文献2は、モノオーディオデータとビデオデータを受け取り、データを処理して、マルチチャンネルオーディオデータを出力するサウンドイメージングシステムについて記載している。このシステムは、ビデオデータからビデオオブジェクトを抽出し、顔及び声認識や動き分析などのマッチング手法を用いて各サウンドソースをビデオオブジェクトとマッチングする。
特許文献3は、オーディオ信号をローかライゼーション計算ユニットに入力するオーディオソース入力ユニットを有するオーディオシステムについて記載している。ローかライゼーション計算ユニットはオーディオ信号を出力するスピーカを選択する。
特許文献4は、マルチモードコンテンツフォーマットを用いて3次元サウンドイベントを記録及び再生するシステムと方法について説明している。
【先行技術文献】
【特許文献】
米国特許出願公開第2006/0050890(公開日2006年3月9日、出願人Tsuhako) 米国特許出願公開第2003/053680号明細書 米国特許出願公開第2009/034764号明細書 国際出願公開第WO2006/091540号明細書
一クラスの実施形態において、本発明は、(Nフルレンジチャンネルを含み、Nは正整数である)Nチャンネル入力オーディオをアップミックスして、N+Mフルレンジチャンネルを含む3D出力オーディオを生成する方法であって、ここでMは正整数であり、N+Mフルレンジチャンネルはリスナから異なる距離にある少なくとも2つのスピーカを含む複数のスピーカによりレンダされることを意図されている。典型的に、前記方法は、少なくとも一オーディオソースの前記リスナからの距離を示すソース奥行きデータを提供するステップと、入力オーディオをアップミックスして、前記ソース奥行きデータを用いて前記3D出力オーディオを生成する。一般的に、Nチャンネル入力オーディオは、2Dオーディオプログラムであり、Nフルレンジチャンネルは、リスナから等距離にあるN個のスピーカによりレンダされることを意図されている。ある実施形態では、前記3Dオーディオは3Dオーディオプログラムであり、前記3DオーディオプログラムのN+Mフルレンジチャンネルは、前記リスナから名目的に等距離にあるNスピーカ(「メイン」スピーカとも呼ぶ)によりレンダされるNチャンネルと、追加的スピーカによりレンダされることを意図されたMチャンネルとを含み、各追加的スピーカは前記メインスピーカより前記リスナに近くまたは遠くに配置されている。他の実施形態では、3D出力オーディオのN+Mフルレンジチャンネルは、NメインスピーカとM追加スピーカにマッピングしない。ここで、各追加的スピーカはメインスピーカよりリスナに近くまたは遠くに配置されている。例えば、出力オーディオは、XスピーカによりレンダされるN+Mフルレンジチャンネルを含む3Dオーディオプログラムであってもよい。ここで、Xは出力プログラム中の3Dオーディオチャンネルの数(N+M)と必ずしも等しくなく、N+M3D出力オーディオチャンネルは、リスナが、リスナから異なる距離にあるソースから発したものであるとスピーカから放射されたサウンドを近くするように、Xスピーカを駆動するXスピーカフィードを生成するように処理(例えば、ミックス及び/またはフィルタ)されることを意図されている。3D出力オーディオのN+Mフルレンジチャンネルの2つ以上が単一のスピーカを駆動でき(または駆動するオーディオを生成するように処理され)、または3D出力オーディオのN+Mフルレンジチャンネルの1つが、2つ以上のスピーカを駆動(または駆動するオーディオを生成するように処理され)できることを想定している。
実施形態によっては、N+Mチャンネルの少なくとも1つが一または複数のスピーカを駆動して、各スピーカから異なる距離にある複数のソースから放射されたサウンドをシミュレート(すなわち、リスナにより近くされるように)するサウンドを放射するように、一または複数のスピーカを駆動できるように、3D出力オーディオのN+Mフルレンジチャンネルの少なくとも1つを生成するステップを含む。ある実施形態は、N+Mチャンネルの各々がスピーカを駆動してスピーカの場所から放射されたとリスナに近くされるサウンドを放射するように、3D出力オーディオのN+Mフルレンジチャンネルを生成するステップを含む。ある実施形態では、3D出力オーディオは、リスナから名目的に等距離にあるNスピーカ(「メイン」スピーカ)によりレンダされるNフルレンジチャンネルと、追加的スピーカによりレンダされることを意図されたMフルレンジチャンネルとを含み、追加的スピーカの各々はメインスピーカよりリスナから近くまたは遠くに配置され、前記Mフルレンジチャンネルの1つに応じて追加的スピーカの各々から放射されるサウンドは、メインスピーカよりリスナに近いソース(ニアフィールドソース)からとして知覚されるか、またはメインスピーカよりリスナから遠いソース(ファーフィールドソース)からとして知覚され、Nチャンネル入力オーディオにより駆動された時、かかるニアフィールドまたはファーフィールドソースからのサウンドをシミュレートするサウンドを放射する。
好ましい実施形態では、(Nフルレンジチャンネルを含む)入力オーディオをアップミックスして(N+Mフルレンジチャンネルを含む)3D出力オーディオを生成するステップは、自動的に実行され、例えば、(例えば、入力オーディオが3Dビデオの2Dオーディオサウンドトラックである場合、)入力オーディオに対応する立体3Dビデオから自動的に決定(例えば、抽出)されたキューに応じて、または、入力オーディオから自動的に決定されたキューに応じて、または、入力オーディオから及び入力オーディオに対応する立体3Dビデオから自動的に決定されたキューに応じて、生成できる。このコンテキストでは、「自動的」な出力オーディオの生成は、入力オーディオのチャンネルの(例えば、マニュアルで選択したゲインファクタによるチャンネルの乗算とその加算によるチャンネルの乗算などの)マニュアルミキシング(例えば、3D出力オーディオの一または複数のチャンネルを生成するための、Nチャンネル2Dオーディオのマニュアルミキシング)だけによる出力オーディオの生成は排除することを意図している。
典型的なビデオドリブンアップミキシングの実施形態では、3Dビデオ中の利用可能な立体情報を用いて、オーディオ奥行きエンハンスメントキューを抽出する。かかる実施形態を用いて、立体3Dムービーの3Dサウンドトラックを生成することにより、そのムービーをエンハンスできる。典型的なオーディオドリブンアップミキシングの実施形態では、3D出力オーディオを生成するキューは、2Dオーディオプログラム(例えば、3Dビデオプログラムのオリジナル2Dサウンドトラック)から抽出される。また、これらの実施形態を用いて、3Dムービーの3Dサウンドトラックを生成することにより、そのムービーをエンハンスできる。
一クラスの実施形態では、本発明は、(リスナから名目的に等距離にあるNスピーカによりレンダされることを意図された)Nチャンネル2D入力オーディオをアップミックスして、N+Mフルレンジチャンネルを含む3D出力オーディオを生成する方法であって、ここで、N+Mチャンネルはリスナから名目的に等距離にあるNメインスピーカによりレンダされるNフルレンジチャンネルと、メインスピーカよりリスナの近くまたは遠くにある追加的スピーカによりレンダされることを意図されたMフルレンジチャンネルとを含む。
他の一クラスの実施形態では、本発明は、Nチャンネル入力オーディオに応じて3D出力オーディオの自動生成をする方法であって、3D出力オーディオはN+Mフルレンジチャンネルを有し、NとMはそれぞれ正整数であり、3D出力オーディオのN+Mフルレンジチャンネルは、リスナから異なる距離にある少なくとも2つのスピーカを含む複数のスピーカによりレンダされることを意図している。一般的に、Nチャンネル入力オーディオは、リスナから名目的に等距離にあるN個のスピーカによりレンダされる2Dオーディオプログラムである。このコンテキストでは、「自動的」な出力オーディオの生成は、入力オーディオのチャンネルのマニュアルミキシング(例えば、3D出力オーディオの一または複数のチャンネルを生成するための、Nチャンネル2D入力オーディオのチャンネルマニュアルミキシング)だけによる出力オーディオの生成は排除することを意図している。自動的な生成は、少なくとも一オーディオソースのリスナからの距離を示すソース奥行きデータを生成(または提供)するステップと、入力オーディオをアップミックスして、そのソース奥行きデータを用いた3D出力オーディオを生成するステップとを含み得る。このクラスの典型的な実施形態では、ソース奥行きデータは、(例えば、入力オーディオが3Dビデオの2Dオーディオサウンドトラックである場合、)入力オーディオに対応する立体3Dビデオから自動的に決定(例えば、抽出)された奥行きキュー、または入力オーディオから自動的に決定された奥行きキュー、または入力オーディオとそれに対応する立体3Dビデオから自動的に決定された奥行きキューである(またはこれらから決定される)。
本発明の方法及びシステムは、従来のオーディオアップミキシング方法及びシステム(例えば、Gundry, Kenneth, A New Active Matrix Decoder for Surround Sound, AES Conference: 19th International Conference: Surround Sound - Techniques, Technology, and Perception (June 2001)等に記載されているDolby Pro Logic II)とは異なる。既存のアップミキサは、一般的には、第1の2Dスピーカ構成(例えば、ステレオ)で再生することを意図された入力オーディオプログラムを変換して、(例えば、5.1構成のように)追加的アジマス及び/またはエレベーション角にあるスピーカを含む第2の(より大きい)2Dスピーカ構成で再生する追加的オーディオ信号を生成する。第1と第2のスピーカ構成は両方とも、すべてリスナから名目的に等距離にあるラウドスピーカよりなる。対照的に、本発明の一クラスの実施形態によるアップミキシング方法は、リスナから2以上の名目的距離に物理的に配置されたスピーカによりレンダリングすることを意図されたオーディオ出力信号を生成する。
本発明の態様には、本発明の方法の任意の実施形態を実行するように構成(例えば、プログラム)されたシステムと、本発明の方法の任意の実施形態を実施するコードを格納したコンピュータ読み取り可能媒体(例えば、ディスク)とが含まれる。
典型的な実施形態では、本発明のシステムは、ソフトウェア(又はファームウェア)でプログラムされ、さもなければ本発明の方法の一実施形態を実行するように構成された汎用又は特殊用途プロセッサである、又はそれを含む。ある実施形態では、本発明のシステムは、入力オーディオ(及び任意的に入力ビデオも)を受け取るように結合され、入力オーディオ(及び、任意的に入力ビデオ)に応じて出力オーディオを(本発明の方法の一実施形態を実行することにより)生成するように(適切なソフトウェアで)プログラムされた汎用プロセッサを含む。他の実施形態では、本発明のシステムは、入力オーディオに応じて出力オーディオを生成するように動作する適切に構成された(例えば、プログラムされ、または設定された)オーディオデジタルシグナルプロセッサ(DSP)として実装される。
2Dオーディオをレンダリングする従来のシステムを示す図である。 3Dオーディオ(例えば、本発明の一実施形態により生成された3Dオーディオ)をレンダリングするシステムを示す図である。 ビュアの左目用の第1の画像にそのビュアの右目用の第2の画像をスーパーインポーズしたことを示す、立体3Dビデオプログラムのフレームを示す図である。(第1の画像の要素ごとに、対応する第2の画像の要素が異なる量だけオフセットされている)。 コンピュータシステムを示すブロック図である。このシステムは、コンピュータ読み取り可能記憶媒体504を含み、この媒体は、システムのプロセッサ501をプログラミングして本発明の一実施形態を実行させるコンピュータコードを記憶している。
本発明の多くの実施形態は技術的に実現可能なものである。本技術分野の当業者には、本開示から、実施形態をいかに実施するかは明らかである。本発明のシステム、方法及び媒体の実施形態を、図1、2、3及び4を参照して説明する。
一クラスの実施形態では、本発明は、Nチャンネル入力オーディオ(Nは正整数)をアップミックスしてN+Mフルレンジチャンネルを有する3D出力オーディオを生成する方法である。Mは正整数であり、3D出力オーディオのN+Mフルレンジチャンネルは、リスナから異なる距離にある少なくとも2つのスピーカを含む複数のスピーカによりレンダされることを意図している。一般的に、Nチャンネル入力オーディオは2Dオーディオプログラムであり、Nフルレンジチャンネルは、リスナから名目的に等距離にあるN個のスピーカによりレンダされることを意図されている。
例えば、入力オーディオは、(上で説明した)図1の従来の5スピーカシステムでレンダリングすることを意図された5チャンネル、サラウンドサウンド2Dオーディオプログラムである。かかる2Dオーディオプログラムの5つのフルレンジチャンネルはそれぞれ、図1のシステムのスピーカ2、3、4、5及び6のうちの異なるものを駆動することを意図している。かかる5チャンネル2D入力オーディオをアップミックスすることにより、本発明の一実施形態により、図2の7スピーカシステムによりレンダされることを意図された7チャンネル(N=5、M=2)3Dオーディオプログラムが生成できる。図2のシステムは、(図1の同番号のスピーカと同じ)スピーカ2、3、4、5及び6と、(リスナ1に対してアジマス角0°であるがスピーカ4よりリスナ1から大幅に遠くに配置された)ファースピーカ7と、(リスナ1に対してアジマス角0°であるがスピーカ4よりリスナ1に大幅に近い)ニアスピーカ8とを含む。スピーカ4、7及び8は、リスナ1に対して異なるエレベーションで配置されてもよい。(本実施形態において生成される)3Dオーディオプログラムの7つのフルレンジチャンネルはそれぞれ、図2のシステムのスピーカ2、3、4、5、6、7及び8のうちの異なるものを駆動することを意図している。そのように駆動されると、スピーカ2、3、4、5、6、7及び8から放射されるサウンドは、一般的に、リスナ1により、そのリスナから異なる距離にある少なくとも2つのソースから発していると近くされる。例えば、スピーカ8からのサウンドは、スピーカ8の位置にあるニアフィールドソースから発していると知覚され、スピーカ7からのサウンドは、スピーカ7の位置にあるファーフィールドソースから発していると知覚され、スピーカ2、3、4、5及び6からのサウンドは、リスナ1からの距離がスピーカ2、3、4、5及び6と同じ少なくとも1つのソースから発していると知覚される。あるいは、一サブセットのスピーカ2、3、4、5、6、7及び8からのサウンドは、リスナ1から第1の距離にあるソースから放射されたサウンドをシミュレーションし(すなわち、リスナ1にそのように知覚され)(例えば、スピーカ2と7から放射されるサウンドはスピーカ2と7の間のソースから、またはリスナ1からスピーカ7より遠いソースから発していると知覚される)、他の一サブセットのスピーカ2、3、4、5、6、7及び8からのサウンドは、リスナ1から他の距離にあるソースから放射されたサウンドをシミュレーションする。
本発明により生成される3Dオーディオが、特定の方法や特定のシステムでレンダされなければならないということは想定していない。多くの異なるレンダリング方法とシステムを利用して本発明の様々な実施形態により生成された3Dオーディオコンテンツをレンダでき、3Dオーディオが本発明により生成される方法は利用されるレンダリング技術に依存することを想定している。場合によっては、(本発明により生成された3Dオーディオプログラムの)ニアフィールドオーディオコンテンツは、リスナの知覚に配置された一又は複数の物理的ラウドスピーカ(例えば、図2のシステムのスピーカ8またはフロントチャンネルスピーカとリスナとの間に配置されたスピーカ)を用いてレンダすることもできる。他の場合には、(リスナから距離Xにある音源から発していると知覚される)ニアフィールドオーディオコンテンツは、(ニアフィールドオーディオの感覚を生むように構成されたハードウェア及び/またはソフトウェアを用いて)リスナから距離Xより近く及び/または遠くに配置されたスピーカによりレンダでき、(本発明により生成される同じ3Dオーディオプログラムの)ファーフィールドオーディオコンテンツは、(より多くのスピーカの第1のサブセットであってもよい)同じ複数のスピーカまたは(より多くのスピーカの第2のサブセットであってもよい)異なる複数のスピーカによりレンダできる。
本発明の実施形態により生成される3Dオーディオのレンダリングに用いることを想定しているレンダリング技術の例には、以下のものが含まれる:
ヘッドホンにレンダされたニアフィールドHRTFを有するバイノーラルオーディオシステム、
ニアフィールドHTRFを有するトランスオーラルオーディオシステム、
ウェーブフィールド合成を用いる一または複数のシミュレーションされたオーディオソース、
集中イメージング(focused imaging)を用いる一または複数のシミュレーションされたオーディオソース、
一または複数のオーバーヘッドラウドスピーカ、または
ダイレクト対リバーブ比を制御するアルゴリズムまたはデバイス。
ある実施形態では、本発明は、既存の2Dオーディオプログラムの一部を取り出して(extract)アップミックスされた3Dオーディオプログラムであって、スピーカによりレンダされた時に奥行き効果を有すると知覚される3Dオーディオプログラムを生成するコーディング方法である。
本発明の方法の典型的な実施形態は、Nチャンネル入力オーディオをアップミックスして、(N+Mフルレンジチャンネルを有する)3D出力オーディオを生成するが、奥行きマップD(θ,γ)またはD(θ)を用いる。奥行きマップは、アジマスθとエレベーションγを有する方向からリスナの位置に入射する3D出力オーディオにより決まる少なくとも少なくとも1つの音源の奥行き(リスナからの望ましい知覚距離)を、アジマス及びエレベーション(またはアジマスのみ)の関数として記述する。かかる奥行きマップD(θ,γ)は、本発明の様々な実施形態において異なる多くの方法で提供(例えば、決定または生成)される。例えば、奥行きマップは、入力オーディオと共に(例えば、入力オーディオが3Dビデオプログラムのサウンドトラックである場合、3Dブロードキャストフォーマットで利用されるタイプのメタデータとして)提供されてもよく、または(入力オーディオが関連する)ビデオと奥行きセンサから提供されてもよく、またはラスタレンダラ(例えば、GPU)のzバッファから提供されてもよく、または入力オーディオに関連する立体3Dビデオプログラムに含まれるキャプション及び/またはサブタイトル奥行きメタデータから提供されてもよく、または動きから奥行きを推定してもよい。メタデータが利用できず、入力オーディオに関連する立体3Dビデオが利用できる場合、奥行きマップの生成に使うために、3Dビデオから奥行きキュー(depth cues)を取り出しても良い。適当な処理により、(3Dビデオにより決まる)ビジュアルオブジェクトの距離を、生成されるオーディオ奥行き効果と相関させることができる。
次に、立体3Dビデオ(例えば、2D入力オーディオプログラムに対応して、それとともに提供される3Dビデオ)から奥行きマップD(θ,γ)を決定する好ましい方法を説明する。次に、奥行きマップを用いて、2D入力オーディオに応じて(レンダされると奥行き効果を示す)3D出力オーディオを作成するために(本発明の方法の実施形態により)実行される、オーディオ分析及び合成ステップを説明する。
立体3Dビデオプログラムのフレームは、一般的に、ビュアから異なる距離にあると知覚されるビジュアルオブジェクトを決定する。例えば、図3の立体3Dビデオフレームは、ビュアの左目用の第1の画像にそのビュアの右目用の第2の画像をスーパーインポーズしたものを決定する(第1の画像の要素ごとに、対応する第2の画像の要素が異なる量だけオフセットされている)。図3のフレームを見ている者は、第1の画像の要素L1及び要素L1から右に少しオフセットされた第2の画像の要素R1により決まる楕円形状のオブジェクトと、第1の画像の要素L2及び要素L2から左に少しオフセットされた第2の画像の要素R2により決まるダイヤモンド形状のオブジェクトと、を知覚する。
立体3Dビデオプログラムの各ビジュアル要素について、左右の目のフレームイメージは、要素の知覚される奥行きにより変わる差(disparity)を有する。典型的に、かかるプログラムの3D画像が、差がゼロの(要素の左目ビューと右目ビューとの間にオフセットが無い)点に要素を有する場合、その要素は画面の距離に見える。正のディスパリティを有する3D画像の要素(例えば、ディスパリティが+P2である図3のダイヤモンド形状のオブジェクト。ディスパリティ+P2はその要素の左目ビューL2がその要素の右目ビューR2から右にオフセットしている距離である)は、画面より遠くにある(画面の後にある)ように知覚される。同様に、負のディスパリティを有する3D画像の要素(例えば、ディスパリティが−P1である図3の楕円形状のオブジェクト。ディスパリティ−P1はその要素の左目ビューL1がその要素の右目ビューR1から左にオフセットしている距離である)は、画面の前にあるように知覚される。
本発明の実施形態によると、立体3Dビデオフレームの特定された各要素(または特定された少なくとも1つの要素)のディスパリティは、測定され、ビジュアル奥行きマップを生成するのに使われる。ビジュアル奥行きマップを使ってオーディオ奥行きマップを生成できる。または(オーディオ効果を強化するため)ビジュアル奥行きマップをオフセット及び/またはスケールして、オーディオ奥行きマップの生成に用いることができる。例えば、ビデオシーンが視覚的に主に画面の後に生じる場合、ビジュアル奥行きマップをオフセットしてオーディオを部屋に(リスナに向けて)シフトしてもよい。3Dビデオプログラムが奥行きをマイルドにしか使わない(すなわち、浅い奥行き「ブラケット」を有する)場合、ビジュアル奥行きマップをスケールアップしてオーディオ奥行き効果を増大してもよい。
以下の例では、立体3Dビデオプログラムから決定されるビジュアル奥行きマップD(θ、γ)は、対応する2DオーディオプログラムのLとRのラウドスピーカのロケーション(θとθ)の間のアジマスセクタに限定される。このセクタはビジュアルビュースクリーンの水平スパンであると仮定される。また、異なるエレベーションにおけるD(θ,γ)値は、同じ値であると近似される。このように、画像分析の目的は
[外1]
Figure 0005893129
を求めることである。
画像分析への入力は、左右の目の画像の各ペアのRGBマトリックスである。これは任意的に計算速度を考慮してダウンサンプリングされている。左(及び右)画像のRGB値はLab色空間(あるいは、人間の視覚を近似するその他の色空間)に変換される。色空間変換は、周知の多くの方法で実現できるので、ここでは詳しくは説明しない。以下の説明では、左画像の変換後の色値を処理して、説明の特徴及び関心領域(ROI)値を生成するが、代替的にこれらの動作は右画像の変換後の色値に対して行っても良い。
水平及び垂直座標(x,y)にある左画像の各画素について、ベクトル
[外2]
Figure 0005893129
があると仮定する。ここで、値Lx,yはLab色空間の明るさ値であり、値ax,yとbx,yはLab色空間色成分値である。
左画像の各画素に対して、特徴尺度は
[外3]
Figure 0005893129
として計算される。ここで、vAiは画像の領域A中の画素の平均L、a及びb値のベクトルを示し、
[外4]
Figure 0005893129
は領域Aの各画素の平均ベクトルvAiとベクトルvn,mとの間の差の平均を示す(インデックスnとmはその領域医の範囲にわたる)。典型的な一実施形態では、領域A、A及びAは、カレント画素(x,y)を中心とする、寸法が左画像高さの0.25、0.125、0.0625倍の正方形領域である(よって、各領域Aは比較的大きな領域であり、各領域Aは中間サイズの領域であり、各領域Aは比較的小さい領域である)。各領域Aの画素の平均ベクトルvAiと各ベクトルvn,mとの間の差の平均を決定し、これらの平均を合計して各値S(x,y)を求める。さらに、ビデオコンテンツに応じて領域Aのサイズの調整を適用してもよい。各画素のL、a及びbの値を、対応するフレーム最大値で除算して規格化して、規格化値が特徴尺度Sの計算と同じ重みを有するようにする。
3Dフレームの左画像の特徴尺度(saliency measures)に基づき、3D画像の関心領域(ROI)を決定する。一般的に、ROIの画素は、左画像の領域中の、特徴Sが閾値τを越える画素として決定される。この閾値は特徴ヒストグラム(saliency histogram)から求められる。またはビデオコンテンツに応じて予め決められる。実際、このステップは、同じフレームのROIから、(3Dビデオの一連のフレームの各フレームから)より静的な背景部分を分離する機能を有する。(その一連の各フレームの)ROIは、対応するオーディオプログラムのサウンドに関連するビジュアルオブジェクトを含む可能性がより高い。
ビジュアル奥行きD(θ)の評価は、好ましくは、左右のグレースケール画像IとIの間のディスパリティ計算に基づく。この実施形態では、(3Dプログラムのフレームの)ROIの(座標(x,y)にある)各左画像画素に対して、左画像グレースケール値I(x,y)を決定し、また対応する右画像グレースケール値I(x,y)を決定する。その画素を含む複数の画素の水平レンジ(すなわち、その画素と同じ垂直座標yを有し、画素の水平座標xから座標x+δまでのレンジの水平座標を有する左画像画素。ここでδは所定値である)の左画像グレースケール値を考える。また、その画素の水平座標xから候補ディスパリティ値dだけオフセットされた水平位置のレンジ中の右画像グレースケール値を考える(言い換えると、左画像値と同じ垂直座標yを有し、その左画像値のオフセット水平座標x+dから幅δのレンジの水平座標を有する、すなわち、x+dからx+δ+dまでのx座標を有する、対応する右画像の画素)。そこで、(異なる候補ディスパリティ値dを用いて)、
[外5]
Figure 0005893129
として画素のディスパリティ値を計算する。これは、画素の値の差I−Iの平均を最小化する候補ディスパリティ値dの値である。Sとdの値は、ビデオコンテンツの最大及び最小ディスパリティ(dmaxとdmin)と、所望の精度対計算許容複雑性に応じて調整できる。一様な背景のディスパリティは、(一部のビデオプログラムの場合)ゼロであり、間違った奥行き表示を与える。よって、より正確なビジュアルな奥行きの尺度を求めるために、上記のタイプの特徴計算を行い、背景からROIを分離することが好ましい。ディスパリティ分析は、一般的には、ROIが小さい場合と比較してROIが大きい場合に、計算がより複雑であり、コストがかかる。任意的に、背景からROIを区別するステップをスキップして、フレーム全体をROIとして扱ってディスパリティ分析を行うこともできる。
(一般的にはROI中の各画素のディスパリティ値よりなる)決定されたディスパリティ値D(x,y)は、次にアジマス角にマッピングされ、奥行きマップD(θ)が決定される。(3Dビデオのフレームにより決まる)画像は複数のアジマスセクタθ(それぞれ約3°の幅を有する)に分離され、各セクタに対してディスパリティの平均値が計算される。例えば、アジマスセクタθの平均ディスパリティは、ROIのそのセクタとの交わりのディスパリティ値D(x,y)の平均D(θ)でもよい。ディスパリティ値D(θ,γ)をオーディオ分析に直接使用できるスケールされた値として計算するため、ROIの関連アジマスセクタθとの交わりの画素のディスパリティ値D(x,y)の平均は、(通常は、3Dビデオのdmaxとdminの絶対値の最大値である)ファクタdnにより規格化され、任意的にさらにファクタαによりスケールされる。スケーリングファクタのデフォルト値は=1であってもよい。しかし、スケーリングファクタは、奥行き効果の所望の強さ(severity)、及びアジマスセクタのうちの関連するものの平均的な特徴(saliency)に依存してもよい。目標が、例えば、リスナよりスクリーンに近い場所に、ディスパリティがゼロのビデオフィーチャに対応する見かけのオーディオソースを配置することにより、真のビジュアル奥行きマッピングから離れることである場合、(この目的のために調整された)奥行きバイアス値dを、規格化されたディスパリティ値から引くことができる。よって、アジマスセクタθのディスパリティ値D(θ)を(ROIの関連アジマスセクタθとの交わりの各画素のディスパリティ値D(x,y)から)
Figure 0005893129
として決定できる。式(1)において、
[外6]
Figure 0005893129
はROIのアジマスセクタθとの交わりの各画素のディスパリティ値D(x,y)の平均を示す。このように、奥行きマップD(θ)(すべてのアジマスセクタの式(1)のディスパリティ値D(θ))は、各アジマスセクタのビジュアルな距離とともにリニアに変化する一組のスケール尺度として計算できる。
式(1)により決まるマップD(θ)(「未修正マップ」)は、一般的には修正されてニアチャンネルまたはファーチャンネルオーディオを生成するために使われる。未修正マップD(θ)の負値は正のニアチャンネルゲインを示し、正値はファーチャンネルゲインを示す。例えば、第1の修正マップが生成され、ニアチャンネルオーディオの生成に使われ、第2の修正マップが生成され、ファーチャンネルオーディオの生成に使われ、未修正マップの正値は第1の修正マップでは(負ゲインではなく)ゼロゲインを示す値で置き換えられ、未修正マップの負値は第1の修正マップではその絶対値で置き換えられ、未修正マップの負値は第2の修正マップでは(負ゲインではなく)ゼロゲインを示す値で置き換えられる。
決定されたマップD(θ)は、(例えば上記の通り)修正したものであっても修正しないものであっても、3Dオーディオの生成に使う場合、オーディオソースの奥行きの相対的な尺度を示すと考えられる。これを用いて、入力2Dオーディオから(3Dオーディオプログラムの)「ニア(near)」及び/または「ファー(far)」チャンネルを生成できる。ニアチャンネル及び/またはファーチャンネルの生成において、一般的に、ニア及び/またはファーオーディオチャンネルレンダリング手段(例えば、リスナに比較的近くに配置されたファースピーカ及び/またはリスナに比較的近くに配置されたニアスピーカ)は、各「メイン」オーディオチャンネルのレンダリングに用いられる「メイン」オーディオチャンネルレンダリング手段(例えば、リスナから名目的に等距離に配置され、各ファースピーカより近い距離にあり、各ニアスピーカより遠い距離にあるスピーカ)と適宜レベル較正されている。
一般的に、レンダリングされたニア/ファーチャンネルのオーディオ信号は正面セクタ(frontal sector)から(例えば、サラウンドサウンドをレンダする一組のスピーカのレフトフロントとライトフロントスピーカの位置の間から、図2のシステムのレフトスピーカ2とライトスピーカ3の間から)聞こえてくるように近くされることが望ましい。また、マップD(θ)を上記のように計算した場合、(ビデオプログラムの)入力2Dオーディオサウンドトラックのフロントチャンネル(例えば、L、R及びC)のみから「ニア」及び/または「ファー」チャンネルを生成することは自然である。ビュースクリーンはレフトフロント(L)及びライトフロント(R)スピーカの間のアジマスセクタに広がっていると仮定されるからである。
本発明の方法の実施形態において、(例えば、3Dオーディオプログラムの「ニア」及び/または「ファー」オーディオチャンネルを生成するための奥行きマップを決定するため)ビデオプログラム分析が行われるだけでなく、オーディオ分析も行われ、オーディオ分析はビデオフレームに時間的に対応するフレーム行われることが好ましい。本発明の方法の典型的な実施形態では、最初に、適当な変換(例えば、「STFT」とも呼ばれることがあるショートタームフーリエ変換)により、または複素QMFフィルタバンクを用いて、(2D入力オーディオのフロントチャンネルの)フレームオーディオを周波数ドメインに変換し、一部のアプリケーションで必要とされる周波数修正ロバストネスを提供する。以下の例では、X(b,t)は、(時刻tで特定される)入力オーdぇいおのフレームのチャンネルjの周波数帯域bを表す周波数ドメインを示し、X(b,t)は、周波数帯域bの(時刻tで特定される)入力オーディオフレームのフロントチャンネルの合計の周波数ドメイン表現を示す。
周波数ドメインでは、(各入力オーディオフレームの各周波数帯域の)入力オーディオの各フロントチャンネルに対して平均ゲイン値gが、帯域の絶対値の時間平均として決められる。例えば、入力オーディオの各フレームの各周波数帯域に対して、入力5.1サラウンドサウンド2Dプログラムのレフトチャンネルの平均現地gと、そのプログラムのライトチャンネルの平均ゲイン値gと、そのプログラムのセンターチャンネルの平均ゲイン値gとを計算し、マトリックス[g,g,g]を構成できる。これにより、全体的なアジマス方向ベクトルをカレントフレームの関数として
[外7]
Figure 0005893129
により計算することが可能となる。ここで、Lは、各フロントラウドスピーカに向いた標準的な基本単位長ベクトルを含む3×2マトリックスである。あるいは、θtot(b,t)を決定する場合、チャンネル間のコヒーレンス尺度も用いることができる。
この例では、LとRスピーカ間のアジマス領域は、奥行きマップD(θ)により与えられる情報に対応する複数のセクタに分割される。各アジマスセクタのオーディオは、
Figure 0005893129
により与えられる空間的に滑らかなマスクを用いて抽出される。ここで、σはマスクの空間的幅を制御する定数である。
次に、ニアチャンネル信号は、フロントチャンネルの合計に、(式(2)の)マスクと、各アジマスセクタの奥行きマップ値とをかけ、すべてのアジマスセクタにわたり合計することにより計算できる。すなわち、
Figure 0005893129
である。ここで、式(3)のY(b,t)は、(時刻tで特定される)ニアチャンネルオーディオフレームの周波数帯域bのニアチャンネルオーディオ値であり、式(3)のマップD(θ)は、式(1)から決定され、その正値をゼロで置き換え負値をその絶対値で置き換えた奥行きマップである。
また、ファーチャンネル信号は、フロントチャンネルの合計(X(b,t))に、(式(2)の)マスクと、各アジマスセクタの奥行きマップ値とをかけ、すべてのアジマスセクタにわたり合計することにより計算できる。すなわち、
Figure 0005893129
である。ここで、式(4)のY(b,t)は、(時刻tで特定される)ファーチャンネルオーディオフレームの周波数帯域bのファーチャンネルオーディオ値であり、式(4)のマップD(θ)は、式(1)から決定され、その負値をゼロで置き換えた奥行きマップである。
異なるアジマスセクタからのスケールされたオーディオは各式(3)と(4)において合計されモノ信号になるが、(式(3)と(4)における)合計を省略して、各ニアチャンネル及び各ファーチャンネルについて異なるアジマスサブセクタのオーディオを表す複数の出力チャンネル
[外8]
Figure 0005893129

[外9]
Figure 0005893129
とを決定することが可能である。
(式(3)のY(b,t)の値により決まる)ニアチャンネルのコンテンツ、及び/または(式(4)のY(b,t)の値により決まる)ファーチャンネルのコンテンツは、パワー法則
Figure 0005893129
により、または線形法則
Figure 0005893129
により、(本発明により生成される3Dオーディオの)フロントメインチャンネルから除去してもよい。
最後の処理ステップとして、(生成されたニアチャンネルとファーチャンネルの)すべての周波数ドメインフレーム信号は、変換されて時間ドメインに戻され、出力3Dオーディオの時間ドメインニアチャンネルと時間ドメインファーチャンネルとが生成される。また、出力3Dオーディオは、未修正の入力2Dオーディオの、または(例えば、式(5)または式(6)を参照して上で説明した演算の結果として修正されたL、R及びCチャンネルを有する)入力2Dオーディオの修正バージョンの、フルレンジチャンネル(L、R、C及び一般的にはLSとRS)である「メイン」チャンネルを含む。
本発明の2Dオーディオ(例えば、3Dビデオプログラムのサウンドトラック)をアップミックスする方法の他の実施形態では、2Dオーディオに対応する立体3Dビデオプログラムから求めたキューを用いて、3Dオーディオを生成する。これらの実施形態は、一般的に、(Nは正整数である、N個のフルレンジチャンネルを有する)Nチャンネル入力オーディオをアップミックスして、N+M個のフルレンジチャンネルを有する3D出力オーディオを生成する。ここで、Mは正整数であり、N+Mフルレンジチャンネルはリスナから異なる距離にある少なくとも2つのスピーカを含む複数のスピーカによりレンダされることを意図しており、(例えば、オーディオソースであると仮定された画像フィーチャの奥行きキューを推定または決定することにより)3Dビデオからビジュアル画像フィーチャを特定し、その画像フィーチャからオーディオソースの奥行きを示すキュー(cues)を生成することを含む。
これらの方法は、一般的には、3Dビデオ(または一連の3Dビデオフレーム)のフレームの左目画像とそれに対応する右目画像とを比較して、少なくとも一ビジュアルフィーチャのローカルな奥行きを推定するステップと、オーディオソースであると仮定された、特定された少なくとも一ビジュアルフィーチャのローカルな奥行きからオーディオソースの奥行きを示すキューを生成するステップとを含む。奥行きマップを生成する上記の実施形態のバリエーションにおいて、画像比較は、画像により決まるロバストフィーチャ(例えば、波)のランダムな組を用い、及び/または背景画素から関心領域(ROI)の画素を分離しそのROIの画素のディスパリティを計算する色的特徴尺度を用いても良い。ある実施形態では、3Dビデオプログラム中に含まれるまたはそれを有する所定の3Dポジショニング情報を用いて、奥行きを、3Dビデオプログラムの少なくとも一ビジュアルフィーチャの時間(例えば、フレーム番号)の関数として決める。
3Dビデオからのビジュアルフィーチャの抽出は、様々な方法とコンテキストで行える。例えば、ポストプロダクションで(この場合、ビジュアルフィーチャ奥行きキューは、オーディオビジュアルプログラムストリーム中のメタデータであり、メタデータとして(3Dヴィデオに、またはその3Dビデオのサウンドトラックとして)記憶され、ポストプロセッシング効果(本発明の一実施形態による3Dオーディオのその後の生成を含む)を可能とする)、またはかかるメタデータを有さない3Dビデオから(例えば、オーディオビデオレシーバにおいて)リアルタイムで、またはかかるメタデータを有さない3Dビデオから(例えば、ホームメディアサーバにおいて)非リアルタイムで、行える。
3Dビデオプログラムのビジュアルフィーチャの奥行きを推定する典型的な方法は、3Dビデオ画像の(または3Dビデオ画像の複数の空間領域の各々の)最終的ビジュアル画像奥行き推定を、(例えば、ローカルな奥行き推定の各々が比較的小さいROI内のビジュアルフィーチャの奥行きを示す場合)ローカルな奥行き推定の平均として、生成するステップを含む。平均は、次の方法の1つで3Dビデオ画像の複数の領域にわたり行える:
スクリーン全体(すなわち、3Dビデオフレームにより決まる3D画像全体)にわたりローカルな奥行き推定を平均化することにより、
スクリーン全体の一組の静的空間的サブリージョン(例えば、3D画像全体のレフト/センター/ライト領域)にわたりローカル奥ゆき推定を平均する(例えば、スクリーンの左のサブリージョンの最終的「レフト」ビジュアル画像奥行きと、スクリーンの中央サブリージョンの最終的「センター」ビジュアル画像奥行きと、スクリーンの右のサブリージョンの最終的「ライト」ビジュアル画像奥行きとを生成する)ことにより、
例えば、動き検出、またはローカルな奥行き推定、またはぶれ/フォーカス推定、またはオーディオ、ワイドバンド(オーディオスペクトル全体)またはマルチバンドレベル、及びチャンネル間の相関(パンされたオーディオ位置)などに基づき、一組の動的に変化する空間的サブリージョンにわたりローカルな奥行き推定を平均することにより、行える。任意的に、少なくとも1つの特徴メトリック(saliency metric)により、例えば、(例えば、スクリーンの中心のビジュアルフィーチャの距離推定を強調するため)スクリーン位置により、及び/または(例えば、フォーカスされたビジュアル画像の距離推定を強調するため)画像フォーカスにより、重み付け平均を行う。平均は、異なる複数の方法のいずれかで3Dビデオプログラムの時間区間にわたり行える。方法には次のものが含まれる:非時間的平均(例えば、3Dビデオフレームのカレント奥行き推定を用いて3Dオーディオを生成する)、(一連の平均奥行き推定を用いて3Dオーディオを生成するように)一定時間区間にわたる平均、(全体的または部分的に)ビデオの分析により決定される動的時間区間にわたる平均、またはビデオに対応する入力オーディオ(サウンドトラック)の分析に(全体的にまたは部分的に)より決定された動的時間区間にわたる平均。
本発明の方法の実施形態では、立体3Dビデオプログラムから求めたビジュアルフィーチャ奥行き情報を用いて2D入力オーディオ(例えば、ビデオプログラムのサウンドトラック)をアップミックスし、3Dオーディオを生成するものでは、様々な方法でフィーチャの奥行き情報を3Dオーディオと相関できる。ある実施形態では、(リスナに対する)空間領域に対応する3D出力オーディオの各ニア(またはファー)チャンネルについて、2D入力オーディオチャンネルの少なくとも1つのチャンネルからのオーディオは、ビジュアルフィーチャの奥行きに関連し、次の方法のうち一または複数を用いて、3D出力オーディオのニア(またはファー)チャンネルに割り当てられる:
推定された奥行きが中間奥行きより短い場合、空間領域に対応する2D入力オーディオ(例えば、入力オーディオの2つのチャンネルからのコンテンツのミックス)の少なくとも1チャンネルのコンテンツの全部または一部が、3Dオーディオのニアチャンネルに割り当てられ(その空間領域から放射されたと知覚されるようにレンダされ)、推定された奥行きが前記中間奥行きより長い場合、前記空間領域に対応する2D入力オーディオの少なくとも1チャンネルのコンテンツの全部または一部が、3Dオーディオのファーチャンネルに割り当てられる(その空間領域から放射されたと知覚されるようにレンダされる)(例えば、推定された奥行きが前記中間奥行きより短い場合、入力オーディオの左チャンネルのコンテンツは、「レフト」ニアチャンネルにマップされ、左空間領域から放射されたと知覚されるようにレンダされる);または、
入力オーディオのチャンネルのペアを(ワイドバンドでまたは周波数帯域ごとに)分析して、各ペアの見かけのオーディオイメージポジションを決定し、推定された奥行きが中間奥行きより短い場合、そのチャンネルのペアのコンテンツの全部または一部を3Dオーディオのニアチャンネルにマップして(その見かけのオーディオイメージポジションを含む空間領域から放射されたと知覚されるようにレンダリングし)、推定された奥行きが前記中間奥行きより長い場合、そのチャンネルのペアのコンテンツの全部または一部を3Dオーディオのファーチャンネルにマップして(その見かけのオーディオイメージポジションを含む空間領域から放射されたと知覚されるようにレンダリングする)、または、
入力オーディオのチャンネルのペアを(ワイドバンドでまたは周波数帯域ごとに)分析して、(一般的には、相関の程度に基づいて)各ペアの見かけのオーディオイメージコヒージョン(cohesion)を決定し、推定された奥行きが中間奥行きより短い場合、そのチャンネルのペアのコンテンツの全部または一部を3Dオーディオのニアチャンネルにマップして(関連する空間領域から放射されたと知覚されるようにレンダリングし)、推定された奥行きが前記中間奥行きより長い場合、そのチャンネルのペアのコンテンツの全部または一部を3Dオーディオのファーチャンネルにマップして(関連する空間領域から放射されたと知覚されるようにレンダリングする)、マップされるコンテンツの部分は、部分的にオーディオイメージコヒージョンにより決まる。これらの方法のそれぞれは、2D入力オーディオプログラム全体に適用できる。
しかし、2D入力オーディオプログラムの少なくとも1チャンネルからのオーディオを、2D入力オーディオプログラムの時間区間及び/または周波数領域にわたり、3D出力オーディオのニア及び/またはファーチャンネルに割り当てることが一般的には好ましいだろう。
本発明方法のある実施形態では、2D入力オーディオ(例えば、3Dビデオプログラムのサウンドトラック)をアップミックスしその2Dオーディオに対応する3D出力オーディオを生成するものでは、3Dオーディオ信号のニア(またはファー)チャンネルは、決定されたビジュアル奥行き情報を用いて次のように生成される。(空間領域の)ビジュアルフィーチャの奥行きが決定されると、その奥行きが所定の閾値より大きい場合、2D入力オーディオの一(または2以上の)チャンネルのコンテンツが3Dオーディオのニアチャンネルに割り当てられ(関連する空間領域から放射されたと知覚されるようにレンダされ)、その奥行きが所定の第2の閾値より大きい場合、コンテンツが3Dオーディオのファーチャンネルに割り当てられる(関連する空間領域から放射されたと知覚されるようにレンダされる)。ある実施形態では、ビジュアルフィーチャ奥行き推定が、一閾値より下からその閾値に近づいて時間的に増加する場合、3D出力オーディオのメインチャンネルは増加する平均レベルを有する入力オーディオチャンネルのオーディオコンテンツ(例えば、増加するゲインで増幅されたコンテンツ)を含むように生成され、また任意的に、(関連する空間領域から放射されたと知覚されるようにレンダされる)3D出力オーディオの少なくとも一ニアチャンネルが、減少する平均レベルを有するかかる入力オーディオチャンネルのオーディオコンテンツ(例えば、減少するゲインで増幅されたコンテンツ)を含むように、生成され、(3Dオーディオのレンダリング中に)ソースがリスナから離れていくような知覚を生成する。
決定されたビジュアルフィーチャ奥行き情報を用いたニア(またはファー)チャンネルコンテンツの決定は、2D入力オーディオプログラム全体から求めたビジュアルフィーチャ奥行き情報を用いて実行できる。しかし、2D入力オーディオプログラムの時間区間及び/または周波数領域にわたりビジュアルフィーチャ奥行き推定を計算すること(及び3D出力オーディオの対応するニアまたはファーチャンネルコンテンツを決定すること)は一般的には好ましい。
本発明の実施形態による3D出力オーディオの生成後、3D出力オーディオチャンネルを規格化できる(が必ずしもその必要はない)。以下の規格化方法の一または複数を用いて規格化できる:規格化せずに、ある3D出力オーディオチャンネル(例えば、「メイン」出力オーディオチャンネル)が、対応する入力オーディオチャンネル(例えば、「メイン」入力オーディオチャンネル)と同じであり、生成される出力オーディオの「ニア」及び/または「ファー」チャンネルが、スケーリングや規格化を適用せずにここに説明する方法で生成されるようにする;または、線形規格化(例えば、トータル出力信号レベルをトータル入力信号レベルと一致するように規格化し、例えば、N+Mチャンネルにわたり合計された3D出力信号レベルがそのNチャンネルにわたり合計された2D入力信号と一致するようにする);またはパワー規格化(例えば、トータル出力信号パワーがトータル入力信号パワーに一致するように規格化する)。
本発明方法の他の一クラスの実施形態では、3Dオーディオを生成するための2Dオーディオ(例えば、ビデオプログラムのサウンドトラック)のアップミキシングは、2Dオーディオのみを用いて(それに対応するビデオを用いないで)行われる。
例えば、コモンモード信号を(例えば、2DオーディオのL及びRsチャンネルから、及び/または2DオーディオのR及びLsチャンネルから)2Dオーディオの複数のチャンネルの少なくとも一サブセットの各々から取り出し、各コモンモード信号の全部または一部を3Dオーディオの少なくとも一ニアチャンネルの各々に割り当てる。コモンモード信号の取り出しは、具体的なアプリケーションに適した任意のアルゴリズムを用いて(例えば、3チャンネル(L、C、R)出力モードで従来のDolby Pro Logicアップミキサで利用されているアルゴリズムを用いて)2−3チャンネルアップミキサにより行え、取り出されたコモンモード信号(例えば、3チャンネル(L、C、R)出力モードにおいてDolby Pro Logicアップミキサを用いて生成されたセンターチャンネルC)は、(本発明により)3Dオーディオプログラムのニアチャンネルに割り当てられる。
本発明方法の他の実施形態では、2Dオーディオをアップミックスして3Dオーディオを生成するツーステッププロセスを用いる(対応するビデオではなく、2Dオーディオのみを用いる)。具体的に、ある実施形態は、(Nフルレンジチャンネルを含み、Nは正整数である)Nチャンネル入力オーディオをアップミックスして、N+Mフルレンジチャンネルを含む3D出力オーディオを生成し、ここで、Mは正整数であり、N+Mフルレンジチャンネルはリスナから異なる距離にある少なくとも2つのスピーカを含む複数のスピーカによりレンダされることを意図されており、次のステップを含む:入力オーディオからオーディオソース奥行きを推定するステップ;及び
推定されたソース奥行きを用いて3D出力オーディオの少なくとも一ニア(またはファー)オーディオチャンネルを決定するステップ。
例えば、2Dオーディオのチャンネルを分析することにより、次のようにオーディオソース奥行きを推定できる。2Dオーディオの少なくとも2つのチャンネルサブセットの各々の間の(例えば、2DオーディオのLとRsチャンネル間の、及び/または2DオーディオのRとLsチャンネル間の)相関を測定し、相関が高いほど奥行き推定が短くなる(すなわち、サブセット間の相関が低い場合に得られる推定位置よりリスナに近い、オーディオのソースの推定位置となる)ように、相関に基づき奥行き(ソース距離)推定を割り当てる。
他の例では、2Dオーディオのチャンネルを分析することにより、次のようにオーディオソース奥行きを推定できる。2Dオーディオの一または複数のチャンネルにより示される直接サウンドレベル対リバーブレベルの比率を測定し、直接対リバーブレベル比が高いオーディオに短い奥行き推定が割り当てられるように、奥行き(ソース距離)推定(すなわち、チャンネルの直接対リバーブレベル比が低い場合に得られる推定位置よりもリスナに近いオーディオソースの推定位置)を割り当てる。
かかるオーディオソース奥行き分析は2Dオーディオプログラム全体にわたり実行できる。しかし、一般的には、2Dオーディオプログラムの時間区間及び/または周波数領域にわたりソース奥行き推定を計算することが好ましい。
オーディオソース奥行きが画定すると、入力オーディオのチャンネル(または一組のチャンネル)から求めた奥行き推定を用いて、3D出力オーディオの少なくとも一ニア(またはファー)オーディオチャンネルを決定できる。例えば、2D入力オーディオのチャンネルから求めた奥行き推定が所定閾値より短い場合、チャンネル(または複数のチャンネルのミックス)が3D出力オーディオのニアチャンネル(または一組のニアチャンネルの各々)に割り当てられ(また、入力オーディオのチャンネルも3D出力オーディオのメインチャンネルとして用いられ)、2D入力オーディオのチャンネルから求めた奥行き推定が所定の第2の閾値より長い場合、チャンネル(または複数のチャンネルのミックス)が3D出力オーディオのファーチャンネル(または一組のファーチャンネルの各々)に割り当てられる(また、入力オーディオのチャンネルも3D出力オーディオのメインチャンネルとして用いられる)。ある実施形態では、入力オーディオのチャンネルについて、奥行き推定が、閾値より下の値から閾値に近づく場合、増加する平均レベルを有する入力オーディオチャンネルのオーディオコンテンツ(例えば、増加するゲインで増幅されたコンテンツ)を含むように、3D出力オーディオのメインチャンネルが生成され、また任意的に、減少する返金レベルを有する入力オーディオチャンネルのオーディオコンテンツ(例えば、減少するゲインで増幅されたコンテンツ)を含むように、3D出力オーディオのニアチャンネルが生成され、ソースがリスナから離れる方向に動いているとの知覚を(レンダリング中に)生成する。
推定されたオーディオソース奥行き情報を用いたニア(またはファー)チャンネルコンテンツの決定は、2D入力オーディオプログラム全体から求めた推定された奥行きを用いて実行できる。しかし、2D入力オーディオプログラムの時間区間及び/または周波数領域にわたり奥行き推定を計算すること(及び3D出力オーディオの対応するニアまたはファーチャンネルコンテンツを決定すること)は一般的には好ましい。
(2D入力オーディオをアップミックスして3Dオーディオを生成する)本発明方法のある実施形態は、エンコーディング時に取り出され、2D入力オーディオとパッケージされた(または2D入力オーディオとともに供給された)奥行きメタデータ(例えば、2D入力オーディオに関連する3Dビデオプログラムのビジュアルフィーチャの奥行きを示すメタデータ)を用いてAVRにより実装されることが想定されている(AVRは、入力プログラムに結合され、それからメタデータを取り出すように構成され、3D出力オーディオの生成に使うため、AVRのオーディオアップミキシングサブシステムにメタデータを供給するデコーダまたはコーデックを含む)。あるいは、オーディオプログラムのオーサリングの時に、(本発明により生成された3Dオーディオプログラムのニアチャンネルまたはニア及びファーチャンネルを決定する)追加的ニアフィールド(またはニアフィールド及びファーフィールド)PCMオーディオチャンネルを生成することができ、これらの追加的チャンネルは、2Dオーディオプログラムのチャンネルを決定するオーディオビットストリームとともに提供される(これらの後者のチャンネルも3Dオーディオプログラムの「メイン」チャンネルとして用いることができる)。
典型的な実施形態では、本発明のシステムは、ソフトウェア(又はファームウェア)でプログラムされ、さもなければ本発明の方法の一実施形態を実行するように構成された汎用又は特殊用途プロセッサである、又はそれを含む。他の実施形態では、本発明のシステムは、構成可能オーディオデジタルシグナルプロセッサ(DSP)を本発明の方法の実施形態を実行するように(例えば、プログラミングにより)適宜構成することにより実装される。オーディオDSPは、入力オーディオデータに様々な演算を実行するように構成可能な従来のオーディオDSP(例えば、適切なソフトウェアまたはファームウェアによりプログラム可能なもの、または制御データに応じて構成可能なもの)であってもよい。
ある実施形態では、本発明のシステムは汎用プロセッサであり、入力データ(入力オーディオデータ、または立体3Dビデオプログラムを示す入力ビデオデータとそのビデオプログラムのNチャンネル2Dサウンドトラックを示すオーディオデータ)を受け取るように結合され、本発明の方法の一実施形態を実行することにより入力データに応じて3D出力オーディオを示す出力データを生成するようにプログラムされている。このプロセッサは、一般的に、ソフトウェア(またはファームウェア)でプログラムされ、及び/または(例えば、制御データに応じて)入力データに、本発明の方法の一実施形態を含む様々な演算を実行するように構成されている。図4に示したコンピュータシステムはかかるシステムの一例である。図4のシステムは、汎用プロセッサ501を含み、この汎用プロセッサは、入力データに、本発明の方法の一実施形態を含む様々な演算のいずれかを実行するようにプログラムされている。
また、図4のコンピュータシステムは、プロセッサ501に結合された入力デバイス503(例えば、マウス及び/またはキーボード)、プロセッサ501に結合された記憶媒体504、及びプロセッサ501に結合されたディスプレイデバイス505を含む。プロセッサ501は、入力デバイス503のユーザ操作により入力された命令とデータに応じて、本発明の方法を実施するようにプログラムされている。コンピュータ読み取り可能記憶媒体504(例えば、光ディスクやその他の有体オブジェクト)は、コンピュータコードを記憶しており、そのコンピュータコードはプロセッサ501を本発明の方法の一実施形態を実行するようにプログラムするのに適している。動作中、プロセッサ501は、コンピュータコードを実行して、本発明により入力オーディオ(または入力オーディオと入力ビデオ)を示すデータを処理し、マルチチャンネル3D出力オーディオを示す出力データを生成する。従来のデジタル・ツー・アナログ変換器(DAC)は、この出力データに作用して、物理的スピーカ(例えば、図2のシステムのスピーカ)によりレンダリングするオーディオ出力チャンネルのアナログバージョンを生成する。
本発明の態様には、本発明の方法の任意の実施形態を実行するようにプログラムされたコンピュータシステムと、本発明の方法の任意の実施形態を実施するコンピュータ読み取り可能コードを格納したコンピュータ読み取り可能媒体とが含まれる。
本発明の具体的な実施形態と、本発明のアプリケーションとをここに説明したが、当業者には言うまでもなく、ここに説明し請求する本発明の範囲から逸脱することなく、ここに説明した実施形態とアプリケーションの多くの変形例が可能である。言うまでもなく、本発明の一定の形態を図示して説明したが、本発明は、説明しかつ図示した実施形態や、説明した具体的な方法には限定されない。

Claims (15)

  1. N+Mフルレンジチャンネルを有する3D出力オーディオを生成する方法であって、NとMは正整数であり、N+Mフルレンジチャンネルはリスナから異なる距離にある少なくとも2つのスピーカを含むスピーカによりレンダされることを意図され、
    前記方法は、
    (a)Nフルレンジチャンネルを有するNチャンネル入力オーディオを提供するステップと、
    (b)前記入力オーディオをアップミックスして前記3D出力オーディオを生成するステップと、
    (c)少なくとも一オーディオソースの前記リスナからの距離を示すソース奥行きデータを提供するステップとを有し、
    前記ステップ(b)は、前記ソース奥行きデータを用いて、前記Nチャンネル入力オーディオをアップミックスして、前記3D出力オーディオを生成するステップを含み、
    前記Nチャンネル入力オーディオは左右の目のフレーム画像を含む立体3Dビデオプログラムのサウンドトラックであり、ステップ(c)は、前記3Dビデオプログラムにより決定される少なくとも一ビジュアルイメージフィーチャを特定することにより、前記ソース奥行きデータを生成し、各ビジュアルイメージフィーチャの決定された奥行きを示す前記ソース奥行きデータを生成する動作を含み、
    前記ソース奥行きデータの生成するステップは、左右の目のフレーム画像の少なくとも1つのビジュアル画像フィーチャのディスパリティを測定し、前記ディスパリティを用いたビジュアル奥行きマップを生成し、前記ビジュアル奥行きマップを用いて前記ソース奥行きデータを生成するステップとを含む、
    方法。
  2. 前記オーディオソースは、前記リスナに対して第1のアジマスと第1のエレベーションを有する方向から前記リスナに届く、前記3D出力オーディオにより決まるサウンドソースであり、前記ビジュアルイメージフィーチャの奥行きが前記オーディオソースの前記リスナからの距離を決定し、前記奥行きデータは前記オーディオソースの前記リスナからの距離をアジマスとエレベーションの関数として示す、請求項1に記載の方法。
  3. 前記オーディオソースは、前記リスナに対して第1のアジマスを有する方向から前記リスナに届く、前記3D出力オーディオにより決まるサウンドソースであり、前記ビジュアルイメージフィーチャの奥行きが前記オーディオソースの前記リスナからの距離を決定し、前記奥行きデータは前記オーディオソースの前記リスナからの距離をアジマスの関数として示す、請求項1に記載の方法。
  4. 前記Nチャンネル入力オーディオは2Dオーディオプログラムである、請求項1に記載の方法。
  5. 前記Nチャンネル入力オーディオは2Dオーディオプログラムであり、前記2DオーディオプログラムのNフルレンジチャンネルは、前記リスナから名目的に等距離にあるN個のスピーカによりレンダされることを意図されている、請求項1に記載の方法。
  6. 前記3D出力オーディオは3Dオーディオプログラムであり、前記3DオーディオプログラムのN+Mフルレンジチャンネルは、前記リスナから名目的に等距離にあるNメインスピーカによりレンダされるNチャンネルと、追加的スピーカによりレンダされることを意図されたMチャンネルとを含み、各追加的スピーカは前記メインスピーカより前記リスナに近くまたは遠くに配置されている、請求項1に記載の方法。
  7. ステップ(c)は前記Nチャンネル入力オーディオから前記ソース奥行きデータを生成するステップを含む、請求項1に記載の方法。
  8. 前記左右の目のフレーム画像の少なくとも1つのビジュアル画像フィーチャのディスパリティは、左右の目のフレームのグレースケール画像を用いて測定される、請求項1に記載の方法。
  9. Nフルレンジチャンネルを含むNチャンネル入力オーディオを示す入力データを受け取るように結合されたプロセッサを含むシステムであって、
    前記プロセッサは、前記入力オーディオをアップミックスして出力データにN+Mフルレンジチャンネルを含む3Dオーディオを示すようにするように前記入力データを処理することにより、前記出力データを生成するように構成されている、ここでNとMは正整数であり、前記N+Mフルレンジチャンネルリスナから異なる距離にある少なくとも2つのスピーカを含む複数のスピーカによりレンダされることを意図され、
    前記プロセッサは、前記入力データとソース奥行きデータを処理して前記出力データを生成するように構成され、前記ソース奥行きデータは少なくとも一オーディオソースの前記リスナからの距離を示し、
    前記Nチャンネル入力オーディオは左右の目のフレーム画像を含む立体3Dビデオプログラムのサウンドトラックであり、前記プロセッサは、前記3Dビデオプログラムにより決定される少なくとも一ビジュアルイメージフィーチャを特定することにより、前記ソース奥行きデータを生成し、各ビジュアルイメージフィーチャの決定された奥行きを示す前記ソース奥行きデータを生成するように構成され、
    前記ソース奥行きデータの生成は、左右の目のフレーム画像の少なくとも1つのビジュアル画像フィーチャのディスパリティの測定と、前記ディスパリティを用いたビジュアル奥行きマップの生成と、前記ビジュアル奥行きマップを用いて前記ソース奥行きデータの生成とを含む、
    システム。
  10. 前記オーディオソースは、前記リスナに対して第1のアジマスと第1のエレベーションを有する方向から前記リスナに届く、前記3Dオーディオにより決まるサウンドソースであり、前記ビジュアルイメージフィーチャの奥行きが前記オーディオソースの前記リスナからの距離を決定し、前記奥行きマップは前記オーディオソースの前記リスナからの距離を示す、請求項9に記載のシステム。
  11. 前記Nチャンネル入力オーディオは2Dオーディオプログラムである、請求項9に記載のシステム。
  12. 前記Nチャンネル入力オーディオは2Dオーディオプログラムであり、前記2DオーディオプログラムのNフルレンジチャンネルは、前記リスナから名目的に等距離にあるN個のスピーカによりレンダされることを意図されている、請求項9に記載のシステム。
  13. 前記3Dオーディオは3Dオーディオプログラムであり、前記3DオーディオプログラムのN+Mフルレンジチャンネルは、前記リスナから名目的に等距離にあるNメインスピーカによりレンダされるNチャンネルと、追加的スピーカによりレンダされることを意図されたMチャンネルとを含み、各追加的スピーカは前記メインスピーカより前記リスナに近くまたは遠くに配置されている、請求項9に記載のシステム。
  14. 前記システムはオーディオデジタルシグナルプロセッサである、請求項9に記載のシステム。
  15. 前記プロセッサは、前記入力データに応じて前記出力データを生成するようにプログラムされた汎用プロセッサである、請求項9に記載のシステム。
JP2014506437A 2011-04-18 2012-04-05 オーディオをアップミックスして3dオーディオを生成する方法とシステム Expired - Fee Related JP5893129B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161476395P 2011-04-18 2011-04-18
US61/476,395 2011-04-18
PCT/US2012/032258 WO2012145176A1 (en) 2011-04-18 2012-04-05 Method and system for upmixing audio to generate 3d audio

Publications (2)

Publication Number Publication Date
JP2014515906A JP2014515906A (ja) 2014-07-03
JP5893129B2 true JP5893129B2 (ja) 2016-03-23

Family

ID=46025915

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014506437A Expired - Fee Related JP5893129B2 (ja) 2011-04-18 2012-04-05 オーディオをアップミックスして3dオーディオを生成する方法とシステム

Country Status (5)

Country Link
US (1) US9094771B2 (ja)
EP (1) EP2700250B1 (ja)
JP (1) JP5893129B2 (ja)
CN (1) CN103493513B (ja)
WO (1) WO2012145176A1 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101004249B1 (ko) * 2002-12-02 2010-12-24 톰슨 라이센싱 오디오 신호의 구성 설명 방법
US9332373B2 (en) * 2012-05-31 2016-05-03 Dts, Inc. Audio depth dynamic range enhancement
EP2979467B1 (en) 2013-03-28 2019-12-18 Dolby Laboratories Licensing Corporation Rendering audio using speakers organized as a mesh of arbitrary n-gons
EP2806658B1 (en) * 2013-05-24 2017-09-27 Barco N.V. Arrangement and method for reproducing audio data of an acoustic scene
KR102231755B1 (ko) 2013-10-25 2021-03-24 삼성전자주식회사 입체 음향 재생 방법 및 장치
CN105096999B (zh) * 2014-04-30 2018-01-23 华为技术有限公司 一种音频播放方法和音频播放设备
TWI566576B (zh) * 2014-06-03 2017-01-11 宏碁股份有限公司 立體影像合成方法及裝置
KR102292877B1 (ko) * 2014-08-06 2021-08-25 삼성전자주식회사 콘텐츠 재생 방법 및 그 방법을 처리하는 전자 장치
CN105989845B (zh) * 2015-02-25 2020-12-08 杜比实验室特许公司 视频内容协助的音频对象提取
US10356547B2 (en) * 2015-07-16 2019-07-16 Sony Corporation Information processing apparatus, information processing method, and program
EP3375208B1 (en) 2015-11-13 2019-11-06 Dolby International AB Method and apparatus for generating from a multi-channel 2d audio input signal a 3d sound representation signal
US10397730B2 (en) 2016-02-03 2019-08-27 Global Delight Technologies Pvt. Ltd. Methods and systems for providing virtual surround sound on headphones
US10419866B2 (en) * 2016-10-07 2019-09-17 Microsoft Technology Licensing, Llc Shared three-dimensional audio bed
EP3530007A4 (en) 2016-10-19 2019-08-28 Audible Reality Inc. SYSTEM AND METHOD FOR PRODUCING AN AUDIO IMAGE
CN106714021A (zh) * 2016-11-30 2017-05-24 捷开通讯(深圳)有限公司 一种耳机及电子组件
CN106658341A (zh) * 2016-12-08 2017-05-10 李新蕾 一种多声道音频系统
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
CN111052232A (zh) * 2017-07-03 2020-04-21 耶路撒冷希伯来大学伊森姆研究发展有限公司 使用视觉信息增强视频中人类说话者的语音信号的方法和系统
US10880649B2 (en) 2017-09-29 2020-12-29 Apple Inc. System to move sound into and out of a listener's head using a virtual acoustic system
EP3503102A1 (en) 2017-12-22 2019-06-26 Nokia Technologies Oy An apparatus and associated methods for presentation of captured spatial audio content
GB2573362B (en) 2018-02-08 2021-12-01 Dolby Laboratories Licensing Corp Combined near-field and far-field audio rendering and playback
KR102622714B1 (ko) * 2018-04-08 2024-01-08 디티에스, 인코포레이티드 앰비소닉 깊이 추출
JP7102024B2 (ja) * 2018-04-10 2022-07-19 ガウディオ・ラボ・インコーポレイテッド メタデータを利用するオーディオ信号処理装置
WO2020044244A1 (en) 2018-08-29 2020-03-05 Audible Reality Inc. System for and method of controlling a three-dimensional audio engine
US10820131B1 (en) 2019-10-02 2020-10-27 Turku University of Applied Sciences Ltd Method and system for creating binaural immersive audio for an audiovisual content

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5438623A (en) 1993-10-04 1995-08-01 The United States Of America As Represented By The Administrator Of National Aeronautics And Space Administration Multi-channel spatialization system for audio signals
JP2951188B2 (ja) 1994-02-24 1999-09-20 三洋電機株式会社 立体音場形成方法
JPH08140200A (ja) 1994-11-10 1996-05-31 Sanyo Electric Co Ltd 立体音像制御装置
AUPN988996A0 (en) 1996-05-16 1996-06-06 Unisearch Limited Compression and coding of audio-visual services
JPH1063470A (ja) 1996-06-12 1998-03-06 Nintendo Co Ltd 画像表示に連動する音響発生装置
US6990205B1 (en) 1998-05-20 2006-01-24 Agere Systems, Inc. Apparatus and method for producing virtual acoustic sound
GB2340005B (en) 1998-07-24 2003-03-19 Central Research Lab Ltd A method of processing a plural channel audio signal
US6931134B1 (en) 1998-07-28 2005-08-16 James K. Waller, Jr. Multi-dimensional processor and multi-dimensional audio processor system
US20030007648A1 (en) 2001-04-27 2003-01-09 Christopher Currell Virtual audio system and techniques
US7684577B2 (en) 2001-05-28 2010-03-23 Mitsubishi Denki Kabushiki Kaisha Vehicle-mounted stereophonic sound field reproducer
EP1397021B1 (en) 2001-05-28 2013-01-09 Mitsubishi Denki Kabushiki Kaisha Vehicle-mounted three dimensional sound field reproducing/silencing unit
JP4826693B2 (ja) 2001-09-13 2011-11-30 オンキヨー株式会社 音響再生装置
US6829018B2 (en) 2001-09-17 2004-12-07 Koninklijke Philips Electronics N.V. Three-dimensional sound creation assisted by visual information
US6912178B2 (en) * 2002-04-15 2005-06-28 Polycom, Inc. System and method for computing a location of an acoustic source
US7558393B2 (en) 2003-03-18 2009-07-07 Miller Iii Robert E System and method for compatible 2D/3D (full sphere with height) surround sound reproduction
EP1542503B1 (en) * 2003-12-11 2011-08-24 Sony Deutschland GmbH Dynamic sweet spot tracking
CA2578797A1 (en) 2004-09-03 2006-03-16 Parker Tsuhako Method and apparatus for producing a phantom three-dimensional sound space with recorded sound
US7774707B2 (en) 2004-12-01 2010-08-10 Creative Technology Ltd Method and apparatus for enabling a user to amend an audio file
US20060206221A1 (en) 2005-02-22 2006-09-14 Metcalf Randall B System and method for formatting multimode sound content and metadata
US8712061B2 (en) 2006-05-17 2014-04-29 Creative Technology Ltd Phase-amplitude 3-D stereo encoder and decoder
US8493448B2 (en) 2006-12-19 2013-07-23 Koninklijke Philips N.V. Method and system to convert 2D video into 3D video
US8942395B2 (en) * 2007-01-17 2015-01-27 Harman International Industries, Incorporated Pointing element enhanced speaker system
JP4530007B2 (ja) * 2007-08-02 2010-08-25 ヤマハ株式会社 音場制御装置
WO2009039897A1 (en) 2007-09-26 2009-04-02 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
US20090122161A1 (en) 2007-11-08 2009-05-14 Technical Vision Inc. Image to sound conversion device
JP5274359B2 (ja) 2009-04-27 2013-08-28 三菱電機株式会社 立体映像および音声記録方法、立体映像および音声再生方法、立体映像および音声記録装置、立体映像および音声再生装置、立体映像および音声記録媒体
US8681997B2 (en) * 2009-06-30 2014-03-25 Broadcom Corporation Adaptive beamforming for audio and data applications
JP5197525B2 (ja) * 2009-08-04 2013-05-15 シャープ株式会社 立体映像・立体音響記録再生装置・システム及び方法
JP4997659B2 (ja) * 2010-04-02 2012-08-08 オンキヨー株式会社 音声処理装置
JP5533282B2 (ja) 2010-06-03 2014-06-25 ヤマハ株式会社 音響再生装置
US9031268B2 (en) * 2011-05-09 2015-05-12 Dts, Inc. Room characterization and correction for multi-channel audio

Also Published As

Publication number Publication date
EP2700250B1 (en) 2015-03-04
CN103493513B (zh) 2015-09-09
WO2012145176A1 (en) 2012-10-26
JP2014515906A (ja) 2014-07-03
CN103493513A (zh) 2014-01-01
US20140037117A1 (en) 2014-02-06
US9094771B2 (en) 2015-07-28
EP2700250A1 (en) 2014-02-26

Similar Documents

Publication Publication Date Title
JP5893129B2 (ja) オーディオをアップミックスして3dオーディオを生成する方法とシステム
US11064310B2 (en) Method, apparatus or systems for processing audio objects
JP5944840B2 (ja) 立体音響の再生方法及びその装置
JP7254137B2 (ja) 2dセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現を復号する方法および装置
EP3443762B1 (en) Spatial audio processing emphasizing sound sources close to a focal distance
EP3286929B1 (en) Processing audio data to compensate for partial hearing loss or an adverse hearing environment
JP6251809B2 (ja) サウンドステージ拡張用の装置及び方法
US20170309289A1 (en) Methods, apparatuses and computer programs relating to modification of a characteristic associated with a separated audio signal
KR101764175B1 (ko) 입체 음향 재생 방법 및 장치
KR20120088806A (ko) 확성기 배열의 확성기들에 대한 구동 계수들을 계산하기 위한 장치 및 방법과, 가상 소스와 연관된 오디오 신호에 기초하여 확성기 배열의 확성기들에 구동 신호들을 제공하기 위한 장치 및 방법
JP2011501486A (ja) スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法
US20160044432A1 (en) Audio signal processing apparatus
EP3850470B1 (en) Apparatus and method for processing audiovisual data
JP2011234177A (ja) 立体音響再生装置及び再生方法
JP6161962B2 (ja) 音声信号再生装置及び方法
JP7493559B2 (ja) 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理
Jeon et al. Blind depth estimation based on primary-to-ambient energy ratio for 3-d acoustic depth rendering

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160223

R150 Certificate of patent or registration of utility model

Ref document number: 5893129

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees