JP5990345B1

JP5990345B1 - サラウンド音場の生成

Info

Publication number: JP5990345B1
Application number: JP2015563133A
Authority: JP
Inventors: サン，シュエジン; チェン，ビン; シュ，セン; シュアン，ズーウェイ; ワン，ジュン
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2013-06-18
Filing date: 2014-06-17
Publication date: 2016-09-14
Anticipated expiration: 2034-06-17
Also published as: CN104244164A; JP2016533045A; CN105340299B; US9668080B2; HK1220844A1; EP3011763B1; CN105340299A; EP3011763A2; WO2014204999A3; US20160142851A1; JP2017022718A; WO2014204999A2

Abstract

本発明の実施形態は適応的なオーディオ・コンテンツ生成に関する。具体的には、適応的なオーディオ・コンテンツを生成するための方法が提供される。本方法は、チャネル・ベースの源オーディオ・コンテンツから少なくとも一つのオーディオ・オブジェクトを抽出し、少なくとも部分的には前記少なくとも一つのオーディオ・オブジェクトに基づいて適応的なオーディオ・コンテンツを生成することを含む。対応するシステムおよびコンピュータ・プログラム・プロダクトも開示される。

Description

関連出願への相互参照
本願は2013年6月18日に出願された中国特許出願第201310246729.2号および2013年6月26日に出願された米国仮特許出願第61/839,474号の優先権の利益を主張するものである。両出願の内容はここに参照によってその全体において組み込まれる。

技術
本願は信号処理に関する。より具体的には、本発明の実施形態はサラウンド音場の生成に関する。

伝統的に、サラウンド音場は、専用のサラウンド録音設備によって、あるいは音源を種々のチャネルにパンするプロのサウンドミキシング技師またはソフトウェア・アプリケーションによって生成される。これら二つのアプローチはいずれも、エンドユーザーにはアクセスが容易ではない。過去数十年において、携帯電話、タブレット、メディア・プレーヤーおよびゲーム・コンソールといったますます行き渡ったモバイル装置がオーディオ捕捉および／または処理機能を備えるようになっている。しかしながら、たいていのモバイル装置（携帯電話、タブレット、メディア・プレーヤー、ゲーム・コンソール）は、モノ・オーディオ捕捉を達成するために使われるだけである。

モバイル装置を使ったサラウンド音場生成のためのいくつかのアプローチが提案されている。しかしながら、それらのアプローチは、厳密にアクセス・ポイントに依拠するか、あるいは一般的に使われる業務用ではないモバイル装置の性質を考慮に入れていない。たとえば、不均一な諸ユーザー装置のアドホック・ネットワークを使ってサラウンド音場を生成する際、異なるモバイル装置の録音時間は同期されないことがあり、諸モバイル装置の位置およびトポロジーが未知であることがある。さらに、オーディオ捕捉装置の利得および周波数応答が異なることがある。結果として、現在のところ、日常ユーザーのオーディオ捕捉装置を使うことによって効果的かつ効率的にサラウンド音場を生成することはできない。

上記に鑑み、効果的かつ効率的な仕方でサラウンド音場を生成できる解決策が当技術分野において必要とされている。

上記および他の潜在的な問題に対処するために、本発明の実施形態は、サラウンド音場を生成するための方法、装置およびコンピュータ・プログラム・プロダクトを提案する。

ある側面では、本発明の実施形態は、サラウンド音場を生成する方法を提供する。本方法は：複数のオーディオ捕捉装置によって捕捉されたオーディオ信号を受領する段階と；前記複数のオーディオ捕捉装置のトポロジーを推定する段階と；受領されたオーディオ信号から、少なくとも部分的には前記推定されたトポロジーに基づいて、サラウンド音場を生成する段階とを含む。この側面の実施形態は、上記方法を実行するための機械可読媒体上に有体に具現されたコンピュータ・プログラムを有する対応するコンピュータ・プログラム・プロダクトをも含む。

もう一つの側面では、本発明の実施形態は、サラウンド音場を生成する装置を提供する。本装置は：複数のオーディオ捕捉装置によって捕捉されたオーディオ信号を受領するよう構成された受領ユニットと；前記複数のオーディオ捕捉装置のトポロジーを推定するよう構成されたトポロジー推定ユニットと；受領されたオーディオ信号から、少なくとも部分的には前記推定されたトポロジーに基づいて、サラウンド音場を生成するよう構成された生成ユニットとを有する。

本発明のこれらの実施形態は、以下の利点の一つまたは複数を実現するよう実装できる。本発明の実施形態によれば、サラウンド・サウンドは、携帯電話に備わったマイクロフォンのようなエンドユーザーのオーディオ捕捉装置のアドホック・ネットワークの使用によって生成されうる。よって、高価で複雑な業務用の設備および／または人間の専門家の必要性をなくすことができる。さらに、オーディオ捕捉装置のトポロジーの推定に基づいて動的にサラウンド音場を生成することにより、サラウンド音場の品質がより高いレベルに維持できる。

本発明の実施形態の他の特徴および利点も、付属の図面との関連で読まれるときに例示的実施形態の以下の記述から理解されるであろう。図面は例として本発明の精神および原理を例解している。

本発明の一つまたは複数の実施形態の詳細は、付属の図面および以下の記述において記載される。本発明の他の特徴、側面および利点は、本記述、図面および請求項から明白となるであろう。
本発明の例示的実施形態が実装できるシステムを例解するブロック図である。Ａ〜Ｃは、本発明の例示的実施形態に基づくオーディオ捕捉装置のトポロジーのいくつかの例を示す概略図である。本発明のある例示的実施形態に基づくサラウンド音場を生成する方法を例解するフローチャートである。ある例示的なマッピング行列を使うときのさまざまな周波数についてのBフォーマット処理における、Wチャネルについての極性パターンを示す概略図である。ある例示的なマッピング行列を使うときのさまざまな周波数についてのBフォーマット処理における、Xチャネルについての極性パターンを示す概略図である。ある例示的なマッピング行列を使うときのさまざまな周波数についてのBフォーマット処理における、Yチャネルについての極性パターンを示す概略図である。別の例示的なマッピング行列を使うときのさまざまな周波数についてのBフォーマット処理における、Wチャネルについての極性パターンを示す概略図である。別の例示的なマッピング行列を使うときのさまざまな周波数についてのBフォーマット処理における、Xチャネルについての極性パターンを示す概略図である。別の例示的なマッピング行列を使うときのさまざまな周波数についてのBフォーマット処理における、Yチャネルについての極性パターンを示す概略図である。本発明のある例示的実施形態に基づくサラウンド音場を生成する装置を示すブロック図である。本発明のある例示的実施形態を実装するためのユーザー端末を示すブロック図である。本発明のある例示的実施形態を実装するためのシステムを示すブロック図である。諸図面を通じて、同じまたは同様の参照符号は同じまたは同様の要素を示す。

一般に、本発明の実施形態は、サラウンド音場生成のための方法、装置およびコンピュータ・プログラム・プロダクトを提供する。本発明の実施形態によれば、サラウンド音場は、エンドユーザーの携帯電話のようなオーディオ捕捉装置のアドホック・ネットワークの使用によって効果的かつ正確に生成されうる。本発明のいくつかの実施形態は以下に詳述される。

まず図１を参照する。図１では、本発明の実施形態が実装できるシステム１００が示されている。図１では、システム１００は複数のオーディオ捕捉装置１０１およびサーバー１０２を含む。本発明の実施形態によれば、中でもオーディオ捕捉装置１０１は、オーディオ信号を捕捉、記録および／または処理することができる。オーディオ捕捉装置１０１の例は、これに限られないが、携帯電話、携帯情報端末（PDA: personal digital assistant）、ラップトップ、タブレット・コンピュータ、パーソナル・コンピュータ（PC）またはオーディオ捕捉機能を備える他の任意の好適なユーザー端末を含みうる。たとえば、市販の携帯電話は通例、少なくとも一つのマイクロフォンを備えており、よってオーディオ捕捉装置１０１として使用できる。

本発明の実施形態によれば、オーディオ捕捉装置１０１は、それぞれ一つまたは複数のオーディオ捕捉装置を含む一つまたは複数のアドホック・ネットワークまたはグループ１０３に配置されてもよい。オーディオ捕捉装置は、あらかじめ決定された戦略に従ってまたは動的にグループ化されてもよい。これについては後述する。異なるグループは同じまたは異なる物理的位置に位置することができる。各グループ内では、オーディオ捕捉装置は同じ物理的位置に位置しており、互いに近接して位置されてもよい。

図２のＡ〜Ｃは、三つのオーディオ捕捉装置からなるグループのいくつかの例を示している。図２のＡ〜Ｃに示される例示的実施形態では、オーディオ捕捉装置１０１は携帯電話、PDAまたはオーディオ信号を捕捉するために一つまたは複数のマイクロフォンのようなオーディオ捕捉要素２０１を備えている他の任意のポータブル・ユーザー端末であってもよい。特に、図２のＣに示した例示的実施形態では、オーディオ捕捉装置１０１はさらに、カメラのようなビデオ捕捉要素２０２を備えていて、オーディオ捕捉装置１０１はオーディオ信号を捕捉する間にビデオおよび／または画像を捕捉するよう構成されてもよい。

グループ内のオーディオ捕捉装置の数は三つに限定されないことを注意しておくべきである。むしろ、任意の好適な数のオーディオ捕捉装置がグループとして配置されうる。さらに、グループ内で、前記複数のオーディオ捕捉装置は任意の所望されるトポロジーとして配置されうる。いくつかの実施形態では、グループ内のオーディオ捕捉装置は、ほんのいくつか例示するとコンピュータ・ネットワーク、ブルートゥース、赤外線、遠隔通信などによって、互いと通信してもよい。

引き続き図１を参照するに、図のように、サーバー１０２は、ネットワーク接続を介してオーディオ捕捉装置１０１の諸グループと通信上接続される。オーディオ捕捉装置１０１およびサーバー１０２は互いと、たとえばローカル・エリア・ネットワーク（LAN）、広域ネットワーク（WAN）もしくはインターネット、通信ネットワーク、近距離場通信接続またはそれらの任意の組み合わせのようなコンピュータ・ネットワークによって通信してもよい。本発明の範囲はこれに関して限定されない。

動作では、サラウンド音場の生成は、オーディオ捕捉装置１０１によってまたはサーバー１０２によって開始されうる。具体的には、いくつかの実施形態では、オーディオ捕捉装置１０１がサーバー１０２にログインし、サーバー１０２にサラウンド音場を生成するよう要求してもよい。その場合、該要求を送るオーディオ捕捉装置１０１がマスター装置になって、次いで当該オーディオ捕捉セッションに参加するよう他の捕捉装置に招待を送る。これに関し、該マスター装置が属するあらかじめ定義されたグループがあってもよい。これらの実施形態において、このグループ内の他のオーディオ捕捉装置はマスター装置から招待を受領し、しかるべくオーディオ捕捉セッションに参加する。代替的または追加的に、別の一つまたは複数のオーディオ捕捉装置が動的に識別され、マスター装置と一緒にグループ化されてもよい。たとえば、GPS（全地球測位サービス）のような位置特定サービスがオーディオ捕捉装置１０１に利用可能である場合、マスター装置の近傍に位置している一つまたは複数のオーディオ捕捉装置をオーディオ捕捉グループに参加するよう自動的に招待することが可能である。いくつかの代替的な実施形態では、オーディオ捕捉装置の発見およびグループ化は、サーバー１０２によって実行されてもよい。

オーディオ捕捉装置のグループを形成する際、サーバー１０２は、グループ内のすべてのオーディオ捕捉装置に捕捉コマンドを送る。あるいはまた、捕捉コマンドは、グループ内のオーディオ捕捉装置１０１の一つによって、たとえばマスター装置によって送られてもよい。グループ内の各オーディオ捕捉装置は、捕捉コマンド受信後すぐにオーディオ信号を捕捉および記録することを開始する。オーディオ捕捉セッションは、いずれかのオーディオ捕捉装置が捕捉をやめるときに終了する。オーディオ捕捉の間、オーディオ信号はオーディオ捕捉装置１０１上でローカルに記録され、捕捉セッションの完了後にサーバー１０２に送信されてもよい。あるいはまた、捕捉されたオーディオ信号はリアルタイム式にサーバー１０２にストリーミングされてもよい。

本発明の実施形態によれば、単一のグループのオーディオ捕捉装置１０１によって捕捉されたオーディオ信号は、同じグループ識別情報（ID）を割り当てられ、それによりサーバー１０２ははいってくるオーディオ信号が同じグループに属するかどうかを識別できる。さらに、オーディオ信号に加えて、オーディオ捕捉セッションに関連する任意の情報がサーバー１０２に送信されうる。これには、グループ内のオーディオ捕捉装置１０１の数、一つまたは複数のオーディオ捕捉装置１０１のパラメータなどが含まれる。

あるグループの複数の捕捉装置１０１によって捕捉されたオーディオ信号に基づいて、サーバー１０２は、サラウンド音場を生成するために、オーディオ信号を処理する一連の動作を実行する。これに関し、図３は、複数の捕捉装置１０１によって捕捉されたオーディオ信号からサラウンド音場を生成する方法のフローチャートを示している。

図３に示されるように、ステップS301においてオーディオ捕捉装置１０１のグループによって捕捉されたオーディオ信号を受信するのに際して、ステップS302においてこれらのオーディオ捕捉装置のトポロジーが推定される。グループ内のオーディオ捕捉装置１０１の位置のトポロジーを推定することは、音場の再生に直接的な影響をもつその後の空間的処理にとって重要である。本発明の実施形態によれば、オーディオ捕捉装置のトポロジーはさまざまな仕方で推定されうる。たとえば、いくつかの実施形態では、オーディオ捕捉装置１０１のトポロジーはあらかじめ定義されていて、よってサーバー１０２にとって既知であってもよい。この場合、サーバー１０２は、グループIDを使ってオーディオ信号の送信元のグループを決定し、次いで決定されたグループに関連付けられたあらかじめ定義されたトポロジーを、トポロジー推定として取得してもよい。

代替的または追加的に、オーディオ捕捉装置１０１のトポロジーは、グループ内の複数のオーディオ捕捉装置１０１の各対の間の距離に基づいて推定されてもよい。オーディオ捕捉装置１０１の対の間の距離を取得できる多くの可能な仕方がある。たとえば、オーディオ捕捉装置がオーディオを再生できる実施形態では、各オーディオ捕捉装置１０１は、それぞれ同時にオーディオ片を再生し、グループ内の他の装置からオーディオ信号を受信するよう構成されていてもよい。すなわち、各オーディオ捕捉装置１０１は、一意的なオーディオ信号をグループの他の構成員にブロードキャストする。例として、各オーディオ捕捉装置は、一意的な周波数範囲をスパンするおよび／または他の任意の固有の音響特徴を有する線形チャープ信号を再生してもよい。線形チャープ信号が受信される諸時点を記録することによって、オーディオ捕捉装置１０１の各対の間の距離が、音響レンジング処理によって計算されうる。音響レンジング処理は当業者には既知であり、よってここでは詳述しない。

そのような距離計算は、たとえばサーバー１０２において実行されてもよい。あるいはまた、オーディオ捕捉装置が互いに直接通信しうる場合、そのような距離計算はクライアント側で実行されてもよい。サーバー１０２では、グループ内に二つのオーディオ捕捉装置１０１しかない場合には、追加的な処理は必要とされない。三つ以上のオーディオ捕捉装置１０１があるときは、いくつかの実施形態では、多次元スケーリング（MDS: multidimensional scaling）解析または同様のプロセスが取得された諸距離に対して実行されて、オーディオ捕捉装置のトポロジーを推定することができる。具体的には、オーディオ捕捉装置１０１の諸対の諸距離を示す入力行列を用いて、MDSは、二次元空間におけるオーディオ捕捉装置１０１の座標を生成するために適用されてもよい。たとえば、三装置グループにおける測定された距離行列が

であるとする。すると、オーディオ捕捉装置１０１のトポロジーを示す二次元（2D）MDSの出力は、M1(0,−0.0441)、M2(−0.0750,0.0220)およびM3(0.0750,0.0220)である。

本発明の範囲は上記に示した例に限定されないことを注意しておくべきである。現在既知のものであれ将来開発されるものであれ、オーディオ捕捉装置の対の間の距離を推定できるいかなる好適な方法が本発明の実施形態との関連で使われてもよい。たとえば、オーディオ信号を再生する代わりに、オーディオ捕捉装置１０１は距離推定を容易にするために互いに対して電気および／または光信号をブロードキャストするよう構成されていてもよい。

次に、方法３００はステップS303に進む。ここでは、ステップS301において受領された諸オーディオ信号に対して時間整列が実行される。それにより、異なる捕捉装置１０１によって捕捉されたオーディオ信号が時間的に互いに整列させられる。本発明の実施形態によれば、オーディオ信号の時間整列は多くの可能な仕方でなされてもよい。いくつかの実施形態では、サーバー１０２は、プロトコル・ベースのクロック同期プロセスを実装してもよい。たとえば、ネットワーク時間プロトコル（NTP: Network Time Protocol）は、インターネットを横断して正確で同期された時刻を提供する。インターネットに接続しているとき、各オーディオ捕捉装置１０１は、オーディオ捕捉を実行している間、別個にNTPサーバーと同期するよう構成されていてもよい。ローカル・クロックを調整することは必要ない。その代わり、ローカル・クロックとNTPサーバーとの間のオフセットが計算され、メタデータとして記憶されることができる。ひとたびオーディオ捕捉が終了したら、ローカル時間およびそのオフセットがオーディオ信号と一緒にサーバー１０２に送られる。すると、サーバー１０２は、受領されたオーディオ信号をそのような時間情報に基づいて整列させる。

代替的または追加的に、ステップS303における時間整列は、ピアツーピアのクロック同期プロセスによって実現されてもよい。これらの実施形態では、オーディオ捕捉装置は、たとえばブルートゥースまたは赤外線接続のようなプロトコルを介して、互いとピアツーピアで通信されてもよい。オーディオ捕捉装置の一つが同期マスターとして選択されてもよく、他のすべての捕捉装置のクロック・オフセットが同期マスターを基準として計算されてもよい。

もう一つの可能な実装は、相互相関ベースの時間整列である。既知のように、一対の入力信号x(i)とy(i)の間の一連の相互相関係数は次式によって計算される。

ここで、￣付きのxおよびyはx(i)およびy(i)の平均を表わし、Nはx(i)およびy(i)の長さを表わし、dは二つの系列の間の時間ラグを表わす。二つの信号の間の遅延は、次のように計算されうる。

次いで、x(i)を参照として使って、信号y(i)は
y(k)＝y(i−D)
によってx(i)に時間整列されることができる。

時間整列は相互相関プロセスを適用することによって実現できるが、探索範囲が大きい場合、このプロセスは時間がかかり、誤りを生じやすいことがある。しかしながら、実際上は、探索レンジは、大きなネットワーク遅延変動を受け入れるために、かなり長くなければならない。この問題に対処するために、オーディオ捕捉装置１０１によって発された較正信号についての情報が収集され、相互相関プロセスの探索範囲を縮小するために使われるべく、サーバー１０２に送信されてもよい。上記のように、本発明のいくつかの実施形態では、オーディオ捕捉装置１０１は、オーディオ捕捉の開始時に、オーディオ信号をグループ内の他の構成員にブロードキャストしてもよい。それによりオーディオ捕捉装置１０１の各対の間の距離の計算を容易にする。これらの実施形態において、ブロードキャストされたオーディオ信号は、信号相関にかかる時間を短縮するために較正信号として使われることができる。具体的には、グループ内の二つのオーディオ捕捉装置AおよびBを考えると、
S_Aは装置Aが較正信号を再生するコマンドを発する時点であり；
S_Bは装置Bが較正信号を再生するコマンドを発する時点であり；
R_AAは装置Aが装置Aによって送信された信号を受信する時点であり；
R_BAは装置Aが装置Bによって送信された信号を受信する時点であり；
R_BBは装置Bが装置Bによって送信された信号を受信する時点であり；
R_ABは装置Bが装置Aによって送信された信号を受信する時点である
とする。これらの時点の一つまたは複数がオーディオ捕捉装置１０１によって記録され、相互相関プロセスにおいて使うためにサーバー１０２に送信されてもよい。

一般に、装置Aから装置Bへの音響伝搬遅延はネットワーク遅延差より小さい。すなわち、S_B−S_A＞R_AB−S_Aである。よって、時点R_BAおよびR_BBを、相互相関ベースの時間整列プロセスを開始するために使用できる。換言すれば、時点R_BAおよびR_BBより後のオーディオ信号サンプルのみが相関計算に含められる。このようにして、探索範囲を縮小でき、よって時間整列の効率を改善できる。

しかしながら、ネットワーク遅延差が音響伝搬遅延差より小さいことがありうる。これは、ネットワークが非常に低いジッタをもつまたは二つの装置がより遠く離れて置かれているまたはその両方であるときに起こりうる。この場合、時点S_BおよびS_Aを、相互相関プロセスの開始点として使用できる。具体的には、時点S_BおよびS_Aより後のオーディオ信号が較正信号を含んでいるので、R_BAが装置Aにとっての相関の開始点として使用でき、S_B＋(R_BA−S_A)が装置Bにとっての相関の開始点として使用できる。

時間整列のための上記の機構はいかなる好適な仕方で組み合わされてもよいことは理解されるであろう。たとえば、本発明のいくつかの実施形態では、時間整列は三段階プロセスでできる。まず、オーディオ捕捉装置１０１とサーバー１０２との間で粗い時間同期が実行されてもよい。次に、上記で論じたような較正信号が、同期を洗練するために使われてもよい。最後に、オーディオ信号の時間整列を完了するために相互相関解析が適用される。

ステップS303における時間整列は任意的であることを注意しておくべきである。たとえば、通信および／または装置条件が十分良好である場合、すべてのオーディオ捕捉装置１０１がほぼ同時に捕捉コマンドを受信し、よって同時にオーディオ捕捉を開始すると考えることに理がある。さらに、サラウンド音場の品質が余り敏感でないいくつかの応用では、オーディオ捕捉の開始時刻のある程度の整列不良は許容できるまたは無視できることは容易に理解されるであろう。これらの状況において、ステップS303における時間整列は省略されることができる。

特に、ステップS302は必ずしもS303より前に実行されるのではないことを注意しておくべきである。その代わり、いくつかの代替的な実施形態では、オーディオ信号の時間整列は、トポロジー推定の前またさらにはトポロジー推定と並列に実行されてもよい。たとえば、NTP同期またはピアツーピア同期のようなクロック同期プロセスはトポロジー推定の前に実行されることができる。音響レンジングの手法に依存して、そのようなクロック同期プロセスは、トポロジー推定において音響レンジングに有益でありうる。

引き続き図３を参照すると、ステップS304において、受領されたオーディオ信号（可能性としては時間的に整列されている）から、少なくとも部分的にはステップS302において推定されたトポロジーに基づいて、サラウンド音場が生成される。この目的に向け、いくつかの実施形態によれば、複数のオーディオ捕捉装置の数に基づいて、オーディオ信号を処理するためのモードが選択されてもよい。たとえば、グループ内に二つのオーディオ捕捉装置１０１しかない場合には、それら二つのオーディオ信号が単に組み合わされてステレオ出力を生成してもよい。任意的に、ステレオ音像拡幅、マルチチャネル・アップミックスなどを含むがそれに限られない何らかの後処理が実行されてもよい。他方、グループ内に三つ以上のオーディオ捕捉装置１０１があるときは、サラウンド音場を生成するためにアンビソニックスまたはBフォーマット処理が適用されてもよい。処理モードの適応的な選択は必ずしも必要とされないことを注意しておくべきである。たとえば、たとえ二つのオーディオ捕捉装置しかない場合であっても、サラウンド音場は捕捉されたオーディオ信号をBフォーマット処理により処理することによって生成されてもよい。

次に、いかにしてサラウンド音場を生成するかの本発明のいくつかの実施形態が、アンビソニックス処理を参照して論じられる。しかしながら、本発明の範囲がこれに関して限定されないことを注意しておくべきである。推定されたトポロジーに基づいて受領されたオーディオ信号からサラウンド音場を生成することのできるいかなる好適な技法が本発明の実施形態との関連で使用されてもよい。たとえば、バイノーラルまたは5.1チャネルのサラウンド・サウンド生成技術が利用されてもよい。

アンビソニックスについて、これは、音場および源位置復元可能性を提供する柔軟な空間的オーディオ処理技法として知られている。アンビソニックスでは、3Dサラウンド音場がW-X-Y-ZチャネルをもってBフォーマットと称される四チャネル信号として記録される。Wチャネルは無指向性音圧情報を含み、一方、残りの三つのチャネルX、YおよびZは3Dデカルト座標における三つの対応する軸で測った音速情報を表わす。具体的には、方位角φおよび仰角θのところに局在化された音源Sが与えられて、サラウンド音場の理想的なBフォーマット表現は次のようになる。

簡単のため、Bフォーマット信号についての指向性パターンの生成の以下の議論では、水平面内のW、XおよびYチャネルのみが考慮され、高さ軸Zは無視される。本発明の諸実施形態に基づいてオーディオ信号がオーディオ捕捉装置１０１によって捕捉される仕方では、一般に高さ情報はないので、これは理にかなった想定である。

平面波を与えられると、離散的なアレイの指向性は次のように表現できる。

ここで、

は中心までの距離Rおよび角φ_Mをもつオーディオ捕捉装置の空間的位置を表わし、ベクトルαは角φにおける源位置
α＝[cosφ sinφ 0]
を表わす。さらに、A_n(f,r)はオーディオ捕捉装置についての重みを表わし、これはユーザー定義された重みと、特定の周波数および角におけるオーディオ捕捉装置の利得との積：
A_n(f,r)＝W_n(f)r(φ)
r(φ)＝β＋(1−β)cos(φ)
として定義される。ここで、β＝0.5はカージオイド極性パターンを表わし、β＝0.7はサブカージオイド極性パターンを表わし、β＝1は無指向性を表わす。

ひとたびオーディオ捕捉装置の極性パターンおよび位置トポロジーが決定されたら、それぞれの捕捉されたオーディオ信号についての重みW_n(f)が生成されたサラウンド音場の品質に影響することが見て取れる。異なる重みW_n(f)はBフォーマット信号についての異なる品質を生成する。種々のオーディオ信号についての重みはマッピング行列として表現されてもよい。図２Ａに示されるトポロジーを例として考えると、オーディオ信号M₁、M₂およびM₃からW、XおよびYチャネルへのマッピング行列（W）は次のように定義されうる。

伝統的に、Bフォーマット信号は、業務用の音場マイクロフォンのような特別に設計された（しばしばきわめて高価な）マイクロフォン・アレイを使って生成される。この場合、マッピング行列は、前もって設計されてもよく、動作中に不変のままであってもよい。しかしながら、本発明の実施形態によれば、オーディオ信号は、可能性としては変化したトポロジーをもって動的にグループ化される諸オーディオ捕捉装置のアドホック・ネットワークによって捕捉される。結果として、既存の解決策は、特別に設計され位置決めされているのでないユーザー装置によって捕捉されるそのような生のオーディオ信号からW、X、Yチャネルを生成するためには適用可能でないことがある。たとえば、グループがπ/2、3π/4および3π/2の角および中心までの同じ距離4cmをもつ三つのオーディオ捕捉装置１０１を含むとする。図４のＡ〜Ｃは、それぞれ、上記のようなもとのマッピング行列を使うときのさまざまな周波数についての、それぞれW、XおよびYチャネルについての極性パターンを示す。見て取れるように、XおよびYチャネルの出力は正しくない。これらはもはや互いに直交していないからである。さらに、Wチャネルは1000Hzほど低くても問題がなる。したがって、生成されるサラウンド音場の高い品質を保証するために、マッピング行列が柔軟に適応されることができることが望まれる。

この目的に向けて、本発明の実施形態によれば、マッピング行列によって表わされるそれぞれのオーディオ信号についての重みが、ステップS303において推定されたオーディオ捕捉装置のトポロジーに基づいて動的に適応されうる。引き続き三つのオーディオ捕捉装置１０１がπ/2、3π/4および3π/2の角および中心までの同じ距離4cmをもつ上記の例示的なトポロジーを考えると、マッピング行列がこの特定のトポロジーに従って、たとえば

のように適応される場合、よりよい結果が達成できる。このことは、この状況におけるさまざまな周波数についてのそれぞれW、XおよびYチャネルについての極性パターンを示す図５Ａ〜５Ｃから見て取れる。

いくつかの実施形態によれば、オンザフライで、オーディオ捕捉装置の前記推定されたトポロジーに基づいてオーディオ信号についての重みを選択することが可能である。代替的または追加的に、マッピング行列の適応は、あらかじめ定義されたテンプレートに基づいて実現されてもよい。これらの実施形態では、サーバー１０２は、あらかじめ定義されたトポロジー・テンプレートのセットを記憶する貯蔵部を維持してもよい。各トポロジー・テンプレートはあらかじめチューニングされたマッピング行列に対応する。たとえば、トポロジー・テンプレートは、オーディオ捕捉装置の座標および／または位置関係によって表わされてもよい。所与の推定されるトポロジーについて、推定されるトポロジーにマッチするテンプレートが決定されてもよい。マッチしたトポロジー・テンプレートを特定するには多くの仕方がある。一例として、ある実施形態では、オーディオ捕捉装置の推定された座標とテンプレート中の座標との間のユークリッド距離が計算される。最小の距離をもつトポロジー・テンプレートがマッチしたテンプレートとして決定される。よって、決定されたマッチしたトポロジー・テンプレートに対応するあらかじめチューニングされたマッピング行列が、Bフォーマット信号の形のサラウンド音場の生成において使うために選択される。

いくつかの実施形態では、決定されたトポロジー・テンプレートに加えて、それぞれの装置によって捕捉されたオーディオ信号の重みは、さらにそれらのオーディオ信号の周波数に基づいて、選択されることができる。具体的には、より高い周波数については、オーディオ捕捉装置の間の相対的に大きな間隔のため、空間的エイリアシングが現われはじめることが観察される。性能をさらに改善するために、Bフォーマット処理におけるマッピング行列の選択は、オーディオ周波数に基づいてなされてもよい。たとえば、いくつかの実施形態では、各トポロジー・テンプレートは少なくとも二つのマッピング行列に対応してもよい。位置トポロジー・テンプレートの決定に際して、受領されたオーディオ信号の周波数があらかじめ定義された閾値と比較され、該比較に基づいて、決定されたトポロジー・テンプレートに対応するマッピング行列の一つが選択され、使用されることができる。選択されたマッピング行列を使って、Bフォーマット処理が受領されたオーディオ信号に適用され、それにより上記で論じたようにサラウンド音場を生成する。

サラウンド音場はトポロジー推定に基づいて生成されるよう示されているが、本発明の範囲はこれに関して限定されるものではないことを注意しておくべきである。たとえば、クロック同期および距離／トポロジー推定が利用可能でないまたは既知であるいくつかの代替的な実施形態では、音場は、捕捉されたオーディオ信号に適用される相互相関プロセスから直接生成されてもよい。たとえば、オーディオ捕捉装置のトポロジーが既知である場合、オーディオ信号の何らかの時間整列を達成するための相互相関プロセスを実行し、単にBフォーマット処理において固定したマッピング行列を適用することによって音場を生成することが可能である。このようにして、異なるチャネルの間での優勢な源についての諸時間遅延差が本質的に除去されうる。結果として、オーディオ捕捉装置のアレイのセンサー距離は短縮されてもよく、それにより同時アレイ（coincident array）を生成する。

任意的に、方法３００は、レンダリング装置に対する、生成されたサラウンド音の到達方向（DOA: direction of arrival）を推定するステップS305に進む。次いで、サラウンド音場はステップS306において少なくとも部分的には推定されたDOAに基づいて回転される。生成されたサラウンド音場をDOAに従って回転させることは、主として、サラウンド音場の空間的レンダリングを改善するためである。Bフォーマット・ベースの空間的レンダリングを実行するとき、左と右のオーディオ捕捉装置の間に公称上の正面、すなわち方位角0度がある。この方向からの音源は、バイノーラル再生の間、正面から来ると知覚される。目標音源が正面からくるようにすることが望ましい。これが最も自然な聴取条件だからである。しかしながら、アドホック・グループ内のオーディオ捕捉装置の位置決めの性質そのもののため、左右の装置を常に主たる目標音源、たとえば演奏ステージのほうに向けることをユーザーに要求することは不可能である。この問題に対処するために、推定された角度θに従ってサラウンド音場を回転させるために、マルチチャネル入力を使ってDOA推定が実行されてもよい。これに関し、位相変換を伴う一般化相互相関（GCC-PHAT: Generalized Cross Correlation with Phase Transform）、方向制御された応答パワー‐位相変換（SRP-PHAT: Steered Response Power-Phase Transform）、多重信号分類（MUSIC: Multiple Signal Classification）または他の任意の好適なDOA推定アルゴリズムが、本発明の実施形態との関連で使用できる。次いで、音場回転は、次のような標準的な回転行列を使ってBフォーマット信号に対して簡単に達成できる。

いくつかの実施形態では、DOAに加えて、音場はさらに生成された音場のエネルギーに基づいて回転されてもよい。換言すれば、エネルギーおよび継続時間の両方の点で最も優勢な音源を見出すことが可能である。目標は、音場におけるユーザーについての最良の聴取角を見出すことである。θ_nおよびE_nが、それぞれ生成された音場のフレームnについての短期の推定されたDOAおよびエネルギーを表わすとする。生成された音全体についてのフレーム総数はNである。さらに、中央面が0度であり、角度は反時計回りに測るとする。すると、フレームは極座標表現を使って、点(θ_n,E_n)に対応する。ある実施形態では、回転角θ'はたとえば、次の目的関数を最大化することによって決定されうる。

次に、方法３００は、生成された音場が、レンダリング装置上での再生のために好適な任意の目標フォーマットに変換されうる任意的なステップS307に進む。続けて、サラウンド音場がBフォーマット信号として生成される例を考える。ひとたびBフォーマット信号が生成されたら、W、X、Yチャネルは空間的レンダリングのために好適なさまざまなフォーマットに変換されうることは容易に理解されるであろう。アンビソニックスのデコードおよび再生は、空間的レンダリングのために使われるスピーカー・システムに依存する。一般に、アンビソニックス信号から一組のスピーカー信号へのデコードは、デコードされたスピーカー信号が再生される場合にスピーカー・アレイの幾何学的中心において記録された「仮想」アンビソニックス信号がデコードのために使われたアンビソニックス信号と同一であるべきであるという想定に基づく。これは次のように表現できる：

ここで、L＝{L₁,L₂,…,L_n}^Tは一組のスピーカー信号を表わし、B＝{W,X,Y,Z}^Tは、デコードのための入力アンビソニックス信号と同一であると想定される「仮想」アンビソニックス信号を表わし、Cはスピーカー・アレイの幾何学的定義、すなわち各スピーカーの方位角、仰角によって定義される「再エンコード」行列として知られる。たとえば、スピーカーが方位角{45°,−45°,135°,−135°}および仰角{0°,0°,0°,0°}のところに水平に置かれている正方形のスピーカー・アレイを与えられると、これはCを次のように定義する。

これに基づいて、スピーカー信号は次のようにして導出できる。

ここで、Dは典型的にはCの擬似逆行列として定義されるデコード行列を表わす。

いくつかの実施形態によれば、オーディオが一対のイヤホンまたはヘッドフォンを通じて再生されるバイノーラル・レンダリングが望まれることがありうる。ユーザーがモバイル装置上でオーディオ・ファイルを聞くことが期待されるからである。Bフォーマットからバイノーラルへの変換は、スピーカー・アレイ・フィードをスピーカー位置にマッチする頭部伝達関数（HRTF）によってそれぞれフィルタ処理したものを合計することによって近似的に達成できる。空間的な聴取においては、指向性の音源は二つの相異なる伝搬経路を進んでそれぞれ左および右の耳に到達する。その結果、二つの耳の入口信号の間に到達時間および強度の差が生じ、人間の聴覚系はそれを利用して定位された聴覚を達成する。これら二つの伝搬経路は、頭部伝達関数と称される一対の方向依存の音響フィルタによってよくモデル化されることができる。たとえば、方向φに位置する音源Sを与えられて、耳入口信号S_leftおよびS_rightは次のようにモデル化できる。

ここで、H_left,φおよびH_right,φは方向φのHRTFを表わす。実際上、所与の方向のHRTFは、その方向に位置されたインパルスまたは既知の刺激からの応答を拾う被験体（人またはダミー頭部）の耳に挿入されたプローブ・マイクロフォンを使って測定できる。

これらのHRTF測定は、モノフォニック源から仮想耳入口信号を合成するために使用されることができる。この源をある方向に対応する一対のHRTFを用いてフィルタ処理し、結果として得られる左右の信号をヘッドフォンまたはイヤホンを介して聴取者に呈示することによって、所望される方向に空間化された仮想音源をもつ音場がシミュレートできる。上記の四スピーカー・アレイを使うと、次のようにしてW、X、Yチャネルをバイノーラル信号に変換できる。

ここで、H_left,nはn番目のスピーカーから左耳への伝達関数を表わし、H_right,nはn番目のスピーカーから右耳への伝達関数を表わす。これはより多くのスピーカーに拡張できる。

ここで、nはスピーカーの総数を表わす。

生成されたサラウンド音場を信号の好適なフォーマットに変換した後、サーバー１０２はそのような信号をディスプレイのためにレンダリング装置に送信してもよい。いくつかの実施形態では、レンダリング装置およびオーディオ捕捉装置は同じ物理端末上で共位置であってもよい。

方法３００はステップS307で終わる。

ここで図６を参照する。図６は、本発明のある実施形態に基づく、サラウンド音場を生成する装置を示すブロック図を示している。本発明の実施形態によれば、装置６００は図６に示したサーバー１０２にあってもよく、あるいは他の仕方でサーバー１０２と関連していて、図３を参照して上記した方法３００を実行するよう構成されていてもよい。

図のように、本発明の実施形態によれば、装置６００は、複数のオーディオ捕捉装置によって捕捉されたオーディオ信号を受領するよう構成された受領ユニット６０１を有する。装置６００はまた、前記複数のオーディオ捕捉装置のトポロジーを推定するよう構成されたトポロジー推定ユニット６０２をも有する。さらに、装置６００は、少なくとも部分的には推定されたトポロジーに基づいて受領されたオーディオ信号からサラウンド音場を生成するよう構成された生成ユニット６０３を有する。

いくつかの例示的な実施形態では、推定ユニット６０２は、前記複数のオーディオ捕捉装置の各対の間の距離を取得するよう構成された距離取得ユニットと；取得された距離に対して多次元スケーリング（MDS）を実行することによって前記トポロジーを推定するよう構成されたMDSユニットとを有していてもよい。

いくつかの例示的実施形態では、生成ユニット６０３は、前記複数のオーディオ捕捉装置の数に基づいてオーディオ信号を処理するためのモードを選択するよう構成されたモード選択ユニットを有していてもよい。代替的または追加的に、いくつかの例示的実施形態では、生成ユニット６０３は、前記複数のオーディオ捕捉装置の推定されたトポロジーにマッチするトポロジー・テンプレートを決定するよう構成されたテンプレート決定ユニットと；少なくとも部分的には決定されたトポロジー・テンプレートに基づいてオーディオ信号についての重みを選択するよう構成された重み選択ユニットと；選択された重みを使ってオーディオ信号を処理してサラウンド音場を生成するよう構成された信号処理ユニットとを有していてもよい。いくつかの例示的実施形態では、重み選択ユニットは、オーディオ信号の決定されたトポロジー・テンプレートおよび周波数に基づいて重みを選択するよう構成されたユニットを有していてもよい。

いくつかの例示的実施形態では、装置６００はさらに、オーディオ信号に対して時間整列を実行するよう構成された時間整列ユニット６０４を有していてもよい。いくつかの例示的実施形態では、時間整列ユニット６０４は、プロトコル・ベースのクロック同期プロセス、ピアツーピア・クロック同期プロセスおよび相互相関プロセスのうちの少なくとも一つを適用するよう構成されている。

いくつかの例示的な実施形態では、装置６００はさらに、レンダリング装置に対する生成されたサラウンド音場の到達方向（DOA）を推定するよう構成されたDOA推定ユニット６０５と；少なくとも部分的には推定されたDOAに基づいて、生成されたサラウンド音場を回転させるよう構成された回転ユニット６０６とを有していてもよい。いくつかの例示的実施形態では、回転ユニットは、生成されたサラウンド音場の推定されたDOAおよびエネルギーに基づいて生成されたサラウンド音場を回転させるよう構成されたユニットを有していてもよい。

いくつかの例示的実施形態では、装置６００はさらに、生成されたサラウンド音場を、レンダリング装置上での再生のために目標フォーマットに変換するよう構成された変換ユニット６０７を有していてもよい。たとえば、Bフォーマット信号は、バイノーラル信号または5.1チャネル・サラウンド・サウンド信号に変換されてもよい。

装置６００内のさまざまなユニットはそれぞれ図３を参照して上記した方法３００のステップに対応することを注意しておくべきである。結果として、図３に関して述べたすべての事項は装置６００にも当てはまり、ここで詳述はしない。

図７は、本発明の例示的実施形態を実装するためのユーザー端末７００を示すブロック図である。ユーザー端末７００は、本稿で論じたオーディオ捕捉装置１０１として動作してもよい。いくつかの実施形態では、ユーザー端末７００は携帯電話として具現されてもよい。しかしながら、携帯電話は本発明の実施形態から恩恵を受ける装置の一つの型を例示するだけであり、よって本発明の実施形態の範囲を限定するものと解釈するべきではない。

図のように、ユーザー端末７００は、送信機７１４および受信機７１６と動作可能に通信するアンテナ（単数または複数）７１２を含む。ユーザー端末７００はさらに、少なくとも一つのプロセッサまたはコントローラ７２０を含む。たとえば、コントローラ７２０は、デジタル信号プロセッサ、マイクロプロセッサおよびさまざまなアナログ‐デジタル変換器、デジタル‐アナログ変換器および他の支援回路から構成されていてもよい。ユーザー端末７００の制御および情報処理機能は、それぞれの機能に従ってこれらの装置の間で割り当てられる。ユーザー端末７００は、呼び出し音発生器〔リンガー〕７２２、イヤホンまたはスピーカー７２４のような出力装置、オーディオ捕捉のための一つまたは複数のマイクロフォン７２６、ディスプレイ７２８およびキーボード７３０、ジョイスティックまたは他のユーザー入力インターフェースのようなユーザー入力装置を含むユーザー・インターフェースをも有しており、これらはみなコントローラ７２０に結合されている。ユーザー端末７００はさらに、ユーザー端末７００を動作させるために必要とされるさまざまな回路に電力を供給するとともに任意的には検出可能な出力として機械的な振動を提供するための振動バッテリー・パックのようなバッテリー７３４を含む。

いくつかの実施形態では、ユーザー端末７００は、コントローラ７２０と通信する、カメラ、ビデオおよび／またはオーディオ・モジュールのようなメディア捕捉要素を含む。メディア捕捉要素は、記憶、表示または伝送のために画像、ビデオおよび／またはオーディオを捕捉するいかなる手段であってもよい。たとえば、メディア捕捉要素がカメラ・モジュール７３６である例示的実施形態では、カメラ・モジュール７３６は、捕捉された画像からデジタル画像ファイルを形成することができるデジタル・カメラを含んでいてもよい。携帯電話として具現されるとき、ユーザー端末７００はさらに、ユニバーサル識別モジュール（UIM: universal identify module）７３８を含んでいてもよい。UIM ７３８は典型的にはプロセッサが組み込まれているメモリ・デバイスである。UIM ７３８はたとえば、加入者識別モジュール（SIM: subscriber identity module）、ユニバーサル集積回路カード（UICC: universal integrated circuit card）、ユニバーサル加入者識別モジュール（USIM: universal subscriber identity module）、着脱可能ユーザー識別モジュール（R-UIM: removable user identity module）などを含みうる。UIM ７３８は典型的には加入者に関係した情報要素を記憶する。

ユーザー端末７００は、少なくとも一つのメモリを備えていてもよい。たとえば、ユーザー端末７００は、データの一時記憶のためのキャッシュ領域を含む揮発性ランダム・アクセス・メモリ（RAM）のような揮発性メモリ７４０を含んでいてもよい。ユーザー端末７００は、埋め込まれることができるおよび／または着脱可能であってもよい他の不揮発性メモリ７４２をも含んでいてもよい。不揮発性メモリ７４２は追加的または代替的に、EEPROM、フラッシュ・メモリなどを含むことができる。メモリは、ユーザー端末７００の機能を実装するためにユーザー端末７００が使用する任意の数の情報、プログラムおよびデータを記憶することができる。

図８を参照するに、本発明の実施形態を実装するための例示的なコンピュータ・システム８００を示すブロック図がある。たとえば、コンピュータ・システム８００は上記のサーバー１０２として機能してもよい。図のように、中央処理ユニット（CPU）８０１が読み出し専用メモリ（ROM）８０２に記憶されたプログラムまたは記憶セクション８０８からランダム・アクセス・メモリ（RAM）にロードされたプログラム従ってさまざまなプロセスを実行する。RAM ８０３では、CPU ８０１がさまざまな処理を実行するときに必要とされるデータなども必要に応じて記憶される。CPU ８０１、ROM ８０２およびRAM ８０３はバス８０４を介して互いに接続されている。入出力（I/O）インターフェース８０５もバス８０４に接続されている。

以下のコンポーネントがI/Oインターフェースに接続される：キーボード、マウスなどを含む入力部８０６；陰極線管（CRT）、液晶ディスプレイ（LCD）などのようなディスプレイまたはスピーカーなどを含む出力部８０７；ハードディスクなどを含む記憶部８０８；およびLANカード、モデムなどのようなネットワーク・インターフェース・カードを含む通信部８０９である。通信部８０９は、インターネットのようなネットワークを介して通信プロセスを実行する。ドライブ８１０も必要に応じてI/Oインターフェース８０５に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのような着脱可能な媒体８１１が必要に応じてドライブ８１０にマウントされ、それにより必要に応じて、そこから読まれたコンピュータ・プログラムが記憶部８０８にインストールされる。

上記のステップおよびプロセス（たとえば方法３００）がソフトウェアによって実装される場合、ソフトウェアを構成するプログラムは、インターネットのようなネットワークまたは着脱可能な媒体８１１のような記憶媒体からインストールされる。

一般に、本発明のさまざまな例示的実施形態はハードウェアまたは特殊目的回路、ソフトウェア、論理またはそれらの任意の組み合わせにおいて実装されうる。いくつかの側面はハードウェアにおいて実装され、一方で他の側面がコントローラ、マイクロプロセッサまたは他のコンピューティング装置によって実行されうるファームウェアまたはソフトウェアにおいて実装されてもよい。本発明の例示的実施形態のさまざまな側面がブロック図、フローチャートとしてまたは他の絵的表現を使って図示され、記述されているが、本稿に記載されるブロック、装置、システム、技法または方法は、限定しない例として、ハードウェア、ソフトウェア、ファームウェア、特殊目的回路または論理、汎用ハードウェアまたはコントローラまたは他のコンピューティング装置またはそれらの何らかの組み合わせにおいて実装されてもよいことは理解されるであろう。

たとえば、上記の装置６００はハードウェア、ソフトウェア／ファームウェアまたはそれらの任意の組み合わせとして実装されてもよい。いくつかの実施形態では、装置６００中の一つまたは複数のユニットがソフトウェア／モジュールとして実装されていてもよい。代替的または追加的に、それらのユニットの一部または全部が、集積回路（IC）、特定用途向け集積回路（ASIC）、システムオンチップ（SOC）、フィールド・プログラマブル・ゲート・アレイ（FPGA）などのようなハードウェア・モジュールを使って実装されてもよい。本発明の範囲はこれに関して限定されない。

さらに、図３に示されるさまざまなブロックを方法ステップとしておよび／またはコンピュータ・プログラム・コードの動作から帰結する動作としておよび／または関連する機能（単数または複数）を実行するよう構築された複数の結合された論理回路要素として見ることができる。たとえば、本発明の実施形態は、機械可読媒体上に有体に具現されたコンピュータ・プログラムを有するコンピュータ・プログラム・プロダクトを含み、該コンピュータ・プログラムは、上記で詳述した方法３００を実行するよう構成されたプログラム・コードを含む。

本開示のコンテキストにおいて、機械可読媒体は、命令実行システム、装置またはデバイスによってまたはそれとの関連で使うためのプログラムを含むまたは記憶することができるいかなる有体の媒体であってもよい。機械可読媒体は機械可読信号媒体または機械可読記憶媒体でありうる。機械可読媒体は、電子式、磁気式、光学式、電磁式、赤外線または半導体のシステム、装置またはデバイスまたは上記の任意の好適な組み合わせを含みうる。機械可読記憶媒体のより具体的な例は、一つまたは複数のワイヤを有する電気接続、ポータブルなコンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ（RAM）、読み出し専用メモリ（ROM）、消去可能なプログラム可能型読み出し専用メモリ（EPROMまたはフラッシュ・メモリ）、光ファイバー、ポータブルなコンパクト・ディスク読み出し専用メモリ（CD-ROM）、光記憶デバイス、磁気記憶デバイスまたは上記の任意の好適な組み合わせを含む。

本発明の方法を実行するためのコンピュータ・プログラム・コードは、一つまたは複数のプログラミング言語の任意の組み合わせにおいて書かれうる。これらのコンピュータ・プログラム・コードは、汎用コンピュータ、特殊目的コンピュータまたは他のプログラム可能な処理装置のプロセッサに提供されてもよく、それにより該プログラム・コードは、該コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサによって実行されたとき、フローチャートおよび／またはブロック図において規定された機能／動作を実装させる。プログラム・コードは完全にコンピュータ上で、部分的にコンピュータ上でスタンドアローンのソフトウェア・パッケージとして、部分的にはコンピュータ上で部分的にはリモート・コンピュータ上で、あるいは完全にリモート・コンピュータまたはサーバー上で実行されてもよい。

さらに、動作は特定の順序で描かれているが、これは、そのような動作が示される特定の順序で、あるいは逐次順に実行されること、あるいは所望される結果を達成するために示されているすべての動作が実行されることを要求するものと理解されるべきではない。ある種の状況では、マルチタスクおよび並列処理が有利であることがある。同様に、いくつかの個別的な実装詳細が上記の議論に含まれるものの、これらはいずれかの発明のまたは特許請求されうるものの範囲に対する限定として解釈されるべきではなく、むしろ特定の発明の特定の実施形態に固有でありうる事項の記述と解釈されるべきである。別個の実施形態のコンテキストにおいて本明細書に記載されるある種の特徴は、単一の実施形態において組み合わせて実装されることもできる。逆に、単一の実施形態のコンテキストにおいて記述されているさまざまな特徴が、複数の実施形態において別個にまたは任意の好適なサブコンビネーションにおいて実装されることもできる。

付属の図面との関連で読まれるときの上記の記述に鑑み、本発明の上記の例示的実施形態へのさまざまな修正、適応が当業者には明白となるであろう。任意の、あらゆる修正がそれでも、本発明の限定しない、例示的な実施形態の範囲内にはいる。さらに、本稿に記載される発明の他の実施形態が、上記の記述および図面に呈示される教示の恩恵をもつ当業者には思いつくであろう。

よって、本発明は、本稿に記載される形の任意のもので具現されうる。たとえば、以下の付番実施例（EEE: enumerated example embodiment）は、本発明のいくつかの側面のいくつかの構造、特徴および機能を記述するものである。
〔ＥＥＥ１〕
サラウンド音場を生成する方法であって：複数のオーディオ捕捉装置によって捕捉されたオーディオ信号を受領する段階と；受領したオーディオ信号に対して相互相関プロセスを適用することによって受領したオーディオ信号の時間整列を実行する段階と；時間整列されたオーディオ信号からサラウンド音場を生成する段階とを含む、方法。
〔ＥＥＥ２〕
前記複数のオーディオ捕捉装置によって発される較正信号についての情報を受領する段階と；前記較正信号についての受領された情報に基づいて前記相互相関プロセスの探索範囲を縮小する段階とを含む、ＥＥＥ１記載の方法。
〔ＥＥＥ３〕
前記サラウンド音場を生成する段階が：前記複数のオーディオ捕捉装置のあらかじめ定義されたトポロジー推定に基づいて前記サラウンド音場を生成することを含む、ＥＥＥ１または２記載の方法。
〔ＥＥＥ４〕
前記サラウンド音場を生成する段階が：前記複数のオーディオ捕捉装置の数に基づいて前記オーディオ信号を処理するモードを選択することを含む、ＥＥＥ１ないし３のうちいずれか一項記載の方法。
〔ＥＥＥ５〕
レンダリング装置に関する前記生成されたサラウンド音場の到達方向（DOA）を推定する段階と；少なくとも部分的には前記推定されたDOAに基づいて前記生成されたサラウンド音場を回転させる段階とをさらに含む、ＥＥＥ１ないし４のうちいずれか一項記載の方法。
〔ＥＥＥ６〕
前記生成されたサラウンド音場を回転させる段階が：前記生成されたサラウンド音場の前記推定されたDOAおよびエネルギーに基づいて前記生成されたサラウンド音場を回転させることを含む、ＥＥＥ５記載の方法。
〔ＥＥＥ７〕
前記生成されたサラウンド音場をレンダリング装置上での再生のための目標フォーマットに変換する段階をさらに含む、ＥＥＥ１ないし６のうちいずれか一項記載の方法。
〔ＥＥＥ８〕
サラウンド音場を生成する装置であって：複数のオーディオ捕捉装置によって捕捉されたオーディオ信号を受領するよう構成された第一受領ユニットと；受領したオーディオ信号に対して相互相関プロセスを適用することによって受領したオーディオ信号の時間整列を実行するよう構成された時間整列ユニットと；時間整列されたオーディオ信号からサラウンド音場を生成するよう構成された生成ユニットとを有する、装置。
〔ＥＥＥ９〕
前記複数のオーディオ捕捉装置によって発される較正信号についての情報を受領するよう構成された第二受領ユニットと；前記較正信号についての情報に基づいて前記相互相関プロセスの探索範囲を縮小するよう構成された縮小ユニットとを有する、ＥＥＥ８記載の装置。
〔ＥＥＥ１０〕
前記生成ユニットが：前記複数のオーディオ捕捉装置のトポロジーのあらかじめ定義された推定に基づいて前記サラウンド音場を生成するよう構成されたユニットを有する、ＥＥＥ８または９記載の装置。
〔ＥＥＥ１１〕
前記生成ユニットが：前記複数のオーディオ捕捉装置の数に基づいて前記オーディオ信号を処理するモードを選択するよう構成されたモード選択ユニットを有する、ＥＥＥ８ないし１０のうちいずれか一項記載の装置。
〔ＥＥＥ１２〕
レンダリング装置に関する前記生成されたサラウンド音場の到達方向（DOA）を推定するよう構成されたDOA推定ユニットと；少なくとも部分的には前記推定されたDOAに基づいて前記生成されたサラウンド音場を回転させるよう構成された回転ユニットとをさらに有する、ＥＥＥ８ないし１１のうちいずれか一項記載の装置。
〔ＥＥＥ１３〕
前記回転ユニットが：前記生成されたサラウンド音場の前記推定されたDOAおよびエネルギーに基づいて前記生成されたサラウンド音場を回転させるよう構成されたユニットを有する、ＥＥＥ１２記載の装置。
〔ＥＥＥ１４〕
前記生成されたサラウンド音場をレンダリング装置上での再生のための目標フォーマットに変換するよう構成された変換ユニットをさらに有する、ＥＥＥ８ないし１３のうちいずれか一項記載の装置。

本発明の実施形態が開示されている個別的な実施形態に限定されないこと、付属の請求項の範囲内に修正および他の実施形態が含まれることが意図されていることは理解されるであろう。本稿では具体的な用語が使われているが、それらは一般的な、説明の意味においてのみ使われており、限定のためではない。

Claims

サラウンド音場を生成する方法であって：
複数のオーディオ捕捉装置によって捕捉されたオーディオ信号を受領する段階と；
前記複数のオーディオ捕捉装置のトポロジーを推定する段階と；
受領されたオーディオ信号から、少なくとも部分的には前記推定されたトポロジーに基づいて、サラウンド音場を生成する段階とを含み、
前記サラウンド音場を生成する段階が：
前記オーディオ信号にアンビソニックスまたはBフォーマット処理を適用する段階と；
前記複数のオーディオ捕捉装置の推定されたトポロジーにマッチするトポロジー・テンプレートを判別する段階と；
少なくとも部分的には前記判別されたトポロジー・テンプレートに基づいて前記オーディオ信号についての重みを選択する段階と；
前記選択された重みを使って前記オーディオ信号を処理して前記サラウンド音場を生成する段階とを含む、
方法。
前記重みを選択する段階が：
前記判別されたトポロジー・テンプレートおよび前記オーディオ信号の周波数に基づいて前記重みを選択することを含む、
請求項１記載の方法。
前記オーディオ信号についての前記重みが、前記オーディオ信号を前記Bフォーマットに基づく四チャネル信号のW、X、Yチャネルにマッピングするマッピング行列として表現され、
前記オーディオ信号についての前記重みを選択する段階が、前記複数のオーディオ捕捉装置の推定されたトポロジーにマッチする前記トポロジー・テンプレートに対応するあらかじめ記憶されているマッピング行列を選択することを含む、
請求項１または２記載の方法。
前記受領されたオーディオ信号の時間整列を実行する段階をさらに含む、
請求項１ないし３のうちいずれか一項記載の方法。
前記時間整列を実行する段階が、プロトコル・ベースのクロック同期プロセス、ピアツーピアのクロック同期プロセスおよび相互相関プロセスのうちの少なくとも一つを適用することを含む、請求項４記載の方法。
前記生成されたサラウンド音場をレンダリング装置上での再生のための目標フォーマットに変換する段階をさらに含む、請求項１ないし５のうちいずれか一項記載の方法。
サラウンド音場を生成する装置であって：
複数のオーディオ捕捉装置によって捕捉されたオーディオ信号を受領するよう構成された受領ユニットと；
前記複数のオーディオ捕捉装置のトポロジーを推定するよう構成されたトポロジー推定ユニットと；
受領されたオーディオ信号から、少なくとも部分的には前記推定されたトポロジーに基づいて、サラウンド音場を生成するよう構成された生成ユニットとを有しており、
前記生成ユニットが、前記オーディオ信号に対してアンビソニックスまたはBフォーマット処理を適用するよう構成されており、前記生成ユニットが：
前記複数のオーディオ捕捉装置の推定されたトポロジーにマッチするトポロジー・テンプレートを判別するよう構成されたテンプレート判別ユニットと；
少なくとも部分的には前記判別されたトポロジー・テンプレートに基づいて前記オーディオ信号についての重みを選択するよう構成された重み選択ユニットと；
前記選択された重みを使って前記オーディオ信号を処理して前記サラウンド音場を生成するよう構成された信号処理ユニットとを有する、
装置。
前記重み選択ユニットが：
前記判別されたトポロジー・テンプレートおよび前記オーディオ信号の周波数に基づいて前記重みを選択するよう構成されたユニットを有する、
請求項７記載の装置。
前記オーディオ信号についての前記重みが、前記オーディオ信号を前記Bフォーマットに基づく四チャネル信号のW、X、Yチャネルにマッピングするマッピング行列として表現され、
前記重み選択ユニットが、前記複数のオーディオ捕捉装置の推定されたトポロジーにマッチする前記トポロジー・テンプレートに対応するあらかじめ記憶されているマッピング行列を選択するよう構成されている、
請求項７または８記載の装置。
前記受領されたオーディオ信号の時間整列を実行するよう構成された時間整列ユニットをさらに有する、
請求項７ないし９のうちいずれか一項記載の装置。
前記時間整列ユニットが、プロトコル・ベースのクロック同期プロセス、ピアツーピアのクロック同期プロセスおよび相互相関プロセスのうちの少なくとも一つを適用するよう構成されている、請求項１０記載の装置。
前記生成されたサラウンド音場をレンダリング装置上での再生のための目標フォーマットに変換するよう構成された変換ユニットをさらに有する、請求項８ないし１１のうちいずれか一項記載の装置。
請求項１ないし６のうちいずれか一項記載の方法を実行するよう構成されたプログラム・コードを含むコンピュータ・プログラムが機械可読媒体上に有体に具現されているコンピュータ・プログラム・プロダクト。