JP2020522171A

JP2020522171A - 指向性分解および経路距離の見積りを用いたアンビソニックス音場ナビゲーション

Info

Publication number: JP2020522171A
Application number: JP2019565244A
Authority: JP
Inventors: アレン、アンドリュー
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-07-12
Filing date: 2018-06-15
Publication date: 2020-07-27
Also published as: US20190020967A1; WO2019013924A1; EP3652965B1; KR102311004B1; US10715944B2; EP3652965A1; US20210160643A1; CN110574398A; US10182303B1; KR20190140022A; CN110574398B; US20190373392A1

Abstract

リスナー用のサウンドをレンダリングする技術は、第１位置にて、１組の方向であって、その方向から音場エネルギーのうちいくらかの指定された大きさの部分が生じる方向を決定することを伴い、その１組の方向に基づいて第２位置に音場を再構築する。このように、サウンドレンダリングコンピュータは、マイクロフォンを中心とする球面上の位置から生じるサウンドを表すサウンドデータを受信してよい。それにも関わらず、リスナーに向けられた音場エネルギーの大半に寄与するのは、これらの球面上の地点のうち小さな大きさの部分のみである。サウンドレンダリングコンピュータは、音エネルギーのうち最も大きな大きさの部分を有するそれらの方向が識別される指向性分解を用いて、そうした方向を決定する。リスナーがマイクロフォンの位置から離れて移動するとき、サウンドレンダリングコンピュータは、そうした方向を識別した後、振幅および位相因子をそれらの方向に対応する音場に適用する。

Description

本記載は仮想現実（ＶＲ）および類似環境における音場のレンダリングに関する。

アンビソニックスは、全天球サラウンドサウンド技術であり、水平面に加え、リスナーの上方および下方の音源をカバーする。他のマルチチャンネルサラウンドフォーマットとは異なり、アンビソニックスの伝送チャンネルは、スピーカ信号を搬送しない。これに代えて、アンビソニックスの伝送チャンネルは、Ｂ−フォーマットと呼ばれる音場のスピーカから独立した表現を含み、次いで、この表現がリスナーのスピーカセットアップに対しデコードされる。この追加の工程によって、指向性信号の位置よりはむしろソースの方向に関してプロデューサが考えることが可能となり、再生用に用いられるスピーカのレイアウトと数とに関して相当の程度の柔軟性がリスナーに対し提供される。

アンビソニックスでは、リスナーを取り囲む仮想的な指向性信号のアレイが、Ｂ−フォーマットとして知られるスキームにエンコードされたサウンドファイルをデコードすることによって、等方的に録音された音源から音場を生成する。仮想的な指向性信号のアレイにて生成された音場は、リスナーに対する任意の地点から音源の効果を再生成することが可能である。そうしたデコードは、仮想現実（ＶＲ）システムにおけるヘッドフォンスピーカを通じた音声の配信に用いられることが可能である。バイノーラルにレンダリングされた高次アンビソニックス（ＨＯＡ）は、１対の信号を左右のヘッドフォンスピーカに提供するように組み合わさった多くの指向性信号の生成を参照する。

１つの一般的な態様では、方法は、リスナー用の音場をレンダリングするように構成されているサウンドレンダリングコンピュータの制御回路が、空間内の第１位置に複数の指向性信号源によって生成される音場から得られるサウンドデータ（音データ）を受信する工程であって、各指向性信号源は前記音場に寄与する指向性信号を生成する、工程を備えることが可能である。その方法は、前記制御回路が、前記サウンドデータに基づいて前記指向性信号源の複数の方向を識別する方向識別工程であって、前記複数の方向は、音場のエネルギーのうち少なくとも指定された大きさの部分が第１位置に生成される方向である、工程を備えることも可能である。その方法は、前記制御回路が、前記指向性信号源の空間内の前記第１位置からの複数の距離を取得する工程と、前記制御回路が、前記複数の方向と前記複数の距離とに基づいて、前記第１位置とは異なる第２位置に音場を生成する音場生成工程をさらに備える。

本明細書に記載される改良された技術を実装するための例示的な電子環境を示す図。本明細書に記載される改良された技術に係る、例示的な指向性信号源の方向および距離を示す図。本明細書に記載される改良された技術に係る、音場ナビゲーション中の例示的な指向性信号源の方向および距離を示す図。本明細書に記載される改良された技術に係る、部屋における反射を伴う例示的な音場ナビゲーションを示す図。図１に示される電子環境内において改良された技術を行う例示的な方法を示すフローチャート。本明細書に記載される回路とともに用いられることが可能なコンピュータデバイスおよびモバイルコンピュータデバイスの一例を示す図。

１または複数の実装の詳細は、添付の図面および以下の記載において説明される。他の特徴は、本記載および図面から、また特許請求の範囲から明らかとなる。
ＨＯＡ音場をレンダリングするための従来のアプローチは、その音場が記録された正確な位置にリスナーを配置することを伴う。そうした従来のアプローチでは、記録場所からリスナーが離れるよう移動したとき、再現エラーを誘発する。さらに、従来のナビゲーションでは、反射の環境において、乏しくモデル化されたソースにしかアプローチしない。

本明細書に記載される実装に従って、またＨＯＡ音場をレンダリングするための上記の従来のアプローチとは対照的に、改良された技術は、第１位置にて、１組の方向であって、その方向から音場エネルギーのうちいくらかの指定された大きさの部分が生じる方向を決定することと、その１組の方向に基づいて第２位置に音場を再構築することとを伴う。このように、サウンドレンダリングコンピュータは、マイクロフォンを中心とする球面上の複数の位置から生じるサウンドを表すサウンドデータを受信してよい。いくつかの実装では、各地点から生じたサウンドを表すサウンドデータは、その地点からの音場の球面調和関数表現の係数を含む。この音場は、マイクロフォンの位置にいるリスナーに聞こえ得るサウンドである。それにも関わらず、リスナーに向けられた音場エネルギーの大半に実際に寄与するのは、これらの指向性信号のうち小さな大きさの部分のみである。サウンドレンダリングコンピュータは、音エネルギーのうち最も大きな大きさの部分を有するそれらの方向が識別される指向性分解を用いて、そうした方向を決定する。リスナーがマイクロフォンの位置から離れて移動するとき、サウンドレンダリングコンピュータは、そうした方向を識別した後、振幅および位相因子をそれらの方向に対応する音場に適用する。サウンドレンダリングコンピュータは、それらの方向にてマイクロフォンからの指向性信号の距離の測定を受信してもよい。さらに、指向性信号の類似行列を構築することにより、サウンドレンダリングコンピュータは、指向性信号がサウンドの直接のソースであるか、サウンドの別のソースからの反射であるかを判定してよい。

有利には、そうしたサウンドレンダリングコンピュータは、部屋における反射を考慮に入れながら、リアルタイムに音場の更新を行う。これらのリアルタイムの更新は、特定の技術における厳しい計算要求と、生じ得る他のものにおける不正確さと（例えば、ローパスと指向性エラーと）のいずれかを回避する。

図１は、上記の改良された技術を実施することができる例示的な電子環境１００を示す。示されるように、図１において、例示的な電子環境１００は、サウンドレンダリングコンピュータ１２０を含む。

サウンドレンダリングコンピュータ１２０は、リスナー用の音場をレンダリングするように構成される。サウンドレンダリングコンピュータ１２０は、ネットワークインタフェース１２２、１または複数の処理ユニット１２４、およびメモリ１２６を含む。ネットワークインタフェース１２２は、サウンドレンダリングコンピュータ１２０による使用のために、ネットワーク１７０から受信した電子信号および／または光信号を電子形式に変換するための、例えば、イーサネット（登録商標）アダプタ、トークンリングアダプタなどを含む。一組の処理ユニット１２４は、１または複数の処理チップおよび／またはアセンブリを含む。メモリ１２６は、揮発性メモリ（例えば、ＲＡＭ）および１または複数のＲＯＭなどの不揮発性メモリの両方、ディスクドライブ、ソリッドステートドライブなどを含む。一組の処理ユニット１２４とメモリ１２６とはともに制御回路を形成し、制御回路は本明細書に記載されるように様々な方法および機能を実行するように構成および配置される。

いくつかの実施形態では、サウンドレンダリングコンピュータ１２０の１または複数のコンポーネントは、メモリ１２６に記憶された命令を処理するように構成されたプロセッサ（例えば、処理ユニット１２４）であること、またはそのプロセッサを含むことが可能である。図１に示される命令の例には、サウンド入手マネージャ１３０、距離入手マネージャ１４０、指向性分解マネージャ１５０、音場ナビゲーションマネージャ１６０、および指向性信号ラベリングマネージャ１７０が含まれる。さらに、図１に示されるように、メモリ１２６は、そうしたデータを使用するそれぞれのマネージャに関して記載される様々なデータを記憶するように構成される。

サウンド入手マネージャ１３０は、様々なソースからサウンドデータ１３２を入手するように構成される。例えば、サウンド入手マネージャ１３０は、光学ドライブから、またはネットワークインタフェース１２２を通じて、サウンドデータ１３２を取得してよい。サウンド入手マネージャ１３０がサウンドデータ１３２を入手すると、サウンド入手マネージャは、そのサウンドデータ１３２をメモリ１２６に保存するようにさらに構成される。いくつかの実装では、サウンド入手マネージャ１３０は、ネットワークインタフェース１２２を通じてサウンドデータ１３２をストリーミングする。

いくつかの実装では、サウンドデータ１３２はＢ−フォーマット（すなわち、４つの成分（すなわち、アンビソニックスチャンネル）を有する１次のアンビソニックス）にエンコードされる。いくつかの実装では、サウンドデータ１３２は、より高次のアンビソニックス（例えば、Ｌ次まで）にエンコードされる。この場合、（Ｌ＋１）^２のアンビソニックスチャンネルが存在し、各チャンネルは指向性信号源から生じる音場の球面調和関数（ＳＨ）展開の項に対応する。いくつかの実装では、サウンドデータ１３２は行列として表現され、各サンプルが列として表現され、各ＨＯＡチャンネルが行として表現される。

距離入手マネージャ１４０は、球面上の点の選択された組について距離データ１４４を入手するように構成されることが可能である。そうした点は、方向データ１５２に含まれることが可能であり、指向性分解マネージャ１５０により決定されることが可能である。いくつかの実装では、距離データ１４４は、球体カメラを用いて入手され得る。

指向性分解マネージャ１５０は、支配的な方向（すなわち、指向性信号方向であって、その方向から音場エネルギーの指定された大きさの部分（例えば、５０％）が生じる指向性信号方向）を生成し、それらの方向を方向データ１５２に記憶するように構成されることが可能である指向性分解マネージャ１５０は、指向性分解演算をサウンドデータ１３２に対して行い、それらの方向を決定することが可能である。いくつかの実装では、指向性分解マネージャ１５０は、支配的な方向に関連付けられている音場データを、アレイに音エネルギーの部分の大きさの順に記憶するように構成されることも可能である。指向性分解演算は、図２に関してさらに詳細に説明される。

音場ナビゲーションマネージャ１６０は、平行移動データ１６２に従うリスナーの平行移動に与えられる、平行移動したサウンドデータ１６６にて表されることが可能なサウンドデータ１３２の補正を生成するように構成されることが可能である。例えば、リスナーがマイクロフォンの位置（すなわち、球体の中心から方向データが測定される、その中心）から離れて移動するとき、追跡システムは任意の与えられた時間に平行移動データ１６２を提供してよい。それに応じて、音場ナビゲーションマネージャ１６０は、方向データ１５２に含まれる様々な支配的な方向に沿って、サウンドデータに対する振幅補正および位相補正を行い、平行移動したサウンドデータ１６６にて表される平行移動した音場を生成する。いくつかの実装では、平行移動したサウンドデータ１６６は、各支配的な方向についてＳＨ展開として表現される。

いくつかの実装では、リスナーが移動する空間には、サウンドを再現することについての困難を示し得る位置、すなわち、指向性信号がそうした位置においてサウンドを忠実に再現することができない位置が存在する。いくつかの実装では、そうした位置は、図１に示されるように、指向性信号源の位置データ１４２により定められる指向性信号源の位置の凸包により決定されてよい。この場合、音場ナビゲーションマネージャ１６０は、指向性信号源の位置の凸包を生成し、その凸法を凸包データ１６４として記憶するようにさらに構成される。音場ナビゲーションマネージャ１６０は、次いで、平行移動データ１６２からの平行移動が凸包データにより表される凸包の内にあるか外にあるかを判定するように構成され、外にある場合には、その平行移動により定められた位置にて音場が正確には再現され得ないという指示を生成する。

指向性信号ラベリングマネージャ１７０は、特定方向に伝搬する指向性信号がサウンドを直接生成するか別の指向性信号からのサウンドの反射から生じたサウンドを生成するか、を示す指向性信号ラベリングデータ１７２を生成するように構成される。指向性信号ラベリングマネージャ１７０は、指向性信号ラベリング演算を行い、指向性信号ラベリングデータ１７２を生成するように構成される。いくつかの実装では、指向性信号ラベリング演算は、方向の対からの音場間の相互相関を行うことを伴う。そうした場合には、既知の直接の指向性信号から生じる音場と別の指向性信号との間の相互相関が何らかの閾値（例えば、０．５）よりも大きく、そのときには、この別の指向性信号からの音場が、既知の直接の指向性信号からのサウンドの反射であると考えられる。

いくつかの実装では、メモリ１２６は、ランダムアクセスメモリ、ディスクドライブメモリ、フラッシュメモリなどといった任意の種類のメモリであり得る。いくつかの実装では、メモリ１２６は、サウンドレンダリングコンピュータ１２０のコンポーネントに関連付けられている２以上のメモリコンポーネント（例えば、２つ以上のＲＡＭコンポーネントまたはディスクドライブメモリ）として実装され得る。いくつかの実装では、メモリ１２６はデータベースメモリであり得る。いくつかの実装では、メモリ１２６は、非ローカルメモリであり得るか、非ローカルメモリを含み得る。例えば、メモリ１２６は、複数のデバイス（図示せず）によって共有されるメモリであり得るか、またはそのメモリを含み得る。いくつかの実装では、メモリ１２６は、ネットワーク内のサーバデバイス（図示せず）に関連付けられることが可能であり、またサウンドレンダリングコンピュータ１２０のコンポーネントの役割を果たすように構成されることが可能である。

サウンドレンダリングコンピュータ１２０のコンポーネント（例えば、モジュール、処理ユニット１２４）は、１または複数の種類のハードウェア、ソフトウェア、ファームウェア、オペレーティングシステム、ランタイムライブラリ、などを含むことが可能な１または複数のプラットフォーム（たとえば、１または複数の類似または異なるプラットフォーム）に基づいて動作するように構成されることが可能である。いくつかの実装では、サウンドレンダリングコンピュータ１２０のコンポーネントは、デバイスのクラスタ（例えば、サーバファーム）内にて動作するように構成されることが可能である。そうした実装では、サウンドレンダリングコンピュータ１２０のコンポーネントの機能および処理を、デバイスのクラスタのいくつかのデバイスに分散させることができる。

サウンドレンダリングコンピュータ１２０のコンポーネントは、属性を処理するように構成された任意の種類のハードウェアおよび／またはソフトウェアであり得るか、そのハードウェアおよび／またはソフトウェアを含み得る。いくつかの実装では、図１におけるサウンドレンダリングコンピュータ１２０のコンポーネントに示されるコンポーネントの１または複数の部分は、ハードウェアベースのモジュール（例えば、デジタル信号プロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、メモリ）、ファームウェアモジュール、および／またはソフトウェアベースのモジュール（例えば、コンピュータコードのモジュール、コンピュータにて実行可能な一組のコンピュータ可読命令）であり得るか、それらを含み得る。例えば、いくつかの実装では、サウンドレンダリングコンピュータ１２０のコンポーネントの１または複数の部分は、１以上プロセッサ（図示せず）による実行用に構成されたソフトウェアモジュールであり得るか、それを含み得る。いくつかの実装では、コンポーネントの機能は、図１に示されたものとは異なるモジュールおよび／または異なるコンポーネントに含まれ得る。

図示されていないが、いくつかの実装では、サウンドレンダリングコンピュータ１２０のコンポーネント（またはその一部）は、例えばデータセンタ（例えば、クラウドコンピューティング環境）、コンピュータシステム、１または複数のサーバ／ホストデバイスなどの内部にて動作するように構成されることが可能である。いくつかの実装では、サウンドレンダリングコンピュータ１２０のコンポーネント（またはその一部）は、ネットワーク内にて動作するように構成されることが可能である。したがって、サウンドレンダリングコンピュータ１２０のコンポーネント（またはその一部）は、１または複数のデバイスか、１または複数のサーバデバイスか、その両方を含むことが可能な様々な種類のネットワーク環境内にて機能するように構成されることが可能である。例えば、ネットワークは、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）などであり得るか、それらを含み得る。ネットワークは、無線ネットワークおよび／または例えば、ゲートウェイデバイス、ブリッジ、スイッチなどを用いて実装される無線ネットワークであり得るか、その無線ネットワークを含み得る。ネットワークは、１または複数のセグメントを含むことが可能であるか、インターネットプロトコル（ＩＰ）および／またはプロプライエタリプロトコルなどの様々なプロトコルに基づく一部を有することが可能であるか、またはその両方である。ネットワークは、インターネットの少なくとも一部を含み得る。

いくつかの実施形態では、サウンドレンダリングコンピュータ１２０の１または複数のコンポーネントは、メモリに記憶された命令を処理するように構成されたプロセッサであり得るか、そのプロセッサを含み得る。例えば、サウンド入手マネージャ１３０（および／またはその一部）、距離入手マネージャ１４０（および／またはその一部）、指向性分解マネージャ１５０（および／またはその一部）、音場ナビゲーションマネージャ１６０（および／またはその一部）、および指向性信号ラベリングマネージャ１７０（および／またはその一部）は、１または複数の機能を実装するための処理に関連する命令を実行するように構成されたプロセッサとメモリとの組合せであり得る。

図２は、改良された技術に係る、例示的な音場環境２００を示す。この環境２００内には、１組の指向性信号源（例えば、指向性信号源２２０（黒丸（ｆｉｌｌｅｄｄｉｓｋｓ）））の中心にマイクロフォン２１０（白丸（ｏｐｅｎｄｉｓｋ））が存在する。各指向性信号源（例えば、ｊ番目の指向性信号源）は、マイクロフォン２１０から距離ｄ_ｊであり、方向

にある。
サウンドレンダリングコンピュータ１２０は、指向性分解演算を用いてサウンドデータ１３２から指向性信号の方向（例えば、指向性信号源２２０から）を決定する。指向性分解演算は、中心にあるマイクロフォン２１０とともにＭ個のサンプルからの音場のＳＨ展開の係数を行として有し、ＳＨ展開のチャンネルを列として有する、行列ｂとして、サウンドデータ１３２を定めることを伴う（行列ｂは、請求項に記載の「第１の行列」の一例である）。例えば、次式である。

ここで、ｂ_ｍ，ｎ ^（ｊ）は、Ｙ_ｎ ^ｍ（θ_ｊ，φ_ｊ）の係数であり、（ｍ，ｎ）ＳＨはｎ∈｛０，．．．，Ｎ｝およびｍ∈｛−ｎ，．．．，ｎ｝である。このように、８ｋＨｚのサンプルの音声の１秒間では、Ｎ＝１のとき、ｂは４行、また、例えば、８０００個のサンプルについて８０００列を有する。

指向性分解演算は、球面上の各点についての球面調和関数Ｙ_ｎ ^ｍ（θ_ｊ，φ_ｊ）の初期値ｂおよび行列Ｙ（請求項に記載の「第２の行列」の一例）を有する残差の行列ｒを伴う帰納の形態をとる。いくつかの実装では、指向性分解演算は、以下の処理を含む。

ここで、ａｒｇｍａｘ（・，ｋ）は第１の引数の値が最大となるｋの範囲にわたる指数であり、｜｜列（ｒＹ^Ｔ，ｋ）｜｜（請求項に記載の「第５の行列」の一例）は行列ｒＹ^Ｔの第ｋ列のノルムであり、Ｙ_ｊ ^ＴはＹの第ｊ列の転置であり、Ｙ_ｊはＹの第ｊ列であり、Ｙ_ｊ ^＊はＹの第ｊ列の複素共役であり、εは指定の許容誤差であり、Ｓはその列がマイクロフォンにおける支配的な方向からの音場である行列であり、Ｓ_ｊはＳの第ｊ列であり、Ｊは支配的な方向に対応する列指数のベクトルであり、Ｅはその列が支配的な方向における球面調和関数である行列である。したがって、ｂ＝ＳＥ＋ｒ。残差ｒは、コンテンツにおいて十分に周囲にあるため、ｒは平行移動から独立していると見なされる。いくつかの実装では、ノルムはフロベニウスノルム（すなわち、行列の成分の平方和）である。

図２では、音場が単純な単極源を含むため、方向

に沿ったソースＸ_ｊにおける音場は、下記のようなグリーン関数により決定され得る。

ここでｋは波数である。
図３は、マイクロフォンから位置ｔに平行移動した位置３１０における一例としての音場ｂ_ｔを示す。そうした平行移動の際、音場ナビゲーションマネージャ１６０は、平行移動した位置からｊ番目の指向性信号源（例えば、指向性信号源２２０）への距離ｄ_ｊｔを生成する。次いで、音場ナビゲーションマネージャ１６０は、下記の式に従って、ｊ番目の指向性信号（例えば、指向性信号源２２０（Ｓ_ｔ）_ｊ）から平行移動した位置３１０における音場を計算する。

残差は平行移動から独立していると見なされるため、平行移動地点における音場について下記の関係を書くこともできる。
ｂ_ｔ＝Ｓ_ｔＥ_ｔ＋ｒ
ここでＥ_ｔは平行移動した球面調和関数のエンコード行列である。

いくつかの実装では、音場ナビゲーションマネージャ１６０は、平行移動地点３１０が指向性信号源（例えば、指向性信号源２２０）により定義される凸包２３０の内にあるか外にあるかを判定する。いくつかの実装では、平行移動地点３１０が凸包２３０の外にあるか否かを音場ナビゲーションマネージャ１６０が判定すると、音場ナビゲーションマネージャ１６０は、その平行移動地点における音場が不正確にレンダリングされるという指示を返してよい。それにも関わらず、いくつかの実装では、凸包２３０の外の平行移動地点における音場は、十分な数の指向性信号源により正確にレンダリングされてよい。

図４は、壁４４０を有する部屋におけるソースの位置４１０に対するマイクロフォンの位置４２０における一例としての音場を示す図である。そうしたシナリオでは、上述の単極源のアプローチは不十分である。むしろ、ある条件下では、地点４２０におけるソース４１０からの音場は、距離λ_０の直接経路４５０（すなわち、反射を伴わない）と距離λ_１＋λ_２の反射経路４６０とによる寄与の合計であると見なされる。いくつかの実装では、壁４４０は、必須ではないが、完全反射であると見なされる。壁が完全反射体であるとき、反射経路は、見かけのソース４３０から同一の距離を通じて直接達するものと考えられる。複数の反射では、複数の見かけのソースが存在し得る。

図４はさらに、リスナーが位置４２２に平行移動した一例としてのシナリオを、対応する見かけのソース４３２とともに示す。この場合における直接経路は、長さη_０ｔを有し、反射（見かけの）経路は長さη_１ｔを有する。音場ナビゲーションマネージャ１６０は、平行移動ｔに与えられたこれらの経路の長さを計算する。

音場ナビゲーションマネージャ１６０は、次いで、平行移動したリスナーについての反射した音場Ｓ_ｊ ^ｒｅｆｌを、下記の関係に従って生成してよい。

ここでη_ｊ＝ｄ_ｊ＋μ_ｊであり、ここでμ_ｊはＳ_ｊの全ての見かけの経路の和であり、またη_ｊｔは見かけのソースから平行移動した距離である。
反射が仮定される条件下では、その条件は下記のように記述される。行列Ｓは、上に詳述した指向性分解演算により決定される方向にて各ソースからの音場寄与を列として有する。第１の列が、反射がないソース（すなわち、直接のソース）に対応する場合には、その列の第２の列との相互相関が指定の閾値（例えば、０．５）よりも大きいときに、第２の列は反射した音場を表す。いくつかの実装では、相互相関ρは、

の形式をとる。ここで、Ｓ_ｉ ^（ｐ）は、第ｉ行第ｐ列におけるＳの成分であり、ｑ＞ｐである。
より一般には、指向性信号ラベリングマネージャ１７０は、指向性信号間の類似性の程度を示す類似尺度を成分として含む類似行列を構築するように構成される。上述の相互相関は、そうした類似尺度のほんの一例である。そうした類似尺度は、指向性信号が直接の信号か反射した信号かを識別するためのスペクトラルクラスタリングまたは親和性伝搬手順に従ってクラスタリングされてよい。

μ_ｊの量を見積もるため、音場ナビゲーションマネージャ１６０は上記の相互相関ρを計算する（ここで、例えば、ｑ＝ｊ）。ρが指定の閾値（例えば、０．５）未満であると、音場ナビゲーションマネージャ１６０はμ_ｊ＝０に設定する。ρが指定の閾値よりも大きいと、音場ナビゲーションマネージャ１６０はｊ番目の音場をより早いもの（例えば、ｐ番目の音場）と比較し、最小２乗解によりＳ_ｊに最もよくフィットする複素数値のスカラーを計算する。例えば、α＝Ｓ・（Ｓ^ｒｅｆｌ）^−１と定義する（ここで、逆元は疑似逆行列である）。音場ナビゲーションマネージャ１６０は、反射した音場についての上記の関係が当てはまると見なして、量αから距離μ_ｊを決定してよい。

図５は、サウンドのバイノーラルレンダリングを行う一例としての方法５００を示すフローチャートである。方法５００は、サウンドレンダリングコンピュータ１２０のメモリ１２６に存在し１組の処理ユニット１２４により実行される、図１に関連して記載されたソフトウェア構成により実行されてよい。

５０２にて、リスナー用の音場をレンダリングするように構成されているサウンドレンダリングコンピュータの制御回路は、空間内の第１位置に生成される音場から得られるサウンドデータを受信する。

５０４にて、制御回路は、そのサウンドデータに基づいて指向性信号の複数の方向を識別し、その複数の方向は、それによって音場のエネルギーのうちの少なくとも指定された大きさの部分が第１位置に生成される方向である。

５０６にて、制御回路は、指向性信号源の空間内の第１位置からの複数の距離を取得する。
５０８にて、制御回路は、複数の方向と複数の距離とに基づいて、第１位置とは異なる第２位置に音場を生成する。

図６は、本明細書に記載される技術とともに用いられ得る一般的なコンピュータデバイスＰ００および一般的なモバイルコンピュータデバイスＰ５０の一例を示す。コンピューティングデバイスＰ００は、ラップトップ、デスクトップ、タブレット、ワークステーション、個人用情報端末、テレビ、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピューティングデバイスなどの様々な形態のデジタル・コンピュータを表すように意図されている。コンピューティングデバイスＰ５０は、個人用情報端末、携帯電話、スマートフォン、および他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すように意図されている。本明細書に示されるコンポーネントと、コンポーネント同士の接続および関係と、コンポーネントの機能とは、例示として意図されるに過ぎず、本明細書に記載された、および／または特許請求の範囲に記載された発明の実装を限定するようには意図されていない。

コンピューティングデバイスＰ００は、プロセッサＰ０２、メモリＰ０４、記憶デバイスＰ０６、メモリＰ０４と高速拡張ポートＰ１０とに接続している高速インタフェースＰ０８、および低速バスＰ１４と記憶デバイスＰ０６とに接続している低速インタフェースＰ１２を備える。プロセッサＰ０２は、半導体ベースのプロセッサであることが可能である。メモリＰ０４は、半導体ベースのメモリであることが可能である。コンポーネントＰ０２，Ｐ０４，Ｐ０６，Ｐ０８，Ｐ１０，Ｐ１２の各々は、様々なバスを用いて相互接続されており、共通のマザーボードに、または必要に応じて他の態様により取り付けられていてよい。プロセッサＰ０２は、高速インタフェースＰ０８に結合されているディスプレイＰ１６などの外部の入出力デバイス上にＧＵＩ用のグラフィカル情報を表示するためのメモリＰ０４または記憶デバイスＰ０６に記憶されている命令を含む、コンピューティングデバイスＰ００内における実行用の命令を処理可能である。他の態様では、複数のプロセッサおよび／または複数のバスは、必要に応じて、複数のメモリおよび複数の種類のメモリとともに使用されてよい。さらに、複数のコンピューティングデバイスＰ００が接続されて、各々のデバイスが必要な動作のうちの部分（例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステム）を提供してもよい。

メモリＰ０４は、コンピューティングデバイスＰ００内に情報を記憶する。１つの実装では、メモリＰ０４は、１または複数の揮発性メモリユニットである。別の実装では、メモリＰ０４は、１または複数の不揮発性メモリユニットである。さらに、メモリＰ０４は、磁気ディスクまたは光学ディスクなどの別の形態のコンピュータ可読媒体であってよい。

記憶デバイスＰ０６は、コンピューティングデバイスＰ００用の大容量の記憶を提供できる。１つの実装では、記憶デバイスＰ０６は、フロッピー（登録商標）ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、テープデバイス、フラッシュメモリもしくは他の同様のソリッド・ステート・メモリ・デバイス、またはデバイスからなるアレイ（ストレージエリアネットワークまたは他の構成のデバイスを含む）などのコンピュータ可読媒体であってよく、または、そのコンピュータ可読媒体を含んでよい。コンピュータプログラム製品は、情報キャリアに有形に具現化されることが可能である。さらに、コンピュータプログラム製品は、実行時に、上述した方法などの１または複数の方法を実行する命令を含んでよい。情報キャリアは、メモリＰ０４、記憶デバイスＰ０６、またはプロセッサＰ０２上のメモリなどのコンピュータ可読媒体または機械可読媒体である。

高速制御部Ｐ０８は、コンピューティングデバイスＰ００用の帯域集約の動作を管理する一方、低速制御部Ｐ１２は、より低い帯域集約の動作を管理する。機能のそうした割り当ては、例示にすぎない。１つの実装では、高速制御部Ｐ０８は、メモリＰ０４と、ディスプレイＰ１６（例えば、グラフィクスのプロセッサまたはアクセラレータを通じて）と、様々な拡張カード（図示せず）を受容し得る高速拡張ポートＰ１０とに結合されている。その実装では、低速制御部Ｐ１２は、記憶デバイスＰ０６と低速拡張ポートＰ１４とに結合されている。様々な通信ポート（例えば、ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、イーサネット（登録商標）、無線イーサネット）を含み得る低速拡張ポートは、キーボード、ポインティングデバイス、スキャナなどの１または複数の入出力デバイス、またはスイッチもしくはルータなどのネットワーキングデバイス（例えば、ネットワークアダプタを通じて）に結合されてよい。

コンピューティングデバイスＰ００は、図に示されるように、複数の異なる形態において実装されてよい。例えば、コンピューティングデバイスＰ００は、スタンダードサーバＰ２０として、またはそうしたサーバのグループにおいて複数回にわたって実装されてよい。さらにコンピューティングデバイスＰ００は、ラックサーバシステムＰ２４の一部として実装されてもよい。これに加えて、コンピューティングデバイスＰ００は、ラップトップコンピュータＰ２２などのパーソナルコンピュータにおいて実装されてよい。これに代えて、コンピューティングデバイスＰ００からのコンポーネントは、デバイスＰ５０などのモバイルデバイス（図示せず）における他のコンポーネントと組み合わされてよい。そうしたデバイスの各々は、コンピューティングデバイスＰ００，Ｐ５０のうちの１または複数を含んでよく、システム全体が、互いに通信する複数のコンピューティングデバイスＰ００，Ｐ５０から構成されてよい。

コンピューティングデバイスＰ５０は、プロセッサＰ５２と、メモリＰ６４と、ディスプレイＰ５４などの入出力デバイスと、通信インタフェースＰ６６と、送受信機Ｐ６８とをコンポーネントとして特に備える。デバイスＰ５０には、追加の記憶部を提供するように、マイクロドライブまたは他のデバイスなどの記憶デバイスがさらに提供されてもよい。コンポーネントＰ５０，Ｐ５２，Ｐ６４，Ｐ５４，Ｐ６６およびＰ６８の各々は、様々なバスを用いて相互接続されており、コンポーネントのうちのいくつかは、共通のマザーボードに取り付けられているか、必要に応じて他の態様により取り付けられてよい。

プロセッサＰ５２は、コンピューティングデバイスＰ５０内にて、メモリＰ６４に記憶されている命令を含む命令を実行可能である。プロセッサは、別個の複数のアナログプロセッサおよびデジタルプロセッサを含むチップからなるチップセットとして実装されてよい。プロセッサは、例えば、ユーザインタフェースの制御などのデバイスＰ５０の他のコンポーネントの協働と、デバイスＰ５０により動作するアプリケーションと、デバイスＰ５０による無線通信とを可能にする。

プロセッサＰ５２は、ディスプレイＰ５４に結合されている制御インタフェースＰ５８およびディスプレイインタフェースＰ５６を通じてユーザと通信してよい。ディスプレイＰ５４は、例えば、ＴＦＴＬＣＤ（薄膜トランジスタ液晶ディスプレイ）もしくはＯＬＥＤ（有機発光ダイオード）ディスプレイ、または他の適切なディスプレイ技術であってよい。ディスプレイインタフェースＰ５６は、グラフィカル情報および他の情報をユーザに提示するためにディスプレイＰ５４を駆動するための適切な回路を備えてよい。制御インタフェースＰ５８は、ユーザからコマンドを受信し、プロセッサＰ５２に渡すためにそのコマンドを変換してよい。これに加えて、外部インタフェースＰ６２は、他のデバイスとのデバイスＰ５０の近領域通信を可能にするように、プロセッサＰ５２との通信に提供されてよい。外部インタフェースＰ６２は、例えば、いくつかの実装における有線通信または他の実装における無線通信を可能にしてよく、さらに、複数のインタフェースが用いられてもよい。

メモリＰ６４は、コンピューティングデバイスＰ５０内に情報を記憶する。メモリＰ６４は、１または複数のコンピュータ可読媒体と、１または複数の揮発性メモリユニットと、１または複数の不揮発性メモリユニットと、のうちの１または複数として実装されることが可能である。さらに、拡張メモリＰ７４が提供されるとともに、例えば、ＳＩＭＭ（シングルインラインメモリモジュール）カードインタフェースを含み得る拡張インタフェースＰ７２を通じてデバイスＰ５０に接続されてもよい。そうした拡張メモリＰ７４によって、デバイスＰ５０用の追加の記憶スペースが提供されてよく、またはデバイスＰ５０用のアプリケーションまたは他の情報が記憶されてもよい。具体的には、拡張メモリＰ７４は、上述した処理を実行または補完するための命令を含んでよく、またセキュア情報も含んでよい。したがって、例えば、拡張メモリＰ７４は、デバイスＰ５０用のセキュリティモジュールとして提供されてよく、デバイスＰ５０のセキュアな使用を可能にする命令に関しプログラミングされていてよい。これに加えて、セキュアアプリケーションは、ハッキング不可能な態様により識別情報をＳＩＭＭカード上に配置することなど、追加の情報とともにＳＩＭＭカードを介して提供されてよい。

メモリは、例えば、下記のように、フラッシュメモリおよび／またはＮＶＲＡＭメモリを含んでよい。１つの実装では、コンピュータプログラム製品は、情報キャリアに有形に具現化される。コンピュータプログラム製品は、実行時に、上述した方法などの１または複数の方法を実行する命令を含む。情報キャリアは、例えば、送受信機Ｐ６８または外部インタフェースＰ６２によって受信され得る、メモリＰ６４、拡張メモリＰ７４、またはプロセッサＰ５２上のメモリなどのコンピュータ可読媒体または機械可読媒体である。

デバイスＰ５０は、必要な場合には、デジタル信号処理回路を含み得る通信インタフェースＰ６６を通じて無線により通信してよい。通信インタフェースＰ６６は、特に、ＧＳＭ（登録商標）ボイスコール、ＳＭＳ、ＥＭＳ、またはＭＭＳのメッセージング、ＣＤＭＡ、ＴＤＭＡ、ＰＤＣ、ＷＣＤＭＡ（登録商標）、ＣＤＭＡ２０００、またはＧＰＲＳなど、様々なモードまたはプロトコルの下、通信を可能にし得る。そうした通信は、例えば、無線周波数の送受信機Ｐ６８を通じて行われてよい。これに加えて、狭域通信は、Ｂｌｕｅｔｏｏｔｈ、ＷｉＦｉ（登録商標）、または他のそうした送受信機（図示せず）を用いることなどして行われてよい。これに加えて、ＧＰＳ（全地球測位システム）受信機モジュールＰ７０は、航行および場所に関係する追加の無線データをデバイスＰ５０に提供してよく、その無線データは、必要に応じて、デバイスＰ５０上にて動作するアプリケーションにより用いられ得る。

さらに、デバイスＰ５０は、ユーザから音声情報を受信し、これを使用に適したデジタル情報に変換できる音声コーデックＰ６０を用いて可聴の通信を行ってよい。音声コーデックＰ６０は、例えば、デバイスＰ５０のハンドセットにおいて、スピーカを通じるなどによりユーザ用の可聴音を同様に生成してよい。そうした音は、音声通話からの音を含んでよく、記録された音（例えば、ボイスメッセージ、音楽ファイルなど）を含んでよく、また、デバイスＰ５０上にて動作するアプリケーションにより生成される音を含んでよい。

コンピューティングデバイスＰ５０は、図に示されるように、複数の異なる形態により実装されてよい。例えば、コンピューティングデバイスＰ５０は、携帯電話Ｐ８０として実装されてよい。さらに、コンピューティングデバイスＰ５０は、スマートフォンＰ８２、個人用情報端末、または他の同様のモバイルデバイスの一部として実装されてよい。

本明細書に記載されたシステムおよび技術の様々な実装は、デジタル電子回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせにより実現することができる。これらの様々な実装は、記憶システム、１以上の入力デバイス、および１以上の出力デバイスからデータおよび命令を受信し、また記憶システム、１以上の入力デバイス、および１以上の出力デバイスにデータおよび命令を送信するように結合された１以上のプログラム可能なプロセッサを含むプログラマブルシステム上で実行可能および／または解釈可能な１または複数のコンピュータプログラムにおける実装を含むことが可能である。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られている）は、プログラム可能なプロセッサ用のマシン命令を含み、高度な手続き型および／またはオブジェクト指向プログラミング言語および／またはアセンブリ言語／機械語により実装されることが可能である。本明細書にて用いられる「機械可読媒体」、「コンピュータ可読媒体」という用語は、機械可読信号として機械命令を受信する機械可読媒体を含むプログラマブルプロセッサに機械命令および／またはデータを提供するように用いられる任意のコンピュータプログラム製品、装置および／またはデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するように用いられる任意の信号を指す。

ユーザとの対話を提供するために、本明細書に記載されたシステムおよび技術は、情報をユーザに表示するためのディスプレイデバイス（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザがそれによって入力をコンピュータに提供することが可能なキーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）と、を有するコンピュータ上に実装されてもよい。他の種類のデバイスもまた、ユーザとの対話を提供するように用いられてよく、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触知フィードバック）であることが可能であり、ユーザからの入力は、音響入力、音声入力、または触知入力を含む任意の形態により受信されることが可能である。

本明細書に記載されたシステムおよび技術は、バックエンドコンポーネント（例えば、データサーバとして）を含むコンピューティングシステム、ミドルウェアコンポーネント（例えば、アプリケーションサーバ）を含むコンピューティングシステム、フロントエンドコンポーネント（例えば、ユーザが本明細書に記載されたシステムおよび技術の実装と対話可能なグラフィカルユーザインタフェースまたはウェブブラウザを有するクライアントコンピュータ）を含むコンピューティングシステム、またはそうしたバックエンドコンポーネント、ミドルウェアコンポーネント、もしくはフロントエンドコンポーネントの任意の組み合わせにより実装されることが可能である。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体（例えば、通信ネットワーク）によって相互接続されることが可能である。通信ネットワークの例としては、ローカルエリアネットワーク（「ＬＡＮ」）、ワイドエリアネットワーク（「ＷＡＮ」）、およびインターネットが含まれる。

コンピューティングシステムは、クライアントおよびサーバを含むことが可能である。クライアントおよびサーバは、一般に、互いに遠く離れており、典型的には、通信ネットワークを介してインタラクトする。クライアントとサーバとの関係は、個々のコンピュータ上で動作し、かつ互いにクライアント−サーバ関係を有するコンピュータプログラムにより生じる。

本明細書および添付の特許請求の範囲において、単数形「１つの（ａ，ａｎ）」および「その（ｔｈｅ）」は、文脈において明示する場合を除き、複数の参照を排除するものではない。さらに、「および（ａｎｄ）」、「または（ｏｒ）」および「および／または（ａｎｄ／ｏｒ）」などの接続詞は、文脈において明示する場合を除き、包括的なものである。例えば、Ａおよび／またはＢは、Ａのみ、Ｂのみ、およびＡとＢと、を含む。さらに、提示される様々な図面に示される接続線およびコネクタは、例示的な機能の関係および／または様々な要素間の物理的結合か論理的結合を表すことを意図する。多くの代替または追加の機能の関係、物理的接続または論理的接続が、実際のデバイスに存在してよい。さらに、要素が“必須（ｅｓｓｅｎｔｉａｌ）”または“重要（ｃｒｉｔｉｃａｌ）”と特に記載されていない限り、本明細書に開示される実施形態の実施にとってアイテムまたはコンポーネントは必須ではない。

約、実質的に、一般になどの用語は、その正確な値または範囲が要求されていないこと、また特定される必要がないことを意図するように、本明細書において用いられる。本明細書で用いられるように、上記の用語は、当業者にとって迅速かつ即座の意味を有する。

さらに、本明細書において上方、下方、頂部、底部、側方、端部、前方、後方などといった用語の使用は、現在考えられているか示されている配向を参照して用いられる。別の配向に関して考えられている場合には、そうした用語は対応して修正される必要があると理解される。

さらに、本明細書および添付の特許請求の範囲において、単数形「１つの（ａ，ａｎ）」および「その（ｔｈｅ）」は、文脈において明示する場合を除き、複数の参照を排除するものではない。さらに、「および（ａｎｄ）」、「または（ｏｒ）」および「および／または（ａｎｄ／ｏｒ）」などの接続詞は、文脈において明示する場合を除き、包括的なものである。例えば、Ａおよび／またはＢは、Ａのみ、Ｂのみ、およびＡとＢと、を含む。

特定の例としての製造の方法、装置および物が本明細書に記載されているが、この特許の適用範囲はそれらに限定されない。本明細書に用いられる専門用語は、特定の側面を説明するためであり、限定することを意図するものではない。それどころか、この特許は、この特許の特許請求の範囲内にいくらか該当する製造の全ての方法、装置および物にわたる。

Claims

方法であって、
リスナー用の音場をレンダリングするように構成されているサウンドレンダリングコンピュータの制御回路が、空間内の第１位置に複数の指向性信号源によって生成される音場から得られるサウンドデータを受信する工程であって、各指向性信号源は前記音場に寄与する指向性信号を生成する、工程と、
前記制御回路が、前記サウンドデータに基づいて前記複数の指向性信号源の複数の方向を識別する方向識別工程であって、前記複数の方向は、前記音場のエネルギーのうち少なくとも指定された大きさの部分が前記第１位置に生成される方向である、工程と、
前記制御回路が、前記複数の指向性信号源の空間内の前記第１位置からの複数の距離を取得する工程と、
前記制御回路が、前記複数の方向と前記複数の距離とに基づいて、前記第１位置とは異なる第２位置に前記音場を生成する音場生成工程と、を備える方法。
前記サウンドデータは第１の行列を含み、前記第１の行列の各成分は、前記第１位置を中心とする単位球面上の複数の地点における前記音場の球面調和関数展開の係数であり、
前記方向識別工程は、
前記第１位置を中心とする前記単位球面上の前記複数の地点において評価される球面調和関数の項を成分として有する、第２の行列を生成する工程と、
第３の行列を生成するべく前記第１の行列と前記第２の行列とを乗算する工程であって、前記第３の行列の各列は、前記単位球面上の前記複数の地点のうちの一地点に対応し、前記単位球面上の前記複数の地点のうちの前記一地点における前記音場を表す、工程と、
前記単位球面上の前記複数の地点のうち、前記第３の行列の列のうち最大値のベクトルノルムを有する列に対応する一地点を、前記複数の方向のうちの１つの方向として識別する工程と、を含む、請求項１に記載の方法。
前記ベクトルノルムは、フロベニウスノルムである、請求項２に記載の方法。
前記方向識別工程は、
前記第３の行列の前記列と前記第２の行列の転置とを乗算して第４の行列を生成する工程と、
前記第１の行列から前記第４の行列を減算して残差の行列を生成する工程と、
前記単位球面上の前記複数の地点のうち、前記残差の行列と前記第２の行列とを乗算することにより形成される第５の行列の列のうち最大値のベクトルノルムを有する列に対応する一地点を、前記複数の方向のうちの第２の方向として識別する工程と、をさらに含む、請求項２または３に記載の方法。
前記音場は壁を有する部屋において受信され、
前記方法は、
前記複数の指向性信号源の前記複数の方向の各々について、該方向を有する前記指向性信号源により生成される指向性信号が、前記部屋の１つの壁からの別の指向性信号のサウンドの反射の結果であるか否かの指示を生成するべく、指向性信号ラベリング演算を行う、ラベリング演算工程をさらに備える、請求項２〜４のいずれか一項に記載の方法。
前記ラベリング演算工程は、
前記複数の方向のうちの第１の方向の第１の音場と前記複数の方向のうちの第２の方向の第２の音場とに対する相互相関演算を行い、相互相関結果を生成する工程であって、前記第１の音場は、前記第１の音場が前記第１の方向の指向性信号源により前記複数の距離のうちの１つの距離に生成される指向性信号の結果である、直接の音場である、工程と、
前記相互相関結果が閾値よりも小さいことに応じて、前記第２の音場が直接の音場であることを示す第１のインジケータを生成する工程と、
前記相互相関結果が前記閾値よりも大きいことに応じて、前記第２の音場が前記部屋の１つの壁からの別の指向性信号の反射の結果であることを示す、第２のインジケータを生成する工程と、を含む請求項５に記載の方法。
前記音場生成工程は、前記複数の方向の各々について、該方向の音場に振幅因子と位相因子とを乗算する工程であって、前記位相因子の位相は、空間内の前記第２位置から該方向の前記指向性信号源までの距離と空間内の前記第１位置から該方向の前記指向性信号源までの距離との差に基づく、工程を含む、請求項２〜４のいずれか一項に記載の方法。
１組の前記方向の各々の前記音場に振幅因子を乗算することは、
該方向を有する前記指向性信号源が直接のソースであることに応じて、前記振幅因子を、空間内の前記第１位置から該方向を有する前記指向性信号源までの距離に対する、空間内の前記第２位置から該方向を有する前記指向性信号源までの距離の比率となるように設定することと、
該方向を有する前記指向性信号が反射の結果であることに応じて、前記振幅因子を、空間内の前記第１位置から該方向にある見かけのソースまでの距離の合計に対する、空間内の前記第２位置から該方向にある前記見かけのソースまでの距離の合計の比率となるように設定することと、を含む、請求項７に記載の方法。
複数の仮想的な指向性信号源の空間内の前記第１位置からの複数の距離を取得することは、球体カメラから前記複数の距離を受信することを含む、請求項１〜８のいずれか一項に記載の方法。
複数の仮想的な指向性信号源の複数の方向と複数の距離とから凸包を生成する工程をさらに備え、
前記音場生成工程は、
前記第２地点が前記凸包の外にあるか否かを判定する工程と、
前記第２地点が前記凸包の外にあることに応じて、前記音場は前記第２地点にて正確に再現されない場合があるという指示を返す工程と、を含む、請求項１〜９のいずれか一項に記載の方法。
非一時的な記憶媒体を備えるコンピュータプログラム製品であって、リスナー用の音場をレンダリングするように構成されているサウンドレンダリングコンピュータの処理回路による実行時に、前記処理回路に、
空間内の第１位置に複数の指向性信号源によって生成される音場から得られるサウンドデータを受信する工程であって、各指向性信号源は前記音場に寄与する指向性信号を生成する、工程と、
前記サウンドデータに基づいて前記複数の指向性信号源の複数の方向を識別する方向識別工程であって、前記複数の方向は、前記音場のエネルギーのうち少なくとも指定された大きさの部分が前記第１位置に生成される方向である、工程と、
前記複数の指向性信号源の空間内の前記第１位置からの複数の距離を取得する工程と、
前記複数の方向と前記複数の距離とに基づいて、前記第１位置とは異なる第２位置に前記音場を生成する音場生成工程と、を備える方法を行わせるコードを含む、コンピュータプログラム製品。
前記サウンドデータは第１の行列を含み、前記第１の行列の各成分は、前記第１位置を中心とする単位球面上の複数の地点における前記音場の球面調和関数展開の係数であり、
前記方向識別工程は、
前記第１位置を中心とする前記単位球面上の前記複数の地点において評価される球面調和関数の項を成分として有する、第２の行列を生成する工程と、
第３の行列を生成するべく前記第１の行列と前記第２の行列とを乗算する工程であって、前記第３の行列の各列は、前記単位球面上の前記複数の地点のうちの一地点に対応し、前記単位球面上の前記複数の地点のうちの前記一地点における前記音場を表す、工程と、
前記単位球面上の前記複数の地点のうち、前記第３の行列の列のうち最大値のベクトルノルムを有する列に対応する一地点を、前記複数の方向のうちの１つの方向として識別する工程と、を含む、請求項１１に記載のコンピュータプログラム製品。
前記方向識別工程は、
前記第３の行列の前記列と前記第２の行列の転置とを乗算して第４の行列を生成する工程と、
前記第１の行列から前記第４の行列を減算して残差の行列を生成する工程と、
前記単位球面上の前記複数の地点のうち、前記残差の行列と前記第２の行列とを乗算することにより形成される第５の行列の列のうち最大値のベクトルノルムを有する列に対応する一地点を、前記複数の方向のうちの第２の方向として識別する工程と、をさらに含む、請求項１２に記載のコンピュータプログラム製品。
前記音場は壁を有する部屋において受信され、
前記方法は、
前記複数の指向性信号源の前記複数の方向の各々について、該方向を有する前記指向性信号源により生成される指向性信号が、前記部屋の１つの壁からの別の指向性信号のサウンドの反射の結果であるか否かの指示を生成するべく、指向性信号ラベリング演算を行う、ラベリング演算工程をさらに備える、請求項１２または１３に記載のコンピュータプログラム製品。
前記ラベリング演算工程は、
前記複数の方向のうちの第１の方向の第１の音場と前記複数の方向のうちの第２の方向の第２の音場とに対する相互相関演算を行い、相互相関結果を生成する工程であって、前記第１の音場は、前記第１の音場が前記第１の方向の指向性信号源により前記複数の距離のうちの１つの距離に生成される指向性信号の結果である、直接の音場である、工程と、
前記相互相関結果が閾値よりも小さいことに応じて、前記第２の音場が直接の音場であることを示す第１のインジケータを生成する工程と、
前記相互相関結果が前記閾値よりも大きいことに応じて、前記第２の音場が前記部屋の１つの壁からの別の指向性信号の反射の結果であることを示す、第２のインジケータを生成する工程と、を含む請求項１４に記載のコンピュータプログラム製品。
前記音場生成工程は、前記複数の方向の各々について、該方向の音場に振幅因子と位相因子とを乗算する工程であって、前記位相因子の位相は、空間内の前記第２位置から該方向の前記指向性信号源までの距離と空間内の前記第１位置から該方向の仮想的な前記指向性信号源までの距離との差に基づく、工程を含む、請求項１２〜１５のいずれか一項に記載のコンピュータプログラム製品。
１組の前記方向の各々の前記音場に振幅因子を乗算することは、
該方向を有する前記指向性信号源が直接のソースであることに応じて、前記振幅因子を、空間内の前記第１位置から該方向を有する前記指向性信号源までの距離に対する、空間内の前記第２位置から該方向を有する前記指向性信号源までの距離の比率となるように設定することと、
該方向を有する前記指向性信号が反射の結果であることに応じて、前記振幅因子を、空間内の前記第１位置から該方向にある見かけのソースまでの距離の合計に対する、空間内の前記第２位置から該方向にある前記見かけのソースまでの距離の合計の比率となるように設定することと、を含む、請求項１６に記載のコンピュータプログラム製品。
複数の仮想的な指向性信号源の空間内の前記第１位置からの複数の距離を取得することは、球体カメラから前記複数の距離を受信することを含む、請求項１１〜１７のいずれか一項に記載のコンピュータプログラム製品。
複数の仮想的な指向性信号源の複数の方向と複数の距離とから凸包を生成する工程をさらに備え、
前記音場生成工程は、
前記第２地点が前記凸包の外にあるか否かを判定する工程と、
前記第２地点が前記凸包の外にあることに応じて、前記音場は前記第２地点にて正確に再現されない場合があるという指示を返す工程と、を含む、請求項１１〜１８のいずれか一項に記載のコンピュータプログラム製品。
リスナー用の音場をレンダリングするように構成されている電子装置であって、
メモリと、
前記メモリに結合されている制御回路と、を備え、該制御回路は、
空間内の第１位置に複数の指向性信号源によって生成される音場から得られるサウンドデータを受信することであって、各指向性信号源は前記音場に寄与する指向性信号を生成することと、
前記サウンドデータに基づいて前記複数の指向性信号源の複数の方向を識別することであって、前記複数の方向は、前記音場のエネルギーのうち少なくとも指定された大きさの部分が前記第１位置に生成される方向であることと、
前記複数の指向性信号源の空間内の前記第１位置からの複数の距離を取得することと、
前記複数の方向と前記複数の距離とに基づいて、前記第１位置とは異なる第２位置に前記音場を生成することと、を行うように構成されている、電子装置。