JP2020522189A - インコヒーレント冪等アンビソニックスレンダリング - Google Patents

インコヒーレント冪等アンビソニックスレンダリング Download PDF

Info

Publication number
JP2020522189A
JP2020522189A JP2019566090A JP2019566090A JP2020522189A JP 2020522189 A JP2020522189 A JP 2020522189A JP 2019566090 A JP2019566090 A JP 2019566090A JP 2019566090 A JP2019566090 A JP 2019566090A JP 2020522189 A JP2020522189 A JP 2020522189A
Authority
JP
Japan
Prior art keywords
loudspeaker
generating
sound
linear operator
loudspeakers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019566090A
Other languages
English (en)
Other versions
JP6985425B2 (ja
Inventor
バスティアン クレイン、ウィレム
バスティアン クレイン、ウィレム
アレン、アンドリュー
スコグランド、ジャン
チエ リム、ジー
チエ リム、ジー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2020522189A publication Critical patent/JP2020522189A/ja
Application granted granted Critical
Publication of JP6985425B2 publication Critical patent/JP6985425B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Multimedia (AREA)

Abstract

リスナーにサウンドをレンダリングする技術は、ソース駆動信号の各々の振幅として、2つの項の合計を生成することを含み、第1の項は、方程式b=A・sに対する解s†に基づき、第2の項は、方程式b=A・sに対する解ではない指定されたベクトル【数1】のAのヌル空間への投影に基づく。これらの方針に沿って、一例では、第1の項は、ムーア・ペンローズの擬似逆行列、例えば、AH(AAH)−1・bと等価である。一般に、方程式b=A・sに対する任意の解は満たしている。Aのヌル空間に投影される指定されたベクトルは、正味の音場のコヒーレンスを低減するように定義される。有利なことに、得られた演算子は線形時不変かつ冪等であるので、音場は、人間の頭部をカバーするために、RSFの内側およびRSFの外側の十分な範囲の両方で忠実に再現され得る。

Description

本説明は、仮想現実(VR)および類似環境における音場のレンダリングに関する。
アンビソニックスは、全球サラウンドサウンド技術であり、水平面に加え、リスナーの上方および下方の音源をカバーする。他のマルチチャンネルサラウンドフォーマットとは異なり、その伝送チャンネルは、スピーカ信号を搬送しない。代わりに、それらは、B−フォーマットと呼ばれる音場のスピーカから独立した表現を含み、この表現が、リスナーのスピーカセットアップに対してデコードされる。この追加の工程は、ラウドスピーカの位置よりはむしろソースの方向に関してプロデューサが考えることを可能とし、再生のために用いられるスピーカのレイアウトおよび数に関して相当程度の柔軟性をリスナーに対して提供する。
アンビソニックスでは、リスナーを取り囲む仮想的なラウドスピーカのアレイが、等方的に記録された音源から、B−フォーマットとして知られるスキームでエンコードされたサウンドファイルをデコードすることによって、音場を生成する。仮想的なラウドスピーカのアレイで生成された音場は、リスナーに対する任意の地点から音源の効果を再現することが可能である。そのようなデコーディングは、一組の頭部伝達関数(HRTF)を介して仮想現実(VR)システムにおけるヘッドフォンスピーカを通じた音声の伝達に用いられ得る。バイノーラルにレンダリングされた高次アンビソニックス(high−order ambisonics:HOA)は、1対の信号を左右のヘッドフォンスピーカに提供するように組み合わさった多くの仮想的なラウドスピーカの生成を指す。
ひとつの概略的態様では、方法は、リスナーに対し指向性音場をレンダリングするように構成されたサウンドレンダリングコンピュータの制御回路により、幾何学的環境における音場から生じるサウンドデータを受信することを含み、サウンドデータは、幾何学的環境に基づく複数の直交角度モード関数における展開として表される。方法は、制御回路により、サウンドデータに対するモード整合演算と、複数の直交角度モード関数における展開として表されるラウドスピーカの複数の振幅の加重和の展開とから生じる線形演算子を生成することも含む。方法は、制御回路により、線形演算子およびサウンドデータに対する逆演算を実行して、第1の複数のラウドスピーカ重みを生成することをさらに含む。方法は、制御回路により、線形演算子のヌル空間上で投影演算を実行して、第2の複数のラウドスピーカ重みを生成することをさらに含む。方法は、制御回路により、第1の複数のラウドスピーカ重みと第2の複数のラウドスピーカ重みとの合計を生成して、第3の複数のラウドスピーカ重みを生成することをさらに含み、第3の複数のラウドスピーカ重みは、リスナーに対し音場の再現を提供する。
この概略的態様によれば、方法は、本明細書でより詳細に説明されるように、リスナーに対しより自然な音場を提供することを可能にする改善された技術を含む。本明細書に記載されている改善された技術によって提供される他の利点は、音場に対する改善された性能および改善されたスペクトル忠実性である。
1つまたは複数の実装形態の詳細は、添付の図面および以下の説明において示されている。他の特徴は、本説明および図面から、並びに特許請求の範囲から明らかとなるだろう。
本明細書に記載される改良された技術を実装するための例示的な電子環境を示す図である。 本明細書に記載される改良された技術による、マイクに対する例示的なラウドスピーカおよび観察者の位置を示す図である。 図1に示される電子環境内において改良された技術を実施する例示的な方法を示すフローチャートである。 本明細書に記載される回路とともに用いられ得るコンピュータデバイスおよびモバイルコンピュータデバイスの一例を示す図である。
HOA音場のいくつかのレンダリングは、各HOAチャンネルからの成分の重み付けされたシーケンスおよび各ソース方向からの振幅を合計して、マイクで正味の音場を生成することを含む。球面調和関数展開で表現される場合、音場の各成分は、球面座標における波動方程式によって決定される時間、角度、およびラジアル係数を有する。角度係数は、球面調和関数であり、ラジアル係数は、球ベッセル関数に比例する。
多くの場合、各ソース方向からの寄与の振幅は不明である。むしろ、知られているのは、マイクにおける正味の音場である。上記のように、このような音場は、一連の球面調和関数モードに展開され得る。さらに、各ソース方向からの寄与も、点ソースとしてモデル化された場合、一連の球面調和関数モードに展開され得る。球面調和関数モードは直交集合であるため、振幅は、球面調和関数モードを一致させることにより決定され得る。
一連の成分の切り捨てにより、特定の半径(十分な忠実性の領域、またはRSF)内で特定の周波数を下回る音場を正確に記述することができる。多くのアプリケーションでは、RSFは、人間の頭ほどのサイズであるべきである。
それにもかかわらず、RSFのサイズは周波数に反比例するため、N次の球面調和関数までの所与の切り捨て長さに対して、低周波数はより大きな到達範囲を有し、従って、信号の音質は、一般にその起点から離れるにつれて変化する。成分の数T=(N+1)を増やすことは、所与の周波数に対して、RSFのサイズが成分の数の平方根にほぼ比例するため、パフォーマンスを改善するには非効率的な方法である。多くの場合、このサイズは、人間の頭のサイズよりも小さい。
アンビソニックスをレンダリングする目的は、RSFにおいて、測定された音場のT個の成分bを生成するQ個のソース駆動信号sのセットを決定することである。ソース駆動信号sの強度または重みは、測定された音場の成分b、すなわち、b=A・sに適用される線形変換Aの反転を介して決定され得、b=A・sからsを決定する。(線形変換Aは、不均一なヘルムホルツ方程式および境界条件から生じる。)Aは、T×Q行列であり、ここで、Q>Tであり、すなわち、成分よりも多くのソースが存在するため、得られた線形システムは劣決定であり、RSFにおける同じ音場を生成する複数セットのソース駆動信号sが存在する。
従って、RSFの外側の音場を最もよく再現するソース駆動信号の振幅を一意に決定するために、線形システムに制約を課すことができる。HOA音場をレンダリングするための従来のアプローチは、駆動信号sのエネルギーを最小化することによって、すなわち、条件b=A・sを課されるLノルム(すなわち、sの成分の二乗和)に従って、ソース分布を決定することを含んでいる。そのような従来のアプローチによれば、結果として生じるソース分布
は、その行列のムーア・ペンローズ(Moore−Penrose:MP)擬似逆行列に重みベクトルを掛けたもの、例えば、A(AA−1・bであり、Aは、Aのエルミート共役である。MP擬似逆行列は、ソース配置のいくつかの選択によってはAに等しい線形時不変演算子の基底を形成する。
しかしながら、このような従来のアプローチでは、RSFの外側のスペクトル障害のために不自然な音場を生成するソリューションとなる。この理由は、Lノルムなどの最小分散目標は、そのような目標が方向に対する音の振幅の変動性を最小化する傾向にあるため、ソースの方向性を記述するデコーダの能力も最小化するからである。さらに、結果として生じる音場は、音場のコヒーレンスを課す。RSFのサイズは時間周波数によって変化するため、このようなコヒーレンスは、マイクから離れて消える。
一次音源とそれらの反射とによって生成される自然の音場では、異なる方向からの音波が、任意の場所でコヒーレントに追加されない傾向にある。従って、自然の音場では、音質は、概して空間上で急速に変化しない。対照的に、目的が音場を再構築することである場合、多数の実際のまたは仮想のラウドスピーカからの音波が、共に振る舞うるように構成される。多くのそのようなラウドスピーカが使用される場合、この共に振る舞うことにより、通常、空間全体で音質が急速に変化する音場を生じる。不自然な音場のような急速な変化のある音場を参照し得る。不自然な音場の例としては、ムーア・ペンローズの擬似逆行列を用いたラウドスピーカの重み計算によって作成される音場がある。この例では、前述のように、音場の振幅は、RSFの外側で急速に減少し、RSFは周波数に依存する半径を有するため、音場の音質は空間で急速に変化する。
ノルム(すなわち、sの成分の絶対値の合計)による最小化、または、最大−r手法(すなわち、エネルギー局在化ベクトルの最大化)など、より多くのソース指向性をもたらす他のフレームワークを検討し得る。それにもかかわらず、Lノルムは、線形時不変演算子にはならないが、最大−r手法は冪等ではない(すなわち、RSFにおける音場が推定される場合、オリジナルのHOA記述は回復可能であるべきである)。L12ノルムの最小化のようなより複雑な手法は、線形時不変であるが、非常にリソースを消費し得るため、仮想現実ゲームのようなリアルタイム設定で使用するにはコストがかかる。
本明細書で説明される実装形態によれば、HOA音場をレンダリングする上記の従来のアプローチとは対照的に、改善された手法は、ソース駆動信号の各々の振幅として、2つの項の合計を生成することを含み、第1の項は、方程式b=A・sに対する解sに基づき、第2の項は、方程式b=A・sに対する解ではない指定されたベクトル
のAのヌル空間への投影に基づく。これらの方針に沿って、一例では、第1の項は、ムーア・ペンローズの擬似逆行列、例えば、A(AA−1・bと等価である。一般に、方程式b=A・sに対する任意の解は満たしている。Aのヌル空間に投影される指定されたベクトルは、正味の音場のコヒーレンスを低減するように定義される。有利なことに、得られた演算子は線形時不変かつ冪等であるので、音場は、人間の頭部をカバーするために、RSFの内側およびRSFの外側の十分な範囲の両方で忠実に再現され得る。さらに、計算は、リアルタイム環境で実行するのに十分なほど単純である。
図1は、上記の改良された技術を実施することができる例示的な電子環境100を示す。示されるように、図1において、例示的な電子環境100は、サウンドレンダリングコンピュータ120を含む。
サウンドレンダリングコンピュータ120は、リスナーに対し音場をレンダリングするように構成されている。サウンドレンダリングコンピュータ120は、ネットワークインタフェース122、1つまたは複数の処理ユニット124、およびメモリ126を含む。ネットワークインタフェース122は、サウンドレンダリングコンピュータ120による使用のために、ネットワーク170から受信された電子および/または光信号を電子形式に変換するための、例えば、イーサネット(登録商標)アダプタ、トークンリングアダプタなどを含む。一組の処理ユニット124は、1つまたは複数の処理チップおよび/またはアセンブリを含む。メモリ126は、揮発性メモリ(例えば、RAM)および1つまたは複数のROMなどの不揮発性メモリの両方、ディスクドライブ、ソリッドステートドライブなどを含む。一組の処理ユニット124とメモリ126とは共に制御回路を形成し、制御回路は、本明細書に記載されるように様々な方法および機能を実行するように構成および配置されている。
いくつかの実施形態では、サウンドレンダリングコンピュータ120のコンポーネントの1つまたは複数は、メモリ126に記憶された命令を処理するように構成されたプロセッサ(例えば、処理ユニット124)であるか、またはそれを含み得る。図1に示すような命令の例は、サウンド取得マネージャ130、ラウドスピーカ取得マネージャ140、擬似逆行列マネージャ150、ストラテジー生成マネージャ160、ヌル空間投影マネージャ170、および指向性フィールド生成マネージャ180を含む。さらに、図1に示されるように、メモリ126は、そうしたデータを使用するそれぞれのマネージャに関して記載される様々なデータを記憶するように構成されている。
サウンド取得マネージャ130は、録音またはソフトウェア生成音声を介してサウンドデータ132を取得するように構成されている。例えば、サウンド取得マネージャ130は、光学ドライブから、またはネットワークインタフェース122を介して、サウンドデータ132を取得することができる。サウンドデータ132を入手すると、サウンド取得マネージャは、そのサウンドデータ132をメモリ126に保存するようにも構成されている。いくつかの実装形態では、サウンド取得マネージャ130は、ネットワークインタフェース122を介してサウンドデータ132をストリーミングする。
通常、サウンドデータを複数の直交角度モード関数における展開として表すと便利である。直交角度モード関数へのこのような展開は、マイクが配置されている幾何学的環境に依存する。例えば、球形のマイクを使用して球にわたって音をキャプチャするいくつかの実装形態では、直交角度モード関数は、球面調和関数である。一部の実装形態では、幾何学的環境は円筒形であり、直交角度モード関数は三角関数である。以下の説明では、直交角度モード関数は、球面調和関数であることが想定される。
いくつかの実装形態では、サウンドデータ132は、4つの成分またはアンビソニックスチャンネルを有するB−フォーマットまたは1次アンビソニックスでエンコードされる。いくつかの実装形態では、サウンドデータ132は、より高次のアンビソニックス、例えば、N次まで、でエンコードされる。この場合、T=(N+1)のアンビソニックスチャンネルが存在し、各チャンネルは、一組のラウドスピーカから生じる音場の球面調和関数(SH)展開の項に対応する。いくつかの実装形態では、サウンドデータ132は、圧力場pの球面調和関数への切り捨てられた展開として次のように表される。
ここで、ωは時間(角度)周波数、k=ω/cは波数、cは音波の速度、jは第1種球ベッセル関数、Y は球面調和関数、
は単位球上の点(θ,φ)、およびb は圧力(すなわち音)場の球面調和関数展開の(周波数依存)係数である。従って、サウンド取得マネージャ130によって取得されたサウンドデータ132は、係数b のベクトルbの形をとることができ、係数ベクトルbはT=(N+1)個の成分を有する。いくつかの実装形態では、係数ベクトルbの成分には、上記の球面調和関数展開の球ベッセル関数部分が組み込まれている。
なお、球面形状は必要ない。例えば、円筒形状では、球ベッセル関数jを円筒ベッセル関数Jに置き換えることができる。球面調和関数Y を三角関数に置き換えることもできる。
ソース取得マネージャ140は、振幅sを有するQ個のラウドスピーカの各々の方向
を取得するように構成されている。ラウドスピーカの各々は、二次ソースと見なされる。従って、方向
の各々は、与えられているか、または何らかのアルゴリズムによって推定されていると仮定される。
いくつかの実装形態では、各ラウドスピーカ(すなわち、ラウドスピーカ振幅ベクトルsの各成分に対応する)は、3次元の点ソースとしてモデル化され得る。そのため、位置
にあるそのようなソースは、グリーンの関数
に比例する、観測点x’における振幅プロファイルを有する。
いくつかの実装形態では、サウンドデータ132が録音の結果である場合、振幅sを有するラウドスピーカは、サウンドデータ132を録音するために使用されるマイクから同じ距離にあると見なされる。方向
は、ラウドスピーカデータ142として格納される。いくつかの実装形態では、サウンドデータ132が機械によって生成される場合、振幅sを有するラウドスピーカは、サウンドデータ132を記録するために使用されるマイクから同じ距離にあるともみなされ、方向
(別々に推定されるか、または与えられる)はラウドスピーカデータ142として格納される。
ラウドスピーカ取得マネージャ140は、線形モード整合方程式b=A・sを表す線形変換データ144としてT×Q行列として線形演算子Aを構築するようにも構成されている。すなわち、(未知の)振幅sを有する方向
における点ソースによる集合音場の球面調和関数展開のモードが、マイクで取得された音場bの球面調和関数拡張のモードと同等である場合、結果は、線形モード整合方程式b=A・sである。いくつかの実装形態では、Q>Tおよび線形システムは、劣決定である。従って、このような場合、線形モード整合方程式には多くの可能な解がある。ラウドスピーカの配置に関するさらなる詳細は、図2に関して説明される。
擬似逆行列マネージャ150は、線形モード整合方程式b=A・sの解を生成するように構成されている。この解は、本明細書で開示される改善された技術による音場の第1の項である。いくつかの実装形態では、線形モード整合方程式の解は、線形演算子Aの擬似ムーア・ペンローズの擬似逆行列に関して表現され得る。線形演算子Aのムーア・ペンローズの擬似逆行列
は、
と記載することができ、ここでAは、Aのエルミート共役である。この擬似逆行列は、擬似逆行列データ152としてサウンドレンダリングコンピュータ120で生成される。この場合、線形モード整合方程式b=A・sの解sは次の通りである。
この解を生成するために、擬似逆行列マネージャ150は、擬似逆行列データ152で生成された行列に球面調和関数データ132で生成された係数を乗算するように構成されている。
ストラテジー生成マネージャ160は、線形モード整合方程式b=A・sを満たさないかもしれないが、異なる基準を満たすストラテジーベクトル
をストラテジーベクトルデータ162として生成するように構成されている。改善された手法の利点を実現するために、ストラテジーベクトル
は、RSFの外側で望ましい動作を有するサウンドレンダリング手法に対応する。いくつかの実装形態では、ストラテジー生成マネージャ160は、音場をレンダリングするために使用される球にわたる最適な連続的なモノポール密度に従ってストラテジーベクトル
を定義する。
これらの方針に沿って、単位球上の連続的なモノポール密度関数と、球面調和関数におけるその展開を検討する。
モノポールソースのグリーン関数は、上記の式(2)で説明したとおりである。それにもかかわらず、上記で開示したように、そのようなグリーン関数は、次のように球面調和関数展開でも表現できる。
ここで、h (1)は、n次の球ハンケル関数である。音場は、式(6)におけるこのグリーン関数に関して以下のように表され得る。
ここで、積分は単位球上である。式(1)におけるpの球面調和関数展開とのモード整合は、モノポール密度関数の球面調和関数展開の係数の式を生成する。
ここで、r’は、ソースからの観測点の距離である。
ストラテジーベクトル
は、上記のモノポール密度関数の観点から定義できる。
ここで、
は、ストラテジーベクトル
のq番目の成分であり、κは正規化定数であり、α≧0は指向性の強さを設定するパラメータである。例えば、α=0の場合、ストラテジーベクトルは、音場の単純な正則化を取得する。α>0の場合、場は指向性が強化されて正則化される。
ヌル空間投影マネージャ170は、ヌル空間投影データ172として、線形演算子Aのヌル空間Nへのストラテジーベクトル
の投影
を生成するように構成されている。いくつかの実装形態では、線形演算子Aのヌル空間Nの列に射影する行列
により与えられる。
ここで、Iは、単位行列であり、
は線形演算子Aのエルミート共役であるAの列への投影である。従って、線形演算子Aのヌル空間Nへのストラテジーベクトル
の投影
は、線形演算子Aに関して次のように明示的に表現され得る。
指向性フィールド生成マネージャ180は、指向性フィールドデータ182として、線形モード整合方程式b=A・sの解sと線形演算子Aのヌル空間Nへのストラテジーベクトル
の投影
との組み合わせに関して指向性音場sを生成するように構成されている。いくつかの実装形態では、指向性フィールド生成マネージャ180は、指向性フィールドデータ182として、疑似逆行列データ152の成分sとヌル空間投影データ172の
の成分との合計を生成する。すなわち、指向性音場は、
である。このような合計により、結果として得られる全体的な線形演算子が、冪等であることが保証されるため、RSFの内側の音場が忠実に再現される。さらに、従来のアプローチにおけるような擬似逆演算子のみとは対照的に、式(12)に表されるような改良された技術に従って指向性音場をもたらす演算子は、RSFの外側にも妥当な音場を生成する。
いくつかの実装形態では、メモリ126は、ランダムアクセスメモリ、ディスクドライブメモリ、フラッシュメモリなどのうちの少なくとも1つのような任意の種類のメモリであり得る。いくつかの実装形態では、メモリ126は、サウンドレンダリングコンピュータ120のコンポーネントに関連付けられている2つ以上のメモリコンポーネント(例えば、2つ以上のRAMコンポーネントまたはディスクドライブメモリ)として実装され得る。いくつかの実装形態では、メモリ126は、データベースメモリであり得る。いくつかの実装形態では、メモリ126は、非ローカルメモリであるか、またはそれを含み得る。例えば、メモリ126は、複数のデバイス(図示せず)によって共有されるメモリであるか、またはそれを含み得る。いくつかの実装形態では、メモリ126は、ネットワーク内のサーバデバイス(図示せず)に関連付けられることが可能であり、サウンドレンダリングコンピュータ120のコンポーネントのために動作するように構成されることが可能である。
サウンドレンダリングコンピュータ120のコンポーネント(例えば、マネージャ、処理ユニット124)は、1つまたは複数の種類のハードウェア、ソフトウェア、ファームウェア、オペレーティングシステム、ランタイムライブラリなどのうちの少なくとも1つを含むことが可能な1つまたは複数のプラットフォーム(例えば、1つまたは複数の類似または異なるプラットフォーム)に基づいて動作するように構成され得る。
サウンドレンダリングコンピュータ120のコンポーネントは、属性を処理するように構成された任意の種類のハードウェアおよび/またはソフトウェアであるか、またはそれを含み得る。いくつかの実装形態では、図1におけるサウンドレンダリングコンピュータ120のコンポーネントに示されるコンポーネントの1つまたは複数の部分は、ハードウェアベースのモジュール(例えば、デジタルシグナルプロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、メモリ)、ファームウェアモジュール、および/またはソフトウェアベースのモジュール(例えば、コンピュータコードのモジュール、コンピュータで実行可能な一組のコンピュータ可読命令)であるか、またはそれらを含み得る。例えば、いくつかの実装形態では、サウンドレンダリングコンピュータ120のコンポーネントの1つまたは複数の部分は、少なくとも1つのプロセッサ(図示せず)による実行のために構成されたソフトウェアモジュールであるか、それを含み得る。いくつかの実装形態では、コンポーネントの機能は、図1に示されたものとは異なるモジュールおよび/または異なるコンポーネントに含まれ得る。
いくつかの実装形態では、サウンドレンダリングコンピュータ120のコンポーネント(またはその一部)は、ネットワーク内で動作するように構成され得る。従って、サウンドレンダリングコンピュータ120のコンポーネント(またはその一部)は、1つまたは複数のデバイス、および/または1つまたは複数のサーバデバイスを含み得る様々な種類のネットワーク環境内で機能するように構成され得る。例えば、ネットワークは、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)などのうちの少なくとも1つであるか、それらを含み得る。ネットワークは、無線ネットワークおよび/または例えば、ゲートウェイデバイス、ブリッジ、スイッチなどのうちの少なくとも1つを用いて実装される無線ネットワークであるか、またはそれを含み得る。ネットワークは、1つまたは複数のセグメントを含むことが可能であり、および/または、インターネットプロトコル(IP)および/またはプロプライエタリプロトコルのような様々なプロトコルに基づく部分を有することが可能である。ネットワークは、インターネットの少なくとも一部を含み得る。
いくつかの実施形態では、サウンドレンダリングコンピュータ120の1つまたは複数のコンポーネントは、メモリに記憶された命令を処理するように構成されたプロセッサであるか、またはそれを含み得る。例えば、サウンド取得マネージャ130(および/またはその一部)、ラウドスピーカ取得マネージャ140(および/またはその一部)、擬似逆行列マネージャ150(および/またはその一部)、ストラテジー生成マネージャ160(および/またはその一部)、ヌル空間投影マネージャ(および/またはその部分)、および指向性フィールド生成マネージャ180(および/またはその一部)は、1つまたは複数の機能を実装するためのプロセスに関連する命令を格納するメモリの組み合わせを含み、命令を実行するように構成され得る。
図2は、改良された技術に係る、例示的な音場環境200を示す。この環境200内には、マイク210を中心とする球230上に分布する、例えばラウドスピーカ240(1)、…、240(Q)(黒ディスク)のような現実のまたは仮想のラウドスピーカのセットの中心にリスナーが位置する起点210(白ディスク)がある。各ラウドスピーカ、例えばラウドスピーカ240(1)は、方向
などに沿って配置されている。いくつかの構成では、リスナーが起点で聞くために、起点から離れる方向の関数として音場振幅を測定および記録する、球状のマイクが起点210にあり得る。
サウンドレンダリングコンピュータ120は、起点210で記録された音場データ132に基づいて、観測点220(灰色ディスク)に存在するだろう音場を忠実に再現するように構成されている。これを行う際に、サウンドレンダリングコンピュータ120は、上述のように、ラウドスピーカ240(1)、…、240(Q)のセットの各々において音場の振幅を決定することにより、観測点220で音場の指向性を提供するように構成されている。音場の指向性は、特定の音がどの方向から発生しているように思われるかをリスナーが識別できるようにするプロパティである。この意味で、第1の時間ウィンドウ(例えば、1秒)にわたる音場の第1のサンプルは、ラウドスピーカのセット240(1)、…、240(Q)の第1の重みをもたらし、第2の時間ウィンドウにわたる音場の第2のサンプルは、第2の重みをもたらす。時間ウィンドウにわたる音場の各サンプルについて、式(1)で表されるような周波数にわたる音場の係数は、時間での音場の球面調和関数展開の係数のフーリエ変換である。
図2に示されるように、観測点220は、マイク210に対して位置
にある。観測点220の位置x’は、十分な忠実性の領域(region of sufficient fidelity:RSF)250の領域の外側であるが、ラウドスピーカ240(1)、…、240(Q)のセットによって定義される領域230の内側にある。RSF250のサイズは、周波数に依存するが、関心のあるほとんどの周波数では、観測点220はRSF250の内部にある。いくつかの実装形態では、RSF250のサイズRは、
のように定義される。一般的な状況では、リスナーの耳はRSF250の外側にある。
従って、音場が異なる周波数のスペクトルを含む場合、RSF250のサイズは変化する可能性があり、すなわち、
であるため、RSF250のサイズRは、周波数に反比例する。例えば、式(4)におけるような単一周波数のコヒーレントな音場は、線形モード整合方程式b=A・sの解によって記述される。それにもかかわらず、RSF250のサイズの周波数依存性のために、そのようなコヒーレントな音場は、RSFの外側の観測点220で聞かれる複数の周波数を含む実際の音場に対する十分な忠実性を提供しない。むしろ、式(12)におけるような線形演算子Aのヌル空間へのストラテジーベクトルの投影が、音場をインコヒーレントにしていることがわかった。このようなインコヒーレンスは、式(4)のみにおけるような線形モード整合方程式b=A・sの解によって提供されるものよりも音場に対するより良い忠実性を提供する。この理由は、音場のインコヒーレンスが、RSF250のサイズの周波数依存性を除去し、それにより音場へのスペクトル忠実性を改善するからである。さらに、音場のインコヒーレント部分の大きさを累乗に高めることにより、線形モード整合方程式だけの解に欠ける指向性が提供される。
図3は、音のバイノーラルレンダリングを行う例示的な方法300を示すフローチャートである。方法300は、サウンドレンダリングコンピュータ120のメモリ126に存在し1組の処理ユニット124により実行される、図1に関連して記載されたソフトウェア構成により実行され得る。
302において、リスナーに対し指向性音場をレンダリングするように構成されたサウンドレンダリングコンピュータの制御回路は、幾何学的環境における音場から生じるサウンドデータを受信し、サウンドデータは、幾何学的環境に基づく複数の直交角度モード関数における展開として表される。これらの方針に沿って、サウンド取得マネージャ130は、ディスクからの入力として、またはネットワーク(後者は、リアルタイムで指向性音場を処理する仮想現実環境などの環境の場合)を介して、現実または仮想のマイクにおける音場を表すデータを受信する。この音場は、式(1)のように球面調和関数展開に分解され、球面調和関数データ132として格納される係数ベクトルbをもたらす。
304において、制御回路は、サウンドデータに対するモード整合演算と、複数の直交角度モード関数における展開として表されるラウドスピーカの複数の振幅の加重和の展開とから生じる線形演算子を生成する。これらの方針に沿って、ラウドスピーカ取得マネージャ140は、ラウドスピーカ位置データ142として、Q個のラウドスピーカの各々のラウドスピーカ方向
を(例えば、別個の手順または仕様から)取得する。これらの方向が与えられると、ラウドスピーカ取得マネージャ140は、次に、各ラウドスピーカについて式(6)の球面調和関数展開を、式(1)の球面調和関数展開とモード整合させることによって、線形変換データ144として線形演算子Aを生成することができる。
306において、制御回路は、線形演算子およびサウンドデータに対して擬似逆演算(逆演算とも呼ばれる)を実行して、第1の複数のラウドスピーカ重みを生成し、第1の複数のラウドスピーカ重みは、周波数閾値を下回る周波数におけるリスナーに対する音場の再現を提供する。いくつかの実装形態では、擬似逆行列マネージャ150は、式(3)で指定されるムーア・ペンローズの擬似逆行列を生成し、この擬似逆行列に球面調和関数データ132として格納された係数ベクトルbを乗算して、擬似逆行列データ152として、線形モード整合方程式b=A・sに対する解sを生成する。
308において、制御回路は、線形演算子のヌル空間上で投影演算を実行して、第2の複数のラウドスピーカ重みを生成する。これらの方針に沿って、制御回路は、方程式b=A・sの解ではない第2の音場の項
を生成することができ、第2の音場の項
はQ個の成分を有する。例えば、上述した強化されたモノポール密度ストラテジーでは、ストラテジー生成マネージャ160は、式(5)および式(8)のモノポール密度の式を用いて、ストラテジーベクトルデータ162のQ個の成分の各々として、式(9)による成分値を生成する。いくつかの実装形態では、ストラテジー生成マネージャ160は、最適な指向性強度のためにパラメータαを調整する。次に、制御回路は、第2の音場の項
に投影演算を実行して、指定されたT×Q行列Aのヌル空間への第2の音場の項
の投影を生成し得る。これらの方針に沿って、ヌル空間投影マネージャ170は、線形変換データ144、およびいくつかの実装形態では、擬似逆行列データ152を使用して、エルミート共役Aの列への投影を生成し、単位行列と、この投影との間の差に、式(11)によるストラテジーベクトル
を乗算して、ヌル空間投影データ172を生成する。
310において、制御回路は、第1の複数のラウドスピーカ重みと第2の複数のラウドスピーカ重みとの合計を生成して、第3の複数のラウドスピーカ重みを生成し、第3の複数のラウドスピーカ重みは、周波数閾値を下回る、および上回る周波数において、リスナーに対し音場の再現を提供する。これらの方針に沿って、指向性フィールドマネージャ180は、擬似逆行列データ152に格納されている線形モード整合方程式b=A・sに対する解sと、ヌル空間投影データ172に格納されている線形演算子Aのヌル空間Nへのストラテジーベクトル
の投影
とを合計して、式(12)による指向性フィールドデータ182を生成する。この指向性フィールドデータ182は、サウンドレンダリングコンピュータ120によって使用され、マイク位置210(図2)、または音声がどの方向から発生しているように思われるかをリスナーが知りたいと望む仮想現実環境などの環境内の任意の他の位置(複数のラウドスピーカの位置によって定義される凸包内のウェル)でリスナーに指向性音声を提供する。
図4は、本明細書に記載される技術とともに用いられ得る一般的なコンピュータデバイス400および一般的なモバイルコンピュータデバイス450の一例を示す。コンピューティングデバイス400は、ラップトップ、デスクトップ、タブレット、ワークステーション、個人用情報端末、テレビ、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピューティングデバイスのような様々な形態のデジタルコンピュータを表すように意図されている。コンピューティングデバイス450は、個人用情報端末、携帯電話、スマートフォン、および他の類似のコンピューティングデバイスのような様々な形態のモバイルデバイスを表すように意図されている。本明細書に示されるコンポーネントと、それらの接続および関係と、それらの機能とは、例示として意図されるに過ぎず、本明細書に記載された、および/または特許請求の範囲に記載された発明の実装形態を限定するようには意図されていない。
コンピューティングデバイス400は、プロセッサ402と、メモリ404と、記憶デバイス406と、メモリ404および高速拡張ポート410に接続する高速インタフェース408と、低速バス414および記憶デバイス406に接続する低速インタフェース412とを含む。プロセッサ402は、半導体ベースのプロセッサであり得る。メモリ404は、半導体ベースのメモリであり得る。コンポーネント402,404,406,408,410,412の各々は、様々なバスを用いて相互接続されており、共通のマザーボードに、または必要に応じて他の態様により取り付けられ得る。プロセッサ402は、高速インタフェース408に結合されているディスプレイ416などの外部の入力/出力デバイス上にGUIのためのグラフィカル情報を表示するためのメモリ404または記憶デバイス406に記憶されている命令を含む、コンピューティングデバイス400内での実行のための命令を処理可能である。他の実装形態では、複数のプロセッサおよび/または複数のバスは、必要に応じて、複数のメモリおよび複数の種類のメモリとともに使用され得る。さらに、複数のコンピューティングデバイス400が接続されて、各デバイスが必要な動作のうちの部分(例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステム)を提供してもよい。
メモリ404は、コンピューティングデバイス400内に情報を格納する。1つの実装形態では、メモリ404は、1つまたは複数の揮発性メモリユニットである。別の実装形態では、メモリ404は、1つまたは複数の不揮発性メモリユニットである。メモリ404は、磁気ディスクまたは光学ディスクのような別の形態のコンピュータ可読媒体であってもよい。
記憶デバイス406は、コンピューティングデバイス400のための大容量のストレージを提供できる。1つの実装形態では、記憶デバイス406は、フロッピー(登録商標)ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、テープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークまたは他の構成のデバイスを含むデバイスのアレイのようなコンピュータ可読媒体であってよく、または、それを含み得る。コンピュータプログラム製品は、情報キャリアに有形に具現化されることが可能である。コンピュータプログラム製品は、実行される際に、上述したような1つまたは複数の方法を実施する命令を含んでもよい。情報キャリアは、メモリ404、記憶デバイス406、またはプロセッサ402上のメモリのような、コンピュータまたは機械可読媒体である。
高速コントローラ408は、コンピューティングデバイス400のための帯域集約型の動作を管理する一方、低速コントローラ412は、より低い帯域集約型の動作を管理する。機能のそのような割り当ては、例示にすぎない。1つの実装形態では、高速コントローラ408は、メモリ404と、ディスプレイ416(例えば、グラフィクスのプロセッサまたはアクセラレータを通じて)と、様々な拡張カード(図示せず)を受容し得る高速拡張ポートP10とに結合されている。その実装形態では、低速コントローラ412は、記憶デバイス406と低速拡張ポート414とに結合されている。様々な通信ポート(例えば、USB、Bluetooth(登録商標)、イーサネット(登録商標)、無線イーサネット)を含み得る低速拡張ポートは、キーボード、ポインティングデバイス、スキャナなどの1または複数の入出力デバイス、またはスイッチもしくはルータなどのネットワーキングデバイスに、例えば、ネットワークアダプタを通じて結合され得る。
コンピューティングデバイス400は、図に示されるように、複数の異なる形態で実装され得る。例えば、それは、スタンダードサーバ420として、またはそのようなサーバのグループにおいて複数回にわたって実装され得る。それは、ラックサーバシステム424の一部として実装されてもよい。加えて、それは、ラップトップコンピュータ422のようなパーソナルコンピュータにおいて実装され得る。あるいは、コンピューティングデバイス400からのコンポーネントは、デバイス450などのモバイルデバイス(図示せず)における他のコンポーネントと組み合わされてよい。そのようなデバイスの各々は、コンピューティングデバイス400,450のうちの1つまたは複数を含んでよく、システム全体が、互いに通信する複数のコンピューティングデバイス400,450から構成されてよい。
コンピューティングデバイス450は、プロセッサ452と、メモリ464と、ディスプレイ454などの入出力デバイスと、通信インタフェース466と、送受信機468とをコンポーネントとして特に備える。デバイス450には、追加のストレージを提供するように、マイクロドライブまたは他のデバイスのような記憶デバイスがさらに提供されてもよい。コンポーネント450,452,464,454,466および468の各々は、様々なバスを用いて相互接続されており、コンポーネントのうちのいくつかは、共通のマザーボードに取り付けられているか、必要に応じて他の態様により取り付けられてよい。
プロセッサ452は、コンピューティングデバイス450内で、メモリ464に記憶されている命令を含む命令を実行可能である。プロセッサは、別個の複数のアナログおよびデジタルプロセッサを含むチップのチップセットとして実装され得る。プロセッサは、例えば、ユーザインタフェースの制御、デバイス450により動作するアプリケーション、デバイス450による無線通信のような、デバイス450の他のコンポーネントの協働を提供し得る。
プロセッサ452は、ディスプレイ454に結合された制御インタフェース458およびディスプレイインタフェース456を通じてユーザと通信することができる。ディスプレイ454は、例えば、TFT LCD(薄膜トランジスタ液晶ディスプレイ)もしくはOLED(有機発光ダイオード)ディスプレイ、または他の適切なディスプレイ技術であってよい。ディスプレイインタフェース456は、グラフィカル情報および他の情報をユーザに提示するためにディスプレイ454を駆動するための適切な回路を備え得る。制御インタフェース458は、ユーザからコマンドを受信し、プロセッサ452に渡すためにそのコマンドを変換し得る。加えて、外部インタフェース462は、他のデバイスとのデバイス450の近領域通信を可能にするように、プロセッサ452との通信に提供され得る。外部インタフェース462は、例えば、いくつかの実装形態における有線通信または他の実装形態における無線通信を提供することが可能であり、複数のインタフェースが用いられてもよい。
メモリ464は、コンピューティングデバイス450内に情報を格納する。メモリ464は、1つまたは複数のコンピュータ可読媒体と、1または複数の揮発性メモリユニットと、1または複数の不揮発性メモリユニットと、のうちの1または複数として実装され得る。拡張メモリ474も提供されて、例えば、SIMM(シングルインラインメモリモジュール)カードインタフェースを含み得る拡張インタフェース472を通じてデバイス450に接続されてもよい。そのような拡張メモリ474は、デバイス450のための追加のストレージスペースを提供し、またはデバイス450のためのアプリケーションまたは他の情報を格納し得る。具体的には、拡張メモリ474は、上述した処理を実行または補完するための命令を含んでよく、またセキュア情報も含んでよい。従って、例えば、拡張メモリ474は、デバイス450のためのセキュリティモジュールとして提供されてよく、デバイス450のセキュアな使用を可能にする命令でプログラムされ得る。加えて、ハッキング不可能な態様により識別情報をSIMMカード上に配置するようなセキュアアプリケーションは、追加の情報とともにSIMMカードを介して提供され得る。
メモリは、例えば、下記のように、フラッシュメモリおよび/またはNVRAMメモリを含み得る。1つの実装形態では、コンピュータプログラム製品は、情報キャリアに有形に具現化される。コンピュータプログラム製品は、実行される際に、上述したような1つまたは複数の方法を実施する命令を含む。情報キャリアは、例えば、送受信機468または外部インタフェース462を介して受信され得る、メモリ464、拡張メモリ474、またはプロセッサ452上のメモリなどのコンピュータまたは機械可読媒体である。
デバイス450は、必要な場合には、デジタル信号処理回路を含み得る通信インタフェース466を通じて無線により通信し得る。通信インタフェース466は、特に、GSM(登録商標)ボイスコール、SMS、EMS、またはMMSメッセージング、CDMA、TDMA、PDC、WCDMA(登録商標)、CDMA2000、またはGPRSなど、様々なモードまたはプロトコルの下、通信を提供することが可能である。そのような通信は、例えば、無線周波数送受信機468を通じて行われ得る。加えて、Bluetooth、Wi−Fi(登録商標)、または他のそのような送受信機(図示せず)を用いるなどの狭域通信が起こり得る。加えて、GPS(全地球測位システム)受信機モジュール470は、航行および場所に関係する追加の無線データをデバイス450に提供し、その無線データは、必要に応じて、デバイス450上にて動作するアプリケーションにより用いられ得る。
デバイス450は、ユーザから音声情報を受信し、これを使用可能なデジタル情報に変換できる音声コーデック460を用いて可聴の通信を行ってもよい。音声コーデック460は、例えば、デバイス450のハンドセットにおけるスピーカを通じてなどによりユーザに対する可聴音を同様に生成し得る。そのような音は、音声通話からの音を含んでよく、記録された音(例えば、ボイスメッセージ、音楽ファイルなど)を含んでよく、デバイス450上で動作するアプリケーションにより生成される音を含んでもよい。
コンピューティングデバイス450は、図に示されるように、複数の異なる形態により実装されてよい。例えば、それは、携帯電話480として実装され得る。それは、スマートフォン482、個人用情報端末、または他の同様のモバイルデバイスの一部として実装されてもよい。
本明細書に記載されたシステムおよび技術の様々な実装形態は、デジタル電子回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにより実現され得る。これらの様々な実装形態は、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信し、それらへデータおよび命令を送信するように結合された、特別または汎用の少なくとも1つのプログラム可能なプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムにおける実装を含み得る。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られている)は、プログラム可能なプロセッサのためのマシン命令を含み、高度な手続き型および/またはオブジェクト指向プログラミング言語および/またはアセンブリ言語/機械語により実装されることも可能である。本明細書にて用いられる「機械可読媒体」、「コンピュータ可読媒体」という用語は、機械可読信号として機械命令を受信する機械可読媒体を含むプログラマブルプロセッサに、機械命令および/またはデータを提供するために用いられる任意のコンピュータプログラム製品、装置および/またはデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(PLD))を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために用いられる任意の信号を指す。
ユーザとの対話を提供するために、本明細書に記載されたシステムおよび技術は、情報をユーザに表示するためのディスプレイデバイス(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザがそれによって入力をコンピュータに提供することが可能なキーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを有するコンピュータ上に実装され得る。他の種類のデバイスも、ユーザとの対話を提供するために用いられてよく、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってよく、ユーザからの入力は、音響入力、音声入力、または触覚入力を含む任意の形態により受信され得る。
本明細書に記載されたシステムおよび技術は、バックエンドコンポーネント(例えば、データサーバとしての)を含むコンピューティングシステム、ミドルウェアコンポーネント(例えば、アプリケーションサーバ)を含むコンピューティングシステム、フロントエンドコンポーネント(例えば、ユーザが本明細書に記載されたシステムおよび技術の実装と対話可能なグラフィカルユーザインタフェースまたはウェブブラウザを有するクライアントコンピュータ)を含むコンピューティングシステム、またはそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、もしくはフロントエンドコンポーネントの任意の組み合わせで実装され得る。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体(例えば、通信ネットワーク)によって相互接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイドエリアネットワーク(「WAN」)、およびインターネットを含む。
コンピューティングシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは、一般に、互いに遠く離れており、典型的には、通信ネットワークを介して対話する。クライアントとサーバとの関係は、それぞれのコンピュータ上で動作し、かつ互いにクライアント−サーバ関係を有するコンピュータプログラムにより生じる。
本明細書および添付の特許請求の範囲において、単数形「1つの(a,an)」および「その(the)」は、文脈において明示する場合を除き、複数の参照を排除するものではない。さらに、「および(and)」、「または(or)」および「および/または(and/or)」などの接続詞は、文脈において明示する場合を除き、包括的なものである。例えば、「Aおよび/またはB」は、Aのみ、Bのみ、およびAとBと、を含む。さらに、提示される様々な図面に示される接続線およびコネクタは、例示的な機能の関係および/または様々な要素間の物理的結合か論理的結合を表すことが意図されている。多くの代替または追加の機能の関係、物理的接続または論理的接続が、実際のデバイスに存在し得る。さらに、要素が「必須(essential)」または「重要(critical)」と特に記載されていない限り、本明細書に開示される実施形態の実施にとってアイテムまたはコンポーネントは必須ではない。
これに限られないが、約、実質的に、一般になどの用語は、その正確な値または範囲が要求されておらず、特定される必要がないことを示すように、本明細書において用いられる。本明細書で用いられるように、上記の用語は、当業者にとって迅速かつ即座に意味を有する。
さらに、本明細書において上方、下方、頂部、底部、側方、端部、前方、後方などといった用語の使用は、現在考えられているか示されている配向を参照して用いられる。別の配向に関して考えられる場合には、そうした用語は対応して修正される必要があると理解される。
さらに、本明細書および添付の特許請求の範囲において、単数形「1つの(a,an)」および「その(the)」は、文脈において明示する場合を除き、複数の参照を排除するものではない。さらに、「および(and)」、「または(or)」および「および/または(and/or)」などの接続詞は、文脈において明示する場合を除き、包括的なものである。例えば、「Aおよび/またはB」は、Aのみ、Bのみ、およびAとBと、を含む。
特定の例としての製造の方法、装置および物が本明細書に記載されているが、この特許の適用範囲はそれらに限定されない。本明細書に用いられる専門用語は、特定の側面を説明するためであり、限定することを意図するものではないことが理解されるべきである。これに反して、この特許は、この特許の特許請求の範囲内に該当する製造の全ての方法、装置および物をカバーする。

Claims (20)

  1. 方法であって、
    リスナーに対し指向性音場をレンダリングするように構成されたサウンドレンダリングコンピュータの制御回路により、幾何学的環境における音場から生じるサウンドデータを受信することであって、前記サウンドデータは、前記幾何学的環境に基づく複数の直交角度モード関数における展開として表される、前記受信すること、
    前記制御回路により、前記サウンドデータに対するモード整合演算と、前記複数の直交角度モード関数における展開として表される複数のラウドスピーカの振幅の加重和の展開とから生じる線形演算子を生成すること、
    前記制御回路により、前記線形演算子および前記サウンドデータに対する逆演算を実行して、第1の複数のラウドスピーカ重みを生成すること、
    前記制御回路により、前記線形演算子のヌル空間上で投影演算を実行して、第2の複数のラウドスピーカ重みを生成すること、
    前記制御回路により、前記第1の複数のラウドスピーカ重みと前記第2の複数のラウドスピーカ重みとの合計を生成して、第3の複数のラウドスピーカ重みを生成すること
    を含み、前記第3の複数のラウドスピーカ重みは、前記リスナーに対し前記音場の再現を提供する、方法。
  2. 前記線形演算子および前記サウンドデータに対する前記逆演算を実行することは、前記線形演算子のムーア・ペンローズの擬似逆行列を生成することを含む、請求項1に記載の方法。
  3. 前記幾何学的環境は、球形であり、前記複数の直交角度モード関数は、球面調和関数を含む、請求項1に記載の方法。
  4. 前記複数のラウドスピーカにおけるラウドスピーカの数は、前記複数の直交角度モード関数における直交角度モード関数の数よりも多い、請求項1に記載の方法。
  5. 前記線形演算子の前記ヌル空間に前記投影演算を実行することは、
    ストラテジーベクトルを生成することであって、前記ストラテジーベクトルの各成分は、前記複数のラウドスピーカのそれぞれのラウドスピーカに対応する、前記ストラテジーベクトルを生成すること、
    単位行列と前記線形演算子のエルミート共役のヌル空間の列への投影との間の差を生成して投影行列を生成すること、
    前記第2の複数のラウドスピーカ重みとして、前記投影行列と前記ストラテジーベクトルとの積を生成すること
    を含む、請求項1に記載の方法。
  6. 前記ストラテジーベクトルを生成することは、前記複数のラウドスピーカの各々について、
    前記幾何学的環境内におけるそのラウドスピーカのそれぞれの角度座標で評価される連続的なモノポール密度関数を定義すること、
    前記ストラテジーベクトルとして、前記幾何学的環境内におけるそのラウドスピーカの前記それぞれの角度座標で評価される前記連続的なモノポール密度関数の大きさの冪乗を生成すること
    を含み、前記冪乗は、1より大きい、請求項5に記載の方法。
  7. 前記幾何学的環境内における前記複数のラウドスピーカの各々の、それぞれの角度座標で評価される前記連続的なモノポール密度関数を定義することは、
    前記幾何学的環境内におけるそのラウドスピーカの角度座標で評価される前記連続的なモノポール密度関数として、前記複数の直交角度モード関数における前記連続的なモノポール密度関数の展開を生成すること
    を含み、前記展開の係数は、前記連続的なモノポール密度関数のグリーン関数表現を有するモード整合演算の結果として生成される、請求項6に記載の方法。
  8. 非一時的な記憶媒体を備えるコンピュータプログラム製品であって、リスナーに対し指向性音場をレンダリングするように構成されたサウンドレンダリングコンピュータの処理回路により実行されると、前記処理回路に、
    幾何学的環境における音場から生じるサウンドデータを受信することであって、前記サウンドデータは、前記幾何学的環境に基づく複数の直交角度モード関数における展開として表される、前記受信すること、
    前記サウンドデータに対するモード整合演算と、複数の直交角度モード関数における展開として表される複数のラウドスピーカの振幅の加重和の展開とから生じる線形演算子を生成すること、
    前記線形演算子および前記サウンドデータに対する逆演算を実行して、第1の複数のラウドスピーカ重みを生成すること、
    前記線形演算子のヌル空間上で投影演算を実行して、第2の複数のラウドスピーカ重みを生成すること、
    前記第1の複数のラウドスピーカ重みと前記第2の複数のラウドスピーカ重みとの合計を生成して、第3の複数のラウドスピーカ重みを生成すること
    を含む方法を実行させ、前記第3の複数のラウドスピーカ重みは、前記リスナーに対し前記音場の再現を提供する、コンピュータプログラム製品。
  9. 前記線形演算子および前記サウンドデータに対する前記逆演算を実行することは、前記線形演算子のムーア・ペンローズの擬似逆行列を生成することを含む、請求項8に記載のコンピュータプログラム製品。
  10. 前記幾何学的環境は、球形であり、前記複数の直交角度モード関数は、球面調和関数を含む、請求項8に記載のコンピュータプログラム製品。
  11. 前記複数のラウドスピーカにおけるラウドスピーカの数は、前記複数の直交角度モード関数における直交角度モード関数の数よりも多い、請求項8に記載のコンピュータプログラム製品。
  12. 前記線形演算子の前記ヌル空間に前記投影演算を実行することは、
    ストラテジーベクトルを生成することであって、前記ストラテジーベクトルの各成分は、前記複数のラウドスピーカのそれぞれのラウドスピーカに対応する、前記ストラテジーベクトルを生成すること、
    単位行列と前記線形演算子のエルミート共役のヌル空間の列への投影との間の差を生成して投影行列を生成すること、
    前記第2の複数のラウドスピーカ重みとして、前記投影行列と前記ストラテジーベクトルとの積を生成すること
    を含む、請求項8に記載のコンピュータプログラム製品。
  13. 前記ストラテジーベクトルを生成することは、前記複数のラウドスピーカの各々について、
    前記幾何学的環境内におけるそのラウドスピーカのそれぞれの角度座標で評価される連続的なモノポール密度関数を定義すること、
    前記ストラテジーベクトルとして、前記幾何学的環境内におけるそのラウドスピーカの前記それぞれの角度座標で評価される前記連続的なモノポール密度関数の大きさの冪乗を生成すること
    を含み、前記冪乗は、1より大きい、請求項12に記載のコンピュータプログラム製品。
  14. 前記幾何学的環境内における前記複数のラウドスピーカの各々の、それぞれの角度座標で評価される前記連続的なモノポール密度関数を定義することは、
    前記幾何学的環境内におけるそのラウドスピーカの角度座標で評価される前記連続的なモノポール密度関数として、前記複数の直交角度モード関数における前記連続的なモノポール密度関数の展開を生成すること
    を含み、前記展開の係数は、前記連続的なモノポール密度関数のグリーン関数表現を有するモード整合演算の結果として生成される、請求項13に記載のコンピュータプログラム製品。
  15. リスナーに対し指向性音場をレンダリングするように構成されている電子装置であって、
    メモリと、
    前記メモリに結合されている制御回路と
    を備え、該制御回路は、
    幾何学的環境における音場から生じるサウンドデータを受信することであって、前記サウンドデータは、前記幾何学的環境に基づく複数の直交角度モード関数における展開として表される、前記受信すること、
    前記サウンドデータに対するモード整合演算と、複数の直交角度モード関数における展開として表される複数のラウドスピーカの振幅の加重和の展開とから生じる線形演算子を生成すること、
    前記線形演算子および前記サウンドデータに対する逆演算を実行して、第1の複数のラウドスピーカ重みを生成すること、
    前記線形演算子のヌル空間上で投影演算を実行して、第2の複数のラウドスピーカ重みを生成すること、
    前記第1の複数のラウドスピーカ重みと前記第2の複数のラウドスピーカ重みとの合計を生成して、第3の複数のラウドスピーカ重みを生成すること
    を行うように構成されており、前記第3の複数のラウドスピーカ重みは、前記リスナーに対し前記音場の再現を提供する、電子装置。
  16. 前記線形演算子および前記サウンドデータに対する擬似逆演算を実行することは、前記線形演算子のムーア・ペンローズの擬似逆行列を生成することを含む、請求項15に記載の電子装置。
  17. 前記幾何学的環境は、球形であり、前記複数の直交角度モード関数は、球面調和関数を含む、請求項15に記載の電子装置。
  18. 前記複数のラウドスピーカにおけるラウドスピーカの数は、前記複数の直交角度モード関数における直交角度モード関数の数よりも多い、請求項15に記載の電子装置。
  19. 前記線形演算子の前記ヌル空間に前記投影演算を実行することは、
    ストラテジーベクトルを生成することであって、前記ストラテジーベクトルの各成分は、前記複数のラウドスピーカのそれぞれのラウドスピーカに対応する、前記ストラテジーベクトルを生成すること、
    単位行列と前記線形演算子のエルミート共役のヌル空間の列への投影との間の差を生成して投影行列を生成すること、
    前記第2の複数のラウドスピーカ重みとして、前記投影行列と前記ストラテジーベクトルとの積を生成すること
    を含む、請求項15に記載の電子装置。
  20. 前記ストラテジーベクトルを生成することは、前記複数のラウドスピーカの各々について、
    前記幾何学的環境内におけるそのラウドスピーカのそれぞれの角度座標で評価される連続的なモノポール密度関数を定義すること、
    前記ストラテジーベクトルとして、前記幾何学的環境内におけるそのラウドスピーカの前記それぞれの角度座標で評価される前記連続的なモノポール密度関数の大きさの冪乗を生成すること
    を含み、前記冪乗は、1より大きい、請求項19に記載の電子装置。
JP2019566090A 2017-08-01 2018-07-03 インコヒーレント冪等アンビソニックスレンダリング Active JP6985425B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/666,220 US10015618B1 (en) 2017-08-01 2017-08-01 Incoherent idempotent ambisonics rendering
US15/666,220 2017-08-01
PCT/US2018/040720 WO2019027613A1 (en) 2017-08-01 2018-07-03 AMPEMOPHONE RENDER IDEMPOTENT INCOHERE

Publications (2)

Publication Number Publication Date
JP2020522189A true JP2020522189A (ja) 2020-07-27
JP6985425B2 JP6985425B2 (ja) 2021-12-22

Family

ID=62683709

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019566090A Active JP6985425B2 (ja) 2017-08-01 2018-07-03 インコヒーレント冪等アンビソニックスレンダリング

Country Status (6)

Country Link
US (1) US10015618B1 (ja)
EP (1) EP3625975B1 (ja)
JP (1) JP6985425B2 (ja)
KR (1) KR102284811B1 (ja)
CN (1) CN110583030B (ja)
WO (1) WO2019027613A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112530445A (zh) * 2020-11-23 2021-03-19 雷欧尼斯(北京)信息技术有限公司 高阶Ambisonic音频的编解码方法及芯片
CN117395591A (zh) * 2021-03-05 2024-01-12 华为技术有限公司 Hoa系数的获取方法和装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7876917B2 (en) * 2006-08-28 2011-01-25 Youngtack Shim Generic electromagnetically-countered systems and methods
TWI559786B (zh) * 2008-09-03 2016-11-21 杜比實驗室特許公司 增進多聲道之再生
CN107071687B (zh) * 2012-07-16 2020-02-14 杜比国际公司 用于渲染音频声场表示以供音频回放的方法和设备
US9736609B2 (en) * 2013-02-07 2017-08-15 Qualcomm Incorporated Determining renderers for spherical harmonic coefficients
EP2782094A1 (en) * 2013-03-22 2014-09-24 Thomson Licensing Method and apparatus for enhancing directivity of a 1st order Ambisonics signal
US9860669B2 (en) * 2013-05-16 2018-01-02 Koninklijke Philips N.V. Audio apparatus and method therefor
EP2866475A1 (en) * 2013-10-23 2015-04-29 Thomson Licensing Method for and apparatus for decoding an audio soundfield representation for audio playback using 2D setups
JP6423009B2 (ja) * 2014-05-30 2018-11-14 クゥアルコム・インコーポレイテッドQualcomm Incorporated 高次アンビソニックオーディオレンダラのためのシンメトリ情報を取得すること
US10624612B2 (en) * 2014-06-05 2020-04-21 Chikayoshi Sumi Beamforming method, measurement and imaging instruments, and communication instruments
CN106471822B (zh) * 2014-06-27 2019-10-25 杜比国际公司 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备
CN106537941B (zh) * 2014-11-11 2019-08-16 谷歌有限责任公司 虚拟声音系统和方法
US9749747B1 (en) * 2015-01-20 2017-08-29 Apple Inc. Efficient system and method for generating an audio beacon
WO2016141023A1 (en) * 2015-03-03 2016-09-09 Dolby Laboratories Licensing Corporation Enhancement of spatial audio signals by modulated decorrelation
US9752879B2 (en) * 2015-04-14 2017-09-05 Invensense, Inc. System and method for estimating heading misalignment
CN108141687B (zh) * 2015-08-21 2021-06-29 Dts(英属维尔京群岛)有限公司 用于泄漏消除的多扬声器方法和装置

Also Published As

Publication number Publication date
CN110583030B (zh) 2021-06-08
EP3625975B1 (en) 2022-12-14
CN110583030A (zh) 2019-12-17
US10015618B1 (en) 2018-07-03
EP3625975A1 (en) 2020-03-25
KR102284811B1 (ko) 2021-07-30
WO2019027613A1 (en) 2019-02-07
KR20200003051A (ko) 2020-01-08
JP6985425B2 (ja) 2021-12-22

Similar Documents

Publication Publication Date Title
US10674262B2 (en) Merging audio signals with spatial metadata
US9992602B1 (en) Decoupled binaural rendering
JP7082126B2 (ja) デバイス内の非対称配列の複数のマイクからの空間メタデータの分析
KR102622947B1 (ko) 오디오 재생을 위한 오디오 사운드필드 표현을 디코딩하는 방법 및 장치
US10492018B1 (en) Symmetric binaural rendering for high-order ambisonics
US11429340B2 (en) Audio capture and rendering for extended reality experiences
CN108370487A (zh) 声音处理设备、方法和程序
JP2020500480A5 (ja)
US10009704B1 (en) Symmetric spherical harmonic HRTF rendering
WO2018008396A1 (ja) 音場形成装置および方法、並びにプログラム
CN109964272B (zh) 声场表示的代码化
JP6985425B2 (ja) インコヒーレント冪等アンビソニックスレンダリング
WO2019168083A1 (ja) 音響信号処理装置、音響信号処理方法および音響信号処理プログラム
Hollebon et al. Experimental study of various methods for low frequency spatial audio reproduction over loudspeakers
JP7099456B2 (ja) スピーカアレイ、および信号処理装置
CN110832884B (zh) 信号处理装置和方法以及计算机可读存储介质
CN111684822B (zh) 环境立体声的定向增强
WO2024149548A1 (en) A method and apparatus for complexity reduction in 6dof rendering
CN118678286A (zh) 音频数据处理方法、装置、系统、电子设备及存储介质
WO2024149557A1 (en) A method and apparatus for complexity reduction in 6dof audio rendering
CN116193196A (zh) 虚拟环绕声渲染方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191129

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20200121

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20200122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211125

R150 Certificate of patent or registration of utility model

Ref document number: 6985425

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150