JP7378575B2

JP7378575B2 - 空間変換領域における音場表現を処理するための装置、方法、またはコンピュータプログラム

Info

Publication number: JP7378575B2
Application number: JP2022506492A
Authority: JP
Inventors: オリヴァー・ティールガルト; アレクサンダー・ニーダーライトナー; エマヌエル・ハベッツ; モーリッツ・ヴィルト; アクセル・プリンゲ; アッヒム・クンツ; アレクサンドル・ブテオン; ディルク・マーネ; ファビアン・キュッヒ
Original assignee: フラウンホファーゲセルシャフトツールフェールデルンクダーアンゲヴァンテンフォルシュンクエー．ファオ．
Priority date: 2019-07-29
Filing date: 2020-07-27
Publication date: 2023-11-13
Anticipated expiration: 2040-07-27
Also published as: KR20220038478A; CN114450977A; JP2022546926A; CA3149297A1; WO2021018378A1; BR112022001584A2; US20220150657A1; US20240163628A1; MX2022001147A; WO2021018830A1; EP4005246A1

Description

本発明は、空間音の記録および再生の分野に関する。

一般に、空間音の記録は、再生側において聴取者が記録場所にあったような音像を知覚するように、複数のマイクロフォンを用いて音場を捕捉することを目的とする。想定されるケースにおいて、空間音は、記録側における単一の物理的場所(基準場所と呼ばれる)において捕捉され、再生側において、空間音は、元の基準場所に対して任意の異なる視点からレンダリングされ得る。異なる視点は、異なる聴取位置(仮想聴取位置)と聴取向き(仮想聴取向きと呼ばれる)とを含む。

元の記録場所に対して任意の異なる視点から空間音をレンダリングすることは、様々なアプリケーションを可能にする。たとえば、6自由度(6DoF)レンダリングにおいて、再生側における聴取者は、(通常はヘッドマウントディスプレイとヘッドフォンとを装着して)仮想空間内を自由に移動し、異なる視点からオーディオ/ビデオを知覚することができる。3自由度(3DoF)アプリケーションにおいて、たとえば、空間音とともに360°ビデオが特定の場所において記録された場合、ビデオ画像は、再生側において回転され得、ビデオの投影は、(たとえば、ステレオ投影[WolframProj1]から「リトルプラネット」投影と呼ばれるグノモン(Gnomonic)投影[WolframProj2]に向かって)調整され得る。明らかに、3DoFまたは6DoFアプリケーションにおいてビデオ視点を変更する場合、再生される空間音視点は、一貫したオーディオ/ビデオ再生を可能にするために、それに応じて調整されるべきである。

異なる視点からの空間音記録および再生を可能にする様々な最先端の手法が存在する。1つの方法は、すべての可能な聴取位置において空間音を物理的に記録し、再生側において、仮想聴取位置に最も近い記録を空間音再生のために使用することである。しかしながら、この記録手法は、非常に押し付けがましく、実現不可能なほど高い測定労力を必要とする。任意の視点からの空間音再生を依然として達成しながら、必要な物理的測定位置の数を減らすために、非線形パラメトリック空間音記録および再生技法が使用され得る。一例は、[VirtualMic]において提案されている指向性オーディオコーディング(DirAC)ベースの仮想マイクロフォン処理である。ここで、空間音は、少ない数(3～4)の物理的場所のみにおいて配置されたマイクロフォンアレイを用いて記録される。その後、到来方向および音の拡散などの音場パラメータが、各マイクロフォンアレイの場所において推定され得、次いで、この情報は、任意の空間位置にける空間音を合成するために使用され得る。この手法は、大幅に減少した数の測定場所で高い柔軟性を提供するが、依然として複数の測定場所を必要とする。さらに、パラメトリック信号処理、および想定されるパラメトリック信号モデルの違反は、特に高音質再生アプリケーションにおいて不快になる可能性のある処理アーティファクトをもたらす可能性がある。

[AmbiTrans]Kronlachner and Zotter、「Spatial transformations for the enhancement of Ambisonics recordings」、ICSA 2014年 [FormatConv]M. M. Goodwin and J.-M. Jot、「Multichannel surround format conversion and generalized upmix」、AES 30th International Conference、2007年 [FourierAcoust]E. G. Williams、「Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography」、Academic Press、1999年 [WolframProj1]http://mathworld.wolfram.com/StereographicProjection.html [WolframProj2]http://mathworld.wolfram.com/GnomonicProjection.html [RotMat]http://mathworld.wolfram.com/RotationMatrix.html [Vbap]V. Pulkki、「Virtual Sound Source Positioning Using Vector Base Amplitude Panning」、J. Audio Eng. Soc、Vol. 45 (6)、1997年 [VirtualMic]O. Thiergart、G. Del Galdo、M. Taseska, E.A.P. Habets、「Geometry-based Spatial Sound Acquisition Using Distributed Microphone Arrays」、Audio, Speech, and Language Processing、IEEE Transactions on、Vol. 21 (12)、2013年

本発明の目的は、音場表現のための定義された基準点または定義された聴取向きに関連する音場表現を処理する改善された概念を提供することである。

この目的は、請求項1の音場表現を処理するための装置、請求項31の音場表現を処理する方法、または請求項32のコンピュータプログラムによって達成される。

音場表現を処理するための装置または方法において、処理された音場記述が取得されるように、定義された基準点からの目標聴取位置の偏差、または定義された聴取向きからの目標聴取向きの偏差を使用して音場処理が行われ、処理された音場記述は、レンダリングされたときに、定義された参照点とは異なる目標聴取位置における音場表現の印象を提供する。代替的または追加的に、音場処理は、処置された音場記述が、レンダリングされたときに、定義された聴取向きとは異なる目標聴取向きに対する音場表現の印象を提供するように実行される。代替的または追加的に、音場処理は、処理された音場記述が取得される空間フィルタを使用して行われ、処理された音場記述は、レンダリングされたときに、空間フィルタリングされた音場記述の印象を提供する。特に、音場処理は、空間変換領域に関連して実行される。特に、音場表現は、オーディオ信号領域内の複数のオーディオ信号を含み、これらのオーディオ信号は、ラウドスピーカ信号、マイクロフォン信号、アンビソニックス信号、またはオーディオオブジェクト信号もしくはオーディオオブジェクトコード化信号などの他のマルチオーディオ信号表現であり得る。音場プロセッサは、定義された基準点または定義された聴取向きと目標聴取位置または目標聴取向きとの間の偏差が、前方変換規則または後方変換規則が関連付けられた空間変換領域において適用されるように、音場表現を処理するように構成される。さらに、音場プロセッサは、処理された音場記述を再びオーディオ信号領域において生成するように構成され、オーディオ信号領域は、再び、時間領域または時間/周波数領域であり、処理された音場記述は、場合によって、アンビソニックス信号、ラウドスピーカ信号、バイノーラル信号、および/またはオーディオオブジェクト信号もしくは符号化オーディオオブジェクト信号を含み得る。

実装形態に応じて、音場プロセッサによって実行される処理は、空間変換領域への前方変換を含み得、空間変換領域における信号、すなわち、仮想位置における仮想スピーカのための仮想オーディオ信号は、実際に計算されるか、アプリケーションに応じて、変換領域において空間フィルタを使用して空間フィルタリングされるか、またはいかなるオプションの空間フィルタリングもなしに、後方変換規則を使用してオーディオ信号領域に変換し戻される。したがって、この実装形態では、前方変換処理の出力において仮想スピーカ信号が実際に計算され、処理された音場表現を表すオーディオ信号は、実際には、後方変換規則を使用する後方空間変換の出力として計算される。

しかしながら、別の実装形態において、仮想スピーカ信号は、実際に計算されない。その代わりに、前方変換規則、オプションの空間フィルタ、および後方変換規則のみが計算され、変換定義を取得するために組み合わされ、この変換定義は、好ましくは行列の形式において、処理された音場表現、すなわち、オーディオ信号領域における個々のオーディオ信号を取得するために入力音場表現に適用される。したがって、前方変換規則と、オプションの空間フィルタと、後方変換規則とを使用するそのような処理は、仮想スピーカ信号が実際に計算されたかのように、同じ処理された音場表現を結果として生じる。しかしながら、このような変換定義の使用では、仮想スピーカ信号は、実際に計算される必要はなく、個々の規則を組み合わせることによって生成される行列などの個々の変換/フィルタリング規則の組合せのみが計算され、オーディオ信号領域においてオーディオ信号に適用される。

さらに、別の実施形態は、異なる目標聴取位置および/または目標向きについて、たとえば、位置および向きの離散的なグリッドについて事前に計算された変換定義を有するメモリの使用に関する。実際の目標位置または目標向きに応じて、最もよくマッチする事前に計算され記憶された変換定義が、メモリ内で識別され、メモリから取り出され、オーディオ信号領域におけるオーディオ信号に適用されなければならない。

前方空間変換規則、空間フィルタリング、および後方空間変換規則は、すべて線形操作であり、仮想スピーカ信号の明示的な計算なしに、互いに組み合わされ、「シングルショット」操作において適用され得るので、そのような事前に計算された規則または変換定義(それが完全な変換定義だろうが部分的な変換定義のみであろうが)の使用は、有用である。

実装形態に応じて、一方では前方変換規則と空間フィルタリングとを組み合わせることによって取得される部分的変換定義、または空間フィルタリングと後方変換規則とを組み合わせることによって取得される部分的変換定義は、前方変換または後方変換のいずれかのみが仮想スピーカ信号を使用して明示的に計算されるように適用され得る。したがって、空間フィルタリングは、前方変換規則または後方変換規則のいずれかと組み合わされ得、したがって、処理動作は、場合によって、節約され得る。

実施形態は、異なる視点からの一貫した空間音再生のために、仮想ラウドスピーカ領域に関連するサウンドシーン修正が得られる点で有利である。

好ましい実施形態は、再生側においてオーディオ視点を随意に変更することを依然として可能にしながら、空間音が単一の基準場所において記録または単一の基準場所に関して表現される実際的な方法について説明する。オーディオ視点の変更は、たとえば、回転または平行移動だけでなく、空間フィルタリングを含む音響ズームなどの効果であり得る。記録側における空間音は、たとえば、マイクロフォンアレイを使用して記録され得、アレイ位置は、基準位置を表す(マイクロフォンアレイがわずかに異なる位置に配置された複数のマイクロフォンで構成され得る場合であっても、単一の記録場所と呼ばれ、マイクロフォンアレイの広がりは、記録側のサイズと比較して無視できる)。記録場所における空間音は、(高次の)アンビソニックス信号でも表され得る。さらに、実施形態は、ラウドスピーカ信号を入力として使用するように一般化され得、一方、ラウドスピーカ設定のスイートスポットは、単一の基準場所を表す。記録された空間オーディオの視点を基準場所に対して変更するために、記録された空間音は、仮想スピーカ領域に変換される。仮想ラウドスピーカの位置を変更し、基準位置に対する仮想聴取位置および向きに応じて仮想ラウドスピーカ信号をフィルタリングすることによって、空間音の視点は、希望通りに調整され得る。最先端のパラメトリック信号処理[VirtualMic]とは対照的に、提示されている手法は、完全に線形であり、非線形処理のアーティファクトを回避する。[AmbiTrans]の著者は、たとえば、回転、ワープ、および指向性ラウドネス修正を達成するために、空間サウンドシーンが仮想ラウドスピーカ領域において修正される関連手法について説明している。しかしながら、この手法は、基準場所に対して任意の仮想聴取位置において一貫したオーディオレンダリングを実現するために、空間サウンドシーンがどのように修正され得るかについて明らかにしていない。さらに、[AmbiTrans]における手法は、アンビソニックス入力のみに対する処理について説明しているが、実施形態は、アンビソニックス入力、マイクロフォン入力、およびラウドスピーカ入力に関する。

さらなる実装形態は、球面ビデオなどの対応するビデオ画像の異なる空間変換を模倣するために、オーディオ視点の空間変換が実行され、オプションで対応する空間フィルタリングが実行される処理に関する。処理の入力および出力は、実施形態では、一次アンビソニックス(FOA)信号または高次アンビソニックス(HOA)信号である。前述のように、処理全体は、単一の行列乗算として実装され得る。

本発明の好ましい実施形態について、続いて、添付図面を参照して論じる。

音場プロセッサの概略ブロック図である。様々な次数およびモードに関する球面調和関数の可視化を示す図である。仮想ラウドスピーカ信号を取得するための例示的なビームフォーマを示す図である。仮想ラウドスピーカ信号をフィルタリングするために使用される例示的な空間ウィンドウを示す図である。考慮されている座標系における例示的な基準位置および聴取位置を示す図である。一貫したオーディオおよびビデオレンダリングのための360°ビデオ画像の標準的な投影と対応するオーディオ聴取位置とを示す図である。一貫したオーディオ/ビデオレンダリングのための360°ビデオ画像の修正された投影と対応する修正されたオーディオ聴取位置とを示す図である。標準的な投影の場合のビデオ投影を示す図である。リトルプラネット投影の場合のビデオ投影を示す図である。一実施形態における音場表現を処理するための装置の実施形態を示す図である。音場プロセッサの実装形態を示す図である。位置修正および後方変換定義計算の実装形態を示す図である。完全な変換定義を使用する実装形態を示す図である。部分的な変換定義を使用する音場プロセッサの実装形態を示す図である。さらなる部分的な変換定義を使用する音場プロセッサの別の実装形態を示す図である。仮想スピーカ信号の明示的な計算を使用する音場プロセッサの実装形態を示す図である。事前に計算された変換定義または規則を有するメモリを使用する実施形態を示す図である。プロセッサと変換定義計算機とを使用する実施形態を示す図である。アンビソニックス入力のための空間変換の実施形態を示す図である。ラウドスピーカチャネルのための空間変換の実施形態を示す図である。マイクロフォン信号のための空間変換の実施形態を示す図である。オーディオオブジェクト信号入力のための空間変換の実施形態を示す図である。アンビソニックス出力を取得するための(逆)空間変換の実装形態を示す図である。ラウドスピーカ出力信号を取得するための(逆)空間変換の実装形態を示す図である。バイノーラル出力を取得するための(逆)空間変換の実装形態を示す図である。図13cの代替においてバイノーラル信号を取得するための(逆)空間変換の実装形態を示す図である。仮想ラウドスピーカ信号の明示的な計算を用いて音場表現を処理するための方法または装置のためのフローチャートである。仮想ラウドスピーカ信号の明示的な計算なしで音場表現を処理するための方法または装置の実施形態のためのフローチャートである。

図8は、音場表現のための定義された基準点または定義された聴取向きに関連する音場表現を処理するための装置を示す。音場表現は、入力インターフェース900を介して取得され、入力インターフェース900の出力において、定義された基準点または定義された聴取向きに関連する音場表現1001が利用可能である。さらに、この音場表現は、空間変換領域に関連して動作する音場プロセッサ1000に入力される。言い換えれば、音場プロセッサ1000は、偏差または空間フィルタ1030が、前方変換規則1021および後方変換規則1051が関連付けられた空間変換領域に適用されるように、音場表現を処理するように構成される。

特に、音場プロセッサは、定義された基準点からの目標聴取位置の偏差を使用して、または定義された聴取向きからの目標聴取向きの偏差を使用して、音場表現を処理するように構成される。偏差は、検出器1100によって取得される。代替的または追加的に、検出器1100は、偏差を実際に計算することなく、目標聴取位置または目標聴取向きを検出するように実装される。目標聴取位置および/もしくは目標聴取向き、または代替的には、定義された基準点と目標聴取位置との間の偏差、もしくは定義された聴取向きと目標聴取向きとの間の偏差は、音場プロセッサ1000に転送される。音場プロセッサは、処理された音場記述が取得されるように、偏差を使用して音場表現を処理し、処理された音場記述は、レンダリングされたときに、定義された基準点とは異なる目標聴取位置における音場表現の印象、または定義された聴取向きとは異なる目標聴取向きに対する音場表現の印象を提供する。代替的または追加的に、音場プロセッサは、処理された音場記述が取得されるように、空間フィルタを使用して音場表現を処理するように構成され、処理された音場記述は、レンダリングされたときに、空間フィルタリングされた音場記述、すなわち、空間フィルタによってフィルタリングされた音場記述の印象を提供する。

したがって、空間フィルタリングが実行されるかどうかに関係なく、音場プロセッサ1000は、偏差または空間フィルタ1030が、前方変換規則1021および後方変換規則1051が関連付けられた空間変換領域において適用されるように、音場表現を処理するように構成される。前方および後方変換規則は、仮想位置における仮想スピーカのセットを使用して導出されるが、仮想スピーカのための信号を明示的に計算する必要はない。

好ましくは、音場表現は、2または3以上であるいくつかの音場成分を含む。さらに、好ましくは、検出器1100は、処理するための装置の明示的な特徴として提供される。しかしながら、別の実施形態において、音場プロセッサ1000は、目標聴取位置または目標聴取向きまたは対応する偏差のための入力を有する。さらに、音場プロセッサ1000は、処理された音場記述1201を出力し、処理された音場記述1201は、出力インターフェース1200に転送され、次いで、処置された音場記述1201の伝送または記憶のために出力され得る。伝送の1つの種類は、たとえば、バイノーラル出力に関する(実際の)ラウドスピーカを介するまたはヘッドフォンを介する処理された音場記述の実際のレンダリングである。代替的に、たとえば、アンビソニックス出力の場合のように、処理された音場記述1201は、出力インターフェース1200によって出力され、アンビソニックスサウンドプロセッサに転送/入力され得る。

図9aは、音場プロセッサ1000の好ましい実装形態を示す。特に、音場表現は、オーディオ信号領域における複数のオーディオ信号を含む。したがって、音場プロセッサ1000への入力は、複数のオーディオ信号を含み、好ましくは、アンビソニックス信号、ラウドスピーカチャネル、オーディオオブジェクトデータ、またはマイクロフォン信号などの少なくとも2つまたは3つの異なるオーディオ信号を含む。オーディオ信号領域は、好ましくは、時間領域または時間/周波数領域である。

さらに、音場プロセッサ1000は、偏差または空間フィルタが、前方変換ブロック1020によって取得されるような前方変換規則1021が関連付けられた、または後方変換ブロック1050によって取得される後方変換規則1051が関連付けられた空間変換領域において適用されるように、音場表現を処理するように構成される。さらに、音場プロセッサ1000は、オーディオ信号領域において処理された音場記述を生成するように構成される。したがって、好ましくは、ブロック1050の出力、すなわち、ライン上の信号1201は、前方変換ブロック1020への入力1001と同じ領域にある。

仮想スピーカ信号の明示的な計算が実行されるかどうかに応じて、前方変換ブロック1020は、前方変換を実際に実行し、後方変換ブロック1050は、後方変換を実際に変換する。仮想スピーカ信号の明示的な計算なしに、変換領域に関する処理のみが実行される他の実装形態において、音場処理の目的のために、前方変換ブロック1020は、前方変換規則1021を出力し、後方変換ブロック1050は、後方変換規則1051を出力する。さらに、空間フィルタの実装に関して、空間フィルタは、空間フィルタブロック1030として適用されるか、または空間フィルタは、空間フィルタ規則1031を適用することによって反映されるかのいずれかである。音場処理の出力、すなわち、信号1201は、レンダリングされたときに、定義された基準点とは異なる目標聴取位置における音場表現の印象、または定義された聴取向きとは異なる目標聴取向きに対する音場表現の印象を提供するので、両方の実装形態、すなわち、明示的な仮想スピーカ信号の明示的な計算がある、またはなしの実装形態は、互いに等価である。この目的のために、空間フィルタ1030および後方変換ブロック1050は、好ましくは、目標位置および/または目標向きを受信する。

図9bは、位置修正操作の好ましい実装形態を示す。この目的のために、仮想スピーカ位置決定器1040aが提供される。ブロック1040aは、入力として、典型的には、定義された基準点の周りの球上に均一に分散された仮想スピーカ位置におけるいくつかの仮想スピーカの定義を受信する。好ましくは、250個の仮想スピーカが想定される。一般に、有用な高品質の音場処理操作を提供するには、50個以上の仮想スピーカの数および/または500個以下の仮想スピーカの数で十分である。

所与の仮想スピーカに応じて、かつ基準位置および/または基準向きに応じて、ブロック1040aは、基準位置および/または基準向きに関連する各仮想スピーカの方位角/仰角を生成する。この情報は、好ましくは、ブロック1040aへの入力において定義された仮想スピーカのための仮想スピーカ信号が明示的に(または暗黙的に)計算され得るように、前方変換ブロック1020に入力される。

実装形態に応じて、一方では対応する元のまたは事前定義された基準点に向けられた、または後方変換に関しては、目標向きに向けられたスピーカの向きに対応する向きを指すベクトルなどの直交座標または直交座標方向情報などの、方位/仰角とは異なる仮想スピーカに関する他の定義が与えられ得る。

ブロック1040bは、入力として、目標位置もしくは目標向き、または代替的もしくは追加的に、目標聴取位置もしくは目標聴取向きから定義された基準点もしくは定義された聴取向きまでの間の位置/向きの偏差を受信する。次いで、ブロック1040bは、ブロック1040aによって生成されたデータおよびブロック1040bに入力されたデータから、目標位置および/または目標向きに関連する各仮想スピーカの方位角/仰角を計算し、この情報は、後方変換定義1050に入力される。したがって、ブロック1050は、修正された仮想スピーカ位置/向きを用いて後方変換規則を実際に適用するか、または仮想スピーカ信号の明示的な使用および処理なしの実装形態について図9aに示されているように後方変換規則1051を出力することができる。

図10aは、音場表現1001から、処理された音場表現1201が計算されるように、前方変換規則1021、空間フィルタ1031、および後方変換規則1051からなる変換行列などの完全な変換定義の使用に関連する実装形態を示す。

図10bに示されている別の実装形態において、前方変換規則1021と空間フィルタ1031とを組み合わせることによって、部分的な変換行列などの部分的な変換定義が取得される。したがって、部分的な変換定義1072の出力において、空間フィルタリングされた仮想スピーカ信号が取得され、この信号は、次いで、処理された音場表現1201を取得するために後方変換1050によって処理される。

図10cに示されているさらなる実装形態において、音場表現は、空間フィルタへの入力における実際の仮想スピーカ信号を取得するために、前方変換1020に入力される。空間フィルタ1031および後方変換規則1051の組合せによって、別の(部分的な)変換定義1073が計算される。したがって、ブロック1201の出力において、処理された音場表現、たとえば、時間領域または時間/周波数領域などのオーディオ信号領域における複数のオーディオ信号が取得される。

図10dは、空間領域における明示的な信号を用いる完全分離の実施形態を示す。この実装形態において、前方変換が音場表現に適用され、ブロック1020の出力において、たとえば、250個の仮想スピーカ信号のセットが取得される。空間フィルタ1030が適用され、ブロック1030の出力において、たとえば、250個の仮想スピーカ信号が取得される。空間フィルタリングされた仮想スピーカ信号のセットは、出力において、処理された音場表現1201を取得するために、空間後方変換1050を受ける。

実装形態に応じて、空間フィルタ1031を使用する空間フィルタリングが実行されるか、または実行されない。空間フィルタを使用する場合、および位置/向きの修正を実行しない場合、前方変換1020および後方変換1050は、同じ仮想スピーカ位置に依存する。それにもかかわらず、空間フィルタ1031は、仮想スピーカ信号が明示的に計算されるかどうかに関係なく、空間変換領域において適用されている。

さらに、いかなる空間フィルタリングも実行しない場合、目標聴取位置および目標向きへの聴取位置または聴取向きの修正が実行され、したがって、一方では逆/後方変換、他方では前方変換において、仮想スピーカ位置/向きは、異なることになる。

図11aは、1080において示されているように、位置および/または向きの離散的なグリッドについて事前に計算された複数の変換定義(完全または部分的)、または前方規則、後方規則、もしくはフィルタ規則を有するメモリとの関連における音場プロセッサの実装形態を示す。

検出器1100は、目標位置および/または目標向きを検出し、メモリ1080内の最も近い変換定義または前方/後方/フィルタリング規則を見つけるために、この情報を、プロセッサ1081に転送する。この目的のために、プロセッサ1081は、対応する変換定義または事前に計算された前方/後方/フィルタリング規則が記憶される位置および向きの離散的なグリッドの知識を有する。プロセッサ1081が目標位置および/または目標向きに可能な限り近いグリッド点を特定するとすぐに、この情報は、検出された目標位置および/または向きについて対応する完全なもしくは部分的な変換定義または前方/後方/フィルタリング規則を取得するように構成されたメモリリトリーバ1082に転送される。他の実施形態において、数学的な観点から最も近いグリッド点を使用する必要はない。その代わりに、最も近いグリッド点ではなく、目標位置または向きに関連するグリッド点を決定することが有用であり得る。一例は、数学的観点から最も近いグリッド点ではなく、2番目または3番目または4番目に近いものが最も近いものよりも優れていることであり得る。その理由は、最適化は、2つ以上の次元を有し、方位角の偏差はより大きくするが、仰角からの偏差はより小さくすることがよりよい場合があるためである。この情報は、入力として音場表現を受信し、処理された音場表現1201を出力する対応する(行列)プロセッサ1090に入力される。事前に計算された変換定義は、N行およびM列の次元を有する変換行列であり得、ここで、NおよびMは、2よりも大きい整数であり、音場表現は、M個のオーディオ信号を有し、処理された音場表現1201は、N個のオーディオ信号を有する。数学的に転置された定式化において、状況は、その逆であり得、すなわち、事前に計算された変換定義は、M行およびN列の次元を有する変換行列であり得、または音場表現は、N個のオーディオ信号を有し、処理された音場表現1201は、M個のオーディオ信号を有する。

図11aは、行列プロセッサ1090の別の実装形態を示す。この実装形態において、行列プロセッサは、入力として基準位置/向きと目標位置/向きか、または図には示されていないが、対応する偏差を受信する行列計算機1092によって供給される。この偏差に基づいて、計算機1092は、図10cに関して論じられているように、部分的または完全な変換定義のいずれも計算し、この規則を行列プロセッサ1090に転送する。完全な変換定義1071の場合、行列プロセッサ1090は、たとえば、分析フィルタバンクによって取得された時間/周波数タイルごとに、結合された行列1071を使用して単一の行列演算を実行する。部分的な変換定義1072または1073の場合、プロセッサ1090は、図10bの場合についてフィルタリングされた仮想スピーカ信号を取得するため、または仮想ラウドスピーカ信号のセットからオーディオ信号領域における処理された音フィルタ表現1201を取得するために、実際の前方または後方変換と、それに加えて行列演算とを実行する。

以下のセクションにおいて、実施形態について説明され、どのように異なる空間音表現が仮想ラウドスピーカ領域に変換され、次いで、元の基準場所に対して定義された任意の仮想聴取位置(任意の聴取向きを含む)における一貫した空間音再生を達成するために修正され得るかについて説明される。

図1は、提案される新規の手法の概略ブロック図を示す。いくつかの実施形態は、全体図において示されているビルディングブロックのサブセットのみを使用し、アプリケーションシナリオに応じて特定の処理ブロックを破棄する。

実施形態への入力は、時間領域または時間-周波数領域における複数の(2つ以上の)オーディオ入力信号である。時間領域入力信号は、分析フィルタバンク(1010)を使用して時間-周波数領域にオプションで変換される。入力信号は、たとえば、ラウドスピーカ信号、マイクロフォン信号、オーディオオブジェクト信号、またはアンビソニックス成分であり得る。オーディオ入力信号は、定義された基準位置および向きに関連する空間音場を表す。基準位置および向きは、たとえば、0°の方位角および仰角に面するスイートスポット(ラウドスピーカ入力信号の場合)、マイクロフォンアレイの位置および向き(マイクロフォン入力信号の場合)、または座標系の中心(アンビソニックス入力信号の場合)であり得る。

入力信号は、第1または前方空間変換(1020)を使用して仮想ラウドスピーカ領域に変換される。第1の空間変換(1020)は、たとえば、ビームフォーミング(マイクロフォン入力信号を使用する場合)、ラウドスピーカ信号アップミキシング(ラウドスピーカ入力信号を使用する場合)、または平面波分解(アンビソニックス入力信号を使用する場合)であり得る。オーディオオブジェクト入力信号について、第1の空間変換は、オーディオオブジェクトレンダラ(たとえば、VBAP[Vbap]レンダラ)であり得る。第1の空間変換(1020)は、仮想ラウドスピーカ位置のセットに基づいて計算される。通常、仮想ラウドスピーカ位置は、球面上に均一に分散され、基準位置を中心に定義され得る。

オプションで、仮想ラウドスピーカ信号は、空間フィルタリング(1030)を使用してフィルタリングされ得る。空間フィルタリング(1030)は、所望の聴取位置または向きに応じて、仮想ラウドスピーカ領域において音場表現をフィルタリングするために使用される。これは、たとえば、聴取位置が音源に近づいたときにラウドネスを大きくするために使用され得る。同じことは、そのようなサウンドオブジェクトが配置され得る特定の空間領域についても当てはまる。

仮想ラウドスピーカ位置は、所望の聴取位置および向きに応じて、位置修正ブロック(1040)において修正される。修正された仮想ラウドスピーカ位置に基づいて、(フィルタリングされた)仮想ラウドスピーカ信号は、2つ以上の所望の出力オーディオ信号を取得するために、第2または後方空間変換(1050)を使用して、仮想ラウドスピーカ領域から逆変換される。第2の空間変換(1050)は、たとえば、球面調和分解(出力信号がアンビソニックス領域において取得されるべき場合)、マイクロフォン信号(出力信号がマイクロフォン信号領域において取得されるべき場合)、またはラウドスピーカ信号(出力信号がラウドスピーカ領域において取得されるべき場合)であり得る。第2の空間変換(1050)は、第1の空間変換(1020)から独立している。時間-周波数領域における出力信号は、合成フィルタバンク(1060)を使用してオプションで時間領域に変換され得る。

次いで第2の空間変換(1050)において使用される仮想聴取位置の位置修正(1040)により、出力信号は、基準位置および向きとは異なり得る所望の視線方向を有する所望の聴取位置における空間音を表す。

いくつかのアプリケーションにおいて、実施形態は、たとえば、様々なユーザ定義の視点から360°カメラのビデオをレンダリングするときに、一貫したオーディオ/ビデオ再生のためにビデオアプリケーションと一緒に使用される。この場合、基準位置および向きは、通常、360°ビデオカメラの初期位置および向きに対応する。次いで、ブロック(1040)において修正された仮想ラウドスピーカ位置を計算するために使用される所望の聴取位置および向きは、360°ビデオ内のユーザ定義の視聴位置および向きに対応する。そうすることによって、ブロック(1050)において計算された出力信号は、360°ビデオ内のユーザ定義の位置および向きの視点からの空間音を表す。明らかに、同じ原理は、完全な(360°)視野を完全にはカバーせず、その一部のみをカバーするアプリケーション、たとえば、ユーザ定義の視聴位置および向きを可能にするアプリケーション(たとえば、180°視野のアプリケーション)に適用され得る。

実施形態において、音場表現は、3次元ビデオまたは球面ビデオに関連付けられ、定義された基準点は、3次元ビデオまたは球面ビデオの中心である。検出器1100は、実際の視聴点が中心とは異なることを示すユーザ入力を検出するように構成され、実際の視聴点は、目標聴取位置と同一であり、検出器は、ユーザ入力から検出された偏差を導出するように構成されるか、または検出器1100は、実際の視聴向きが中心に向けられた定義された聴取向きとは異なることを示すユーザ入力を検出するように構成され、実際の視聴向きは、目標聴取向きと同一であり、検出器は、ユーザ入力から検出された偏差を導出するように構成される。球面ビデオは、360度ビデオであり得るが、180度以上をカバーする球面ビデオなどの他の(部分的)球面ビデオも同様に使用され得る。

さらなる実施形態において、音場プロセッサは、処理された音場表現が、3次元ビデオもしくは球面ビデオのための表示領域に対する音場記述内に含まれる少なくとも1つのサウンドオブジェクトの標準的なもしくはリトルプラネット投影、または標準的なもしくはリトルプラネット投影間の移行を表すように、音場表現を処理するように構成され、表示領域は、ユーザ入力と定義された視聴方向とによって定義される。そのような移行は、たとえば、図7bにおけるhの大きさが、ゼロと、中心点から点Sまで延在する全長との間にある場合である。

実施形態は、視覚的ズームを模倣する音響ズームを達成するために適用され得る。視覚的ズームにおいて、特定の領域にズームインすると、(画像中央における)関心領域は、視覚的により近くに現れるが、画像側方における不要なビデオオブジェクトは、外側に移動し、最終的に画像から消える。音響的には、一貫したオーディオレンダリングは、ズームインすると、ズーム方向におけるオーディオソースの音がより大きくなるが、側方におけるオーディオソースが外側に移動し、最終的には無音になることを意味する。明らかに、そのような効果は、仮想聴取位置をズーム方向において位置する仮想ラウドスピーカに近づけることに対応する(詳細については、実施形態3を参照)。さらに、空間フィルタリング(1030)における空間ウィンドウは、対応する仮想ラウドスピーカがズームされたビデオ画像に従って関心領域外にあるときに、仮想ラウドスピーカの信号が減衰されるように定義され得る(詳細については、実施形態2を参照)。

多くのアプリケーションにおいて、ブロック(1020)において使用される入力信号、およびブロック(1050)において計算される出力信号は、同じ数の信号を有する同じ空間領域において表される。これは、たとえば、特定のアンビソニックス次数のアンビソニックス成分が入力信号として使用される場合、出力信号は、同じ次数のアンビソニックス成分に対応することを意味する。それにもかかわらず、ブロック(1050)において計算された出力信号は、入力信号と比較して、異なる空間領域において、異なる数の信号で表され得る。たとえば、特定の数のチャネルを有するラウドスピーカ領域において出力信号を計算しながら、特定の次数のアンビソニックス成分を入力信号として使用することが可能である。

以下では、図1における処理ブロックの特定の実施形態について説明する。分析フィルタバンク(1010)および合成フィルタバンク(1060)について、最先端のフィルタバンク、または短時間フーリエ変換(STFT)などの時間-周波数変換を使用することができる。典型的には、48000Hzのサンプリング周波数において、1024サンプルの変換長と512サンプルのホップサイズとを有するSTFTを使用することができる。通常、処理は、時間ごと周波数ごとに個別に実行される。一般性を失うことなく、時間-周波数領域処理は、以下のように例示される。しかしながら、処理は、時間領域においても等価の方法で実行され得る。

実施形態1a:アンビソニックス入力に対する第1の空間変換(1020)(図12a)
この実施形態において、第1の空間変換(1020)への入力は、時間-周波数領域におけるL次アンビソニックス信号である。アンビソニックス信号は、各チャネル(アンビソニックス成分または係数と呼ばれる)がいわゆる空間基底関数の係数に相当するマルチチャネル信号を表す。球面調和関数[FourierAcoust]または円筒調和関数[FourierAcoust]など、様々なタイプの空間基底関数が存在する。円筒調和関数は、(たとえば、2D音再生の場合)2D空間における音場を記述するときに使用され得、(たとえば、2Dおよび3D音再生の場合)2Dおよび3D空間における音場を記述するために使用され得る。一般性を失うことなく、球面調和関数を用いる後者の場合について、以下で検討する。この場合、(L+1)²個の個別の信号(成分)からなるアンビソニックス信号は、ベクトル
a(k,n)=[A_0,0(k,n),A_1,-1(k,n),...,A_l,m(k,n),...,A_L,L(k,n)]^T
によって示され、ここで、kおよびnは、それぞれ周波数インデックスおよび時間インデックスであり、0≦l≦Lは、レベル(次数)であり、-l≦m≦lは、アンビソニックス係数(成分)A_l,m(k,n)のモードである。一次アンビソニックス信号(L=1)は、たとえば、SoundFieldマイクロフォンを使用して測定され得る。高次アンビソニックス信号は、たとえば、EigenMikeを使用して測定され得る。記録場所は、それぞれ、座標系の中心と基準位置とを表す。

アンビソニックス信号a(k,n)を仮想ラウドスピーカ領域に変換するために、a(k,n)に対して最先端の平面波分解(PWD)1022、すなわち、逆球面調和分解を適用することができることが好ましく、これは、[FourierAcoust]のように計算され得る。

項

は、方位角φ_jおよび仰角

において評価された次数lおよびモードmの球面調和関数[FourierAcoust]である、角度

は、j番目の仮想ラウドスピーカの位置を表す。信号

は、j番目の仮想ラウドスピーカの信号として解釈され得る。

球面調和関数の例が、様々なレベル(次数)lおよびモードmに関する球面調和関数を図2に示されている。次数lは、レベルと呼ばれることもあり、モードmは、度と呼ばれることもある。図2に見られるように、ゼロ次(ゼロレベル)l=0の球面調和関数は、全方向音圧を表し、1次(第1のレベル)l=1の球面調和関数は、直交座標系の次元に沿った双極子成分を表す。

仮想ラウドスピーカの方向

を球面上に均一に分散されるように定義することが好ましい。しかしながら、アプリケーションに応じて、方向は、異なって選択され得る。仮想ラウドスピーカの総数は、Jによって示される。Jが大きいほど、より高い計算の複雑さを犠牲にして、空間処理の精度が高くなることが留意されるべきである。実際には、仮想ラウドスピーカの妥当な数は、たとえば、J=250によって与えられる。

J個の仮想ラウドスピーカ信号は、仮想ラウドスピーカ領域におけるオーディオ入力信号を表す

によって定義されたベクトルにおいて集められる。

明らかに、この実施形態におけるJ個の仮想ラウドスピーカ信号s(k,n)は、単一の行列乗算をオーディオ入力信号に適用することによって計算され得、すなわち、

となり、ここで、J×L行列

は、様々なレベル(次数)、モード、および仮想ラウドスピーカ位置に関する球面調和関数を含み、すなわち、

となる。

実施形態1b:ラウドスピーカ入力に対する第1の空間変換(1020)(図12b)
この実施形態において、第1の空間変換(1020)への入力は、M個のラウドスピーカ信号である。ラウドスピーカ対応設定は、任意であり得、たとえば、一般的な5.1、7.1、11.1、または22.2のラウドスピーカ設定であり得る。ラウドスピーカ設定のスイートスポットは、基準位置を表す。m番目のラウドスピーカ位置(m≦M)は、方位角

および仰角

によって表される。

この実施形態において、M個の入力ラウドスピーカ信号は、J個の仮想ラウドスピーカ信号に変換され得、ここで、仮想ラウドスピーカは、角度

に位置する。ラウドスピーカの数Mが仮想ラウドスピーカの数Jよりも少ない場合、これは、ラウドスピーカのアップミックス問題を表す。ラウドスピーカの数Mが仮想ラウドスピーカの数Jを超える場合、それは、ダウンミックス問題1023を表す。一般に、ラウドスピーカフォーマット変換は、たとえば、[FormatConv]において説明されている仮想またはパッシブアップミックスなどの最先端の静的(信号に依存しない)ラウドスピーカフォーマット変換アルゴリズムを使用することによって達成され得る。この手法において、仮想ラウドスピーカ信号は、

として計算され、ここで、ベクトル
a(k,n)=[A₁(k,n),A₂(k,n),...,A_M(k,n)]^T
は、時間-周波数領域におけるM個の入力ラウドスピーカ信号を含み、kおよびnは、それぞれ周波数インデックスおよび時間インデックスである。さらに、

は、J個の仮想ラウドスピーカ信号である。行列Cは、たとえば、VBAPパンニング方式[Vbap]を使用することによって、[FormatConv]において説明されているように計算され得る静的フォーマット変換行列である。フォーマット変換行列は、入力ラウドスピーカのM個の位置と仮想ラウドスピーカのJ個の位置とに依存する。

好ましくは、仮想ラウドスピーカの角度

は、球面上に均一に分散される。実際には、仮想ラウドスピーカの数Jは、任意に選択され得るが、数が多いほど、より高い計算の複雑さを犠牲にして、空間処理の精度が高くなる。実際には、仮想ラウドスピーカの妥当な数は、たとえば、J=250によって与えられる。

実施形態1c:マイクロフォン入力に対する第1の空間変換(1020)(図12c)
この実施形態において、第1の空間変換(1020)への入力は、M個のマイクロフォンを有するマイクロフォンアレイの信号である。マイクロフォンは、無指向性、カージオイド特性、またはダイポール特性などの様々な指向性を有することができる。マイクロフォンは、同時マイクロフォンアレイ(指向性マイクロフォンを使用する場合)、線形マイクロフォンアレイ、円形マイクロフォンアレイ、不均一平面アレイ、または球形マイクロフォンアレイなどの様々な構成において配置され得る。多くのアプリケーションにおいて、平面または球形マイクロフォンアレイが好まれる。実際の典型的なマイクロフォンアレイは、たとえば、3cmのアレイ半径のM=8個の無指向性マイクロフォンを有する円形マイクロフォンアレイによって与えられる。

M個のマイクロフォンは、位置d_1...Mに位置する。アレイ中心は、基準位置を表す。時間-周波数領域におけるM個のマイクロフォン信号は、
a(k,n)=[A₁(k,n),A₂(k,n),...,A_M(k,n)]^T
を与えられ、ここで、kおよびnは、それぞれ周波数インデックスおよび時間インデックスであり、A_1...M(k,n)は、d_1...Mに位置するM個のマイクロフォンの信号である。

仮想ラウドスピーカ信号を計算するために、ビームフォーミング1024を入力信号a(k,n)に適用し、ビームフォーマを仮想ラウドスピーカの位置に向けることが好ましい。一般に、ビームフォーミングは、

のように計算される。ここで、b_j(k,n)は、

として示される、j番目の仮想ラウドスピーカの信号を計算するためのビームフォーマ重みである。通常、ビームフォーマ重みは、時間と周波数とに依存することができる。前の実施形態におけるように、角度

は、j番目の仮想ラウドスピーカの位置を表す。好ましくは、方向

は、球面上に均一に分散される。仮想ラウドスピーカの総数は、Jによって示される。実際には、この数は、任意に選択され得るが、数が多いほど、より高い計算の複雑さを犠牲にして、空間処理の精度が高くなる。実際には、仮想ラウドスピーカの妥当な数は、たとえば、J=250によって与えられる。

ビームフォーミングの一例が図3に示されている。ここで、Oは、マイクロフォンアレイ(白い円によって示されている)が位置する座標系の中心である。この位置は、基準位置を表す。仮想ラウドスピーカの位置は、黒い点によって示されている。j番目のビームフォーマのビームは、灰色の領域によって示されている。ビームフォーマは、j番目のラウドスピーカ信号を生成するためにj番目のラウドスピーカ(この場合、j=2)に向けられる。

重みb_j(k,n)を取得するためのビームフォーミング手法は、重みb_j(k,n)が

によって与えられる、いわゆるマッチドビームフォーマを計算することである。ベクトル

は、考慮される周波数帯域kのためのアレイマイクロフォンとj番目の仮想ラウドスピーカ位置の所望の方向

のためのアレイマイクロフォンとの間の相対伝達関数(RTF)を含む。たとえば、RTF

は、キャリブレーション測定を使用して測定され得、または平面波モデル[FourierAcoust]などの音場モデルを使用してシミュレートされ得る。

マッチドビームフォーマを使用する以外に、MVDR、LCMV、マルチチャネルウィーナーフィルタなどの他のビームフォーミング技法が適用され得る。

によって定義されたベクトルにおいて集められる。

となり、ここで、J×M行列c(k)は、J個の仮想ラウドスピーカのためのビームフォーマ重みを含み、すなわち、

となる。

実施形態1d:オーディオオブジェクト信号入力に対する第1の空間変換(1020)(図12d)
この実施形態において、第1の空間変換(1020)への入力は、M個のオーディオオブジェクト信号と、それらに付随する位置メタデータである。実施形態1bと同様に、J個の仮想ラウドスピーカ信号は、たとえば、VBAPパンニング手法[Vbap]を使用して計算され得る。VBAPパンニング手法1025は、オーディオオブジェクト入力信号のM個の位置と仮想ラウドスピーカのJ個の位置とに応じて、J個の仮想ラウドスピーカ信号をレンダリングする。明らかに、VBAPパンニング手法以外のレンダリング手法が代わりに使用され得る。オーディオオブジェクトの位置メタデータは、静的なオブジェクトの位置または時間的に変動するオブジェクトの位置を示し得る。

実施形態2:空間フィルタリング(1030)
空間フィルタリング(1030)は、s(k,n)に空間ウィンドウ

を乗算することによって適用され、すなわち、

となり、ここで、

は、フィルタリングされた仮想ラウドスピーカ信号を示す。空間フィルタリング(1030)は、たとえば、空間音を所望の聴取位置の視線方向に向かって強調するために、または所望の聴取位置の場所が音源もしくは仮想ラウドスピーカ位置に近づく場合に適用され得る。これは、空間ウィンドウ

が、典型的には、通常、所望の聴取位置(ベクトルpによって示される)と所望の聴取向きまたは視線方向(ベクトルlによって示される)とに基づいて計算される非負の実数値ゲイン値に対応することを意味する。

例として、空間ウィンドウ

は、所望の視線方向に向けられた共通の一次空間ウィンドウとして計算され得、これは、所望の聴取位置と仮想ラウドスピーカ位置との間の距離に従ってさらに減衰または増幅され、すなわち、

となる。ここで、

は、j番目の仮想ラウドスピーカ位置に対応する方向ベクトルであり、l=[cosφcosθ,sinφsinθ,sinθ]^Tは、所望の聴取向きに対応する方向ベクトルであり、φは、所望の聴取向きの方位角であり、θは、所望の聴取向きの仰角である。さらに、αは、空間ウィンドウの形状を決定する一次パラメータである。たとえば、α=0.5の場合、カージオイド形状の空間ウィンドウが取得される。カージオイド形状と視線方向φ=45°とを有する対応する例示的な空間ウィンドウが図4に示されている。α=1の場合、空間ウィンドウは、適用されず、距離の重み付けG_j(p)のみが有効になる。距離の重み付けG_j(p)は、所望の聴取位置とj番目の仮想ラウドスピーカとの間の距離に応じて空間音を強調する。重み付けG_j(p)は、たとえば、
G_j(p)=(||n_j-p||)^-β
として計算され得、ここで、p=[x,y,z]は、直交座標における所望の聴取位置である。考慮される座標系の図が図5に示されており、ここで、Oは、基準位置であり、Lは、所望の聴取位置であり、pは、対応する聴取位置ベクトルである。仮想ラウドスピーカは、実線の円上に位置し、黒点は、例示的な仮想ラウドスピーカを表す。上記の式における丸括弧内の項は、所望の聴取位置とj番目の仮想ラウドスピーカ位置との間の距離である。係数βは、距離減衰係数である。たとえば、β=0.5の場合、所望の聴取位置と仮想ラウドスピーカ位置との間の距離に反比例して、j番目の仮想ラウドスピーカに対応するパワーを増幅することになる。これは、仮想ラウドスピーカによって表される音源または空間領域に近づくときにラウドネスを増加させる効果を模倣する。

一般に、空間ウィンドウ

は、任意に定義され得る。音響ズームなどのアプリケーションにおいて、空間ウィンドウは、ズーム方向を中心とする、ズームインするとより狭くなり、ズームアウトするとより広くなる矩形ウィンドウとして定義され得る。ウィンドウ幅は、対応するオーディオオブジェクトがズームされたビデオ画像から消えたときにウィンドウがその側における音源を減衰させるように、ズームされたビデオ画像と一致するように定義され得る。

明らかに、この実施形態におけるフィルタリングされた仮想ラウドスピーカ信号は、単一の要素ごとのベクトル乗算によって仮想ラウドスピーカ信号から計算され得、すなわち、

となり、ここで、

は、要素ごとの積(シューア積)であり、

は、所望の聴取位置および向きが与えられた場合のJ個の仮想ラウドスピーカのためのウィンドウ重みである。J個のフィルタリングされた仮想マイクロフォン信号は、ベクトル

において集められる。

実施形態3:位置修正(1040)
位置修正(1040)の目的は、所望の聴取向きでの所望の聴取位置の視点(POV)から仮想ラウドスピーカ位置を計算することである。

例が、空間シーンの上面図を示す図6において視覚化されている。一般性を失うことなく、基準位置は、Oによって示されている座標系の中心に対応すると仮定される。さらに、基準向きは、正面に向かい、すなわち、ゼロ度の方位角およびゼロ度の仰角(φ=0およびθ=0)である。Oの周りの実線の円は、仮想ラウドスピーカが位置する球面を表す。例として、図は、j番目の仮想ラウドスピーカの可能な位置ベクトルn_jを示す。

図7において、所望の聴取位置は、Lによって示される。基準位置Oと所望の聴取位置Lとの間のベクトルは、pによって与えられる(実施形態2aを参照)。このように、所望の聴取位置のPOVからのj番目の仮想ラウドスピーカの位置は、ベクトル
n'_j=n_j-p
によって表され得る。所望の聴取回転が基準回転とは異なる場合、修正された仮想ラウドスピーカ位置を計算するときに、追加の回転行列が適用され得、すなわち、
n'_j=(n_j-p)R
となる。たとえば、(基準向きに対する)所望の聴取向きが方位角φに対応する場合、回転行列は、[RotMat]のように計算され、

となる。次いで、修正された仮想ラウドスピーカ位置n'_jは、第2の空間変換(1050)において使用される。修正された仮想ラウドスピーカ位置は、修正された方位角φ'_jおよび修正された仰角θ'_jでも表せられ得、すなわち、

となる。

例として、この実施形態において説明されている位置修正は、球面ビデオ画像の異なる投影を使用するときに、一貫したオーディオ/ビデオ再生を達成するために使用され得る。球面ビデオのための異なる投影または視聴位置は、たとえば、ビデオプレーヤのユーザインターフェースを介してユーザによって選択され得る。そのようなアプリケーションにおいて、図6は、球面ビデオの標準的な投影の上面図を表す。この場合、円は、球面ビデオのピクセル位置を示し、水平線は、2次元ビデオ表示(投影面)を示す。投影されたビデオ画像(表示画像)は、投影点から球面ビデオを投影することによって見られ、これは結果として、例示的な画像ピクセルについては破線矢印のようになる。ここで、投影点は、球Oの中心に対応する。標準的な投影を使用する場合、対応する一貫した空間オーディオイメージは、所望の(仮想)聴取位置をO、すなわち、図6に示されている円の中心に置くことによって作成され得る。さらに、仮想ラウドスピーカは、上記で論じたように、球の表面上に、すなわち、描かれた円に沿って位置する。これは、所望の聴取位置が仮想ラウドスピーカのスイートスポットに位置する標準的な空間音再生に対応する。

図7aは、360°ビデオをレンダリングするための一般的な投影を表す、いわゆるリトルプラネット投影を考慮したときの上面図を表す。この場合、球面ビデオが投影される投影点は、原点の代わりに、球の背後の点Lに位置する。このように、これは、投影面上のシフトされたピクセル位置をもたらす。リトルプラネット投影を使用する場合、正しい(一貫した)オーディオイメージは、仮想ラウドスピーカ位置を球の表面上に残しながら、聴取位置を球の背後の点Lに配置することによって作成される。これは、修正された仮想ラウドスピーカ位置が、上記で説明されているように聴取位置Lに対して計算されることを意味する。図7aにおけるベクトルpの長さを変更することによって、(ビデオとオーディオの両方における)異なる投影間のスムーズな遷移が達成され得る。

別の例として、この実施形態における位置修正は、視覚的ズームを模倣する音響ズーム効果を作成するためにも使用され得る。視覚的ズームを模倣するために、仮想ラウドスピーカ位置をズーム方向に移動することができる。この場合、ズームされた画像内でビデオオブジェクトが移動するのと同様に、ズーム方向における仮想ラウドスピーカは、より近くなり、(ズーム方向に対して)横にある仮想ラウドスピーカは、外側に移動することになる。

続いて、図7bおよび図7cを参照する。一般に、空間変換は、たとえば、空間オーディオイメージを、対応する360°ビデオ画像などの異なる投影に整合させるために適用される。図7bは、球面ビデオの標準的な投影の上面図である。円は、球面ビデオを示し、水平線は、ビデオ表示または投影面を示す。ビデオ表示に対する球面画像の回転は、投影の向き(図示せず)であり、球面ビデオに対して任意に設定され得る。表示画像は、実線の矢印によって示されているように、球面ビデオを投影点Sから投影することによって見られる。ここで、投影点Sは、球の中心に対応する。標準的な投影を使用する場合、対応する空間オーディオイメージは、基準点をS、すなわち、図7bに示されている円の中心に置くことによって作成され得る。さらに、仮想ラウドスピーカは、球の表面上、すなわち、図示されている円に沿って位置する。これは、聴取基準位置がスイートスポット、たとえば、図7bの球の中心に位置する標準的な空間音再生に対応する。

図7cは、リトルプラネット投影の上面図を示す。この場合、球面ビデオが投影される投影点Sは、原点の代わりに球の背後に位置する。リトルプラネット投影を使用する場合、正しいオーディオイメージは、仮想ラウドスピーカ位置を球の表面上に残しながら、聴取基準位置を球の背後の位置Sに配置することによって作成される。これは、修正された仮想ラウドスピーカ位置が、投影に依存する聴取基準位置Sに関連して計算されることを意味する。図7cにおける高さhを変更することによって、すなわち、投影点(または聴取基準位置)Sを垂直の実線に沿って移動することによって、異なる投影間のスムーズな遷移が達成され得る。したがって、図7cにおける円の中心とは異なる聴取位置Sが、目標聴取位置であり、図7cにおける表示に対する視線方向とは異なる視線方向が、目標聴取向きである。空間的に変更されたオーディオデータを作成するために、球面調和関数は、たとえば、元の仮想ラウドスピーカ位置の代わりに、修正された仮想ラウドスピーカ位置に対して計算される。修正された仮想ラウドスピーカ位置は、たとえば、図7cに示されているように、またはビデオ投影に従って、聴取基準位置Sを移動することによって見出される。

実施形態4a:アンビソニックス出力に対する第2の空間変換(1050)(図13a)
この実施形態は、アンビソニックス領域におけるオーディオ出力信号を計算するための第2の空間変換(1050)の実装形態について説明する。

所望の出力信号を計算するために、球面調和分解(SHD)1052を使用して(フィルタリングされた)仮想ラウドスピーカ信号

を変換することができ、これは、[FourierAcoust]に従ってJ個の仮想ラウドスピーカ信号すべてにわたる加重和として計算され、

となる。ここで、

は、レベル(次数)lおよびモードmの共役複素球面調和関数である。球面調和関数は、元の仮想ラウドスピーカ位置の代わりに、修正された仮想ラウドスピーカ位置

において評価される。これは、オーディオ出力信号が、所望の聴取向きで所望の聴取位置の視点から作成されることを保証する。明らかに、出力信号A'_l,m(k,n)は、任意のユーザ定義のレベル(次数)L'まで計算され得る。

この実施形態における出力信号は、(フィルタ)仮想ラウドスピーカ信号からの単一の行列乗算としても計算され得、すなわち、

となり、ここで、

は、修正された仮想ラウドスピーカ位置において評価された球面調和関数を含み、
a'(k,n)=[A'_0,0(k,n),A'_1,-1(k,n),…,A'_l,m(k,n),…,A'_L',L'(k,n)]^T
は、所望のアンビソニックスレベル(次数)L'までの出力信号を含む。

実施形態4b:ラウドスピーカ信号に対する第2の空間変換(1050)(図13b)
この実施形態は、ラウドスピーカ領域におけるオーディオ出力信号を計算するための第2の空間変換(1050)の実装形態について説明する。この場合、修正された仮想ラウドスピーカ位置

を考慮して、仮想ラウドスピーカのJ個の(フィルタリングされた)信号

を、所望の出力ラウドスピーカ設定のラウドスピーカ信号に変換することが好ましい。一般に、所望の出力ラウドスピーカ設定は、任意に定義され得る。一般的に使用される出力ラウドスピーカ設定は、たとえば、2.0(ステレオ)、5.1、7.1、11.1、または22.2である。以下では、出力ラウドスピーカの数は、Lによって示され、出力ラウドスピーカの位置は、角度

によって与えられる。

(フィルタリングされた)仮想ラウドスピーカ信号を所望のラウドスピーカフォーマットに変換(1053)するために、実施形態1bと同じ手法を使用することが好ましく、すなわち、静的ラウドスピーカ変換行列を適用する。この場合、所望の出力ラウドスピーカ信号は、

によって計算され、ここで、s'(k、n)は、(フィルタリングされた)仮想ラウドスピーカ信号を含み、a'(k,n)は、L個の出力ラウドスピーカ信号を含み、Cは、フォーマット変換行列である。フォーマット変換行列は、出力ラウドスピーカ設定の角度

と、修正された仮想ラウドスピーカ位置

とを使用して計算される。これは、所望の聴取向きで所望の聴取位置の視点から作成される。変換行列Cは、たとえば、VBAPパンニング手法[Vbap]を使用することによって、[FormatConv]で説明されているように計算され得る。

実施形態4c:バイノーラル出力に対する第2の空間変換(1050)(図13cまたは図13d)
第2の空間変換(1050)は、バイノーラル音再生のためのバイノーラル領域における出力信号を作成することができる。1つの方法は、J個の(フィルタリングされた)仮想ラウドスピーカ信号

に対応する頭部伝達関数(HRTF)を乗算し、結果として生じる信号を合計することであり、すなわち、

となる。ここで、A'_left(k,n)およびA'_right(k,n)は、それぞれ、左耳および右耳のためのバイノーラル出力信号であり、

および

は、j番目の仮想ラウドスピーカのための対応するHRTFである。修正された仮想ラウドスピーカ方向

のためのHRTFが使用されることに留意されたい。これは、バイノーラル出力信号が、所望の聴取向きで所望の聴取位置の視点から作成されることを保証する。

バイノーラル出力信号を作成する代替的な方法は、中間ラウドスピーカフォーマットなど、実施形態4bにおいて説明されているようにラウドスピーカ領域への仮想ラウドスピーカ信号の第1または前方変換1055を実行することである。その後、中間ラウドスピーカフォーマットからのラウドスピーカ出力信号は、出力ラウドスピーカ設定の位置に対応する左耳および右耳のためのHRTFTを適用する(1056)ことによってバイノーラル化され得る。

バイノーラル出力信号は、(フィルタリングされた)仮想ラウドスピーカ信号に行列乗算を適用することによっても計算され得、すなわち、

となり、ここで、

は、それぞれ、左耳および右耳のためのJ個の修正された仮想ラウドスピーカ位置のためのHRTFを含み、ベクトル
a'(k,n)=[A'_left(k,n),A'_right(k,n)]^T
は、2つのバイノーラルオーディオ信号を含む。

実施形態5:行列乗算を使用する実施形態
前の実施形態から、出力信号a'(k,n)は、単一の行列乗算を適用することによって、入力信号a(k,n)から計算され得、すなわち、

となり、ここで、変換行列

は、

として計算され得る。ここで、

は、実施形態1(a～d)において説明されているように計算され得る第1の空間変換のための行列であり、w(p,l)は、実施形態2において説明されているオプションの空間フィルタであり、diag{・}は、ベクトルを、ベクトルが主対角線にある対角行列に変換する演算子を示し、

は、実施形態4(a～c)において説明されているように計算され得る、所望の聴取位置および向きに応じた第2の空間変換のための行列である。実施形態において、計算の複雑さを減じるために、所望の聴取位置および向きについて(たとえば、離散グリッド位置および向きについて)行列

を事前に計算することが可能である。時間変化する位置を有するオーディオオブジェクト入力の場合、

の上記の計算の時間不変の部分のみが、計算の複雑さを減じるために事前に計算され得る。

続いて、音場プロセッサ1000によって実行される音場処理の好適な実施が図示される。ステップ901または1010において、2つ以上のオーディオ入力信号が、時間領域または時間-周波数領域において受信され、そこで、信号の時間-周波数領域における受信の場合、時間-周波数領域の表現を取得するために分析フィルタバンクが使用された。

ステップ1020において、仮想ラウドスピーカ信号を取得するために、第1の空間変換が実行される。ステップ1030において、空間フィルタを仮想ラウドスピーカ信号に適用することによって、オプションの空間フィルタリングが実行される。図14におけるステップ1030を適用しない場合、いかなる空間フィルタリングも実行されず、たとえば、1040bにおいて示されて得るように、聴取位置および向きに応じた、すなわち、目標聴取位置および/または目標向きに応じた仮想ラウドスピーカの位置の修正が実行される。ステップ1050において、オーディオ出力信号を取得するために、修正された仮想ラウドスピーカ位置に応じて第2の空間変換が実行される。ステップ1060において、時間領域において出力信号を取得するために、合成フィルタバンクのオプションの適用が実行される。

したがって、図14は、仮想スピーカ信号の明示的な計算と、仮想スピーカ信号のオプションの明示的なフィルタリングと、処理された音場表現のオーディオ出力信号の計算のための仮想スピーカ信号またはフィルタリングされた仮想スピーカ信号のオプションの処理とを示す。

図15は、仮想ラウドスピーカ位置のセットが1021において示されているように想定される、第1の空間変換行列などの第1の空間変換規則が所望のオーディオ入力信号フォーマットに応じて計算される別の実施形態を示す。ステップ1031において、所望の聴取位置および/または向きに依存する空間フィルタのオプションの適用が考慮され、空間フィルタは、たとえば、仮想スピーカ信号の明示的な計算および処理なしに、要素ごとの乗算によって第1の空間変換行列に適用される。ステップ1040bにおいて、仮想スピーカの位置は、聴取位置および/または向きに応じて、すなわち、目標位置および/または向きに応じて修正される。ステップ1051において、第2の空間変換行列、または一般に、第2のもしくは後方空間変換規則が、修正された仮想スピーカ位置と所望のオーディオ出力信号フォーマットとに応じて計算される。ステップ1090において、ブロック1031、1021、および1051における計算された行列は、互いに組み合わされ得、単一の行列の形態においてオーディオ入力信号に乗算される。代替的には、個々の行列は、対応するデータに個別に適用され得、または図10aから図10dに関して例示されている個々の4つの場合に関して論じられているように、組み合わされた変換定義を取得するために、少なくとも2つの行列が互いに組み合わされ得る。

いくつかの態様は、装置の文脈において説明されているが、これらの態様は、対応する方法の説明も表すことは、明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈において説明されている態様は、対応する装置のブロックまたはアイテムまたは特徴の説明も表す。

特定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアにおいて実装され得る。実装は、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協調する(または協調することが可能な)、電気的に可読な制御信号が記憶されている、たとえば、フロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROM、またはフラッシュメモリなどのデジタル記憶媒体を使用して実行され得る。

本発明によるいくつかの方法は、本明細書で説明されている方法のうちの1つが実行されるように、プログラム可能なコンピュータシステムと協調することが可能な、電気的に可読な制御信号を有するデータキャリアを備える。

一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装され得、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、方法のうちの1つを実行するために動作可能である。プログラムコードは、たとえば、機械可読キャリア上に記憶され得る。

他の実施形態は、機械可読キャリアまたは非一時的記憶媒体上に記憶された、本明細書で説明されている方法のうちの1つを実行するためのコンピュータプログラムを含む。

言い換えれば、本発明の方法の実施形態は、したがって、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書で説明されている方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明のさらなる実施形態は、本明細書で説明されている方法のうちの1つを実行するためのコンピュータプログラムが記録されたデータキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。

したがって、本発明のさらなる実施形態は、本明細書で説明されている方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、たとえば、データ通信接続を介して、たとえば、インターネットを介して転送されるように構成され得る。

さらなる実施形態は、本明細書で説明されている方法のうちの1つを実行するように構成または適合された処理手段、たとえば、コンピュータまたはプログラマブル論理デバイスを含む。

さらなる実施形態は、本明細書で説明されている方法のうちの1つを実行するためのコンピュータプログラムがインストールされているコンピュータを含む。

いくつかの実施形態において、プログラマブル論理デバイス(たとえば、フィールドプログラマブルゲートアレイ)は、本明細書で説明されている方法の機能のうちのいくつかまたはすべてを実行するために使用され得る。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本明細書で説明されている方法のうちの1つを実行するためにマイクロプロセッサと協働し得る。一般に、方法は、好ましくは任意のハードウェア装置によって実行される。

上記で説明されている実施形態は、単に本発明の原理を例示するものである。本明細書で説明されている配置および詳細の修正および変形は、当業者には明らかであることが理解される。したがって、差し迫った特許請求の範囲によってのみ制限され、本明細書における実施形態の説明および解説によって提示される特定の詳細によって制限されないことが意図される。

900 入力インターフェース
1000 音場プロセッサ
1001 音場表現、入力
1010 分析フィルタバンク
1020 前方変換ブロック、前方変換、第1または前方空間変換、第1の空間変換
1021 前方変換規則
1022 平面波分解(PWD)
1023 ダウンミックス問題
1024 ビームフォーミング
1030 空間フィルタ、空間フィルタブロック、ブロック、空間フィルタリング
1031 空間フィルタ規則、空間フィルタ
1040 位置修正ブロック、位置修正、ブロック
1040a 仮想スピーカ位置決定器、ブロック
1040b ブロック
1050 後方変換ブロック、ブロック、後方変換定義、後方変換、空間後方変換、第2または後方空間変換、第2の空間変換
1051 後方変換規則
1053 変換
1060 合成フィルタバンク
1071 完全な変換定義、結合された行列
1072 部分的な変換定義
1073 別の(部分的な)変換定義、部分的な変換定義
1080 メモリ
1081 プロセッサ
1082 メモリリトリーバ
1090 (行列)プロセッサ、行列プロセッサ
1092 行列計算機、計算機
1100 検出器
1200 出力インターフェース
1201 処理された音場記述、ライン上の信号、信号、処理された音場表現、音フィルタ表現

Claims

音場表現(1001)に関する定義された基準点または定義された聴取向きに関連する前記音場表現を処理するための装置であって、
処理された音場記述(1201)を取得するために、前記定義された基準点からの目標聴取位置の偏差、または前記定義された聴取向きからの目標聴取向きの偏差を使用して、前記音場表現を処理するための音場プロセッサ(1000)であって、前記処理された音場記述(1201)が、レンダリングされたきに、前記定義された基準点とは異なる前記目標聴取位置における前記音場表現の印象もしくは前記定義された聴取向きとは異なる前記目標聴取向きに対する前記音場表現の印象を提供する音場プロセッサ(1000)か、または前記処理された音場記述(1201)を取得するために、空間フィルタ(1030)を使用して前記音場表現を処理するための音場プロセッサ(1000)であって、前記処理された音場記述(1201)が、レンダリングされたときに、空間的にフィルタリングされた音場記述の印象を提供する、音場プロセッサ(1000)を備え、
前記音場プロセッサ(1000)が、前記偏差または前記空間フィルタ(1030)が前方変換規則(1021)および後方変換規則(1051)が関連付けられた空間変換領域に関連して前記音場表現に適用されるように、前記音場表現を処理するように構成され、
前記音場プロセッサ(1000)が、前記空間変換のための前記前方変換規則(1021)を使用することであって、前記前方変換規則(1021)が仮想スピーカ位置のセットにおける仮想スピーカのセットに関連する、ことと、前記変換領域内で前記空間フィルタ(1030)を使用することと、前記仮想スピーカ位置のセットを使用して前記空間変換のための前記後方変換規則(1051)を使用することとによって前記音場表現を処理するように構成されるか、または
前記音場プロセッサ(1000)が、前記空間変換のための前記前方変換規則(1021)を使用することであって、前記前方変換規則(1021)が仮想スピーカ位置のセットにおける仮想スピーカのセットに関連する、ことと、前記偏差を使用して前記仮想スピーカ位置のセットから導出された修正された仮想スピーカ位置のセットを使用して前記空間変換のための前記後方変換規則(1051)を使用することとによって前記音場表現を処理するように構成されるか、または
前記音場プロセッサ(1000)が、前記空間変換のための前記前方変換規則(1021)を使用することであって、前記前方変換規則(1021)が仮想スピーカ位置のセットにおける仮想スピーカのセットに関連する、ことと、前記変換領域において前記空間フィルタ(1030)を使用することと、前記偏差を使用して前記仮想スピーカ位置のセットから導出された修正された仮想スピーカ位置のセットを使用して前記空間変換のための前記後方変換規則(1051)を使用することとによって前記音場表現を処理するように構成される、
装置。
前記定義された基準点からの前記目標聴取位置の前記偏差を検出するため、または前記定義された聴取向きからの前記目標聴取向きの前記偏差を検出するため、または前記目標聴取位置を検出するための検出器(1100)であって、かつ前記定義された基準点からの前記目標聴取位置の前記偏差を決定するため、または前記目標聴取向きを検出するため、または前記定義された聴取向きからの前記目標聴取向きの前記偏差を決定するための検出器(1100)をさらに備える、請求項1に記載の装置。
前記音場表現(1001)が、前記空間変換領域とは異なるオーディオ信号領域における複数のオーディオ信号を含み、前記音場プロセッサ(1000)は、前記処理された音場記述(1201)を前記空間変換領域とは異なる前記オーディオ信号領域において発生させるように構成された、請求項1または2に記載の装置。
前記音場プロセッサ(1000)が、目標聴取位置または目標聴取向きのグリッドのグリッド点ごとに、事前に計算された変換定義(1071、1072、1073)または変換規則(1021、1051)を記憶する(1080)ように構成され、前記事前に計算された変換定義が、前記前方変換規則(1021)、前記空間フィルタ(1030)、および前記後方変換規則(1051)のうちの少なくとも2つを表し、
前記音場プロセッサ(1000)が、目標聴取位置または目標聴取向きに関連するグリッド点に関する前記変換定義または変換規則を選択し(1081、1082)、前記選択された変換定義または変換規則を適用する(1090)ように構成された、
請求項1から3のいずれか一項に記載の装置。
前記事前に計算された変換定義が、N行およびM列の次元を有する変換行列であり、NおよびMが2よりも大きい整数であり、
前記音場表現がM個のオーディオ信号を有し、前記処理された音場表現(1201)がN個のオーディオ信号を有するか、またはその逆である、
請求項4に記載の装置。
前記音場プロセッサ(1000)が、変換定義(1071)を前記音場表現(1001)に適用する(1090)ように構成され、
前記音場プロセッサ(1000)が、前記定義された基準点または前記定義された聴取向きに関連する前記仮想スピーカの前記仮想スピーカ位置を使用して前記前方変換規則(1021)を計算し、前記目標聴取位置または前記目標聴取向きに関連する前記仮想スピーカの前記修正された仮想スピーカ位置を使用して前記後方変換規則(1051)を計算し、
前記変換定義(1071)を取得するために前記前方変換規則(1021)と前記後方変換規則(1051)とを組み合わせる(1092)ように構成された、
請求項1から3のいずれか一項に記載の装置。
前記音場プロセッサ(1000)が、変換定義(1071)を前記音場表現(1001)に適用するように構成され、
前記音場プロセッサ(1000)が、前記定義された基準点または前記定義された聴取向きに関連する前記仮想スピーカの前記仮想スピーカ位置を使用して前記前方変換規則(1021)を計算し、前記空間フィルタ(1030)を計算し、前記同じまたは修正された仮想スピーカ位置を使用して前記後方変換規則(1051)を計算し、前記変換定義(1071)を取得するために、前記前方変換規則(1021)と、前記空間フィルタ(1030)と、前記後方変換規則(1051)とを組み合わせる(1092)ように構成された、
請求項1から3のいずれか一項に記載の装置。
前記音場プロセッサ(1000)が、前記定義された基準点または前記定義された聴取向きに関連する事前定義された仮想スピーカ位置における前記仮想スピーカのための仮想ラウドスピーカ信号を取得するために、前記前方変換規則(1021)を使用して、前記音場表現(1001)をオーディオ信号領域から空間領域に前方変換し(1020)、
前記目標聴取位置または前記目標聴取向きに関連する前記修正された仮想スピーカ位置に基づいて、前記後方変換規則(1051)を使用して、前記仮想ラウドスピーカ信号を前記オーディオ信号領域に後方変換し(1050)、
フィルタリングされた仮想ラウドスピーカ信号を取得するために、前記空間フィルタ(1030)を前記仮想ラウドスピーカ信号に適用し、前記目標聴取位置もしくは前記目標聴取向きに関連する前記修正された仮想スピーカ位置、または前記定義された基準位置もしくは聴取向きに関連する前記仮想スピーカ位置に基づいて、前記後方変換規則(1051)を使用して、前記フィルタリングされた仮想ラウドスピーカ信号を後方変換する(1050)
ように構成された、
請求項1から3のいずれか一項に記載の装置。
前記音場プロセッサ(1000)が、
前記前方変換規則(1021)と前記空間フィルタ(1030)とを計算し、部分変換定義(1072)を取得するために前記前方変換規則(1021)と前記空間フィルタ(1030)とを組み合わせ、
フィルタリングされた仮想ラウドスピーカ信号を取得するために、前記部分変換定義(1072)を前記音場表現(1001)に適用し(1090)、
前記目標聴取位置もしくは前記目標聴取向きに関連する前記修正された仮想スピーカ位置に基づいて、もしくは前記定義された基準点もしくは所望の聴取向きに関連する前記仮想スピーカ位置に基づいて、前記後方変換規則(1051)を使用して、前記フィルタリングされた仮想ラウドスピーカ信号を後方変換する(1050)
ように構成され、または
前記音場プロセッサ(1000)が、
前記目標聴取位置もしくは前記目標聴取向きに関連する前記修正された仮想スピーカ位置、もしくは前記定義された基準点もしくは聴取向きに関連する前記仮想スピーカ位置に基づいて、前記空間フィルタ(1030)と前記後方変換規則(1051)とを計算し、
部分変換定義(1073)を取得するために、前記空間フィルタ(1030)と前記後方変換規則(1051)とを組み合わせ(1092)、
事前定義された仮想スピーカ位置における前記仮想スピーカのための仮想ラウドスピーカ信号を取得するために、前記音場表現をオーディオ信号領域から空間領域に前方変換し(1020)、
前記部分変換定義(1073)を前記仮想ラウドスピーカ信号に適用する(1090)
ように構成された、
請求項1から3のいずれか一項に記載の装置。
前記前方変換規則(1021)、前記空間フィルタ(1030)、前記後方変換規則(1051)、変換定義もしくは部分変換定義、もしくは事前に計算された変換定義のうちの少なくとも1つが、行列を含み、またはオーディオ信号領域が、時間領域もしくは時間-周波数領域である、請求項1から9のいずれか一項に記載の装置。
前記音場表現(1001)が、複数のアンビソニックス信号を含み、前記音場プロセッサ(1000)が、平面波分解(1022)と、前記定義された聴取位置もしくは前記定義された聴取向きに関連する前記仮想スピーカの前記仮想スピーカ位置とを使用して、前記前方変換規則(1021)を計算し(1022)、または
前記音場表現が、スイートスポットを有する定義されたラウドスピーカ設定のための複数のラウドスピーカチャネルを含み、前記スイートスポットが、前記定義された基準位置を表し、前記音場プロセッサ(1000)が、前記スイートスポットに関連する前記仮想スピーカ位置における前記仮想スピーカを有する仮想ラウドスピーカ設定への前記ラウドスピーカチャネルのアップミックス規則もしくはダウンミックス規則(1023)を使用して前記前方変換規則(1021)を計算するように構成され、または
前記音場表現が、前記定義された基準位置としてのアレイ中心に関連する複数の実際のもしくは仮想マイクロフォン信号を含み、前記音場プロセッサ(1000)が、前記複数のマイクロフォン信号に対する前記仮想スピーカのうちの仮想スピーカの仮想スピーカ位置ごとのビームフォーミング操作(1024)を表すビームフォーミング重みとして、前記前方変換規則(1021)を計算するように構成され、または
前記音場表現が、関連する位置情報を有する複数のオーディオオブジェクトを含むオーディオオブジェクト表現を含み、前記音場プロセッサ(1000)が、前記オーディオオブジェクトに関する前記位置情報を使用して、前記定義された基準位置に関連する前記仮想スピーカ位置における前記仮想スピーカに対して前記オーディオオブジェクトをパンニングするためのパンニング操作(1025)を表す前記前方変換規則(1021)を計算するように構成された、
請求項1から10のいずれか一項に記載の装置。
前記音場プロセッサ(1000)が、前記前方変換規則(1021)において使用される前記仮想スピーカの前記仮想スピーカ位置に応じて、加えて、前記定義された基準位置、前記定義された聴取向き、前記目標聴取位置、および前記目標聴取向きのうちの少なくとも1つに応じて、前記空間フィルタ(1030)をウィンドウ係数のセットとして計算するように構成された、
請求項1から11のいずれか一項に記載の装置。
前記音場プロセッサ(1000)が、前記空間音が、前記目標聴取向きによって示される視線方向に向かって強調されるように、前記空間フィルタ(1030)を非負の実数値ゲイン値のセットとして計算するように構成され、または前記音場プロセッサ(1000)が、前記空間フィルタ(1030)を空間ウィンドウとして計算するように構成された、
請求項1から12のいずれか一項に記載の装置。
前記音場プロセッサ(1000)が、前記空間フィルタ(1030)を、
目標視線方向に向けられた共通の1次空間ウィンドウとして、前記目標聴取位置と対応する仮想ラウドスピーカ位置との間の距離に従って減衰もしくは増幅される共通の1次空間ウィンドウとして、または
ズームイン動作の場合はより狭くなり、ズームアウト動作の場合はより広くなる矩形空間ウィンドウとして、または
対応するオーディオオブジェクトがズームされたビデオ画像から消えたときに、側方における音源を減衰させるウィンドウとして
計算するように構成された、
請求項1から13のいずれか一項に記載の装置。
前記音場プロセッサ(1000)が、修正された仮想ラウドスピーカ位置を使用して前記後方変換規則(1051)を計算するように構成され、前記音場プロセッサ(1000)が、
更新された位置ベクトルを取得するために、
前記定義された基準点から前記仮想スピーカ位置への元の位置ベクトル、
前記目標聴取位置もしくは前記目標聴取向きから導出された偏差ベクトル、および/または
事前定義された回転とは異なる目標回転を示す回転行列
を使用して、仮想ラウドスピーカごとの前記修正された仮想ラウドスピーカ位置を計算する(1040b)ように構成され、前記更新された位置ベクトルが、関連する仮想スピーカのための前記後方変換規則(1051)に使用される、
請求項1から14のいずれか一項に記載の装置。
前記処理された音場記述(1201)が、複数のアンビソニックス信号を含み、前記音場プロセッサ(1000)が、修正されたスピーカ位置において評価された、もしくは前記目標向きに関連するすべての仮想スピーカ信号にわたる加重和を表す調和分解を使用して前記後方変換規則(1052)を計算するように構成され、または
前記処理された音場記述(1201)が、定義された出力ラウドスピーカ設定のための複数のラウドスピーカチャネルを含み、前記音場プロセッサ(1000)が、前記定義された出力ラウドスピーカ設定における仮想スピーカの位置を使用して、前記修正された仮想スピーカ位置から導出された、もしくは前記目標向きに関連するラウドスピーカフォーマット変換行列を使用して前記後方変換規則(1053)を計算するように構成され、または
前記処理された音場記述(1201)が、バイノーラル出力を含み、前記音場プロセッサ(1000)が、前記修正されたスピーカ位置に関連する頭部伝達関数を使用するか、もしくは定義された中間出力ラウドスピーカ設定に関連するラウドスピーカフォーマット変換規則(1055)と前記定義された出力ラウドスピーカ設定に関連する頭部伝達関数(1056)とを使用して、前記バイノーラル出力信号を計算するように構成された、
請求項1から15のいずれか一項に記載の装置。
前記装置が、様々な事前定義された偏差に関連する事前に計算された係数のセットが記憶されたメモリ(1080)を備え、
前記音場プロセッサ(1000)が、
前記様々な事前定義された偏差の中から、検出された偏差に最も近い前記事前定義された偏差を検索し、
前記メモリ(1080)から前記最も近い所定の偏差に関連付けられた前記事前に計算された係数のセットを取得し、
前記取得された係数の事前に計算されたセットを前記音場プロセッサ(1000)に転送する
ように構成された、
請求項1から3のいずれか一項に記載の装置。
前記音場表現(1001)が、3次元ビデオまたは球面ビデオに関連付けられ、前記定義された基準点が、前記3次元ビデオまたは前記球面ビデオの中心であり、
検出器(1100)が、実際の視聴点が前記中心とは異なることを示すユーザ入力を検出するように構成され、前記実際の視聴点が、前記目標聴取位置と同一であり、
前記検出器が、前記ユーザ入力から前記検出された偏差を導出するように構成されるか、または前記検出器(1100)が、実際の視聴向きが前記中心に向けられた前記定義された聴取向きとは異なることを示すユーザ入力を検出するように構成され、実際の視聴向きが、前記目標聴取向きと同一であり、前記検出器が、前記ユーザ入力から前記検出された偏差を導出するように構成された、
請求項2から17のいずれか一項に記載の装置。
前記音場表現(1001)が、3次元ビデオまたは球面ビデオに関連付けられ、前記定義された基準点が、前記3次元ビデオまたは前記球面ビデオの中心であり、
前記音場プロセッサ(1000)が、前記処理された音場表現が、前記3次元ビデオもしくは前記球面ビデオのための表示領域に対する前記音場記述内に含まれる少なくとも1つのサウンドオブジェクトの標準的なもしくはリトルプラネット投影、または前記標準的なもしくは前記リトルプラネット投影間の移行を表すように、前記音場表現を処理するように構成され、前記表示領域が、ユーザ入力と定義された視聴方向とによって定義される、
請求項1から18のいずれか一項に記載の装置。
前記音場プロセッサ(1000)が、
前記音場記述を、仮想ラウドスピーカ位置の第1のセットに関連付けられた仮想ラウドスピーカ関連表現に変換する動作であって、前記仮想ラウドスピーカ位置の第1のセットが前記定義された基準点に関連付けられた、動作と、
前記仮想ラウドスピーカ位置の第1のセットを、仮想ラウドスピーカ位置の修正されたセットに変換する動作であって、前記仮想ラウドスピーカ位置の修正されたセットが前記目標聴取位置に関連付けられた、動作と、
前記仮想ラウドスピーカ関連表現を、前記仮想ラウドスピーカ位置の修正されたセットに関連付けられた前記処理された音場記述(1201)に変換する動作と
を行うように構成され、
前記音場プロセッサ(1000)が、検出された偏差を使用して、前記仮想ラウドスピーカ位置の修正されたセットを計算するように構成された、
請求項1から19のいずれか一項に記載の装置。
仮想ラウドスピーカ位置のセットが、前記定義された聴取向きに関連付けられ、前記仮想ラウドスピーカ位置の修正されたセットが、前記目標聴取向きに関連付けられ、
前記目標聴取向きが、検出された偏差および前記定義された聴取向きから計算される、
請求項1から20のいずれか一項に記載の装置。
仮想ラウドスピーカ位置のセットが、前記定義された聴取位置および前記定義された聴取向きに関連付けられ、
前記定義された聴取位置が、関連するビデオの第1の投影点および投影向きに対応し、投影面を表す表示領域上に前記関連するビデオの第1の投影を結果として生じ、
前記仮想ラウドスピーカ位置の修正されたセットが、前記関連するビデオの第2の投影点および第2の投影向きに関連付けられ、前記投影面に対応する前記表示領域上に前記関連するビデオの第2の投影を結果として生じる、
請求項1から21のいずれか一項に記載の装置。
前記音場プロセッサ(1000)が、
前記音場表現(1001)を時間-周波数領域表現に変換するための時間-スペクトル変換器(1010)を備える、
請求項1から22のいずれか一項に記載の装置。
前記音場プロセッサ(1000)が、前記偏差と前記空間フィルタ(1030)とを使用して、前記音場表現(1001)を処理するように構成された、
請求項1から23のいずれか一項に記載の装置。
前記音場表現(1001)が、入力次数を有するアンビソニックス信号であり、
前記処理された音場記述(1201)が、出力次数を有するアンビソニックス信号であり、
前記音場プロセッサ(1000)が、前記出力次数が前記入力次数と等しくなるように、前記処理された音場記述(1201)を計算するように構成された、
請求項1から24のいずれか一項に記載の装置。
前記音場プロセッサ(1000)が、前記偏差に関連する処理行列を取得し、前記処理行列を前記音場表現(1001)に適用するように構成され、前記音場表現が、少なくとも2つの音場成分を有し、前記処理行列が、N×N行列であり、Nが、2に等しいか、または2よりも大きい、
請求項1から25のいずれか一項に記載の装置。
検出器(1100)が、方向と長さとを有するベクトルとして前記偏差を検出するように構成され、
前記ベクトルが、前記定義された基準点から前記目標聴取位置への線形遷移を表す、
請求項2から26のいずれか一項に記載の装置。
前記音場プロセッサ(1000)が、前記目標聴取位置が前記定義された基準点よりもサウンドオブジェクトまたは空間領域に近い場合、前記処理された音場記述(1201)によって表される前記サウンドオブジェクトまたは前記空間領域のラウドネスが、前記音場表現によって表される前記サウンドオブジェクトまたは前記空間領域のラウドネスよりも大きくなるように、前記音場表現(1001)を処理するように構成された、
請求項1から27のいずれか一項に記載の装置。
前記音場プロセッサ(1000)が、仮想スピーカごとに、前記定義された基準点に対して個別の方向を決定し、前記決定された方向において球面調和関数を評価することによって、前記音場表現(1001)を用いて逆球面調和分解を実行し、仮想ラウドスピーカ位置から前記目標聴取位置までの修正された方向を決定し、前記修正されたラウドスピーカ位置において評価された前記球面調和関数を使用して、球面調和分解を実行するように構成された、請求項1から28のいずれか一項に記載の装置。
音場表現(1001)に関する定義された基準点または定義された聴取向きに関連する前記音場表現を処理するための方法であって、
前記定義された基準点からの目標聴取位置の偏差、または前記定義された聴取向きからの目標聴取向きの偏差を検出するステップと、
処理された音場記述(1201)を取得するために、前記偏差を使用して、前記音場表現を処理するステップ(1000)であって、前記処理された音場記述(1201)が、レンダリングされたきに、前記定義された聴取位置とは異なる前記目標聴取位置における前記音場表現の印象もしくは前記定義された聴取向きとは異なる前記目標聴取向きに対する前記音場表現の印象を提供する、ステップ(1000)か、または前記処理された音場記述(1201)を取得するために、空間フィルタ(1030)を使用して前記音場表現を処理するためのステップ(1000)であって、前記処理された音場記述が、レンダリングされたときに、空間的にフィルタリングされた音場記述の印象を提供する、ステップ(1000)を含み、
前記偏差または前記空間フィルタ(1030)が、前方変換規則(1021)および後方変換規則(1051)が関連付けられた空間変換領域に関連して前記音場表現に適用され、
前記処理するステップ(1000)が、前記空間変換のための前記前方変換規則(1021)を使用するステップであって、前記前方変換規則(1021)が仮想スピーカ位置のセットにおける仮想スピーカのセットに関連する、ステップと、前記変換領域内で前記空間フィルタ(1030)を使用するステップと、前記仮想スピーカ位置のセットを使用して前記空間変換のための前記後方変換規則(1051)を使用するステップとを含むか、または
前記処理するステップ(1000)が、前記空間変換のための前記前方変換規則(1021)を使用するステップであって、前記前方変換規則(1021)が仮想スピーカ位置のセットにおける仮想スピーカのセットに関連する、ステップと、前記偏差を使用して前記仮想スピーカ位置のセットから導出された修正された仮想スピーカ位置のセットを使用して前記空間変換のための前記後方変換規則(1051)を使用するステップとを含むか、または
前記処理するステップ(1000)が、前記空間変換のための前記前方変換規則(1021)を使用するステップであって、前記前方変換規則(1021)が仮想スピーカ位置のセットにおける仮想スピーカのセットに関連する、ステップと、前記変換領域において前記空間フィルタ(1030)を使用するステップと、前記偏差を使用して前記仮想スピーカ位置のセットから導出された修正された仮想スピーカ位置のセットを使用して前記空間変換のための前記後方変換規則(1051)を使用するステップとを含む、
方法。
コンピュータまたはプロセッサ上で実行されるときに、請求項30に記載の音場表現を処理するための方法を実行するためのコンピュータプログラム。