JP6336558B2

JP6336558B2 - オーディオ再生のためのオーディオ音場表現のデコードのための方法および装置

Info

Publication number: JP6336558B2
Application number: JP2016247398A
Authority: JP
Inventors: バトケ，ヨハン−マルクス; ケイラー，フロリアン; ベーム，ヨハネス
Original assignee: ドルビー・インターナショナル・アーベー
Priority date: 2010-03-26
Filing date: 2016-12-21
Publication date: 2018-06-06
Anticipated expiration: 2031-03-25
Also published as: EP2553947A1; AU2011231565B2; US20200273470A1; US20220189492A1; US10037762B2; US9100768B2; KR102294460B1; CN102823277B; KR101795015B1; KR20190022914A; JP6067773B2; KR20170084335A; PT2553947E; CN102823277A; US10629211B2; US20190139555A1; JP2014161122A; US20190341062A1; KR20240009530A; KR20180094144A

Description

本発明は、オーディオ音場表現をデコードする方法および装置に関し、より詳細にはオーディオ再生のためのアンビソニックス・フォーマットされたオーディオ表現に関する。

本節は、以下に記載されるおよび／または特許請求される本発明のさまざまな側面に関係しうる技術の諸側面を読者に紹介するために意図されている。この議論は、読者に、本発明のさまざまな側面のよりよい理解を容易にするための背景情報を与える助けとなると考えられる。よって、これらの記述はこの観点で読まれるべきであり、出所が明示的に言及されている場合は別として、従来技術の自認として読まれるべきではないことは理解しておくべきである。

正確な定位（localisation）は、いかなる空間的なオーディオ再生システムにとっても主要な目標である。そのような再生システムは、会議システム、ゲームまたは3Dサウンドから裨益する他の仮想環境にとってきわめて実用的である。3Dにおけるサウンド・シーンは、自然な音場として合成されるまたは捕捉されることができる。たとえばアンビソニックスのような音場信号は所望される音場の表現を担う。アンビソニックス・フォーマットは、音場の球面調和関数分解に基づく。基本的なアンビソニックス・フォーマットまたはBフォーマットは次数0および1の球面調和関数を使うが、いわゆる高次アンビソニックス（HOA: Higher Order Ambisonics）は少なくとも2次のさらなる球面調和関数も使う。個々のスピーカー信号を得るにはデコード・プロセスが必要とされる。オーディオ・シーンを合成するには、所与の音源の空間定位を得るために、空間的なスピーカー配置に関するパン関数（panning functions）が必要とされる。自然な音場が記録される場合、空間的情報を捕捉するために、マイクロホン・アレイが必要とされる。既知のアンビソニックス手法はそれを達成するための非常に好適なツールである。アンビソニックス・フォーマットされた信号は、所望される音場の表現を担持する。デコード・プロセスは、そのようなアンビソニックス・フォーマットされた信号から、個々のスピーカー信号を得るために必要とされる。この場合にも、パン関数はデコード関数から導出されることができるので、パン関数は、空間定位のタスクを記述するための主要な問題である。スピーカーの空間配置は本稿ではスピーカー・セットアップと称される。

一般的に使われるスピーカー・セットアップは、二つのスピーカーを用いるステレオ・セットアップ、五つのスピーカーを使う標準的なサラウンド・セットアップおよび五つより多くのスピーカーを使うサラウンド・セットアップの拡張である。これらのセットアップはよく知られているが、これらは二次元（2D）に制約される。たとえば、高さ情報は再生されない。

三次元（3D）再生のためのスピーカー・セットアップは、たとえば22.2フォーマットのNHK超高精細度TVまたはダブリングハウス（mdg-musikproduction dabringhaus und grimm、www.mdg.de）の2+2+2構成および非特許文献２の10.2セットアップのための提案である非特許文献１に記述される。空間的再生およびパン戦略に言及するわずかばかりの既知のシステムの一つは、非特許文献３におけるベクトル基底振幅パン（VBAP: vector base amplitude panning）手法である。VBAP（ベクトル基底振幅パン）は、非特許文献３によって、任意のスピーカー・セットアップで仮想音響源を再生するために使用された。2D平面内に仮想源を置くためには一対のスピーカーが必要とされる。一方、3Dの場合には、スピーカーの三つ組みが必要とされる。各仮想源について、利得（仮想源の位置に依存する）の異なるモノフォニック信号が、フル・セットアップからの選択された諸スピーカーに与えられる。次いで、すべての仮想源についてのスピーカー信号が合計される。VBAPは、スピーカー間でのパンのためのスピーカー信号の利得を計算するために、幾何学的な手法を適用する。

本稿で考えられ、新たに提案される例示的な3Dスピーカー・セットアップ例は、図２に示すように位置される16個のスピーカーをもつ。この位置決めは、実際的な考察から選ばれたもので、それぞれ三つのスピーカーをもつ四つの柱があり、これらの柱の間に追加的なスピーカーがある。より詳細には、聴取者の頭部のまわりの円上に、45度の角度をはさんで八つのスピーカーが均等に分布させられる。追加的な四つのスピーカーは上部および下部に位置され、90度の方位角をはさむ。アンビソニックスに関しては、このセットアップはイレギュラーであり、デコーダ設計における問題につながる。これについては、非特許文献４で触れられている。

非特許文献５に記載されるような通常のアンビソニックス・デコードは、一般に知られているモード・マッピング・プロセスを用いる。モードは、明瞭に区別される入射方向について球面調和関数の値を含むモード・ベクトルによって記述される。個々のスピーカーによって与えられるすべての方向の組み合わせが、スピーカー・セットアップのモード行列につながる。よって、モード行列はスピーカー位置を表す。明瞭に区別される源信号のモードを再生するために、スピーカーのモードは、個々のスピーカーの重ね合わされるモードを足し合わせると所望されるモードになるよう、重み付けされる。必要な重みを得るために、スピーカー・モード行列の逆行列表現が計算される必要がある。信号デコードに関しては、重みはスピーカーの駆動信号をなし、逆スピーカー・モード行列は「デコード行列」と称され、これがアンビソニックス・フォーマットされた信号表現をデコードするために適用される。特に、多くのスピーカー・セットアップ、たとえば図２に示したセットアップについて、モード行列の逆を求めることは難しい。

上述したように、普通に使われるスピーカー・セットは2Dに制約されている。すなわち、高さ情報は再現されない。数学的に非正規な（non-regular）空間分布をもつスピーカー・セットアップの音場表現をデコードすることは、一般に知られている技法では、定位および音色付け（coloration）の問題につながる。アンビソニックス信号をデコードするためには、デコード行列（すなわちデコード係数の行列）が使用される。アンビソニックス信号、特にHOA信号の通常のデコードでは、少なくとも二つの問題が発生する。第一に、正しいデコードのためには、デコード行列を求めるために信号源の方向を知ることが必要である。第二に、既存のスピーカー・セットアップへのマッピングは、次の数学的問題のため、系統的に誤っている：数学的に正しいデコードは、正のスピーカー振幅ばかりでなく、いくらかの負のスピーカー振幅をも与える。しかしながら、これらは誤って正の信号として再生され、そのため上述の問題が生じるのである。

K. Hamasaki, T. Nishiguchi, R. Okumaura, and Y. Nakayama 、"Wide listening area with exceptional spatial sound quality of a 22.2 multichannel sound system"、Audio Engineering Society Preprints、Vienna、Austria、May 2007 T. Holman、Sound for Film and Television"、2nd ed.、Boston、Focal Press、2002 Pulkki 、"Virtual sound source positioning using vector base amplitude panning"、Journal of Audio Engineering Society、vol.45, no.6、pp.456-466、June 1997 H. Pomberger and F. Zotter、"An ambisonics format for flexible playback layouts," Proceedings of the 1st Ambisonics Symposium、Graz、Austria、July 2009 M. Poletti、"Three-dimensional surround sound systems based on spherical harmonics"、J. Audio Eng. Soc、vol.53, no.11、pp.1004-1025、Nov. 2005

本発明は、きわめて改善された定位および音色付け属性をもって非正規な空間分布のための音場表現をデコードする方法を記述する。

本方法は、音場データ、たとえばアンビソニックス・フォーマットのデータのためのデコード行列を得る別の方法を表し、システム推定様式でプロセスを用いる。一組の可能な入射方向を考えて、所望されるスピーカーに関係するパン関数が計算される。パン関数は、アンビソニックス・デコード・プロセスの出力として取られる。必要とされる入力信号は、すべての考えられる方向のモード行列である。したがって、下記に示されるように、デコード行列は、重み付け行列に、入力信号のモード行列の逆バージョンを右からかけることによって得られる。

上述した第二の問題に関し、スピーカー位置を表すいわゆるモード行列の逆と、位置依存の重み付け関数（「パン関数」）Wとから、デコード行列を得ることも可能であることが見出された。本発明の一つの側面は、これらのパン関数Wが、普通に使われるのとは異なる方法を使って導出できるということである。有利には、単純な幾何学的方法が使われる。そのような方法は、いかなる信号源方向の知識も必要とすることなく、よって上述した第一の問題を解決する。一つのそのような方法は「ベクトル基底振幅パン」（VBAP）として知られる。本発明によれば、VBAPは必要とされるパン関数を計算するために使われ、該パン関数が次いでアンビソニックス・デコード行列を計算するために使われる。（スピーカー・セットアップを表す）モード行列の逆が必要とされるという点でもう一つの問題が生じる。しかしながら、厳密な逆行列は求めるのが難しく、これも誤ったオーディオ再生につながる。よって、ある追加的な側面は、デコード行列を得るために、求めるのがずっと簡単な擬似逆モード行列（pseudo-inverse mode matrix）が計算される。

本発明は二段階のアプローチを使う。第一段階は、再生のために使われるスピーカー・セットアップに依存するパン関数の導出である。第二段階では、すべてのスピーカーについて、これらのパン関数からアンビソニックス・デコード行列が計算される。

本発明の一つの利点は、音源のパラメータ記述が必要とされず、アンビソニックスのような音場記述が使用できるということである。

本発明によれば、オーディオ再生のためのオーディオ音場表現をデコードする方法が、複数のスピーカーのそれぞれについて、それらのスピーカーの位置および複数の源方向に基づいて幾何学的な方法を使ってパン関数を計算する段階と、前記源方向からモード行列を計算する段階と、前記モード行列の擬似逆モード行列を計算する段階と、前記オーディオ音場表現をデコードする段階とを含み、前記デコードは、少なくとも前記パン関数および前記擬似逆モード行列から得られるデコード行列に基づく。

もう一つの側面によれば、オーディオ再生のためのオーディオ音場表現をデコードする装置が、複数のスピーカーのそれぞれについて、それらのスピーカーの位置および複数の源方向に基づいて幾何学的な方法を使ってパン関数を計算する第一計算手段と、前記源方向からモード行列を計算する第二計算手段と、前記モード行列の擬似逆モード行列を計算する第三計算手段と、前記音場表現をデコードするデコーダ手段とを含み、前記デコードはデコード行列に基づき、前記デコーダ手段は、少なくとも前記パン関数および前記擬似逆モード行列を使って前記デコード行列を得る。第一、第二および第三計算手段は単一のプロセッサであっても、または二つ以上の別個のプロセッサであってもよい。

さらにもう一つの側面によれば、コンピュータ可読媒体が、オーディオ再生のためのオーディオ音場表現をデコードする方法をコンピュータに実行させる実行可能命令を記憶しており、前記方法は、複数のスピーカーのそれぞれについて、それらのスピーカーの位置および複数の源方向に基づいて幾何学的な方法を使ってパン関数を計算する段階と、前記源方向からモード行列を計算する段階と、前記モード行列の擬似逆行列を計算する段階と、前記オーディオ音場表現をデコードする段階とを含み、前記デコードは、少なくとも前記パン関数および前記擬似逆モード行列から得られるデコード行列に基づく。

本発明の有利な実施形態は従属請求項、以下の記述および図面に開示される。

本発明の例示的な実施形態が付属の図面を参照して記載される。
前記方法のフローチャートである。 16個のスピーカーをもつ例示的な3Dセットアップを示す図である。正規化されていない（non-regularized）モード・マッチングを使ったデコードから帰結するビーム・パターンを示す図である。正規化された（regularized）モード行列を使ったデコードから帰結するビーム・パターンを示す図である。 VBAPから導出されるデコード行列を使ったデコードから帰結するビーム・パターンを示す図である。聴取試験の結果を示す図である。装置のブロック図である。

図１に示されるように、オーディオ再生のためのオーディオ音場表現SF_cをデコードする方法は、複数のスピーカーのそれぞれについて、それらのスピーカーの位置１０２（Lはスピーカーの数）および複数の源方向１０３（Sは源方向の数）に基づいて幾何学的な方法を使ってパン関数Wを計算する段階１１０と、前記源方向および前記音場表現の与えられた次数Nからモード行列Ξを計算する段階１２０と、前記モード行列Ξの擬似逆モード行列Ξ⁺を計算する段階１３０と、前記オーディオ音場表現SF_cをデコードしてデコードされたサウンド・データAU_decが得られる段階１３０、１４０とを含む。前記デコードは、少なくとも前記パン関数Wおよび前記擬似逆モード行列Ξ⁺から得られる（１３５）デコード行列Dに基づく。ある実施形態では、擬似逆モード行列はΞ⁺＝Ξ^H[ΞΞ^H]^-1に従って得られる。音場表現の次数Nはあらかじめ定義されていてもよいし、あるいは入力信号SF_cから抽出１０５されてもよい。

図７に示されるように、オーディオ再生のためのオーディオ音場表現をデコードする装置は、複数のスピーカーのそれぞれについて、それらのスピーカーの位置１０２および複数の源方向１０３に基づいて幾何学的な方法を使ってパン関数Wを計算する第一計算手段２１０と、前記源方向からモード行列Ξを計算する第二計算手段２２０と、前記モード行列Ξの擬似逆モード行列Ξ⁺を計算する第三計算手段２３０と、前記音場表現をデコードするデコーダ手段２４０とを有する。前記デコードはデコード行列Dに基づき、該デコード行列Dは、少なくとも前記パン関数Wおよび前記擬似逆モード行列Ξ⁺から、デコード行列計算手段２３５（たとえば乗算器）によって得られる。デコーダ手段２４０はデコード行列Dを使って、デコードされたオーディオ信号AU_decを得る。第一、第二および第三計算手段２２０、２３０、２４０は単一のプロセッサであっても、または二つ以上の別個のプロセッサであってもよい。音場表現の次数Nはあらかじめ定義されていてもよいし、あるいは入力信号SF_cから該次数を抽出する手段２０５によって取得されてもよい。

特に有用な3Dスピーカー・セットアップは16個のスピーカーをもつ。図２に示されるように、それぞれ三つのスピーカーをもつ四つの柱があり、これらの柱の間に追加的なスピーカーがある。聴取者の頭部のまわりの円上に、45度の角度をはさんで八つのスピーカーが均等に分布させられる。追加的な四つのスピーカーが上部および下部に90度の方位角をはさんで位置される。アンビソニックスに関しては、このセットアップはイレギュラーであり、デコーダ設計における問題につながる。

下記において、ベクトル基底振幅パン（VBAP）について詳細に述べる。ある実施形態では、VBAPは、本願において、任意のスピーカー・セットアップをもって仮想音響源を配置するために使われる。ここで、聴取位置からの諸スピーカーの同じ距離が想定される。VBAPは3D空間において一つの仮想源を配置するために三つのスピーカーを使う。各仮想源について、利得の異なるモノフォニック信号が、使用されるべき諸スピーカーに与えられる。異なるスピーカーについての利得は仮想源の位置に依存する。VBAPは、スピーカー間でのパンのためのスピーカー信号の利得を計算するための幾何学的なアプローチである。3Dの場合、三角形に配置された三つのスピーカーはベクトル基底を構築する。各ベクトル基底はスピーカー番号k,m,nおよび長さ1に規格化されたデカルト座標で与えられるスピーカー位置ベクトルl_k,l_m,l_nによって同定される。スピーカーk,m,nについてのベクトル基底は
L_kmn＝{l_k,l_m,l_n} (1)
によって定義される。

仮想源の所望される方向Ω＝(θ,φ)は、方位角φおよび傾斜角θとして与えられる必要がある。したがって、デカルト座標での仮想源の長さ1の位置ベクトルp(Ω)は、
p(Ω)＝{cosφsinθ,sinφsinθ,cosθ}^T (2)
によって定義される。

仮想源位置は、ベクトル基底および利得因子g(Ω)＝(^~g_k,^~g_m,^~g_n)^Tを用いて、
p(Ω)＝L_kmn g(Ω)＝^~g_kl_k＋^~g_ml_m＋^~g_nl_n (3)
によって表現できる。

ベクトル基底行列の逆を求めることによって、必要とされる利得因子は
g(Ω)＝L^-1 _kmnp(Ω) (4)
によって計算できる。

使用されるベクトル基底は、非特許文献３に従って決定される：まず、すべてのベクトル基底について非特許文献３に従って利得が計算される。次いで、各ベクトル基底について、それらの利得因子にわたる最小が、^~g_min＝min{^~g_k,^~g_m,^~g_n}を用いて評価される。最後に、^~g_minが最高値をもつベクトル基底が使用される。結果として得られる利得因子は負であってはならない。聴取する部屋の音響特性に依存して、利得因子はエネルギー保存のために規格化されてもよい。

下記において、例示的な音場フォーマットであるアンビソニックス・フォーマットが記述される。アンビソニックス表現は、一つの位置における音場の数学的な近似を用いる音場記述方法である。球面座標系を使うと、空間内の点r＝(r,θ,φ)における圧力は、球面フーリエ変換

によって記述される。ここで、kは波数である。通常、nは有限の次数Mまでである。この級数の係数A^m _n(k)が音場を記述し（有効領域外の源を想定する）、j_n(kr)は第一種の球面ベッセル関数であり、Y^m _n(θ,φ)は球面調和関数を表す。係数A^m _n(k)は、このコンテキストにおいてアンビソニックス係数と見なされる。球面調和関数Y_mn(θ,φ)は傾斜角および方位角のみに依存し、単位球面上での関数を記述する。

簡単のため、音場表現のためにしばしば平面波が想定される。方向Ω_sからの音響源として平面波を記述するアンビソニックス係数は次のようになる。

波数kに対する依存性は、この特別な場合には純粋な方向的な依存性に還元される。限られた次数Mについては、これらの係数は次のように配列されうるベクトルAをなす。

このベクトルはO＝(M＋1)²個の要素をもつ。同じ配列は、ベクトル

を与える球面調和関数係数について使われる。上付き添え字Hは複素共役転置を表す。

音場のアンビソニックス表現からスピーカー信号を計算するためには、モード・マッチングが普通に使われるアプローチである。基本的な発想は、所与のアンビソニックス音場記述A(Ω_s)を、スピーカーの音場記述A(Ω_l)の重み付けされた和

によって表現するというものである。ここで、Ω_lはスピーカーの方向を表し、w_lは重み、Lはスピーカーの数である。式(8)からパン関数を導出するために、既知の入射方向Ω_sを想定する。源音場とスピーカー音場がいずれも平面波であれば、因子4πiⁿ（式(6)参照）を落とすことができ、式(8)は「モード」とも称される球面調和関数ベクトルの複素共役のみに依存する。行列記法を使うと、これは次のように書ける。

Y(Ω_s)^*＝Ψw(Ω_s) (9)
ここで、Ψは当該スピーカー・セットアップのモード行列
Ψ＝[Y(Ω₁)^*,Y(Ω₂)^*,…,Y(Ω_L)^*] (10)
であり、O×L個の要素をもつ。所望される重み付けベクトルwを得るためには、これを達成するためのさまざまな戦略が知られている。M＝3が選ばれると、Ψは正方であり、可逆でありうる。ただし、非正規なスピーカー・セットアップのため、行列はスケーリングが悪い。そのような場合、しばしば擬似逆行列が選ばれ
D＝[Ψ^HΨ]^-1Ψ^H (11)
がL×Oのデコード行列Dを与える。最後に、
w(Ω_s)＝DY(Ω_s)* (12)
と書くことができる。ここで、重みw(Ω_s)は式(9)についての最小エネルギー解である。擬似逆行列を使うことからの帰結についてはのちに述べる。

下記において、パン関数とアンビソニックス・デコード行列との間のつながりについて述べる。アンビソニックスから出発して、個々のスピーカーについてのパン関数は式(12)を使って計算できる。

Ξ＝[Y(Ω₁)^*,Y(Ω₂)^*,…,Y(Ω_S)^*] (13)
をS個の入力信号方向（Ω_s）のモード行列であるとする。入力信号方向はたとえば、1°…180°まで1度のきざみで走る傾斜角および1…360°までの方位角をもつ球面グリッドである。このモード行列はO×S個の要素をもつ。式(12)を使うと、結果として得られる行列WはL×S個の要素をもつ。行lはそれぞれのスピーカーについてのS個のパン重みをもつ。

W＝DΞ (14)
代表例として、単一のスピーカー２のパン関数が図３のビーム・パターンとして示されている。この例では次数M＝3のデコード行列Dである。見て取れるように、パン関数値は、スピーカーの物理的な位置付けには全く関係しない。これは、選ばれた次数についての空間的なサンプリング方式として十分でない、スピーカーの数学的に非正規な位置付けのためである。したがって、デコード行列は正規化されていないモード行列と称される。この問題は、式(11)におけるスピーカー・モード行列Ψの正規化によって克服できる。この解決策が機能するのは、デコード行列の空間分解能を代償するが、その代償はアンビソニックス次数の低下として表されうる。図４は、正規化されたモード行列を使う、特に正規化のためにモード行列の諸固有値の平均を使うデコードから帰結する例示的なビーム・パターンを示している。図３と比べると、対象とされるスピーカーの方向が今や明瞭に認識される。

導入部で概説したように、パン関数が既知である場合には、アンビソニックス信号の再生のためのデコード行列Dを得るもう一つの方法が可能である。パン関数Wは、仮想源方向Ωの集合上で定義された所望される信号と見られ、これらの方向のモード行列Ξは入力信号のはたらきをする。すると、デコード行列は次式を使って計算できる。

D＝WΞ^H[ΞΞ^H]^-1＝WΞ⁺ (15)
ここで、Ξ^H[ΞΞ^H]^-1または単にΞ⁺は、モード行列Ξの擬似逆行列である。この新たなアプローチでは、W内のパン関数をVBAPから取り、これからアンビソニックス・デコード行列を計算する。

Wについてのパン関数は、式(4)を使って計算された利得値g(Ω)として取られる。ここで、Ωは式(13)に従って選ばれる。式(15)を使う、結果として得られるデコード行列は、VBAPパン関数を容易にするアンビソニックス・デコード行列である。VBAPから導出されるデコード行列を使うデコードから帰結するビーム・パターンを示す例が図５に描かれている。有利なことに、サイドローブSLが、図４の正規化されたモード・マッチング結果のサイドローブSL_regより有意に小さい。さらに、個々のスピーカーについてのVBAP導出されたビーム・パターンは、スピーカー・セットアップの幾何構造に従う。これは、VBAPパン関数が、対象とされる方向のベクトル基底に依存するからである。結果として、本発明に基づく新しいアプローチは、スピーカー・セットアップのすべての方向にわたってよりよい結果を生じる。

源方向１０３はかなり自由に定義できる。源方向の数Sについての条件は、少なくとも(N＋1)²でなければならないというものである。よって、音場信号SF_cの所与の次数Nがあれば、S≧(N＋1)²に従ってSを定義し、S個の源方向を単位球面上にわたって均等に分配することが可能である。上述したように、結果は1°…180°までx度（たとえばx＝1…5またはx＝10,20など）の一定のきざみで走る傾斜角および1…360°までの方位角をもつ球面グリッドであることができる。各源方向Ω＝(θ,φ)は方位角φおよび傾斜角θによって与えられることができる。

有利な効果は聴取試験において確認された。単一源の定位の評価のために、仮想源が基準としての本物の源に対して比較される。本物の源については、所望される位置にあるスピーカーが使われる。使用される再生方法はVBAP、アンビソニックス・モード・マッチング・デコードおよび本発明に基づくVBAPパン関数を使う新たに提案されるアンビソニックス・デコードである。第二、第三の方法については、試験される各位置および試験される各入力信号について、三次のアンビソニックス信号が生成される。この合成アンビソニックス信号は次いで対応するデコード行列を使ってデコードされる。使用された試験信号は、広帯域ピンクノイズおよび男性の発話信号である。試験された位置は、前方領域に、次の方向をもって配置される。

Ω1＝(76.1°,−23.2°)、Ω2＝(63.3°,−4.3°) (16)
聴取試験は、約0.2sの平均残響時間をもつ音響室内で実施された。九人の人が聴取試験に参加した。被験者には、すべての再生方法の、基準と比較しての空間的な再生性能を等級付けるよう依頼された。仮想源の定位および音色の変化を表すために単一の等級値が見出される必要があった。図５は聴取試験の結果を示している。

この結果が示すように、正規化されないアンビソニックス・モード・マッチング・デコードは、試験対象となった他の方法より知覚的に悪く等級付けされた。この結果は図３に対応する。アンビソニックス・モード・マッチング方法は、この聴取試験においてアンカーのはたらきをする。もう一つの利点は、他の方法よりもVBAPについてのほうが、ノイズ信号に対する信頼区間が大きいということである。平均値は、VBAPパン関数を使うアンビソニックス・デコードについて最も高い値を示す。このように、空間分解能は――使用されるアンビソニックス次数のため――低下するが、この方法はパラメトリックVBAP手法に比しての利点を示す。VBAPに比べ、堅牢パン関数およびVBAPパン関数を用いるアンビソニックス・デコードはいずれも、仮想源をレンダリングするために三つのスピーカーだけが使われるのではないという利点をもつ。VBAP単独スピーカーは、仮想源位置がスピーカーの物理的位置の一つに近い場合に優勢となりうる。ほとんどの被験者は、直接適用されるVBAPよりもアンビソニックス駆動のVBAPのほうが音色の変化（timbre alteration）が少ないと報告した。VBAPについての音色の変化の問題は非特許文献３からすでに知られている。VBAPとは逆に、新たに提案される方法は、一つの仮想源の再生のために三つより多くのスピーカーを使うが、驚くことに、音色付け（coloration）がより少ない。

結論として、VBAPパン関数からアンビソニックス・デコード行列を得る新たな方法が開示される。種々のラウドスピーカー・セットアップについて、このアプローチはモード・マッチング・アプローチの行列に比べて有利である。これらのデコード行列の属性および帰結について上記で論じている。まとめると、VBAPパン関数を用いる新たに提案されるアンビソニックス・デコードは、よく知られたモード・マッチング手法の典型的な諸問題を回避する。聴取試験により、VBAP導出されたアンビソニックス・デコードは、VBAPの直接的な使用が生成できるよりもよい空間的な再生品質を生成することができる。VBAPがレンダリングされるべき仮想源のパラメータによる記述を必要とするのに対し、提案される方法は音場記述のみを必要とする。

本発明の好ましい実施形態に適用される本発明の根本的な新たな特徴について図示し、説明し、指摘してきたが、本発明の精神から外れることなく、当業者によって、開示される装置の形および詳細ならびにその動作において、記載される装置および方法にさまざまな省略、代替、変更をしてもよいことは理解されるであろう。実質的に同じ機能を実質的に同じ仕方で実行して同じ結果を達成する要素のあらゆる組み合わせが本発明の範囲内であることが明白に意図されている。ある記載される実施形態から別の実施形態への要素の転用も完全に意図されており、考えられている。詳細の修正は本発明の範囲から外れることなくできることが理解される。本稿および（適切な場合には）請求項および図面において開示される各特徴は、独立して、あるいは任意の適切な組み合わせにおいて設けられてもよい。諸特徴は、適切な場合には、ハードウェア、ソフトウェアまたは両者の組み合わせで実装されてもよい。請求項に現れる参照符号があったとしても単に例解のためであって、請求項の範囲に対する限定する効果はもたない。

いくつかの態様を記載しておく。
〔態様１〕
オーディオ再生のためのオーディオ音場表現をデコードする方法であって：
・複数のスピーカーのそれぞれについて、それらのスピーカーの位置および複数の源方向に基づいて幾何学的な方法を使ってパン関数を計算する段階と；
・前記源方向からモード行列を計算する段階と；
・前記モード行列の擬似逆モード行列を計算する段階と；
・前記オーディオ音場表現をデコードする段階とを含み、前記デコードは、少なくとも前記パン関数および前記擬似逆モード行列から得られるデコード行列に基づく、
方法。
〔態様２〕
パン関数を計算する前記段階において使われる前記幾何学的な方法がベクトル基底振幅パン（VBAP）である、態様１記載の方法。
〔態様３〕
前記音場表現が少なくとも二次のアンビソニックス・フォーマットである、態様１または２記載の方法。
〔態様４〕
Ξは前記複数の源方向のモード行列であるとして、前記擬似逆モード行列（Ξ⁺）がΞ^H[ΞΞ^H]^-1に従って得られる、態様１ないし３のうちいずれか一項記載の方法。
〔態様５〕
Wは各スピーカーについてのパン関数の集合であるとして、前記デコード行列が、D＝WΞ^H[ΞΞ^H]^-1＝WΞ⁺に従って得られる、態様４記載の方法。
〔態様６〕
オーディオ再生のためのオーディオ音場表現をデコードする装置であって：
・複数のスピーカーのそれぞれについて、それらのスピーカーの位置および複数の源方向に基づいて幾何学的な方法を使ってパン関数を計算する第一計算手段と；
・前記源方向からモード行列を計算する第二計算手段と；
・前記モード行列の擬似逆モード行列を計算する第三計算手段と；
・前記音場表現をデコードするデコーダ手段とを有しており、前記デコードはデコード行列に基づき、前記デコーダ手段は、少なくとも前記パン関数および前記擬似逆モード行列を使って前記デコード行列を得る、
装置。
〔態様７〕
態様６記載の装置であって、当該デコードする装置がさらに、
前記パン関数および前記擬似逆モード行列から前記デコード行列を計算する手段を有する、
装置。
〔態様８〕
パン関数を計算する前記段階において使われる前記幾何学的な方法がベクトル基底振幅パン（VBAP）である、態様６または７記載の装置。
〔態様９〕
前記音場表現が少なくとも二次のアンビソニックス・フォーマットである、態様６ないし８のうちいずれか一項記載の装置。
〔態様１０〕
Ξは前記複数の源方向のモード行列であるとして、前記擬似逆モード行列Ξ⁺がΞ⁺＝Ξ^H[ΞΞ^H]^-1に従って得られる、態様６ないし９のうちいずれか一項記載の装置。
〔態様１１〕
Wは各スピーカーについてのパン関数の集合であるとして、前記デコード行列が、D＝WΞ^H[ΞΞ^H]^-1＝WΞ⁺に従ってデコード行列を計算する手段において得られる、態様１０記載の装置。
〔態様１２〕
オーディオ再生のためのオーディオ音場表現をデコードする方法をコンピュータに実行させる実行可能命令を記憶しているコンピュータ可読媒体であって、前記方法が：
・複数のスピーカーのそれぞれについて、それらのスピーカーの位置および複数の源方向に基づいて幾何学的な方法を使ってパン関数を計算する段階と；
・前記源方向からモード行列を計算する段階と；
・前記モード行列の擬似逆モード行列を計算する段階と；
・前記オーディオ音場表現をデコードする段階とを含み、前記デコードは、少なくとも前記パン関数および前記擬似逆モード行列から得られるデコード行列に基づく、
コンピュータ可読媒体。
〔態様１３〕
パン関数を計算する前記段階において使われる前記幾何学的な方法がベクトル基底振幅パン（VBAP）である、態様１２記載のコンピュータ可読媒体。
〔態様１４〕
前記音場表現が少なくとも二次のアンビソニックス・フォーマットである、態様１２または１３記載のコンピュータ可読媒体。
〔態様１５〕
Ξは前記複数の源方向のモード行列であるとして、前記擬似逆モード行列Ξ⁺がΞ⁺＝Ξ^H[ΞΞ^H]^-1に従って得られる、態様１２ないし１４のうちいずれか一項記載のコンピュータ可読媒体。

Claims

複数のスピーカーでの再生のためにアンビソニックス・オーディオ音場表現をデコードする方法であって：
・複数のスピーカーのそれぞれについて、それらのスピーカーの位置および複数の源方向に基づいて幾何学的な方法を使ってパン関数を取得する段階と；
・前記源方向および前記アンビソニックス・オーディオ音場表現の次数からモード行列を取得する段階と；
・前記モード行列から基底行列を取得する段階と；
・デコード行列を用いて前記アンビソニックス・オーディオ音場表現をデコードする段階とを含み、前記デコード行列は、前記パン関数および前記基底行列に基づき、前記源方向は単位球上に均等に分布しており、前記源方向の数はSであり、前記アンビソニックス・オーディオ音場表現の前記次数はNであり、S≧(N＋1)²である、
方法。
パン関数を取得する前記段階において使われる前記幾何学的な方法がベクトル基底振幅パン（VBAP）である、請求項１記載の方法。
前記アンビソニックス・オーディオ音場表現が少なくとも二次である、請求項１記載の方法。
前記基底行列が、前記モード行列と転置行列との積に基づく、請求項１記載の方法。
前記パン関数が行列として表わされ、前記基底行列が前記モード行列の正則化である、請求項１記載の方法。
前記パン関数が利得値として表わされる、請求項１記載の方法。
複数のスピーカーでの再生のためにアンビソニックス・オーディオ音場表現をデコードする装置であって：
・複数のスピーカーのそれぞれについて、それらのスピーカーの位置および複数の源方向に基づいて幾何学的な方法を使ってパン関数を取得する手段と；
・前記源方向および前記アンビソニックス・オーディオ音場表現の次数からモード行列を取得する手段と；
・前記モード行列から基底行列を取得する手段と；
・デコード行列を用いて前記アンビソニックス・オーディオ音場表現をデコードする手段とを有しており、前記デコード行列は前記パン関数および前記基底行列に基づき、前記源方向は単位球上に均等に分布しており、前記源方向の数はSであり、前記アンビソニックス・オーディオ音場表現の前記次数はNであり、S≧(N＋1)²である、
装置。
パン関数を取得する前記手段によって使われる前記幾何学的な方法がベクトル基底振幅パン（VBAP）である、請求項７記載の装置。
前記アンビソニックス・オーディオ音場表現が少なくとも二次である、請求項７記載の装置。
前記基底行列が、前記モード行列と転置行列との積に基づく、請求項７記載の装置。
前記パン関数が行列として表わされ、前記基底行列が前記モード行列の正則化である、請求項７記載の装置。
前記パン関数が利得値として表わされる、請求項７記載の装置。
オーディオ再生のためのアンビソニックス・オーディオ音場表現をデコードする方法をコンピュータに実行させる実行可能命令を記憶しているコンピュータ可読媒体であって、前記方法が：
・複数のスピーカーのそれぞれについて、それらのスピーカーの位置および複数の源方向に基づいて幾何学的な方法を使ってパン関数を取得する段階と；
・前記源方向および前記アンビソニックス・オーディオ音場表現の次数からモード行列を取得する段階と；
・前記モード行列から基底行列を取得する段階と；
・デコード行列を用いて前記アンビソニックス・オーディオ音場表現をデコードする段階とを含み、前記デコード行列は、前記パン関数および前記基底行列に基づき、前記源方向は単位球上に均等に分布しており、前記源方向の数はSであり、前記アンビソニックス・オーディオ音場表現の前記次数はNであり、S≧(N＋1)²である、
コンピュータ可読媒体。