JP7529371B2

JP7529371B2 - ２ｄセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現を復号する方法および装置

Info

Publication number: JP7529371B2
Application number: JP2023051470A
Authority: JP
Inventors: ケイラー，フロリアン; ベーム，ヨハネス
Original assignee: ドルビー・インターナショナル・アーベー
Priority date: 2013-10-23
Filing date: 2023-03-28
Publication date: 2024-08-06
Anticipated expiration: 2034-10-20
Also published as: CN108337624A; AU2022291445A1; EP4213508A1; CA3147189A1; AU2021200911B2; MX2022011449A; US11750996B2; CN108777836A; KR102629324B1; TWI797417B; KR20240017091A; RU2766560C2; KR102491042B1; JP6950014B2; JP2023078432A; BR112016009209B1; CN108337624B; US10694308B2; HK1255621A1; KR20210037747A

Description

本発明は、２Ｄセットアップまたはｎｅａｒ－２Ｄセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現、特に、アンビソニックス形式のオーディオ表現を復号する方法および装置に関する。

正確な定位は、どのような空間的なオーディオ再生システムにとっても主要な目標である。このような再生システムは、会議システム、ゲーム、または、３Ｄサウンドの利点を享受する他の仮想環境にとってきわめて実用的である。３Ｄにおけるサウンド・シーンは、自然な音場として合成または捕捉することができる。例えば、アンビソニックスのような音場信号は、所望の音場の表現を担持する。音場表現から個々のスピーカ信号を取得するには、復号処理が必要である。アンビソニックス形式の信号の復号は、「レンダリング」とも称する。オーディオ・シーンを合成するには、所与の音源の空間的な定位を取得するために空間的なスピーカ配置を参照するパン関数が必要である。自然な音場を記録するためには、空間的な情報の捕捉にマイクロフォン・アレイが必要である。アンビソニックス手法は、これを成し遂げるために大変適したツールである。アンビソニックス形式の信号は、音場の球面調和分解に基づいて、所望の音場の表現を担持する。基本的なアンビソニックス形式またはＢ形式は、次数０および１の球面調和関数を使用するが、いわゆる高次アンビソニックス（ＨＯＡ）は、少なくとも２次のさらなる球面調和関数も使用する。スピーカの空間的な配置は、スピーカ・セットアップと称する。復号処理のためには、復号行列（レンダリング行列とも称する）が必要であり、この行列は、所与のスピーカ・セットアップに特化したものであり、既知のスピーカの位置を使用して生成される。

一般的に使用されているスピーカ・セットアップは、２つのスピーカを使用するステレオ・セットアップ、５つのスピーカを使用する標準サラウンド・セットアップ、５つより多くのスピーカを使用するサラウンド・セットアップの拡張である。しかしながら、これらのセットアップはよく知られているが、２次元（２Ｄ）に制約され、例えば、高さ情報は再現されない。高さ情報を再現することができる既知のスピーカ・セットアップに対するレンダリングは、音の定位および音色において欠点を有する。これらの欠点は、空間的に垂直なパンが極めて不均一なラウドネスで知覚されるか、スピーカ信号が強いサイドローブを有する点であり、これは、特に、中心から外れた位置で聴き取る際の欠点となる。したがって、スピーカに対するＨＯＡ音場の記述をレンダリングする際には、いわゆるエネルギー保存性を有するレンダリング設計が好ましい。これは、単一の音源をレンダリングする結果として、音源の方向とは独立して、一定のエネルギーのスピーカ信号が発生することを意味する。還元すれば、アンビソニックス表現によって保持される入力エネルギーは、スピーカ・レンダラーによって保存される。本発明者による国際公開特許公報第２０１４／０１２９４５号［文献１］は、３Ｄスピーカ・セットアップに対する良好なエネルギー保存性および定位の特性を有するＨＯＡレンダラー設計について記載している。しかしながら、この手法は、全ての方向をカバーする３Ｄスピーカ・セットアップに対しては極めて良好に動作するものの、音源の方向の中には、（例えば、５．１サラウンドのような）２Ｄスピーカ・セットアップでは減衰するものがある。このことは、特に、スピーカが配置されてない、例えば、トップからの方向に当てはまる。

Ｆ．ＺｏｔｔｅｒおよびＭ．Ｆｒａｎｋ著「Ａｌｌ－ＲｏｕｎｄＡｍｂｉｓｏｎｉｃＰａｎｎｉｎｇａｎｄＤｅｃｏｄｉｎｇ（オールラウンドなアンビソニック・パンニングおよび復号処理）」[文献２]では、スピーカによって構築される凸包に穴が存在する場合には、「架空の」スピーカが追加される。しかしながら、その架空のスピーカに対する結果として得られる信号は、実際のスピーカでの再生が省略される。したがって、その方向（すなわち、実際のスピーカが配置されていない方向）からの音源信号が依然として減衰されることとなる。さらに、本文献は、ＶＢＡＰ（ベクトル・ベースの振幅パンニング）と共に使用される架空のスピーカの使用を開示するのみである。

したがって、残っている課題は、スピーカが配置されていない方向からの音源の減衰がより少ないか、全く減衰しないようにする、２Ｄ（２次元）スピーカ・セットアップに対するエネルギー保存性を有するアンビソニックス・レンダラーを設計することにある。２Ｄスピーカ・セットアップは、スピーカの仰角が所定の小さな範囲（例えば、１０°未満（＜１０°））で、水平面に近くなるものとして分類することができる。

本明細書は、規則的または非規則的な、空間的なスピーカ配置に対するアンビソニックス形式の音場表現をレンダリング／復号処理するための解決法について記載し、そのレンダリング／復号処理は、高度に改善された定位特性および音色特性をもたらし、エネルギー保存性を有し、スピーカを利用可能でない方向からの音をもレンダリングする。スピーカを利用可能でない方向からの音は、スピーカが各方向で利用可能であると仮定した場合と概ね同様のエネルギーおよび知覚されるラウドネスでレンダリングされることは有利である。もちろん、その方向ではスピーカが利用可能でないため、これらの音源の正確な定位は可能ではない。

特に、少なくとも幾つかの記載した実施形態は、ＨＯＡ形式の音場データを復号するための復号行列を取得する新しい方法を提供する。少なくともＨＯＡ形式は、スピーカの位置とは直接関連していない音場を記述し、取得されるスピーカの信号は、必ずチャンネル・ベースのオーディオ形式であるため、ＨＯＡ信号の復号は、常に、オーディオ信号のレンダリングに密接に関連している。原理的には、同じことが、他のオーディオの音場形式にも当てはまる。したがって、本開示内容は、音場に関連するオーディオ形式の復号およびレンダリングの両方に関連する。復号行列およびレンダリング行列の用語は、同意語として使用されている。

良好なエネルギー保存特性を有する所与のセットアップに対する復号行列を取得するために、１つ以上の仮想のスピーカがスピーカを利用可能でない場所に追加される。例えば、２Ｄセットアップに対する改良された復号行列を取得するために、２つの仮想のスピーカがトップおよびボトムに追加される（トップおよびボトムは、概ね仰角０°で設置された２Ｄスピーカでは＋９０°および－９０°の仰角に対応する。）。この仮想的な３Ｄスピーカ・セットアップのために、エネルギー保存特性を満たす復号行列が設計される。最後に、仮想のスピーカに対する復号行列からの重み係数は、２Ｄセットアップの実際のスピーカに対する一定利得とミキシングされる。

一実施形態によれば、所与の組のスピーカに対するアンビソニックス形式のオーディオ信号をレンダリングまたは復号する復号行列（またはレンダリング行列）を生成し、その生成は、従来の方法を使用して、変更されたスピーカの位置を使用して、第１の予備復号行列を生成するステップであって、変更されたスピーカの位置が所与の組のスピーカのスピーカ位置および少なくとも１つの追加的な仮想のスピーカ位置を含む、上記生成するステップと、第１の予備復号行列をダウンミキシングするステップであって、上記少なくとも１つの追加的な仮想のスピーカに関連する係数が除かれ、所与の組のスピーカの、スピーカに関連する係数に分配される、上記ダウンミキシングするステップと、によって行われる。一実施形態においては、続いて、復号行列を正規化する後続するステップが行われる。結果として得られる復号行列は、所与の組のスピーカのためのアンビソニックス信号をレンダリングまたは復号するのに適しており、スピーカが存在しない位置からの音でさえも、正確な信号エネルギーで再生される。これは、改良された復号行列の構築によるものである。好ましくは、第１の予備復号行列はエネルギー保存性を有する。

一実施形態においては、復号行列はＬ個の行およびＯ_3D個の列を有する。行の数は２Ｄスピーカ・セットアップにおけるスピーカの数に対応し、列の数はＯ_3D＝（Ｎ＋１）²に従ったＨＯＡ次数Ｎに依存するアンビソニックス係数Ｏ_３Ｄの数に対応する。２Ｄスピーカ・セットアップに対する復号行列の係数の各々は、少なくとも第１の中間係数および第２の中間係数の合計である。第１の中間係数は、２Ｄスピーカ・セットアップの現在のスピーカの位置に対するエネルギー保存性を有する３Ｄ行列設計方法によって取得され、このエネルギー保存性を有する３Ｄ行列設計方法は、少なくとも１つの仮想のスピーカの位置を使用する。第２の中間係数は、少なくとも１つの仮想のスピーカの位置に対する上記エネルギー保存性を有する３Ｄ行列設計方法から取得された、重み係数ｇを乗算した係数によって取得される。一実施形態においては、重み係数ｇは

に従って算出され、ここで、Ｌは２Ｄスピーカ・セットアップにおけるスピーカの数である。

一実施形態においては、本発明は、上述した、または、請求の範囲に記載されたステップを含む方法をコンピュータに行わせるための実行可能な命令を記憶したコンピュータ読取可能な媒体に関する。この方法を利用する装置は、請求項９に開示されている。

従属請求項、以下の説明および図面には、有利な実施形態が開示されている。

本発明の例示的な実施形態が添付図面を参照して説明されている。

一実施形態に係る方法のフローチャートである。ダウンミキシング済みのＨＯＡ復号行列の例示的な構成を示した図である。スピーカの位置を取得、変更するためのフローチャートである。一実施形態に係る装置を示すブロック図である。従来の復号行列から結果的に生じるエネルギー分布を示した図である。実施形態に係る復号行列から結果的に生じるエネルギー分布を示した図である。複数の異なる周波数帯域に対する別個に最適化された復号行列の使用を示した図である。

図１は、本発明の一実施形態に係るオーディオ信号、特に、音場信号を復号する方法のフローチャートを示している。音場信号の復号は、一般的には、オーディオ信号がレンダリングされるスピーカの位置を必要とする。Ｌ個のスピーカに対するこのようなスピーカの位置

が本処理に入力される（ｉ１０）。なお、位置について言及する場合は、本明細書において、実際には、空間的な方向を意味する。すなわち、スピーカの位置は、その傾斜角θ_lおよび方位角φ_lによって定義され、これらの傾斜角θ_lおよび方位角φ_lを組み合わせてベクトル

とする。そして、ステップ１０において仮想のスピーカの少なくとも１つの位置を追加する。一実施形態においては、処理ｉ１０で入力される全てのスピーカの位置は２Ｄセットアップを構成するように概ね同一平面にあり、追加される少なくとも１つの仮想のスピーカはこの平面の外にある。一つの特に有利な実施形態においては、処理ｉ１０で入力される全てのスピーカの位置は概ね同一平面にあり、ステップ１０において２つの仮想のスピーカの位置を追加する。２つの仮想のスピーカの有利な位置について以下に記載する。一実施形態においては、後述する式（６）に従って追加が行われる。追加するステップ１０を行った結果として、一組のスピーカの角度

が変更される（ｑ１０）。Ｌ_virtは仮想のスピーカの数である。変更された一組のスピーカの角度は、３Ｄ復号行列設計ステップ１１で使用される。さらに、ＨＯＡの次数Ｎ（一般的には音場信号の係数の次数）はステップ１１に供給される必要がある（ｉ１１）。

３Ｄ復号行列ステップ１１は、３Ｄ復号行列を生成するための任意の既知の方法を実行する。好ましくは、３Ｄ復号行列は、エネルギー保存タイプの復号／レンダリングに適している。例えば、国際特許出願第ＥＰ２０１３／０６５０３４号明細書に記載された方法を使用することができる。３Ｄ復号行列設計ステップ１１の結果として、Ｌ’＝Ｌ＋Ｌ_virt個のスピーカ信号のレンダリングに適した復号行列またはレンダリング行列Ｄ’が得られる。ここで、Ｌ_virtは、「仮想のスピーカの位置を追加する」ステップ１０で追加された仮想のスピーカの位置の数である。

Ｌ個のスピーカのみが物理的に利用可能であるため、３Ｄ復号行列設計ステップ１１から結果的に生成される復号行列Ｄ’は、ダウンミキシングするステップ１２においてＬ個のスピーカに適応するようにする必要がある。ステップ１２では、復号行列Ｄ’のダウンミキシングを行い、ここで、仮想のスピーカに関連する係数が重み付けされ、既存のスピーカに関連する係数に分配される。好ましくは、任意の特定のＨＯＡ次数の係数（すなわち、復号行列Ｄ’の列）が重み付けされ、同一のＨＯＡ次数の係数（すなわち、復号行列Ｄ’の同一の列）に加算される。一例は、後述する式（８）に従ったダウンミキシングである。ダウンミキシングするステップ１２の結果として、Ｌ個の行を有する、すなわち、復号行列Ｄ’よりも行の数が少ないが、復号行列Ｄ’と列の数が同じダウンミキシング済みの３Ｄ復号行列

が生成される。換言すれば、復号行列Ｄ’の次元は、（Ｌ＋Ｌ_virt）×０_3Dであり、ダウンミキシング済みの３Ｄ復号行列

の次元は、Ｌ×０_3Dである。

図２は、ＨＯＡ復号行列Ｄ’からのダウンミキシング済みのＨＯＡ復号行列

の例示的な構成を示している。ＨＯＡ復号行列Ｄ’は、Ｌ＋２個の行を有し、これは、２つの仮想のスピーカの位置がＬ個の利用可能なスピーカの位置に追加されたものである。また、ＨＯＡ復号行列Ｄ’は、Ｏ_3D個の列を有する。ここで、Ｏ_3Dは、＝（Ｎ＋１）²であり、Ｎは、ＨＯＡの次数である。ダウンミキシングするステップ１２において、ＨＯＡ復号行列Ｄ’の行Ｌ＋１およびＬ＋２の係数が重み付けされ、各々の列の係数に分配され、行Ｌ＋１およびＬ＋２が除かれる。例えば、行Ｌ＋１およびＬ＋２の各々の第１の係数ｄ’_L+1,1、およびｄ’_L+2,1が重み付けされ、ｄ’_1,1などの各残りの行の第１の係数に追加される。ダウンミキシング済みのＨＯＡ復号行列

から結果的に得られる係数

は、ｄ’_1,1、ｄ’_L+1,1、ｄ’_L+2,1および重み係数ｇの関数である。同様に、例えば、ダウンミキシング済みのＨＯＡ復号行列

から結果的に得られる係数

は、ｄ’_2,1、ｄ’_L+1,1、ｄ’_L+2,1および重み係数ｇの関数であり、ダウンミキシング済みのＨＯＡ復号行列

の結果として得られる係数

は、ｄ’_1,2、ｄ’_L+1,2、ｄ’_L+2,2および重み付け係数ｇの関数である。

通常、ダウンミキシング済みのＨＯＡ復号行列

は、正規化ステップ１３において正規化される。しかしながら、このステップ１３は、音場信号の復号に非正規化された復号行列を使用することができるため、必要に応じて行われるものである。一実施形態においては、ダウンミキシング済みのＨＯＡ復号行列

は、後述する式（９）に従って正規化される。正規化ステップ１３の結果として、正規化されたダウンミキシング済みのＨＯＡ行列Ｄが生成され、このＨＯＡ復号行列Ｄは、ダウンミキシング済みのＨＯＡ復号行列

と同じ次元Ｌ×Ｏ_3Dを有する。

次いで、正規化されたダウンミキシング済みのＨＯＡ復号行列Ｄは、音場復号ステップ１４で使用され、ここで、入力音場信号ｉ１４が復号されてＬ個のスピーカ信号ｑ１４となる。通常、スピーカ・セットアップが変更されるまでは、正規化されたダウンミキシング済みのＨＯＡ復号行列Ｄは変更される必要はない。したがって、一実施形態においては、正規化されたダウンミキシング済みのＨＯＡ復号行列Ｄは、復号行列ストレージに記憶される。

図３は、一実施形態において、どのようにスピーカの位置が取得され、変更されるかの詳細を示している。本実施形態は、Ｌ個のスピーカの位置

および音場信号の係数の次数Ｎを特定するステップ１０１と、このＬ個のスピーカの位置からＬ個のスピーカが実質的に２Ｄ平面上にあると特定するステップ１０２と、仮想のスピーカの少なくとも１つの仮想の位置

を生成するステップ１０３と、を含む。

一実施形態においては、この少なくとも１つの仮想の位置

は、

および

のうちの一方である。

一実施形態においては、ステップ１０３において、２つの仮想のスピーカに対応する２つの仮想の位置

および

を生成する。ここで、

および

である。

一実施形態によれば、既知の位置にあるＬ個のスピーカに対する符号化されたオーディオ信号を復号する方法は、このＬ個のスピーカの位置

および音場信号の係数の次数Ｎを特定するステップ１０１と、こＬ個のスピーカの位置からＬ個のスピーカが実質的に２Ｄ平面にあると特定するステップ１０２と、仮想のスピーカの少なくとも１つの仮想の位置

を生成するステップ１０３と、３Ｄ復号行列Ｄ’を生成するステップ１１であって、そのＬ個のスピーカの特定された位置

および少なくとも１つの仮想の位置

が使用され、３Ｄ復号行列Ｄ’は、上記特定されたスピーカの位置および仮想のスピーカの位置に対する係数を有する、上記生成するステップ１１と、３Ｄ復号行列Ｄ’をダウンミキシングするステップ１２であって、仮想のスピーカの位置に対する係数が重み付けされ、その特定されたスピーカの位置に関連する係数に分配され、その特定されたスピーカの位置に対する係数を有するダウンスケーリングされた３Ｄ復号行列

が取得される、上記ダウンミキシングするステップ１２と、そのダウンスケーリングされた３Ｄ復号行列

を使用して符号化されたオーディオ信号ｉ１４を復号するステップ１４であって、複数の復号されたスピーカ信号ｑ１４が取得される、上記復号するステップ１４と、を含む。

一実施形態においては、符号化されたオーディオ信号は音場信号であり、例えば、ＨＯＡ形式の音場信号である。

一実施形態においては、上記の仮想のスピーカの少なくとも１つの仮想の位置

は、

および

のうちの一方である。

一実施形態においては、上記の仮想のスピーカの位置に対する係数が重み係数

を用いて重み付けされる。

一実施形態においては、この方法は、ダウンスケーリング済みの３Ｄ復号行列

を正規化するステップをさらに含み、正規化されたダウンスケーリング済みの３Ｄ復号行列Ｄが取得され、符号化されたオーディオ信号ｉ１４を復号する上記のステップ１４は、正規化されたダウンスケーリング済みの３Ｄ復号行列Ｄを使用する。一実施形態においては、この方法は、ダウンスケーリング済みの３Ｄ復号行列

または正規化されたダウンミキシング済みのＨＯＡ復号行列Ｄを復号行列ストレージに記憶するステップをさらに含む。

一実施形態によれば、所与の組のスピーカに対する音場信号をレンダリングまたは復号する復号行列を生成する。この生成は、従来の方法を使用して、変更されたスピーカの位置を使用して、第１の予備復号行列を生成するステップであって、変更されたスピーカの位置が所与の組のスピーカのスピーカ位置および少なくとも１つの追加的な仮想のスピーカのスピーカ位置を含む、上記生成するステップと、第１の予備復号行列をダウンミキシングするステップであって、少なくとも１つの追加的な仮想のスピーカに関連する係数は除かれ、所与の組のスピーカのスピーカに関連する係数に分配される、上記ダウンミキシングするステップと、によって行われる。一実施形態においては、続いて、復号行列を正規化する以下のステップが行われる。結果として得られる復号行列は、所与の組のスピーカに対する音場信号をレンダリングまたは復号するのに適しており、スピーカが存在しない位置からの音でさえも、正確な信号エネルギーで再生される。これは、改良された復号行列の構成によるものである。好ましくは、第１の予備復号行列はエネルギー保存性を有する。

図４ａ）は、一実施形態に係る装置のブロック図を示している。既知の位置にあるＬ個のスピーカに対する音場形式の符号化されたオーディオ信号を復号する装置４００は、少なくとも１つの仮想のスピーカの少なくとも１つの位置をＬ個のスピーカの位置に追加する追加部４１０と、３Ｄ復号行列Ｄ’を生成する復号行列生成部４１１であって、そのＬ個のスピーカの位置

および少なくとも１つの仮想の位置

が使用され、３Ｄ復号行列Ｄ’が上記特定されたスピーカおよび仮想のスピーカの位置に対する係数を有し、３Ｄ復号行列Ｄ’をダウンミキシングする行列ダウンミキシング部４１２であって、仮想のスピーカに対する係数が重み付けされ、特定されたスピーカの位置に関連する係数に分配され、特定されたスピーカの位置に対する係数を有するダウンスケーリングされた３Ｄ復号行列

が取得される、上記行列ダウンミキシング部４１２と、ダウンスケーリングされた３Ｄ復号行列

を使用して符号化されたオーディオ信号を復号する復号部４１４であって、複数の復号されたスピーカ信号が取得される、上記復号部４１４と、を含む。

一実施形態においては、装置は、ダウンスケーリングされた３Ｄ復号行列

を正規化する正規化部４１３をさらに含み、正規化されたダウンスケーリング済みの３Ｄ復号行列Ｄが取得され、復号部４１４は、正規化されたダウンスケーリング済みの３Ｄ復号行列を使用する。

図４ｂ）に示された一実施形態においては、装置は、Ｌ個のスピーカの位置（Ω_Ｌ）および音場信号の係数の次数Ｎを特定する第１の特定部４１０１と、このＬ個のスピーカの位置からＬ個のスピーカが実質的に２Ｄ平面にあると特定する第２の特定部４１０２と、仮想のスピーカの少なくとも１つの仮想の位置

を生成する仮想スピーカ位置生成部４１０３と、を含む。

一実施形態においては、装置は、符号化されたオーディオ信号を複数の周波数帯域に分離する帯域通過フィルタ７１５ｂを含み、７１１ｂで複数の分離された３Ｄ復号行列Ｄｂ’（各周波数帯域に対して１つの分離された３Ｄ復号行列Ｄｂ’）が生成され、７１２ｂで各３Ｄ復号行列Ｄｂ’はダウンミキシングされ、さらに別個に正規化されてもよく、復号部７１４ｂは各周波数帯域毎に別個に復号する。本実施形態においては、装置は、各スピーカに対して１つ、複数の加算部７１６ｂをさらに含む。各加算部は、各々のスピーカに関連する周波数帯域を合計する。

追加部４１０、復号行列生成部４１１、行列ダウンミキシング部４１２、正規化部４１３、復号部４１４、第１の特定部４１０１、第２の特定部４１０２、および仮想スピーカ位置生成部４１０３の各々の機能は、１つ以上のプロセッサによって実施され、これらの部の各々は、これらのうちの他の部、または、これらの部ではない他の部と同一のプロセッサを共有することがある。

図７は、入力信号の複数の異なる周波数帯域に対して別個に最適化された復号行列を使用する実施形態を示している。本実施形態においては、復号方法は、符号化されたオーディオ信号を帯域通過フィルタを使用して複数の周波数帯域に分離するステップを含む。７１１ｂで複数の分離された３Ｄ復号行列Ｄｂ’（各周波数帯域に対して１つの分離された３Ｄ復号行列Ｄｂ’）が生成され、７１２ｂで各３Ｄ復号行列Ｄｂ’は、ダウンミキシングされる。さらに別個に正規化されてもよい。７１４ｂで各周波数帯域に対して符号化されたオーディオ信号の復号が別個に行われる。これにより、人間の知覚における周波数依存差が考慮されるという利点が得られ、異なる周波数帯域に対して異なる復号行列が得られることとなる。一実施形態においては、１つのみ、あるいは複数の（全てではないが）復号行列を、上述したように、仮想のスピーカの位置を追加し、次いで、仮想のスピーカの位置の各々の係数を重み付けし、既存のスピーカの位置に対する係数に分配することによって、生成する。別の実施形態においては、各々の符号化行列を、上述したように、仮想のスピーカの位置を追加し、次いで、仮想のスピーカの位置の各々の係数を重み付けし、既存のスピーカの位置に対する係数に分配することによって、生成する。最後に、周波数帯域分割と逆の処理で、１つの周波数帯域加算部７１６ｂで同一のスピーカに関連する全ての周波数帯域を、スピーカ毎に、合計する。

追加部４１０、復号行列生成部７１１ｂ、行列ダウンミキシング部７１２ｂ、正規化部７１３ｂ、復号部７１４ｂ、周波数帯域加算部７１６ｂ、および帯域通過フィルタ部７１５ｂの各々は、１つ以上のプロセッサによって実施され、これらの機能部の各々は、これらのうちの他の機能部、または、これらの機能部ではない他の機能部と同一のプロセッサを共有することがある。

本開示内容の一態様は、良好なエネルギー保存特性を有する２Ｄセットアップに対するレンダリング行列を取得するものである。一実施形態においては、２つのスピーカがトップおよびボトム（概ね仰角０°で設置された２Ｄスピーカでは＋９０°および－９０°の仰角）に追加される。この仮想的な３Ｄスピーカ・セットアップに対して、エネルギー保存特性を満たすレンダリング行列が設計される。最後に、仮想のスピーカに対するレンダリング行列からの重み係数が２Ｄセットアップの実際のスピーカに対する一定（コンスタント）の利得とミキシングされる。

以下において、アンビソニックス（特に、ＨＯＡ）のレンダリングについて説明する。

アンビソニックス・レンダリングは、アンビソニックス音場の記述からスピーカ信号を算出する処理である。これは、時には、アンビソニックス復号とも呼ばれる。次数Ｎの３Ｄアンビソニックス音場表現が考慮され、ここで、係数の数は、以下の式（１）の通りである。
Ｏ_3D＝（Ｎ＋１）² （１）

この時間サンプルｔの係数は、Ｏ_3D個の要素を有するベクトル

によって表される。レンダリング行列

を用いて、時間サンプルｔに対するスピーカ信号は、以下の式（２）によって算出される。
ｗ（ｔ）＝Ｄｂ（ｔ）（２）
ここで、

および

であり、Ｌはスピーカの数である。

スピーカの位置は、各々の傾斜角θ_ｌおよび方位角φ_ｌによって定義され、これらの傾斜角θ_lおよび方位角φ_lを組み合わせてベクトル

とする。聴取位置からの相異なるスピーカの距離は、スピーカ・チャンネルに対するそれぞれの遅延を使用することで補償される。

ＨＯＡ領域における信号エネルギーは、以下の式（３）によって与えられる。
Ｅ＝ｂ^Ｈｂ（３）
ここで、^Ｈは、複素共役転置を表している。スピーカ信号の対応するエネルギーは、以下の式（４）によって算出される。

エネルギー保存性のある復号／レンダリングを成し遂げるために、エネルギー保存性のある復号／レンダリング行列の比

は一定（コンスタント）であるべきである。

原理的には、改良された２Ｄレンダリングのための以下の拡張が提案される。２Ｄスピーカ・セットアップに対するレンダリング行列の設計のために、１つ以上の仮想のスピーカを追加する。２Ｄセットアップは、スピーカの仰角が所定の小さな範囲内にあり、水平面に近くなるものと考えられる。これは、以下の式（５）のように表現することができる。

通常、閾値θ_thres2dは、一実施形態においては、５°～１０°の範囲にある値に対応するように選定される。

レンダリング設計については、変更された組のスピーカ角度

が定義される。最後の（この例においては、２つ）のスピーカの位置は、極座標系の南極および北極（垂直方向の、すなわち、トップおよびボトム）の２つの仮想のスピーカのものである。

そして、レンダリング設計のために使用されるスピーカの新しい数は、Ｌ’＝Ｌ＋２である。これらの変更されたスピーカの位置から、エネルギー保存手法を用いてレンダリング行列

が設計される。例えば、［文献１］に記載された設計方法が使用される。次に、元のスピーカ・セットアップに対する最終的なレンダリング行列がＤ’から導出される。１つの考え方は、行列Ｄ’に定義されている仮想のスピーカの重み係数を実際のスピーカに対してミキシングすることである。固定された利得係数が使用され、これは、以下の式（７）のように選定される。

中間行列

の係数（本明細書では、ダウンスケーリングされた３Ｄ復号行列とも呼ばれる）は、以下の式（８）のように定義される。

ここで、

は、ｌ番目の行およびｑ番目の列における

の行列要素である。必要に応じて最後のステップにおいては、中間行列（ダウンスケーリングされた３Ｄ復号行列）がフロベニウス・ノルムを使用して正規化してもよい。

図５および図６は、５．０サラウンド・スピーカ・セットアップに対するエネルギー分布を示している。両方の図において、エネルギーの値は、グレースケールとして示されており、丸印は、スピーカの位置を示している。開示されている方法を用いて、特に、トップ（ここでは示されていないが、さらに、ボトム）での減衰が減少しているのは明らかである。

図５は、従来の復号行列から結果的に得られるエネルギー分布を示している。ｚ＝０平面の周りの小さな円は、スピーカの位置を表している。［－３．９，・・・，２．１］デジベル（ｄＢ）のエネルギー範囲がカバーされ、この結果として、エネルギー差が６ｄＢとなることが分かる。さらに、単位球面のトップからの信号（さらに、図示されていないが、ボトム上の信号）は、ここではスピーカが利用可能でないため、極めて低エネルギーで再生され、すなわち、聴き取りができない。

図６は、１つ以上の実施形態に係る復号行列から生ずるエネルギー分布を示している。図５の場合と同じ位置に同じ数のスピーカが存在する。少なくとも以下の利点がもたらされる。第１に、［－１．６，・・・，０．８］デジベル（ｄＢ）のより小さなエネルギー範囲がカバーされ、この結果として、エネルギー差がより小さくなり、２．４ｄＢのみとなる。第２に、単位球面の全ての方向からの信号は、ここにスピーカが存在しない場合であっても、それぞれの正確なエネルギーを用いて再生される。これらの信号は、利用可能なスピーカを通じて再生されるため、それぞれの定位は正確ではない。しかしながら、信号は、正しいラウドネスで聴き取り可能である。この例において、トップからの信号およびボトム上の信号（図示せず）は、改良された復号行列を用いた復号によって聴き取りできるようになる。

一実施形態においては、既知の位置にあるＬ個のスピーカのためのアンビソニックス形式の符号化されたオーディオ信号を復号する方法は、少なくとも１つの仮想のスピーカの少なくとも１つの位置をＬ個のスピーカの位置に追加するステップと、３Ｄ復号行列Ｄ’を生成するステップであって、そのＬ個のスピーカの位置

および少なくとも１つの仮想の位置

が使用され、その３Ｄ復号行列Ｄ’が上記特定されたスピーカおよび仮想のスピーカの位置に対する係数を有する、上記生成するステップと、３Ｄ復号行列Ｄ’をダウンミキシングするステップであって、仮想のスピーカの位置に対する係数が重み付けされ、特定されたスピーカの位置に関連する係数に分配され、特定されたスピーカの位置に対する係数を有するダウンスケーリングされた３Ｄ復号行列

が取得される、上記ダウンミキシングするステップと、ダウンスケーリングされた３Ｄ復号行列

を使用して符号化されたオーディオ信号を復号するステップであって、複数の復号されたスピーカ信号が取得される、上記復号するステップと、を含む。

別の実施形態においては、既知の位置にあるＬ個のスピーカのためのアンビソニックス形式の符号化されたオーディオ信号を復号する装置は、少なくとも１つの仮想のスピーカの少なくとも１つの位置をＬ個のスピーカの位置に追加する追加部４１０と、３Ｄ復号行列Ｄ’を生成する復号行列生成部４１１であって、Ｌ個のスピーカの位置

および少なくとも１つの仮想の位置

が使用され、その３Ｄ復号行列Ｄ’が上記特定されたスピーカおよび仮想のスピーカの位置に対する係数を有する、上記復号行列生成部４１１と、３Ｄ復号行列Ｄ’をダウンミキシングするダウンミキシング部４１２であって、仮想のスピーカの位置に対する係数が重み付けされ、特定されたスピーカの位置に関連する係数に分配され、特定されたスピーカの位置に対する係数を有するダウンスケーリングされた３Ｄ復号行列

が取得される、上記ダウンミキシング部４１２と、ダウンスケーリングされた３Ｄ復号行列

さらに別の実施形態においては、既知の位置にあるＬ個のスピーカのためのアンビソニックス形式の符号化されたオーディオ信号を復号する装置は、少なくとも１つのプロセッサおよび少なくとも１つのメモリを含み、そのメモリは命令を記憶し、その命令がプロセッサ上で実行されると、プロセッサは、少なくとも１つの仮想のスピーカの少なくとも１つの位置をＬ個のスピーカの位置に追加する追加部４１０と、３Ｄ復号行列Ｄ’を生成する復号行列生成部４１１であって、Ｌ個のスピーカの位置

および少なくとも１つの仮想の位置

が使用され、３Ｄ復号行列Ｄ’が上記特定されたスピーカおよび仮想のスピーカの位置に対する係数を有する、上記復号行列生成部４１１と、３Ｄ復号行列Ｄ’をダウンミキシングする行列ダウンミキシング部４１２であって、仮想のスピーカの位置に対する係数が重み付けされ、特定されたスピーカの位置に関連する係数に分配され、特定されたスピーカの位置に対する係数を有するダウンスケーリングされた３Ｄ復号行列

を使用して符号化されたオーディオ信号を復号する復号部４１４であって、複数の復号されたスピーカ信号が取得される、上記復号部４１４と、の機能を実現する。

さらに別の実施形態においては、コンピュータ読取可能な記憶媒体は、既知の位置にあるＬ個のスピーカのためのアンビソニックス形式の符号化されたオーディオ信号を復号する方法をコンピュータに実行させるための実行可能な命令を記憶し、この方法は、少なくとも１つの仮想のスピーカの少なくとも１つの位置をＬ個のスピーカの位置に追加するステップと、３Ｄ復号行列Ｄ’を生成するステップであって、Ｌ個のスピーカの位置

および少なくとも１つの仮想の位置

が使用され、その３Ｄ復号行列Ｄ’が上記特定されたスピーカおよび仮想のスピーカの位置に対する係数を有する、上記生成するステップと、その３Ｄ復号行列Ｄ’をダウンミキシングするステップであって、仮想のスピーカの位置に対する係数が重み付けされ、特定されたスピーカの位置に関連する係数に分配され、特定されたスピーカの位置に対する係数を有するダウンスケーリングされた３Ｄ復号行列

を使用して符号化されたオーディオ信号を復号するステップであって、複数の復号されたスピーカ信号が取得される、上記復号するステップと、を含む。コンピュータ読取可能な記憶媒体のさらなる実施形態は、上述した特徴事項、特に、請求項１に従属する従属請求項に開示された特徴事項を任意に含むことができる。

本発明は、純粋に、例示的な目的で説明されているが、本発明の範囲を逸脱することなく、詳細な事項を変更することが可能である。例えば、ＨＯＡに関してのみ説明しているが、本発明は、他の音場オーディオ形式にも適用することができる。

明細書、（該当する場合には）請求項、および図面に開示された各構成要素は、独立して設けてもよく、任意に適切に組み合わせて設けてもよい。構成要素は、適宜、ハードウェア、ソフトウェア、または、ハードウェアおよびソフトウェアの両方を組み合わせて実施することができる。請求項に存在する参照符号は例示的な目的のみで記載されており、請求項に係る範囲に限定的な影響を与えるものではない。

引用した参考文献は、以下の通りである。
[文献１] 国際特許公開公報第２０１４/０１２９４５号(ＰＤ１２００３２)
[文献２] Ｆ．ＺｏｔｔｅｒおよびＭ．Ｆｒａｎｋ著「Ａｌｌ－ＲｏｕｎｄＡｍｂｉｓｏｎｉｃＰａｎｎｉｎｇａｎｄＤｅｃｏｄｉｎｇ（オールラウンドなアンビソニック・パンニングおよび復号処理）」、オーディオ技術者協会ジャーナル、２０１２年、第６０巻、８０７－８２０頁

いくつかの態様を記載しておく。
〔態様１〕
既知の位置にあるＬ個のスピーカに対するアンビソニックス形式の符号化されたオーディオ信号を復号する方法であって、
－少なくとも１つの仮想のスピーカの少なくとも１つの位置を前記Ｌ個のスピーカの位置に追加するステップ（１０）と、
－３Ｄ復号行列（Ｄ’）を生成するステップ（１１）であって、前記Ｌ個のスピーカの位置

および前記少なくとも１つの仮想の位置

が使用され、前記３Ｄ復号行列（Ｄ’）が前記特定されたスピーカおよび仮想のスピーカの位置に対する係数を有する、前記生成するステップ（１１）と、
－前記３Ｄ復号行列（Ｄ’）をダウンミキシングするステップ（１２）であって、前記仮想のスピーカの位置に対する係数が重み付けされ、前記特定されたスピーカの位置に関連する係数に分配され、前記特定されたスピーカの位置に対する係数を有するダウンスケーリングされた３Ｄ復号行列

が取得される、前記ダウンミキシングするステップ（１２）と、
－前記ダウンスケーリングされた３Ｄ復号行列

を使用して前記符号化されたオーディオ信号（ｉ１４）を復号するステップ（１４）であって、複数の復号されたスピーカ信号（ｑ１４）が取得される、前記復号するステップ（１４）と、
を含む、前記方法。
〔態様２〕
前記仮想のスピーカの位置に対する前記係数が重み係数

を用いて重み付けされ、Ｌはスピーカの数である、態様１に記載の方法。
〔態様３〕
仮想のスピーカの前記少なくとも１つの仮想の位置

は、

および

のうちの一方である、態様１または２に記載の方法。
〔態様４〕
フロベニウス・ノルムを使用して前記ダウンスケーリング済みの３Ｄ復号行列

を正規化するステップ（１３）をさらに含み、正規化されたダウンスケーリング済みの３Ｄ復号行列（Ｄ）が取得され、前記符号化されたオーディオ信号を復号するステップ（１４）は、前記正規化されたダウンスケーリング済みの３Ｄ復号行列（Ｄ）を使用する、態様１～３のいずれか１項に記載の方法。
〔態様５〕
前記正規化が

に従って行われる、態様４に記載の方法。
〔態様６〕
－前記Ｌ個のスピーカの位置

および音場信号の係数の次数Ｎを特定するステップ（１０１）と、
－前記位置から前記Ｌ個のスピーカが実質的に２Ｄ平面にあると特定するステップ（１０２）と、
－仮想のスピーカの少なくとも１つの仮想の位置

を生成するステップ（１０３）と、
をさらに含む、態様１～５のいずれか１項に記載の方法。
〔態様７〕
前記符号化されたオーディオ信号を帯域通過フィルタを使用して複数の周波数帯域に分離するステップをさらに含み、各周波数帯域に対して１つの、複数の別個の３Ｄ復号行列（Ｄｂ’）が生成され（７１１ｂ）、各３Ｄ復号行列（Ｄｂ’）はダウンミキシングされ（７１２ｂ）、必要に応じて別個に正規化され（７１３ｂ）、前記符号化されたオーディオ信号（ｉ１４）を復号するステップ（７１４ｂ）は各周波数帯域に対して別個に行われる、態様１～６のいずれか１項に記載の方法。
〔態様８〕
前記既知のＬ個のスピーカの位置は、概ね１つの２Ｄ平面内にあり、仰角が１０°以下である、態様１～７のいずれか１項に記載の方法。
〔態様９〕
既知の位置にあるＬ個のスピーカのためのアンビソニックス形式の符号化されたオーディオ信号を復号する装置であって、
－少なくとも１つの仮想のスピーカの少なくとも１つの位置を前記Ｌ個のスピーカの位置に追加する追加部（４１０）と、
－３Ｄ復号行列（Ｄ’）を生成する復号行列生成部（４１１）であって、前記Ｌ個のスピーカの位置

および前記少なくとも１つの仮想の位置

が使用され、前記３Ｄ復号行列（Ｄ’）が前記特定されたスピーカおよび仮想のスピーカの位置に対する係数を有する、前記復号行列生成部（４１１）と、
－前記３Ｄ復号行列（Ｄ’）をダウンミキシングする行列ダウンミキシング部（４１２）であって、前記仮想のスピーカの位置に対する係数が重み付けされ、前記特定されたスピーカの位置に関連する係数に分配され、前記特定されたスピーカの位置に対する係数を有するダウンスケーリングされた３Ｄ復号行列

が取得される、前記行列ダウンミキシング部（４１２）と、
－前記ダウンスケーリングされた３Ｄ復号行列

を使用して前記符号化されたオーディオ信号（ｉ１４）を復号する復号部（４１４）であって、複数の復号されたスピーカ信号（ｑ１４）が取得される、前記復号部（４１４）と、
を備える、前記装置。
〔態様１０〕
フロベニウス・ノルムを使用して前記ダウンスケーリングされた３Ｄ復号行列

を正規化する正規化部（４１３）をさらに含み、
正規化されたダウンスケーリング済みの３Ｄ復号行列（Ｄ）が取得され、前記復号部（４１４）は、前記正規化されたダウンスケーリング済みの３Ｄ復号行列（Ｄ）を使用する、態様９に記載の装置。
〔態様１１〕
－前記Ｌ個のスピーカの位置

および音場信号の係数の次数Ｎを特定する第１の特定部（１０１）と、
－前記位置から前記Ｌ個のスピーカが概ね２Ｄ平面にあると特定する第２の特定部（１０２）と、
－仮想のスピーカの少なくとも１つの仮想の位置

を生成する仮想スピーカ位置生成部（１０３）と、
をさらに含む、態様９または１０に記載の装置。
〔態様１２〕
前記符号化されたオーディオ信号を複数の周波数帯域に分離する複数の帯域通過フィルタ（７１５ｂ）をさらに含み、各周波数帯域に対して１つ、複数の別個の３Ｄ復号行列（Ｄｂ’）が生成され（７１１ｂ）、各３Ｄ復号行列（Ｄｂ’）は、ダウンミキシングされ（７１２ｂ）、必要に応じて別個に正規化され（７１３ｂ）、前記符号化されたオーディオ信号（ｉ１４）を復号する部（７１４ｂ）は、各周波数帯域を別個に復号する、態様９～１１のいずれか１項に記載の装置。
〔態様１３〕
既知の位置にあるＬ個のスピーカのためのアンビソニックス形式の符号化されたオーディオ信号を復号する方法をコンピュータに行わせるための実行可能な命令を記憶したコンピュータ読取可能な記憶媒体であって、前記方法は、
－少なくとも１つの仮想のスピーカの少なくとも１つの位置を前記Ｌ個のスピーカの位置に追加するステップ（１０）と、
－３Ｄ復号行列（Ｄ’）を生成するステップ（１１）であって、前記Ｌ個のスピーカの位置

および前記少なくとも１つの仮想の位置

を使用して前記符号化されたオーディオ信号（ｉ１４）を復号するステップ（１４）であって、複数の復号されたスピーカ信号（ｑ１４）が取得される、前記復号するステップ（１４）と、
を含む、前記コンピュータ読取可能な記憶媒体。
〔態様１４〕
前記仮想のスピーカの位置に対する前記係数が重み係数

を用いて重み付けされ、Ｌは、スピーカの数である、態様１３に記載のコンピュータ読取可能な記憶媒体。
〔態様１５〕
仮想のスピーカの前記少なくとも１つの仮想の位置

は、

および

のうちの一方である、態様１３または１４に記載のコンピュータ読取可能な記憶媒体。

Claims

エンコードされたアンビソニックス・オーディオ信号をデコードするための、L個のスピーカ位置の集合についての第二のデコード行列を決定する、コンピュータによって実行される方法であって、当該方法は：
前記L個のスピーカの位置の集合を受領する段階と；
前記L個のスピーカの位置の集合についての2Dスピーカ・セットアップを検出する段階であって、前記2Dスピーカ・セットアップは、前記L個のスピーカ位置のそれぞれが水平面から閾値度数以内の仰角をもつことの判別に基づいて検出される、段階と；
前記L個のスピーカ位置の集合に一つまたは複数の仮想スピーカ位置

を追加して、L₂個のスピーカ位置の新しい集合を決定する段階であって、前記一つまたは複数の仮想スピーカ位置のうちの少なくとも一つは

のうちの少なくとも一つである、段階と；
前記L₂個のスピーカ位置の新しい集合についての第一のデコード行列を決定する段階と；
前記L個のスピーカ位置の集合についての前記第二のデコード行列を決定する段階であって、前記第二のデコード行列は、前記第一のデコード行列の少なくとも一つの係数に基づいて決定され、前記第二のデコード行列はさらに、前記一つまたは複数の仮想スピーカ位置

についての少なくとも一つの係数を、重み付け因子g＝1/√Lに基づいて重み付けして、分配することにさらに基づく、段階とを含む、
方法。
前記閾値度数が5度から10度までの間である、請求項１に記載の方法。
コンピュータに請求項１に記載の方法を実行させるための実行可能命令を記憶しているコンピュータ可読記憶媒体。
エンコードされたアンビソニックス・オーディオ信号をデコードするための、L個のスピーカ位置の集合についての第二のデコード行列を決定するための装置であって、当該装置は：
前記L個のスピーカの位置の集合を受領する受領器と；
前記L個のスピーカの位置の集合についての2Dスピーカ・セットアップを検出する第一のプロセッサであって、前記2Dスピーカ・セットアップは、前記L個のスピーカ位置のそれぞれが水平面から閾値度数以内の仰角をもつことの判別に基づいて検出される、第一のプロセッサと；
前記L個のスピーカの位置の集合に一つまたは複数の仮想スピーカ位置

を追加して、L₂個のスピーカ位置の新しい集合を決定する第二のプロセッサであって、前記一つまたは複数の仮想スピーカ位置のうちの少なくとも一つは

のうちの少なくとも一つである、第二のプロセッサと；
前記L₂個のスピーカ位置の新しい集合についての第一のデコード行列を決定する第三のプロセッサと；
前記L個のスピーカ位置の集合についての前記第二のデコード行列を決定する第四のプロセッサであって、前記第二のデコード行列は、前記第一のデコード行列の少なくとも一つの係数に基づいて決定され、前記第二のデコード行列はさらに、前記一つまたは複数の仮想スピーカ位置

についての少なくとも一つの係数を、重み付け因子g＝1/√Lに基づいて重み付けして、分配することにさらに基づく、第四のプロセッサとを有する、
装置。