JP2017501440A

JP2017501440A - 特異値分解を用いる高次Ａｍｂｉｓｏｎｉｃｓ符号化と復号の方法と装置

Info

Publication number: JP2017501440A
Application number: JP2016534923A
Authority: JP
Inventors: クロップ，オルガー; アーベリング，シュテファン
Original assignee: ドルビー・インターナショナル・アーベー
Priority date: 2013-11-28
Filing date: 2014-11-18
Publication date: 2017-01-12
Anticipated expiration: 2034-11-18
Also published as: EP3075172B1; JP6980837B2; WO2015078732A1; US10602293B2; EP2879408A1; HK1246554A1; US10244339B2; HK1249323A1; KR102460817B1; EP3313100B1; CN107995582A; EP3075172A1; JP2019082741A; US9736608B2; US20170374485A1; CN105981410A; CN105981410B; HK1248438A1; JP2020149062A; JP6707687B2

Abstract

特異値分解を用いるＨＯＡ信号の符号化と復号は、音源の方向値（Ωｓ）及び前記オーディオ入力信号（｜ｘ（Ωｓ）〉）のＡｍｂｉｓｏｎｉｃｓ次数（Ｎｓ）とに基づき、球面調和関数の対応するケットベクトル（｜Ｙ（Ωｓ）〉）及び対応するエンコーダモードマトリックス（ΞＯｘＳ）を構成するステップを含む。オーディオ入力信号（｜ｘ（Ωｓ）〉）から特異閾値（σε）が決定される。関連する特異値を求めるために、エンコーダモードマトリックスに特異値分解（１３）を行う。その特異値は閾値と比較され、最終トリックス（ΨＯｘＬ）を構成する（１８）。デコーダモードマトリックスに特異値分解（１９）を行い、マトリックスランクから、最終的モードマトリックスランクを決定し、この最終的モードマトリックスランク及びエンコーダサイド特異値分解から、エンコーダモードマトリックス（ΞＯｘＳ）クトルの成分数は、最終的モードマトリックスランクにより低減され（１６）、適応されたーダサイド特異値分解の出力値及び最終的モードマトリックスランクから、随伴デコーダモー図１

Description

本発明は、特異値分解を用いた高次Ａｍｂｉｓｏｎｉｃｓ符号化と復号の方法と装置に関する。

高次Ａｍｂｉｓｏｎｉｃｓ（ＨＯＡ）は３次元サウンドを表す。他の手法は波動フィールド合成（ＷＦＳ）又は２２．２のようなチャネルベースのアプローチである。しかし、チャネルベースの方法と対照的に、ＨＯＡ表現は、特定のラウドスピーカセットアップから独立しているという長所がある。しかし、この柔軟性はラウドスピーカセットアップにおけるＨＯＡ表現の再生に必要な復号プロセスの犠牲によるものである。必要なラウドスピーカの数が通常は非常に多いＷＦＳアプローチと比較して、ＨＯＡはきわめて少ないラウドスピーカから構成されたセットアップにもレンダリングされてもよい。ＨＯＡのさらに別の長所は、ヘッドホンへのバイノーラルレンダリングのための修正無しに、同じ表現を利用できることである。

ＨＯＡは、トランケートされた球面調和関数（ＳＨ）展開による複素調和平面波動振幅の空間的密度の表現に基づく。各展開係数は角周波数の関数であり、これは時間領域関数により等価的に表現され得る。よって、一般性を損なわずに、完全なＨＯＡサウンドフィールド表現は、Ｏ時間領域関数により構成されると仮定でき、ここでＯは展開係数の数を示す。これらの時間領域関数は、以下、ＨＯＡ係数シーケンスとして、又はＨＯＡチャネルとして、等価的に参照される。ＨＯＡ表現は、ＨＯＡ係数を含むＨＯＡデータフレームの時間的シーケンスとして表し得る。ＨＯＡ表現の空間的解像度は、展開の最大次数Ｎが大きくなるにつれて向上する。３次元の場合、展開係数の数Ｏは、次数Ｎの二乗で大きくなり、具体的にはＯ＝（Ｎ＋１）^２となる。
＜複素ベクトル空間＞
Ａｍｂｉｓｏｎｉｃｓでは複素関数を扱わなければならない。それゆえ、複素ベクトル空間に基づく記法を導入する。これは抽象的な複素ベクトルで用いられ、３次元「ｘｙｚ」座標系から知られている実幾何学的ベクトルを表現するものではない。そうではなく、各複素ベクトルは、物理系の可能性のある状態を記述し、ｄ個の成分ｘ_ｉを有するｄ次元空間における列ベクトルにより構成され、ディラックによれば、これらの列指向ベクトルはケットベクトルとよばれ、｜ｘ〉と記される。ｄ次元空間において、任意の｜ｘ〉は、その成分ｘ_ｉ及びｄ個の正規直交基底ベクトル｜ｅ_ｉ〉により構成される：

ここで、ｄ次元空間は通常の「ｘｙｚ」３次元空間ではない。

ケットベクトルの複素共役はブラベクトル｜ｘ〉^＊＝〈ｘ｜と呼ばれる。ブラベクトルは、行ベースの記述を表し、及び元のケット空間の双対空間、すなわちブラ空間を構成する。

Ａｍｂｉｓｏｎｉｃｓに関連するオーディオシステムの以下の説明では、このディラック記法を用いる。
内積は同じ次元のブラ及びケットベクトルから構成でき、複素スカラー値になる。ランダムベクトル｜ｘ〉が正規直交ベクトル基底におけるその成分で記述されるとき、特定の基底（ｂａｓｅ）の特定の成分、すなわち｜ｘ〉の｜ｅ_ｉ〉への投影は、内積により与えられる：

ブラ及びケットベクトルの間にある、２つの縦線ではなく１つだけの縦線を考える。

同じ基底の異なるベクトル｜ｘ〉及び｜ｙ〉について、内積はブラ〈ｘ｜をケット｜ｙ〉と

となるようにかけることにより得られる。
次元ｍｘ１のケット及び次元１ｘｎのブラベクトルが外積によりかけられると、ｍ行ｎ列のマトリックスＡが得られる：

＜Ａｍｂｉｓｏｎｉｃｓマトリックス（複数）＞
Ａｍｂｉｓｏｎｉｃｓベースの説明は、完全なサウンドフィールドを時間変化するマトリックス（複数）にマッピングするのに必要な依存性を考慮する。高次Ａｍｂｉｓｏｎｉｃｓ（ＨＯＡ）符号化又は復号マトリックス（複数）では、行（列）の数は音源またはサウンドシンクからの特定の方向に関する。

エンコーダサイドでは、可変数Ｓの音源を考慮する。ここで、ｓ＝１，．．．，Ｓである。各音源は原点から個別の距離ｒ_ｓ、個別の方向Ω_ｓ＝（θ_ｓ，φ_ｓ）を有する。ここで、θ_ｓはｚ−軸を起点とする傾き角度を記述し、及びφ_ｓはｘ−軸を起点とするアジマス角度を記述する。対応する時間依存の信号ｘ_ｓ＝（ｔ）は、個別の時間的振る舞いを有する。
簡単のため、方向部分のみを考慮する（ラジアル依存性はベッセル関数により記述される）。
そして、特定の方向Ω_ｓは、列ベクトル｜Ｙ_ｎ ^ｍ（Ω_ｓ）〉により記述される。ここで、ｎはＡｍｂｉｓｏｎｉｃｓ次数を表し、ｍはＡｍｂｉｓｏｎｉｃｓ次数Ｎのインデックスである。対応する値は、それぞれｍ＝１，．．．，Ｎ及びｎ＝−ｍ，．．．，０，．．．，ｍである。

一般的に、特定のＨＯＡの説明は、２次元または３次元の場合、各ケットベクトル｜Ｙ_ｎ ^ｍ（Ω_ｓ）〉の成分数ＯをＮに応じて制限する：

２以上の音源がある場合、次数ｎのｓ個の個別のベクトル｜Ｙ_ｎ ^ｍ（Ω_ｓ）〉が結合されると、すべての方向が含まれる。これにより、ＯｘＳモード成分を含むモードマトリックスΞが得られる。すなわちΞの各列は特定の方向を表す：

すべての信号値は信号ベクトル｜ｘ（ｋＴ）〉に結合される。信号ベクトルは、各個別の音源信号

以下、簡単のため、｜ｘ（ｋＴ）〉などの時間変動信号では、〆サンプル数ｋはもう記載しない、すなわち無視される。そして、｜ｘ〉では式（８）に示したように、モードマトリックスΞとかけられる。これにより、すべての信号成分が同じ方向Ω_ｓの対応する列と線形結合され、式（５）によるＯ個のＡｍｂｉｓｏｎｉｃｓモード成分又は係数を有するケットベクトル｜ａ〉ｓ）が得られる

生成するタスクを有する。したがって、ラウドスピーカモードマトリックスΨは、球面調和関

次マトリックス（複数）の場合、モードの数はラウドスピーカの数と等しく、｜ｙ〉は逆モードマトリックスΨにより決定できる。任意のマトリックスの場合、行及ひ列の数は異なり得るので、ラウドスピーカ信号｜ｙ〉は疑似逆により決定できる。非特許文献１を参照。そして、Ψの疑

エンコーダ及びデコーダサイドで記述されるサウンドフィールドはほぼ同じである、すなわち

有限Ａｍｂｉｓｏｎｉｃｓ次数の場合、｜ｘ〉で記述される実数値の音源信号と、｜ｙ〉で記述されるラウドスピーカ信号は異なる。それゆえ、｜ｘ〉を｜ｙ〉にマッピングするパニングマトリックスＧを用いることができる。そして、式（８）及び（１０）から、エンコーダ及びデコーダのチェイン演算は：

＜線形汎関数＞
今後の式を簡単にするため、「発明の概要」セクションまでパニングマトリックスは無視する。
必要な基底ベクトルの数が無限になると、離散的基底から連続的基底に変えられる。
それゆえ、関数ｆ無限数のモード成分を有するベクトルとして解釈できる。
これは数学的には「汎関数」と呼ばれている。決定論的に、ケットベクトルから特定の出力ケットベクトルへのマッピングを行うからである。
これは、関数ｆとケット｜ｘ〉間の内積により記述できる。これは、一般的には複素数ｃとなる：

Ｉｆ〆汎関数がケットベクトルの線形結合を保存するとき、ｆは「線形汎関数」と呼ばれる。
エルミート演算子に制約がある限り、以下の特徴を考慮しなければならない。
エルミート演算子は常に次の特徴を有する：
・実固有値。
・異なる固有値に対する直交固有関数の完全なセット。
それゆえ、すべての関数はこれらの固有関数により構成することができる。非特許文献２を参

できる：

〆インデックス（複数）ｎ，ｍは決定論的に用いられる。これらは１次元インデックスｊにより置換され、及びインデックス（複数）ｎ′，ｍ′は同じサイズのインデックスｉにより置換される。各副空間は、異なるｉ、ｊを有する副空間と直交していることにより、無限次元空間における線形独立、正規直交単位ベクトルとして記述できる：

Ｃ_ｊの定数値は積分の前に設定できる：

１つの副空間（インデックスｊ）から他の副空間（インデックスｉ）へのマッピングには、固有関数Ｙ_ｊ及びＹ_ｉが互いに直交している限り、同じインデックス（複数）ｉ＝ｊのハーモニクスの積分のみが必要である：

本質的な側面は、連続的記述からブラ／ケット記法への偏光するとき、積分解は球面調和関数のブラ及びケット記述の間の内積の和で置換できることである。一般的に、連続的基底を用いた内積を用いて、ケットベースの波動記述｜ｘ〉の離散的表現を連続的表現にマッピングできる。
例えば、ｘ（ｒａ）は、位置ベース（すなわち、動径）ｒａにおけるケット表現である：

異なる種類のモードマトリックス（複数）Ψ及びΞを見る時、特異値分解を用いて、任意の種類のマトリックス（複数）を処理する。
＜特異値分解＞
特異値分解（ＳＶＤ，非特許文献３を参照）により、ｍ行ｎ列の任意のマトリックスＡの３つの

トリックス（複数）である。かかるマトリックス（複数）は正規直交であり、及びそれぞれ複

トリックス（複数）は、実空間の直交マトリックス（複数）と等価である。すなわち、その列は正規直交ベクトル基底を表す：

マトリックス（複数）Ｕ及びＶは、すべての４つの副空間の正規直交基底（ｂａｓｅ）を含む。
・Ｕの最初のｒ列：Ａの列空間

・Ｖの最初のｒ列：Ａの行空間
・Ｖの最後のｎ−ｒ列：Ａのヌル空間
マトリックスΣはすべての特異値を含む。これはＡの振る舞いを特徴付けるために用いることができる。一般的に、Σはｍ×ｎの正方対角マトリックスであり、ｒ個の対角要素σ_ｉまでを有し、

すなわち、式（２０）及び（２１）において、σ_１は最大値を有し、σ_ｒは最小値を有する。

しかし、Σマトリックス（複数）は常に二次形式となる。そして、ｍ＞ｎ＝ｒの場合、

及びｎ＞ｍ＝ｒの場合、

このように、ＳＶＤは、低ランク近似により非常に効率的に実装できる。上記のＧｏｌｕｂ／ｖａｎＬｏａｎテキストブックを参照されたい。この近似は、元のマトリックスを厳密に記述するが、しかし、ｒランク−１マトリックス（複数）までを含む。ディラック記法を用いて、マトリックスＡはｒラ

式（１１）のエンコーダデコーダチェインを見ると、マトリックスΞのようにエンコーダのモードマトリックス（複数）のみがあるが、しかし、マトリックスΨのようなモードマトリックス（複数）又は他の１つの非常に高度なデコーダマトリックスの逆も考慮すべきである。一

素共役転置を行うことにより、ＳＶＤから直接調べることができ、その結果：

より与えられ、一方、特異値σ_ｉは反転しなければならない。結果として得られる疑似逆は次のようになる：

異なるマトリックス（複数）のＳＶＤベースの分解を、ベクトルベースの記述（式（８）及び（１０）参照）と組み合わせと、符号化プロセスについて：

エンコーダからのＡｍｂｉｓｏｎｉｃｓサウンドフィール記述｜ａ_ｓ〉は、入力信号｜ｘ〉及び出力信号｜ｙ〉よ

のようになる：

Ｍ．Ａ．Ｐｏｌｅｔｔｉ著、「ＡＳｐｈｅｒｉｃａｌＨａｒｍｏｎｉｃＡｐｐｒｏａｃｈｔｏ３ＤＳｕｒｒｏｕｎｄＳｏｕｎｄＳｙｓｔｅｍｓ」（ＦｏｒｕｍＡｃｕｓｔｉｃｕｍ，Ｂｕｄａｐｅｓｔ，２００５）Ｈ．Ｖｏｇｅｌ，Ｃ．Ｇｅｒｔｈｓｅｎ，Ｈ．Ｏ．Ｋｎｅｓｅｒ著「Ｐｈｙｓｉｋ」（ＳｐｒｉｎｇｅｒＶｅｒｌａｇ，１９８２）Ｇ．Ｈ．Ｇｏｌｕｂ，Ｃｈ．Ｆ．ｖａｎＬｏａｎ著「ＭａｔｒｉｘＣｏｍｐｕｔａｔｉｏｎｓ」（ｔｈｅＪｏｈｎｓＨｏｐｋｉｎｓＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，３ｒｄｅｄｉｔｉｏｎ，１１．Ｏｃｔｏｂｅｒ１９９６）

しかし、このエンコーダデコーダチェインの合成された記述には、以下に説明するように、幾つかの特定の問題がある。
＜Ａｍｂｉｓｏｎｉｃｓマトリックス（複数）への影響＞
高次Ａｍｂｉｓｏｎｉｃｓ（ＨＯＡ）モードマトリックス（複数）Ξ及びΨは、音源又はラウドスピーカの位置（式（６）参照）、及びそのＡｍｂｉｓｏｎｉｃｓ次数により直接的に影響される。ジオメトリが規則的であり、すなわちソース又はラウドスピーカ位置間の相互の角距離がほぼ等しいとき、式（２７）を解くことができる。

しかし、実際のアプリケーションでは、そうでない場合が多い。このように、Ξ及びΨのＳＶＤを実行し、対応するマトリックスΣ中の特異値を調べることは意味がある。それがΞ及びΨの数値的振る舞いを反映するからである。Σは実特異値を有する正値有限マトリックスである。しかし、それにもかかわらず、ｒ個までの特異値があっても、これらの値間の数値的関係は、サウンドフィールドの再生にとって非常に重要である。デコーダサイドにおいてマトリックス（複数）の逆又は疑似逆を構成しないとならないからである。この振る舞いを測定する好適な量は、Ａの条件数（ｃｏｎｄｉｔｉｏｎｎｕｍｂｅｒ）である。条件数ｋ（Ａ）は、最小及び最大特異値の比と定義されている：

＜逆問題＞
たちの悪いマトリックス（複数）は大きいｋ（Ａ）を有するため、問題である。反転又は疑似反転の場合、たちの悪いマトリックスでは、小さい特異値σ_ｉが非常に支配的になるという問題がある。Ｐ．Ｃｈ．Ｈａｎｓｅｎ著「Ｒａｎｋ−ＤｅｆｉｃｉｅｎｔａｎｄＤｉｓｃｒｅｔｅＩｌｌ−Ｐｏｓｅｄｐｒｏｂｌｅｍｓ：ＮｕｍｅｒｉｃａｌＡｓｐｅｃｔｓｏｆＬｉｎｅａｒＩｎｖｅｒｓｉｏｎ」（ＳｏｃｉｅｔｙｆｏｒＩｎｄｕｓｔｒｉａｌａｎｄＡｐｐｌｉｅｄＭａｔｈｅｍａｔｉｃｓ（ＳＩＡＭ），１９９８）では、特異値がどう減衰するかを記述することにより、２つの基本的タイプの問題が区別されている（第１．１章、第２−３ページ）：
・ランク欠損（ｒａｎｋ−ｄｅｆｉｃｉｅｎｔ）問題、これはマトリックス（複数）が大きい特異値及び小さい特異値のクラスター間にギャップを有する問題である（非漸次的減衰）；
・離散的不良設定問題、これは平均的に、マトリックス（複数）のすべての特異値が漸次的にゼロに減衰する、すなわち特異値スペクトルにギャップがない。

エンコーダサイドにおけるマイクロホンのジオメトリ、及びデコーダサイドにおけるラウドスピーカジオメトリに関して、主に最初のランク欠損問題が生じる。しかし、レコーディング中に一部のマイクロホンの位置を修正する方が、カスタマーサイドですべての可能性のあるラウドスピーカ位置を制御するより容易である。特にデコーダサイドでは、モードマトリックスの反転又は疑似反転を行わなければならず、これにより数値的問題及びより高いモード成分の過剰強調値が生じる（上記のＨａｎｓｅｎの著作を参照）。
＜信号に関連する依存性＞
その反転問題の低減は、例えば、モードマトリックスのランクの低減により、すなわち最小特異値を回避することにより実現できる。しかし、そうすると閾値を最小の可能性のある値σ_ｒに使うべきである（式（２０）及び（２１）を参照）。かかる最小特異値の最適値は、上記のＨａｎｓｅｎ

依存する（ここでは、｜ｘ〉により記述する）。式（２７）から、この信号は再生に影響するが、信号の依存性はデコーダでは制御できないことが分かる。
＜非正規直交基底の問題＞
状態ベクトル｜ａ_ｓ〉は、ＨＯＡエンコーダ及びＨＯＡデコーダ間で伝送されるが、各システム式（２５）及び（２６）によると、異なる基底で記述される。しかし、正規直交基底が使われれば、状態は変化しない。そして、モード成分は、ある基底から他の基底に投影できる。そのため、原理的には、各ラウドスピーカセットアップ又はサウンド記述は、正規直交基底系上で構成されるべきである。これにより、これらの基底（ｂａｓｅ）間のベクトル表現の変更、例えば、Ａｍｂｉｓｏｎｉｃｓでは、３次元空間から２次元副空間への投影が可能となるからである。

しかし、たちの悪いマトリックス（複数）を有するセットアップが多くあり、基底ベクトルがほぼ線形従属である。そこで、原理的には、非正規直交基底を取り扱う必要がある。これにより、１つの副空間から他の１つの副空間への変更が複雑になる。他の１つの副空間は、ＨＯＡサウンドフィールド記述を異なるラウドスピーカセットアップに適応させる場合に、又はエンコーダ又はデコーダサイドにおいて異なるＨＯＡ次数及び次元を取り扱いたい場合に必要となるものである。

まばらなラウドスピーカセットへの投影の典型的問題は、サウンドエネルギーが、ラウドスピーカの近くでは高く、これらのラウドスピーカ間の距離が大きいと低いことである。そこで、異なるラウドスピーカ間の配置には、エネルギーを適宜バランスするパニング関数が必要となる。
上記の問題は、本発明プロセスにより避けることができ、請求項１に開示の方法により解決される。この方法を利用する装置は、請求項２に開示される。
本発明によると、復号プロセスの元の基底と組み合わせた符号化プロセスの逆基底を、最低モードマトリックスランク及びトランケートされた特異値分解を考慮して用いる。

双正規直交系が表されているので、エンコーダ及びデコーダマトリックス（複数）の積は少なくとも最低モードマトリックスランクに対しては単位マトリックスを確実に保存する。

これは、ケットベースの記述を、デュアル空間、すなわち逆基底ベクトルを有するブラ空間（すべてのベクトルはケットの随伴である）に基づく表現に変更することにより実現される。これは、モードマトリックス（複数）の疑似逆の随伴を用いることにより実現される。「随伴」は複素共役転置を意味する。

このように、疑似反転の随伴は、エンコーダサイドにおいて、随伴デコーダマトリックスとともにすでに使われている。処理のため、基底変更に対して不変であるようにするため、正規直交逆基底ベクトルを用いる。さらに、この種の処理では、入力信号依存の影響を考慮でき、規格化プロセスにおいてσ_ｉのノイズリダクション最適閾値が得られる。
原理的には、本発明の方法は、特異値分解を用いた高次Ａｍｂｉｓｏｎｉｃｓ符号化と復号に好適であり、前記方法は：
オーディオ入力信号を受け取るステップと、
音源の方向値及び前記オーディオ入力信号のＡｍｂｉｓｏｎｉｃｓ次数とに基づき、球面調和関数の対応するケットベクトル及び対応するエンコーダモードマトリックスを構成するステップと、
前記エンコーダモードマトリックスに特異値分解を実行するステップであって、２つの対応するエンコーダユニタリーマトリックス（複数）及び特異値及び関連するエンコーダモードマトリックスランク（ｒ_ｓ）を含む対応するエンコーダ対角マトリックスが出力されるステップと、
前記オーディオ入力信号、前記特異値及び前記エンコーダモードマトリックスランクから閾値を決定するステップと、
前記特異値の少なくとも１つを前記閾値と比較し、対応する最終エンコーダモードマトリックスランクを決定するステップと、
ラウドスピーカの方向値及びデコーダＡｍｂｉｓｏｎｉｃｓ次数に基づき、前記方向値に対応する方向にある特定のラウドスピーカの球面調和関数の対応するケットベクトル及び対応するデコーダモードマトリックスを構成するステップと、
前記デコーダモードマトリックスに特異値分解を実行するステップであって、２つの対応するデコーダユニタリーマトリックス（複数）及び特異値を含む対応するデコーダ対角マトリックスが出力され、前記デコーダモードマトリックスの対応する最終的ランクが決定されるステップと、
前記最終エンコーダモードマトリックスランク及び前記最終デコーダモードマトリックスランクから最終的モードマトリックスランクを決定するステップと、
前記エンコーダユニタリーマトリックス（複数）、前記エンコーダ対角マトリックス及び前記最終的モードマトリックスランクから前記エンコーダモードマトリックスの随伴疑似逆を計算し、結果としてＡｍｂｉｓｏｎｉｃｓケットベクトルを求め、
前記最終的モードマトリックスランクにより前記Ａｍｂｉｓｏｎｉｃｓケットベクトルの成分数を低減し、適応されＡｍｂｉｓｏｎｉｃｓケットベクトルを提供するステップと、
前記適応されたＡｍｂｉｓｏｎｉｃｓケットベクトル、前記デコーダユニタリーマトリックス（複数）、前記デコーダ対角マトリックス及び前記最終的モードマトリックスランクから随伴デコーダモードマトリックスを計算し、結果として得られるすべてのラウドスピーカの出力信号のケットベクトルを求めるステップとを含む。

原理的には、本発明の装置は、特異値分解を用いる高次Ａｍｂｉｓｏｎｉｃｓ符号化と復号に適しており、前記装置は：
オーディオ入力信号を受け取る手段と、
音源の方向値及び前記オーディオ入力信号のＡｍｂｉｓｏｎｉｃｓ次数とに基づき、球面調和関数の対応するケットベクトル及び対応するエンコーダモードマトリックスを構成する手段と、
前記エンコーダモードマトリックスに特異値分解を実行する手段であって、２つの対応するエンコーダユニタリーマトリックス（複数）及び特異値及び関連するエンコーダモードマトリックスランクを含む対応するエンコーダ対角マトリックスが出力される手段と、
前記オーディオ入力信号、前記特異値及び前記エンコーダモードマトリックスランクから閾値を決定する手段と、
前記特異値の少なくとも１つを前記閾値と比較し、対応する最終エンコーダモードマトリックスランクを決定する手段と、
ラウドスピーカの方向値及びデコーダＡｍｂｉｓｏｎｉｃｓ次数に基づき、前記方向値に対応する方向にある特定のラウドスピーカの球面調和関数の対応するケットベクトル及び対応するデコーダモードマトリックスを構成する手段と、
前記デコーダモードマトリックスに特異値分解を実行する手段であって、２つの対応するデコーダユニタリーマトリックス（複数）及び特異値を含む対応するデコーダ対角マトリックスが出力され、前記デコーダモードマトリックスの対応する最終的ランクが決定される手段と、
前記最終エンコーダモードマトリックスランク及び前記最終デコーダモードマトリックスランクから最終的モードマトリックスランクを決定する手段と、
前記エンコーダユニタリーマトリックス（複数）、前記エンコーダ対角マトリックス及び前記最終的モードマトリックスランクから前記エンコーダモードマトリックスの随伴疑似逆を計算し、結果としてＡｍｂｉｓｏｎｉｃｓケットベクトルを求め、
前記最終的モードマトリックスランクにより前記Ａｍｂｉｓｏｎｉｃｓケットベクトルの成分数を低減し、適応されたＡｍｂｉｓｏｎｉｃｓケットベクトルを提供する手段と、
前記適応されたＡｍｂｉｓｏｎｉｃｓケットベクトル、前記デコーダユニタリーマトリックス（複数）、前記デコーダ対角マトリックス及び前記最終的モードマトリックスランクから随伴デコーダモードマトリックスを計算し、結果として得られるすべてのラウドスピーカの出力信号のケットベクトルを求める手段とを含む装置。

本発明の有利な付加的実施形態は、各従属請求項に開示されている。

本発明の例示の実施形態を添付の図面を参照して説明する。
ＳＶＤに基づくＨＯＡエンコーダ及びデコーダを示すブロック図である。線形汎関数パニングを含むＨＯＡエンコーダ及びデコーダを示すブロック図である。マトリックスパニングを含むＨＯＡエンコーダ及びデコーダを示すブロック図である。閾値σ_ε決定を示すフロー図である。

ＳＶＤに基づく本発明のＨＯＡ処理のブロック図を、エンコーダ部及びデコーダ部とともに、図１に示す。両部は、逆基底ベクトルを生成するためにＳＶＤを用いている。既知のモードマッチング解に関する変更、例えば式（２７）に関する変更がある。
＜ＨＯＡエンコーダ＞
逆基底ベクトルを説明するため、ケットベースの記述はブラ空間に変更される。ブラ空間では、すべてのベクトルがケットのエルミート共役又は随伴である。これは、モードマトリックス（複数）の疑似反転を用いることにより実現される。
そして、式（８）によると、（デュアル）ブラベースのＡｍｂｓｏｎｉｃｓベクトルは、（デュアル）モードマトリックスΞ_ｄを用いても再定式化できる：

エンコーダサイドで結果として得られるＡｍｂｉｓｏｎｉｃｓベクトル〈ａ_ｓ｜は、ここではブラセマンティックである。しかし、統一的記述、すなわちケットセマンティックに戻ることが望ましい。Ξの

式（２４）によると、

これにより、Ａｍｂｉｓｏｎｉｃｓ成分の次の記述が得られる：

をエンコーダサイドについて行う場合、デコーダサイドで対応するデュアル基底ベクトルに変更される。
＜ＨＯＡデコーダ＞
デコーダが元々疑似逆に基づく場合、ラウドスピーカ信号｜ｙ〉を導くため：

すなわち、ラウドスピーカ信号は：

式（２２）を考慮すると、デコーダの式は：

る。これが意味するのは、デコーダにおいて必要な算術演算が少なくなることである。虚部の符号を切り替えるだけでよく、転置はメモリアクセスの修正のみの問題だからである：

仮定すると、式（３２）を用いて、完全なエンコーダデコーダチェインは次の依存性を有する：

現実のシナリオでは、式（１１）のパニングマトリックスＧ及び有限Ａｍｂｉｓｏｎｉｃｓ次数を考慮すべきである。後者により基底ベクトルの限定された数の線形結合が得られ、これはサウンドフィールドの記述に用いられる。さらに、基底ベクトルの線形独立性は、数値的丸め誤差又は測定誤差などの付加的誤差ソースにより影響される。実際的視点から、これは数値的ランクにより回避できる（上記のＨａｎｓｅｎの著作の第３．１章を参照）、これにより、すべての基底ベクトルが一定の許容度内で線形独立であることが保証される。
ノイズに対してよりロバストにするため、入力信号のＳＮＲを考慮する。これはエンコーダケット及び入力の計算されＡｍｂｉｓｏｎｉｃｓ表現に影響する。そのため、必要に応じて、すなわちたちの悪いモードマトリックス（複数）を反転しなければならない場合、σ_ｉ値は、エンコーダにおいて入力信号のＳＮＲに応じて規格化（ｒｅｇｕｌａｒｉｓｅｄ）される。
＜エンコーダにおける規格化＞
規格化は異なる方法で実行できる。例えば、トランケートされたＳＶＤを介して閾値を用いることにより、実行できる。ＳＶＤによりσ_ｉが降順に得られ、ここで、最低レベル又は最高インデックス（σ_ｒで示す）のσ_ｉは、非常に頻繁に切り替わる成分を含み、及びノイズ効果及びＳＮＲが生じる（式（２０）及び（２１）及び上記のＨａｎｓｅｎの著作を参照）。このように、トランケーションＳＶＤ（ＴＳＶＤ）はすべてのσ_ｉ値を閾値と比較し、及びその閾値σ_εを越える雑音が大きい成分を無視する。閾値σ_εは一定であってもよく、又は入力信号のＳＮＲに応じて最適に修正されてもよい。
マトリックスのトレースは、すべての対角マトリックス要素の和を意味する。
ＴＳＶＤブロック（図１乃至３の１０、２０、３０）は次のタスクを有する：
・モードマトリックスランクｒの計算；
・閾値より低いノイズが大きい成分を除去し、及び最終的モードマトリックスランクｒ_ｆｉｎを設定。

この処理は複素マトリックスΞ及びΨを扱う。しかし、実数値のσ_ｉを規格化するため、これら

ら得られる。結果として得られるマトリックスは、実対角固有値を有する二次マトリックスであり、実対角固有値は、適当な特異値の二次値と等価である。すべての固有値の和は、マトリックスΣ^２のトレースにより

と記述できるが、これが一定であるなら、系の物理特性は保存される。これはマトリックスΨにも当てはまる。
このように、エンコーダサイド（図１乃至３の１５、２５、３５）のブロックＯＮＢ_Ｓ又はデコーダサイド（図１乃至３の１９、２９、３９）のブロックＯＮＢ_１が特異値を修正し、規格化前後のｔｒａｃｅ（Σ^２）が保存されるようになる（図５及び図６を参照）：
・元の及び目標のトランケートされたマトリックスΣ_ｔのトレースが一定

・次式を満たす定数値Δσを計算する

・トランケートされたマトリックスΣ_ｔのすべての新しい特異値σ_ｉ，ｔについて再計算する：

に変更されたとき、エンコーダ及びデコーダに対する簡略化を達成でき、次の通りとなる：

（備考：σ_ｉ及び｜ａ〉が付加的エンコーダ又はデコーダインデックス無しで用いられる場合、エンコーダサイド又は／及びデコーダサイドを指す）。この基底は正規直交であり、｜ａ〉のノルムを表す。すなわち、｜ａ〉の替わりに、規格化は｜ａ′〉を使え、これはマトリックス（複数）Σ及びνは必要とするが、しかし、マトリックスＵはもはや必要としない。

ある。
それゆえ、本発明では、ＳＶＤを両サイドで用いるが、これは、正規直交基底及び個別のマトリックス（複数）Ξ及びΨの特異値を行うためだけではなく、そのランクｒ_ｆｉｎを求めるためでもある。
＜成分適応＞
Ξのソースランクを考慮することにより、閾値又は最終的ソースランクに対して対応するσ_εの一部を無視することにより、成分数を低減でき、よりロバストな符号化マトリックスを提供できる。それゆえ、デコーダサイドにおける対応する成分数により送信されるＡｍｂｉｓｏｎｉｃｓ成分の数の適応が行われる。通常、それはＡｍｂｉｓｏｎｉｃｓ次数０に依存する。ここでは、エンコーダマ

るべきである。Ａｄａｐｔ＃Ｃｏｍｐステップ／ステージ１６において、成分数は次のように適応される：

ダ及びデコーダ演算が低減される；

ーダ演算が低減される。
結果として、エンコーダサイド及びデコーダサイドで用いられる最終的モードマトリックスラ

このように、エンコーダ及びデコーダの間に、他のサイドのランクを交換する双方向信号があるとき、ランク差を用いて、可能な圧縮を改善し、及びエンコーダにおける及びデコーダにおける演算数を低減することができる。
＜パニング関数の考慮＞

スピーカセットアップに対して得られたエネルギー分布に関する問題のため、前述した。式（１１）を参照されたい。これらの問題は、Ａｍｂｉｓｏｎｉｃｓで通常用いることができる限定された次数を処理しなければならない（Ａｍｂｉｓｏｎｉｃｓマトリックス（複数）への影響ないし非正規直交基底に伴う問題のセクションを参照されたい）。
パニングマトリックスＧに対する要請に関して、符号化に続き、一部の音響ソースのサウンドフィールドはＡｍｂｉｓｏｎｉｃｓ状態ベクトル｜ａ_ｓ〉により表される良い状態にあると仮定する。しかし、デコーダサイドにおいて、状態がどうなっているか正確には分からない。すなわち、系の現在の状態に関する完全な知識はない。それゆえ、式（９）及び（８）の間の内積を保存する逆基底を取る。
エンコーダサイドにおいてすでに疑似逆を用いているので、次の長所がある：

・符号化／復号チェインにおける演算数がより小さい；
・ＳＮＲ振る舞いに関する数値的側面の改善；
・線形独立のものだけでなく修正されたモードマトリックス（複数）の正規直交列；
・基底の変更の単純化；
・ランク−１近似の使用により、メモリ使用量（ｍｅｍｏｒｙｅｆｆｏｒｔ）が減少し、及び演算数が減

演算ではなく、Ｍ＋Ｎ演算のみが必要である；
・デコーダにおける疑似逆を回避できるので、デコーダサイドにおける適応が単純化される；
・数値的に非安定なσの逆問題を回避できる。
図１では、エンコーダ又は送信者サイドにおいて、音源のｓ＝１，．．．，Ｓ個の異なる方向値Ω_ｓ及びＡｍｂｉｓｏｎｉｃｓ次数Ｎ_ｓがステップまたはステージ１１に入力され、それから、次元ＯｘＳを有するエンコーダモードマトリックスΞ_ＯｘＳと球面調和関数の対応するケットベクトルｓ｜Ｙ（Ω_ｓ）〉を形成する。マトリックスΞ_ＯｘＳは、入力信号ベクトル｜ｘ（Ω_ｓ）〉に対応して生成される。入力信号ベクトルは、異なる方向Ω_ｓのＳ個の音源信号を有する。それゆえ、マトリックスΞ_ＯｘＳは、球面調和ケットベクトル｜Ｙ（Ω_ｓ）〉の集まりである。信号ｘ（Ω_ｓ）だけでなく位置も時間とともに変わるので、計算マトリックスΞ_ＯｘＳは動的に実行され得る。このマトリックは、ソースの非正規直交基底ＮＯＮＢ_ｓを有する。入力信号｜ｘ（Ω_ｓ）〉及びランク値ｒ_ｓから、特定の特異な閾値σ_εがステップまたはステージ１２において決定される。エンコーダモードマトリックスΞ_ＯｘＳ及び閾値σ_εはトランケーション特異値分解ＴＳＶＤ処理１０に入力される（上記の特異値分解セクション参照）。この処理は、ステップまたはステージ１３において、モードマトリックスΞ_ＯｘＳに対して、その特異値を求

のｉ番目の特異値である）。
ステップ／ステージ１２において、閾値σ_εは、エンコーダにおけるセクション規格化に応じて決

数のサンプル値にわたり測定される。

コンパレータステップまたはステージ１４において、マトリックスΣの特異値σ_ｒは閾値σ_εと比

及び次元ＯｘＬを有する対応するデコーダモードマトリックスΨ_ＯｘＬがステップまたはステージ１８において決定される。

ステップまたはステージ１９において、特異値分解処理がデコーダモードマトリックスΨ_ＯｘＬに

計算され、及びステップ／ステージ１６に入力される。
ステップまたはステージ１６において、上記のように、最終エンコーダモードマトリックスラ

ンクｒ_ｆｉｎが決定される。最終的モードマトリックスランクｒ_ｆｉｎはステップ／ステージ１５及びステップ／ステージ１７に入力される。

スランク値ｒ_ｆｉｎ及びすべての音源信号の時間依存の入力信号ケットベクトル｜ｘ（Ω_ｓ）〉は、ステップまたはステージ１５に入力される。このステップは、式（３２）を用いて、これらのΞ_ＯｘＳに関連

の出力は、対応する時間従属Ａｍｂｉｓｏｎｉｃｓケット又は状態ベクトル｜ａ′_ｓ〉である。上記のＨＯＡエンコーダセクションを参照されたい。

ステップまたはステージ１６において、｜ａ′_ｓ〉の成分の数は、上記のセクション「成分適応」で説明したように、最終的モードマトリックスランクｒ_ｆｉｎ用いて低減され、送信される情報量を場合によっては低減するようになっており、結果として適応後の時間従属Ａｍｂｉｓｏｎｉｃｓケッ

ション「ＨＯＡデコーダ」を参照されたい。復号は、通常のモードマトリックスの共役転置を用いて行われる。通常のモードマトリックスは、特定のラウドスピーカ位置に依存する。

付加的レンダリングのため、特定のパニングマトリックスを利用すべきである。

デコーダはステップ／ステージ１８、１９及び１７で表される。エンコーダは他のステップ／ステージで表される。
図１のステップ／ステージ１１ないし１９は、原理的に、図２のステップ／ステージ２１ないし２９、及び図３のステップ／ステージ３１ないし３９にそれぞれ対応している。

また図２において、ステップまたはステージ２１１において計算されたエンコーダサイドのパニング関数ｆ_ｓ、及びステップまたはステージ２８１において計算されたデコーダサイドのパニング

かるパニング関数を用いる理由は、上記のセクション「パニング関数の考慮」で説明した。
図１と比較して、図３において、パニングマトリックスＧは、ステップ／ステージ３７の出力において、すべてのラウドスピーカの時間従属出力信号の予備的ケットベクトルに対するパニング処理３７１を制御する。これにより、すべてのラウドスピーカの時間従属出力信号の適応された

図４は、エンコーダモードマトリックスΞ_ＯｘＳの特異値分解ＳＶＤ処理４０に基づき閾値σ_εを決定す

角全特異値σ_ｉを含む、式（２０）及び（２１）を参照）及びマトリックスΣのランクｒ_ｓを与える。

一定閾値を用いる場合（ブロック４１）、変数ｉにより制御されるループ内で（ブロック４２及び４３）、このループはｉ＝１で始まり、ｉ＝ｒ_ｓまで続くが、これらのσ_ｉ値の間にギャップがあるかチェックする（ブロック４５）。かかるギャップは、特異値σ_ｉ＋１のアマウント値が、その前の特異値σ_ｉのアマウント値より大幅に小さい、例えば１／１０より小さいとき、生じる。かかるギャップが検出されると、ループは停止し、閾値σ_εが現在の特異値σ_ｉに設定される（ブロック４６）。ｉ＝ｒ_ｓ（ブロック４４）の場合、最低の特異値σ_ｉ＝σ_ｒに到達し、ループから出て、σ_εがσ_ｒに設定される（ブロック４６）。

一定閾値が使われない場合（ブロック４１）、すべてのＳ個の音源信号
Ｘ＝［｜ｘ（Ω_ｓ，ｔ＝０）〉，．．．，｜ｘ（Ω_ｓ，ｔ＝Ｔ）〉］（＝マトリックスＳｘＴ）のＴ個サンプルのブロックを調べ

定される（ブロック４９）。
図５は、ステップ／ステージ１５、２５、３５における、リデューストモードマトリックスランクｒ_ｆｉｎ、及び｜α′_ｓ〉の計算の場合における特異値の再計算を示す。図１／２／３のブロック１０／２０／３０からのエ

テージ５４に入力される。全エネルギー値と低減された全エネルギー値との間の差ΔＥ、値

入力される。

ギーを保つことを保証するために、必要である。エンコーダ又はデコーダサイドにて、エネルギーが行列縮約により低減されるとき、かかるエネルギーの損失は、値Δσにより補償される。この値は、すべての残っているマトリックス要素に等しく分配され、すなわち

の結果はケットベクトル｜ａ′_ｓ〉である。

図６は、ステップ／ステージ１７、２７、３７における、リデューストモードマトリックスランクｒ_ｆｉｎ、

ジ６２に、及びステップまたはステージ６４に入力される。全エネルギー直及び低減された全エネ

を計算するステップまたはステージ６３に入力される。

ケットベクトル｜ａ′_ｓ〉マトリックスΣ_ｔにかけられる。結果は、マトリックスＶにかけられる。後

本発明プロセスは、単一のプロセッサ又は電子回路、又は並行して動作している、及び／又は本発明プロセスの異なる部分で動作している複数のプロセッサ又は電子回路により実行できる。

Claims

特異値分解を用いる高次Ａｍｂｉｓｏｎｉｃｓ（ＨＯＡ）符号化と復号の方法であって、前記方法は：
オーディオ入力信号を受け取るステップと、
音源の方向値及び前記オーディオ入力信号のＡｍｂｉｓｏｎｉｃｓ次数とに基づき、球面調和関数の対応するケットベクトル及び対応するエンコーダモードマトリックスを構成するステップと、
前記エンコーダモードマトリックスに特異値分解を実行するステップであって、２つの対応するエンコーダユニタリーマトリックス及び特異値及び関連するエンコーダモードマトリックスランクを含む対応するエンコーダ対角マトリックスが出力されるステップと、
前記オーディオ入力信号、前記特異値及び前記エンコーダモードマトリックスランクから閾値を決定するステップと、
前記特異値の少なくとも１つを前記閾値と比較し、対応する最終エンコーダモードマトリックスランクを決定するステップと、
ラウドスピーカの方向値及びデコーダＡｍｂｉｓｏｎｉｃｓ次数に基づき、前記方向値に対応する方向にある特定のラウドスピーカの球面調和関数の対応するケットベクトル及び対応するデコーダモードマトリックスを構成するステップと、
前記デコーダモードマトリックスに特異値分解を実行するステップであって、２つの対応するデコーダユニタリーマトリックス及び特異値を含む対応するデコーダ対角マトリックスが出力され、前記デコーダモードマトリックスの対応する最終的ランクが決定されるステップと、
前記最終エンコーダモードマトリックスランク及び前記最終デコーダモードマトリックスランクから最終的モードマトリックスランクを決定するステップと、
前記エンコーダユニタリーマトリックス、前記エンコーダ対角マトリックス及び前記最終的モードマトリックスランクから前記エンコーダモードマトリックスの随伴疑似逆を計算し、結果としてＡｍｂｉｓｏｎｉｃｓケットベクトルを求め、
前記最終的モードマトリックスランクにより前記Ａｍｂｉｓｏｎｉｃｓケットベクトルの成分数を低減し、適応されたＡｍｂｉｓｏｎｉｃｓケットベクトルを提供するステップと、
前記適応されたＡｍｂｉｓｏｎｉｃｓケットベクトル、前記デコーダユニタリーマトリックス、前記デコーダ対角マトリックス及び前記最終的モードマトリックスランクから随伴デコーダモードマトリックスを計算し、結果として得られるすべてのラウドスピーカの出力信号のケットベクトルを求めるステップとを含む方法。
特異値分解を用いて高次Ａｍｂｉｓｏｎｉｃｓ（ＨＯＡ）符号化と復号をする装置であって、前記装置は：
オーディオ入力信号を受け取る手段と、
音源の方向値及び前記オーディオ入力信号のＡｍｂｉｓｏｎｉｃｓ次数とに基づき、球面調和関数の対応するケットベクトル及び対応するエンコーダモードマトリックスを構成する手段と、
前記エンコーダモードマトリックスに特異値分解を実行する手段であって、２つの対応するエンコーダユニタリーマトリックス及び特異値及び関連するエンコーダモードマトリックスランクを含む対応するエンコーダ対角マトリックスが出力される手段と、
前記オーディオ入力信号、前記特異値及び前記エンコーダモードマトリックスランクから閾値を決定する手段と、
前記特異値の少なくとも１つを前記閾値と比較し、対応する最終エンコーダモードマトリックスランクを決定する手段と、
ラウドスピーカの方向値及びデコーダＡｍｂｉｓｏｎｉｃｓ次数に基づき、前記方向値に対応する方向にある特定のラウドスピーカの球面調和関数の対応するケットベクトル及び対応するデコーダモードマトリックスを構成する手段と、
前記デコーダモードマトリックスに特異値分解を実行する手段であって、２つの対応するデコーダユニタリーマトリックス及び特異値を含む対応するデコーダ対角マトリックスが出力され、前記デコーダモードマトリックスの対応する最終的ランクが決定される手段と、
前記最終エンコーダモードマトリックスランク及び前記最終デコーダモードマトリックスランクから最終的モードマトリックスランクを決定する手段と、
前記エンコーダユニタリーマトリックス、前記エンコーダ対角マトリックス及び前記最終的モードマトリックスランクから前記エンコーダモードマトリックスの随伴疑似逆を計算し、結果としてＡｍｂｉｓｏｎｉｃｓケットベクトルを求め、
前記最終的モードマトリックスランクにより前記Ａｍｂｉｓｏｎｉｃｓケットベクトルの成分数を低減し、適応されたＡｍｂｉｓｏｎｉｃｓケットベクトルを提供する手段と、
前記適応されたＡｍｂｉｓｏｎｉｃｓケットベクトル、前記デコーダユニタリーマトリックス、前記デコーダ対角マトリックス及び前記最終的モードマトリックスランクから随伴デコーダモードマトリックスを計算し、結果として得られるすべてのラウドスピーカの出力信号のケットベクトルを求める手段とを含む装置。
球面調和関数の前記ケットベクトル及び前記エンコーダモードマトリックスを構成するとき、線形演算を実行し、前記オーディオ入力信号中の音源位置をラウドスピーカ出力信号の前記ケットベクトルの前記ラウドスピーカの位置にマッピングするパニング関数を用い、
特定のラウドスピーカの球面調和関数の前記ケットベクトル及び前記デコーダモードマトリックスを構成するとき、線形演算を実行し、前記オーディオ入力信号の音源位置をラウドスピーカ出力信号の前記ケットベクトルの前記ラウドスピーカの位置にマッピングする、対応するパニング関数を用いる、
請求項１に記載の方法、又は請求項２に記載の装置。
前記随伴デコーダモードマトリックス及びすべてのラウドスピーカの時間従属出力信号の予め適応されたケットベクトルを計算した後、
すべてのラウドスピーカの時間従属出力信号のこれらの予め適応されたケットベクトルのパニングが、パニングマトリックスを用いて実行され、結果としてすべてのラウドスピーカの出力信号の前記ケットベクトルを求める、
請求項１に記載の方法、又は請求項２に記載の装置。
前記閾値を決定するため、前記特異値のセットにおいて、第１の特異値から始めてアマウント値ギャップを検出し、後続の特異値のアマウント値が現在の特異値のアマウント値より、所定係数だけ小さいとき、その現在の特異値のアマウント値を前記閾値とする、請求項１ないし４いずれか一項に記載の方法、又は請求項１ないし４いずれか一項に記載の装置。
前記閾値を決定するため、すべての音源信号のサンプルのブロックの信号対ノイズ比ＳＮＲが

又は請求項１ないし４いずれか一項に記載の装置。
コンピュータにより実行されると、前記コンピュータに、請求項１に記載の方法を実行させるコンピュータプログラム。．