JP2023153310A

JP2023153310A - 高次アンビソニックス（ｈｏａ）信号を圧縮する方法、圧縮されたｈｏａ信号を圧縮解除する方法、ｈｏａ信号を圧縮する装置および圧縮されたｈｏａ信号を圧縮解除する装置

Info

Publication number: JP2023153310A
Application number: JP2023135299A
Authority: JP
Inventors: コルドン，スヴェン; Sven Kordon; クルーガー，アレクサンダー; krueger Alexander; ヴュエボボルト，オリヴァー; Wuebbolt Oliver
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2014-03-21
Filing date: 2023-08-23
Publication date: 2023-10-17
Also published as: CN109410960B; KR102143037B1; CN117198304A; US20170178634A1; CN109410961B; JP6243060B2; JP2021192127A; US10089992B2; EP3120353B1; CN109410962A; EP3120353A1; KR20220113837A; CN109410960A; JP7374969B2; KR102428794B1; JP6526153B2; US20190333526A1; KR20160124424A; CN106233755A; JP6949900B2

Abstract

【課題】HOA係数シーケンスの入力時間フレーム（C(k)）をもつ入力HOA表現であるHOA信号を圧縮する方法。【解決手段】本方法が、入力時間フレームの空間的HOAエンコードならびにその後の知覚的エンコードおよび源エンコードを含む。各入力時間フレームは、優勢音信号（XPS(k－1)）のフレームと、周囲HOA成分（CAMB(k－1)）のフレームとに分解される（８０２）。周囲HOA成分（CAMB(k－1)）は、階層化モードでは、低位の位置には入力HOA表現（cn(k－1)）の最初の諸HOA係数シーケンスを、残りのより高位の位置には、第二のHOA係数シーケンス（CAMB,n(k－1)）を含む。前記第二のHOA係数シーケンスは、前記入力HOA表現と前記優勢音信号の前記HOA表現との間の残差のHOA表現の一部である。【選択図】図５

Description

本発明は、高次アンビソニックス（HOA）信号を圧縮する方法、圧縮されたHOA信号を圧縮解除する方法、HOA信号を圧縮する装置および圧縮されたHOA信号を圧縮解除する装置に関する。

高次アンビソニックス（HOA: Higher Order Ambisonics）は三次元サウンドを表現する可能性をもたらす。他の既知の技法は波面合成（WFS: wave field synthesis）または22.2のようなチャネル・ベースの手法である。しかしながら、チャネル・ベースの方法とは対照的に、HOA表現は特定のラウドスピーカー・セットアップとは独立であるという利点をもたらす。しかしながら、この柔軟性は、特定のラウドスピーカー・セットアップでのHOA表現の再生のために必要とされるデコード・プロセスを代償とする。必要とされるラウドスピーカーの数が通例非常に多いWFS手法に比べ、HOAはほんの若干数のラウドスピーカーからなるセットアップにレンダリングされてもよい。HOAのさらなる利点は、同じ表現がヘッドフォンへのバイノーラル・レンダリングのためにも、いかなる修正もなしに用いることができるということである。

HOAは、打ち切られた球面調和関数（SH: Spherical Harmonics）展開による、複素調和平面波振幅（complex harmonic plane wave amplitudes）のいわゆる空間密度の表現に基づく。各展開係数は角周波数の関数であり、これは時間領域関数によって等価に表現できる。よって、一般性を失うことなく、完全なHOA音場表現は実際には、O個の時間領域関数からなると想定できる。ここで、Oは展開係数の数を表わす。これらの時間領域関数は、以下では、等価に、HOA係数シーケンスまたはHOAチャネルと称される。通例、x軸が正面位置を向き、y軸が左を向き、z軸が上方を向く球面座標系が使われる。空間内の位置x＝(r,θ,φ)^Tは動径r＞0（すなわち、座標原点までの距離）、極軸zから測った傾斜角θ∈[0,π]およびxy平面においてx軸から反時計回りに測った方位角φ∈[0,2π[によって表現される。さらに、(・)^Tは転置を表わす。

HOA符号化のより詳細な記述を下記に与える。

時間に対する音圧のフーリエ変換F_t(・)、すなわちωが角周波数を表わし、iが虚数単位を表わすとして、

は、

に従って球面調和関数の級数に展開されうる。ここで、c_sは音速を表わし、kは角波数を表わす。角波数は角周波数ωとk＝ω/c_sによって関係付けられる。さらに、j_n(・)は第一種の球面ベッセル関数を表わし、S_n ^m(θ,φ)は次数（order）nおよび陪数（degree）mの実数値の球面調和関数を表わす。展開係数A_n ^m(k)は角波数kのみに依存する。音圧が空間的に帯域制限されていることが暗黙的に想定されていることを注意しておく。よって、級数は次数インデックスnに関して上限Nで打ち切られる。このNはHOA符号化表現の次数と呼ばれる。音場が異なる角周波数ωの無限個の調和平面波の重ね合わせによって表現され、角タプル（θ,φ）によって指定されるすべての可能な方向から到来するとすると、それぞれの平面波複素振幅関数C(ω,θ,φ)は次の球面調和関数展開によって表わせる。

ここで、展開係数C_n ^m(k)は展開係数A_n ^m(k)に、A_n ^m(k)＝iⁿC_n ^m(k)によって関係付けられる。個々の係数C_n ^m(ω＝kc_s)が角周波数ωの関数であるとすると、逆フーリエ変換（F^-1(・)によって表わされる）の適用は、各次数nおよび陪数mについて、時間領域関数

を与える。これは

によって単一のベクトルc(t)にまとめることができる。ベクトルc(t)内の時間領域関数c_n ^m(t)の位置インデックスはn(n＋1)＋1＋mによって与えられる。ベクトルc(t)内の全体的な要素数はO＝(N＋1)²によって与えられる。関数c_n ^m(t)の離散時間バージョンはアンビソニックス係数シーケンスと称される。フレーム・ベースのHOA表現は、これらのシーケンスのすべてを、次のように、長さBおよびフレーム・インデックスkのフレームC(k)に分割することによって得られる。

ここで、T_sはサンプリング期間を表わす。すると、フレームC(k)自身はその個々の行c_i(k)、i＝1,…,Oの合成として

と表現できる。ここで、c_i(k)は位置インデックスiをもつアンビソニックス係数シーケンスのフレームを表わす。

HOA表現の空間分解能は、展開の最大次数Nの増大とともに改善される。残念ながら、展開係数の数Oは次数Nとともに二次で、具体的にはO＝(N＋1)²として増大する。たとえば、次数N＝4を使った典型的なHOA表現はO＝25個のHOA（展開）係数を必要とする。これらの考察によれば、HOA表現の伝送のための全ビットレートは、所望される単一チャネル・サンプリング・レートf_sおよびサンプル当たりのビット数N_bを与えられたとき、O・f_s・N_bによって決定される。結果として、サンプル当たりN_b＝16ビットを用いてf_s＝48kHzのサンプリング・レートで次数N＝4のHOA表現を伝送することは、19.2MBits/sのビットレートにつながる。これは、たとえばストリーミングのような多くの実際的な用途にとって非常に高い。このように、HOA表現の圧縮がきわめて望ましい。

これまで、HOA音場表現の圧縮は欧州特許出願EP2743922A、EP2665208AおよびEP2800401Aにおいて提案されている。これらの手法は、音場解析を実行し、与えられたHOA表現を方向性成分（directional component）と残差周囲成分（residual ambient component）に分解することで共通している。一方では、最終的な圧縮された表現は、いくつかの量子化された信号を有することが想定され、該量子化された信号は、方向性信号と周囲HOA成分（ambient HOA component）の関連する係数シーケンスとの知覚的符号化から帰結する。他方では、最終的な圧縮された表現は、量子化された信号に関係する追加的なサイド情報を含むと想定される。このサイド情報は、HOA表現の、その圧縮されたバージョンからの再構成のために必要である。

さらに、同様の方法は非特許文献１に記載されている。ここでは、方向性成分はいわゆる優勢音成分（predominant sound component）に拡張される。方向性成分として、優勢音成分は部分的には方向性信号、すなわち、その方向から聴取者に入射すると想定される対応する方向をもつモノラル信号に、それらの方向性信号からもとのHOA表現の諸部分を予測するためのいくつかの予測パラメータを合わせたものによって表現されると想定される。

さらに、優勢音成分は、いわゆるベクトル・ベースの信号によって表現されるとされる。つまり、ベクトル・ベースの信号の方向分布を定義する対応するベクトルをもつモノラル信号である。既知の圧縮されたHOA表現はI個の量子化されたモノラル信号および若干の追加的なサイド情報からなる。ここで、これらI個の量子化されたモノラル信号のうち固定数O_MIN個は、周囲HOA成分C_AMB(k－2)の最初のO_MIN個の係数シーケンスの空間的に変換されたバージョンを表わす。残りのI－O_MIN個の信号の型は、相続くフレームの間で変わることがあり、方向性、ベクトル・ベース、空または周囲HOA成分C_AMB(k－2)の追加的な係数シーケンスを表わしているのいずれかであることができる。

HOA符号化係数シーケンスの入力時間フレーム（C(k)）をもつHOA信号表現を圧縮するためのある既知の方法は、入力時間フレームの空間的HOAエンコードならびにその後の知覚的エンコードおよび源エンコードを含む。空間的HOAエンコードは、図１ａ）に示されるように、方向およびベクトル推定ブロック１０１においてHOA信号の方向およびベクトル推定処理を実行することを含む。ここでは、方向性信号のための第一のタプル集合M_DIR(k)およびベクトル・ベースの信号についての第二のタプル集合M_VEC(k)を含むデータが得られる。各第一のタプル集合は、方向性信号のインデックスおよびそれぞれの量子化された方向を含み、各第二のタプル集合は、ベクトル・ベースの信号のインデックスおよび信号の方向分布を定義するベクトルを含む。次のステップは、HOA係数シーケンスの各入力時間フレームを、複数の優勢音信号X_PS(k－1)のフレームと、周囲HOA成分C_AMB(k－1)のフレームとに分解する（１０３）。ここで、優勢音信号X_PS(k－1)は前記方向性音信号および前記ベクトル・ベースの音信号を含む。分解はさらに、予測パラメータξ(k－1)および目標割り当てベクトル（target assignment vector）v_A,T(k－1)を提供する。予測パラメータξ(k－1)は、優勢音信号X_PS(k－1)内の方向性信号からどのようにして、優勢音HOA成分を豊かにするようHOA信号表現の諸部分を予測するかを記述する。目標割り当てベクトルv_A,T(k－1)は、所与の数I個のチャネルに優勢音信号をどのようにして割り当てるかについての情報を含む。周囲HOA成分C_AMB(k－1)は、目標割り当てベクトルv_A,T(k－1)によって与えられる情報に従って修正される（１０４）。ここで、周囲HOA成分のどの係数シーケンスが所与の数I個のチャネルにおいて伝送されるべきかが、何個のチャネルが優勢音信号によって占められているかに依存して、決定される。修正された（modified）周囲HOA成分C_M,A(k－2)および時間的に予測された（predicted）修正された周囲HOA成分C_P,M,A(k－1)が得られる。また、目標割り当てベクトルv_A,T(k－1)内の情報から、最終的な割り当てベクトルv_A(k－2)も得られる。上記分解から得られた優勢音信号X_PS(k－1)と、修正された周囲HOA成分C_M,A(k－2)および時間的に予測された修正された周囲HOA成分C_P,M,A(k－1)の決定された係数シーケンスが、最終的な割り当てベクトルv_A(k－2)によって与えられる情報を使って、上記所与の数のチャネルに割り当てられる。ここで、トランスポート信号y_i(k－2)、i＝1,…,Iおよび予測されたトランスポート信号y_P,i(k－2)、i＝1,…,Iが得られる。次いで、トランスポート信号y_i(k－2)および予測されたトランスポート信号y_P,i(k－2)に対して利得制御（または正規化）が実行される。ここで、利得修正されたトランスポート信号z_i(k－2)、指数e_i(k－2)および例外フラグβ_i(k－2)が得られる。

図１ｂ）に示されるように、知覚的エンコードおよび源エンコードは、利得修正されたトランスポート信号z_i(k－2)の知覚的な符号化であって、知覚的にエンコードされたトランスポート信号

が得られる符号化と、前記指数e_i(k－2)および例外フラグβ_i(k－2)、前記第一および第二のタプル集合M_DIR(k)、M_VEC(k)、予測パラメータξ(k－1)および最終的な割り当てベクトルv_A(k－2)を含むサイド情報のエンコードであって、エンコードされたサイド情報

が得られるエンコードとを含む。最後に、知覚的にエンコードされたトランスポート信号

およびエンコードされたサイド情報がビットストリーム中に多重化される。

EP12306569.0 EP12305537.8（EP2665208Aとして公開） EP133005558.2

ISO/IEC JTC1/SC29/WG11, N14264, "Working Draft 1-HOA Text of MPEG-H 3D audio", January 2014, San Jose

提案されるHOA圧縮方法の一つの欠点は、モノリシックな（すなわち非スケーラブルな）圧縮されたHOA表現を提供するということである。しかしながら、放送またはインターネット・ストリーミングのようなある種のアプリケーションについては、圧縮された表現を低品質基本層（BL）および高品質向上層（EL）に分割できることが望ましい。基本層は、向上層とは独立にデコードできる、HOA表現の低品質圧縮バージョンを提供するとされる。そのようなBLは典型的には、伝送誤りに対してきわめて堅牢であるべきであり、たとえ劣悪な伝送条件下でも圧縮解除されたHOA表現のある最小限の品質を保証するために低データ・レートで伝送されるべきである。ELは、圧縮解除されたHOA表現の品質を改善するための追加的な情報を含む。

本発明は、（低品質の）基本層および（高品質の）向上層を含む圧縮された表現を提供できるよう既存のHOA圧縮方法を修正するための解決策を提供する。さらに、本発明は、本発明に従って圧縮されている少なくとも低品質の基本層を含む圧縮された表現をデコードすることができるよう既存のHOA圧縮解除方法を修正するための解決策を提供する。

一つの改善は、自己完結の（低品質の）基本層を得ることに関する。本発明によれば、周囲HOA成分C_AMB(k－2)の（一般性を失わずに）最初のO_MIN個の係数シーケンスの空間的に変換されたバージョンを含むとされるO_MIN個のチャネルが、基本層として使われる。基本をなすものとして最初のO_MIN個のチャネルを選択することの利点は、その時間不変な型である。しかしながら、従来、それぞれの信号は、音場のために本質的である優勢音成分を全く欠いていた。このことは、周囲HOA成分C_AMB(k－1)の従来の計算からも明らかである。それは、
C_AMB(k－1)＝C(k－1)－C_PS(k－1) (1)
に従ってもとのHOA表現C(k－1)から優勢音HOA表現C_PS(k－1)を減算することによって実行される。

したがって、本発明の一つの改善は、そのような優勢音成分を加えることに関する。本発明によれば、この問題への解決策は、低い空間分解能での優勢音成分を基本層に含めることである。この目的のために、本発明に基づく空間的HOAエンコーダにおけるHOA分解処理によって出力される周囲HOA成分C_AMB(k－1)は、その修正バージョンによって置換される。修正された周囲HOA成分は、空間的に変換された形において常に伝送されるとされる最初のO_MIN個の係数シーケンスにおいて、もとのHOA成分の係数シーケンスを含む。HOA分解処理のこの改善は、HOA圧縮を階層化モード（たとえば二層モード）で機能させるための初期動作と見ることができる。このモードは、たとえば、二つのビットストリームまたは基本層および向上層に分割できる単一のビットストリームを提供する。このモードを使うか使わないかは、全体ビットストリームの諸アクセス単位におけるモード指示ビット（たとえば単一のビット）によって信号伝達される。

ある実施形態では、基本層ビットストリーム

は、知覚的にエンコードされた信号

と、指数e_i(k－2)および例外フラグβ_i(k－2)、i＝1,…,O_MINからなる対応する符号化された利得制御サイド情報とを含むだけである。残りの知覚的にエンコードされた信号

およびエンコードされた残りのサイド情報は、向上層ビットストリームに含められる。ある実施形態では、基本層（base layer）ビットストリーム

および向上層（enhancement layer）ビットストリーム

は次いで、以前の全ビットストリーム

の代わりに、合同して伝送される。

HOA係数シーケンスの時間フレームを有する高次アンビソニックス（HOA）信号表現を圧縮する方法が請求項１に開示される。HOA係数シーケンスの時間フレームを有する高次アンビソニックス（HOA）信号表現を圧縮する装置が請求項１０に開示される。

HOA係数シーケンスの時間フレームを有する高次アンビソニックス（HOA）信号表現を圧縮解除する方法が請求項８に開示される。HOA係数シーケンスの時間フレームを有する高次アンビソニックス（HOA）信号表現を圧縮解除する装置が請求項１８に開示される。

HOA係数シーケンスの時間フレームを有する高次アンビソニックス（HOA）信号表現を圧縮する方法をコンピュータに実行させるための実行可能な命令を有する非一時的なコンピュータ可読記憶媒体が請求項２０に開示される。HOA係数シーケンスの時間フレームを有する高次アンビソニックス（HOA）信号表現を圧縮解除する方法をコンピュータに実行させるための実行可能な命令を有する非一時的なコンピュータ可読記憶媒体が請求項２１に開示される。

本発明の有利な実施形態は従属請求項、以下の記述および図面において開示される。

本発明の例示的な実施形態が付属の図面を参照して記述される。
HOA圧縮器の通常のアーキテクチャの構造である。 HOA圧縮器の通常のアーキテクチャの構造である。 HOA圧縮解除器の通常のアーキテクチャの構造である。本発明のある実施形態に基づくHOA圧縮器の空間的HOAエンコードおよび知覚的エンコードの部分のアーキテクチャの構造である。本発明のある実施形態に基づくHOA圧縮器の源符号化器部分のアーキテクチャの構造である。本発明のある実施形態に基づくHOA圧縮解除器の知覚的復号および源復号のアーキテクチャの構造である。本発明のある実施形態に基づくHOA圧縮解除器の空間的HOAデコード部分のアーキテクチャの構造である。周囲HOA信号から修正された周囲HOA信号へのフレーム変換である。 HOA信号を圧縮する方法のフローチャートである。圧縮されたHOA信号を圧縮解除する方法のフローチャートである。本発明のある実施形態に基づくHOA圧縮解除器の空間的HOAデコード部分のアーキテクチャの諸部分の詳細である。

理解を容易にするため、図１および図２の従来技術の解決策について以下で確認しておく。

図１は、HOA圧縮器の通常のアーキテクチャの構造を示している。非特許文献１に記載される方法では、方向性成分がいわゆる優勢音成分に拡張される。方向性成分として、優勢音成分は部分的には方向性信号、すなわち、その方向から聴取者に入射すると想定される対応する方向をもつモノラル信号に、それらの方向性信号からもとのHOA表現の諸部分を予測するためのいくつかの予測パラメータを合わせたものによって表現されると想定される。さらに、優勢音成分は、いわゆるベクトル・ベースの信号によって表現されるとされる。つまり、ベクトル・ベースの信号の方向分布を定義する対応するベクトルをもつモノラル信号である。非特許文献１において提案されるHOA圧縮器の全体的なアーキテクチャが図１に示されている。これは、図１ａに描かれる空間的HOAエンコード部と、図１ｂに描かれる源エンコード部に細分できる。空間的HOAエンコーダは、I個の信号に、そのHOA表現をどのようにして生成するかを記述するサイド情報を合わせたものからなる第一の圧縮されたHOA表現を提供する。知覚的およびサイド情報源符号化器では、上述したI個の信号は知覚的にエンコードされ、上記サイド情報は源エンコードにかけられ、その後、二つの符号化された表現が多重化される。

通常、空間的エンコードは次のように機能する。

第一段階では、もとのHOA表現のk番目のフレームC(k)が方向およびベクトル推定処理ブロックに入力される。これは、タプル集合M_DIR(k)およびM_VEC(k)を与える。タプル集合M_DIR(k)は、第一の要素が方向性信号のインデックスを表わし、第二の要素がそれぞれの量子化された方向を表わすタプルからなる。タプル集合M_VEC(k)は、第一の要素がベクトル・ベースの信号のインデックスを示し、第二の要素が信号の方向分布、すなわち該ベクトル・ベースの信号のHOA表現がどのように計算されるかを定義するベクトルを表わすタプルからなる。

タプル集合M_DIR(k)およびM_VEC(k)の両方を使って、初期HOAフレームC(k)はHOA分解において、全優勢音（すなわち、方向性およびベクトル・ベース）信号のフレームX_PS(k－1)のフレームと、周囲HOA成分のフレームC_AMB(k－1)とに分解される。それぞれ一フレームぶんの遅延に注意されたい。これは、ブロッキング・アーチファクトを避けるための重複加算処理に起因する。さらに、HOA分解は、優勢音HOA成分を豊かにするために方向性信号からどのようにしてもとのHOA表現の諸部分を予測するかを記述するいくつかの予測パラメータξ(k－1)を出力するものと想定される。さらに、HOA分解処理ブロックにおいて決定された優勢音信号のI個の利用可能なチャネルへの割り当てについての情報を含む目標割り当てベクトル（target assignment vector）v_A,T(k－1)が提供される。影響されるチャネルは占有されていると想定されることができる。つまり、それらはそれぞれの時間フレームにおいて周囲HOA成分のいかなる係数シーケンスを転送するためにも利用可能ではない。

周囲成分修正処理ブロックでは、周囲HOA成分のフレームC_AMB(k－1)は、目標割り当てベクトルv_A,T(k－1)によって与えられる情報に従って修正される。特に、周囲HOA成分のどの係数シーケンスが所与のI個のチャネルにおいて伝送されるべきかが、他の側面もあるが中でも、どのチャネルが利用可能であり、優勢音信号によってすでに占有されていないかについての情報（目標割り当てベクトルv_A,T(k－1)に含まれる）に依存して、決定される。さらに、選ばれた係数シーケンスのインデックスが相続くフレームの間で変わる場合には、係数シーケンスのフェードインおよびフェードアウトが実行される。

さらに、周囲HOA成分C_AMB(k－2)の最初のO_MIN個の係数シーケンスは、常に、知覚的に符号化され伝送されるべく選ばれるものとする。ここで、O_MIN＝(N_MIN＋1)²であり、N_MIN≦Nは典型的にはもとのHOA表現のものより小さな次数である。これらのHOA係数シーケンスを脱相関するために、これらを、いくつかのあらかじめ定義された方向Ω_MIN,d、d＝1,…,O_MINから入射する方向性信号（すなわち、一般平面波関数）に変換することが提案される。修正された周囲HOA成分C_AMB(k－1)とともに、合理的な先読みを許容するために、利得制御処理ブロックにおいてのちに使われるよう、時間的に予測された修正された周囲HOA成分C_P,M,A(k－1)が計算される。

周囲HOA成分の修正についての情報は、すべての可能な型の信号の、利用可能なチャネルへの割り当てに直接関係している。割り当てについての最終的な情報は、最終的な割り当てベクトルv_A(k－2)に含まれる。このベクトルを計算するために、目標割り当てベクトルv_A,T(k－1)に含まれる情報が活用される。

チャネル割り当ては、割り当てベクトルv_A(k－2)によって与えられる情報を用いて、X_PS(k－2)に含まれる適切な信号およびC_M,A(k－2)に含まれる適切な信号を、I個の利用可能なチャネルに割り当て、信号y_i(k－2)、i＝1,…,Iを与える。さらに、X_PS(k－1)に含まれる適切な信号およびC_P,AMB(k－1)に含まれる適切な信号も、I個の利用可能なチャネルに割り当てられて、信号y_P,i(k－2)、i＝1,…,Iを与える。信号y_i(k－2)、i＝1,…,Iのそれぞれは、最終的に利得制御によって処理される。ここでは、知覚的エンコーダに好適な値範囲を達成するよう信号利得がなめらかに修正される。予測された信号フレームy_P,i(k－2)、i＝1,…,Iは、相続くブロックの間の激しい利得変化を避けるために一種の先読みを許容する。利得修正は、空間的デコーダにおいては、指数e_i(k－2)および例外フラグβ_i(k－2)、i＝1,…,Iからなる利得制御サイド情報を用いて、反転されることが想定される。

図２は、非特許文献１において提案されるHOA圧縮解除器の通常のアーキテクチャの構造を示している。通常、HOA圧縮解除はHOA圧縮器コンポーネントの対応物からなり、それらの対応物は、当然、逆順に配列される。HOA圧縮解除は、図２ａ）に描かれる知覚的および源デコード部と、図２ｂ）に描かれる空間的HOAデコード部に細分される。

知覚的およびサイド情報源デコーダにおいて、ビットストリームはまず、前記I個の信号の知覚的に符号化された表現と、そのHOA表現をどのようにして生成するかを記述する符号化されたサイド情報とに多重分離される。続いて、前記I個の信号の知覚的デコードおよび前記サイド情報のデコードが実行される。次いで、空間的HOAデコーダは前記I個の信号および前記サイド情報から、再構成されたHOA表現を生成する。

通常、空間的HOAデコードは次のように機能する。

空間的HOAデコーダでは、知覚的にデコードされた信号

のそれぞれがまず、関連する利得補正指数e_i(k)および利得補正例外フラグβ_i(k)と一緒に逆利得制御処理ブロックに入力される。i番目の逆利得制御処理は利得補正された信号フレーム

〔＾y_i(k)〕を与える。

I個の利得補正された信号フレーム

のすべては割り当てベクトルv_AMB,ASSIGN(k)およびタプル集合M_DIR(k＋1)およびM_VEC(k＋1)と一緒にチャネル再割り当てに渡される。タプル集合M_DIR(k＋1)およびM_VEC(k＋1)は（空間的HOAエンコードについて）上記で定義されている。割り当てベクトルv_AMB,ASSIGN(k)はI個の成分からなり、これらの成分は各伝送チャネルについて、周囲HOA成分の係数シーケンスを含んでいるかどうかおよびどの係数シーケンスを含んでいるかを示す。チャネル再割り当てにおいて、利得補正された信号フレーム＾y_i(k)は、すべての優勢音信号（すなわちすべての方向性およびベクトル・ベースの信号）のフレーム

〔＾X_PS(k)〕および周囲HOA成分の中間表現のフレームC_I,AMB(k)を再構成するために再分配される。さらに、k番目のフレームにおいてアクティブである、周囲HOA成分の係数シーケンスのインデックスの集合I_AMB,ACT(k)と、(k－1)番目のフレームにおいて有効にされる、無効にされるまたはアクティブなままである必要がある周囲HOA成分の係数インデックスの集合I_E(k－1)、I_D(k－1)およびI_U(k－1)とが提供される。

優勢音合成では、優勢音成分

〔＾C_PS(k－1)〕のHOA表現が、すべての優勢音信号のフレーム＾X_PS(k)から、タプル集合M_DIR(k＋1)および予測パラメータの集合ζ(k＋1)、タプル集合M_VEC(k＋1)および集合I_E(k－1)、I_D(k－1)およびI_U(k－1)を使って計算される。

周囲合成では、周囲HOA成分フレーム

〔＾C_AMB(k－1)〕が、周囲HOA成分の中間表現のフレームC_I,AMB(k)から、k番目のフレームにおいてアクティブである周囲HOA成分の係数シーケンスのインデックスの集合I_AMB,ACT(k)を使って生成される。一フレームぶんの遅延に注意されたい。これは優勢音HOA成分との同期に起因して導入されるものである。最後に、HOA合成において、周囲HOA成分フレーム＾C_AMB(k－1)および優勢音HOA成分のフレーム＾C_PS(k－1)が重畳されて、デコードされたHOAフレーム＾C(k－1)を与える。

上記のHOA圧縮および圧縮解除方法の大雑把な記述から明らかになったように、圧縮された表現はI個の量子化されたモノラル信号およびいくらかの追加的なサイド情報からなる。これらのI個の量子化されたモノラル信号のうちの固定数O_MIN個は、周囲HOA成分C_AMB(k－2)の最初のO_MIN個の係数シーケンスの空間的に変換されたバージョンを表わす。残りのI－O_MIN個の信号の型は相続くフレームの間で変わることがあり、方向性、ベクトル・ベース、空または周囲HOA成分C_AMB(k－2)の追加的な係数シーケンスを表わしているのいずれかであることができる。そのままでは、圧縮されたHOA表現はモノリシックであることが意図されている。特に、一つの問題は、いかにして記載された表現を低品質の基本層と向上層とに分割するかである。

開示される発明によれば、低品質基本層のための候補は、周囲HOA成分C_AMB(k－2)の最初のO_MIN個の係数シーケンスの空間的に変換されたバージョンを含むO_MIN個のチャネルである。これらの（一般性を失うことなく、最初の）O_MIN個のチャネルが低品質基本層をなすための良好な選択となるのは、その時間不変な型のためである。しかしながら、それぞれの信号は、音場のために本質的である優勢音成分を全く欠いている。このことは、周囲HOA成分C_AMB(k－1)の計算においても見て取れる。それは、
C_AMB(k－1)＝C(k－1)－C_PS(k－1) (1)
に従ってもとのHOA表現C(k－1)から優勢音HOA表現C_PS(k－1)を減算することによって実行される。

この問題への解決策は、低い空間分解能での優勢音成分を基本層に含めることである。

HOA圧縮への提案される修正について、以下で述べる。

図３は、本発明のある実施形態に基づく、HOA圧縮器の空間的HOAエンコードおよび知覚的エンコード部分のアーキテクチャの構造を示している。低い空間分解能での優勢音成分をも基本層に含めるために、空間的HOAエンコーダにおけるHOA分解処理によって出力される周囲HOA成分C_AMB(k－1)（図１ａ参照）が、修正バージョン

によって置き換えられる。その要素は次式によって与えられる。

換言すれば、空間的に変換された形において常に伝送されるとされる周囲HOA成分の最初のO_MIN個の係数シーケンスは、もとのHOA成分の係数シーケンスによって置き換えられる。空間的HOAエンコーダの他の処理ブロックは不変のままであることができる。

HOA分解処理のこの変更は、HOA圧縮をいわゆる「デュアル層」または「二層」モードで機能させる初期動作として見ることができることを注意しておくことが重要である。このモードは、低品質の基本層と向上層とに分割できるビットストリームを提供する。このモードを使うか使わないかは、全体ビットストリームの諸アクセス単位における単一ビットにによって信号伝達されることができる。

基本層および向上層のためのビットストリームを提供するためのビットストリーム多重化の可能な結果的な修正が図３および図４に示されており、これについて下記でさらに述べる。

基本層ビットストリーム

は、知覚的にエンコードされた信号

およびエンコードされた残りのサイド情報は、向上層ビットストリームに含められる。基本層（base layer）および向上層（enhancement layer）ビットストリーム

は次いで、以前の全ビットストリーム

の代わりに、合同して伝送される。

図３および図４では、HOA係数シーケンスの入力時間フレーム（C(k)）をもつ入力HOA表現であるHOA信号を圧縮するための装置が示されている。当該装置は、入力時間フレームの空間的HOAエンコードならびにその後の知覚的エンコードのための、図３に示される空間的HOAエンコードおよび知覚的エンコード部と、源エンコードのための、図４に示される源符号化器部とを有する。空間的HOAエンコードおよび知覚的エンコード部は、方向およびベクトル推定ブロック３０１、HOA分解ブロック３０３、周囲成分修正ブロック３０４、チャネル割り当てブロック３０５および複数の利得制御ブロック３０６を有する。

方向およびベクトル推定ブロック３０１は、HOA信号の方向およびベクトル推定処理を実行するために適応されている。ここでは、方向性信号についての第一のタプル集合M_DIR(k)およびベクトル・ベースの信号についての第二のタプル集合M_VEC(k)を含むデータが得られる。各第一のタプル集合M_DIR(k)は、方向性信号のインデックスおよびそれぞれの量子化された方向を含み、各第二のタプル集合M_VEC(k)は、ベクトル・ベースの信号のインデックスおよび信号の方向分布を定義するベクトルを含む。

HOA分解ブロック３０３は、HOA係数シーケンスの各入力時間フレームを、複数の優勢音信号X_PS(k－1)のフレームと、周囲HOA成分

のフレームとに分解するために適応されている。ここで、優勢音信号X_PS(k－1)は前記方向性音信号および前記ベクトル・ベースの音信号を含み、周囲HOA成分

は、入力HOA表現と優勢音信号のHOA表現との間の残差を表わすHOA係数シーケンスを含む。分解はさらに、予測パラメータξ(k－1)および目標割り当てベクトル（target assignment vector）v_A,T(k－1)を提供する。予測パラメータξ(k－1)は、優勢音信号X_PS(k－1)内の方向性信号からどのようにして、優勢音HOA成分を豊かにするようHOA信号表現の諸部分を予測するかを記述する。目標割り当てベクトルv_A,T(k－1)は、所与の数I個のチャネルに優勢音信号をどのようにして割り当てるかについての情報を含む。

周囲成分修正ブロック３０４は、周囲HOA成分C_AMB(k－1)を、目標割り当てベクトルv_A,T(k－1)によって与えられる情報に従って修正するために適応されている。ここで、周囲HOA成分C_AMB(k－1)のどの係数シーケンスが所与の数I個のチャネルにおいて伝送されるべきかが、何個のチャネルが優勢音信号によって占められているかに依存して、決定される。修正された（modified）周囲HOA成分C_M,A(k－2)および時間的に予測された（predicted）修正された周囲HOA成分C_P,M,A(k－1)が得られる。また、目標割り当てベクトルv_A,T(k－1)内の情報から、最終的な割り当てベクトルv_A(k－2)が得られる。

チャネル割り当てブロック３０５は、上記分解から得られた優勢音信号X_PS(k－1)と、修正された周囲HOA成分C_M,A(k－2)および時間的に予測された修正された周囲HOA成分C_P,M,A(k－1)の決定された係数シーケンスとを、最終的な割り当てベクトルv_A(k－2)によって与えられる情報を使って、上記所与の数I個のチャネルに割り当てるために適応されている。ここで、トランスポート信号y_i(k－2)、i＝1,…,Iおよび予測されたトランスポート信号y_P,i(k－2)、i＝1,…,Iが得られる。

複数の利得制御ブロック３０６は、トランスポート信号y_i(k－2)および予測されたトランスポート信号y_P,i(k－2)に対して利得制御（８０５）を実行するために適応されている。ここで、利得修正されたトランスポート信号z_i(k－2)、指数e_i(k－2)および例外フラグβ_i(k－2)が得られる。

図４は、本発明のある実施形態に基づくHOA圧縮器の源符号化器部分のアーキテクチャの構造を示している。図４に示される源符号化器部分は、知覚的符号化器３１０と、二つの符号化器３２０、３３０すなわち基本層サイド情報源符号化器３２０および向上層サイド情報エンコーダ３３０をもつサイド情報源符号化器ブロックと、二つのマルチプレクサ３４０、３５０、すなわち基本層ビットストリーム・マルチプレクサ３４０および向上層ビットストリーム・マルチプレクサ３５０とを有する。サイド情報源符号化器は、単一のサイド情報源符号化器ブロックであってもよい。

知覚的符号化器３１０は、前記利得修正されたトランスポート信号z_i(k－2)を知覚的に符号化８０６することを含み、知覚的にエンコードされたトランスポート信号

が得られる。

サイド情報源符号化器３２０、３３０は、前記指数e_i(k－2)および例外フラグβ_i(k－2)、前記第一のタプル集合M_DIR(k)および第二のタプル集合M_VEC(k)、前記予測パラメータξ(k－1)および前記最終的な割り当てベクトルv_A(k－2)を含むサイド情報をエンコードするために適応されており、エンコードされたサイド情報

が得られる。

マルチプレクサ３４０、３５０は、知覚的にエンコードされたトランスポート信号

およびエンコードされたサイド情報

を多重化データ・ストリーム

中に多重化するために適応されている。ここで、上記分解において得られた周囲HOA成分〔チルダ付きのC_AMB(k－1)〕は、入力HOA表現c_n(k－1)の最初の諸HOA係数シーケンスをO_MIN個の最低の位置（すなわち最低の諸インデックスをもつ位置）に、第二のHOA係数シーケンスC_AMB,n(k－1)を残りのより高い位置に含む。式(4)～(6)に関して下記で説明されるように、第二のHOA係数シーケンスは、入力HOA表現と優勢音信号のHOA表現との間の残差のHOA表現の一部である。さらに、最初のO_MIN個の指数e_i(k－2)、i＝1,…,O_MINおよび例外フラグβ_i(k－2)、i＝1,…,O_MINは基本層サイド情報源符号化器３２０においてエンコードされ、エンコードされた基本層サイド情報

が得られる。ここで、O_MIN＝(N_MIN＋1)²であり、O＝(N＋1)²であり、N_MIN≦NかつO_MIN≦Iであり、N_MINはあらかじめ定義された整数値である。最初のO_MIN個の知覚的にエンコードされたトランスポート信号

およびエンコードされた基本層サイド情報

は基本層ビットストリーム・マルチプレクサ３４０（これは前記マルチプレクサの一つである）において多重化され、ここで、基本層ビットストリーム

が得られる。基本層サイド情報源符号化器３２０は、前記サイド情報源符号化器の一つである、あるいはサイド情報源符号化器ブロック内にある。

残りのI－O_MIN個の指数e_i(k－2)、i＝O_MIN＋1,…,Iおよび例外フラグβ_i(k－2)、i＝O_MIN＋1,…,I、前記第一のタプル集合M_DIR(k－1)および第二のタプル集合M_VEC(k－1)、前記予測パラメータξ(k－1)および前記最終的な割り当てベクトルv_A(k－2)は、向上層サイド情報エンコーダ３３０においてエンコードされ、ここで、エンコードされた向上層サイド情報

が得られる。向上層サイド情報源符号化器３３０は、前記サイド情報源符号化器の一つである、あるいはサイド情報源符号化器ブロック内にある。

残りのI－O_MIN個の知覚的にエンコードされたトランスポート信号

およびエンコードされた向上層サイド情報

は、向上層ビットストリーム・マルチプレクサ３５０（これも前記マルチプレクサの一つである）において多重化され、向上層ビットストリーム

が得られる。さらに、モード指示LMF_Eがマルチプレクサまたは指示挿入ブロックにおいて追加される。モード指示LMF_Eは階層化モードの使用を信号伝達し、それは圧縮された信号の正しい圧縮解除のために使われる。

ある実施形態では、本エンコード装置はさらに、モードを選択するよう適応されたモード選択器を有する。モードは、モード指示LMF_Eによって示され、階層化モードおよび非階層化モードの一つである。非階層化モードでは、周囲HOA成分〔チルダ付きのC_AMB(k－1)〕は、入力HOA表現と優勢音信号のHOA表現との間の残差を表わすHOA係数シーケンスのみを含む（すなわち、入力HOA表現の係数シーケンスを含まない）。

HOA圧縮解除の提案される修正について以下で述べる。

階層化モードでは、HOA圧縮における周囲HOA成分C_AMB(k－1)の修正が、HOA合成を適切に修正することによって、HOA圧縮解除において考慮される。

HOA圧縮解除器では、基本層および向上層ビットストリームの多重分離およびデコードは、図５に従って実行される。基本層ビットストリーム

は、基本層サイド情報の符号化された表現と、知覚的にエンコードされた信号とに多重分離される。その後、基本層サイド情報の符号化された表現および知覚的にエンコードされた信号はデコードされて、一方では指数e_i(k)および例外フラグを与え、他方では知覚的にデコードされた信号を与える。同様に、向上層ビットストリームは多重分離およびデコードされて、知覚的にデコードされた信号および残りのサイド情報を与える（図５参照）。この階層化モードでは、空間的HOAエンコードにおける周囲HOA成分C_AMB(k－1)の修正を考慮するために、空間的HOAデコード部も修正される必要がある。修正は、HOA合成において達成される。

具体的には、再構成されたHOA表現

はその修正されたバージョン

によって置き換えられる。その要素は次式で与えられる。

つまり、最初のO_MIN個の係数シーケンスについては、優勢音HOA成分は周囲HOA成分に加えられない。そこにすでに含まれているからである。HOA空間的デコーダの他のすべての処理ブロックは不変のままである。

以下では、純粋に低品質基本層ビットストリーム

が存在するときのHOA圧縮解除について簡単に考察する。

ビットストリームはまず多重分離およびデコードされて、再構成された信号＾z_i(k)と、指数e_i(k)および例外フラグβ_i(k)、i＝1,…,O_MINからなる対応する利得制御サイド情報とを与える。向上層がないときは、知覚的に符号化された信号

は利用可能ではない。この状況に対処する可能な仕方は、信号

を0と置くことである。これは、自動的に、再構成された優勢音成分C_PS(k－1)を0にする。

次のステップでは、空間的HOAデコーダにおいて、最初のO_MIN個の逆利得制御処理ブロックが、利得補正された信号フレーム

を与える。これらのフレームは、チャネル再割り当てによって周囲HOA成分の中間表現のフレームC_I,AMB(k)を構築するために使われる。k番目のフレームにおいてアクティブである周囲HOA成分の係数シーケンスのインデックスの集合I_AMB,ACT(k)はインデックス1,2,…,O_MINのみを含むことを注意しておく。周囲合成において、最初のO_MIN個の係数シーケンスの空間的変換の逆が行なわれて、周囲HOA成分フレームC_AMB(k－1)が与えられる。最後に、再構成されたHOA表現が式(6)に従って計算される。

図５および図６は、本発明のある実施形態に基づくHOA圧縮解除器のアーキテクチャの構造を示している。本装置は、図５に示される知覚的デコードおよび源デコード部と、図６に示される空間的HOAデコード部と、圧縮されたHOA信号が圧縮された基本層ビットストリーム

および圧縮された向上層ビットストリームを含むことを示す階層化モード指示LMF_Dを検出するために適応されたモード検出器とを有する。
を有する。

図５は、本発明のある実施形態に基づくHOA圧縮解除器の知覚的デコードおよび源デコード部のアーキテクチャの構造を示している。知覚的デコードおよび源デコード部は、第一のデマルチプレクサ５１０、第二のデマルチプレクサ５２０、基本層知覚的デコーダ５４０および向上層知覚的デコーダ５５０、基本層サイド情報源デコーダ５３０および向上層サイド情報源デコーダ５６０を有する。

第一のデマルチプレクサ５１０は、圧縮された基本層ビットストリーム

を多重分離するために適応されている。ここで、第一の知覚的にエンコードされたトランスポート信号

および第一のエンコードされたサイド情報

が得られる。第二のデマルチプレクサ５２０は、圧縮された向上層ビットストリーム

を多重分離するために適応されている。ここで、第二の知覚的にエンコードされたトランスポート信号

および第二のエンコードされたサイド情報

が得られる。

基本層知覚的デコーダ５４０および向上層知覚的デコーダ５５０は、知覚的にエンコードされたトランスポート信号

を知覚的にデコードする９０４ために適応されており、知覚的にデコードされたトランスポート信号

が得られる。基本層知覚的デコーダ５４０では、基本層の前記第一の知覚的にエンコードされたトランスポート信号

がデコードされて、第一の知覚的にデコードされたトランスポート信号

が得られる。向上層知覚的デコーダ５５０では、向上層の前記第二の知覚的にエンコードされたトランスポート信号

がデコードされて、第二の知覚的にデコードされたトランスポート信号

が得られる。

基本層サイド情報源デコーダ５３０は、第一のエンコードされたサイド情報

をデコード９０５するよう適応されている。ここで、第一の指数e_i(i)、i＝1,…,O_MINおよび第一の例外フラグβ_i(k)、i＝1,…,O_MINが得られる。

向上層サイド情報源デコーダ５６０は、第二のエンコードされたサイド情報

をデコードするよう適応されている。ここで、第二の指数e_i(i)、i＝O_MIN＋1,…,Iおよび第二の例外フラグβ_i(k)、i＝O_MIN＋1,…,Iが得られ、さらなるデータが得られる。前記さらなるデータは、方向性信号についての第一のタプル集合M_DIR(k＋1)およびベクトル・ベースの信号についての第二のタプル集合M_VEC(k＋1)を含む。第一のタプル集合M_DIR(k＋1)の各タプルは、方向性信号のインデックスおよびそれぞれの量子化された方向を含み、第二のタプル集合M_VEC(k＋1)の各タプルは、ベクトル・ベースの信号のインデックスおよび該ベクトル・ベースの信号の方向分布を定義するベクトルを含む。さらに、予測パラメータξ(k＋1)および周囲割り当てベクトルv_AMB,ASSIGN(k)が得られる。ここで、周囲割り当てベクトルv_AMB,ASSIGN(k)は、各伝送チャネルについて、周囲HOA成分の係数シーケンスを含んでいるかどうかおよびどの係数シーケンスを含んでいるかを示す成分を含む。

図６は、本発明のある実施形態に基づくHOA圧縮解除器の空間的HOAデコード部のアーキテクチャの構造を示している。空間的HOAデコード部は、複数の逆利得制御ユニット６０４、チャネル再割り当てブロック６０５、優勢音合成（Predominant Sound Synthesis）ブロック６０６および周囲合成（Ambient Synthesis）ブロック６０７、HOA合成（HOA Composition）ブロック６０８を有する。

複数の逆利得制御ユニット６０４は、逆利得制御を実行するよう適応されている。ここで、前記第一の知覚的にデコードされたトランスポート信号

が、第一の指数e_i(k)、i＝1,…,O_MINおよび第一の例外フラグβ_i(k)、i＝1,…,O_MINに従って、第一の利得補正された信号フレーム＾y_i(k)、i＝1,…,O_MINに変換され、前記第二の知覚的にデコードされたトランスポート信号

が、第二の指数e_i(k)、i＝O_MIN＋1,…,Iおよび第二の例外フラグβ_i(k)、i＝O_MIN＋1,…,Iに従って、第二の利得補正された信号フレーム＾y_i(k)、i＝O_MIN＋1,…,Iに変換される。

チャネル再割り当てブロック６０５は、第一および第二の利得補正された信号フレーム＾y_i(k)、i＝1,…,IをI個のチャネルに再分配するよう適応されている。ここで、優勢音信号のフレーム＾X_PS(k)が再構成され、該優勢音信号は方向性信号およびベクトル・ベースの信号を含み、修正された周囲HOA成分

が得られ、割り当ては、前記周囲割り当てベクトルv_AMB,ASSIGN(k)および前記第一および第二のタプル集合M_DIR(k＋1)、M_VEC(k＋1)内の情報に従ってなされる。

さらに、チャネル再割り当てブロック６０５は、k番目のフレームにおいてアクティブである、修正された周囲HOA成分の係数シーケンスのインデックスの第一の集合I_AMB,ACT(k)と、(k－1)番目のフレームにおいて有効にされる、無効にされるまたはアクティブなままである必要がある修正された周囲HOA成分の係数シーケンスのインデックスの第二の集合I_E(k－1)、I_D(k－1)およびI_U(k－1)とを生成するよう適応されている。

優勢音合成ブロック６０６は、優勢HOA音成分＾C_PS(k－1)のHOA表現を、前記優勢音信号＾X_PS(k)から合成する（９１２）よう適応されている。ここで、第一および第二のタプル集合M_DIR(k＋1)、M_VEC(k＋1)、予測パラメータζ(k＋1)およびインデックスの第二の集合I_E(k－1)、I_D(k－1)、I_U(k－1)が使用される。

周囲合成ブロック６０７は、周囲HOA成分

を、修正された周囲HOA成分

から合成する（９１３）よう適応されている。ここで、最初のO_MIN個のチャネルについての逆空間的変換がなされ、インデックスの第一の集合I_AMB,ACT(k)が使用される。該インデックスの第一の集合は、k番目のフレームにおいてアクティブである周囲HOA成分の係数シーケンスのインデックスである。

階層化モード指示LMF_Dが少なくとも二つの層をもつ階層化モードを示す場合、周囲HOA成分は、そのO_MIN個の最低の位置（すなわち最低の諸インデックスをもつ位置）に、圧縮解除されたHOA信号＾C(k－1)のHOA係数シーケンスを含み、残りのより高い位置に、残差のHOA表現の一部である係数シーケンスを含む。該残差は、圧縮解除されたHOA信号＾C(k－1)と、９１４優勢HOA音成分＾C_PS(k－1)のHOA表現との間の残差である。

他方、階層化モード指示LMF_Dが単一層モードを示す場合には、圧縮解除されたHOA信号＾C(k－1)のHOA係数シーケンスは含まれておらず、周囲HOA成分は、圧縮解除されたHOA信号＾C(k－1)と、優勢HOA音成分＾C_PS(k－1)のHOA表現との間の残差である。

HOA合成ブロック６０８は、優勢音成分のHOA表現を周囲HOA成分に加えるよう適応されている。

ここで、優勢音信号のHOA表現の係数および周囲HOA成分の対応する係数が加算され、圧縮解除されたHOA信号＾C'(k－1)が得られる。ここで、
階層化モード指示LMF_Dが少なくとも二つの層をもつ階層化モードを示す場合、最高のI－O_MIN個の係数チャネルだけが、優勢HOA音成分＾C_PS(k－1)と周囲HOA成分

の加算によって得られ、圧縮解除されたHOA信号＾C'(k－1)の低いほうからのO_MIN個の係数チャネルは、周囲HOA成分

からコピーされる。他方、階層化モード指示LMF_Dが単一層モードを示す場合には、圧縮解除されたHOA信号＾C'(k－1)のすべての係数チャネルは、優勢HOA音成分＾C_PS(k－1)と周囲HOA成分

の加算によって得られる。

図７は、周囲HOA信号から修正された周囲HOA信号へのフレームの変換を示している。

図８は、HOA信号を圧縮する方法のフローチャートを示している。

HOA係数シーケンスの入力時間フレームC(k)をもつ次数Nの入力HOA表現である高次アンビソニックス（HOA）信号を圧縮するための方法８００は、入力時間フレームの空間的HOAエンコードならびにその後の知覚的エンコードおよび源エンコードを含む。

空間的HOAエンコードは、
方向およびベクトル推定ブロック３０１においてHOA信号の方向およびベクトル推定処理８０１を実行する段階であって、方向性信号についての第一のタプル集合M_DIR(k)およびベクトル・ベースの信号についての第二のタプル集合M_VEC(k)を含むデータが得られ、各第一のタプル集合M_DIR(k)は、方向性信号のインデックスおよびそれぞれの量子化された方向を含み、各第二のタプル集合M_VEC(k)は、ベクトル・ベースの信号のインデックスおよび信号の方向分布を定義するベクトルを含む、段階と；
HOA分解ブロック３０３において、HOA係数シーケンスの各入力時間フレームを、複数の優勢音信号X_PS(k－1)のフレームと、周囲HOA成分

のフレームとに分解８０２する段階であって、優勢音信号X_PS(k－1)は前記方向性音信号および前記ベクトル・ベースの音信号を含み、前記周囲HOA成分

は、前記入力HOA表現と前記優勢音信号のHOA表現との間の残差を表わすHOA係数シーケンスを含み、前記分解７０２はさらに、予測パラメータξ(k－1)および目標割り当てベクトル（target assignment vector）v_A,T(k－1)を提供し、前記予測パラメータξ(k－1)は、優勢音信号X_PS(k－1)内の方向性信号からどのようにして、優勢音HOA成分を豊かにするようHOA信号表現の諸部分を予測するかを記述し、前記目標割り当てベクトルv_A,T(k－1)は、所与の数I個のチャネルに優勢音信号をどのようにして割り当てるかについての情報を含む、段階と；
周囲成分修正ブロック３０４において、周囲HOA成分C_AMB(k－1)を、前記目標割り当てベクトルv_A,T(k－1)によって与えられる情報に従って修正８０３する段階であって、周囲HOA成分C_AMB(k－1)のどの係数シーケンスが所与の数I個のチャネルにおいて伝送されるべきかが、何個のチャネルが優勢音信号によって占められているかに依存して、決定され、修正された（modified）周囲HOA成分C_M,A(k－2)および時間的に予測された（predicted）修正された周囲HOA成分C_P,M,A(k－1)が得られ、前記目標割り当てベクトルv_A,T(k－1)内の情報から、最終的な割り当てベクトルv_A(k－2)が得られる、段階と；
チャネル割り当てブロック１０５において、上記分解から得られた優勢音信号X_PS(k－1)と、修正された周囲HOA成分C_M,A(k－2)および時間的に予測された修正された周囲HOA成分C_P,M,A(k－1)の決定された係数シーケンスを、最終的な割り当てベクトルv_A(k－2)によって与えられる情報を使って、上記所与の数I個のチャネルに割り当てる８０４段階であって、トランスポート信号y_i(k－2)、i＝1,…,Iおよび予測されたトランスポート信号y_P,i(k－2)、i＝1,…,Iが得られる、段階と；
複数の利得制御ブロック３０６において、前記トランスポート信号y_i(k－2)および前記予測されたトランスポート信号y_P,i(k－2)に対して利得制御８０５を実行する段階であって、利得修正されたトランスポート信号z_i(k－2)、指数e_i(k－2)および例外フラグβ_i(k－2)が得られる、段階とを含む。

前記知覚的エンコードおよび源エンコードは、
知覚的符号化器３１０において、前記利得修正されたトランスポート信号z_i(k－2)を知覚的に符号化する８０６段階であって、知覚的にエンコードされたトランスポート信号

が得られる、段階と；
一つまたは複数のサイド情報源符号化器３２０、３３０において、前記指数e_i(k－2)および例外フラグβ_i(k－2)、前記第一のタプル集合M_DIR(k)および第二のタプル集合M_VEC(k)、前記予測パラメータξ(k－1)および前記最終的な割り当てベクトルv_A(k－2)を含むサイド情報をエンコードする段階であって、エンコードされたサイド情報

が得られる、段階と；
知覚的にエンコードされたトランスポート信号

およびエンコードされたサイド情報

を多重化８０８する段階であって、多重化されたデータ・ストリーム

が得られる、段階とを含む。

上記分解する段階８０２において得られた周囲HOA成分〔チルダ付きのC_AMB(k－1)〕は、入力HOA表現c_n(k－1)の最初の諸HOA係数シーケンスをO_MIN個の最低の位置（すなわち最低の諸インデックスをもつ位置）に、第二のHOA係数シーケンスC_AMB,n(k－1)を残りのより高い位置に含む。第二のHOA係数シーケンスは、入力HOA表現と優勢音信号のHOA表現との間の残差のHOA表現の一部である。

最初のO_MIN個の指数e_i(k－2)、i＝1,…,O_MINおよび例外フラグβ_i(k－2)、i＝1,…,O_MINは基本層サイド情報源符号化器３２０においてエンコードされ、エンコードされた基本層サイド情報

が得られる。ここで、O_MIN＝(N_MIN＋1)²であり、O＝(N＋1)²であり、N_MIN≦NかつO_MIN≦Iであり、N_MINはあらかじめ定義された整数値である。

最初のO_MIN個の知覚的にエンコードされたトランスポート信号

およびエンコードされた基本層サイド情報

は基本層ビットストリーム・マルチプレクサ３４０において多重化８０９され、ここで、基本層ビットストリーム

が得られる。

残りのI－O_MIN個の指数e_i(k－2)、i＝O_MIN＋1,…,Iおよび例外フラグβ_i(k－2)、i＝O_MIN＋1,…,I、前記第一のタプル集合M_DIR(k－1)および第二のタプル集合M_VEC(k－1)、前記予測パラメータξ(k－1)および前記最終的な割り当てベクトルv_A(k－2)（図面ではv_AMB,ASSIGN(k)としても示される）は、向上層サイド情報エンコーダ３３０においてエンコードされ、ここで、エンコードされた向上層サイド情報

が得られる。

およびエンコードされた向上層サイド情報

は、向上層ビットストリーム・マルチプレクサ３５０において多重化８１０され、向上層ビットストリーム

が得られる。

上記のように、階層化モードの使用を信号伝達するモード指示が加えられる８１１。モード指示は、指示挿入ブロックまたはマルチプレクサによって加えられる。

ある実施形態では、本方法はさらに、基本層ビットストリーム

と、向上層ビットストリーム

と、モード指示とを単一のビットストリームに多重化する最終段階を含む。

ある実施形態では、前記優位方向（dominant direction）推定は、エネルギー的に優位なHOA成分の方向性パワー分布に依存する。

ある実施形態では、選ばれるHOA係数シーケンスのHOAシーケンス・インデックスが相続くフレーム間で変わる場合には、周囲HOA成分を修正する際、係数シーケンスのフェードインおよびフェードアウトが実行される。

ある実施形態では、周囲HOA成分を修正する際、周囲HOA成分C_AMB(k－1)の部分的脱相関が実行される。

ある実施形態では、第一のタプル集合M_DIR(k)に含まれる量子化方向は優位方向である。

図９は、圧縮されたHOA信号を圧縮解除する方法のフローチャートを示している。本発明のこの実施形態では、圧縮されたHOA信号を圧縮解除する方法９００は、HOA係数シーケンスの出力時間フレーム＾C(k－1)を得るために、知覚的なデコードおよび源デコードならびにその後の空間的HOAデコードを含む。本方法は、圧縮された高次アンビソニックス（HOA）信号が圧縮された基本層ビットストリーム

および圧縮された向上層ビットストリーム

を含むことを示す階層化モード指示LMF_Dを検出する９０１段階を含む。

前記知覚的デコードおよび源デコードは、
圧縮された基本層ビットストリーム

を多重分離９０２する段階であって、第一の知覚的にエンコードされたトランスポート信号

および第一のエンコードされたサイド情報

が得られる、段階と；
圧縮された向上層ビットストリーム

を多重分離９０３する段階であって、第二の知覚的にエンコードされたトランスポート信号

および第二のエンコードされたサイド情報

を知覚的にデコード９０４する段階であって、知覚的にデコードされたトランスポート信号

が得られ、基本層知覚的デコーダ５４０において、基本層の前記第一の知覚的にエンコードされたトランスポート信号

が得られ、向上層知覚的デコーダ５５０において、向上層の前記第二の知覚的にエンコードされたトランスポート信号

が得られる、段階と；
基本層サイド情報源デコーダ５３０において、第一のエンコードされたサイド情報

をデコード９０５する段階であって、第一の指数e_i(i)、i＝1,…,O_MINおよび第一の例外フラグβ_i(k)、i＝1,…,O_MINが得られる、段階と；
向上層サイド情報源デコーダ５６０において、第二のエンコードされたサイド情報

をデコード９０６する段階であって、第二の指数e_i(i)、i＝O_MIN＋1,…,Iおよび第二の例外フラグβ_i(k)、i＝O_MIN＋1,…,Iが得られ、さらなるデータが得られ、前記さらなるデータは、方向性信号についての第一のタプル集合M_DIR(k＋1)およびベクトル・ベースの信号についての第二のタプル集合M_VEC(k＋1)を含み、第一のタプル集合M_DIR(k＋1)の各タプルは、方向性信号のインデックスおよびそれぞれの量子化された方向を含み、第二のタプル集合M_VEC(k＋1)の各タプルは、ベクトル・ベースの信号のインデックスおよび該ベクトル・ベースの信号の方向分布を定義するベクトルを含み、さらに、予測パラメータξ(k＋1)および周囲割り当てベクトルv_AMB,ASSIGN(k)が得られる、段階とを含む。周囲割り当てベクトルv_AMB,ASSIGN(k)は、各伝送チャネルについて、周囲HOA成分の係数シーケンスを含んでいるかどうかおよびどの係数シーケンスを含んでいるかを示す成分を含む。

前記空間的HOAデコードは、
逆利得制御を実行９１０する段階であって、前記第一の知覚的にデコードされたトランスポート信号

が、前記第一の指数e_i(k)、i＝1,…,O_MINおよび前記第一の例外フラグβ_i(k)、i＝1,…,O_MINに従って、第一の利得補正された信号フレーム＾y_i(k)、i＝1,…,O_MINに変換され、前記第二の知覚的にデコードされたトランスポート信号

が、前記第二の指数e_i(k)、i＝O_MIN＋1,…,Iおよび前記第二の例外フラグβ_i(k)、i＝O_MIN＋1,…,Iに従って、第二の利得補正された信号フレーム＾y_i(k)、i＝O_MIN＋1,…,Iに変換される、段階と；
チャネル再割り当てブロック６０５において、前記第一および第二の利得補正された信号フレーム＾y_i(k)、i＝1,…,IをI個のチャネルに再分配９１１する段階であって、優勢音信号のフレーム＾X_PS(k)が再構成され、該優勢音信号は方向性信号およびベクトル・ベースの信号を含み、修正された周囲HOA成分

が得られ、割り当ては、前記周囲割り当てベクトルv_AMB,ASSIGN(k)および前記第一および第二のタプル集合M_DIR(k＋1)、M_VEC(k＋1)内の情報に従ってなされる、段階と；
チャネル再割り当てブロック６０５において、k番目のフレームにおいてアクティブである、修正された周囲HOA成分の係数シーケンスのインデックスの第一の集合I_AMB,ACT(k)と、(k－1)番目のフレームにおいて有効にされる、無効にされるまたはアクティブなままである必要がある修正された周囲HOA成分の係数シーケンスのインデックスの第二の集合I_E(k－1)、I_D(k－1)、I_U(k－1)とを生成９１１ｂする段階と；
優勢音合成ブロック６０６において、優勢HOA音成分＾C_PS(k－1)のHOA表現を、前記優勢音信号＾X_PS(k)から合成９１２する段階であって、前記第一および第二のタプル集合M_DIR(k＋1)、M_VEC(k＋1)、予測パラメータζ(k＋1)およびインデックスの第二の集合I_E(k－1)、I_D(k－1)、I_U(k－1)が使用される、段階と；
周囲合成ブロック６０７において、周囲HOA成分

を、修正された周囲HOA成分

から合成９１３する段階であって、最初のO_MIN個のチャネルについての逆空間的変換がなされ、インデックスの第一の集合I_AMB,ACT(k)が使用され、該インデックスの第一の集合は、k番目のフレームにおいてアクティブである周囲HOA成分の係数シーケンスのインデックスであり、周囲HOA成分は、階層化モード指示LMF_Dに依存して少なくとも二つの異なる構成のうちの一つをもつ、段階と；
HOA合成ブロック６０８において、優勢HOA音成分＾C_PS(k－1)および周囲HOA成分

のHOA表現を加算９１４する段階であって、優勢音信号のHOA表現の係数と、周囲HOA成分の対応する係数とが加算され、圧縮解除されたHOA信号＾C'(k－1)が得られ、下記の条件、すなわち：
階層化モード指示LMF_Dが少なくとも二つの層をもつ階層化モードを示す場合、最高のI－O_MIN個の係数チャネルだけが、優勢HOA音成分＾C_PS(k－1)と周囲HOA成分

からコピーされ；他方、階層化モード指示LMF_Dが単一層モードを示す場合には、圧縮解除されたHOA信号＾C'(k－1)のすべての係数チャネルは、優勢HOA音成分＾C_PS(k－1)と周囲HOA成分

の加算によって得られる、という条件が適用される、段階とを含む。

階層化モード指示LMF_Dに依存しての周囲HOA成分の構成は次のようなものである。

階層化モード指示LMF_Dが少なくとも二つの層をもつ階層化モードを示す場合、周囲HOA成分は、そのO_MIN個の最低位の位置に、圧縮解除されたHOA信号＾C(k－1)のHOA係数シーケンスを含み、残りのより高位の位置に、圧縮解除されたHOA信号＾C(k－1)と、優勢HOA音成分＾C_PS(k－1)のHOA表現との間の残差のHOA表現の一部である係数シーケンスを含む。

他方、階層化モード指示LMF_Dが単一層モードを示す場合には、周囲HOA成分は、圧縮解除されたHOA信号＾C(k－1)と、優勢HOA音成分＾C_PS(k－1)のHOA表現との間の残差である。

ある実施形態では、圧縮されたHOA信号表現は多重化されたビットストリーム中にあり、圧縮されたHOA信号を圧縮解除する本方法はさらに、圧縮されたHOA信号表現を多重分離する初期段階であって、前記圧縮された基本層ビットストリーム

と、前記圧縮された向上層ビットストリーム

と、前記階層化モード指示LMF_Dとが得られる段階を有する。

図１０は、本発明のある実施形態に基づく、HOA圧縮解除器の空間的HOAデコード部のアーキテクチャの諸部分の詳細を示している。

有利なことに、たとえばELが受領されない場合またはBL品質が十分である場合、BLだけをデコードすることが可能である。この場合、ELの信号はデコーダにおいて0に設定されることができる。すると、優勢音信号＾X_PS(k)のフレームは空なので、チャネル再割り当てブロック６０５において、第一および第二の利得補正された信号フレーム＾y_i(k)、i＝1,…,IをI個のチャネルに再分配９１１することは非常に単純である。(k－1)番目のフレームにおいて有効にされる、無効にされるまたはアクティブなままである必要がある修正された周囲HOA成分の係数シーケンスのインデックスの第二の集合I_E(k－1)、I_D(k－1)およびI_U(k－1)は0に設定される。したがって、優勢音合成ブロック６０６における優勢HOA音信号＾X_PS(k)からの優勢HOA音成分＾C_PS(k－1)のHOA表現の合成９１２はスキップでき、周囲合成ブロック６０７における修正された周囲HOA成分

からの周囲HOA成分

の合成９１３は、通常のHOA合成に対応する。

HOA圧縮のためのもとの（すなわちモノリシック、非スケーラブル、非階層化）モードも、低品質の基本層が必要とされない用途、たとえばファイル・ベースの圧縮のためには相変わらず有用でありうる。もとのHOA表現と方向性HOA表現との間の差である周囲HOA成分C_AMBの空間的に変換された最初のO_MIN個の係数シーケンスを、もとのHOA成分Cの空間的に変換された係数シーケンスの代わりに、知覚的に符号化することの利点は、前者の場合には、知覚的に符号化されるべきすべての信号間の相互相関が低下するということである。信号z_i、i＝1,…,Iの間のいかなる相互相関も、空間的デコード・プロセスの間に知覚的な符号化ノイズの建設的な重畳を引き起こしうる。一方で、同時に、ノイズのないHOA係数シーケンスは重畳で打ち消される。この現象は、知覚的ノイズ・マスキング解除（perceptual noise unmasking）として知られる。

階層化モードでは、信号z_i、i＝1,…,O_MINのそれぞれの間に、また信号z_i、i＝1,…,O_MINとz_i、i＝O_MIN＋1,…,Iの間に高い相互相関がある。というのも、周囲HOA成分

の修正された係数シーケンスは、方向性HOA成分の信号を含むからである（式(3)参照）。逆に、これは、もとの非階層化モードでは成り立たない。したがって、階層化モードによって導入される伝送の堅牢さは、圧縮品質を代償としてもたらされることがあると結論できる。しかしながら、圧縮品質の低下は、伝送の堅牢さの増大に比べて小さい。上記で示したように、提案される階層化モードは、少なくとも上記の状況において有利である。

本発明の基本的な新規な特徴をその好ましい実施形態に適用した場合について図示し、説明し、指摘してきたが、本発明の精神から外れることなく、記載される装置および方法においてさまざまな省略、代替および変更が、開示されるデバイスの形および詳細ならびにその動作において、当業者によってなされてもよいことは理解されるであろう。実質的に同じ仕方で実質的に同じ機能を実行し、同じ結果を達成する要素のあらゆる組み合わせが本発明の範囲内であることはっきりと意図されている。ある記載された実施形態からの要素の、他の記載された実施形態への代用も完全に意図されており、考えられている。

本発明は、純粋に例として記述されたのであり、本発明の範囲から外れることなく詳細の修正をなすことができることは理解されるであろう。

本記述および（適切な場合には）請求項および図面において開示されている各特徴は、独立に、あるいは任意の適切な組み合わせにおいて提供されうる。特徴は、適宜、ハードウェア、ソフトウェアまたは両者の組み合わせにおいて実装されうる。接続は、該当する場合には、無線接続または有線の、必ずしも直接接続や専用接続ではない接続として実装されてもよい。

請求項に現われる参照符号は単に例であって、請求項の範囲に対する限定する効果はもたない。

Claims

音または音場の圧縮された高次アンビソニックス（HOA）表現をデコードする方法であって、
圧縮されたHOA表現に関係する複数の層があるかどうかを判定する段階と；
複数の層があるとの前記判定に基づいて、ビットストリームからの前記圧縮されたHOA表現をデコードして、デコードされたHOA表現のシーケンスを得る段階とを含み、
デコードされたHOA表現の前記シーケンスの第一の部分集合はインデックスの第一の集合に対応し、デコードされたHOA表現の前記シーケンスの第二の部分集合はインデックスの第二の集合に対応し、
インデックスの前記第一の集合はO_MIN個のチャネルに基づき、
インデックスの前記第一の集合の各インデックスについて、前記第一の部分集合における対応するデコードされたHOA表現は対応する周囲HOA成分のみに基づいて決定され、
インデックスの前記第二の集合は前記複数の層のうちの少なくとも一つに基づいて決定され、インデックスnおよびフレームkについて、

であり、

は対応する周囲音成分を表わし、

は対応する優勢音成分を表わし、
デコードされたHOA表現の前記シーケンスのHOA係数のフェードインおよびフェードアウトが、デコードされたHOA表現の前記シーケンスのインデックスが相続くフレームの間で変わる場合に実行される、
方法。
音または音場の圧縮された高次アンビソニックス（HOA）表現をデコードする装置であって、
複数の層があるとの判定に基づいて、ビットストリームからの圧縮されたHOA表現をデコードして、デコードされたHOA表現のシーケンスを得るオーディオ・デコーダとを有しており、
デコードされたHOA表現の前記シーケンスの第一の部分集合はインデックスの第一の集合に対応し、デコードされたHOA表現の前記シーケンスの第二の部分集合はインデックスの第二の集合に対応し、
インデックスの前記第一の集合はO_MIN個のチャネルに基づき、
インデックスの前記第一の集合の各インデックスについて、前記第一の部分集合における対応するデコードされたHOA表現は対応する周囲HOA成分のみに基づいて決定され、
インデックスnおよびフレームkについて、

であり、

は対応する周囲音成分を表わし、

は対応する優勢音成分を表わし、
デコードされたHOA表現の前記シーケンスのHOA係数のフェードインおよびフェードアウトが、デコードされたHOA表現の前記シーケンスのインデックスが相続くフレームの間で変わる場合に実行される、
装置。
プロセッサによって実行されたときに請求項１に記載の方法を実行する命令を含んでいる非一時的なコンピュータ可読記憶媒体。