JP7664232B2

JP7664232B2 - マルチチャネル音声信号に適用する修正の決定と、関連する符号化及び復号化

Info

Publication number: JP7664232B2
Application number: JP2022520097A
Authority: JP
Inventors: ピエール・クレメン・マエ; ステファーヌ・ラゴ; ジェローム・ダニエル
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2019-10-02
Filing date: 2020-09-24
Publication date: 2025-04-17
Anticipated expiration: 2040-09-24
Also published as: ES2965084T3; BR112022005783A2; US20220358937A1; CN114503195B; EP4042418A1; EP4042418B1; JP2022550803A; FR3101741A1; ZA202203157B; WO2021064311A1; CN114503195A; US12051427B2; KR20220076480A

Description

本発明は、特にアンビオフォニック関連（以下「アンビソニック」とも表記）の空間音響データの符号化／復号化に関する。

モバイルテレフォニで現在用いるエンコーダ／デコーダ（以下「コーデック」と称する）はモノラル（単一スピーカー向けにレンダリングされる単一信号チャネル）である。３ＧＰＰＥＶＳ（「ＥｎｈａｎｃｅｄＶｏｉｃｅＳｅｒｖｉｃｅｓ」の略）コーデックにより、３２又は４８ｋＨｚでサンプリングされた信号用の超広帯域（ＳＷＢ）音声帯域又は４８ｋＨｚでサンプリングされた信号用の全帯域（ＦＢ）音声帯域を有する「超ＨＤ」品質（「高精細度プラス」又はＨＤ＋音声とも呼ばれる）を提供することが可能になり、音声帯域幅はＳＷＢモード（９．６～１２８ｋｂｉｔ／ｓ）で１４．４～１６ｋＨｚ、及びＦＢモード（１６．４～１２８ｋｂｉｔ／ｓ）で２０ｋＨｚである。

オペレータが提供する会話サービスにおける品質の次段階の進化は、複数のマイクロフォンを備えたスマートフォン等の端末を使用する、没入型サービス、又はリモートプレゼンスすなわち３６０°ビデオによる空間音声会議又はビデオ会議設備、或いは単なる２Ｄステレオレンダリングよりもはるかに没入感がある空間３Ｄ音響レンダリングを実現する「ライブ」音声コンテンツ共有設備を含めるべきである。音声ヘッドセットを用いて携帯電話を聴くような使い方が広まると共に、先端的な音声設備（３Ｄマイクロフォン、音響アンテナを備えた音声アシスタント、仮想現実ヘッドセット等の付属品）の出現に伴い、空間音響シーンの捕捉及びレンダリングは現在、没入的通信体験を提供できる程度に充分普及している。

この目的のため、将来的な３ＧＰＰ標準「ＩＶＡＳ」（「ＩｍｍｅｒｓｉｖｅＶｏｉｃｅＡｎｄＡｕｄｉｏＳｅｒｖｉｃｅｓ（没入型音声サービス）」の略）は、少なくとも以下に列挙する空間音響フォーマット（及びそれらの組み合わせ）をコーデック入力フォーマットとして受容することにより、ＥＶＳコーデックを没入型向けに拡張することを提案している。
－各チャネルがスピーカーに出力するステレオ又は５．１マルチチャネル（チャネルに基づく）フォーマット（例：ステレオではＬ及びＲ、又は５．１ではＬ、Ｒ、Ｌｓ、Ｒｓ及びＣ）、
－音響オブジェクトが、当該オブジェクト（空間内での位置、ソースの空間幅等）の属性を記述するメタデータに関連付けられた音声信号（一般にはモノラル）として記述されるオブジェクト（オブジェクトに基づく）フォーマット、
－一般に球形マイクロフォンにより捕捉されるか又は球面調和関数の領域で合成された、所与の点での音場を記述するアンビソニック（シーンに基づく）フォーマット。

以下で典型的に興味深いのは、例示的な実施形態によるアンビソニックフォーマットでの音響の符号化である（本発明との関連で提示する少なくともいくつかの態様もアンビソニック以外のフォーマットに適用可能である）。

アンビソニックスは、空間化された音響を記録（音響的意味で「符号化」）する方法及び再生（音響的意味で「復号化」）するシステムである。（一次）アンビソニックマイクロフォンは、球面格子、例えば正四面体の頂点に配置された少なくとも４個のカプセル（典型的にカージオイド又はサブカージオイド型の）を含んでいる。これらのカプセルに関連付けられた音声チャネルは「Ａフォーマット」と称する。このフォーマットは、音場が４個の同時仮想マイクロフォンに対応するＷ、Ｘ、Ｙ、Ｚと表記される４個の成分（球面調和関数）に分解された「Ｂフォーマット」に変換される。成分Ｗは音場の全方向での捕捉に対応するのに対し、より指向的な成分Ｘ、Ｙ及びＺは空間の３個の直交軸に沿って向けられた圧力勾配マイクロフォンに類似している。アンビソニックシステムは、記録とレンダリングが別個且つ分離されている意味で柔軟なシステムである。任意の構成のスピーカー（例：バイノーラル、５．１又は７．１．４多重チャネル（上昇を伴う）「サラウンド」音響）向けの（音響的意味の）復号化が可能になる。アンビソニックアプローチは、Ｂフォーマットの４個を超えるチャネルに一般化することができ、この一般化された表現は「ＨＯＡ」（「Ｈｉｇｈｅｒ－ＯｒｄｅｒＡｍｂｉｓｏｎｉｃｓ（高次アンビソニック）」の略）と一般に呼ばれる。音響をより多くの球面調和関数に分解することでスピーカー向けにレンダリングする際の空間レンダリング精度が向上する。

Ｍ次アンビソニック信号は、Ｋ＝（Ｍ＋１）^２個の成分を含み、１次（Ｍ＝１の場合）では一般にＦＯＡ（Ｆｉｒｓｔ－ＯｒｄｅｒＡｍｂｉｓｏｎｉｃｓ（１次アンビソニック）の略）と称する４個の成分Ｗ、Ｘ、Ｙ及びＺがある。また、アンビソニック（Ｗ、Ｘ、Ｙ）の一般に水平面である平面内で定義される音を分解する「平面型」変型と称するものがある。この場合、成分の数はＫ＝２Ｍ＋１個のチャネルである。１次アンビソニック（４チャネル：Ｗ、Ｘ、Ｙ、Ｚ）、平面１次アンビソニック（３チャネル：Ｗ、Ｘ、Ｙ）及び高次アンビソニックは全て、読み易さのため以下では区別せずに「アンビソニック」と称するものとし、提示する処理動作は平面又は非平面型の如何、及びアンビソニック成分の個数に依らず適用可能である。

以下、「アンビソニック信号」は特定個数のアンビソニック成分を有するＢフォーマットの所定次数の信号に与えられる名前である。これはまた、ハイブリッドな場合も含んでいる、例えば（９個ではなく）８個の２次チャネルしか存在しない、より厳密には、２次では、４個の１次チャネル（Ｗ、Ｘ、Ｙ、Ｚ）に加えて通常は５チャネル（通常Ｒ、Ｓ、Ｔ、Ｕ、Ｖと表記）が存在し、例えば高次チャネルのうち１個（例えばＲ）を無視することができる。エンコーダ／デコーダにより処理される信号は、以下で「フレーム」又は「サブフレーム」と称する音響サンプルの連続的なブロックの形式をとる。

更に、以下において、数学的表記は次の規約に従う。
－スカラー：ｓ又はＮ（小文字は変数、大文字は定数）
－演算子Ｒｅ（．）は複素数の実部を示す
－ベクトル：ｕ（太小文字）
－行列：Ａ（太大文字）

表記Ａ^Ｔ及びＡ^Ｈは各々Ａの転置及びエルミート転置（転置及び共役）を示す。
－長さＬの時間幅ｉ＝０，．．．，Ｌ－１にわたり定義される１次元離散時間信号ｓ（ｉ）を行ベクトルで表す。
ｓ＝［ｓ（０），．．．，ｓ（Ｌ－１）］

これは括弧の使用を避けるべくｓ＝［ｓ_０，．．．，ｓ_Ｌ－１］と書くこともできる。
－長さＬの時間幅ｉ＝０，．．．，Ｌ－１にわたり定義されるＫ次元の多次元離散時間信号ｂ（ｉ）をサイズＬ×Ｋの行列により表す。

これは括弧の使用を避けるべくＢ＝［Ｂ_ｉｊ］、ｉ＝０，．．．Ｋ－１、ｊ＝０．．．Ｌ－１と書くこともできる。
－直交座標（ｘ，ｙ，ｚ）を有する３Ｄ点は、球面座標（ｒ，Θ，φ）に変換することができ、ｒは原点までの距離、Θは方位角、及びφは仰角である。ここで一般性を失うことなく、仰角が水平面（０ｘｙ）に関して定義される数学的表記を用いる。本発明は、方位角が軸Ｏｚに関して定義される物理学で用いる表記を含む他の定義に容易に合わせることができる。更に、アンビソニック成分（ＡｍｂｉｓｏｎｉｃＣｈａｎｎｅｌＮｕｍｂｅｒ（アンビソニックチャネル番号）の略語ＡＣＮ、ＳｉｎｇｌｅＩｎｄｅｘＤｅｓｉｇｎａｔｉｏｎ（単一索引指定）の略語ＳＩＤ、Ｆｕｒｓｅ－Ｍａｌｈａｍの略語ＦｕＭＡを含む）の次数及びアンビソニック成分の正規化（ＳＮ３Ｄ、Ｎ３Ｄ、ｍａｘＮ）に関するアンビソニック関連の従来技術で知られる表記規約についてはここでは触れない。より詳細な事項は例えばオンラインで入手可能な以下のリソースで見ることができる。
ｈｔｔｐｓ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ａｍｂｉｓｏｎｉｃ＿ｄａｔａ＿ｅｘｃｈａｎｇｅ＿ｆｏｒｍａｔｓ
慣習により、アンビソニック信号で第１の成分は一般に全方向成分Ｗに対応する。

アンビソニック信号を符号化する最も簡単な方式は、モノラルエンコーダを用いて全てのチャネルに並列に適用するものであり、チャネルに応じてビット割り当てが異なる可能性がある。本方式をここでは「マルチモノラル」と呼ぶ。多重モノラル方式は、多重ステレオ符号化（チャネルのペアがステレオコーデックにより別々に符号化される）に、又はより一般的には同一コアコーデックの複数の並列インスタンスの使用に拡張することができる。

このような一実施形態を図１に示す。入力信号は、ブロック１００によりチャネル（１個のモノラルチャネル又は多チャネル）に分割される。これらのチャネルは、所定の分布及びビット割り当てに基づいてブロック１２０～１２２により別々に符号化される。それらのビットストリームは多重化され（ブロック１３０）、送信及び／又は保存された後で、復号化チャネル（ブロック１５０～１５２）を再構築すべく復号化を適用すべく非多重化（ブロック１４０）されて、再び結合される（ブロック１６０）。

使用したコア符号化及び復号化（ブロック１２０～１２２及び１５０～１５２）に応じて付随する品質が変動し、一般に極めて高いビットレートのみで満足すべきものである。例えば、マルチモノラルの場合において、ＥＶＳ符号化は、少なくとも毎チャネル（モノラル）４８ｋｂｉｔ／ｓのビットレートで（知覚的な観点から）準透明であると考えられ、従って、１次アンビソニック信号に対して、４×４８＝１９２ｋｂｉｔ／ｓの最小ビットレートが得られる。マルチモノラル符号化方式はチャネル間相関を考慮しないため、ゴースト音源の出現、拡散音又は音源軌道の変位等、各種のアーチファクトの追加により空間変形が生じる。この方式を用いるアンビソニック信号の符号化は、空間化度合の低下につながる。

ステレオ又はマルチチャネル信号の全チャネルを別々に符号化するのではない、パラメータの符号化による代替方式を与える。この種の符号化の場合、「ダウンミックス」と称する処理動作の後で、入力マルチチャネル信号が少ない個数のチャネルに減らされ、これらのチャネルが符号化及び送信され、追加的な空間化情報もまた符号化される。パラメトリック復号化は、（典型的には非相関化を介して行われる）「アップミックス」と称する処理動作及び復号化された追加的空間化情報に基づく空間合成を用いて、送信されたチャネルを復号化した後でチャネルの個数を増やすことにある。ステレオパラメトリック符号化の一例が３ＧＰＰｅ－ＡＡＣ＋コーデックにより与えられる。ダウンミックス動作もまた空間化度合の低下につながり、この場合は空間イメージが修正される点に注意されたい。

本発明は従来技術の改良を目的とする。

この目的のため、マルチチャネル音響信号に施す修正の組を決定する方法を提案するものであり、当該修正の組は、元のマルチチャネル信号の空間イメージを表す情報から、及び符号化され、次いで復号化された元のマルチチャネル信号の空間イメージを表す情報から決定される。

復号化されたマルチチャネル信号に適用する修正の決定された組は従って、符号化及び恐らくはチャネル減少／増大動作に起因する空間的劣化の抑制を可能にする。修正の実行は従って、元のマルチチャネル信号の空間イメージに最も近い復号化されたマルチチャネル信号の空間イメージの復元を可能にする。

特定の一実施形態において、修正の組は、全帯域時間領域（１周波数帯域）において決定される。いくつかの変型例において、これは周波数サブ帯域により時間領域で実行される。これにより周波数帯域に応じて修正を適応させることが可能になる。

他の変型例において、これは短時間離散フーリエ変換（ＳＴＦＴ）、修正離散余弦変換（ＭＤＣＴ）型等の実又は複素変換領域（典型的には周波数領域）で実行される。

本発明はまた、以下のステップを含む、マルチチャネル音響信号を復号化する方法に関する。
－元のマルチチャネル信号からの符号化された音声信号及び元のマルチチャネル信号の空間イメージを表す情報を含むビットストリームを受信するステップと、
－受信した符号化済み音声信号を復号化して、復号化されたマルチチャネル信号を取得するステップと、
－元のマルチチャネル信号の空間イメージを表す情報を復号化するステップと、
－復号化されたマルチチャネル信号の空間イメージを表す情報を決定するステップと、
－上述の決定方法を用いて、復号化された信号に施す修正の組を決定するステップと、
－決定された修正の組を用いて、復号化されたマルチチャネル信号を修正するステップ。

このように、本実施形態において、デコーダは、エンコーダから受信した元のマルチチャネル信号の空間イメージを表す情報から、復号化されたマルチチャネル信号に施す修正を決定することができる。エンコーダから受信する情報は従って限定的である。修正の決定及び適用の両方の役割を担うのはデコーダである。

本発明はまた、以下のステップを含む、マルチチャネル音響信号を符号化する方法に関する。
－元のマルチチャネル信号からの音声信号を符号化するステップと、
－元のマルチチャネル信号の空間イメージを表す情報を決定するステップと、
－符号化された音声信号をローカルに復号化して、復号化されたマルチチャネル信号を取得するステップと、
－復号化されたマルチチャネル信号の空間イメージを表す情報を決定するステップと、
－上述の決定方法を用いて、復号化されたマルチチャネル信号に施す修正の組を決定するステップと、
－決定された修正の組を符号化するステップ。

本実施形態において、復号化されたマルチチャネル信号に施す修正の組を決定してデコーダに送信するのはエンコーダである。従ってこの修正決定を主導するのはエンコーダである。

上述の復号化方法の、又は上述の符号化方法の第１の特定の実施形態において、空間イメージを表す情報は共分散行列であり、修正の組を決定するステップは更に以下のステップを含んでいる。
－仮想スピーカーの組に関連付けられた重みベクトルを含む重み行列を取得するステップと、
－取得した重み行列から、及び受信した元のマルチチャネル信号の共分散行列から、元のマルチチャネル信号の空間イメージを決定するステップと、
－取得した重み行列から、及び決定した復号化済みマルチチャネル信号の共分散行列から、復号化されたマルチチャネル信号の空間イメージを決定するステップと、
－利得の組を取得すべく、仮想スピーカーの組のスピーカーの方向における元のマルチチャネル信号の空間イメージと復号化されたマルチチャネル信号の空間イメージの比率を計算するステップ。

本実施形態によれば、スピーカーにおけるレンダリングを用いる本方法により、エンコーダからデコーダに限られた量のデータだけを送信することが可能になる。実際、所与の次数Ｍに対して、（仮想スピーカーの同数の）Ｋ＝（Ｍ＋１）^２個の係数を送信すれば充分であるが、より安定した修正のためにより多くの仮想スピーカーを使用し、従ってより多くの点を送信することが推奨される。更に、修正は、仮想スピーカーに関連付けられた利得の観点から容易に解釈することができる。

別の変型実施形態において、エンコーダが様々な方向における信号のエネルギーを直接決定して、元のマルチチャネル信号のこの空間イメージをデコーダに送信する場合、復号化方法に対する修正の組の決定は更に以下のステップを含んでいる。
－仮想スピーカーの組に関連付けられた重みベクトルを含む重み行列を取得するステップと、
－取得した重み行列から、及び決定した復号化済みマルチチャネル信号の空間イメージを表す情報から、復号化されたマルチチャネル信号の空間イメージを決定するステップと、
－利得の組を取得すべく、仮想スピーカーの組のスピーカーの方向における元のマルチチャネル信号の空間イメージと復号化されたマルチチャネル信号の空間イメージの比率を計算するステップ。

さほど極端でない修正値を保証すべく、復号化方法又は符号化方法は、得られた利得の値を少なくとも１個の閾値に制限するステップを含んでいる。

この利得の組が、修正の組を構成し、例えばこのように決定された利得の組を含む修正行列の形式であってよい。

復号化方法又は符号化方法の第２の特定の実施形態において、空間イメージを表す情報は共分散行列であり、修正の組を決定するステップは２個の共分散行列の行列分解を介して変換行列を決定するステップを含み、変換行列が修正の組を構成する。

本実施形態は、アンビソニックマルチチャネル信号の場合はアンビソニック領域で直接訂正を行う利点がある。従ってスピーカー向けにレンダリングされた信号をアンビソニック領域に変換するステップが回避される。本実施形態はまた、たとえスピーカー向けにレンダリングする方法と比較してより多くの係数の送信が必要であるにせよ、数学的に最適であるように修正を最適化することが可能になる。実際、次数Ｍ、従って、ある個数の成分Ｋ＝（Ｍ＋１）^２の場合、送信される係数の個数はＫ×（Ｋ＋１）／２である。特定の周波数領域にわたり過度な増幅を避けるべく、正規化係数が決定されて変換行列に適用する。

修正の組が上述のように変換行列又は修正行列により表される場合、復号化されたマルチチャネル信号は、修正の組を復号化されたマルチチャネル信号に、すなわちアンビソニック信号の場合は直接アンビソニック領域で、適用することにより、決定された修正の組により修正される。

スピーカーにおけるレンダリングがデコーダにより実行される実施形態において、復号化されたマルチチャネル信号は、以下のステップで決定された修正の組を用いて修正される。
－復号化されたマルチチャネル信号を仮想スピーカーの組で音響的に復号化するステップと、
－音響的復号化から得られた信号に得られた利得の組を適用するステップと、
－マルチチャネル信号の成分を取得すべく音響的復号化から得られた修正済み信号を音響的に符号化するステップと、
－修正されたマルチチャネル信号を取得すべく、このように得られたマルチチャネル信号の成分を合算するステップ。

一変型実施形態において、上述の復号化、利得の適用及び符号化／合算ステップは、修正行列を用いて直接的な修正演算にグループ化される。この修正行列は復号化されたマルチチャネル信号に直接適用されてよく、これは上述のように直接アンビソニック領域を修正する利点がある。

符号化方法が修正の組を決定する方法を実行する第２の実施形態において、復号化方法は以下のステップを含んでいる。
－元のマルチチャネル信号からの符号化された音声信号、及び復号化されたマルチチャネル信号に施す修正の符号化された組であって上述の符号化方法を用いて符号化された修正の組を含むビットストリームを受信するステップと、
－受信した符号化済み音声信号を復号化して、復号化されたマルチチャネル信号を取得するステップと、
－符号化された修正の組を復号化するステップと、
－復号化されたマルチチャネル信号に復号化された修正の組を適用することにより復号化されたマルチチャネル信号を修正するステップ。

本実施形態において、復号化されたマルチチャネル信号に直接アンビソニック領域で施す修正を決定するのはエンコーダであり、これらの修正を直接アンビソニック領域で復号化されたマルチチャネル信号に適用するのはデコーダである。

修正の組はこの場合、変換行列であるか又は利得の組を含む修正行列であってよい。

スピーカー向けにレンダリングが行われる復号化方法の一変型実施形態において、復号化方法は以下のステップを含んでいる。
－元のマルチチャネル信号からの符号化された音声信号、及び復号化されたマルチチャネル信号に施す修正の符号化された組であって、上述のような符号化方法を用いて符号化された修正の組を含むビットストリームを受信するステップと、
－受信した符号化済み音声信号を復号化して、復号化されたマルチチャネル信号を取得するステップと、
－符号化された修正の組を復号化するステップと、
－復号化されたマルチチャネル信号を以下のステップ、すなわち
・復号化されたマルチチャネル信号を仮想スピーカーの組で音響的に復号化するステップと、
・音響的復号化から得られた信号に得られた利得の組を適用するステップと、
・マルチチャネル信号の成分を取得すべく、音響的復号化から得られた修正済み信号を音響的に符号化するステップと、
・修正されたマルチチャネル信号を取得すべく、このように得られたマルチチャネル信号の成分を合算するステップにおいて、復号化された修正の組を用いて修正するステップ。

本実施形態において、仮想スピーカーの組に対する音響的復号化から得られた信号に施す修正を決定するのはエンコーダであり、音響的復号化から得られた信号にこれらの修正を適用し、次いでアンビソニックマルチチャネル信号の場合にはこれらの信号をアンビソニック領域に戻すべく変換するのはデコーダである。

一変型実施形態において、上述の復号化、利得の適用及び符号化／合算ステップは、修正行列を用いて直接的な修正演算にグループ化される。この修正は次いで、復号化されたマルチチャネル信号、例えばアンビソニック信号に修正行列を適用することにより直接実行される。上述のように、これはアンビソニック領域で直接修正を施すという利点がある。

本発明はまた、上述のような復号化方法を実行する処理回路を含む復号化装置に関する。

本発明はまた、上述のような符号化方法を実行する処理回路を含む復号化装置に関する。

本発明はまた、プロセッサにより実行された場合に上述のような復号化方法又は符号化方法を実行する命令を含むコンピュータプログラムに関する。

本発明は最後に、上述の復号化方法又は符号化方法を実行する命令を含むコンピュータプログラムを保存した、プロセッサに可読な記憶媒体に関する。

本発明の他の特徴及び利点は、簡単な例示的且つ非限定的な例及び添付図面を介して提示される特定の実施形態の以下の記述を精査すれば明らかになろう。

従来技術による上述のマルチモノラル符号化を示す。本発明の一実施形態による、修正の組を決定する方法のステップをフロー図の形式で示す。本発明による、エンコーダ及びデコーダ、符号化方法及び復号化方法の第１の実施形態を示す。修正の組を決定するブロックの第１の詳細な実施形態を示す。修正の組を決定するブロックの第２の詳細な実施形態を示す。本発明による、エンコーダ及びデコーダ、符号化方法及び復号化方法の第２の実施形態を示す。本発明の一実施形態によるエンコーダ及びデコーダの構造的実施形態の複数の例を示す。

以下に述べる方法は、特に復号化された信号の空間イメージがなるべく元の信号に近いことを保証するための空間的劣化の修正に基づいている。知覚的キューが符号化されるステレオすなわちマルチチャネル信号向けの既知のパラメトリック符号化方法とは異なり、本発明は、アンビソニック領域が直接「聴取可能」でないため、空間イメージ情報の知覚的解釈に基づいていない。

図２に、符号化次いで復号化されたマルチチャネル信号に適用する修正の組を決定すべく実行される主なステップを示す。

次元Ｋ×Ｌ（すなわちＬ個の時間又は周波数サンプルのＫ個の成分）を有する元のマルチチャネル信号Ｂが本決定方法の入力である。ステップＳ１において、元のマルチチャネル信号の空間イメージを表す情報が抽出される。

ここで興味深いのは、上述のようにアンビソニック表現を有するマルチチャネル信号の場合である。本発明はまた、例えば３ＧＰＰＴＳ２６．２６０仕様に記述されているように特定の成分の抑制（例：８個のチャネルだけを維持すべく２次Ｒ成分の抑制）又は等価な領域（「等価空間領域」と称する）に渡すためのＢフォーマットの行列化等の修正が施されたＢフォーマット信号等、他の種類のマルチチャネル信号にも適用でき、行列化の別の例がＩＥＴＦＯｐｕｓコーデックの「チャネルマッピング３」及び３ＧＰＰＴＳ２６．９１８（条項６．１．６．３）に示されている。

「空間イメージ」はここでは、空間内の様々な方向におけるアンビソニック音響シーンの音響エネルギーの分布の呼称である。いくつかの変型例において、音響シーンを記述する当該空間イメージは一般に、空間内の各種の所定方向で、例えばこれらの方向においてサンプリングされたＭＵＳＩＣ（ＭＵｌｔｉｐｌｅＳＩｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ（多重信号分類））疑似スペクトル又は到着方向のヒストグラム（到着方向は、所定の方向により与えられる離散化により決定される）の形式で、評価された正値に対応し、これらの正値はエネルギーと解釈でき、本発明の記述を簡素化すべく以下のようにみなす。

アンビソニック音響シーンに関連付けられた空間イメージは従って、相対音響エネルギー（又はより一般に正値）を空間の様々な方向における関数として表す。本発明において、空間イメージを表す情報は例えば、マルチチャネル信号のチャネル間で計算された共分散行列又は音が発せられた方向に関連付けられた（単位球にわたり分布する仮想スピーカーの方向に関連付けられた）エネルギー情報であってよい。

マルチチャネル信号に適用する修正の組は、音が発せられた方向に関連付けられた利得の組により定義できる情報であり、当該利得の組又は変換行列を含む修正行列の形式であってよい。

マルチチャネル信号Ｂの共分散行列は、例えばステップＳ１で得られる。図３、６に関して以下に述べるように、当該行列は例えば以下のように計算される。
正規化係数内でＣ＝Ｂ．Ｂ^Ｔ（実数の場合）
又は正規化係数内でＣ＝Ｒｅ（Ｂ．Ｂ^Ｈ）（複素数の場合）

いくつかの変型例において、共分散行列を時間的に平滑化する演算を用いてよい。時間領域におけるマルチチャネル信号の場合、共分散は以下の形式で再帰的に（１サンプルずつ）推定することができる。
Ｃｉｊ（ｎ）＝ｎ／（ｎ＋１）Ｃｉｊ（ｎ－１）＋１／（ｎ＋１）ｂｉ（ｎ）ｂｊ（ｎ）

一変型実施形態において、様々な方向（単位球にわたり分布する仮想スピーカーの方向に関連付けられた）においてエネルギー情報が取得される。この目的のため、例えば図３、４に関して後述するＳＲＰ（「Ｓｔｅｅｒｅｄ－ＲｅｓｐｏｎｓｅＰｏｗｅｒ（制御された応答出力）」の略）法が適用される。いくつかの変型例において、他の空間イメージ計算方法（ＭＵＳＩＣ疑似スペクトル、到着方向のヒストグラム）を用いてよい。

元のマルチチャネル信号を符号化する複数の実施形態が考えられ、以下に記述する。

第１の実施形態において、ステップＳ２でＢの各種のチャネルｂ_ｋ、ｋ＝０，．．，Ｋ－１がマルチモノラル符号化を用いて符号化され、各チャネルｂ_ｋは別々に符号化されている。いくつかの変型実施形態において、チャネルｂ_ｋが別々のペアに符号化されるマルチステレオ符号化も可能である。５．１入力信号の従来の一例は、二つの別々のステレオ符号化演算Ｌ／Ｒ及びＬｓ／ＲｓをＣ及びＬＦＥ（低周波のみ）モノラル符号化演算と共に用いるものであり、アンビソニックの場合、マルチステレオ符号化を、アンビソニック成分（Ｂフォーマット）又はチャネルをＢフォーマットに行列化した後で取得された等価なマルチチャネル信号に適用してよく、－例えば、１次において、チャネルＷ、Ｘ、Ｙ、Ｚを変換して４個の変換済みチャネルにすることができ、チャネルの二つのペアは別々に符号化されて復号化においてＢフォーマットへ逆変換される。一例をＯｐｕｓコーデック（「チャネルマッピング３」）及び３ＧＰＰＴＲ２６．９１８仕様（条項６．１．６．３）の最新版に示されている。

他の変型例において、ステップＳ２で連結マルチチャネル符号化、例えばアンビソニック（シーンに基づく）フォーマット向けにＭＰＥＧ－Ｈ３Ｄ音声コーデックを用いることもできる。この場合、コーデックは入力チャネルを連結して符号化する。ＭＰＥＧ－Ｈの例において、この連結符号化はアンビソニック信号に対して、支配的モノラルソースの抽出及び符号化、アンビエンスの抽出（典型的には１次アンビソニック信号に）、支配的なチャネルを抽出するための抽出された全てのチャネル（「搬送チャネル」と称する）及び音響ビーム形成ベクトルを記述するメタデータの符号化等、複数のステップに分解される。連結マルチチャネル符号化により、例えば支配的な音源及びアンビエンスを抽出するか又は全ての音声コンテンツを考慮する全てのビット割り当てを実行すべく全てのチャネル間の関係を利用することが可能になる。

好適な実施形態において、ステップＳ２の例示的な実施形態は、上述のように３ＧＰＰＥＶＳコーデックを用いて実行されるマルチモノラル符号化である。しかし、本発明による方法はこのように、符号化するチャネルの表現に用いるコアコーデック（マルチモノラル、マルチステレオ、連結符号化）とは独立に用いることができる。

このようにビットストリームの形式で符号化された信号は、エンコーダのローカルデコーダにより、又は送信後にデコーダによりステップＳ３において復号化されてよい。この信号は、マルチチャネル信号

のチャネルを（例えばマルチモノラル復号化を用いる複数のＥＶＳデコーダインスタンスにより）復元すべく復号化される。

ステップＳ２ａ、Ｓ２ｂ、Ｓ３ａ、Ｓ３ｂはマルチチャネル信号Ｂの符号化及び復号化の一変型実施形態を表す。上述のステップＳ２の符号化との違いは、ステップＳ２ａでチャネルの個数を減らし（「ダウンミックス」）、ステップＳ３ｂでチャネルの個数を増やす（「アップミックス」）ための追加的処理動作の使用にある。これらの符号化及び復号ステップ（Ｓ２ｂ、Ｓ３ａ）は、ステップＳ２ｂ、Ｓ３ａの方が各々の入出力チャネルの個数が少ないこと以外はステップＳ２、Ｓ３と同様である。

１次アンビソニック入力信号をダウンミックスする一例は、Ｗチャネルだけを維持するものであり、次数が１を超えるアンビソニック入力信号に対して、先頭４個の成分Ｗ、Ｘ、Ｙ、Ｚがダウンミックスとして取得され（従って信号を１次に切り捨てられ）てよい。いくつかの変型例において、アンビソニック成分（例：成分Ｒが無い８個の２次チャネル）のサブセットはダウンミックスとして取得されてよく、行列化するケースも考えられ、例えば、ステレオダウンミックスが、Ｌ＝Ｗ－Ｙ＋０．３^＊Ｘ、Ｒ＝Ｗ＋Ｙ＋０．３^＊Ｘ（ＦＯＡチャネルだけを使用）のフォーマットで取得される。モノラル信号をアップミックスする一例は、各種の室内空間インパルス応答（ＳＲＩＲ）又は各種の（全通過型の）非相関化フィルタを時間又は周波数領域で適用するものである。周波数領域における非相関化の例示的な実施形態が例えば文献３ＧＰＰＳ４－１８０９７５，ｐＣＲｔｏ２６．１１８ｏｎＤｏｌｂｙＶＲＳｔｒｅａｍａｕｄｉｏｐｒｏｆｉｌｅｃａｎｄｉｄａｔｅ（条項Ｘ．６．２．３．５）に示されている。

この「ダウンミックス」処理動作から得られた信号Ｂ’はステップＳ２ｂにおいて例えば３ＧＰＰＥＶＳコーデックを有するモノラル又はマルチモノラル方式を用いて、コアコーデック（マルチモノラル、マルチステレオ、連結の符号化）により符号化される。符号化ステップＳ２ｂからの入力音声信号及び復号ステップＳ３ａからの出力音声信号は、元のマルチチャネル音声信号よりもチャネルの個数が少ない。この場合、コアコーデックにより表される空間イメージは、符号化の前であっても既に大幅に劣化している。極端な場合、Ｗチャネルだけを符号化することにより、チャネルの個数は単一のモノラルチャネルまで減る。次いで入力信号が単一の音声チャネルに限定され、従って空間イメージが失われる。本発明による方法により、この空間イメージをなるべく元のマルチチャネル信号の空間イメージに近くなるように記述及び再構築することが可能になる。

この変型実施形態のＳ３ｂにおけるアップミックスステップの出力側で復号化されたマルチチャネル信号

が復元される。

ステップＳ４において、復号化されたマルチチャネル信号の空間イメージを表す情報が、二つの変型例（Ｓ２～Ｓ３又はＳ２ａ～Ｓ２ｂ～Ｓ３ａ～Ｓ３ｂ）により復号化されたマルチチャネル信号
から抽出される。元のイメージと同様に、この情報は、復号化されたマルチチャネル信号に対して計算された共分散行列、又は音が発せられた方向に（又は同等に、単位球の仮想点に）関連付けられたエネルギー情報であってよい。

元のマルチチャネル信号及び復号化されたマルチチャネル信号を各々表す情報をステップＳ５で用いて、空間的劣化を抑制すべく復号化されたマルチチャネル信号に施す修正の組を決定する。

上述のステップを示すべく図４、５を参照しながら二つの実施形態について以下に述べる。

図２に述べる方法は、周波数全帯域（単一帯域の場合）又は周波数サブ帯域（複数帯域の場合）により、時間領域で実行することができ、且つ本方法の動作を変えることはなく、各サブ帯域が次いで別々に処理される。本方法がサブ帯域で実行される場合、修正の組は従ってサブ帯域毎に決定されるため、単一帯域の場合と比較して計算及びデコーダに送信されるデータの観点から余分なコストが生じる。サブ帯域への分割は、一様又は非一様であってよい。例えば、３２ｋＨｚでサンプリングされた信号のスペクトルは各種の変型例に従い分割されてよい。
－各々幅が１、３、４及び８ｋＨｚ、又は２、２、４及び８ｋＨｚである４帯域
－２４個のバーク帯域（低周波で幅１００Ｈｚから最後のサブ帯域で３．５～４ｋＨｚ）
－２４個のバーク帯域は、各々６又は４個の「塊になった」帯域を形成すべく組の４又は６個の連続した帯域のブロックにグループ化される可能性がある。

異なるサンプリング周波数（例：１６又は４８ｋＨｚ）の場合を含む、（例えばＥＲＢ帯域（「等価矩形帯域幅」の略）－又は１オクターブの１／３への）他の分割も可能である。

いくつかの変型例において、本発明はまた、変換された領域、例えば短時間離散フーリエ変換（ＳＴＦＴ）の領域又は修正離散余弦変換（ＭＤＣＴ）の領域で行うことができる。

当該修正の組の決定を実行する、及び復号化された信号に対して当該修正の組を適用する複数の実施形態について以下に述べる。

アンビソニックフォーマットで音源を符号化する公知の技術をここで想起されたい。モノラル音源は、同数のアンビソニック成分を取得すべく、その信号に、発生源の方向（信号が平面波により搬送されると仮定して）に関連付けられた球面調和関数の値を乗算することにより人工的に空間化することができる。これは、方位角Θ及び仰角φで決定される位置における所望の次数の各球面調和関数の係数を計算するステップを含んでいる。
Ｂ＝Ｙ（Θ、φ）．ｓ
ここでｓは空間化するモノラル信号、Ｙ（Θ，φ）はＭ次における方向（Θ，φ）に関連付けられた球面調和関数の係数を定義する符号化ベクトルである。
符号化ベクトルの一例を、１次の場合にＳＮ３Ｄ表記規約で、及びＳＩＤ又はＦｕＭａチャネルの次数の場合に次式で与える。

いくつかの変型例において、他の正規化表記規約（例えば：ｍａｘＮ、Ｎ３Ｄ）及びチャネル次数（例：ＡＣＮ）を用いてもよく、各種の実施形態は従ってアンビソニック成分（ＦＯＡ又はＨＯＡ）の１個以上の正規化次数に用いる規約に適合されている。これは、行Ｙ（Θ，φ）の次数を修正すること、又はこれらの行に所定の定数を乗算することに等しい。

より高い次数の場合、球面調和関数の係数Ｙ（Θ，φ）はＢ．Ｒａｆａｅｌｙの著書「ＦｕｎｄａｍｅｎｔａｌｓｏｆＳｐｈｅｒｉｃａｌＡｒｒａｙＰｒｏｃｅｓｓｉｎｇ」，Ｓｐｒｉｎｇｅｒ，２０１５に見出すことができる。一般に、次数Ｍに対して、Ｋ＝（Ｍ＋１）^２個のアンビソニック信号が存在する。

同様に、スピーカーによるアンビソニックレンダリングに関するいくつかの概念をここで想起されたい。アンビソニック音響がこのように聴かれることは意図していない。スピーカーに又はヘッドフォンで没入的に聴くために、レンダリング（「レンダラ」とも呼ばれる）音響的意味での「復号化」ステップを実行しなければならない。典型的には単位半径を有する球面上に分布し、方位角及び仰角における方向（Θ_ｎ，φ_ｎ），ｎ＝０，．．．，Ｎ－１が既知であるＮ個の（仮想的又は物理的）スピーカーの場合を考察する。ここで考察する復号化は、スピーカーの信号ｓ_ｎを取得すべくアンビソニック信号Ｂに行列Ｄを適用することを含む線形演算であり、信号ｓ_ｎは、

で表す行列Ｓ＝［ｓ_０，．．．ｓ_Ｎ－１］、Ｓ＝Ｄ．Ｂに結合されてよい。

行列Ｄは

のように行ベクトルｄ_ｎに分解することができ、ｄ_ｎは、アンビソニック信号の成分を再結合してｎ番目のスピーカーで再生された信号を計算するのに用いるｎ番目のスピーカーの重みベクトルとみなしてよい。すなわちｓ_ｎ＝ｄｎ．Ｂである。

音響的意味で「復号化」する複数の方法が存在する。「モードマッチング」とも呼ばれる「基本的復号化」法として知られる方法は、仮想スピーカーの全方向に関連付けられた行列Ｅの符号化に基づいている。
Ｅ＝［Ｙ（θ_０，φ_０）．．．Ｙ（θ_Ｎ－１，φ_Ｎ－１）］

本方法によれば、行列Ｄは典型的にＥの疑似逆行列として定義される。
Ｅ：Ｄ＝ｐｉｎｖ（Ｅ）＝Ｄ^Ｔ（Ｄ．Ｄ^Ｔ）^－１

代替的に、「射影」法とも呼ばれる方法は、方向の特定の規則的分布に対して同様の結果を与え、次式で与えられる。

後者の場合、添え字ｎの各方向に対して、

であることが分かる。

本発明の関連において、このような行列は、解析及び／又は空間変換を実行すべく空間内の方向を特徴付ける信号を取得する仕方を記述する指向性ビーム形成行列として機能するであろう。

本発明の関連において、スピーカー領域からアンビソニック領域まで通過する相互変換を記述することは有用である。二つの変換の連続的な適用は、スピーカー領域に中間的修正が一切適用されなければ元のアンビソニック信号を正確に再現する筈である。相互変換は従って、Ｄの疑似逆変換の実行として定義される。
ｐｉｎｖ（Ｄ）．Ｓ＝Ｄ^Ｔ（Ｄ．Ｄ^Ｔ）^－１．Ｓ

Ｋ＝（Ｍ＋１）^２ならば、サイズＫ×Ｋの行列Ｄは特定の条件下で逆行列にすることができ、この場合、Ｂ＝Ｄ^－１．Ｓである。

「モードマッチング」法の場合、ｐｉｎｖ（Ｄ）＝Ｅであることが分かる。いくつかの変型例において、対応する逆変換ＥによりＤを用いて復号化する他の方法が用いてもよく、満たすべき唯一の条件は、（音響復号化とび音響符号化の間で一切中間処理動作が実行されない場合に）Ｄを用いる復号化とＥを用いる逆変換の組み合わせが完全な再構築を実現する必要があるということである。

このような変型例は例えば以下のように与えられる。
－正則化項がＤ^Ｔ（Ｄ．Ｄ^Ｔ＋εＩ）^－１のフォーマットである「モードマッチング」復号化、ここでεは小さい値（例：０．０１）、
－従来技術で公知の「同相」又は「最大ｒＥ」復号化、
－又はスピーカーの方向における分布が球面上で規則的でない変型例である。

図３は、図２を参照しながら述べたような修正の組を決定する方法を含む符号化及び復号化方法を実行する符号化装置及び復号化装置の第１の実施形態を示す。

本実施形態において、エンコーダは、元のマルチチャネル信号の空間イメージを表す情報を計算して、符号化により生じた空間的劣化を修正できるようにデコーダに送信する。これにより、復号化の実行中に、復号化されたアンビソニック信号の空間アーチファクトを減らすことが可能になる。

エンコーダは従って、例えばアンビソニック表現ＦＯＡ、又はＨＯＡすなわち所与の部分的アンビソニック次数までのアンビソニック成分のサブセットを有するハイブリッド表現のマルチチャネル入力信号を受信し、後者の場合は実際にはＦＯＡ又はＨＯＡの場合と同様な仕方で含まれており、欠落しているアンビソニック成分はゼロで、アンビソニック次数は所定の成分を全て含むのに必要な最小次数で与えられる。従って、一般性を失うことなく、ＦＯＡ又はＨＯＡの場合の記述について以下で考察する。

上述の実施形態において、入力信号は３２ｋＨｚでサンプリングされる。エンコーダは、好適には長さが２０ｍｓ、すなわち３２ｋＨｚで毎フレームＬ＝６４０個のサンプルであるフレームで動作する。いくつかの変型例において、他のフレーム長さ及びサンプリング周波数も可能である（例：４８ｋＨｚで１０ｍｓフレーム毎にＬ＝４８０個のサンプル）。好適な一実施形態において、符号化は（１個以上の帯域で）時間領域において実行されるが、いくつかの変型例では、本発明は例えば短時間離散フーリエ変換（ＳＴＦＴ）又は修正離散余弦変換（ＭＤＣＴ）の後で変換された領域で実行されてよい。

使用する符号化実施形態に応じて、図２に関して説明したように、チャネル（ＤＭＸ）の個数を減らすブロック３１０を実行することができ、ブロック３１１への入力は、ダウンミックスを実行した場合はブロック３１０の出力信号Ｂ’であり、さもなければ信号Ｂである。一実施形態において、ダウンミックスを適用した場合、これは例えば、１次アンビソニック入力信号のＷチャネルだけを維持し、次数＞１のアンビソニック入力信号の先頭４個のアンビソニック成分Ｗ、Ｘ、Ｙ、Ｚだけ（従って１次まで信号を切り捨てる）を維持するものである。（チャネル及び／又は行列化のサブセットの選択と合わせて上で述べたような）他の種類のダウンミックスも本発明による方法を修正せずに実行できる。

ブロック３１１は、ダウンミックスステップが実行されたならばブロック３１０の出力側でＢ’の音声信号ｂ’_ｋを、又は元のマルチチャネル信号Ｂの音声信号ｂ_ｋを符号化する。この信号は、チャネルの個数を減らす処理動作が適用されなかったならば、元のマルチチャネル信号のアンビソニック成分に対応する。

好適な一実施形態において、ブロック３１１は、割り当てが固定されているか又は可変なマルチモノラル符号化（ＣＯＤ）を使用し、コアコーデックが標準の３ＧＰＰＥＶＳコーデックである。このマルチモノラル方式において、各チャネルｂ_ｋ又はｂ’_ｋは、コーデックの１個のインスタンスにより別々に符号化される。しかし、いくつかの変型例では他の符号化方法、例えばマルチステレオ符号化又は連結マルチチャネル符号化も可能である。これは従って、当該符号化ブロック３１１の出力において、元のマルチチャネル信号から得られた符号化済み音声信号をマルチプレクサ３４０へ送られるビットストリームの形式で与える。

任意選択的に、ブロック３２０はサブ帯域への分割を実行する。いくつかの変型例において、このサブ帯域への分割は、ブロック３１０又は３１１で実行された同等の処理動作を再使用してもよく、ここでブロック３２０の分割が機能する。

好適な一実施形態において、元のマルチチャネル音声信号のチャネルは、各々の幅が１ｋＨｚ、３ｋＨｚ、４ｋＨｚ、８ｋＨｚである４個の周波数サブ帯域に分割される（これは周波数を０～１０００、１０００～４０００、４０００～８０００及び８０００～１６０００Ｈｚに分割することに等しい）。この分割は、短時間離散フーリエ変換（ＳＴＦＴ）、（周波数マスクの適用による）フーリエ領域における帯域通過フィルタリング、及び重なりが追加された逆変換として実行されてよい。この場合、サブ帯域は引き続き同じ元の周波数でサンプリングされ、本発明による処理動作が時間領域で適用される。いくつかの変型例において、極めて重要なサンプリングにフィルタバンクを用いることができる。サブ帯域への分割動作は一般に、実装されるフィルタバンクの種類に依存する処理遅延を伴う点に注意されたい。本発明によれば、空間イメージ情報が修正済み信号と時間的に同期するように、符号化／復号化の前後、及び／又は空間イメージ情報の抽出前に時間的整列を適用してよい。

いくつかの変型例において、全帯域処理を実行してもよく、又は上で説明したように、サブ帯域への分割は異なっていてよい。

他の変型例では元のマルチチャネル音声信号の変換から得られた信号を直接使用し、本発明は、変換された領域のサブ帯域への分割と共に、変換された領域に適用する。

以下の記述において、上述の符号化及び復号化の各種のステップは、記述を簡潔にすべく、単一の周波数帯域を有する（実又は複素）時間又は周波数領域における処理動作を伴うように記述されている。

また、任意選択的に、各サブ帯域において、例えばカットオフ周波数が好適には２０又は５０Ｈｚ（いくつかの変型例では５０Ｈｚ）に設定された２次楕円ＩＩＲフィルタの形式の（典型的には２０又は５０Ｈｚでのカットオフ周波数による）高域通過フィルタリングを実行することも可能である。この前処理により、符号化実行中に後続の共分散推定に対する潜在的バイアスが回避される。この前処理が無ければ、後述するブロック３９０で実行される修正は、全帯域処理を実行中に低周波を増幅しがちである。

ブロック３２１は元のマルチチャネル信号の空間イメージを表す情報（Ｉｎｆ．Ｂ）を決定する。

一実施形態において、この情報は、音が発せられた方向に関連付けられた（単位球面上に分布する仮想スピーカーの方向に関連付けられた）エネルギー情報である。

この目的のため、単位半径を有する仮想３Ｄ球体が定義され、この３Ｄ球体は、ｎ番目のスピーカーの方向（Θ_ｎ，φ_ｎ）により球面座標で位置が定義されるＮ個の点（「点」仮想スピーカー）により離散化される。スピーカーは典型的には球面上に（準）一様に配置されている。仮想スピーカーの個数Ｎは少なくともＮ＝Ｋ個の点を有する離散化として決定され、Ｍは信号のアンビソニック次数且つＫ＝（Ｍ＋１）^２、すなわちＮ≧Ｋである。例えば「レベデフ」求積法を用いて、参考文献：Ｖ．Ｉ．Ｌｅｂｅｄｅｖ，ａｎｄＤ．Ｎ．Ｌａｉｋｏｖ“Ａｑｕａｄｒａｔｕｒｅｆｏｒｍｕｌａｆｏｒｔｈｅｓｐｈｅｒｅｏｆｔｈｅ１３１ｓｔａｌｇｅｂｒａｉｃｏｒｄｅｒｏｆａｃｃｕｒａｃｙ”，ＤｏｋｌａｄｙＭａｔｈｅｍａｔｉｃｓ，ｖｏｌ．５９，ｎｏ．３，１９９９，ｐｐ．４７７－４８１、又はＰｉｅｒｒｅＬｅｃｏｍｔｅ，Ｐｈｉｌｉｐｐｅ－ＡｕｂｅｒｔＧＡＵｔｈｉｅｒ，ＳｈｒｉｓｔｏｐｈｅＬａｎｇｒｅｎｎｅ，ＡｌｅｘａｎｄｒｅＧａｒｃｉａａｎｄＡｌａｉｎＢｅｒｒｙ，ＯｎｔｈｅｕｓｅｏｆａＬｅｂｅｄｅｖｇｒｉｄｆｏｒＡｍｂｉｓｏｎｉｃｓ，ＡＥＳＣｏｎｖｅｎｔｉｏｎ１３９，ＮｅｗＹｏｒｋ，２０１５に従い、この離散化を実行することができる。

いくつかの変型例において、参考文献：Ｊ．ＦｌｉｅｇｅａｎｄＵ．Ｍａｉｅｒ“Ａｔｗｏ－ｓｔａｇｅａｐｐｒｏａｃｈｆｏｒｃｏｍｐｕｔｉｎｇｃｕｂａｔｕｒｅｆｏｒｍｕｌａｅｆｏｒｔｈｅｓｐｈｅｒｅ”，ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ，ＤｏｒｔｍｕｎｄＵｎｉｖｅｒｓｉｔｙ，１９９９に記述されているような、少なくともＮ＝Ｋ個の点（Ｎ≧Ｋ）を有するＦｌｉｅｇｅ離散化、又はＲ．Ｈ．ＨａｒｄｉｎａｎｄＮ．Ｊ．Ａ．Ｓｌｏａｎｅによる論文“Ｍｃｌａｒｅｎ’ｓＩｍｐｒｏｖｅｄＳｎｕｂＣｕｂｅａｎｄＯｔｈｅｒＮｅｗＳｐｈｅｒｉｃａｌＤｅｓｉｇｎｓｉｎＴｈｒｅｅＤｉｍｅｎｓｉｏｎｓ”，ＤｉｓｃｒｅｔｅａｎｄＣｏｍｐｕｔａｔｉｏｎａｌＧｅｏｍｅｔｒｙ，１５（１９９６），ｐｐ．４２９－４４１に記述されているような「球面ｔ設計」の点を用いる離散化等、他の離散化を用いてよい。

上の離散化から、マルチチャネル信号の空間イメージを決定することができる。一つの可能な方法は例えばＳＲＰ（「Ｓｔｅｅｒｅｄ－ＲｅｓｐｏｎｓｅＰｏｗｅｒ（制御された応答出力）」の略）法である。実際、この方法は、方位角及び仰角に関して定義される各種の方向から来る短期エネルギーを計算するものである。この目的のため、上述のように、Ｎ個のスピーカーにおけるレンダリングと同様に、アンビソニック成分の重み行列が計算され、次いで成分の寄与度を合算してＮ個の音声ビームの組（又は「ビーム形成器」）を生成すべく当該行列がマルチチャネル信号に適用する。

ｎ番目のスピーカーの方向（Θ_ｎ，φ_ｎ）への音響ビームから信号がｓ_ｎ＝ｄ_ｎ．Ｂで与えられ、ここでｄ_ｎは所与の方向に対する音響ビーム形成係数与える重み（行）ベクトル、Ｂは長さＬの時間幅にわたり、Ｋ個の成分を有するアンビソニック信号（Ｂフォーマット）を表すサイズＫ×Ｌの行列である。

Ｎ個の音響ビームからの信号の組から式Ｓ＝Ｄ．Ｂが導かれる。
ここで、

及びＳは、長さＬの時間幅にわたるＮ個の仮想スピーカーの信号を表すサイズＮ×Ｌの行列である。

各方向（Θ_ｎ，φ_ｎ）での長さＬの時間区間にわたる短期エネルギーは次式で表され、
σ_ｎ ^２＝ｓ_ｎ．ｓ_ｎ ^Ｔ＝（ｄ_ｎ．Ｂ）．（ｄ_ｎ．Ｂ）^Ｔ＝ｄ_ｎ．Ｂ．Ｂ^Ｔ．ｄ_ｎ ^Ｔ＝ｄ_ｎ．Ｃ．ｄ_ｎ ^Ｔ
ここでＣ＝Ｂ．Ｂ^Ｔ（実数の場合）又はＲｅ（Ｂ．Ｂ^Ｈ）（複素数の場合）はＢの共分散行列である。

各項σ_ｎ ^２＝ｓ_ｎ．ｓ_ｎ ^Ｔは仮想スピーカーによる３Ｄ球面の離散化に対応する全ての方向（Θ_ｎ，φ_ｎ）についてこのように計算することができる。

空間イメージΣは次式で与えられる。
Σ＝［σ_０ ^２，…，σ_Ｎ－１ ^２］
ＳＲＰ法以外に空間イメージΣを計算する変型例を用いてよい。
－値ｄ_ｎは使用する音響ビーム形成の種類（総遅延、ＭＶＤＲ、ＬＣＭＶ等）に応じて変動し得る。本発明はまた、行列Ｄ及び空間イメージ
Σ＝［σ_０ ^２，…，σ_Ｎ－１ ^２］
を計算するこれらの変型例にも適用できる。
－ＭＵＳＩＣ（複数信号分類）法もまた、部分空間方式にとり空間イメージを計算する別の仕方を提供する。

本発明はまた、空間イメージ
Σ＝［σ_０ ^２，…，σ_Ｎ－１ ^２］
を計算する当該変型例に適用でき、
これは共分散行列を対角化することにより計算され、方向（Θ_ｎ，φ_ｎ）に対して評価されたＭＵＳＩＣ疑似スペクトルに対応している。
－空間イメージは、例えばＳ．Ｔｅｒｖｏによる論文「Ｄｉｒｅｃｔｉｏｎｅｓｔｉｍａｔｉｏｎｂａｓｅｄｏｎｓｏｕｎｄｉｎｔｅｎｓｉｔｙｖｅｃｔｏｒｓ」，Ｐｒｏｃ．ＥＵＳＩＰＣＯ，２００９における（１次）強度ベクトルのヒストグラム、又は疑似強度ベクトルへの一般化から計算することができる。この場合、（所定の方向（Θ_ｎ，φ_ｎ）における到着値の方向の生起回数を値とする）ヒストグラムが所定の方向におけるエネルギーの組と解釈される。

ブロック３３０は次いで、例えば係数毎の１６ビットへのスカラー量子化により（１６ビットで切り捨てられた浮動小数点表現を直接用いることにより）このように決定された空間イメージを量子化する。いくつかの変型例において、他のスカラー又はベクトル量子化方式も可能である。

別の実施形態において、元のマルチチャネル信号の空間イメージを表す情報は、入力チャネルＢの（サブ帯域の）共分散行列である。この行列は、
（実数の場合）正規化係数の範囲内でＣ＝Ｂ．Ｂ^Ｔとして計算される。

本発明が複素数値変換領域で実行される場合、この共分散は、
正規化係数の範囲内でＣ＝Ｒｅ（Ｂ．Ｂ^Ｈ）として計算される。

いくつかの変型例において、共分散行列を時間的に平滑化する演算を用いてよい。時間領域内のマルチチャネル信号の場合、共分散を再帰的に（１サンプルずつ）推定することができる。

共分散行列Ｃ（サイズＫ×Ｋの）が定義により対称であるため、下側又は上側の三角行列の一方だけが、（Ｑ）Ｋ（Ｋ＋１）／２個の係数を符号化する量子化ブロック３３０に送信され、Ｋはアンビソニック成分の個数である。

このブロック３３０は、これらの係数を（１６ビットに切り捨てられた浮動小数点表現を直接用いることにより）例えば係数毎に１６ビットのスカラー量子化により量子化する。いくつかの変型例において、共分散行列のスカラー又はベクトル量子化の他の方法を実行することができる。例えば、共分散行列の最大値（最大分散）を計算し、次いでより少ない個数のビット（例：８ビット）に対数ステップでスカラー量子化を使用し、共分散行列の上側（又は下側）三角行列の値をその最大値により正規化することができる。

いくつかの変型例において、共分散行列Ｃは、Ｃ＋εＩの形式で量子化される前に正則化することができる。

量子化された値はマルチプレクサ３４０へ送られる。

本実施形態において、デコーダは、デマルチプレクサブロック３５０において、元のマルチチャネル信号から得られた符号化済み音声信号及び元のマルチチャネル信号の空間イメージを表す情報を含むビットストリームを受信する。

ブロック３６０は、共分散行列又は元の信号の空間イメージを表す他の情報を復号化（Ｑ^－１）する。ブロック３７０はビットストリームにより表される音声信号を復号化（ＤＥＣ）する。

ダウンミックス及びアップミックスステップを実行しない符号化及び復号化の一実施形態において、復号化されたマルチチャネル信号

は、復号化ブロック３７０の出力側で取得される。

ダウンミックスステップを符号化に用いる実施形態において、ブロック３７０で実行される復号化により、アップミックスブロック３７１の入力へ送られた復号化された音声信号

を取得することが可能になる。

ブロック３７１は従って、チャネルの個数を増やす任意選択的ステップ（ＵＰＭＩＸ）を実行する。本ステップの一実施形態において、モノラル信号

のチャネルに対して、各種の空間室内インパルス応答（ＳＲＩＲ）を用いて信号

を畳み込むものである。これらのＳＲＩＲは、元のアンビソニック次数Ｂで定義される。例えば信号

の各種のチャネルに全通過非相関化フィルタを適用する他の非相関化方法も可能である。

ブロック３７２は、時間領域又は変換済み領域のいずれかにおけるサブ帯域を取得すべくサブ帯域に分割する任意選択的ステップ（ＳＢ）を実行する。逆変換ステップは、ブロック３９１において、マルチチャネル信号を出力側で復元すべくサブ帯域を集約する。

ブロック３７５は、（元のマルチチャネル信号に関して）ブロック３２１で記述したのと同様に、復号化されたマルチチャネル信号の空間イメージを表す（Ｉｎｆ
）情報を決定し、今回は復号化実施形態に応じてブロック３７１又はブロック３７０の出力側で取得された復号化済みマルチチャネル信号
に適用する。

ブロック３２１で記述したのと同様に、一実施形態において、この情報は音が発せられた方向に関連付けられた（単位球面上に分布する仮想スピーカーの方向に関連付けられた）エネルギー情報である。上述のように、ＳＲＰ方法（等）を用いて、復号化されたマルチチャネル信号の空間イメージを決定することができる。

別の実施形態において、この情報は復号化されたマルチチャネル信号のチャネルの共分散行列である。

この共分散行列は従って以下のように取得される。すなわち正規化係数の範囲内で

（実数の場合）又は、

（複素数の場合）。

いくつかの変型例において、共分散行列を時間的に平滑化する演算を用いてよい。時間領域におけるマルチチャネル信号の場合、共分散は再帰的に（１サンプルずつ）推定することができる。

元のマルチチャネル信号（Ｉｎｆ．Ｂ）及び復号化されたマルチチャネル信号（Ｉｎｆ．
）の空間イメージを各々表す情報、例えば共分散行列Ｃ及び
から、ブロック３８０は、図２に関して記述した修正の組を決定する（Ｄｅｔ．Ｃｏｒｒ）方法を実行する。

この判定の二つの特定の実施形態について図４、５を参照しながら述べる。

図４の実施形態において、仮想スピーカーにおける（明示的又は非明示的）レンダリングを用いる方法を使用し、図５の実施形態において、コレスキー因数分解に基づいて行う方法が用いられる。

図３のブロック３９０は、修正された復号化済みマルチチャネル信号を取得すべくブロック３８０で決定された修正の組を用いて復号化されたマルチチャネル信号の修正（ＣＯＲＲ）を実行する。

図４は従って、修正の組を決定するステップの一実施形態を示す。本実施形態は、仮想スピーカーにおけるレンダリングを用いて実行される。

本実施形態において、元のマルチチャネル信号及び復号化されたマルチチャネル信号の空間イメージを各々表す情報が各々の共分散行列Ｃ及び
であることを最初に考慮する。

この場合、ブロック４２０、４２１は各々元のマルチチャネル信号及び復号化されたマルチチャネル信号の空間イメージを決定する。

この目的のため、上述のように、ｎ番目のスピーカーの方向（Θ_ｎ，φ_ｎ）により球面座標における方向が定義される単位半径を有する仮想３Ｄ球面がＮ個の点（「点」仮想スピーカー）により離散化される。

複数の離散化方法が上で定義された。

上述の離散化からマルチチャネル信号の空間イメージを決定することができる。上述のように、一つの考え得る方法は、ＳＲＰ方法（等）であり、方位角及び仰角に関して定義される各種の方向から来る短期エネルギーを計算するものである。

本方法又は上で列挙した他の種類の方法を用いて、４２０における元のマルチチャネル信号（ＩＭＧＢ）の、及び４２１における復号化されたマルチチャネル信号（ＩＭＧ
）の空間イメージΣ及び
（ＩＳＢ及びＩＳ
）を各々決定することができる。

デコーダが３６０で受信して復号化した元の信号の空間イメージを表す情報（ＩｎｆＢ）が空間イメージ自体である、すなわち音が発せられた方向に関連付けられた（単位球面上に分布する仮想スピーカーの方向に関連付けられた）エネルギー情報（又は正値）である場合、もはやこれを４２０で計算する必要は無い。この空間イメージは次いで後述するブロック４３０で直接使用される。

同様に、復号化されたマルチチャネル信号（Ｉｎｆ
）の空間イメージを表す情報の３７５における決定が、復号化されたマルチチャネル信号の空間イメージ自体である場合、もはやこれを４２１で計算する必要は無い。この空間イメージは次いで後述するブロック４３０で直接使用される。

空間イメージΣ及び
から、ブロック４３０は、（Θ_ｎ，φ_ｎ）で与えられる各点に対して、元の信号のエネルギーσ_ｎ ^２＝Σ_ｎと復号化された信号のエネルギー
のエネルギー比を計算する（比）する。従って利得の組ｇ_ｎが次式を用いて得られる。

エネルギー比は方向（Θ_ｎ，φ_ｎ）及び周波数帯域に依存し、極めて大きい場合がある。ブロック４４０により、利得ｇ_ｎがとり得る最大値を任意選択的に制限（制限ｇ_ｎ）することが可能になる。σ_ｎ ^２及び

と表記する正値が、より一般的にＭＵＳＩＣ疑似スペクトルから得られた値又は離散化された方向（Θ_ｎ，φ_ｎ）への到着方向のヒストグラムから得られた値に対応し得ることがここで想起される。

可能な一実施形態において、ｇ_ｎの値に閾値が適用される。当該閾値よりも大きい任意の値は強制的に当該閾値に等しくされる。当該閾値は、例えば幅±６ｄＢの外側の利得値が±６ｄＢで飽和するように６ｄＢに設定されてよい。

この利得ｇ_ｎの組は従って、復号化されたマルチチャネル信号に施す修正の組を構成する。

この利得の組は、図３の修正ブロック３９０の入力側で受信される。

復号化されたマルチチャネル信号に直接適用可能な修正行列は、例えば形式Ｇ＝Ｅ．ｄｉａｇ（［ｇ_０．．．ｇ_Ｎ－１］）．Ｄで定義でき、ここでＤ及びＥは上で定義された音響復号化及び符号化行列である。この行列Ｇが、修正済み出力アンビソニック信号（

ｃｏｒｒ）を取得すべく復号化されたマルチチャネル信号

に適用する。

修正のため実行されるステップの分解についてここで述べる。ブロック３９０は、対応する所定の利得ｇ_ｎを各仮想スピーカーに適用する。この利得を適用することにより、当該スピーカーで元の信号と同じエネルギーを得ることが可能になる。

各スピーカーにおける復号化された信号のレンダリングはこのように修正される。

音響符号化ステップ、例えば行列Ｅを用いるアンビソニック符号化が次いで、マルチチャネル信号の成分、例えばアンビソニック成分を取得すべく実行される。これらのアンビソニック成分は、修正された出力マルチチャネル信号（

Ｃｏｒｒ）を取得すべく最終的に合算される。従って、仮想スピーカーに関連付けられたチャネルを明示的に計算し、これに対して利得を適用し、次いで処理済みチャネルを再結合する、又は等価な仕方で、修正対象の信号に行列Ｇを適用することができる。

いくつかの変型例において、符号化され、次いで復号化されたマルチチャネル信号の共分散行列

から、及び修正行列Ｇからブロック３９０で修正された信号の共分散行列を次式のように計算することが可能である。

全方向性成分（Ｗチャネル）に対応する、行列Ｒの第１の係数Ｒ_００の値だけが、正規化係数としてＲに適用されて、修正行列Ｇに起因する全体的な利得の増加を避けるべく保持される。

但し

ここで

は復号化されたマルチチャネル信号の共分散行列の第１の係数に対応する。

いくつかの変型例において、Ｒ_００（従ってｇ_ｎｏｒｍ）を決定するために行列要素のサブセットだけを計算すれば充分であるため、正規化係数ｇ_ｎｏｒｍは行列Ｒ全体を計算せずに決定することができる。

このように得られた行列Ｇ又はＧ_ｎｏｒｍは、復号化されたマルチチャネル信号に施す修正の組に対応する。

ここで図５に、図３のブロック３８０で行われる修正の組を決定する方法の別の実施形態を示す。

本実施形態において、元のマルチチャネル信号及び復号化されたマルチチャネル信号の空間イメージを各々表す情報が各々共分散行列Ｃ及び
であると考えられる。

本実施形態において、マルチチャネル信号の空間イメージを修正すべく仮想スピーカー向けにレンダリングを実行しようとしない。特に、アンビソニック信号に対して、空間イメージの修正をアンビソニック領域内で直接計算しようとする。

この目的のため、復号化された信号
に変換行列Ｔを適用した後で修正された空間イメージが元の信号Ｂの空間イメージと同じであるように、復号化された信号に適用する変換行列Ｔが決定される。

求めるものは従って、次式

を満たす行列Ｔであり、
ここでＣ＝Ｂ．Ｂ^ＴはＢの共分散行列であり、

は現行フレームでの

の共分散行列である。

本実施形態において、コレスキー因数分解として知られる因数分解を用いて上の方程式を解く。

サイズｎ×ｎの行列Ａを与えられたならば、コレスキー因数分解は、（下側又は上側）三角行列ＬをＡ＝ＬＬ^Ｔ（実数の場合）、Ａ＝ＬＬ^Ｈ（複素数の場合）であるように決定するものである。分解が可能であるためには、行列Ａは、正定値対称行列（実数の場合）又は正定値エルミート行列（複素数の場合）でなければならず、実数の場合、Ｌの対角係数は厳密に正である。

実数の場合、サイズｎ×ｎの行列Ｍが正定値対称であると言えるのは、対称（Ｍ^Ｔ＝Ｍ）且つ正定値（

の任意の値に対してｘ^ＴＭｘ＞０）の場合である。

対称行列Ｍに対して、当該行列が正定値であることが検証できるのは全ての固有値が厳密に正（λ_ｉ＞０）の場合である。固有値が正（λ_ｉ≧０）の場合、行列は正半定値であると言われる。

サイズｎ×ｎの行列Ｍが正定値対称エルミートであると言われるのは、エルミート（Ｍ^Ｈ＝Ｍ）且つ正定値（

の任意の値に対してｚ^ＨＭｚが実数＞０）である場合である。

コレスキー因数分解は例えば、Ａｘ＝ｂ型の一次方程式系の解を見つけるのに用いられる。例えば、複素数の場合、コレスキー因数分解を用いてＡをＬＬ^Ｈに変換してＬｙ＝ｂを解き、次いでＬ^Ｈｘ＝ｙを解くことが可能である。

同様の仕方で、コレスキー因数分解はＡ＝Ｕ^ＴＵ（実数の場合）及びＡ＝Ｕ^ＨＵ（複素数の場合）と書くことができ、Ｕは上側三角行列である。

ここで述べる実施形態において、一般性を失うことなく、三角行列Ｌによるコレスキー因数分解の場合だけを扱う。

コレスキー因数分解は従って、行列Ｃが正定値対称であるとの条件で行列Ｃ＝Ｌ．Ｌ^Ｔを２個の三角行列に分解することを可能にする。これにより次式が得られる。

識別子を用いて

を見つける。

すなわち

となる。

共分散行列Ｃ及び

が一般に正半定値行列であるため、コレスキー因数分解をこのように用いることができない。

ここで注意すべきは、行列Ｌ及び

は下側（又は上側）三角行列であり、変換行列Ｔもまた下側（又は上側）三角行列である。

ブロック５１０は従って、共分散行列Ｃを強制的に正定値にする。この目的のため、行列が実際に正定値であることを保証すべく行列の対角係数に値εを加算する（Ｆａｃｔ．Ｃは因数分解のためのＣ）。すなわちＣ＝Ｃ＋εＩ、ここでεは例えば１０^－９に設定された小さい値であり、Ｉは単位行列である。

同様に、ブロック５２０は、行列を

の形式に修正することにより、共分散行列

を強制的に正定値にし、ここでεは例えば１０^－９に設定された小さい値であり、Ｉは単位行列である。

二つの共分散行列Ｃ及び

が正定値であるとの条件を満たしたならば、ブロック５３０は、関連付けられたコレスキー因数分解を計算して、以下の最適な変換行列Ｔを見つける（Ｄｅｔ．Ｔ）。

いくつかの変型例において、代替的な解決策は固有値への分解により実行されてよい。

固有値への分解（「固有値分解」）は、サイズｎ×ｎの実又は複素行列Ａを以下の形式で因数分解するものである。
Ａ＝ＱΛＱ^－１
ここのΛは固有値λ_ｉを含む対角行列であり、Ｑは固有ベクトルの行列である。

行列が実数の場合、次式が成り立つ。
Ａ＝ＱΛＱ^Ｔ

複素数の場合、分解はＡ＝ＱΛＱ^Ｈと書かれる。

この場合、次に求めるのは

のような行列Ｔである。
ここでＣ＝ＱΛＱ^ｔ且つ

すなわち次式が成り立つ。

識別子を用いて次式を見つける。

すなわち次式が成り立つ。

フレーム間の解決策の安定性は典型的に、コレスキー因数分解方式を用いる場合ほどは良くない。この不安定性は、固有値への分解の実行中に潜在的に拡大し得る更なる計算上の近似により悪化する。

いくつかの変型例において、対角行列は次式で与えられ、

ここで

は

の形式で１要素ずつ計算されてよく、ｓｇｎ（．）は符号関数（正ならば＋１、さもなければ－１）であり、εはゼロによる除算を避けるべく正則化項（例：ε＝１０^－９）である。

本実施形態において、マルチモノラルＥＶＳ符号化のようにエンコーダにより大幅に悪化し得る特に高周波の観点から、復号化されたアンビソニック信号と修正されたアンビソニック信号との間のエネルギーの相対差が極めて大きい可能性がある。特定の周波数域を過度に増幅することを避けるべく正則化項を追加してよい。ブロック６４０は任意選択的に当該修正を正規化する（Ｎｏｒｍ．Ｔ）役割を担う。

好適な実施形態において、正規化係数は従って周波数域を増幅しないように計算される。

符号化されてから復号化されたマルチチャネル信号の共分散行列

から、及び変換行列Ｔから、修正された信号の共分散行列を次式のように計算することができる。

全方向性成分（Ｗチャネル）に対応する、行列Ｒの第１の係数Ｒ_００の値だけが、正規化係数としてＴに適用すべく、及び修正行列Ｔに起因する全利得の増加を避けるべく保持されている。

但し

ここで

は復号化されたマルチチャネル信号の第１の共分散行列の係数に対応する。

いくつかの変型例において、Ｒ_００（従って、ｇ_ｎｏｒｍ）を決定するのに行列要素のサブセットだけを計算するので充分であるため、正規化係数ｇ_ｎｏｒｍは行列Ｒ全体を計算せずに決定することができる。

このように得られたＴ又はＴ_ｎｏｒｍ行列は、復号化されたマルチチャネル信号に施す修正の組に対応する。

本実施形態により、図３のブロック３９０は、修正された出力アンビソニック信号（

ｃｏｒｒ）を取得すべく、アンビソニック領域において、復号化されたマルチチャネル信号に変換行列Ｔ又はＴ_ｎｏｒｍを直接適用することにより復号化されたマルチチャネル信号を修正するステップを実行する。

修正の組を決定する方法がエンコーダで実行される、本発明によるエンコーダ／デコーダの第２の実施形態について以下に述べる。図６に本実施形態を記述している。同図は従って、図２に関して上で述べたように修正の組を決定する方法を含む符号化及び復号化方法を実行する符号化装置及び復号化装置の第２の実施形態を示している。

本実施形態において、修正の組（例；方向に関連付けられた利得）を決定する方法はエンコーダが実行し、次いで当該修正の組をデコーダへ送信する。デコーダは、復号化されたマルチチャネル信号に適用すべく当該修正の組を復号化する。本実施形態は従って、エンコーダでローカルな復号化を実行することを含み、このローカルな復号化はブロック６１２～６１３により表される。

ブロック６１０、６１１、６２０及び６２１は各々、図３を参照しながら述べたブロック３１０、３１１、３２０及び３２１と同一である。

元のマルチチャネル信号の空間イメージを表す情報（Ｉｎｆ．Ｂ）は従ってブロック６２１の出力側で取得される。

ブロック６１２は、ブロック６１１で実行された符号化と同様にローカルな復号化（ＤＥＣ＿ｌｏｃ）を実行する。

このローカルな復号化はブロック６１１からのビットストリームからの完全な復号化を含んでいても、又は、好適にはブロック６１１に一体化されていてもよい。

ダウンミックス及びアップミックスステップを実行しない符号化及び復号化の一実施形態において、復号化されたマルチチャネル信号
がローカル復号化ブロック６１２の出力側で取得される。

６１０でのダウンミックスステップが符号化に用いられた実施形態において、ブロック６１２で実行するローカルな復号化により、アップミックスブロック６１３の入力へ送られる復号化済み音声信号
の取得が可能になる。

ブロック６１３はこのようにチャネルの個数を増やす任意選択的ステップ（ＵＰＭＩＸ）を実行する。本ステップの一実施形態において、これはモノラル信号

を畳み込むものである。これらのＳＲＩＲはＢの元のアンビソニック次数で定義される。例えば信号

ブロック６１４は、時間領域又は変換済み領域のいずれかにおけるサブ帯域を取得すべくサブ帯域に分割する任意選択的ステップ（ＳＢ）を実行する。

ブロック６１５は、復号化されたマルチチャネル信号の空間イメージを表す（Ｉｎｆ
）情報を、ローカルな復号化の実施形態に応じて今回はブロック６１２又はブロック６１３の出力側で取得された復号化済みマルチチャネル信号
に適用された（元のマルチチャネル信号の場合に）ブロック６２１、３２１に関して記述されたのと同様の仕方で決定する。このブロック６１５は、図３のブロック３７５に等しい。

ブロック６２１、３２１と同様の仕方で、一実施形態において、この情報は、音が発せられた方向に関連付けられた（単位球面上に分布する仮想スピーカーの方向に関連付けられた）エネルギー情報である。上述のように、（上の変型例のような）ＳＲＰ方法等を用いて、復号化されたマルチチャネル信号の空間イメージを決定することができる。

この共分散行列は次いで次式のように得られる。すなわち（実数の場合）正規化係数の範囲内で

又は正規化係数の範囲内で（複素数の場合）

元のマルチチャネル信号（Ｉｎｆ．Ｂ）及び復号化されたマルチチャネル信号（Ｉｎｆ．
）の空間イメージを各々表す情報から、例えば共分散行列Ｃ及び
、ブロック６８０が、図２を参照しながら述べた修正の組を決定する（Ｄｅｔ．Ｃｏｒｒ）方法を実行する。

この判定の二つの特定の実施形態が可能であり、図４、５を参照しながら記述してきた。

図４の実施形態において、スピーカーにおけるレンダリングを用いる方法を使用し、図５の実施形態において、アンビソニック領域で直接実行され、且つコレスキー因数分解又は固有値への分解に基づく方法を使用している。

従って、図４の実施形態が６３０で適用されたならば、決定された修正の組は、仮想スピーカーの組により定義される方向の組（Θ_ｎ，φ_ｎ）に対する利得の組ｇ_ｎである。この利得の組は、図４を参照しながら述べたように、修正行列Ｇの形式で決定することができる。この利得の組（ｃｏｒｒ．）は次いで６４０で符号化される。この利得の組の符号化は修正行列Ｇ又はＧ_ｎｏｒｍを符号化するものであってよい。

サイズＫ×Ｋの行列Ｇが対称であり、従って本発明によれば、Ｇ又はＧ_ｎｏｒｍの下側又は上側三角行列だけ、すなわちＫ×（Ｋ＋１）／２個の値を符号化することができる点に注意されたい。一般に、対角項の値は正である。一実施形態において、行列Ｇ又はＧ_ｎｏｒｍは、値が非対角項であるか否かに応じてスカラー量子化を用いて（符号ビットの有無に依らず）符号化される。Ｇ_ｎｏｒｍを用いる複数の変型例において、Ｇ_ｎｏｒｍの対角項の第１の値（全方向性成分に対応する）は常に１であるため、その符号化及び送信を省略することができる。例えばＫ＝４個のチャネルを有する１次アンビソニックの場合、これはＫ×（Ｋ＋１）／２＝１０個の値ではなく９個の値だけを送信することに等しい。いくつかの変型例において、他のスカラー又はベクトル量子化方法（予測の有無に依らず）を用いてもよい。

図５の実施形態が６３０で適用されたならば、決定された修正の組は変換行列Ｔ又はＴ_ｎｏｒｍであり、次いで６４０で符号化される。

サイズＫ×Ｋの行列Ｔがコレスキー因数分解を用いる変型例では三角行列であり、固有値分解を用いる変型例では対称行列である点に注意されたい。従って、本発明によれば、Ｔ又はＴ_ｎｏｒｍの下側又は上側三角行列だけ、すなわちＫ×（Ｋ＋１）／２個の値を符号化することができる。

一般に、対角項の値は正である。一実施形態において、行列Ｔ又はＴ_ｎｏｒｍは、値が非対角項か否かに応じてスカラー量子化（符号ビットの有無に依らず）を用いて符号化される。いくつかの変型例において、他のスカラー又はベクトル量子化方法（予測の有無に依らず）を用いてよい。Ｔ_ｎｏｒｍを用いる変型例において、Ｔ_ｎｏｒｍの対角項の第１の値（全方向性成分に対応する）は常に１であるため、その符号化及び送信を省略することができる。例えば、Ｋ＝４個のチャネルを有する１次アンビソニックの場合、これはＫ×（Ｋ＋１）／２＝１０個の値ではなく９個の値だけを送信することに等しい。

ブロック６４０は従って、決定された修正の組を符号化して、符号化された修正の組をマルチプレクサ６５０に送る。

デコーダは、デマルチプレクサブロック６６０で、元のマルチチャネル信号から得られた符号化済み音声信号、及び復号化されたマルチチャネル信号に適用する符号化された修正の組を含むビットストリームを受信する。

ブロック６７０は、符号化された修正の組を復号化（Ｑ^－１）する。ブロック６８０は、ストリームで受信した符号化済み音声信号を復号化（ＤＥＣ）する。

が復号化ブロック６８０の出力側で取得される。

符号化にダウンミックスステップを用いる実施形態において、ブロック６８０で行う復号化により、アップミックスブロック６８１の入力へ送られる復号化された音声信号

を取得可能にする。

ブロック６８１はこのように、チャネルの個数を増やす任意選択的なステップ（ＵＰＭＩＸ）を実行する。本ステップの一実施形態において、モノラル信号

のチャネルに対して、各種の空間室内インパルス応答（ＳＲＩＲ）を用いる信号

の畳み込みである。これらのＳＲＩＲはＢの元のアンビソニック次数で定義される、例えば信号

ブロック６８２は、時間領域又は変換された領域内のいずれかのサブ帯域を取得すべくサブ帯域に分割する任意選択的なステップ（ＳＢ）を実行し、ブロック６９１は出力マルチチャネル信号を復元すべくサブ帯域をグループ化する。

ブロック６９０は、修正された復号化済みマルチチャネル信号修正（

Ｃｏｒｒ）を取得すべく、ブロック６７０で復号化された修正の組を用いて、復号化されたマルチチャネル信号の修正（ＣＯＲＲ）を実行する。

修正の組が図４を参照しながら述べたような利得の組である一実施形態において、この利得の組は修正ブロック６９０の入力側で受信される。利得の組が、例えばＧ＝Ｅ．ｄｉａｇ（［ｇ_０．．．ｇ_Ｎ－１］）．Ｄ又はＧ_ｎｏｒｍ＝ｇ_ｎｏｒｍ．Ｇの形式で定義された復号化されたマルチチャネル信号に直接適用できる修正行列の形式であるならば、この行列Ｇ又はＧ_ｎｏｒｍは次いで、修正された出力アンビソニック信号（

Ｃｏｒｒ）を取得すべく復号化されたマルチチャネル信号

に適用される。

ブロック６９０が利得の組ｇ_ｎを受信したならば、ブロック６９０は対応する利得ｇ_ｎを各仮想スピーカーに適用する。この利得を適用することにより、当該スピーカーで元の信号と同じエネルギーを取得することが可能になる。

各スピーカー向けの復号化された信号のレンダリングはこのように修正される。

音響符号化ステップ、例えばアンビソニック符号化が次いで、マルチチャネル信号の成分、例えばアンビソニック成分を取得すべく実行される。これらのアンビソニック成分は最終的に、修正された出力マルチチャネル信号（

Ｃｏｒｒ）を取得すべく合算される。

図５を参照しながら述べたように修正の組が変換行列である一実施形態において、６７０で復号化された変換行列Ｔは修正ブロック６９０の入力側で受信される。

本実施形態において、ブロック６９０は、修正された出力アンビソニック信号（

ｃｏｒｒ）を取得すべく、変換行列Ｔ又はＴ_ｎｏｒｍを復号化されたマルチチャネル信号にアンビソニック領域で直接適用することにより、復号化済みマルチチャネル信号を修正するステップを実行する。

本発明がアンビソニックの場合に適用できるにせよ、いくつかの変型例では、上述の各種の実施形態により実行される方法を適用すべく、他のフォーマット（マルチチャネル、オブジェクト等）をアンビソニックに変換することができる。マルチチャネル又はオブジェクトフォーマットからアンビソニックフォーマットへのこのような変換の例示的な実施形態が３ＧＰＰＴＳ２６．２５９仕様（ｖ１５．０．０）の図２に記述されている。

図７に、本発明の概念の範囲内の符号化装置ＤＣＯＤ及び復号化装置ＤＤＥＣを示しており、これらの装置は互いに（「可逆」という意味で）二重化され、通信ネットワークＲＥＳにより互いに接続されている。

符号化装置ＤＣＯＤは、典型的に以下を含む処理回路を含んでいる。
－本発明の概念の範囲内の、コンピュータプログラムの命令データを保存するメモリＭＥＭ１（これらの命令はエンコーダＤＣＯＤとデコーダＤＤＥＣの間で分散されている可能性がある）、
－元のマルチチャネル信号Ｂ、例えば各種のチャネル（例えば４個の１次チャネルＷ、Ｙ、Ｚ、Ｘ）にわたり分布するアンビソニック信号を、本発明の概念の範囲内で圧縮符号化する意図で受信するインターフェースＩＮＴ１、
－当該信号を受信して符号化する意図で、メモリＭＥＭ１に保存されたコンピュータプログラム命令を実行することにより処理するプロセッサＰＲＯＣ１、及び
－符号化された信号を、ネットワークを介して送信する通信インターフェースＣＯＭ１。

復号化装置ＤＤＥＣは、典型的に以下を含む自身の処理回路を含んでいる。
－本発明の概念の範囲内の、コンピュータプログラムの命令データを保存するメモリＭＥＭ２（これらの命令は、上述のようにエンコーダＤＣＯＤ及びデコーダＤＤＥＣの間で分散されている可能性がある）、
－本発明の概念の範囲内の、符号化された信号を、圧縮復号化する意図でネットワークＲＥＳから受信するインターフェースＣＯＭ２、
－これらの信号を、復号化する意図で、メモリＭＥＭ２に保存されたコンピュータプログラム命令を実行することにより処理するプロセッサＰＲＯＣ２、
－修正された復号化済み信号（

Ｃｏｒｒ）を、レンダリングする意図で、例えばアンビソニックチャネルＷ．．．Ｘの形式で配信する出力インターフェースＩＮＴ２。

無論、当該図７は、本発明の概念の範囲内のコーデック（エンコーダ又はデコーダ）の構造的実施形態の一例を示す。上述の図３～６は、これらのコーデックのより機能的な実施形態を詳述する。

Claims

マルチチャネル音響信号に施す修正の組（Ｃｏｒｒ．）を決定する決定方法であって、前記修正の組が、元のマルチチャネル信号の空間イメージを表す情報（Ｉｎｆ．Ｂ）から、及び符号化され、次いで復号化された元のマルチチャネル信号の空間イメージを表す情報（Ｉｎｆ．
）から決定される、決定方法。
前記修正の組が周波数サブ帯域により決定される、請求項１に記載の決定方法。
元のマルチチャネル信号からの符号化された音声信号及び前記元のマルチチャネル信号の空間イメージを表す情報を含むビットストリームを受信するステップ（３５０）と、
前記受信した符号化された音声信号を復号化して、復号化されたマルチチャネル信号を取得するステップ（３７０）と、
前記元のマルチチャネル信号の空間イメージを表す情報を復号化するステップ（３６０）と、
前記復号化されたマルチチャネル信号の空間イメージを表す情報を決定するステップ（３７５）と、
請求項１又は２に記載の決定方法を用いて、前記復号化された信号に施す修正の組を決定するステップ（３８０）と、
前記決定された修正の組を用いて、前記復号化されたマルチチャネル信号を修正するステップ（３９０）と
を含む、マルチチャネル音響信号を復号化する復号化方法。
元のマルチチャネル信号からの音声信号を符号化するステップ（６１１）と、
前記元のマルチチャネル信号の空間イメージを表す情報を決定するステップ（６２１）と、
前記符号化された音声信号をローカルに復号化して、復号化されたマルチチャネル信号を取得するステップ（６１２）と、
前記復号化されたマルチチャネル信号の空間イメージを表す情報を決定するステップ（６１５）と、
請求項１又は２に記載の決定方法を用いて、前記復号化されたマルチチャネル信号に施す修正の組を決定するステップ（６３０）と、
前記決定された修正の組を符号化するステップ（６４０）と
を含む、マルチチャネル音響信号を符号化する符号化方法。
前記空間イメージを表す情報が共分散行列であり、前記修正の組を決定するステップが更に、
仮想スピーカーの組に関連付けられた重みベクトルを含む重み行列を取得するステップと、
前記取得した重み行列から、及び前記元のマルチチャネル信号の前記共分散行列から、前記元のマルチチャネル信号の空間イメージを決定するステップと、
前記取得した重み行列から、及び前記決定した復号化済みマルチチャネル信号の前記共分散行列から、前記復号化されたマルチチャネル信号の空間イメージを決定するステップと、
利得の組を取得すべく、前記仮想スピーカーの組のスピーカーの方向における前記元のマルチチャネル信号の前記空間イメージと前記復号化されたマルチチャネル信号の前記空間イメージの比率を計算するステップと
を含む、請求項３に記載の復号化方法。
前記空間イメージを表す情報が共分散行列であり、前記修正の組を決定するステップが更に、
仮想スピーカーの組に関連付けられた重みベクトルを含む重み行列を取得するステップと、
前記取得した重み行列から、及び前記元のマルチチャネル信号の前記共分散行列から、前記元のマルチチャネル信号の空間イメージを決定するステップと、
前記取得した重み行列から、及び前記決定した復号化済みマルチチャネル信号の前記共分散行列から、前記復号化されたマルチチャネル信号の空間イメージを決定するステップと、
利得の組を取得すべく、前記仮想スピーカーの組のスピーカーの方向における前記元のマルチチャネル信号の前記空間イメージと前記復号化されたマルチチャネル信号の前記空間イメージの比率を計算するステップと
を含む、請求項４に記載の符号化方法。
前記元のマルチチャネル信号の空間イメージを表す前記受信した情報が前記元のマルチチャネル信号の前記空間イメージであり、前記修正の組を決定するステップが更に、
仮想スピーカーの組に関連付けられた重みベクトルを含む重み行列を取得するステップと、
前記取得した重み行列から、及び前記決定された復号化済みマルチチャネル信号の空間イメージを表す情報から、前記復号化されたマルチチャネル信号の空間イメージを決定するステップと、
利得の組を取得すべく、仮想スピーカーの組のスピーカーの方向における前記元のマルチチャネル信号の前記空間イメージと前記復号化されたマルチチャネル信号の前記空間イメージの比率を計算するステップと
を含む、請求項３に記載の復号化方法。
前記空間イメージを表す情報が共分散行列であり、前記修正の組を決定するステップが、２個の共分散行列の行列分解を介して変換行列を決定するステップを含み、前記変換行列が前記修正の組を構成する、請求項３に記載の復号化方法。
前記空間イメージを表す情報が共分散行列であり、前記修正の組を決定するステップが、２個の共分散行列の行列分解を介して変換行列を決定するステップを含み、前記変換行列が前記修正の組を構成する、請求項４に記載の符号化方法。
前記復号化されたマルチチャネル信号が、前記復号化されたマルチチャネル信号に前記修正の組を適用することにより決定された修正の組により修正される、請求項３、５、７又は８のいずれか一項に記載の復号化方法。
前記復号化されたマルチチャネル信号が、前記決定された修正の組により、
前記復号化されたマルチチャネル信号を前記仮想スピーカーの定義された組で音響的に復号化するステップと、
前記取得された利得の組を、前記音響的復号化から得られた信号に適用するステップと、
前記マルチチャネル信号の成分を取得すべく、前記音響的復号化から得られた修正済み信号を音響的に符号化するステップと、
修正されたマルチチャネル信号を取得すべく、このように得られた前記マルチチャネル信号の前記成分を合算するステップと
により修正される、請求項５又は７に記載の復号化方法。
元のマルチチャネル信号からの符号化された音声信号、及び復号化されたマルチチャネル信号に施す修正の符号化された組であって、請求項６に記載の符号化方法を用いて符号化された修正の組を含むビットストリームを受信するステップと、
受信した符号化済み音声信号を復号化して、復号化されたマルチチャネル信号を取得するステップと、
前記符号化された修正の組を復号化するステップと、
前記復号化されたマルチチャネル信号を、
・前記復号化されたマルチチャネル信号を仮想スピーカーの組で音響的に復号化するステップと、
・前記音響的復号化から得られた信号に得られた利得の組を適用するステップと、
・前記マルチチャネル信号の成分を取得すべく、前記音響的復号化から得られた修正済み信号を音響的に符号化するステップと、
・修正されたマルチチャネル信号を取得すべく、このように得られた前記マルチチャネル信号の前記成分を合算するステップと
において、前記復号化された修正の組を用いて修正するステップと
を含む、マルチチャネル音響信号を復号化する復号化方法。
請求項３、５、７、８、又は１０から１２のいずれか一項に記載の復号化方法を実行する処理回路を含む復号化装置。
請求項４、６又は９のいずれか一項に記載の符号化方法を実行する処理回路を含む符号化装置。
請求項３、５、７、８又は１０から１２のいずれか一項に記載の復号化方法を実行する命令を含むコンピュータプログラムを保存した、プロセッサ可読記憶媒体。
請求項４、６又は９のいずれか一項に記載の符号化方法を実行する命令を含むコンピュータプログラムを保存した、プロセッサ可読記憶媒体。