JP7223872B2

JP7223872B2 - 空間音声パラメータの重要度の決定および関連符号化

Info

Publication number: JP7223872B2
Application number: JP2021557812A
Authority: JP
Inventors: ミッコ－ヴィッレライティネン; アドリアナヴァシラケ
Original assignee: ノキアテクノロジーズオサケユイチア
Priority date: 2019-03-28
Filing date: 2020-03-26
Publication date: 2023-02-16
Anticipated expiration: 2040-03-26
Also published as: US20220189494A1; WO2020193865A1; EP3948861A1; CN113678199A; GB201904303D0; GB2582749A; KR102664650B1; EP3948861A4; MX2021011856A; KR20210146980A; JP2022528660A

Description

本出願は、音声符号器および復号器のための時間周波数領域方向関連パラメータ符号化（time-frequency domain direction related parameter encoding）のための、ただしそれには限定されない、音場関連パラメータ符号化（sound-field related parameter encoding）のための装置および方法に関する。

パラメトリック空間音声処理（parametric spatial audio processing）は、音響の空間的側面がパラメータのセットを用いて記述される音声信号処理の技術分野である。例えば、マイクロフォンアレイからのパラメトリック空間音声取り込み（parametric spatial audio capture）においては、マイクロフォンアレイ信号から、周波数帯域内の音響の方向、および周波数帯域内の取り込まれた音響の指向性および無指向性部分の間の比などのパラメータのセットを推定することが、典型的で効果的な選定である。これらのパラメータは、マイクロフォンアレイの位置において取り込まれた音響の知覚的空間特性をうまく記述することが知られている。したがって、これらのパラメータは、バイノーラル方式によるヘッドフォンのための、ラウドスピーカのための、またはアンビソニックス（Ambisonics）などの他の形式への、空間音響の合成において利用することができる。

それゆえ、周波数帯域内の方向および指向性対総計エネルギー比は、空間音声取り込みのために特に有効となるパラメータ表現である。

周波数帯域内の方向パラメータおよび周波数帯域内のエネルギー比パラメータ（音響の指向性を指示する）から成るパラメータセットは、音声コーデックのための（周囲コヒーレンス（surround coherence）、拡散コヒーレンス（spread coherence）、方向数、距離等などの他のパラメータも含み得る）空間メタデータとして利用することもできる。例えば、これらのパラメータはマイクロフォンアレイによって取り込まれた音声信号から推定することができ、例えば、マイクロフォンアレイ信号から、空間メタデータを用いて伝達されるべきステレオまたはモノ信号が生成され得る。ステレオ信号は、例えば、ＡＡＣ符号器を用いて符号化することができ、モノ信号はＥＶＳ符号器を用いて符号化することができるであろう。復号器は、音声信号をＰＣＭ信号に復号し、（空間メタデータを用いて）周波数帯域内の音響を処理し、空間出力、例えば、バイノーラル出力を得ることができる。

上述の解決策は、（例えば、携帯電話、ＶＲカメラ、独立型マイクロフォンアレイ内の）マイクロフォンアレイから取り込まれた空間音響を符号化するために特に適している。しかし、このような符号器が、マイクロフォンアレイによって取り込まれた信号以外の入力形式、例えば、ラウドスピーカ信号、音声オブジェクト信号、またはアンビソニック信号も有することが望ましくなり得る。

空間メタデータ抽出のための１次アンビソニックス（ｆｉｒｓｔ－ｏｒｄｅｒＡｍｂｉｓｏｎｉｃｓ、ＦＯＡ）入力の分析が、指向性音声符号化（ＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ、ＤｉｒＡＣ）および調和平面波展開（Ｈａｒｍｏｎｉｃｐｌａｎｅｗａｖｅｅｘｐａｎｓｉｏｎ、Ｈａｒｐｅｘ）に関連する科学文献において完全に文書化されている。これは、ＦＯＡ信号（より正確には、それの変形体、Ｂフォーマット信号）を直接提供するマイクロフォンアレイが存在し、それゆえ、このような入力を分析することが、当技術分野における研究の眼目になっているためである。

符号器のためのさらなる入力はまた、５．１または７．１チャンネルサラウンド入力などの、マルチチャンネルラウドスピーカ入力である。

しかし、空間メタデータのコンポーネントに関しては、空間音声パラメータを表現するために必要とされる全体的ビット数を最小化するために、コヒーレンスパラメータの圧縮および符号化に高い関心が寄せられている。

第１の態様によれば、空間音声符号化（spatial audio encoding）のための装置であって、１つまたは複数の音声信号のために、空間音声再生（spatial audio reproduction）を提供するためのサブ帯域ベースの空間音声パラメータを受信または決定するための手段であって、空間音声パラメータがフレームの複数のサブ帯域のサブ帯域ごとのコヒーレンス値を含む、手段と、フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度（significance measure）を決定するための手段と、重要度尺度を用いて、フレームの複数のサブ帯域のコヒーレンス値を符号化するべきかどうかを決定するための手段と、を備える、装置が提供される。

装置は、複数のサブ帯域の各々のためのエネルギー比値（energy ratio value）を受信するための手段をさらに備え得、フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を決定するための手段は、複数のサブ帯域の各々のためのコヒーレントな無指向性エネルギーの割合を決定するための手段であって、サブ帯域のためのコヒーレントな無指向性エネルギーの割合が、サブ帯域のための無指向性エネルギー比にサブ帯域のためのコヒーレンス値を乗算したものとして決定され、無指向性エネルギー比が、サブ帯域のためのエネルギー比値が除去された後に残ったサブ帯域内のエネルギーの比に関連する、手段、ならびに全ての複数のサブ帯域のために、コヒーレントな無指向性エネルギーの決定された割合を合計するための手段、を含み得る。

フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を決定するための手段は、サブ帯域ごとに、コヒーレントな無指向性エネルギーの割合に無指向性エネルギー比を乗算するための手段、全ての複数のサブ帯域のために、サブ帯域ごとの、コヒーレントな無指向性エネルギーの割合（proportion）と無指向性エネルギー比（non-directional energy ratio）との積（multiple）を合計するための手段、およびサブ帯域ごとの、コヒーレントな無指向性エネルギーの割合と無指向性エネルギー比との合計された積を、サブ帯域ごとの無指向性エネルギー比の合計によって正規化するための手段、をさらに含み得る。

フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度はフレームの複数のサブ帯域のコヒーレンス値のための第１の重要度尺度であり得る。

フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度はフレームの複数のサブ帯域のコヒーレンス値のための第２の重要度尺度であり得る。

フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を決定するための手段は、フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を第１の重要度尺度および第２の重要度尺度のうちの最大値として決定するための手段を含み得る。

重要度尺度を用いて、フレームの複数のサブ帯域のコヒーレンス値を符号化するべきかどうかを決定するための手段は、重要度尺度を閾値と比較するための手段、および重要度尺度が閾値を超えたときに、フレームの複数のサブ帯域のコヒーレンス値を符号化するための手段、を含み得る。

複数のサブ帯域の各々のためのコヒーレンス値は周囲コヒーレンス値であり得、周囲コヒーレンス値は２つ以上のチャンネル音声信号の間のチャンネル間コヒーレンスに基づいて決定され得る。

複数のサブ帯域の各々のための周囲コヒーレンス値は、装置が、２つ以上のチャンネル音声信号に関連付けられた共分散行列（covariance matrix）を計算すること、共分散行列に基づいて決定された最も大きいエネルギーを有するチャンネル音声信号、および他のチャンネル音声信号のサブセットを監視することであって、サブセットが、１つ～次に大きいエネルギーを有するチャンネル音声信号の総数より１つ少ないものの間で決定された数である、監視すること、ならびに最も大きいエネルギーを有するチャンネル音声信号と、次に大きいエネルギーのチャンネル音声信号の各々との間で決定された正規化コヒーレンスのうちの最小値を選択することに基づいて周囲共分散パラメータ（surrounding covariance parameter）を生成すること、を行うための手段を備えることによって決定され得る。

サブ帯域の各々のためのエネルギー比値はサブ帯域の各々のための指向性対総計エネルギー比値であり得る。

サブ帯域のための無指向性エネルギー比は、１からサブ帯域のための指向性対総計エネルギー比を引いたものとして決定される。

第２の態様によれば、空間音声符号化のための方法であって、１つまたは複数の音声信号のために、空間音声再生を提供するためのサブ帯域ベースの空間音声パラメータを受信または決定することであって、空間音声パラメータがフレームの複数のサブ帯域のサブ帯域ごとのコヒーレンス値を含む、受信または決定することと、フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を決定することと、重要度尺度を用いて、フレームの複数のサブ帯域のコヒーレンス値を符号化するべきかどうかを決定することと、を含む、方法がある。

本方法は、複数のサブ帯域の各々のためのエネルギー比値を受信することをさらに含み得、フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を決定するための手段は、複数のサブ帯域の各々のためのコヒーレントな無指向性エネルギーの割合を決定することであって、サブ帯域のためのコヒーレントな無指向性エネルギーの割合が、サブ帯域のための無指向性エネルギー比にサブ帯域のためのコヒーレンス値を乗算したものとして決定され、無指向性エネルギー比が、サブ帯域のためのエネルギー比値が除去された後に残ったサブ帯域内のエネルギーの比に関連する、決定すること、ならびに全ての複数のサブ帯域のために、コヒーレントな無指向性エネルギーの決定された割合を合計すること、を含み得る。

フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を決定することは、サブ帯域ごとに、コヒーレントな無指向性エネルギーの割合に無指向性エネルギー比を乗算すること、全ての複数のサブ帯域のために、サブ帯域ごとの、コヒーレントな無指向性エネルギーの割合と無指向性エネルギー比との積を合計すること、およびサブ帯域ごとの、コヒーレントな無指向性エネルギーの割合と無指向性エネルギー比との合計された積を、サブ帯域ごとの無指向性エネルギー比の合計によって正規化すること、をさらに含み得る。

フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を決定することは、フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を第１の重要度尺度および第２の重要度尺度のうちの最大値として決定することを含み得る。

重要度尺度を用いて、フレームの複数のサブ帯域のコヒーレンス値を符号化するべきかどうかを決定することは、重要度尺度を閾値と比較すること、および重要度尺度が閾値を超えたときに、フレームの複数のサブ帯域のコヒーレンス値を符号化すること、を含み得る。

複数のサブ帯域の各々のための周囲コヒーレンス値は、装置が、２つ以上のチャンネル音声信号に関連付けられた共分散行列を計算すること、共分散行列に基づいて決定された最も大きいエネルギーを有するチャンネル音声信号、および他のチャンネル音声信号のサブセットを監視することであって、サブセットが、１つ～次に大きいエネルギーを有するチャンネル音声信号の総数より１つ少ないものの間で決定された数である、監視すること、ならびに最も大きいエネルギーを有するチャンネル音声信号と、次に大きいエネルギーのチャンネル音声信号の各々との間で決定された正規化コヒーレンスのうちの最小値を選択することに基づいて周囲共分散パラメータを生成すること、を含むことによって決定され得る。

サブ帯域のための無指向性エネルギー比は、１からサブ帯域のための指向性対総計エネルギー比を引いたものとして決定され得る。

第３の態様によれば、空間音声符号化のための装置であって、装置が、少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリと、を備え、少なくとも１つのメモリおよびコンピュータコードが、１つまたは複数の音声信号のために、空間音声再生を提供するためのサブ帯域ベースの空間音声パラメータを受信または決定することであって、空間音声パラメータがフレームの複数のサブ帯域のサブ帯域ごとのコヒーレンス値を含む、受信または決定することと、フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を決定することと、重要度尺度を用いて、フレームの複数のサブ帯域のコヒーレンス値を符号化するべきかどうかを決定することと、を行うように構成されている、装置が提供される。

装置は、さらに、複数のサブ帯域の各々のためのエネルギー比値を受信させられ得、フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を決定させられる装置は、複数のサブ帯域の各々のためのコヒーレントな無指向性エネルギーの割合を決定することであって、サブ帯域のためのコヒーレントな無指向性エネルギーの割合が、サブ帯域のための無指向性エネルギー比にサブ帯域のためのコヒーレンス値を乗算したものとして決定され、無指向性エネルギー比が、サブ帯域のためのエネルギー比値が除去された後に残ったサブ帯域内のエネルギーの比に関連する、決定すること、ならびに全ての複数のサブ帯域のために、コヒーレントな無指向性エネルギーの決定された割合を合計すること、を行わせられ得る。

フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を決定させられる装置は、サブ帯域ごとに、コヒーレントな無指向性エネルギーの割合に無指向性エネルギー比を乗算すること、全ての複数のサブ帯域のために、サブ帯域ごとの、コヒーレントな無指向性エネルギーの割合と無指向性エネルギー比との積を合計すること、およびサブ帯域ごとの、コヒーレントな無指向性エネルギーの割合と無指向性エネルギー比との合計された積を、サブ帯域ごとの無指向性エネルギー比の合計によって正規化すること、をさらに行わせられ得る。

フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を決定させられる装置は、フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を第１の重要度尺度および第２の重要度尺度のうちの最大値として決定させられ得る。

重要度尺度を用いて、フレームの複数のサブ帯域のコヒーレンス値を符号化するべきかどうかを決定させられる装置は、重要度尺度を閾値と比較すること、および重要度尺度が閾値を超えたときに、フレームの複数のサブ帯域のコヒーレンス値を符号化すること、を行わせられ得る。

複数のサブ帯域の各々のための周囲コヒーレンス値は、装置が、２つ以上のチャンネル音声信号に関連付けられた共分散行列を計算すること、共分散行列に基づいて決定された最も大きいエネルギーを有するチャンネル音声信号、および他のチャンネル音声信号のサブセットを監視することであって、サブセットが、１つ～次に大きいエネルギーを有するチャンネル音声信号の総数より１つ少ないものの間で決定された数である、監視すること、ならびに最も大きいエネルギーを有するチャンネル音声信号と、次に大きいエネルギーのチャンネル音声信号の各々との間で決定された正規化コヒーレンスのうちの最小値を選択することに基づいて周囲共分散パラメータを生成すること、を行わせられることによって決定され得る。

コンピュータに、上述されたとおりの方法を遂行させるためのプログラム命令を含むコンピュータプログラム。

媒体上に記憶されたコンピュータプログラム製品が、装置に、本明細書において説明されるとおりの方法を遂行させ得る。

電子デバイスが、本明細書において説明されるとおりの装置を備え得る。

チップセットが、本明細書において説明されるとおりの装置を備え得る。

本出願の実施形態は、現況技術に付随する問題に対処することを目的とする。

本出願のより深い理解のために、次に、添付の図面を例として参照する。

いくつかの実施形態を実施するために適した装置のシステムを概略的に示す図である。いくつかの実施形態に係るメタデータ符号器を概略的に示す図である。いくつかの実施形態に係る図２に示されるとおりのメタデータ符号器の動作のフロー図を示す。いくつかの実施形態に係る図２に示されるとおりのコヒーレンス符号器を概略的に示す図である。いくつかの実施形態に係る図４に示されるとおりのコヒーレンス値重要度決定器の動作のフロー図を示す。いくつかの実施形態に係る図４に最初に示されるコヒーレンス値符号化決定器の動作のフロー図を示す。示される装置を実施するために適した例示的なデバイスを概略的に示す図である。

以下のことは、効果的な空間分析導出メタデータパラメータの提供のために適した装置および可能な機構をさらに詳細に説明する。以下の説明において、マルチチャンネルシステムはマルチチャンネルマイクロフォンの実装形態に関して説明される。しかし、上述されたように、入力形式は、マルチチャンネルラウドスピーカ、アンビソニック（ＦＯＡ／ＨＯＡ）等などの、任意の好適な入力形式であり得る。実施形態によっては、チャンネルの場所はマイクロフォンの場所に基づくか、または仮想的な場所もしくは方向であることが理解される。さらに、例示的なシステムの出力はマルチチャンネルラウドスピーカ構成である。しかし、出力はラウドスピーカ以外の手段を介してユーザにレンダリングされてもよいことが理解される。さらに、マルチチャンネルラウドスピーカ信号は２つ以上の再生音声信号に一般化されてもよい。

メタデータは、少なくとも、考慮される時間周波数（ｔｉｍｅ－ｆｒｅｑｕｅｎｃｙ、ＴＦ）ブロックまたはタイル、換言すれば、時間／周波数サブ帯域ごとの、方向（仰角、方位角）、結果として生じる方向のエネルギー比、および方向と無関係な周囲コヒーレンスから成る。加えて、拡散コヒーレンスがＴＦブロックごとに決定され、含まれ得る。このデータは全て、復号器において空間信号を再構築することができるようにするために符号器によって符号化され、伝送される（または記憶される）。

コーデックの典型的な全体的動作ビットレートは２～１０ｋｂｐｓを空間メタデータの伝送／記憶のために残し得る。しかし、いくつかのさらなる実装形態は最大２０ｋｐｓを空間メタデータの伝送／記憶のために可能にし得る。方向パラメータおよびエネルギー比コンポーネントの符号化は以前に吟味された。しかし、コヒーレンスデータの符号化は、空間メタデータを符号化するために必要な全体的動作ビットレートを最小化するために、さらなる研究を必要とする。

以下において説明されるとおりのコンセプトは、時間周波数ブロックごとにコヒーレンスパラメータを方向およびエネルギー比パラメータと共に符号化することである。特定のシナリオでは、フレームのためのコヒーレンスパラメータの符号化を、聴取者に対するそれらの主観的重要度に従って調節することが可能であり得る。例えば、音声フレームのために、サブ帯域ごとのコヒーレンスパラメータは周囲のサブ帯域に関して主観的重要度を与え得ないと決定され得る。このような場合には、フレームのためのコヒーレンスパラメータを符号化しないことによって動作ビットレートの節約を達成することができる。

したがって、本発明は、特定の状況のために、コヒーレンスパラメータを符号化するために用いられるビット数の全体的な節約の考慮から由来する。これは、周囲のサブ帯域に対する各サブ帯域のコヒーレンス値の主観的重要度の指示を提供するであろう尺度を有し、尺度の結果を用いて、コヒーレンスパラメータがフレームのために符号化されるべきかどうかを決定することによって達成され得る。

この点に関して、図１は、本出願の実施形態を実施するための装置およびシステムを示し、示される。システム１００は、「分析」部分１２１および「合成」部分１３１を有するように示されている。「分析」部分１２１は、マルチチャンネルラウドスピーカ信号の受信から、メタデータおよびダウンミックス信号の符号化までの部分であり、「合成」部分１３１は、符号化されたメタデータおよびダウンミックス信号の復号から、（例えば、マルチチャンネルラウドスピーカの形態の）再生された信号の提示までの部分である。

システム１００および「分析」部分１２１への入力はマルチチャンネル信号１０２である。以下の例では、マイクロフォンチャンネル信号入力が説明されているが、他の実施形態では、任意の好適な入力（または合成マルチチャンネル）形式が実施され得る。例えば、実施形態によっては、空間分析器および空間分析は符号器の外部で実施されてもよい。例えば、実施形態によっては、音声信号に関連付けられた空間メタデータは別個のビットストリームとして符号器に提供されてもよい。実施形態によっては、空間メタデータは空間（方向）指数値のセットとして提供されてもよい。

マルチチャンネル信号は、移送信号生成器１０３および分析プロセッサ１０５に渡される。

実施形態によっては、移送信号生成器１０３は、マルチチャンネル信号を受信し、規定数のチャンネルを含む好適な移送信号を生成し、移送信号１０４を出力するように構成されている。例えば、移送信号生成器１０３は、マルチチャンネル信号の２音声チャンネルダウンミックスを生成するように構成され得る。規定数のチャンネルは任意の好適な数のチャンネルであり得る。移送信号生成器は、実施形態によっては、さもなければ、入力音声信号を規定数のチャンネルに選択するか、または、例えば、ビームフォーミング技法によって、組み合わせ、これらを移送信号として出力するように構成されている。

実施形態によっては、移送信号生成器１０３は任意選択的なものであり、マルチチャンネル信号は、処理されずに、本例では移送信号と同じ仕方で符号器１０７に渡される。

実施形態によっては、分析プロセッサ１０５はまた、マルチチャンネル信号を受信し、信号を分析し、マルチチャンネル信号に関連付けられた、およびそれゆえ、移送信号１０４に関連付けられたメタデータ１０６を作成するように構成されている。分析プロセッサ１０５は、時間周波数分析間隔ごとに、方向パラメータ１０８、およびエネルギー比パラメータ１１０、およびコヒーレンスパラメータ１１２（および実施形態によっては、拡散性パラメータ）を含み得るメタデータを生成するように構成され得る。方向、エネルギー比、およびコヒーレンスパラメータは、実施形態によっては、空間音声パラメータであると考えられてもよい。換言すれば、空間音声パラメータは、マルチチャンネル信号（または一般的に２つ以上の再生音声信号）によって作り出される音場を特徴付けることを目的とするパラメータを含む。

実施形態によっては、生成されるパラメータは周波数帯域ごとに異なってもよい。それゆえ、例えば、帯域Ｘでは、パラメータの全てが生成および伝送され、それに対して、帯域Ｙでは、パラメータのうちの１つのみが生成および伝送され、さらに、帯域Ｚでは、パラメータが生成または伝送されない。これの実例は、最も高い帯域などのいくつかの周波数帯域については、知覚的理由のためにパラメータが必要とされないことであり得る。移送信号１０４およびメタデータ１０６は符号器１０７に渡され得る。

符号器１０７は、移送（例えば、ダウンミックス）信号１０４を受信し、これらの音声信号の好適な符号化を生成するように構成された音声符号器コア１０９を含み得る。符号器１０７は、実施形態によっては、（メモリ上、および少なくとも１つのプロセッサ上に記憶された好適なソフトウェアを実行する）コンピュータ、あるいは代替的に、例えば、ＦＰＧＡまたはＡＳＩＣを利用する特定のデバイスであることができる。符号化は任意の好適な方式を用いて実施され得る。符号器１０７は、メタデータを受信し、情報の符号化または圧縮された形態を出力するように構成されたメタデータ符号器／量子化器１１１をさらに含み得る。実施形態によっては、符号器１０７は、メタデータを、図１において破線によって示される伝送または記憶の前に、さらにインタリーブするか、単一のデータストリームに多重化するか、または符号化されたダウンミックス信号内に埋め込んでもよい。多重化は任意の好適な方式を用いて実施され得る。

復号器側において、受信または取得されたデータ（ストリーム）は復号器／デマルチプレクサ１３３によって受信され得る。復号器／デマルチプレクサ１３３は、符号化されたストリームを多重分離し、音声符号化されたストリームを、音声信号を復号し、移送信号を得るように構成された移送抽出器１３５に渡し得る。同様に、復号器／デマルチプレクサ１３３は、符号化されたメタデータを受信し、メタデータを生成するように構成されたメタデータ抽出器１３７を含み得る。復号器／デマルチプレクサ１３３は、実施形態によっては、（メモリ上、および少なくとも１つのプロセッサ上に記憶された好適なソフトウェアを実行する）コンピュータ、あるいは代替的に、例えば、ＦＰＧＡまたはＡＳＩＣを利用する特定のデバイスであることができる。

復号されたメタデータおよび移送音声信号は合成プロセッサ１３９に渡され得る。

システム１００の「合成」部分１３１は、移送およびメタデータを受信し、移送信号およびメタデータに基づいて、マルチチャンネル信号１１０（これらは、マルチチャンネルラウドスピーカ形式、または実施形態によっては、使用事例に応じた、バイノーラルもしくはアンビソニックス信号などの任意の好適な出力形式であり得る）の形態の合成空間音声を任意の好適な形式で再現するように構成された合成プロセッサ１３９をさらに示す。

したがって、要約すると、まず、システム（分析部分）は、マルチチャンネル音声信号を受信するように構成されている。

次に、システム（分析部分）は、（例えば、音声信号チャンネルのうちのいくつかを選択またはダウンミックスすることによって）好適な移送音声信号を生成するように構成されている。

次に、システムは、移送信号およびメタデータを記憶／伝送のために符号化するように構成されている。

この後に、システムは、符号化された移送およびメタデータを記憶／伝送し得る。

システムは、符号化された移送およびメタデータを取得／受信し得る。

次に、システムは、符号化された移送およびメタデータパラメータから移送およびメタデータを抽出する、例えば、符号化された移送およびメタデータパラメータを多重分離し、復号するように構成されている。

システム（合成部分）は、抽出された移送音声信号およびメタデータに基づいて出力マルチチャンネル音声信号を合成するように構成されている。

図２に関して、いくつかの実施形態に係る（図１に示されるとおりの）例示的な分析プロセッサ１０５およびメタデータ符号器／量子化器１１１がさらに詳細に説明される。

分析プロセッサ１０５は、実施形態によっては、時間周波数領域変換器２０１を含む。

実施形態によっては、時間周波数領域変換器２０１は、マルチチャンネル信号１０２を受信し、入力時間領域信号を好適な時間周波数信号に変換するために短時間フーリエ変換（ＳｈｏｒｔＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ、ＳＴＦＴ）などの好適な時間－周波数領域変換を適用するように構成されている。これらの時間周波数信号は空間分析器２０３に渡され得る。

それゆえ、例えば、時間周波数信号２０２は次式によって時間周波数領域表現の形で表現され得る。
ｓ_i（ｂ，ｎ），
ここで、ｂは周波数ビン指数であり、ｎは時間周波数ブロック（フレーム）指数であり、ｉはチャンネル指数である。別の式では、ｎは、元の時間領域信号のものよりも低いサンプリング速度を有する時間指数として考慮することができる。これらの周波数ビンは、ビンのうちの１つまたは複数を帯域指数ｋ＝０，…，Ｋ－１のサブ帯域にグループ化するサブ帯域にグループ化され得る。各サブ帯域ｋは最も低いビンｂ_k,lowおよび最も高いビンｂ_k,highを有し、サブ帯域はｂ_k,low～ｂ_k,highの全てのビンを包含する。サブ帯域の幅は任意の好適な分布を近似することができる。例えば、等価矩形帯域幅（Ｅｑｕｉｖａｌｅｎｔｒｅｃｔａｎｇｕｌａｒｂａｎｄｗｉｄｔｈ、ＥＲＢ）尺度またはバーク尺度である。

実施形態によっては、分析プロセッサ１０５は空間分析器２０３を含む。空間分析器２０３は、時間周波数信号２０２を受信し、これらの信号に基づいて方向パラメータ１０８を推定するように構成され得る。方向パラメータは、任意の音声ベースの「方向」決定に基づいて決定され得る。

例えば、実施形態によっては、空間分析器２０３は、２つ以上の信号入力を用いて方向を推定するように構成されている。これは、「方向」を推定するための最も単純な構成を表し、さらにより多くの信号を用いてより複雑な処理が遂行されてもよい。

それゆえ、空間分析器２０３は、方位角φ（ｋ，ｎ）および仰角θ（ｋ，ｎ）と表される、音声信号のフレーム内の周波数帯域および時間的時間周波数ブロックごとの少なくとも１つの方位角および仰角を提供するように構成され得る。方向パラメータ１０８はまた、方向符号器２０５に渡され得る。

空間分析器２０３はまた、エネルギー比パラメータ１１０を決定するように構成され得る。エネルギー比は、ある方向から到来すると考えることができる音声信号のエネルギーの決定であると考えられ得る。指向性対総計エネルギー比ｒ（ｋ，ｎ）は、例えば、指向性推定の安定性尺度を用いて、あるいは任意の相関尺度、または比パラメータを得るための任意の他の好適な方法を用いて推定することができる。各指向性対総計エネルギー比は特定の空間方向に対応し、総エネルギーと比べてエネルギーのうちのどれほどが特定の空間方向からやって来るのかを記述する。この値はまた、時間周波数タイルごとに別個に表現され得る。空間方向パラメータおよび指向性対総計エネルギー比は、時間周波数タイルごとの総エネルギーのうちのどれほどが特定の方向からやって来ているのかを記述する。概して、空間方向パラメータは到来方向（ｄｉｒｅｃｔｉｏｎｏｆａｒｒｉｖａｌ、ＤＯＡ）と考えることもできる。

実施形態では、指向性対総計エネルギー比パラメータは、帯域ｋにおけるマイクロフォン対の間の正規化相互相関パラメータｃｏｒ’（ｋ，ｎ）に基づいて推定することができ、相互相関パラメータの値は－１～１の間にある。方向対エネルギー比パラメータｒ（ｋ，ｎ）は、正規化相互相関パラメータを拡散場正規化相互相関パラメータｃｏｒ_D’（ｋ，ｎ）と比較することによって、

として決定することができる。指向性対総計エネルギー比は、本明細書において参照により組み込まれているＰＣＴ国際公開第２０１７／００５９７８号においてさらに説明されている。

エネルギー比はエネルギー比符号器２０７に渡され得る。

空間分析器２０３は、両方とも時間周波数領域において分析される、周囲コヒーレンス（γ（ｋ，ｎ））および拡散コヒーレンス（ζ（ｋ，ｎ））を含み得る多数のコヒーレンスパラメータ１１２を決定するようにさらに構成され得る。

上述のコヒーレンス事項のパラメータの各々が次に説明される。全ての処理は時間周波数領域において遂行され、このため、時間周波数指数ｋおよびｎは、簡潔にするために必要な場合には落とされる。

まず、単一のラウドスピーカの代わりに、２つの離間されたラウドスピーカ（例えば、フロント左および右）を用いて音響がコヒーレントに再生される状況を考える。コヒーレンス分析器は、このような方法がサラウンドミキシングにおいて適用されたことを検出するように構成され得る。

実施形態によっては、したがって、空間分析器２０３は、１つまたは複数の時間指数ｎおよび周波数ビンｂから成る所与の分析間隔のための共分散行列Ｃを算出するように構成され得る。行列のサイズはＮ_L ｘＮ_Lであり、成分はｃ_ijと表される。ここで、Ｎ_Lはラウドスピーカチャンネルの数であり、ｉおよびｊはラウドスピーカチャンネル指数である。

次に、空間分析器２０３は、推定された方向（本例では方位角θである）に最も近いラウドスピーカチャンネルｉ_cを決定するように構成され得る。
ｉ_c＝ａｒｇ（ｍｉｎ（｜θ－α_i｜））
ここで、α_iはラウドスピーカｉの角度である。

さらに、このような実施形態では、空間分析器２０３は、ラウドスピーカｉ_cの左ｉ_lおよび右ｉ_r側の最も近いラウドスピーカを決定するように構成されている。

ラウドスピーカｉおよびｊの間の正規化コヒーレンスは、

と表され、この等式を用いて、空間分析器２０３は、ｉ_lおよびｉ_rの間の正規化コヒーレンスｃ’_lrを算出するように構成され得る。換言すれば、次式を算出する。

さらに、空間分析器２０３は、共分散行列の対角成分を用いてラウドスピーカチャンネルｉのエネルギー
Ｅ_i＝ｃ_ii
を決定し、ｉ_lおよびｉ_rラウドスピーカならびにｉ_l、ｉ_rおよびｉ_cラウドスピーカのエネルギーの間の比を

として決定するように構成され得る。

次に、空間分析器２０３は、これらの決定された変数を用いて「立体性」パラメータ
μ＝ｃ’_lrξ_lr/lrc
を生成し得る。

この「立体性」パラメータは０～１の値を有する。１の値は、ラウドスピーカｉ_lおよびｉ_rにおいてコヒーレントな音響が存在し、この音響がこのセクタのエネルギーを支配することを意味する。このことの理由は、例えば、ラウドスピーカミックスが、音響の「エアリーな（ａｉｒｙ）」知覚を作り出すために振幅パンニング技法を用いたことであり得るであろう。０の値は、このような技法が適用されておらず、例えば、音響が、単に最も近いラウドスピーカに位置付けられ得ることを意味する。

さらに、空間分析器２０３は、「接近（ｃｌｏｓｅ）」知覚を作り出すために３つの（またはより多数の）ラウドスピーカを用いて（例えば、中心のみの代わりに、フロント左、右および中心を用いる）、音響がコヒーレントに再生される状況を検出するか、または少なくとも特定するように構成され得る。これは、サウンドミキシングエンジニアが、マルチチャンネルラウドスピーカミックスをサラウンドミキシングする際にこのような状況を作るためであり得る。

このような実施形態では、先に識別された同じラウドスピーカｉ_l、ｉ_rおよびｉ_cが、コヒーレンス分析器によって、上述された正規化コヒーレンスの決定を用いて正規化コヒーレンス値ｃ’_clおよびｃ’_crを決定するために用いられる。換言すれば、以下の値が計算される：

次に、空間分析器２０３は、次式を用いてこれらのラウドスピーカの間のコヒーレンスを表す正規化コヒーレンス値ｃ’_clrを決定し得る：
ｃ’_clr＝ｍｉｎ（ｃ’_cl，ｃ’_cr）。

加えて、空間分析器２０３は、エネルギーがチャンネルｉ_l、ｉ_rおよびｉ_cの間でどれほど均等に分布しているのかを表すパラメータを決定するように構成され得る。

これらの変数を用いて、空間分析器２０３は新たなコヒーレントパンニングパラメータκを、
κ＝ｃ’_clrξ_clr
として決定し得る。

このコヒーレントパンニングパラメータκは０～１の値を有する。１の値は、全てのラウドスピーカｉ_l、ｉ_r、およびｉ_cにおいてコヒーレントな音響が存在し、この音響のエネルギーがこれらのラウドスピーカの間で均等に分布していることを意味する。このことの理由は、例えば、ラウドスピーカミックスが、音源がより近くにある知覚を作り出すためにスタジオミキシング技法を用いて生成されたためであり得るであろう。０の値は、このような技法が適用されておらず、例えば、音響が、単に最も近いラウドスピーカに位置付けられ得ることを意味する。

空間分析器２０３は、（ｉ_cではなく）ｉ_lおよびｉ_rにおけるコヒーレントな音響の量を測定する「立体性」パラメータμ、ならびに全てのｉ_l、ｉ_r、およびｉ_cにおけるコヒーレントな音響の量を測定するコヒーレントパンニングパラメータκを決定し、これらを用いて、メタデータとして出力されるべきコヒーレンスパラメータを決定するように構成されている。

それゆえ、空間分析器２０３は、「立体性」パラメータμおよびコヒーレントパンニングパラメータκを組み合わせ、０～１の値を有する、拡散コヒーレンスζパラメータを形成するように構成されている。０の拡散コヒーレンスζ値は点源を表し、換言すれば、音響は、できるだけ少数のラウドスピーカを用いて（例えば、ラウドスピーカｉ_cのみを用いて）再生されるべきである。拡散コヒーレンスζの値が増大するにつれて、値０．５において、エネルギーがラウドスピーカｉ_l、ｉ_r、およびｉ_cの間で均等に拡散されるまで、より多くのエネルギーがラウドスピーカｉ_cの周りのラウドスピーカへ拡散される。拡散コヒーレンスζの値が０．５を超えて増大するにつれて、値１において、ラウドスピーカｉ_cにおけるエネルギーがなくなり、全てのエネルギーがラウドスピーカｉ_lおよびｉ_rにあるようになるまで、ラウドスピーカｉ_cにおけるエネルギーは減少させられる。

上述のパラメータμおよびκを用いて、空間分析器２０３は、実施形態によっては、次式を用いて拡散コヒーレンスパラメータζを決定するように構成されている：

上式は単なる例にすぎず、空間分析器２０３は拡散コヒーレンスパラメータζを、それがパラメータの上述の定義に適合する限り、任意の他の仕方で推定し得ることに留意されたい。

先の状況を検出するように構成されているのみならず、空間分析器２０３は、「頭の内側」または「上方」の知覚を作り出すために全ての（またはほぼ全ての）ラウドスピーカから音響がコヒーレントに再生される状況を検出するか、または少なくとも特定するように構成され得る。

実施形態によっては、空間分析器２０３は、エネルギーＥ_i、および決定された最も大きい値を有するラウドスピーカチャンネルｉ_eを選別するように構成され得る。

次に、空間分析器２０３は、このチャンネルとＭ_L個の他の最も音量が大きいチャンネルとの間の正規化コヒーレンスｃ’_ijを決定するように構成され得る。このチャンネルとＭ_L個の他の最も音量が大きいチャンネルとの間のこれらの正規化コヒーレンスｃ’_ij値は、その後、監視され得る。実施形態によっては、Ｍ_LはＮ_L－１であってもよく、これは、最も音量が大きいものと全ての他のラウドスピーカチャンネルとの間のコヒーレンスを監視することを意味するであろう。しかし、実施形態によっては、Ｍ_Lはより小さい数、例えば、Ｎ_L－２であってもよい。これらの正規化コヒーレンス値を用いて、コヒーレンス分析器は、次式を用いて周囲コヒーレンスパラメータγを決定するように構成され得る：

ここで、

は、最も音量が大きいチャンネルとＭ_L個の次に音量が大きいチャンネルとの間の正規化コヒーレンスである。

周囲コヒーレンスパラメータγは０～１の値を有する。１の値は、全ての（またはほぼ全ての）ラウドスピーカチャンネルの間にコヒーレンスが存在することを意味する。０の値は、全ての（またはさらには、ほぼ全ての）ラウドスピーカチャンネルの間にコヒーレンスが存在しないことを意味する。

上式は周囲コヒーレンスパラメータγのための推定の単なる一例にすぎず、それがパラメータの上述の定義に適合する限り、任意の他の仕方を用いることができる。

これに続いて、分析プロセッサ２０３は方向分析を適用し、方向およびエネルギー比パラメータを決定し得る。

次に、分析プロセッサ２０３は、決定されたパラメータを出力するように構成され得る。

方向、エネルギー比、およびコヒーレンスパラメータは、ここでは、時間指数ｎごとに表されるが、実施形態によっては、パラメータはいくつかの時間指数にわたって集約されてもよい。同じことが周波数軸について当てはまり、表されているように、いくつかの周波数ビンｂの方向は、いくつかの周波数ビンｂから成る帯域ｋにおける１つの方向パラメータによって表すことができるであろう。同じことが、本明細書において説明される空間パラメータの全てについて当てはまる。

実施形態によっては、方向データは１６個のビットを用いて表現され得る。このような実施形態では、エネルギー比パラメータは８つのビットを使って表現され得る。フレームごとに、５つのサブ帯域および４つの時間周波数（ＴＦ）ブロックが存在し得る。それゆえ、本例では、フレームごとに圧縮されていない方向およびエネルギー比メタデータを記憶するために必要とされる（１６＋８）ｘ４ｘ５個のビットが存在する。ＴＦブロックごとのコヒーレンスデータは０～１の表現であってもよく、元々８つのビットを使って表現されてもよい。

同様に図２に示されるように、いくつかの実施形態に係る例示的なメタデータ符号器／量子化器１１１が示されている。

メタデータ符号器／量子化器１１１は方向符号器２０５を含み得る。方向符号器２０５は、（方位角φ（ｋ，ｎ）および仰角θ（ｋ，ｎ）などの方向パラメータ１０８（ならびに実施形態によっては、予想されるビット割り当て）を受信し、これから、好適な符号化された出力を生成するように構成されている。実施形態によっては、符号化は、決定された量子化分解能によって規定されたルックアップテーブルによって規定された「表面」球面上の円環内に配列された球面格子を形成する球面の配列に基づく。換言すれば、球面格子は、球面をより小さい球面で覆い、より小さい球面の中心を、ほぼ等距離の方向の格子を規定する点と考えるという思想を用いる。したがって、より小さい球面は、任意の好適な指数付けアルゴリズムに従って指数付けすることができる中心点の周りの円錐または立体角を規定する。ここでは球面量子化が説明されているが、線形または非線形の、任意の好適な量子化が用いられ得る。

さらに、実施形態によっては、方向符号器２０５は、方位角パラメータ値の分散を決定し、これをコヒーレンス符号器２０９に渡すように構成されている。

次に、符号化された方向パラメータはコンバイナ２１１に渡され得る。

メタデータ符号器／量子化器１１１はエネルギー比符号器２０７を含み得る。エネルギー比符号器２０７は、エネルギー比を受信し、エネルギー比をサブ帯域および時間周波数ブロックのために圧縮するために適した符号化を決定するように構成されている。例えば、実施形態によっては、エネルギー比符号器２０７は、各エネルギー比パラメータ値を符号化するために３ビットを用いるように構成されている。

さらに、実施形態によっては、全てのエネルギー比値を全てのＴＦブロックのために伝送または記憶するのではなく、サブ帯域ごとに１つの重み付き平均値のみが伝送または記憶される。平均は、各時間ブロックの総エネルギーを考慮することによって決定され得、それゆえ、より多くのエネルギーを有するサブ帯域の値を支持する。

このような実施形態では、量子化されたエネルギー比値は所与のサブ帯域の全てのＴＦブロックについて同じである。

実施形態によっては、エネルギー比符号器２０７は、量子化された（符号化された）エネルギー比値を、コンバイナ２１１およびコヒーレンス符号器２０９に渡すようにさらに構成されている。

メタデータ符号器／量子化器１１１はコヒーレンス符号器２０９を含み得る。コヒーレンス符号器２０９は、コヒーレンス値を受信し、コヒーレンス値をサブ帯域および時間周波数ブロックのために圧縮するために適した符号化を決定するように構成されている。コヒーレンスパラメータ値のための３ビット精度値が、許容可能な音声合成結果をもたらすことが示されているが、このときでさえも、これは、全てのＴＦブロック（本例では、フレーム当たり、８つのサブ帯域および５つのＴＦブロック）のためのコヒーレンスデータのために合計３ｘ２０ビットを必要とすることになるであろう。

したがって、実施形態の目的は、多数のＴＦブロックにわたってコヒーレンスデータを表現するためのビット数を低減することである。

次に、符号化されたコヒーレンスパラメータ値はコンバイナ２１１に渡され得る。

メタデータ符号器／量子化器１１１はコンバイナ２１１を含み得る。コンバイナは、符号化された（または量子化／圧縮された）方向パラメータ、エネルギー比パラメータ、およびコヒーレンスパラメータを受信し、これらを組み合わせ、好適な出力（例えば、移送信号と組み合わせられるか、または移送信号とは別個に伝送もしくは記憶され得るメタデータビットストリーム）を生成するように構成されている。

図３に関して、いくつかの実施形態に係る図２に示されるとおりのメタデータ符号器／量子化器の例示的な動作が示されている。

最初の動作は、図３に示されるように、ステップ３０１によって、メタデータ（方位角値、仰角値、エネルギー比、コヒーレンス等など）を得ることである。

次に、図３に示されるように、ステップ３０３によって、方向値（仰角、方位角）を（例えば、球面量子化、または任意の好適な圧縮を適用することによって）圧縮または符号化し得る。

図３に示されるように、ステップ３０５によって、エネルギー比値を（例えば、サブ帯域ごとに重み付き平均を生成し、次にこれらを３ビット値として量子化することによって）圧縮または符号化する。

図３に示されるように、ステップ３０７によって、コヒーレンス値も圧縮または符号化する。

次に、図３に示されるように、ステップ３０９によって、符号化された方向値、エネルギー比、コヒーレンス値を組み合わせ、符号化されたメタデータを生成する。

図４に関して、図２に示されるとおりの例示的なコヒーレンス符号器２０９が示されている。

上述されたように、コヒーレンスパラメータの符号化を調節することによって技術的利点を達成することができ、この場合、一部の音声フレームについては、コヒーレンスパラメータが符号化され、その結果、符号化されたビットストリームの部分を形成し、他の音声フレームについては、コヒーレンスパラメータは符号化されない。技術的利点は、符号化されたビットストリームのビットレートの全体的な低減である。

コヒーレンスパラメータを符号化するかどうかの決定は、周囲のサブ帯域に対する各サブ帯域のコヒーレンス値の主観的重要度に基づいて行われ得る。換言すれば、コヒーレンスパラメータを符号化する決定は、コヒーレンスパラメータがエンドユーザの全体的な知覚的聴取体験に寄与するかどうかに基づいて行うことができる。

聴取実験によって、空間音声信号におけるコヒーレンスの知覚は、様々な周波数帯域内に存在する信号の間の相互作用に少なくとも部分的に帰せられ得ることが実証された。これは、音響の知覚のために、人間の周波数分解能は、等価矩形帯域幅（ＥＲＢ）などの非線形周波数スケールに従ってサイロ化（ｓｉｌｏｅｄ）／区画化され得るという前提に反するように思われるかもしれない。

例えば、実験（知覚的聴取試験を含む）を通して、周波数帯域のうちのほとんどについてコヒーレンスが低い場合には、単一の周波数帯域内のより高いコヒーレンスは、空間音声の知覚に大して寄与することができないことが認められた。その結果、この場合には、コヒーレンスパラメータを符号化しないことが、符号化されたビットストリームの全体的なビットレートにとって有益になり得る。

代替的に、知覚的聴取試験を通して、単一の周波数帯域が、他の周囲の周波数帯域よりも相当に低いエネルギー比を有することが見出された場合には、コヒーレンスはその帯域内で知覚的に重要になり得ることも認められた。この場合には、人間の聴覚系は特に敏感になり得ることが見出された。それゆえ、空間音声の全体的聴取体験を向上させるべくコヒーレンスパラメータをフレームのために伝送することが賢明であろう。

したがって、実験的観察の結果は、空間音声信号におけるコヒーレンスの重要度を表現するメトリック（または尺度）が考案され得ることを示唆するであろう。

これらの効果は、空間音声信号における周囲コヒーレンスの知覚のために特に優勢になり得る。しかし、コヒーレンスパラメータを符号化するべきかどうかを決定することに関しては、他の種類のコヒーレンスパラメータの重要度を測定することも利点を有し得る。例えば、これらなどの技法は拡散コヒーレンスパラメータ値にも適用され得る。

上述されたように、コヒーレンスの知覚に関して、これらの効果は周波数帯域の間の相互作用に帰せられ得る。

この点に関して、コヒーレンス値重要度決定器が、ＴＦブロックｎのための各サブ帯域ｋのコヒーレンス値を受信するように示された、図４における４０１をまず参照する。加えて、４０１は、時間指数ｎを有するＴＦブロックのＫ個のサブ帯域に関連付けられたエネルギー比である、ＴＦブロックｎ（またはサブフレームｎ）のための指向性対総計エネルギー比ｒ（ｋ，ｎ）も受信するように構成され得る。同様に、コヒーレンス値もまた、時間指数ｎを有するＴＦブロックのＫ個のサブ帯域のためのＫ個のコヒーレンス値としてコヒーレンス値重要度決定器４０１へ送られる。

第１の実施形態では、コヒーレンス値は周囲コヒーレンス（γ（ｋ，ｎ））を含み得る。ｋは、サブ帯域指数を指示するために用いられ、ｎはＴＦブロックの指数であることに留意されたい。

また、Ｋ個のサブ帯域を含むＴＦブロックのための周囲コヒーレンス値の重要度を決定するための例示的な処理ステップを示す図５を参照する。

最初に、処理ブロック４０１は、指向性対総計エネルギー比ｒ（ｋ，ｎ）を用いることによって、サブ帯域ｋごとの無指向性エネルギー比の推定を決定し得る。実施形態では、無指向性（周囲）エネルギー比ａ（ｋ，ｎ）は次式によって与えることができる
ｋ＝０～Ｋ－１について、ａ（ｋ，ｎ）＝１－ｒ（ｋ，ｎ）

ｒ（ｋ，ｎ）は、総エネルギーに対する特定の方向におけるエネルギーであり、周波数ごとの方向は方位角および仰角によって与えられることに留意されたい。上述されたように、方向は方向符号器２０５からの方向指数によって表現される。エネルギー比ｒ（ｋ，ｎ）は０～１の値を有することができ、１は、総エネルギーがサブ帯域ｋのための１つの方向指数に沿って集中していることを意味するであろう。したがって、ａ（ｋ，ｎ）は、特定のサブ帯域ｋのための周囲（または無指向性）エネルギー、換言すれば、特定の方向指数に沿って集中していないエネルギーの比を表現する。

無指向性（周囲）エネルギーの比を決定する処理ステップが図５における５０１として示されている。

したがって、サブ帯域ｋごとのコヒーレントな無指向性（周囲）エネルギーの割合は次式によって与えることができる
ｋ＝０～Ｋ－１について、ρ（ｋ，ｎ）＝ａ（ｋ，ｎ）γ（ｋ，ｎ）

サブ帯域ごとの無指向性（周囲）エネルギーの割合を決定する処理ステップが図５における処理ステップ５０３として示されている。

ＴＦブロックｎ（またはサブフレームｎ）のための周囲コヒーレンス値の重要度のための第１の尺度（またはメトリック）は、無指向性エネルギーの割合をサブフレームｎのための全てのサブ帯域にわたって合計することによって推定することができる。

第１の尺度ξ₁は、無指向性（サラウンド）エネルギーがサブフレームｎの複数の周波数サブ帯域内で卓越しているかどうかの指示を与えると見なされ得る。

サブフレームｎのための周囲コヒーレンス値の重要度のための第１の尺度を決定する処理ステップが図５における処理ステップ５０５として示されている。

サブフレームｎのための周囲コヒーレンス値の重要度のための第２の尺度（またはメトリック）ξ₂は、無指向性エネルギーρ（ｋ，ｎ）の割合を取り、それを特定のサブ帯域ｋのための周囲（または無指向性）エネルギーの比ａ（ｋ，ｎ）で重み付けすることによって推定することができる。これを全てのサブ帯域にわたって合計し、周囲（または無指向性）エネルギーの「総計」比で正規化することができる。第２の尺度ξ₂は次式として表され得る。

ここで、μは調整因子である。実験的観察によって、μ＝０．４の値が有利な結果をもたらし得ることが示された。

第２の尺度（またはメトリック）ξ₂は、周囲コヒーレントエネルギーが、主として非方向であるサブ帯域内で卓越しているかどうかの尺度を提供し、それゆえ、サブフレームにおける周囲コヒーレンス値が提供し、知覚的に重要であり得、したがって、コヒーレンス値が符号化され、伝送されるべきかどうかに関する指示を提供すると見なされ得る。

ＴＦ（サブフレーム）ｎのための周囲コヒーレンスパラメータの重要度のための第２の尺度を決定する処理ステップが図５における処理ステップ５０７として示されている。

実施形態では、第１および第２の尺度は、ＴＦブロック（サブフレーム）ｎのための周囲コヒーレンス値の重要度のための単一の尺度を提供するよう併合されてもよい。

併合は、第１または第２のどちらかの尺度の最大値を取り、ＴＦブロック（サブフレーム）ｎのための周囲コヒーレンス値の重要度のための単一の尺度ξを与えるという形を取り得る。
ξ（ｎ）＝ｍａｘ（ξ₁（ｎ），ξ₂（ｎ））

コヒーレンス値重要度決定器４０１の出力は周囲コヒーレンス値の重要度のための単一の尺度ξであってもよい。このパラメータはコヒーレンス値符号化決定器４０３に渡され得る。処理ブロック４０３は、サブフレームのためのコヒーレンス値が符号化されるべきか、それとも符号化されるべきでないかを決定するように構成することができる。

第１および第２の尺度を併合し、ＴＦブロックｎのための周囲コヒーレンス値の重要度を指示する単一の尺度を与える処理ステップが図５における５０９によって示されている。

実施形態によっては、周囲コヒーレンス値の重要度のための単一の尺度ξは周囲値の重要度のための第１の尺度ξ₁のみを含み得る。代替的に、他の実施形態では、周囲コヒーレンス値の重要度のための単一の尺度ξは周囲値の重要度のための第２の尺度ξ₂のみを含み得る。換言すれば、これらの実施形態のどちらにおいても、併合ステップ５０９は存在しない。したがって、周囲コヒーレンス値の重要度のための尺度ξは、コヒーレンス値重要度決定器４０１の動作のために、単に第１の尺度ξ₁または単に第２の尺度ξ₂のどちらかであり得る。

図６は、コヒーレンス値符号化決定器４０３によって遂行され得る処理ステップの例示的なセットを示す。

実施形態では、ＴＦブロックのための周囲コヒーレンス値が符号化されるべきかどうかの決定は、周囲コヒーレンス値の重要度のための単一の尺度ξをサブフレームｎのための閾値τ（ｎ）と比較するという形を取り得る。この比較は次式のように表すことができる。
ｅ（ｎ）＝１、ξ（ｎ）＞τ（ｎ）である場合
ｅ（ｎ）＝０、ξ（ｎ）≦τ（ｎ）である場合
ここで、ｅ（ｎ）＝１は、ＴＦブロック（またはサブフレーム）ｎのためのコヒーレンス値を符号化すること（および伝送すること）を表し、ｅ（ｎ）＝０は、サブフレームｎのためのコヒーレンス値を符号化しないことを表す。

閾値は定数であり得る。例えば、τ（ｎ）＝τ＝０．１５などの値を取り得る。代替的に、実施形態によっては、閾値は経時的に変化し得る。例えば、閾値は、符号化ビットレートに基づく因子に基づいて選択され得る。

周囲コヒーレンス値の重要度のための単一の尺度ξを閾値と比較するステップが図６における処理ステップ６０１として示されている。

次に、機能ブロック４０３は、上述の比較の結果が、コヒーレンス値が、符号化を正当化するために十分に重要であることを指示することを条件として、ＴＦブロック（サブフレーム）ｎのためのコヒーレンス値をコヒーレンスパラメータ符号器４０５へ出力するように構成され得る。したがって、図４は、コヒーレンスパラメータ符号化決定器４０３からコヒーレンスパラメータ符号器４０５への接続経路を示す。しかし、周囲コヒーレンス値の重要度のための単一の尺度ξが閾値を超えない場合には、このとき、コヒーレンス値は符号化されない。

図６における６０３の処理ステップは、周囲コヒーレンス値の重要度のための単一の尺度ξが閾値を超え、その結果、ブロックのためのコヒーレンス値が符号化のためにコヒーレンス値符号器４０５へ送信される状況を示す。逆に、図６における６０５の処理ステップは、周囲コヒーレンス値の重要度のための単一の尺度ξが閾値を超えず、その結果、ＴＦブロックのコヒーレンス値が符号化されない状況を示す。

コヒーレンスパラメータ符号器４０５は、知覚的に重要であると決定されたコヒーレンス値を機能ブロック４０３から受信するように構成されている。これらのコヒーレンス値は０～１の８ビット表現であり得る。

コヒーレンス値符号器４０５は、ＴＦブロックごとにＴＦブロック（またはサブフレーム）のためのサブ帯域に関連付けられたコヒーレンス値を符号化するように構成され得る。コヒーレンス値符号器４０５は、サブ帯域ごとのコヒーレンス値が、まず、複数の量子化テーブルからの特定の量子化テーブルを用いてスカラー量子化されるアプローチを採用し得る。コヒーレンス値を量子化するための特定の量子化テーブルの選択はサブ帯域ごとのエネルギー比値に依存し得、各量子化テーブルの項目数は互いに異なり得る。本質的に、複数の量子化テーブルの各量子化テーブルは、特定のエネルギー比値に適合され得る、ある範囲の事前に計算された量子化コヒーレンス値を含み得る。

次に、各コヒーレンス値に関連付けられた量子化テーブル指数は、ＴＦブロックのサブ帯域のための全ての量子化指数が統合指数に互いに連結された直積型符号、またはゴロム・ライス符号などのランレングス符号のどちらかを用いて符号化され得る。

ゴロム・ライス符号を用いてコヒーレンス値のための量子化指数を符号化する場合には、ＴＦブロックのためのそれらの平均値を除去させてもよい。

ＴＦブロックのためのサブ帯域コヒーレンス値量子化指数の符号化のための結合統合指数とゴロム・ライス符号との間の選択は、ゴロム・ライス符号器が使用することになるビット数を推定することに基づいて行うことができる。これが結合統合指数のビットよりも少ない場合には、このとき、ゴロム・ライス符号器が、ＴＦブロックのためのサブ帯域コヒーレンス値量子化指数を符号化するために用いられる。結合統合指数法とゴロム・ライス法との間の選択はビットストリーム内の単一のビットとして信号で伝えることができる。

次に、コードブックに対する指数値が、符号化されたコヒーレンス値を形成し得、次に、これがコンバイナ２１１において、符号化された方向値および符号化されたエネルギー比と組み合わせられ、空間音声メタデータを形成する。

図７に関して、分析または合成デバイスとして用いられ得る例示的な電子デバイスが示される。デバイスは任意の好適な電子デバイスまたは装置であり得る。例えば、実施形態によっては、デバイス１４００は、モバイルデバイス、ユーザ機器、タブレットコンピュータ、コンピュータ、音声再生装置等である。

実施形態によっては、デバイス１４００は少なくとも１つのプロセッサまたは中央処理装置１４０７を備える。プロセッサ１４０７は、本明細書において説明されるものなどの方法などの様々なプログラムコードを実行するように構成することができる。

実施形態によっては、デバイス１４００はメモリ１４１１を備える。実施形態によっては、少なくとも１つのプロセッサ１４０７はメモリ１４１１に結合されている。メモリ１４１１は任意の好適な記憶手段であることができる。実施形態によっては、メモリ１４１１は、プロセッサ１４０７上で実施可能なプログラムコードを記憶するためのプログラムコードセクションを含む。さらに、実施形態によっては、メモリ１４１１は、データ、例えば、本明細書において説明されるとおりの実施形態に従って処理された、または処理される予定のデータを記憶するための記憶データセクションをさらに含むことができる。プログラムコードセクション内に記憶された実施プログラムコード、および記憶データセクション内に記憶されたデータは、プロセッサ１４０７によって、必要なときにいつでもメモリ－プロセッサ結合を介して取得され得る。

実施形態によっては、デバイス１４００はユーザインターフェース１４０５を備える。ユーザインターフェース１４０５は、実施形態によっては、プロセッサ１４０７に結合され得る。実施形態によっては、プロセッサ１４０７はユーザインターフェース１４０５の動作を制御し、ユーザインターフェース１４０５からの入力を受信することができる。実施形態によっては、ユーザインターフェース１４０５は、ユーザが、例えば、キーパッドを介して、コマンドをデバイス１４００に入力することを可能にすることができる。実施形態によっては、ユーザインターフェース１４０５は、ユーザがデバイス１４００から情報を得ることを可能にすることができる。例えば、ユーザインターフェース１４０５は、デバイス１４００からの情報をユーザに表示するように構成されたディスプレイを含み得る。ユーザインターフェース１４０５は、実施形態によっては、情報がデバイス１４００に入力されることを可能にすること、および情報をデバイス１４００のユーザにさらに表示することの両方の能力を有するタッチスクリーンまたはタッチインターフェースを含むことができる。実施形態によっては、ユーザインターフェース１４０５は、本明細書において説明されるとおりの位置決定器と通信するためのユーザインターフェースであり得る。

実施形態によっては、デバイス１４００は入力／出力ポート１４０９を備える。入力／出力ポート１４０９は、実施形態によっては、送受信器を含む。このような実施形態における送受信器はプロセッサ１４０７に結合され、例えば、無線通信ネットワークを介して他の装置または電子デバイスとの通信を可能にするように構成することができる。送受信器、あるいは任意の好適な送受信器または伝送器および／または受信器手段は、実施形態によっては、配線または有線結合を介して他の電子デバイスまたは装置と通信するように構成することができる。

送受信器は、任意の好適な知られた通信プロトコルによってさらなる装置と通信することができる。例えば、実施形態によっては、送受信器は、好適なユニバーサル移動体通信システム（ｕｎｉｖｅｒｓａｌｍｏｂｉｌｅｔｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓｓｙｓｔｅｍ、ＵＭＴＳ）プロトコル、例えば、ＩＥＥＥ８０２．Ｘなどの、無線ローカルエリアネットワーク（ｗｉｒｅｌｅｓｓｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ、ＷＬＡＮ）プロトコル、Ｂｌｕｅｔｏｏｔｈなどの好適な近距離無線周波数通信プロトコル、または赤外線データ通信経路（ｉｎｆｒａｒｅｄｄａｔａｃｏｍｍｕｎｉｃａｔｉｏｎｐａｔｈｗａｙ、ＩＲＤＡ）を用いることができる。

送受信器入力／出力ポート１４０９は、信号を受信し、実施形態によっては、好適なコードを実行するプロセッサ１４０７を用いることによって本明細書において説明されるとおりのパラメータを決定するように構成され得る。さらに、デバイスは、合成デバイスへ伝送されるべき好適なダウンミックス信号およびパラメータ出力を生成し得る。

実施形態によっては、デバイス１４００は合成デバイスの少なくとも部分として採用され得る。それゆえ、入力／出力ポート１４０９は、本明細書において説明されるとおりの取り込みデバイスまたは処理デバイスにおいて決定されたダウンミックス信号、および実施形態によっては、パラメータを受信し、好適なコードを実行するプロセッサ１４０７を用いることによって出力される好適な音声信号形式を生成するように構成され得る。入力／出力ポート１４０９は、例えば、マルチチャンネルスピーカシステムおよび／またはヘッドフォンもしくは同様のものへの任意の好適な音声出力に結合され得る。

概して、本発明の様々な実施形態は、ハードウェアまたは専用回路、ソフトウェア、論理あるいはこれらの任意の組み合わせの形態で実施され得る。例えば、いくつかの態様はハードウェアの形態で実施され得、その一方で、他の態様は、コントローラ、マイクロプロセッサまたはその他のコンピューティングデバイスによって実行され得るファームウェアまたはソフトウェアの形態で実施され得る。ただし、本発明はこれらに限定されない。本発明の様々な態様は、ブロック図、フローチャートとして、または何らかの他の図的表現を用いて図解され、説明されている場合があるが、本明細書において説明されているこれらのブロック、装置、システム、技法、または方法は、非限定例として、ハードウェア、ソフトウェア、ファームウェア、専用回路もしくは論理、汎用ハードウェアもしくはコントローラ、または他のコンピューティングデバイス、あるいはこれらの何らかの組み合わせの形態で実施され得ることは十分理解される。

本発明の実施形態は、例えば、プロセッサエンティティ内の、モバイルデバイスのデータプロセッサによって実行可能なコンピュータソフトウェアによって、またはハードウェアによって、あるいはソフトウェアおよびハードウェアの組み合わせによって実施され得る。さらに、この点に関して、図にあるような論理フローの任意のブロックは、プログラムステップ、あるいは相互接続された論理回路、ブロック、および機能、あるいはプログラムステップ、ならびに論理回路、ブロック、および機能の組み合わせを表現し得ることに留意されたい。ソフトウェアは、メモリチップなどの物理媒体、あるいはプロセッサ内に実装されたメモリブロック、ハードディスクまたはフロッピーディスクなどの磁気媒体、ならびに例えば、ＤＶＤ、およびそのデータ変種、ＣＤなどの光媒体上に記憶され得る。

メモリは、局所的技術環境に適した任意の種類のものであり得、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光メモリデバイスおよびシステム、固定式メモリおよび着脱式メモリなどの、任意の好適なデータ記憶技術を用いて実装され得る。データプロセッサは、局所的技術環境に適した任意の種類のものであり得、非限定例として、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ、ＤＳＰ）、特定用途向け集積回路（ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ、ＡＳＩＣ）、ゲートレベル回路、およびマルチコアプロセッサアーキテクチャに基づくプロセッサのうちの１つまたは複数を含み得る。

本発明の実施形態は集積回路モジュールなどの様々な構成要素において実施され得る。集積回路の設計は、概して、高度に自動化されたプロセスである。論理レベルの設計を、半導体基板上でエッチングおよび形成される準備ができた半導体回路設計に変換するための複雑で強力なソフトウェアツールが利用可能である。

プログラムは、十分に確立された設計規則、および事前に記憶された設計モジュールのライブラリを用いて、導線を配線し、半導体チップ上の構成要素の位置を決定することができる。半導体回路のための設計が完了すると、標準化された電子形式による、得られた設計は製造のために半導体製造施設または「製造工場（ｆａｂ）」へ伝送され得る。

上述の説明は、例示的な非限定例を用いて、本発明の例示的な実施形態の完全で情報価値のある説明を与えた。しかし、当業者には、添付の図面および添付の請求項と併せて読むことで、上述の説明を考慮して様々な変更および適合が明らかになるであろう。しかし、本発明の教示のこのような変更および同様の変更は全て、添付の請求項において定義されるとおりの本発明の範囲に依然として含まれることになる。

１００システム
１０２マルチチャンネル信号
１０３移送信号生成器
１０４移送信号
１０５分析プロセッサ
１０６メタデータ
１０７符号器
１０８方向パラメータ
１０９音声符号器コア
１１０エネルギー比パラメータ
１１１メタデータ符号器／量子化器
１１２コヒーレンスパラメータ
１２１分析部分
１３１合成部分
１３３復号器／デマルチプレクサ
１３５移送抽出器
１３７メタデータ抽出器
１３９合成プロセッサ
２０１時間周波数領域変換器
２０２時間周波数信号
２０３空間分析器
２０５方向符号器
２０７エネルギー比符号器
２０９コヒーレンス符号器
２１１コンバイナ
４０１コヒーレンス値重要度決定器
４０３コヒーレンス値符号化決定器
４０５コヒーレンスパラメータ符号器
１４００デバイス
１４０５ユーザインターフェース
１４０７プロセッサ
１４０９入力／出力ポート
１４１１メモリ

Claims

空間音声符号化のための装置であって、
１つまたは複数の音声信号のために、空間音声再生を提供するためのサブ帯域ベースの空間音声パラメータを受信または決定するための手段であって、前記空間音声パラメータがフレームの複数のサブ帯域のサブ帯域ごとの周囲コヒーレンス値を含む、手段と、
前記複数のサブ帯域のそれぞれごとの方向対エネルギー比値を受信するための手段と、
前記複数のサブ帯域の各々のためのコヒーレントな無指向性エネルギーの割合を決定するための手段であって、サブ帯域のためのコヒーレントな無指向性エネルギーの前記割合が、前記サブ帯域のための無指向性エネルギー比に前記サブ帯域のための前記周囲コヒーレンス値を乗算したものとして決定され、前記無指向性エネルギー比が、１から前記サブ帯域のための前記指向性対総計エネルギー比を引いたものとして決定される、手段、及び全ての前記複数のサブ帯域のために、コヒーレントな無指向性エネルギーの前記決定された割合を合計するための手段を備える、決定するための手段によって、前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための重要度尺度を決定するための手段と、
前記重要度尺度を用いて、前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値を符号化するべきかどうかを決定するための手段と、
を備える、装置。
前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための前記重要度尺度を決定するための前記手段が、
サブ帯域ごとに、コヒーレントな無指向性エネルギーの前記割合に前記無指向性エネルギー比を乗算するための手段、
全ての前記複数のサブ帯域のために、サブ帯域ごとの、コヒーレントな無指向性エネルギーの前記割合と前記無指向性エネルギー比との積を合計するための手段、および
サブ帯域ごとの、コヒーレントな無指向性エネルギーの前記割合と前記無指向性エネルギー比との前記合計された積を、サブ帯域ごとの前記無指向性エネルギー比の合計によって正規化するための手段、
をさらに備える、請求項１に記載の装置。
前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための前記重要度尺度が前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための第１の重要度尺度である、請求項１に記載の装置。
前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための前記重要度尺度が前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための第２の重要度尺度である、請求項２に記載の装置。
前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための前記重要度尺度を決定するための前記手段が、
前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための前記重要度尺度を前記第１の重要度尺度および前記第２の重要度尺度のうちの最大値として決定するための手段を備える、請求項３または４に記載の装置。
前記重要度尺度を用いて、前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値を符号化するべきかどうかを決定するための前記手段が、
前記重要度尺度を閾値と比較するための手段、および
前記重要度尺度が前記閾値を超えたときに、前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値を符号化するための手段、
を備える、請求項１～２および５のいずれか１項に記載の装置。
前記周囲コヒーレンス値が前記２つ以上のチャンネル音声信号の間のチャンネル間コヒーレンスに基づいて決定される、請求項１～６のいずれか１項に記載の装置。
前記複数のサブ帯域の各々のための前記周囲コヒーレンス値が、前記装置が、
前記２つ以上のチャンネル音声信号に関連付けられた共分散行列を計算すること、
前記共分散行列に基づいて決定された最も大きいエネルギーを有するチャンネル音声信号、および他のチャンネル音声信号のサブセットを監視することであって、前記サブセットが、１つ～次に大きいエネルギーを有するチャンネル音声信号の総数より１つ少ないものの間で決定された数である、監視すること、ならびに
前記最も大きいエネルギーを有する前記チャンネル音声信号と、前記次に大きいエネルギーのチャンネル音声信号の各々との間で決定された正規化コヒーレンスのうちの最小値を選択することに基づいて前記周囲共分散パラメータを生成すること、
を行うための手段を備えることによって決定される、請求項７に記載の装置。
空間音声符号化のための方法であって、
１つまたは複数の音声信号のために、空間音声再生を提供するためのサブ帯域ベースの空間音声パラメータを受信または決定することであって、前記空間音声パラメータがフレームの複数のサブ帯域のサブ帯域ごとの周囲コヒーレンス値を含む、受信または決定することと、
前記複数のサブ帯域のそれぞれごとの方向対エネルギー比値を受信することと、
前記複数のサブ帯域の各々のためのコヒーレントな無指向性エネルギーの割合を決定することであって、サブ帯域のためのコヒーレントな無指向性エネルギーの前記割合が、前記サブ帯域のための無指向性エネルギー比に前記サブ帯域のための前記周囲コヒーレンス値を乗算したものとして決定され、前記無指向性エネルギー比が、１から前記サブ帯域のための前記指向性対総計エネルギー比を引いたものとして決定される、決定すること、及び全ての前記複数のサブ帯域のために、コヒーレントな無指向性エネルギーの前記決定された割合を合計することを含む、決定することによって、前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための重要度尺度を決定することと、
前記重要度尺度を用いて、前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値を符号化するべきかどうかを決定することと、
を含む、方法。
前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための前記重要度尺度を決定することが、
サブ帯域ごとに、コヒーレントな無指向性エネルギーの前記割合に前記無指向性エネルギー比を乗算すること、
全ての前記複数のサブ帯域のために、サブ帯域ごとの、コヒーレントな無指向性エネルギーの前記割合と前記無指向性エネルギー比との積を合計すること、および
サブ帯域ごとの、コヒーレントな無指向性エネルギーの前記割合と前記無指向性エネルギー比との前記合計された積を、サブ帯域ごとの前記無指向性エネルギー比の合計によって正規化すること、
をさらに含む、請求項９に記載の方法。
前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための前記重要度尺度が前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための第１の重要度尺度である、請求項９に記載の方法。
前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための前記重要度尺度が前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための第２の重要度尺度である、請求項１０に記載の方法。
前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための前記重要度尺度を決定することが、
前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための前記重要度尺度を前記第１の重要度尺度および前記第２の重要度尺度のうちの最大値として決定することを含む、請求項１１または１２に記載の方法。
前記重要度尺度を用いて、前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値を符号化するべきかどうかを決定することが、
前記重要度尺度を閾値と比較すること、および
前記重要度尺度が前記閾値を超えたときに、前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値を符号化すること、
を含む、請求項９～１０および１３のいずれか１項に記載の方法。
前記周囲コヒーレンス値が前記２つ以上のチャンネル音声信号の間のチャンネル間コヒーレンスに基づいて決定される、請求項９～１４のいずれか１項に記載の方法。
前記複数のサブ帯域の各々のための前記周囲コヒーレンス値が、前記装置が、
前記２つ以上のチャンネル音声信号に関連付けられた共分散行列を計算すること、
前記共分散行列に基づいて決定された最も大きいエネルギーを有するチャンネル音声信号、および他のチャンネル音声信号のサブセットを監視することであって、前記サブセットが、１つ～次に大きいエネルギーを有するチャンネル音声信号の総数より１つ少ないものの間で決定された数である、監視すること、ならびに
前記最も大きいエネルギーを有する前記チャンネル音声信号と、前記次に大きいエネルギーのチャンネル音声信号の各々との間で決定された正規化コヒーレンスのうちの最小値を選択することに基づいて前記周囲共分散パラメータを生成すること、
を含むことによって決定される、請求項１５に記載の方法。
コンピュータプログラムコードを記憶した非一時的なコンピュータ読取可能記録媒体であって、前記コンピュータプログラムコードは少なくとも１つのプロセッサ上で実行されたときに、装置に、
１つまたは複数の音声信号のために、空間音声再生を提供するためのサブ帯域ベースの空間音声パラメータを受信または決定させ、前記空間音声パラメータがフレームの複数のサブ帯域のサブ帯域ごとの周囲コヒーレンス値を含み、
前記複数のサブ帯域のそれぞれごとの方向対エネルギー比値を受信させ、
前記装置に、前記複数のサブ帯域の各々のためのコヒーレントな無指向性エネルギーの割合を決定させ、サブ帯域のためのコヒーレントな無指向性エネルギーの前記割合が、前記サブ帯域のための無指向性エネルギー比に前記サブ帯域のための前記周囲コヒーレンス値を乗算したものとして決定され、前記無指向性エネルギー比が、１から前記サブ帯域のための前記指向性対総計エネルギー比を引いたものとして決定されるものであり、及び全ての前記複数のサブ帯域のために、コヒーレントな無指向性エネルギーの前記決定された割合を合計させることによって、前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための重要度尺度を決定させ、
前記重要度尺度を用いて、前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値を符号化するべきかどうかを決定させる、
ことを特徴とする、コンピュータ読取可能記録媒体。