JP7526173B2

JP7526173B2 - 方向性音量マップベースのオーディオ処理

Info

Publication number: JP7526173B2
Application number: JP2021523056A
Authority: JP
Inventors: ヘレ・ユルゲン; マヌエルデルガド・パブロ; ディック・ザシャ
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2018-10-26
Filing date: 2019-10-28
Publication date: 2024-07-31
Anticipated expiration: 2039-10-28
Also published as: EP4220639A1; US20210383820A1; WO2020084170A1; JP2022177253A; RU2022106060A; EP3871216A1; JP2022505964A; BR112021007807A2; CN113302692A; EP4213147A1; RU2022106058A

Description

本発明による実施形態は、方向性音量マップベースのオーディオ処理に関する。

知覚オーディオコーダの出現により、時間およびリソースを節約するために広範な主観的聴取試験に頼ることなく符号化信号のオーディオの質を予測することができるアルゴリズムを開発することに大きな関心が生じた。ＰＥＡＱ［３］またはＰＯＬＱＡ［４］などのモノラル符号化された信号に対して質のいわゆる客観的評価を実行するアルゴリズムが広く普及している。しかしながら、空間オーディオ技術で符号化された信号に対するそれらの性能は依然として不十分であると考えられている［５］。さらに、分析のために抽出された特徴の多くは波形保存条件を想定しているため、これらのアルゴリズムに質損失を過大評価させるための帯域幅拡張（ＢＷＥ）などの非波形保存技術も知られている［６］。空間オーディオおよびＢＷＥ技術は、低ビットレートオーディオコーディング（チャネルあたり約３２ｋｂｐｓ）で主に使用される。

３つ以上のチャネルの空間オーディオコンテンツは、頭部伝達関数（ＨＲＴＦ）および／またはバイノーラル室内インパルス応答（ＢＲＩＲ）のセットを使用することによって左耳および右耳に入る信号のバイノーラル表現にレンダリングすることができると仮定される［５、７］。質のバイノーラル客観評価のために提案された拡張のほとんどは、左耳および右耳に入る信号間の両耳間レベルの差（ＩＬＤ）、両耳間時間差（ＩＴＤ）、および両耳間相互相関（ＩＡＣＣ）などの音像定位および知覚される聴覚源幅の人間の知覚に関連する周知のバイノーラル聴覚キューに基づいている［１、５、８、９］。客観的質評価の文脈では、基準信号および試験信号からのこれらの空間キューに基づいて特徴が抽出され、２つの間の距離尺度が歪みインデックスとして使用される。これらの空間キューおよびそれらの関連する知覚された歪みを考慮することにより、空間オーディオコーディングアルゴリズム設計のコンテキストにおいてかなりの進歩が可能になった［７］。しかしながら、全体的な空間オーディオコーディングの質を予測するユースケースでは、これらのキューの歪みの相互作用およびモノラル／音色歪み（特に非波形保持の場合）は、ＭＵＳＨＲＡ［１１］などの主観的な質のテストによって与えられる単一の質スコアを予測するために特徴を使用するときに様々な結果を伴う複雑なシナリオをレンダリングする［１０］。バイノーラルモデルの出力がクラスタリングアルゴリズムによってさらに処理されて、瞬間聴覚画像内の関与する音源の数を識別し、したがって古典的な聴覚キュー歪みモデルの抽象化でもある他の代替モデルも提案されている［２］。それにもかかわらず、［２］のモデルは、主に空間内の移動源に焦点を当てており、その性能もまた、関連するクラスタリングアルゴリズムの精度および追跡能力によって制限される。このモデルを使用可能にするための追加機能の数も重要である。

客観的なオーディオ質測定システムはまた、特徴の歪みを聴取試験によって提供される質スコアにマッピングするための限られた量のグランドトゥルースデータを考慮して、オーバーフィッティングのリスクを回避するために、可能な限り最小の、相互に独立した、最も関連性のある抽出された信号特徴を使用するべきである［３］。

低ビットレートで空間的に符号化されたオーディオ信号の聴取試験で報告される最も顕著な歪み特性の１つは、中心位置およびチャネルクロストークに向かうステレオ画像の崩壊として説明される［１２］。

したがって、改善された、効率的で高精度のオーディオ分析、オーディオコーディング、およびオーディオ復号を提供する概念を獲得することが望まれている。
これは、本出願の独立請求項の主題によって達成される。
本発明によるさらなる実施形態は、本出願の従属請求項の主題によって定義される。

本発明による一実施形態は、オーディオアナライザ、例えばオーディオ信号アナライザに関する。オーディオアナライザは、２つ以上の入力オーディオ信号のスペクトル領域表現を取得するように構成されている。したがって、オーディオアナライザは、例えば、スペクトル領域表現を決定または受信するように構成される。一実施形態によれば、オーディオアナライザは、２つ以上の入力オーディオ信号を時間周波数タイルに分解することによってスペクトル領域表現を取得するように構成される。さらに、オーディオアナライザは、スペクトル領域表現のスペクトル帯域に関連する方向情報を取得するように構成される。方向情報は、例えば、２つ以上の入力オーディオ信号に含まれる異なるオーディオ成分の方向（または位置）を表す。一実施形態によれば、方向情報は、例えば、バイノーラル処理における２つ以上の入力オーディオ信号によって生成された音場内の音源位置を記述するパンニングインデックスとして理解することができる。さらに、オーディオアナライザは、異なる方向に関連する音量情報を分析結果として取得するように構成され、音量情報への寄与は、方向情報に応じて決定される。換言すれば、オーディオアナライザは、例えば、異なるパンニング方向もしくはパンニングインデックス、または複数の異なる評価された方向範囲に関連する音量情報を分析結果として取得するように構成される。一実施形態によれば、異なる方向、例えば、パンニング方向、パンニングインデックスおよび／または方向範囲は、方向情報から取得することができる。音量情報は、例えば、方向性音量マップまたはレベル情報またはエネルギー情報を含む。音量情報への寄与は、例えば、音量情報へのスペクトル領域表現のスペクトル帯域の寄与である。一実施形態によれば、音量情報への寄与は、異なる方向に関連する音量情報の値への寄与である。

この実施形態は、２つ以上の入力オーディオ信号から得られた方向情報に応じて音量情報を決定することが有利であるという考えに基づいている。これにより、２つ以上のオーディオ信号によって実現されるステレオオーディオミックス内の異なる音源の音量に関する情報を取得することが可能になる。したがって、オーディオアナライザでは、異なる方向に関連する音量情報を分析結果として取得することによって、２つ以上のオーディオ信号の知覚を非常に効率的に分析することができる。一実施形態によれば、音量情報は、例えば、すべてのＥＲＢ帯域にわたって平均化された、異なる方向における２つ以上の信号の組み合わせの音量に関する情報、または２つ以上の入力オーディオ信号の少なくとも１つの共通時間信号の音量に関する情報を与える方向性音量マップを含むかまたは表すことができる（ＥＲＢ＝等価矩形帯域幅）。

一実施形態によれば、オーディオアナライザは、２つ以上の入力オーディオ信号のスペクトル領域（例えば、時間周波数領域）表現に基づいて、複数の重み付けスペクトル領域（例えば、時間周波数領域）表現（例えば、「方向性信号」）を取得するように構成される。１つまたは複数のスペクトル領域表現の値は、複数の重み付けスペクトル領域表現（例えば、「方向性信号」）を取得するために、２つ以上の入力オーディオ信号内のオーディオ成分（例えば、スペクトルビンまたはスペクトル帯域の）（例えば、楽器または歌唱者からのチューニング）の異なる方向（例えば、パンニング直接）に応じて重み付けされる（例えば、重み係数によって表される）。オーディオアナライザは、分析結果として、重み付けスペクトル領域表現（例えば、「方向性信号」）に基づいて、異なる方向（例えば、パンニング方向）に関連する音量情報（例えば、複数の異なる方向の音量値；例えば、「方向性音量マップ」）を取得するように構成される。

これは、例えば、オーディオアナライザが、１つまたは複数のスペクトル領域表現の値が音量情報に影響を及ぼすオーディオ成分の異なる方向のうちのどの方向にあるかを分析することを意味する。各スペクトルビンは、例えば、特定の方向に関連付けられており、特定の方向に関連付けられた音量情報は、この方向に関連付けられた複数のスペクトルビンに基づいてオーディオアナライザによって決定することができる。重み付けは、１つまたは複数のスペクトル領域表現の各ビンまたは各スペクトル帯域に対して実行することができる。一実施形態によれば、周波数ビンまたは周波数グループの値は、異なる方向のうちの１つへの重み付けによってウィンドウイングされる。例えば、それらは、それらが関連付けられている方向および／または隣接する方向に重み付けされる。方向は、例えば、周波数ビンまたは周波数グループが音量情報に影響を及ぼす方向に関連付けられる。その方向から逸脱する値は、例えば、あまり重要ではない。したがって、複数の重み付けスペクトル領域表現は、異なる方向の音量情報に影響を及ぼすスペクトルビンまたはスペクトル帯域の指示を提供することができる。一実施形態によれば、複数の重み付けスペクトル領域表現は、音量情報への寄与を少なくとも部分的に表すことができる。

一実施形態によれば、オーディオアナライザは、２つ以上の変換されたオーディオ信号を得るために、２つ以上の入力オーディオ信号を短時間フーリエ変換（ＳＴＦＴ）領域（例えば、Ｈａｎｎ窓を使用する）に分解（例えば、変換）するように構成される。２つ以上の変換オーディオ信号は、２つ以上の入力オーディオ信号のスペクトル領域（例えば、時間周波数領域）表現を表すことができる。

一実施形態によれば、オーディオアナライザは、２つ以上の変換されたオーディオ信号のスペクトルビンを、２つ以上の変換されたオーディオ信号のスペクトル帯域に（例えば、グループまたはスペクトル帯域の帯域幅が周波数の増加に伴って増加するように）グループ化するように構成される（例えば、ヒトの蝸牛の周波数選択性に基づく）。さらに、オーディオアナライザは、２つ以上の入力オーディオ信号の１つ以上のスペクトル領域表現を得るために、外耳モデルおよび中耳モデルに基づいて、異なる重みを使用してスペクトル帯域（例えば、スペクトル帯域内のスペクトルビン）を重み付けするように構成される。スペクトルビンをスペクトル帯域に特別にグループ化し、スペクトル帯域を重み付けすることにより、２つ以上の入力オーディオ信号が準備され、前記信号を聞くユーザによる２つ以上の入力オーディオ信号の音量知覚を、音量情報を決定するという観点でオーディオアナライザによって非常に正確かつ効率的に推定または決定することができる。この特徴により、変換オーディオ信号は、２つ以上の入力オーディオ信号のスペクトル領域表現をそれぞれ人間の耳に適合させて、オーディオアナライザによって取得される音量情報の情報コンテンツを改善する。

一実施形態によれば、２つ以上の入力オーディオ信号は、異なる方向または異なるスピーカ位置（例えば、Ｌ（左）、Ｒ（右））に関連付けられる。異なる方向または異なるスピーカ位置は、ステレオおよび／またはマルチチャネルオーディオシーンの異なるチャネルを表すことができる。２つ以上の入力オーディオ信号は、インデックスによって互いに区別することができ、インデックスは、例えば、アルファベットの文字（例えば、Ｌ（左）、Ｒ（右）、Ｍ（中央））によって、または例えば、２つ以上の入力オーディオ信号のチャネルの番号を示す正の整数によって表すことができる。したがって、インデックスは、２つ以上の入力オーディオ信号が関連付けられる異なる方向またはスピーカの位置を示すことができる（例えば、これらは、入力信号が聴取空間内で発生する位置を示す）。一実施形態によれば、２つ以上の入力オーディオ信号の異なる方向（以下では、例えば、第１の異なる方向）は、オーディオアナライザによって取得される音量情報が関連付けられる異なる方向（以下では、例えば、第２の異なる方向）に関連しない。したがって、第１の異なる方向の方向は、２つ以上の入力オーディオ信号の信号のチャネルを表すことができ、第２の異なる方向の方向は、２つ以上の入力オーディオ信号の信号のオーディオ成分の方向を表すことができる。第２の異なる方向は、第１の方向の間に配置することができる。追加的または代替的に、第２の異なる方向は、第１の方向の外側および／または第１の方向に配置することができる。

一実施形態によれば、オーディオアナライザは、スペクトルビン（例えば、および時間ステップ／フレームごと）ごとに、かつ複数の所定の方向（所望のパンニング方向）に対する方向依存重み付け（例えば、パンニング方向に基づく）を決定するように構成される。所定の方向は、例えば、所定のパンニング方向／インデックスに関連付けることができる等距離方向を表す。あるいは、所定の方向は、例えば、オーディオアナライザによって取得されたスペクトル領域表現のスペクトル帯域に関連する方向情報を使用して決定される。一実施形態によれば、方向情報は、所定の方向を含むことができる。方向依存重み付けは、例えば、オーディオアナライザによって２つ以上の入力オーディオ信号の１つ以上のスペクトル領域表現に適用される。方向依存重み付けでは、スペクトルビンの値は、例えば、複数の所定の方向のうちの１つまたは複数の方向に関連付けられる。この方向依存重み付けは、例えば、２つ以上の入力オーディオ信号のスペクトル領域表現の各スペクトルビンが、複数の所定の方向のうちの１つ以上の異なる方向において音量情報に寄与するという考えに基づいている。各スペクトルビンは、例えば、主に１つの方向に寄与し、隣接する方向にはわずかしか寄与しないため、異なる方向に対して異なるようにスペクトルビンの値を重み付けすることが有利である。

一実施形態によれば、オーディオアナライザは、それぞれの抽出された方向値（例えば、考慮中の時間周波数ビンに関連付けられる）とそれぞれの所定の方向値との間の偏差が増加するにつれて方向依存重み付けが減少するように、ガウス関数を使用して方向依存重み付けを決定するように構成される。それぞれの抽出された方向値は、２つ以上の入力オーディオ信号におけるオーディオ成分の方向を表すことができる。抽出されたそれぞれの方向値の間隔は、完全に左への方向と完全に右への方向との間にあることができ、左および右の方向は、２つ以上の入力オーディオ信号（例えば、スピーカに面する）を知覚するユーザに関するものである。一実施形態によれば、オーディオアナライザは、抽出された各方向値を所定の方向値として、または等距離方向値を所定の方向値として決定することができる。したがって、例えば、抽出された方向に対応する１つまたは複数のスペクトルビンは、抽出された方向値に対応する所定の方向よりも重要ではないガウス関数に従って、この抽出された方向に隣接する所定の方向において重み付けされる。抽出された方向に対する所定の方向の距離が大きいほど、スペクトルビンまたはスペクトル帯域の重み付けが減少し、例えば、スペクトルビンは、対応する抽出された方向から遠く離れた位置での音量知覚にほとんどまたはまったく影響を及ぼさない。

一実施形態によれば、オーディオアナライザは、抽出された方向値としてパンニングインデックス値を決定するように構成される。パンニングインデックス値は、例えば、２つ以上の入力オーディオ信号によって生成されたステレオミックス内の音源の時間周波数成分（すなわち、スペクトルビン）の方向を一意に示す。

一実施形態によれば、オーディオアナライザは、入力オーディオ信号のスペクトル領域値に応じて抽出された方向値を決定するように構成される（例えば、入力オーディオ信号のスペクトル領域表現の値）。抽出された方向値は、例えば、入力オーディオ信号間の信号成分（例えば、時間周波数ビン）の振幅パンニングの評価に基づいて、または入力オーディオ信号の対応するスペクトル領域値の振幅間の関係に基づいて決定される。一実施形態によれば、抽出された方向値は、入力オーディオ信号のスペクトル領域値間の類似度を定義する。

一実施形態によれば、オーディオアナライザは、以下の

に従い、所定の方向（例えば、インデックス

によって表される）、時間インデックスｍで指定された時間（または時間フレーム）、時間インデックスｍで指定された時間、およびスペクトルビンインデックスｋで指定されたスペクトルビンに関連する方向依存重み付け

を取得するように構成され、式中、

は所定の値であり（これは、例えば、ガウスウィンドウの幅を制御する）、

は時間インデックスｍで指定された時間（または時間フレーム）、およびスペクトルビンインデックスｋで指定されたスペクトルビンと関連付けられた抽出された方向値を指定し、

は所定の方向（例えば、方向インデックスｊを有する）を指定する（または関連付けられた）方向値である。方向依存重み付けは、抽出された方向値（例えば、パンニングインデックス）の等化

（例えば、所定の方向を等しくすること）したスペクトル値またはスペクトルビンまたはスペクトル帯域が方向依存重み付けを変更せずに通過し、

からずれている抽出された方向値（例えば、パンニングインデックス）のスペクトル値またはスペクトルビンまたはスペクトル帯域が重み付けされるという考えに基づいている。一実施形態によれば、

に近い抽出された方向値のスペクトル値またはスペクトルビンまたはスペクトル帯域は重み付けされて渡され、残りの値は拒否される（例えば、さらに処理されない）。

一実施形態によれば、オーディオアナライザは、重み付けスペクトル領域表現（例えば、「方向性信号」）を得るために、２つ以上の入力オーディオ信号の１つ以上のスペクトル領域表現に方向依存重み付けを適用するように構成される。したがって、重み付けスペクトル領域表現は、例えば、許容値内の１つまたは複数の所定の方向に対応する２つ以上の入力オーディオ信号の１つまたは複数のスペクトル領域表現のスペクトルビン（すなわち、時間周波数成分）などを含む（例えば、選択された所定の方向に隣接する異なる所定の方向に関連付けられたスペクトルビンも）。一実施形態によれば、各所定の方向について、重み付けスペクトル領域表現は、方向依存重み付けによって実現することができる（例えば、重み付けスペクトル領域表現は、所定の方向に関連付けられた、および／または経時的に所定の方向の近傍の方向に関連付けられた、方向依存重み付けスペクトル値、スペクトルビンまたはスペクトル帯域を含むことができる）。あるいは、各スペクトル領域表現（例えば、２つ以上の入力オーディオ信号のうちの）について、例えば、すべての所定の方向に対して重み付けされた対応するスペクトル領域表現を表す、１つの重み付けスペクトル領域表現が得られる。

一実施形態によれば、オーディオアナライザは、第１の所定の方向（例えば、第１のパンニング方向）に関連する信号成分が、第１の重み付けスペクトル領域表現において、関連する他の方向（第１の所定の方向とは異なり、例えばガウス関数に従って減衰される）を有する信号成分よりも強調され、（第１の所定の方向とは異なる）第２の所定の方向（例えば、第２のパンニング方向）に関連する信号成分が、第２の重み付けスペクトル領域表現において、関連する他の方向（第２の所定の方向とは異なり、例えばガウス関数に従って減衰される）を有する信号成分よりも強調されるように、重み付けスペクトル領域表現を取得するように構成される。したがって、例えば、所定の方向ごとに、２つ以上の入力オーディオ信号の各信号に対する重み付けスペクトル領域表現を決定することができる。

一実施形態によれば、オーディオアナライザは、入力オーディオ信号またはインデックスｉによって指定される入力オーディオ信号の組み合わせ、インデックスｂによって指定されるスペクトル帯域、インデックス

によって指定される方向、時間インデックスｍによって指定される時間（または時間フレーム）、およびスペクトルビンインデックスｋによって指定されるスペクトルビンに関連する重み付けスペクトル領域表現

を取得するように構成され、

に従っており、入力オーディオ信号またはインデックスｉによって指定される入力オーディオ信号の組み合わせ（例えば、ｉ＝Ｌまたはｉ＝Ｒまたはｉ＝ＤＭ；（Ｌ＝左、Ｒ＝右、およびＤＭ＝ダウンミックス））、インデックスｂによって指定されるスペクトル帯域、時間インデックスｍによって指定される時間（または時間フレーム）、およびスペクトルビンインデックスｋによって指定されるスペクトルビンに関連するスペクトル領域表現を指定し、

はインデックス

によって指定される方向、時間インデックスｍによって指定される時間（または時間フレーム）、およびスペクトルビンインデックスｋによって指定されるスペクトルビンに関連する方向依存重み付け（例えば、ガウス関数のような重み付け関数）を指定する。したがって、重み付けスペクトル領域表現は、例えば、方向依存重み付けによって入力オーディオ信号または入力オーディオ信号の組み合わせに関連付けられたスペクトル領域表現を重み付けすることによって決定することができる。

一実施形態によれば、オーディオアナライザは、合成音量値（例えば、所与の方向またはパンニング方向、すなわち所定の方向に関連付けられている）を得るために、複数の帯域音量値（例えば、異なる周波数帯域に関連するが、同じ方向、例えば、所定の方向および／または所定の方向の近傍の方向に関連する）にわたる平均を決定するように構成される。合成音量値は、分析結果としてオーディオアナライザによって取得された音量情報を表すことができる。あるいは、分析結果としてオーディオアナライザによって取得された音量情報は、合成音量値を含むことができる。したがって、音量情報は、異なる所定の方向に関連付けられた合成音量値を含むことができ、その中から方向性音量マップを取得することができる。

一実施形態によれば、オーディオアナライザは、複数の入力オーディオ信号（例えば、２つ以上の入力オーディオ信号の組み合わせ）（例えば、重み付け結合スペクトル表現は、入力オーディオ信号に関連付けられた重み付けスペクトル領域表現を結合することができる）を表す重み付けされた合成スペクトル領域表現に基づいて、複数のスペクトル帯域（例えば、ＥＲＢバンド）の帯域音量値を取得するように構成される。さらに、オーディオアナライザは、複数の異なる方向（またはパンニング方向）について取得された帯域音量値に基づいて、複数の合成音量値（複数のスペクトル帯域をカバーする；例えば、単一のスカラ値の形式で）を分析結果として取得するように構成される。したがって、例えば、オーディオアナライザは、同じ方向に関連するすべての帯域音量値を平均して、その方向に関連する合成音量値（例えば、複数の合成音量値をもたらす）を取得するように構成される。オーディオアナライザは、例えば、所定の方向ごとに合成音量値を取得するように構成される。

一実施形態によれば、オーディオアナライザは、（それぞれの周波数帯域に関連する）帯域音量値を決定するために、周波数帯域のスペクトル値にわたる重み付け結合スペクトル領域表現（または周波数帯域のスペクトルビンにわたる）の二乗スペクトル値の平均を計算し、０と１／２との間（および好ましくは１／３または１／４以下）の指数を有する累乗演算を二乗スペクトル値の平均に適用するように構成される。

一実施形態によれば、オーディオアナライザは、

に従って、インデックスｂで指定されたスペクトル帯域、インデックス

で指定された方向、時間インデックスｍで指定された時間（または時間フレーム）に関連する帯域音量値

を取得するように構成される。係数Ｋ_ｂは、周波数帯域インデックスｂを有する周波数帯域におけるスペクトルビンの数を指定する。変数ｋは実行変数であり、周波数帯域インデックスｂを有する周波数帯域のスペクトルビンを指定し、ｂはスペクトル帯域を指定する。

はインデックスｂで指定されたスペクトル帯域、インデックス

で指定された方向、時間インデックスｍで指定された時間（または時間フレーム）、およびスペクトルビンインデックスｋで指定されたスペクトルビンに関連する重み付け結合スペクトル領域表現を指定する。

一実施形態によれば、オーディオアナライザは、

に従って、インデックス

で指定された方向および時間インデックスｍで指定された時間（または時間フレーム）に関連する複数の合成音量値Ｌ（ｍ，

）を取得するように構成される。係数Ｂは、スペクトル帯域の総数ｂを指定し、

で指定された方向、および時間インデックスｍで指定された時間（または時間フレーム）に関連する帯域音量値を指定する。

一実施形態によれば、オーディオアナライザは、分析結果を得るために、方向情報に応じて異なる方向（例えば、上述したように、第２の異なる方向；例えば、所定の方向）に関連付けられたヒストグラムビンに音量寄与を割り当てるように構成される。音量寄与は、例えば、複数の合成音量値または複数の帯域音量値によって表される。したがって、例えば、分析結果は、ヒストグラムビンによって定義される方向性音量マップを含む。各ヒストグラムビンは、例えば、所定の方向のうちの１つに関連付けられる。

一実施形態によれば、オーディオアナライザは、スペクトル領域表現（例えば、Ｔ／Ｆタイルあたりの合成音量を取得するために）に基づいてスペクトルビンに関連する音量情報を取得するように構成される。オーディオアナライザは、所与のスペクトルビンに関連する音量情報に基づいて、１つまたは複数のヒストグラムビンに音量寄与を追加するように構成される。所与のスペクトルビンに関連付けられた音量寄与は、例えば、異なる重み（例えば、ヒストグラムビンに対応する方向に応じて）を有する異なるヒストグラムビンに追加される。１つまたは複数のヒストグラムビンに音量寄与がなされる選択（すなわち添加）は、所与のスペクトルビンの方向情報（すなわち、抽出された方向値）の決定に基づく。一実施形態によれば、各ヒストグラムビンは、時間方向タイルを表すことができる。したがって、ヒストグラムビンは、例えば、特定の時間フレームおよび方向における結合された２つ以上の入力オーディオ信号の音量に関連付けられる。所与のスペクトルビンの方向情報を決定するために、例えば、２つ以上の入力オーディオ信号のスペクトル領域表現の対応するスペクトルビンのレベル情報が分析される。

一実施形態によれば、オーディオアナライザは、所与のスペクトルビンに関連する音量情報に基づいて複数のヒストグラムビンに音量寄与を追加するように構成され、所与のスペクトルビンに関連する方向情報に対応する方向（すなわち、抽出された方向値のもの）に関連するヒストグラムビンに最大の寄与（例えば、主要な寄与）が追加され、さらなる方向（例えば、所与のスペクトルビンに関連付けられた方向情報に対応する方向の近傍において）に関連する１つまたは複数のヒストグラムビンに低減された寄与（例えば、最大の寄与または主要な寄与よりも比較的小さい）が追加される。上述したように、各ヒストグラムビンは時間方向タイルを表すことができる。一実施形態によれば、複数のヒストグラムビンは、方向性音量マップを定義することができ、方向性音量マップは、例えば、２つ以上の入力オーディオ信号の組み合わせについて経時的に異なる方向の音量を定義する。

一実施形態によれば、オーディオアナライザは、２つ以上の入力オーディオ信号のオーディオコンテンツに基づいて方向情報を取得するように構成される。方向情報は、例えば、２つ以上の入力オーディオ信号のオーディオコンテンツ内のコンポーネントまたは音源の方向を含む。言い換えれば、方向情報は、２つ以上の入力オーディオ信号のステレオミックス内の音源のパンニング方向またはパンニングインデックスを含むことができる。

一実施形態によれば、オーディオアナライザは、オーディオコンテンツの振幅パンニングの分析に基づいて方向情報を取得するように構成される。追加的または代替的に、オーディオアナライザは、２つ以上の入力オーディオ信号のオーディオコンテンツ間の位相関係および／または時間遅延および／または相関の分析に基づいて方向情報を取得するように構成される。追加的または代替的に、オーディオアナライザは、拡大された（例えば、非相関化および／またはパンニングされる）音源の識別に基づいて方向情報を取得するように構成される。オーディオコンテンツの振幅パンニングの分析は、２つ以上の入力オーディオ信号（例えば、同じレベルを有する対応するスペクトルビンを、各々が２つの入力オーディオ信号のうちの１つを伝送する２つのスピーカの中央の方向に関連付けることができる）のスペクトル領域表現の対応するスペクトルビン間のレベル相関の分析を含むことができる。同様に、オーディオコンテンツ間の位相関係および／または時間遅延および／または相関の分析を実行することができる。したがって、例えば、オーディオコンテンツ間の位相関係および／または時間遅延および／または相関が、２つ以上の入力オーディオ信号のスペクトル領域表現の対応するスペクトルビンについて分析される。追加的または代替的に、チャネル間レベル／時間差の比較とは別に、方向情報推定のためのさらなる（例えば、第３の）方法がある。この方法は、入射音のスペクトル情報を、異なる方向の頭部伝達関数（ＨＲＦ）の事前に測定された「テンプレートスペクトル応答／フィルタ」と照合することにある。

例えば、特定の時間／周波数タイルでは、左右のチャネルからの３５度での入力信号のスペクトル包絡線は、３５度の角度で測定された左右の耳用の線形フィルタの形状に厳密に一致し得る。次に、最適化アルゴリズムまたはパターンマッチング手順は、音の到来方向を３５°に割り当てる。さらなる情報は、ｈｔｔｐｓ：／／ｉｅｍ．ｋｕｇ．ａｃ．ａｔ／ｆｉｌｅａｄｍｉｎ／ｍｅｄｉａ／ｉｅｍ／ｐｒｏｊｅｃｔｓ／２０１１／ｂａｕｍｇａｒｔｎｅｒ＿ｒｏｂｅｒｔ．ｐｄｆ（例えば、第２章を参照されたい）に見出すことができる。この方法は、水平音源に加えて上昇音源（矢状面）の到来方向を推定することを可能にするという利点を有する。この方法は、例えば、スペクトルレベルの比較に基づいている。

一実施形態によれば、オーディオアナライザは、拡散規則（例えば、ガウス拡散規則、または限定された離散拡散規則）に従って音量情報を複数の方向（例えば、方向情報によって示される方向を超えて）に拡散するように構成される。これは、例えば、特定の方向情報と関連付けられた、特定のスペクトルビンに対応する音量情報も、拡散規則に従って（スペクトルビンの特定の方向の）隣接する方向に寄与し得ることを意味する。一実施形態によれば、拡散規則は、方向依存重み付けを含むかまたはそれに対応することができ、この場合、方向依存重み付けは、例えば、特定のスペクトルビンの音量情報の複数の方向への異なる重み付け寄与を定義する。

本発明による一実施形態は、２つ以上の入力オーディオ信号の第１のセットに基づいて、異なる（例えば、パンニング）方向に関連する第１の音量情報（例えば、方向性音量マップ；例えば、１つまたは複数の合成音量値）を取得するように構成されたオーディオ類似度評価器に関する。オーディオ類似度評価器は、第１の音量情報を、異なる（例えば、パンニング）方向および２つ以上の基準オーディオ信号のセットに関連する第２の（例えば、対応する）音量情報（例えば、基準音量情報、基準方向性音量マップ、および／または基準合成音量値）と比較して、２つ以上の入力オーディオ信号の第１のセットと２つ以上の基準オーディオ信号のセットとの間の類似度を記述する（または、例えば、２つ以上の基準オーディオ信号のセットと比較したときの２つ以上の入力オーディオ信号の第１のセットの質を表す）類似度情報（例えば、「モデル出力変数」（ＭＯＶ）；例えば、単一のスカラ値）を取得するように構成される。

この実施形態は、２つ以上の入力オーディオ信号の方向性音量情報（例えば、第１の音量情報）を２つ以上の基準オーディオ信号の方向性音量情報（例えば、第２の音量情報）と比較することが効率的であり、オーディオの質の表示（例えば、類似度情報）の精度を改善するという考えに基づいている。異なる方向に関連付けられた音量情報の使用は、ステレオミックスまたはマルチチャネルミックスに関して特に有利である、というのも、異なる方向は、例えば、ミックス内の音源（すなわち、オーディオコンポーネント）の方向（すなわち、パンニング方向、パンニングインデックス）に関連付けることができるからである。したがって、２つ以上の入力オーディオ信号の処理された組み合わせの質の劣化を効果的に測定することができる。別の利点は、ステレオ画像またはマルチチャネル画像の音量情報が、例えば短時間フーリエ変換（ＳＴＦＴ）領域で決定されるため、帯域幅拡張（ＢＷＥ）などの非波形保存オーディオ処理が類似度情報に最小限しか影響しないか、または影響を与えないことである。さらに、音量情報に基づく類似度情報は、２つ以上の入力オーディオ信号の知覚予測を改善するために、モノラル／時間類似度情報で容易に補完することができる。したがって、例えば、モノラル質記述子に追加の１つの類似度情報のみが使用され、これにより、モノラル質記述子のみを使用する既知のシステムに関して客観的なオーディオ質測定システムによって使用される独立した関連する信号の特徴の数を減らすことができる。同じ性能に対してより少ない特徴を使用することは、過剰適合のリスクを低減し、それらのより高い知覚的関連性を示す。

一実施形態によれば、オーディオ類似度評価器は、第１の音量情報（例えば、複数の所定の方向の合成音量値を含むベクトル）が、２つ以上の入力オーディオ信号の第１のセットに関連し、それぞれの所定の方向に関連する複数の合成音量値を含むように、第１の音量情報（例えば、方向性音量マップ）を取得するように構成され、第１の音量情報の合成音量値は、それぞれの所定の方向（例えば、結合された各音量値は、異なる方向に関連付けられている）に関連する２つ以上の入力オーディオ信号の第１のセットの信号成分の音量を記述する。したがって、例えば、各合成音量値は、例えば、特定の方向に対する経時的な音量の変化を定義するベクトルによって表すことができる。これは、例えば、１つの合成音量値が、連続する時間フレームに関連する１つまたは複数の音量値を含むことができることを意味する。所定の方向は、２つ以上の入力オーディオ信号の第１のセットの信号成分のパンニング方向／パンニングインデックスによって表すことができる。したがって、例えば、所定の方向は、２つ以上の入力オーディオ信号の第１のセットによって表されるステレオまたはマルチチャネルミックスにおける方向性信号の位置決めに使用される振幅レザーパンニング技術によって事前定義することができる。

一実施形態によれば、オーディオ類似度評価器は、第１の音量情報が、それぞれの所定の方向（例えば、各合成音量値および／または重み付けスペクトル領域表現は、異なる所定の方向に関連付けられている）に関連している、２つ以上の入力オーディオ信号の第１のセットの（例えば、各オーディオ信号の）複数の重み付けスペクトル領域表現の組み合わせに関連するように、第１の音量情報（例えば、方向性音量マップ）を取得するように構成される。これは、例えば、各入力オーディオ信号について、少なくとも１つの重み付けスペクトル領域表現が計算され、次いで、同じ所定の方向に関連するすべての重み付けスペクトル領域表現が結合されることを意味する。したがって、第１の音量情報は、例えば、同じ所定の方向に関連付けられた複数のスペクトルビンに関連付けられた音量値を表す。複数のスペクトルビンの少なくともいくつかは、例えば、複数のスペクトルビンの他のビンとは異なるように重み付けされる。

一実施形態によれば、オーディオ類似度評価器は、第２の音量情報と第１の音量情報との差を決定して、残差音量情報を取得するように構成される。一実施形態によれば、残差音量情報は類似度情報を表すことができ、または類似度情報は残差音量情報に基づいて決定することができる。残差音量情報は、例えば、第２の音量情報と第１の音量情報との間の距離の尺度として理解される。したがって、残差音量情報は、方向性音量距離（例えば、ＤｉｒＬｏｕｄＤｉｓｔ）として理解することができる。この特徴により、第１の音量情報に関連する２つ以上の入力オーディオ信号の質を非常に効率的に決定することができる。

一実施形態によれば、オーディオ類似度評価器は、複数の方向にわたって（また、任意に、経時的に、例えば複数のフレームにわたっても）差を定量化する値（例えば、単一のスカラ値）を決定するように構成される。オーディオ類似度評価器は、例えば、すべての方向（例えば、パンニング方向）および経時的な残差音量情報の大きさの平均を、差を定量化する値として決定するように構成される。これにより、例えば、モデル出力変数（ＭＯＶ）と呼ばれる単一の数が決定され、ＭＯＶは、２つ以上の基準オーディオ信号のセットに対する２つ以上の入力オーディオ信号の第１のセットの類似度を定義する。

一実施形態によれば、オーディオ類似度評価器は、本明細書に記載の実施形態のうちの１つによるオーディオアナライザを使用して、第１の音量情報および／または第２の音量情報（例えば、方向性音量マップとして）を取得するように構成される。

一実施形態によれば、オーディオ類似度評価器は、入力オーディオ信号に関連するスピーカの位置情報を表すメタデータを使用して、異なる方向（例えば、１つまたは複数の方向性音量マップ）に関連する音量情報を取得するために使用される方向成分（例えば、方向情報）を取得するように構成される。異なる方向は、必ずしも方向成分に関連付けられていない。一実施形態によれば、方向成分は、２つ以上の入力オーディオ信号に関連付けられる。したがって、方向成分は、例えばスピーカの異なる方向または位置に専用のスピーカ識別子またはチャネル識別子を表すことができる。反対に、音量情報が関連付けられる異なる方向は、２つ以上の入力オーディオ信号によって実現されるオーディオシーンのオーディオ成分の方向または位置を表すことができる。あるいは、異なる方向は、２つ以上の入力オーディオ信号によって実現されるオーディオシーンを展開することができる位置間隔（例えば、［－１；１］であり、－１は完全に左にパンニングされた信号を表し、＋１は完全に右にパンニングされた信号を表す）内の等間隔の方向または位置を表すことができる。一実施形態によれば、異なる方向は、本明細書に記載の所定の方向と関連付けることができる。方向成分は、例えば、位置間隔の境界点に対応付けられる。

本発明による一実施形態は、１つまたは複数の入力オーディオ信号（好ましくは複数の入力オーディオ信号）を含む入力オーディオコンテンツを符号化するためのオーディオエンコーダに関する。オーディオエンコーダは、１つまたは複数の入力オーディオ信号（例えば、左信号および右信号）、またはそれから導出された１つまたは複数の信号（例えば、中間信号またはダウンミックス信号およびサイド信号または差分信号）に基づいて、１つまたは複数の符号化（例えば、量子化され、次いで可逆的に符号化される）オーディオ信号（例えば、符号化されたスペクトル領域表現）を提供するように構成される。さらに、オーディオエンコーダは、符号化されるべき１つまたは複数の信号の複数の異なる方向（例えば、パンニング方向）に関連する音量情報を表す１つまたは複数の方向性音量マップに応じて（例えば、量子化されるべき１つまたは複数の信号の個々の方向性音量マップの、例えば複数の入力オーディオ信号（例えば、１つまたは複数の入力オーディオ信号の各信号）に関連付けられた全体的な方向性音量マップへの寄与に応じて）、符号化パラメータ（例えば、１つまたは複数の符号化されたオーディオ信号を提供するために、例えば、量子化パラメータ）を適合させるように構成される。

１つの入力オーディオ信号を含むオーディオコンテンツをモノラルオーディオシーンに関連付けることができ、２つの入力オーディオ信号を含むオーディオコンテンツをステレオオーディオシーンに関連付けることができ、３つ以上の入力オーディオ信号を含むオーディオコンテンツをマルチチャネルオーディオシーンに関連付けることができる。一実施形態によれば、オーディオエンコーダは、各入力オーディオ信号に対して、出力信号として別個の符号化オーディオ信号を提供するか、または２つ以上の入力オーディオ信号のうちの２つ以上の符号化オーディオ信号を含む１つの結合出力信号を提供する。

符号化パラメータの適合が依存する方向性音量マップ（すなわち、ＤｉｒＬｏｕｄＭａｐ）は、異なるオーディオコンテンツに対して変化し得る。したがって、モノラルオーディオシーンの場合、方向性音量マップは、例えば、０から外れる（唯一の入力オーディオ信号に基づく）１つの方向音量値のみを含み、例えば、０に等しい他のすべての方向音量値を含む。ステレオオーディオシーンの場合、方向性音量マップは、例えば、両方の入力オーディオ信号に関連する音量情報を表し、異なる方向は、例えば、２つの入力オーディオ信号のオーディオ成分の位置または方向に関連する。３つ以上の入力オーディオ信号の場合、符号化パラメータの適合は、例えば、３つ以上の方向性音量マップに依存し、各方向性音量マップは、３つの入力オーディオ信号のうちの２つに関連する音量情報に対応する（例えば、第１のＤｉｒＬｏｕｄＭａｐは、第１および第２の入力オーディオ信号に対応することができ、第２のＤｉｒＬｏｕｄＭａｐは、第１および第３の入力オーディオ信号に対応することができ、第３のＤｉｒＬｏｕｄＭａｐは、第２および第３の入力オーディオ信号に対応することができる）。ステレオオーディオシーンに関して説明したように、方向性音量マップの異なる方向は、例えばマルチチャネルオーディオシーンの場合、複数の入力オーディオ信号のオーディオ成分の位置または方向に関連付けられる。

このオーディオエンコーダの実施形態は、符号化パラメータの１つまたは複数の方向性音量マップへの適合に依存することが効率的であり、符号化の精度を改善するという考えに基づいている。符号化パラメータは、例えば、１つまたは複数の入力オーディオ信号に関連付けられた方向性音量マップと、１つまたは複数の基準オーディオ信号に関連付けられた方向性音量マップとの差に応じて適合される。一実施形態によれば、すべての入力オーディオ信号の組み合わせおよびすべての基準オーディオ信号の組み合わせの全体的な方向性音量マップが比較され、あるいは、個々のまたは対の信号の方向性音量マップがすべての入力オーディオ信号の全体的な方向性音量マップと比較される（例えば、２つ以上の差を決定することができる）。ＤｉｒＬｏｕｄＭａｐｓ間の差は、符号化の質の尺度を表すことができる。したがって、符号化パラメータは、例えば、オーディオコンテンツの高い質の符号化を保証するために、差が最小化されるように適合され、または符号化パラメータは、符号化の複雑度を低減するために、特定の閾値未満の差に対応するオーディオコンテンツの信号のみが符号化されるように適合される。あるいは、符号化パラメータは、例えば、個々の信号ＤｉｒＬｏｕｄＭａｐｓまたは信号対ＤｉｒＬｏｕｄＭａｐｓと全体ＤｉｒＬｏｕｄＭａｐ（例えば、すべての入力オーディオ信号の組み合わせに関連付けられたＤｉｒＬｏｕｄＭａｐ）との比（例えば、寄与）に応じて適合される。この比率は、オーディオコンテンツの個々の信号間もしくは信号対間、または個々の信号間、およびオーディオコンテンツのすべての信号の組み合わせもしくは信号対、およびオーディオコンテンツのすべての信号の組み合わせの類似度を示すことができ、その結果、高い質の符号化および／または符号化の複雑度の低減をもたらす。

一実施形態によれば、オーディオエンコーダは、符号化される１つまたは複数の信号および／またはパラメータ（または、例えば、符号化される２つ以上の信号および／またはパラメータの間）の個々の方向性音量マップの寄与に応じて、符号化される１つまたは複数の信号および／またはパラメータ間（例えば、残差信号とダウンミックス信号との間、または左チャネル信号と右チャネル信号との間、または複数の信号のジョイント符号化によって提供される２つ以上の信号の間、または複数の信号のジョイント符号化によって提供されるパラメータと信号との間）のビット分布を、全体的な方向性音量マップに適合させるように構成される。ビット分布の適合は、例えば、オーディオエンコーダによる符号化パラメータの適合として理解される。ビット分布は、ビットレート分布と理解することもできる。ビット分布は、例えば、オーディオエンコーダの１つまたは複数の入力オーディオ信号の量子化精度を制御することによって適合される。一実施形態によれば、高い寄与は、オーディオコンテンツによって生成されたオーディオシーンの高い質知覚のための対応する入力オーディオ信号または入力オーディオ信号対の高い関連性を示すことができる。したがって、例えば、オーディオエンコーダは、寄与の高い信号には多くのビットを提供し、寄与の低い信号にはほとんどまたはまったくビットを提供しないように構成することができる。これにより、効率的で高質な符号化を実現することができる。

一実施形態によれば、オーディオエンコーダは、符号化されるべき信号のうちの所与の１つの個々の方向性音量マップ（例えば、残差信号）の全体的な方向性音量マップへの寄与が（例えば、所定の）閾値を下回るとき、符号化されるべき信号のうちの所与の一方の符号化を無効にする（例えば、残差信号）ように構成される。例えば、平均比または最大相対寄与の方向の比が閾値を下回る場合、符号化は無効にされる。代替的または追加的に、信号対（例えば、信号対の個々の方向性音量マップ（例えば、信号対として、２つの信号の組み合わせを理解することができる。例えば、信号対として、異なるチャネルおよび／または残差信号および／またはダウンミックス信号に関連する信号の組み合わせを理解することができる。））の方向性音量マップの全体的な方向性音量マップへの寄与をエンコーダによって使用して、信号の所与の１つ（例えば、符号化される３つの信号について、上述したように、信号対の３つの方向性音量マップを、全体的な方向性音量マップに関して分析することができる。したがって、エンコーダは、全体的な方向性音量マップへの寄与が最も高い信号対を決定し、この２つの信号のみを符号化し、残りの信号の符号化を無効にするように構成することができる。）の符号化を無効にすることができる。信号の符号化の無効化は、例えば、符号化パラメータの適合として理解される。したがって、聴取者によるオーディオコンテンツの知覚にあまり関連しない信号は、符号化される必要がなく、非常に効率的な符号化がもたらされる。一実施形態によれば、閾値は、全体的な方向性音量マップの音量情報の５％、１０％、１５％、２０％、または５０％以下に設定することができる。

一実施形態によれば、オーディオエンコーダは、符号化されるべき（それぞれの）１つまたは複数の信号の個々の方向性音量マップの全体的な方向性音量マップへの寄与に応じて、（例えば、残差信号とダウンミックス信号との間で）符号化されるべき１つまたは複数の信号の量子化精度を適合させるように構成される。代替的または追加的に、上述の無効化と同様に、全体的な方向性音量マップへの信号対の方向性音量マップの寄与は、符号化される１つまたは複数の信号の量子化精度を適合させるためにエンコーダによって使用されることができる。量子化精度の適合は、オーディオエンコーダによる符号化パラメータを適合させるための一例として理解することができる。

一実施形態によれば、オーディオエンコーダは、１つまたは複数の入力オーディオ信号（例えば、左信号および右信号：例えば、１つまたは複数の入力オーディオ信号は、例えば、複数の異なるチャネルに対応する。したがって、オーディオエンコーダは、マルチチャネル入力を受信する）、またはそこから導出された１つまたは複数の信号（例えば、中間信号またはダウンミックス信号およびサイド信号または差分信号）のスペクトル領域表現を、１つまたは複数の量子化されたスペクトル領域表現を取得するために、１つまたは複数の量子化パラメータ（例えば、どの量子化精度または量子化ステップが量子化されるべき１つまたは複数の信号のどのスペクトルビンまたは周波数帯域に適用されるべきかを記述するスケール係数またはパラメータ）を使用して、量子化するように構成される。オーディオエンコーダは、量子化されるべき１つまたは複数の信号の複数の異なる方向（例えば、パンニング方向）に関連する音量情報を表す１つまたは複数の方向性音量マップに応じて、１つまたは複数の符号化されたオーディオ信号の提供に（例えば、量子化されるべき１つまたは複数の信号の個々の方向性音量マップの、例えば複数の入力オーディオ信号（例えば、１つまたは複数の入力オーディオ信号の各信号）に関連付けられた全体的な方向性音量マップへの寄与に応じて）適合させるように、１つまたは複数の量子化パラメータを（例えば、符号化されるべき１つまたは複数の信号間のビット分布を適合させるために）調整するよう構成される。さらに、オーディオエンコーダは、１つまたは複数の符号化されたオーディオ信号を得るために、１つまたは複数の量子化されたスペクトル領域表現を符号化するように構成される。

一実施形態によれば、オーディオエンコーダは、量子化されるべき１つまたは複数の信号の個々の方向性音量マップの全体的な方向性音量マップへの寄与に応じて、１つまたは複数の量子化パラメータを調整するように構成される。

一実施形態によれば、オーディオエンコーダは、入力オーディオ信号に基づいて全体的な方向性音量マップを決定するように構成され、その結果、全体的な方向性音量マップは、入力オーディオ信号によって表される（または、例えばデコーダ側レンダリングの後に表現されるべきである）オーディオシーンの異なる方向（例えば、オーディオコンポーネント；例えば、パンニング方向）に関連する音量情報を表す（場合によっては、スピーカの位置に関する知識またはサイド情報および／またはオーディオオブジェクトの位置を記述する知識またはサイド情報と組み合わせて）。全体的な方向性音量マップは、例えば、すべての入力オーディオ信号に関連する（例えば組み合わせた）音量情報を表す。

一実施形態によれば、量子化されるべき１つまたは複数の信号は、異なる方向（例えば、第１の異なる方向）に関連付けられ（例えば、固定された、信号に依存しない方法で）、または異なるスピーカに関連付けられ（例えば、異なる所定のスピーカ位置において）、または異なるオーディオオブジェクト（例えば、パンニングインデックスなどの、例えばオブジェクトレンダリング情報に従って異なる位置にレンダリングされるオーディオオブジェクトなど）に関連付けられる。

一実施形態によれば、量子化される信号は、２つ以上の入力オーディオ信号のジョイントマルチ信号コーディングの成分、例えば、中間サイドステレオコーディングの中間信号およびサイド信号を備える。

一実施形態によれば、オーディオエンコーダは、ジョイントマルチ信号コーディングの残差信号の全体的な方向性音量マップへの寄与を推定し、それに応じて１つまたは複数の量子化パラメータを調整するように構成される。推定された寄与は、例えば、残差信号の方向性音量マップの全体的な方向性音量マップへの寄与によって表される。

一実施形態によれば、オーディオエンコーダは、異なるスペクトルビンに対して個別に、または異なる周波数帯域に対して個別に符号化されるべき１つまたは複数の信号および／またはパラメータ間のビット分布を適合させるように構成される。追加的または代替的に、オーディオエンコーダは、異なるスペクトルビンに対して個別に、または異なる周波数帯域に対して個別に符号化されるべき１つまたは複数の信号の量子化精度を適合させるように構成される。量子化精度の適合により、オーディオエンコーダは、例えば、ビット分布も適合するように構成される。したがって、オーディオエンコーダは、例えば、オーディオエンコーダによって符号化されるべきオーディオコンテンツの１つまたは複数の入力オーディオ信号間のビット分布を適合させるように構成される。追加的または代替的に、符号化されるパラメータ間のビット分布が適合される。ビット分布の適合は、異なるスペクトルビンに対して個別に、または異なる周波数帯域に対して個別に、オーディオエンコーダによって実行することができる。一実施形態によれば、信号とパラメータとの間のビット分布が適合されることも可能である。言い換えれば、オーディオエンコーダによって符号化されるべき１つまたは複数の信号の各信号は、異なるスペクトルビンおよび／または異なる周波数帯域（例えば、対応する信号のもの）に対する個々のビット分布を含むことができ、符号化されるべき１つまたは複数の信号の各々に対するこの個々のビット分布は、オーディオエンコーダによって適合されることができる。

一実施形態によれば、オーディオエンコーダは、符号化されるべき２つ以上の信号間の空間マスキングの評価に応じて、符号化されるべき１つ以上の信号および／またはパラメータ（例えば、スペクトルビンごとまたは周波数帯域ごとに個別に）間のビット分布を適合させるように構成される。さらに、オーディオエンコーダは、符号化されるべき２つ以上の信号に関連付けられた方向性音量マップに基づいて空間マスキングを評価するように構成される。これは、例えば、方向性音量マップが空間的および／または時間的に分解されるという考えに基づいている。したがって、例えば、マスクされた信号にはわずかなビットしか費やされず、またはまったく費やされず、関連する信号または信号成分（例えば、他の信号または信号成分によってマスクされていない信号または信号成分）の符号化にはより多くのビット（例えば、マスクされた信号よりも多く）が費やされる。一実施形態によれば、空間マスキングは、例えば、符号化される２つ以上の信号のスペクトルビンおよび／または周波数帯域に関連するレベル、スペクトルビンおよび／または周波数帯域間の空間距離、および／またはスペクトルビンおよび／または周波数帯域間の時間距離に依存する。方向性音量マップは、個々の信号または信号の組み合わせ（例えば、信号対）の個々のスペクトルビンおよび／または周波数帯域の音量情報を直接提供することができ、エンコーダによる空間マスキングの効率的な分析をもたらす。

一実施形態によれば、オーディオエンコーダは、符号化されるべき第１の信号の第１の方向に関連する音量寄与のマスキング効果を、符号化されるべき第２の信号の、第１の方向とは異なる第２の方向に関連する音量寄与に対して評価するように構成される（例えば、マスキング効果は、角度の差が大きくなるにつれて減少する）。マスキング効果は、例えば、空間マスキングの関連性を規定する。これは、例えば、閾値よりも低いマスキング効果に関連する音量寄与の場合、閾値よりも高いマスキング効果に関連する信号（例えば、空間的にマスクされた信号）よりも多くのビットが費やされることを意味する。一実施形態によれば、閾値は、全マスキングの２０％、５０％、６０％、７０％または７５％のマスキングとして定義することができる。これは、例えば、隣接するスペクトルビンまたは周波数帯域のマスキング効果が、方向性音量マップの音量情報に応じて評価されることを意味する。

一実施形態によれば、オーディオエンコーダは、本明細書に記載の実施形態のうちの１つによるオーディオアナライザを備え、異なる方向に関連付けられた音量情報（例えば、「方向性音量マップ」）は、方向性音量マップを形成する。

一実施形態によれば、オーディオエンコーダは、エンコーダによって導入されたノイズ（例えば、量子化ノイズ）を１つまたは複数の方向性音量マップに応じて適合させるように構成される。したがって、例えば、符号化されるべき１つまたは複数の信号の１つまたは複数の方向性音量マップは、エンコーダによって１つまたは複数の基準信号の１つまたは複数の方向性音量マップと比較することができる。この比較に基づいて、オーディオエンコーダは、例えば、導入されたノイズを示す差を評価するように構成される。ノイズは、オーディオエンコーダによって実行される量子化の適合によって適合させることができる。

一実施形態によれば、オーディオエンコーダは、所与の符号化されていない入力オーディオ信号（または所与の符号化されていない入力オーディオ信号対）に関連付けられた方向性音量マップと、所与の入力オーディオ信号（または所与の入力オーディオ信号対）の符号化バージョンによって達成可能な方向性音量マップとの間の偏差を、所与の符号化オーディオ信号（または所与の符号化オーディオ信号対）の提供を適合させるための基準（例えば、目標基準）として使用するように構成される。以下の例は、１つの所与の非符号化入力オーディオ信号についてのみ説明されるが、それらが所与の非符号化入力オーディオ信号対にも適用可能であることは明らかである。所与の符号化されていない入力オーディオ信号に関連付けられた方向性音量マップは、関連付けられることができ、または基準方向性音量マップを表すことができる。したがって、基準方向性音量マップと所与の入力オーディオ信号の符号化バージョンの方向性音量マップとの間の偏差は、エンコーダによって導入されたノイズを示すことができる。ノイズを低減するために、オーディオエンコーダは、高質の符号化されたオーディオ信号を提供するために、符号化パラメータを適合させて偏差を低減するように構成することができる。これは、例えば、偏差ごとに制御するフィードバックループによって実現される。したがって、符号化パラメータは、偏差が所定の閾値を下回るまで適合される。一実施形態によれば、閾値は、５％、１０％、１５％、２０％または２５％の偏差として定義することができる。あるいは、エンコーダによる適合は、ニューラルネットワーク（例えば、フィードフォワードループの達成）を用いて行われる。ニューラルネットワークを用いて、所与の入力オーディオ信号の符号化バージョンの方向性音量マップを、オーディオエンコーダまたはオーディオアナライザによって直接決定することなく推定することができる。これにより、非常に高速かつ高精度なオーディオコーディングを実現することができる。

一実施形態によれば、オーディオエンコーダは、符号化されるべき１つまたは複数の信号の複数の異なる方向に関連する音量情報を表す１つまたは複数の方向性音量マップに応じて、ジョイントコーディングツール（例えば、入力オーディオ信号、または入力オーディオ信号から導出された信号のうちの２つ以上を一緒に符号化する）（例えば、Ｍ／Ｓ（中間／サイド信号）のオン／オフを決定する）を起動および停止するように構成される。ジョイントコーディングツールをアクティブ化または非アクティブ化するために、オーディオエンコーダを、各信号または各候補信号対の方向性音量マップの、シーン全体の全体的な方向性音量マップへの寄与を決定するように構成することができる。一実施形態によれば、閾値よりも高い寄与（例えば、少なくとも１０％または少なくとも２０％または少なくとも３０％または少なくとも５０％の寄与）は、入力オーディオ信号のジョイントコーディングが妥当であるかどうかを示す。例えば、閾値は、主に無関係な対を除外するために、このユースケースに対して比較的低く（例えば、他の使用事例よりも低く）てもよい。方向性音量マップに基づいて、オーディオエンコーダは、信号のジョイント符号化がより効率的なおよび／またはビュービット高解像度符号化をもたらすかどうかをチェックすることができる。

一実施形態によれば、オーディオエンコーダは、符号化されるべき１つまたは複数の信号の複数の異なる方向に関連する音量情報を表す１つまたは複数の方向性音量マップに応じて、ジョイントコーディングツール（例えば、入力オーディオ信号、または入力オーディオ信号から導出された信号のうちの２つ以上を一緒に符号化する）の１つ以上のパラメータを決定するように構成される（例えば、周波数依存予測係数の平滑化を制御するために、例えば、「強度ステレオ」ジョイントコーディングツールのパラメータを設定するために）。１つまたは複数の方向性音量情報マップは、例えば、所定の方向および時間フレームにおける音量に関する情報を含む。したがって、例えば、オーディオエンコーダは、前の時間フレームの音量情報に基づいて現在の時間フレームの１つまたは複数のパラメータを決定するように構成される。方向性音量マップに基づいて、マスキング効果を非常に効率的に分析することができ、１つまたは複数のパラメータによって示すことができ、それによって、予測サンプル値が（符号化される信号に関連する）元のサンプル値に近くなるように、周波数依存予測係数を１つまたは複数のパラメータに基づいて決定することができる。したがって、エンコーダは、符号化される信号ではなくマスキング閾値の近似値を表す周波数依存予測係数を決定することが可能である。さらに、方向性音量マップは、例えば、心理音響モデルに基づいており、それによって、１つまたは複数のパラメータに基づく周波数依存予測係数の決定がさらに改善され、非常に正確な予測をもたらすことができる。あるいは、ジョイントコーディングツールのパラメータは、例えば、どの信号または信号対がオーディオエンコーダによって一緒に符号化されるべきかを定義する。オーディオエンコーダは、例えば、符号化される信号または符号化される信号の信号対に関連する各方向性音量マップの全体的な方向性音量マップへの寄与に基づいて１つまたは複数のパラメータの決定を行うように構成される。したがって、例えば、１つまたは複数のパラメータは、最大の寄与または閾値（例えば、上記の閾値の定義を参照されたい）以上の寄与を有する個々の信号および／または信号対を示す。１つまたは複数のパラメータに基づいて、オーディオエンコーダは、例えば、１つまたは複数のパラメータによって示される信号を一緒に符号化するように構成される。あるいは、例えば、それぞれの方向性音量マップにおいて高い近接度／類似度を有する信号対は、ジョイントコーディングツールの１つまたは複数のパラメータによって示すことができる。選択された信号対は、例えば、ダウンミックスによって一緒に表される。したがって、一緒に符号化されるべき信号のダウンミックス信号または残差信号は非常に小さいので、符号化に必要なビットは最小化または低減される。

一実施形態によれば、オーディオエンコーダは、１つまたは複数の符号化信号の、１つまたは複数の符号化された信号の方向性音量マップに対する提供を制御する１つまたは複数の制御パラメータの変動の影響を決定または推定し、影響の決定または推定に応じて１つまたは複数の制御パラメータを調整するように構成される。１つまたは複数の符号化信号の方向性音量マップに対する制御パラメータの影響は、オーディオエンコーダの符号化による誘導雑音（例えば、量子化位置に関する制御パラメータを調整することができる）の尺度、オーディオの歪みの尺度、および／または聴取者の知覚の質低下の尺度を含むことができる。一実施形態によれば、制御パラメータは符号化パラメータによって表すことができ、または符号化パラメータは制御パラメータを含むことができる。

一実施形態によれば、オーディオエンコーダは、入力オーディオ信号に関連付けられたスピーカの位置情報を表すメタデータを使用して、１つまたは複数の方向性音量マップを取得するために使用される方向成分（例えば、方向情報）を取得するように構成される（この概念は、他のオーディオエンコーダでも使用することができる）。方向成分は、例えば、入力オーディオ信号に関連付けられた異なるチャネルまたはスピーカに関連付けられた、本明細書に記載の第１の異なる方向によって表される。一実施形態によれば、方向成分に基づいて、取得された１つまたは複数の方向性音量マップは、入力オーディオ信号および／または同じ方向成分を有する入力オーディオ信号の信号対に関連付けることができる。したがって、例えば、方向性音量マップはインデックスＬを有することができ、入力オーディオ信号はインデックスＬを有することができ、Ｌは左チャネルまたは左スピーカ用の信号を示す。あるいは、方向成分は、第１のチャネルおよび第３のチャネルの入力オーディオ信号の組み合わせを示す（１，３）のようなベクトルによって表すことができる。したがって、インデックス（１，３）を有する方向性音量マップは、この信号対に関連付けることができる。一実施形態によれば、各チャネルを異なるスピーカに関連付けることができる。

本発明による一実施形態は、１つまたは複数の入力オーディオ信号（好ましくは複数の入力オーディオ信号）を含む入力オーディオコンテンツを符号化するためのオーディオエンコーダに関する。オーディオエンコーダは、２つ以上の入力オーディオ信号（例えば、左信号および右信号）に基づき、またはそれから導出された２つ以上の信号に基づき、一緒に符号化されるべき２つ以上の信号のジョイント符号化（例えば、中間信号またはダウンミックス信号とサイド信号または差分信号とを使用して（例えば、中間信号またはダウンミックス信号およびサイド信号または差分信号）、１つまたは複数の符号化（例えば、量子化され、次いで可逆的に符号化される）オーディオ信号（例えば、符号化されたスペクトル領域表現）を提供するよう構成される。さらに、オーディオエンコーダは、候補信号または候補信号の対（例えば、候補信号の個々の方向性音量マップの、例えば複数の入力オーディオ信号（例えば、１つまたは複数の入力オーディオ信号の各信号）に関連付けられた全体的な方向性音量マップ（例えば、すべての入力オーディオ信号に関連付けられた）への寄与に応じて、または候補信号の対の方向性音量マップの、全体的な方向性音量マップへの寄与に応じて）の複数の異なる方向（例えば、パンニング方向）に関連する音量情報を表す方向性音量マップに応じて、複数の候補信号の中から、または複数の候補信号の対の中から（例えば、２つ以上の入力オーディオ信号から、または、２つ以上の入力オーディオ信号から導出される２つ以上の信号から）一緒に符号化される信号を選択するよう構成される。

一実施形態によれば、オーディオエンコーダは、ジョイント符号化をアクティブ化および非アクティブ化するように構成することができる。したがって、例えば、オーディオコンテンツが１つの入力オーディオ信号のみを含む場合、ジョイント符号化は非アクティブ化され、オーディオコンテンツが２つ以上の入力オーディオ信号を含む場合にのみアクティブ化される。したがって、オーディオエンコーダを用いて、モノラル・オーディオ・コンテンツ、ステレオ・オーディオ・コンテンツ、および／または３つ以上の入力オーディオ信号（すなわち、マルチチャネルオーディオコンテンツ）を含むオーディオコンテンツを符号化することが可能である。一実施形態によれば、オーディオエンコーダは、各入力オーディオ信号に対して、出力信号（例えば、１つの単一入力オーディオ信号のみを含むオーディオコンテンツに適している）として別個の符号化オーディオ信号を提供するか、または２つ以上の入力オーディオ信号のうちの２つ以上の符号化オーディオ信号を含む１つの結合出力信号（例えば、一緒に符号化された信号）を提供する。

このオーディオエンコーダの実施形態は、方向性音量マップに基づいてジョイント符号化することが効率的であり、符号化の精度を改善するという考えに基づいている。方向性音量マップの使用は、聴取者によるオーディオコンテンツの知覚を示すことができ、したがって、特にジョイント符号化との関連において、符号化されたオーディオコンテンツのオーディオの質を改善することができるので、有利である。例えば、方向性音量マップを分析することによって、一緒に符号化される信号対の選択を最適化することが可能である。方向性音量マップの分析は、例えば、無視できる（例えば、聴取者の知覚にほとんど影響を与えない信号）信号または信号対に関する情報を与え、オーディオエンコーダによる符号化されたオーディオコンテンツ（例えば、２つ以上の符号化信号を含む）に必要な少量のビットをもたらす。これは、例えば、それらのそれぞれの方向性音量マップの全体的な方向性音量マップへの寄与が低い信号を無視できることを意味する。あるいは、分析は、高い類似度（例えば、類似の方向性音量マップを有する信号）を有する信号を示すことができ、それによって、例えば、ジョイント符号化によって残差信号を最適化することができる。

一実施形態によれば、オーディオエンコーダは、候補信号の個々の方向性音量マップの全体的な方向性音量マップへの寄与に応じて、または候補信号の対の方向性音量マップの全体的な方向性音量マップへの寄与に応じて、複数の候補信号から、または候補信号の複数の対から、合同で符号化される信号を選択するように構成される（例えば、複数の入力オーディオ信号（例えば、１つまたは複数の入力オーディオ信号の各信号）と関連付けられる）（または、例えば、入力オーディオ信号によって表される、全体的な（オーディオ）シーンに関連付けられる）。全体的な方向性音量マップは、例えば、入力オーディオ信号によって表される（または、例えばデコーダ側レンダリングの後に表現されるべきである）オーディオシーンの異なる方向（例えば、オーディオコンポーネント）に関連する音量情報を表す（場合によっては、スピーカの位置に関する知識またはサイド情報および／またはオーディオオブジェクトの位置を記述する知識またはサイド情報と組み合わせて）。

一実施形態によれば、オーディオエンコーダは、候補信号の対の全体的な方向性音量マップへの寄与を決定するように構成される。さらに、オーディオエンコーダは、全体的な方向性音量マップに対する候補信号の対の寄与を決定するように構成され、オーディオエンコーダは、ジョイント符号化のための全体的な方向性音量マップへの最大の寄与を有する候補信号の１つまたは複数の対を選択するように構成され、あるいはオーディオエンコーダは、ジョイント符号化のための所定の閾値よりも大きい全体的な方向性音量マップへの寄与（例えば、少なくとも６０％、７０％、８０％または９０％の寄与）を有する候補信号の１つまたは複数の対を選択するように構成される。最大の寄与に関して、１対の候補信号のみが最大の寄与を有することが可能であるが、２対以上の候補信号が同じ寄与を有することも可能であり、これは最大の寄与を表し、または２対以上の候補信号が最大の寄与の小さな分散内で同様の寄与を有する。したがって、オーディオエンコーダは、例えば、ジョイント符号化のために２つ以上の信号または信号対を選択するように構成される。この実施形態に記載された特徴により、改善されたジョイント符号化のための関連する信号対を見つけること、および、聴取者による符号化されたオーディオコンテンツの知覚に大量に影響を与えない信号または信号対を破棄することが可能である。

一実施形態によれば、オーディオエンコーダは、２つ以上の候補信号（例えば、信号対に関連付けられた方向性音量マップ）の個々の方向性音量マップを決定するように構成される。さらに、オーディオエンコーダは、２つ以上の候補信号の個々の方向性音量マップを比較し、比較の結果（例えば、その個々の音量マップが最大類似度または類似度閾値より高い類似度を含む候補信号（例えば、信号対、信号トリプレット、信号クワドルプレットなど）が、ジョイント符号化のために選択されるように）に応じてジョイント符号化のための候補信号の２つ以上を選択するように構成される。したがって、例えば、符号化されたオーディオコンテンツの高い質を維持する残差信号（例えば、中間チャネルに対するサイドチャネル）に対してわずかなビットしか費やされないか、またはまったく費やされない。

一実施形態によれば、オーディオエンコーダは、入力オーディオ信号のダウンミックスを使用して、および／または入力オーディオ信号のバイノーラル化を使用して、全体的な方向性音量マップを決定するように構成される。ダウンミックスまたはバイノーラル化は、例えば、方向（例えば、それぞれの入力オーディオ信号のためのチャネルまたはスピーカとの関連付け）を想定している。全体的な方向性音量マップは、すべての入力オーディオ信号によって作成されたオーディオシーンに対応する音量情報に関連付けることができる。

本発明による一実施形態は、１つまたは複数の入力オーディオ信号（好ましくは複数の入力オーディオ信号）を含む入力オーディオコンテンツを符号化するためのオーディオエンコーダに関する。オーディオエンコーダは、２つ以上の入力オーディオ信号（例えば、左信号および右信号）に基づき、またはそれから導出された２つ以上の信号に基づいて、１つまたは複数の符号化（例えば、量子化され、次いで可逆的に符号化される）オーディオ信号（例えば、符号化されたスペクトル領域表現）を提供するよう構成される。さらに、オーディオエンコーダは、入力オーディオ信号に基づいて全体的な方向性音量マップ（例えば、シーンの目標方向性音量マップ）を決定すること、および／または個々の入力オーディオ信号に関連付けられる（または、信号対のような２つ以上の入力オーディオ信号に関連付けられる）１つまたは複数の個々の方向性音量マップを決定するよう構成される。さらに、オーディオエンコーダは、全体的な方向性音量マップおよび／または１つまたは複数の個々の方向性音量マップをサイド情報として符号化するように構成される。

したがって、例えば、オーディオコンテンツがただ１つの入力オーディオ信号を含む場合、オーディオエンコーダは、対応する個々の方向性音量マップと共にこの信号のみを符号化するように構成される。オーディオコンテンツが２つ以上の入力オーディオ信号を含む場合、オーディオエンコーダは、例えば、すべてまたは少なくともいくつかの（例えば、１つの個別信号および３つの入力オーディオ信号の１つの信号対）信号をそれぞれの方向性音量マップ（例えば、個々の符号化信号の個々の方向性音量マップ、および／または信号対もしくは３つ以上の信号の他の組み合わせに対応する方向性音量マップ、および／またはすべての入力オーディオ信号に関連付けられた全体的な方向性音量マップ）と共に個別に符号化するように構成される。一実施形態によれば、オーディオエンコーダは、例えば、出力（例えば、２つ以上の入力オーディオ信号のうちの２つ以上の符号化オーディオ信号を含む１つの結合出力信号（例えば、一緒に符号化された信号））としての全体的な方向性音量マップと共に、１つの符号化されたオーディオ信号をもたらすすべてまたは少なくともいくつかの信号を符号化するように構成される。したがって、オーディオエンコーダを用いて、モノラル・オーディオ・コンテンツ、ステレオ・オーディオ・コンテンツ、および／または３つ以上の入力オーディオ信号（すなわち、マルチチャネルオーディオコンテンツ）を含むオーディオコンテンツを符号化することが可能である。

このオーディオエンコーダの実施形態は、聴取者によるオーディオコンテンツの知覚を示し、したがって符号化されたオーディオコンテンツのオーディオの質を改善することができるので、１つまたは複数の方向性音量マップを決定および符号化することが有利であるという考えに基づいている。一実施形態によれば、１つまたは複数の方向性音量マップは、例えば、１つまたは複数の方向性音量マップに基づいて符号化パラメータを適合させることによって、符号化を改善するためにエンコーダによって使用することができる。したがって、１つまたは複数の方向性音量マップの符号化は、符号化の影響に関する情報を表すことができるため、特に有利である。オーディオエンコーダによって提供される符号化されたオーディオコンテンツ内のサイド情報として１つまたは複数の方向性音量マップを用いると、符号化に関する情報がオーディオエンコーダによって（例えば、データストリームにおいて）提供されるので、非常に正確な復号化を達成することができる。

一実施形態によれば、オーディオエンコーダは、入力オーディオ信号に基づいて全体的な方向性音量マップを決定するように構成され、その結果、全体的な方向性音量マップは、入力オーディオ信号によって表される（または、例えばデコーダ側レンダリングの後に表現されるべきである）オーディオシーンの異なる方向（例えば、オーディオコンポーネント）に関連する音量情報を表す（場合によっては、スピーカの位置に関する知識またはサイド情報および／またはオーディオオブジェクトの位置を記述する知識またはサイド情報と組み合わせて）。オーディオシーンの異なる方向は、例えば、本明細書に記載の第２の異なる方向を表す。

一実施形態によれば、オーディオエンコーダは、全体的な方向性音量マップを、異なる方向に関連付けられた（例えば、スカラ）値のセットの形態で（好ましくは複数の周波数ビンまたは周波数帯域で）符号化するように構成される。全体的な方向性音量マップが値のセットの形式で符号化される場合、特定の方向に関連する値は、複数の周波数ビンまたは周波数帯域の音量情報を含むことができる。あるいは、オーディオエンコーダは、中心位置値（例えば、所与の周波数ビンまたは周波数帯域に対して全体的な方向性音量マップの最大値が発生する角度またはパンニングインデックスを記述する）および勾配情報（例えば、角度方向またはパンニングインデックス方向における全体的な方向性音量マップの値の勾配を記述する１つまたは複数のスカラ値）を使用して全体的な方向性音量マップを符号化するように構成される。中心位置値および勾配情報を使用した全体的な方向性音量マップの符号化は、異なる所与の周波数ビンまたは周波数帯域に対して実行することができる。したがって、例えば、全体的な方向性音量マップは、２つ以上の周波数ビンまたは周波数帯域の中心位置値の情報および勾配情報を含むことができる。あるいは、オーディオエンコーダは、全体的な方向性音量マップを多項式表現の形式で符号化するように構成されるか、またはオーディオエンコーダは、全体的な方向性音量マップをスプライン表現の形式で符号化するように構成される。多項式表現またはスプライン表現の形態での全体的な方向性音量マップの符号化は、費用効率の高い符号化である。これらの特徴は、全体的な方向性音量マップに関して説明されているが、この符号化は、個々の方向性音量マップ（例えば、個々の信号、信号対、および／または３つ以上の信号のグループ）に対しても実行することができる。したがって、これらの特徴により、方向性音量マップは非常に効率的に符号化され、符号化の基礎となる情報が提供される。

一実施形態によれば、オーディオエンコーダは、複数の入力オーディオ信号および全体的な方向性音量マップに基づいて得られる１つ（例えば、１のみ）のダウンミックス信号を符号化（例えば、符号化されたオーディオ表現に送信または含める）するように構成される。あるいは、オーディオエンコーダは、複数の信号（例えば、入力オーディオ信号または入力オーディオ信号から導出された信号）を符号化し（例えば、符号化されたオーディオ表現に送信し、または含め）、符号化される複数の信号（例えば、個々の信号および／または信号対および／または３つ以上の信号のグループの方向性音量マップ）の個々の方向性音量マップを符号化する（例えば、符号化されたオーディオ表現を送信する、または含める）ように構成される。あるいは、オーディオエンコーダは、全体的な方向性音量マップ、複数の信号、例えば入力オーディオ信号またはそれから導出される信号、および全体的な方向性音量マップに符号化される寄与、例えば信号の相対寄与を記述する（例えば、相対的）パラメータを符号化する（例えば、符号化されたオーディオ表現に送信または含める）ように構成される。一実施形態によれば、寄与を記述するパラメータは、スカラ値によって表すことができる。したがって、符号化されたオーディオ表現（例えば、符号化された信号、全体的な方向性音量マップ、およびパラメータを含むオーディオコンテンツまたはデータストリーム）を受信するオーディオデコーダによって、全体的な方向性音量マップおよび信号の寄与を記述するパラメータに基づいて、信号の個々の方向性音量マップを再構築することが可能である。

本発明による一実施形態は、符号化されたオーディオコンテンツを復号するためのオーディオデコーダに関する。オーディオデコーダは、１つまたは複数のオーディオ信号の符号化表現を受信し、１つまたは複数のオーディオ信号の復号表現を提供する（例えば、ＡＡＣのような復号化を使用すること、またはエントロピー符号化されたスペクトル値の復号化を使用する）ように構成される。さらに、オーディオデコーダは、符号化された方向性音量マップ情報を受信し、符号化された方向性音量マップ情報を復号して、１つまたは複数の（例えば、復号される）方向性音量マップを取得するように構成される。さらに、オーディオデコーダは、１つまたは複数のオーディオ信号の復号表現を使用し、１つまたは複数の方向性音量マップを使用してオーディオシーンを再構成するように構成される。オーディオコンテンツは、１つまたは複数のオーディオ信号の符号化表現および符号化された方向性音量マップ情報を含むことができる。符号化された方向性音量マップ情報は、個々の信号、信号対、および／または３つ以上の信号のグループの方向性音量マップを含むことができる。

このオーディオデコーダの実施形態は、聴取者によるオーディオコンテンツの知覚を示し、したがって復号されたオーディオコンテンツのオーディオの質を改善することができるので、１つまたは複数の方向性音量マップを決定および復号することが有利であるという考えに基づいている。オーディオデコーダは、例えば、１つまたは複数の方向性音量マップに基づいて高質予測信号を決定するように構成され、それによって残差復号（またはジョイント復号）を改善することができる。一実施形態によれば、方向性音量マップは、経時的なオーディオシーン内の異なる方向の音量情報を定義する。特定の時点または特定の時間フレームにおける特定の方向の音量情報は、例えば、異なる周波数ビンまたは周波数帯域における異なるオーディオ信号または１つのオーディオ信号の音量情報を含むことができる。したがって、例えば、オーディオデコーダによる１つまたは複数のオーディオ信号の復号表現の提供は、例えば、復号された方向性音量マップに基づいて１つまたは複数のオーディオ信号の符号化表現の復号を適合させることによって改善することができる。したがって、１つまたは複数のオーディオ信号の復号表現は、１つまたは複数の方向性音量マップの分析に基づいて元のオーディオ信号に対する最小偏差を達成することができ、その結果、高質のオーディオシーンが得られるので、再構築されたオーディオシーンは最適化される。一実施形態によれば、オーディオデコーダは、復号パラメータの適合のために１つまたは複数の方向性音量マップを使用して、１つまたは複数のオーディオ信号の復号表現を効率的かつ高精度に提供するように構成することができる。

一実施形態によれば、オーディオデコーダは、出力信号に関連付けられた１つまたは複数の方向性音量マップが１つまたは複数の目標方向性音量マップに近似するかまたは等しくなるように、出力信号を取得するように構成される。１つまたは複数の目標方向性音量マップは、１つまたは複数の復号された方向性音量マップに基づくか、または１つまたは複数の復号された方向性音量マップに等しい。オーディオデコーダは、例えば、出力信号を得るために１つまたは複数の復号されたオーディオ信号の適切なスケーリングまたは組み合わせを使用するように構成される。目標方向性音量マップは、例えば、基準方向性音量マップとして理解される。一実施形態によれば、目標方向性音量マップは、オーディオ信号の符号化および復号の前に、１つまたは複数のオーディオ信号の音量情報を表すことができる。あるいは、目標方向性音量マップは、１つまたは複数のオーディオ信号の符号化表現（例えば、１つまたは複数の復号された方向性音量マップ）に関連する音量情報を表すことができる。オーディオデコーダは、例えば、符号化されたオーディオコンテンツを提供するために符号化に使用される符号化パラメータを受信する。オーディオデコーダは、例えば、１つまたは複数の復号された方向性音量マップをスケーリングして１つまたは複数の目標方向性音量マップを決定するために、符号化パラメータに基づいて復号パラメータを決定するように構成される。オーディオデコーダは、復号された方向性音量マップおよび１つまたは複数の復号されたオーディオ信号に基づいて目標方向性音量マップを決定するように構成されたオーディオアナライザを備えることも可能であり、例えば、復号された方向性音量マップは、１つまたは複数の復号されたオーディオ信号に基づいてスケーリングされる。１つまたは複数の目標方向性音量マップは、オーディオ信号によって実現される最適または最適化されたオーディオシーンに関連付けることができるため、出力信号に関連付けられた１つまたは複数の方向性音量マップと１つまたは複数の目標方向性音量マップとの間の偏差を最小化することが有利である。一実施形態によれば、この偏差は、復号パラメータを適合させることによって、またはオーディオシーンの再構成に関するパラメータを適合させることによって、オーディオデコーダによって最小化することができる。したがって、この特徴により、出力信号の質は、例えば、出力信号に関連する１つまたは複数の方向性音量マップを分析するフィードバックループによって制御される。オーディオデコーダは、例えば、出力信号（例えば、オーディオデコーダは、方向性音量マップを決定するための本明細書に記載のオーディオアナライザを備える）の１つまたは複数の方向性音量マップを決定するように構成される。したがって、オーディオデコーダは、目標方向性音量マップに近似または等しい方向性音量マップに関連付けられた出力信号を提供する。

一実施形態によれば、オーディオデコーダは、１つ（例えば、１のみ）の符号化されたダウンミックス信号（例えば、複数の入力オーディオ信号に基づいて取得される）および全体的な方向性音量マップ、または複数の符号化されたオーディオ信号（例えば、エンコーダの入力オーディオ信号またはそれから導出された信号）、および複数の符号化された信号の個々の方向性音量マップ、または全体的な方向性音量マップ、複数の符号化されたオーディオ信号（例えば、オーディオエンコーダによって受信された入力オーディオ信号、またはそこから導出された信号）、および符号化されたオーディオ信号の全体的な方向性音量マップへの（例えば、相対的な）寄与を記述するパラメータを受信するよう構成される。オーディオデコーダは、これに基づいて出力信号を提供するように構成される。

本発明による一実施形態は、オーディオシーン（例えば、空間オーディオシーン）を表すオーディオコンテンツのフォーマットを第１のフォーマットから第２のフォーマットに変換するためのフォーマット変換器に関する。第１のフォーマットは、例えば、第１の数のチャネルまたは入力オーディオ信号と、第１の数のチャネルまたは入力オーディオ信号に適合されたサイド情報または空間サイド情報とを含むことができ、第２のフォーマットは、例えば、第１の数のチャネルまたは入力オーディオ信号とは異なり得る第２の数のチャネルまたは出力オーディオ信号と、第２の数のチャネルまたは出力オーディオ信号に適合されたサイド情報または空間サイド情報とを含むことができる。さらに、フォーマット変換器は、第１のフォーマットのオーディオコンテンツの表現に基づいて第２のフォーマットのオーディオコンテンツの表現を提供するように構成される。さらに、フォーマット変換器は、オーディオシーンの全体的な方向性音量マップへの第１のフォーマットの入力オーディオ信号（例えば、１つまたは複数のオーディオ信号、１つまたは複数のダウンミックス信号、１つまたは複数の残差信号など）の寄与に応じて、フォーマット変換の複雑度を調整する（例えば、フォーマット変換プロセスにおいて、閾値を下回る方向性音量マップに寄与する第１のフォーマットの入力オーディオ信号のうちの１つまたは複数をスキップすることによって）よう構成される（全体的な方向性音量マップは、例えば、フォーマット変換器によって受信された第１のフォーマットのサイド情報によって記述されてもよい）。したがって、例えば、フォーマット変換の複雑度調整のために、個々の入力オーディオ信号に関連付けられた個々の方向性音量マップの、オーディオシーンの全体的な方向性音量マップへの寄与が分析される。あるいは、この調整は、入力オーディオ信号（例えば、信号対、中間信号、サイド信号、ダウンミックス信号、残差信号、差分信号、および／または３つ以上の信号のグループ）の組み合わせに対応する方向性音量マップの、オーディオシーンの全体的な方向性音量マップへの寄与に応じて、フォーマット変換器によって実行することができる。

フォーマット変換器の実施形態は、聴取者によるオーディオコンテンツの知覚を示すことができ、したがって第２のフォーマットにおけるオーディオコンテンツの高質が実現され、方向性音量マップに応じてフォーマット変換の複雑度が低減されるので、１つまたは複数の方向性音量マップに基づいてオーディオコンテンツのフォーマットを変換することが有利であるという考えに基づいている。寄与により、フォーマット変換されたオーディオコンテンツの高質オーディオ知覚に関連する信号の情報を得ることが可能である。したがって、例えば、第２のフォーマットのオーディオコンテンツは、第１のフォーマットのオーディオコンテンツよりも少ない信号（例えば、方向性音量マップに従って関連する信号のみ）を含み、ほぼ同じオーディオの質を有する。

一実施形態によれば、フォーマット変換器は、方向性音量マップ情報を受信し、それに基づいて全体的な方向性音量マップ（例えば、復号されたオーディオシーン；例えば、第１のフォーマットのオーディオコンテンツ）および／または１つもしくは複数の方向性音量マップを取得するように構成される。方向性音量マップ情報（すなわち、オーディオコンテンツの個々の信号に関連付けられた、またはオーディオコンテンツの信号対もしくは３つ以上の信号の組み合わせに関連付けられた１つ以上の方向性音量マップ）は、第１のフォーマットのオーディオコンテンツを表すことができ、第１のフォーマットのオーディオコンテンツの一部とすることができ、または第１のフォーマットのオーディオコンテンツに基づいてフォーマット変換器によって決定することができる（例えば、本明細書に記載のオーディオアナライザによって；例えば、フォーマット変換器がオーディオアナライザを備えている）。一実施形態によれば、フォーマット変換器は、第２のフォーマットのオーディオコンテンツの方向性音量マップ情報も決定するように構成される。したがって、例えば、フォーマット変換の前後の方向性音量マップを比較して、フォーマット変換による知覚される質の劣化を低減することができる。これは、例えば、フォーマット変換前後の方向性音量マップの偏差を最小化することによって実現される。

一実施形態によれば、フォーマット変換器は、１つまたは複数の（例えば、復号される）方向性音量マップ（例えば、第１のフォーマットの信号に関連付けられる）から全体的な方向性音量マップ（例えば、復号されたオーディオシーン）を導出するように構成される。

一実施形態によれば、フォーマット変換器は、オーディオシーンの全体的な方向性音量マップに対する所与の入力オーディオ信号（例えば、第１のフォーマットの信号）の寄与を計算または推定するように構成される。フォーマット変換器は、寄与の計算または推定（例えば、計算されたまたは推定された寄与を所定の絶対的または相対的閾値と比較することによって）に応じて、フォーマット変換において所与の入力オーディオ信号を考慮するかどうかを決定するように構成される。例えば、寄与が絶対閾値または相対閾値以上である場合、対応する信号は関連性があるとみなすことができ、したがって、フォーマット変換器は、この信号を考慮することを決定するように構成することができる。これは、第１のフォーマットのすべての信号が必ずしも第２のフォーマットに変換されるわけではないため、フォーマット変換器による複雑度の調整として理解することができる。所定の閾値は、少なくとも２％または少なくとも５％または少なくとも１０％または少なくとも２０％または少なくとも３０％の寄与を表すことができる。これは、例えば、不可聴および／または無関係なチャネル（またはほぼ不可聴および／または無関係なチャネル）を除外することを意味し、すなわち、閾値はより低く（例えば、他の使用事例と比較する場合）、例えば５％、１０％、２０％、３０％であるべきである。

本発明による一実施形態は、符号化されたオーディオコンテンツを復号するためのオーディオデコーダに関する。オーディオデコーダは、１つまたは複数のオーディオ信号の符号化表現を受信し、１つまたは複数のオーディオ信号の復号表現を提供する（例えば、ＡＡＣのような復号化を使用すること、またはエントロピー符号化されたスペクトル値の復号化を使用する）ように構成される。さらに、オーディオデコーダは、１つまたは複数のオーディオ信号の復号表現を使用してオーディオシーンを再構成し、復号されたオーディオシーンの全体的な方向性音量マップへの符号化信号（例えば、１つまたは複数のオーディオ信号、１つまたは複数のダウンミックス信号、１つまたは複数の残差信号など）の寄与に応じて、復号の複雑度を調整するように構成される。

このオーディオデコーダの実施形態は、１つまたは複数の方向性音量マップに基づいて復号複雑度を調整することが有利であるという考えに基づいており、これは、それらが聴取者によるオーディオコンテンツの知覚を示し、したがって同時に復号複雑度の低減およびオーディオコンテンツのデコーダオーディオ質の改善を実現することができるからである。したがって、例えば、オーディオデコーダは、寄与に基づいて、オーディオコンテンツのどの符号化信号が復号され、オーディオデコーダによるオーディオシーンの再構成に使用されるべきかを決定するように構成される。これは、例えば、１つまたは複数のオーディオ信号の符号化表現が、ほぼ同じのオーディオの質で、１つまたは複数のオーディオ信号の復号表現よりも少ないオーディオ信号（例えば、方向性音量マップに従って関連するオーディオ信号のみ）を含むことを意味する。

一実施形態によれば、オーディオデコーダは、全体的な方向性音量マップ（例えば、復号されたオーディオシーンの、または、例えば、復号されたオーディオシーンの目標方向性音量マップとして）および／または１つもしくは複数の（復号された）方向性音量マップを得るために、符号化された方向性音量マップ情報を受信し、符号化された方向性音量マップ情報を復号するように構成される。一実施形態によれば、フォーマット変換器は、符号化されたオーディオコンテンツ（例えば、受信される）および復号されたオーディオコンテンツ（例えば、決定される）の方向性音量マップ情報を決定または受信するように構成される。したがって、例えば、復号および／または以前の符号化（例えば、本明細書に記載のオーディオエンコーダによって実行される）に起因する知覚される質の劣化を低減するために、復号の前後の方向性音量マップを比較することができる。これは、例えば、フォーマット変換前後の方向性音量マップの偏差を最小化することによって実現される。

一実施形態によれば、オーディオデコーダは、１つまたは複数の（例えば、復号される）方向性音量マップから全体的な方向性音量マップ（例えば、復号されたオーディオシーンの、または、例えば、復号されたオーディオシーンの目標方向性音量マップとして）を導出するように構成される。

一実施形態によれば、オーディオデコーダは、復号されたオーディオシーンの全体的な方向性音量マップに対する所与の符号化信号の寄与を計算または推定するように構成される。あるいは、オーディオデコーダは、符号化されたオーディオシーンの全体的な方向性音量マップに対する所与の符号化信号の寄与を計算するように構成される。オーディオデコーダは、寄与の計算または推定（例えば、計算されたまたは推定された寄与を所定の絶対的または相対的閾値と比較することによって）に応じて、所与の符号化信号を復号するかどうかを決定するように構成される。所定の閾値は、少なくとも６０％、７０％、８０％、または９０％の寄与を表すことができる。良好な質を維持するために、閾値はより低くすべきであり、それでも計算能力が非常に限られている（例えば、モバイルデバイス）場合には、例えば１０％、２０％、４０％、６０％など、この範囲に達する可能性がある。言い換えれば、いくつかの好ましい実施形態では、所定の閾値は、少なくとも５％、または少なくとも１０％、または少なくとも２０％、または少なくとも４０％、または少なくとも６０％の寄与を表すべきである。

本発明による一実施形態は、オーディオコンテンツをレンダリングするためのレンダラ（例えば、バイノーラルレンダラまたはサウンドバーレンダラまたはスピーカレンダラ）に関する。一実施形態によれば、第１の数の入力オーディオチャネルと、オーディオオブジェクトの配置またはオーディオチャネル間の関係などの所望の空間特性を記述するサイド情報とを使用して表されるオーディオコンテンツを、第１の数の入力オーディオチャネル（例えば、第１の数の入力オーディオチャネルよりも大きいか、または第１の数の入力オーディオチャネルよりも小さい）から独立した所与の数のチャネルを含む表現に分配するためのレンダラである。レンダラは、１つまたは複数の入力オーディオ信号に基づいて（または、例えば、２つ以上の入力オーディオ信号に基づいて）、オーディオシーンを再構成するように構成される。さらに、レンダラは、レンダリングされたオーディオシーンの全体的な方向性音量マップへの入力オーディオ信号（例えば、１つまたは複数のオーディオ信号、１つまたは複数のダウンミックス信号、１つまたは複数の残差信号など）の寄与に応じて、レンダリングの複雑度（例えば、レンダリング処理において、閾値を下回る方向性音量マップに寄与する入力オーディオ信号のうちの１つまたは複数をスキップすることによって）を調整するように構成される。全体的な方向性音量マップは、例えば、レンダラによって受信されたサイド情報によって記述することができる。

一実施形態によれば、レンダラは、方向性音量マップ情報を取得し（例えば、それ自体で受信または決定する）、それに基づいて全体的な方向性音量マップ（例えば、復号されたオーディオシーン）および／または１つもしくは複数の方向性音量マップを取得するように構成される。

一実施形態によれば、レンダラは、１つまたは複数の（例えば、２つ以上の）（例えば、復号または自己由来の）方向性音量マップから全体的な方向性音量マップ（例えば、復号されたオーディオシーン）を導出するように構成される。

一実施形態によれば、レンダラは、オーディオシーンの全体的な方向性音量マップに対する所与の入力オーディオ信号の寄与を計算または推定するように構成される。さらに、レンダラは、寄与の計算または推定（例えば、計算されたまたは推定された寄与を所定の絶対的または相対的閾値と比較することによって）に応じて、レンダリングにおいて所与の入力オーディオ信号を考慮するかどうかを決定するように構成される。

本発明による一実施形態は、オーディオ信号を分析するための方法に関する。本方法は、２つ以上の入力オーディオ信号の１つ以上のスペクトル領域（例えば、時間周波数領域）表現に基づいて複数の重み付けスペクトル領域（例えば、時間周波数領域）表現（例えば、「方向性信号」）を取得することを含む。１つまたは複数のスペクトル領域表現の値は、複数の重み付けスペクトル領域表現（例えば、「方向性信号」）を取得するために、２つ以上の入力オーディオ信号内のオーディオ成分（例えば、スペクトルビンまたはスペクトル帯域の）（例えば、楽器または歌唱者からのチューニング）の異なる方向（例えば、パンニング方向）（例えば、重み係数によって表される）に応じて重み付けされる。さらに、本方法は、複数の重み付けスペクトル領域表現（例えば、「方向性信号」）に基づいて、異なる方向（例えば、パンニング方向）に関連する音量情報（例えば、１つまたは複数の「方向性音量マップ」）を分析結果として取得することを含む。

本発明による一実施形態は、オーディオ信号の類似度を評価するための方法に関する。本方法は、２つ以上の入力オーディオ信号の第１のセットに基づいて、異なる（例えば、パンニング）方向に関連する第１の音量情報（例えば、方向性音量マップ；例えば、合成音量値）を取得することを含む。さらに、本方法は、第１の音量情報を、異なるパンニング方向および２つ以上の基準オーディオ信号のセットに関連する第２の（例えば、対応する）音量情報（例えば、基準音量情報；例えば、基準方向性音量マップ；例えば、基準合成音量値）と比較して、２つ以上の入力オーディオ信号の第１のセットと２つ以上の基準オーディオ信号のセット（または、例えば、２つ以上の基準オーディオ信号のセットと比較したときの２つ以上の入力オーディオ信号の第１のセットの質を表す）との間の類似度を記述する類似度情報（例えば、「モデル出力変数」（ＭＯＶ））を得ることを含む。

本発明による一実施形態は、１つまたは複数の入力オーディオ信号（好ましくは複数の入力オーディオ信号）を含む入力オーディオコンテンツを符号化するための方法に関する。本方法は、１つまたは複数の入力オーディオ信号（例えば、左信号および右信号）、またはそれから導出された１つまたは複数の信号（例えば、中間信号またはダウンミックス信号およびサイド信号または差分信号）に基づいて、１つまたは複数の符号化（例えば、量子化され、次いで可逆的に符号化される）オーディオ信号（例えば、符号化されたスペクトル領域表現）を提供することを含む。さらに、本方法は、符号化されるべき１つまたは複数の信号の複数の異なる方向（例えば、パンニング方向）に関連付けられる音量情報を表す１つまたは複数の方向性音量マップに応じて、１つまたは複数の符号化されたオーディオ信号の提供を適合させることを含む。１つまたは複数の符号化されたオーディオ信号の提供の適合は、例えば、量子化されるべき１つまたは複数の信号の個々の方向性音量マップ（例えば、個々の信号、信号対、または３つ以上の信号のグループに関連付けられる）の、例えば複数の入力オーディオ信号（例えば、１つまたは複数の入力オーディオ信号の各信号）に関連付けられた全体的な方向性音量マップへの寄与に応じて実行される。

本発明による一実施形態は、１つまたは複数の入力オーディオ信号（好ましくは複数の入力オーディオ信号）を含む入力オーディオコンテンツを符号化するための方法に関する。方法は、２つ以上の入力オーディオ信号（例えば、左信号および右信号）に基づき、またはそれから導出された２つ以上の信号に基づき、一緒に符号化されるべき２つ以上の信号のジョイント符号化（例えば、中間信号またはダウンミックス信号とサイド信号または差分信号とを使用して（例えば、中間信号またはダウンミックス信号およびサイド信号または差分信号）、１つまたは複数の符号化（例えば、量子化され、次いで可逆的に符号化される）オーディオ信号（例えば、符号化されたスペクトル領域表現）を提供することを含む。さらに、本方法は、候補信号または候補信号の対の複数の異なる方向（例えば、パンニング方向）に関連する音量情報を表す方向性音量マップに応じて、複数の候補信号または候補信号の複数の対から（例えば、２つ以上の入力オーディオ信号から、または、それから導出される２つ以上の信号から）合同で符号化される信号を選択することを含む。一実施形態によれば、一緒に符号化される信号は、例えば複数の入力オーディオ信号（例えば、１つまたは複数の入力オーディオ信号の各信号）に関連付けられた、候補信号の個々の方向性音量マップの全体的な方向性音量マップへの寄与に応じて、または候補信号の対の方向性音量マップの全体的な方向性音量マップへの寄与に応じて、選択される。

本発明による一実施形態は、１つまたは複数の入力オーディオ信号（好ましくは複数の入力オーディオ信号）を含む入力オーディオコンテンツを符号化するための方法に関する。本方法は、２つ以上の入力オーディオ信号（例えば、左信号および右信号）に基づき、またはそれから導出された２つ以上の信号に基づいて、１つまたは複数の符号化（例えば、量子化され、次いで可逆的に符号化される）オーディオ信号（例えば、符号化されたスペクトル領域表現）を提供することを含む。さらに、本方法は、入力オーディオ信号に基づいて全体的な方向性音量マップ（例えば、シーンの目標方向性音量マップ）を決定すること、および／または個々の入力オーディオ信号に関連する１つもしくは複数の個々の方向性音量マップを決定すること（および／または入力オーディオ信号対に関連する１つもしくは複数の方向性音量マップを決定すること）を含む。さらに、本方法は、全体的な方向性音量マップおよび／または１つもしくは複数の個々の方向性音量マップをサイド情報として符号化することを含む。

本発明による一実施形態は、符号化されたオーディオコンテンツを復号するための方法に関する。本方法は、１つまたは複数のオーディオ信号の符号化表現を受信すること、１つまたは複数のオーディオ信号の復号表現を提供すること（例えば、ＡＡＣのような復号化を使用すること、またはエントロピー符号化されたスペクトル値の復号化を使用する）を含む。さらに、方法は、符号化された方向性音量マップ情報を受信すると、符号化された方向性音量マップ情報を復号することと、１つまたは複数の（例えば、復号される）方向性音量マップを取得することとを含む。さらに、方法は、オーディオシーンを、１つまたは複数のオーディオ信号の復号表現を使用して、１つまたは複数の方向性音量マップを使用して再構成することを含む。

本発明による一実施形態は、オーディオシーン（例えば、空間オーディオシーン）を表すオーディオコンテンツのフォーマットを第１のフォーマットから第２のフォーマットに変換するための方法に関する。第１のフォーマットは、例えば、第１の数のチャネルまたは入力オーディオ信号と、第１の数のチャネルまたは入力オーディオ信号に適合されたサイド情報または空間サイド情報とを含むことができ、第２のフォーマットは、例えば、第１の数のチャネルまたは入力オーディオ信号とは異なり得る第２の数のチャネルまたは出力オーディオ信号と、第２の数のチャネルまたは出力オーディオ信号に適合されたサイド情報または空間サイド情報とを含むことができる。方法は、第１のフォーマットのオーディオコンテンツの表現に基づいて、第２のフォーマットのオーディオコンテンツの表現を提供することを含み、オーディオシーンの全体的な方向性音量マップへの第１のフォーマットの入力オーディオ信号（例えば、１つまたは複数のオーディオ信号、１つまたは複数のダウンミックス信号、１つまたは複数の残差信号など）の寄与に応じて、フォーマット変換の複雑度を調整すること（例えば、フォーマット変換プロセスにおいて、閾値を下回る方向性音量マップに寄与する第１のフォーマットの入力オーディオ信号のうちの１つまたは複数をスキップすることによって）を含む。全体的な方向性音量マップは、例えば、フォーマット変換器によって受信された第１のフォーマットのオーディオコンテンツのサイド情報によって記述されてもよい。

本発明による一実施形態は、方法が１つまたは複数のオーディオ信号の符号化表現を受信すること、１つまたは複数のオーディオ信号の復号表現を提供すること（例えば、ＡＡＣのような復号化を使用すること、またはエントロピー符号化されたスペクトル値の復号化を使用する）を含むことに関する。方法は、オーディオシーンを、１つまたは複数のオーディオ信号の復号表現を使用して再構成することを含む。さらに、方法は、復号されたオーディオシーンの全体的な方向性音量マップへの符号化された信号（例えば、１つまたは複数のオーディオ信号、１つまたは複数のダウンミックス信号、１つまたは複数の残差信号など）の寄与に応じて復号の複雑度を調整することを含む。

本発明による一実施形態は、オーディオコンテンツをレンダリングするための方法に関する。一実施形態によれば、本発明は、第１の数の入力オーディオチャネルと、オーディオオブジェクトの配置またはオーディオチャネル間の関係などの所望の空間特性を記述するサイド情報とを使用して表されるオーディオコンテンツを、第１の数の入力オーディオチャネルよりも大きい数のチャネルを含む表現にアップミックスするための方法に関する。方法は、１つまたは複数の入力オーディオ信号に基づいて（または２つ以上の入力オーディオ信号に基づいて）オーディオシーンを再構成することを含む。さらに、方法は、レンダリングされたオーディオシーンの全体的な方向性音量マップへの入力オーディオ信号（例えば、１つまたは複数のオーディオ信号、１つまたは複数のダウンミックス信号、１つまたは複数の残差信号など）の寄与に応じて、レンダリングの複雑度（例えば、レンダリング処理において、閾値を下回る方向性音量マップに寄与する入力オーディオ信号のうちの１つまたは複数をスキップすることによって）を調整することを含む。全体的な方向性音量マップは、例えば、レンダラによって受信されたサイド情報によって記述することができる。

本発明による一実施形態は、コンピュータ上で実行されると、本明細書に記載の方法を実行するためのプログラムコードを有するコンピュータプログラムに関する。

本発明による一実施形態は、１つまたは複数のオーディオ信号の符号化表現および符号化された方向性音量マップ情報を含む、符号化されたオーディオ表現（例えば、オーディオストリームまたはデータストリーム）に関する。

上述の方法は、上述のオーディオアナライザ、オーディオ類似度評価器、オーディオエンコーダ、オーディオデコーダ、フォーマット変換器および／またはレンダラと同じ考慮事項に基づく。本方法は、オーディオアナライザ、オーディオ類似度評価器、オーディオエンコーダ、オーディオデコーダ、フォーマット変換器、および／またはレンダラに関しても説明されているすべての特徴および機能で完了することができる。

図面は必ずしも縮尺通りではなく、代わりに、一般に本発明の原理を説明することに重点が置かれている。以下の説明では、本発明の様々な実施形態が、以下の図面を参照して説明される。

本発明の一実施形態によるオーディオアナライザのブロック図を示す。本発明の一実施形態によるオーディオアナライザの詳細なブロック図を示す。本発明の一実施形態による第１のパンニングインデックス手法を使用するオーディオアナライザのブロック図を示す。本発明の一実施形態による第２のパンニングインデックス手法を使用するオーディオアナライザのブロック図を示す。本発明の一実施形態による第１のヒストグラム手法を使用するオーディオアナライザのブロック図を示す。本発明の一実施形態による第２のヒストグラム手法を使用するオーディオアナライザのブロック図を示す。本発明の一実施形態による、オーディオアナライザによって分析されるスペクトル領域表現と、方向分析、周波数ビンごとの音量計算、およびオーディオアナライザによる方向ごとの音量計算の結果の概略図を示す。本発明の一実施形態によるオーディオアナライザによる方向分析のための２つの信号の概略ヒストグラムを示す図を示す。本発明の一実施形態によるオーディオアナライザによって実行されるスケーリングについて、方向に関連付けられた時間／周波数タイルごとに０とは異なる１つのスケーリング係数を有する行列を示す図を示す。本発明の一実施形態によるオーディオアナライザによって実行されるスケーリングについて、方向に関連付けられた時間／周波数タイルごとに０とは異なる複数のスケーリング係数を有する行列を示す図を示す。本発明の一実施形態による、処理後の第１の導通経路および第２の導通経路を有するプリント回路基板の概略図を示す。本発明の一実施形態によるオーディオ類似度評価器のブロック図を示す。本発明の一実施形態によるステレオ信号を分析するためのオーディオ類似度評価器のブロック図を示す。本発明の一実施形態によるオーディオ類似度評価器によって使用可能な基準方向性音量マップのカラープロットを示す。本発明の一実施形態によるオーディオ類似度評価器によって分析される方向性音量マップのカラープロットを示す。本発明の一実施形態によるオーディオ類似度評価器によって決定された差方向性音量マップのカラープロットを示す。本発明の一実施形態によるオーディオエンコーダのブロック図を示す。本発明の一実施形態による量子化パラメータを適合させるように構成されたオーディオエンコーダのブロック図を示す。本発明の一実施形態による、符号化される信号を選択するように構成されたオーディオエンコーダのブロック図を示す。本発明の一実施形態による、オーディオエンコーダによって実行される全体的な方向性音量マップに対する候補信号の個々の方向性音量マップの寄与の決定を示す概略図を示す。本発明の一実施形態による、サイド情報として方向性音量情報を符号化するように構成されたオーディオエンコーダのブロック図を示す。本発明の一実施形態によるオーディオデコーダのブロック図を示す。本発明の一実施形態による復号パラメータを適合させるように構成されたオーディオデコーダのブロック図を示す。本発明の一実施形態によるフォーマット変換器のブロック図を示す。本発明の一実施形態による、復号複雑度を調整するように構成されたオーディオデコーダのブロック図を示す。本発明の一実施形態によるレンダラのブロック図を示す。本発明の一実施形態によるオーディオ信号を分析するための方法のブロック図を示す。本発明の一実施形態による、オーディオ信号の類似度を評価するための方法のブロック図を示す。本発明の一実施形態による、１つまたは複数の入力オーディオ信号を含む入力オーディオコンテンツを符号化するための方法のブロック図を示す。本発明の一実施形態による、オーディオ信号を一緒に符号化するための方法のブロック図を示す。本発明の一実施形態による、サイド情報としての１つまたは複数の方向性音量マップを符号化するための方法のブロック図を示す。本発明の一実施形態による、符号化されたオーディオコンテンツを復号するための方法のブロック図を示す。本発明の一実施形態による、オーディオシーンを表すオーディオコンテンツのフォーマットを第１のフォーマットから第２のフォーマットに変換するための方法のブロック図を示す。本発明の一実施形態による、符号化されたオーディオコンテンツを復号し、復号複雑度を調整するための方法のブロック図を示す。本発明の一実施形態による、オーディオコンテンツをレンダリングするための方法のブロック図を示す。

等しいまたは同等な要素は、等しいまたは同等な機能を有する要素である。それらは、異なる図で生じる場合であっても、以下の説明では等しいまたは同等な参照番号によって示される。

以下の説明では、本発明の実施形態の説明全体を通してより多くを提供するために、複数の詳細が記載される。しかしながら、本発明の実施形態がこれらの具体的な詳細なしに実施され得ることは、当業者には明らかであろう。他の例では、本発明の実施形態を不明瞭にすることを避けるために、周知の構造およびデバイスが詳細ではなくブロック図形式で示されている。さらに、以下に説明する異なる実施形態の特徴は、特に明記しない限り、互いに組み合わせることができる。

図１は、第１の入力オーディオ信号、例えば、Ｘ_Ｌ，ｂ（ｍ，ｋ）のスペクトル領域表現１１０_１と、第２の入力オーディオ信号、例えば、Ｘ_Ｒ，ｂ（ｍ，ｋ）のスペクトル領域表現１１０_２とを取得するように構成されるオーディオアナライザ１００のブロック図を示す。したがって、例えば、オーディオアナライザ１００は、分析されるべき入力１１０としてスペクトル領域表現１１０_１、１１０_２を受信する。これは、例えば、第１の入力オーディオ信号および第２の入力オーディオ信号が、外部のデバイスまたは装置によってスペクトル領域表現１１０_１、１１０_２に変換され、次いでオーディオアナライザ１００に提供されることを意味する。あるいは、スペクトル領域表現１１０_１、１１０_２は、図２に関して説明するように、オーディオアナライザ１００によって決定することができる。一実施形態によれば、スペクトル領域表現１１０は、

、例えば、ｉ＝｛Ｌ；Ｒ；ＤＭ｝またはｉ

［１；Ｉ］によって表現され得る。

一実施形態によれば、スペクトル領域表現１１０_１、１１０_２は、方向情報決定１２０に供給されて、スペクトル領域表現１１０_１、１１０_２のスペクトル帯域（例えば、時間フレームｍにおけるスペクトルビンｋ）に関連する方向情報１２２、例えば

（ｍ，ｋ）を取得する。方向情報１２２は、例えば、２つ以上の入力オーディオ信号に含まれる異なるオーディオ成分の方向を表す。したがって、方向情報１２２は、聴取者が２つの入力オーディオ信号に含まれる成分を聞く方向に関連付けることができる。一実施形態によれば、方向情報はパンニングインデックスを表すことができる。したがって、例えば、方向情報１２２は、聴取室内の歌手を示す第１方向と、オーディオシーン内のバンドの異なる楽器に対応するさらなる方向とを含む。方向情報１２２は、例えば、オーディオアナライザ１００によって、すべての周波数ビンまたは周波数グループについて（例えば、すべてのスペクトルビンｋまたはスペクトル帯域ｂについて）、スペクトル領域表現１１０_１、１１０_２間のレベルの比を分析することによって決定される。方向情報決定１２０の例は、図５～図７ｂに関して説明される。

一実施形態によれば、オーディオアナライザ１００は、オーディオコンテンツの振幅パンニングの分析に基づいて、および／または２つ以上の入力オーディオ信号のオーディオコンテンツ間の位相関係および／または時間遅延および／または相関の分析に基づいて、および／または拡大された（例えば、非相関化および／またはパンニング）音源の識別に基づいて、方向情報１２２を取得するように構成される。オーディオコンテンツは、入力オーディオ信号および／または入力オーディオ信号のスペクトル領域表現１１０を含むことができる。

方向情報１２２およびスペクトル領域表現１１０_１、１１０_２に基づいて、オーディオアナライザ１００は、音量情報１４２への寄与１３２（例えば、

および

）を決定するように構成される。一実施形態によれば、第１の入力オーディオ信号のスペクトル領域表現１１０_１に関連する第１の寄与１３２_１は、方向情報１２２に応じて寄与判定１３０によって判定され、第２の入力オーディオ信号のスペクトル領域表現１１０_２に関連する第２の寄与１３２_２は、方向情報１２２に応じて寄与判定１３０によって判定される。一実施形態によれば、方向情報１２２は、異なる方向（例えば、抽出された方向値

（ｍ，ｋ））を含む。寄与１３２は、例えば、方向情報１２２に応じて所定の方向

の音量情報を含む。一実施形態によれば、寄与１３２は、その方向

（ｍ，ｋ）（方向情報１２２に対応する）が所定の方向

に等しいスペクトル帯域のレベル情報および／またはその方向

（ｍ，ｋ）が所定の方向

に隣接するスペクトル帯域のスケーリングされたレベル情報を定義する。

一実施形態によれば、抽出された方向値

は、スペクトル領域値に応じて決定される（例えば、入力オーディオ信号の［１３］の表記における

としての

、および

としての

）。

異なる方向

（例えば、所定の方向）に関連付けられる音量情報１４２（例えば、複数の異なる評価された方向範囲

に対してＬ（ｍ，

）（Ｊの所定の方向に対してｊ

［１；Ｊ］））を、オーディオアナライザ１００による分析結果として取得するために、オーディオアナライザ１００は、第１の入力オーディオ信号のスペクトル領域表現１１０_１に対応する寄与１３２_１（例えば

）と、第２の入力オーディオ信号のスペクトル領域表現１１０_２に対応する寄与１３２_２（例えば

）とを組み合わせて、例えば、２つ以上のチャネル（例えば、第１のチャネルは、第１の入力オーディオ信号に関連付けられ、インデックスＬによって表され、第２のチャネルは、第２の入力オーディオ信号に関連付けられ、インデックスＲによって表される）の音量情報１４２として合成信号を受信するように構成される。したがって、経時的な音量および異なる方向

のそれぞれについての音量を定義する音量情報１４２が取得される。これは、例えば、音量情報決定部１４０が行う。

図２は、図１のオーディオアナライザ１００に関して説明した特徴および／または機能を含むことができるオーディオアナライザ１００を示す。一実施形態によれば、オーディオアナライザ１００は、第１の入力オーディオ信号ｘ_Ｌ１１２_１および第２の入力オーディオ信号ｘ_Ｒ１１２_２を受信する。インデックスＬは左に対応付けられ、インデックスＲは右に対応付けられる。インデックスは、スピーカ（例えば、スピーカの位置決め）に関連付けることができる。一実施形態によれば、インデックスは、入力オーディオ信号に関連付けられたチャネルを示す番号によって表すことができる。

一実施形態によれば、第１の入力オーディオ信号１１２_１および／または第２の入力オーディオ信号１１２_２は、それぞれの入力オーディオ信号のスペクトル領域表現１１０を受信するために、時間領域からスペクトル領域への変換１１４によって変換され得る時間領域信号を表すことができる。言い換えれば、時間領域からスペクトル領域への変換１１４は、２つ以上の入力オーディオ信号１１２_１、１１２_２（例えば、ｘ_Ｌ、ｘ_Ｒ、ｘ_ｉ）を短時間フーリエ変換（ＳＴＦＴ）領域に分解して、２つ以上の変換されたオーディオ信号１１５_１、１１５_２（例えば、Ｘ’_Ｌ、Ｘ’_Ｒ、Ｘ’_ｉ）を得ることができる。第１の入力オーディオ信号１１２_１および／または第２の入力オーディオ信号１１２_２がスペクトル領域表現１１０を表す場合、時間領域からスペクトル領域への変換１１４をスキップすることができる。

任意選択的に、入力オーディオ信号１１２または変換オーディオ信号１１５は、耳モデル処理１１６によって処理されて、それぞれの入力オーディオ信号１１２_１および１１２_２のスペクトル領域表現１１０を取得する。処理される信号、例えば１１２または１１５のスペクトルビンは、例えば、人間の耳によるスペクトル帯域の知覚のためのモデルに基づいて、スペクトル帯域にグループ化され、次いで、スペクトル帯域は、外耳および／または中耳モデルに基づいて重み付けすることができる。したがって、耳モデル処理１１６を用いて、入力オーディオ信号１１２の最適化されたスペクトル領域表現１１０を決定することができる。

一実施形態によれば、第１の入力オーディオ信号１１２_１のスペクトル領域表現１１０_１、例えば、Ｘ_Ｌ，ｂ（ｍ，ｋ）は、第１の入力オーディオ信号１１２_１のレベル情報（例えば、インデックスＬによって示される）および異なるスペクトル帯域（例えば、インデックスｂによって示される）に関連付けられる。スペクトル帯域ｂごとに、スペクトル領域表現１１０_１は、例えば、時間フレームｍおよびそれぞれのスペクトル帯域ｂのすべてのスペクトルビンｋのレベル情報を表す。

一実施形態によれば、第２の入力オーディオ信号１１２_２のスペクトル領域表現１１０_２、例えば、Ｘ_Ｒ，ｂ（ｍ，ｋ）は、第２の入力オーディオ信号１１２_２のレベル情報（例えば、インデックスＲによって示される）および異なるスペクトル帯域（例えば、インデックスｂによって示される）に関連付けられる。スペクトル帯域ｂごとに、スペクトル領域表現１１０_２は、例えば、時間フレームｍおよびそれぞれのスペクトル帯域ｂのすべてのスペクトルビンｋのレベル情報を表す。

第１の入力オーディオ信号１１２のスペクトル領域表現１１０_１および第２の入力オーディオ信号のスペクトル領域表現１１０_２に基づいて、方向情報決定１２０をオーディオアナライザ１００によって実行することができる。方向分析１２４により、例えば

（ｍ，ｋ）などのパンニング方向情報１２５を決定することができる。パンニング方向情報１２５は、例えば、信号成分（例えば、特定の方向にパンニングされた第１の入力オーディオ信号１１２_１および第２の入力オーディオ信号１１２_２の信号成分）に対応するパンニングインデックスを表す。一実施形態によれば、入力オーディオ信号１１２は、例えば、左のインデックスＬおよび右のインデックスＲによって示される異なる方向に関連付けられる。パンニングインデックスは、例えば、２つ以上の入力オーディオ信号１１２間の方向または入力オーディオ信号１１２の方向における方向を定義する。したがって、例えば、図２に示すような２チャネル信号の場合、パンニング方向情報１２５は、完全に左または右またはその間のどこかの方向にパンニングされた信号成分に対応するパンニングインデックスを含むことができる。

一実施形態によれば、パンニング方向情報１２５に基づいて、オーディオアナライザ１００は、スケーリング係数決定１２６を実行して、方向依存重み付け１２７、例えばｊ

［１；ｉ］について

を決定するように構成される。方向依存重み付け１２７は、例えば、パンニング方向情報１２５から抽出された方向

（ｍ，ｋ）に応じたスケーリング係数を定義する。方向依存重み付け１２７は、予め定められた複数の方向

について決定される。一実施形態によれば、方向依存重み付け１２７は、所定の方向ごとに関数を定義する。関数は、例えば、パンニング方向情報１２５から抽出された方向

（ｍ，ｋ）に依存する。スケーリング係数は、例えば、パンニング方向情報１２５から抽出された方向

（ｍ，ｋ）と所定の方向

との間の距離に依存する。スケーリング係数、すなわち方向依存重み付け１２７は、スペクトルビンごとおよび／または時間ステップ／時間フレームごとに決定することができる。

一実施形態によれば、方向依存重み付け１２７はガウス関数を使用し、その結果、方向依存重み付けは、抽出されたそれぞれの方向値

（ｍ，ｋ）とそれぞれの所定の方向値

との間の偏差が増加するにつれて減少する。

一実施形態によれば、オーディオアナライザ１００は、以下の

に従い、所定の方向（例えば、インデックス

によって表される）、時間インデックスｍで指定された時間（または時間フレーム）、時間インデックスｍで指定された時間、およびスペクトルビンインデックスｋで指定されたスペクトルビンに関連する方向依存重み付け１２７

を取得するように構成され、式中、

は、所定の方向（例えば、方向インデックスｊを有する）を指定する（例えば、所定の）（または関連付けられた）方向値である。

一実施形態によれば、オーディオアナライザ１００は、方向情報決定１２０を使用することにより、パンニング方向情報１２５および／または方向依存重み付け１２７を含む方向情報を決定するように構成される。この方向情報は、例えば、２つ以上の入力オーディオ信号１１２のオーディオコンテンツに基づいて得られる。

一実施形態によれば、オーディオアナライザ１００は、寄与判定１３０のためのスケーラ１３４および／またはコンバイナ１３６を備える。スケーラ１３４を用いて、方向依存重み付け１２７は、重み付けスペクトル領域表現１３５（例えば、異なる

（ｊ

［１；Ｊ］またはｊ＝｛Ｌ；Ｒ；ＤＭ｝）について

）を取得するために、２つ以上の入力オーディオ信号１１２の１つ以上のスペクトル領域表現１１０に適用される。言い換えれば、第１の入力オーディオ信号のスペクトル領域表現１１０_１および第２の入力オーディオ信号のスペクトル領域表現１１０_２は、所定の方向

ごとに個別に重み付けされる。したがって、例えば、第１の入力オーディオ信号の、例えば重み付けスペクトル領域表現１３５_１例えば

は、所定の方向

に対応する第１の入力オーディオ信号１１２の信号成分のみ、または隣接する所定の方向に関連する第１の入力オーディオ信号１１２_１の追加的に重み付けされた（例えば、低減される）信号成分を含むことができる。したがって、１つまたは複数のスペクトル領域表現１１０（例えば

）の値は、オーディオ成分の異なる方向（例えば、パンニング方向

）に応じて重み付けされる（例えば、重み係数

によって表される）。

一実施形態によれば、スケーリング係数決定１２６は、所定の方向ごとに、抽出された方向値

（ｍ，ｋ）が所定の方向

から逸脱する信号成分が重み付けされ、それらが、抽出された方向値

（ｍ，ｋ）が所定の方向

に等しい信号成分よりも、影響が少なくなるように、方向依存重み付け１２７を決定するように構成される。言い換えれば、第１の所定の方向

に対する方向依存重み付け１２７において、第１の所定の方向

に関連する信号成分は、第１の所定の方向

に対応する第１の重み付けスペクトル領域表現

において他の方向に関連する信号成分よりも強調される。

一実施形態によれば、オーディオアナライザ１００は、インデックスｉによって指定される入力オーディオ信号（例えば、ｉ＝１の場合は１１０_１、ｉ＝２の場合は１１０_２）または入力オーディオ信号の組み合わせ（例えば、ｉ＝１、２の場合の２つの入力オーディオ信号１１０_１および１１０_２の組み合わせ）、インデックスｂによって指定されるスペクトル帯域、インデックス

によって指定される（例えば、所定の）方向、時間インデックスｍによって指定される時間（または時間フレーム）、およびスペクトルビンインデックスｋによって指定されるスペクトルビンに関連する重み付けスペクトル領域表現１３５

を取得するように構成され、

に従っており、

は、入力オーディオ信号１１２またはインデックスｉによって指定される入力オーディオ信号１１２の組み合わせ（例えば、ｉ＝Ｌまたはｉ＝Ｒまたはｉ＝ＤＭまたはＩは番号で表され、チャネルを示す）、インデックスｂによって指定されるスペクトル帯域、時間インデックスｍによって指定される時間（または時間フレーム）、およびスペクトルビンインデックスｋによって指定されるスペクトルビンに関連するスペクトル領域表現１１０を指定し、

はインデックス

によって指定される方向、時間インデックスｍによって指定される時間（または時間フレーム）、およびスペクトルビンインデックスｋによって指定されるスペクトルビンに関連する方向依存重み付け１２７（重み付け関数）を指定する。
スケーラ１３４の追加または代替の機能は、図６～図７ｂに関して説明される。

一実施形態によれば、第１の入力オーディオ信号の重み付けスペクトル領域表現１３５_１および第２の入力オーディオ信号の重み付けスペクトル領域表現１３５_２は、重み付け結合スペクトル領域表現１３７

を得るためにコンバイナ１３６によって結合される。したがって、所定の方向

に対応するすべてのチャネル（第１の入力オーディオ信号１１２_１および第２の入力オーディオ信号１１２_２の図２の場合）のコンバイナ１３６の重み付けスペクトル領域表現１３５は、１つの信号に結合される。これは、例えば、所定の全方向（ｊ

［１；ｉ］）

の場合）について行われる。一実施形態によれば、重み付け結合スペクトル領域表現１３７は、異なる周波数帯域ｂに関連付けられる。

重み付け結合スペクトル領域表現１３７に基づいて、音量情報決定１４０が実行されて、分析結果として音量情報１４２が取得される。一実施形態によれば、音量情報決定１４０は、帯域における音量決定１４４およびすべての帯域にわたる音量決定１４６を含む。一実施形態によれば、帯域における音量の決定１４４は、重み付け結合スペクトル領域表現１３７に基づいて各スペクトル帯域ｂについて帯域音量値１４５を決定するように構成される。言い換えれば、帯域における音量決定１４４は、所定の方向

に応じて各スペクトル帯域における音量を決定する。したがって、取得された帯域音量値１４５は、もはや単一のスペクトルビンｋに依存しない。

一実施形態によれば、オーディオアナライザは、（それぞれの周波数帯域（ｂ）に関連する）帯域音量値１４５（例えば、

）を決定するために、周波数帯域（ｂ）のスペクトル値にわたる重み付け結合スペクトル領域表現１３７（例えば、

）（または周波数帯域のスペクトルビンにわたる）の二乗スペクトル値の平均を計算し、０と１／２との間（および好ましくは１／３または１／４未満）の指数を有する累乗演算を二乗スペクトル値の平均に適用するように構成される。

実施形態によると、オーディオアナライザは、以下に従い、インデックスｂで指定されたスペクトル帯域、インデックス

で指定された方向、に従って時間インデックスｍで指定された時間（または、時間枠）に関連する帯域音量値１４５

を取得するように構成されており、

に従い、式中、Ｋ_ｂは、周波数帯域インデックスｂを有する周波数帯域におけるスペクトルビンの数を指定し、ｋは実行変数であり、周波数帯域インデックスｂを有する周波数帯域におけるスペクトルビンを指定し、ｂはスペクトル帯域を指定し、

で指定された方向、時間インデックスｍで指定された時間（または、時間枠）、およびスペクトルビンインデックスｋで指定されたスペクトルビンに関連付けられた重み付け結合スペクトル領域表現１３７を示す。

すべての帯域にわたる音量情報決定１４６において、帯域音量値１４５は、例えば、所定の方向および少なくとも１つの時間フレームｍに依存する音量情報１４２を提供するために、すべてのスペクトル帯域にわたって平均化される。一実施形態によれば、音量情報１４２は、聴取室内の異なる方向の入力オーディオ信号１１２によって引き起こされる一般的な音量を表すことができる。一実施形態によれば、音量情報１４２は、異なる所与のまたは所定の方向

に関連する合成音量値に関連付けることができる。

請求項１から１７の一項に記載のオーディオアナライザは、

に従い、インデックス

で指定された方向および時間インデックスで指定された時間に関連付けられた複数の結合ラウドネス値Ｌ（ｍ，

）を取得するように構成され、式中、Ｂはスペクトル帯域ｂの総数を示し、

で指定された方向、および時間インデックスｍで指定された時間（または、時間枠）に関連する帯域音量値１４５を示す。

図１および図２では、オーディオアナライザ１００は、２つの入力オーディオ信号のスペクトル領域表現１１０を分析するように構成されているが、オーディオアナライザ１００はまた、３つ以上のスペクトル領域表現１１０を分析するように構成されている。

図３ａから図４ｂは、オーディオアナライザ１００の異なる実装形態を示す。図１～図４ｂに示されているオーディオアナライザは、一実装形態について示されている特徴および機能に限定されず、異なる図１～図４ｂに示されているオーディオアナライザの他の実装形態の特徴および機能も含むことができる。

図３ａおよび図３ｂは、パンニングインデックスの決定に基づいて音量情報１４２を決定するためのオーディオアナライザ１００による２つの異なる手法を示す。

図３ａに示すオーディオアナライザ１００は、図２に示すオーディオアナライザ１００と同様または同等である。２つ以上の入力信号１１２は、時間／周波数分解１１３によって時間／周波数信号１１０に変換される。一実施形態によれば、時間／周波数分解１１３は、時間領域からスペクトル領域への変換および／または耳モデル処理を含むことができる。

時間／周波数信号に基づいて、方向情報決定１２０が実行される。方向情報決定１２０は、例えば、方向分析１２４および窓関数の決定１２６を含む。寄与判定ユニット１３０において、方向性信号１３２は、例えば、方向依存性窓関数１２７を時間／周波数信号１１０に適用することによって時間／周波数信号１１０を方向性信号に分割することによって得られる。方向性信号１３２に基づいて、音量計算１４０が実行されて、分析結果として音量情報１４２が取得される。音量情報１４２は、方向性音量マップを含むことができる。

図３ｂのオーディオアナライザ１００は、音量計算１４０が図３ａのオーディオアナライザ１００とは異なる。図３ｂによれば、時間／周波数信号１１０の方向性信号が計算される前に、音量計算１４０が実行される。したがって、例えば、図３ｂによれば、帯域音量値１４１は、時間／周波数信号１１０に基づいて直接計算される。帯域音量値１４１に方向依存窓関数１２７を適用することにより、分析結果として方向音量情報１４２を得ることができる。

図４ａおよび図４ｂは、一実施形態によれば、ヒストグラム手法を使用して音量情報１４２を決定するように構成されたオーディオアナライザ１００を示す。一実施形態によれば、オーディオアナライザ１００は、時間／周波数分解１１３を使用して、２つ以上の入力信号１１２に基づいて時間／周波数信号１１０を決定するように構成される。

一実施形態によれば、時間／周波数信号１１０に基づいて、時間／周波数タイルごとに合成音量値１４５を取得するために音量計算１４０が実行される。合成音量値１４５は、いかなる方向情報とも関連付けられていない。合成音量値は、例えば、入力信号１１２の時間／周波数タイルへの重畳から生じる音量に関連付けられる。

さらに、オーディオアナライザ１００は、方向情報１２２を取得するために時間／周波数信号１１０の方向分析１２４を実行するように構成される。図４ａによれば、方向情報１２２は、２つ以上の入力信号１１２間の同じレベル比を有する時間／周波数タイルを示す比値を有する１つ以上の方向ベクトルを含む。この方向分析１２４は、例えば、図５または図６に関して説明したように実行される。

図４ｂのオーディオアナライザ１００は、方向分析１２４の後に任意選択的に方向値１２２_１の方向性スミアリング１２６が実行されるように、図４ａに示すオーディオアナライザ１００とは異なる。また、方向性スミアリング１２６により、所定の方向に隣接する方向に関連付けられた時間／周波数タイルを所定の方向に関連付けることができ、取得された方向情報１２２_２は、これらの時間／周波数タイルに対して、所定の方向における影響を最小限に抑えるためのスケーリング係数をさらに含むことができる。

図４ａおよび図４ｂでは、オーディオアナライザ１００は、時間／周波数タイルに関連する方向情報１２２に基づいて、合成音量値１４５を方向ヒストグラムビンに累積１４６するように構成される。

図３ａおよび図３ｂのオーディオアナライザ１００に関するさらなる詳細は、「方向性音量マップを計算するための一般的なステップ」の章および「一般化された基準関数を使用して音量マップを計算する異なる形式の実施形態」の章で後述する。

図５は、本明細書に記載のオーディオアナライザによって分析されるべき第１の入力オーディオ信号のスペクトル領域表現１１０_１および第２の入力オーディオ信号のスペクトル領域表現１１０_２を示す。スペクトル領域表現１１０の方向分析１２４は、方向情報１２２をもたらす。一実施形態によれば、方向情報１２２は、第１の入力オーディオ信号のスペクトル領域表現１１０_１と第２の入力オーディオ信号のスペクトル領域表現１１０_２との間の比値を有する方向ベクトルを表す。したがって、例えば、同じレベル比を有するスペクトル領域表現１１０の周波数タイル、例えば時間／周波数タイルは、同じ方向１２５に関連付けられる。

一実施形態によれば、音量計算１４０は、例えば時間／周波数タイルごとに合成音量値１４５をもたらす。合成音量値１４５は、例えば、第１の入力オーディオ信号と第２の入力オーディオ信号との組み合わせ（例えば、２つ以上の入力オーディオ信号の組み合わせ）に関連付けられている。

方向情報１２２および合成音量値１４５に基づいて、合成音量値１４５を方向および時間依存のヒストグラムビンに蓄積することができる（１４６）。したがって、例えば、特定の方向に関連するすべての合成音量値１４５が合計される。方向情報１２２によれば、方向は時間／周波数タイルに関連付けられる。蓄積１４６により、方向性音量ヒストグラムの結果が得られ、これは、本明細書に記載のオーディオアナライザの分析結果として音量情報１４２を表すことができる。

また、異なるまたは隣接する時間フレーム（例えば、前または後の時間フレーム）の同じ方向および／または隣接する方向に対応する時間／周波数タイルを、現在の時間ステップまたは時間フレーム内の方向に関連付けることもできる可能性がある。これは、例えば、方向情報１２２が、時間に依存する周波数タイル（または周波数ビン）ごとの方向情報を含むことを意味する。したがって、例えば、方向情報１２２は、複数の時間フレームまたはすべての時間フレームについて取得される。
図５に示すヒストグラム手法に関するさらなる詳細は、「一般化された基準関数を使用して音量マップを計算する異なる形式の実施形態２」の章で説明する。

図６は、本明細書に記載のオーディオアナライザによって実行されるパンニング方向情報に基づく寄与判定１３０を示す。図６ａは、第１の入力オーディオ信号のスペクトル領域表現を示し、図６ｂは、第２の入力オーディオ信号のスペクトル領域表現を示す。図６ａ１から図６ａ３．１および図６ｂ１から図６ｂ３．１によれば、同じパンニング方向に対応するスペクトルビンまたはスペクトル帯域が、このパンニング方向の音量情報を計算するために選択される。図６ａ３．２および図６ｂ３．２は、パンニング方向に対応する周波数ビンまたは周波数帯域だけでなく、影響が少なくなるように重み付けまたはスケーリングされた他の周波数ビンまたは周波数グループも考慮される代替プロセスを示す。図６に関するさらなる詳細は、「パンニングインデックスから導出された窓／選択関数を用いて方向性信号を復元する」の章に記載されている。

一実施形態によれば、方向情報１２２は、図７ａおよび／または図７ｂに示すように、方向１２１および時間／周波数タイル１２３に関連するスケーリング係数を含むことができる。一実施形態によれば、図７ａおよび図７ｂでは、時間／周波数タイル１２３は、１つの時間ステップまたは時間フレームについてのみ示されている。図７ａは、例えば、図６ａ１～図６ａ３．１および図６ｂ１～図６ｂ３．１に関して説明したように、特定の（例えば、所定の）方向１２１に寄与する時間／周波数タイル１２３のみが考慮されるスケーリング係数を示す。あるいは、図７ｂでは、隣接する方向も考慮されるが、隣接する方向に対するそれぞれの時間／周波数タイル１２３の影響を低減するようにスケーリングされる。図７ｂによれば、時間／周波数タイル１２３は、関連する方向からの偏差が増加するにつれてその影響が低減されるようにスケーリングされる。代わりに、図６ａ３．２および図６ｂ３．２では、異なるパンニング方向に対応するすべての時間／周波数タイルが等しくスケーリングされる。異なるスケーリングまたは重み付けが可能である。スケーリングに応じて、オーディオアナライザの分析結果の精度を向上させることができる。

図８は、オーディオ類似度評価器２００の一実施形態を示す。オーディオ類似度評価器２００は、第１の音量情報１４２_１（例えば、Ｌ_１（ｍ，

））および第２の音量情報１４２_２（例えば、Ｌ_２（ｍ，

））を取得するように構成されている。第１の音量情報１４２_１は、２つ以上の入力オーディオ信号の第１のセット１１２ａ（例えば、ｉε［１；ｎ］の場合ｘ_Ｌ、ｘ_Ｒ、またはｘ_ｉ）に基づいて異なる方向（例えば、所定のパンニング方向

）に関連付けられ、第２の音量情報１４２_２は、基準オーディオ信号のセット１１２ｂ（例えば、ｉε［１；ｎ］のｘ_２，Ｒ、ｘ_２，Ｌ、ｘ_２，ｉ）によって表すことができる２つ以上の入力オーディオ信号の第２のセットに基づいて異なる方向に関連付けられる。入力オーディオ信号の第１のセット１１２ａおよび基準オーディオ信号のセット１１２ｂは、ｎ個のオーディオ信号を含むことができ、ｎは２以上の整数を表す。入力オーディオ信号の第１のセット１１２ａおよび基準オーディオ信号のセット１１２ｂの各オーディオ信号は、聴取空間内の異なる位置に配置された異なるスピーカに関連付けることができる。第１の音量情報１４２_１および第２の音量情報１４２_２は、聴取空間（例えば、スピーカ位置またはスピーカ位置の間）内の音量分布を表すことができる。一実施形態によれば、第１の音量情報１４２_１および第２の音量情報１４２_２は、聴取空間内の離散的な位置または方向の音量値を含む。異なる方向は、どのセットが計算されるべき音量情報に対応するかに応じて、オーディオ信号のセット１１２ａまたは１１２ｂの１つ専用のオーディオ信号のパンニング方向に関連付けることができる。

第１の音量情報１４２_１および第２の音量情報１４２_２は、音量情報決定１００によって決定することができ、これはオーディオ類似度評価器２００によって実行することができる。一実施形態によれば、音量情報決定１００は、オーディオアナライザによって実行することができる。したがって、例えば、オーディオ類似度評価器２００は、オーディオアナライザを備えることができ、または外部オーディオアナライザから第１の音量情報１４２_１および／もしくは第２の音量情報１４２_２を受信することができる。一実施形態によれば、オーディオアナライザは、図１～図４ｂのオーディオアナライザに関して説明したような特徴および／または機能を備えることができる。あるいは、第１の音量情報１４２_１のみが音量情報決定１００によって決定され、第２の音量情報１４２_２は、基準音量情報を有するデータバンクからオーディオ類似度評価器２００によって受信または取得される。一実施形態によれば、データバンクは、異なるスピーカ設定および／またはスピーカ構成および／または異なるセットの基準オーディオ信号１１２ｂの基準音量情報マップを含むことができる。

一実施形態によれば、基準オーディオ信号１１２ｂのセットは、聴取空間内の聴取者による最適化されたオーディオ知覚のための理想的なオーディオ信号のセットを表すことができる。

一実施形態によれば、第１の音量情報１４２_１（例えば、Ｌ_１（ｍ，

）からＬ_１（ｍ，

）を含むベクトル）および／または第２の音量情報１４２_２（例えば、Ｌ_２（ｍ，

）からＬ_２（ｍ，

）を含むベクトル）は、それぞれの入力オーディオ信号に関連する（例えば、入力オーディオ信号の第１のセット１１２ａに対応する入力オーディオ信号、または、基準オーディオ信号のセット１１２ｂに対応する（また、それぞれの所定の方向に関連する））複数の合成音量値を含むことができる。それぞれの所定の方向は、パンニングインデックスを表すことができる。各入力オーディオ信号は、例えばスピーカに関連付けられているため、それぞれの所定の方向は、それぞれのスピーカ間の等間隔の位置として理解することができる（例えば、隣接するスピーカおよび／または他のスピーカ対の間）。言い換えれば、オーディオ類似度評価器２００は、入力オーディオ信号に関連するスピーカの位置情報を表すメタデータを使用して、異なる方向（例えば、本明細書に記載の第２の方向）を有する音量情報１４２_１および／または１４２_２を取得するために使用される方向成分（例えば、本明細書に記載の第１の方向）を取得するように構成される。第１の音量情報１４２_１および／または第２の音量情報１４２_２の合成音量値は、それぞれの所定の方向に関連する入力オーディオ信号１１２ａおよび１１２ｂのそれぞれのセットの信号成分の音量を記述している。第１の音量情報１４２_１および／または第２の音量情報１４２_２は、それぞれの所定の方向と関連付けられた複数の重み付けスペクトル領域表現の組み合わせと関連付けられている。

オーディオ類似度評価器２００は、２つ以上の入力オーディオ信号の第１のセット１１２ａと２つ以上の基準オーディオ信号のセット１１２ｂとの間の類似度を記述する類似度情報２１０を得るために、第１の音量情報１４２_１を第２の音量情報１４２_２と比較するように構成されている。これは、音量情報比較ユニット２２０によって実行することができる。類似度情報２１０は、入力オーディオ信号の第１のセット１１２ａの質を示すことができる。類似度情報２１０に基づいて入力オーディオ信号の第１のセット１１２ａの知覚の予測をさらに改善するために、第１の音量情報１４２_１および／または第２の音量情報１４２_２の周波数帯域のサブセットのみを考慮することができる。一実施形態によれば、第１の音量情報１４２_１および／または第２の音量情報１４２_２は、１．５ｋＨｚ以上の周波数を有する周波数帯域についてのみ決定される。したがって、比較される音量情報１４２_１および１４２_２は、人間の聴覚系の感度に基づいて最適化することができる。したがって、音量情報比較ユニット２２０は、関連する周波数帯域の音量値のみを含む音量情報１４２_１および１４２_２を比較するように構成される。関連する周波数帯域は、所定のレベルの差に対する所定の閾値よりも高い（例えば、人間の耳）感度に対応する周波数帯域に関連付けることができる。
類似度情報２１０を取得するために、例えば、第２の音量情報１４２_２と第１の音量情報１４２_１との差が計算される。

この差は、残差音量情報を表すことができ、類似度情報２１０を既に定義することができる。あるいは、残渣音量情報は、類似度情報２１０を取得するためにさらに処理される。一実施形態によれば、オーディオ類似度評価器２００は、複数の方向にわたる差を定量化する値を決定するように構成される。この値は、類似度情報２１０を表す単一のスカラ値とすることができる。スカラ値を受信するために、音量情報比較ユニット２２０は、入力オーディオ信号の第１のセット１１２ａおよび／または基準オーディオ信号のセット１１２ｂの部分または完全な持続時間の差を計算し、次いで、得られた残差音量情報をすべてのパンニング方向（例えば、第１の音量情報１４２_１および／または第２の音量情報１４２_２が関連付けられている異なる方向）にわたって平均化し、単一の番号が付けられたモデル出力変数（ＭＯＶ）を生成するように構成することができる。

図９は、基準ステレオ入力信号１１２ｂおよび分析対象ステレオ信号１１２ａ（例えば、この場合、被試験信号（ＳＵＴ））に基づいて類似度情報２１０を計算するためのオーディオ類似度評価器２００の一実施形態を示す。一実施形態によれば、オーディオ類似度評価器２００は、図８のオーディオ類似度評価器に関して説明したような特徴および／または機能を含むことができる。２つのステレオ信号１１２ａおよび１１２ｂは、周辺耳モデル１１６によって処理されて、ステレオ入力オーディオ信号１１２ａおよび１１２ｂのスペクトル領域表現１１０ａおよび１１０ｂを取得することができる。

一実施形態によれば、次のステップにおいて、ステレオ信号１１２ａおよび１１２ｂのオーディオ成分をそれらの方向情報について分析することができる。異なるパンニング方向１２５を予め決定することができ、方向依存重み付け１２７_１から１２７_７を得るためにウィンドウ幅１２８と組み合わせることができる。方向依存重み付け１２７ならびにそれぞれのステレオ入力信号１１２ａおよび／または１１２ｂのスペクトル領域表現１１０ａおよび／または１１０ｂに基づいて、パンニングインデックス方向分解１３０を実行して、寄与１３２ａおよび／または１３２ｂを得ることができる。一実施形態によれば、寄与１３２ａおよび／または１３２ｂは、次に、例えば、周波数帯域およびパンニング方向ごとに音量１４５ａおよび／または１４５ｂを取得するために音量計算１４４によって処理される。一実施形態によれば、音量情報比較２２０のための方向性音量マップ１４２ａおよび／または１４２ｂを取得するために、音量信号１４５ｂおよび／または１４５ａに対してＥＲＢごとの周波数平均化１４６（ＥＲＢ＝等価矩形帯域幅）が実行される。音量情報比較２２０は、例えば、２つの方向性音量マップ１４２ａおよび１４２ｂに基づいて距離尺度を計算するように構成される。距離尺度は、２つの方向性音量マップ１４２ａと１４２ｂとの間の差を含む方向性音量マップを表すことができる。一実施形態によれば、すべてのパンニング方向および時間にわたって距離尺度を平均化することによって、単一の番号が付けられたモデル出力変数ＭＯＶを類似度情報２１０として取得することができる。

図１０ｃは、図１０ａに示される方向性音量マップ１４２ｂと図１０ｂに示される方向性音量マップ１４２ａとの音量差を示す方向性音量マップ２１０によって表される、図９に記載されるような距離尺度または図８に記載されるような類似度情報を示す。図１０ａ～図１０ｃに示す方向性音量マップは、例えば、経時的な音量値およびパンニング方向を表す。図１０ａに示す方向性音量マップは、基準値入力信号に対応する音量値を表すことができる。この方向性音量マップは、図９で説明したように、または図１～図４ｂで説明したオーディオアナライザによって計算することができ、あるいはデータベースから取り出すことができる。図１０ｂに示す方向性音量マップは、例えば、試験中のステレオ信号に対応し、図１～図４ｂおよび図８または図９で説明したようにオーディオアナライザによって決定された音量情報を表すことができる。

図１１は、１つまたは複数の入力オーディオ信号（例えば、ｘ_ｉ）を含む入力オーディオコンテンツ１１２を符号化３１０するためのオーディオエンコーダ３００を示す。入力オーディオコンテンツ１１２は、好ましくは、ステレオ信号またはマルチチャネル信号などの複数の入力オーディオ信号を含む。オーディオエンコーダ３００は、１つまたは複数の入力オーディオ信号１１２に基づいて、または任意選択の処理３３０によって１つまたは複数の入力オーディオ信号１１２から導出された１つまたは複数の信号１１０に基づいて、１つまたは複数の符号化オーディオ信号３２０を提供するように構成される。したがって、１つまたは複数の入力オーディオ信号１１２またはそれから導出された１つまたは複数の信号１１０のいずれかが、オーディオエンコーダ３００によって符号化される（３１０）。処理３３０は、中間／サイド処理、ダウンミックス／差処理、時間領域からスペクトル領域への変換、および／または耳モデル処理を含むことができる。符号化３１０は、例えば、量子化、次いで可逆符号化を含む。

オーディオエンコーダ３００は、複数の異なる方向（例えば、所定の方向または符号化されるべき１つまたは複数の信号１１２の方向）に関連する音量情報を表す、１つまたは複数の方向性音量マップ１４２（例えば、複数の異なる

についてのＬ_ｉ（ｍ，

））に応じて符号化パラメータを適合３４０させるように構成される。一実施形態によれば、符号化パラメータは、量子化パラメータおよび／またはビット分布などの他の符号化パラメータおよび／または符号化３１０の無効化／有効化に関するパラメータを含む。

一実施形態によれば、オーディオエンコーダ３００は、入力オーディオ信号１１２に基づいて、または処理された入力オーディオ信号１１０に基づいて、方向性音量マップ１４２を取得するために音量情報決定１００を実行するように構成される。したがって、例えば、オーディオエンコーダ３００は、図１～図４ｂに関して説明したようなオーディオアナライザ１００を備えることができる。あるいは、オーディオエンコーダ３００は、音量情報決定１００を実行する外部オーディオアナライザから方向性音量マップ１４２を受信することができる。一実施形態によれば、オーディオエンコーダ３００は、入力オーディオ信号１１２および／または処理された入力オーディオ信号１１０に関連する複数の方向性音量マップ１４２を取得することができる。

一実施形態によれば、オーディオエンコーダ３００は、ただ１つの入力オーディオ信号１１２を受信することができる。この場合、方向性音量マップ１４２は、例えば、一方向のみの音量値を含む。一実施形態によれば、方向性音量マップ１４２は、入力オーディオ信号１１２に関連付けられた方向とは異なる方向について０に等しい音量値を含むことができる。ただ１つの入力オーディオ信号１１２の場合、オーディオエンコーダ３００は、符号化パラメータの適合３４０が実行されるべきかどうかを、方向性音量マップ１４２に基づいて決定することができる。したがって、例えば、符号化パラメータの適合３４０は、モノラル信号のための標準的な符号化パラメータに対する符号化パラメータの設定を含むことができる。

オーディオエンコーダ３００が入力オーディオ信号１１２としてステレオ信号またはマルチチャネル信号を受信する場合、方向性音量マップ１４２は、異なる方向（例えば、０とは異なる）の音量値を含むことができる。ステレオ入力オーディオ信号の場合、オーディオエンコーダ３００は、例えば、２つの入力オーディオ信号１１２に関連付けられた一方の方向性音量マップ１４２を取得する。マルチチャネル入力オーディオ信号１１２の場合、オーディオエンコーダ３００は、例えば、入力オーディオ信号１１２に基づいて、１つまたは複数の方向性音量マップ１４２を取得する。マルチチャネル信号１１２がオーディオエンコーダ３００によって符号化される場合、例えば、すべてのチャネル信号および／または方向性音量マップに基づく全体的な方向性音量マップ１４２、および／またはマルチチャネル入力オーディオ信号１１２の信号対に基づく１つまたは複数の方向性音量マップ１４２を、音量情報決定１００によって取得することができる。したがって、例えば、オーディオエンコーダ３００は、例えば、信号対、中間信号、サイド信号、ダウンミックス信号、差分信号、および／または３つ以上の信号のグループなどの個々の方向性音量マップ１４２の、例えば、マルチチャネル入力オーディオ信号１１２または処理されたマルチチャネル入力オーディオ信号１１０のすべての信号に関連付けられた複数の入力オーディオ信号に関連付けられた全体的な方向性音量マップ１４２への寄与に応じて、符号化パラメータの適合３４０を実行するように構成することができる。

図１１に関して説明した音量情報決定１００は例示的なものであり、以下のすべてのオーディオエンコーダまたはデコーダによって同一または同様に実行することができる。

図１２は、図１１のオーディオエンコーダに関して説明した特徴および／または機能を含むことができるオーディオエンコーダ３００の一実施形態を示す。一実施形態によれば、符号化３１０は、例えばエントロピー符号化のような、量子化器３１２による量子化および符号化ユニット３１４による符号化を含むことができる。したがって、例えば、符号化パラメータ３４０の適合は、量子化パラメータ３４２の適合および符号化パラメータの適合３４４を含むことができる。オーディオエンコーダ３００は、例えば、符号化された２つ以上の入力オーディオ信号を含む符号化オーディオコンテンツ３２０を提供するために、例えば、２つ以上の入力オーディオ信号を含む入力オーディオコンテンツ１１２を符号化３１０するように構成される。この符号化３１０は、例えば、入力オーディオコンテンツ１１２および／または入力オーディオコンテンツ１１２の符号化バージョン３２０であるか、またはそれに基づく、方向性音量マップ１４２または複数の方向性音量マップ１４２（例えば、Ｌ_ｉ（ｍ，

））に依存する。

一実施形態によれば、入力オーディオコンテンツ１１２は、前に直接符号化３１０されるか、または任意選択的に処理３３０され得る。既に上述したように、オーディオエンコーダ３００は、処理３３０によって入力オーディオコンテンツ１１２の１つまたは複数の入力オーディオ信号のスペクトル領域表現１１０を決定するように構成されることが可能である。あるいは、処理３３０は、スペクトル領域表現１１０を受信するために時間領域からスペクトル領域への変換を受けることができる、入力オーディオコンテンツ１１２の１つまたは複数の信号を導出するためのさらなる処理ステップを備えることができる。一実施形態によれば、処理３３０によって導出された信号は、例えば、中間信号またはダウンミックス信号およびサイド信号または差分信号を含むことができる。

一実施形態によれば、入力オーディオコンテンツ１１２またはスペクトル領域表現１１０の信号は、量子化器３１２による量子化を受けることができる。量子化器３１２は、例えば、１つ以上の量子化パラメータを用いて１つ以上の量子化スペクトル領域表現３１３を得る。この１つ以上の量子化されたスペクトル領域表現３１３は、符号化されたオーディオコンテンツ３２０の１つ以上の符号化されたオーディオ信号を得るために、符号化ユニット３１４によって符号化されることが可能である。

オーディオエンコーダ３００による符号化３１０を最適化するために、オーディオエンコーダ３００は、量子化パラメータを適合３４２させるように構成することができる。量子化パラメータは、例えば、量子化されるべき１つまたは複数の信号の周波数帯域のどのスペクトルビンにどの量子化精度または量子化ステップを適用すべきかを記述するスケール係数またはパラメータを含む。一実施形態によれば、量子化パラメータは、例えば、量子化される異なる信号および／または異なる周波数帯域へのビットの割り当てを記述する。量子化パラメータの適合３４２は、量子化精度の適合および／またはエンコーダ３００によって導入されるノイズの適合として、および／またはオーディオエンコーダ３００によって符号化されるべき１つまたは複数の信号１１２／１１０および／またはパラメータ間のビット分布の適合として理解することができる。言い換えれば、オーディオエンコーダ３００は、ビット分布を適合させるために、量子化精度を適合させるために、および／またはノイズを適合させるために、１つまたは複数の量子化パラメータを調整するように構成される。さらに、量子化パラメータおよび／またはコーディングパラメータは、オーディオエンコーダによって符号化することができる（３１０）。

一実施形態によれば、量子化パラメータの適合３４２および符号化パラメータの適合３４４のような符号化パラメータの適合３４０は、量子化されるべき１つまたは複数の信号１１２／１１０の複数の異なる方向、パンニング方向に関連する音量情報を表す、１つまたは複数の方向性音量マップ１４２に応じて実行することができる。より正確にするために、適合３４０は、符号化されるべき１つまたは複数の信号の個々の方向性音量マップ１４２の全体的な方向性音量マップ１４２への寄与に応じて実行することができる。これは、図１１に関して説明したように実行することができる。したがって、例えば、ビット分布の適合、量子化精度の適合、および／またはノイズの適合は、符号化されるべき１つまたは複数の信号１１２／１１０の個々の方向性音量マップの全体的な方向性音量マップへの寄与に応じて実行することができる。これは、例えば、適合３４２による１以上の量子化パラメータの調整によって行われる。

一実施形態によれば、オーディオエンコーダ３００は、入力オーディオ信号１１２、またはスペクトル領域表現１１０に基づいて全体的な方向性音量マップを決定するように構成され、これにより、全体的な方向性音量マップは、入力オーディオコンテンツ１１２によって表されるオーディオシーンの、例えばオーディオコンポーネントの異なる方向に関連する音量情報を表す。あるいは、全体的な方向性音量マップは、例えば、デコーダ側レンダリング後に表現されるオーディオシーンの異なる方向に関連する音量情報を表すことができる。一実施形態によれば、異なる方向は、場合によってはスピーカの位置に関する知識またはサイド情報および／またはオーディオオブジェクトの位置を記述する知識またはサイド情報と組み合わせて、音量情報決定１００によって取得することができる。この知識またはサイド情報は、量子化される１つまたは複数の信号１１２／１１０に基づいて取得することができ、これは、これらの信号１１２／１１０が、例えば、固定された信号依存のない方法で、異なる方向で、または異なるスピーカで、または異なるオーディオオブジェクトで関連付けられるためである。信号は、例えば、異なる方向（例えば、本明細書に記載の第１の方向）の方向として解釈することができる特定のチャネルに関連付けられる。一実施形態によれば、１つまたは複数の信号のオーディオオブジェクトは、異なる方向にパンニングされるか、または異なる方向にレンダリングされ、これはオブジェクトレンダリング情報として音量情報決定１００によって取得することができる。この知識またはサイド情報は、入力オーディオコンテンツ１１２またはスペクトル領域表現１１０の２つ以上の入力オーディオ信号のグループについての音量情報決定１００によって得ることができる。

一実施形態によれば、量子化される信号１１２／１１０は、２つ以上の入力オーディオ信号１１２のジョイントマルチ信号コーディングの成分、例えば、中間サイドステレオコーディングの中間信号およびサイド信号を備えることができる。したがって、オーディオエンコーダ３００は、ジョイントマルチ信号コーディングの１つまたは複数の残差信号の方向性音量マップ１４２の全体的な方向性音量マップ１４２への前述の寄与を推定し、それに応じて１つまたは複数の符号化パラメータ３４０を調整するように構成される。

一実施形態によれば、オーディオエンコーダ３００は、符号化されるべき１つまたは複数の信号１１２／１１０および／またはパラメータ間のビット分布を適合させるように、および／または符号化されるべき１つまたは複数の信号１１２／１１０の量子化精度を適合させるように、および／またはエンコーダ３００によって導入されたノイズを、異なるスペクトルビンに対して個別に、または異なる周波数帯域に対して個別に適合させるように構成される。これは、例えば、量子化パラメータの適合３４２が、符号化３１０が個々のスペクトルビンまたは個々の異なる周波数帯域に対して改善されるように実行されることを意味する。

一実施形態によれば、オーディオエンコーダ３００は、符号化されるべき２つ以上の信号間の空間マスキングの評価に応じて、符号化されるべき１つ以上の信号１１２／１１０および／またはパラメータ間のビット分布を適合させるように構成される。オーディオエンコーダは、例えば、符号化されるべき２つ以上の信号１１２／１１０に関連する方向性音量マップ１４２に基づいて空間マスキングを評価するように構成される。追加的または代替的に、オーディオエンコーダは、符号化されるべき第１の信号の第１の方向に関連する音量寄与の空間マスキングまたはマスキング効果を、符号化されるべき第２の信号の、第１の方向とは異なる第２の方向に関連する音量寄与に対して評価するように構成される。一実施形態によれば、第１の方向に関連する音量寄与は、例えば、入力されたオーディオコンテンツの信号のオーディオオブジェクトまたはオーディオ成分の音量情報を表すことができ、第２の方向に関連する音量寄与は、例えば、入力されたオーディオコンテンツの信号の別のオーディオオブジェクトまたはオーディオ成分に関連する音量情報を表すことができる。第１の方向に関連する音量寄与および第２の方向に関連する音量寄与の音量情報に応じて、および第１の方向と第２の方向との間の距離に応じて、マスキング効果または空間マスキングを評価することができる。一実施形態によれば、マスキング効果は、第１の方向と第２の方向との間の角度の差が大きくなるにつれて低減する。同様に、時間マスキングを評価することができる。

一実施形態によれば、量子化パラメータの適合３４２は、入力オーディオコンテンツ１１２の符号化バージョン３２０によって達成可能な方向性音量マップに基づいて、エンコーダ３００によって導入されたノイズを適合させるために、オーディオエンコーダ３００によって実行することができる。したがって、オーディオエンコーダ３００は、例えば、所与の符号化されていない入力オーディオ信号１１２／１１０（または、複数の入力オーディオ信号）に関連付けられる方向性音量マップ１４２と、所与の入力オーディオ信号１１２／１１０（または、複数の入力オーディオ信号）の符号化バージョン３２０によって達成可能な方向性音量マップとの間の偏差を、符号化されたオーディオコンテンツ３２０の所与の符号化されたオーディオ信号または複数のオーディオ信号の提供を適合させるための基準として使用するように構成される。この偏差は、エンコーダ３００の符号化３１０の質を表すことができる。したがって、エンコーダ３００は、偏差が特定の閾値を下回るように符号化パラメータを適合３４０させるように構成することができる。したがって、フィードバックループ３２２は、符号化されたオーディオコンテンツ３２０の方向性音量マップ１４２と、符号化されていない入力オーディオコンテンツ１１２または符号化されていないスペクトル領域表現１１０の方向性音量マップ１４２とに基づいて、オーディオエンコーダ３００による符号化３１０を改善するように実現される。一実施形態によれば、フィードバックループ３２２において、符号化されたオーディオコンテンツ３２０は復号され、復号されたオーディオ信号に基づいて音量情報決定１００を実行する。あるいは、符号化されたオーディオコンテンツ３２０の方向性音量マップ１４２が、ニューロンネットワーク（例えば、予測）によって実現されるフィードフォワードによって達成されることも可能である。

一実施形態によれば、オーディオエンコーダは、符号化されたオーディオコンテンツ３２０の１つまたは複数の符号化されたオーディオ信号の提供を適合させるために、適合３４２によって１つまたは複数の量子化パラメータを調整するように構成される。

一実施形態によれば、符号化パラメータの適合３４０は、符号化３１０を無効または有効にするために、および／または例えば符号化ユニット３１４によって使用されるジョイントコーディングツールをアクティブ化および非アクティブ化するために実行することができる。これは、例えば、符号化パラメータの適合３４４によって実行される。一実施形態によれば、コーディングパラメータの適合３４４は、量子化パラメータの適合３４２と同じ考慮事項に依存することができる。したがって、一実施形態によれば、オーディオエンコーダ３００は、全体的な方向性音量マップに対する、符号化されるべき信号の所与の一方の個々の方向性音量マップ１４２の寄与（または、例えば、符号化される信号の対または符号化される３つ以上の信号のグループの方向性音量マップ１４２の寄与）が閾値を下回るとき、符号化されるべき信号の所与の一方、例えば残差信号の符号化３１０を無効にするように構成される。したがって、オーディオエンコーダ３００は、関連情報のみを効果的に符号化３１０するように構成される。

一実施形態によれば、符号化ユニット３１４のジョイント符号化ツールは、例えば、Ｍ／Ｓ（中間／サイド信号）オン／オフ決定を行うために、入力オーディオ信号１１２またはそれから導出された信号１１０のうちの２つ以上を一緒に符号化するように構成される。符号化パラメータの適合３４４は、符号化されるべき１つまたは複数の信号１１２／１１０の複数の異なる方向に関連する音量情報を表す、１つまたは複数の方向性音量マップ１４２に応じてジョイント符号化ツールがアクティブ化または非アクティブ化されるように実行することができる。代替的または追加的に、オーディオエンコーダ３００は、ジョイントコーディングツールの１つまたは複数のパラメータを、１つまたは複数の方向性音量マップ１４２に応じてコーディングパラメータとして決定するように構成することができる。したがって、符号化パラメータの適合３４４により、例えば、周波数依存予測係数の平滑化を制御して、例えば、「強度ステレオ」ジョイントコーディングツールのパラメータを設定することができる。

一実施形態によれば、量子化パラメータおよび／またはコーディングパラメータは、制御パラメータとして理解することができ、制御パラメータは、１つまたは複数の符号化されたオーディオ信号３２０の提供を制御することができる。したがって、オーディオエンコーダ３００は、１つまたは複数の符号化信号３２０の方向性音量マップ１４２に対する１つまたは複数の制御パラメータの変動の影響を決定または推定し、影響の決定または推定に応じて１つまたは複数の制御パラメータを調整するように構成される。これは、上述したように、フィードバックループ３２２および／またはフィードフォワードによって実現することができる。

図１３は、１つまたは複数の入力オーディオ信号１１２_１、１１２_２を含む入力オーディオコンテンツ１１２を符号化３１０するためのオーディオエンコーダ３００を示す。好ましくは、図１３に示すように、入力オーディオコンテンツ１１２は、２つ以上の入力オーディオ信号１１２_１、１１２_２などの複数の入力オーディオ信号を含む。一実施形態によれば、入力オーディオコンテンツ１１２は、時間領域信号またはスペクトル領域信号を含むことができる。任意選択的に、入力オーディオコンテンツ１１２の信号は、オーディオエンコーダ３００によって処理３３０されて、第１候補信号１１０_１および／または第２候補信号１１０_２のような候補信号を決定することができる。処理３３０は、例えば、入力オーディオ信号１１２が時間領域信号である場合、時間領域からスペクトル領域への変換を含むことができる。

オーディオエンコーダ３００は、方向性音量マップ１４２に応じて、複数の候補信号１１０の中から、または候補信号１１０の複数の対の中から、一緒に符号化３１０される信号を選択するように構成される３５０。方向性音量マップ１４２は、候補信号１１０または候補信号の対１１０および／または所定の方向の複数の異なる方向、例えばパンニング方向に関連する音量情報を表す。

一実施形態によれば、方向性音量マップ１４２は、本明細書で説明するように音量情報決定１００によって計算することができる。したがって、音量情報決定１００は、図１１または図１２で説明したオーディオエンコーダ３００に関して説明したように実装することができる。方向性音量マップ１４２は候補信号１１０に基づいており、候補信号は、オーディオエンコーダ３００によって処理３３０が適用されない場合、入力オーディオコンテンツ１１２の入力オーディオ信号を表す。

入力オーディオコンテンツ１１２がただ１つの入力オーディオ信号を含む場合、この信号は、例えば、符号化オーディオコンテンツ３２０として１つの符号化オーディオ信号を提供するためにエントロピー符号化を使用して、オーディオエンコーダ３００によって符号化されるように信号選択３５０によって選択される。この場合、例えば、オーディオエンコーダは、ジョイント符号化３１０を無効にし、ただ１つの信号の符号化に切り替えるように構成される。

入力オーディオコンテンツ１１２が、Ｘ_１およびＸ_２として記述することができる２つの入力オーディオ信号１１２_１および１１２_２を含む場合、符号化されたオーディオコンテンツ３２０において１つまたは複数の符号化された信号を提供するために、両方の信号１１２_１および１１２_２が、ジョイント符号化３１０のためにオーディオエンコーダ３００によって選択される（３５０）。したがって、符号化されたオーディオコンテンツ３２０は、任意選択的に、中間信号およびサイド信号、またはダウンミックス信号および差分信号、またはこれらの４つの信号のうちのただ１つを含む。

入力オーディオコンテンツ１１２が３つ以上の入力オーディオ信号を含む場合、信号選択３５０は、候補信号１１０の方向性音量マップ１４２に基づく。一実施形態によれば、オーディオエンコーダ３００は、信号選択３５０を使用して複数の候補信号１１０から一方の信号対を選択するように構成され、そのために、方向性音量マップ１４２に従って、効率的なオーディオコーディングおよび高質オーディオ出力を実現することができる。代替的または追加的に、信号選択３５０が、合同で符号化３１０される候補信号１１０のうちの３つ以上の信号を選択することも可能である。代替的または追加的に、オーディオエンコーダ３００は、ジョイント符号化３１０のための複数の信号対または信号グループを選択するために信号選択３５０を使用することが可能である。符号化される信号３５２の選択３５０は、２つ以上の信号の組み合わせの個々の方向性音量マップ１４２の全体的な方向性音量マップへの寄与に依存し得る。一実施形態によれば、全体的な方向性音量マップは、複数の選択された入力オーディオ信号または入力オーディオコンテンツ１１２の各信号に関連付けられる。この信号選択３５０がオーディオエンコーダ３００によってどのように実行され得るかは、３つの入力オーディオ信号を含む入力オーディオコンテンツ１１２について図１４に例示的に記載されている。

したがって、オーディオエンコーダ３００は、結合して符号化されるべき２つ以上の信号３５２のジョイント符号化３１０を使用して、２つ以上の入力オーディオ信号１１２_１、１１２_２に基づいて、またはそこから導出される２つ以上の信号１１０_１、１１０_２に基づいて、１つ以上の符号化された、例えば量子化され、次いで可逆的に符号化されたオーディオ信号、例えば符号化されたスペクトル領域表現を提供するように構成される。

一実施形態によれば、オーディオエンコーダ３００は、例えば、２つ以上の候補信号の個々の方向性音量マップ１４２を決定し、２つ以上の候補信号の個々の方向性音量マップ１４２を比較するように構成される。さらに、オーディオエンコーダは、例えば、その個々の音量マップが最大類似度または類似度閾値よりも高い類似度を含む候補信号がジョイント符号化のために選択されるように、比較の結果に応じてジョイント符号化のための候補信号のうちの２つ以上を選択するように構成される。この最適化された選択により、非常に効率的な符号化を実現することができ、それは、一緒に符号化される信号の高い類似度が、わずか数ビットを使用する符号化をもたらすことができるからである。これは、例えば、選択された候補対のダウンミックス信号または残差信号を一緒に効率的に符号化することができることを意味する。

図１４は、図１３のオーディオエンコーダ３００のような、本明細書に記載の任意のオーディオエンコーダ３００によって実行することができる信号選択３５０の一実施形態を示す。オーディオエンコーダは、図１４に示すように信号選択３５０を使用するか、または記載された信号選択３５０を３つを超える入力オーディオ信号に適用して、候補信号の個々の方向性音量マップが全体的な方向性音量マップ１４２ｂに寄与することに応じて、または図１４に示すように、候補信号の対の方向性音量マップ１４２ａ_１から１４２ａ_３が、全体的な方向性音量マップ１４２ｂに寄与することに応じて、複数の候補信号から、または候補信号の複数の対から合同で符号化される信号を選択するように構成することができる。

図１４によれば、可能な各信号対について、例えば、方向性音量マップ１４２ａ_１から１４２ａ_３が信号選択３５０によって受信され、入力オーディオコンテンツの３つすべての信号に関連する全体的な方向性音量マップ１４２ｂが信号選択ユニット３５０によって受信される。方向性音量マップ１４２、例えば、信号対１４２ａ_１～１４２ａ_３の方向性音量マップおよび全体的な方向性音量マップ１４２ｂは、オーディオアナライザから受信することができ、またはオーディオエンコーダによって決定することができ、信号選択３５０のために提供することができる。一実施形態によれば、全体的な方向性音量マップ１４２ｂは、例えば、オーディオエンコーダによる処理の前に、例えば入力されたオーディオコンテンツによって表される全体的なオーディオシーンを表すことができる。一実施形態によれば、全体的な方向性音量マップ１４２ｂは、入力オーディオ信号１１２_１から１１２_３によって、例えばデコーダ側レンダリング後に表現される、または表現されるべきオーディオシーンの、例えばオーディオ成分の異なる方向に関連する音量情報を表す。全体的な方向性音量マップは、例えば、ＤｉｒＬｏｕｄＭａｐ（１，２，３）として表される。一実施形態によれば、全体的な方向性音量マップ１４２ｂは、入力オーディオ信号１１２_１から１１２_３のダウンミックスを使用して、または入力オーディオ信号１１２_１から１１２_３のバイノーラル化を使用して、オーディオエンコーダによって決定される。

図１４は、第１の入力オーディオ信号１１２_１、第２の入力オーディオ信号１１２_２、または第３の入力オーディオ信号１１２_３に関連付けられた、それぞれの３つのチャネルＣＨ１からＣＨ３の信号選択３５０を示す。第１の方向性音量マップ１４２ａ_１、例えばＤｉｒＬｏｕｄＭａｐ（１，２）は、第１の入力オーディオ信号１１２_１および第２の入力オーディオ信号１１２_２に基づき、第２の方向性音量マップ１４２ａ_２、例えばＤｉｒＬｏｕｄＭａｐ（２，３）は、第２の入力オーディオ信号１１２_２および第３の入力オーディオ信号１１２_３に基づき、第３の方向性音量マップ１４２ａ_３、例えばＤｉｒＬｏｕｄＭａｐ（１，３）は、第１の入力オーディオ信号１１２_１および第３の入力オーディオ信号１１２_３に基づく。

一実施形態によれば、各方向性音量マップ１４２は、異なる方向に関連する音量情報を表す。異なる方向は、ＬとＲとの間の線によって図１４に示されており、Ｌは左側へのオーディオコンポーネントのパンニングに関連付けられており、Ｒは右側へのオーディオコンポーネントのパンニングに関連付けられている。したがって、異なる方向は、左側および右側ならびに左側と右側との間の方向または角度を含む。図１４に示す方向性音量マップ１４２は図として表されているが、代替的に、方向性音量マップ１４２を、図５に示すような方向性音量ヒストグラム、または図１０ａから図１０ｃに示すような行列によって表すことも可能である。方向性音量マップ１４２に関連する情報のみが信号選択３５０に関連し、グラフィカル表現は理解の向上のためのものにすぎないことは明らかである。

一実施形態によれば、信号選択３５０は、候補信号の対の全体的な方向性音量マップ１４２ｂへの寄与が決定されるように実行される。全体的な方向性音量マップ１４２ｂと候補信号の対の方向性音量マップ１４２ａ_１～１４２ａ_３との間の関係は、次式によって記述することができる。

ＤｉｒＬｏｕｄＭａｐ（１，２，３）＝ａ＊ＤｉｒＬｏｕｄＭａｐ（１，２，３）＋ｂ＊ＤｉｒＬｏｕｄＭａｐ（２，３）＋ｃ＊ＤｉｒＬｏｕｄＭａｐ（１，３）。
信号選択を使用するオーディオエンコーダによって決定される寄与は、係数ａ、ｂ、およびｃによって表すことができる。

一実施形態によれば、オーディオエンコーダは、ジョイント符号化のための全体的な方向性音量マップ１４２ｂへの最大の寄与を有する候補信号１１２_１から１１２_３の１つまたは複数の対を選択するように構成される。これは、例えば、候補信号の対が、係数ａ、ｂおよびｃのうちの最高係数と関連付けられる信号選択３５０によって選択されることを意味する。

あるいは、オーディオエンコーダは、ジョイント符号化のための所定の閾値よりも大きい、全体的な方向性音量マップ１４２ｂへの寄与を有する候補信号１１２_１から１１２_３の１つまたは複数の対を選択するように構成される。これは、例えば、所定の閾値が選択され、各係数ａ、ｂ、ｃが所定の閾値と比較されて、所定の閾値よりも大きい係数に関連付けられた各信号対が選択されることを意味する。

一実施形態によれば、寄与は０％～１００％の範囲内とすることができ、これは例えば、係数ａ、ｂおよびｃについて０～１の範囲を意味する。１００％の寄与は、例えば、全体的な方向性音量マップ１４２ｂと正確に等しい方向性音量マップ１４２ａに関連付けられる。一実施形態によれば、所定の閾値は、入力されたオーディオコンテンツにいくつの入力オーディオ信号が含まれるかに依存する。一実施形態によれば、所定の閾値は、少なくとも３５％または少なくとも５０％または少なくとも６０％または少なくとも７５％の寄与として定義することができる。

一実施形態によれば、所定の閾値は、ジョイント符号化のために信号選択３５０によって選択されなければならない信号の数に依存する。例えば、少なくとも２つの信号対を選択しなければならない場合、２つの信号対を選択することができ、これらの信号対は、全体的な方向性音量マップ１４２ｂへの寄与が最も高い方向性音量マップ１４２ａに関連付けられる。これは、例えば、寄与度が最も高く、次に寄与度が高い信号対が選択されること３５０を意味する。

方向性音量マップの比較は、聴取者による符号化されたオーディオ信号の知覚の質を示すことができるので、オーディオエンコーダによって符号化される信号の選択を方向性音量マップ１４２に基づくようにすることが有利である。一実施形態によれば、信号選択３５０は、信号対または複数の信号対が選択されるようにオーディオエンコーダによって実行され、それらの方向性音量マップ１４２ａは、全体的な方向性音量マップ１４２ｂに最も類似している。これは、すべての入力オーディオ信号の知覚と比較して、選択された１つまたは複数の候補対の同様の知覚をもたらすことができる。これにより、符号化されたオーディオコンテンツの質を向上させることができる。

図１５は、１つまたは複数の入力オーディオ信号を含む入力オーディオコンテンツ１１２を符号化３１０するためのオーディオエンコーダ３００の一実施形態を示す。好ましくは、２つ以上の入力オーディオ信号がオーディオエンコーダ３００によって符号化３１０される。オーディオエンコーダ３００は、２つ以上の入力オーディオ信号１１２に基づいて、またはそこから導出される２つ以上の信号１１０に基づいて、１以上の符号化オーディオ信号３２０を提供するように構成される。信号１１０は、任意選択の処理３３０によって入力オーディオ信号１１２から導出することができる。一実施形態によれば、任意選択の処理３３０は、本明細書に記載の他のオーディオエンコーダ３００に関して説明したような特徴および／または機能を含むことができる。符号化３１０により、符号化される信号は、例えば量子化された後、可逆的に符号化される。

オーディオエンコーダ３００は、入力オーディオ信号１１２に基づいて全体的な方向性音量マップを決定１００するように、および／または個々の入力オーディオ信号１１２に関連する１つまたは複数の個々の方向性音量マップ１４２を決定１００するように構成される。全体的な方向性音量マップはＬ（ｍ，φ_０，ｊ）で表すことができ、個々の方向性音量マップはＬ_ｉ（ｍ，φ_０，ｊ）で表すことができる。一実施形態によれば、全体的な方向性音量マップは、シーンの目標方向性音量マップを表すことができる。言い換えれば、全体的な方向性音量マップは、符号化されたオーディオ信号の組み合わせに対する所望の方向性音量マップと関連付けることができる。追加的または代替的に、信号対または３つ以上の信号のグループの方向性音量マップＬ_ｉ（ｍ，φ_０，ｊ）をオーディオエンコーダ３００によって決定１００することができる。

オーディオエンコーダ３００は、全体的な方向性音量マップ１４２および／または１つもしくは複数の個々の方向性音量マップ１４２および／または３つ以上の入力オーディオ信号１１２の信号対もしくはグループの１つもしくは複数の方向性音量マップをサイド情報として符号化３１０するように構成される。したがって、符号化されたオーディオコンテンツ３２０は、符号化されたオーディオ信号および符号化された方向性音量マップを含む。一実施形態によれば、符号化３１０は、１つまたは複数の方向性音量マップ１４２に依存することができ、それによって、有利なことに、これらの方向性音量マップ１４２も符号化して、符号化されたオーディオコンテンツ３２０の高質の復号を可能にする。方向性音量マップ１４２が符号化されたサイド情報として用いられると、符号化されたオーディオコンテンツ３２０によって、元々意図された質特性（例えば、符号化３１０および／またはオーディオデコーダによって達成可能であること）が提供される。

一実施形態によれば、オーディオエンコーダ３００は、全体的な方向性音量マップが入力オーディオ信号１１２によって表されるオーディオシーンの異なる方向、例えばオーディオ成分に関連する音量情報を表すように、入力オーディオ信号１１２に基づいて全体的な方向性音量マップＬ（ｍ，φ_０，ｊ）を決定１００するように構成される。あるいは、全体的な方向性音量マップＬ（ｍ，φ_０，ｊ）は、例えば入力オーディオ信号によるデコーダ側レンダリングの後に表現されるべきオーディオシーンの、例えばオーディオ成分の異なる方向に関連する音量情報を表す。音量情報決定１００は、任意選択的に、スピーカの位置に関する知識もしくはサイド情報および／または入力オーディオ信号１１２内のオーディオオブジェクトの位置を記述する知識もしくはサイド情報と組み合わせて、オーディオエンコーダ３００によって実行することができる。
一実施形態によれば、音量情報決定１００は、本明細書で説明される他のオーディオエンコーダ３００で説明されるように実装することができる。

オーディオエンコーダ３００は、例えば、全体的な方向性音量マップＬ（ｍ，φ_０，ｊ）を、異なる方向に関連付けられた値のセット、例えばスカラ値の形式で符号化３１０するように構成される。一実施形態によれば、値は、周波数帯域の複数の周波数ビンにさらに関連付けられる。全体的な方向性音量マップの離散的な方向における１つまたは複数の各値を符号化することができる。これは、例えば、図１０ａ～図１０ｃに示されるようなカラー行列の各値、または図５に示されるような異なるヒストグラムビンの値、または離散方向についての図１４に示されるような方向性音量マップ曲線の値が符号化されることを意味する。

あるいは、オーディオエンコーダ３００は、例えば、中心位置値および勾配情報を使用して全体的な方向性音量マップＬ（ｍ，φ_０，ｊ）を符号化するように構成される。中心位置値は、例えば、所与の周波数帯域もしくは周波数ビン、または複数の周波数ビンもしくは周波数帯域の全体的な方向性音量マップの最大値が位置する角度または方向を記述する。勾配情報は、例えば、角度方向における全体的な方向性音量マップの値の勾配を記述する１つまたは複数のスカラ値を表す。勾配情報のスカラ値は、例えば、中心位置値に隣接する方向の全体的な方向性音量マップの値である。中心位置値は、音量情報のスカラ値および／または音量値に対応する方向のスカラ値を表すことができる。

あるいは、オーディオエンコーダは、例えば、多項式表現の形式またはスプライン表現の形式で全体的な方向性音量マップＬ（ｍ，φ_０，ｊ）を符号化するように構成される。

一実施形態によれば、全体的な方向性音量マップＬ（ｍ，φ_０，ｊ）の上述の符号化可能性３１０は、個々の方向性音量マップＬ_ｉ（ｍ，φ_０，ｊ）および／または信号対または３つ以上の信号のグループに関連付けられた方向性音量マップにも適用することができる。

一実施形態によれば、オーディオエンコーダ３００は、複数の入力オーディオ信号１１２および全体的な方向性音量マップＬ（ｍ，φ_０，ｊ）に基づいて得られる１つのダウンミックス信号を符号化するように構成される。任意選択で、ダウンミックス信号に関連付けられた方向性音量マップの全体的な方向性音量マップへの寄与も、例えばサイド情報として符号化される。

あるいは、オーディオエンコーダ３００は、例えば、複数の信号、例えば入力オーディオ信号１１２またはそれから導出された信号１１０を符号化３１０し、符号化３１０された複数の信号１１２／１１０の個々の音量マップＬ_ｉ（ｍ，φ_０，ｊ）を符号化３１０するように構成される（例えば、個々の信号、信号対、または３つ以上の信号のグループ）。符号化された複数の信号および符号化された個々の方向性音量マップは、例えば、符号化されたオーディオ表現３２０に送信されるか、または符号化されたオーディオ表現３２０に含まれる。

代替の実施形態によれば、オーディオエンコーダ３００は、全体的な方向性音量マップＬ（ｍ，φ_０，ｊ）、複数の信号、例えば入力オーディオ信号１１２またはそれから導出される信号１１０、および全体的な方向性音量マップに符号化される寄与、例えば信号の相対寄与を記述するパラメータを符号化する（３１０）ように構成される。一実施形態によれば、パラメータは、図１４に記載されるようにパラメータａ、ｂおよびｃによって表すことができる。したがって、例えば、オーディオエンコーダ３００は、例えば、提供される符号化されたオーディオコンテンツ３２０の高質復号のための情報を提供するために、符号化３１０が基づいているすべての情報を符号化３１０するように構成される。

一実施形態によれば、オーディオエンコーダは、図１１～図１５で説明したオーディオエンコーダ３００のうちの１つまたは複数に関して説明したような個々の特徴および／または機能を含むか、または組み合わせることができる。

図１６は、符号化されたオーディオコンテンツ４２０を復号する４１０ためのオーディオデコーダ４００の一実施形態を示す。符号化されたオーディオコンテンツ４２０は、１つまたは複数のオーディオ信号の符号化表現４２２および符号化された方向性音量マップ情報４２４を含むことができる。

オーディオデコーダ４００は、１つまたは複数のオーディオ信号の符号化表現４２２を受信し、１つまたは複数のオーディオ信号の復号表現４１２を提供するように構成される。さらに、オーディオデコーダ４００は、符号化された方向性音量マップ情報４２４を受信し、符号化された方向性音量マップ情報４２４を復号４１０して、１つまたは複数の復号された方向性音量マップ４１４を取得するように構成される。復号された方向性音量マップ４１４は、上述の方向性音量マップ１４２に関して説明したような特徴および／または機能を含むことができる。

一実施形態によれば、復号４１０は、ＡＡＣ様復号を使用して、またはエントロピー符号化されたスペクトル値の復号を使用して、またはエントロピー符号化された音量値の復号を使用して、オーディオデコーダ４００によって実行することができる。

オーディオデコーダ４００は、１つまたは複数のオーディオ信号の復号表現４１２を使用し、かつ１つまたは複数の方向性音量マップ４１４を使用してオーディオシーンを再構成する（４３０）ように構成される。再構成４３０に基づいて、マルチチャネル表現のような復号されたオーディオコンテンツ４３２を、オーディオデコーダ４００によって決定することができる。

一実施形態によれば、方向性音量マップ４１４は、復号されたオーディオコンテンツ４３２によって達成可能な目標方向性音量マップを表すことができる。したがって、方向性音量マップ４１４を用いて、オーディオシーン４３０の再構成を最適化して、復号されたオーディオコンテンツ４３２の聴取者の高質な知覚をもたらすことができる。これは、方向性音量マップ４１４が聴取者の所望の知覚を示すことができるという考えに基づいている。

図１７は、復号パラメータの適合４４０の任意選択の特徴を有する図１６のエンコーダ４００を示す。一実施形態によれば、復号されたオーディオコンテンツは、例えば、時間領域信号またはスペクトル領域信号を表す出力信号４３２を含むことができる。オーディオデコーダ４００は、例えば、出力信号４３２に関連する１つまたは複数の方向性音量マップが１つまたは複数の目標方向性音量マップに近似または等しくなるように、出力信号４３２を取得するように構成される。１つまたは複数の目標方向性音量マップは、１つまたは複数の復号された方向性音量マップ４１４に基づくか、または１つまたは複数の復号された方向性音量マップ４１４に等しい。任意選択的に、オーディオデコーダ４００は、適切なスケーリング、または１つまたは複数の復号された方向性音量マップ４１４の組み合わせを使用して、１つまたは複数の目標方向性音量マップを決定するように構成される。

一実施形態によれば、出力信号４３２に関連する１つまたは複数の方向性音量マップは、オーディオデコーダ４００によって決定することができる。オーディオデコーダ４００は、例えば、出力信号４３２に関連する１つまたは複数の方向性音量マップを決定するためのオーディオアナライザを備えるか、または出力信号４３２に関連する１つまたは複数の方向性音量マップを外部オーディオアナライザ１００から受信するように構成される。

一実施形態によれば、オーディオデコーダ４００は、出力信号４３２に関連する１つまたは複数の方向性音量マップと、復号された方向性音量マップ４１４とを比較し、または、出力信号４３２に関連する１つまたは複数の方向性音量マップを、復号された方向性音量マップ４１４から導出された方向性音量マップと比較し、この比較に基づいて復号パラメータまたは再構成４３０を適合４４０させるように構成される。一実施形態によれば、オーディオデコーダ４００は、出力信号４３２に関連する１つまたは複数の方向性音量マップと１つまたは複数の目標方向性音量マップとの間の偏差が所定の閾値を下回るように、復号パラメータを適合させる４４０か、または再構成４３０を適合させるように構成される。これはフィードバックループを表すことができ、それによって、復号４１０および／または再構成４３０は、出力信号４３２に関連する１つまたは複数の方向性音量マップが１つまたは複数の目標方向性音量マップを少なくとも７５％または少なくとも８０％、または少なくとも８５％、または少なくとも９０％、または少なくとも９５％近似するように適合される。

一実施形態によれば、オーディオデコーダ４００は、１つまたは複数のオーディオ信号の符号化表現４２２として一符号化ダウンミックス信号を受信し、符号化された方向性音量マップ情報４２４として全体的な方向性音量マップを受信するように構成される。符号化されたダウンミックス信号は、例えば、複数の入力オーディオ信号に基づいて得られる。あるいは、オーディオデコーダ４００は、複数の符号化されたオーディオ信号を、１つまたは複数のオーディオ信号の符号化表現４２２として受信し、複数の符号化された信号の個々の方向性音量マップを、符号化された方向性音量マップ情報４２４として受信するように構成される。符号化オーディオ信号は、例えば、エンコーダによって符号化された入力オーディオ信号、またはエンコーダによって符号化された入力オーディオ信号から導出された信号を表す。あるいは、オーディオデコーダ４００は、符号化された方向性音量マップ情報４２４として全体的な方向性音量マップを受信し、１つまたは複数のオーディオ信号の符号化表現４２２として複数の符号化されたオーディオ信号を受信し、さらに、全体的な方向性音量マップへの符号化されたオーディオ信号の寄与を記述するパラメータを受信するように構成される。したがって、符号化されたオーディオコンテンツ４２０は、パラメータをさらに含むことができ、オーディオデコーダ４００は、これらのパラメータを使用して復号パラメータの適合４４０を改善し、かつ／またはオーディオシーンの再構成４３０を改善するように構成することができる。
オーディオデコーダ４００は、前述の符号化されたオーディオコンテンツ４２０のうちの１つに基づいて出力信号４３２を提供するように構成される。

図１８は、オーディオシーンを表すオーディオコンテンツ５２０のフォーマットを変換５１０するためのフォーマット変換器５００の一実施形態を示す。フォーマット変換器５００は、例えば、第１のフォーマットのオーディオコンテンツ５２０を入力し、オーディオコンテンツ５２０を第２のフォーマットのオーディオコンテンツ５３０に変換５１０する。言い換えると、フォーマット変換器５００は、第１のフォーマットのオーディオコンテンツの表現５２０に基づいて第２のフォーマットのオーディオコンテンツの表現５３０を提供するように構成されている。一実施形態によれば、オーディオコンテンツ５２０および／またはオーディオコンテンツ５３０は、空間オーディオシーンを表すことができる。

第１のフォーマットは、例えば、第１の数のチャネルまたは入力オーディオ信号と、第１の数のチャネルまたは入力オーディオ信号に適合されたサイド情報または空間サイド情報とを含むことができる。第２のフォーマットは、例えば、第１の数のチャネルまたは入力オーディオ信号とは異なり得る第２の数のチャネルまたは出力オーディオ信号と、第２の数のチャネルまたは出力オーディオ信号に適合されたサイド情報または空間サイド情報とを含むことができる。第１のフォーマットのオーディオコンテンツ５２０は、例えば、１つ以上のオーディオ信号、１つ以上のダウンミックス信号、１つ以上の残差信号、１つ以上の中間信号、１つ以上のサイド信号および／または１つ以上の異なる信号を含む。

フォーマット変換器５００は、オーディオシーンの全体的な方向性音量マップ１４２への第１のフォーマットの入力オーディオ信号の寄与に応じて、フォーマット変換５１０の複雑度を調整５４０するように構成される。オーディオコンテンツ５２０は、例えば、第１のフォーマットの入力オーディオ信号を含む。寄与は、オーディオシーンの全体的な方向性音量マップ１４２に対する第１のフォーマットの入力オーディオ信号の寄与を直接表すことができ、または全体的な方向性音量マップ１４２に対する第１のフォーマットの入力オーディオ信号の個々の方向性音量マップの寄与を表すことができ、または全体的な方向性音量マップ１４２に対する第１のフォーマットの入力オーディオ信号の対の方向性音量マップの寄与を表すことができる。一実施形態によれば、寄与は、図１３または図１４で説明したようにフォーマット変換器５００によって計算することができる。一実施形態によれば、全体的な方向性音量マップ１４２は、例えば、フォーマット変換器５００によって受信された第１のフォーマットのサイド情報によって記述されてもよい。あるいは、フォーマット変換器５００は、オーディオコンテンツ５２０の入力オーディオ信号に基づいて全体的な方向性音量マップ１４２を決定するように構成される。任意選択で、フォーマット変換器５００は、全体的な方向性音量マップ１４２を計算するために、図１～図４ｂに関して説明したオーディオアナライザを備えるか、またはフォーマット変換器５００は、図１～図４ｂに関して説明したように、外部オーディオアナライザから全体的な方向性音量マップ１４２を受信するように構成される。

第１のフォーマットのオーディオコンテンツ５２０は、第１のフォーマットの入力オーディオ信号の方向性音量マップ情報を含むことができる。方向性音量マップ情報に基づいて、フォーマット変換器５００は、例えば、全体的な方向性音量マップ１４２および／または１つもしくは複数の方向性音量マップを取得するように構成される。１つまたは複数の方向性音量マップは、第１のフォーマットの各入力オーディオ信号の方向性音量マップおよび／または第１のフォーマットの信号のグループまたは対の方向性音量マップを表すことができる。フォーマット変換器５００は、例えば、１つまたは複数の方向性音量マップまたは方向性音量マップ情報から全体的な方向性音量マップ１４２を導出するように構成される。

複雑度調整５４０は、例えば、閾値を下回る方向性音量マップに寄与する第１のフォーマットの入力オーディオ信号のうちの１つまたは複数のスキップが可能であるかどうかが制御されるように実行される。言い換えれば、フォーマット変換器５００は、例えば、オーディオシーンの全体的な方向性音量マップ１４２に対する所与の入力オーディオ信号の寄与を計算または推定し、寄与の計算または推定に応じてフォーマット変換５１０において所与の入力オーディオ信号を考慮するかどうかを決定するように構成される。計算または推定された寄与は、例えば、フォーマット変換器５００によって所定の絶対または相対閾値と比較される。

全体的な方向性音量マップ１４２に対する第１のフォーマットの入力オーディオ信号の寄与は、第２のフォーマットにおけるオーディオコンテンツ５３０の知覚の質に対するそれぞれの入力オーディオ信号の関連性を示すことができる。これにより、例えば、関連性の高い第１のフォーマットのオーディオ信号のみがフォーマット変換５１０される。これにより、第２フォーマットの高質オーディオコンテンツ５３０が得られる。

図１９は、符号化されたオーディオコンテンツ４２０を復号４１０するためのオーディオデコーダ４００を示す。オーディオデコーダ４００は、１つまたは複数のオーディオ信号の符号化表現４２０を受信し、１つまたは複数のオーディオ信号の復号表現４１２を提供するように構成される。復号４１０は、例えばＡＡＣ的な復号やエントロピー符号化されたスペクトル値の復号を用いる。オーディオデコーダ４００は、１つ以上のオーディオ信号の復号表現４１２を用いてオーディオシーンを再構成する（４３０）ように構成される。オーディオデコーダ４００は、復号されたオーディオシーン４３４の全体的な方向性音量マップ１４２への符号化信号の寄与に応じて復号の複雑度を調整する４４０ように構成される。
復号複雑度調整４４０は、図１８のフォーマット変換器５００の複雑度調整５４０と同様に、オーディオデコーダ４００によって実行することができる。

一実施形態によれば、オーディオデコーダ４００は、例えば符号化されたオーディオコンテンツ４２０から抽出される、符号化された方向性音量マップ情報を受信するように構成される。符号化された方向性音量マップ情報は、オーディオデコーダ４００によって復号され４１０、復号された方向性音量情報４１４を決定することができる。復号された方向性音量情報４１４に基づいて、符号化されたオーディオコンテンツ４２０の１つまたは複数のオーディオ信号の全体的な方向性音量マップおよび／または符号化されたオーディオコンテンツ４２０の１つまたは複数のオーディオ信号の１つまたは複数の個々の方向性音量マップを取得することができる。符号化されたオーディオコンテンツ４２０の１つまたは複数のオーディオ信号の全体的な方向性音量マップは、例えば、１つまたは複数の個々の方向性音量マップから導出される。

復号されたオーディオシーン４３４の全体的な方向性音量マップ１４２は、任意選択的にオーディオデコーダ４００によって実行することができる方向性音量マップ決定１００によって計算することができる。一実施形態によれば、オーディオデコーダ４００は、方向性音量マップ決定１００を実行するために、図１または図４ｂに関して説明したようなオーディオアナライザを備え、またはオーディオデコーダ４００は、復号されたオーディオシーン４３４を外部オーディオアナライザに送信し、復号されたオーディオシーン４３４の全体的な方向性音量マップ１４２を外部オーディオアナライザから受信することができる。

一実施形態によれば、オーディオデコーダ４００は、復号されたオーディオシーンの全体的な方向性音量マップ１４２に対する所与の符号化信号の寄与を計算または推定し、寄与の計算または推定に応じて所与の符号化信号を復号するかどうかを決定する（４１０）ように構成される。したがって、例えば、符号化されたオーディオコンテンツ４２０の１つまたは複数のオーディオ信号の全体的な方向性音量マップを、復号されたオーディオシーン４３４の全体的な方向性音量マップと比較することができる。寄与の決定は、上記のように（例えば、図１３または図１４に関して説明したように）または同様に行うことができる。

あるいは、オーディオデコーダ４００は、符号化されたオーディオシーンの復号された全体的な方向性音量マップ４１４に対する所与の符号化信号の寄与を計算または推定し、寄与の計算または推定に応じて所与の符号化信号を復号するかどうかを決定する（４１０）ように構成される。

複雑度調整４４０は、例えば、閾値を下回る方向性音量マップに寄与する、１つまたは複数の入力オーディオ信号の符号化表現のうちの１つまたは複数のスキップが可能であるかどうかが制御されるように実行される。
追加的または代替的に、復号複雑度調整４４０は、寄与に基づいて復号パラメータを適合させるように構成することができる。

追加的または代替的に、復号複雑度調整４４０は、復号パラメータを適合させるために、復号された方向性音量マップ４１４を復号されたオーディオシーン４３４の全体的な方向性音量マップ（例えば、復号されたオーディオシーン４３４の全体的な方向性音量マップは目標の方向性音量マップ）と比較するように構成することができる。

図２０は、レンダラ６００の一実施形態を示す。レンダラ６００は、例えばバイノーラルレンダラやサウンドバーレンダラやラウドスピーカレンダラである。レンダラ６００では、レンダリングされたオーディオコンテンツ６３０を取得するためにオーディオコンテンツ６２０がレンダリングされる。オーディオコンテンツ６２０は、１つ以上の入力オーディオ信号６２２を含むことができる。レンダラ６００は、例えば、オーディオシーンを再構成６４０するために、１つまたは複数の入力オーディオ信号６２２を使用する。好ましくは、レンダラ６００によって実行される再構成６４０は、２つ以上の入力オーディオ信号６２２に基づく。一実施形態によれば、入力オーディオ信号６２２は、１つまたは複数のオーディオ信号、１つまたは複数のダウンミックス信号、１つまたは複数の残差信号、他のオーディオ信号および／または追加情報を含むことができる。

一実施形態によれば、オーディオシーンの再構成６４０のために、レンダラ６００は、所望のオーディオシーンを得るためにレンダリングを最適化するために、１つまたは複数の入力オーディオ信号６２２を分析するように構成される。したがって、例えば、レンダラ６００は、オーディオコンテンツ６２０のオーディオオブジェクトの空間的配置を変更するように構成される。これは、例えば、レンダラ６００が新しいオーディオシーンを再構成６４０できることを意味する。新しいオーディオシーンは、例えば、オーディオコンテンツ６２０の元のオーディオシーンと比較して再配置されたオーディオオブジェクトを含む。これは、例えば、ギタリストおよび／または歌手および／または他のオーディオオブジェクトが、元のオーディオシーンとは異なる空間位置で新しいオーディオシーンに配置されることを意味する。

追加的または代替的に、複数のオーディオチャネルまたはオーディオチャネル間の関係が、オーディオレンダラ６００によってレンダリングされる。したがって、例えば、レンダラ６００は、マルチチャネル信号を含むオーディオコンテンツ６２０を、例えば２チャネル信号にレンダリングすることができる。これは、例えば、オーディオコンテンツ６２０の表現のために２つのスピーカのみが利用可能である場合に望ましい。

一実施形態によれば、レンダリングは、新しいオーディオシーンが元のオーディオシーンに対してわずかな偏差しか示さないように、レンダラ６００によって実行される。

レンダラ６００は、レンダリングされたオーディオシーン６４２の全体的な方向性音量マップ１４２への入力オーディオ信号６２２の寄与に応じてレンダリングの複雑度を調整６５０するように構成される。一実施形態によれば、レンダリングされたオーディオシーン６４２は、上述した新しいオーディオシーンを表すことができる。一実施形態によれば、オーディオコンテンツ６２０は、サイド情報として全体的な方向性音量マップ１４２を含むことができる。レンダラ６００によってサイド情報として受信されるこの全体的な方向性音量マップ１４２は、レンダリングされたオーディオコンテンツ６３０の所望のオーディオシーンを示すことができる。あるいは、方向性音量マップ決定１００は、再構成ユニット６４０から受信したレンダリングされたオーディオシーンに基づいて、全体的な方向性音量マップ１４２を決定することができる。一実施形態によれば、レンダラ６００は、方向性音量マップ決定１００を含むか、または外部方向性音量マップ決定１００の全体的な方向性音量マップ１４２を受信することができる。一実施形態によれば、方向性音量マップ決定１００は、上述したようにオーディオアナライザによって実行することができる。

一実施形態によれば、レンダリング複雑度の調整６５０は、例えば、入力オーディオ信号６２２のうちの１つまたは複数をスキップすることによって実行される。スキップされる入力オーディオ信号６２２は、例えば、閾値を下回る方向性音量マップ１４２に寄与する信号である。したがって、関連する入力オーディオ信号のみがオーディオレンダラ６００によってレンダリングされる。

一実施形態によれば、レンダラ６００は、例えばレンダリングされたオーディオシーン６４２のオーディオシーンの全体的な方向性音量マップ１４２に対する所与の入力オーディオ信号６２２の寄与を計算または推定するように構成される。さらに、レンダラ６００は、寄与の計算または推定に応じて、レンダリングにおいて所与の入力オーディオ信号を考慮するかどうかを決定するように構成される。したがって、例えば、計算または推定された寄与は、所定の絶対または相対閾値と比較される。

図２１は、オーディオ信号を分析するための方法１０００を示す。本方法は、２つ以上の入力オーディオ信号（ｘ_Ｌ，ｘ_Ｒ，ｘ_ｉ）の１つ以上のスペクトル領域（例えば、時間周波数領域）表現（例えば、

、例えばｉ＝｛Ｌ；Ｒ｝；または

）に基づいて複数の重み付けスペクトル領域（例えば、時間周波数領域）表現（異なる

（ｊ

［１；Ｊ］）について

、「方向性信号」）を取得すること１１００を含む。１つまたは複数のスペクトル領域表現の値（例えば、

）は、複数の重み付けスペクトル領域表現（異なる

に対して

（ｊ

［１；Ｊ］）；「方向性信号」）を取得するために、２つ以上の入力オーディオ信号内のオーディオ成分（例えば、スペクトルビンまたはスペクトル帯域の）（例えば、楽器または歌唱者からのチューニング）の異なる方向（例えば、パンニング方向

）（例えば、重み係数

によって表される）に応じて重み付け１２００される。さらに、本方法は、複数の重み付けスペクトル領域表現（異なる

（ｊ

［１；Ｊ］）に対して

；「方向性信号」）に基づいて、異なる方向（例えば、パンニング方向

）に関連する音量情報（例えば、複数の異なる

に対してＬ（ｍ，

）；例えば、「方向性音量マップ」）を分析結果として取得１３００することを含む。

図２２は、オーディオ信号の類似度を評価するための方法２０００を示す。本方法は、２つ以上の入力オーディオ信号の第１のセット（ｘ_Ｒ，ｘ_Ｌ，ｘ_ｉ）に基づいて異なる（例えば、パンニング）方向（例えば、

）と関連付けられた第１の音量情報（Ｌ_１（ｍ，

）；方向性音量マップ；合成音量値）を取得すること２１００と、第１の音量情報（Ｌ_１（ｍ，

））を、異なるパンニング方向（例えば、

）に関連付けられた第２の（例えば、対応する）音量情報（Ｌ_２（ｍ，

）；基準音量情報；基準方向性音量マップ；基準合成音量値）および２つ以上の基準オーディオ信号（ｘ_２，Ｒ，ｘ_２，Ｌ，ｘ_２，ｉ）のセットと比較２２００し、２つ以上の入力オーディオ信号の第１のセットと２つ以上の基準オーディオ信号（ｘ_Ｒ，ｘ_Ｌ，ｘ_ｉ）の第１のセットと２つ以上の基準オーディオ信号（ｘ_２，Ｒ，ｘ_２，Ｌ，ｘ_２，ｉ）のセットとの間の類似度を記述する（または、２つ以上の入力オーディオ信号の第１のセットの質を、２つ以上の参照オーディオ信号の第１のセットと比較したときに表す）類似度情報（例えば、「モデル出力変数」（ＭＯＶ））を取得すること（２３００）と、を含む。

図２３は、１つまたは複数の入力オーディオ信号（好ましくは複数の入力オーディオ信号）を含む入力オーディオコンテンツを符号化するための方法３０００を示す。本方法は、１つまたは複数の入力オーディオ信号（例えば、左信号および右信号）、またはそれから導出された１つまたは複数の信号（例えば、中間信号またはダウンミックス信号およびサイド信号または差分信号）に基づいて、１つまたは複数の符号化（例えば、量子化され、次いで可逆的に符号化される）オーディオ信号（例えば、符号化されたスペクトル領域表現）を提供すること３１００を含む。さらに、方法３０００は、符号化されるべき１つまたは複数の信号の複数の異なる方向（例えば、パンニング方向）に関連付けられる音量情報を表す１つまたは複数の方向性音量マップに応じて（例えば、量子化される１つまたは複数の信号の個々の方向性音量マップの、例えば複数の入力オーディオ信号（例えば、１つまたは複数の入力オーディオ信号の各信号）に関連付けられた全体的な方向性音量マップへの寄与に応じて）、１つまたは複数の符号化されたオーディオ信号の提供を適合３２００させることを含む。

図２４は、１つまたは複数の入力オーディオ信号（好ましくは複数の入力オーディオ信号）を含む入力オーディオコンテンツを符号化するための方法４０００を示す。方法は、２つ以上の入力オーディオ信号（例えば、左信号および右信号）に基づき、またはそれから導出された２つ以上の信号に基づき、一緒に符号化されるべき２つ以上の信号のジョイント符号化（例えば、中間信号またはダウンミックス信号とサイド信号または差分信号とを使用して（例えば、中間信号またはダウンミックス信号およびサイド信号または差分信号）、１つまたは複数の符号化（例えば、量子化され、次いで可逆的に符号化される）オーディオ信号（例えば、符号化されたスペクトル領域表現）を提供すること４１００を含む。さらに、方法４０００は、候補信号または候補信号の対（例えば、候補信号の個々の方向性音量マップの、例えば複数の入力オーディオ信号（例えば、１つまたは複数の入力オーディオ信号の各信号）に関連付けられた全体的な方向性音量マップへの寄与に応じて、または候補信号の対の方向性音量マップの、全体的な方向性音量マップへの寄与に応じて）の複数の異なる方向（例えば、パンニング方向）に関連する音量情報を表す方向性音量マップに応じて、複数の候補信号の中から、または複数の候補信号の対の中から（例えば、２つ以上の入力オーディオ信号から、または、２つ以上の入力オーディオ信号から導出される２つ以上の信号から）一緒に符号化される信号を選択すること４２００を含む。

図２５は、１つまたは複数の入力オーディオ信号（好ましくは複数の入力オーディオ信号）を含む入力オーディオコンテンツを符号化するための方法５０００を示す。本方法は、２つ以上の入力オーディオ信号（例えば、左信号および右信号）に基づき、またはそれから導出された２つ以上の信号に基づいて、１つまたは複数の符号化（例えば、量子化され、次いで可逆的に符号化される）オーディオ信号（例えば、符号化されたスペクトル領域表現）を提供すること５１００を含む。さらに、方法５０００は、入力オーディオ信号に基づいて全体的な方向性音量マップ（例えば、シーンの目標方向性音量マップ）を決定すること、および／または個々の入力オーディオ信号に関連する１つまたは複数の個々の方向性音量マップを決定すること５２００、および全体的な方向性音量マップおよび／または１つもしくは複数の個々の方向性音量マップをサイド情報として符号化すること５３００を含む。

図２６は、符号化されたオーディオコンテンツを復号するための方法６０００を示し、１つまたは複数のオーディオ信号の符号化表現を受信すること６１００と、１つまたは複数のオーディオ信号の復号表現を提供する（例えば、ＡＡＣのような復号化を使用すること、またはエントロピー符号化されたスペクトル値の復号化を使用すること）こと６２００とを含む。方法６０００は、符号化された方向性音量マップ情報を受信する６３００と、符号化された方向性音量マップ情報を復号すること６４００と、１つまたは複数の（復号される）方向性音量マップを取得すること６５００とを含む。さらに、方法６０００は、オーディオシーンを、１つまたは複数のオーディオ信号の復号表現を使用して、１つまたは複数の方向性音量マップを使用して再構成すること６６００を含む。

図２７は、オーディオシーン（例えば、空間オーディオシーン）を表すオーディオコンテンツのフォーマットを第１のフォーマットから第２のフォーマットに変換する７１００ための方法７０００（第１のフォーマットは、例えば、第１の数のチャネルまたは入力オーディオ信号と、第１の数のチャネルまたは入力オーディオ信号に適合されたサイド情報または空間サイド情報とを含むことができ、第２のフォーマットは、例えば、第１の数のチャネルまたは入力オーディオ信号とは異なり得る第２の数のチャネルまたは出力オーディオ信号と、第２の数のチャネルまたは出力オーディオ信号に適合されたサイド情報または空間サイド情報とを含むことができる）。方法７０００は、第１のフォーマットのオーディオコンテンツの表現に基づいて、第２のフォーマットのオーディオコンテンツの表現を提供することを含み、オーディオシーンの全体的な方向性音量マップへの第１のフォーマットの入力オーディオ信号（例えば、１つまたは複数のオーディオ信号、１つまたは複数のダウンミックス信号、１つまたは複数の残差信号など）の寄与に応じて、フォーマット変換の複雑度を調整すること７２００（例えば、フォーマット変換プロセスにおいて、閾値を下回る方向性音量マップに寄与する第１のフォーマットの入力オーディオ信号のうちの１つまたは複数をスキップすることによって）を含む（全体的な方向性音量マップは、例えば、フォーマット変換器によって受信された第１のフォーマットのサイド情報によって記述されてもよい）。

図２８は、符号化されたオーディオコンテンツを復号するための方法８０００を示し、１つまたは複数のオーディオ信号の符号化表現を受信すること８１００と、１つまたは複数のオーディオ信号の復号表現を提供する（例えば、ＡＡＣのような復号化を使用すること、またはエントロピー符号化されたスペクトル値の復号化を使用すること）こと８２００とを含む。方法８０００は、オーディオシーンを、１つまたは複数のオーディオ信号の復号表現を使用して再構成すること８３００を含む。さらに、方法８０００は、復号されたオーディオシーンの全体的な方向性音量マップへの符号化された信号（例えば、１つまたは複数のオーディオ信号、１つまたは複数のダウンミックス信号、１つまたは複数の残差信号など）の寄与に応じて復号の複雑度を調整すること８４００を含む。

図２９は、オーディオコンテンツ（例えば、第１の数の入力オーディオチャネルと、オーディオオブジェクトの配置またはオーディオチャネル間の関係などの所望の空間特性を記述するサイド情報とを使用して表現されたオーディオコンテンツを、第１の数の入力オーディオチャネルよりも大きい数のチャネルを含む表現にアップミックスするために）をレンダリングするための方法９０００を示し、これは、１つまたは複数の入力オーディオ信号に基づいて（または、２つ以上の入力オーディオ信号に基づいて）オーディオシーンを再構成すること９１００を含む。方法９０００は、レンダリングされたオーディオシーンの全体的な方向性音量マップへの入力オーディオ信号（例えば、１つまたは複数のオーディオ信号、１つまたは複数のダウンミックス信号、１つまたは複数の残差信号など）の寄与に応じてレンダリングの複雑度を調整する（例えば、レンダリング処理において、閾値を下回る方向性音量マップに寄与する入力オーディオ信号のうちの１つまたは複数をスキップすることによって）こと９２００を含む（全体的な方向性音量マップは、例えば、レンダラによって受信された第１のフォーマットのサイド情報によって記述されてもよい）。
備考

以下では、様々な本発明の実施形態および態様を、「方向性音量マップを使用した空間オーディオ質の客観的評価」の章、「オーディオコーディングおよび客観的質測定のための方向性音量の使用」の章、「オーディオコーディングのための方向性音量」の章、「方向性音量マップ（ＤｉｒＬｏｕｄＭａｐ）を計算するための一般的なステップ」の章、「例：パンニングインデックスから導出された窓／選択関数を用いた方向性信号の復元」の章、および「一般化された基準関数を使用して音量マップを計算する異なる形式の実施形態」の章に記載する。
また、さらなる実施形態は、添付の特許請求の範囲によって定義される。

特許請求の範囲によって定義される任意の実施形態は、上記の章に記載された詳細（特徴および機能）のいずれかによって補足することができることに留意されたい。

また、上記の章に記載された実施形態は、個別に使用することができ、別の章の特徴のいずれか、または特許請求の範囲に含まれる任意の特徴によって補足することもできる。

また、本明細書に記載の個々の態様は、個別にまたは組み合わせて使用することができることに留意されたい。したがって、詳細は、前記の態様の別の１つに詳細を追加することなく、前記の個々の態様の各々に追加することができる。

本開示は、オーディオエンコーダ（入力オーディオ信号の符号化表現を提供するための装置）およびオーディオデコーダ（符号化表現に基づいてオーディオ信号の復号表現を提供するための装置）において使用可能な機能を明示的または暗黙的に記述することにも留意されたい。したがって、本明細書に記載された特徴のいずれも、オーディオエンコーダのコンテキストおよびオーディオデコーダのコンテキストにおいて使用され得る。

さらに、方法に関連して本明細書で開示される特徴および機能は、（そのような機能を実行するように構成された）装置で使用することもできる。さらに、装置に関して本明細書に開示された任意の特徴および機能を、対応する方法で使用することもできる。言い換えれば、本明細書に開示された方法は、装置に関して説明された特徴および機能のいずれかによって補完することができる。

また、本明細書に記載されている特徴および機能のいずれも、「実装の代替」のセクションで説明するように、ハードウェアもしくはソフトウェアで、またはハードウェアとソフトウェアの組み合わせを使用して実装することができる。
実装の代替

いくつかの態様を装置の文脈で説明したが、これらの態様は対応する方法の説明も表すことは明らかであり、それにおいてブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明される態様はまた、対応する装置の対応するブロックまたは項目または特徴の説明を表す。方法ステップの一部またはすべては、例えばマイクロプロセッサ、プログラマブルコンピュータ、または電子回路などのハードウェア装置によって（または使用して）実行されてもよい。いくつかの実施形態では、最も重要な方法ステップの１つまたは複数は、そのような装置によって実行されてもよい。

特定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装することができる。実装は、電子的に読み取り可能な制御信号が格納されたデジタル記憶媒体、例えばフロッピーディスク、ＤＶＤ、Ｂｌｕ－Ｒａｙ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを使用して実行することができ、これらはそれぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働することができる）。したがって、デジタル記憶媒体はコンピュータ可読であってもよい。

本発明によるいくつかの実施形態は、本明細書に記載の方法のうちの１つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有するデータキャリアを含む。

一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法のうちの１つを実行するように動作する。プログラムコードは、例えば、機械可読キャリアに格納することができる。
他の実施形態は、機械可読キャリアに格納された、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含む。

言い換えれば、したがって、本発明の方法の一実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法のうちの１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを記録して含むデータキャリア（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体、または記録された媒体は、通常、有形および／または非一時的である。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成することができる。

さらなる実施形態は、本明細書に記載の方法のうちの１つを実行するように構成または適合された処理手段、例えばコンピュータまたはプログラマブル論理デバイスを含む。
さらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

本発明によるさらなる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを受信機に転送する（例えば、電子的または光学的に）ように構成された装置またはシステムを備える。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを備えることができる。

いくつかの実施形態では、プログラマブルロジックデバイス（例えば、フィールドプログラマブルゲートアレイ）を使用して、本明細書に記載の方法の機能の一部またはすべてを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法のうちの１つを実行するためにマイクロプロセッサと協働することができる。一般に、方法は、任意のハードウェア装置によって実行されることが好ましい。

本明細書に記載の装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組み合わせを使用して実装され得る。
本明細書に記載の装置、または本明細書に記載の装置の任意の構成要素は、少なくとも部分的にハードウェアおよび／またはソフトウェアで実装されてもよい。

本明細書に記載の方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組み合わせを使用して実行され得る。

本明細書に記載の方法、または本明細書に記載の装置の任意の構成要素は、少なくとも部分的にハードウェアおよび／またはソフトウェアによって実行されてもよい。

上述の実施形態は、本発明の原理の単なる例示である。本明細書に記載の構成および詳細の修正および変形は、当業者には明らかであることが理解される。したがって、本明細書の実施形態の記述および説明として提示された特定の詳細によってではなく、直後の特許請求の範囲によってのみ限定されることが意図される。
方向性音量マップを使用した空間オーディオ質の客観的評価
要約

この研究は、例えば、処理された空間聴覚シーンにおける知覚された質の劣化の測定として機能するステレオ／バイノーラルオーディオ信号から抽出された特徴を導入する。特徴は、振幅レベルのパンニング技術を使用して位置決めされた方向性信号によって生成されたステレオミックスを仮定した単純化されたモデルに基づくことができる。例えば、基準信号と劣化バージョンを比較するために短時間フーリエ変換（ＳＴＦＴ）領域の各方向性信号についてステレオ画像における関連する音量を計算し、聴取テストで報告された知覚された劣化スコアを記述することを目的とした歪み尺度を導出する。

この尺度は、既存の質予測器［１］、［２］に対する課題を提示するために知られている、帯域幅拡張およびジョイントステレオコーディングなどの非波形保存技術を使用して最先端の知覚オーディオコーデックによって処理されたステレオ信号を用いて広範な聴取試験データベースで試験された。結果は、導出された歪み尺度を、空間的に符号化されたオーディオ信号の予測を改善するための既存の自動知覚質評価アルゴリズムの拡張として組み込むことができることを示唆している。
インデックス用語－空間オーディオ、客観的質評価、ＰＥＡＱ、パンニングインデックス。
１．序論

例えば、共通のパンニングインデックスを共有する領域における音量の変化に基づいて、知覚された聴覚ステレオ画像の劣化を記述することを目的とした単純な特徴を、本発明者らは提案する［１３］。すなわち、例えば、左右のチャネル間で同じ強度レベル比を共有するバイノーラル信号の時間および周波数の領域であり、したがって、聴覚画像の水平面内の所与の知覚される方向に対応する。

複雑な仮想環境のオーディオレンダリングのための聴覚シーン分析の文脈における方向性音量測定の使用も［１４］において提案されているが、現在の研究は、全体的な空間オーディオコーディングの質の客観的な評価に焦点を当てている。

知覚されたステレオ画像の歪みは、パラメータとして評価されるパンニングインデックス値の量に対応する所与の粒度の方向性音量マップ上の変化として反映することができる。
２．方法

一実施形態によれば、基準信号（ＲＥＦ）および被試験信号（ＳＵＴ）は、比較すると、ＳＵＴを生成するために実行される動作によって引き起こされる知覚される聴覚の質の劣化を記述することを目的とする特徴を抽出するために並列に処理される。

両方のバイノーラル信号は、最初に周辺耳モデルブロックによって処理することができる。各入力信号は、例えば、ブロックサイズ

サンプルのＨａｎｎ窓および

のオーバーラップを使用してＳＴＦＴ領域に分解され、

のサンプリングレートで２１ｍｓの時間分解能を与える。次いで、変換された信号の周波数ビンは、例えば、合計の

周波数ビンサブセットまたは帯域における、ＥＲＢスケール［１５］に従った人の蝸牛の周波数選択性を考慮するためにグループ化される。次いで、各バンドは、［３］で説明したように外耳および中耳をモデル化する結合線形伝達関数から導出された値によって重み付けすることができる。

次いで、周辺モデルは、各時間フレーム

および周波数ビン

である信号

、周波数ビンで表される異なる幅

を伴う各チャネルの

および各周波数グループ

を出力する。
２．１．方向性音量の計算（例えば、本明細書に記載のオーディオアナライザおよび／またはオーディオ類似度評価器によって実行される）

一実施形態によれば、方向性音量計算は、例えば、所与のパンニング方向

がｊε［１；Ｊ］の

として解釈され得るように、異なる方向で実行され得る。以下の概念は、［１３］に提示された方法に基づくものであり、それにおいてＳＴＦＴ領域におけるバイノーラル信号の左チャネルと右チャネルとの間の類似度測度を使用して、ミキシングプロセス中にそれらの指定されたパンニング係数に基づいてステレオ録音での各音源によって占有される時間領域および周波数領域を抽出することができる。

周辺モデル

の出力が与えられると、入力に窓関数

を掛けることによって、所与のパンニング方向

に対応する入力信号から時間周波数（Ｔ／Ｆ）タイル

を回復することができる。

（１）

復元された信号は、許容値内のパンニング方向

に対応する入力のＴ／Ｆ成分を有する。窓関数は、所望のパンニング方向を中心とするガウス窓として定義することができる。

（２）

式中、

はそれぞれ完全に左または右にパンニングされた信号に対応する

の定義されたサポートを用いて［１３］で計算されたパンニングインデックスである。実際、

は、左右のチャネルの値が関数

に、

の値またはその近傍を備えさせる周波数ビンを含むことができる。他のすべての成分は、ガウス関数に従って減衰させることができる。

の値は、ウィンドウの幅、したがってパンニング方向ごとの言及された近傍を表す。

の値は、例えば、

ｄＢ［１３］の信号対干渉比（ＳＩＲ）に対して選択された。任意選択的に、

の中の等間隔のパンニング方向の

のセットは、

の値に対して経験的に選択される。復元された各信号について、各ＥＲＢ帯域でパンニング方向に依存する音量計算［１６］は、例えば、次のように表される。

（３）

式中、

はチャネル

の和信号である。次に、音量は、例えば、すべてのＥＲＢ帯域にわたって平均化され、時間フレーム

にわたってパンニング領域

にわたって定義された方向性音量マップを提供する。

（４）

さらなる改良のために、二重理論［１７］によれば、

ｋＨｚ以上の周波数領域に対応するＥＲＢ帯域のサブセットのみを考慮して、この領域のレベルの差に対する人間の聴覚系の感度に対応する式４を計算することができる。一実施形態によれば、

ｋＨｚから

までの周波数に対応する帯域

が使用される。

ステップとして、基準信号およびＳＵＴの持続時間の方向性音量マップが、例えば減算され、次いで、残差の絶対値が、［３］の専門用語に従って、すべてのパンニング方向および時間にわたって平均化され、モデル出力変数（ＭＯＶ）と呼ばれる単一の数を生成する。基準の方向性音量マップとＳＵＴとの間の歪みを効果的に表すこの数は、聴取テストで報告される関連する主観的質劣化の予測因子であると予想される。

図９は、提案されたＭＯＶ（モデル出力値）計算のブロック図を示す。図１０ａ～図１０ｃは、基準（ＲＥＦ）信号と劣化（ＳＵＴ）信号との対、およびそれらの差の絶対値（ＤＩＦＦ）への方向性音量マップの概念の適用例を示す。図１０ａ～図１０ｃは、左にパンニングされた５秒間のソロビオリン録音の例を示す。マップ上のより明確な領域は、例えば、より大きなコンテンツを表す。劣化信号（ＳＵＴ）は、時間２～２．５秒の間、および再び３～３．５秒で、左から中央への聴覚イベントのパンニング方向の一時的な崩壊を呈する。
３．実験の説明

提案されたＭＯＶの有用性を試験および検証するために、［１８］のものと同様の回帰実験を実施し、ＭＯＶをデータベース内の基準およびＳＵＴ対について計算し、聴取試験からのそれぞれの主観的質スコアと比較した。このＭＯＶを利用したシステムの予測性能は、［３］で説明したように、主観データ（

）、絶対誤差スコア（

）、外れ値数（

）との相関で評価される。

実験に使用されるデータベースは、統合スピーチオーディオコーディング（ＵＳＡＣ）検証試験［１９］セット２の一部に対応し、これは、ジョイントステレオ［１２］および帯域幅拡張ツールを使用して、１６から２４ｋｂｐｓの範囲のビットレートで符号化されたステレオ信号を、ＭＵＳＨＲＡスケールの質のスコアと共に含む。提案されたＭＯＶはスピーチ信号の歪みの主な原因を記述することが期待されていないので、スピーチ項目は除外された。実験のためのデータベースには合計８８の項目（例えば、平均長８秒）が残っていた。

データベース内の可能性のあるモノラル／脳の歪みを説明するために、平均オピニオンスコア（ＭＯＳ）と呼ばれる客観的差グレード（ＯＤＧ）およびＰＯＬＱＡと呼ばれる標準ＰＥＡＱ（アドバンスト版）の実装の出力は、前のセクションで説明した方向性音量の歪み（ＤｉｒＬｏｕｄＤｉｓｔ；例えば、ＤＬＤ）を補完する追加のＭＯＶとみなされた。すべてのＭＯＶを正規化し、最良の質を示すために０のスコアを与え、可能な限り最悪の質を示すために１のスコアを与えるように適合させることができる。聴取試験スコアをそれに応じてスケーリングした。

データベースの利用可能なコンテンツの１つのランダムな部分（６０％、５３点）を、ＭＯＶを項目の主観的スコアにマッピングする多変量適合回帰スプライン（ＭＡＲＳ）［８］を使用して回帰モデルを訓練するために確保した。残り（３５個の項目）は、訓練された回帰モデルの性能を試験するために使用された。全体的なＭＯＶ性能分析から訓練手順の影響を除去するために、訓練／試験サイクルは、例えば、ランダム化された訓練／試験項目を用いて５００回実施され、

、

、および

の平均値は、性能尺度とみなされた。
４．結果および考察

表１：ＭＯＶの異なるセットを用いた回帰モデルの５００回の訓練／検証（例えば、試験）サイクルの平均性能値。ＣＨＯＩは、［２０］で計算された３つのバイノーラルＭＯＶを表し、ＥＩＴＤＤは、［１］で計算された高周波包絡線ＩＴＤ歪みＭＯＶに対応する。ＳＥＯは、ＥＩＴＤＤを含む［１］からの４つのバイノーラルＭＯＶに対応する。ＤｉｒＬｏｕｄＤｉｓｔは提案されたＭＯＶである。括弧内の数字は、使用されたＭＯＶの総数を表す。（任意）

表１は、セクション３に記載の実験の平均性能値（相関、絶対誤差スコア、外れ値の数）を示す。提案されたＭＯＶに加えて、［２０］および［１］で提案された空間的に符号化されたオーディオ信号の客観的評価のための方法も比較のために試験された。両方の比較される実施態様は、序論で述べた古典的な両耳間のキュー歪み、すなわちＩＡＣＣ歪み（ＩＡＣＣＤ）、ＩＬＤ歪み（ＩＬＤＤ）、およびＩＴＤＤを利用する。

上述したように、ベースラインの性能はＯＤＧおよびＭＯＳによって与えられ、両方とも別々に

を達成するが、表１に示すような組み合わせ性能

を示す。これにより、モノラルの歪みの評価において特徴が補完的であることが確認される。

Ｃｈｏｉらの研究を考慮すると［２０］、２つのモノラルの質の指標（最大５つの共同ＭＯＶを構成する）への３つのバイノーラル歪み（表１のＣＨＯＩ）の追加は、使用されるデータセットの予測性能に関してシステムにさらなる利得を提供しない。

［１］では、側面位置特定およびキュー歪み検出可能性に関して、言及された特徴に対していくつかのさらなる任意のモデル改良が行われた。また、例えば、高周波包絡線耳間時間差歪み（ＥＩＴＤＤ）［２１］を考慮した新規なＭＯＶを組み込んだ。これらの４つのバイノーラルＭＯＶ（表１ではＳＥＯとして示されている）＋２つのモノラル記述子（合計６つのＭＯＶ）のセットは、現在のデータセットのシステム性能を大幅に改善する。

ＥＩＴＤＤからの改善の寄与を見ると、ジョイントステレオ技術［１２］で使用される周波数時間－エネルギー包絡線は、全体的な質の認識の顕著な側面を表すことが示唆されている。

しかしながら、方向性音量マップ歪み（ＤｉｒＬｏｕｄＤｉｓｔ）に基づく提示されたＭＯＶは、ＥＩＴＤＤよりもさらに良好に知覚される質の劣化と相関し、４つではなく２つのモノラル質記述子に１つの追加のＭＯＶを使用しながら、［１］のすべてのバイノーラルＭＯＶの組み合わせと同様の性能数値にさえ達する。同じ性能に対してより少ない特徴を使用することは、過剰適合のリスクを低減し、それらのより高い知覚的関連性を示す。

のデータベースの主観的スコアに対する最大平均相関は、まだ改善の余地があることを示している。

実施形態によれば、提案された特徴は、本明細書に記載されたモデルに基づいており、ステレオ信号の簡略化された記述を想定しており、それにおいては、聴覚オブジェクトは、通常、スタジオで制作されたオーディオコンテンツの場合である、ＩＬＤによってのみ側面に位置特定される［１３］。マルチマイクロフォン録音またはより自然な音を符号化するときに通常存在するＩＴＤ歪みの場合、モデルは、適切なＩＴＤ歪み測定によって拡張または補完される必要がある。
５．結論および今後の研究

一実施形態によれば、所与のパンニング方向に対応するイベントの音量に基づいて聴覚シーンの表現の変化を記述する歪みメトリックが導入された。モノラルのみの質予測に関する性能の大幅な向上は、提案された方法の有効性を示している。この手法はまた、おそらくは関連するオーディオ処理の非波形保存性のために、古典的なバイノーラルキューに基づく確立された歪み測定が満足に実行されない低ビットレート空間オーディオコーディングの質の測定における可能な代替または補完を提案する。

性能測定は、チャネルレベルの差以外の影響に基づく聴覚歪みも含むより完全なモデルに向けた改善領域が依然として存在することを示している。将来の研究はまた、モデルが静的歪みとは対照的に［１２］に報告されているようにステレオ画像内の時間的不安定性／変調をどのように記述できるかを研究することを含む。

オーディオコーディングおよび客観的質測定のための方向性音量の使用
さらなる説明については、「方向性音量マップを使用した空間オーディオ質の客観的評価」の章を参照されたい。
説明（例えば、図９の説明）

例えば、空間（ステレオ）聴覚シーンにおけるステレオ／バイノーラルオーディオ信号から抽出された特徴が提示される。特徴は、例えば、ステレオ画像内のイベントのパンニング方向を抽出するステレオミックスの単純化されたモデルに基づく。短時間フーリエ変換（ＳＴＦＴ）領域におけるパンニング方向ごとのステレオ画像における関連する音量を計算することができる。特徴は、基準信号および符号化信号について任意選択的に計算され、次いで、聴取試験で報告される知覚された劣化スコアを記述することを目的とした歪み尺度を導出するために比較される。結果は、既存の方法と比較した場合、ジョイントステレオおよび帯域幅拡張などの低ビットレート、非波形保存パラメトリック技術ツールに面する改善されたロバスト性を示す。それは、ＰＥＡＱまたはＰＯＬＱＡ（ＰＥＡＱ＝知覚されたオーディオ質の客観的測定値；ＰＯＬＱＡ＝知覚的客観的聴取質分析）などの標準化された客観的質評価測定システムに統合することができる。
用語：
・信号：例えば、オブジェクト、ダウンミックス、残差などを表す立体信号。

・方向性音量マップ（ＤｉｒＬｏｕｄＭａｐ）：例えば、各信号から導出される。例えば、聴覚シーンの各パンニング方向に関連するＴ／Ｆ（時間／周波数）領域の音量を表す。これは、バイノーラルレンダリング（ＨＲＴＦ（頭部伝達関数）／ＢＲＩＲ（バイノーラル室内インパルス応答））を使用することによって３つ以上の信号から導出することができる。
用途（実施形態）：
１．質の自動評価（実施形態１）：
・「方向性音量マップを使用した空間オーディオ質の客観的評価」の章で説明

２．個々の信号ＤｉｒＬｏｕｄＭａｐｓの全体のＤｉｒＬｏｕｄＭａｐに対する比率（寄与）に基づく、オーディオエンコーダにおける方向性音量ベースのビット分布（実施形態２）。
・任意の変形例１（独立したステレオ対）：スピーカまたはオブジェクトとしてのオーディオ信号。

・任意の変形例２（ダウンミックス／残差対）：ダウンミックス信号ＤｉｒＬｏｕｄＭａｐおよび残差ＤｉｒＬｏｕｄＭａｐの全体的なＤｉｒＬｏｕｄＭａｐへの寄与。ビット分布基準についての聴覚シーンにおける「寄与量」。

１．２つ以上のチャネルのジョイントコーディングを実行し、例えば、１つ以上のダウンミックス信号および残差信号の各々をもたらし、全体的な方向性音量マップに対する各残差信号の寄与が、例えば、固定された復号規則（例えば、ＭＳ－Ｓｔｅｒｅｏ）から、またはジョイントコーディングパラメータ（例えば、ＭＣＴにおける回転）から逆ジョイントコーディング処理を推定することによって決定される、オーディオエンコーダ。ＤｉｒＬｏｕｄＭａｐ全体に対する残差信号の寄与に基づいて、ダウンミックスと残差信号との間のビットレート分布が、例えば信号の量子化精度を制御することによって、または寄与が閾値を下回る残差信号を直接廃棄することによって適合される。「寄与」の可能な基準は、例えば、平均比または方向最大相対寄与の比である。
・問題：個々のＤｉｒＬｏｕｄＭａｐの、結果として得られる／総音量マップへの組み合わせおよび寄与推定。
３．（実施形態３）デコーダ側について、方向性音量は、デコーダが以下に関して情報に基づいた決定をする補助をすることができる。

・複雑度スケーリング／フォーマット変換器：各オーディオ信号は、（別個のパラメータとして送信されるか、または他のパラメータから推定される）ＤｉｒＬｏｕｄＭａｐ全体への寄与に基づいて復号プロセスに含まれるかまたは除外され、したがって、異なるアプリケーション／フォーマットの変換に対するレンダリングの複雑度を変更することができる。これにより、限られたリソースしか利用できない場合（すなわち、モバイルデバイスにレンダリングされるマルチチャネル信号）、複雑度を低減した復号が可能になる。

・結果として得られるＤｉｒＬｏｕｄＭａｐは、目標再生設定に依存する可能性があるため、これは、個々のシナリオの最も重要／顕著な信号が再生されることを保証し、そのため、これは、単純な信号／オブジェクト優先度レベルのような空間的に情報が与えられていない手法よりも有利である。
４．ジョイント符号化決定（実施形態４）について（例えば、図１４の説明）
・シーン全体のＤｉｒＬｏｕｄＭａｐの寄与に対する各信号または各候補信号対の方向性音量マップの寄与を決定する。
１．任意選択の変形例１）全体的な音量マップへの寄与が最も高い信号対を選択する

２．任意選択の変形例２）信号がそれぞれのＤｉｒＬｏｕｄＭａｐにおいて高い近接度／類似度を有する信号対を選択する＝＞ダウンミックスによって一緒に表すことができる

・信号のカスケードジョイントコーディングが存在し得るので、例えばダウンミックス信号のＤｉｒＬｏｕｄＭａｐは、必ずしも１つの方向（例えば、１つのスピーカ）からの点音源に対応するとは限らず、したがって、ＤｉｒＬｏｕｄＭａｐへの寄与は、例えば、ジョイントコーディングパラメータから推定される。
・シーン全体のＤｉｒＬｏｕｄＭａｐは、信号の方向を考慮する何らかの種類のダウンミックスまたはバイノーラル化によって計算することができる。
５．方向性音量に基づくパラメトリック・オーディオ・コーデック（実施形態５）
・例えば、シーンの方向性音量マップを送信する。－－＞は、例えば以下のようなパラメトリック形式のサイド情報として送信される。
１．「ＰＣＭスタイル」＝方向にわたる量子化値
２．中心位置＋左右の線形傾斜
３．多項式またはスプライン表現
・例えば、１つの信号／より少ない信号／効率的な送信を送信し、
１．任意選択の変形例１）シーン＋１ダウンミックスチャネルのパラメータ化されたターゲットＤｉｒＬｏｕｄＭａｐを送信する
２．任意選択の変形例２）各々が関連するＤｉｒＬｏｕｄＭａｐを有する複数の信号を送信する

３．任意選択の変形例３）全体的なターゲットＤｉｒＬｏｕｄＭａｐ、および複数の信号と全体的なＤｉｒＬｏｕｄＭａｐに対するパラメータ化された相対寄与とを送信する
・例えば、シーンの方向性音量マップに基づいて、送信された信号から完全なオーディオシーンを合成する。
オーディオコーディングのための方向性音量
序論および定義
ＤｉｒＬｏｕｄＭａｐ＝ＤｉｒｅｃｔｉｏｎａｌＬｏｕｄｎｅｓｓＭａｐ（方向性音量マップ）
ＤｉｒＬｏｕｄＭａｐを計算するための実施形態：
ａ）ｔ／ｆ分解（＋限界帯域（ＣＢ）へのグループ化）を実行する（例えば、フィルタバンク、ＳＴＦＴ、．．．による）
ｂ）各ｔ／ｆタイルの方向分析機能を実行する
ｃ）ｂ）の結果をＤｉｒＬｏｕｄＭａｐヒストグラムに任意に入力／累積する（アプリケーションが必要とする場合）：
ｄ）広帯域ＤｉｒＬｏｕｄＭａｐを提供するためにＣＢを介した出力を要約する
ＤｉｒＬｏｕｄＭａｐ／方向分析機能のレベルの実施形態：

レベル１（任意）：信号（チャネル／オブジェクト）の空間再生位置に従って寄与方向をマッピングする－（利用される信号コンテンツに関する知識なし）。チャネル／オブジェクト＋／－拡散窓のチャネル／オブジェクト＋／－拡散窓Ｌ１再生方向の再生方向のみを考慮した方向分析関数を使用（これは広帯域とすることができ、すなわちすべての周波数で同じとすることができる。）

レベル２（任意）：信号（チャネル／オブジェクト）の空間再生位置に加え、異なる洗練レベルのチャネル／オブジェクト信号のコンテンツの＊ｄｙｎａｍｉｃ＊関数（方向分析関数）に従って寄与方向をマッピングする。
識別可能

任意選択的に、Ｌ２ａ）パンニングされたファントムソース（－＞パンニングインデックス）［レベル］、または任意選択的にＬ２ｂ）レベル＋時間遅延パンニングされたファントムソース［レベルおよび時間］、または任意選択的にＬ２ｃ）拡大された（無相関の）パンニングされたファントムソース（さらに高度）
知覚的なオーディオコーディングのためのアプリケーション
実施形態Ａ）各チャネル／オブジェクトのマスキング－ジョイントコーディングツールなし－＞ターゲット：

コーダ量子化ノイズの制御（元のおよび符号化／復号されたＤｉｒＬｏｕｄＭａｐが特定の閾値、すなわちＤｉｒＬｏｕｄＭａｐドメインのターゲット基準未満だけ逸脱するように）
実施形態Ｂ）各チャネル／オブジェクトのマスキング－ジョイントコーディングツール（例えば、Ｍ／Ｓ＋予測、ＭＣＴ）

－＞ターゲット：ツール処理された信号（例えば、Ｍまたは回転「和」信号）におけるコーダ量子化ノイズを、ＤｉｒＬｏｕｄＭａｐドメインにおける目標基準を満たすように制御する
Ｂ）の例
１）例えば、すべての信号から全体のＤｉｒＬｏｕｄＭａｐを計算する
２）ジョイントコーディングツールを適用する

３）ツール処理された信号（例えば、「和」および「残渣物」）のＤｉｒＬｏｕｄＭａｐへの寄与を、復号関数（例えば、回転／予測によるパンニング）を考慮して決定する
４）以下で量子化を制御する
ａ）量子化ノイズのＤｉｒＬｏｕｄＭａｐへの影響を考慮
ｂ）信号部分を０～ＤｉｒＬｏｕｄＭａｐに量子化する影響を考慮
実施形態Ｃ）ジョイントコーディングツールのアプリケーション（例えば、ＭＳオン／オフ）および／またはパラメータ（例えば、予測係数）を制御する
ターゲット：ＤｉｒＬｏｕｄＭａｐドメインのターゲット基準を満たすようにジョイントコーディングツールのエンコーダ／デコーダパラメータを制御する
Ｃ）の実施例
ＤｉｒＬｏｕｄＭａｐに基づいてＭ／Ｓオン／オフ決定を制御する
ＤｉｒＬｏｕｄＭａｐに対するパラメータの変化の影響に基づいて、周波数依存予測係数の平滑化を制御する
（パラメータのより安価な差動符号化について）
（＝サイド情報と予測精度との間の制御のトレードオフ）
実施形態Ｄ）＊パラメトリック＊ジョイントコーディングツール（例えば強度ステレオ）のパラメータ（オン／オフ、ＩＬＤ、．．．）を決定する
－＞ターゲット：ＤｉｒＬｏｕｄＭａｐドメインのターゲット基準を満たすようにパラメトリックジョイントコーディングツールのパラメータを制御する

実施形態Ｅ）サイド情報としてＤｉｒＬｏｕｄＭａｐを送信するパラメトリックエンコーダ・デコーダシステム（従来の空間キューではなく、例えば、ＩＬＤ、ＩＴＤ／ＩＰＤ、ＩＣＣ、．．．）

－＞エンコーダがＤｉｒＬｏｕｄＭａｐの分析に基づいてパラメータを決定し、ダウンミックス信号（複数可）および（ビットストリーム）パラメータ、例えば全体のＤｉｒＬｏｕｄＭａｐ＋各信号のＤｉｒＬｏｕｄＭａｐへの寄与
－＞デコーダが送信されたＤｉｒＬｏｕｄＭａｐを適切な手段で合成
実施形態Ｆ）デコーダ／レンダラ／フォーマット変換器の複雑度の低減

各信号の「重要度」を決定するために、（おそらく送信されたサイド情報に基づいて）全体的なＤｉｒＬｏｕｄＭａｐに対する各信号の寄与を決定する。計算能力が制限されているアプリケーションでは、ＤｉｒＬｏｕｄＭａｐに寄与する信号のデコード／レンダリングを閾値未満にスキップする。
方向性音量マップ（ＤｉｒＬｏｕｄＭａｐ）を計算するための一般的なステップ
これは、例えば、任意の実施態様に有効である：（例えば、図３ａおよび／または図４ａの説明）
ａ）いくつかの入力オーディオ信号のｔ／ｆ分解を実行する。
任意：人間の聴覚システム（ＨＡＳ）の周波数分解能に関連して、スペクトル成分を処理帯域にグループ化する。
－任意：異なる周波数領域におけるＨＡＳ感度に応じた重み付け（例えば、外耳／中耳伝達関数）
－＞結果：ｔ／ｆタイル（例えば、スペクトル領域表現、スペクトル帯域、スペクトルビン、．．．）
いくつかの（例えば、それぞれの）周波数帯域（ループ）について：

ｂ）例えば、いくつかのオーディオ入力チャネルのｔ／ｆタイルに対して方向分析関数を計算する－＞結果：方向ｄ（例えば、方向

またはパンニング方向

）。
ｃ）例えば、いくつかのオーディオ入力チャネルのｔ／ｆタイル上の音量を計算する
－＞結果：音量Ｌ

－音量の計算は、単にエネルギーであってもよいし、より洗練されたエネルギー（またはＺｗｉｃｋｅｒモデル：アルファ＝０．２５－０．２７）であってもよい。
ｄ．ａ）例えば、方向ｄの下でＤｉｒＬｏｕｄＭａｐにｌ寄与を入力／累積する
－任意選択：隣接する方向間のｌ個の分布の広がり（パンニングインデックス：ウィンドウイング）
終わりに
任意選択で、（アプリケーションによって必要とされる場合）：広帯域ＤｉｒＬｏｕｄＭａｐを計算する

ｄ．ｂ）広帯域ＤｉｒＬｏｕｄＭａｐを提供するために、いくつかの（回避：すべて）周波数帯域にわたってＤｉｒＬｏｕｄＭａｐを要約し、方向／空間の関数として音の「活性」を示す。
例：パンニングインデックス（例えば、図６の説明）から導出された窓／選択関数を用いた方向性信号の回復

左（図６ａを参照されたい。赤色）および右（図６ｂを参照されたい。青色）チャネル信号は、例えば、図６ａおよび図６ｂに示されている。バーは、スペクトル全体のＤＦＴビン（離散フーリエ変換）、臨界バンド（周波数ビングループ）、または臨界バンド内のＤＦＴビンなどであり得る。
基準関数は、

のように任意に定義される。
基準は、例えば、「レベルに応じたパンニング方向」である。例えば、各またはいくつかのＦＦＴビンのレベル。

ａ）基準関数から、適切な周波数ビン／スペクトルグループ／成分を選択し、方向性信号を復元するウィンドウイング関数／重み付け関数を抽出することができる。したがって、入力スペクトル（例えば、ＬおよびＲ）は、異なる窓関数

（各パンニング方向

ごとに１つの窓関数）によって乗算される。
ｂ）基準関数から、

（すなわち、ＬとＲとの間のレベル比）の異なる値に関連付けられた異なる方向を有する。
方法ａ）を使用して信号を復元するために

例１）パンニング方向中心

、（関係

を有するバーのみを保持する。これは方向性信号である（図６ａ１および図６ｂ１を参照）。

例２）わずかに左へ向かうパンニング方向

（関係

を有するバーのみを保持する）。これは方向性信号である（図６ａ２および図６ｂ２を参照）。

例３）わずかに右へ向かうパンニング方向

（関係

を有するバーのみを保持する）。これは方向性信号（図６ａ３．１および図６ｂ３．１を参照されたい。）である。

基準関数は、各ＤＦＴビンのレベル、ＤＦＴビングループあたりのエネルギー（臨界帯域）

、または臨界帯域

あたりの音量として任意に定義することができる。異なる用途には異なる基準があり得る。
重み付け（任意）
注記：例えば臨界帯域を重み付けする外耳／中耳（周辺モデル）伝達関数重み付けと混同しないようにする。

重み付け：場合により、

の正確な値を取得する代わりに、許容範囲を使用し、

から逸脱する値をあまり重要ではない重みを使用する。すなわち、「４／３の関係に従うすべてのバーを取り、それらを重み１で渡し、それに近い値を取り、それらを１未満で重み付けする→このために、ガウス関数を使用することができる。上記の例では、方向性信号は、１で重み付けされていないが、より低い値を有するより多くのビンを有する。

動機：重み付けは、異なる方向性信号間の「より滑らかな」遷移を可能にし、異なる方向性信号の間にいくらかの「漏れ」があるため、分離はそれほど急激ではない。
例３）については、図６ａ３．２および図６ｂ３．２に示されているもののように見える。
一般化された基準関数を使用して音量マップを計算する様々な形態の実施形態
オプション１：パンニングインデックス手法（図３ａおよび図３ｂを参照）：

（すべて）異なる

の場合、時間におけるこの関数の「値」マップを組み立てることができる。いわゆる「方向性音量マップ」は、以下のいずれかによって構築することができる。

・例１）「個々のＦＦＴビンのレベルに応じたパンニング方向」の基準関数

を使用すると、方向性信号は、例えば、個々のＤＦＴビンで構成される。次に、例えば、各方向性信号の各臨界帯域（ＤＦＴビングループ）のエネルギーを計算し、次いで、臨界帯域ごとのこれらのエネルギーを０．２５などの指数に上昇させる。→「方向性音量マップを使用した空間オーディオ質の客観的評価」の章と同様
・例２）振幅スペクトルをウィンドウイングする代わりに、音量スペクトルをウィンドウイングすることができる。方向性信号は、既に音量領域にある。

・例３）「各臨界帯域の音量に応じたパンニング方向」の基準関数

を直接使用する。次に、方向性信号は、

によって与えられる値に従う重要な帯域全体のチャンクから構成される。
例えば、

について、方向性信号は以下とすることができる。
・Ｙ＝１＊ｃｒｉｔｉｃａｌ＿ｂａｎｄ＿１＋０．２＊ｃｒｉｔｉｃａｌ＿ｂａｎｄ＿２＋０．００１＊ｃｒｉｔｉｃａｌ＿ｂａｎｄ＿３

他のパンニング方向／方向性信号の異なる組み合わせが適用される。重み付けを使用する場合、異なるパンニング方向は、同じ重要な帯域だが、異なる重み値を有する可能性が最も高いことを含むことができることに留意されたい。重み付けが適用されない場合、方向性信号は相互に排他的である。
オプション２：ヒストグラムアプローチ（図４ｂを参照）：

これは、全体的な方向性音量のより一般的な説明である。それは、パンニングインデックス（すなわち、音量を計算するためにスペクトルをウィンドウイングすることによって「方向性信号」を回復する必要はない）を必ずしも利用しない。周波数スペクトルの全体的な音量は、対応する周波数領域の「分析された方向」に従って「分布」する。方向分析は、レベルの差ベース、時間差ベース、または他の形態であり得る。
各時間フレームについて（図５参照）：

ヒストグラム

の解像度は、例えば、

のセットに与えられる値の量によって与えられる。これは、例えば、時間枠内で

を評価するとき

の出現をグループ化するために利用可能なビンの量である。値は、例えば、場合によっては「忘却係数」

を用いて、経時的に累積および平滑化される。

式中、ｎは時間フレームインデックスである。

Claims

オーディオアナライザ（１００）であって、
前記オーディオアナライザ（１００）は、２つ以上の入力オーディオ信号（１１２、１１２_１、１１２_２、１１２_３、１１２ａ、１１２ｂ）のスペクトル領域表現（１１０、１１０_１、１１０_２、１１０ａ、１１０ｂ）を取得するように構成されており、
前記オーディオアナライザ（１００）は、前記スペクトル領域表現（１１０、１１０_１、１１０_２、１１０ａ、１１０ｂ）のスペクトル帯域に関連する方向情報（１２２、１２２_１、１２２_２、１２５、１２７）を取得するように構成されており、
前記オーディオアナライザ（１００）は、異なる方向（１２１）に関連する音量情報（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）を分析結果として取得するように構成され、前記音量情報は、ユーザによる前記２つ以上の入力オーディオ信号の音量知覚を示し、
前記音量情報（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）への寄与（１３２、１３２_１、１３２_２、１３５_１、１３５_２）は、前記方向情報（１２２、１２２_１、１２２_２、１２５、１２７）に応じて決定される、オーディオアナライザ（１００）。
前記オーディオアナライザ（１００）は、前記２つ以上の入力オーディオ信号（１１２、１１２_１、１１２_２、１１２_３、１１２ａ、１１２ｂ）の前記スペクトル領域表現（１１０、１１０_１、１１０_２、１１０ａ、１１０ｂ）に基づいて複数の重み付けスペクトル領域表現（１３５、１３５_１、１３５_２、１３２）を取得するように構成され、
前記スペクトル領域表現（１１０、１１０_１、１１０_２、１１０ａ，１１０ｂ）のそれぞれについて、前記複数の重み付けスペクトル領域表現（１３５、１３５_１、１３５_２、１３２）を得るために、前記それぞれのスペクトル領域表現（１１０、１１０_１、１１０_２、１１０ａ，１１０ｂ）の値が、前記２つ以上の入力オーディオ信号（１１２、１１２_１、１１２_２、１１２_３、１１２ａ、１１２ｂ）における前記オーディオ成分の前記異なる方向（１２５）に応じて重み付けされ（１３４）、
前記オーディオアナライザ（１００）は、前記分析結果として、前記重み付けスペクトル領域表現（１３５、１３５_１、１３５_２、１３２）に基づいて、前記異なる方向（１２１）に関連する音量情報（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）を取得するように構成されている、請求項１に記載のオーディオアナライザ（１００）。
前記オーディオアナライザ（１００）は、前記２つ以上の入力オーディオ信号（１１２、１１２_１、１１２_２、１１２_３、１１２ａ、１１２ｂ）を短時間フーリエ変換（ＳＴＦＴ）領域に分解して、２つ以上の変換オーディオ信号（１１０、１１０_１、１１０_２、１１０ａ、１１０ｂ）を得るように構成されている、請求項１または請求項２に記載のオーディオアナライザ（１００）。
前記オーディオアナライザ（１００）は、前記２つ以上の変換されたオーディオ信号（１１０、１１０_１、１１０_２、１１０ａ、１１０ｂ）のスペクトルビンを、前記２つ以上の変換されたオーディオ信号（１１０、１１０_１、１１０_２、１１０ａ、１１０ｂ）のスペクトル帯域にグループ化するように構成され、
前記オーディオアナライザ（１００）は、前記２つ以上の入力オーディオ信号（１１２、１１２_１、１１２_２、１１２_３、１１２ａ、１１２ｂ）の前記１つ以上のスペクトル領域表現（１１０、１１０_１、１１０_２、１１０ａ、１１０ｂ）を得るために、外耳および中耳モデル（１１６）に基づいて、異なる重みを使用して前記スペクトル帯域を重み付けするように構成されている、請求項３に記載のオーディオアナライザ（１００）。
前記２つ以上の入力オーディオ信号（１１２、１１２_１、１１２_２、１１２_３、１１２ａ、１１２ｂ）は、異なる方向または異なるスピーカ位置に関連付けられている、請求項１から４の一項に記載のオーディオアナライザ（１００）。
前記オーディオアナライザ（１００）は、スペクトルビンごとに、また複数の所定の方向（１２１）に対する方向依存重み付け（１２７、１２２）を決定するように構成されている、請求項１から５の一項に記載のオーディオアナライザ（１００）。
前記オーディオアナライザ（１００）は、ガウス関数を使用して方向依存重み付け（１２７、１２２）を決定するように構成され、前記方向依存重み付け（１２７、１２２）は、それぞれの抽出された方向値（１２５、１２２）とそれぞれの所定の方向値（１２１）との間の偏差が増加するにつれて減少する、請求項１から６の一項に記載のオーディオアナライザ（１００）。
前記オーディオアナライザ（１００）が、前記抽出された方向値（１２５、１２２）としてパンニングインデックス値を決定するように構成される、請求項７に記載のオーディオアナライザ（１００）。
前記オーディオアナライザ（１００）は、前記抽出された方向値（１２５、１２２）を、前記入力オーディオ信号（１１２、１１２_１、１１２_２、１１２_３、１１２ａ、１１２ｂ）のスペクトル領域値（１１０）に応じて決定するように構成されている、請求項７または請求項８に記載のオーディオアナライザ（１００）。
前記オーディオアナライザ（１００）は、以下に従い、所定の方向（１２１）、時間インデックスｍで指定された時間、およびスペクトルビンインデックスｋで指定されたスペクトルビンに関連する前記方向依存重み付け（１２７、１２２）

を取得するように構成され、

式中、

は所定の値であり、

は時間インデックスｍで指定された時間、およびスペクトルビンインデックスｋで指定されたスペクトルビンと関連付けられた抽出された方向値（１２５、１２２）を指定し、

は所定の方向（１２１）を指定する方向値である、請求項６から９の一項に記載のオーディオアナライザ（１００）。
前記オーディオアナライザ（１００）は、重み付けスペクトル領域表現（１３５、１３５_１、１３５_２、１３２）を得るために、前記２つ以上の入力オーディオ信号（１１２、１１２_１、１１２_２、１１２_３、１１２ａ、１１２ｂ）の前記１つ以上のスペクトル領域表現（１１０、１１０_１、１１０_２、１１０ａ、１１０ｂ）に前記方向依存重み付け（１２７、１２２）を適用するように構成される、請求項６から１０の一項に記載のオーディオアナライザ（１００）。
前記オーディオアナライザ（１００）は、重み付けスペクトル領域表現（１３５、１３５_１、１３５_２、１３２）を取得するように構成され、
関連付けられた第１の所定の方向（１２１）を有する信号成分が、第１の重み付けスペクトル領域表現（１３５、１３５_１、１３５_２、１３２）において関連付けられた他の方向（１２５）を有する信号成分よりも強調され、
関連付けられた第２の所定の方向（１２１）を有する信号成分が、第２の重み付けスペクトル領域表現（１３５、１３５_１、１３５_２、１３２）において関連付けられた他の方向（１２５）を有する信号成分よりも強調されるようにする、請求項６から１１の一項に記載のオーディオアナライザ（１００）。
前記オーディオアナライザ（１００）は、以下に従い、インデックスｉによって指定された入力オーディオ信号または入力オーディオ信号の組み合わせ（１１２、１１２_１、１１２_２、１１２_３、１１２ａ、１１２ｂ）（１１２、１１２_１、１１２_２、１１２_３、１１２ａ、１１２ｂ）、インデックスｂによって指定されたスペクトル帯域、インデックス

によって指定された方向（１２１）、時間インデックスｍによって指定された時間、およびスペクトルビンインデックスｋによって指定されたスペクトルビンに関連する重み付けスペクトル領域表現（１３５、１３５_１、１３５_２、１３２）

を取得するように構成され、

式中

はインデックスｉによって指定された入力オーディオ信号（１１２）または入力オーディオ信号の組み合わせ（１１２、１１２_１、１１２_２、１１２_３、１１２ａ、１１２ｂ）、インデックスｂによって指定されたスペクトル帯域、時間インデックスｍによって指定された時間、およびスペクトルビンインデックスｋによって指定されたスペクトルビンに関連付けられたスペクトル領域表現（１１０）を指定し、

は、インデックス

によって指定された方向（１２１）、時間インデックスｍで指定された時間、およびスペクトルビンインデックスｋで指定されたスペクトルビンに関連する前記方向依存重み付け（１２７、１２２）を指定する、請求項１から１２の一項に記載のオーディオアナライザ（１００）。
前記オーディオアナライザ（１００）は、合成音量値（１４２）を得るために、複数の帯域音量値（１４５）の平均を決定するように構成される、請求項１から１３の一項に記載のオーディオアナライザ（１００）。
前記オーディオアナライザ（１００）は、複数の入力オーディオ信号（１１２、１１２_１、１１２_２、１１２_３、１１２ａ、１１２ｂ）を表す重み付け結合スペクトル領域表現（１３７）に基づいて複数のスペクトル帯域の帯域音量値（１４５）を取得するように構成され、
前記オーディオアナライザ（１００）は、前記分析結果として、複数の異なる方向（１２１）について前記取得された帯域音量値（１４５）に基づいて複数の合成音量値（１４２）を取得するように構成される、請求項１から１４の一項に記載のオーディオアナライザ（１００）。
前記オーディオアナライザ（１００）は、前記帯域音量値（１４５）を決定するために、周波数帯域のスペクトル値にわたる前記重み付け結合スペクトル領域表現（１３７）の二乗スペクトル値の平均を計算し、０と１／２との間の指数を有する累乗演算を前記二乗スペクトル値の平均に適用するように構成される、請求項１４または請求項１５に記載のオーディオアナライザ（１００）。
前記オーディオアナライザ（１００）は、以下に従い、インデックスｂで指定されたスペクトル帯域、インデックス

で指定された方向（１２１）、に従って時間インデックスｍで指定された時間に関連する前記帯域音量値（１４５）

を取得するように構成されており、

式中、Ｋ_ｂは、周波数帯域インデックスｂを有する前記周波数帯域におけるスペクトルビンの数を指定し、
ｋは実行変数であり、周波数帯域インデックスｂを有する周波数帯域におけるスペクトルビンを指定し、
ｂはスペクトル帯域を指定し、

はインデックスｂで指定されたスペクトル帯域、インデックス

で指定された方向（１２１）、時間インデックスｍで指定された時間、およびスペクトルビンインデックスｋで指定されたスペクトルビンに関連付けられた重み付け結合スペクトル領域表現（１３７）を示す、請求項１４から１６の一項に記載のオーディオアナライザ（１００）。
前記オーディオアナライザ（１００）は、以下に従い、インデックス

で指定された方向（１２１）および時間インデックスで指定された時間に関連付けられた複数の結合ラウドネス値（１４２）Ｌ（ｍ，

）を取得するように構成され

式中、Ｂはスペクトル帯域ｂの総数を示し、

はインデックスｂで指定されたスペクトル帯域、インデックス

で指定された方向（１２１）、および時間インデックスｍで指定された時間に関連する帯域音量値（１４５）を示す、請求項１から１７の一項に記載のオーディオアナライザ（１００）。
前記オーディオアナライザ（１００）は、前記分析結果を得るために、前記方向情報（１２２、１２２_１、１２２_２、１２５、１２７）に応じて異なる方向（１２１）に関連付けられたヒストグラムビンに音量寄与（１３２、１３２_１、１３２_２、１３５_１、１３５_２）を割り当てるように構成される、請求項１から１８の一項に記載のオーディオアナライザ（１００）。
前記オーディオアナライザ（１００）は、前記スペクトル領域表現（１１０、１１０_１、１１０_２、１１０ａ、１１０ｂ）に基づいてスペクトルビンに関連する音量情報を取得するように構成され、
前記オーディオアナライザ（１００）は、所与のスペクトルビンに関連する音量情報に基づいて、１つまたは複数のヒストグラムビンに音量寄与（１３２、１３２_１、１３２_２、１３５_１、１３５_２）を加算するように構成され、
前記音量寄与（１３２、１３２_１、１３２_２、１３５_１、１３５_２）を１つまたは複数のヒストグラムビンに行う選択が、所与のスペクトルビンの前記方向情報の決定に基づく、請求項１から１９の一項に記載のオーディオアナライザ（１００）。
前記オーディオアナライザ（１００）は、所与のスペクトルビンに関連する音量情報に基づいて複数のヒストグラムビンに音量寄与（１３２、１３２_１、１３２_２、１３５_１、１３５_２）を加算するように構成され、
前記所与のスペクトルビンに関連付けられた方向情報（１２５、１２２）に対応する方向（１２１）に関連付けられたヒストグラムビンに最大の寄与（１３２、１３２_１、１３２_２、１３５_１、１３５_２）が追加され、さらなる方向（１２１）に関連付けられた１つまたは複数のヒストグラムビンに低減された寄与（１３２、１３２_１、１３２_２、１３５_１、１３５_２）が追加されるようにすることができる、請求項１から２０の一項に記載のオーディオアナライザ（１００）。
前記オーディオアナライザ（１００）は、前記２つ以上の入力オーディオ信号（１１２、１１２_１、１１２_２、１１２_３、１１２ａ、１１２ｂ）のオーディオコンテンツに基づいて方向情報（１２２、１２２_１、１２２_２、１２５、１２７）を取得するように構成されている、請求項１から２１の一項に記載のオーディオアナライザ（１００）。
前記オーディオアナライザ（１００）は、オーディオコンテンツの振幅パンニングの分析に基づいて方向情報（１２２、１２２_１、１２２_２、１２５、１２７）を取得するように構成され、および／または
前記オーディオアナライザ（１００）は、２つ以上の入力オーディオ信号（１１２、１１２_１、１１２_２、１１２_３、１１２ａ、１１２ｂ）のオーディオコンテンツ間の位相関係および／または時間遅延および／または相関の分析に基づいて方向情報（１２２、１２２_１、１２２_２、１２５、１２７）を取得するように構成され、および／または
前記オーディオアナライザは、到来音のスペクトル情報と、異なる方向の頭部伝達関数に関連するテンプレートとのマッチングを使用して、方向情報（１２２、１２２_１、１２２_２、１２５、１２７）を取得するように構成されている、請求項１から２２の一項に記載のオーディオアナライザ（１００）。
前記オーディオアナライザ（１００）は、拡散規則に従って音量情報を複数の方向（１２１）に拡散するように構成されている、請求項１から２３の一項に記載のオーディオアナライザ（１００）。
オーディオ類似度評価器（２００）であって、
前記オーディオ類似度評価器（２００）は、２つ以上の入力オーディオ信号の第１のセット（１１２ａ）に基づいて異なる方向（１２１）に関連する第１の音量情報（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）を、取得するように構成され、
前記オーディオ類似度評価器（２００）は、前記第１の音量情報（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）を、前記異なるパンニング方向および２つ以上の基準オーディオ信号のセット（１１２ｂ）に関連する第２の音量情報（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）と比較（２２０）して、前記２つ以上の入力オーディオ信号第１のセットの（１１２ａ）と前記２つ以上の基準オーディオ信号のセット（１１２ｂ）との間の類似度を記述する類似度情報（２１０）を取得するように構成され、
前記オーディオ類似度評価器（２００）は、請求項１から２４の一項に記載のオーディオアナライザ（１００）を使用して前記第１の音量情報（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）および／または前記第２の音量情報（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）を取得するように構成される、オーディオ類似度評価器（２００）。
前記オーディオ類似度評価器（２００）は、前記第１の音量情報（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）が、前記２つ以上の入力オーディオ信号の第１のセット（１１２ａ）に関連し、それぞれの所定の方向（１２１）に関連する複数の合成音量値（１４２）を含むように、前記第１の音量情報（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）を取得するように構成され、前記第１の音量情報（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）の前記合成音量値（１４２）は、前記それぞれの所定の方向（１２１）に関連する前記２つ以上の入力オーディオ信号の第１のセット（１１２ａ）の信号成分の音量を記述する、請求項２５に記載のオーディオ類似度評価器（２００）。
前記オーディオ類似度評価器（２００）は、前記第１の音量情報（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）が、それぞれの所定の方向（１２１）に関連する前記２つ以上の入力オーディオ信号の第１のセット（１１２ａ）の複数の重み付けスペクトル領域表現（１３５、１３５_１、１３５_２、１３２）の組み合わせに関連するように、前記第１の音量情報（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）を取得するように構成される、請求項２５または請求項２６に記載のオーディオ類似度評価器（２００）。
前記オーディオ類似度評価器（２００）は、前記第２の音量情報（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）と前記第１の音量情報（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）との差（２１０）を決定して、残差音量情報（２１０）を取得するように構成される、請求項２５から２７の一項に記載のオーディオ類似度評価器（２００）。
前記オーディオ類似度評価器２００は、複数の方向にわたる前記差（２１０）を定量化する値を（２１０）決定するように構成される、請求項２８に記載のオーディオ類似度評価器（２００）。
前記オーディオ類似度評価器（２００）は、前記入力オーディオ信号（１１２、１１２_１、１１２_２、１１２_３、１１２ａ、１１２ｂ）に関連するスピーカの位置情報を表すメタデータを使用して、異なる方向（１２１）に関連する前記音量情報（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）を取得するために使用される方向成分を取得するように構成される、請求項２５から２９の一項に記載のオーディオ類似度評価器（２００）。
１つまたは複数の入力オーディオ信号（１１２、１１２_１、１１２_２、１１２_３、１１２ａ、１１２ｂ）を含む入力オーディオコンテンツ（１１２）を符号化（３１０）するためのオーディオエンコーダ（３００）であって、
前記オーディオエンコーダ（３００）は、１つまたは複数の入力オーディオ信号（１１２、１１２_１、１１２_２、１１２_３、１１２ａ、１１２ｂ）、またはそれから導出された１つまたは複数の信号（１１０、１１０_１、１１０_２、１１０ａ、１１０ｂ）に基づいて、１つまたは複数の符号化オーディオ信号（３２０）を提供するように構成され、
前記オーディオエンコーダ（３００）は、符号化されるべき前記１つまたは複数の信号の複数の異なる方向（１２１）に関連する音量情報（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）を表す１つまたは複数の方向性音量マップに応じて符号化パラメータを適合させる（３４０）ように構成され、
前記オーディオエンコーダ（３００）は、請求項１から２４の一項に記載のオーディオアナライザ（１００）を備え、異なる方向（１２１）に関連付けられた前記音量情報（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）が前記方向性音量マップを形成する、オーディオエンコーダ（３００）。
前記オーディオエンコーダ（３００）は、符号化される前記１つまたは複数の信号および／またはパラメータの個々の方向性音量マップの寄与度に応じて、符号化される前記１つまたは複数の信号および／またはパラメータ間のビット分布を全体的な方向性音量マップ（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）に適合（３４０）させるように構成される、請求項３１に記載のオーディオエンコーダ（３００）。
前記オーディオエンコーダ（３００）は、符号化されるべき前記信号のうちの所与の一方の個々の方向性音量マップの全体的な方向性音量マップへの寄与が閾値を下回るとき、符号化されるべき前記信号のうちの前記所与の一方の符号化（３１０）を無効にするように構成される、請求項３１または請求項３２に記載のオーディオエンコーダ（３００）。
前記オーディオエンコーダ（３００）は、符号化されるべき前記１つまたは複数の信号の個々の方向性音量マップの全体的な方向性音量マップへの寄与に応じて、符号化されるべき前記１つまたは複数の信号の量子化精度を適合させる（３４２）ように構成される、請求項３１から３３の一項に記載のオーディオエンコーダ（３００）。
前記オーディオエンコーダ（３００）は、１つまたは複数の量子化スペクトル領域表現（３１３）を取得するために、１つまたは複数の量子化パラメータを使用して、前記１つまたは複数の入力オーディオ信号（１１２、１１２_１、１１２_２、１１２_３、１１２ａ、１１２ｂ）またはそれから導出された前記１つまたは複数の信号（１１０、１１０_１、１１０_２、１１０ａ、１１０ｂ）のスペクトル領域表現（１１０、１１０_１、１１０_２、１１０ａ、１１０ｂ）を量子化（３１２）するように構成され、
前記オーディオエンコーダ（３００）は、前記１つまたは複数の符号化されたオーディオ信号（３２０）の前記提供を適合させるために、量子化されるべき前記１つまたは複数の信号の複数の異なる方向（１２１）に関連する音量情報（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）を表す１つまたは複数の方向性音量マップに応じて前記１つまたは複数の量子化パラメータを調整（３４２）するように構成され、
前記オーディオエンコーダ（３００）は、前記１つまたは複数の符号化されたオーディオ信号（３２０）取得するために、前記１つまたは前記１つまたは複数の量子化スペクトル領域表現（３１３）を符号化するように構成される、請求項３１から３４の一項に記載のオーディオエンコーダ（３００）。
前記オーディオエンコーダ（３００）は、量子化されるべき前記１つまたは複数の信号の個々の方向性音量マップの全体的な方向性音量マップへの寄与に応じて、前記１つまたは複数の量子化パラメータを調整（３４２）するように構成される、請求項３５に記載のオーディオエンコーダ（３００）。
前記オーディオエンコーダ（３００）は、前記入力オーディオ信号（１１２、１１２_１、１１２_２、１１２_３、１１２ａ、１１２ｂ）に基づいて全体的な方向性音量マップを決定するように構成され、前記全体的な方向性音量マップは、前記入力オーディオ信号（１１２、１１２_１、１１２_２、１１２_３、１１２ａ、１１２ｂ）によって表されるオーディオシーンの前記異なる方向（１２１）に関連する音量情報（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）を表す、請求項３５または請求項３６に記載のオーディオエンコーダ（３００）。
前記量子化されるべき１つまたは複数の信号は、異なる方向（１２１）に関連付けられ、または異なるスピーカに関連付けられ、または異なるオーディオオブジェクトに関連付けられる、請求項３５から３７の一項に記載のオーディオエンコーダ（３００）。
前記量子化されるべき信号は、２つ以上の入力オーディオ信号（１１２、１１２_１、１１２_２、１１２_３、１１２ａ、１１２ｂ）のジョイントマルチ信号コーディングの成分を備える、請求項３５から３８の一項に記載のオーディオエンコーダ（３００）。
前記オーディオエンコーダ（３００）は、前記ジョイントマルチ信号コーディングの残差信号の前記全体的な方向性音量マップへの寄与を推定し、それに応じて前記１つまたは複数の量子化パラメータを調整（３４２）するように構成される、請求項３５から３９の一項に記載のオーディオエンコーダ（３００）。
前記オーディオエンコーダ（３００）は、異なるスペクトルビンに対して個別に、または異なる周波数帯域に対して個別に符号化されるべき前記１つまたは複数の信号および／またはパラメータ間のビット分布を適合（３４０）させるように構成され、および／または
前記オーディオエンコーダ（３００）は、異なるスペクトルビンに対して個別に、または異なる周波数帯域に対して個別に、符号化されるべき前記１つまたは複数の信号の量子化精度を適合（３４２）させるように構成される、請求項３１から４０の一項に記載のオーディオエンコーダ（３００）。
前記オーディオエンコーダ（３００）は、符号化されるべき２つ以上の信号間の空間マスキングの評価に応じて、符号化されるべき前記１つ以上の信号および／またはパラメータ間のビット分布を適合（３４０）させるように構成され、
前記オーディオエンコーダ（３００）は、符号化されるべき前記２つ以上の信号に関連付けられた前記方向性音量マップに基づいて前記空間マスキングを評価するように構成される、請求項３１から４１の一項に記載のオーディオエンコーダ（３００）。
前記オーディオエンコーダ（３００）は、符号化されるべき第１の信号の第１の方向に関連する音量寄与（１３２、１３２_１、１３２_２、１３５_１、１３５_２）から、符号化されるべき第２の信号の第２の方向に関連する音量寄与（１３２、１３２_１、１３２_２、１３５_１、１３５_２）へのマスキング効果を評価するように構成されている、請求項４２に記載のオーディオエンコーダ（３００）。
前記オーディオエンコーダ（３００）は、前記１つまたは複数の方向性音量マップに応じて、前記エンコーダによって導入されたノイズを適合（３４０）させるように構成される、請求項３１から４３の一項に記載のオーディオエンコーダ（３００）。
前記オーディオエンコーダ（３００）は、所与の符号化されていない入力オーディオ信号に関連付けられた方向性音量マップと、前記所与の入力オーディオ信号の符号化バージョンによって達成可能な方向性音量マップとの間の偏差を、前記所与の符号化されたオーディオ信号を提供するのを適合させるための基準として使用するように構成される、請求項４４に記載のオーディオエンコーダ（３００）。
前記オーディオエンコーダ（３００）は、符号化されるべき前記１つまたは複数の信号の複数の異なる方向（１２１）に関連する音量情報（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）を表す１つまたは複数の方向性音量マップに応じて、ジョイントコーディングツールをアクティブ化および非アクティブ化するように構成される、請求項３１から４５の一項に記載のオーディオエンコーダ（３００）。
前記オーディオエンコーダ（３００）は、符号化されるべき前記１つまたは複数の信号の複数の異なる方向（１２１）に関連する音量情報（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）を表す１つまたは複数の方向性音量マップに応じて、ジョイントコーディングツールの１つまたは複数のパラメータを決定するように構成されている、請求項３１から４６の一項に記載のオーディオエンコーダ（３００）。
前記オーディオエンコーダ（３００）は、前記１つまたは複数の符号化信号（３２０）の、１つまたは複数の符号化された信号の方向性音量マップに対する提供を制御する１つまたは複数の制御パラメータの変動の影響を決定または推定し、前記影響の決定または推定に応じて前記１つまたは複数の制御パラメータを調整するように構成される、請求項３１から４７の一項に記載のオーディオエンコーダ（３００）。
前記オーディオエンコーダ（３００）は、前記入力オーディオ信号（１１２、１１２_１、１１２_２、１１２_３、１１２ａ、１１２ｂ）に関連付けられたスピーカの位置情報を表すメタデータを使用して、前記１つまたは複数の方向性音量マップを取得するために使用される方向成分を取得するように構成される、請求項３１から４８の一項に記載のオーディオエンコーダ（３００）。
オーディオ信号を分析するための方法（１０００）であって、
２つ以上の入力オーディオ信号のスペクトル領域表現を取得することと、
前記スペクトル領域表現のスペクトル帯域に関連する方向情報を取得することと、
異なる方向に関連する音量情報を分析結果として取得することであって、前記音量情報は、ユーザによる前記２つ以上の入力オーディオ信号の音量知覚を示す、音量情報を分析結果として取得することと、を含み、
前記音量情報への寄与は、前記方向情報に応じて決定される、方法（１０００）。
オーディオ信号を分析するための、請求項５０に記載の方法（１０００）であって、
２つ以上の入力オーディオ信号の１つまたは複数のスペクトル領域表現に基づいて複数の重み付けスペクトル領域表現を取得すること（１１００）、
それにおいて、前記スペクトル領域表現のそれぞれについて、前記複数の重み付けスペクトル領域表現を取得するために、前記それぞれのスペクトル領域表現の値が、前記２つ以上の入力オーディオ信号におけるオーディオ成分の異なる方向に応じて重み付けされる（１２００）、および
前記複数の重み付けスペクトル領域表現に基づいて前記異なる方向と関連付けられた音量情報を分析結果として取得すること（１３００）、を含む方法（１０００）。
オーディオ信号の類似度を評価するための方法（２０００）であって、
２つ以上の入力オーディオ信号の第１のセットに基づいて異なる方向と関連付けられた第１の音量情報を取得すること（２１００）と、
前記第１の音量情報を、前記異なるパンニング方向に関連付けられた第２の音量情報および２つ以上の基準オーディオ信号のセットと比較し（２２００）、前記２つ以上の入力オーディオ信号の第１のセットと前記２つ以上の基準オーディオ信号のセットとの間の類似度を記述する類似度情報を取得すること（２３００）と、を含み、
前記方法（２０００）は、請求項５０または５１に記載の方法（１０００）を使用して、前記第１の音量情報および／または前記第２の音量情報を取得することを含む、方法（２０００）。
１つ以上の入力オーディオ信号を含む入力オーディオコンテンツを符号化するための方法（３０００）であって、
前記方法は、１つもしくは複数の入力オーディオ信号、またはそれから導出された１つもしくは複数の信号に基づいて、１つもしくは複数の符号化オーディオ信号を提供すること（３１００）を含み、
前記方法は、符号化されるべき前記１つまたは複数の信号の複数の異なる方向に関連付けられる音量情報を表す１つまたは複数の方向性音量マップに応じて、前記１つまたは複数の符号化されたオーディオ信号の前記提供を適合させること（３２００）を含み、
前記方法（３０００）は、請求項５０または５１に記載の方法（１０００）を使用し、異なる方向（１２１）に関連する前記音量情報（１４２、１４２_１、１４２_２、１４２ａ、１４２ｂ）は、前記方向性音量マップを形成する、方法（３０００）。
コンピュータ上で実行されると、請求項５０から５３に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。