したがって、改善された、効率的で高精度のオーディオ分析、オーディオコーディング、およびオーディオ復号を提供する概念を獲得することが望まれている。
これは、本出願の独立請求項の主題によって達成される。
本発明によるさらなる実施形態は、本出願の従属請求項の主題によって定義される。
本発明による一実施形態は、オーディオアナライザ、例えばオーディオ信号アナライザに関する。オーディオアナライザは、2つ以上の入力オーディオ信号のスペクトル領域表現を取得するように構成されている。したがって、オーディオアナライザは、例えば、スペクトル領域表現を決定または受信するように構成される。一実施形態によれば、オーディオアナライザは、2つ以上の入力オーディオ信号を時間周波数タイルに分解することによってスペクトル領域表現を取得するように構成される。さらに、オーディオアナライザは、スペクトル領域表現のスペクトル帯域に関連する方向情報を取得するように構成される。方向情報は、例えば、2つ以上の入力オーディオ信号に含まれる異なるオーディオ成分の方向(または位置)を表す。一実施形態によれば、方向情報は、例えば、バイノーラル処理における2つ以上の入力オーディオ信号によって生成された音場内の音源位置を記述するパンニングインデックスとして理解することができる。さらに、オーディオアナライザは、異なる方向に関連する音量情報を分析結果として取得するように構成され、音量情報への寄与は、方向情報に応じて決定される。換言すれば、オーディオアナライザは、例えば、異なるパンニング方向もしくはパンニングインデックス、または複数の異なる評価された方向範囲に関連する音量情報を分析結果として取得するように構成される。一実施形態によれば、異なる方向、例えば、パンニング方向、パンニングインデックスおよび/または方向範囲は、方向情報から取得することができる。音量情報は、例えば、方向性音量マップまたはレベル情報またはエネルギー情報を含む。音量情報への寄与は、例えば、音量情報へのスペクトル領域表現のスペクトル帯域の寄与である。一実施形態によれば、音量情報への寄与は、異なる方向に関連する音量情報の値への寄与である。
この実施形態は、2つ以上の入力オーディオ信号から得られた方向情報に応じて音量情報を決定することが有利であるという考えに基づいている。これにより、2つ以上のオーディオ信号によって実現されるステレオオーディオミックス内の異なる音源の音量に関する情報を取得することが可能になる。したがって、オーディオアナライザでは、異なる方向に関連する音量情報を分析結果として取得することによって、2つ以上のオーディオ信号の知覚を非常に効率的に分析することができる。一実施形態によれば、音量情報は、例えば、すべてのERB帯域にわたって平均化された、異なる方向における2つ以上の信号の組み合わせの音量に関する情報、または2つ以上の入力オーディオ信号の少なくとも1つの共通時間信号の音量に関する情報を与える方向性音量マップを含むかまたは表すことができる(ERB=等価矩形帯域幅)。
一実施形態によれば、オーディオアナライザは、2つ以上の入力オーディオ信号のスペクトル領域(例えば、時間周波数領域)表現に基づいて、複数の重み付けスペクトル領域(例えば、時間周波数領域)表現(例えば、「方向性信号」)を取得するように構成される。1つまたは複数のスペクトル領域表現の値は、複数の重み付けスペクトル領域表現(例えば、「方向性信号」)を取得するために、2つ以上の入力オーディオ信号内のオーディオ成分(例えば、スペクトルビンまたはスペクトル帯域の)(例えば、楽器または歌唱者からのチューニング)の異なる方向(例えば、パンニング直接)に応じて重み付けされる(例えば、重み係数によって表される)。オーディオアナライザは、分析結果として、重み付けスペクトル領域表現(例えば、「方向性信号」)に基づいて、異なる方向(例えば、パンニング方向)に関連する音量情報(例えば、複数の異なる方向の音量値;例えば、「方向性音量マップ」)を取得するように構成される。
これは、例えば、オーディオアナライザが、1つまたは複数のスペクトル領域表現の値が音量情報に影響を及ぼすオーディオ成分の異なる方向のうちのどの方向にあるかを分析することを意味する。各スペクトルビンは、例えば、特定の方向に関連付けられており、特定の方向に関連付けられた音量情報は、この方向に関連付けられた複数のスペクトルビンに基づいてオーディオアナライザによって決定することができる。重み付けは、1つまたは複数のスペクトル領域表現の各ビンまたは各スペクトル帯域に対して実行することができる。一実施形態によれば、周波数ビンまたは周波数グループの値は、異なる方向のうちの1つへの重み付けによってウィンドウイングされる。例えば、それらは、それらが関連付けられている方向および/または隣接する方向に重み付けされる。方向は、例えば、周波数ビンまたは周波数グループが音量情報に影響を及ぼす方向に関連付けられる。その方向から逸脱する値は、例えば、あまり重要ではない。したがって、複数の重み付けスペクトル領域表現は、異なる方向の音量情報に影響を及ぼすスペクトルビンまたはスペクトル帯域の指示を提供することができる。一実施形態によれば、複数の重み付けスペクトル領域表現は、音量情報への寄与を少なくとも部分的に表すことができる。
一実施形態によれば、オーディオアナライザは、2つ以上の変換されたオーディオ信号を得るために、2つ以上の入力オーディオ信号を短時間フーリエ変換(STFT)領域(例えば、Hann窓を使用する)に分解(例えば、変換)するように構成される。2つ以上の変換オーディオ信号は、2つ以上の入力オーディオ信号のスペクトル領域(例えば、時間周波数領域)表現を表すことができる。
一実施形態によれば、オーディオアナライザは、2つ以上の変換されたオーディオ信号のスペクトルビンを、2つ以上の変換されたオーディオ信号のスペクトル帯域に(例えば、グループまたはスペクトル帯域の帯域幅が周波数の増加に伴って増加するように)グループ化するように構成される(例えば、ヒトの蝸牛の周波数選択性に基づく)。さらに、オーディオアナライザは、2つ以上の入力オーディオ信号の1つ以上のスペクトル領域表現を得るために、外耳モデルおよび中耳モデルに基づいて、異なる重みを使用してスペクトル帯域(例えば、スペクトル帯域内のスペクトルビン)を重み付けするように構成される。スペクトルビンをスペクトル帯域に特別にグループ化し、スペクトル帯域を重み付けすることにより、2つ以上の入力オーディオ信号が準備され、前記信号を聞くユーザによる2つ以上の入力オーディオ信号の音量知覚を、音量情報を決定するという観点でオーディオアナライザによって非常に正確かつ効率的に推定または決定することができる。この特徴により、変換オーディオ信号は、2つ以上の入力オーディオ信号のスペクトル領域表現をそれぞれ人間の耳に適合させて、オーディオアナライザによって取得される音量情報の情報コンテンツを改善する。
一実施形態によれば、2つ以上の入力オーディオ信号は、異なる方向または異なるスピーカ位置(例えば、L(左)、R(右))に関連付けられる。異なる方向または異なるスピーカ位置は、ステレオおよび/またはマルチチャネルオーディオシーンの異なるチャネルを表すことができる。2つ以上の入力オーディオ信号は、インデックスによって互いに区別することができ、インデックスは、例えば、アルファベットの文字(例えば、L(左)、R(右)、M(中央))によって、または例えば、2つ以上の入力オーディオ信号のチャネルの番号を示す正の整数によって表すことができる。したがって、インデックスは、2つ以上の入力オーディオ信号が関連付けられる異なる方向またはスピーカの位置を示すことができる(例えば、これらは、入力信号が聴取空間内で発生する位置を示す)。一実施形態によれば、2つ以上の入力オーディオ信号の異なる方向(以下では、例えば、第1の異なる方向)は、オーディオアナライザによって取得される音量情報が関連付けられる異なる方向(以下では、例えば、第2の異なる方向)に関連しない。したがって、第1の異なる方向の方向は、2つ以上の入力オーディオ信号の信号のチャネルを表すことができ、第2の異なる方向の方向は、2つ以上の入力オーディオ信号の信号のオーディオ成分の方向を表すことができる。第2の異なる方向は、第1の方向の間に配置することができる。追加的または代替的に、第2の異なる方向は、第1の方向の外側および/または第1の方向に配置することができる。
一実施形態によれば、オーディオアナライザは、スペクトルビン(例えば、および時間ステップ/フレームごと)ごとに、かつ複数の所定の方向(所望のパンニング方向)に対する方向依存重み付け(例えば、パンニング方向に基づく)を決定するように構成される。所定の方向は、例えば、所定のパンニング方向/インデックスに関連付けることができる等距離方向を表す。あるいは、所定の方向は、例えば、オーディオアナライザによって取得されたスペクトル領域表現のスペクトル帯域に関連する方向情報を使用して決定される。一実施形態によれば、方向情報は、所定の方向を含むことができる。方向依存重み付けは、例えば、オーディオアナライザによって2つ以上の入力オーディオ信号の1つ以上のスペクトル領域表現に適用される。方向依存重み付けでは、スペクトルビンの値は、例えば、複数の所定の方向のうちの1つまたは複数の方向に関連付けられる。この方向依存重み付けは、例えば、2つ以上の入力オーディオ信号のスペクトル領域表現の各スペクトルビンが、複数の所定の方向のうちの1つ以上の異なる方向において音量情報に寄与するという考えに基づいている。各スペクトルビンは、例えば、主に1つの方向に寄与し、隣接する方向にはわずかしか寄与しないため、異なる方向に対して異なるようにスペクトルビンの値を重み付けすることが有利である。
一実施形態によれば、オーディオアナライザは、それぞれの抽出された方向値(例えば、考慮中の時間周波数ビンに関連付けられる)とそれぞれの所定の方向値との間の偏差が増加するにつれて方向依存重み付けが減少するように、ガウス関数を使用して方向依存重み付けを決定するように構成される。それぞれの抽出された方向値は、2つ以上の入力オーディオ信号におけるオーディオ成分の方向を表すことができる。抽出されたそれぞれの方向値の間隔は、完全に左への方向と完全に右への方向との間にあることができ、左および右の方向は、2つ以上の入力オーディオ信号(例えば、スピーカに面する)を知覚するユーザに関するものである。一実施形態によれば、オーディオアナライザは、抽出された各方向値を所定の方向値として、または等距離方向値を所定の方向値として決定することができる。したがって、例えば、抽出された方向に対応する1つまたは複数のスペクトルビンは、抽出された方向値に対応する所定の方向よりも重要ではないガウス関数に従って、この抽出された方向に隣接する所定の方向において重み付けされる。抽出された方向に対する所定の方向の距離が大きいほど、スペクトルビンまたはスペクトル帯域の重み付けが減少し、例えば、スペクトルビンは、対応する抽出された方向から遠く離れた位置での音量知覚にほとんどまたはまったく影響を及ぼさない。
一実施形態によれば、オーディオアナライザは、抽出された方向値としてパンニングインデックス値を決定するように構成される。パンニングインデックス値は、例えば、2つ以上の入力オーディオ信号によって生成されたステレオミックス内の音源の時間周波数成分(すなわち、スペクトルビン)の方向を一意に示す。
一実施形態によれば、オーディオアナライザは、入力オーディオ信号のスペクトル領域値に応じて抽出された方向値を決定するように構成される(例えば、入力オーディオ信号のスペクトル領域表現の値)。抽出された方向値は、例えば、入力オーディオ信号間の信号成分(例えば、時間周波数ビン)の振幅パンニングの評価に基づいて、または入力オーディオ信号の対応するスペクトル領域値の振幅間の関係に基づいて決定される。一実施形態によれば、抽出された方向値は、入力オーディオ信号のスペクトル領域値間の類似度を定義する。
一実施形態によれば、オーディオアナライザは、以下の
に従い、所定の方向(例えば、インデックス
によって表される)、時間インデックスmで指定された時間(または時間フレーム)、時間インデックスmで指定された時間、およびスペクトルビンインデックスkで指定されたスペクトルビンに関連する方向依存重み付け
を取得するように構成され、式中、
は所定の値であり(これは、例えば、ガウスウィンドウの幅を制御する)、
は時間インデックスmで指定された時間(または時間フレーム)、およびスペクトルビンインデックスkで指定されたスペクトルビンと関連付けられた抽出された方向値を指定し、
は所定の方向(例えば、方向インデックスjを有する)を指定する(または関連付けられた)方向値である。方向依存重み付けは、抽出された方向値(例えば、パンニングインデックス)の等化
(例えば、所定の方向を等しくすること)したスペクトル値またはスペクトルビンまたはスペクトル帯域が方向依存重み付けを変更せずに通過し、
からずれている抽出された方向値(例えば、パンニングインデックス)のスペクトル値またはスペクトルビンまたはスペクトル帯域が重み付けされるという考えに基づいている。一実施形態によれば、
に近い抽出された方向値のスペクトル値またはスペクトルビンまたはスペクトル帯域は重み付けされて渡され、残りの値は拒否される(例えば、さらに処理されない)。
一実施形態によれば、オーディオアナライザは、重み付けスペクトル領域表現(例えば、「方向性信号」)を得るために、2つ以上の入力オーディオ信号の1つ以上のスペクトル領域表現に方向依存重み付けを適用するように構成される。したがって、重み付けスペクトル領域表現は、例えば、許容値内の1つまたは複数の所定の方向に対応する2つ以上の入力オーディオ信号の1つまたは複数のスペクトル領域表現のスペクトルビン(すなわち、時間周波数成分)などを含む(例えば、選択された所定の方向に隣接する異なる所定の方向に関連付けられたスペクトルビンも)。一実施形態によれば、各所定の方向について、重み付けスペクトル領域表現は、方向依存重み付けによって実現することができる(例えば、重み付けスペクトル領域表現は、所定の方向に関連付けられた、および/または経時的に所定の方向の近傍の方向に関連付けられた、方向依存重み付けスペクトル値、スペクトルビンまたはスペクトル帯域を含むことができる)。あるいは、各スペクトル領域表現(例えば、2つ以上の入力オーディオ信号のうちの)について、例えば、すべての所定の方向に対して重み付けされた対応するスペクトル領域表現を表す、1つの重み付けスペクトル領域表現が得られる。
一実施形態によれば、オーディオアナライザは、第1の所定の方向(例えば、第1のパンニング方向)に関連する信号成分が、第1の重み付けスペクトル領域表現において、関連する他の方向(第1の所定の方向とは異なり、例えばガウス関数に従って減衰される)を有する信号成分よりも強調され、(第1の所定の方向とは異なる)第2の所定の方向(例えば、第2のパンニング方向)に関連する信号成分が、第2の重み付けスペクトル領域表現において、関連する他の方向(第2の所定の方向とは異なり、例えばガウス関数に従って減衰される)を有する信号成分よりも強調されるように、重み付けスペクトル領域表現を取得するように構成される。したがって、例えば、所定の方向ごとに、2つ以上の入力オーディオ信号の各信号に対する重み付けスペクトル領域表現を決定することができる。
一実施形態によれば、オーディオアナライザは、入力オーディオ信号またはインデックスiによって指定される入力オーディオ信号の組み合わせ、インデックスbによって指定されるスペクトル帯域、インデックス
によって指定される方向、時間インデックスmによって指定される時間(または時間フレーム)、およびスペクトルビンインデックスkによって指定されるスペクトルビンに関連する重み付けスペクトル領域表現
を取得するように構成され、
に従っており、入力オーディオ信号またはインデックスiによって指定される入力オーディオ信号の組み合わせ(例えば、i=Lまたはi=Rまたはi=DM;(L=左、R=右、およびDM=ダウンミックス))、インデックスbによって指定されるスペクトル帯域、時間インデックスmによって指定される時間(または時間フレーム)、およびスペクトルビンインデックスkによって指定されるスペクトルビンに関連するスペクトル領域表現を指定し、
はインデックス
によって指定される方向、時間インデックスmによって指定される時間(または時間フレーム)、およびスペクトルビンインデックスkによって指定されるスペクトルビンに関連する方向依存重み付け(例えば、ガウス関数のような重み付け関数)を指定する。したがって、重み付けスペクトル領域表現は、例えば、方向依存重み付けによって入力オーディオ信号または入力オーディオ信号の組み合わせに関連付けられたスペクトル領域表現を重み付けすることによって決定することができる。
一実施形態によれば、オーディオアナライザは、合成音量値(例えば、所与の方向またはパンニング方向、すなわち所定の方向に関連付けられている)を得るために、複数の帯域音量値(例えば、異なる周波数帯域に関連するが、同じ方向、例えば、所定の方向および/または所定の方向の近傍の方向に関連する)にわたる平均を決定するように構成される。合成音量値は、分析結果としてオーディオアナライザによって取得された音量情報を表すことができる。あるいは、分析結果としてオーディオアナライザによって取得された音量情報は、合成音量値を含むことができる。したがって、音量情報は、異なる所定の方向に関連付けられた合成音量値を含むことができ、その中から方向性音量マップを取得することができる。
一実施形態によれば、オーディオアナライザは、複数の入力オーディオ信号(例えば、2つ以上の入力オーディオ信号の組み合わせ)(例えば、重み付け結合スペクトル表現は、入力オーディオ信号に関連付けられた重み付けスペクトル領域表現を結合することができる)を表す重み付けされた合成スペクトル領域表現に基づいて、複数のスペクトル帯域(例えば、ERBバンド)の帯域音量値を取得するように構成される。さらに、オーディオアナライザは、複数の異なる方向(またはパンニング方向)について取得された帯域音量値に基づいて、複数の合成音量値(複数のスペクトル帯域をカバーする;例えば、単一のスカラ値の形式で)を分析結果として取得するように構成される。したがって、例えば、オーディオアナライザは、同じ方向に関連するすべての帯域音量値を平均して、その方向に関連する合成音量値(例えば、複数の合成音量値をもたらす)を取得するように構成される。オーディオアナライザは、例えば、所定の方向ごとに合成音量値を取得するように構成される。
一実施形態によれば、オーディオアナライザは、(それぞれの周波数帯域に関連する)帯域音量値を決定するために、周波数帯域のスペクトル値にわたる重み付け結合スペクトル領域表現(または周波数帯域のスペクトルビンにわたる)の二乗スペクトル値の平均を計算し、0と1/2との間(および好ましくは1/3または1/4以下)の指数を有する累乗演算を二乗スペクトル値の平均に適用するように構成される。
一実施形態によれば、オーディオアナライザは、
に従って、インデックスbで指定されたスペクトル帯域、インデックス
で指定された方向、時間インデックスmで指定された時間(または時間フレーム)に関連する帯域音量値
を取得するように構成される。係数K
bは、周波数帯域インデックスbを有する周波数帯域におけるスペクトルビンの数を指定する。変数kは実行変数であり、周波数帯域インデックスbを有する周波数帯域のスペクトルビンを指定し、bはスペクトル帯域を指定する。
はインデックスbで指定されたスペクトル帯域、インデックス
で指定された方向、時間インデックスmで指定された時間(または時間フレーム)、およびスペクトルビンインデックスkで指定されたスペクトルビンに関連する重み付け結合スペクトル領域表現を指定する。
一実施形態によれば、オーディオアナライザは、
に従って、インデックス
で指定された方向および時間インデックスmで指定された時間(または時間フレーム)に関連する複数の合成音量値L(m,
)を取得するように構成される。係数Bは、スペクトル帯域の総数bを指定し、
はインデックスbで指定されたスペクトル帯域、インデックス
で指定された方向、および時間インデックスmで指定された時間(または時間フレーム)に関連する帯域音量値を指定する。
一実施形態によれば、オーディオアナライザは、分析結果を得るために、方向情報に応じて異なる方向(例えば、上述したように、第2の異なる方向;例えば、所定の方向)に関連付けられたヒストグラムビンに音量寄与を割り当てるように構成される。音量寄与は、例えば、複数の合成音量値または複数の帯域音量値によって表される。したがって、例えば、分析結果は、ヒストグラムビンによって定義される方向性音量マップを含む。各ヒストグラムビンは、例えば、所定の方向のうちの1つに関連付けられる。
一実施形態によれば、オーディオアナライザは、スペクトル領域表現(例えば、T/Fタイルあたりの合成音量を取得するために)に基づいてスペクトルビンに関連する音量情報を取得するように構成される。オーディオアナライザは、所与のスペクトルビンに関連する音量情報に基づいて、1つまたは複数のヒストグラムビンに音量寄与を追加するように構成される。所与のスペクトルビンに関連付けられた音量寄与は、例えば、異なる重み(例えば、ヒストグラムビンに対応する方向に応じて)を有する異なるヒストグラムビンに追加される。1つまたは複数のヒストグラムビンに音量寄与がなされる選択(すなわち添加)は、所与のスペクトルビンの方向情報(すなわち、抽出された方向値)の決定に基づく。一実施形態によれば、各ヒストグラムビンは、時間方向タイルを表すことができる。したがって、ヒストグラムビンは、例えば、特定の時間フレームおよび方向における結合された2つ以上の入力オーディオ信号の音量に関連付けられる。所与のスペクトルビンの方向情報を決定するために、例えば、2つ以上の入力オーディオ信号のスペクトル領域表現の対応するスペクトルビンのレベル情報が分析される。
一実施形態によれば、オーディオアナライザは、所与のスペクトルビンに関連する音量情報に基づいて複数のヒストグラムビンに音量寄与を追加するように構成され、所与のスペクトルビンに関連する方向情報に対応する方向(すなわち、抽出された方向値のもの)に関連するヒストグラムビンに最大の寄与(例えば、主要な寄与)が追加され、さらなる方向(例えば、所与のスペクトルビンに関連付けられた方向情報に対応する方向の近傍において)に関連する1つまたは複数のヒストグラムビンに低減された寄与(例えば、最大の寄与または主要な寄与よりも比較的小さい)が追加される。上述したように、各ヒストグラムビンは時間方向タイルを表すことができる。一実施形態によれば、複数のヒストグラムビンは、方向性音量マップを定義することができ、方向性音量マップは、例えば、2つ以上の入力オーディオ信号の組み合わせについて経時的に異なる方向の音量を定義する。
一実施形態によれば、オーディオアナライザは、2つ以上の入力オーディオ信号のオーディオコンテンツに基づいて方向情報を取得するように構成される。方向情報は、例えば、2つ以上の入力オーディオ信号のオーディオコンテンツ内のコンポーネントまたは音源の方向を含む。言い換えれば、方向情報は、2つ以上の入力オーディオ信号のステレオミックス内の音源のパンニング方向またはパンニングインデックスを含むことができる。
一実施形態によれば、オーディオアナライザは、オーディオコンテンツの振幅パンニングの分析に基づいて方向情報を取得するように構成される。追加的または代替的に、オーディオアナライザは、2つ以上の入力オーディオ信号のオーディオコンテンツ間の位相関係および/または時間遅延および/または相関の分析に基づいて方向情報を取得するように構成される。追加的または代替的に、オーディオアナライザは、拡大された(例えば、非相関化および/またはパンニングされる)音源の識別に基づいて方向情報を取得するように構成される。オーディオコンテンツの振幅パンニングの分析は、2つ以上の入力オーディオ信号(例えば、同じレベルを有する対応するスペクトルビンを、各々が2つの入力オーディオ信号のうちの1つを伝送する2つのスピーカの中央の方向に関連付けることができる)のスペクトル領域表現の対応するスペクトルビン間のレベル相関の分析を含むことができる。同様に、オーディオコンテンツ間の位相関係および/または時間遅延および/または相関の分析を実行することができる。したがって、例えば、オーディオコンテンツ間の位相関係および/または時間遅延および/または相関が、2つ以上の入力オーディオ信号のスペクトル領域表現の対応するスペクトルビンについて分析される。追加的または代替的に、チャネル間レベル/時間差の比較とは別に、方向情報推定のためのさらなる(例えば、第3の)方法がある。この方法は、入射音のスペクトル情報を、異なる方向の頭部伝達関数(HRF)の事前に測定された「テンプレートスペクトル応答/フィルタ」と照合することにある。
例えば、特定の時間/周波数タイルでは、左右のチャネルからの35度での入力信号のスペクトル包絡線は、35度の角度で測定された左右の耳用の線形フィルタの形状に厳密に一致し得る。次に、最適化アルゴリズムまたはパターンマッチング手順は、音の到来方向を35°に割り当てる。さらなる情報は、https://iem.kug.ac.at/fileadmin/media/iem/projects/2011/baumgartner_robert.pdf(例えば、第2章を参照されたい)に見出すことができる。この方法は、水平音源に加えて上昇音源(矢状面)の到来方向を推定することを可能にするという利点を有する。この方法は、例えば、スペクトルレベルの比較に基づいている。
一実施形態によれば、オーディオアナライザは、拡散規則(例えば、ガウス拡散規則、または限定された離散拡散規則)に従って音量情報を複数の方向(例えば、方向情報によって示される方向を超えて)に拡散するように構成される。これは、例えば、特定の方向情報と関連付けられた、特定のスペクトルビンに対応する音量情報も、拡散規則に従って(スペクトルビンの特定の方向の)隣接する方向に寄与し得ることを意味する。一実施形態によれば、拡散規則は、方向依存重み付けを含むかまたはそれに対応することができ、この場合、方向依存重み付けは、例えば、特定のスペクトルビンの音量情報の複数の方向への異なる重み付け寄与を定義する。
本発明による一実施形態は、2つ以上の入力オーディオ信号の第1のセットに基づいて、異なる(例えば、パンニング)方向に関連する第1の音量情報(例えば、方向性音量マップ;例えば、1つまたは複数の合成音量値)を取得するように構成されたオーディオ類似度評価器に関する。オーディオ類似度評価器は、第1の音量情報を、異なる(例えば、パンニング)方向および2つ以上の基準オーディオ信号のセットに関連する第2の(例えば、対応する)音量情報(例えば、基準音量情報、基準方向性音量マップ、および/または基準合成音量値)と比較して、2つ以上の入力オーディオ信号の第1のセットと2つ以上の基準オーディオ信号のセットとの間の類似度を記述する(または、例えば、2つ以上の基準オーディオ信号のセットと比較したときの2つ以上の入力オーディオ信号の第1のセットの質を表す)類似度情報(例えば、「モデル出力変数」(MOV);例えば、単一のスカラ値)を取得するように構成される。
この実施形態は、2つ以上の入力オーディオ信号の方向性音量情報(例えば、第1の音量情報)を2つ以上の基準オーディオ信号の方向性音量情報(例えば、第2の音量情報)と比較することが効率的であり、オーディオの質の表示(例えば、類似度情報)の精度を改善するという考えに基づいている。異なる方向に関連付けられた音量情報の使用は、ステレオミックスまたはマルチチャネルミックスに関して特に有利である、というのも、異なる方向は、例えば、ミックス内の音源(すなわち、オーディオコンポーネント)の方向(すなわち、パンニング方向、パンニングインデックス)に関連付けることができるからである。したがって、2つ以上の入力オーディオ信号の処理された組み合わせの質の劣化を効果的に測定することができる。別の利点は、ステレオ画像またはマルチチャネル画像の音量情報が、例えば短時間フーリエ変換(STFT)領域で決定されるため、帯域幅拡張(BWE)などの非波形保存オーディオ処理が類似度情報に最小限しか影響しないか、または影響を与えないことである。さらに、音量情報に基づく類似度情報は、2つ以上の入力オーディオ信号の知覚予測を改善するために、モノラル/時間類似度情報で容易に補完することができる。したがって、例えば、モノラル質記述子に追加の1つの類似度情報のみが使用され、これにより、モノラル質記述子のみを使用する既知のシステムに関して客観的なオーディオ質測定システムによって使用される独立した関連する信号の特徴の数を減らすことができる。同じ性能に対してより少ない特徴を使用することは、過剰適合のリスクを低減し、それらのより高い知覚的関連性を示す。
一実施形態によれば、オーディオ類似度評価器は、第1の音量情報(例えば、複数の所定の方向の合成音量値を含むベクトル)が、2つ以上の入力オーディオ信号の第1のセットに関連し、それぞれの所定の方向に関連する複数の合成音量値を含むように、第1の音量情報(例えば、方向性音量マップ)を取得するように構成され、第1の音量情報の合成音量値は、それぞれの所定の方向(例えば、結合された各音量値は、異なる方向に関連付けられている)に関連する2つ以上の入力オーディオ信号の第1のセットの信号成分の音量を記述する。したがって、例えば、各合成音量値は、例えば、特定の方向に対する経時的な音量の変化を定義するベクトルによって表すことができる。これは、例えば、1つの合成音量値が、連続する時間フレームに関連する1つまたは複数の音量値を含むことができることを意味する。所定の方向は、2つ以上の入力オーディオ信号の第1のセットの信号成分のパンニング方向/パンニングインデックスによって表すことができる。したがって、例えば、所定の方向は、2つ以上の入力オーディオ信号の第1のセットによって表されるステレオまたはマルチチャネルミックスにおける方向性信号の位置決めに使用される振幅レザーパンニング技術によって事前定義することができる。
一実施形態によれば、オーディオ類似度評価器は、第1の音量情報が、それぞれの所定の方向(例えば、各合成音量値および/または重み付けスペクトル領域表現は、異なる所定の方向に関連付けられている)に関連している、2つ以上の入力オーディオ信号の第1のセットの(例えば、各オーディオ信号の)複数の重み付けスペクトル領域表現の組み合わせに関連するように、第1の音量情報(例えば、方向性音量マップ)を取得するように構成される。これは、例えば、各入力オーディオ信号について、少なくとも1つの重み付けスペクトル領域表現が計算され、次いで、同じ所定の方向に関連するすべての重み付けスペクトル領域表現が結合されることを意味する。したがって、第1の音量情報は、例えば、同じ所定の方向に関連付けられた複数のスペクトルビンに関連付けられた音量値を表す。複数のスペクトルビンの少なくともいくつかは、例えば、複数のスペクトルビンの他のビンとは異なるように重み付けされる。
一実施形態によれば、オーディオ類似度評価器は、第2の音量情報と第1の音量情報との差を決定して、残差音量情報を取得するように構成される。一実施形態によれば、残差音量情報は類似度情報を表すことができ、または類似度情報は残差音量情報に基づいて決定することができる。残差音量情報は、例えば、第2の音量情報と第1の音量情報との間の距離の尺度として理解される。したがって、残差音量情報は、方向性音量距離(例えば、DirLoudDist)として理解することができる。この特徴により、第1の音量情報に関連する2つ以上の入力オーディオ信号の質を非常に効率的に決定することができる。
一実施形態によれば、オーディオ類似度評価器は、複数の方向にわたって(また、任意に、経時的に、例えば複数のフレームにわたっても)差を定量化する値(例えば、単一のスカラ値)を決定するように構成される。オーディオ類似度評価器は、例えば、すべての方向(例えば、パンニング方向)および経時的な残差音量情報の大きさの平均を、差を定量化する値として決定するように構成される。これにより、例えば、モデル出力変数(MOV)と呼ばれる単一の数が決定され、MOVは、2つ以上の基準オーディオ信号のセットに対する2つ以上の入力オーディオ信号の第1のセットの類似度を定義する。
一実施形態によれば、オーディオ類似度評価器は、本明細書に記載の実施形態のうちの1つによるオーディオアナライザを使用して、第1の音量情報および/または第2の音量情報(例えば、方向性音量マップとして)を取得するように構成される。
一実施形態によれば、オーディオ類似度評価器は、入力オーディオ信号に関連するスピーカの位置情報を表すメタデータを使用して、異なる方向(例えば、1つまたは複数の方向性音量マップ)に関連する音量情報を取得するために使用される方向成分(例えば、方向情報)を取得するように構成される。異なる方向は、必ずしも方向成分に関連付けられていない。一実施形態によれば、方向成分は、2つ以上の入力オーディオ信号に関連付けられる。したがって、方向成分は、例えばスピーカの異なる方向または位置に専用のスピーカ識別子またはチャネル識別子を表すことができる。反対に、音量情報が関連付けられる異なる方向は、2つ以上の入力オーディオ信号によって実現されるオーディオシーンのオーディオ成分の方向または位置を表すことができる。あるいは、異なる方向は、2つ以上の入力オーディオ信号によって実現されるオーディオシーンを展開することができる位置間隔(例えば、[-1;1]であり、-1は完全に左にパンニングされた信号を表し、+1は完全に右にパンニングされた信号を表す)内の等間隔の方向または位置を表すことができる。一実施形態によれば、異なる方向は、本明細書に記載の所定の方向と関連付けることができる。方向成分は、例えば、位置間隔の境界点に対応付けられる。
本発明による一実施形態は、1つまたは複数の入力オーディオ信号(好ましくは複数の入力オーディオ信号)を含む入力オーディオコンテンツを符号化するためのオーディオエンコーダに関する。オーディオエンコーダは、1つまたは複数の入力オーディオ信号(例えば、左信号および右信号)、またはそれから導出された1つまたは複数の信号(例えば、中間信号またはダウンミックス信号およびサイド信号または差分信号)に基づいて、1つまたは複数の符号化(例えば、量子化され、次いで可逆的に符号化される)オーディオ信号(例えば、符号化されたスペクトル領域表現)を提供するように構成される。さらに、オーディオエンコーダは、符号化されるべき1つまたは複数の信号の複数の異なる方向(例えば、パンニング方向)に関連する音量情報を表す1つまたは複数の方向性音量マップに応じて(例えば、量子化されるべき1つまたは複数の信号の個々の方向性音量マップの、例えば複数の入力オーディオ信号(例えば、1つまたは複数の入力オーディオ信号の各信号)に関連付けられた全体的な方向性音量マップへの寄与に応じて)、符号化パラメータ(例えば、1つまたは複数の符号化されたオーディオ信号を提供するために、例えば、量子化パラメータ)を適合させるように構成される。
1つの入力オーディオ信号を含むオーディオコンテンツをモノラルオーディオシーンに関連付けることができ、2つの入力オーディオ信号を含むオーディオコンテンツをステレオオーディオシーンに関連付けることができ、3つ以上の入力オーディオ信号を含むオーディオコンテンツをマルチチャネルオーディオシーンに関連付けることができる。一実施形態によれば、オーディオエンコーダは、各入力オーディオ信号に対して、出力信号として別個の符号化オーディオ信号を提供するか、または2つ以上の入力オーディオ信号のうちの2つ以上の符号化オーディオ信号を含む1つの結合出力信号を提供する。
符号化パラメータの適合が依存する方向性音量マップ(すなわち、DirLoudMap)は、異なるオーディオコンテンツに対して変化し得る。したがって、モノラルオーディオシーンの場合、方向性音量マップは、例えば、0から外れる(唯一の入力オーディオ信号に基づく)1つの方向音量値のみを含み、例えば、0に等しい他のすべての方向音量値を含む。ステレオオーディオシーンの場合、方向性音量マップは、例えば、両方の入力オーディオ信号に関連する音量情報を表し、異なる方向は、例えば、2つの入力オーディオ信号のオーディオ成分の位置または方向に関連する。3つ以上の入力オーディオ信号の場合、符号化パラメータの適合は、例えば、3つ以上の方向性音量マップに依存し、各方向性音量マップは、3つの入力オーディオ信号のうちの2つに関連する音量情報に対応する(例えば、第1のDirLoudMapは、第1および第2の入力オーディオ信号に対応することができ、第2のDirLoudMapは、第1および第3の入力オーディオ信号に対応することができ、第3のDirLoudMapは、第2および第3の入力オーディオ信号に対応することができる)。ステレオオーディオシーンに関して説明したように、方向性音量マップの異なる方向は、例えばマルチチャネルオーディオシーンの場合、複数の入力オーディオ信号のオーディオ成分の位置または方向に関連付けられる。
このオーディオエンコーダの実施形態は、符号化パラメータの1つまたは複数の方向性音量マップへの適合に依存することが効率的であり、符号化の精度を改善するという考えに基づいている。符号化パラメータは、例えば、1つまたは複数の入力オーディオ信号に関連付けられた方向性音量マップと、1つまたは複数の基準オーディオ信号に関連付けられた方向性音量マップとの差に応じて適合される。一実施形態によれば、すべての入力オーディオ信号の組み合わせおよびすべての基準オーディオ信号の組み合わせの全体的な方向性音量マップが比較され、あるいは、個々のまたは対の信号の方向性音量マップがすべての入力オーディオ信号の全体的な方向性音量マップと比較される(例えば、2つ以上の差を決定することができる)。DirLoudMaps間の差は、符号化の質の尺度を表すことができる。したがって、符号化パラメータは、例えば、オーディオコンテンツの高い質の符号化を保証するために、差が最小化されるように適合され、または符号化パラメータは、符号化の複雑度を低減するために、特定の閾値未満の差に対応するオーディオコンテンツの信号のみが符号化されるように適合される。あるいは、符号化パラメータは、例えば、個々の信号DirLoudMapsまたは信号対DirLoudMapsと全体DirLoudMap(例えば、すべての入力オーディオ信号の組み合わせに関連付けられたDirLoudMap)との比(例えば、寄与)に応じて適合される。この比率は、オーディオコンテンツの個々の信号間もしくは信号対間、または個々の信号間、およびオーディオコンテンツのすべての信号の組み合わせもしくは信号対、およびオーディオコンテンツのすべての信号の組み合わせの類似度を示すことができ、その結果、高い質の符号化および/または符号化の複雑度の低減をもたらす。
一実施形態によれば、オーディオエンコーダは、符号化される1つまたは複数の信号および/またはパラメータ(または、例えば、符号化される2つ以上の信号および/またはパラメータの間)の個々の方向性音量マップの寄与に応じて、符号化される1つまたは複数の信号および/またはパラメータ間(例えば、残差信号とダウンミックス信号との間、または左チャネル信号と右チャネル信号との間、または複数の信号のジョイント符号化によって提供される2つ以上の信号の間、または複数の信号のジョイント符号化によって提供されるパラメータと信号との間)のビット分布を、全体的な方向性音量マップに適合させるように構成される。ビット分布の適合は、例えば、オーディオエンコーダによる符号化パラメータの適合として理解される。ビット分布は、ビットレート分布と理解することもできる。ビット分布は、例えば、オーディオエンコーダの1つまたは複数の入力オーディオ信号の量子化精度を制御することによって適合される。一実施形態によれば、高い寄与は、オーディオコンテンツによって生成されたオーディオシーンの高い質知覚のための対応する入力オーディオ信号または入力オーディオ信号対の高い関連性を示すことができる。したがって、例えば、オーディオエンコーダは、寄与の高い信号には多くのビットを提供し、寄与の低い信号にはほとんどまたはまったくビットを提供しないように構成することができる。これにより、効率的で高質な符号化を実現することができる。
一実施形態によれば、オーディオエンコーダは、符号化されるべき信号のうちの所与の1つの個々の方向性音量マップ(例えば、残差信号)の全体的な方向性音量マップへの寄与が(例えば、所定の)閾値を下回るとき、符号化されるべき信号のうちの所与の一方の符号化を無効にする(例えば、残差信号)ように構成される。例えば、平均比または最大相対寄与の方向の比が閾値を下回る場合、符号化は無効にされる。代替的または追加的に、信号対(例えば、信号対の個々の方向性音量マップ(例えば、信号対として、2つの信号の組み合わせを理解することができる。例えば、信号対として、異なるチャネルおよび/または残差信号および/またはダウンミックス信号に関連する信号の組み合わせを理解することができる。))の方向性音量マップの全体的な方向性音量マップへの寄与をエンコーダによって使用して、信号の所与の1つ(例えば、符号化される3つの信号について、上述したように、信号対の3つの方向性音量マップを、全体的な方向性音量マップに関して分析することができる。したがって、エンコーダは、全体的な方向性音量マップへの寄与が最も高い信号対を決定し、この2つの信号のみを符号化し、残りの信号の符号化を無効にするように構成することができる。)の符号化を無効にすることができる。信号の符号化の無効化は、例えば、符号化パラメータの適合として理解される。したがって、聴取者によるオーディオコンテンツの知覚にあまり関連しない信号は、符号化される必要がなく、非常に効率的な符号化がもたらされる。一実施形態によれば、閾値は、全体的な方向性音量マップの音量情報の5%、10%、15%、20%、または50%以下に設定することができる。
一実施形態によれば、オーディオエンコーダは、符号化されるべき(それぞれの)1つまたは複数の信号の個々の方向性音量マップの全体的な方向性音量マップへの寄与に応じて、(例えば、残差信号とダウンミックス信号との間で)符号化されるべき1つまたは複数の信号の量子化精度を適合させるように構成される。代替的または追加的に、上述の無効化と同様に、全体的な方向性音量マップへの信号対の方向性音量マップの寄与は、符号化される1つまたは複数の信号の量子化精度を適合させるためにエンコーダによって使用されることができる。量子化精度の適合は、オーディオエンコーダによる符号化パラメータを適合させるための一例として理解することができる。
一実施形態によれば、オーディオエンコーダは、1つまたは複数の入力オーディオ信号(例えば、左信号および右信号:例えば、1つまたは複数の入力オーディオ信号は、例えば、複数の異なるチャネルに対応する。したがって、オーディオエンコーダは、マルチチャネル入力を受信する)、またはそこから導出された1つまたは複数の信号(例えば、中間信号またはダウンミックス信号およびサイド信号または差分信号)のスペクトル領域表現を、1つまたは複数の量子化されたスペクトル領域表現を取得するために、1つまたは複数の量子化パラメータ(例えば、どの量子化精度または量子化ステップが量子化されるべき1つまたは複数の信号のどのスペクトルビンまたは周波数帯域に適用されるべきかを記述するスケール係数またはパラメータ)を使用して、量子化するように構成される。オーディオエンコーダは、量子化されるべき1つまたは複数の信号の複数の異なる方向(例えば、パンニング方向)に関連する音量情報を表す1つまたは複数の方向性音量マップに応じて、1つまたは複数の符号化されたオーディオ信号の提供に(例えば、量子化されるべき1つまたは複数の信号の個々の方向性音量マップの、例えば複数の入力オーディオ信号(例えば、1つまたは複数の入力オーディオ信号の各信号)に関連付けられた全体的な方向性音量マップへの寄与に応じて)適合させるように、1つまたは複数の量子化パラメータを(例えば、符号化されるべき1つまたは複数の信号間のビット分布を適合させるために)調整するよう構成される。さらに、オーディオエンコーダは、1つまたは複数の符号化されたオーディオ信号を得るために、1つまたは複数の量子化されたスペクトル領域表現を符号化するように構成される。
一実施形態によれば、オーディオエンコーダは、量子化されるべき1つまたは複数の信号の個々の方向性音量マップの全体的な方向性音量マップへの寄与に応じて、1つまたは複数の量子化パラメータを調整するように構成される。
一実施形態によれば、オーディオエンコーダは、入力オーディオ信号に基づいて全体的な方向性音量マップを決定するように構成され、その結果、全体的な方向性音量マップは、入力オーディオ信号によって表される(または、例えばデコーダ側レンダリングの後に表現されるべきである)オーディオシーンの異なる方向(例えば、オーディオコンポーネント;例えば、パンニング方向)に関連する音量情報を表す(場合によっては、スピーカの位置に関する知識またはサイド情報および/またはオーディオオブジェクトの位置を記述する知識またはサイド情報と組み合わせて)。全体的な方向性音量マップは、例えば、すべての入力オーディオ信号に関連する(例えば組み合わせた)音量情報を表す。
一実施形態によれば、量子化されるべき1つまたは複数の信号は、異なる方向(例えば、第1の異なる方向)に関連付けられ(例えば、固定された、信号に依存しない方法で)、または異なるスピーカに関連付けられ(例えば、異なる所定のスピーカ位置において)、または異なるオーディオオブジェクト(例えば、パンニングインデックスなどの、例えばオブジェクトレンダリング情報に従って異なる位置にレンダリングされるオーディオオブジェクトなど)に関連付けられる。
一実施形態によれば、量子化される信号は、2つ以上の入力オーディオ信号のジョイントマルチ信号コーディングの成分、例えば、中間サイドステレオコーディングの中間信号およびサイド信号を備える。
一実施形態によれば、オーディオエンコーダは、ジョイントマルチ信号コーディングの残差信号の全体的な方向性音量マップへの寄与を推定し、それに応じて1つまたは複数の量子化パラメータを調整するように構成される。推定された寄与は、例えば、残差信号の方向性音量マップの全体的な方向性音量マップへの寄与によって表される。
一実施形態によれば、オーディオエンコーダは、異なるスペクトルビンに対して個別に、または異なる周波数帯域に対して個別に符号化されるべき1つまたは複数の信号および/またはパラメータ間のビット分布を適合させるように構成される。追加的または代替的に、オーディオエンコーダは、異なるスペクトルビンに対して個別に、または異なる周波数帯域に対して個別に符号化されるべき1つまたは複数の信号の量子化精度を適合させるように構成される。量子化精度の適合により、オーディオエンコーダは、例えば、ビット分布も適合するように構成される。したがって、オーディオエンコーダは、例えば、オーディオエンコーダによって符号化されるべきオーディオコンテンツの1つまたは複数の入力オーディオ信号間のビット分布を適合させるように構成される。追加的または代替的に、符号化されるパラメータ間のビット分布が適合される。ビット分布の適合は、異なるスペクトルビンに対して個別に、または異なる周波数帯域に対して個別に、オーディオエンコーダによって実行することができる。一実施形態によれば、信号とパラメータとの間のビット分布が適合されることも可能である。言い換えれば、オーディオエンコーダによって符号化されるべき1つまたは複数の信号の各信号は、異なるスペクトルビンおよび/または異なる周波数帯域(例えば、対応する信号のもの)に対する個々のビット分布を含むことができ、符号化されるべき1つまたは複数の信号の各々に対するこの個々のビット分布は、オーディオエンコーダによって適合されることができる。
一実施形態によれば、オーディオエンコーダは、符号化されるべき2つ以上の信号間の空間マスキングの評価に応じて、符号化されるべき1つ以上の信号および/またはパラメータ(例えば、スペクトルビンごとまたは周波数帯域ごとに個別に)間のビット分布を適合させるように構成される。さらに、オーディオエンコーダは、符号化されるべき2つ以上の信号に関連付けられた方向性音量マップに基づいて空間マスキングを評価するように構成される。これは、例えば、方向性音量マップが空間的および/または時間的に分解されるという考えに基づいている。したがって、例えば、マスクされた信号にはわずかなビットしか費やされず、またはまったく費やされず、関連する信号または信号成分(例えば、他の信号または信号成分によってマスクされていない信号または信号成分)の符号化にはより多くのビット(例えば、マスクされた信号よりも多く)が費やされる。一実施形態によれば、空間マスキングは、例えば、符号化される2つ以上の信号のスペクトルビンおよび/または周波数帯域に関連するレベル、スペクトルビンおよび/または周波数帯域間の空間距離、および/またはスペクトルビンおよび/または周波数帯域間の時間距離に依存する。方向性音量マップは、個々の信号または信号の組み合わせ(例えば、信号対)の個々のスペクトルビンおよび/または周波数帯域の音量情報を直接提供することができ、エンコーダによる空間マスキングの効率的な分析をもたらす。
一実施形態によれば、オーディオエンコーダは、符号化されるべき第1の信号の第1の方向に関連する音量寄与のマスキング効果を、符号化されるべき第2の信号の、第1の方向とは異なる第2の方向に関連する音量寄与に対して評価するように構成される(例えば、マスキング効果は、角度の差が大きくなるにつれて減少する)。マスキング効果は、例えば、空間マスキングの関連性を規定する。これは、例えば、閾値よりも低いマスキング効果に関連する音量寄与の場合、閾値よりも高いマスキング効果に関連する信号(例えば、空間的にマスクされた信号)よりも多くのビットが費やされることを意味する。一実施形態によれば、閾値は、全マスキングの20%、50%、60%、70%または75%のマスキングとして定義することができる。これは、例えば、隣接するスペクトルビンまたは周波数帯域のマスキング効果が、方向性音量マップの音量情報に応じて評価されることを意味する。
一実施形態によれば、オーディオエンコーダは、本明細書に記載の実施形態のうちの1つによるオーディオアナライザを備え、異なる方向に関連付けられた音量情報(例えば、「方向性音量マップ」)は、方向性音量マップを形成する。
一実施形態によれば、オーディオエンコーダは、エンコーダによって導入されたノイズ(例えば、量子化ノイズ)を1つまたは複数の方向性音量マップに応じて適合させるように構成される。したがって、例えば、符号化されるべき1つまたは複数の信号の1つまたは複数の方向性音量マップは、エンコーダによって1つまたは複数の基準信号の1つまたは複数の方向性音量マップと比較することができる。この比較に基づいて、オーディオエンコーダは、例えば、導入されたノイズを示す差を評価するように構成される。ノイズは、オーディオエンコーダによって実行される量子化の適合によって適合させることができる。
一実施形態によれば、オーディオエンコーダは、所与の符号化されていない入力オーディオ信号(または所与の符号化されていない入力オーディオ信号対)に関連付けられた方向性音量マップと、所与の入力オーディオ信号(または所与の入力オーディオ信号対)の符号化バージョンによって達成可能な方向性音量マップとの間の偏差を、所与の符号化オーディオ信号(または所与の符号化オーディオ信号対)の提供を適合させるための基準(例えば、目標基準)として使用するように構成される。以下の例は、1つの所与の非符号化入力オーディオ信号についてのみ説明されるが、それらが所与の非符号化入力オーディオ信号対にも適用可能であることは明らかである。所与の符号化されていない入力オーディオ信号に関連付けられた方向性音量マップは、関連付けられることができ、または基準方向性音量マップを表すことができる。したがって、基準方向性音量マップと所与の入力オーディオ信号の符号化バージョンの方向性音量マップとの間の偏差は、エンコーダによって導入されたノイズを示すことができる。ノイズを低減するために、オーディオエンコーダは、高質の符号化されたオーディオ信号を提供するために、符号化パラメータを適合させて偏差を低減するように構成することができる。これは、例えば、偏差ごとに制御するフィードバックループによって実現される。したがって、符号化パラメータは、偏差が所定の閾値を下回るまで適合される。一実施形態によれば、閾値は、5%、10%、15%、20%または25%の偏差として定義することができる。あるいは、エンコーダによる適合は、ニューラルネットワーク(例えば、フィードフォワードループの達成)を用いて行われる。ニューラルネットワークを用いて、所与の入力オーディオ信号の符号化バージョンの方向性音量マップを、オーディオエンコーダまたはオーディオアナライザによって直接決定することなく推定することができる。これにより、非常に高速かつ高精度なオーディオコーディングを実現することができる。
一実施形態によれば、オーディオエンコーダは、符号化されるべき1つまたは複数の信号の複数の異なる方向に関連する音量情報を表す1つまたは複数の方向性音量マップに応じて、ジョイントコーディングツール(例えば、入力オーディオ信号、または入力オーディオ信号から導出された信号のうちの2つ以上を一緒に符号化する)(例えば、M/S(中間/サイド信号)のオン/オフを決定する)を起動および停止するように構成される。ジョイントコーディングツールをアクティブ化または非アクティブ化するために、オーディオエンコーダを、各信号または各候補信号対の方向性音量マップの、シーン全体の全体的な方向性音量マップへの寄与を決定するように構成することができる。一実施形態によれば、閾値よりも高い寄与(例えば、少なくとも10%または少なくとも20%または少なくとも30%または少なくとも50%の寄与)は、入力オーディオ信号のジョイントコーディングが妥当であるかどうかを示す。例えば、閾値は、主に無関係な対を除外するために、このユースケースに対して比較的低く(例えば、他の使用事例よりも低く)てもよい。方向性音量マップに基づいて、オーディオエンコーダは、信号のジョイント符号化がより効率的なおよび/またはビュービット高解像度符号化をもたらすかどうかをチェックすることができる。
一実施形態によれば、オーディオエンコーダは、符号化されるべき1つまたは複数の信号の複数の異なる方向に関連する音量情報を表す1つまたは複数の方向性音量マップに応じて、ジョイントコーディングツール(例えば、入力オーディオ信号、または入力オーディオ信号から導出された信号のうちの2つ以上を一緒に符号化する)の1つ以上のパラメータを決定するように構成される(例えば、周波数依存予測係数の平滑化を制御するために、例えば、「強度ステレオ」ジョイントコーディングツールのパラメータを設定するために)。1つまたは複数の方向性音量情報マップは、例えば、所定の方向および時間フレームにおける音量に関する情報を含む。したがって、例えば、オーディオエンコーダは、前の時間フレームの音量情報に基づいて現在の時間フレームの1つまたは複数のパラメータを決定するように構成される。方向性音量マップに基づいて、マスキング効果を非常に効率的に分析することができ、1つまたは複数のパラメータによって示すことができ、それによって、予測サンプル値が(符号化される信号に関連する)元のサンプル値に近くなるように、周波数依存予測係数を1つまたは複数のパラメータに基づいて決定することができる。したがって、エンコーダは、符号化される信号ではなくマスキング閾値の近似値を表す周波数依存予測係数を決定することが可能である。さらに、方向性音量マップは、例えば、心理音響モデルに基づいており、それによって、1つまたは複数のパラメータに基づく周波数依存予測係数の決定がさらに改善され、非常に正確な予測をもたらすことができる。あるいは、ジョイントコーディングツールのパラメータは、例えば、どの信号または信号対がオーディオエンコーダによって一緒に符号化されるべきかを定義する。オーディオエンコーダは、例えば、符号化される信号または符号化される信号の信号対に関連する各方向性音量マップの全体的な方向性音量マップへの寄与に基づいて1つまたは複数のパラメータの決定を行うように構成される。したがって、例えば、1つまたは複数のパラメータは、最大の寄与または閾値(例えば、上記の閾値の定義を参照されたい)以上の寄与を有する個々の信号および/または信号対を示す。1つまたは複数のパラメータに基づいて、オーディオエンコーダは、例えば、1つまたは複数のパラメータによって示される信号を一緒に符号化するように構成される。あるいは、例えば、それぞれの方向性音量マップにおいて高い近接度/類似度を有する信号対は、ジョイントコーディングツールの1つまたは複数のパラメータによって示すことができる。選択された信号対は、例えば、ダウンミックスによって一緒に表される。したがって、一緒に符号化されるべき信号のダウンミックス信号または残差信号は非常に小さいので、符号化に必要なビットは最小化または低減される。
一実施形態によれば、オーディオエンコーダは、1つまたは複数の符号化信号の、1つまたは複数の符号化された信号の方向性音量マップに対する提供を制御する1つまたは複数の制御パラメータの変動の影響を決定または推定し、影響の決定または推定に応じて1つまたは複数の制御パラメータを調整するように構成される。1つまたは複数の符号化信号の方向性音量マップに対する制御パラメータの影響は、オーディオエンコーダの符号化による誘導雑音(例えば、量子化位置に関する制御パラメータを調整することができる)の尺度、オーディオの歪みの尺度、および/または聴取者の知覚の質低下の尺度を含むことができる。一実施形態によれば、制御パラメータは符号化パラメータによって表すことができ、または符号化パラメータは制御パラメータを含むことができる。
一実施形態によれば、オーディオエンコーダは、入力オーディオ信号に関連付けられたスピーカの位置情報を表すメタデータを使用して、1つまたは複数の方向性音量マップを取得するために使用される方向成分(例えば、方向情報)を取得するように構成される(この概念は、他のオーディオエンコーダでも使用することができる)。方向成分は、例えば、入力オーディオ信号に関連付けられた異なるチャネルまたはスピーカに関連付けられた、本明細書に記載の第1の異なる方向によって表される。一実施形態によれば、方向成分に基づいて、取得された1つまたは複数の方向性音量マップは、入力オーディオ信号および/または同じ方向成分を有する入力オーディオ信号の信号対に関連付けることができる。したがって、例えば、方向性音量マップはインデックスLを有することができ、入力オーディオ信号はインデックスLを有することができ、Lは左チャネルまたは左スピーカ用の信号を示す。あるいは、方向成分は、第1のチャネルおよび第3のチャネルの入力オーディオ信号の組み合わせを示す(1,3)のようなベクトルによって表すことができる。したがって、インデックス(1,3)を有する方向性音量マップは、この信号対に関連付けることができる。一実施形態によれば、各チャネルを異なるスピーカに関連付けることができる。
本発明による一実施形態は、1つまたは複数の入力オーディオ信号(好ましくは複数の入力オーディオ信号)を含む入力オーディオコンテンツを符号化するためのオーディオエンコーダに関する。オーディオエンコーダは、2つ以上の入力オーディオ信号(例えば、左信号および右信号)に基づき、またはそれから導出された2つ以上の信号に基づき、一緒に符号化されるべき2つ以上の信号のジョイント符号化(例えば、中間信号またはダウンミックス信号とサイド信号または差分信号とを使用して(例えば、中間信号またはダウンミックス信号およびサイド信号または差分信号)、1つまたは複数の符号化(例えば、量子化され、次いで可逆的に符号化される)オーディオ信号(例えば、符号化されたスペクトル領域表現)を提供するよう構成される。さらに、オーディオエンコーダは、候補信号または候補信号の対(例えば、候補信号の個々の方向性音量マップの、例えば複数の入力オーディオ信号(例えば、1つまたは複数の入力オーディオ信号の各信号)に関連付けられた全体的な方向性音量マップ(例えば、すべての入力オーディオ信号に関連付けられた)への寄与に応じて、または候補信号の対の方向性音量マップの、全体的な方向性音量マップへの寄与に応じて)の複数の異なる方向(例えば、パンニング方向)に関連する音量情報を表す方向性音量マップに応じて、複数の候補信号の中から、または複数の候補信号の対の中から(例えば、2つ以上の入力オーディオ信号から、または、2つ以上の入力オーディオ信号から導出される2つ以上の信号から)一緒に符号化される信号を選択するよう構成される。
一実施形態によれば、オーディオエンコーダは、ジョイント符号化をアクティブ化および非アクティブ化するように構成することができる。したがって、例えば、オーディオコンテンツが1つの入力オーディオ信号のみを含む場合、ジョイント符号化は非アクティブ化され、オーディオコンテンツが2つ以上の入力オーディオ信号を含む場合にのみアクティブ化される。したがって、オーディオエンコーダを用いて、モノラル・オーディオ・コンテンツ、ステレオ・オーディオ・コンテンツ、および/または3つ以上の入力オーディオ信号(すなわち、マルチチャネルオーディオコンテンツ)を含むオーディオコンテンツを符号化することが可能である。一実施形態によれば、オーディオエンコーダは、各入力オーディオ信号に対して、出力信号(例えば、1つの単一入力オーディオ信号のみを含むオーディオコンテンツに適している)として別個の符号化オーディオ信号を提供するか、または2つ以上の入力オーディオ信号のうちの2つ以上の符号化オーディオ信号を含む1つの結合出力信号(例えば、一緒に符号化された信号)を提供する。
このオーディオエンコーダの実施形態は、方向性音量マップに基づいてジョイント符号化することが効率的であり、符号化の精度を改善するという考えに基づいている。方向性音量マップの使用は、聴取者によるオーディオコンテンツの知覚を示すことができ、したがって、特にジョイント符号化との関連において、符号化されたオーディオコンテンツのオーディオの質を改善することができるので、有利である。例えば、方向性音量マップを分析することによって、一緒に符号化される信号対の選択を最適化することが可能である。方向性音量マップの分析は、例えば、無視できる(例えば、聴取者の知覚にほとんど影響を与えない信号)信号または信号対に関する情報を与え、オーディオエンコーダによる符号化されたオーディオコンテンツ(例えば、2つ以上の符号化信号を含む)に必要な少量のビットをもたらす。これは、例えば、それらのそれぞれの方向性音量マップの全体的な方向性音量マップへの寄与が低い信号を無視できることを意味する。あるいは、分析は、高い類似度(例えば、類似の方向性音量マップを有する信号)を有する信号を示すことができ、それによって、例えば、ジョイント符号化によって残差信号を最適化することができる。
一実施形態によれば、オーディオエンコーダは、候補信号の個々の方向性音量マップの全体的な方向性音量マップへの寄与に応じて、または候補信号の対の方向性音量マップの全体的な方向性音量マップへの寄与に応じて、複数の候補信号から、または候補信号の複数の対から、合同で符号化される信号を選択するように構成される(例えば、複数の入力オーディオ信号(例えば、1つまたは複数の入力オーディオ信号の各信号)と関連付けられる)(または、例えば、入力オーディオ信号によって表される、全体的な(オーディオ)シーンに関連付けられる)。全体的な方向性音量マップは、例えば、入力オーディオ信号によって表される(または、例えばデコーダ側レンダリングの後に表現されるべきである)オーディオシーンの異なる方向(例えば、オーディオコンポーネント)に関連する音量情報を表す(場合によっては、スピーカの位置に関する知識またはサイド情報および/またはオーディオオブジェクトの位置を記述する知識またはサイド情報と組み合わせて)。
一実施形態によれば、オーディオエンコーダは、候補信号の対の全体的な方向性音量マップへの寄与を決定するように構成される。さらに、オーディオエンコーダは、全体的な方向性音量マップに対する候補信号の対の寄与を決定するように構成され、オーディオエンコーダは、ジョイント符号化のための全体的な方向性音量マップへの最大の寄与を有する候補信号の1つまたは複数の対を選択するように構成され、あるいはオーディオエンコーダは、ジョイント符号化のための所定の閾値よりも大きい全体的な方向性音量マップへの寄与(例えば、少なくとも60%、70%、80%または90%の寄与)を有する候補信号の1つまたは複数の対を選択するように構成される。最大の寄与に関して、1対の候補信号のみが最大の寄与を有することが可能であるが、2対以上の候補信号が同じ寄与を有することも可能であり、これは最大の寄与を表し、または2対以上の候補信号が最大の寄与の小さな分散内で同様の寄与を有する。したがって、オーディオエンコーダは、例えば、ジョイント符号化のために2つ以上の信号または信号対を選択するように構成される。この実施形態に記載された特徴により、改善されたジョイント符号化のための関連する信号対を見つけること、および、聴取者による符号化されたオーディオコンテンツの知覚に大量に影響を与えない信号または信号対を破棄することが可能である。
一実施形態によれば、オーディオエンコーダは、2つ以上の候補信号(例えば、信号対に関連付けられた方向性音量マップ)の個々の方向性音量マップを決定するように構成される。さらに、オーディオエンコーダは、2つ以上の候補信号の個々の方向性音量マップを比較し、比較の結果(例えば、その個々の音量マップが最大類似度または類似度閾値より高い類似度を含む候補信号(例えば、信号対、信号トリプレット、信号クワドルプレットなど)が、ジョイント符号化のために選択されるように)に応じてジョイント符号化のための候補信号の2つ以上を選択するように構成される。したがって、例えば、符号化されたオーディオコンテンツの高い質を維持する残差信号(例えば、中間チャネルに対するサイドチャネル)に対してわずかなビットしか費やされないか、またはまったく費やされない。
一実施形態によれば、オーディオエンコーダは、入力オーディオ信号のダウンミックスを使用して、および/または入力オーディオ信号のバイノーラル化を使用して、全体的な方向性音量マップを決定するように構成される。ダウンミックスまたはバイノーラル化は、例えば、方向(例えば、それぞれの入力オーディオ信号のためのチャネルまたはスピーカとの関連付け)を想定している。全体的な方向性音量マップは、すべての入力オーディオ信号によって作成されたオーディオシーンに対応する音量情報に関連付けることができる。
本発明による一実施形態は、1つまたは複数の入力オーディオ信号(好ましくは複数の入力オーディオ信号)を含む入力オーディオコンテンツを符号化するためのオーディオエンコーダに関する。オーディオエンコーダは、2つ以上の入力オーディオ信号(例えば、左信号および右信号)に基づき、またはそれから導出された2つ以上の信号に基づいて、1つまたは複数の符号化(例えば、量子化され、次いで可逆的に符号化される)オーディオ信号(例えば、符号化されたスペクトル領域表現)を提供するよう構成される。さらに、オーディオエンコーダは、入力オーディオ信号に基づいて全体的な方向性音量マップ(例えば、シーンの目標方向性音量マップ)を決定すること、および/または個々の入力オーディオ信号に関連付けられる(または、信号対のような2つ以上の入力オーディオ信号に関連付けられる)1つまたは複数の個々の方向性音量マップを決定するよう構成される。さらに、オーディオエンコーダは、全体的な方向性音量マップおよび/または1つまたは複数の個々の方向性音量マップをサイド情報として符号化するように構成される。
したがって、例えば、オーディオコンテンツがただ1つの入力オーディオ信号を含む場合、オーディオエンコーダは、対応する個々の方向性音量マップと共にこの信号のみを符号化するように構成される。オーディオコンテンツが2つ以上の入力オーディオ信号を含む場合、オーディオエンコーダは、例えば、すべてまたは少なくともいくつかの(例えば、1つの個別信号および3つの入力オーディオ信号の1つの信号対)信号をそれぞれの方向性音量マップ(例えば、個々の符号化信号の個々の方向性音量マップ、および/または信号対もしくは3つ以上の信号の他の組み合わせに対応する方向性音量マップ、および/またはすべての入力オーディオ信号に関連付けられた全体的な方向性音量マップ)と共に個別に符号化するように構成される。一実施形態によれば、オーディオエンコーダは、例えば、出力(例えば、2つ以上の入力オーディオ信号のうちの2つ以上の符号化オーディオ信号を含む1つの結合出力信号(例えば、一緒に符号化された信号))としての全体的な方向性音量マップと共に、1つの符号化されたオーディオ信号をもたらすすべてまたは少なくともいくつかの信号を符号化するように構成される。したがって、オーディオエンコーダを用いて、モノラル・オーディオ・コンテンツ、ステレオ・オーディオ・コンテンツ、および/または3つ以上の入力オーディオ信号(すなわち、マルチチャネルオーディオコンテンツ)を含むオーディオコンテンツを符号化することが可能である。
このオーディオエンコーダの実施形態は、聴取者によるオーディオコンテンツの知覚を示し、したがって符号化されたオーディオコンテンツのオーディオの質を改善することができるので、1つまたは複数の方向性音量マップを決定および符号化することが有利であるという考えに基づいている。一実施形態によれば、1つまたは複数の方向性音量マップは、例えば、1つまたは複数の方向性音量マップに基づいて符号化パラメータを適合させることによって、符号化を改善するためにエンコーダによって使用することができる。したがって、1つまたは複数の方向性音量マップの符号化は、符号化の影響に関する情報を表すことができるため、特に有利である。オーディオエンコーダによって提供される符号化されたオーディオコンテンツ内のサイド情報として1つまたは複数の方向性音量マップを用いると、符号化に関する情報がオーディオエンコーダによって(例えば、データストリームにおいて)提供されるので、非常に正確な復号化を達成することができる。
一実施形態によれば、オーディオエンコーダは、入力オーディオ信号に基づいて全体的な方向性音量マップを決定するように構成され、その結果、全体的な方向性音量マップは、入力オーディオ信号によって表される(または、例えばデコーダ側レンダリングの後に表現されるべきである)オーディオシーンの異なる方向(例えば、オーディオコンポーネント)に関連する音量情報を表す(場合によっては、スピーカの位置に関する知識またはサイド情報および/またはオーディオオブジェクトの位置を記述する知識またはサイド情報と組み合わせて)。オーディオシーンの異なる方向は、例えば、本明細書に記載の第2の異なる方向を表す。
一実施形態によれば、オーディオエンコーダは、全体的な方向性音量マップを、異なる方向に関連付けられた(例えば、スカラ)値のセットの形態で(好ましくは複数の周波数ビンまたは周波数帯域で)符号化するように構成される。全体的な方向性音量マップが値のセットの形式で符号化される場合、特定の方向に関連する値は、複数の周波数ビンまたは周波数帯域の音量情報を含むことができる。あるいは、オーディオエンコーダは、中心位置値(例えば、所与の周波数ビンまたは周波数帯域に対して全体的な方向性音量マップの最大値が発生する角度またはパンニングインデックスを記述する)および勾配情報(例えば、角度方向またはパンニングインデックス方向における全体的な方向性音量マップの値の勾配を記述する1つまたは複数のスカラ値)を使用して全体的な方向性音量マップを符号化するように構成される。中心位置値および勾配情報を使用した全体的な方向性音量マップの符号化は、異なる所与の周波数ビンまたは周波数帯域に対して実行することができる。したがって、例えば、全体的な方向性音量マップは、2つ以上の周波数ビンまたは周波数帯域の中心位置値の情報および勾配情報を含むことができる。あるいは、オーディオエンコーダは、全体的な方向性音量マップを多項式表現の形式で符号化するように構成されるか、またはオーディオエンコーダは、全体的な方向性音量マップをスプライン表現の形式で符号化するように構成される。多項式表現またはスプライン表現の形態での全体的な方向性音量マップの符号化は、費用効率の高い符号化である。これらの特徴は、全体的な方向性音量マップに関して説明されているが、この符号化は、個々の方向性音量マップ(例えば、個々の信号、信号対、および/または3つ以上の信号のグループ)に対しても実行することができる。したがって、これらの特徴により、方向性音量マップは非常に効率的に符号化され、符号化の基礎となる情報が提供される。
一実施形態によれば、オーディオエンコーダは、複数の入力オーディオ信号および全体的な方向性音量マップに基づいて得られる1つ(例えば、1のみ)のダウンミックス信号を符号化(例えば、符号化されたオーディオ表現に送信または含める)するように構成される。あるいは、オーディオエンコーダは、複数の信号(例えば、入力オーディオ信号または入力オーディオ信号から導出された信号)を符号化し(例えば、符号化されたオーディオ表現に送信し、または含め)、符号化される複数の信号(例えば、個々の信号および/または信号対および/または3つ以上の信号のグループの方向性音量マップ)の個々の方向性音量マップを符号化する(例えば、符号化されたオーディオ表現を送信する、または含める)ように構成される。あるいは、オーディオエンコーダは、全体的な方向性音量マップ、複数の信号、例えば入力オーディオ信号またはそれから導出される信号、および全体的な方向性音量マップに符号化される寄与、例えば信号の相対寄与を記述する(例えば、相対的)パラメータを符号化する(例えば、符号化されたオーディオ表現に送信または含める)ように構成される。一実施形態によれば、寄与を記述するパラメータは、スカラ値によって表すことができる。したがって、符号化されたオーディオ表現(例えば、符号化された信号、全体的な方向性音量マップ、およびパラメータを含むオーディオコンテンツまたはデータストリーム)を受信するオーディオデコーダによって、全体的な方向性音量マップおよび信号の寄与を記述するパラメータに基づいて、信号の個々の方向性音量マップを再構築することが可能である。
本発明による一実施形態は、符号化されたオーディオコンテンツを復号するためのオーディオデコーダに関する。オーディオデコーダは、1つまたは複数のオーディオ信号の符号化表現を受信し、1つまたは複数のオーディオ信号の復号表現を提供する(例えば、AACのような復号化を使用すること、またはエントロピー符号化されたスペクトル値の復号化を使用する)ように構成される。さらに、オーディオデコーダは、符号化された方向性音量マップ情報を受信し、符号化された方向性音量マップ情報を復号して、1つまたは複数の(例えば、復号される)方向性音量マップを取得するように構成される。さらに、オーディオデコーダは、1つまたは複数のオーディオ信号の復号表現を使用し、1つまたは複数の方向性音量マップを使用してオーディオシーンを再構成するように構成される。オーディオコンテンツは、1つまたは複数のオーディオ信号の符号化表現および符号化された方向性音量マップ情報を含むことができる。符号化された方向性音量マップ情報は、個々の信号、信号対、および/または3つ以上の信号のグループの方向性音量マップを含むことができる。
このオーディオデコーダの実施形態は、聴取者によるオーディオコンテンツの知覚を示し、したがって復号されたオーディオコンテンツのオーディオの質を改善することができるので、1つまたは複数の方向性音量マップを決定および復号することが有利であるという考えに基づいている。オーディオデコーダは、例えば、1つまたは複数の方向性音量マップに基づいて高質予測信号を決定するように構成され、それによって残差復号(またはジョイント復号)を改善することができる。一実施形態によれば、方向性音量マップは、経時的なオーディオシーン内の異なる方向の音量情報を定義する。特定の時点または特定の時間フレームにおける特定の方向の音量情報は、例えば、異なる周波数ビンまたは周波数帯域における異なるオーディオ信号または1つのオーディオ信号の音量情報を含むことができる。したがって、例えば、オーディオデコーダによる1つまたは複数のオーディオ信号の復号表現の提供は、例えば、復号された方向性音量マップに基づいて1つまたは複数のオーディオ信号の符号化表現の復号を適合させることによって改善することができる。したがって、1つまたは複数のオーディオ信号の復号表現は、1つまたは複数の方向性音量マップの分析に基づいて元のオーディオ信号に対する最小偏差を達成することができ、その結果、高質のオーディオシーンが得られるので、再構築されたオーディオシーンは最適化される。一実施形態によれば、オーディオデコーダは、復号パラメータの適合のために1つまたは複数の方向性音量マップを使用して、1つまたは複数のオーディオ信号の復号表現を効率的かつ高精度に提供するように構成することができる。
一実施形態によれば、オーディオデコーダは、出力信号に関連付けられた1つまたは複数の方向性音量マップが1つまたは複数の目標方向性音量マップに近似するかまたは等しくなるように、出力信号を取得するように構成される。1つまたは複数の目標方向性音量マップは、1つまたは複数の復号された方向性音量マップに基づくか、または1つまたは複数の復号された方向性音量マップに等しい。オーディオデコーダは、例えば、出力信号を得るために1つまたは複数の復号されたオーディオ信号の適切なスケーリングまたは組み合わせを使用するように構成される。目標方向性音量マップは、例えば、基準方向性音量マップとして理解される。一実施形態によれば、目標方向性音量マップは、オーディオ信号の符号化および復号の前に、1つまたは複数のオーディオ信号の音量情報を表すことができる。あるいは、目標方向性音量マップは、1つまたは複数のオーディオ信号の符号化表現(例えば、1つまたは複数の復号された方向性音量マップ)に関連する音量情報を表すことができる。オーディオデコーダは、例えば、符号化されたオーディオコンテンツを提供するために符号化に使用される符号化パラメータを受信する。オーディオデコーダは、例えば、1つまたは複数の復号された方向性音量マップをスケーリングして1つまたは複数の目標方向性音量マップを決定するために、符号化パラメータに基づいて復号パラメータを決定するように構成される。オーディオデコーダは、復号された方向性音量マップおよび1つまたは複数の復号されたオーディオ信号に基づいて目標方向性音量マップを決定するように構成されたオーディオアナライザを備えることも可能であり、例えば、復号された方向性音量マップは、1つまたは複数の復号されたオーディオ信号に基づいてスケーリングされる。1つまたは複数の目標方向性音量マップは、オーディオ信号によって実現される最適または最適化されたオーディオシーンに関連付けることができるため、出力信号に関連付けられた1つまたは複数の方向性音量マップと1つまたは複数の目標方向性音量マップとの間の偏差を最小化することが有利である。一実施形態によれば、この偏差は、復号パラメータを適合させることによって、またはオーディオシーンの再構成に関するパラメータを適合させることによって、オーディオデコーダによって最小化することができる。したがって、この特徴により、出力信号の質は、例えば、出力信号に関連する1つまたは複数の方向性音量マップを分析するフィードバックループによって制御される。オーディオデコーダは、例えば、出力信号(例えば、オーディオデコーダは、方向性音量マップを決定するための本明細書に記載のオーディオアナライザを備える)の1つまたは複数の方向性音量マップを決定するように構成される。したがって、オーディオデコーダは、目標方向性音量マップに近似または等しい方向性音量マップに関連付けられた出力信号を提供する。
一実施形態によれば、オーディオデコーダは、1つ(例えば、1のみ)の符号化されたダウンミックス信号(例えば、複数の入力オーディオ信号に基づいて取得される)および全体的な方向性音量マップ、または複数の符号化されたオーディオ信号(例えば、エンコーダの入力オーディオ信号またはそれから導出された信号)、および複数の符号化された信号の個々の方向性音量マップ、または全体的な方向性音量マップ、複数の符号化されたオーディオ信号(例えば、オーディオエンコーダによって受信された入力オーディオ信号、またはそこから導出された信号)、および符号化されたオーディオ信号の全体的な方向性音量マップへの(例えば、相対的な)寄与を記述するパラメータを受信するよう構成される。オーディオデコーダは、これに基づいて出力信号を提供するように構成される。
本発明による一実施形態は、オーディオシーン(例えば、空間オーディオシーン)を表すオーディオコンテンツのフォーマットを第1のフォーマットから第2のフォーマットに変換するためのフォーマット変換器に関する。第1のフォーマットは、例えば、第1の数のチャネルまたは入力オーディオ信号と、第1の数のチャネルまたは入力オーディオ信号に適合されたサイド情報または空間サイド情報とを含むことができ、第2のフォーマットは、例えば、第1の数のチャネルまたは入力オーディオ信号とは異なり得る第2の数のチャネルまたは出力オーディオ信号と、第2の数のチャネルまたは出力オーディオ信号に適合されたサイド情報または空間サイド情報とを含むことができる。さらに、フォーマット変換器は、第1のフォーマットのオーディオコンテンツの表現に基づいて第2のフォーマットのオーディオコンテンツの表現を提供するように構成される。さらに、フォーマット変換器は、オーディオシーンの全体的な方向性音量マップへの第1のフォーマットの入力オーディオ信号(例えば、1つまたは複数のオーディオ信号、1つまたは複数のダウンミックス信号、1つまたは複数の残差信号など)の寄与に応じて、フォーマット変換の複雑度を調整する(例えば、フォーマット変換プロセスにおいて、閾値を下回る方向性音量マップに寄与する第1のフォーマットの入力オーディオ信号のうちの1つまたは複数をスキップすることによって)よう構成される(全体的な方向性音量マップは、例えば、フォーマット変換器によって受信された第1のフォーマットのサイド情報によって記述されてもよい)。したがって、例えば、フォーマット変換の複雑度調整のために、個々の入力オーディオ信号に関連付けられた個々の方向性音量マップの、オーディオシーンの全体的な方向性音量マップへの寄与が分析される。あるいは、この調整は、入力オーディオ信号(例えば、信号対、中間信号、サイド信号、ダウンミックス信号、残差信号、差分信号、および/または3つ以上の信号のグループ)の組み合わせに対応する方向性音量マップの、オーディオシーンの全体的な方向性音量マップへの寄与に応じて、フォーマット変換器によって実行することができる。
フォーマット変換器の実施形態は、聴取者によるオーディオコンテンツの知覚を示すことができ、したがって第2のフォーマットにおけるオーディオコンテンツの高質が実現され、方向性音量マップに応じてフォーマット変換の複雑度が低減されるので、1つまたは複数の方向性音量マップに基づいてオーディオコンテンツのフォーマットを変換することが有利であるという考えに基づいている。寄与により、フォーマット変換されたオーディオコンテンツの高質オーディオ知覚に関連する信号の情報を得ることが可能である。したがって、例えば、第2のフォーマットのオーディオコンテンツは、第1のフォーマットのオーディオコンテンツよりも少ない信号(例えば、方向性音量マップに従って関連する信号のみ)を含み、ほぼ同じオーディオの質を有する。
一実施形態によれば、フォーマット変換器は、方向性音量マップ情報を受信し、それに基づいて全体的な方向性音量マップ(例えば、復号されたオーディオシーン;例えば、第1のフォーマットのオーディオコンテンツ)および/または1つもしくは複数の方向性音量マップを取得するように構成される。方向性音量マップ情報(すなわち、オーディオコンテンツの個々の信号に関連付けられた、またはオーディオコンテンツの信号対もしくは3つ以上の信号の組み合わせに関連付けられた1つ以上の方向性音量マップ)は、第1のフォーマットのオーディオコンテンツを表すことができ、第1のフォーマットのオーディオコンテンツの一部とすることができ、または第1のフォーマットのオーディオコンテンツに基づいてフォーマット変換器によって決定することができる(例えば、本明細書に記載のオーディオアナライザによって;例えば、フォーマット変換器がオーディオアナライザを備えている)。一実施形態によれば、フォーマット変換器は、第2のフォーマットのオーディオコンテンツの方向性音量マップ情報も決定するように構成される。したがって、例えば、フォーマット変換の前後の方向性音量マップを比較して、フォーマット変換による知覚される質の劣化を低減することができる。これは、例えば、フォーマット変換前後の方向性音量マップの偏差を最小化することによって実現される。
一実施形態によれば、フォーマット変換器は、1つまたは複数の(例えば、復号される)方向性音量マップ(例えば、第1のフォーマットの信号に関連付けられる)から全体的な方向性音量マップ(例えば、復号されたオーディオシーン)を導出するように構成される。
一実施形態によれば、フォーマット変換器は、オーディオシーンの全体的な方向性音量マップに対する所与の入力オーディオ信号(例えば、第1のフォーマットの信号)の寄与を計算または推定するように構成される。フォーマット変換器は、寄与の計算または推定(例えば、計算されたまたは推定された寄与を所定の絶対的または相対的閾値と比較することによって)に応じて、フォーマット変換において所与の入力オーディオ信号を考慮するかどうかを決定するように構成される。例えば、寄与が絶対閾値または相対閾値以上である場合、対応する信号は関連性があるとみなすことができ、したがって、フォーマット変換器は、この信号を考慮することを決定するように構成することができる。これは、第1のフォーマットのすべての信号が必ずしも第2のフォーマットに変換されるわけではないため、フォーマット変換器による複雑度の調整として理解することができる。所定の閾値は、少なくとも2%または少なくとも5%または少なくとも10%または少なくとも20%または少なくとも30%の寄与を表すことができる。これは、例えば、不可聴および/または無関係なチャネル(またはほぼ不可聴および/または無関係なチャネル)を除外することを意味し、すなわち、閾値はより低く(例えば、他の使用事例と比較する場合)、例えば5%、10%、20%、30%であるべきである。
本発明による一実施形態は、符号化されたオーディオコンテンツを復号するためのオーディオデコーダに関する。オーディオデコーダは、1つまたは複数のオーディオ信号の符号化表現を受信し、1つまたは複数のオーディオ信号の復号表現を提供する(例えば、AACのような復号化を使用すること、またはエントロピー符号化されたスペクトル値の復号化を使用する)ように構成される。さらに、オーディオデコーダは、1つまたは複数のオーディオ信号の復号表現を使用してオーディオシーンを再構成し、復号されたオーディオシーンの全体的な方向性音量マップへの符号化信号(例えば、1つまたは複数のオーディオ信号、1つまたは複数のダウンミックス信号、1つまたは複数の残差信号など)の寄与に応じて、復号の複雑度を調整するように構成される。
このオーディオデコーダの実施形態は、1つまたは複数の方向性音量マップに基づいて復号複雑度を調整することが有利であるという考えに基づいており、これは、それらが聴取者によるオーディオコンテンツの知覚を示し、したがって同時に復号複雑度の低減およびオーディオコンテンツのデコーダオーディオ質の改善を実現することができるからである。したがって、例えば、オーディオデコーダは、寄与に基づいて、オーディオコンテンツのどの符号化信号が復号され、オーディオデコーダによるオーディオシーンの再構成に使用されるべきかを決定するように構成される。これは、例えば、1つまたは複数のオーディオ信号の符号化表現が、ほぼ同じのオーディオの質で、1つまたは複数のオーディオ信号の復号表現よりも少ないオーディオ信号(例えば、方向性音量マップに従って関連するオーディオ信号のみ)を含むことを意味する。
一実施形態によれば、オーディオデコーダは、全体的な方向性音量マップ(例えば、復号されたオーディオシーンの、または、例えば、復号されたオーディオシーンの目標方向性音量マップとして)および/または1つもしくは複数の(復号された)方向性音量マップを得るために、符号化された方向性音量マップ情報を受信し、符号化された方向性音量マップ情報を復号するように構成される。一実施形態によれば、フォーマット変換器は、符号化されたオーディオコンテンツ(例えば、受信される)および復号されたオーディオコンテンツ(例えば、決定される)の方向性音量マップ情報を決定または受信するように構成される。したがって、例えば、復号および/または以前の符号化(例えば、本明細書に記載のオーディオエンコーダによって実行される)に起因する知覚される質の劣化を低減するために、復号の前後の方向性音量マップを比較することができる。これは、例えば、フォーマット変換前後の方向性音量マップの偏差を最小化することによって実現される。
一実施形態によれば、オーディオデコーダは、1つまたは複数の(例えば、復号される)方向性音量マップから全体的な方向性音量マップ(例えば、復号されたオーディオシーンの、または、例えば、復号されたオーディオシーンの目標方向性音量マップとして)を導出するように構成される。
一実施形態によれば、オーディオデコーダは、復号されたオーディオシーンの全体的な方向性音量マップに対する所与の符号化信号の寄与を計算または推定するように構成される。あるいは、オーディオデコーダは、符号化されたオーディオシーンの全体的な方向性音量マップに対する所与の符号化信号の寄与を計算するように構成される。オーディオデコーダは、寄与の計算または推定(例えば、計算されたまたは推定された寄与を所定の絶対的または相対的閾値と比較することによって)に応じて、所与の符号化信号を復号するかどうかを決定するように構成される。所定の閾値は、少なくとも60%、70%、80%、または90%の寄与を表すことができる。良好な質を維持するために、閾値はより低くすべきであり、それでも計算能力が非常に限られている(例えば、モバイルデバイス)場合には、例えば10%、20%、40%、60%など、この範囲に達する可能性がある。言い換えれば、いくつかの好ましい実施形態では、所定の閾値は、少なくとも5%、または少なくとも10%、または少なくとも20%、または少なくとも40%、または少なくとも60%の寄与を表すべきである。
本発明による一実施形態は、オーディオコンテンツをレンダリングするためのレンダラ(例えば、バイノーラルレンダラまたはサウンドバーレンダラまたはスピーカレンダラ)に関する。一実施形態によれば、第1の数の入力オーディオチャネルと、オーディオオブジェクトの配置またはオーディオチャネル間の関係などの所望の空間特性を記述するサイド情報とを使用して表されるオーディオコンテンツを、第1の数の入力オーディオチャネル(例えば、第1の数の入力オーディオチャネルよりも大きいか、または第1の数の入力オーディオチャネルよりも小さい)から独立した所与の数のチャネルを含む表現に分配するためのレンダラである。レンダラは、1つまたは複数の入力オーディオ信号に基づいて(または、例えば、2つ以上の入力オーディオ信号に基づいて)、オーディオシーンを再構成するように構成される。さらに、レンダラは、レンダリングされたオーディオシーンの全体的な方向性音量マップへの入力オーディオ信号(例えば、1つまたは複数のオーディオ信号、1つまたは複数のダウンミックス信号、1つまたは複数の残差信号など)の寄与に応じて、レンダリングの複雑度(例えば、レンダリング処理において、閾値を下回る方向性音量マップに寄与する入力オーディオ信号のうちの1つまたは複数をスキップすることによって)を調整するように構成される。全体的な方向性音量マップは、例えば、レンダラによって受信されたサイド情報によって記述することができる。
一実施形態によれば、レンダラは、方向性音量マップ情報を取得し(例えば、それ自体で受信または決定する)、それに基づいて全体的な方向性音量マップ(例えば、復号されたオーディオシーン)および/または1つもしくは複数の方向性音量マップを取得するように構成される。
一実施形態によれば、レンダラは、1つまたは複数の(例えば、2つ以上の)(例えば、復号または自己由来の)方向性音量マップから全体的な方向性音量マップ(例えば、復号されたオーディオシーン)を導出するように構成される。
一実施形態によれば、レンダラは、オーディオシーンの全体的な方向性音量マップに対する所与の入力オーディオ信号の寄与を計算または推定するように構成される。さらに、レンダラは、寄与の計算または推定(例えば、計算されたまたは推定された寄与を所定の絶対的または相対的閾値と比較することによって)に応じて、レンダリングにおいて所与の入力オーディオ信号を考慮するかどうかを決定するように構成される。
本発明による一実施形態は、オーディオ信号を分析するための方法に関する。本方法は、2つ以上の入力オーディオ信号の1つ以上のスペクトル領域(例えば、時間周波数領域)表現に基づいて複数の重み付けスペクトル領域(例えば、時間周波数領域)表現(例えば、「方向性信号」)を取得することを含む。1つまたは複数のスペクトル領域表現の値は、複数の重み付けスペクトル領域表現(例えば、「方向性信号」)を取得するために、2つ以上の入力オーディオ信号内のオーディオ成分(例えば、スペクトルビンまたはスペクトル帯域の)(例えば、楽器または歌唱者からのチューニング)の異なる方向(例えば、パンニング方向)(例えば、重み係数によって表される)に応じて重み付けされる。さらに、本方法は、複数の重み付けスペクトル領域表現(例えば、「方向性信号」)に基づいて、異なる方向(例えば、パンニング方向)に関連する音量情報(例えば、1つまたは複数の「方向性音量マップ」)を分析結果として取得することを含む。
本発明による一実施形態は、オーディオ信号の類似度を評価するための方法に関する。本方法は、2つ以上の入力オーディオ信号の第1のセットに基づいて、異なる(例えば、パンニング)方向に関連する第1の音量情報(例えば、方向性音量マップ;例えば、合成音量値)を取得することを含む。さらに、本方法は、第1の音量情報を、異なるパンニング方向および2つ以上の基準オーディオ信号のセットに関連する第2の(例えば、対応する)音量情報(例えば、基準音量情報;例えば、基準方向性音量マップ;例えば、基準合成音量値)と比較して、2つ以上の入力オーディオ信号の第1のセットと2つ以上の基準オーディオ信号のセット(または、例えば、2つ以上の基準オーディオ信号のセットと比較したときの2つ以上の入力オーディオ信号の第1のセットの質を表す)との間の類似度を記述する類似度情報(例えば、「モデル出力変数」(MOV))を得ることを含む。
本発明による一実施形態は、1つまたは複数の入力オーディオ信号(好ましくは複数の入力オーディオ信号)を含む入力オーディオコンテンツを符号化するための方法に関する。本方法は、1つまたは複数の入力オーディオ信号(例えば、左信号および右信号)、またはそれから導出された1つまたは複数の信号(例えば、中間信号またはダウンミックス信号およびサイド信号または差分信号)に基づいて、1つまたは複数の符号化(例えば、量子化され、次いで可逆的に符号化される)オーディオ信号(例えば、符号化されたスペクトル領域表現)を提供することを含む。さらに、本方法は、符号化されるべき1つまたは複数の信号の複数の異なる方向(例えば、パンニング方向)に関連付けられる音量情報を表す1つまたは複数の方向性音量マップに応じて、1つまたは複数の符号化されたオーディオ信号の提供を適合させることを含む。1つまたは複数の符号化されたオーディオ信号の提供の適合は、例えば、量子化されるべき1つまたは複数の信号の個々の方向性音量マップ(例えば、個々の信号、信号対、または3つ以上の信号のグループに関連付けられる)の、例えば複数の入力オーディオ信号(例えば、1つまたは複数の入力オーディオ信号の各信号)に関連付けられた全体的な方向性音量マップへの寄与に応じて実行される。
本発明による一実施形態は、1つまたは複数の入力オーディオ信号(好ましくは複数の入力オーディオ信号)を含む入力オーディオコンテンツを符号化するための方法に関する。方法は、2つ以上の入力オーディオ信号(例えば、左信号および右信号)に基づき、またはそれから導出された2つ以上の信号に基づき、一緒に符号化されるべき2つ以上の信号のジョイント符号化(例えば、中間信号またはダウンミックス信号とサイド信号または差分信号とを使用して(例えば、中間信号またはダウンミックス信号およびサイド信号または差分信号)、1つまたは複数の符号化(例えば、量子化され、次いで可逆的に符号化される)オーディオ信号(例えば、符号化されたスペクトル領域表現)を提供することを含む。さらに、本方法は、候補信号または候補信号の対の複数の異なる方向(例えば、パンニング方向)に関連する音量情報を表す方向性音量マップに応じて、複数の候補信号または候補信号の複数の対から(例えば、2つ以上の入力オーディオ信号から、または、それから導出される2つ以上の信号から)合同で符号化される信号を選択することを含む。一実施形態によれば、一緒に符号化される信号は、例えば複数の入力オーディオ信号(例えば、1つまたは複数の入力オーディオ信号の各信号)に関連付けられた、候補信号の個々の方向性音量マップの全体的な方向性音量マップへの寄与に応じて、または候補信号の対の方向性音量マップの全体的な方向性音量マップへの寄与に応じて、選択される。
本発明による一実施形態は、1つまたは複数の入力オーディオ信号(好ましくは複数の入力オーディオ信号)を含む入力オーディオコンテンツを符号化するための方法に関する。本方法は、2つ以上の入力オーディオ信号(例えば、左信号および右信号)に基づき、またはそれから導出された2つ以上の信号に基づいて、1つまたは複数の符号化(例えば、量子化され、次いで可逆的に符号化される)オーディオ信号(例えば、符号化されたスペクトル領域表現)を提供することを含む。さらに、本方法は、入力オーディオ信号に基づいて全体的な方向性音量マップ(例えば、シーンの目標方向性音量マップ)を決定すること、および/または個々の入力オーディオ信号に関連する1つもしくは複数の個々の方向性音量マップを決定すること(および/または入力オーディオ信号対に関連する1つもしくは複数の方向性音量マップを決定すること)を含む。さらに、本方法は、全体的な方向性音量マップおよび/または1つもしくは複数の個々の方向性音量マップをサイド情報として符号化することを含む。
本発明による一実施形態は、符号化されたオーディオコンテンツを復号するための方法に関する。本方法は、1つまたは複数のオーディオ信号の符号化表現を受信すること、1つまたは複数のオーディオ信号の復号表現を提供すること(例えば、AACのような復号化を使用すること、またはエントロピー符号化されたスペクトル値の復号化を使用する)を含む。さらに、方法は、符号化された方向性音量マップ情報を受信すると、符号化された方向性音量マップ情報を復号することと、1つまたは複数の(例えば、復号される)方向性音量マップを取得することとを含む。さらに、方法は、オーディオシーンを、1つまたは複数のオーディオ信号の復号表現を使用して、1つまたは複数の方向性音量マップを使用して再構成することを含む。
本発明による一実施形態は、オーディオシーン(例えば、空間オーディオシーン)を表すオーディオコンテンツのフォーマットを第1のフォーマットから第2のフォーマットに変換するための方法に関する。第1のフォーマットは、例えば、第1の数のチャネルまたは入力オーディオ信号と、第1の数のチャネルまたは入力オーディオ信号に適合されたサイド情報または空間サイド情報とを含むことができ、第2のフォーマットは、例えば、第1の数のチャネルまたは入力オーディオ信号とは異なり得る第2の数のチャネルまたは出力オーディオ信号と、第2の数のチャネルまたは出力オーディオ信号に適合されたサイド情報または空間サイド情報とを含むことができる。方法は、第1のフォーマットのオーディオコンテンツの表現に基づいて、第2のフォーマットのオーディオコンテンツの表現を提供することを含み、オーディオシーンの全体的な方向性音量マップへの第1のフォーマットの入力オーディオ信号(例えば、1つまたは複数のオーディオ信号、1つまたは複数のダウンミックス信号、1つまたは複数の残差信号など)の寄与に応じて、フォーマット変換の複雑度を調整すること(例えば、フォーマット変換プロセスにおいて、閾値を下回る方向性音量マップに寄与する第1のフォーマットの入力オーディオ信号のうちの1つまたは複数をスキップすることによって)を含む。全体的な方向性音量マップは、例えば、フォーマット変換器によって受信された第1のフォーマットのオーディオコンテンツのサイド情報によって記述されてもよい。
本発明による一実施形態は、方法が1つまたは複数のオーディオ信号の符号化表現を受信すること、1つまたは複数のオーディオ信号の復号表現を提供すること(例えば、AACのような復号化を使用すること、またはエントロピー符号化されたスペクトル値の復号化を使用する)を含むことに関する。方法は、オーディオシーンを、1つまたは複数のオーディオ信号の復号表現を使用して再構成することを含む。さらに、方法は、復号されたオーディオシーンの全体的な方向性音量マップへの符号化された信号(例えば、1つまたは複数のオーディオ信号、1つまたは複数のダウンミックス信号、1つまたは複数の残差信号など)の寄与に応じて復号の複雑度を調整することを含む。
本発明による一実施形態は、オーディオコンテンツをレンダリングするための方法に関する。一実施形態によれば、本発明は、第1の数の入力オーディオチャネルと、オーディオオブジェクトの配置またはオーディオチャネル間の関係などの所望の空間特性を記述するサイド情報とを使用して表されるオーディオコンテンツを、第1の数の入力オーディオチャネルよりも大きい数のチャネルを含む表現にアップミックスするための方法に関する。方法は、1つまたは複数の入力オーディオ信号に基づいて(または2つ以上の入力オーディオ信号に基づいて)オーディオシーンを再構成することを含む。さらに、方法は、レンダリングされたオーディオシーンの全体的な方向性音量マップへの入力オーディオ信号(例えば、1つまたは複数のオーディオ信号、1つまたは複数のダウンミックス信号、1つまたは複数の残差信号など)の寄与に応じて、レンダリングの複雑度(例えば、レンダリング処理において、閾値を下回る方向性音量マップに寄与する入力オーディオ信号のうちの1つまたは複数をスキップすることによって)を調整することを含む。全体的な方向性音量マップは、例えば、レンダラによって受信されたサイド情報によって記述することができる。
本発明による一実施形態は、コンピュータ上で実行されると、本明細書に記載の方法を実行するためのプログラムコードを有するコンピュータプログラムに関する。
本発明による一実施形態は、1つまたは複数のオーディオ信号の符号化表現および符号化された方向性音量マップ情報を含む、符号化されたオーディオ表現(例えば、オーディオストリームまたはデータストリーム)に関する。
上述の方法は、上述のオーディオアナライザ、オーディオ類似度評価器、オーディオエンコーダ、オーディオデコーダ、フォーマット変換器および/またはレンダラと同じ考慮事項に基づく。本方法は、オーディオアナライザ、オーディオ類似度評価器、オーディオエンコーダ、オーディオデコーダ、フォーマット変換器、および/またはレンダラに関しても説明されているすべての特徴および機能で完了することができる。
図面は必ずしも縮尺通りではなく、代わりに、一般に本発明の原理を説明することに重点が置かれている。以下の説明では、本発明の様々な実施形態が、以下の図面を参照して説明される。
等しいまたは同等な要素は、等しいまたは同等な機能を有する要素である。それらは、異なる図で生じる場合であっても、以下の説明では等しいまたは同等な参照番号によって示される。
以下の説明では、本発明の実施形態の説明全体を通してより多くを提供するために、複数の詳細が記載される。しかしながら、本発明の実施形態がこれらの具体的な詳細なしに実施され得ることは、当業者には明らかであろう。他の例では、本発明の実施形態を不明瞭にすることを避けるために、周知の構造およびデバイスが詳細ではなくブロック図形式で示されている。さらに、以下に説明する異なる実施形態の特徴は、特に明記しない限り、互いに組み合わせることができる。
図1は、第1の入力オーディオ信号、例えば、X
L,b(m,k)のスペクトル領域表現110
1と、第2の入力オーディオ信号、例えば、X
R,b(m,k)のスペクトル領域表現110
2とを取得するように構成されるオーディオアナライザ100のブロック図を示す。したがって、例えば、オーディオアナライザ100は、分析されるべき入力110としてスペクトル領域表現110
1、110
2を受信する。これは、例えば、第1の入力オーディオ信号および第2の入力オーディオ信号が、外部のデバイスまたは装置によってスペクトル領域表現110
1、110
2に変換され、次いでオーディオアナライザ100に提供されることを意味する。あるいは、スペクトル領域表現110
1、110
2は、図2に関して説明するように、オーディオアナライザ100によって決定することができる。一実施形態によれば、スペクトル領域表現110は、
、例えば、i={L;R;DM}またはi
[1;I]によって表現され得る。
一実施形態によれば、スペクトル領域表現110
1、110
2は、方向情報決定120に供給されて、スペクトル領域表現110
1、110
2のスペクトル帯域(例えば、時間フレームmにおけるスペクトルビンk)に関連する方向情報122、例えば
(m,k)を取得する。方向情報122は、例えば、2つ以上の入力オーディオ信号に含まれる異なるオーディオ成分の方向を表す。したがって、方向情報122は、聴取者が2つの入力オーディオ信号に含まれる成分を聞く方向に関連付けることができる。一実施形態によれば、方向情報はパンニングインデックスを表すことができる。したがって、例えば、方向情報122は、聴取室内の歌手を示す第1方向と、オーディオシーン内のバンドの異なる楽器に対応するさらなる方向とを含む。方向情報122は、例えば、オーディオアナライザ100によって、すべての周波数ビンまたは周波数グループについて(例えば、すべてのスペクトルビンkまたはスペクトル帯域bについて)、スペクトル領域表現110
1、110
2間のレベルの比を分析することによって決定される。方向情報決定120の例は、図5~図7bに関して説明される。
一実施形態によれば、オーディオアナライザ100は、オーディオコンテンツの振幅パンニングの分析に基づいて、および/または2つ以上の入力オーディオ信号のオーディオコンテンツ間の位相関係および/または時間遅延および/または相関の分析に基づいて、および/または拡大された(例えば、非相関化および/またはパンニング)音源の識別に基づいて、方向情報122を取得するように構成される。オーディオコンテンツは、入力オーディオ信号および/または入力オーディオ信号のスペクトル領域表現110を含むことができる。
方向情報122およびスペクトル領域表現110
1、110
2に基づいて、オーディオアナライザ100は、音量情報142への寄与132(例えば、
および
)を決定するように構成される。一実施形態によれば、第1の入力オーディオ信号のスペクトル領域表現110
1に関連する第1の寄与132
1は、方向情報122に応じて寄与判定130によって判定され、第2の入力オーディオ信号のスペクトル領域表現110
2に関連する第2の寄与132
2は、方向情報122に応じて寄与判定130によって判定される。一実施形態によれば、方向情報122は、異なる方向(例えば、抽出された方向値
(m,k))を含む。寄与132は、例えば、方向情報122に応じて所定の方向
の音量情報を含む。一実施形態によれば、寄与132は、その方向
(m,k)(方向情報122に対応する)が所定の方向
に等しいスペクトル帯域のレベル情報および/またはその方向
(m,k)が所定の方向
に隣接するスペクトル帯域のスケーリングされたレベル情報を定義する。
一実施形態によれば、抽出された方向値
は、スペクトル領域値に応じて決定される(例えば、入力オーディオ信号の[13]の表記における
としての
、および
としての
)。
異なる方向
(例えば、所定の方向)に関連付けられる音量情報142(例えば、複数の異なる評価された方向範囲
に対してL(m,
)(Jの所定の方向に対してj
[1;J]))を、オーディオアナライザ100による分析結果として取得するために、オーディオアナライザ100は、第1の入力オーディオ信号のスペクトル領域表現110
1に対応する寄与132
1(例えば
)と、第2の入力オーディオ信号のスペクトル領域表現110
2に対応する寄与132
2(例えば
)とを組み合わせて、例えば、2つ以上のチャネル(例えば、第1のチャネルは、第1の入力オーディオ信号に関連付けられ、インデックスLによって表され、第2のチャネルは、第2の入力オーディオ信号に関連付けられ、インデックスRによって表される)の音量情報142として合成信号を受信するように構成される。したがって、経時的な音量および異なる方向
のそれぞれについての音量を定義する音量情報142が取得される。これは、例えば、音量情報決定部140が行う。
図2は、図1のオーディオアナライザ100に関して説明した特徴および/または機能を含むことができるオーディオアナライザ100を示す。一実施形態によれば、オーディオアナライザ100は、第1の入力オーディオ信号xL1121および第2の入力オーディオ信号xR1122を受信する。インデックスLは左に対応付けられ、インデックスRは右に対応付けられる。インデックスは、スピーカ(例えば、スピーカの位置決め)に関連付けることができる。一実施形態によれば、インデックスは、入力オーディオ信号に関連付けられたチャネルを示す番号によって表すことができる。
一実施形態によれば、第1の入力オーディオ信号1121および/または第2の入力オーディオ信号1122は、それぞれの入力オーディオ信号のスペクトル領域表現110を受信するために、時間領域からスペクトル領域への変換114によって変換され得る時間領域信号を表すことができる。言い換えれば、時間領域からスペクトル領域への変換114は、2つ以上の入力オーディオ信号1121、1122(例えば、xL、xR、xi)を短時間フーリエ変換(STFT)領域に分解して、2つ以上の変換されたオーディオ信号1151、1152(例えば、X’L、X’R、X’i)を得ることができる。第1の入力オーディオ信号1121および/または第2の入力オーディオ信号1122がスペクトル領域表現110を表す場合、時間領域からスペクトル領域への変換114をスキップすることができる。
任意選択的に、入力オーディオ信号112または変換オーディオ信号115は、耳モデル処理116によって処理されて、それぞれの入力オーディオ信号1121および1122のスペクトル領域表現110を取得する。処理される信号、例えば112または115のスペクトルビンは、例えば、人間の耳によるスペクトル帯域の知覚のためのモデルに基づいて、スペクトル帯域にグループ化され、次いで、スペクトル帯域は、外耳および/または中耳モデルに基づいて重み付けすることができる。したがって、耳モデル処理116を用いて、入力オーディオ信号112の最適化されたスペクトル領域表現110を決定することができる。
一実施形態によれば、第1の入力オーディオ信号1121のスペクトル領域表現1101、例えば、XL,b(m,k)は、第1の入力オーディオ信号1121のレベル情報(例えば、インデックスLによって示される)および異なるスペクトル帯域(例えば、インデックスbによって示される)に関連付けられる。スペクトル帯域bごとに、スペクトル領域表現1101は、例えば、時間フレームmおよびそれぞれのスペクトル帯域bのすべてのスペクトルビンkのレベル情報を表す。
一実施形態によれば、第2の入力オーディオ信号1122のスペクトル領域表現1102、例えば、XR,b(m,k)は、第2の入力オーディオ信号1122のレベル情報(例えば、インデックスRによって示される)および異なるスペクトル帯域(例えば、インデックスbによって示される)に関連付けられる。スペクトル帯域bごとに、スペクトル領域表現1102は、例えば、時間フレームmおよびそれぞれのスペクトル帯域bのすべてのスペクトルビンkのレベル情報を表す。
第1の入力オーディオ信号112のスペクトル領域表現110
1および第2の入力オーディオ信号のスペクトル領域表現110
2に基づいて、方向情報決定120をオーディオアナライザ100によって実行することができる。方向分析124により、例えば
(m,k)などのパンニング方向情報125を決定することができる。パンニング方向情報125は、例えば、信号成分(例えば、特定の方向にパンニングされた第1の入力オーディオ信号112
1および第2の入力オーディオ信号112
2の信号成分)に対応するパンニングインデックスを表す。一実施形態によれば、入力オーディオ信号112は、例えば、左のインデックスLおよび右のインデックスRによって示される異なる方向に関連付けられる。パンニングインデックスは、例えば、2つ以上の入力オーディオ信号112間の方向または入力オーディオ信号112の方向における方向を定義する。したがって、例えば、図2に示すような2チャネル信号の場合、パンニング方向情報125は、完全に左または右またはその間のどこかの方向にパンニングされた信号成分に対応するパンニングインデックスを含むことができる。
一実施形態によれば、パンニング方向情報125に基づいて、オーディオアナライザ100は、スケーリング係数決定126を実行して、方向依存重み付け127、例えばj
[1;i]について
を決定するように構成される。方向依存重み付け127は、例えば、パンニング方向情報125から抽出された方向
(m,k)に応じたスケーリング係数を定義する。方向依存重み付け127は、予め定められた複数の方向
について決定される。一実施形態によれば、方向依存重み付け127は、所定の方向ごとに関数を定義する。関数は、例えば、パンニング方向情報125から抽出された方向
(m,k)に依存する。スケーリング係数は、例えば、パンニング方向情報125から抽出された方向
(m,k)と所定の方向
との間の距離に依存する。スケーリング係数、すなわち方向依存重み付け127は、スペクトルビンごとおよび/または時間ステップ/時間フレームごとに決定することができる。
一実施形態によれば、方向依存重み付け127はガウス関数を使用し、その結果、方向依存重み付けは、抽出されたそれぞれの方向値
(m,k)とそれぞれの所定の方向値
との間の偏差が増加するにつれて減少する。
一実施形態によれば、オーディオアナライザ100は、以下の
に従い、所定の方向(例えば、インデックス
によって表される)、時間インデックスmで指定された時間(または時間フレーム)、時間インデックスmで指定された時間、およびスペクトルビンインデックスkで指定されたスペクトルビンに関連する方向依存重み付け127
を取得するように構成され、式中、
は所定の値であり(これは、例えば、ガウスウィンドウの幅を制御する)、
は時間インデックスmで指定された時間(または時間フレーム)、およびスペクトルビンインデックスkで指定されたスペクトルビンと関連付けられた抽出された方向値を指定し、
は、所定の方向(例えば、方向インデックスjを有する)を指定する(例えば、所定の)(または関連付けられた)方向値である。
一実施形態によれば、オーディオアナライザ100は、方向情報決定120を使用することにより、パンニング方向情報125および/または方向依存重み付け127を含む方向情報を決定するように構成される。この方向情報は、例えば、2つ以上の入力オーディオ信号112のオーディオコンテンツに基づいて得られる。
一実施形態によれば、オーディオアナライザ100は、寄与判定130のためのスケーラ134および/またはコンバイナ136を備える。スケーラ134を用いて、方向依存重み付け127は、重み付けスペクトル領域表現135(例えば、異なる
(j
[1;J]またはj={L;R;DM})について
)を取得するために、2つ以上の入力オーディオ信号112の1つ以上のスペクトル領域表現110に適用される。言い換えれば、第1の入力オーディオ信号のスペクトル領域表現110
1および第2の入力オーディオ信号のスペクトル領域表現110
2は、所定の方向
ごとに個別に重み付けされる。したがって、例えば、第1の入力オーディオ信号の、例えば重み付けスペクトル領域表現135
1例えば
は、所定の方向
に対応する第1の入力オーディオ信号112の信号成分のみ、または隣接する所定の方向に関連する第1の入力オーディオ信号112
1の追加的に重み付けされた(例えば、低減される)信号成分を含むことができる。したがって、1つまたは複数のスペクトル領域表現110(例えば
)の値は、オーディオ成分の異なる方向(例えば、パンニング方向
)に応じて重み付けされる(例えば、重み係数
によって表される)。
一実施形態によれば、スケーリング係数決定126は、所定の方向ごとに、抽出された方向値
(m,k)が所定の方向
から逸脱する信号成分が重み付けされ、それらが、抽出された方向値
(m,k)が所定の方向
に等しい信号成分よりも、影響が少なくなるように、方向依存重み付け127を決定するように構成される。言い換えれば、第1の所定の方向
に対する方向依存重み付け127において、第1の所定の方向
に関連する信号成分は、第1の所定の方向
に対応する第1の重み付けスペクトル領域表現
において他の方向に関連する信号成分よりも強調される。
一実施形態によれば、オーディオアナライザ100は、インデックスiによって指定される入力オーディオ信号(例えば、i=1の場合は110
1、i=2の場合は110
2)または入力オーディオ信号の組み合わせ(例えば、i=1、2の場合の2つの入力オーディオ信号110
1および110
2の組み合わせ)、インデックスbによって指定されるスペクトル帯域、インデックス
によって指定される(例えば、所定の)方向、時間インデックスmによって指定される時間(または時間フレーム)、およびスペクトルビンインデックスkによって指定されるスペクトルビンに関連する重み付けスペクトル領域表現135
を取得するように構成され、
に従っており、
は、入力オーディオ信号112またはインデックスiによって指定される入力オーディオ信号112の組み合わせ(例えば、i=Lまたはi=Rまたはi=DMまたはIは番号で表され、チャネルを示す)、インデックスbによって指定されるスペクトル帯域、時間インデックスmによって指定される時間(または時間フレーム)、およびスペクトルビンインデックスkによって指定されるスペクトルビンに関連するスペクトル領域表現110を指定し、
はインデックス
によって指定される方向、時間インデックスmによって指定される時間(または時間フレーム)、およびスペクトルビンインデックスkによって指定されるスペクトルビンに関連する方向依存重み付け127(重み付け関数)を指定する。
スケーラ134の追加または代替の機能は、図6~図7bに関して説明される。
一実施形態によれば、第1の入力オーディオ信号の重み付けスペクトル領域表現135
1および第2の入力オーディオ信号の重み付けスペクトル領域表現135
2は、重み付け結合スペクトル領域表現137
を得るためにコンバイナ136によって結合される。したがって、所定の方向
に対応するすべてのチャネル(第1の入力オーディオ信号112
1および第2の入力オーディオ信号112
2の図2の場合)のコンバイナ136の重み付けスペクトル領域表現135は、1つの信号に結合される。これは、例えば、所定の全方向(j
[1;i])
の場合)について行われる。一実施形態によれば、重み付け結合スペクトル領域表現137は、異なる周波数帯域bに関連付けられる。
重み付け結合スペクトル領域表現137に基づいて、音量情報決定140が実行されて、分析結果として音量情報142が取得される。一実施形態によれば、音量情報決定140は、帯域における音量決定144およびすべての帯域にわたる音量決定146を含む。一実施形態によれば、帯域における音量の決定144は、重み付け結合スペクトル領域表現137に基づいて各スペクトル帯域bについて帯域音量値145を決定するように構成される。言い換えれば、帯域における音量決定144は、所定の方向
に応じて各スペクトル帯域における音量を決定する。したがって、取得された帯域音量値145は、もはや単一のスペクトルビンkに依存しない。
一実施形態によれば、オーディオアナライザは、(それぞれの周波数帯域(b)に関連する)帯域音量値145(例えば、
)を決定するために、周波数帯域(b)のスペクトル値にわたる重み付け結合スペクトル領域表現137(例えば、
)(または周波数帯域のスペクトルビンにわたる)の二乗スペクトル値の平均を計算し、0と1/2との間(および好ましくは1/3または1/4未満)の指数を有する累乗演算を二乗スペクトル値の平均に適用するように構成される。
実施形態によると、オーディオアナライザは、以下に従い、インデックスbで指定されたスペクトル帯域、インデックス
で指定された方向、に従って時間インデックスmで指定された時間(または、時間枠)に関連する帯域音量値145
を取得するように構成されており、
に従い、式中、K
bは、周波数帯域インデックスbを有する周波数帯域におけるスペクトルビンの数を指定し、kは実行変数であり、周波数帯域インデックスbを有する周波数帯域におけるスペクトルビンを指定し、bはスペクトル帯域を指定し、
はインデックスbで指定されたスペクトル帯域、インデックス
で指定された方向、時間インデックスmで指定された時間(または、時間枠)、およびスペクトルビンインデックスkで指定されたスペクトルビンに関連付けられた重み付け結合スペクトル領域表現137を示す。
すべての帯域にわたる音量情報決定146において、帯域音量値145は、例えば、所定の方向および少なくとも1つの時間フレームmに依存する音量情報142を提供するために、すべてのスペクトル帯域にわたって平均化される。一実施形態によれば、音量情報142は、聴取室内の異なる方向の入力オーディオ信号112によって引き起こされる一般的な音量を表すことができる。一実施形態によれば、音量情報142は、異なる所与のまたは所定の方向
に関連する合成音量値に関連付けることができる。
請求項1から17の一項に記載のオーディオアナライザは、
に従い、インデックス
で指定された方向および時間インデックスで指定された時間に関連付けられた複数の結合ラウドネス値L(m,
)を取得するように構成され、式中、Bはスペクトル帯域bの総数を示し、
はインデックスbで指定されたスペクトル帯域、インデックス
で指定された方向、および時間インデックスmで指定された時間(または、時間枠)に関連する帯域音量値145を示す。
図1および図2では、オーディオアナライザ100は、2つの入力オーディオ信号のスペクトル領域表現110を分析するように構成されているが、オーディオアナライザ100はまた、3つ以上のスペクトル領域表現110を分析するように構成されている。
図3aから図4bは、オーディオアナライザ100の異なる実装形態を示す。図1~図4bに示されているオーディオアナライザは、一実装形態について示されている特徴および機能に限定されず、異なる図1~図4bに示されているオーディオアナライザの他の実装形態の特徴および機能も含むことができる。
図3aおよび図3bは、パンニングインデックスの決定に基づいて音量情報142を決定するためのオーディオアナライザ100による2つの異なる手法を示す。
図3aに示すオーディオアナライザ100は、図2に示すオーディオアナライザ100と同様または同等である。2つ以上の入力信号112は、時間/周波数分解113によって時間/周波数信号110に変換される。一実施形態によれば、時間/周波数分解113は、時間領域からスペクトル領域への変換および/または耳モデル処理を含むことができる。
時間/周波数信号に基づいて、方向情報決定120が実行される。方向情報決定120は、例えば、方向分析124および窓関数の決定126を含む。寄与判定ユニット130において、方向性信号132は、例えば、方向依存性窓関数127を時間/周波数信号110に適用することによって時間/周波数信号110を方向性信号に分割することによって得られる。方向性信号132に基づいて、音量計算140が実行されて、分析結果として音量情報142が取得される。音量情報142は、方向性音量マップを含むことができる。
図3bのオーディオアナライザ100は、音量計算140が図3aのオーディオアナライザ100とは異なる。図3bによれば、時間/周波数信号110の方向性信号が計算される前に、音量計算140が実行される。したがって、例えば、図3bによれば、帯域音量値141は、時間/周波数信号110に基づいて直接計算される。帯域音量値141に方向依存窓関数127を適用することにより、分析結果として方向音量情報142を得ることができる。
図4aおよび図4bは、一実施形態によれば、ヒストグラム手法を使用して音量情報142を決定するように構成されたオーディオアナライザ100を示す。一実施形態によれば、オーディオアナライザ100は、時間/周波数分解113を使用して、2つ以上の入力信号112に基づいて時間/周波数信号110を決定するように構成される。
一実施形態によれば、時間/周波数信号110に基づいて、時間/周波数タイルごとに合成音量値145を取得するために音量計算140が実行される。合成音量値145は、いかなる方向情報とも関連付けられていない。合成音量値は、例えば、入力信号112の時間/周波数タイルへの重畳から生じる音量に関連付けられる。
さらに、オーディオアナライザ100は、方向情報122を取得するために時間/周波数信号110の方向分析124を実行するように構成される。図4aによれば、方向情報122は、2つ以上の入力信号112間の同じレベル比を有する時間/周波数タイルを示す比値を有する1つ以上の方向ベクトルを含む。この方向分析124は、例えば、図5または図6に関して説明したように実行される。
図4bのオーディオアナライザ100は、方向分析124の後に任意選択的に方向値1221の方向性スミアリング126が実行されるように、図4aに示すオーディオアナライザ100とは異なる。また、方向性スミアリング126により、所定の方向に隣接する方向に関連付けられた時間/周波数タイルを所定の方向に関連付けることができ、取得された方向情報1222は、これらの時間/周波数タイルに対して、所定の方向における影響を最小限に抑えるためのスケーリング係数をさらに含むことができる。
図4aおよび図4bでは、オーディオアナライザ100は、時間/周波数タイルに関連する方向情報122に基づいて、合成音量値145を方向ヒストグラムビンに累積146するように構成される。
図3aおよび図3bのオーディオアナライザ100に関するさらなる詳細は、「方向性音量マップを計算するための一般的なステップ」の章および「一般化された基準関数を使用して音量マップを計算する異なる形式の実施形態」の章で後述する。
図5は、本明細書に記載のオーディオアナライザによって分析されるべき第1の入力オーディオ信号のスペクトル領域表現1101および第2の入力オーディオ信号のスペクトル領域表現1102を示す。スペクトル領域表現110の方向分析124は、方向情報122をもたらす。一実施形態によれば、方向情報122は、第1の入力オーディオ信号のスペクトル領域表現1101と第2の入力オーディオ信号のスペクトル領域表現1102との間の比値を有する方向ベクトルを表す。したがって、例えば、同じレベル比を有するスペクトル領域表現110の周波数タイル、例えば時間/周波数タイルは、同じ方向125に関連付けられる。
一実施形態によれば、音量計算140は、例えば時間/周波数タイルごとに合成音量値145をもたらす。合成音量値145は、例えば、第1の入力オーディオ信号と第2の入力オーディオ信号との組み合わせ(例えば、2つ以上の入力オーディオ信号の組み合わせ)に関連付けられている。
方向情報122および合成音量値145に基づいて、合成音量値145を方向および時間依存のヒストグラムビンに蓄積することができる(146)。したがって、例えば、特定の方向に関連するすべての合成音量値145が合計される。方向情報122によれば、方向は時間/周波数タイルに関連付けられる。蓄積146により、方向性音量ヒストグラムの結果が得られ、これは、本明細書に記載のオーディオアナライザの分析結果として音量情報142を表すことができる。
また、異なるまたは隣接する時間フレーム(例えば、前または後の時間フレーム)の同じ方向および/または隣接する方向に対応する時間/周波数タイルを、現在の時間ステップまたは時間フレーム内の方向に関連付けることもできる可能性がある。これは、例えば、方向情報122が、時間に依存する周波数タイル(または周波数ビン)ごとの方向情報を含むことを意味する。したがって、例えば、方向情報122は、複数の時間フレームまたはすべての時間フレームについて取得される。
図5に示すヒストグラム手法に関するさらなる詳細は、「一般化された基準関数を使用して音量マップを計算する異なる形式の実施形態2」の章で説明する。
図6は、本明細書に記載のオーディオアナライザによって実行されるパンニング方向情報に基づく寄与判定130を示す。図6aは、第1の入力オーディオ信号のスペクトル領域表現を示し、図6bは、第2の入力オーディオ信号のスペクトル領域表現を示す。図6a1から図6a3.1および図6b1から図6b3.1によれば、同じパンニング方向に対応するスペクトルビンまたはスペクトル帯域が、このパンニング方向の音量情報を計算するために選択される。図6a3.2および図6b3.2は、パンニング方向に対応する周波数ビンまたは周波数帯域だけでなく、影響が少なくなるように重み付けまたはスケーリングされた他の周波数ビンまたは周波数グループも考慮される代替プロセスを示す。図6に関するさらなる詳細は、「パンニングインデックスから導出された窓/選択関数を用いて方向性信号を復元する」の章に記載されている。
一実施形態によれば、方向情報122は、図7aおよび/または図7bに示すように、方向121および時間/周波数タイル123に関連するスケーリング係数を含むことができる。一実施形態によれば、図7aおよび図7bでは、時間/周波数タイル123は、1つの時間ステップまたは時間フレームについてのみ示されている。図7aは、例えば、図6a1~図6a3.1および図6b1~図6b3.1に関して説明したように、特定の(例えば、所定の)方向121に寄与する時間/周波数タイル123のみが考慮されるスケーリング係数を示す。あるいは、図7bでは、隣接する方向も考慮されるが、隣接する方向に対するそれぞれの時間/周波数タイル123の影響を低減するようにスケーリングされる。図7bによれば、時間/周波数タイル123は、関連する方向からの偏差が増加するにつれてその影響が低減されるようにスケーリングされる。代わりに、図6a3.2および図6b3.2では、異なるパンニング方向に対応するすべての時間/周波数タイルが等しくスケーリングされる。異なるスケーリングまたは重み付けが可能である。スケーリングに応じて、オーディオアナライザの分析結果の精度を向上させることができる。
図8は、オーディオ類似度評価器200の一実施形態を示す。オーディオ類似度評価器200は、第1の音量情報142
1(例えば、L
1(m,
))および第2の音量情報142
2(例えば、L
2(m,
))を取得するように構成されている。第1の音量情報142
1は、2つ以上の入力オーディオ信号の第1のセット112a(例えば、iε[1;n]の場合x
L、x
R、またはx
i)に基づいて異なる方向(例えば、所定のパンニング方向
)に関連付けられ、第2の音量情報142
2は、基準オーディオ信号のセット112b(例えば、iε[1;n]のx
2,R、x
2,L、x
2,i)によって表すことができる2つ以上の入力オーディオ信号の第2のセットに基づいて異なる方向に関連付けられる。入力オーディオ信号の第1のセット112aおよび基準オーディオ信号のセット112bは、n個のオーディオ信号を含むことができ、nは2以上の整数を表す。入力オーディオ信号の第1のセット112aおよび基準オーディオ信号のセット112bの各オーディオ信号は、聴取空間内の異なる位置に配置された異なるスピーカに関連付けることができる。第1の音量情報142
1および第2の音量情報142
2は、聴取空間(例えば、スピーカ位置またはスピーカ位置の間)内の音量分布を表すことができる。一実施形態によれば、第1の音量情報142
1および第2の音量情報142
2は、聴取空間内の離散的な位置または方向の音量値を含む。異なる方向は、どのセットが計算されるべき音量情報に対応するかに応じて、オーディオ信号のセット112aまたは112bの1つ専用のオーディオ信号のパンニング方向に関連付けることができる。
第1の音量情報1421および第2の音量情報1422は、音量情報決定100によって決定することができ、これはオーディオ類似度評価器200によって実行することができる。一実施形態によれば、音量情報決定100は、オーディオアナライザによって実行することができる。したがって、例えば、オーディオ類似度評価器200は、オーディオアナライザを備えることができ、または外部オーディオアナライザから第1の音量情報1421および/もしくは第2の音量情報1422を受信することができる。一実施形態によれば、オーディオアナライザは、図1~図4bのオーディオアナライザに関して説明したような特徴および/または機能を備えることができる。あるいは、第1の音量情報1421のみが音量情報決定100によって決定され、第2の音量情報1422は、基準音量情報を有するデータバンクからオーディオ類似度評価器200によって受信または取得される。一実施形態によれば、データバンクは、異なるスピーカ設定および/またはスピーカ構成および/または異なるセットの基準オーディオ信号112bの基準音量情報マップを含むことができる。
一実施形態によれば、基準オーディオ信号112bのセットは、聴取空間内の聴取者による最適化されたオーディオ知覚のための理想的なオーディオ信号のセットを表すことができる。
一実施形態によれば、第1の音量情報142
1(例えば、L
1(m,
)からL
1(m,
)を含むベクトル)および/または第2の音量情報142
2(例えば、L
2(m,
)からL
2(m,
)を含むベクトル)は、それぞれの入力オーディオ信号に関連する(例えば、入力オーディオ信号の第1のセット112aに対応する入力オーディオ信号、または、基準オーディオ信号のセット112bに対応する(また、それぞれの所定の方向に関連する))複数の合成音量値を含むことができる。それぞれの所定の方向は、パンニングインデックスを表すことができる。各入力オーディオ信号は、例えばスピーカに関連付けられているため、それぞれの所定の方向は、それぞれのスピーカ間の等間隔の位置として理解することができる(例えば、隣接するスピーカおよび/または他のスピーカ対の間)。言い換えれば、オーディオ類似度評価器200は、入力オーディオ信号に関連するスピーカの位置情報を表すメタデータを使用して、異なる方向(例えば、本明細書に記載の第2の方向)を有する音量情報142
1および/または142
2を取得するために使用される方向成分(例えば、本明細書に記載の第1の方向)を取得するように構成される。第1の音量情報142
1および/または第2の音量情報142
2の合成音量値は、それぞれの所定の方向に関連する入力オーディオ信号112aおよび112bのそれぞれのセットの信号成分の音量を記述している。第1の音量情報142
1および/または第2の音量情報142
2は、それぞれの所定の方向と関連付けられた複数の重み付けスペクトル領域表現の組み合わせと関連付けられている。
オーディオ類似度評価器200は、2つ以上の入力オーディオ信号の第1のセット112aと2つ以上の基準オーディオ信号のセット112bとの間の類似度を記述する類似度情報210を得るために、第1の音量情報1421を第2の音量情報1422と比較するように構成されている。これは、音量情報比較ユニット220によって実行することができる。類似度情報210は、入力オーディオ信号の第1のセット112aの質を示すことができる。類似度情報210に基づいて入力オーディオ信号の第1のセット112aの知覚の予測をさらに改善するために、第1の音量情報1421および/または第2の音量情報1422の周波数帯域のサブセットのみを考慮することができる。一実施形態によれば、第1の音量情報1421および/または第2の音量情報1422は、1.5kHz以上の周波数を有する周波数帯域についてのみ決定される。したがって、比較される音量情報1421および1422は、人間の聴覚系の感度に基づいて最適化することができる。したがって、音量情報比較ユニット220は、関連する周波数帯域の音量値のみを含む音量情報1421および1422を比較するように構成される。関連する周波数帯域は、所定のレベルの差に対する所定の閾値よりも高い(例えば、人間の耳)感度に対応する周波数帯域に関連付けることができる。
類似度情報210を取得するために、例えば、第2の音量情報1422と第1の音量情報1421との差が計算される。
この差は、残差音量情報を表すことができ、類似度情報210を既に定義することができる。あるいは、残渣音量情報は、類似度情報210を取得するためにさらに処理される。一実施形態によれば、オーディオ類似度評価器200は、複数の方向にわたる差を定量化する値を決定するように構成される。この値は、類似度情報210を表す単一のスカラ値とすることができる。スカラ値を受信するために、音量情報比較ユニット220は、入力オーディオ信号の第1のセット112aおよび/または基準オーディオ信号のセット112bの部分または完全な持続時間の差を計算し、次いで、得られた残差音量情報をすべてのパンニング方向(例えば、第1の音量情報1421および/または第2の音量情報1422が関連付けられている異なる方向)にわたって平均化し、単一の番号が付けられたモデル出力変数(MOV)を生成するように構成することができる。
図9は、基準ステレオ入力信号112bおよび分析対象ステレオ信号112a(例えば、この場合、被試験信号(SUT))に基づいて類似度情報210を計算するためのオーディオ類似度評価器200の一実施形態を示す。一実施形態によれば、オーディオ類似度評価器200は、図8のオーディオ類似度評価器に関して説明したような特徴および/または機能を含むことができる。2つのステレオ信号112aおよび112bは、周辺耳モデル116によって処理されて、ステレオ入力オーディオ信号112aおよび112bのスペクトル領域表現110aおよび110bを取得することができる。
一実施形態によれば、次のステップにおいて、ステレオ信号112aおよび112bのオーディオ成分をそれらの方向情報について分析することができる。異なるパンニング方向125を予め決定することができ、方向依存重み付け1271から1277を得るためにウィンドウ幅128と組み合わせることができる。方向依存重み付け127ならびにそれぞれのステレオ入力信号112aおよび/または112bのスペクトル領域表現110aおよび/または110bに基づいて、パンニングインデックス方向分解130を実行して、寄与132aおよび/または132bを得ることができる。一実施形態によれば、寄与132aおよび/または132bは、次に、例えば、周波数帯域およびパンニング方向ごとに音量145aおよび/または145bを取得するために音量計算144によって処理される。一実施形態によれば、音量情報比較220のための方向性音量マップ142aおよび/または142bを取得するために、音量信号145bおよび/または145aに対してERBごとの周波数平均化146(ERB=等価矩形帯域幅)が実行される。音量情報比較220は、例えば、2つの方向性音量マップ142aおよび142bに基づいて距離尺度を計算するように構成される。距離尺度は、2つの方向性音量マップ142aと142bとの間の差を含む方向性音量マップを表すことができる。一実施形態によれば、すべてのパンニング方向および時間にわたって距離尺度を平均化することによって、単一の番号が付けられたモデル出力変数MOVを類似度情報210として取得することができる。
図10cは、図10aに示される方向性音量マップ142bと図10bに示される方向性音量マップ142aとの音量差を示す方向性音量マップ210によって表される、図9に記載されるような距離尺度または図8に記載されるような類似度情報を示す。図10a~図10cに示す方向性音量マップは、例えば、経時的な音量値およびパンニング方向を表す。図10aに示す方向性音量マップは、基準値入力信号に対応する音量値を表すことができる。この方向性音量マップは、図9で説明したように、または図1~図4bで説明したオーディオアナライザによって計算することができ、あるいはデータベースから取り出すことができる。図10bに示す方向性音量マップは、例えば、試験中のステレオ信号に対応し、図1~図4bおよび図8または図9で説明したようにオーディオアナライザによって決定された音量情報を表すことができる。
図11は、1つまたは複数の入力オーディオ信号(例えば、xi)を含む入力オーディオコンテンツ112を符号化310するためのオーディオエンコーダ300を示す。入力オーディオコンテンツ112は、好ましくは、ステレオ信号またはマルチチャネル信号などの複数の入力オーディオ信号を含む。オーディオエンコーダ300は、1つまたは複数の入力オーディオ信号112に基づいて、または任意選択の処理330によって1つまたは複数の入力オーディオ信号112から導出された1つまたは複数の信号110に基づいて、1つまたは複数の符号化オーディオ信号320を提供するように構成される。したがって、1つまたは複数の入力オーディオ信号112またはそれから導出された1つまたは複数の信号110のいずれかが、オーディオエンコーダ300によって符号化される(310)。処理330は、中間/サイド処理、ダウンミックス/差処理、時間領域からスペクトル領域への変換、および/または耳モデル処理を含むことができる。符号化310は、例えば、量子化、次いで可逆符号化を含む。
オーディオエンコーダ300は、複数の異なる方向(例えば、所定の方向または符号化されるべき1つまたは複数の信号112の方向)に関連する音量情報を表す、1つまたは複数の方向性音量マップ142(例えば、複数の異なる
についてのL
i(m,
))に応じて符号化パラメータを適合340させるように構成される。一実施形態によれば、符号化パラメータは、量子化パラメータおよび/またはビット分布などの他の符号化パラメータおよび/または符号化310の無効化/有効化に関するパラメータを含む。
一実施形態によれば、オーディオエンコーダ300は、入力オーディオ信号112に基づいて、または処理された入力オーディオ信号110に基づいて、方向性音量マップ142を取得するために音量情報決定100を実行するように構成される。したがって、例えば、オーディオエンコーダ300は、図1~図4bに関して説明したようなオーディオアナライザ100を備えることができる。あるいは、オーディオエンコーダ300は、音量情報決定100を実行する外部オーディオアナライザから方向性音量マップ142を受信することができる。一実施形態によれば、オーディオエンコーダ300は、入力オーディオ信号112および/または処理された入力オーディオ信号110に関連する複数の方向性音量マップ142を取得することができる。
一実施形態によれば、オーディオエンコーダ300は、ただ1つの入力オーディオ信号112を受信することができる。この場合、方向性音量マップ142は、例えば、一方向のみの音量値を含む。一実施形態によれば、方向性音量マップ142は、入力オーディオ信号112に関連付けられた方向とは異なる方向について0に等しい音量値を含むことができる。ただ1つの入力オーディオ信号112の場合、オーディオエンコーダ300は、符号化パラメータの適合340が実行されるべきかどうかを、方向性音量マップ142に基づいて決定することができる。したがって、例えば、符号化パラメータの適合340は、モノラル信号のための標準的な符号化パラメータに対する符号化パラメータの設定を含むことができる。
オーディオエンコーダ300が入力オーディオ信号112としてステレオ信号またはマルチチャネル信号を受信する場合、方向性音量マップ142は、異なる方向(例えば、0とは異なる)の音量値を含むことができる。ステレオ入力オーディオ信号の場合、オーディオエンコーダ300は、例えば、2つの入力オーディオ信号112に関連付けられた一方の方向性音量マップ142を取得する。マルチチャネル入力オーディオ信号112の場合、オーディオエンコーダ300は、例えば、入力オーディオ信号112に基づいて、1つまたは複数の方向性音量マップ142を取得する。マルチチャネル信号112がオーディオエンコーダ300によって符号化される場合、例えば、すべてのチャネル信号および/または方向性音量マップに基づく全体的な方向性音量マップ142、および/またはマルチチャネル入力オーディオ信号112の信号対に基づく1つまたは複数の方向性音量マップ142を、音量情報決定100によって取得することができる。したがって、例えば、オーディオエンコーダ300は、例えば、信号対、中間信号、サイド信号、ダウンミックス信号、差分信号、および/または3つ以上の信号のグループなどの個々の方向性音量マップ142の、例えば、マルチチャネル入力オーディオ信号112または処理されたマルチチャネル入力オーディオ信号110のすべての信号に関連付けられた複数の入力オーディオ信号に関連付けられた全体的な方向性音量マップ142への寄与に応じて、符号化パラメータの適合340を実行するように構成することができる。
図11に関して説明した音量情報決定100は例示的なものであり、以下のすべてのオーディオエンコーダまたはデコーダによって同一または同様に実行することができる。
図12は、図11のオーディオエンコーダに関して説明した特徴および/または機能を含むことができるオーディオエンコーダ300の一実施形態を示す。一実施形態によれば、符号化310は、例えばエントロピー符号化のような、量子化器312による量子化および符号化ユニット314による符号化を含むことができる。したがって、例えば、符号化パラメータ340の適合は、量子化パラメータ342の適合および符号化パラメータの適合344を含むことができる。オーディオエンコーダ300は、例えば、符号化された2つ以上の入力オーディオ信号を含む符号化オーディオコンテンツ320を提供するために、例えば、2つ以上の入力オーディオ信号を含む入力オーディオコンテンツ112を符号化310するように構成される。この符号化310は、例えば、入力オーディオコンテンツ112および/または入力オーディオコンテンツ112の符号化バージョン320であるか、またはそれに基づく、方向性音量マップ142または複数の方向性音量マップ142(例えば、L
i(m,
))に依存する。
一実施形態によれば、入力オーディオコンテンツ112は、前に直接符号化310されるか、または任意選択的に処理330され得る。既に上述したように、オーディオエンコーダ300は、処理330によって入力オーディオコンテンツ112の1つまたは複数の入力オーディオ信号のスペクトル領域表現110を決定するように構成されることが可能である。あるいは、処理330は、スペクトル領域表現110を受信するために時間領域からスペクトル領域への変換を受けることができる、入力オーディオコンテンツ112の1つまたは複数の信号を導出するためのさらなる処理ステップを備えることができる。一実施形態によれば、処理330によって導出された信号は、例えば、中間信号またはダウンミックス信号およびサイド信号または差分信号を含むことができる。
一実施形態によれば、入力オーディオコンテンツ112またはスペクトル領域表現110の信号は、量子化器312による量子化を受けることができる。量子化器312は、例えば、1つ以上の量子化パラメータを用いて1つ以上の量子化スペクトル領域表現313を得る。この1つ以上の量子化されたスペクトル領域表現313は、符号化されたオーディオコンテンツ320の1つ以上の符号化されたオーディオ信号を得るために、符号化ユニット314によって符号化されることが可能である。
オーディオエンコーダ300による符号化310を最適化するために、オーディオエンコーダ300は、量子化パラメータを適合342させるように構成することができる。量子化パラメータは、例えば、量子化されるべき1つまたは複数の信号の周波数帯域のどのスペクトルビンにどの量子化精度または量子化ステップを適用すべきかを記述するスケール係数またはパラメータを含む。一実施形態によれば、量子化パラメータは、例えば、量子化される異なる信号および/または異なる周波数帯域へのビットの割り当てを記述する。量子化パラメータの適合342は、量子化精度の適合および/またはエンコーダ300によって導入されるノイズの適合として、および/またはオーディオエンコーダ300によって符号化されるべき1つまたは複数の信号112/110および/またはパラメータ間のビット分布の適合として理解することができる。言い換えれば、オーディオエンコーダ300は、ビット分布を適合させるために、量子化精度を適合させるために、および/またはノイズを適合させるために、1つまたは複数の量子化パラメータを調整するように構成される。さらに、量子化パラメータおよび/またはコーディングパラメータは、オーディオエンコーダによって符号化することができる(310)。
一実施形態によれば、量子化パラメータの適合342および符号化パラメータの適合344のような符号化パラメータの適合340は、量子化されるべき1つまたは複数の信号112/110の複数の異なる方向、パンニング方向に関連する音量情報を表す、1つまたは複数の方向性音量マップ142に応じて実行することができる。より正確にするために、適合340は、符号化されるべき1つまたは複数の信号の個々の方向性音量マップ142の全体的な方向性音量マップ142への寄与に応じて実行することができる。これは、図11に関して説明したように実行することができる。したがって、例えば、ビット分布の適合、量子化精度の適合、および/またはノイズの適合は、符号化されるべき1つまたは複数の信号112/110の個々の方向性音量マップの全体的な方向性音量マップへの寄与に応じて実行することができる。これは、例えば、適合342による1以上の量子化パラメータの調整によって行われる。
一実施形態によれば、オーディオエンコーダ300は、入力オーディオ信号112、またはスペクトル領域表現110に基づいて全体的な方向性音量マップを決定するように構成され、これにより、全体的な方向性音量マップは、入力オーディオコンテンツ112によって表されるオーディオシーンの、例えばオーディオコンポーネントの異なる方向に関連する音量情報を表す。あるいは、全体的な方向性音量マップは、例えば、デコーダ側レンダリング後に表現されるオーディオシーンの異なる方向に関連する音量情報を表すことができる。一実施形態によれば、異なる方向は、場合によってはスピーカの位置に関する知識またはサイド情報および/またはオーディオオブジェクトの位置を記述する知識またはサイド情報と組み合わせて、音量情報決定100によって取得することができる。この知識またはサイド情報は、量子化される1つまたは複数の信号112/110に基づいて取得することができ、これは、これらの信号112/110が、例えば、固定された信号依存のない方法で、異なる方向で、または異なるスピーカで、または異なるオーディオオブジェクトで関連付けられるためである。信号は、例えば、異なる方向(例えば、本明細書に記載の第1の方向)の方向として解釈することができる特定のチャネルに関連付けられる。一実施形態によれば、1つまたは複数の信号のオーディオオブジェクトは、異なる方向にパンニングされるか、または異なる方向にレンダリングされ、これはオブジェクトレンダリング情報として音量情報決定100によって取得することができる。この知識またはサイド情報は、入力オーディオコンテンツ112またはスペクトル領域表現110の2つ以上の入力オーディオ信号のグループについての音量情報決定100によって得ることができる。
一実施形態によれば、量子化される信号112/110は、2つ以上の入力オーディオ信号112のジョイントマルチ信号コーディングの成分、例えば、中間サイドステレオコーディングの中間信号およびサイド信号を備えることができる。したがって、オーディオエンコーダ300は、ジョイントマルチ信号コーディングの1つまたは複数の残差信号の方向性音量マップ142の全体的な方向性音量マップ142への前述の寄与を推定し、それに応じて1つまたは複数の符号化パラメータ340を調整するように構成される。
一実施形態によれば、オーディオエンコーダ300は、符号化されるべき1つまたは複数の信号112/110および/またはパラメータ間のビット分布を適合させるように、および/または符号化されるべき1つまたは複数の信号112/110の量子化精度を適合させるように、および/またはエンコーダ300によって導入されたノイズを、異なるスペクトルビンに対して個別に、または異なる周波数帯域に対して個別に適合させるように構成される。これは、例えば、量子化パラメータの適合342が、符号化310が個々のスペクトルビンまたは個々の異なる周波数帯域に対して改善されるように実行されることを意味する。
一実施形態によれば、オーディオエンコーダ300は、符号化されるべき2つ以上の信号間の空間マスキングの評価に応じて、符号化されるべき1つ以上の信号112/110および/またはパラメータ間のビット分布を適合させるように構成される。オーディオエンコーダは、例えば、符号化されるべき2つ以上の信号112/110に関連する方向性音量マップ142に基づいて空間マスキングを評価するように構成される。追加的または代替的に、オーディオエンコーダは、符号化されるべき第1の信号の第1の方向に関連する音量寄与の空間マスキングまたはマスキング効果を、符号化されるべき第2の信号の、第1の方向とは異なる第2の方向に関連する音量寄与に対して評価するように構成される。一実施形態によれば、第1の方向に関連する音量寄与は、例えば、入力されたオーディオコンテンツの信号のオーディオオブジェクトまたはオーディオ成分の音量情報を表すことができ、第2の方向に関連する音量寄与は、例えば、入力されたオーディオコンテンツの信号の別のオーディオオブジェクトまたはオーディオ成分に関連する音量情報を表すことができる。第1の方向に関連する音量寄与および第2の方向に関連する音量寄与の音量情報に応じて、および第1の方向と第2の方向との間の距離に応じて、マスキング効果または空間マスキングを評価することができる。一実施形態によれば、マスキング効果は、第1の方向と第2の方向との間の角度の差が大きくなるにつれて低減する。同様に、時間マスキングを評価することができる。
一実施形態によれば、量子化パラメータの適合342は、入力オーディオコンテンツ112の符号化バージョン320によって達成可能な方向性音量マップに基づいて、エンコーダ300によって導入されたノイズを適合させるために、オーディオエンコーダ300によって実行することができる。したがって、オーディオエンコーダ300は、例えば、所与の符号化されていない入力オーディオ信号112/110(または、複数の入力オーディオ信号)に関連付けられる方向性音量マップ142と、所与の入力オーディオ信号112/110(または、複数の入力オーディオ信号)の符号化バージョン320によって達成可能な方向性音量マップとの間の偏差を、符号化されたオーディオコンテンツ320の所与の符号化されたオーディオ信号または複数のオーディオ信号の提供を適合させるための基準として使用するように構成される。この偏差は、エンコーダ300の符号化310の質を表すことができる。したがって、エンコーダ300は、偏差が特定の閾値を下回るように符号化パラメータを適合340させるように構成することができる。したがって、フィードバックループ322は、符号化されたオーディオコンテンツ320の方向性音量マップ142と、符号化されていない入力オーディオコンテンツ112または符号化されていないスペクトル領域表現110の方向性音量マップ142とに基づいて、オーディオエンコーダ300による符号化310を改善するように実現される。一実施形態によれば、フィードバックループ322において、符号化されたオーディオコンテンツ320は復号され、復号されたオーディオ信号に基づいて音量情報決定100を実行する。あるいは、符号化されたオーディオコンテンツ320の方向性音量マップ142が、ニューロンネットワーク(例えば、予測)によって実現されるフィードフォワードによって達成されることも可能である。
一実施形態によれば、オーディオエンコーダは、符号化されたオーディオコンテンツ320の1つまたは複数の符号化されたオーディオ信号の提供を適合させるために、適合342によって1つまたは複数の量子化パラメータを調整するように構成される。
一実施形態によれば、符号化パラメータの適合340は、符号化310を無効または有効にするために、および/または例えば符号化ユニット314によって使用されるジョイントコーディングツールをアクティブ化および非アクティブ化するために実行することができる。これは、例えば、符号化パラメータの適合344によって実行される。一実施形態によれば、コーディングパラメータの適合344は、量子化パラメータの適合342と同じ考慮事項に依存することができる。したがって、一実施形態によれば、オーディオエンコーダ300は、全体的な方向性音量マップに対する、符号化されるべき信号の所与の一方の個々の方向性音量マップ142の寄与(または、例えば、符号化される信号の対または符号化される3つ以上の信号のグループの方向性音量マップ142の寄与)が閾値を下回るとき、符号化されるべき信号の所与の一方、例えば残差信号の符号化310を無効にするように構成される。したがって、オーディオエンコーダ300は、関連情報のみを効果的に符号化310するように構成される。
一実施形態によれば、符号化ユニット314のジョイント符号化ツールは、例えば、M/S(中間/サイド信号)オン/オフ決定を行うために、入力オーディオ信号112またはそれから導出された信号110のうちの2つ以上を一緒に符号化するように構成される。符号化パラメータの適合344は、符号化されるべき1つまたは複数の信号112/110の複数の異なる方向に関連する音量情報を表す、1つまたは複数の方向性音量マップ142に応じてジョイント符号化ツールがアクティブ化または非アクティブ化されるように実行することができる。代替的または追加的に、オーディオエンコーダ300は、ジョイントコーディングツールの1つまたは複数のパラメータを、1つまたは複数の方向性音量マップ142に応じてコーディングパラメータとして決定するように構成することができる。したがって、符号化パラメータの適合344により、例えば、周波数依存予測係数の平滑化を制御して、例えば、「強度ステレオ」ジョイントコーディングツールのパラメータを設定することができる。
一実施形態によれば、量子化パラメータおよび/またはコーディングパラメータは、制御パラメータとして理解することができ、制御パラメータは、1つまたは複数の符号化されたオーディオ信号320の提供を制御することができる。したがって、オーディオエンコーダ300は、1つまたは複数の符号化信号320の方向性音量マップ142に対する1つまたは複数の制御パラメータの変動の影響を決定または推定し、影響の決定または推定に応じて1つまたは複数の制御パラメータを調整するように構成される。これは、上述したように、フィードバックループ322および/またはフィードフォワードによって実現することができる。
図13は、1つまたは複数の入力オーディオ信号1121、1122を含む入力オーディオコンテンツ112を符号化310するためのオーディオエンコーダ300を示す。好ましくは、図13に示すように、入力オーディオコンテンツ112は、2つ以上の入力オーディオ信号1121、1122などの複数の入力オーディオ信号を含む。一実施形態によれば、入力オーディオコンテンツ112は、時間領域信号またはスペクトル領域信号を含むことができる。任意選択的に、入力オーディオコンテンツ112の信号は、オーディオエンコーダ300によって処理330されて、第1候補信号1101および/または第2候補信号1102のような候補信号を決定することができる。処理330は、例えば、入力オーディオ信号112が時間領域信号である場合、時間領域からスペクトル領域への変換を含むことができる。
オーディオエンコーダ300は、方向性音量マップ142に応じて、複数の候補信号110の中から、または候補信号110の複数の対の中から、一緒に符号化310される信号を選択するように構成される350。方向性音量マップ142は、候補信号110または候補信号の対110および/または所定の方向の複数の異なる方向、例えばパンニング方向に関連する音量情報を表す。
一実施形態によれば、方向性音量マップ142は、本明細書で説明するように音量情報決定100によって計算することができる。したがって、音量情報決定100は、図11または図12で説明したオーディオエンコーダ300に関して説明したように実装することができる。方向性音量マップ142は候補信号110に基づいており、候補信号は、オーディオエンコーダ300によって処理330が適用されない場合、入力オーディオコンテンツ112の入力オーディオ信号を表す。
入力オーディオコンテンツ112がただ1つの入力オーディオ信号を含む場合、この信号は、例えば、符号化オーディオコンテンツ320として1つの符号化オーディオ信号を提供するためにエントロピー符号化を使用して、オーディオエンコーダ300によって符号化されるように信号選択350によって選択される。この場合、例えば、オーディオエンコーダは、ジョイント符号化310を無効にし、ただ1つの信号の符号化に切り替えるように構成される。
入力オーディオコンテンツ112が、X1およびX2として記述することができる2つの入力オーディオ信号1121および1122を含む場合、符号化されたオーディオコンテンツ320において1つまたは複数の符号化された信号を提供するために、両方の信号1121および1122が、ジョイント符号化310のためにオーディオエンコーダ300によって選択される(350)。したがって、符号化されたオーディオコンテンツ320は、任意選択的に、中間信号およびサイド信号、またはダウンミックス信号および差分信号、またはこれらの4つの信号のうちのただ1つを含む。
入力オーディオコンテンツ112が3つ以上の入力オーディオ信号を含む場合、信号選択350は、候補信号110の方向性音量マップ142に基づく。一実施形態によれば、オーディオエンコーダ300は、信号選択350を使用して複数の候補信号110から一方の信号対を選択するように構成され、そのために、方向性音量マップ142に従って、効率的なオーディオコーディングおよび高質オーディオ出力を実現することができる。代替的または追加的に、信号選択350が、合同で符号化310される候補信号110のうちの3つ以上の信号を選択することも可能である。代替的または追加的に、オーディオエンコーダ300は、ジョイント符号化310のための複数の信号対または信号グループを選択するために信号選択350を使用することが可能である。符号化される信号352の選択350は、2つ以上の信号の組み合わせの個々の方向性音量マップ142の全体的な方向性音量マップへの寄与に依存し得る。一実施形態によれば、全体的な方向性音量マップは、複数の選択された入力オーディオ信号または入力オーディオコンテンツ112の各信号に関連付けられる。この信号選択350がオーディオエンコーダ300によってどのように実行され得るかは、3つの入力オーディオ信号を含む入力オーディオコンテンツ112について図14に例示的に記載されている。
したがって、オーディオエンコーダ300は、結合して符号化されるべき2つ以上の信号352のジョイント符号化310を使用して、2つ以上の入力オーディオ信号1121、1122に基づいて、またはそこから導出される2つ以上の信号1101、1102に基づいて、1つ以上の符号化された、例えば量子化され、次いで可逆的に符号化されたオーディオ信号、例えば符号化されたスペクトル領域表現を提供するように構成される。
一実施形態によれば、オーディオエンコーダ300は、例えば、2つ以上の候補信号の個々の方向性音量マップ142を決定し、2つ以上の候補信号の個々の方向性音量マップ142を比較するように構成される。さらに、オーディオエンコーダは、例えば、その個々の音量マップが最大類似度または類似度閾値よりも高い類似度を含む候補信号がジョイント符号化のために選択されるように、比較の結果に応じてジョイント符号化のための候補信号のうちの2つ以上を選択するように構成される。この最適化された選択により、非常に効率的な符号化を実現することができ、それは、一緒に符号化される信号の高い類似度が、わずか数ビットを使用する符号化をもたらすことができるからである。これは、例えば、選択された候補対のダウンミックス信号または残差信号を一緒に効率的に符号化することができることを意味する。
図14は、図13のオーディオエンコーダ300のような、本明細書に記載の任意のオーディオエンコーダ300によって実行することができる信号選択350の一実施形態を示す。オーディオエンコーダは、図14に示すように信号選択350を使用するか、または記載された信号選択350を3つを超える入力オーディオ信号に適用して、候補信号の個々の方向性音量マップが全体的な方向性音量マップ142bに寄与することに応じて、または図14に示すように、候補信号の対の方向性音量マップ142a1から142a3が、全体的な方向性音量マップ142bに寄与することに応じて、複数の候補信号から、または候補信号の複数の対から合同で符号化される信号を選択するように構成することができる。
図14によれば、可能な各信号対について、例えば、方向性音量マップ142a1から142a3が信号選択350によって受信され、入力オーディオコンテンツの3つすべての信号に関連する全体的な方向性音量マップ142bが信号選択ユニット350によって受信される。方向性音量マップ142、例えば、信号対142a1~142a3の方向性音量マップおよび全体的な方向性音量マップ142bは、オーディオアナライザから受信することができ、またはオーディオエンコーダによって決定することができ、信号選択350のために提供することができる。一実施形態によれば、全体的な方向性音量マップ142bは、例えば、オーディオエンコーダによる処理の前に、例えば入力されたオーディオコンテンツによって表される全体的なオーディオシーンを表すことができる。一実施形態によれば、全体的な方向性音量マップ142bは、入力オーディオ信号1121から1123によって、例えばデコーダ側レンダリング後に表現される、または表現されるべきオーディオシーンの、例えばオーディオ成分の異なる方向に関連する音量情報を表す。全体的な方向性音量マップは、例えば、DirLoudMap(1,2,3)として表される。一実施形態によれば、全体的な方向性音量マップ142bは、入力オーディオ信号1121から1123のダウンミックスを使用して、または入力オーディオ信号1121から1123のバイノーラル化を使用して、オーディオエンコーダによって決定される。
図14は、第1の入力オーディオ信号1121、第2の入力オーディオ信号1122、または第3の入力オーディオ信号1123に関連付けられた、それぞれの3つのチャネルCH1からCH3の信号選択350を示す。第1の方向性音量マップ142a1、例えばDirLoudMap(1,2)は、第1の入力オーディオ信号1121および第2の入力オーディオ信号1122に基づき、第2の方向性音量マップ142a2、例えばDirLoudMap(2,3)は、第2の入力オーディオ信号1122および第3の入力オーディオ信号1123に基づき、第3の方向性音量マップ142a3、例えばDirLoudMap(1,3)は、第1の入力オーディオ信号1121および第3の入力オーディオ信号1123に基づく。
一実施形態によれば、各方向性音量マップ142は、異なる方向に関連する音量情報を表す。異なる方向は、LとRとの間の線によって図14に示されており、Lは左側へのオーディオコンポーネントのパンニングに関連付けられており、Rは右側へのオーディオコンポーネントのパンニングに関連付けられている。したがって、異なる方向は、左側および右側ならびに左側と右側との間の方向または角度を含む。図14に示す方向性音量マップ142は図として表されているが、代替的に、方向性音量マップ142を、図5に示すような方向性音量ヒストグラム、または図10aから図10cに示すような行列によって表すことも可能である。方向性音量マップ142に関連する情報のみが信号選択350に関連し、グラフィカル表現は理解の向上のためのものにすぎないことは明らかである。
一実施形態によれば、信号選択350は、候補信号の対の全体的な方向性音量マップ142bへの寄与が決定されるように実行される。全体的な方向性音量マップ142bと候補信号の対の方向性音量マップ142a1~142a3との間の関係は、次式によって記述することができる。
DirLoudMap(1,2,3)=a*DirLoudMap(1,2,3)+b*DirLoudMap(2,3)+c*DirLoudMap(1,3)。
信号選択を使用するオーディオエンコーダによって決定される寄与は、係数a、b、およびcによって表すことができる。
一実施形態によれば、オーディオエンコーダは、ジョイント符号化のための全体的な方向性音量マップ142bへの最大の寄与を有する候補信号1121から1123の1つまたは複数の対を選択するように構成される。これは、例えば、候補信号の対が、係数a、bおよびcのうちの最高係数と関連付けられる信号選択350によって選択されることを意味する。
あるいは、オーディオエンコーダは、ジョイント符号化のための所定の閾値よりも大きい、全体的な方向性音量マップ142bへの寄与を有する候補信号1121から1123の1つまたは複数の対を選択するように構成される。これは、例えば、所定の閾値が選択され、各係数a、b、cが所定の閾値と比較されて、所定の閾値よりも大きい係数に関連付けられた各信号対が選択されることを意味する。
一実施形態によれば、寄与は0%~100%の範囲内とすることができ、これは例えば、係数a、bおよびcについて0~1の範囲を意味する。100%の寄与は、例えば、全体的な方向性音量マップ142bと正確に等しい方向性音量マップ142aに関連付けられる。一実施形態によれば、所定の閾値は、入力されたオーディオコンテンツにいくつの入力オーディオ信号が含まれるかに依存する。一実施形態によれば、所定の閾値は、少なくとも35%または少なくとも50%または少なくとも60%または少なくとも75%の寄与として定義することができる。
一実施形態によれば、所定の閾値は、ジョイント符号化のために信号選択350によって選択されなければならない信号の数に依存する。例えば、少なくとも2つの信号対を選択しなければならない場合、2つの信号対を選択することができ、これらの信号対は、全体的な方向性音量マップ142bへの寄与が最も高い方向性音量マップ142aに関連付けられる。これは、例えば、寄与度が最も高く、次に寄与度が高い信号対が選択されること350を意味する。
方向性音量マップの比較は、聴取者による符号化されたオーディオ信号の知覚の質を示すことができるので、オーディオエンコーダによって符号化される信号の選択を方向性音量マップ142に基づくようにすることが有利である。一実施形態によれば、信号選択350は、信号対または複数の信号対が選択されるようにオーディオエンコーダによって実行され、それらの方向性音量マップ142aは、全体的な方向性音量マップ142bに最も類似している。これは、すべての入力オーディオ信号の知覚と比較して、選択された1つまたは複数の候補対の同様の知覚をもたらすことができる。これにより、符号化されたオーディオコンテンツの質を向上させることができる。
図15は、1つまたは複数の入力オーディオ信号を含む入力オーディオコンテンツ112を符号化310するためのオーディオエンコーダ300の一実施形態を示す。好ましくは、2つ以上の入力オーディオ信号がオーディオエンコーダ300によって符号化310される。オーディオエンコーダ300は、2つ以上の入力オーディオ信号112に基づいて、またはそこから導出される2つ以上の信号110に基づいて、1以上の符号化オーディオ信号320を提供するように構成される。信号110は、任意選択の処理330によって入力オーディオ信号112から導出することができる。一実施形態によれば、任意選択の処理330は、本明細書に記載の他のオーディオエンコーダ300に関して説明したような特徴および/または機能を含むことができる。符号化310により、符号化される信号は、例えば量子化された後、可逆的に符号化される。
オーディオエンコーダ300は、入力オーディオ信号112に基づいて全体的な方向性音量マップを決定100するように、および/または個々の入力オーディオ信号112に関連する1つまたは複数の個々の方向性音量マップ142を決定100するように構成される。全体的な方向性音量マップはL(m,φ0,j)で表すことができ、個々の方向性音量マップはLi(m,φ0,j)で表すことができる。一実施形態によれば、全体的な方向性音量マップは、シーンの目標方向性音量マップを表すことができる。言い換えれば、全体的な方向性音量マップは、符号化されたオーディオ信号の組み合わせに対する所望の方向性音量マップと関連付けることができる。追加的または代替的に、信号対または3つ以上の信号のグループの方向性音量マップLi(m,φ0,j)をオーディオエンコーダ300によって決定100することができる。
オーディオエンコーダ300は、全体的な方向性音量マップ142および/または1つもしくは複数の個々の方向性音量マップ142および/または3つ以上の入力オーディオ信号112の信号対もしくはグループの1つもしくは複数の方向性音量マップをサイド情報として符号化310するように構成される。したがって、符号化されたオーディオコンテンツ320は、符号化されたオーディオ信号および符号化された方向性音量マップを含む。一実施形態によれば、符号化310は、1つまたは複数の方向性音量マップ142に依存することができ、それによって、有利なことに、これらの方向性音量マップ142も符号化して、符号化されたオーディオコンテンツ320の高質の復号を可能にする。方向性音量マップ142が符号化されたサイド情報として用いられると、符号化されたオーディオコンテンツ320によって、元々意図された質特性(例えば、符号化310および/またはオーディオデコーダによって達成可能であること)が提供される。
一実施形態によれば、オーディオエンコーダ300は、全体的な方向性音量マップが入力オーディオ信号112によって表されるオーディオシーンの異なる方向、例えばオーディオ成分に関連する音量情報を表すように、入力オーディオ信号112に基づいて全体的な方向性音量マップL(m,φ0,j)を決定100するように構成される。あるいは、全体的な方向性音量マップL(m,φ0,j)は、例えば入力オーディオ信号によるデコーダ側レンダリングの後に表現されるべきオーディオシーンの、例えばオーディオ成分の異なる方向に関連する音量情報を表す。音量情報決定100は、任意選択的に、スピーカの位置に関する知識もしくはサイド情報および/または入力オーディオ信号112内のオーディオオブジェクトの位置を記述する知識もしくはサイド情報と組み合わせて、オーディオエンコーダ300によって実行することができる。
一実施形態によれば、音量情報決定100は、本明細書で説明される他のオーディオエンコーダ300で説明されるように実装することができる。
オーディオエンコーダ300は、例えば、全体的な方向性音量マップL(m,φ0,j)を、異なる方向に関連付けられた値のセット、例えばスカラ値の形式で符号化310するように構成される。一実施形態によれば、値は、周波数帯域の複数の周波数ビンにさらに関連付けられる。全体的な方向性音量マップの離散的な方向における1つまたは複数の各値を符号化することができる。これは、例えば、図10a~図10cに示されるようなカラー行列の各値、または図5に示されるような異なるヒストグラムビンの値、または離散方向についての図14に示されるような方向性音量マップ曲線の値が符号化されることを意味する。
あるいは、オーディオエンコーダ300は、例えば、中心位置値および勾配情報を使用して全体的な方向性音量マップL(m,φ0,j)を符号化するように構成される。中心位置値は、例えば、所与の周波数帯域もしくは周波数ビン、または複数の周波数ビンもしくは周波数帯域の全体的な方向性音量マップの最大値が位置する角度または方向を記述する。勾配情報は、例えば、角度方向における全体的な方向性音量マップの値の勾配を記述する1つまたは複数のスカラ値を表す。勾配情報のスカラ値は、例えば、中心位置値に隣接する方向の全体的な方向性音量マップの値である。中心位置値は、音量情報のスカラ値および/または音量値に対応する方向のスカラ値を表すことができる。
あるいは、オーディオエンコーダは、例えば、多項式表現の形式またはスプライン表現の形式で全体的な方向性音量マップL(m,φ0,j)を符号化するように構成される。
一実施形態によれば、全体的な方向性音量マップL(m,φ0,j)の上述の符号化可能性310は、個々の方向性音量マップLi(m,φ0,j)および/または信号対または3つ以上の信号のグループに関連付けられた方向性音量マップにも適用することができる。
一実施形態によれば、オーディオエンコーダ300は、複数の入力オーディオ信号112および全体的な方向性音量マップL(m,φ0,j)に基づいて得られる1つのダウンミックス信号を符号化するように構成される。任意選択で、ダウンミックス信号に関連付けられた方向性音量マップの全体的な方向性音量マップへの寄与も、例えばサイド情報として符号化される。
あるいは、オーディオエンコーダ300は、例えば、複数の信号、例えば入力オーディオ信号112またはそれから導出された信号110を符号化310し、符号化310された複数の信号112/110の個々の音量マップLi(m,φ0,j)を符号化310するように構成される(例えば、個々の信号、信号対、または3つ以上の信号のグループ)。符号化された複数の信号および符号化された個々の方向性音量マップは、例えば、符号化されたオーディオ表現320に送信されるか、または符号化されたオーディオ表現320に含まれる。
代替の実施形態によれば、オーディオエンコーダ300は、全体的な方向性音量マップL(m,φ0,j)、複数の信号、例えば入力オーディオ信号112またはそれから導出される信号110、および全体的な方向性音量マップに符号化される寄与、例えば信号の相対寄与を記述するパラメータを符号化する(310)ように構成される。一実施形態によれば、パラメータは、図14に記載されるようにパラメータa、bおよびcによって表すことができる。したがって、例えば、オーディオエンコーダ300は、例えば、提供される符号化されたオーディオコンテンツ320の高質復号のための情報を提供するために、符号化310が基づいているすべての情報を符号化310するように構成される。
一実施形態によれば、オーディオエンコーダは、図11~図15で説明したオーディオエンコーダ300のうちの1つまたは複数に関して説明したような個々の特徴および/または機能を含むか、または組み合わせることができる。
図16は、符号化されたオーディオコンテンツ420を復号する410ためのオーディオデコーダ400の一実施形態を示す。符号化されたオーディオコンテンツ420は、1つまたは複数のオーディオ信号の符号化表現422および符号化された方向性音量マップ情報424を含むことができる。
オーディオデコーダ400は、1つまたは複数のオーディオ信号の符号化表現422を受信し、1つまたは複数のオーディオ信号の復号表現412を提供するように構成される。さらに、オーディオデコーダ400は、符号化された方向性音量マップ情報424を受信し、符号化された方向性音量マップ情報424を復号410して、1つまたは複数の復号された方向性音量マップ414を取得するように構成される。復号された方向性音量マップ414は、上述の方向性音量マップ142に関して説明したような特徴および/または機能を含むことができる。
一実施形態によれば、復号410は、AAC様復号を使用して、またはエントロピー符号化されたスペクトル値の復号を使用して、またはエントロピー符号化された音量値の復号を使用して、オーディオデコーダ400によって実行することができる。
オーディオデコーダ400は、1つまたは複数のオーディオ信号の復号表現412を使用し、かつ1つまたは複数の方向性音量マップ414を使用してオーディオシーンを再構成する(430)ように構成される。再構成430に基づいて、マルチチャネル表現のような復号されたオーディオコンテンツ432を、オーディオデコーダ400によって決定することができる。
一実施形態によれば、方向性音量マップ414は、復号されたオーディオコンテンツ432によって達成可能な目標方向性音量マップを表すことができる。したがって、方向性音量マップ414を用いて、オーディオシーン430の再構成を最適化して、復号されたオーディオコンテンツ432の聴取者の高質な知覚をもたらすことができる。これは、方向性音量マップ414が聴取者の所望の知覚を示すことができるという考えに基づいている。
図17は、復号パラメータの適合440の任意選択の特徴を有する図16のエンコーダ400を示す。一実施形態によれば、復号されたオーディオコンテンツは、例えば、時間領域信号またはスペクトル領域信号を表す出力信号432を含むことができる。オーディオデコーダ400は、例えば、出力信号432に関連する1つまたは複数の方向性音量マップが1つまたは複数の目標方向性音量マップに近似または等しくなるように、出力信号432を取得するように構成される。1つまたは複数の目標方向性音量マップは、1つまたは複数の復号された方向性音量マップ414に基づくか、または1つまたは複数の復号された方向性音量マップ414に等しい。任意選択的に、オーディオデコーダ400は、適切なスケーリング、または1つまたは複数の復号された方向性音量マップ414の組み合わせを使用して、1つまたは複数の目標方向性音量マップを決定するように構成される。
一実施形態によれば、出力信号432に関連する1つまたは複数の方向性音量マップは、オーディオデコーダ400によって決定することができる。オーディオデコーダ400は、例えば、出力信号432に関連する1つまたは複数の方向性音量マップを決定するためのオーディオアナライザを備えるか、または出力信号432に関連する1つまたは複数の方向性音量マップを外部オーディオアナライザ100から受信するように構成される。
一実施形態によれば、オーディオデコーダ400は、出力信号432に関連する1つまたは複数の方向性音量マップと、復号された方向性音量マップ414とを比較し、または、出力信号432に関連する1つまたは複数の方向性音量マップを、復号された方向性音量マップ414から導出された方向性音量マップと比較し、この比較に基づいて復号パラメータまたは再構成430を適合440させるように構成される。一実施形態によれば、オーディオデコーダ400は、出力信号432に関連する1つまたは複数の方向性音量マップと1つまたは複数の目標方向性音量マップとの間の偏差が所定の閾値を下回るように、復号パラメータを適合させる440か、または再構成430を適合させるように構成される。これはフィードバックループを表すことができ、それによって、復号410および/または再構成430は、出力信号432に関連する1つまたは複数の方向性音量マップが1つまたは複数の目標方向性音量マップを少なくとも75%または少なくとも80%、または少なくとも85%、または少なくとも90%、または少なくとも95%近似するように適合される。
一実施形態によれば、オーディオデコーダ400は、1つまたは複数のオーディオ信号の符号化表現422として一符号化ダウンミックス信号を受信し、符号化された方向性音量マップ情報424として全体的な方向性音量マップを受信するように構成される。符号化されたダウンミックス信号は、例えば、複数の入力オーディオ信号に基づいて得られる。あるいは、オーディオデコーダ400は、複数の符号化されたオーディオ信号を、1つまたは複数のオーディオ信号の符号化表現422として受信し、複数の符号化された信号の個々の方向性音量マップを、符号化された方向性音量マップ情報424として受信するように構成される。符号化オーディオ信号は、例えば、エンコーダによって符号化された入力オーディオ信号、またはエンコーダによって符号化された入力オーディオ信号から導出された信号を表す。あるいは、オーディオデコーダ400は、符号化された方向性音量マップ情報424として全体的な方向性音量マップを受信し、1つまたは複数のオーディオ信号の符号化表現422として複数の符号化されたオーディオ信号を受信し、さらに、全体的な方向性音量マップへの符号化されたオーディオ信号の寄与を記述するパラメータを受信するように構成される。したがって、符号化されたオーディオコンテンツ420は、パラメータをさらに含むことができ、オーディオデコーダ400は、これらのパラメータを使用して復号パラメータの適合440を改善し、かつ/またはオーディオシーンの再構成430を改善するように構成することができる。
オーディオデコーダ400は、前述の符号化されたオーディオコンテンツ420のうちの1つに基づいて出力信号432を提供するように構成される。
図18は、オーディオシーンを表すオーディオコンテンツ520のフォーマットを変換510するためのフォーマット変換器500の一実施形態を示す。フォーマット変換器500は、例えば、第1のフォーマットのオーディオコンテンツ520を入力し、オーディオコンテンツ520を第2のフォーマットのオーディオコンテンツ530に変換510する。言い換えると、フォーマット変換器500は、第1のフォーマットのオーディオコンテンツの表現520に基づいて第2のフォーマットのオーディオコンテンツの表現530を提供するように構成されている。一実施形態によれば、オーディオコンテンツ520および/またはオーディオコンテンツ530は、空間オーディオシーンを表すことができる。
第1のフォーマットは、例えば、第1の数のチャネルまたは入力オーディオ信号と、第1の数のチャネルまたは入力オーディオ信号に適合されたサイド情報または空間サイド情報とを含むことができる。第2のフォーマットは、例えば、第1の数のチャネルまたは入力オーディオ信号とは異なり得る第2の数のチャネルまたは出力オーディオ信号と、第2の数のチャネルまたは出力オーディオ信号に適合されたサイド情報または空間サイド情報とを含むことができる。第1のフォーマットのオーディオコンテンツ520は、例えば、1つ以上のオーディオ信号、1つ以上のダウンミックス信号、1つ以上の残差信号、1つ以上の中間信号、1つ以上のサイド信号および/または1つ以上の異なる信号を含む。
フォーマット変換器500は、オーディオシーンの全体的な方向性音量マップ142への第1のフォーマットの入力オーディオ信号の寄与に応じて、フォーマット変換510の複雑度を調整540するように構成される。オーディオコンテンツ520は、例えば、第1のフォーマットの入力オーディオ信号を含む。寄与は、オーディオシーンの全体的な方向性音量マップ142に対する第1のフォーマットの入力オーディオ信号の寄与を直接表すことができ、または全体的な方向性音量マップ142に対する第1のフォーマットの入力オーディオ信号の個々の方向性音量マップの寄与を表すことができ、または全体的な方向性音量マップ142に対する第1のフォーマットの入力オーディオ信号の対の方向性音量マップの寄与を表すことができる。一実施形態によれば、寄与は、図13または図14で説明したようにフォーマット変換器500によって計算することができる。一実施形態によれば、全体的な方向性音量マップ142は、例えば、フォーマット変換器500によって受信された第1のフォーマットのサイド情報によって記述されてもよい。あるいは、フォーマット変換器500は、オーディオコンテンツ520の入力オーディオ信号に基づいて全体的な方向性音量マップ142を決定するように構成される。任意選択で、フォーマット変換器500は、全体的な方向性音量マップ142を計算するために、図1~図4bに関して説明したオーディオアナライザを備えるか、またはフォーマット変換器500は、図1~図4bに関して説明したように、外部オーディオアナライザから全体的な方向性音量マップ142を受信するように構成される。
第1のフォーマットのオーディオコンテンツ520は、第1のフォーマットの入力オーディオ信号の方向性音量マップ情報を含むことができる。方向性音量マップ情報に基づいて、フォーマット変換器500は、例えば、全体的な方向性音量マップ142および/または1つもしくは複数の方向性音量マップを取得するように構成される。1つまたは複数の方向性音量マップは、第1のフォーマットの各入力オーディオ信号の方向性音量マップおよび/または第1のフォーマットの信号のグループまたは対の方向性音量マップを表すことができる。フォーマット変換器500は、例えば、1つまたは複数の方向性音量マップまたは方向性音量マップ情報から全体的な方向性音量マップ142を導出するように構成される。
複雑度調整540は、例えば、閾値を下回る方向性音量マップに寄与する第1のフォーマットの入力オーディオ信号のうちの1つまたは複数のスキップが可能であるかどうかが制御されるように実行される。言い換えれば、フォーマット変換器500は、例えば、オーディオシーンの全体的な方向性音量マップ142に対する所与の入力オーディオ信号の寄与を計算または推定し、寄与の計算または推定に応じてフォーマット変換510において所与の入力オーディオ信号を考慮するかどうかを決定するように構成される。計算または推定された寄与は、例えば、フォーマット変換器500によって所定の絶対または相対閾値と比較される。
全体的な方向性音量マップ142に対する第1のフォーマットの入力オーディオ信号の寄与は、第2のフォーマットにおけるオーディオコンテンツ530の知覚の質に対するそれぞれの入力オーディオ信号の関連性を示すことができる。これにより、例えば、関連性の高い第1のフォーマットのオーディオ信号のみがフォーマット変換510される。これにより、第2フォーマットの高質オーディオコンテンツ530が得られる。
図19は、符号化されたオーディオコンテンツ420を復号410するためのオーディオデコーダ400を示す。オーディオデコーダ400は、1つまたは複数のオーディオ信号の符号化表現420を受信し、1つまたは複数のオーディオ信号の復号表現412を提供するように構成される。復号410は、例えばAAC的な復号やエントロピー符号化されたスペクトル値の復号を用いる。オーディオデコーダ400は、1つ以上のオーディオ信号の復号表現412を用いてオーディオシーンを再構成する(430)ように構成される。オーディオデコーダ400は、復号されたオーディオシーン434の全体的な方向性音量マップ142への符号化信号の寄与に応じて復号の複雑度を調整する440ように構成される。
復号複雑度調整440は、図18のフォーマット変換器500の複雑度調整540と同様に、オーディオデコーダ400によって実行することができる。
一実施形態によれば、オーディオデコーダ400は、例えば符号化されたオーディオコンテンツ420から抽出される、符号化された方向性音量マップ情報を受信するように構成される。符号化された方向性音量マップ情報は、オーディオデコーダ400によって復号され410、復号された方向性音量情報414を決定することができる。復号された方向性音量情報414に基づいて、符号化されたオーディオコンテンツ420の1つまたは複数のオーディオ信号の全体的な方向性音量マップおよび/または符号化されたオーディオコンテンツ420の1つまたは複数のオーディオ信号の1つまたは複数の個々の方向性音量マップを取得することができる。符号化されたオーディオコンテンツ420の1つまたは複数のオーディオ信号の全体的な方向性音量マップは、例えば、1つまたは複数の個々の方向性音量マップから導出される。
復号されたオーディオシーン434の全体的な方向性音量マップ142は、任意選択的にオーディオデコーダ400によって実行することができる方向性音量マップ決定100によって計算することができる。一実施形態によれば、オーディオデコーダ400は、方向性音量マップ決定100を実行するために、図1または図4bに関して説明したようなオーディオアナライザを備え、またはオーディオデコーダ400は、復号されたオーディオシーン434を外部オーディオアナライザに送信し、復号されたオーディオシーン434の全体的な方向性音量マップ142を外部オーディオアナライザから受信することができる。
一実施形態によれば、オーディオデコーダ400は、復号されたオーディオシーンの全体的な方向性音量マップ142に対する所与の符号化信号の寄与を計算または推定し、寄与の計算または推定に応じて所与の符号化信号を復号するかどうかを決定する(410)ように構成される。したがって、例えば、符号化されたオーディオコンテンツ420の1つまたは複数のオーディオ信号の全体的な方向性音量マップを、復号されたオーディオシーン434の全体的な方向性音量マップと比較することができる。寄与の決定は、上記のように(例えば、図13または図14に関して説明したように)または同様に行うことができる。
あるいは、オーディオデコーダ400は、符号化されたオーディオシーンの復号された全体的な方向性音量マップ414に対する所与の符号化信号の寄与を計算または推定し、寄与の計算または推定に応じて所与の符号化信号を復号するかどうかを決定する(410)ように構成される。
複雑度調整440は、例えば、閾値を下回る方向性音量マップに寄与する、1つまたは複数の入力オーディオ信号の符号化表現のうちの1つまたは複数のスキップが可能であるかどうかが制御されるように実行される。
追加的または代替的に、復号複雑度調整440は、寄与に基づいて復号パラメータを適合させるように構成することができる。
追加的または代替的に、復号複雑度調整440は、復号パラメータを適合させるために、復号された方向性音量マップ414を復号されたオーディオシーン434の全体的な方向性音量マップ(例えば、復号されたオーディオシーン434の全体的な方向性音量マップは目標の方向性音量マップ)と比較するように構成することができる。
図20は、レンダラ600の一実施形態を示す。レンダラ600は、例えばバイノーラルレンダラやサウンドバーレンダラやラウドスピーカレンダラである。レンダラ600では、レンダリングされたオーディオコンテンツ630を取得するためにオーディオコンテンツ620がレンダリングされる。オーディオコンテンツ620は、1つ以上の入力オーディオ信号622を含むことができる。レンダラ600は、例えば、オーディオシーンを再構成640するために、1つまたは複数の入力オーディオ信号622を使用する。好ましくは、レンダラ600によって実行される再構成640は、2つ以上の入力オーディオ信号622に基づく。一実施形態によれば、入力オーディオ信号622は、1つまたは複数のオーディオ信号、1つまたは複数のダウンミックス信号、1つまたは複数の残差信号、他のオーディオ信号および/または追加情報を含むことができる。
一実施形態によれば、オーディオシーンの再構成640のために、レンダラ600は、所望のオーディオシーンを得るためにレンダリングを最適化するために、1つまたは複数の入力オーディオ信号622を分析するように構成される。したがって、例えば、レンダラ600は、オーディオコンテンツ620のオーディオオブジェクトの空間的配置を変更するように構成される。これは、例えば、レンダラ600が新しいオーディオシーンを再構成640できることを意味する。新しいオーディオシーンは、例えば、オーディオコンテンツ620の元のオーディオシーンと比較して再配置されたオーディオオブジェクトを含む。これは、例えば、ギタリストおよび/または歌手および/または他のオーディオオブジェクトが、元のオーディオシーンとは異なる空間位置で新しいオーディオシーンに配置されることを意味する。
追加的または代替的に、複数のオーディオチャネルまたはオーディオチャネル間の関係が、オーディオレンダラ600によってレンダリングされる。したがって、例えば、レンダラ600は、マルチチャネル信号を含むオーディオコンテンツ620を、例えば2チャネル信号にレンダリングすることができる。これは、例えば、オーディオコンテンツ620の表現のために2つのスピーカのみが利用可能である場合に望ましい。
一実施形態によれば、レンダリングは、新しいオーディオシーンが元のオーディオシーンに対してわずかな偏差しか示さないように、レンダラ600によって実行される。
レンダラ600は、レンダリングされたオーディオシーン642の全体的な方向性音量マップ142への入力オーディオ信号622の寄与に応じてレンダリングの複雑度を調整650するように構成される。一実施形態によれば、レンダリングされたオーディオシーン642は、上述した新しいオーディオシーンを表すことができる。一実施形態によれば、オーディオコンテンツ620は、サイド情報として全体的な方向性音量マップ142を含むことができる。レンダラ600によってサイド情報として受信されるこの全体的な方向性音量マップ142は、レンダリングされたオーディオコンテンツ630の所望のオーディオシーンを示すことができる。あるいは、方向性音量マップ決定100は、再構成ユニット640から受信したレンダリングされたオーディオシーンに基づいて、全体的な方向性音量マップ142を決定することができる。一実施形態によれば、レンダラ600は、方向性音量マップ決定100を含むか、または外部方向性音量マップ決定100の全体的な方向性音量マップ142を受信することができる。一実施形態によれば、方向性音量マップ決定100は、上述したようにオーディオアナライザによって実行することができる。
一実施形態によれば、レンダリング複雑度の調整650は、例えば、入力オーディオ信号622のうちの1つまたは複数をスキップすることによって実行される。スキップされる入力オーディオ信号622は、例えば、閾値を下回る方向性音量マップ142に寄与する信号である。したがって、関連する入力オーディオ信号のみがオーディオレンダラ600によってレンダリングされる。
一実施形態によれば、レンダラ600は、例えばレンダリングされたオーディオシーン642のオーディオシーンの全体的な方向性音量マップ142に対する所与の入力オーディオ信号622の寄与を計算または推定するように構成される。さらに、レンダラ600は、寄与の計算または推定に応じて、レンダリングにおいて所与の入力オーディオ信号を考慮するかどうかを決定するように構成される。したがって、例えば、計算または推定された寄与は、所定の絶対または相対閾値と比較される。
図21は、オーディオ信号を分析するための方法1000を示す。本方法は、2つ以上の入力オーディオ信号(x
L,x
R,x
i)の1つ以上のスペクトル領域(例えば、時間周波数領域)表現(例えば、
、例えばi={L;R};または
)に基づいて複数の重み付けスペクトル領域(例えば、時間周波数領域)表現(異なる
(j
[1;J])について
、「方向性信号」)を取得すること1100を含む。1つまたは複数のスペクトル領域表現の値(例えば、
)は、複数の重み付けスペクトル領域表現(異なる
に対して
(j
[1;J]);「方向性信号」)を取得するために、2つ以上の入力オーディオ信号内のオーディオ成分(例えば、スペクトルビンまたはスペクトル帯域の)(例えば、楽器または歌唱者からのチューニング)の異なる方向(例えば、パンニング方向
)(例えば、重み係数
によって表される)に応じて重み付け1200される。さらに、本方法は、複数の重み付けスペクトル領域表現(異なる
(j
[1;J])に対して
;「方向性信号」)に基づいて、異なる方向(例えば、パンニング方向
)に関連する音量情報(例えば、複数の異なる
に対してL(m,
);例えば、「方向性音量マップ」)を分析結果として取得1300することを含む。
図22は、オーディオ信号の類似度を評価するための方法2000を示す。本方法は、2つ以上の入力オーディオ信号の第1のセット(x
R,x
L,x
i)に基づいて異なる(例えば、パンニング)方向(例えば、
)と関連付けられた第1の音量情報(L
1(m,
);方向性音量マップ;合成音量値)を取得すること2100と、第1の音量情報(L
1(m,
))を、異なるパンニング方向(例えば、
)に関連付けられた第2の(例えば、対応する)音量情報(L
2(m,
);基準音量情報;基準方向性音量マップ;基準合成音量値)および2つ以上の基準オーディオ信号(x
2,R,x
2,L,x
2,i)のセットと比較2200し、2つ以上の入力オーディオ信号の第1のセットと2つ以上の基準オーディオ信号(x
R,x
L,x
i)の第1のセットと2つ以上の基準オーディオ信号(x
2,R,x
2,L,x
2,i)のセットとの間の類似度を記述する(または、2つ以上の入力オーディオ信号の第1のセットの質を、2つ以上の参照オーディオ信号の第1のセットと比較したときに表す)類似度情報(例えば、「モデル出力変数」(MOV))を取得すること(2300)と、を含む。
図23は、1つまたは複数の入力オーディオ信号(好ましくは複数の入力オーディオ信号)を含む入力オーディオコンテンツを符号化するための方法3000を示す。本方法は、1つまたは複数の入力オーディオ信号(例えば、左信号および右信号)、またはそれから導出された1つまたは複数の信号(例えば、中間信号またはダウンミックス信号およびサイド信号または差分信号)に基づいて、1つまたは複数の符号化(例えば、量子化され、次いで可逆的に符号化される)オーディオ信号(例えば、符号化されたスペクトル領域表現)を提供すること3100を含む。さらに、方法3000は、符号化されるべき1つまたは複数の信号の複数の異なる方向(例えば、パンニング方向)に関連付けられる音量情報を表す1つまたは複数の方向性音量マップに応じて(例えば、量子化される1つまたは複数の信号の個々の方向性音量マップの、例えば複数の入力オーディオ信号(例えば、1つまたは複数の入力オーディオ信号の各信号)に関連付けられた全体的な方向性音量マップへの寄与に応じて)、1つまたは複数の符号化されたオーディオ信号の提供を適合3200させることを含む。
図24は、1つまたは複数の入力オーディオ信号(好ましくは複数の入力オーディオ信号)を含む入力オーディオコンテンツを符号化するための方法4000を示す。方法は、2つ以上の入力オーディオ信号(例えば、左信号および右信号)に基づき、またはそれから導出された2つ以上の信号に基づき、一緒に符号化されるべき2つ以上の信号のジョイント符号化(例えば、中間信号またはダウンミックス信号とサイド信号または差分信号とを使用して(例えば、中間信号またはダウンミックス信号およびサイド信号または差分信号)、1つまたは複数の符号化(例えば、量子化され、次いで可逆的に符号化される)オーディオ信号(例えば、符号化されたスペクトル領域表現)を提供すること4100を含む。さらに、方法4000は、候補信号または候補信号の対(例えば、候補信号の個々の方向性音量マップの、例えば複数の入力オーディオ信号(例えば、1つまたは複数の入力オーディオ信号の各信号)に関連付けられた全体的な方向性音量マップへの寄与に応じて、または候補信号の対の方向性音量マップの、全体的な方向性音量マップへの寄与に応じて)の複数の異なる方向(例えば、パンニング方向)に関連する音量情報を表す方向性音量マップに応じて、複数の候補信号の中から、または複数の候補信号の対の中から(例えば、2つ以上の入力オーディオ信号から、または、2つ以上の入力オーディオ信号から導出される2つ以上の信号から)一緒に符号化される信号を選択すること4200を含む。
図25は、1つまたは複数の入力オーディオ信号(好ましくは複数の入力オーディオ信号)を含む入力オーディオコンテンツを符号化するための方法5000を示す。本方法は、2つ以上の入力オーディオ信号(例えば、左信号および右信号)に基づき、またはそれから導出された2つ以上の信号に基づいて、1つまたは複数の符号化(例えば、量子化され、次いで可逆的に符号化される)オーディオ信号(例えば、符号化されたスペクトル領域表現)を提供すること5100を含む。さらに、方法5000は、入力オーディオ信号に基づいて全体的な方向性音量マップ(例えば、シーンの目標方向性音量マップ)を決定すること、および/または個々の入力オーディオ信号に関連する1つまたは複数の個々の方向性音量マップを決定すること5200、および全体的な方向性音量マップおよび/または1つもしくは複数の個々の方向性音量マップをサイド情報として符号化すること5300を含む。
図26は、符号化されたオーディオコンテンツを復号するための方法6000を示し、1つまたは複数のオーディオ信号の符号化表現を受信すること6100と、1つまたは複数のオーディオ信号の復号表現を提供する(例えば、AACのような復号化を使用すること、またはエントロピー符号化されたスペクトル値の復号化を使用すること)こと6200とを含む。方法6000は、符号化された方向性音量マップ情報を受信する6300と、符号化された方向性音量マップ情報を復号すること6400と、1つまたは複数の(復号される)方向性音量マップを取得すること6500とを含む。さらに、方法6000は、オーディオシーンを、1つまたは複数のオーディオ信号の復号表現を使用して、1つまたは複数の方向性音量マップを使用して再構成すること6600を含む。
図27は、オーディオシーン(例えば、空間オーディオシーン)を表すオーディオコンテンツのフォーマットを第1のフォーマットから第2のフォーマットに変換する7100ための方法7000(第1のフォーマットは、例えば、第1の数のチャネルまたは入力オーディオ信号と、第1の数のチャネルまたは入力オーディオ信号に適合されたサイド情報または空間サイド情報とを含むことができ、第2のフォーマットは、例えば、第1の数のチャネルまたは入力オーディオ信号とは異なり得る第2の数のチャネルまたは出力オーディオ信号と、第2の数のチャネルまたは出力オーディオ信号に適合されたサイド情報または空間サイド情報とを含むことができる)。方法7000は、第1のフォーマットのオーディオコンテンツの表現に基づいて、第2のフォーマットのオーディオコンテンツの表現を提供することを含み、オーディオシーンの全体的な方向性音量マップへの第1のフォーマットの入力オーディオ信号(例えば、1つまたは複数のオーディオ信号、1つまたは複数のダウンミックス信号、1つまたは複数の残差信号など)の寄与に応じて、フォーマット変換の複雑度を調整すること7200(例えば、フォーマット変換プロセスにおいて、閾値を下回る方向性音量マップに寄与する第1のフォーマットの入力オーディオ信号のうちの1つまたは複数をスキップすることによって)を含む(全体的な方向性音量マップは、例えば、フォーマット変換器によって受信された第1のフォーマットのサイド情報によって記述されてもよい)。
図28は、符号化されたオーディオコンテンツを復号するための方法8000を示し、1つまたは複数のオーディオ信号の符号化表現を受信すること8100と、1つまたは複数のオーディオ信号の復号表現を提供する(例えば、AACのような復号化を使用すること、またはエントロピー符号化されたスペクトル値の復号化を使用すること)こと8200とを含む。方法8000は、オーディオシーンを、1つまたは複数のオーディオ信号の復号表現を使用して再構成すること8300を含む。さらに、方法8000は、復号されたオーディオシーンの全体的な方向性音量マップへの符号化された信号(例えば、1つまたは複数のオーディオ信号、1つまたは複数のダウンミックス信号、1つまたは複数の残差信号など)の寄与に応じて復号の複雑度を調整すること8400を含む。
図29は、オーディオコンテンツ(例えば、第1の数の入力オーディオチャネルと、オーディオオブジェクトの配置またはオーディオチャネル間の関係などの所望の空間特性を記述するサイド情報とを使用して表現されたオーディオコンテンツを、第1の数の入力オーディオチャネルよりも大きい数のチャネルを含む表現にアップミックスするために)をレンダリングするための方法9000を示し、これは、1つまたは複数の入力オーディオ信号に基づいて(または、2つ以上の入力オーディオ信号に基づいて)オーディオシーンを再構成すること9100を含む。方法9000は、レンダリングされたオーディオシーンの全体的な方向性音量マップへの入力オーディオ信号(例えば、1つまたは複数のオーディオ信号、1つまたは複数のダウンミックス信号、1つまたは複数の残差信号など)の寄与に応じてレンダリングの複雑度を調整する(例えば、レンダリング処理において、閾値を下回る方向性音量マップに寄与する入力オーディオ信号のうちの1つまたは複数をスキップすることによって)こと9200を含む(全体的な方向性音量マップは、例えば、レンダラによって受信された第1のフォーマットのサイド情報によって記述されてもよい)。
備考
以下では、様々な本発明の実施形態および態様を、「方向性音量マップを使用した空間オーディオ質の客観的評価」の章、「オーディオコーディングおよび客観的質測定のための方向性音量の使用」の章、「オーディオコーディングのための方向性音量」の章、「方向性音量マップ(DirLoudMap)を計算するための一般的なステップ」の章、「例:パンニングインデックスから導出された窓/選択関数を用いた方向性信号の復元」の章、および「一般化された基準関数を使用して音量マップを計算する異なる形式の実施形態」の章に記載する。
また、さらなる実施形態は、添付の特許請求の範囲によって定義される。
特許請求の範囲によって定義される任意の実施形態は、上記の章に記載された詳細(特徴および機能)のいずれかによって補足することができることに留意されたい。
また、上記の章に記載された実施形態は、個別に使用することができ、別の章の特徴のいずれか、または特許請求の範囲に含まれる任意の特徴によって補足することもできる。
また、本明細書に記載の個々の態様は、個別にまたは組み合わせて使用することができることに留意されたい。したがって、詳細は、前記の態様の別の1つに詳細を追加することなく、前記の個々の態様の各々に追加することができる。
本開示は、オーディオエンコーダ(入力オーディオ信号の符号化表現を提供するための装置)およびオーディオデコーダ(符号化表現に基づいてオーディオ信号の復号表現を提供するための装置)において使用可能な機能を明示的または暗黙的に記述することにも留意されたい。したがって、本明細書に記載された特徴のいずれも、オーディオエンコーダのコンテキストおよびオーディオデコーダのコンテキストにおいて使用され得る。
さらに、方法に関連して本明細書で開示される特徴および機能は、(そのような機能を実行するように構成された)装置で使用することもできる。さらに、装置に関して本明細書に開示された任意の特徴および機能を、対応する方法で使用することもできる。言い換えれば、本明細書に開示された方法は、装置に関して説明された特徴および機能のいずれかによって補完することができる。
また、本明細書に記載されている特徴および機能のいずれも、「実装の代替」のセクションで説明するように、ハードウェアもしくはソフトウェアで、またはハードウェアとソフトウェアの組み合わせを使用して実装することができる。
実装の代替
いくつかの態様を装置の文脈で説明したが、これらの態様は対応する方法の説明も表すことは明らかであり、それにおいてブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明される態様はまた、対応する装置の対応するブロックまたは項目または特徴の説明を表す。方法ステップの一部またはすべては、例えばマイクロプロセッサ、プログラマブルコンピュータ、または電子回路などのハードウェア装置によって(または使用して)実行されてもよい。いくつかの実施形態では、最も重要な方法ステップの1つまたは複数は、そのような装置によって実行されてもよい。
特定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装することができる。実装は、電子的に読み取り可能な制御信号が格納されたデジタル記憶媒体、例えばフロッピーディスク、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを使用して実行することができ、これらはそれぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)。したがって、デジタル記憶媒体はコンピュータ可読であってもよい。
本発明によるいくつかの実施形態は、本明細書に記載の方法のうちの1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有するデータキャリアを含む。
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法のうちの1つを実行するように動作する。プログラムコードは、例えば、機械可読キャリアに格納することができる。
他の実施形態は、機械可読キャリアに格納された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
言い換えれば、したがって、本発明の方法の一実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを記録して含むデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体、または記録された媒体は、通常、有形および/または非一時的である。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成することができる。
さらなる実施形態は、本明細書に記載の方法のうちの1つを実行するように構成または適合された処理手段、例えばコンピュータまたはプログラマブル論理デバイスを含む。
さらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
本発明によるさらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを受信機に転送する(例えば、電子的または光学的に)ように構成された装置またはシステムを備える。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを備えることができる。
いくつかの実施形態では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能の一部またはすべてを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法のうちの1つを実行するためにマイクロプロセッサと協働することができる。一般に、方法は、任意のハードウェア装置によって実行されることが好ましい。
本明細書に記載の装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組み合わせを使用して実装され得る。
本明細書に記載の装置、または本明細書に記載の装置の任意の構成要素は、少なくとも部分的にハードウェアおよび/またはソフトウェアで実装されてもよい。
本明細書に記載の方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組み合わせを使用して実行され得る。
本明細書に記載の方法、または本明細書に記載の装置の任意の構成要素は、少なくとも部分的にハードウェアおよび/またはソフトウェアによって実行されてもよい。
上述の実施形態は、本発明の原理の単なる例示である。本明細書に記載の構成および詳細の修正および変形は、当業者には明らかであることが理解される。したがって、本明細書の実施形態の記述および説明として提示された特定の詳細によってではなく、直後の特許請求の範囲によってのみ限定されることが意図される。
方向性音量マップを使用した空間オーディオ質の客観的評価
要約
この研究は、例えば、処理された空間聴覚シーンにおける知覚された質の劣化の測定として機能するステレオ/バイノーラルオーディオ信号から抽出された特徴を導入する。特徴は、振幅レベルのパンニング技術を使用して位置決めされた方向性信号によって生成されたステレオミックスを仮定した単純化されたモデルに基づくことができる。例えば、基準信号と劣化バージョンを比較するために短時間フーリエ変換(STFT)領域の各方向性信号についてステレオ画像における関連する音量を計算し、聴取テストで報告された知覚された劣化スコアを記述することを目的とした歪み尺度を導出する。
この尺度は、既存の質予測器[1]、[2]に対する課題を提示するために知られている、帯域幅拡張およびジョイントステレオコーディングなどの非波形保存技術を使用して最先端の知覚オーディオコーデックによって処理されたステレオ信号を用いて広範な聴取試験データベースで試験された。結果は、導出された歪み尺度を、空間的に符号化されたオーディオ信号の予測を改善するための既存の自動知覚質評価アルゴリズムの拡張として組み込むことができることを示唆している。
インデックス用語-空間オーディオ、客観的質評価、PEAQ、パンニングインデックス。
1.序論
例えば、共通のパンニングインデックスを共有する領域における音量の変化に基づいて、知覚された聴覚ステレオ画像の劣化を記述することを目的とした単純な特徴を、本発明者らは提案する[13]。すなわち、例えば、左右のチャネル間で同じ強度レベル比を共有するバイノーラル信号の時間および周波数の領域であり、したがって、聴覚画像の水平面内の所与の知覚される方向に対応する。
複雑な仮想環境のオーディオレンダリングのための聴覚シーン分析の文脈における方向性音量測定の使用も[14]において提案されているが、現在の研究は、全体的な空間オーディオコーディングの質の客観的な評価に焦点を当てている。
知覚されたステレオ画像の歪みは、パラメータとして評価されるパンニングインデックス値の量に対応する所与の粒度の方向性音量マップ上の変化として反映することができる。
2.方法
一実施形態によれば、基準信号(REF)および被試験信号(SUT)は、比較すると、SUTを生成するために実行される動作によって引き起こされる知覚される聴覚の質の劣化を記述することを目的とする特徴を抽出するために並列に処理される。
両方のバイノーラル信号は、最初に周辺耳モデルブロックによって処理することができる。各入力信号は、例えば、ブロックサイズ
サンプルのHann窓および
のオーバーラップを使用してSTFT領域に分解され、
のサンプリングレートで21msの時間分解能を与える。次いで、変換された信号の周波数ビンは、例えば、合計の
周波数ビンサブセットまたは帯域における、ERBスケール[15]に従った人の蝸牛の周波数選択性を考慮するためにグループ化される。次いで、各バンドは、[3]で説明したように外耳および中耳をモデル化する結合線形伝達関数から導出された値によって重み付けすることができる。
次いで、周辺モデルは、各時間フレーム
および周波数ビン
である信号
、周波数ビンで表される異なる幅
を伴う各チャネルの
および各周波数グループ
を出力する。
2.1.方向性音量の計算(例えば、本明細書に記載のオーディオアナライザおよび/またはオーディオ類似度評価器によって実行される)
一実施形態によれば、方向性音量計算は、例えば、所与のパンニング方向
がjε[1;J]の
として解釈され得るように、異なる方向で実行され得る。以下の概念は、[13]に提示された方法に基づくものであり、それにおいてSTFT領域におけるバイノーラル信号の左チャネルと右チャネルとの間の類似度測度を使用して、ミキシングプロセス中にそれらの指定されたパンニング係数に基づいてステレオ録音での各音源によって占有される時間領域および周波数領域を抽出することができる。
周辺モデル
の出力が与えられると、入力に窓関数
を掛けることによって、所与のパンニング方向
に対応する入力信号から時間周波数(T/F)タイル
を回復することができる。
(1)
復元された信号は、許容値内のパンニング方向
に対応する入力のT/F成分を有する。窓関数は、所望のパンニング方向を中心とするガウス窓として定義することができる。
(2)
式中、
はそれぞれ完全に左または右にパンニングされた信号に対応する
の定義されたサポートを用いて[13]で計算されたパンニングインデックスである。実際、
は、左右のチャネルの値が関数
に、
の値またはその近傍を備えさせる周波数ビンを含むことができる。他のすべての成分は、ガウス関数に従って減衰させることができる。
の値は、ウィンドウの幅、したがってパンニング方向ごとの言及された近傍を表す。
の値は、例えば、
dB[13]の信号対干渉比(SIR)に対して選択された。任意選択的に、
の中の等間隔のパンニング方向の
のセットは、
の値に対して経験的に選択される。復元された各信号について、各ERB帯域でパンニング方向に依存する音量計算[16]は、例えば、次のように表される。
(3)
式中、
はチャネル
の和信号である。次に、音量は、例えば、すべてのERB帯域にわたって平均化され、時間フレーム
にわたってパンニング領域
にわたって定義された方向性音量マップを提供する。
(4)
さらなる改良のために、二重理論[17]によれば、
kHz以上の周波数領域に対応するERB帯域のサブセットのみを考慮して、この領域のレベルの差に対する人間の聴覚系の感度に対応する式4を計算することができる。一実施形態によれば、
kHzから
までの周波数に対応する帯域
が使用される。
ステップとして、基準信号およびSUTの持続時間の方向性音量マップが、例えば減算され、次いで、残差の絶対値が、[3]の専門用語に従って、すべてのパンニング方向および時間にわたって平均化され、モデル出力変数(MOV)と呼ばれる単一の数を生成する。基準の方向性音量マップとSUTとの間の歪みを効果的に表すこの数は、聴取テストで報告される関連する主観的質劣化の予測因子であると予想される。
図9は、提案されたMOV(モデル出力値)計算のブロック図を示す。図10a~図10cは、基準(REF)信号と劣化(SUT)信号との対、およびそれらの差の絶対値(DIFF)への方向性音量マップの概念の適用例を示す。図10a~図10cは、左にパンニングされた5秒間のソロビオリン録音の例を示す。マップ上のより明確な領域は、例えば、より大きなコンテンツを表す。劣化信号(SUT)は、時間2~2.5秒の間、および再び3~3.5秒で、左から中央への聴覚イベントのパンニング方向の一時的な崩壊を呈する。
3.実験の説明
提案されたMOVの有用性を試験および検証するために、[18]のものと同様の回帰実験を実施し、MOVをデータベース内の基準およびSUT対について計算し、聴取試験からのそれぞれの主観的質スコアと比較した。このMOVを利用したシステムの予測性能は、[3]で説明したように、主観データ(
)、絶対誤差スコア(
)、外れ値数(
)との相関で評価される。
実験に使用されるデータベースは、統合スピーチオーディオコーディング(USAC)検証試験[19]セット2の一部に対応し、これは、ジョイントステレオ[12]および帯域幅拡張ツールを使用して、16から24kbpsの範囲のビットレートで符号化されたステレオ信号を、MUSHRAスケールの質のスコアと共に含む。提案されたMOVはスピーチ信号の歪みの主な原因を記述することが期待されていないので、スピーチ項目は除外された。実験のためのデータベースには合計88の項目(例えば、平均長8秒)が残っていた。
データベース内の可能性のあるモノラル/脳の歪みを説明するために、平均オピニオンスコア(MOS)と呼ばれる客観的差グレード(ODG)およびPOLQAと呼ばれる標準PEAQ(アドバンスト版)の実装の出力は、前のセクションで説明した方向性音量の歪み(DirLoudDist;例えば、DLD)を補完する追加のMOVとみなされた。すべてのMOVを正規化し、最良の質を示すために0のスコアを与え、可能な限り最悪の質を示すために1のスコアを与えるように適合させることができる。聴取試験スコアをそれに応じてスケーリングした。
データベースの利用可能なコンテンツの1つのランダムな部分(60%、53点)を、MOVを項目の主観的スコアにマッピングする多変量適合回帰スプライン(MARS)[8]を使用して回帰モデルを訓練するために確保した。残り(35個の項目)は、訓練された回帰モデルの性能を試験するために使用された。全体的なMOV性能分析から訓練手順の影響を除去するために、訓練/試験サイクルは、例えば、ランダム化された訓練/試験項目を用いて500回実施され、
、
、および
の平均値は、性能尺度とみなされた。
4.結果および考察
表1:MOVの異なるセットを用いた回帰モデルの500回の訓練/検証(例えば、試験)サイクルの平均性能値。CHOIは、[20]で計算された3つのバイノーラルMOVを表し、EITDDは、[1]で計算された高周波包絡線ITD歪みMOVに対応する。SEOは、EITDDを含む[1]からの4つのバイノーラルMOVに対応する。DirLoudDistは提案されたMOVである。括弧内の数字は、使用されたMOVの総数を表す。(任意)
表1は、セクション3に記載の実験の平均性能値(相関、絶対誤差スコア、外れ値の数)を示す。提案されたMOVに加えて、[20]および[1]で提案された空間的に符号化されたオーディオ信号の客観的評価のための方法も比較のために試験された。両方の比較される実施態様は、序論で述べた古典的な両耳間のキュー歪み、すなわちIACC歪み(IACCD)、ILD歪み(ILDD)、およびITDDを利用する。
上述したように、ベースラインの性能はODGおよびMOSによって与えられ、両方とも別々に
を達成するが、表1に示すような組み合わせ性能
を示す。これにより、モノラルの歪みの評価において特徴が補完的であることが確認される。
Choiらの研究を考慮すると[20]、2つのモノラルの質の指標(最大5つの共同MOVを構成する)への3つのバイノーラル歪み(表1のCHOI)の追加は、使用されるデータセットの予測性能に関してシステムにさらなる利得を提供しない。
[1]では、側面位置特定およびキュー歪み検出可能性に関して、言及された特徴に対していくつかのさらなる任意のモデル改良が行われた。また、例えば、高周波包絡線耳間時間差歪み(EITDD)[21]を考慮した新規なMOVを組み込んだ。これらの4つのバイノーラルMOV(表1ではSEOとして示されている)+2つのモノラル記述子(合計6つのMOV)のセットは、現在のデータセットのシステム性能を大幅に改善する。
EITDDからの改善の寄与を見ると、ジョイントステレオ技術[12]で使用される周波数時間-エネルギー包絡線は、全体的な質の認識の顕著な側面を表すことが示唆されている。
しかしながら、方向性音量マップ歪み(DirLoudDist)に基づく提示されたMOVは、EITDDよりもさらに良好に知覚される質の劣化と相関し、4つではなく2つのモノラル質記述子に1つの追加のMOVを使用しながら、[1]のすべてのバイノーラルMOVの組み合わせと同様の性能数値にさえ達する。同じ性能に対してより少ない特徴を使用することは、過剰適合のリスクを低減し、それらのより高い知覚的関連性を示す。
のデータベースの主観的スコアに対する最大平均相関は、まだ改善の余地があることを示している。
実施形態によれば、提案された特徴は、本明細書に記載されたモデルに基づいており、ステレオ信号の簡略化された記述を想定しており、それにおいては、聴覚オブジェクトは、通常、スタジオで制作されたオーディオコンテンツの場合である、ILDによってのみ側面に位置特定される[13]。マルチマイクロフォン録音またはより自然な音を符号化するときに通常存在するITD歪みの場合、モデルは、適切なITD歪み測定によって拡張または補完される必要がある。
5.結論および今後の研究
一実施形態によれば、所与のパンニング方向に対応するイベントの音量に基づいて聴覚シーンの表現の変化を記述する歪みメトリックが導入された。モノラルのみの質予測に関する性能の大幅な向上は、提案された方法の有効性を示している。この手法はまた、おそらくは関連するオーディオ処理の非波形保存性のために、古典的なバイノーラルキューに基づく確立された歪み測定が満足に実行されない低ビットレート空間オーディオコーディングの質の測定における可能な代替または補完を提案する。
性能測定は、チャネルレベルの差以外の影響に基づく聴覚歪みも含むより完全なモデルに向けた改善領域が依然として存在することを示している。将来の研究はまた、モデルが静的歪みとは対照的に[12]に報告されているようにステレオ画像内の時間的不安定性/変調をどのように記述できるかを研究することを含む。
オーディオコーディングおよび客観的質測定のための方向性音量の使用
さらなる説明については、「方向性音量マップを使用した空間オーディオ質の客観的評価」の章を参照されたい。
説明(例えば、図9の説明)
例えば、空間(ステレオ)聴覚シーンにおけるステレオ/バイノーラルオーディオ信号から抽出された特徴が提示される。特徴は、例えば、ステレオ画像内のイベントのパンニング方向を抽出するステレオミックスの単純化されたモデルに基づく。短時間フーリエ変換(STFT)領域におけるパンニング方向ごとのステレオ画像における関連する音量を計算することができる。特徴は、基準信号および符号化信号について任意選択的に計算され、次いで、聴取試験で報告される知覚された劣化スコアを記述することを目的とした歪み尺度を導出するために比較される。結果は、既存の方法と比較した場合、ジョイントステレオおよび帯域幅拡張などの低ビットレート、非波形保存パラメトリック技術ツールに面する改善されたロバスト性を示す。それは、PEAQまたはPOLQA(PEAQ=知覚されたオーディオ質の客観的測定値;POLQA=知覚的客観的聴取質分析)などの標準化された客観的質評価測定システムに統合することができる。
用語:
・信号:例えば、オブジェクト、ダウンミックス、残差などを表す立体信号。
・方向性音量マップ(DirLoudMap):例えば、各信号から導出される。例えば、聴覚シーンの各パンニング方向に関連するT/F(時間/周波数)領域の音量を表す。これは、バイノーラルレンダリング(HRTF(頭部伝達関数)/BRIR(バイノーラル室内インパルス応答))を使用することによって3つ以上の信号から導出することができる。
用途(実施形態):
1.質の自動評価(実施形態1):
・「方向性音量マップを使用した空間オーディオ質の客観的評価」の章で説明
2.個々の信号DirLoudMapsの全体のDirLoudMapに対する比率(寄与)に基づく、オーディオエンコーダにおける方向性音量ベースのビット分布(実施形態2)。
・任意の変形例1(独立したステレオ対):スピーカまたはオブジェクトとしてのオーディオ信号。
・任意の変形例2(ダウンミックス/残差対):ダウンミックス信号DirLoudMapおよび残差DirLoudMapの全体的なDirLoudMapへの寄与。ビット分布基準についての聴覚シーンにおける「寄与量」。
1.2つ以上のチャネルのジョイントコーディングを実行し、例えば、1つ以上のダウンミックス信号および残差信号の各々をもたらし、全体的な方向性音量マップに対する各残差信号の寄与が、例えば、固定された復号規則(例えば、MS-Stereo)から、またはジョイントコーディングパラメータ(例えば、MCTにおける回転)から逆ジョイントコーディング処理を推定することによって決定される、オーディオエンコーダ。DirLoudMap全体に対する残差信号の寄与に基づいて、ダウンミックスと残差信号との間のビットレート分布が、例えば信号の量子化精度を制御することによって、または寄与が閾値を下回る残差信号を直接廃棄することによって適合される。「寄与」の可能な基準は、例えば、平均比または方向最大相対寄与の比である。
・問題:個々のDirLoudMapの、結果として得られる/総音量マップへの組み合わせおよび寄与推定。
3.(実施形態3)デコーダ側について、方向性音量は、デコーダが以下に関して情報に基づいた決定をする補助をすることができる。
・複雑度スケーリング/フォーマット変換器:各オーディオ信号は、(別個のパラメータとして送信されるか、または他のパラメータから推定される)DirLoudMap全体への寄与に基づいて復号プロセスに含まれるかまたは除外され、したがって、異なるアプリケーション/フォーマットの変換に対するレンダリングの複雑度を変更することができる。これにより、限られたリソースしか利用できない場合(すなわち、モバイルデバイスにレンダリングされるマルチチャネル信号)、複雑度を低減した復号が可能になる。
・結果として得られるDirLoudMapは、目標再生設定に依存する可能性があるため、これは、個々のシナリオの最も重要/顕著な信号が再生されることを保証し、そのため、これは、単純な信号/オブジェクト優先度レベルのような空間的に情報が与えられていない手法よりも有利である。
4.ジョイント符号化決定(実施形態4)について(例えば、図14の説明)
・シーン全体のDirLoudMapの寄与に対する各信号または各候補信号対の方向性音量マップの寄与を決定する。
1.任意選択の変形例1)全体的な音量マップへの寄与が最も高い信号対を選択する
2.任意選択の変形例2)信号がそれぞれのDirLoudMapにおいて高い近接度/類似度を有する信号対を選択する=>ダウンミックスによって一緒に表すことができる
・信号のカスケードジョイントコーディングが存在し得るので、例えばダウンミックス信号のDirLoudMapは、必ずしも1つの方向(例えば、1つのスピーカ)からの点音源に対応するとは限らず、したがって、DirLoudMapへの寄与は、例えば、ジョイントコーディングパラメータから推定される。
・シーン全体のDirLoudMapは、信号の方向を考慮する何らかの種類のダウンミックスまたはバイノーラル化によって計算することができる。
5.方向性音量に基づくパラメトリック・オーディオ・コーデック(実施形態5)
・例えば、シーンの方向性音量マップを送信する。-->は、例えば以下のようなパラメトリック形式のサイド情報として送信される。
1.「PCMスタイル」=方向にわたる量子化値
2.中心位置+左右の線形傾斜
3.多項式またはスプライン表現
・例えば、1つの信号/より少ない信号/効率的な送信を送信し、
1.任意選択の変形例1)シーン+1ダウンミックスチャネルのパラメータ化されたターゲットDirLoudMapを送信する
2.任意選択の変形例2)各々が関連するDirLoudMapを有する複数の信号を送信する
3.任意選択の変形例3)全体的なターゲットDirLoudMap、および複数の信号と全体的なDirLoudMapに対するパラメータ化された相対寄与とを送信する
・例えば、シーンの方向性音量マップに基づいて、送信された信号から完全なオーディオシーンを合成する。
オーディオコーディングのための方向性音量
序論および定義
DirLoudMap=Directional Loudness Map(方向性音量マップ)
DirLoudMapを計算するための実施形態:
a)t/f分解(+限界帯域(CB)へのグループ化)を実行する(例えば、フィルタバンク、STFT、...による)
b)各t/fタイルの方向分析機能を実行する
c)b)の結果をDirLoudMapヒストグラムに任意に入力/累積する(アプリケーションが必要とする場合):
d)広帯域DirLoudMapを提供するためにCBを介した出力を要約する
DirLoudMap/方向分析機能のレベルの実施形態:
レベル1(任意):信号(チャネル/オブジェクト)の空間再生位置に従って寄与方向をマッピングする-(利用される信号コンテンツに関する知識なし)。チャネル/オブジェクト+/-拡散窓のチャネル/オブジェクト+/-拡散窓L1再生方向の再生方向のみを考慮した方向分析関数を使用(これは広帯域とすることができ、すなわちすべての周波数で同じとすることができる。)
レベル2(任意):信号(チャネル/オブジェクト)の空間再生位置に加え、異なる洗練レベルのチャネル/オブジェクト信号のコンテンツの*dynamic*関数(方向分析関数)に従って寄与方向をマッピングする。
識別可能
任意選択的に、L2a)パンニングされたファントムソース(->パンニングインデックス)[レベル]、または任意選択的にL2b)レベル+時間遅延パンニングされたファントムソース[レベルおよび時間]、または任意選択的にL2c)拡大された(無相関の)パンニングされたファントムソース(さらに高度)
知覚的なオーディオコーディングのためのアプリケーション
実施形態A)各チャネル/オブジェクトのマスキング-ジョイントコーディングツールなし->ターゲット:
コーダ量子化ノイズの制御(元のおよび符号化/復号されたDirLoudMapが特定の閾値、すなわちDirLoudMapドメインのターゲット基準未満だけ逸脱するように)
実施形態B)各チャネル/オブジェクトのマスキング-ジョイントコーディングツール(例えば、M/S+予測、MCT)
->ターゲット:ツール処理された信号(例えば、Mまたは回転「和」信号)におけるコーダ量子化ノイズを、DirLoudMapドメインにおける目標基準を満たすように制御する
B)の例
1)例えば、すべての信号から全体のDirLoudMapを計算する
2)ジョイントコーディングツールを適用する
3)ツール処理された信号(例えば、「和」および「残渣物」)のDirLoudMapへの寄与を、復号関数(例えば、回転/予測によるパンニング)を考慮して決定する
4)以下で量子化を制御する
a)量子化ノイズのDirLoudMapへの影響を考慮
b)信号部分を0~DirLoudMapに量子化する影響を考慮
実施形態C)ジョイントコーディングツールのアプリケーション(例えば、MSオン/オフ)および/またはパラメータ(例えば、予測係数)を制御する
ターゲット:DirLoudMapドメインのターゲット基準を満たすようにジョイントコーディングツールのエンコーダ/デコーダパラメータを制御する
C)の実施例
DirLoudMapに基づいてM/Sオン/オフ決定を制御する
DirLoudMapに対するパラメータの変化の影響に基づいて、周波数依存予測係数の平滑化を制御する
(パラメータのより安価な差動符号化について)
(=サイド情報と予測精度との間の制御のトレードオフ)
実施形態D)*パラメトリック*ジョイントコーディングツール(例えば強度ステレオ)のパラメータ(オン/オフ、ILD、...)を決定する
->ターゲット:DirLoudMapドメインのターゲット基準を満たすようにパラメトリックジョイントコーディングツールのパラメータを制御する
実施形態E)サイド情報としてDirLoudMapを送信するパラメトリックエンコーダ・デコーダシステム(従来の空間キューではなく、例えば、ILD、ITD/IPD、ICC、...)
->エンコーダがDirLoudMapの分析に基づいてパラメータを決定し、ダウンミックス信号(複数可)および(ビットストリーム)パラメータ、例えば全体のDirLoudMap+各信号のDirLoudMapへの寄与
->デコーダが送信されたDirLoudMapを適切な手段で合成
実施形態F)デコーダ/レンダラ/フォーマット変換器の複雑度の低減
各信号の「重要度」を決定するために、(おそらく送信されたサイド情報に基づいて)全体的なDirLoudMapに対する各信号の寄与を決定する。計算能力が制限されているアプリケーションでは、DirLoudMapに寄与する信号のデコード/レンダリングを閾値未満にスキップする。
方向性音量マップ(DirLoudMap)を計算するための一般的なステップ
これは、例えば、任意の実施態様に有効である:(例えば、図3aおよび/または図4aの説明)
a)いくつかの入力オーディオ信号のt/f分解を実行する。
任意:人間の聴覚システム(HAS)の周波数分解能に関連して、スペクトル成分を処理帯域にグループ化する。
-任意:異なる周波数領域におけるHAS感度に応じた重み付け(例えば、外耳/中耳伝達関数)
->結果:t/fタイル(例えば、スペクトル領域表現、スペクトル帯域、スペクトルビン、...)
いくつかの(例えば、それぞれの)周波数帯域(ループ)について:
b)例えば、いくつかのオーディオ入力チャネルのt/fタイルに対して方向分析関数を計算する->結果:方向d(例えば、方向
またはパンニング方向
)。
c)例えば、いくつかのオーディオ入力チャネルのt/fタイル上の音量を計算する
->結果:音量L
-音量の計算は、単にエネルギーであってもよいし、より洗練されたエネルギー(またはZwickerモデル:アルファ=0.25-0.27)であってもよい。
d.a)例えば、方向dの下でDirLoudMapにl寄与を入力/累積する
-任意選択:隣接する方向間のl個の分布の広がり(パンニングインデックス:ウィンドウイング)
終わりに
任意選択で、(アプリケーションによって必要とされる場合):広帯域DirLoudMapを計算する
d.b)広帯域DirLoudMapを提供するために、いくつかの(回避:すべて)周波数帯域にわたってDirLoudMapを要約し、方向/空間の関数として音の「活性」を示す。
例:パンニングインデックス(例えば、図6の説明)から導出された窓/選択関数を用いた方向性信号の回復
左(図6aを参照されたい。赤色)および右(図6bを参照されたい。青色)チャネル信号は、例えば、図6aおよび図6bに示されている。バーは、スペクトル全体のDFTビン(離散フーリエ変換)、臨界バンド(周波数ビングループ)、または臨界バンド内のDFTビンなどであり得る。
基準関数は、
のように任意に定義される。
基準は、例えば、「レベルに応じたパンニング方向」である。例えば、各またはいくつかのFFTビンのレベル。
a)基準関数から、適切な周波数ビン/スペクトルグループ/成分を選択し、方向性信号を復元するウィンドウイング関数/重み付け関数を抽出することができる。したがって、入力スペクトル(例えば、LおよびR)は、異なる窓関数
(各パンニング方向
ごとに1つの窓関数)によって乗算される。
b)基準関数から、
(すなわち、LとRとの間のレベル比)の異なる値に関連付けられた異なる方向を有する。
方法a)を使用して信号を復元するために
例1)パンニング方向中心
、(関係
を有するバーのみを保持する。これは方向性信号である(図6a1および図6b1を参照)。
例2)わずかに左へ向かうパンニング方向
(関係
を有するバーのみを保持する)。これは方向性信号である(図6a2および図6b2を参照)。
例3)わずかに右へ向かうパンニング方向
(関係
を有するバーのみを保持する)。これは方向性信号(図6a3.1および図6b3.1を参照されたい。)である。
基準関数は、各DFTビンのレベル、DFTビングループあたりのエネルギー(臨界帯域)
、または臨界帯域
あたりの音量として任意に定義することができる。異なる用途には異なる基準があり得る。
重み付け(任意)
注記:例えば臨界帯域を重み付けする外耳/中耳(周辺モデル)伝達関数重み付けと混同しないようにする。
重み付け:場合により、
の正確な値を取得する代わりに、許容範囲を使用し、
から逸脱する値をあまり重要ではない重みを使用する。すなわち、「4/3の関係に従うすべてのバーを取り、それらを重み1で渡し、それに近い値を取り、それらを1未満で重み付けする→このために、ガウス関数を使用することができる。上記の例では、方向性信号は、1で重み付けされていないが、より低い値を有するより多くのビンを有する。
動機:重み付けは、異なる方向性信号間の「より滑らかな」遷移を可能にし、異なる方向性信号の間にいくらかの「漏れ」があるため、分離はそれほど急激ではない。
例3)については、図6a3.2および図6b3.2に示されているもののように見える。
一般化された基準関数を使用して音量マップを計算する様々な形態の実施形態
オプション1:パンニングインデックス手法(図3aおよび図3bを参照):
(すべて)異なる
の場合、時間におけるこの関数の「値」マップを組み立てることができる。いわゆる「方向性音量マップ」は、以下のいずれかによって構築することができる。
・例1)「個々のFFTビンのレベルに応じたパンニング方向」の基準関数
を使用すると、方向性信号は、例えば、個々のDFTビンで構成される。次に、例えば、各方向性信号の各臨界帯域(DFTビングループ)のエネルギーを計算し、次いで、臨界帯域ごとのこれらのエネルギーを0.25などの指数に上昇させる。→「方向性音量マップを使用した空間オーディオ質の客観的評価」の章と同様
・例2)振幅スペクトルをウィンドウイングする代わりに、音量スペクトルをウィンドウイングすることができる。方向性信号は、既に音量領域にある。
・例3)「各臨界帯域の音量に応じたパンニング方向」の基準関数
を直接使用する。次に、方向性信号は、
によって与えられる値に従う重要な帯域全体のチャンクから構成される。
例えば、
について、方向性信号は以下とすることができる。
・Y=1*critical_band_1+0.2*critical_band_2+0.001*critical_band_3
他のパンニング方向/方向性信号の異なる組み合わせが適用される。重み付けを使用する場合、異なるパンニング方向は、同じ重要な帯域だが、異なる重み値を有する可能性が最も高いことを含むことができることに留意されたい。重み付けが適用されない場合、方向性信号は相互に排他的である。
オプション2:ヒストグラムアプローチ(図4bを参照):
これは、全体的な方向性音量のより一般的な説明である。それは、パンニングインデックス(すなわち、音量を計算するためにスペクトルをウィンドウイングすることによって「方向性信号」を回復する必要はない)を必ずしも利用しない。周波数スペクトルの全体的な音量は、対応する周波数領域の「分析された方向」に従って「分布」する。方向分析は、レベルの差ベース、時間差ベース、または他の形態であり得る。
各時間フレームについて(図5参照):
ヒストグラム
の解像度は、例えば、
のセットに与えられる値の量によって与えられる。これは、例えば、時間枠内で
を評価するとき
の出現をグループ化するために利用可能なビンの量である。値は、例えば、場合によっては「忘却係数」
を用いて、経時的に累積および平滑化される。
式中、nは時間フレームインデックスである。