JP2023533364A

JP2023533364A - ステレオオーディオ信号遅延推定方法および装置

Info

Publication number: JP2023533364A
Application number: JP2023502886A
Authority: JP
Inventors: 建策丁; ▲ジョー▼ 王; ▲賓▼ 王; 丙寅夏
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-07-17
Filing date: 2021-07-15
Publication date: 2023-08-02
Also published as: CA3189232A1; KR20230035387A; US20230154483A1; CN113948098A; BR112023000850A2; EP4170653A1; EP4170653A4; WO2022012629A1

Abstract

ステレオオーディオ信号遅延推定方法および装置が開示される。この方法は、ステレオオーディオ信号の現在のフレームを取得すること（Ｓ４０１）であって、現在のフレームは、第１のチャネルオーディオ信号と、第２のチャネルオーディオ信号とを含む、取得すること（Ｓ４０１）と、現在のフレームに含まれるノイズ信号の信号タイプがコヒーレントノイズ信号タイプである場合、第１のアルゴリズムを使用することによって現在のフレームのチャネル間時間差を推定すること（Ｓ４０３）、または現在のフレームに含まれるノイズ信号の信号タイプが拡散ノイズ信号タイプである場合、第２のアルゴリズムを使用することによって現在のフレームのチャネル間時間差を推定すること（Ｓ４０３）とを含んでよい。第１のアルゴリズムは、第１の重み関数に基づいて現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、第２のアルゴリズムは、第２の重み関数に基づいて現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、第１の重み関数の構造因子は第２の重み関数のそれとは異なる。異なるＩＴＤ推定アルゴリズムは、異なるタイプのノイズを含むステレオオーディオ信号に使用され、ステレオオーディオ信号のＩＴＤ推定精度を改善する。

Description

本出願は、その全体が参照により本明細書に組み込まれている、２０２０年７月１７日に中国国家知識産権局に出願された、「ＳＴＥＲＥＯＡＵＤＩＯＳＩＧＮＡＬＤＥＬＡＹＥＳＴＩＡＭＴＩＯＮＭＥＴＨＯＤＡＮＤＡＰＰＡＲＡＴＵＳ」という名称の中国特許出願第２０２０１０７００８０６．７号の優先権を主張するものである。

本出願は、オーディオ符号化および復号化の分野に関し、より詳細には、ステレオオーディオ信号遅延推定方法および装置に関する。

日常的なオーディオおよび映像通信システムでは、人々は、高品質画像だけでなく、高品質オーディオも追求する。音声およびオーディオ通信システムでは、単一チャネルオーディオは、人々の要求を満たすことがますますできなくなっている。一方、ステレオオーディオは、各音源の定位情報を搬送する。これは、オーディオの明瞭度、了解度、および臨場感を改善する。したがって、ステレオオーディオは、人々の間でますます普及している。

ステレオオーディオ符号化および復号化技術では、パラメトリックステレオ符号化および復号化技術は、一般的なオーディオ符号化および復号化技術である。一般的な空間パラメータは、チャネル間コヒーレンス（ｉｎｔｅｒ－ｃｈａｎｎｅｌｃｏｈｅｒｅｎｃｅ，ＩＣ）、チャネル間レベル差（ｉｎｔｅｒ－ｃｈａｎｎｅｌｌｅｖｅｌｄｉｆｆｅｒｅｎｃｅ，ＩＬＤ）、チャネル間時間差（ｉｎｔｅｒ－ｃｈａｎｎｅｌｔｉｍｅｄｉｆｆｅｒｅｎｃｅ，ＩＴＤ）、チャネル間位相差（ｉｎｔｅｒ－ｃｈａｎｎｅｌｐｈａｓｅｄｉｆｆｅｒｅｎｃｅ，ＩＰＤ）などを含む。ＩＬＤおよびＩＴＤは音源の定位情報を含み、ＩＬＤ情報およびＩＴＤ情報の正確な推定は、符号化されたステレオの音像および音場を再構築するために不可欠である。

そのようなアルゴリズムは、低い複雑さ、良好なリアルタイム性能、容易な実装を有し、ステレオオーディオ信号の他の前の情報に依存しないので、現在、最も一般に使用されるＩＴＤ推定方法は、一般化された相互相関方法である。しかしながら、騒々しい環境では、いくつかの既存の一般化された相互相関アルゴリズムの性能はひどく劣化し、ステレオオーディオ信号の低いＩＴＤ推定精度を招く。その結果、音像不正確さ、不安定性、不良な空間感覚、および明らかな頭部内への影響などの問題が、パラメトリック符号化および復号化技術における復号されたステレオオーディオ信号において発生し、符号化されたステレオオーディオ信号の音質に大きく影響する。

本出願は、ステレオオーディオ信号のチャネル間時間差推定精度を改善し、復号されたステレオオーディオ信号の音像の正確さおよび安定性を改善し、音質を改善するために、ステレオオーディオ信号遅延推定方法および装置を提供する。

第１の態様によれば、本出願は、ステレオオーディオ信号遅延推定方法を提供する。この方法は、オーディオコーディング装置に適用され得る。このオーディオコーディング装置は、ステレオおよびマルチチャネルオーディオおよび映像通信システム内のオーディオコーディング部分に適用されてもよいし、仮想現実（ｖｉｒｔｕａｌｒｅａｌｉｔｙ，ＶＲ）アプリケーションプログラム内のオーディオコーディング部分に適用されてもよい。方法は、以下を含んでよい。オーディオコーディング装置は、ステレオオーディオ信号の現在のフレームを取得し、現在のフレームは、第１のチャネルオーディオ信号と、第２のチャネルオーディオ信号とを含み、オーディオコーディング装置は、現在のフレームに含まれるノイズ信号の信号タイプがコヒーレントノイズ信号タイプである場合、第１のアルゴリズムを使用することによって第１のチャネルオーディオ信号と第２のチャネルオーディオ信号との間のチャネル間時間差（ｉｎｔｅｒ－ｃｈａｎｎｅｌｔｉｍｅｄｉｆｆｅｒｅｎｃｅ，ＩＴＤ）を推定する、または現在のフレームに含まれるノイズ信号の信号タイプが拡散ノイズ信号タイプである場合、第２のアルゴリズムを使用することによって第１のチャネルオーディオ信号と第２のチャネルオーディオ信号との間のＩＴＤを推定する。第１のアルゴリズムは、第１の重み関数に基づいて現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、第２のアルゴリズムは、第２の重み関数に基づいて現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、第１の重み関数の構造因子は第２の重み関数のそれとは異なる。

ステレオオーディオ信号は、生のステレオオーディオ信号（左チャネルオーディオ信号と右チャネルオーディオ信号とを含む）であってもよいし、マルチチャネルオーディオ信号中の２つのオーディオ信号によって形成されるステレオオーディオ信号であってもよいし、マルチチャネルオーディオ信号中の複数のオーディオ信号を統合することによって生成された２つのオーディオ信号によって形成されるステレオ信号であってもよい。確かに、ステレオオーディオ信号は、代替として、別の形式であってもよい。これは、本出願の本実施形態では具体的に限定されない。

任意選択で、オーディオコーディング装置は、具体的には、ステレオコーディング装置であってもよい。装置は、独立したステレオコーダを構成してもよいし、マルチチャネルオーディオ信号中の複数の信号を統合することによって生成された２つのオーディオ信号によって形成されたステレオオーディオ信号を符号化する、マルチチャネルコーダのコアコーディング部分であってもよい。

いくつかの可能な実装では、オーディオコーディング装置によって取得されるステレオ信号の現在のフレームは、周波数領域オーディオ信号または時間領域オーディオ信号であってよい。現在のフレームが周波数領域オーディオ信号である場合、オーディオコーディング装置は、周波数領域内で現在のフレームを直接的に処理してよい。現在のフレームが時間領域オーディオ信号である場合、オーディオコーディング装置は、最初に、周波数領域内の現在のフレームを取得するために時間領域内の現在のフレームに対して時間－周波数変換を行い、次いで、周波数領域内の現在のフレームを処理してよい。

本出願では、オーディオコーディング装置は、異なるタイプのノイズを含むステレオオーディオ信号に異なるＩＴＤ推定アルゴリズムを使用して、拡散ノイズおよびコヒーレントノイズの場合のステレオオーディオ信号のＩＴＤ推定精度および安定性を大きく改善し、ステレオダウンミックスされた信号間のフレーム間不連続性を減少させ、ステレオ信号の位相をより良く維持する。符号化されたステレオの音像は、より正確で安定しており、より強い臨場感を有し、符号化されたステレオ信号の聴覚品質は改善される。

いくつかの可能な実装では、ステレオオーディオ信号の現在のフレームが取得された後、方法は、現在のフレームのノイズコヒーレンス値を取得することと、ノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも大きいかこれに等しい場合、現在のフレームに含まれるノイズ信号の信号タイプはコヒーレントノイズ信号タイプであると決定すること、またはノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも小さい場合、現在のフレームに含まれるノイズ信号の信号タイプは拡散ノイズ信号タイプであると決定することとをさらに含む。

任意選択で、あらかじめ設定されたしきい値は、経験的値であり、０．２０、０．２５、０．３０などに設定されてよい。

いくつかの可能な実装では、現在のフレームのノイズコヒーレンス値を取得することは、現在のフレームに対して発話終了点検出を行うことと、検出結果が、現在のフレームの信号タイプはノイズ信号タイプであることを示す場合、現在のフレームのノイズコヒーレンス値を計算すること、または検出結果が、現在のフレームの信号タイプは発話信号タイプであることを示す場合、ステレオオーディオ信号の現在のフレームの以前のフレームのノイズコヒーレンス値を現在のフレームのノイズコヒーレンス値と決定することとを含んでよい。

任意選択で、オーディオコーディング装置は、時間領域、周波数領域、または時間領域と周波数領域の組み合わせにおいて、発話終了点検出値を計算してよい。これは、本明細書では具体的に限定されない。

本出願では、現在のフレームのノイズコヒーレンス値を計算した後、オーディオコーディング装置は、ノイズコヒーレンス値を推定する際の誤差を減少させ、ノイズタイプ識別の正確さを改善するために、ノイズコヒーレンス値に対して平滑化処理をさらに行ってよい。

いくつかの可能な実装では、第１のチャネルオーディオ信号は第１のチャネル時間領域信号であり、第２のチャネルオーディオ信号は第２のチャネル時間領域信号である。第１のアルゴリズムを使用することによって第１のチャネルオーディオ信号と第２のチャネルオーディオ信号との間のチャネル間時間差を推定することは、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号を取得するために、第１のチャネル時間領域信号および第２のチャネル時間領域信号に対して時間－周波数変換を行うことと、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することと、第１の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けすることと、重み付けされた周波数領域クロスパワースペクトルに基づいてチャネル間時間差の推定値を取得することとを含む。第１の重み関数の構造因子は、第１のチャネル周波数領域信号に対応するウィナー利得係数と、第２のチャネル周波数領域信号に対応するウィナー利得係数と、振幅重み付けパラメータと、現在のフレームの２乗コヒーレンス値とを含む。

いくつかの可能な実装では、第１のチャネルオーディオ信号は第１のチャネル周波数領域信号であり、第２のチャネルオーディオ信号は第２のチャネル周波数領域信号である。第１のアルゴリズムを使用することによって第１のチャネルオーディオ信号と第２のチャネルオーディオ信号との間のチャネル間時間差を推定することは、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することと、第１の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けすることと、重み付けされた周波数領域クロスパワースペクトルに基づいてチャネル間時間差の推定値を取得することとを含む。第１の重み関数の構造因子は、第１のチャネル周波数領域信号に対応するウィナー利得係数と、第２のチャネル周波数領域信号に対応するウィナー利得係数と、振幅重み付けパラメータと、現在のフレームの２乗コヒーレンス値とを含む。

いくつかの可能な実装では、第１の重み関数Φ_{new_1}（ｋ）は、以下の式

を満たす。

βは振幅重み付けパラメータであり、Ｗ_x1（ｋ）は第１のチャネル周波数領域信号に対応するウィナー利得係数であり、Ｗ_x2（ｋ）は第２のチャネル周波数領域信号に対応するウィナー利得係数であり、Γ²（ｋ）は現在のフレームの第ｋの周波数ビンの２乗コヒーレンス値であり、

であり、Ｘ₁（ｋ）は第１のチャネル周波数領域信号であり、Ｘ₂（ｋ）は第２のチャネル周波数領域信号であり、

はＸ₂（ｋ）の共役関数であり、ｋは周波数ビンインデックス値であり、ｋ＝０，１，．．．，Ｎ_DFT－１であり、Ｎ_DFTは時間－周波数変換後の現在のフレームの周波数ビンの総量である。

を満たす。

任意選択で、β∈［０，１］であり、たとえば、β＝０．６、０．７、または０．８である。

いくつかの可能な実装では、第１のチャネル周波数領域信号に対応するウィナー利得係数は、第１のチャネル周波数領域信号の第１の初期ウィナー利得係数および／または第１の改善されたウィナー利得係数であってよい。第２のチャネル周波数領域信号に対応するウィナー利得係数は、第２のチャネル周波数領域信号の第２の初期ウィナー利得係数および／または第２の改善されたウィナー利得係数であってよい。

たとえば、第１のチャネル周波数領域信号に対応するウィナー利得係数は第１のチャネル周波数領域信号の第１の初期ウィナー利得係数であり、第２のチャネル周波数領域信号に対応するウィナー利得係数は第２のチャネル周波数領域信号の第２の初期ウィナー利得係数である。この場合、ステレオオーディオ信号の現在のフレームが取得された後、方法は、第１のチャネル周波数領域信号に基づいて第１のチャネルノイズパワースペクトルの推定値を取得し、第１のチャネルノイズパワースペクトルの推定値に基づいて第１の初期ウィナー利得係数を決定することと、第２のチャネル周波数領域信号に基づいて第２のチャネルノイズパワースペクトルの推定値を取得することと、第２のチャネルノイズパワースペクトルの推定値に基づいて第２の初期ウィナー利得係数を決定することとをさらに含む。

本出願では、ウィナー利得係数重み付けの後、ステレオオーディオ信号の周波数領域クロスパワースペクトル中のコヒーレントノイズ成分の重みは大きく減少され、残留ノイズ成分の相関も大きく減少される。たいていの場合、残留ノイズの２乗コヒーレンス値は、ステレオオーディオ信号中のターゲット信号（たとえば、発話信号）の２乗コヒーレンス値よりもはるかに小さい。このようにして、ターゲット信号に対応する相互相関ピーク値はより突出し、ステレオオーディオ信号のＩＴＤ推定精度および安定性は大きく改善される。

いくつかの可能な実装では、第１の初期ウィナー利得係数

は、以下の式

を満たす。

第２の初期ウィナー利得係数

は、以下の式

を満たす。

は第１のチャネルノイズパワースペクトルの推定値であり、

は第２のチャネルノイズパワースペクトルの推定値であり、Ｘ₁（ｋ）は第１のチャネル周波数領域信号であり、Ｘ₂（ｋ）は第２のチャネル周波数領域信号であり、ｋは周波数ビンインデックス値であり、ｋ＝０，１，．．．，Ｎ_DFT－１であり、Ｎ_DFTは時間－周波数変換後の現在のフレームの周波数ビンの総量である。

別の例では、第１のチャネル周波数領域信号に対応するウィナー利得係数は第１のチャネル周波数領域信号の第１の改善されたウィナー利得係数であり、第２のチャネル周波数領域信号に対応するウィナー利得係数は第２のチャネル周波数領域信号の第２の改善されたウィナー利得係数である。

ステレオオーディオ信号の現在のフレームが取得された後、方法は、第１の初期ウィナー利得係数および第２の初期ウィナー利得係数を取得することと、第１の改善されたウィナー利得係数を取得するために、第１の初期ウィナー利得係数のためのバイナリマスキング関数を構築することと、第２の改善されたウィナー利得係数を取得するために、第２の初期ウィナー利得係数のためのバイナリマスキング関数を構築することとをさらに含む。

本出願では、バイナリマスキング関数は、第１のチャネル周波数領域信号に対応する第１の初期ウィナー利得係数および第２のチャネル周波数領域信号に対応する第２の初期ウィナー利得係数のために構築され、したがって、ノイズによってあまり影響されない周波数ビンが選択され、ＩＴＤ推定精度を改善する。

いくつかの可能な実装では、第１の改善されたウィナー利得係数

は、以下の式

を満たす。

第２の改善されたウィナー利得係数

は、以下の式

を満たす。

μ₀はウィナー利得係数のバイナリマスキングしきい値であり、

は第１の初期ウィナー利得係数であり、

は第２の初期ウィナー利得係数である。

任意選択で、μ₀∈［０．５，０．８］であり、たとえば、μ₀＝０．５、０．６６、０．７５、または０．８である。

いくつかの可能な実装では、第１のチャネルオーディオ信号は第１のチャネル時間領域信号であり、第２のチャネルオーディオ信号は第２のチャネル時間領域信号である。第２のアルゴリズムを使用することによって第１のチャネル周波数領域信号と第２のチャネル周波数領域信号との間のチャネル間時間差を推定することは、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号を取得するために、第１のチャネル時間領域信号および第２のチャネル時間領域信号に対して時間－周波数変換を行うことと、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することと、第１のチャネル周波数領域信号と第２のチャネル周波数領域信号との間のチャネル間時間差の推定値を取得するために、第２の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けすることとを含む。第２の重み関数の構造因子は、振幅重み付けパラメータと、現在のフレームの２乗コヒーレンス値とを含む。

いくつかの可能な実装では、第１のチャネルオーディオ信号は第１のチャネル周波数領域信号であり、第２のチャネルオーディオ信号は第２のチャネル周波数領域信号である。第２のアルゴリズムを使用することによって第１のチャネルオーディオ信号と第２のチャネルオーディオ信号との間のチャネル間時間差を推定することは、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することと、第２の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けすることと、重み付けされた周波数領域クロスパワースペクトルに基づいてチャネル間時間差の推定値を取得することとを含む。第２の重み関数の構造因子は、振幅重み付けパラメータと、現在のフレームの２乗コヒーレンス値とを含む。

いくつかの可能な実装では、第２の重み関数Φ_{new_2}（ｋ）は、以下の式

を満たす。

βは振幅重み付けパラメータであり、Γ²（ｋ）は現在のフレームの第ｋの周波数ビンの２乗コヒーレンス値であり、

第２の態様によれば、本出願は、ステレオオーディオ信号遅延推定方法を提供する。この方法は、オーディオコーディング装置に適用され得る。このオーディオコーディング装置は、ステレオおよびマルチチャネルオーディオおよび映像通信システム内のオーディオコーディング部分に適用されてもよいし、ＶＲアプリケーションプログラム内のオーディオコーディング部分に適用されてもよい。方法は、現在のフレームは、第１のチャネルオーディオ信号と、第２のチャネルオーディオ信号とを含み、第１のチャネルオーディオ信号および第２のチャネルオーディオ信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することと、あらかじめ設定された重み関数に基づいて周波数領域クロスパワースペクトルを重み付けすることと、重み付けされた周波数領域クロスパワースペクトルに基づいて第１のチャネル周波数領域信号と第２のチャネル周波数領域信号との間のチャネル間時間差の推定値を取得することとを含んでよい。

あらかじめ設定された重み関数は第１の重み関数または第２の重み関数を含み、第１の重み関数の構造因子は第２の重み関数のそれとは異なる。

任意選択で、第１の重み関数の構造因子は、第１のチャネル周波数領域信号に対応するウィナー利得係数と、第２のチャネル周波数領域信号に対応するウィナー利得と、振幅重み付けパラメータと、現在のフレームの２乗コヒーレンス値とを含む。第２の重み関数の構造因子は、振幅重み付けパラメータと、現在のフレームの２乗コヒーレンス値とを含む。

いくつかの可能な実装では、第１のチャネルオーディオ信号は第１のチャネル時間領域信号であり、第２のチャネルオーディオ信号は第２のチャネル時間領域信号である。第１のチャネルオーディオ信号および第２のチャネルオーディオ信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することは、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号を取得するために、第１のチャネル時間領域信号および第２のチャネル時間領域信号に対して時間－周波数変換を行うことと、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することとを含む。

いくつかの可能な実装では、第１のチャネルオーディオ信号は第１のチャネル周波数領域信号であり、第２のチャネルオーディオ信号は第２のチャネル周波数領域信号である。

を満たす。

たとえば、第１のチャネル周波数領域信号に対応するウィナー利得係数は第１のチャネル周波数領域信号の第１の初期ウィナー利得係数であり、第２のチャネル周波数領域信号に対応するウィナー利得係数は第２のチャネル周波数領域信号の第２の初期ウィナー利得係数である。ステレオオーディオ信号の現在のフレームが取得された後、方法は、第１のチャネル周波数領域信号に基づいて第１のチャネルノイズパワースペクトルの推定値を取得し、第１のチャネルノイズパワースペクトルの推定値に基づいて第１の初期ウィナー利得係数を決定することと、第２のチャネル周波数領域信号に基づいて第２のチャネルノイズパワースペクトルの推定値を取得することと、第２のチャネルノイズパワースペクトルの推定値に基づいて第２の初期ウィナー利得係数を決定することとをさらに含む。

いくつかの可能な実装では、第１の初期ウィナー利得係数

は、以下の式

を満たす。

第２の初期ウィナー利得係数

は、以下の式

を満たす。

別の例では、第１のチャネル周波数領域信号に対応するウィナー利得係数は第１のチャネル周波数領域信号の第１の改善されたウィナー利得係数であり、第２のチャネル周波数領域信号に対応するウィナー利得係数は第２のチャネル周波数領域信号の第２の改善されたウィナー利得係数である。ステレオオーディオ信号の現在のフレームが取得された後、方法は、第１の初期ウィナー利得係数および第２の初期ウィナー利得係数を取得することと、第１の改善されたウィナー利得係数を取得するために、第１の初期ウィナー利得係数のためのバイナリマスキング関数を構築することと、第２の改善されたウィナー利得係数を取得するために、第２の初期ウィナー利得係数のためのバイナリマスキング関数を構築することとをさらに含む。

は、以下の式

を満たす。

第２の改善されたウィナー利得係数

は、以下の式

を満たす。

は第１のウィナー利得係数であり、

は第２のウィナー利得係数である。

任意選択で、μ₀∈［０．５，０．８］、たとえば、μ₀＝０．５、０．６６、０．７５、または０．８である。

を満たす。

第３の態様によれば、本出願は、ステレオオーディオ信号遅延推定装置を提供する。この装置は、オーディオコーディング装置内のチップまたはシステムオンチップであってもよいし、オーディオコーディング装置内にあり、第１の態様または第１の態様の可能な実装のいずれか１つによる方法を実施するように構成された機能モジュールであってもよい。たとえば、ステレオオーディオ信号遅延推定装置は、ステレオオーディオ信号の現在のフレームを取得するように構成された第１の取得モジュールであって、現在のフレームは、第１のチャネルオーディオ信号と、第２のチャネルオーディオ信号とを含む、第１の取得モジュールと、現在のフレームに含まれるノイズ信号の信号タイプがコヒーレントノイズ信号タイプである場合、第１のアルゴリズムを使用することによって第１のチャネルオーディオ信号と第２のチャネルオーディオ信号との間のチャネル間時間差を推定すること、または現在のフレームに含まれるノイズ信号の信号タイプが拡散ノイズ信号タイプである場合、第２のアルゴリズムを使用することによって第１のチャネルオーディオ信号と第２のチャネルオーディオ信号との間のチャネル間時間差を推定することを行うように構成された第１のチャネル間時間差推定モジュールとを含む。第１のアルゴリズムは、第１の重み関数に基づいて現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、第２のアルゴリズムは、第２の重み関数に基づいて現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、第１の重み関数の構造因子は第２の重み関数のそれとは異なる。

いくつかの可能な実装では、装置は、第１の取得モジュールが現在のフレームを取得した後に現在のフレームのノイズコヒーレンス値を取得することと、ノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも大きいかこれに等しい場合、現在のフレームに含まれるノイズ信号の信号タイプはコヒーレントノイズ信号タイプであると決定すること、またはノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも小さい場合、現在のフレームに含まれるノイズ信号の信号タイプは拡散ノイズ信号タイプであると決定することとを行うように構成されたノイズコヒーレンス値計算モジュールをさらに含む。

いくつかの可能な実装では、装置は、現在のフレームに対して発話終了点検出を行うように構成された発話終了点検出モジュールをさらに含む。ノイズコヒーレンス値計算モジュールは、検出結果が、現在のフレームの信号タイプはノイズ信号タイプであることを示す場合、現在のフレームのノイズコヒーレンス値を計算すること、または検出結果が、現在のフレームの信号タイプは発話信号タイプであることを示す場合、ステレオオーディオ信号の現在のフレームの以前のフレームのノイズコヒーレンス値を現在のフレームのノイズコヒーレンス値と決定することを行うように特に構成される。

本出願では、発話終了点検出モジュールは、時間領域、周波数領域、または時間領域と周波数領域の組み合わせにおいて、発話終了点検出値を計算してよい。これは、本明細書では具体的に限定されない。

いくつかの可能な実装では、第１のチャネルオーディオ信号は第１のチャネル時間領域信号であり、第２のチャネルオーディオ信号は第２のチャネル時間領域信号である。第１のチャネル間時間差推定モジュールは、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号を取得するために、第１のチャネル時間領域信号および第２のチャネル時間領域信号に対して時間－周波数変換を行い、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算し、第１の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けし、重み付けされた周波数領域クロスパワースペクトルに基づいてチャネル間時間差の推定値を取得するように構成される。第１の重み関数の構造因子は、第１のチャネル周波数領域信号に対応するウィナー利得係数と、第２のチャネル周波数領域信号に対応するウィナー利得係数と、振幅重み付けパラメータと、現在のフレームの２乗コヒーレンス値とを含む。

いくつかの可能な実装では、第１のチャネルオーディオ信号は第１のチャネル周波数領域信号であり、第２のチャネルオーディオ信号は第２のチャネル周波数領域信号である。第１のチャネル間時間差推定モジュールは、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算し、第１の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けし、重み付けされた周波数領域クロスパワースペクトルに基づいてチャネル間時間差の推定値を取得するように構成される。第１の重み関数の構造因子は、第１のチャネル周波数領域信号に対応するウィナー利得係数と、第２のチャネル周波数領域信号に対応するウィナー利得係数と、振幅重み付けパラメータと、現在のフレームの２乗コヒーレンス値とを含む。

を満たす。

βは振幅重み付けパラメータであり、β∈［０，１］であり、Ｗ_x1（ｋ）は第１のチャネル周波数領域信号に対応するウィナー利得係数であり、Ｗ_x2（ｋ）は第２のチャネル周波数領域信号に対応するウィナー利得係数であり、Ｘ₁（ｋ）は第１のチャネル周波数領域信号であり、Ｘ₂（ｋ）は第２のチャネル周波数領域信号であり、

はＸ₂（ｋ）の共役関数であり、Γ²（ｋ）は現在のフレームの第ｋの周波数ビンの２乗コヒーレンス値であり、

であり、ｋは周波数ビンインデックス値であり、ｋ＝０，１，．．．，Ｎ_DFT－１であり、Ｎ_DFTは時間－周波数変換後の現在のフレームの周波数ビンの総量である。

を満たす。

いくつかの可能な実装では、第１のチャネル周波数領域信号に対応するウィナー利得係数は第１のチャネル周波数領域信号の第１の初期ウィナー利得係数であり、第２のチャネル周波数領域信号に対応するウィナー利得係数は第２のチャネル周波数領域信号の第２の初期ウィナー利得係数である。第１のチャネル間時間差推定モジュールは、第１の取得モジュールが現在のフレームを取得した後に第１のチャネル周波数領域信号に基づいて第１のチャネルノイズパワースペクトルの推定値を取得し、第１のチャネルノイズパワースペクトルの推定値に基づいて第１の初期ウィナー利得係数を決定し、第２のチャネル周波数領域信号に基づいて第２のチャネルノイズパワースペクトルの推定値を取得し、第２のチャネルノイズパワースペクトルの推定値に基づいて第２の初期ウィナー利得係数を決定するように特に構成される。

いくつかの可能な実装では、第１の初期ウィナー利得係数

は、以下の式

を満たす。

第２の初期ウィナー利得係数

は、以下の式

を満たす。

いくつかの可能な実装では、第１のチャネル周波数領域信号に対応するウィナー利得係数は第１のチャネル周波数領域信号の第１の改善されたウィナー利得係数であり、第２のチャネル周波数領域信号に対応するウィナー利得係数は第２のチャネル周波数領域信号の第２の改善されたウィナー利得係数である。第１のチャネル間時間差推定モジュールは、第１の改善されたウィナー利得係数を取得するために、第１の取得モジュールが現在のフレームを取得した後に第１の初期ウィナー利得係数のためのバイナリマスキング関数を構築することと、第２の改善されたウィナー利得係数を取得するために、第２の初期ウィナー利得係数のためのバイナリマスキング関数を構築することとを行うように特に構成される。

は、以下の式

を満たす。

第２の改善されたウィナー利得係数

は、以下の式

を満たす。

は第１の初期ウィナー利得係数であり、

は第２の初期ウィナー利得係数である。

いくつかの可能な実装では、第１のチャネルオーディオ信号は第１のチャネル時間領域信号であり、第２のチャネルオーディオ信号は第２のチャネル時間領域信号である。第１のチャネル間時間差推定モジュールは、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号を取得するために、第１のチャネル時間領域信号および第２のチャネル時間領域信号に対して時間－周波数変換を行うことと、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することと、チャネル間時間差の推定値を取得するために、第２の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けすることとを行うように特に構成される。第２の重み関数の構造因子は、振幅重み付けパラメータと、現在のフレームの２乗コヒーレンス値とを含む。

いくつかの可能な実装では、第１のチャネルオーディオ信号は第１のチャネル周波数領域信号であり、第２のチャネルオーディオ信号は第２のチャネル周波数領域信号である。第１のチャネル間時間差推定モジュールは、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算し、第２の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けし、重み付けされた周波数領域クロスパワースペクトルに基づいてチャネル間時間差の推定値を取得するように特に構成される。第２の重み関数の構造因子は、振幅重み付けパラメータと、現在のフレームの２乗コヒーレンス値とを含む。

を満たす。

βは振幅重み付けパラメータであり、β∈［０，１］であり、Ｘ₁（ｋ）は第１のチャネル周波数領域信号であり、Ｘ₂（ｋ）は第２のチャネル周波数領域信号であり、

第４の態様によれば、本出願は、ステレオオーディオ信号遅延推定装置を提供する。この装置は、オーディオコーディング装置内のチップまたはシステムオンチップであってもよいし、オーディオコーディング装置内にあり、第２の態様または第２の態様の可能な実装のいずれか１つによる方法を実施するように構成された機能モジュールであってもよい。たとえば、ステレオオーディオ信号遅延推定装置は、ステレオオーディオ信号の現在のフレームを取得するように構成された第２の取得モジュールであって、現在のフレームは、第１のチャネルオーディオ信号と、第２のチャネルオーディオ信号とを含む、第２の取得モジュールと、第１のチャネルオーディオ信号および第２のチャネルオーディオ信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算し、あらかじめ設定された重み関数に基づいて周波数領域クロスパワースペクトルを重み付けし、重み付けされた周波数領域クロスパワースペクトルに基づいて第１のチャネル周波数領域信号と第２のチャネル周波数領域信号との間のチャネル間時間差の推定値を取得するように構成された第２のチャネル間時間差推定モジュールとを含む。あらかじめ設定された重み関数は第１の重み関数または第２の重み関数であり、第１の重み関数の構造因子は第２の重み関数のそれとは異なる。第１の重み関数の構造因子は、第１のチャネル周波数領域信号に対応するウィナー利得係数と、第２のチャネル周波数領域信号に対応するウィナー利得と、振幅重み付けパラメータと、現在のフレームの２乗コヒーレンス値とを含む。第２の重み関数の構造因子は、振幅重み付けパラメータと、現在のフレームの２乗コヒーレンス値とを含む。

いくつかの可能な実装では、第１のチャネルオーディオ信号は第１のチャネル時間領域信号であり、第２のチャネルオーディオ信号は第２のチャネル時間領域信号である。第２のチャネル間時間差推定モジュールは、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号を取得するために、第１のチャネル時間領域信号および第２のチャネル時間領域信号に対して時間－周波数変換を行うことと、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することとを行うように構成される。

を満たす。

いくつかの可能な実装では、第１のチャネル周波数領域信号に対応するウィナー利得係数は第１のチャネル周波数領域信号の第１の初期ウィナー利得係数であり、第２のチャネル周波数領域信号に対応するウィナー利得係数は第２のチャネル周波数領域信号の第２の初期ウィナー利得係数である。第２のチャネル間時間差推定モジュールは、第２の取得モジュールが現在のフレームを取得した後に第１のチャネル周波数領域信号に基づいて第１のチャネルノイズパワースペクトルの推定値を取得し、第１のチャネルノイズパワースペクトルの推定値に基づいて第１の初期ウィナー利得係数を決定し、第２のチャネル周波数領域信号に基づいて第２のチャネルノイズパワースペクトルの推定値を取得し、第２のチャネルノイズパワースペクトルの推定値に基づいて第２の初期ウィナー利得係数を決定するように特に構成される。

いくつかの可能な実装では、第１の初期ウィナー利得係数

は、以下の式

を満たす。

第２の初期ウィナー利得係数

は、以下の式

を満たす。

いくつかの可能な実装では、第１のチャネル周波数領域信号に対応するウィナー利得係数は第１のチャネル周波数領域信号の第１の改善されたウィナー利得係数であり、第２のチャネル周波数領域信号に対応するウィナー利得係数は第２のチャネル周波数領域信号の第２の改善されたウィナー利得係数である。第２のチャネル間時間差推定モジュールは、第２の取得モジュールが現在のフレームを取得した後で第１の初期ウィナー利得係数および第２の初期ウィナー利得係数を取得することと、第１の改善されたウィナー利得係数を取得するために、第１の初期ウィナー利得係数のためのバイナリマスキング関数を構築することと、第２の改善されたウィナー利得係数を取得するために、第２の初期ウィナー利得係数のためのバイナリマスキング関数を構築することとを行うように特に構成される。

は、以下の式

を満たす。

第２の改善されたウィナー利得係数

は、以下の式

を満たす。

は第１の初期ウィナー利得係数であり、

は第２の初期ウィナー利得係数である。

を満たし、
β∈［０，１］であり、Ｘ₁（ｋ）は第１のチャネル周波数領域信号であり、Ｘ₂（ｋ）は第２のチャネル周波数領域信号であり、

第５の態様によれば、本出願は、互いに結合された不揮発性メモリとプロセッサとを含むオーディオコーディング装置を提供する。プロセッサは、第１の態様、第２の態様、ならびに第１の態様および第２の態様の可能な実装のいずれか１つによるステレオオーディオ信号遅延推定方法を行うために、メモリに記憶されたプログラムコードを呼び出す。

第６の態様によれば、本出願は、コンピュータ可読記憶媒体を提供する。コンピュータ可読記憶媒体は命令を記憶し、命令がコンピュータ上で稼働するとき、第１の態様、第２の態様、ならびに第１の態様および第２の態様の可能な実装のいずれか１つによるステレオオーディオ信号遅延推定方法が行われる。

第７の態様によれば、本出願は、符号化されたビットストリームを含むコンピュータ可読記憶媒体を提供する。符号化されたビットストリームは、第１の態様、第２の態様、ならびに第１の態様および第２の態様の可能な実装のいずれか１つにおけるステレオオーディオ信号遅延推定方法により取得されるステレオオーディオ信号のチャネル間時間差を含む。

第８の態様によれば、本出願は、コンピュータプログラムまたはコンピュータプログラム製品を提供する。コンピュータプログラムまたはコンピュータプログラム製品がコンピュータ上で実行されるとき、コンピュータは、第１の態様、第２の態様、ならびに第１の態様および第２の態様の可能な実装のいずれか１つによるステレオオーディオ信号遅延推定方法を実施することが可能にされる。

本出願の第４の態様から第１０の態様における技術的解決策は、本出願の第１の態様から第２の態様における技術的解決策と矛盾しないことが、理解されるべきである。これらの態様および対応する実現可能な実装によって達成される有益な効果は、類似している。詳細は、再び説明されない。

以下は、実施形態または本出願の背景技術について説明するために必要とされる添付の図面について説明する。

本出願の一実施形態による、周波数領域におけるパラメトリックステレオ符号化および復号化方法の概略フローチャートである。本出願の一実施形態による一般化された相互相関アルゴリズムの概略フローチャートである。本出願の一実施形態によるステレオオーディオ信号遅延推定方法の概略フローチャート１である。本出願の一実施形態によるステレオオーディオ信号遅延推定方法の概略フローチャート２である。本出願の一実施形態によるステレオオーディオ信号遅延推定方法の概略フローチャート３である。本出願の一実施形態によるステレオオーディオ信号遅延推定装置の構造を示す概略図である。本出願の一実施形態によるオーディオコーディング装置の構造を示す概略図である。

以下は、本出願の実施形態における添付の図面を参照しながら、本出願の実施形態について説明する。以下の説明では、本出願の一部を形成し、例示的な様式で本出願の実施形態の特定の態様を示す、または本出願の実施形態の特定の態様が使用されることがある、添付の図面に対して、参照がなされる。本出願の実施形態は、他の態様で使用されてよく、添付の図面に示されていない構造的または論理的な変更を含んでよいことが理解されるべきである。たとえば、説明される方法を参照する本開示は、方法を行うための対応するデバイスまたはシステムに適用されてもよく、その逆も同様であることが理解されるべきである。たとえば、１つまたは複数の特定の方法ステップが説明される場合、説明された１つまたは複数の方法ステップを行うための機能ユニットなどの、１つまたは複数のユニット（たとえば、１つのユニットが１つもしくは複数のステップを行う、またはその各々が複数のステップのうちの１つもしくは複数を行う複数のユニット）が、添付の図面において明示的に説明または図示されていない場合ですら、対応するデバイスは、そのような１つまたは複数のユニットを含んでよい。さらに、たとえば、特定の装置が、機能ユニットなどの１つまたは複数のユニットに基づいて説明される場合、対応する方法は、１つまたは複数のユニットの機能を実施するための１つのステップ（たとえば、１つもしくは複数のユニットの機能を実施するための１つのステップ、またはその各々が複数のユニット中の１つもしくは複数のユニットの機能を実施するためのものである複数のステップ）が添付の図面において明示的に説明または図示されていない場合ですら、そのようなステップのうちの１つまたは複数を含んでよい。さらに、別段に規定されていない限り、本明細書で説明されるさまざまな例示的実施形態および／または態様の特徴は互いと組み合わされてよいことが理解されるべきである。

音声およびオーディオ通信システムでは、単一チャネルオーディオは、人々の要求を満たすことがますますできなくなっている。一方、ステレオオーディオは、各音源の定位情報を搬送する。これは、オーディオの明瞭度および了解度を改善し、オーディオの臨場感を改善する。したがって、ステレオオーディオは、人々の間でますます普及している。

音声およびオーディオ通信システムでは、オーディオ符号化および復号化技術は、非常に重要な技術である。技術は、オーディオ信号送信および記憶を容易にするために、聴覚モデルに基づいたものであり、最小エネルギーを使用して歪みを感知し、可能な限り最も低いコーディングレートでオーディオ信号を表す。高品質オーディオの要求を満たすために、一連のステレオ符号化および復号化技術が開発される。

最も一般に使用されるステレオ符号化および復号化技術は、パラメトリックステレオ符号化および復号化技術である。この技術の理論的根拠は、空間聴取原理である。具体的には、オーディオ符号化プロセスでは、生のステレオオーディオ信号が単一チャネル信号および表現のためのいくつかの空間パラメータに変換される、または生のステレオオーディオ信号が、単一チャネル信号、残留信号、および表現のためのいくつかの空間パラメータに変換される。オーディオ復号化プロセスでは、ステレオオーディオ信号は、復号された単一チャネル信号および空間パラメータを使用することによって再構築される、またはステレオオーディオ信号は、復号された単一チャネル信号、残留信号、および空間パラメータを使用することによって再構築される。

図１は、本出願の一実施形態による、周波数領域内のパラメトリックステレオ符号化および復号化方法の概略フローチャートである。図１に示されるように、プロセスは、以下のステップを含んでよい。

Ｓ１０１：エンコーダ側は、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号を取得するために、ステレオオーディオ信号の現在のフレームの第１のチャネルオーディオ信号および第２のチャネルオーディオ信号に対して時間－周波数変換（たとえば、離散フーリエ変換（ｄｉｓｃｒｅｔｅｆｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ，ＤＦＴ））を行う。

最初に、エンコーダ側へのステレオオーディオ信号入力は、２つのオーディオ信号、すなわち、第１のチャネルオーディオ信号および第２のチャネルオーディオ信号（たとえば、左チャネルオーディオ信号および右チャネルオーディオ信号）を含んでよいことが留意されるべきである。ステレオオーディオ信号に含まれる２つのオーディオ信号は、マルチチャネルオーディオ信号中の２つのオーディオ信号またはマルチチャネルオーディオ信号中の複数のオーディオ信号を統合することによって生成される２つのオーディオ信号であってもまたよい。これは、本明細書では具体的に限定されない。

ここでは、ステレオオーディオ信号を符号化するとき、エンコーダ側は、複数のオーディオフレームを取得するためにフレーミング処理を行い、フレームごとにオーディオフレームを処理する。

Ｓ１０２：エンコーダ側は、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号のために、空間パラメータ、ダウンミックスされた信号、および残留信号を抽出する。

空間パラメータは、を含んでよいチャネル間コヒーレンス（ｉｎｔｅｒ－ｃｈａｎｎｅｌｃｏｈｅｒｅｎｃｅ，ＩＣ）、チャネル間レベル差（ｉｎｔｅｒ－ｃｈａｎｎｅｌｌｅｖｅｌｄｉｆｆｅｒｅｎｃｅ，ＩＬＤ）、チャネル間時間差（ｉｎｔｅｒ－ｃｈａｎｎｅｌｔｉｍｅｄｉｆｆｅｒｅｎｃｅ，ＩＴＤ）、チャネル間位相差（ｉｎｔｅｒ－ｃｈａｎｎｅｌｐｈａｓｅｄｉｆｆｅｒｅｎｃｅ，ＩＰＤ）などを含んでよい。

Ｓ１０３：エンコーダ側は、空間パラメータ、ダウンミックスされた信号、および残留信号を別々に符号化する。

Ｓ１０４：エンコーダ側は、符号化された空間パラメータ、ダウンミックスされた信号、および残留信号に基づいて、周波数領域パラメトリックステレオビットストリームを生成する。

Ｓ１０５：エンコーダ側は、周波数領域パラメトリックステレオビットストリームをデコーダ側に送る。

Ｓ１０６：デコーダ側は、対応する空間パラメータ、ダウンミックスされた信号、および残留信号を取得するために、受信された周波数領域パラメトリックステレオビットストリームを復号する。

Ｓ１０７：デコーダ側は、アップミックスされた信号を取得するために、ダウンミックスされた信号および残留信号に対して周波数領域アップミキシングを行う。

Ｓ１０８：デコーダ側は、周波数領域オーディオ信号を取得するために、アップミックスされた信号と空間パラメータを合成する。

Ｓ１０９：デコーダ側は、現在のフレームの第１のチャネルオーディオ信号および第２のチャネルオーディオ信号を取得するために、空間パラメータに基づいて周波数領域オーディオ信号に対して逆時間－周波数変換（たとえば、離散逆フーリエ変換（ｉｎｖｅｒｓｅｄｉｓｃｒｅｔｅｆｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ，ＩＤＦＴ））を行う。

さらに、エンコーダ側は、ステレオオーディオ信号中の各オーディオフレームに対して第１のステップから第５のステップを行い、デコーダ側は、各フレームに対して第６のステップから第９のステップを行う。このようにして、デコーダ側は、複数のオーディオフレームの第１のチャネルオーディオ信号および第２のチャネルオーディオ信号を取得し、ステレオオーディオ信号の第１のチャネルオーディオ信号および第２のチャネルオーディオ信号をさらに取得してよい。

前述のパラメトリックステレオ符号化および復号化プロセスでは、空間パラメータ内のＩＬＤおよびＩＴＤは、音源の定位情報を含む。したがって、ＩＬＤおよびＩＴＤの正確な推定は、ステレオ音像および音場の再構築にとって重要である。

パラメトリックステレオ符号化技術では、最も一般に使用されるＩＴＤ推定方法は、一般化された相互相関方法であってよく、これは、低い複雑さ、良好なリアルタイム性能、容易な実装などの利点を有し、ステレオオーディオ信号の他の前の情報に依存しない。図２は、本出願の一実施形態による一般化された相互相関アルゴリズムの概略フローチャートである。図２に示されるように、方法は、以下のステップを含んでよい。

Ｓ２０１：エンコーダ側は、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号を取得するために、ステレオオーディオ信号に対してＤＦＴを行う。

Ｓ２０２：エンコーダ側は、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号に基づいて、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号の周波数領域クロスパワースペクトルおよび周波数領域重み関数を計算する。

Ｓ２０３：エンコーダ側は、周波数領域重み関数に基づいて周波数領域クロスパワースペクトルに対して重み付けすることを行う。

Ｓ２０４：エンコーダ側は、周波数領域相互相関関数を取得するために、重み付けされた周波数領域クロスパワースペクトルに対してＩＤＦＴを行う。

Ｓ２０５：エンコーダ側は、周波数領域相互相関関数に対してピーク検出を行う。

Ｓ２０６：エンコーダ側は、相互相関関数のピーク値に基づいて推定ＩＴＤ値を決定する。

一般化された相互相関アルゴリズムでは、第２のステップにおける周波数領域重み関数は、以下の関数を使用してよい。

タイプ１：前述の第２のステップにおける周波数領域重み関数は、式（１）に示されてよい。

Φ_PHAT（ｋ）はＰＨＡＴ重み関数であり、Ｘ₁（ｋ）は、第１のチャネルオーディオ信号ｘ₁（ｎ）の周波数領域オーディオ信号、すなわち、第１のチャネル周波数領域信号であり、Ｘ₂（ｋ）は、第２のチャネルオーディオ信号ｘ₂（ｎ）の周波数領域オーディオ信号、すなわち、第２のチャネル周波数領域信号であり、

は第１のチャネルおよび第２のチャネルのクロスパワースペクトルであり、ｋは周波数ビンインデックス値であり、ｋ＝０，１，．．．，Ｎ_DFT－１であり、Ｎ_DFTは時間－周波数変換後の現在のフレームの周波数ビンの総量である。

それに対応して、重み付けされた一般化された相互相関関数は、式（２）に示されてよい。

実際の適用例では、式（１）に示される周波数領域重み関数および式（２）に示される重み付けされた一般化された相互相関関数に基づいてＩＴＤ推定を行うことは、一般化された相互相関位相変換（ｇｅｎｅｒａｌｉｚｅｄｃｒｏｓｓｃｏｒｒｅｌａｔｉｏｎｗｉｔｈｐｈａｓｅｔｒａｎｓｆｏｒｍａｔｉｏｎ，ＧＣＣ－ＰＨＡＴ）アルゴリズムと呼ばれることがある。ステレオオーディオ信号のエネルギーは、異なる周波数ビンの間で大きく変化し、低いエネルギーをもつ周波数ビンはノイズによって大きく影響され、高いエネルギーをもつ周波数ビンはノイズによってわずかに影響される。ＧＣＣ－ＰＨＡＴアルゴリズムでは、クロスパワースペクトルがＰＨＡＴ重み関数に基づいて重み付けされた後、一般化された相互相関関数における周波数ビンの重み付けされた値の重みは同じである。その結果、ＧＣＣ－ＰＨＡＴアルゴリズムは、ノイズ信号に対する感度が非常に高く、中程度および高い信号対ノイズ比の場合ですら、ＧＣＣ－ＰＨＡＴアルゴリズムの性能も大きく劣化する。さらに、空間内に１つまたは複数のノイズ源があるとき、すなわち、競合する音源があるとき、コヒーレントノイズ信号がステレオオーディオ信号内に存在し、現在のフレーム内のターゲット信号（たとえば、発話信号）に対応するピーク値は弱められる。したがって、いくつかの場合では、たとえば、コヒーレントノイズ信号のエネルギーはターゲット信号のエネルギーよりも大きい、またはノイズ源はマイクロホンにより近く、コヒーレントノイズ信号のピーク値は、ターゲット信号に対応するピーク値よりも大きい。この場合、ステレオオーディオ信号の推定ＩＴＤ値は、ノイズ信号の推定ＩＴＤ値である。すなわち、コヒーレントノイズがある場合、ステレオオーディオ信号のＩＴＤ推定精度は著しく減少され、ステレオオーディオ信号の推定ＩＴＤ値は、ターゲット信号のＩＴＤ値とノイズ信号のＩＴＤ値との間で連続的に切り換えられ、符号化されたステレオオーディオ信号の音像安定性に影響する。

タイプ２：前述の第２のステップにおける周波数領域重み関数は、式（３）に示されてよい。

βは振幅重み付けパラメータであり、β∈［０，１］である。

それに対応して、重み付けされた一般化された相互相関関数は、式（４）にさらに示されてよい。

実際の適用例では、式（３）に示される周波数領域重み関数および式（４）に示される重み付けされた一般化された相互相関関数に基づいてＩＴＤ推定を行うことは、ＧＣＣ－ＰＨＡＴ－βアルゴリズムと呼ばれることがある。なぜなら、βの最適な値は、ノイズ信号タイプによって異なり、最適な値は大きく異なる。したがって、異なるノイズ信号タイプのためのＧＣＣ－ＰＨＡＴ－βアルゴリズムの性能は異なる。さらに、中程度および高い信号対ノイズ比の場合、ＧＣＣ－ＰＨＡＴ－βアルゴリズムの性能がある程度まで改善されるが、パラメトリックステレオ符号化および復号化技術によって必要とされるＩＴＤ推定精度は満たされることはできない。さらに、コヒーレントノイズがある場合、ＧＣＣ－ＰＨＡＴ－βアルゴリズムの性能も著しく劣化する。

タイプ３：前述の第２のステップにおける周波数領域重み関数は、式（５）に示されてよい。

Γ²（ｋ）は現在のフレームの第ｋの周波数ビンの２乗コヒーレンス値であり、

である。

それに対応して、重み付けされた一般化された相互相関関数は、式（６）にさらに示されてよい。

実際の適用例では、式（５）に示される周波数領域重み関数および式（６）に示される重み付けされた一般化された相互相関関数に基づいてＩＴＤ推定を行うことは、ＧＣＣ－ＰＨＡＴ－Ｃｏｈアルゴリズムと呼ばれることがある。いくつかの条件下では、ステレオオーディオ信号中のコヒーレントノイズ内のたいていの周波数ビンの２乗コヒーレンス値は、現在のフレーム内のターゲット信号の２乗コヒーレンス値よりも大きい。その結果、ＧＣＣ－ＰＨＡＴ－Ｃｏｈアルゴリズムの性能は著しく劣化する。さらに、ステレオオーディオ信号のエネルギーは、異なる周波数ビン間で大きく変化し、ＧＣＣ－ＰＨＡＴ－Ｃｏｈアルゴリズムは、アルゴリズム性能に対する異なる周波数ビン間のエネルギー差の影響を考慮しない。その結果、ＩＴＤ推定性能は、いくつかの条件では不良である。

前述の内容から、ノイズは、一般化された相互相関アルゴリズムの性能に対する重大な影響を有することが、知られ得る。したがって、ＩＴＤ推定精度は著しく劣化し、音像不正確さ、不安定性、不良な空間感覚、および明らかな頭部内への影響などの問題が、パラメトリック符号化および復号化技術における復号されたステレオオーディオ信号で発生し、符号化されたステレオオーディオ信号の音質に著しく影響する。

前述の問題を解決するために、本出願の実施形態は、ステレオオーディオ信号遅延推定方法を提供する。この方法は、オーディオコーディング装置に適用され得る。このオーディオコーディング装置は、ステレオおよびマルチチャネルオーディオおよび映像通信システム内のオーディオコーディング部分に適用されてもよいし、仮想現実（ｖｉｒｔｕａｌｒｅａｌｉｔｙ，ＶＲ）アプリケーションプログラム内のオーディオコーディング部分に適用されてもよい。

実際の適用例では、オーディオコーディング装置は、オーディオおよび映像通信システム内の端末内に配置されてよい。たとえば、端末は、音声またはデータ接続性をユーザに提供するデバイスであってよい。たとえば、端末は、代替として、ユーザ機器（ｕｓｅｒｅｑｕｉｐｍｅｎｔ，ＵＥ）、移動局（ｍｏｂｉｌｅｓｔａｔｉｏｎ）、加入者ユニット（ｓｕｂｓｃｒｉｂｅｒｕｎｉｔ）、局（Ｓｔａｔｉｏｎ）、または端末機器（ｔｅｒｍｉｎａｌｅｑｕｉｐｍｅｎｔ，ＴＥ）と呼ばれることがある。端末デバイスは、セルラー電話（ｃｅｌｌｕｌａｒｐｈｏｎｅ）、携帯情報端末（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ，ＰＤＡ）、ワイヤレスモデム（ｍｏｄｅｍ）、ハンドヘルド（ｈａｎｄｈｅｌｄ）デバイス、ラップトップコンピュータ（ｌａｐｔｏｐｃｏｍｐｕｔｅｒ）、コードレス電話（ｃｏｒｄｌｅｓｓｐｈｏｎｅ）、ワイヤレスローカルループ（ｗｉｒｅｌｅｓｓｌｏｃａｌｌｏｏｐ，ＷＬＬ）局、パッド（ｐａｄ）などであってよい。ワイヤレス通信技術の発展とともに、ワイヤレス通信システムにアクセスする、ワイヤレス通信システムのネットワーク側と通信する、またはワイヤレス通信システムを使用することによって別のデバイスと通信することができる任意のデバイスは、インテリジェント交通における端末および車両、スマート家庭における家庭用デバイス、スマートグリッドにおける電気メータ読み取り計器、電圧モニタリング計器、環境モニタリング計器、インテリジェントセキュリティネットワークにおける映像監視計器、またはキャッシュレジスタなどの、本出願の実施形態における端末デバイスであってよい。端末デバイスは、静止し、固定または移動式であってよい。

代替として、オーディオエンコーダは、ＶＲ機能を有するデバイス上にさらに配置されてよい。たとえば、デバイスは、ＶＲアプリケーションをサポートする、スマートフォン、タブレットコンピュータ、スマートテレビ、ノートブックコンピュータ、パーソナルコンピュータ、ウェアラブルデバイス（ＶＲグラス、ＶＲヘルメット、またはＶＲハットなど）などであってもよいし、ＶＲ機能を有するデバイスと通信するクラウドサーバ上に配置されてもよい。確かに、オーディオコーディング装置は、ステレオオーディオ信号記憶および／または送信の機能を有する別のデバイス上に配置されてもまたよい。これは、本出願の本実施形態では具体的に限定されない。

本出願の本実施形態では、ステレオオーディオ信号は、生のステレオオーディオ信号（左チャネルオーディオ信号と右チャネルオーディオ信号とを含む）であってもよいし、マルチチャネルオーディオ信号中の２つのオーディオ信号によって形成されるステレオオーディオ信号であってもよいし、マルチチャネルオーディオ信号中の複数のオーディオ信号を統合することによって生成される２つのオーディオ信号によって形成されるステレオ信号であってもよい。確かに、ステレオオーディオ信号は、代替として、別の形式であってよい。これは、本出願の本実施形態では具体的に限定されない。以下の実施形態では、ステレオオーディオ信号が生のステレオオーディオ信号である例が、説明のために使用される。ステレオオーディオ信号は、時間領域内に左チャネル時間領域信号と右チャネル時間領域信号とを含んでよく、ステレオオーディオ信号は、周波数領域内に左チャネル周波数領域信号と右チャネル周波数領域信号とを含んでよい。以下の実施形態では、第１のチャネルオーディオ信号は、左チャネルオーディオ信号（時間領域または周波数領域内の）であってもよく、第１のチャネル時間領域信号は左チャネル時間領域信号であってもよく、第１のチャネル周波数領域信号は、左チャネル周波数領域信号であってもよい。同様に、第２のチャネルオーディオ信号は、右チャネルオーディオ信号（時間領域または周波数領域内の）であってもよく、第２のチャネル時間領域信号は右チャネル時間領域信号であってもよく、第２のチャネル周波数領域信号は、右チャネル周波数領域信号であってもよい。

以下は、本出願の一実施形態において提供されるステレオオーディオ信号遅延推定方法について説明する。

最初に、本出願の本実施形態において提供される周波数領域重み関数が説明される。

本出願の本実施形態では、一般化された相互相関アルゴリズムの性能を改善するために、前述のいくつかのアルゴリズムにおける周波数領域重み関数（たとえば、前述の式（１）、（３）、および（５）に示される）が改善されてよく、改善された周波数領域重み関数は、限定するものではないが、以下のいくつかの関数であってよい。

第１の改善された周波数領域重み関数（すなわち、第１の重み関数）の構造因子は、左チャネルウィナー利得係数（すなわち、第１のチャネル周波数領域信号に対応するウィナー利得係数）と、右チャネルウィナー利得係数（すなわち、第２のチャネル周波数領域信号に対応するウィナー利得係数）と、現在のフレームの２乗コヒーレンス値とを含んでよい。

本明細書では、構造因子は、ターゲット関数を構築するために使用される１つまたは複数の因子を指す。ターゲット関数が、改善された周波数領域重み関数であるとき、構造因子は、改善された周波数領域重み関数を構築するために使用される１つまたは複数の関数であってよい。

実際の適用例では、第１の改善された周波数領域重み関数は、式（７）に示されてよい。

Φ_{new_1}（ｋ）は第１の改善された周波数領域重み関数であり、βは振幅重み付けパラメータであり、β∈［０，１］、たとえば、β＝０．６、０．７、または０．８であり、Ｗ_x1（ｋ）は左チャネルウィナー利得係数であり、Ｗ_x2（ｋ）は右チャネルウィナー利得係数であり、Γ²（ｋ）は現在のフレームの第ｋの周波数ビンの２乗コヒーレンス値であり、

である。

いくつかの可能な実施形態では、第１の改善された周波数領域重み関数は、式（８）にさらに示されてよい。

それに対応して、第１の改善された周波数領域重み関数を使用することに基づいて重み付けされた一般化された相互相関関数は、式（９）に示されてもまたよい。

いくつかの可能な実装では、左チャネルウィナー利得係数は、第１の初期ウィナー利得係数および／または第１の改善されたウィナー利得係数を含んでよく、右チャネルウィナー利得係数は、第２の初期ウィナー利得係数および／または第２の改善されたウィナー利得係数を含んでよい。

実際の適用例では、第１の初期ウィナー利得係数は、Ｘ₁（ｋ）に対してノイズパワースペクトル推定を行うことによって決定されてよい。具体的には、左チャネルウィナー利得係数が第１の初期ウィナー利得係数を含むとき、方法は、以下をさらに含んでよい。オーディオコーディング装置は、最初に、現在のフレームの左チャネル周波数領域信号Ｘ₁（ｋ）に基づいて現在のフレームの左チャネルノイズパワースペクトルの推定値を取得し、次いで、左チャネルノイズパワースペクトルの推定値に基づいて第１の初期ウィナー利得係数を決定してよい。同様に、第２の初期ウィナー利得係数も、Ｘ₂（ｋ）に対してノイズパワースペクトル推定を行うことによって決定されてよい。具体的には、右チャネルウィナー利得係数が第２の初期ウィナー利得係数を含むとき、オーディオコーディング装置は、最初に、現在のフレームの右チャネル周波数領域信号Ｘ₂（ｋ）に基づいて現在のフレームの右チャネルノイズパワースペクトルの推定値を取得し、右チャネルノイズパワースペクトルの推定値に基づいて第２の初期ウィナー利得係数を決定してよい。

現在のフレームのＸ₁（ｋ）およびＸ₂（ｋ）に対してノイズパワースペクトル推定を行う前述のプロセスでは、最小統計アルゴリズムまたは最小追跡アルゴリズムなどのアルゴリズムが計算に使用されてよい。確かに、Ｘ₁（ｋ）およびＸ₂（ｋ）のノイズパワースペクトルの推定値を計算するために別のアルゴリズムが使用されてよい。これは、本出願の本実施形態では特に限定されない。

たとえば、第１の初期ウィナー利得係数

は、式（１０）に示されてよい。

第２の初期ウィナー利得係数

は、式（１１）に示されてよい。

は左チャネルノイズパワースペクトルの推定値であり、

は右チャネルノイズパワースペクトルの推定値である。

いくつかの可能な実装では、第１の改善された周波数領域重み関数を構築するために第１の初期ウィナー利得係数および第２の初期ウィナー利得係数を左チャネルウィナー利得係数および右チャネルウィナー利得係数として直接的に使用することに加えて、対応するバイナリマスキング関数が、代替として、第１の改善されたウィナー利得係数および第２の改善されたウィナー利得係数を取得するために、第１の初期ウィナー利得係数および第２の初期ウィナー利得係数に基づいて構築されてよい。ノイズによってわずかに影響される周波数ビンは、第１の改善されたウィナー利得係数および第２の改善されたウィナー利得係数を使用することによって構築された第１の改善された周波数領域重み関数を使用することによってふるい落とされ、ステレオオーディオ信号のＩＴＤ推定精度を改善することができる。

この場合、左チャネルウィナー利得係数が第１の改善されたウィナー利得係数を含むとき、方法は、以下をさらに含んでよい。第１の初期ウィナー利得係数を取得した後、オーディオコーディング装置は、第１の改善されたウィナー利得係数を取得するために、第１の初期ウィナー利得係数のためのバイナリマスキング関数を構築する。同様に、第２の初期ウィナー利得係数を取得した後、オーディオコーディング装置は、第２の改善されたウィナー利得係数を取得するために、第２の初期ウィナー利得係数のためのバイナリマスキング関数を構築する。

たとえば、第１の改善されたウィナー利得係数

は、式（１２）に示されてよい。

第２の改善されたウィナー利得係数

は、式（１３）に示されてよい。

μ₀はウィナー利得係数のバイナリマスキングしきい値であり、μ₀∈［０．５，０．８］、たとえば、μ₀＝０．５、０．６６、０．７５、または０．８である。

したがって、前述の内容から、左チャネルウィナー利得係数Ｗ_x1（ｋ）が、

と

とを含んでよく、右チャネルウィナー利得係数Ｗ_x2（ｋ）が、

と

とを含んでよいことが知られ得る。この場合、式（７）または（８）などの第１の改善された周波数領域重み関数を構築するプロセスでは、

および

が式（７）または（８）に代入されてもよいし、

および

が式（７）または（８）に代入されてもよい。

たとえば、

および

が式（７）に代入された後で取得される第１の改善された周波数領域重み関数は、式（１４）に示されてよい。

および

が式（７）に代入された後で取得される第１の改善された周波数領域重み関数は、式（１５）に示されてよい。

本出願の本実施形態では、第１の改善された周波数領域重み関数が、現在のフレームの周波数領域クロスパワースペクトルを重み付けするために使用される場合、ウィナー利得係数重み付けの後、ステレオオーディオ信号の周波数領域クロスパワースペクトル内のコヒーレントノイズ成分の重みが大きく減少され、残留ノイズ成分の相関も大きく減少される。たいていの場合、残留ノイズの２乗コヒーレンス値は、ステレオオーディオ信号中のターゲット信号の２乗コヒーレンス値よりもはるかに小さい。このようにして、ターゲット信号に対応する相互相関ピーク値はより突出し、ステレオオーディオ信号のＩＴＤ推定精度および安定性は大きく改善される。

第２の改善された周波数領域重み関数（すなわち、第２の重み関数）の構造因子は、振幅重み付けパラメータβと、現在のフレームの２乗コヒーレンス値とを含んでよい。

実際の適用例では、第２の改善された周波数領域重み関数は、式（１６）に示されてよい。

Φ_{new_2}は第２の改善された周波数領域重み関数であり、β∈［０，１］、たとえば、β＝０．６、０．７、または０．８である。

それに対応して、第２の改善された周波数領域重み関数を使用することに基づいて重み付けされた一般化された相互相関関数は、式（１７）に示されてもまたよい。

本出願の本実施形態では、第２の改善された周波数領域重み関数を使用することによって現在のフレームの周波数領域クロスパワースペクトルを重み付けすることは、高いエネルギーをもつ周波数ビンおよび高い相関をもつ周波数ビンが大きい重みを有し、低いエネルギーをもつ周波数ビンまたは低い相関をもつ周波数ビンが小さい重みを有することを保証し、ステレオオーディオ信号のＩＴＤ推定精度を改善することができる。

次に、本出願の一実施形態において提供されるステレオオーディオ信号遅延推定方法が説明される。この方法によれば、現在のフレームのＩＴＤ値は、前述の改善された周波数領域重み関数に基づいて推定される。

図３は、本出願の一実施形態によるステレオオーディオ信号遅延推定方法の概略フローチャート１である。図３の実線を参照されたい。方法は、以下のステップを含んでよい。

Ｓ３０１：ステレオオーディオ信号の現在のフレームを取得する。

現在のフレームは、左チャネルオーディオ信号と、右チャネルオーディオ信号とを含む。

オーディオコーディング装置は、入力されたステレオオーディオ信号を取得する。ステレオオーディオ信号は、２つのオーディオ信号を含んでよく、この２つのオーディオ信号は、時間領域オーディオ信号または周波数領域オーディオ信号であってよい。

ある場合、ステレオオーディオ信号中の２つのオーディオ信号は、時間領域オーディオ信号、すなわち、左チャネル時間領域信号および右チャネル時間領域信号（すなわち、第１のチャネル時間領域信号および第２のチャネル時間領域信号）である。この場合、ステレオオーディオ信号は、マイクロホンまたは受信機などの音センサを使用することによって入力されてよい。図３の破線を参照されたい。Ｓ３０１の後、方法は、以下をさらに含んでよい。Ｓ３０２：左チャネル時間領域信号および右チャネル時間領域信号に対して時間－周波数変換を行う。ここでは、オーディオコーディング装置は、時間領域内の現在のフレームを取得するために、Ｓ３０１を経た時間領域オーディオ信号に対してフレーミング処理を行う。この場合、現在のフレームは、左チャネル時間領域信号と、右チャネル時間領域信号とを含んでよい。次いで、オーディオコーディング装置は、周波数領域内の現在のフレームを取得するために、時間領域内の現在のフレームに対して時間－周波数変換を行う。この場合、現在のフレームは、左チャネル周波数領域信号と右チャネル周波数領域信号と（すなわち、第１のチャネル周波数領域信号と第２のチャネル周波数領域信号と）を含んでよい。

別の場合、ステレオオーディオ信号中の２つのオーディオ信号は、周波数領域オーディオ信号、すなわち、左チャネル周波数領域信号および右チャネル周波数領域信号（すなわち、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号）である。この場合、ステレオオーディオ信号は、２つの周波数領域オーディオ信号である。したがって、オーディオコーディング装置は、周波数領域内の現在のフレームを取得するために、Ｓ３０１を経た周波数領域内のステレオオーディオ信号（すなわち、周波数領域オーディオ信号）に対してフレーミング処理を直接的に行ってよい。現在のフレームは、左チャネル周波数領域信号と右チャネル周波数領域信号と（すなわち、第１のチャネル周波数領域信号と第２のチャネル周波数領域信号と）を含んでよい。

その後の実施形態の説明では、ステレオオーディオ信号が時間領域オーディオ信号である場合、オーディオコーディング装置は、対応する周波数領域オーディオ信号を取得するためにステレオオーディオ信号に対して時間－周波数変換を行い、次いで、周波数領域内のステレオオーディオ信号を処理してよいことが留意されるべきである。ステレオオーディオ信号が周波数領域オーディオ信号である場合、オーディオコーディング装置は、周波数領域内のステレオオーディオ信号を直接的に処理してよい。

実際の適用例では、フレーミング処理が行われた後に取得される現在のフレーム内の左チャネル時間領域信号は、ｘ₁（ｎ）と示されてよく、フレーミング処理が行われた後で取得される現在のフレーム内の右チャネル時間領域信号は、ｘ₂（ｎ）と示されてよく、ここで、ｎはサンプリング点である。

いくつかの可能な実装では、Ｓ３０１の後、オーディオコーディング装置は、現在のフレームをさらに処理してよく、たとえば、前処理された左チャネル時間領域信号および前処理された右チャネル時間領域信号を取得するためにｘ₁（ｎ）およびｘ₂（ｎ）に対してハイパスフィルタリング処理を行ってよく、ここで、前処理された左チャネル時間領域信号は

と示され、前処理された右チャネル時間領域信号は

と示される。任意選択で、ハイパスフィルタリング処理は、２０Ｈｚの遮断周波数をもつ無限インパルス応答（ｉｎｆｉｎｉｔｅｉｍｐｕｌｓｅｒｅｓｐｏｎｓｅ，ＩＩＲ）フィルタであってもよいし、別のタイプのフィルタであってもよい。これは、本出願の本実施形態では具体的に限定されない。

任意選択で、オーディオコーディング装置は、Ｘ₁（ｋ）およびＸ₂（ｋ）を取得するためにｘ₁（ｎ）およびｘ₂（ｎ）に対して時間－周波数変換をさらに行ってよく、ここで、左チャネル周波数領域信号はＸ₁（ｋ）と示されてよく、右チャネル周波数領域信号はＸ₂（ｋ）と示されてよい。

ここでは、オーディオコーディング装置は、ＤＦＴ、高速フーリエ変換（ｆａｓｔｆｏｕｒｉｅｒｔｒａｎｓｆｏｒｍａｔｉｏｎ，ＦＦＴ）、または変形離散コサイン変換（ｍｏｄｉｆｉｅｄｄｉｓｃｒｅｔｅｃｏｓｉｎｅｔｒａｎｓｆｏｒｍ，ＭＤＣＴ）などの時間－周波数変換アルゴリズムを使用することによって、時間領域信号を周波数領域信号に変換してよい。確かに、オーディオコーディング装置は、別の時間－周波数変換アルゴリズムをさらに使用してよい。これは、本出願の本実施形態では具体的に限定されない。

時間－周波数変換は、ＤＦＴを使用することによって、左チャネル時間領域信号および右チャネル時間領域信号に対して行われると仮定される。具体的には、オーディオコーディング装置は、Ｘ₁（ｋ）を取得するために、ｘ₁（ｎ）または

に対してＤＦＴを行ってよい。同様に、オーディオコーディング装置は、Ｘ₂（ｋ）を取得するために、ｘ₂（ｎ）または

に対してＤＦＴを行ってよい。

さらに、スペクトルエイリアシングを克服するために、２つの隣接フレームのＤＦＴは通常、重畳加算様式で行われ、時には、ＤＦＴのために入力信号にゼロがパディングされることがある。

Ｓ３０３：Ｘ₁（ｋ）およびＸ₂（ｋ）に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算する。

ここでは、現在のフレームの周波数領域クロスパワースペクトルは、式（１８）に示されてよい。

は、Ｘ₂（ｋ）の共役関数である。

Ｓ３０４：あらかじめ設定された重み関数に基づいて周波数領域クロスパワースペクトルを重み付けする。

本明細書では、あらかじめ設定された重み関数は、前述の実施形態における前述の改善された周波数領域重み関数、すなわち、第１の改善された周波数領域重み関数Φ_{new_1}または第２の改善された周波数領域重み関数Φ_{new_2}を指すことがある。

Ｓ３０４は、オーディオコーディング装置が、改善された重み関数に周波数領域パワースペクトルを乗算すると理解されてよく、その場合、重み付けされた周波数領域クロスパワースペクトルは、Φ_{new_1}（ｋ）Ｃ_x1x2（ｋ）またはΦ_{new_2}（ｋ）Ｃ_x1x2（ｋ）と表されてよい。

本出願の本実施形態では、Ｓ３０５を行う前に、オーディオコーディング装置は、Ｘ₁（ｋ）およびＸ₂（ｋ）を使用することによって改善された周波数領域重み関数（すなわち、あらかじめ設定された重み関数）をさらに計算してよい。

Ｓ３０５：相互相関関数を取得するために、重み付けされた周波数領域クロスパワースペクトルに対して逆時間－周波数変換を行う。

オーディオコーディング装置は、相互相関関数を取得するために、Ｓ３０２で使用される時間－周波数変換アルゴリズムに対応する逆時間－周波数変換アルゴリズムを使用して、周波数領域クロスパワースペクトルを周波数領域から時間領域に変換してよい。

本明細書では、Φ_{new_1}（ｋ）Ｃ_x1x2（ｋ）に対応する相互相関関数は、式（１９）に示されてよい。

代替として、Φ_{new_2}（ｋ）Ｃ_x1x2（ｋ）に対応する相互相関関数は、式（２０）に示されてよい。

Ｓ３０６：相互相関関数に対してピーク検出を行う。

Ｓ３０６を通じて相互相関関数を取得した後、オーディオコーディング装置は、あらかじめ設定されたサンプリングレートおよび音センサ（すなわち、マイクロホン、受信機など）間の最大距離に基づいて、ＩＴＤの最大値Δｍａｘ（これは、ＩＴＤ推定の時間範囲として理解されてもまたよい）を決定してよい。たとえば、Δｍａｘは、５ｍｓに対応するサンプリング点の数量に設定される。ステレオオーディオ信号のサンプリングレートが３２ｋＨｚである場合、Δｍａｘ＝１６０である、すなわち、左チャネルおよび右チャネルの遅延点の最大数量は、１６０個のサンプリング点である。次いで、オーディオコーディング装置は、∈［－Δｍａｘ，Δｍａｘ］の範囲ｎ内のＧ_x1x2（ｎ）の最大ピーク値を探索し、ピークに対応するインデックス値は、現在のフレームの候補ＩＴＤ値である。

Ｓ３０７：相互相関関数のピークに基づいて現在のフレームの推定ＩＴＤ値を計算する。

オーディオコーディング装置は、遅延推定の異常値を除去するために、相互相関関数のピーク値に基づいて現在のフレームの候補ＩＴＤ値を決定し、次いで、現在のフレームの候補ＩＴＤ値、以前のフレーム（すなわち、履歴情報）のＩＴＤ値、オーディオハングオーバ処理パラメータ、および以前のフレームと次のフレームとの間の相関などの副次的な情報に基づいて、現在のフレームの推定ＩＴＤ値を決定する。

さらに、Ｓ３０７を通じて推定ＩＴＤ値を決定した後、オーディオコーディング装置は、推定ＩＴＤ値をコーディングして、ステレオオーディオ信号の符号化されたビットストリームに書き込んでよい。

本出願の本実施形態では、第１の改善された周波数領域重み関数が、現在のフレームの周波数領域クロスパワースペクトルを重み付けするために使用される場合、ウィナー利得係数重み付けの後、ステレオオーディオ信号の周波数領域クロスパワースペクトル内のコヒーレントノイズ成分の重みが大きく減少され、残留ノイズ成分の相関も大きく減少される。たいていの場合、残留ノイズの２乗コヒーレンス値は、ステレオオーディオ信号内のターゲット信号の２乗コヒーレンス値よりもはるかに小さい。このようにして、ターゲット信号に対応する相互相関ピーク値はより突出し、ステレオオーディオ信号のＩＴＤ推定精度および安定性は大きく改善される。第２の改善された周波数領域重み関数を使用することによって現在のフレームの周波数領域クロスパワースペクトルを重み付けすることは、高いエネルギーをもつ周波数ビンおよび高い相関をもつ周波数ビンが大きい重みを有し、低いエネルギーをもつ周波数ビンまたは低い相関をもつ周波数ビンが小さい重みを有することを保証し、ステレオオーディオ信号のＩＴＤ推定精度を改善することができる。

さらに、本出願の一実施形態において提供される別のステレオオーディオ信号遅延推定方法が説明される。前述の実施形態に基づいて、方法は、異なるアルゴリズムを使用して、ステレオオーディオ信号中の異なるタイプのノイズ信号のためのＩＴＤ推定を行う。

図４は、本出願の一実施形態によるステレオオーディオ信号遅延推定方法の概略フローチャート２である。図４を参照されたい。方法は、以下のステップを含んでよい。

Ｓ４０１：ステレオオーディオ信号の現在のフレームを取得する。

本明細書では、Ｓ４０１の実装プロセスについては、Ｓ３０１の説明を参照されたい。これは、本明細書では特に限定されない。

Ｓ４０２：現在のフレームに含まれるノイズ信号の信号タイプを決定する。現在のフレームに含まれるノイズ信号の信号タイプがコヒーレントノイズ信号タイプである場合、Ｓ４０３を行う。現在のフレームに含まれるノイズ信号の信号タイプが拡散ノイズ信号タイプである場合、Ｓ４０４を行う。

騒々しい環境では、異なるノイズ信号タイプは、一般化された相互相関アルゴリズムに対して異なる影響を有する。したがって、一般化された相互相関アルゴリズムの性能を十分に活用し、ＩＴＤ推定精度を改善するために、オーディオコーディング装置は、現在のフレームに含まれるノイズ信号の信号タイプを決定し、複数の周波数領域重み関数から、現在のフレームに適した周波数領域重み関数を決定してよい。

実際の適用例では、前述のコヒーレントノイズ信号タイプは、ある程度よりも高いステレオオーディオ信号の２つのオーディオ信号中のノイズ信号間の相関をもつノイズ信号のタイプを指す、すなわち、現在のフレームに含まれるノイズ信号は、コヒーレントノイズ信号と分類されることがある。前述の拡散ノイズ信号タイプは、ある程度よりも低いステレオオーディオ信号の２つのオーディオ信号中のノイズ信号間の相関をもつノイズ信号のタイプを指す、すなわち、現在のフレームに含まれるノイズ信号は、拡散ノイズ信号と分類されることがある。

いくつかの可能な実装では、現在のフレームは、コヒーレントノイズ信号と拡散ノイズ信号の両方を含むことがある。この場合、オーディオコーディング装置は、２つのタイプのノイズ信号中の主ノイズ信号の信号タイプを、現在のフレームに含まれるノイズ信号の信号タイプと決定する。

いくつかの可能な実装では、オーディオコーディング装置は、現在のフレームのノイズコヒーレンス値を計算することによって、現在のフレームに含まれるノイズ信号の信号タイプを決定してよい。この場合、Ｓ４０２は、現在のフレームのノイズコヒーレンス値を取得することを含んでよい。ノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも大きいかこれに等しい場合、それは、現在のフレームに含まれるノイズ信号が強い相関を有することを示し、オーディオコーディング装置は、現在のフレームに含まれるノイズ信号の信号タイプはコヒーレントノイズ信号タイプであると決定してよい。ノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも小さい場合、それは、現在のフレームに含まれるノイズ信号が弱い相関を有することを示し、オーディオコーディング装置は、現在のフレームに含まれるノイズ信号の信号タイプは拡散ノイズ信号タイプであると決定してよい。

本明細書では、ノイズコヒーレンス値のあらかじめ設定されたしきい値は、経験的値であり、ＩＴＤ推定性能などの因子に基づいて設定されてよい。たとえば、あらかじめ設定されたしきい値は、０．２０、０．２５、または０．３０に設定される。確かに、あらかじめ設定されたしきい値は、代替として、別の適切な値に設定されてよい。これは、本出願の本実施形態では具体的に限定されない。

実際の適用例では、現在のフレームのノイズコヒーレンス値を計算した後、オーディオコーディング装置は、ノイズコヒーレンス値を推定する際の誤差を減少させ、ノイズタイプ識別の正確さを改善するために、ノイズコヒーレンス値に対して平滑化処理をさらに行ってよい。

Ｓ４０３：第１のアルゴリズムを使用することによって、左チャネルオーディオ信号と右チャネルオーディオ信号との間のＩＴＤ値を推定する。

本明細書では、第１のアルゴリズムは、第１の重み関数に基づいて現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含んでよく、重み付けされた相互相関関数に対してピーク検出を行うことと、重み付けされた相互相関関数のピーク値に基づいて現在のフレームのＩＴＤ値を推定することとをさらに含んでよい。

Ｓ４０２を通じて、現在のフレームに含まれるノイズ信号の信号タイプがコヒーレントノイズ信号タイプであると決定した後、オーディオコーディング装置は、第１のアルゴリズムを使用して、現在のフレームのＩＴＤ値を推定してよい。たとえば、オーディオコーディング装置は、現在のフレームの周波数領域クロスパワースペクトルを重み付けするために第１の重み関数を選択し、重み付けされた相互相関関数に対してピーク検出を行って、重み付けされた相互相関関数のピーク値に基づいて現在のフレームのＩＴＤ値を推定する。

いくつかの可能な実施形態では、第１の重み関数は、前述の１つまたは複数の実施形態における周波数領域重み関数および／または改善された周波数領域重み関数、たとえば、式（３）に示される周波数領域重み関数、ならびに式（７）および（８）に示される改善された周波数領域重み関数において、コヒーレントノイズ条件下でより良い性能をもつ１つまたは複数の重み関数であってよい。

好ましくは、第１の重み関数は、前述の実施形態において説明された第１の改善された周波数領域重み関数、たとえば、式（７）および（８）に示される改善された周波数領域重み関数であってよい。

Ｓ４０４：第２のアルゴリズムを使用することによって、左チャネルオーディオ信号と右チャネルオーディオ信号との間のＩＴＤ値を推定する。

本明細書では、第２のアルゴリズムは、第２の重み関数に基づいて現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含んでよく、重み付けされた相互相関関数に対してピーク検出を行うことと、重み付けされた相互相関関数のピーク値に基づいて現在のフレームのＩＴＤ値を推定することとをさらに含んでよい。

それに対応して、Ｓ４０２を通じて、現在のフレームに含まれるノイズ信号の信号タイプが拡散ノイズ信号タイプであると決定した後、オーディオコーディング装置は、第２のアルゴリズムを使用して、現在のフレームのＩＴＤ値を推定してよい。たとえば、オーディオコーディング装置は、現在のフレームの周波数領域クロスパワースペクトルを重み付けするために第２の重み関数を選択し、重み付けされた相互相関関数に対してピーク検出を行って、重み付けされた相互相関関数のピーク値に基づいて現在のフレームのＩＴＤ値を推定する。

いくつかの可能な実施形態では、第２の重み関数は、前述の１つまたは複数の実施形態における周波数領域重み関数および／または改善された周波数領域重み関数、たとえば、式（５）に示される周波数領域重み関数、ならびに式（１６）に示される改善された周波数領域重み関数において、拡散ノイズ条件下でより良い性能をもつ１つまたは複数の重み関数であってよい。

好ましくは、第２の重み関数は、前述の実施形態において説明された第２の改善された周波数領域重み関数、すなわち、式（１６）に示される改善された周波数領域重み関数であってよい。

いくつかの可能な実装では、ステレオオーディオ信号は、発話信号とノイズ信号の両方を含むので、Ｓ４０１においてフレーミング処理を通じて取得される現在のフレームに含まれる信号タイプは、発話信号またはノイズ信号であり得る。したがって、処理を簡略化し、ＩＴＤ推定精度をさらに改善するために、Ｓ４０２の前に、方法は、検出結果を取得するために、現在のフレームに対して発話終了点検出を行うことをさらに含んでよい。検出結果が、現在のフレームの信号タイプがノイズ信号タイプであることを示す場合、現在のフレームのノイズコヒーレンス値を計算する。検出結果が、現在のフレームの信号タイプが発話信号タイプであることを示す場合、ステレオオーディオ信号の現在のフレームの以前のフレームのノイズコヒーレンス値を現在のフレームのノイズコヒーレンス値と決定する。

現在のフレームを取得した後、オーディオコーディング装置は、現在のフレームの主信号が発話信号であるかノイズ信号であるかを区別するために、現在のフレームに対して発話終了点検出（音声アクティビティ検出、ｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｉｏｎ，ＶＡＤ）を行ってよい。現在のフレームがノイズ信号を含むことが検出された場合、Ｓ４０２においてノイズコヒーレンス値を計算することは、現在のフレームのノイズコヒーレンス値を直接的に計算することを意味し得る。現在のフレームが発話信号を含むことが検出された場合、Ｓ４０２においてノイズコヒーレンス値を計算することは、履歴フレームのノイズコヒーレンス値、たとえば現在のフレームの以前のフレームの、ノイズコヒーレンス値を現在のフレームのノイズコヒーレンス値と決定することを意味し得る。本明細書では、現在のフレームの以前のフレームは、ノイズ信号または発話信号を含んでよい。以前のフレームが依然として発話信号を含む場合、履歴フレーム内の以前のノイズフレームのノイズコヒーレンス値は、現在のフレームのノイズコヒーレンス値と決定される。

特定の実装プロセスでは、オーディオコーディング装置は、複数の方法を使用してＶＡＤを行ってよい。ＶＡＤの値が１であるとき、それは、現在のフレームの信号タイプが発話信号タイプであることを示す。ＶＡＤの値が０であるとき、それは、現在のフレームの信号タイプがノイズ信号タイプであることを示す。

本出願の本実施形態では、オーディオコーディング装置は、時間領域、周波数領域、または時間領域と周波数領域の組み合わせにおいて、ＶＡＤの値を計算してよいことが留意されるべきである。これは、本明細書では具体的に限定されない。

以下は、特定の例を使用することによって、図４に示されるステレオオーディオ信号遅延推定方法について説明する。

図５は、本出願の一実施形態によるステレオオーディオ信号遅延推定方法の概略フローチャート３である。方法は、以下のステップを含んでよい。

Ｓ５０１：現在のフレームのｘ₁（ｎ）およびｘ₂（ｎ）を取得するために、ステレオオーディオ信号に対してフレーミング処理を行う。

Ｓ５０２：現在のフレームのＸ₁（ｋ）およびＸ₂（ｋ）を取得するために、ｘ₁（ｎ）およびｘ₂（ｎ）に対してＤＦＴを行う。

Ｓ５０３：現在のフレームのｘ₁（ｎ）およびｘ₂（ｎ）またはＸ₁（ｋ）およびＸ₂（ｋ）に基づいて、現在のフレームのＶＡＤ値を計算する。ＶＡＤ＝１である場合、Ｓ５０４を行う。ＶＡＤ＝０である場合、Ｓ５０５を行う。

ここでは、図５の破線を参照されたい。Ｓ５０３は、Ｓ５０１の後で行われてもよいし、Ｓ５０２の後で行われてもよい。これは、本明細書では具体的に限定されない。

Ｓ５０４：Ｘ₁（ｋ）およびＸ₂（ｋ）に基づいて現在のフレームのノイズコヒーレンス値Γ（ｋ）を計算する。

Ｓ５０５：以前のフレームのΓ_m-1（ｋ）を現在のフレームのΓ（ｋ）と決定する。

本明細書では、現在のフレームのΓ（ｋ）は、Γ_m（ｋ）、すなわち、第ｍのフレームのノイズコヒーレンス値と表されてもまたよく、ここで、ｍは正の整数である。

Ｓ５０６：現在のフレームのΓ（ｋ）をあらかじめ設定されたしきい値Γ_thresと比較する。Γ（ｋ）がΓ_thresよりも大きいかこれに等しい場合は、Ｓ５０７を行う。Γ（ｋ）がΓ_thresよりも小さい場合は、Ｓ５０８を行う。

Ｓ５０７：Φ_{new_1}（ｋ）を使用することによって現在のフレームのＣ_x1x2（ｋ）を重み付けする。この場合、重み付けされた周波数領域クロスパワースペクトルは、Φ_{new_1}（ｋ）Ｃ_x1x2（ｋ）と表され得る。

Ｓ５０８：Φ_PHAT-Coh（ｋ）を使用することによって現在のフレームのＣ_x1x2（ｋ）を重み付けする。この場合、重み付けされた周波数領域クロスパワースペクトルは、Φ_PHAT-Coh（ｋ）Ｃ_x1x2（ｋ）と表され得る。

実際の適用例では、Ｓ５０６の後、Ｓ５０７を行うことを決定する前に、現在のフレームのＣ_x1x2（ｋ）およびΦ_{new_1}（ｋ）が、現在のフレームのＸ₁（ｋ）およびＸ₂（ｋ）を使用することによって計算されてよい。Ｓ５０８を行うことを決定する前に、現在のフレームのＣ_x1x2（ｋ）およびΦ_PHAT-Coh（ｋ）が、現在のフレームのＸ₁（ｋ）およびＸ₂（ｋ）を使用することによって計算されてよい。

Ｓ５０９：相互相関関数Ｇ_x1x2（ｎ）を取得するために、Φ_{new_1}（ｋ）Ｃ_x1x2（ｋ）またはΦ_PHAT-Coh（ｋ）Ｃ_x1x2（ｋ）に対してＩＤＦＴを行う。

Ｇ_x1x2（ｎ）は、式（６）または（９）に示されてよい。

Ｓ５１０：Ｇ_x1x2（ｎ）に対してピーク検出を行う。

Ｓ５１１：Ｇ_x1x2（ｎ）のピーク値に基づいて現在のフレームの推定ＩＴＤ値を計算する。

このようにして、ステレオオーディオ信号のためのＩＴＤ推定プロセスが完了する。

いくつかの可能な実装では、パラメトリックステレオ符号化および復号化技術に加えて、前述のＩＴＤ推定方法は、音源定位、音声強調、および音声分離などの技術に適用されてもまたよい。

前述の内容から、本出願の本実施形態では、オーディオコーディング装置は、異なるタイプのノイズを含む現在のフレームに異なるＩＴＤ推定アルゴリズムを使用し、拡散ノイズおよびコヒーレントノイズの場合のステレオオーディオ信号のＩＴＤ推定精度および安定性を大きく改善し、ステレオダウンミックスされた信号間のフレーム間不連続性を減少し、ステレオ信号の位相をより良く維持することが、知られ得る。符号化されたステレオの音像は、より正確で安定しており、より強力な臨場感を有し、符号化されたステレオ信号の聴覚品質は改善される。

同じ本発明の概念に基づいて、本出願の一実施形態は、ステレオオーディオ信号遅延推定装置を提供する。この装置は、オーディオコーディング装置内のチップまたはシステムオンチップであってもよいし、オーディオコーディング装置内にあり、前述の実施形態における図４に示されるステレオオーディオ信号遅延推定方法および方法の任意の可能な実装を実施するように構成された機能モジュールであってもよい。たとえば、図６は、本出願の一実施形態によるオーディオ復号化装置の構造を示す概略図である。図６の実線によって示されるように、ステレオオーディオ信号遅延推定装置６００は、ステレオオーディオ信号の現在のフレームを取得するように構成された取得モジュール６０１であって、現在のフレームは、第１のチャネルオーディオ信号と、第２のチャネルオーディオ信号とを含む、取得モジュール６０１と、現在のフレームに含まれるノイズ信号の信号タイプがコヒーレントノイズ信号タイプである場合、第１のアルゴリズムを使用することによって第１のチャネルオーディオ信号と第２のチャネルオーディオ信号との間のチャネル間時間差を推定する、または現在のフレームに含まれるノイズ信号の信号タイプが拡散ノイズ信号タイプである場合、第２のアルゴリズムを使用することによって第１のチャネルオーディオ信号と第２のチャネルオーディオ信号との間のチャネル間時間差を推定するように構成されたチャネル間時間差推定モジュール６０２とを含む。第１のアルゴリズムは、第１の重み関数に基づいて現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、第２のアルゴリズムは、第２の重み関数に基づいて現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、第１の重み関数の構造因子は第２の重み関数のそれとは異なる。

本出願の本実施形態では、取得モジュール６０１によって取得されるステレオ信号の現在のフレームは、周波数領域オーディオ信号または時間領域オーディオ信号であってよい。現在のフレームが周波数領域オーディオ信号である場合、取得モジュール６０１は現在のフレームをチャネル間時間差推定モジュール６０２に転送し、チャネル間時間差推定モジュール６０２は、周波数領域内の現在のフレームを直接的に処理してよい。現在のフレームが時間領域オーディオ信号である場合、取得モジュール６０１は、最初に、周波数領域内の現在のフレームを取得するために時間領域内の現在のフレームに対して時間－周波数変換を行ってよく、次いで、取得モジュール６０１は、周波数領域内の現在のフレームをチャネル間時間差推定モジュール６０２に転送する。チャネル間時間差推定モジュール６０２は、周波数領域内の現在のフレームを処理してよい。

いくつかの可能な実装では、図６の破線を参照されたい。装置は、第１の取得モジュール６０１が現在のフレームを取得した後に現在のフレームのノイズコヒーレンス値を取得することと、ノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも大きいかこれに等しい場合、現在のフレームに含まれるノイズ信号の信号タイプはコヒーレントノイズ信号タイプであると決定すること、またはノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも小さい場合、現在のフレームに含まれるノイズ信号の信号タイプは拡散ノイズ信号タイプであると決定することとを行うように構成されたノイズコヒーレンス値計算モジュール６０３をさらに含む。

いくつかの可能な実装では、図６の破線を参照されたい。装置は、検出結果を取得するために、現在のフレームに対して発話終了点検出を行うように構成された発話終了点検出モジュール６０４をさらに含む。ノイズコヒーレンス値計算モジュール６０３は、検出結果が、現在のフレームの信号タイプはノイズ信号タイプであることを示す場合、現在のフレームのノイズコヒーレンス値を計算する、または検出結果が、現在のフレームの信号タイプは発話信号タイプであることを示す場合、ステレオオーディオ信号の現在のフレームの以前のフレームのノイズコヒーレンス値を現在のフレームのノイズコヒーレンス値と決定するように特に構成される。

本出願の本実施形態では、発話終了点検出モジュール６０４は、時間領域、周波数領域、または時間領域と周波数領域の組み合わせにおいて、ＶＡＤ値を計算してよい。これは、本明細書では具体的に限定されない。取得モジュール６０１は、現在のフレームに対するＶＡＤのために、現在のフレームを発話終了点検出モジュール６０４に転送してよい。

いくつかの可能な実装では、第１のチャネルオーディオ信号は第１のチャネル時間領域信号であり、第２のチャネルオーディオ信号は第２のチャネル時間領域信号である。チャネル間時間差推定モジュール６０２は、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号を取得するために第１のチャネル時間領域信号および第２のチャネル時間領域信号に対して時間－周波数変換を行うことと、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することと、第１の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けすることと、重み付けされた周波数領域クロスパワースペクトルに基づいてチャネル間時間差の推定値を取得することとを行うように構成される。第１の重み関数の構造因子は、第１のチャネル周波数領域信号に対応するウィナー利得係数と、第２のチャネル周波数領域信号に対応するウィナー利得係数と、振幅重み付けパラメータと、現在のフレームの２乗コヒーレンス値とを含む。

いくつかの可能な実装では、第１のチャネルオーディオ信号は第１のチャネル周波数領域信号であり、第２のチャネルオーディオ信号は第２のチャネル周波数領域信号である。チャネル間時間差推定モジュール６０２は、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算し、第１の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けし、重み付けされた周波数領域クロスパワースペクトルに基づいてチャネル間時間差の推定値を取得するように構成される。第１の重み関数の構造因子は、第１のチャネル周波数領域信号に対応するウィナー利得係数と、第２のチャネル周波数領域信号に対応するウィナー利得係数と、振幅重み付けパラメータと、現在のフレームの２乗コヒーレンス値とを含む。

いくつかの可能な実装では、第１の重み関数Φ_{new_1}（ｋ）は、前述の式（７）を満たす。

いくつかの他の可能な実装では、第１の重み関数Φ_{new_1}（ｋ）は、前述の式（８）を満たす。

いくつかの可能な実装では、第１のチャネル周波数領域信号に対応するウィナー利得係数は第１のチャネル周波数領域信号の第１の初期ウィナー利得係数であり、第２のチャネル周波数領域信号に対応するウィナー利得係数は第２のチャネル周波数領域信号の第２の初期ウィナー利得係数である。チャネル間時間差推定モジュール６０２は、取得モジュールが現在のフレームを取得した後に第１のチャネル周波数領域信号に基づいて第１のチャネルノイズパワースペクトルの推定値を取得し、第１のチャネルノイズパワースペクトルの推定値に基づいて第１の初期ウィナー利得係数を決定し、第２のチャネル周波数領域信号に基づいて第２のチャネルノイズパワースペクトルの推定値を取得し、第２のチャネルノイズパワースペクトルの推定値に基づいて第２の初期ウィナー利得係数を決定するように特に構成される。

いくつかの可能な実装では、第１の初期ウィナー利得係数

は前述の式（１０）を満たし、第２の初期ウィナー利得係数

は前述の式（１１）を満たす。

いくつかの可能な実装では、第１のチャネル周波数領域信号に対応するウィナー利得係数は第１のチャネル周波数領域信号の第１の改善されたウィナー利得係数であり、第２のチャネル周波数領域信号に対応するウィナー利得係数は第２のチャネル周波数領域信号の第２の改善されたウィナー利得係数である。チャネル間時間差推定モジュール６０２は、取得モジュールが現在のフレームを取得した後で第１の初期ウィナー利得係数および第２の初期ウィナー利得係数を取得することと、第１の改善されたウィナー利得係数を取得するために、第１の初期ウィナー利得係数のためのバイナリマスキング関数を構築することと、第２の改善されたウィナー利得係数を取得するために、第２の初期ウィナー利得係数のためのバイナリマスキング関数を構築することとを行うように特に構成される。

は前述の式（１２）を満たし、第２の改善されたウィナー利得係数

は前述の式（１３）を満たす。

いくつかの可能な実装では、第１のチャネルオーディオ信号は第１のチャネル時間領域信号であり、第２のチャネルオーディオ信号は第２のチャネル時間領域信号である。チャネル間時間差推定モジュール６０２は、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号を取得するために、第１のチャネル時間領域信号および第２のチャネル時間領域信号に対して時間－周波数変換を行うことと、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することと、チャネル間時間差の推定値を取得するために、第２の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けすることとを行うように特に構成される。第２の重み関数の構造因子は、振幅重み付けパラメータと、現在のフレームの２乗コヒーレンス値とを含む。

いくつかの可能な実装では、第１のチャネルオーディオ信号は第１のチャネル周波数領域信号であり、第２のチャネルオーディオ信号は第２のチャネル周波数領域信号である。チャネル間時間差推定モジュール６０２は、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算し、第２の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けし、重み付けされた周波数領域クロスパワースペクトルに基づいてチャネル間時間差の推定値を取得するように特に構成される。第２の重み関数の構造因子は、振幅重み付けパラメータと、現在のフレームの２乗コヒーレンス値とを含む。

いくつかの可能な実装では、第２の重み関数Φ_{new_2}（ｋ）は、前述の式（１６）を満たす。

取得モジュール６０１、チャネル間時間差推定モジュール６０２、ノイズコヒーレンス値計算モジュール６０３、および発話終了点検出モジュール６０４の特定の実装プロセスについては、図４から図５における実施形態の詳細な説明に対して参照がなされてよいことが留意されるべきである。本明細書の簡潔さのために、詳細は、本明細書では再び説明されない。

本出願の本実施形態において言及される取得モジュール６０１は、受信インタフェース、受信回路、受信機などであってよい。チャネル間時間差推定モジュール６０２、ノイズコヒーレンス値計算モジュール６０３、および発話終了点検出モジュール６０４は、１つまたは複数のプロセッサであってよい。

同じ本発明の概念に基づいて、本出願の一実施形態は、ステレオオーディオ信号遅延推定装置を提供する。この装置は、オーディオコーディング装置内のチップまたはシステムオンチップであってもよいし、オーディオコーディング装置内にあり、図３に示されるステレオオーディオ信号遅延推定方法および方法の任意の可能な実装を実施するように構成された機能モジュールであってもよい。たとえば、依然として図６を参照されたい。ステレオオーディオ信号遅延推定装置６００は、ステレオオーディオ信号の現在のフレームを取得するように構成された取得モジュール６０１であって、現在のフレームは、第１のチャネルオーディオ信号と、第２のチャネルオーディオ信号とを含む、取得モジュール６０１と、第１のチャネルオーディオ信号および第２のチャネルオーディオ信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算し、あらかじめ設定された重み関数に基づいて周波数領域クロスパワースペクトルを重み付けし、重み付けされた周波数領域クロスパワースペクトルに基づいて第１のチャネル周波数領域信号と第２のチャネル周波数領域信号との間のチャネル間時間差の推定値を取得するように構成されたチャネル間時間差推定モジュール６０２とを含む。

あらかじめ設定された重み関数は第１の重み関数または第２の重み関数であり、第１の重み関数の構造因子は第２の重み関数のそれとは異なる。第１の重み関数の構造因子は、第１のチャネル周波数領域信号に対応するウィナー利得係数と、第２のチャネル周波数領域信号に対応するウィナー利得と、振幅重み付けパラメータと、現在のフレームの２乗コヒーレンス値とを含む。第２の重み関数の構造因子は、振幅重み付けパラメータと、現在のフレームの２乗コヒーレンス値とを含む。

いくつかの可能な実装では、第１のチャネルオーディオ信号は第１のチャネル時間領域信号であり、第２のチャネルオーディオ信号は第２のチャネル時間領域信号である。チャネル間時間差推定モジュール６０２は、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号を取得するために、第１のチャネル時間領域信号および第２のチャネル時間領域信号に対して時間－周波数変換を行うことと、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することとを行うように構成される。

いくつかの可能な実装では、第１のチャネルオーディオ信号は第１のチャネル周波数領域信号であり、第２のチャネルオーディオ信号は第２のチャネル周波数領域信号である。この場合、現在のフレームの周波数領域クロスパワースペクトルは、第１のチャネルオーディオ信号および第２のチャネルオーディオ信号に基づいて直接的に計算されてよい。

いくつかの可能な実装では、第１のチャネル周波数領域信号に対応するウィナー利得係数は第１のチャネル周波数領域信号の第１の初期ウィナー利得係数であり、第２のチャネル周波数領域信号に対応するウィナー利得係数は第２のチャネル周波数領域信号の第２の初期ウィナー利得係数である。チャネル間時間差推定モジュール６０２は、取得モジュール６０１が現在のフレームを取得した後に第１のチャネル周波数領域信号に基づいて第１のチャネルノイズパワースペクトルの推定値を取得し、第１のチャネルノイズパワースペクトルの推定値に基づいて第１の初期ウィナー利得係数を決定し、第２のチャネル周波数領域信号に基づいて第２のチャネルノイズパワースペクトルの推定値を取得し、第２のチャネルノイズパワースペクトルの推定値に基づいて第２の初期ウィナー利得係数を決定するように特に構成される。

いくつかの可能な実装では、第１の初期ウィナー利得係数

は前述の式（１１）を満たす。

いくつかの可能な実装では、第１のチャネル周波数領域信号に対応するウィナー利得係数は第１のチャネル周波数領域信号の第１の改善されたウィナー利得係数であり、第２のチャネル周波数領域信号に対応するウィナー利得係数は第２のチャネル周波数領域信号の第２の改善されたウィナー利得係数である。チャネル間時間差推定モジュール６０２は、取得モジュール６０１が現在のフレームを取得した後で第１の初期ウィナー利得係数および第２の初期ウィナー利得係数を取得することと、第１の改善されたウィナー利得係数を取得するために、第１の初期ウィナー利得係数のためのバイナリマスキング関数を構築することと、第２の改善されたウィナー利得係数を取得するために、第２の初期ウィナー利得係数のためのバイナリマスキング関数を構築することとを行うように特に構成される。

は前述の式（１３）を満たす。

取得モジュール６０１およびチャネル間時間差推定モジュール６０２の特定の実装プロセスについては、図３の実施形態の詳細な説明に対して参照がなされてよいことが留意されるべきである。本明細書の簡潔さのために、詳細は、本明細書では再び説明されない。

本出願の本実施形態において言及される取得モジュール６０１は、受信インタフェース、受信回路、受信機などであってよい。チャネル間時間差推定モジュール６０２は、１つまたは複数のプロセッサであってよい。

同じ本発明の概念に基づいて、本出願の一実施形態は、オーディオコーディング装置を提供する。このオーディオコーディング装置は、前述の実施形態のオーディオコーディング装置と一致する。図７は、本出願の一実施形態によるオーディオコーディング装置の構造を示す概略図である。図７を参照されたい。オーディオコーディング装置７００は、互いに結合された不揮発性メモリ７０１とプロセッサ７０２とを含む。プロセッサ７０２は、図３から図５のステレオオーディオ信号遅延推定方法および方法の任意の可能な実装の動作ステップを行うためにメモリ７０１に記憶されたプログラムコードを呼び出す。

いくつかの可能な実装では、オーディオコーディング装置は、具体的には、ステレオコーディング装置であってもよい。装置は、独立したステレオコーダを構成してもよいし、マルチチャネル周波数領域信号中の複数の信号を統合することによって生成された２つのオーディオ信号によって形成されたステレオオーディオ信号を符号化する、マルチチャネルコーダのコアコーディング部分であってもよい。

実際の適用例では、オーディオコーディング装置は、特定用途向け集積回路（ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ，ＡＳＩＣ）、レジスタ転送層回路（レジスタ転送レベル、ｒｅｇｉｓｔｅｒｔｒａｎｓｆｅｒｌｅｖｅｌ，ＲＴＬ）、またはフィールドプログラマブルゲートアレイ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ，ＦＰＧＡ）などのプログラマブルデバイスを使用することによって、実施されてよい。確かに、オーディオコーディング装置は、別のプログラマブルデバイスを使用することによって実施されてもまたよい。これは、本出願の本実施形態では具体的に限定されない。

同じ本発明の概念に基づいて、本出願の一実施形態は、コンピュータ可読記憶媒体を提供する。コンピュータ可読記憶媒体は命令を記憶し、命令がコンピュータ上で稼働するとき、図３から図５のステレオオーディオ信号遅延推定方法および方法の任意の可能な実装の動作ステップが行われる。

同じ本発明の概念に基づいて、本出願の一実施形態は、符号化されたビットストリームを含むコンピュータ可読記憶媒体を提供する。符号化されたビットストリームは、図３から図５のステレオオーディオ信号遅延推定方法および方法の任意の可能な実装により取得されるステレオオーディオ信号のチャネル間時間差を含む。

同じ本発明の概念に基づいて、本出願の一実施形態は、コンピュータプログラムまたはコンピュータプログラム製品を提供する。コンピュータプログラムまたはコンピュータプログラム製品がコンピュータ上で実行されるとき、コンピュータは、図３から図５のステレオオーディオ信号遅延推定方法および方法の任意の可能な実装の動作ステップを実施することが可能にされる。

当業者は、本明細書で開示および説明されるさまざまな例示的な論理ブロック、モジュール、およびアルゴリズムステップを参照しながら説明される機能が、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組み合わせによって実施されてよいことを諒解することができる。ソフトウェアによって実施される場合、例示的な論理ブロック、モジュール、およびステップを参照しながら説明される機能は、１つまたは複数の命令またはコードとして、コンピュータ可読媒体に記憶されるか、これに送信され、ハードウェアベースの処理ユニットによって実行されてよい。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応するコンピュータ可読記憶を含んでもよいし、ある場所から別の場所への（たとえば、通信プロトコルに従った）コンピュータプログラムの送信を容易にする任意の通信媒体を含んでもよい。このようにして、コンピュータ可読媒体は、一般に、（１）非一時的な有形コンピュータ可読記憶媒体、または（２）信号もしくは搬送波などの通信媒体に対応し得る。データ記憶媒体は、本出願で説明される技術を実施するための命令、コード、および／またはデータ構造を取り出すために１つもしくは複数のコンピュータまたは１つもしくは複数のプロセッサによってアクセス可能である任意の使用可能な媒体であってよい。コンピュータプログラム製品は、コンピュータ可読媒体を含んでよい。

限定ではなく例として、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ－ＲＯＭもしくは別の光ディスク記憶装置、磁気ディスク記憶装置もしくは別の磁気記憶装置、フラッシュメモリ、または必要とされるプログラムコードを命令もしくはデータ構造の形で記憶することができ、コンピュータによってアクセス可能である他の任意の媒体を含んでよい。さらに、任意の接続は、コンピュータ可読媒体と呼ばれるのが適切である。たとえば、命令が、同軸ケーブル、光ファイバ、ツイストペア、デジタル加入者回線（ｄｉｇｉｔａｌｓｕｂｓｃｒｉｂｅｒｌｉｎｅ，ＤＳＬ）、または赤外線、無線、もしくはマイクロ波などのワイヤレス技術を通じて、ウェブサイト、サーバ、または別のリモートソースから送信される場合、同軸ケーブル、光ファイバ、ツイストペア、ＤＳＬ、または赤外線、無線、もしくはマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的な媒体を含まず、実際には、非一時的な有形記憶媒体を意味することが理解されるべきである。本明細書で使用されるディスクおよびディスクは、コンパクトディスク（ＣＤ）と、レーザディスクと、光ディスクと、デジタル多用途ディスク（ＤＶＤ）と、ブルーレイディスクとを含む。ディスクは通常、データを磁気的に再生し、ディスクは、レーザを使用することによってデータを光学的に再生する。上記の組み合わせも、コンピュータ可読媒体の範囲内に含まれるべきである。

命令は、１つもしくは複数のデジタル信号プロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または等価な集積回路もしくはディスクリート論理回路などの、１つまたは複数のプロセッサによって実行されてよい。したがって、本明細書で使用される「プロセッサ」という用語は、前述の構造、または本明細書で説明される技術の実装に適用され得る他の任意の構造を指し得る。さらに、いくつかの態様では、本明細書で説明される例示的な論理ブロック、モジュール、およびステップを参照しながら説明される機能は、符号化および復号化のために構成された専用ハードウェアおよび／またはソフトウェアモジュール内で提供されてもよいし、複合コーデックに組み込まれてもよい。さらに、技術は、１つもしくは複数の回路または論理素子内で完全に実施されてもよい。

本出願の技術は、ワイヤレスハンドセット、集積回路（ＩＣ）、またはＩＣのセット（たとえば、チップセット）を含む、さまざまな装置またはデバイス内で実施されてよい。さまざまな構成要素、モジュール、またはユニットが、開示の技術を行うように構成された装置の機能態様を目立たせるために本出願で説明されているが、機能は、異なるハードウェアユニットによって実施される必要はない。実際、上記で説明されたように、さまざまなユニットは、適切なソフトウェアおよび／またはファームウェアと組み合わせてコーデックハードウェアユニットに統合されてもよいし、相互運用可能なハードウェアユニット（上記で説明された１つまたは複数のプロセッサを含む）によって提供されてもよい。

前述の実施形態では、各実施形態の説明は、それぞれの焦点を有する。一実施形態で詳細に説明されていない部分については、他の実施形態における関連説明を参照されたい。

前述の説明は、本出願の特定の例示的な実装にすぎず、本出願の保護範囲を制限することを意図したものではない。本出願に開示されている技術範囲内の当業者によって容易に理解される任意の変形または置き換えは、本出願の保護範囲内に含まれるものとする。したがって、本出願の保護範囲は、請求項の保護範囲に従うものとする。

Claims

ステレオオーディオ信号の現在のフレームを取得するステップであって、前記現在のフレームは、第１のチャネルオーディオ信号と、第２のチャネルオーディオ信号とを含む、ステップと、
前記現在のフレームに含まれるノイズ信号の信号タイプがコヒーレントノイズ信号タイプである場合、第１のアルゴリズムを使用することによって前記第１のチャネルオーディオ信号と前記第２のチャネルオーディオ信号との間のチャネル間時間差を推定するステップ、または
前記現在のフレームに含まれるノイズ信号の信号タイプが拡散ノイズ信号タイプである場合、第２のアルゴリズムを使用することによって前記第１のチャネルオーディオ信号と前記第２のチャネルオーディオ信号との間のチャネル間時間差を推定するステップと
を含み、
前記第１のアルゴリズムは、第１の重み関数に基づいて前記現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、前記第２のアルゴリズムは、第２の重み関数に基づいて前記現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、前記第１の重み関数の構造因子は前記第２の重み関数のそれとは異なる、
ステレオオーディオ信号遅延推定方法。
ステレオオーディオ信号の現在のフレームを取得する前記ステップの後、前記方法は、
前記現在のフレームのノイズコヒーレンス値を取得するステップと、
前記ノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも大きいかこれに等しい場合、前記現在のフレームに含まれる前記ノイズ信号の前記信号タイプはコヒーレント関連ノイズ信号タイプであると決定するステップ、または
前記ノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも小さい場合、前記現在のフレームに含まれる前記ノイズ信号の前記信号タイプは拡散ノイズ信号タイプであると決定するステップと
をさらに含む請求項１に記載の方法。
前記現在のフレームのノイズコヒーレンス値を取得する前記ステップは、
前記現在のフレームに対して発話終了点検出を行うステップと、
検出結果が、前記現在のフレームの信号タイプはノイズ信号タイプであることを示す場合、前記現在のフレームの前記ノイズコヒーレンス値を計算するステップ、または
検出結果が、前記現在のフレームの信号タイプは発話信号タイプであることを示す場合、前記ステレオオーディオ信号の前記現在のフレームの以前のフレームのノイズコヒーレンス値を前記現在のフレームの前記ノイズコヒーレンス値と決定するステップと
を含む請求項２に記載の方法。
前記第１のチャネルオーディオ信号は第１のチャネル時間領域信号であり、前記第２のチャネルオーディオ信号は第２のチャネル時間領域信号であり、
第１のアルゴリズムを使用することによって前記第１のチャネルオーディオ信号と前記第２のチャネルオーディオ信号との間のチャネル間時間差を推定する前記ステップは、
第１のチャネル周波数領域信号および第２のチャネル周波数領域信号を取得するために、前記第１のチャネル時間領域信号および前記第２のチャネル時間領域信号に対して時間－周波数変換を行うステップと、
前記第１のチャネル周波数領域信号および前記第２のチャネル周波数領域信号に基づいて前記現在のフレームの前記周波数領域クロスパワースペクトルを計算するステップと、
前記第１の重み関数に基づいて前記周波数領域クロスパワースペクトルを重み付けするステップと、
重み付けされた周波数領域クロスパワースペクトルに基づいて前記チャネル間時間差の推定値を取得するステップと
を含み、
前記第１の重み関数の前記構造因子は、前記第１のチャネル周波数領域信号に対応するウィナー利得係数と、前記第２のチャネル周波数領域信号に対応するウィナー利得係数と、振幅重み付けパラメータと、前記現在のフレームの２乗コヒーレンス値とを含む請求項１乃至３のいずれか一項に記載の方法。
前記第１のチャネルオーディオ信号は第１のチャネル周波数領域信号であり、前記第２のチャネルオーディオ信号は第２のチャネル周波数領域信号であり、
第１のアルゴリズムを使用することによって前記第１のチャネルオーディオ信号と前記第２のチャネルオーディオ信号との間のチャネル間時間差を推定する前記ステップは、
前記第１のチャネル周波数領域信号および前記第２のチャネル周波数領域信号に基づいて前記現在のフレームの前記周波数領域クロスパワースペクトルを計算するステップと、
前記第１の重み関数に基づいて前記周波数領域クロスパワースペクトルを重み付けするステップと、
重み付けされた周波数領域クロスパワースペクトルに基づいて前記チャネル間時間差の推定値を取得するステップと
を含み、
前記第１の重み関数の前記構造因子は、前記第１のチャネル周波数領域信号に対応するウィナー利得係数と、前記第２のチャネル周波数領域信号に対応するウィナー利得係数と、振幅重み付けパラメータと、前記現在のフレームの２乗コヒーレンス値とを含む請求項１乃至３のいずれか一項に記載の方法。
前記第１の重み関数Φ_{new_1}（ｋ）は、以下の式

を満たし、ここで、
βは前記振幅重み付けパラメータであり、β∈［０，１］であり、Ｗ_x1（ｋ）は前記第１のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Ｗ_x2（ｋ）は前記第２のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Ｘ₁（ｋ）は前記第１のチャネル周波数領域信号であり、Ｘ₂（ｋ）は前記第２のチャネル周波数領域信号であり、

はＸ₂（ｋ）の共役関数であり、Γ²（ｋ）は前記現在のフレームの第ｋの周波数ビンの２乗コヒーレンス値であり、

であり、ｋは周波数ビンインデックス値であり、ｋ＝０，１，．．．，Ｎ_DFT－１であり、Ｎ_DFTは時間－周波数変換後の前記現在のフレームの周波数ビンの総量である請求項４または５に記載の方法。
前記第１の重み関数Φ_{new_1}（ｋ）は、以下の式

を満たし、ここで、
βは前記振幅重み付けパラメータであり、β∈［０，１］であり、Ｗ_x1（ｋ）は前記第１のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Ｗ_x2（ｋ）は前記第２のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Ｘ₁（ｋ）は前記第１のチャネル周波数領域信号であり、Ｘ₂（ｋ）は前記第２のチャネル周波数領域信号であり、

はＸ₂（ｋ）の共役関数であり、Γ²（ｋ）は前記現在のフレームの第ｋの周波数ビンの２乗コヒーレンス値であり、

であり、ｋは周波数ビンインデックス値であり、ｋ＝０，１，．．．，Ｎ_DFT－１であり、Ｎ_DFTは時間－周波数変換後の前記現在のフレームの周波数ビンの総量である請求項４または５に記載の方法。
前記第１のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第１のチャネル周波数領域信号の第１の初期ウィナー利得係数であり、前記第２のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第２のチャネル周波数領域信号の第２の初期ウィナー利得係数であり、
ステレオオーディオ信号の現在のフレームを取得する前記ステップの後、前記方法は、
前記第１のチャネル周波数領域信号に基づいて第１のチャネルノイズパワースペクトルの推定値を取得し、前記第１のチャネルノイズパワースペクトルの前記推定値に基づいて前記第１の初期ウィナー利得係数を決定するステップと、
前記第２のチャネル周波数領域信号に基づいて第２のチャネルノイズパワースペクトルの推定値を取得し、前記第２のチャネルノイズパワースペクトルの前記推定値に基づいて前記第２の初期ウィナー利得係数を決定するステップと
をさらに含む請求項４乃至７のいずれか一項に記載の方法。
前記第１の初期ウィナー利得係数

は、以下の式

を満たし、
前記第２の初期ウィナー利得係数

は、以下の式

を満たし、ここで、

は前記第１のチャネルノイズパワースペクトルの前記推定値であり、

は前記第２のチャネルノイズパワースペクトルの前記推定値であり、Ｘ₁（ｋ）は前記第１のチャネル周波数領域信号であり、Ｘ₂（ｋ）は前記第２のチャネル周波数領域信号であり、ｋは前記周波数ビンインデックス値であり、ｋ＝０，１，．．．，Ｎ_DFT－１であり、Ｎ_DFTは時間－周波数変換後の前記現在のフレームの周波数ビンの総量である請求項８に記載の方法。
前記第１のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第１のチャネル周波数領域信号の第１の改善されたウィナー利得係数であり、前記第２のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第２のチャネル周波数領域信号の第２の改善されたウィナー利得係数であり、
ステレオオーディオ信号の現在のフレームを取得する前記ステップの後、前記方法は、
前記第１のチャネル周波数領域信号の第１の初期ウィナー利得係数および前記第２のチャネル周波数領域信号の第２の初期ウィナー利得係数を取得するステップと、
前記第１の改善されたウィナー利得係数を取得するために、前記第１の初期ウィナー利得係数のためのバイナリマスキング関数を構築するステップと、
前記第２の改善されたウィナー利得係数を取得するために、前記第２の初期ウィナー利得係数のためのバイナリマスキング関数を構築するステップと
をさらに含む請求項４乃至７のいずれか一項に記載の方法。
前記第１の改善されたウィナー利得係数

は、以下の式

を満たし、
前記第２の改善されたウィナー利得係数

は、以下の式

を満たし、ここで、
μ₀は前記ウィナー利得係数のバイナリマスキングしきい値であり、

は前記第１の初期ウィナー利得係数であり、

は前記第２の初期ウィナー利得係数である請求項１０に記載の方法。
前記第１のチャネルオーディオ信号は第１のチャネル時間領域信号であり、前記第２のチャネルオーディオ信号は第２のチャネル時間領域信号であり、
第２のアルゴリズムを使用することによって前記第１のチャネルオーディオ信号と前記第２のチャネルオーディオ信号との間のチャネル間時間差を推定する前記ステップは、
第１のチャネル周波数領域信号および第２のチャネル周波数領域信号を取得するために、前記第１のチャネル時間領域信号および前記第２のチャネル時間領域信号に対して時間－周波数変換を行うステップと、
前記第１のチャネル周波数領域信号および前記第２のチャネル周波数領域信号に基づいて前記現在のフレームの前記周波数領域クロスパワースペクトルを計算するステップと、
前記チャネル間時間差の推定値を取得するために、前記第２の重み関数に基づいて前記周波数領域クロスパワースペクトルを重み付けするステップと
を含み、
前記第２の重み関数の前記構造因子は、振幅重み付けパラメータと、前記現在のフレームの２乗コヒーレンス値とを含む請求項１乃至１１のいずれか一項に記載の方法。
前記第１のチャネルオーディオ信号は第１のチャネル周波数領域信号であり、前記第２のチャネルオーディオ信号は第２のチャネル周波数領域信号であり、
第２のアルゴリズムを使用することによって前記第１のチャネルオーディオ信号と前記第２のチャネルオーディオ信号との間のチャネル間時間差を推定する前記ステップは、
前記第１のチャネル周波数領域信号および前記第２のチャネル周波数領域信号に基づいて前記現在のフレームの前記周波数領域クロスパワースペクトルを計算するステップと、
前記第２の重み関数に基づいて前記周波数領域クロスパワースペクトルを重み付けするステップと、
重み付けされた周波数領域クロスパワースペクトルに基づいて前記チャネル間時間差の推定値を取得するステップと
を含み、
前記第２の重み関数の前記構造因子は、振幅重み付けパラメータと、前記現在のフレームの２乗コヒーレンス値とを含む請求項１乃至１１のいずれか一項に記載の方法。
前記第２の重み関数Φ_{new_2}（ｋ）は、以下の式

を満たし、ここで、
βは前記振幅重み付けパラメータであり、β∈［０，１］であり、Ｘ₁（ｋ）は前記第１のチャネル周波数領域信号であり、Ｘ₂（ｋ）は前記第２のチャネル周波数領域信号であり、

はＸ₂（ｋ）の共役関数であり、Γ²（ｋ）は前記現在のフレームの第ｋの周波数ビンの２乗コヒーレンス値であり、

であり、ｋは前記周波数ビンインデックス値であり、ｋ＝０，１，．．．，Ｎ_DFT－１であり、Ｎ_DFTは時間－周波数変換後の前記現在のフレームの周波数ビンの総量である請求項１２または１３に記載の方法。
ステレオオーディオ信号の現在のフレームを取得するステップであって、前記現在のフレームは、第１のチャネルオーディオ信号と、第２のチャネルオーディオ信号とを含む、ステップと、
前記第１のチャネルオーディオ信号および前記第２のチャネルオーディオ信号に基づいて前記現在のフレームの周波数領域クロスパワースペクトルを計算するステップと、
あらかじめ設定された重み関数に基づいて前記周波数領域クロスパワースペクトルを重み付けするステップであって、前記あらかじめ設定された重み関数は第１の重み関数または第２の重み関数である、ステップと、
重み付けされた周波数領域クロスパワースペクトルに基づいて第１のチャネル周波数領域信号と第２のチャネル周波数領域信号との間のチャネル間時間差の推定値を取得するステップと
を含み、
前記第１の重み関数の構造因子は、前記第１のチャネル周波数領域信号に対応するウィナー利得係数と、前記第２のチャネル周波数領域信号に対応するウィナー利得と、振幅重み付けパラメータと、前記現在のフレームの２乗コヒーレンス値とを含み、前記第２の重み関数の構造因子は、振幅重み付けパラメータと、前記現在のフレームの２乗コヒーレンス値とを含み、前記第１の重み関数の前記構造因子は、前記第２の重み関数のそれとは異なる、
ステレオオーディオ信号遅延推定方法。
前記第１のチャネルオーディオ信号は第１のチャネル時間領域信号であり、前記第２のチャネルオーディオ信号は第２のチャネル時間領域信号であり、
前記第１のチャネルオーディオ信号および前記第２のチャネルオーディオ信号に基づいて前記現在のフレームの周波数領域クロスパワースペクトルを計算する前記ステップは、
第１のチャネル周波数領域信号および第２のチャネル周波数領域信号を取得するために、前記第１のチャネル時間領域信号および前記第２のチャネル時間領域信号に対して時間－周波数変換を行うステップと、
前記第１のチャネル周波数領域信号および前記第２のチャネル周波数領域信号に基づいて前記現在のフレームの前記周波数領域クロスパワースペクトルを計算するステップと
を含む請求項１５に記載の方法。
前記第１のチャネルオーディオ信号は第１のチャネル周波数領域信号であり、前記第２のチャネルオーディオ信号は第２のチャネル周波数領域信号である請求項１５に記載の方法。
前記第１の重み関数Φ_{new_1}（ｋ）は、以下の式

を満たし、ここで、
βは前記振幅重み付けパラメータであり、β∈［０，１］であり、Ｗ_x1（ｋ）は前記第１のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Ｗ_x2（ｋ）は前記第２のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Ｘ₁（ｋ）は前記第１のチャネル周波数領域信号であり、Ｘ₂（ｋ）は前記第２のチャネル周波数領域信号であり、

はＸ₂（ｋ）の共役関数であり、Γ²（ｋ）は前記現在のフレームの第ｋの周波数ビンの２乗コヒーレンス値であり、

であり、ｋは周波数ビンインデックス値であり、ｋ＝０，１，．．．，Ｎ_DFT－１であり、Ｎ_DFTは時間－周波数変換後の前記現在のフレームの周波数ビンの総量である請求項１５または１６に記載の方法。
前記第１の重み関数Φ_{new_1}（ｋ）は、以下の式

を満たし、ここで、
βは前記振幅重み付けパラメータであり、β∈［０，１］であり、Ｗ_x1（ｋ）は前記第１のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Ｗ_x2（ｋ）は前記第２のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Ｘ₁（ｋ）は前記第１のチャネル周波数領域信号であり、Ｘ₂（ｋ）は前記第２のチャネル周波数領域信号であり、

はＸ₂（ｋ）の共役関数であり、Γ²（ｋ）は前記現在のフレームの第ｋの周波数ビンの２乗コヒーレンス値であり、

であり、ｋは周波数ビンインデックス値であり、ｋ＝０，１，．．．，Ｎ_DFT－１であり、Ｎ_DFTは時間－周波数変換後の前記現在のフレームの周波数ビンの総量である請求項１５または１６に記載の方法。
前記第１のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第１のチャネル周波数領域信号の第１の初期ウィナー利得係数であり、前記第２のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第２のチャネル周波数領域信号の第２の初期ウィナー利得係数であり、
ステレオオーディオ信号の現在のフレームを取得する前記ステップの後、前記方法は、
前記第１のチャネル周波数領域信号に基づいて第１のチャネルノイズパワースペクトルの推定値を取得し、前記第１のチャネルノイズパワースペクトルの前記推定値に基づいて前記第１の初期ウィナー利得係数を決定するステップと、
前記第２のチャネル周波数領域信号に基づいて第２のチャネルノイズパワースペクトルの推定値を取得し、前記第２のチャネルノイズパワースペクトルの前記推定値に基づいて前記第２の初期ウィナー利得係数を決定するステップと
をさらに含む請求項１５乃至１９のいずれか一項に記載の方法。
前記第１の初期ウィナー利得係数

は、以下の式

を満たし、
前記第２の初期ウィナー利得係数

は、以下の式

を満たし、ここで、

は前記第１のチャネルノイズパワースペクトルの前記推定値であり、

は前記第２のチャネルノイズパワースペクトルの前記推定値であり、Ｘ₁（ｋ）は前記第１のチャネル周波数領域信号であり、Ｘ₂（ｋ）は前記第２のチャネル周波数領域信号であり、ｋは前記周波数ビンインデックス値であり、ｋ＝０，１，．．．，Ｎ_DFT－１であり、Ｎ_DFTは時間－周波数変換後の前記現在のフレームの周波数ビンの総量である請求項２０に記載の方法。
前記第１のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第１のチャネル周波数領域信号の第１の改善されたウィナー利得係数であり、前記第２のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第２のチャネル周波数領域信号の第２の改善されたウィナー利得係数であり、
ステレオオーディオ信号の現在のフレームを取得する前記ステップの後、前記方法は、
前記第１のチャネル周波数領域信号の第１の初期ウィナー利得係数および前記第２のチャネル周波数領域信号の第２の初期ウィナー利得係数を取得するステップと、
前記第１の改善されたウィナー利得係数を取得するために、前記第１の初期ウィナー利得係数のためのバイナリマスキング関数を構築するステップと、
前記第２の改善されたウィナー利得係数を取得するために、前記第２の初期ウィナー利得係数のためのバイナリマスキング関数を構築するステップと
をさらに含む請求項１５乃至１９のいずれか一項に記載の方法。
前記第１の改善されたウィナー利得係数

は、以下の式

を満たし、
前記第２の改善されたウィナー利得係数

は、以下の式

を満たし、ここで、
μ₀は前記ウィナー利得係数のバイナリマスキングしきい値であり、

は前記第１の初期ウィナー利得係数であり、

は前記第２の初期ウィナー利得係数である請求項２２に記載の方法。
前記第２の重み関数Φ_{new_2}（ｋ）は、以下の式

を満たし、ここで、
βは前記振幅重み付けパラメータであり、β∈［０，１］であり、Ｗ_x1（ｋ）は前記第１のチャネルのウィナー利得係数であり、Ｗ_x2（ｋ）は前記第２のチャネルのウィナー利得係数であり、Ｘ₁（ｋ）は前記第１のチャネル周波数領域信号であり、Ｘ₂（ｋ）は前記第２のチャネル周波数領域信号であり、

はＸ₂（ｋ）の共役関数であり、Γ²（ｋ）は前記現在のフレームの第ｋの周波数ビンの２乗コヒーレンス値であり、

であり、ｋは前記周波数ビンインデックス値であり、ｋ＝０，１，．．．，Ｎ_DFT－１であり、Ｎ_DFTは時間－周波数変換後の前記現在のフレームの周波数ビンの総量である請求項１５乃至２３のいずれか一項に記載の方法。
ステレオオーディオ信号の現在のフレームを取得するように構成された第１の取得モジュールであって、前記現在のフレームは、第１のチャネルオーディオ信号と、第２のチャネルオーディオ信号とを含む、第１の取得モジュールと、
前記現在のフレームに含まれるノイズ信号の信号タイプがコヒーレントノイズ信号タイプである場合、第１のアルゴリズムを使用することによって前記第１のチャネルオーディオ信号と前記第２のチャネルオーディオ信号との間のチャネル間時間差を推定すること、または前記現在のフレームに含まれるノイズ信号の信号タイプが拡散ノイズ信号タイプである場合、第２のアルゴリズムを使用することによって前記第１のチャネルオーディオ信号と前記第２のチャネルオーディオ信号との間のチャネル間時間差を推定することを行うように構成された第１のチャネル間時間差推定モジュールと
を備え、
前記第１のアルゴリズムは、第１の重み関数に基づいて前記現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、前記第２のアルゴリズムは、第２の重み関数に基づいて前記現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、前記第１の重み関数の構造因子は前記第２の重み関数のそれとは異なる、
ステレオオーディオ信号遅延推定装置。
前記装置は、前記第１の取得モジュールが前記現在のフレームを取得した後に前記現在のフレームのノイズコヒーレンス値を取得することと、前記ノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも大きいかこれに等しい場合、前記現在のフレームに含まれる前記ノイズ信号の前記信号タイプはコヒーレントノイズ信号タイプであると決定すること、または前記ノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも小さい場合、前記現在のフレームに含まれる前記ノイズ信号の前記信号タイプは拡散ノイズ信号タイプであると決定することとを行うように構成されたノイズコヒーレンス値計算モジュールをさらに備える請求項２５に記載の装置。
前記装置は、前記現在のフレームに対して発話終了点検出を行うように構成された発話終了点検出モジュールをさらに備え、前記ノイズコヒーレンス値計算モジュールは、検出結果が、前記現在のフレームの信号タイプはノイズ信号タイプであることを示す場合、前記現在のフレームの前記ノイズコヒーレンス値を計算する、または検出結果が、前記現在のフレームの信号タイプは発話信号タイプであることを示す場合、前記ステレオオーディオ信号の前記現在のフレームの以前のフレームのノイズコヒーレンス値を前記現在のフレームの前記ノイズコヒーレンス値と決定するように特に構成される請求項２６に記載の装置。
前記第１のチャネルオーディオ信号は第１のチャネル時間領域信号であり、前記第２のチャネルオーディオ信号は第２のチャネル時間領域信号であり、前記第１のチャネル間時間差推定モジュールは、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号を取得するために、前記第１のチャネル時間領域信号および前記第２のチャネル時間領域信号に対して時間－周波数変換を行うことと、前記第１のチャネル周波数領域信号および前記第２のチャネル周波数領域信号に基づいて前記現在のフレームの前記周波数領域クロスパワースペクトルを計算することと、前記第１の重み関数に基づいて前記周波数領域クロスパワースペクトルを重み付けすることと、重み付けされた周波数領域クロスパワースペクトルに基づいて前記チャネル間時間差の推定値を取得することとを行うように構成され、前記第１の重み関数の前記構造因子は、前記第１のチャネル周波数領域信号に対応するウィナー利得係数と、前記第２のチャネル周波数領域信号に対応するウィナー利得係数と、振幅重み付けパラメータと、前記現在のフレームの２乗コヒーレンス値とを含む請求項２５乃至２７のいずれか一項に記載の装置。
前記第１のチャネルオーディオ信号は第１のチャネル周波数領域信号であり、前記第２のチャネルオーディオ信号は第２のチャネル周波数領域信号であり、前記第１のチャネル間時間差推定モジュールは、前記第１のチャネル周波数領域信号および前記第２のチャネル周波数領域信号に基づいて前記現在のフレームの前記周波数領域クロスパワースペクトルを計算し、前記第１の重み関数に基づいて前記周波数領域クロスパワースペクトルを重み付けし、重み付けされた周波数領域クロスパワースペクトルに基づいて前記チャネル間時間差の推定値を取得するように構成され、前記第１の重み関数の前記構造因子は、前記第１のチャネル周波数領域信号に対応するウィナー利得係数と、前記第２のチャネル周波数領域信号に対応するウィナー利得係数と、振幅重み付けパラメータと、前記現在のフレームの２乗コヒーレンス値とを含む請求項２５乃至２７のいずれか一項に記載の装置。
前記第１の重み関数Φ_{new_1}（ｋ）は、以下の式

を満たし、ここで、
βは前記振幅重み付けパラメータであり、β∈［０，１］であり、Ｗ_x1（ｋ）は前記第１のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Ｗ_x2（ｋ）は前記第２のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Ｘ₁（ｋ）は前記第１のチャネル周波数領域信号であり、Ｘ₂（ｋ）は前記第２のチャネル周波数領域信号であり、

はＸ₂（ｋ）の共役関数であり、Γ²（ｋ）は前記現在のフレームの第ｋの周波数ビンの２乗コヒーレンス値であり、

であり、ｋは周波数ビンインデックス値であり、ｋ＝０，１，．．．，Ｎ_DFT－１であり、Ｎ_DFTは時間－周波数変換後の前記現在のフレームの周波数ビンの総量である請求項２８または２９に記載の装置。
前記第１の重み関数Φ_{new_1}（ｋ）は、以下の式

を満たし、ここで、
βは前記振幅重み付けパラメータであり、β∈［０，１］であり、Ｗ_x1（ｋ）は前記第１のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Ｗ_x2（ｋ）は前記第２のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Ｘ₁（ｋ）は前記第１のチャネル周波数領域信号であり、Ｘ₂（ｋ）は前記第２のチャネル周波数領域信号であり、

はＸ₂（ｋ）の共役関数であり、Γ²（ｋ）は前記現在のフレームの第ｋの周波数ビンの２乗コヒーレンス値であり、

であり、ｋは周波数ビンインデックス値であり、ｋ＝０，１，．．．，Ｎ_DFT－１であり、Ｎ_DFTは時間－周波数変換後の前記現在のフレームの周波数ビンの総量である請求項２８または２９に記載の装置。
前記第１のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第１のチャネル周波数領域信号の第１の初期ウィナー利得係数であり、前記第２のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第２のチャネル周波数領域信号の第２の初期ウィナー利得係数であり、
前記第１のチャネル間時間差推定モジュールは、前記第１の取得モジュールが前記現在のフレームを取得した後に前記第１のチャネル周波数領域信号に基づいて第１のチャネルノイズパワースペクトルの推定値を取得し、前記第１のチャネルノイズパワースペクトルの前記推定値に基づいて前記第１の初期ウィナー利得係数を決定し、前記第２のチャネル周波数領域信号に基づいて第２のチャネルノイズパワースペクトルの推定値を取得し、前記第２のチャネルノイズパワースペクトルの前記推定値に基づいて前記第２の初期ウィナー利得係数を決定するように特に構成される請求項２８乃至３１のいずれか一項に記載の装置。
前記第１の初期ウィナー利得係数

は、以下の式

を満たし、
前記第２の初期ウィナー利得係数

は、以下の式

を満たし、ここで、

は前記第１のチャネルノイズパワースペクトルの前記推定値であり、

は前記第２のチャネルノイズパワースペクトルの前記推定値であり、Ｘ₁（ｋ）は前記第１のチャネル周波数領域信号であり、Ｘ₂（ｋ）は前記第２のチャネル周波数領域信号であり、ｋは前記周波数ビンインデックス値であり、ｋ＝０，１，．．．，Ｎ_DFT－１であり、Ｎ_DFTは時間－周波数変換後の前記現在のフレームの周波数ビンの総量である請求項３２に記載の装置。
前記第１のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第１のチャネル周波数領域信号の第１の改善されたウィナー利得係数であり、前記第２のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第２のチャネル周波数領域信号の第２の改善されたウィナー利得係数であり、
前記第１のチャネル間時間差推定モジュールは、前記第１の取得モジュールが前記現在のフレームを取得した後に前記第１のチャネル周波数領域信号の第１の初期ウィナー利得係数および前記第２のチャネル周波数領域信号の第２の初期ウィナー利得係数を取得することと、前記第１の改善されたウィナー利得係数を取得するために、前記第１の初期ウィナー利得係数のためのバイナリマスキング関数を構築することと、前記第２の改善されたウィナー利得係数を取得するために、前記第２の初期ウィナー利得係数のためのバイナリマスキング関数を構築することとを行うように特に構成される請求項２８乃至３１のいずれか一項に記載の装置。
前記第１の改善されたウィナー利得係数

は、以下の式

を満たし、
前記第２の改善されたウィナー利得係数

は、以下の式

を満たし、ここで、
μ₀は前記ウィナー利得係数のバイナリマスキングしきい値であり、

は前記第１の初期ウィナー利得係数であり、

は前記第２の初期ウィナー利得係数である請求項３４に記載の装置。
前記第１のチャネルオーディオ信号は第１のチャネル時間領域信号であり、前記第２のチャネルオーディオ信号は第２のチャネル時間領域信号であり、前記第１のチャネル間時間差推定モジュールは、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号を取得するために、前記第１のチャネル時間領域信号および前記第２のチャネル時間領域信号に対して時間－周波数変換を行うことと、前記第１のチャネル周波数領域信号および前記第２のチャネル周波数領域信号に基づいて前記現在のフレームの前記周波数領域クロスパワースペクトルを計算することと、前記チャネル間時間差の推定値を取得するために、前記第２の重み関数に基づいて前記周波数領域クロスパワースペクトルを重み付けすることとを行うように特に構成され、前記第２の重み関数の前記構造因子は、振幅重み付けパラメータと、前記現在のフレームの２乗コヒーレンス値とを含む請求項２５乃至３５のいずれか一項に記載の装置。
前記第１のチャネルオーディオ信号は第１のチャネル周波数領域信号であり、前記第２のチャネルオーディオ信号は第２のチャネル周波数領域信号であり、前記第１のチャネル間時間差推定モジュールは、前記第１のチャネル周波数領域信号および前記第２のチャネル周波数領域信号に基づいて前記現在のフレームの前記周波数領域クロスパワースペクトルを計算し、前記第２の重み関数に基づいて前記周波数領域クロスパワースペクトルを重み付けし、重み付けされた周波数領域クロスパワースペクトルに基づいて前記チャネル間時間差の推定値を取得するように特に構成され、前記第２の重み関数の前記構造因子は、振幅重み付けパラメータと、前記現在のフレームの２乗コヒーレンス値とを含む請求項２５乃至３５のいずれか一項に記載の装置。
前記第２の重み関数Φ_{new_2}（ｋ）は、以下の式

を満たし、ここで、
βは前記振幅重み付けパラメータであり、β∈［０，１］であり、Ｘ₁（ｋ）は前記第１のチャネル周波数領域信号であり、Ｘ₂（ｋ）は前記第２のチャネル周波数領域信号であり、

はＸ₂（ｋ）の共役関数であり、Γ²（ｋ）は前記現在のフレームの第ｋの周波数ビンの２乗コヒーレンス値であり、

であり、ｋは前記周波数ビンインデックス値であり、ｋ＝０，１，．．．，Ｎ_DFT－１であり、Ｎ_DFTは時間－周波数変換後の前記現在のフレームの周波数ビンの総量である請求項３７に記載の装置。
ステレオオーディオ信号の現在のフレームを取得するように構成された第２の取得モジュールであって、前記現在のフレームは、第１のチャネルオーディオ信号と、第２のチャネルオーディオ信号とを含む、第２の取得モジュールと、
前記第１のチャネルオーディオ信号および前記第２のチャネルオーディオ信号に基づいて前記現在のフレームの周波数領域クロスパワースペクトルを計算することと、あらかじめ設定された重み関数に基づいて前記周波数領域クロスパワースペクトルを重み付けすることであって、前記あらかじめ設定された重み関数は第１の重み関数または第２の重み関数である、重み付けすることと、重み付けされた周波数領域クロスパワースペクトルに基づいて第１のチャネル周波数領域信号と第２のチャネル周波数領域信号との間のチャネル間時間差の推定値を取得することとを行うように構成された第２のチャネル間時間差推定モジュールと
を備え、
前記第１の重み関数の構造因子は、前記第１のチャネル周波数領域信号に対応するウィナー利得係数と、前記第２のチャネル周波数領域信号に対応するウィナー利得と、振幅重み付けパラメータと、前記現在のフレームの２乗コヒーレンス値とを含み、前記第２の重み関数の構造因子は、振幅重み付けパラメータと、前記現在のフレームの２乗コヒーレンス値とを含み、前記第１の重み関数の前記構造因子は、前記第２の重み関数のそれとは異なる、
ステレオオーディオ信号遅延推定装置。
前記第１のチャネルオーディオ信号は第１のチャネル時間領域信号であり、前記第２のチャネルオーディオ信号は第２のチャネル時間領域信号であり、前記第２のチャネル間時間差推定モジュールは、第１のチャネル周波数領域信号および第２のチャネル周波数領域信号を取得するために、前記第１のチャネル時間領域信号および前記第２のチャネル時間領域信号に対して時間－周波数変換を行うことと、前記第１のチャネル周波数領域信号および前記第２のチャネル周波数領域信号に基づいて前記現在のフレームの前記周波数領域クロスパワースペクトルを計算することとを行うように構成される請求項３９に記載の装置。
前記第１のチャネルオーディオ信号は第１のチャネル周波数領域信号であり、前記第２のチャネルオーディオ信号は第２のチャネル周波数領域信号である請求項３９に記載の装置。
前記第１の重み関数Φ_{new_1}（ｋ）は、以下の式

を満たし、ここで、
βは前記振幅重み付けパラメータであり、β∈［０，１］であり、Ｗ_x1（ｋ）は前記第１のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Ｗ_x2（ｋ）は前記第２のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Ｘ₁（ｋ）は前記第１のチャネル周波数領域信号であり、Ｘ₂（ｋ）は前記第２のチャネル周波数領域信号であり、

はＸ₂（ｋ）の共役関数であり、Γ²（ｋ）は前記現在のフレームの第ｋの周波数ビンの２乗コヒーレンス値であり、

であり、ｋは周波数ビンインデックス値であり、ｋ＝０，１，．．．，Ｎ_DFT－１であり、Ｎ_DFTは時間－周波数変換後の前記現在のフレームの周波数ビンの総量である請求項３９乃至４１のいずれか一項に記載の装置。
前記第１の重み関数Φ_{new_1}（ｋ）は、以下の式

を満たし、ここで、
βは前記振幅重み付けパラメータであり、β∈［０，１］であり、Ｗ_x1（ｋ）は前記第１のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Ｗ_x2（ｋ）は前記第２のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Ｘ₁（ｋ）は前記第１のチャネル周波数領域信号であり、Ｘ₂（ｋ）は前記第２のチャネル周波数領域信号であり、

はＸ₂（ｋ）の共役関数であり、Γ²（ｋ）は前記現在のフレームの第ｋの周波数ビンの２乗コヒーレンス値であり、

であり、ｋは周波数ビンインデックス値であり、ｋ＝０，１，．．．，Ｎ_DFT－１であり、Ｎ_DFTは時間－周波数変換後の前記現在のフレームの周波数ビンの総量である請求項３９乃至４１のいずれか一項に記載の装置。
前記第１のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第１のチャネル周波数領域信号の第１の初期ウィナー利得係数であり、前記第２のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第２のチャネル周波数領域信号の第２の初期ウィナー利得係数であり、
前記第２のチャネル間時間差推定モジュールは、前記第２の取得モジュールが前記現在のフレームを取得した後に前記第１のチャネル周波数領域信号に基づいて第１のチャネルノイズパワースペクトルの推定値を取得し、前記第１のチャネルノイズパワースペクトルの前記推定値に基づいて前記第１の初期ウィナー利得係数を決定し、前記第２のチャネル周波数領域信号に基づいて第２のチャネルノイズパワースペクトルの推定値を取得し、前記第２のチャネルノイズパワースペクトルの前記推定値に基づいて前記第２の初期ウィナー利得係数を決定するように特に構成される請求項３９乃至４３のいずれか一項に記載の装置。
前記第１の初期ウィナー利得係数

は、以下の式

を満たし、
前記第２の初期ウィナー利得係数

は、以下の式

を満たし、ここで、

は前記第１のチャネルノイズパワースペクトルの前記推定値であり、

は前記第２のチャネルノイズパワースペクトルの前記推定値であり、Ｘ₁（ｋ）は前記第１のチャネル周波数領域信号であり、Ｘ₂（ｋ）は前記第２のチャネル周波数領域信号であり、ｋは前記周波数ビンインデックス値であり、ｋ＝０，１，．．．，Ｎ_DFT－１であり、Ｎ_DFTは時間－周波数変換後の前記現在のフレームの周波数ビンの総量である請求項４４に記載の装置。
前記第１のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第１のチャネル周波数領域信号の第１の改善されたウィナー利得係数であり、前記第２のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第２のチャネル周波数領域信号の第２の改善されたウィナー利得係数であり、
前記第２のチャネル間時間差推定モジュールは、前記第２の取得モジュールが前記現在のフレームを取得した後に前記第１のチャネル周波数領域信号の第１の初期ウィナー利得係数および前記第２のチャネル周波数領域信号の第２の初期ウィナー利得係数を取得することと、前記第１の改善されたウィナー利得係数を取得するために、前記第１の初期ウィナー利得係数のためのバイナリマスキング関数を構築することと、前記第２の改善されたウィナー利得係数を取得するために、前記第２の初期ウィナー利得係数のためのバイナリマスキング関数を構築することとを行うように特に構成される請求項３９乃至４３のいずれか一項に記載の装置。
前記第１の改善されたウィナー利得係数

は、以下の式

を満たし、
前記第２の改善されたウィナー利得係数

は、以下の式

を満たし、ここで、
μ₀は前記ウィナー利得係数のバイナリマスキングしきい値であり、

は前記第１の初期ウィナー利得係数であり、

は前記第２の初期ウィナー利得係数である請求項４６に記載の装置。
前記第２の重み関数Φ_{new_2}（ｋ）は以下の式

を満たし、ここで、
β∈［０，１］であり、Ｘ₁（ｋ）は前記第１のチャネル周波数領域信号であり、Ｘ₂（ｋ）は前記第２のチャネル周波数領域信号であり、

はＸ₂（ｋ）の共役関数であり、Γ²（ｋ）は前記現在のフレームの第ｋの周波数ビンの２乗コヒーレンス値であり、

であり、ｋは周波数ビンインデックス値であり、ｋ＝０，１，．．．，Ｎ_DFT－１であり、Ｎ_DFTは時間－周波数変換後の前記現在のフレームの周波数ビンの総量である請求項３９乃至４７のいずれか一項に記載の装置。
互いに結合された不揮発性メモリとプロセッサとを備え、前記プロセッサは、請求項１乃至２４のいずれか一項に記載のステレオオーディオ信号遅延推定方法を行うために前記メモリに記憶されたプログラムコードを呼び出す、オーディオコーディング装置。
コンピュータプログラムを備え、前記コンピュータプログラムがコンピュータ上で実行されるとき、前記コンピュータは、請求項１乃至２４のいずれか一項に記載のステレオオーディオ信号遅延推定方法を行うことが可能にされる、コンピュータ記憶媒体。
符号化されたビットストリームを備え、前記符号化されたビットストリームは、請求項１乃至２４のいずれか一項に記載のステレオオーディオ信号遅延推定方法により取得されたステレオオーディオ信号のチャネル間時間差を備える、コンピュータ可読記憶媒体。