JP2023533364A - ステレオオーディオ信号遅延推定方法および装置 - Google Patents
ステレオオーディオ信号遅延推定方法および装置 Download PDFInfo
- Publication number
- JP2023533364A JP2023533364A JP2023502886A JP2023502886A JP2023533364A JP 2023533364 A JP2023533364 A JP 2023533364A JP 2023502886 A JP2023502886 A JP 2023502886A JP 2023502886 A JP2023502886 A JP 2023502886A JP 2023533364 A JP2023533364 A JP 2023533364A
- Authority
- JP
- Japan
- Prior art keywords
- channel
- domain signal
- signal
- gain factor
- frequency domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 361
- 238000000034 method Methods 0.000 title claims abstract description 135
- 238000001228 spectrum Methods 0.000 claims abstract description 186
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 67
- 230000001427 coherent effect Effects 0.000 claims abstract description 28
- 230000006870 function Effects 0.000 claims description 264
- 238000001514 detection method Methods 0.000 claims description 40
- 230000000873 masking effect Effects 0.000 claims description 34
- 230000009466 transformation Effects 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 29
- 238000005314 correlation function Methods 0.000 description 28
- 238000004891 communication Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 9
- 238000009432 framing Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000004807 localization Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 125000000205 L-threonino group Chemical group [H]OC(=O)[C@@]([H])(N([H])[*])[C@](C([H])([H])[H])([H])O[H] 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 206010019133 Hangover Diseases 0.000 description 1
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/307—Frequency adjustment, e.g. tone control
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
ステレオオーディオ信号遅延推定方法および装置が開示される。この方法は、ステレオオーディオ信号の現在のフレームを取得すること(S401)であって、現在のフレームは、第1のチャネルオーディオ信号と、第2のチャネルオーディオ信号とを含む、取得すること(S401)と、現在のフレームに含まれるノイズ信号の信号タイプがコヒーレントノイズ信号タイプである場合、第1のアルゴリズムを使用することによって現在のフレームのチャネル間時間差を推定すること(S403)、または現在のフレームに含まれるノイズ信号の信号タイプが拡散ノイズ信号タイプである場合、第2のアルゴリズムを使用することによって現在のフレームのチャネル間時間差を推定すること(S403)とを含んでよい。第1のアルゴリズムは、第1の重み関数に基づいて現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、第2のアルゴリズムは、第2の重み関数に基づいて現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、第1の重み関数の構造因子は第2の重み関数のそれとは異なる。異なるITD推定アルゴリズムは、異なるタイプのノイズを含むステレオオーディオ信号に使用され、ステレオオーディオ信号のITD推定精度を改善する。
Description
本出願は、その全体が参照により本明細書に組み込まれている、2020年7月17日に中国国家知識産権局に出願された、「STEREO AUDIO SIGNAL DELAY ESTIAMTION METHOD AND APPARATUS」という名称の中国特許出願第202010700806.7号の優先権を主張するものである。
本出願は、オーディオ符号化および復号化の分野に関し、より詳細には、ステレオオーディオ信号遅延推定方法および装置に関する。
日常的なオーディオおよび映像通信システムでは、人々は、高品質画像だけでなく、高品質オーディオも追求する。音声およびオーディオ通信システムでは、単一チャネルオーディオは、人々の要求を満たすことがますますできなくなっている。一方、ステレオオーディオは、各音源の定位情報を搬送する。これは、オーディオの明瞭度、了解度、および臨場感を改善する。したがって、ステレオオーディオは、人々の間でますます普及している。
ステレオオーディオ符号化および復号化技術では、パラメトリックステレオ符号化および復号化技術は、一般的なオーディオ符号化および復号化技術である。一般的な空間パラメータは、チャネル間コヒーレンス(inter-channel coherence,IC)、チャネル間レベル差(inter-channel level difference,ILD)、チャネル間時間差(inter-channel time difference,ITD)、チャネル間位相差(inter-channel phase difference,IPD)などを含む。ILDおよびITDは音源の定位情報を含み、ILD情報およびITD情報の正確な推定は、符号化されたステレオの音像および音場を再構築するために不可欠である。
そのようなアルゴリズムは、低い複雑さ、良好なリアルタイム性能、容易な実装を有し、ステレオオーディオ信号の他の前の情報に依存しないので、現在、最も一般に使用されるITD推定方法は、一般化された相互相関方法である。しかしながら、騒々しい環境では、いくつかの既存の一般化された相互相関アルゴリズムの性能はひどく劣化し、ステレオオーディオ信号の低いITD推定精度を招く。その結果、音像不正確さ、不安定性、不良な空間感覚、および明らかな頭部内への影響などの問題が、パラメトリック符号化および復号化技術における復号されたステレオオーディオ信号において発生し、符号化されたステレオオーディオ信号の音質に大きく影響する。
本出願は、ステレオオーディオ信号のチャネル間時間差推定精度を改善し、復号されたステレオオーディオ信号の音像の正確さおよび安定性を改善し、音質を改善するために、ステレオオーディオ信号遅延推定方法および装置を提供する。
第1の態様によれば、本出願は、ステレオオーディオ信号遅延推定方法を提供する。この方法は、オーディオコーディング装置に適用され得る。このオーディオコーディング装置は、ステレオおよびマルチチャネルオーディオおよび映像通信システム内のオーディオコーディング部分に適用されてもよいし、仮想現実(virtual reality,VR)アプリケーションプログラム内のオーディオコーディング部分に適用されてもよい。方法は、以下を含んでよい。オーディオコーディング装置は、ステレオオーディオ信号の現在のフレームを取得し、現在のフレームは、第1のチャネルオーディオ信号と、第2のチャネルオーディオ信号とを含み、オーディオコーディング装置は、現在のフレームに含まれるノイズ信号の信号タイプがコヒーレントノイズ信号タイプである場合、第1のアルゴリズムを使用することによって第1のチャネルオーディオ信号と第2のチャネルオーディオ信号との間のチャネル間時間差(inter-channel time difference,ITD)を推定する、または現在のフレームに含まれるノイズ信号の信号タイプが拡散ノイズ信号タイプである場合、第2のアルゴリズムを使用することによって第1のチャネルオーディオ信号と第2のチャネルオーディオ信号との間のITDを推定する。第1のアルゴリズムは、第1の重み関数に基づいて現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、第2のアルゴリズムは、第2の重み関数に基づいて現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、第1の重み関数の構造因子は第2の重み関数のそれとは異なる。
ステレオオーディオ信号は、生のステレオオーディオ信号(左チャネルオーディオ信号と右チャネルオーディオ信号とを含む)であってもよいし、マルチチャネルオーディオ信号中の2つのオーディオ信号によって形成されるステレオオーディオ信号であってもよいし、マルチチャネルオーディオ信号中の複数のオーディオ信号を統合することによって生成された2つのオーディオ信号によって形成されるステレオ信号であってもよい。確かに、ステレオオーディオ信号は、代替として、別の形式であってもよい。これは、本出願の本実施形態では具体的に限定されない。
任意選択で、オーディオコーディング装置は、具体的には、ステレオコーディング装置であってもよい。装置は、独立したステレオコーダを構成してもよいし、マルチチャネルオーディオ信号中の複数の信号を統合することによって生成された2つのオーディオ信号によって形成されたステレオオーディオ信号を符号化する、マルチチャネルコーダのコアコーディング部分であってもよい。
いくつかの可能な実装では、オーディオコーディング装置によって取得されるステレオ信号の現在のフレームは、周波数領域オーディオ信号または時間領域オーディオ信号であってよい。現在のフレームが周波数領域オーディオ信号である場合、オーディオコーディング装置は、周波数領域内で現在のフレームを直接的に処理してよい。現在のフレームが時間領域オーディオ信号である場合、オーディオコーディング装置は、最初に、周波数領域内の現在のフレームを取得するために時間領域内の現在のフレームに対して時間-周波数変換を行い、次いで、周波数領域内の現在のフレームを処理してよい。
本出願では、オーディオコーディング装置は、異なるタイプのノイズを含むステレオオーディオ信号に異なるITD推定アルゴリズムを使用して、拡散ノイズおよびコヒーレントノイズの場合のステレオオーディオ信号のITD推定精度および安定性を大きく改善し、ステレオダウンミックスされた信号間のフレーム間不連続性を減少させ、ステレオ信号の位相をより良く維持する。符号化されたステレオの音像は、より正確で安定しており、より強い臨場感を有し、符号化されたステレオ信号の聴覚品質は改善される。
いくつかの可能な実装では、ステレオオーディオ信号の現在のフレームが取得された後、方法は、現在のフレームのノイズコヒーレンス値を取得することと、ノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも大きいかこれに等しい場合、現在のフレームに含まれるノイズ信号の信号タイプはコヒーレントノイズ信号タイプであると決定すること、またはノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも小さい場合、現在のフレームに含まれるノイズ信号の信号タイプは拡散ノイズ信号タイプであると決定することとをさらに含む。
任意選択で、あらかじめ設定されたしきい値は、経験的値であり、0.20、0.25、0.30などに設定されてよい。
いくつかの可能な実装では、現在のフレームのノイズコヒーレンス値を取得することは、現在のフレームに対して発話終了点検出を行うことと、検出結果が、現在のフレームの信号タイプはノイズ信号タイプであることを示す場合、現在のフレームのノイズコヒーレンス値を計算すること、または検出結果が、現在のフレームの信号タイプは発話信号タイプであることを示す場合、ステレオオーディオ信号の現在のフレームの以前のフレームのノイズコヒーレンス値を現在のフレームのノイズコヒーレンス値と決定することとを含んでよい。
任意選択で、オーディオコーディング装置は、時間領域、周波数領域、または時間領域と周波数領域の組み合わせにおいて、発話終了点検出値を計算してよい。これは、本明細書では具体的に限定されない。
本出願では、現在のフレームのノイズコヒーレンス値を計算した後、オーディオコーディング装置は、ノイズコヒーレンス値を推定する際の誤差を減少させ、ノイズタイプ識別の正確さを改善するために、ノイズコヒーレンス値に対して平滑化処理をさらに行ってよい。
いくつかの可能な実装では、第1のチャネルオーディオ信号は第1のチャネル時間領域信号であり、第2のチャネルオーディオ信号は第2のチャネル時間領域信号である。第1のアルゴリズムを使用することによって第1のチャネルオーディオ信号と第2のチャネルオーディオ信号との間のチャネル間時間差を推定することは、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号を取得するために、第1のチャネル時間領域信号および第2のチャネル時間領域信号に対して時間-周波数変換を行うことと、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することと、第1の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けすることと、重み付けされた周波数領域クロスパワースペクトルに基づいてチャネル間時間差の推定値を取得することとを含む。第1の重み関数の構造因子は、第1のチャネル周波数領域信号に対応するウィナー利得係数と、第2のチャネル周波数領域信号に対応するウィナー利得係数と、振幅重み付けパラメータと、現在のフレームの2乗コヒーレンス値とを含む。
いくつかの可能な実装では、第1のチャネルオーディオ信号は第1のチャネル周波数領域信号であり、第2のチャネルオーディオ信号は第2のチャネル周波数領域信号である。第1のアルゴリズムを使用することによって第1のチャネルオーディオ信号と第2のチャネルオーディオ信号との間のチャネル間時間差を推定することは、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することと、第1の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けすることと、重み付けされた周波数領域クロスパワースペクトルに基づいてチャネル間時間差の推定値を取得することとを含む。第1の重み関数の構造因子は、第1のチャネル周波数領域信号に対応するウィナー利得係数と、第2のチャネル周波数領域信号に対応するウィナー利得係数と、振幅重み付けパラメータと、現在のフレームの2乗コヒーレンス値とを含む。
いくつかの可能な実装では、第1の重み関数Φnew_1(k)は、以下の式
を満たす。
βは振幅重み付けパラメータであり、Wx1(k)は第1のチャネル周波数領域信号に対応するウィナー利得係数であり、Wx2(k)は第2のチャネル周波数領域信号に対応するウィナー利得係数であり、Γ2(k)は現在のフレームの第kの周波数ビンの2乗コヒーレンス値であり、
であり、X1(k)は第1のチャネル周波数領域信号であり、X2(k)は第2のチャネル周波数領域信号であり、
はX2(k)の共役関数であり、kは周波数ビンインデックス値であり、k=0,1,...,NDFT-1であり、NDFTは時間-周波数変換後の現在のフレームの周波数ビンの総量である。
いくつかの可能な実装では、第1の重み関数Φnew_1(k)は、以下の式
を満たす。
βは振幅重み付けパラメータであり、Wx1(k)は第1のチャネル周波数領域信号に対応するウィナー利得係数であり、Wx2(k)は第2のチャネル周波数領域信号に対応するウィナー利得係数であり、Γ2(k)は現在のフレームの第kの周波数ビンの2乗コヒーレンス値であり、
であり、X1(k)は第1のチャネル周波数領域信号であり、X2(k)は第2のチャネル周波数領域信号であり、
はX2(k)の共役関数であり、kは周波数ビンインデックス値であり、k=0,1,...,NDFT-1であり、NDFTは時間-周波数変換後の現在のフレームの周波数ビンの総量である。
任意選択で、β∈[0,1]であり、たとえば、β=0.6、0.7、または0.8である。
いくつかの可能な実装では、第1のチャネル周波数領域信号に対応するウィナー利得係数は、第1のチャネル周波数領域信号の第1の初期ウィナー利得係数および/または第1の改善されたウィナー利得係数であってよい。第2のチャネル周波数領域信号に対応するウィナー利得係数は、第2のチャネル周波数領域信号の第2の初期ウィナー利得係数および/または第2の改善されたウィナー利得係数であってよい。
たとえば、第1のチャネル周波数領域信号に対応するウィナー利得係数は第1のチャネル周波数領域信号の第1の初期ウィナー利得係数であり、第2のチャネル周波数領域信号に対応するウィナー利得係数は第2のチャネル周波数領域信号の第2の初期ウィナー利得係数である。この場合、ステレオオーディオ信号の現在のフレームが取得された後、方法は、第1のチャネル周波数領域信号に基づいて第1のチャネルノイズパワースペクトルの推定値を取得し、第1のチャネルノイズパワースペクトルの推定値に基づいて第1の初期ウィナー利得係数を決定することと、第2のチャネル周波数領域信号に基づいて第2のチャネルノイズパワースペクトルの推定値を取得することと、第2のチャネルノイズパワースペクトルの推定値に基づいて第2の初期ウィナー利得係数を決定することとをさらに含む。
本出願では、ウィナー利得係数重み付けの後、ステレオオーディオ信号の周波数領域クロスパワースペクトル中のコヒーレントノイズ成分の重みは大きく減少され、残留ノイズ成分の相関も大きく減少される。たいていの場合、残留ノイズの2乗コヒーレンス値は、ステレオオーディオ信号中のターゲット信号(たとえば、発話信号)の2乗コヒーレンス値よりもはるかに小さい。このようにして、ターゲット信号に対応する相互相関ピーク値はより突出し、ステレオオーディオ信号のITD推定精度および安定性は大きく改善される。
いくつかの可能な実装では、第1の初期ウィナー利得係数
は、以下の式
を満たす。
第2の初期ウィナー利得係数
は、以下の式
を満たす。
は第1のチャネルノイズパワースペクトルの推定値であり、
は第2のチャネルノイズパワースペクトルの推定値であり、X1(k)は第1のチャネル周波数領域信号であり、X2(k)は第2のチャネル周波数領域信号であり、kは周波数ビンインデックス値であり、k=0,1,...,NDFT-1であり、NDFTは時間-周波数変換後の現在のフレームの周波数ビンの総量である。
別の例では、第1のチャネル周波数領域信号に対応するウィナー利得係数は第1のチャネル周波数領域信号の第1の改善されたウィナー利得係数であり、第2のチャネル周波数領域信号に対応するウィナー利得係数は第2のチャネル周波数領域信号の第2の改善されたウィナー利得係数である。
ステレオオーディオ信号の現在のフレームが取得された後、方法は、第1の初期ウィナー利得係数および第2の初期ウィナー利得係数を取得することと、第1の改善されたウィナー利得係数を取得するために、第1の初期ウィナー利得係数のためのバイナリマスキング関数を構築することと、第2の改善されたウィナー利得係数を取得するために、第2の初期ウィナー利得係数のためのバイナリマスキング関数を構築することとをさらに含む。
本出願では、バイナリマスキング関数は、第1のチャネル周波数領域信号に対応する第1の初期ウィナー利得係数および第2のチャネル周波数領域信号に対応する第2の初期ウィナー利得係数のために構築され、したがって、ノイズによってあまり影響されない周波数ビンが選択され、ITD推定精度を改善する。
いくつかの可能な実装では、第1の改善されたウィナー利得係数
は、以下の式
を満たす。
第2の改善されたウィナー利得係数
は、以下の式
を満たす。
μ0はウィナー利得係数のバイナリマスキングしきい値であり、
は第1の初期ウィナー利得係数であり、
は第2の初期ウィナー利得係数である。
任意選択で、μ0∈[0.5,0.8]であり、たとえば、μ0=0.5、0.66、0.75、または0.8である。
いくつかの可能な実装では、第1のチャネルオーディオ信号は第1のチャネル時間領域信号であり、第2のチャネルオーディオ信号は第2のチャネル時間領域信号である。第2のアルゴリズムを使用することによって第1のチャネル周波数領域信号と第2のチャネル周波数領域信号との間のチャネル間時間差を推定することは、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号を取得するために、第1のチャネル時間領域信号および第2のチャネル時間領域信号に対して時間-周波数変換を行うことと、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することと、第1のチャネル周波数領域信号と第2のチャネル周波数領域信号との間のチャネル間時間差の推定値を取得するために、第2の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けすることとを含む。第2の重み関数の構造因子は、振幅重み付けパラメータと、現在のフレームの2乗コヒーレンス値とを含む。
いくつかの可能な実装では、第1のチャネルオーディオ信号は第1のチャネル周波数領域信号であり、第2のチャネルオーディオ信号は第2のチャネル周波数領域信号である。第2のアルゴリズムを使用することによって第1のチャネルオーディオ信号と第2のチャネルオーディオ信号との間のチャネル間時間差を推定することは、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することと、第2の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けすることと、重み付けされた周波数領域クロスパワースペクトルに基づいてチャネル間時間差の推定値を取得することとを含む。第2の重み関数の構造因子は、振幅重み付けパラメータと、現在のフレームの2乗コヒーレンス値とを含む。
いくつかの可能な実装では、第2の重み関数Φnew_2(k)は、以下の式
を満たす。
βは振幅重み付けパラメータであり、Γ2(k)は現在のフレームの第kの周波数ビンの2乗コヒーレンス値であり、
であり、X1(k)は第1のチャネル周波数領域信号であり、X2(k)は第2のチャネル周波数領域信号であり、
はX2(k)の共役関数であり、kは周波数ビンインデックス値であり、k=0,1,...,NDFT-1であり、NDFTは時間-周波数変換後の現在のフレームの周波数ビンの総量である。
任意選択で、β∈[0,1]であり、たとえば、β=0.6、0.7、または0.8である。
第2の態様によれば、本出願は、ステレオオーディオ信号遅延推定方法を提供する。この方法は、オーディオコーディング装置に適用され得る。このオーディオコーディング装置は、ステレオおよびマルチチャネルオーディオおよび映像通信システム内のオーディオコーディング部分に適用されてもよいし、VRアプリケーションプログラム内のオーディオコーディング部分に適用されてもよい。方法は、現在のフレームは、第1のチャネルオーディオ信号と、第2のチャネルオーディオ信号とを含み、第1のチャネルオーディオ信号および第2のチャネルオーディオ信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することと、あらかじめ設定された重み関数に基づいて周波数領域クロスパワースペクトルを重み付けすることと、重み付けされた周波数領域クロスパワースペクトルに基づいて第1のチャネル周波数領域信号と第2のチャネル周波数領域信号との間のチャネル間時間差の推定値を取得することとを含んでよい。
あらかじめ設定された重み関数は第1の重み関数または第2の重み関数を含み、第1の重み関数の構造因子は第2の重み関数のそれとは異なる。
任意選択で、第1の重み関数の構造因子は、第1のチャネル周波数領域信号に対応するウィナー利得係数と、第2のチャネル周波数領域信号に対応するウィナー利得と、振幅重み付けパラメータと、現在のフレームの2乗コヒーレンス値とを含む。第2の重み関数の構造因子は、振幅重み付けパラメータと、現在のフレームの2乗コヒーレンス値とを含む。
いくつかの可能な実装では、第1のチャネルオーディオ信号は第1のチャネル時間領域信号であり、第2のチャネルオーディオ信号は第2のチャネル時間領域信号である。第1のチャネルオーディオ信号および第2のチャネルオーディオ信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することは、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号を取得するために、第1のチャネル時間領域信号および第2のチャネル時間領域信号に対して時間-周波数変換を行うことと、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することとを含む。
いくつかの可能な実装では、第1のチャネルオーディオ信号は第1のチャネル周波数領域信号であり、第2のチャネルオーディオ信号は第2のチャネル周波数領域信号である。
いくつかの可能な実装では、第1の重み関数Φnew_1(k)は、以下の式
を満たす。
βは振幅重み付けパラメータであり、Wx1(k)は第1のチャネル周波数領域信号に対応するウィナー利得係数であり、Wx2(k)は第2のチャネル周波数領域信号に対応するウィナー利得係数であり、Γ2(k)は現在のフレームの第kの周波数ビンの2乗コヒーレンス値であり、
であり、X1(k)は第1のチャネル周波数領域信号であり、X2(k)は第2のチャネル周波数領域信号であり、
はX2(k)の共役関数であり、kは周波数ビンインデックス値であり、k=0,1,...,NDFT-1であり、NDFTは時間-周波数変換後の現在のフレームの周波数ビンの総量である。
いくつかの可能な実装では、第1の重み関数Φnew_1(k)は、以下の式
を満たす。
βは振幅重み付けパラメータであり、Wx1(k)は第1のチャネル周波数領域信号に対応するウィナー利得係数であり、Wx2(k)は第2のチャネル周波数領域信号に対応するウィナー利得係数であり、Γ2(k)は現在のフレームの第kの周波数ビンの2乗コヒーレンス値であり、
であり、X1(k)は第1のチャネル周波数領域信号であり、X2(k)は第2のチャネル周波数領域信号であり、
はX2(k)の共役関数であり、kは周波数ビンインデックス値であり、k=0,1,...,NDFT-1であり、NDFTは時間-周波数変換後の現在のフレームの周波数ビンの総量である。
任意選択で、β∈[0,1]であり、たとえば、β=0.6、0.7、または0.8である。
いくつかの可能な実装では、第1のチャネル周波数領域信号に対応するウィナー利得係数は、第1のチャネル周波数領域信号の第1の初期ウィナー利得係数および/または第1の改善されたウィナー利得係数であってよい。第2のチャネル周波数領域信号に対応するウィナー利得係数は、第2のチャネル周波数領域信号の第2の初期ウィナー利得係数および/または第2の改善されたウィナー利得係数であってよい。
たとえば、第1のチャネル周波数領域信号に対応するウィナー利得係数は第1のチャネル周波数領域信号の第1の初期ウィナー利得係数であり、第2のチャネル周波数領域信号に対応するウィナー利得係数は第2のチャネル周波数領域信号の第2の初期ウィナー利得係数である。ステレオオーディオ信号の現在のフレームが取得された後、方法は、第1のチャネル周波数領域信号に基づいて第1のチャネルノイズパワースペクトルの推定値を取得し、第1のチャネルノイズパワースペクトルの推定値に基づいて第1の初期ウィナー利得係数を決定することと、第2のチャネル周波数領域信号に基づいて第2のチャネルノイズパワースペクトルの推定値を取得することと、第2のチャネルノイズパワースペクトルの推定値に基づいて第2の初期ウィナー利得係数を決定することとをさらに含む。
いくつかの可能な実装では、第1の初期ウィナー利得係数
は、以下の式
を満たす。
第2の初期ウィナー利得係数
は、以下の式
を満たす。
は第1のチャネルノイズパワースペクトルの推定値であり、
は第2のチャネルノイズパワースペクトルの推定値であり、X1(k)は第1のチャネル周波数領域信号であり、X2(k)は第2のチャネル周波数領域信号であり、kは周波数ビンインデックス値であり、k=0,1,...,NDFT-1であり、NDFTは時間-周波数変換後の現在のフレームの周波数ビンの総量である。
別の例では、第1のチャネル周波数領域信号に対応するウィナー利得係数は第1のチャネル周波数領域信号の第1の改善されたウィナー利得係数であり、第2のチャネル周波数領域信号に対応するウィナー利得係数は第2のチャネル周波数領域信号の第2の改善されたウィナー利得係数である。ステレオオーディオ信号の現在のフレームが取得された後、方法は、第1の初期ウィナー利得係数および第2の初期ウィナー利得係数を取得することと、第1の改善されたウィナー利得係数を取得するために、第1の初期ウィナー利得係数のためのバイナリマスキング関数を構築することと、第2の改善されたウィナー利得係数を取得するために、第2の初期ウィナー利得係数のためのバイナリマスキング関数を構築することとをさらに含む。
いくつかの可能な実装では、第1の改善されたウィナー利得係数
は、以下の式
を満たす。
第2の改善されたウィナー利得係数
は、以下の式
を満たす。
μ0はウィナー利得係数のバイナリマスキングしきい値であり、
は第1のウィナー利得係数であり、
は第2のウィナー利得係数である。
任意選択で、μ0∈[0.5,0.8]、たとえば、μ0=0.5、0.66、0.75、または0.8である。
いくつかの可能な実装では、第2の重み関数Φnew_2(k)は、以下の式
を満たす。
βは振幅重み付けパラメータであり、Γ2(k)は現在のフレームの第kの周波数ビンの2乗コヒーレンス値であり、
であり、X1(k)は第1のチャネル周波数領域信号であり、X2(k)は第2のチャネル周波数領域信号であり、
はX2(k)の共役関数であり、kは周波数ビンインデックス値であり、k=0,1,...,NDFT-1であり、NDFTは時間-周波数変換後の現在のフレームの周波数ビンの総量である。
任意選択で、β∈[0,1]であり、たとえば、β=0.6、0.7、または0.8である。
第3の態様によれば、本出願は、ステレオオーディオ信号遅延推定装置を提供する。この装置は、オーディオコーディング装置内のチップまたはシステムオンチップであってもよいし、オーディオコーディング装置内にあり、第1の態様または第1の態様の可能な実装のいずれか1つによる方法を実施するように構成された機能モジュールであってもよい。たとえば、ステレオオーディオ信号遅延推定装置は、ステレオオーディオ信号の現在のフレームを取得するように構成された第1の取得モジュールであって、現在のフレームは、第1のチャネルオーディオ信号と、第2のチャネルオーディオ信号とを含む、第1の取得モジュールと、現在のフレームに含まれるノイズ信号の信号タイプがコヒーレントノイズ信号タイプである場合、第1のアルゴリズムを使用することによって第1のチャネルオーディオ信号と第2のチャネルオーディオ信号との間のチャネル間時間差を推定すること、または現在のフレームに含まれるノイズ信号の信号タイプが拡散ノイズ信号タイプである場合、第2のアルゴリズムを使用することによって第1のチャネルオーディオ信号と第2のチャネルオーディオ信号との間のチャネル間時間差を推定することを行うように構成された第1のチャネル間時間差推定モジュールとを含む。第1のアルゴリズムは、第1の重み関数に基づいて現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、第2のアルゴリズムは、第2の重み関数に基づいて現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、第1の重み関数の構造因子は第2の重み関数のそれとは異なる。
いくつかの可能な実装では、装置は、第1の取得モジュールが現在のフレームを取得した後に現在のフレームのノイズコヒーレンス値を取得することと、ノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも大きいかこれに等しい場合、現在のフレームに含まれるノイズ信号の信号タイプはコヒーレントノイズ信号タイプであると決定すること、またはノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも小さい場合、現在のフレームに含まれるノイズ信号の信号タイプは拡散ノイズ信号タイプであると決定することとを行うように構成されたノイズコヒーレンス値計算モジュールをさらに含む。
いくつかの可能な実装では、装置は、現在のフレームに対して発話終了点検出を行うように構成された発話終了点検出モジュールをさらに含む。ノイズコヒーレンス値計算モジュールは、検出結果が、現在のフレームの信号タイプはノイズ信号タイプであることを示す場合、現在のフレームのノイズコヒーレンス値を計算すること、または検出結果が、現在のフレームの信号タイプは発話信号タイプであることを示す場合、ステレオオーディオ信号の現在のフレームの以前のフレームのノイズコヒーレンス値を現在のフレームのノイズコヒーレンス値と決定することを行うように特に構成される。
本出願では、発話終了点検出モジュールは、時間領域、周波数領域、または時間領域と周波数領域の組み合わせにおいて、発話終了点検出値を計算してよい。これは、本明細書では具体的に限定されない。
いくつかの可能な実装では、第1のチャネルオーディオ信号は第1のチャネル時間領域信号であり、第2のチャネルオーディオ信号は第2のチャネル時間領域信号である。第1のチャネル間時間差推定モジュールは、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号を取得するために、第1のチャネル時間領域信号および第2のチャネル時間領域信号に対して時間-周波数変換を行い、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算し、第1の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けし、重み付けされた周波数領域クロスパワースペクトルに基づいてチャネル間時間差の推定値を取得するように構成される。第1の重み関数の構造因子は、第1のチャネル周波数領域信号に対応するウィナー利得係数と、第2のチャネル周波数領域信号に対応するウィナー利得係数と、振幅重み付けパラメータと、現在のフレームの2乗コヒーレンス値とを含む。
いくつかの可能な実装では、第1のチャネルオーディオ信号は第1のチャネル周波数領域信号であり、第2のチャネルオーディオ信号は第2のチャネル周波数領域信号である。第1のチャネル間時間差推定モジュールは、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算し、第1の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けし、重み付けされた周波数領域クロスパワースペクトルに基づいてチャネル間時間差の推定値を取得するように構成される。第1の重み関数の構造因子は、第1のチャネル周波数領域信号に対応するウィナー利得係数と、第2のチャネル周波数領域信号に対応するウィナー利得係数と、振幅重み付けパラメータと、現在のフレームの2乗コヒーレンス値とを含む。
いくつかの可能な実装では、第1の重み関数Φnew_1(k)は、以下の式
を満たす。
βは振幅重み付けパラメータであり、β∈[0,1]であり、Wx1(k)は第1のチャネル周波数領域信号に対応するウィナー利得係数であり、Wx2(k)は第2のチャネル周波数領域信号に対応するウィナー利得係数であり、X1(k)は第1のチャネル周波数領域信号であり、X2(k)は第2のチャネル周波数領域信号であり、
はX2(k)の共役関数であり、Γ2(k)は現在のフレームの第kの周波数ビンの2乗コヒーレンス値であり、
であり、kは周波数ビンインデックス値であり、k=0,1,...,NDFT-1であり、NDFTは時間-周波数変換後の現在のフレームの周波数ビンの総量である。
いくつかの可能な実装では、第1の重み関数Φnew_1(k)は、以下の式
を満たす。
βは振幅重み付けパラメータであり、β∈[0,1]であり、Wx1(k)は第1のチャネル周波数領域信号に対応するウィナー利得係数であり、Wx2(k)は第2のチャネル周波数領域信号に対応するウィナー利得係数であり、X1(k)は第1のチャネル周波数領域信号であり、X2(k)は第2のチャネル周波数領域信号であり、
はX2(k)の共役関数であり、Γ2(k)は現在のフレームの第kの周波数ビンの2乗コヒーレンス値であり、
であり、kは周波数ビンインデックス値であり、k=0,1,...,NDFT-1であり、NDFTは時間-周波数変換後の現在のフレームの周波数ビンの総量である。
いくつかの可能な実装では、第1のチャネル周波数領域信号に対応するウィナー利得係数は第1のチャネル周波数領域信号の第1の初期ウィナー利得係数であり、第2のチャネル周波数領域信号に対応するウィナー利得係数は第2のチャネル周波数領域信号の第2の初期ウィナー利得係数である。第1のチャネル間時間差推定モジュールは、第1の取得モジュールが現在のフレームを取得した後に第1のチャネル周波数領域信号に基づいて第1のチャネルノイズパワースペクトルの推定値を取得し、第1のチャネルノイズパワースペクトルの推定値に基づいて第1の初期ウィナー利得係数を決定し、第2のチャネル周波数領域信号に基づいて第2のチャネルノイズパワースペクトルの推定値を取得し、第2のチャネルノイズパワースペクトルの推定値に基づいて第2の初期ウィナー利得係数を決定するように特に構成される。
いくつかの可能な実装では、第1の初期ウィナー利得係数
は、以下の式
を満たす。
第2の初期ウィナー利得係数
は、以下の式
を満たす。
は第1のチャネルノイズパワースペクトルの推定値であり、
は第2のチャネルノイズパワースペクトルの推定値であり、X1(k)は第1のチャネル周波数領域信号であり、X2(k)は第2のチャネル周波数領域信号であり、kは周波数ビンインデックス値であり、k=0,1,...,NDFT-1であり、NDFTは時間-周波数変換後の現在のフレームの周波数ビンの総量である。
いくつかの可能な実装では、第1のチャネル周波数領域信号に対応するウィナー利得係数は第1のチャネル周波数領域信号の第1の改善されたウィナー利得係数であり、第2のチャネル周波数領域信号に対応するウィナー利得係数は第2のチャネル周波数領域信号の第2の改善されたウィナー利得係数である。第1のチャネル間時間差推定モジュールは、第1の改善されたウィナー利得係数を取得するために、第1の取得モジュールが現在のフレームを取得した後に第1の初期ウィナー利得係数のためのバイナリマスキング関数を構築することと、第2の改善されたウィナー利得係数を取得するために、第2の初期ウィナー利得係数のためのバイナリマスキング関数を構築することとを行うように特に構成される。
いくつかの可能な実装では、第1の改善されたウィナー利得係数
は、以下の式
を満たす。
第2の改善されたウィナー利得係数
は、以下の式
を満たす。
μ0はウィナー利得係数のバイナリマスキングしきい値であり、
は第1の初期ウィナー利得係数であり、
は第2の初期ウィナー利得係数である。
いくつかの可能な実装では、第1のチャネルオーディオ信号は第1のチャネル時間領域信号であり、第2のチャネルオーディオ信号は第2のチャネル時間領域信号である。第1のチャネル間時間差推定モジュールは、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号を取得するために、第1のチャネル時間領域信号および第2のチャネル時間領域信号に対して時間-周波数変換を行うことと、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することと、チャネル間時間差の推定値を取得するために、第2の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けすることとを行うように特に構成される。第2の重み関数の構造因子は、振幅重み付けパラメータと、現在のフレームの2乗コヒーレンス値とを含む。
いくつかの可能な実装では、第1のチャネルオーディオ信号は第1のチャネル周波数領域信号であり、第2のチャネルオーディオ信号は第2のチャネル周波数領域信号である。第1のチャネル間時間差推定モジュールは、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算し、第2の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けし、重み付けされた周波数領域クロスパワースペクトルに基づいてチャネル間時間差の推定値を取得するように特に構成される。第2の重み関数の構造因子は、振幅重み付けパラメータと、現在のフレームの2乗コヒーレンス値とを含む。
いくつかの可能な実装では、第2の重み関数Φnew_2(k)は、以下の式
を満たす。
βは振幅重み付けパラメータであり、β∈[0,1]であり、X1(k)は第1のチャネル周波数領域信号であり、X2(k)は第2のチャネル周波数領域信号であり、
はX2(k)の共役関数であり、Γ2(k)は現在のフレームの第kの周波数ビンの2乗コヒーレンス値であり、
であり、kは周波数ビンインデックス値であり、k=0,1,...,NDFT-1であり、NDFTは時間-周波数変換後の現在のフレームの周波数ビンの総量である。
第4の態様によれば、本出願は、ステレオオーディオ信号遅延推定装置を提供する。この装置は、オーディオコーディング装置内のチップまたはシステムオンチップであってもよいし、オーディオコーディング装置内にあり、第2の態様または第2の態様の可能な実装のいずれか1つによる方法を実施するように構成された機能モジュールであってもよい。たとえば、ステレオオーディオ信号遅延推定装置は、ステレオオーディオ信号の現在のフレームを取得するように構成された第2の取得モジュールであって、現在のフレームは、第1のチャネルオーディオ信号と、第2のチャネルオーディオ信号とを含む、第2の取得モジュールと、第1のチャネルオーディオ信号および第2のチャネルオーディオ信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算し、あらかじめ設定された重み関数に基づいて周波数領域クロスパワースペクトルを重み付けし、重み付けされた周波数領域クロスパワースペクトルに基づいて第1のチャネル周波数領域信号と第2のチャネル周波数領域信号との間のチャネル間時間差の推定値を取得するように構成された第2のチャネル間時間差推定モジュールとを含む。あらかじめ設定された重み関数は第1の重み関数または第2の重み関数であり、第1の重み関数の構造因子は第2の重み関数のそれとは異なる。第1の重み関数の構造因子は、第1のチャネル周波数領域信号に対応するウィナー利得係数と、第2のチャネル周波数領域信号に対応するウィナー利得と、振幅重み付けパラメータと、現在のフレームの2乗コヒーレンス値とを含む。第2の重み関数の構造因子は、振幅重み付けパラメータと、現在のフレームの2乗コヒーレンス値とを含む。
いくつかの可能な実装では、第1のチャネルオーディオ信号は第1のチャネル時間領域信号であり、第2のチャネルオーディオ信号は第2のチャネル時間領域信号である。第2のチャネル間時間差推定モジュールは、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号を取得するために、第1のチャネル時間領域信号および第2のチャネル時間領域信号に対して時間-周波数変換を行うことと、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することとを行うように構成される。
いくつかの可能な実装では、第1のチャネルオーディオ信号は第1のチャネル周波数領域信号であり、第2のチャネルオーディオ信号は第2のチャネル周波数領域信号である。
いくつかの可能な実装では、第1の重み関数Φnew_1(k)は、以下の式
を満たす。
βは振幅重み付けパラメータであり、β∈[0,1]であり、Wx1(k)は第1のチャネル周波数領域信号に対応するウィナー利得係数であり、Wx2(k)は第2のチャネル周波数領域信号に対応するウィナー利得係数であり、X1(k)は第1のチャネル周波数領域信号であり、X2(k)は第2のチャネル周波数領域信号であり、
はX2(k)の共役関数であり、Γ2(k)は現在のフレームの第kの周波数ビンの2乗コヒーレンス値であり、
であり、kは周波数ビンインデックス値であり、k=0,1,...,NDFT-1であり、NDFTは時間-周波数変換後の現在のフレームの周波数ビンの総量である。
いくつかの可能な実装では、第1の重み関数Φnew_1(k)は、以下の式
を満たす。
βは振幅重み付けパラメータであり、β∈[0,1]であり、Wx1(k)は第1のチャネル周波数領域信号に対応するウィナー利得係数であり、Wx2(k)は第2のチャネル周波数領域信号に対応するウィナー利得係数であり、X1(k)は第1のチャネル周波数領域信号であり、X2(k)は第2のチャネル周波数領域信号であり、
はX2(k)の共役関数であり、Γ2(k)は現在のフレームの第kの周波数ビンの2乗コヒーレンス値であり、
であり、kは周波数ビンインデックス値であり、k=0,1,...,NDFT-1であり、NDFTは時間-周波数変換後の現在のフレームの周波数ビンの総量である。
いくつかの可能な実装では、第1のチャネル周波数領域信号に対応するウィナー利得係数は第1のチャネル周波数領域信号の第1の初期ウィナー利得係数であり、第2のチャネル周波数領域信号に対応するウィナー利得係数は第2のチャネル周波数領域信号の第2の初期ウィナー利得係数である。第2のチャネル間時間差推定モジュールは、第2の取得モジュールが現在のフレームを取得した後に第1のチャネル周波数領域信号に基づいて第1のチャネルノイズパワースペクトルの推定値を取得し、第1のチャネルノイズパワースペクトルの推定値に基づいて第1の初期ウィナー利得係数を決定し、第2のチャネル周波数領域信号に基づいて第2のチャネルノイズパワースペクトルの推定値を取得し、第2のチャネルノイズパワースペクトルの推定値に基づいて第2の初期ウィナー利得係数を決定するように特に構成される。
いくつかの可能な実装では、第1の初期ウィナー利得係数
は、以下の式
を満たす。
第2の初期ウィナー利得係数
は、以下の式
を満たす。
は第1のチャネルノイズパワースペクトルの推定値であり、
は第2のチャネルノイズパワースペクトルの推定値であり、X1(k)は第1のチャネル周波数領域信号であり、X2(k)は第2のチャネル周波数領域信号であり、kは周波数ビンインデックス値であり、k=0,1,...,NDFT-1であり、NDFTは時間-周波数変換後の現在のフレームの周波数ビンの総量である。
いくつかの可能な実装では、第1のチャネル周波数領域信号に対応するウィナー利得係数は第1のチャネル周波数領域信号の第1の改善されたウィナー利得係数であり、第2のチャネル周波数領域信号に対応するウィナー利得係数は第2のチャネル周波数領域信号の第2の改善されたウィナー利得係数である。第2のチャネル間時間差推定モジュールは、第2の取得モジュールが現在のフレームを取得した後で第1の初期ウィナー利得係数および第2の初期ウィナー利得係数を取得することと、第1の改善されたウィナー利得係数を取得するために、第1の初期ウィナー利得係数のためのバイナリマスキング関数を構築することと、第2の改善されたウィナー利得係数を取得するために、第2の初期ウィナー利得係数のためのバイナリマスキング関数を構築することとを行うように特に構成される。
いくつかの可能な実装では、第1の改善されたウィナー利得係数
は、以下の式
を満たす。
第2の改善されたウィナー利得係数
は、以下の式
を満たす。
μ0はウィナー利得係数のバイナリマスキングしきい値であり、
は第1の初期ウィナー利得係数であり、
は第2の初期ウィナー利得係数である。
いくつかの可能な実装では、第2の重み関数Φnew_2(k)は、以下の式
を満たし、
β∈[0,1]であり、X1(k)は第1のチャネル周波数領域信号であり、X2(k)は第2のチャネル周波数領域信号であり、
β∈[0,1]であり、X1(k)は第1のチャネル周波数領域信号であり、X2(k)は第2のチャネル周波数領域信号であり、
はX2(k)の共役関数であり、Γ2(k)は現在のフレームの第kの周波数ビンの2乗コヒーレンス値であり、
であり、kは周波数ビンインデックス値であり、k=0,1,...,NDFT-1であり、NDFTは時間-周波数変換後の現在のフレームの周波数ビンの総量である。
第5の態様によれば、本出願は、互いに結合された不揮発性メモリとプロセッサとを含むオーディオコーディング装置を提供する。プロセッサは、第1の態様、第2の態様、ならびに第1の態様および第2の態様の可能な実装のいずれか1つによるステレオオーディオ信号遅延推定方法を行うために、メモリに記憶されたプログラムコードを呼び出す。
第6の態様によれば、本出願は、コンピュータ可読記憶媒体を提供する。コンピュータ可読記憶媒体は命令を記憶し、命令がコンピュータ上で稼働するとき、第1の態様、第2の態様、ならびに第1の態様および第2の態様の可能な実装のいずれか1つによるステレオオーディオ信号遅延推定方法が行われる。
第7の態様によれば、本出願は、符号化されたビットストリームを含むコンピュータ可読記憶媒体を提供する。符号化されたビットストリームは、第1の態様、第2の態様、ならびに第1の態様および第2の態様の可能な実装のいずれか1つにおけるステレオオーディオ信号遅延推定方法により取得されるステレオオーディオ信号のチャネル間時間差を含む。
第8の態様によれば、本出願は、コンピュータプログラムまたはコンピュータプログラム製品を提供する。コンピュータプログラムまたはコンピュータプログラム製品がコンピュータ上で実行されるとき、コンピュータは、第1の態様、第2の態様、ならびに第1の態様および第2の態様の可能な実装のいずれか1つによるステレオオーディオ信号遅延推定方法を実施することが可能にされる。
本出願の第4の態様から第10の態様における技術的解決策は、本出願の第1の態様から第2の態様における技術的解決策と矛盾しないことが、理解されるべきである。これらの態様および対応する実現可能な実装によって達成される有益な効果は、類似している。詳細は、再び説明されない。
以下は、実施形態または本出願の背景技術について説明するために必要とされる添付の図面について説明する。
以下は、本出願の実施形態における添付の図面を参照しながら、本出願の実施形態について説明する。以下の説明では、本出願の一部を形成し、例示的な様式で本出願の実施形態の特定の態様を示す、または本出願の実施形態の特定の態様が使用されることがある、添付の図面に対して、参照がなされる。本出願の実施形態は、他の態様で使用されてよく、添付の図面に示されていない構造的または論理的な変更を含んでよいことが理解されるべきである。たとえば、説明される方法を参照する本開示は、方法を行うための対応するデバイスまたはシステムに適用されてもよく、その逆も同様であることが理解されるべきである。たとえば、1つまたは複数の特定の方法ステップが説明される場合、説明された1つまたは複数の方法ステップを行うための機能ユニットなどの、1つまたは複数のユニット(たとえば、1つのユニットが1つもしくは複数のステップを行う、またはその各々が複数のステップのうちの1つもしくは複数を行う複数のユニット)が、添付の図面において明示的に説明または図示されていない場合ですら、対応するデバイスは、そのような1つまたは複数のユニットを含んでよい。さらに、たとえば、特定の装置が、機能ユニットなどの1つまたは複数のユニットに基づいて説明される場合、対応する方法は、1つまたは複数のユニットの機能を実施するための1つのステップ(たとえば、1つもしくは複数のユニットの機能を実施するための1つのステップ、またはその各々が複数のユニット中の1つもしくは複数のユニットの機能を実施するためのものである複数のステップ)が添付の図面において明示的に説明または図示されていない場合ですら、そのようなステップのうちの1つまたは複数を含んでよい。さらに、別段に規定されていない限り、本明細書で説明されるさまざまな例示的実施形態および/または態様の特徴は互いと組み合わされてよいことが理解されるべきである。
音声およびオーディオ通信システムでは、単一チャネルオーディオは、人々の要求を満たすことがますますできなくなっている。一方、ステレオオーディオは、各音源の定位情報を搬送する。これは、オーディオの明瞭度および了解度を改善し、オーディオの臨場感を改善する。したがって、ステレオオーディオは、人々の間でますます普及している。
音声およびオーディオ通信システムでは、オーディオ符号化および復号化技術は、非常に重要な技術である。技術は、オーディオ信号送信および記憶を容易にするために、聴覚モデルに基づいたものであり、最小エネルギーを使用して歪みを感知し、可能な限り最も低いコーディングレートでオーディオ信号を表す。高品質オーディオの要求を満たすために、一連のステレオ符号化および復号化技術が開発される。
最も一般に使用されるステレオ符号化および復号化技術は、パラメトリックステレオ符号化および復号化技術である。この技術の理論的根拠は、空間聴取原理である。具体的には、オーディオ符号化プロセスでは、生のステレオオーディオ信号が単一チャネル信号および表現のためのいくつかの空間パラメータに変換される、または生のステレオオーディオ信号が、単一チャネル信号、残留信号、および表現のためのいくつかの空間パラメータに変換される。オーディオ復号化プロセスでは、ステレオオーディオ信号は、復号された単一チャネル信号および空間パラメータを使用することによって再構築される、またはステレオオーディオ信号は、復号された単一チャネル信号、残留信号、および空間パラメータを使用することによって再構築される。
図1は、本出願の一実施形態による、周波数領域内のパラメトリックステレオ符号化および復号化方法の概略フローチャートである。図1に示されるように、プロセスは、以下のステップを含んでよい。
S101:エンコーダ側は、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号を取得するために、ステレオオーディオ信号の現在のフレームの第1のチャネルオーディオ信号および第2のチャネルオーディオ信号に対して時間-周波数変換(たとえば、離散フーリエ変換(discrete fourier transform,DFT))を行う。
最初に、エンコーダ側へのステレオオーディオ信号入力は、2つのオーディオ信号、すなわち、第1のチャネルオーディオ信号および第2のチャネルオーディオ信号(たとえば、左チャネルオーディオ信号および右チャネルオーディオ信号)を含んでよいことが留意されるべきである。ステレオオーディオ信号に含まれる2つのオーディオ信号は、マルチチャネルオーディオ信号中の2つのオーディオ信号またはマルチチャネルオーディオ信号中の複数のオーディオ信号を統合することによって生成される2つのオーディオ信号であってもまたよい。これは、本明細書では具体的に限定されない。
ここでは、ステレオオーディオ信号を符号化するとき、エンコーダ側は、複数のオーディオフレームを取得するためにフレーミング処理を行い、フレームごとにオーディオフレームを処理する。
S102:エンコーダ側は、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号のために、空間パラメータ、ダウンミックスされた信号、および残留信号を抽出する。
空間パラメータは、を含んでよいチャネル間コヒーレンス(inter-channel coherence,IC)、チャネル間レベル差(inter-channel level difference,ILD)、チャネル間時間差(inter-channel time difference,ITD)、チャネル間位相差(inter-channel phase difference,IPD)などを含んでよい。
S103:エンコーダ側は、空間パラメータ、ダウンミックスされた信号、および残留信号を別々に符号化する。
S104:エンコーダ側は、符号化された空間パラメータ、ダウンミックスされた信号、および残留信号に基づいて、周波数領域パラメトリックステレオビットストリームを生成する。
S105:エンコーダ側は、周波数領域パラメトリックステレオビットストリームをデコーダ側に送る。
S106:デコーダ側は、対応する空間パラメータ、ダウンミックスされた信号、および残留信号を取得するために、受信された周波数領域パラメトリックステレオビットストリームを復号する。
S107:デコーダ側は、アップミックスされた信号を取得するために、ダウンミックスされた信号および残留信号に対して周波数領域アップミキシングを行う。
S108:デコーダ側は、周波数領域オーディオ信号を取得するために、アップミックスされた信号と空間パラメータを合成する。
S109:デコーダ側は、現在のフレームの第1のチャネルオーディオ信号および第2のチャネルオーディオ信号を取得するために、空間パラメータに基づいて周波数領域オーディオ信号に対して逆時間-周波数変換(たとえば、離散逆フーリエ変換(inverse discrete fourier transform,IDFT))を行う。
さらに、エンコーダ側は、ステレオオーディオ信号中の各オーディオフレームに対して第1のステップから第5のステップを行い、デコーダ側は、各フレームに対して第6のステップから第9のステップを行う。このようにして、デコーダ側は、複数のオーディオフレームの第1のチャネルオーディオ信号および第2のチャネルオーディオ信号を取得し、ステレオオーディオ信号の第1のチャネルオーディオ信号および第2のチャネルオーディオ信号をさらに取得してよい。
前述のパラメトリックステレオ符号化および復号化プロセスでは、空間パラメータ内のILDおよびITDは、音源の定位情報を含む。したがって、ILDおよびITDの正確な推定は、ステレオ音像および音場の再構築にとって重要である。
パラメトリックステレオ符号化技術では、最も一般に使用されるITD推定方法は、一般化された相互相関方法であってよく、これは、低い複雑さ、良好なリアルタイム性能、容易な実装などの利点を有し、ステレオオーディオ信号の他の前の情報に依存しない。図2は、本出願の一実施形態による一般化された相互相関アルゴリズムの概略フローチャートである。図2に示されるように、方法は、以下のステップを含んでよい。
S201:エンコーダ側は、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号を取得するために、ステレオオーディオ信号に対してDFTを行う。
S202:エンコーダ側は、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号に基づいて、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号の周波数領域クロスパワースペクトルおよび周波数領域重み関数を計算する。
S203:エンコーダ側は、周波数領域重み関数に基づいて周波数領域クロスパワースペクトルに対して重み付けすることを行う。
S204:エンコーダ側は、周波数領域相互相関関数を取得するために、重み付けされた周波数領域クロスパワースペクトルに対してIDFTを行う。
S205:エンコーダ側は、周波数領域相互相関関数に対してピーク検出を行う。
S206:エンコーダ側は、相互相関関数のピーク値に基づいて推定ITD値を決定する。
一般化された相互相関アルゴリズムでは、第2のステップにおける周波数領域重み関数は、以下の関数を使用してよい。
タイプ1:前述の第2のステップにおける周波数領域重み関数は、式(1)に示されてよい。
ΦPHAT(k)はPHAT重み関数であり、X1(k)は、第1のチャネルオーディオ信号x1(n)の周波数領域オーディオ信号、すなわち、第1のチャネル周波数領域信号であり、X2(k)は、第2のチャネルオーディオ信号x2(n)の周波数領域オーディオ信号、すなわち、第2のチャネル周波数領域信号であり、
は第1のチャネルおよび第2のチャネルのクロスパワースペクトルであり、kは周波数ビンインデックス値であり、k=0,1,...,NDFT-1であり、NDFTは時間-周波数変換後の現在のフレームの周波数ビンの総量である。
それに対応して、重み付けされた一般化された相互相関関数は、式(2)に示されてよい。
実際の適用例では、式(1)に示される周波数領域重み関数および式(2)に示される重み付けされた一般化された相互相関関数に基づいてITD推定を行うことは、一般化された相互相関位相変換(generalized cross correlation with phase transformation,GCC-PHAT)アルゴリズムと呼ばれることがある。ステレオオーディオ信号のエネルギーは、異なる周波数ビンの間で大きく変化し、低いエネルギーをもつ周波数ビンはノイズによって大きく影響され、高いエネルギーをもつ周波数ビンはノイズによってわずかに影響される。GCC-PHATアルゴリズムでは、クロスパワースペクトルがPHAT重み関数に基づいて重み付けされた後、一般化された相互相関関数における周波数ビンの重み付けされた値の重みは同じである。その結果、GCC-PHATアルゴリズムは、ノイズ信号に対する感度が非常に高く、中程度および高い信号対ノイズ比の場合ですら、GCC-PHATアルゴリズムの性能も大きく劣化する。さらに、空間内に1つまたは複数のノイズ源があるとき、すなわち、競合する音源があるとき、コヒーレントノイズ信号がステレオオーディオ信号内に存在し、現在のフレーム内のターゲット信号(たとえば、発話信号)に対応するピーク値は弱められる。したがって、いくつかの場合では、たとえば、コヒーレントノイズ信号のエネルギーはターゲット信号のエネルギーよりも大きい、またはノイズ源はマイクロホンにより近く、コヒーレントノイズ信号のピーク値は、ターゲット信号に対応するピーク値よりも大きい。この場合、ステレオオーディオ信号の推定ITD値は、ノイズ信号の推定ITD値である。すなわち、コヒーレントノイズがある場合、ステレオオーディオ信号のITD推定精度は著しく減少され、ステレオオーディオ信号の推定ITD値は、ターゲット信号のITD値とノイズ信号のITD値との間で連続的に切り換えられ、符号化されたステレオオーディオ信号の音像安定性に影響する。
タイプ2:前述の第2のステップにおける周波数領域重み関数は、式(3)に示されてよい。
βは振幅重み付けパラメータであり、β∈[0,1]である。
それに対応して、重み付けされた一般化された相互相関関数は、式(4)にさらに示されてよい。
実際の適用例では、式(3)に示される周波数領域重み関数および式(4)に示される重み付けされた一般化された相互相関関数に基づいてITD推定を行うことは、GCC-PHAT-βアルゴリズムと呼ばれることがある。なぜなら、βの最適な値は、ノイズ信号タイプによって異なり、最適な値は大きく異なる。したがって、異なるノイズ信号タイプのためのGCC-PHAT-βアルゴリズムの性能は異なる。さらに、中程度および高い信号対ノイズ比の場合、GCC-PHAT-βアルゴリズムの性能がある程度まで改善されるが、パラメトリックステレオ符号化および復号化技術によって必要とされるITD推定精度は満たされることはできない。さらに、コヒーレントノイズがある場合、GCC-PHAT-βアルゴリズムの性能も著しく劣化する。
タイプ3:前述の第2のステップにおける周波数領域重み関数は、式(5)に示されてよい。
Γ2(k)は現在のフレームの第kの周波数ビンの2乗コヒーレンス値であり、
である。
それに対応して、重み付けされた一般化された相互相関関数は、式(6)にさらに示されてよい。
実際の適用例では、式(5)に示される周波数領域重み関数および式(6)に示される重み付けされた一般化された相互相関関数に基づいてITD推定を行うことは、GCC-PHAT-Cohアルゴリズムと呼ばれることがある。いくつかの条件下では、ステレオオーディオ信号中のコヒーレントノイズ内のたいていの周波数ビンの2乗コヒーレンス値は、現在のフレーム内のターゲット信号の2乗コヒーレンス値よりも大きい。その結果、GCC-PHAT-Cohアルゴリズムの性能は著しく劣化する。さらに、ステレオオーディオ信号のエネルギーは、異なる周波数ビン間で大きく変化し、GCC-PHAT-Cohアルゴリズムは、アルゴリズム性能に対する異なる周波数ビン間のエネルギー差の影響を考慮しない。その結果、ITD推定性能は、いくつかの条件では不良である。
前述の内容から、ノイズは、一般化された相互相関アルゴリズムの性能に対する重大な影響を有することが、知られ得る。したがって、ITD推定精度は著しく劣化し、音像不正確さ、不安定性、不良な空間感覚、および明らかな頭部内への影響などの問題が、パラメトリック符号化および復号化技術における復号されたステレオオーディオ信号で発生し、符号化されたステレオオーディオ信号の音質に著しく影響する。
前述の問題を解決するために、本出願の実施形態は、ステレオオーディオ信号遅延推定方法を提供する。この方法は、オーディオコーディング装置に適用され得る。このオーディオコーディング装置は、ステレオおよびマルチチャネルオーディオおよび映像通信システム内のオーディオコーディング部分に適用されてもよいし、仮想現実(virtual reality,VR)アプリケーションプログラム内のオーディオコーディング部分に適用されてもよい。
実際の適用例では、オーディオコーディング装置は、オーディオおよび映像通信システム内の端末内に配置されてよい。たとえば、端末は、音声またはデータ接続性をユーザに提供するデバイスであってよい。たとえば、端末は、代替として、ユーザ機器(user equipment,UE)、移動局(mobile station)、加入者ユニット(subscriber unit)、局(Station)、または端末機器(terminal equipment,TE)と呼ばれることがある。端末デバイスは、セルラー電話(cellular phone)、携帯情報端末(personal digital assistant,PDA)、ワイヤレスモデム(modem)、ハンドヘルド(handheld)デバイス、ラップトップコンピュータ(laptop computer)、コードレス電話(cordless phone)、ワイヤレスローカルループ(wireless local loop,WLL)局、パッド(pad)などであってよい。ワイヤレス通信技術の発展とともに、ワイヤレス通信システムにアクセスする、ワイヤレス通信システムのネットワーク側と通信する、またはワイヤレス通信システムを使用することによって別のデバイスと通信することができる任意のデバイスは、インテリジェント交通における端末および車両、スマート家庭における家庭用デバイス、スマートグリッドにおける電気メータ読み取り計器、電圧モニタリング計器、環境モニタリング計器、インテリジェントセキュリティネットワークにおける映像監視計器、またはキャッシュレジスタなどの、本出願の実施形態における端末デバイスであってよい。端末デバイスは、静止し、固定または移動式であってよい。
代替として、オーディオエンコーダは、VR機能を有するデバイス上にさらに配置されてよい。たとえば、デバイスは、VRアプリケーションをサポートする、スマートフォン、タブレットコンピュータ、スマートテレビ、ノートブックコンピュータ、パーソナルコンピュータ、ウェアラブルデバイス(VRグラス、VRヘルメット、またはVRハットなど)などであってもよいし、VR機能を有するデバイスと通信するクラウドサーバ上に配置されてもよい。確かに、オーディオコーディング装置は、ステレオオーディオ信号記憶および/または送信の機能を有する別のデバイス上に配置されてもまたよい。これは、本出願の本実施形態では具体的に限定されない。
本出願の本実施形態では、ステレオオーディオ信号は、生のステレオオーディオ信号(左チャネルオーディオ信号と右チャネルオーディオ信号とを含む)であってもよいし、マルチチャネルオーディオ信号中の2つのオーディオ信号によって形成されるステレオオーディオ信号であってもよいし、マルチチャネルオーディオ信号中の複数のオーディオ信号を統合することによって生成される2つのオーディオ信号によって形成されるステレオ信号であってもよい。確かに、ステレオオーディオ信号は、代替として、別の形式であってよい。これは、本出願の本実施形態では具体的に限定されない。以下の実施形態では、ステレオオーディオ信号が生のステレオオーディオ信号である例が、説明のために使用される。ステレオオーディオ信号は、時間領域内に左チャネル時間領域信号と右チャネル時間領域信号とを含んでよく、ステレオオーディオ信号は、周波数領域内に左チャネル周波数領域信号と右チャネル周波数領域信号とを含んでよい。以下の実施形態では、第1のチャネルオーディオ信号は、左チャネルオーディオ信号(時間領域または周波数領域内の)であってもよく、第1のチャネル時間領域信号は左チャネル時間領域信号であってもよく、第1のチャネル周波数領域信号は、左チャネル周波数領域信号であってもよい。同様に、第2のチャネルオーディオ信号は、右チャネルオーディオ信号(時間領域または周波数領域内の)であってもよく、第2のチャネル時間領域信号は右チャネル時間領域信号であってもよく、第2のチャネル周波数領域信号は、右チャネル周波数領域信号であってもよい。
任意選択で、オーディオコーディング装置は、具体的には、ステレオコーディング装置であってもよい。装置は、独立したステレオコーダを構成してもよいし、マルチチャネルオーディオ信号中の複数の信号を統合することによって生成された2つのオーディオ信号によって形成されたステレオオーディオ信号を符号化する、マルチチャネルコーダのコアコーディング部分であってもよい。
以下は、本出願の一実施形態において提供されるステレオオーディオ信号遅延推定方法について説明する。
最初に、本出願の本実施形態において提供される周波数領域重み関数が説明される。
本出願の本実施形態では、一般化された相互相関アルゴリズムの性能を改善するために、前述のいくつかのアルゴリズムにおける周波数領域重み関数(たとえば、前述の式(1)、(3)、および(5)に示される)が改善されてよく、改善された周波数領域重み関数は、限定するものではないが、以下のいくつかの関数であってよい。
第1の改善された周波数領域重み関数(すなわち、第1の重み関数)の構造因子は、左チャネルウィナー利得係数(すなわち、第1のチャネル周波数領域信号に対応するウィナー利得係数)と、右チャネルウィナー利得係数(すなわち、第2のチャネル周波数領域信号に対応するウィナー利得係数)と、現在のフレームの2乗コヒーレンス値とを含んでよい。
本明細書では、構造因子は、ターゲット関数を構築するために使用される1つまたは複数の因子を指す。ターゲット関数が、改善された周波数領域重み関数であるとき、構造因子は、改善された周波数領域重み関数を構築するために使用される1つまたは複数の関数であってよい。
実際の適用例では、第1の改善された周波数領域重み関数は、式(7)に示されてよい。
Φnew_1(k)は第1の改善された周波数領域重み関数であり、βは振幅重み付けパラメータであり、β∈[0,1]、たとえば、β=0.6、0.7、または0.8であり、Wx1(k)は左チャネルウィナー利得係数であり、Wx2(k)は右チャネルウィナー利得係数であり、Γ2(k)は現在のフレームの第kの周波数ビンの2乗コヒーレンス値であり、
である。
いくつかの可能な実施形態では、第1の改善された周波数領域重み関数は、式(8)にさらに示されてよい。
それに対応して、第1の改善された周波数領域重み関数を使用することに基づいて重み付けされた一般化された相互相関関数は、式(9)に示されてもまたよい。
いくつかの可能な実装では、左チャネルウィナー利得係数は、第1の初期ウィナー利得係数および/または第1の改善されたウィナー利得係数を含んでよく、右チャネルウィナー利得係数は、第2の初期ウィナー利得係数および/または第2の改善されたウィナー利得係数を含んでよい。
実際の適用例では、第1の初期ウィナー利得係数は、X1(k)に対してノイズパワースペクトル推定を行うことによって決定されてよい。具体的には、左チャネルウィナー利得係数が第1の初期ウィナー利得係数を含むとき、方法は、以下をさらに含んでよい。オーディオコーディング装置は、最初に、現在のフレームの左チャネル周波数領域信号X1(k)に基づいて現在のフレームの左チャネルノイズパワースペクトルの推定値を取得し、次いで、左チャネルノイズパワースペクトルの推定値に基づいて第1の初期ウィナー利得係数を決定してよい。同様に、第2の初期ウィナー利得係数も、X2(k)に対してノイズパワースペクトル推定を行うことによって決定されてよい。具体的には、右チャネルウィナー利得係数が第2の初期ウィナー利得係数を含むとき、オーディオコーディング装置は、最初に、現在のフレームの右チャネル周波数領域信号X2(k)に基づいて現在のフレームの右チャネルノイズパワースペクトルの推定値を取得し、右チャネルノイズパワースペクトルの推定値に基づいて第2の初期ウィナー利得係数を決定してよい。
現在のフレームのX1(k)およびX2(k)に対してノイズパワースペクトル推定を行う前述のプロセスでは、最小統計アルゴリズムまたは最小追跡アルゴリズムなどのアルゴリズムが計算に使用されてよい。確かに、X1(k)およびX2(k)のノイズパワースペクトルの推定値を計算するために別のアルゴリズムが使用されてよい。これは、本出願の本実施形態では特に限定されない。
たとえば、第1の初期ウィナー利得係数
は、式(10)に示されてよい。
第2の初期ウィナー利得係数
は、式(11)に示されてよい。
は左チャネルノイズパワースペクトルの推定値であり、
は右チャネルノイズパワースペクトルの推定値である。
いくつかの可能な実装では、第1の改善された周波数領域重み関数を構築するために第1の初期ウィナー利得係数および第2の初期ウィナー利得係数を左チャネルウィナー利得係数および右チャネルウィナー利得係数として直接的に使用することに加えて、対応するバイナリマスキング関数が、代替として、第1の改善されたウィナー利得係数および第2の改善されたウィナー利得係数を取得するために、第1の初期ウィナー利得係数および第2の初期ウィナー利得係数に基づいて構築されてよい。ノイズによってわずかに影響される周波数ビンは、第1の改善されたウィナー利得係数および第2の改善されたウィナー利得係数を使用することによって構築された第1の改善された周波数領域重み関数を使用することによってふるい落とされ、ステレオオーディオ信号のITD推定精度を改善することができる。
この場合、左チャネルウィナー利得係数が第1の改善されたウィナー利得係数を含むとき、方法は、以下をさらに含んでよい。第1の初期ウィナー利得係数を取得した後、オーディオコーディング装置は、第1の改善されたウィナー利得係数を取得するために、第1の初期ウィナー利得係数のためのバイナリマスキング関数を構築する。同様に、第2の初期ウィナー利得係数を取得した後、オーディオコーディング装置は、第2の改善されたウィナー利得係数を取得するために、第2の初期ウィナー利得係数のためのバイナリマスキング関数を構築する。
たとえば、第1の改善されたウィナー利得係数
は、式(12)に示されてよい。
第2の改善されたウィナー利得係数
は、式(13)に示されてよい。
μ0はウィナー利得係数のバイナリマスキングしきい値であり、μ0∈[0.5,0.8]、たとえば、μ0=0.5、0.66、0.75、または0.8である。
したがって、前述の内容から、左チャネルウィナー利得係数Wx1(k)が、
と
とを含んでよく、右チャネルウィナー利得係数Wx2(k)が、
と
とを含んでよいことが知られ得る。この場合、式(7)または(8)などの第1の改善された周波数領域重み関数を構築するプロセスでは、
および
が式(7)または(8)に代入されてもよいし、
および
が式(7)または(8)に代入されてもよい。
たとえば、
および
が式(7)に代入された後で取得される第1の改善された周波数領域重み関数は、式(14)に示されてよい。
および
が式(7)に代入された後で取得される第1の改善された周波数領域重み関数は、式(15)に示されてよい。
本出願の本実施形態では、第1の改善された周波数領域重み関数が、現在のフレームの周波数領域クロスパワースペクトルを重み付けするために使用される場合、ウィナー利得係数重み付けの後、ステレオオーディオ信号の周波数領域クロスパワースペクトル内のコヒーレントノイズ成分の重みが大きく減少され、残留ノイズ成分の相関も大きく減少される。たいていの場合、残留ノイズの2乗コヒーレンス値は、ステレオオーディオ信号中のターゲット信号の2乗コヒーレンス値よりもはるかに小さい。このようにして、ターゲット信号に対応する相互相関ピーク値はより突出し、ステレオオーディオ信号のITD推定精度および安定性は大きく改善される。
第2の改善された周波数領域重み関数(すなわち、第2の重み関数)の構造因子は、振幅重み付けパラメータβと、現在のフレームの2乗コヒーレンス値とを含んでよい。
実際の適用例では、第2の改善された周波数領域重み関数は、式(16)に示されてよい。
Φnew_2は第2の改善された周波数領域重み関数であり、β∈[0,1]、たとえば、β=0.6、0.7、または0.8である。
それに対応して、第2の改善された周波数領域重み関数を使用することに基づいて重み付けされた一般化された相互相関関数は、式(17)に示されてもまたよい。
本出願の本実施形態では、第2の改善された周波数領域重み関数を使用することによって現在のフレームの周波数領域クロスパワースペクトルを重み付けすることは、高いエネルギーをもつ周波数ビンおよび高い相関をもつ周波数ビンが大きい重みを有し、低いエネルギーをもつ周波数ビンまたは低い相関をもつ周波数ビンが小さい重みを有することを保証し、ステレオオーディオ信号のITD推定精度を改善することができる。
次に、本出願の一実施形態において提供されるステレオオーディオ信号遅延推定方法が説明される。この方法によれば、現在のフレームのITD値は、前述の改善された周波数領域重み関数に基づいて推定される。
図3は、本出願の一実施形態によるステレオオーディオ信号遅延推定方法の概略フローチャート1である。図3の実線を参照されたい。方法は、以下のステップを含んでよい。
S301:ステレオオーディオ信号の現在のフレームを取得する。
現在のフレームは、左チャネルオーディオ信号と、右チャネルオーディオ信号とを含む。
オーディオコーディング装置は、入力されたステレオオーディオ信号を取得する。ステレオオーディオ信号は、2つのオーディオ信号を含んでよく、この2つのオーディオ信号は、時間領域オーディオ信号または周波数領域オーディオ信号であってよい。
ある場合、ステレオオーディオ信号中の2つのオーディオ信号は、時間領域オーディオ信号、すなわち、左チャネル時間領域信号および右チャネル時間領域信号(すなわち、第1のチャネル時間領域信号および第2のチャネル時間領域信号)である。この場合、ステレオオーディオ信号は、マイクロホンまたは受信機などの音センサを使用することによって入力されてよい。図3の破線を参照されたい。S301の後、方法は、以下をさらに含んでよい。S302:左チャネル時間領域信号および右チャネル時間領域信号に対して時間-周波数変換を行う。ここでは、オーディオコーディング装置は、時間領域内の現在のフレームを取得するために、S301を経た時間領域オーディオ信号に対してフレーミング処理を行う。この場合、現在のフレームは、左チャネル時間領域信号と、右チャネル時間領域信号とを含んでよい。次いで、オーディオコーディング装置は、周波数領域内の現在のフレームを取得するために、時間領域内の現在のフレームに対して時間-周波数変換を行う。この場合、現在のフレームは、左チャネル周波数領域信号と右チャネル周波数領域信号と(すなわち、第1のチャネル周波数領域信号と第2のチャネル周波数領域信号と)を含んでよい。
別の場合、ステレオオーディオ信号中の2つのオーディオ信号は、周波数領域オーディオ信号、すなわち、左チャネル周波数領域信号および右チャネル周波数領域信号(すなわち、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号)である。この場合、ステレオオーディオ信号は、2つの周波数領域オーディオ信号である。したがって、オーディオコーディング装置は、周波数領域内の現在のフレームを取得するために、S301を経た周波数領域内のステレオオーディオ信号(すなわち、周波数領域オーディオ信号)に対してフレーミング処理を直接的に行ってよい。現在のフレームは、左チャネル周波数領域信号と右チャネル周波数領域信号と(すなわち、第1のチャネル周波数領域信号と第2のチャネル周波数領域信号と)を含んでよい。
その後の実施形態の説明では、ステレオオーディオ信号が時間領域オーディオ信号である場合、オーディオコーディング装置は、対応する周波数領域オーディオ信号を取得するためにステレオオーディオ信号に対して時間-周波数変換を行い、次いで、周波数領域内のステレオオーディオ信号を処理してよいことが留意されるべきである。ステレオオーディオ信号が周波数領域オーディオ信号である場合、オーディオコーディング装置は、周波数領域内のステレオオーディオ信号を直接的に処理してよい。
実際の適用例では、フレーミング処理が行われた後に取得される現在のフレーム内の左チャネル時間領域信号は、x1(n)と示されてよく、フレーミング処理が行われた後で取得される現在のフレーム内の右チャネル時間領域信号は、x2(n)と示されてよく、ここで、nはサンプリング点である。
いくつかの可能な実装では、S301の後、オーディオコーディング装置は、現在のフレームをさらに処理してよく、たとえば、前処理された左チャネル時間領域信号および前処理された右チャネル時間領域信号を取得するためにx1(n)およびx2(n)に対してハイパスフィルタリング処理を行ってよく、ここで、前処理された左チャネル時間領域信号は
と示され、前処理された右チャネル時間領域信号は
と示される。任意選択で、ハイパスフィルタリング処理は、20Hzの遮断周波数をもつ無限インパルス応答(infinite impulse response,IIR)フィルタであってもよいし、別のタイプのフィルタであってもよい。これは、本出願の本実施形態では具体的に限定されない。
任意選択で、オーディオコーディング装置は、X1(k)およびX2(k)を取得するためにx1(n)およびx2(n)に対して時間-周波数変換をさらに行ってよく、ここで、左チャネル周波数領域信号はX1(k)と示されてよく、右チャネル周波数領域信号はX2(k)と示されてよい。
ここでは、オーディオコーディング装置は、DFT、高速フーリエ変換(fast fourier transformation,FFT)、または変形離散コサイン変換(modified discrete cosine transform,MDCT)などの時間-周波数変換アルゴリズムを使用することによって、時間領域信号を周波数領域信号に変換してよい。確かに、オーディオコーディング装置は、別の時間-周波数変換アルゴリズムをさらに使用してよい。これは、本出願の本実施形態では具体的に限定されない。
時間-周波数変換は、DFTを使用することによって、左チャネル時間領域信号および右チャネル時間領域信号に対して行われると仮定される。具体的には、オーディオコーディング装置は、X1(k)を取得するために、x1(n)または
に対してDFTを行ってよい。同様に、オーディオコーディング装置は、X2(k)を取得するために、x2(n)または
に対してDFTを行ってよい。
さらに、スペクトルエイリアシングを克服するために、2つの隣接フレームのDFTは通常、重畳加算様式で行われ、時には、DFTのために入力信号にゼロがパディングされることがある。
S303:X1(k)およびX2(k)に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算する。
ここでは、現在のフレームの周波数領域クロスパワースペクトルは、式(18)に示されてよい。
は、X2(k)の共役関数である。
S304:あらかじめ設定された重み関数に基づいて周波数領域クロスパワースペクトルを重み付けする。
本明細書では、あらかじめ設定された重み関数は、前述の実施形態における前述の改善された周波数領域重み関数、すなわち、第1の改善された周波数領域重み関数Φnew_1または第2の改善された周波数領域重み関数Φnew_2を指すことがある。
S304は、オーディオコーディング装置が、改善された重み関数に周波数領域パワースペクトルを乗算すると理解されてよく、その場合、重み付けされた周波数領域クロスパワースペクトルは、Φnew_1(k)Cx1x2(k)またはΦnew_2(k)Cx1x2(k)と表されてよい。
本出願の本実施形態では、S305を行う前に、オーディオコーディング装置は、X1(k)およびX2(k)を使用することによって改善された周波数領域重み関数(すなわち、あらかじめ設定された重み関数)をさらに計算してよい。
S305:相互相関関数を取得するために、重み付けされた周波数領域クロスパワースペクトルに対して逆時間-周波数変換を行う。
オーディオコーディング装置は、相互相関関数を取得するために、S302で使用される時間-周波数変換アルゴリズムに対応する逆時間-周波数変換アルゴリズムを使用して、周波数領域クロスパワースペクトルを周波数領域から時間領域に変換してよい。
本明細書では、Φnew_1(k)Cx1x2(k)に対応する相互相関関数は、式(19)に示されてよい。
代替として、Φnew_2(k)Cx1x2(k)に対応する相互相関関数は、式(20)に示されてよい。
S306:相互相関関数に対してピーク検出を行う。
S306を通じて相互相関関数を取得した後、オーディオコーディング装置は、あらかじめ設定されたサンプリングレートおよび音センサ(すなわち、マイクロホン、受信機など)間の最大距離に基づいて、ITDの最大値Δmax(これは、ITD推定の時間範囲として理解されてもまたよい)を決定してよい。たとえば、Δmaxは、5msに対応するサンプリング点の数量に設定される。ステレオオーディオ信号のサンプリングレートが32kHzである場合、Δmax=160である、すなわち、左チャネルおよび右チャネルの遅延点の最大数量は、160個のサンプリング点である。次いで、オーディオコーディング装置は、∈[-Δmax,Δmax]の範囲n内のGx1x2(n)の最大ピーク値を探索し、ピークに対応するインデックス値は、現在のフレームの候補ITD値である。
S307:相互相関関数のピークに基づいて現在のフレームの推定ITD値を計算する。
オーディオコーディング装置は、遅延推定の異常値を除去するために、相互相関関数のピーク値に基づいて現在のフレームの候補ITD値を決定し、次いで、現在のフレームの候補ITD値、以前のフレーム(すなわち、履歴情報)のITD値、オーディオハングオーバ処理パラメータ、および以前のフレームと次のフレームとの間の相関などの副次的な情報に基づいて、現在のフレームの推定ITD値を決定する。
さらに、S307を通じて推定ITD値を決定した後、オーディオコーディング装置は、推定ITD値をコーディングして、ステレオオーディオ信号の符号化されたビットストリームに書き込んでよい。
本出願の本実施形態では、第1の改善された周波数領域重み関数が、現在のフレームの周波数領域クロスパワースペクトルを重み付けするために使用される場合、ウィナー利得係数重み付けの後、ステレオオーディオ信号の周波数領域クロスパワースペクトル内のコヒーレントノイズ成分の重みが大きく減少され、残留ノイズ成分の相関も大きく減少される。たいていの場合、残留ノイズの2乗コヒーレンス値は、ステレオオーディオ信号内のターゲット信号の2乗コヒーレンス値よりもはるかに小さい。このようにして、ターゲット信号に対応する相互相関ピーク値はより突出し、ステレオオーディオ信号のITD推定精度および安定性は大きく改善される。第2の改善された周波数領域重み関数を使用することによって現在のフレームの周波数領域クロスパワースペクトルを重み付けすることは、高いエネルギーをもつ周波数ビンおよび高い相関をもつ周波数ビンが大きい重みを有し、低いエネルギーをもつ周波数ビンまたは低い相関をもつ周波数ビンが小さい重みを有することを保証し、ステレオオーディオ信号のITD推定精度を改善することができる。
さらに、本出願の一実施形態において提供される別のステレオオーディオ信号遅延推定方法が説明される。前述の実施形態に基づいて、方法は、異なるアルゴリズムを使用して、ステレオオーディオ信号中の異なるタイプのノイズ信号のためのITD推定を行う。
図4は、本出願の一実施形態によるステレオオーディオ信号遅延推定方法の概略フローチャート2である。図4を参照されたい。方法は、以下のステップを含んでよい。
S401:ステレオオーディオ信号の現在のフレームを取得する。
本明細書では、S401の実装プロセスについては、S301の説明を参照されたい。これは、本明細書では特に限定されない。
S402:現在のフレームに含まれるノイズ信号の信号タイプを決定する。現在のフレームに含まれるノイズ信号の信号タイプがコヒーレントノイズ信号タイプである場合、S403を行う。現在のフレームに含まれるノイズ信号の信号タイプが拡散ノイズ信号タイプである場合、S404を行う。
騒々しい環境では、異なるノイズ信号タイプは、一般化された相互相関アルゴリズムに対して異なる影響を有する。したがって、一般化された相互相関アルゴリズムの性能を十分に活用し、ITD推定精度を改善するために、オーディオコーディング装置は、現在のフレームに含まれるノイズ信号の信号タイプを決定し、複数の周波数領域重み関数から、現在のフレームに適した周波数領域重み関数を決定してよい。
実際の適用例では、前述のコヒーレントノイズ信号タイプは、ある程度よりも高いステレオオーディオ信号の2つのオーディオ信号中のノイズ信号間の相関をもつノイズ信号のタイプを指す、すなわち、現在のフレームに含まれるノイズ信号は、コヒーレントノイズ信号と分類されることがある。前述の拡散ノイズ信号タイプは、ある程度よりも低いステレオオーディオ信号の2つのオーディオ信号中のノイズ信号間の相関をもつノイズ信号のタイプを指す、すなわち、現在のフレームに含まれるノイズ信号は、拡散ノイズ信号と分類されることがある。
いくつかの可能な実装では、現在のフレームは、コヒーレントノイズ信号と拡散ノイズ信号の両方を含むことがある。この場合、オーディオコーディング装置は、2つのタイプのノイズ信号中の主ノイズ信号の信号タイプを、現在のフレームに含まれるノイズ信号の信号タイプと決定する。
いくつかの可能な実装では、オーディオコーディング装置は、現在のフレームのノイズコヒーレンス値を計算することによって、現在のフレームに含まれるノイズ信号の信号タイプを決定してよい。この場合、S402は、現在のフレームのノイズコヒーレンス値を取得することを含んでよい。ノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも大きいかこれに等しい場合、それは、現在のフレームに含まれるノイズ信号が強い相関を有することを示し、オーディオコーディング装置は、現在のフレームに含まれるノイズ信号の信号タイプはコヒーレントノイズ信号タイプであると決定してよい。ノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも小さい場合、それは、現在のフレームに含まれるノイズ信号が弱い相関を有することを示し、オーディオコーディング装置は、現在のフレームに含まれるノイズ信号の信号タイプは拡散ノイズ信号タイプであると決定してよい。
本明細書では、ノイズコヒーレンス値のあらかじめ設定されたしきい値は、経験的値であり、ITD推定性能などの因子に基づいて設定されてよい。たとえば、あらかじめ設定されたしきい値は、0.20、0.25、または0.30に設定される。確かに、あらかじめ設定されたしきい値は、代替として、別の適切な値に設定されてよい。これは、本出願の本実施形態では具体的に限定されない。
実際の適用例では、現在のフレームのノイズコヒーレンス値を計算した後、オーディオコーディング装置は、ノイズコヒーレンス値を推定する際の誤差を減少させ、ノイズタイプ識別の正確さを改善するために、ノイズコヒーレンス値に対して平滑化処理をさらに行ってよい。
S403:第1のアルゴリズムを使用することによって、左チャネルオーディオ信号と右チャネルオーディオ信号との間のITD値を推定する。
本明細書では、第1のアルゴリズムは、第1の重み関数に基づいて現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含んでよく、重み付けされた相互相関関数に対してピーク検出を行うことと、重み付けされた相互相関関数のピーク値に基づいて現在のフレームのITD値を推定することとをさらに含んでよい。
S402を通じて、現在のフレームに含まれるノイズ信号の信号タイプがコヒーレントノイズ信号タイプであると決定した後、オーディオコーディング装置は、第1のアルゴリズムを使用して、現在のフレームのITD値を推定してよい。たとえば、オーディオコーディング装置は、現在のフレームの周波数領域クロスパワースペクトルを重み付けするために第1の重み関数を選択し、重み付けされた相互相関関数に対してピーク検出を行って、重み付けされた相互相関関数のピーク値に基づいて現在のフレームのITD値を推定する。
いくつかの可能な実施形態では、第1の重み関数は、前述の1つまたは複数の実施形態における周波数領域重み関数および/または改善された周波数領域重み関数、たとえば、式(3)に示される周波数領域重み関数、ならびに式(7)および(8)に示される改善された周波数領域重み関数において、コヒーレントノイズ条件下でより良い性能をもつ1つまたは複数の重み関数であってよい。
好ましくは、第1の重み関数は、前述の実施形態において説明された第1の改善された周波数領域重み関数、たとえば、式(7)および(8)に示される改善された周波数領域重み関数であってよい。
S404:第2のアルゴリズムを使用することによって、左チャネルオーディオ信号と右チャネルオーディオ信号との間のITD値を推定する。
本明細書では、第2のアルゴリズムは、第2の重み関数に基づいて現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含んでよく、重み付けされた相互相関関数に対してピーク検出を行うことと、重み付けされた相互相関関数のピーク値に基づいて現在のフレームのITD値を推定することとをさらに含んでよい。
それに対応して、S402を通じて、現在のフレームに含まれるノイズ信号の信号タイプが拡散ノイズ信号タイプであると決定した後、オーディオコーディング装置は、第2のアルゴリズムを使用して、現在のフレームのITD値を推定してよい。たとえば、オーディオコーディング装置は、現在のフレームの周波数領域クロスパワースペクトルを重み付けするために第2の重み関数を選択し、重み付けされた相互相関関数に対してピーク検出を行って、重み付けされた相互相関関数のピーク値に基づいて現在のフレームのITD値を推定する。
いくつかの可能な実施形態では、第2の重み関数は、前述の1つまたは複数の実施形態における周波数領域重み関数および/または改善された周波数領域重み関数、たとえば、式(5)に示される周波数領域重み関数、ならびに式(16)に示される改善された周波数領域重み関数において、拡散ノイズ条件下でより良い性能をもつ1つまたは複数の重み関数であってよい。
好ましくは、第2の重み関数は、前述の実施形態において説明された第2の改善された周波数領域重み関数、すなわち、式(16)に示される改善された周波数領域重み関数であってよい。
いくつかの可能な実装では、ステレオオーディオ信号は、発話信号とノイズ信号の両方を含むので、S401においてフレーミング処理を通じて取得される現在のフレームに含まれる信号タイプは、発話信号またはノイズ信号であり得る。したがって、処理を簡略化し、ITD推定精度をさらに改善するために、S402の前に、方法は、検出結果を取得するために、現在のフレームに対して発話終了点検出を行うことをさらに含んでよい。検出結果が、現在のフレームの信号タイプがノイズ信号タイプであることを示す場合、現在のフレームのノイズコヒーレンス値を計算する。検出結果が、現在のフレームの信号タイプが発話信号タイプであることを示す場合、ステレオオーディオ信号の現在のフレームの以前のフレームのノイズコヒーレンス値を現在のフレームのノイズコヒーレンス値と決定する。
現在のフレームを取得した後、オーディオコーディング装置は、現在のフレームの主信号が発話信号であるかノイズ信号であるかを区別するために、現在のフレームに対して発話終了点検出(音声アクティビティ検出、voice activity detection,VAD)を行ってよい。現在のフレームがノイズ信号を含むことが検出された場合、S402においてノイズコヒーレンス値を計算することは、現在のフレームのノイズコヒーレンス値を直接的に計算することを意味し得る。現在のフレームが発話信号を含むことが検出された場合、S402においてノイズコヒーレンス値を計算することは、履歴フレームのノイズコヒーレンス値、たとえば現在のフレームの以前のフレームの、ノイズコヒーレンス値を現在のフレームのノイズコヒーレンス値と決定することを意味し得る。本明細書では、現在のフレームの以前のフレームは、ノイズ信号または発話信号を含んでよい。以前のフレームが依然として発話信号を含む場合、履歴フレーム内の以前のノイズフレームのノイズコヒーレンス値は、現在のフレームのノイズコヒーレンス値と決定される。
特定の実装プロセスでは、オーディオコーディング装置は、複数の方法を使用してVADを行ってよい。VADの値が1であるとき、それは、現在のフレームの信号タイプが発話信号タイプであることを示す。VADの値が0であるとき、それは、現在のフレームの信号タイプがノイズ信号タイプであることを示す。
本出願の本実施形態では、オーディオコーディング装置は、時間領域、周波数領域、または時間領域と周波数領域の組み合わせにおいて、VADの値を計算してよいことが留意されるべきである。これは、本明細書では具体的に限定されない。
以下は、特定の例を使用することによって、図4に示されるステレオオーディオ信号遅延推定方法について説明する。
図5は、本出願の一実施形態によるステレオオーディオ信号遅延推定方法の概略フローチャート3である。方法は、以下のステップを含んでよい。
S501:現在のフレームのx1(n)およびx2(n)を取得するために、ステレオオーディオ信号に対してフレーミング処理を行う。
S502:現在のフレームのX1(k)およびX2(k)を取得するために、x1(n)およびx2(n)に対してDFTを行う。
S503:現在のフレームのx1(n)およびx2(n)またはX1(k)およびX2(k)に基づいて、現在のフレームのVAD値を計算する。VAD=1である場合、S504を行う。VAD=0である場合、S505を行う。
ここでは、図5の破線を参照されたい。S503は、S501の後で行われてもよいし、S502の後で行われてもよい。これは、本明細書では具体的に限定されない。
S504:X1(k)およびX2(k)に基づいて現在のフレームのノイズコヒーレンス値Γ(k)を計算する。
S505:以前のフレームのΓm-1(k)を現在のフレームのΓ(k)と決定する。
本明細書では、現在のフレームのΓ(k)は、Γm(k)、すなわち、第mのフレームのノイズコヒーレンス値と表されてもまたよく、ここで、mは正の整数である。
S506:現在のフレームのΓ(k)をあらかじめ設定されたしきい値Γthresと比較する。Γ(k)がΓthresよりも大きいかこれに等しい場合は、S507を行う。Γ(k)がΓthresよりも小さい場合は、S508を行う。
S507:Φnew_1(k)を使用することによって現在のフレームのCx1x2(k)を重み付けする。この場合、重み付けされた周波数領域クロスパワースペクトルは、Φnew_1(k)Cx1x2(k)と表され得る。
S508:ΦPHAT-Coh(k)を使用することによって現在のフレームのCx1x2(k)を重み付けする。この場合、重み付けされた周波数領域クロスパワースペクトルは、ΦPHAT-Coh(k)Cx1x2(k)と表され得る。
実際の適用例では、S506の後、S507を行うことを決定する前に、現在のフレームのCx1x2(k)およびΦnew_1(k)が、現在のフレームのX1(k)およびX2(k)を使用することによって計算されてよい。S508を行うことを決定する前に、現在のフレームのCx1x2(k)およびΦPHAT-Coh(k)が、現在のフレームのX1(k)およびX2(k)を使用することによって計算されてよい。
S509:相互相関関数Gx1x2(n)を取得するために、Φnew_1(k)Cx1x2(k)またはΦPHAT-Coh(k)Cx1x2(k)に対してIDFTを行う。
Gx1x2(n)は、式(6)または(9)に示されてよい。
S510:Gx1x2(n)に対してピーク検出を行う。
S511:Gx1x2(n)のピーク値に基づいて現在のフレームの推定ITD値を計算する。
このようにして、ステレオオーディオ信号のためのITD推定プロセスが完了する。
いくつかの可能な実装では、パラメトリックステレオ符号化および復号化技術に加えて、前述のITD推定方法は、音源定位、音声強調、および音声分離などの技術に適用されてもまたよい。
前述の内容から、本出願の本実施形態では、オーディオコーディング装置は、異なるタイプのノイズを含む現在のフレームに異なるITD推定アルゴリズムを使用し、拡散ノイズおよびコヒーレントノイズの場合のステレオオーディオ信号のITD推定精度および安定性を大きく改善し、ステレオダウンミックスされた信号間のフレーム間不連続性を減少し、ステレオ信号の位相をより良く維持することが、知られ得る。符号化されたステレオの音像は、より正確で安定しており、より強力な臨場感を有し、符号化されたステレオ信号の聴覚品質は改善される。
同じ本発明の概念に基づいて、本出願の一実施形態は、ステレオオーディオ信号遅延推定装置を提供する。この装置は、オーディオコーディング装置内のチップまたはシステムオンチップであってもよいし、オーディオコーディング装置内にあり、前述の実施形態における図4に示されるステレオオーディオ信号遅延推定方法および方法の任意の可能な実装を実施するように構成された機能モジュールであってもよい。たとえば、図6は、本出願の一実施形態によるオーディオ復号化装置の構造を示す概略図である。図6の実線によって示されるように、ステレオオーディオ信号遅延推定装置600は、ステレオオーディオ信号の現在のフレームを取得するように構成された取得モジュール601であって、現在のフレームは、第1のチャネルオーディオ信号と、第2のチャネルオーディオ信号とを含む、取得モジュール601と、現在のフレームに含まれるノイズ信号の信号タイプがコヒーレントノイズ信号タイプである場合、第1のアルゴリズムを使用することによって第1のチャネルオーディオ信号と第2のチャネルオーディオ信号との間のチャネル間時間差を推定する、または現在のフレームに含まれるノイズ信号の信号タイプが拡散ノイズ信号タイプである場合、第2のアルゴリズムを使用することによって第1のチャネルオーディオ信号と第2のチャネルオーディオ信号との間のチャネル間時間差を推定するように構成されたチャネル間時間差推定モジュール602とを含む。第1のアルゴリズムは、第1の重み関数に基づいて現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、第2のアルゴリズムは、第2の重み関数に基づいて現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、第1の重み関数の構造因子は第2の重み関数のそれとは異なる。
本出願の本実施形態では、取得モジュール601によって取得されるステレオ信号の現在のフレームは、周波数領域オーディオ信号または時間領域オーディオ信号であってよい。現在のフレームが周波数領域オーディオ信号である場合、取得モジュール601は現在のフレームをチャネル間時間差推定モジュール602に転送し、チャネル間時間差推定モジュール602は、周波数領域内の現在のフレームを直接的に処理してよい。現在のフレームが時間領域オーディオ信号である場合、取得モジュール601は、最初に、周波数領域内の現在のフレームを取得するために時間領域内の現在のフレームに対して時間-周波数変換を行ってよく、次いで、取得モジュール601は、周波数領域内の現在のフレームをチャネル間時間差推定モジュール602に転送する。チャネル間時間差推定モジュール602は、周波数領域内の現在のフレームを処理してよい。
いくつかの可能な実装では、図6の破線を参照されたい。装置は、第1の取得モジュール601が現在のフレームを取得した後に現在のフレームのノイズコヒーレンス値を取得することと、ノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも大きいかこれに等しい場合、現在のフレームに含まれるノイズ信号の信号タイプはコヒーレントノイズ信号タイプであると決定すること、またはノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも小さい場合、現在のフレームに含まれるノイズ信号の信号タイプは拡散ノイズ信号タイプであると決定することとを行うように構成されたノイズコヒーレンス値計算モジュール603をさらに含む。
いくつかの可能な実装では、図6の破線を参照されたい。装置は、検出結果を取得するために、現在のフレームに対して発話終了点検出を行うように構成された発話終了点検出モジュール604をさらに含む。ノイズコヒーレンス値計算モジュール603は、検出結果が、現在のフレームの信号タイプはノイズ信号タイプであることを示す場合、現在のフレームのノイズコヒーレンス値を計算する、または検出結果が、現在のフレームの信号タイプは発話信号タイプであることを示す場合、ステレオオーディオ信号の現在のフレームの以前のフレームのノイズコヒーレンス値を現在のフレームのノイズコヒーレンス値と決定するように特に構成される。
本出願の本実施形態では、発話終了点検出モジュール604は、時間領域、周波数領域、または時間領域と周波数領域の組み合わせにおいて、VAD値を計算してよい。これは、本明細書では具体的に限定されない。取得モジュール601は、現在のフレームに対するVADのために、現在のフレームを発話終了点検出モジュール604に転送してよい。
いくつかの可能な実装では、第1のチャネルオーディオ信号は第1のチャネル時間領域信号であり、第2のチャネルオーディオ信号は第2のチャネル時間領域信号である。チャネル間時間差推定モジュール602は、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号を取得するために第1のチャネル時間領域信号および第2のチャネル時間領域信号に対して時間-周波数変換を行うことと、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することと、第1の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けすることと、重み付けされた周波数領域クロスパワースペクトルに基づいてチャネル間時間差の推定値を取得することとを行うように構成される。第1の重み関数の構造因子は、第1のチャネル周波数領域信号に対応するウィナー利得係数と、第2のチャネル周波数領域信号に対応するウィナー利得係数と、振幅重み付けパラメータと、現在のフレームの2乗コヒーレンス値とを含む。
いくつかの可能な実装では、第1のチャネルオーディオ信号は第1のチャネル周波数領域信号であり、第2のチャネルオーディオ信号は第2のチャネル周波数領域信号である。チャネル間時間差推定モジュール602は、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算し、第1の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けし、重み付けされた周波数領域クロスパワースペクトルに基づいてチャネル間時間差の推定値を取得するように構成される。第1の重み関数の構造因子は、第1のチャネル周波数領域信号に対応するウィナー利得係数と、第2のチャネル周波数領域信号に対応するウィナー利得係数と、振幅重み付けパラメータと、現在のフレームの2乗コヒーレンス値とを含む。
いくつかの可能な実装では、第1の重み関数Φnew_1(k)は、前述の式(7)を満たす。
いくつかの他の可能な実装では、第1の重み関数Φnew_1(k)は、前述の式(8)を満たす。
いくつかの可能な実装では、第1のチャネル周波数領域信号に対応するウィナー利得係数は第1のチャネル周波数領域信号の第1の初期ウィナー利得係数であり、第2のチャネル周波数領域信号に対応するウィナー利得係数は第2のチャネル周波数領域信号の第2の初期ウィナー利得係数である。チャネル間時間差推定モジュール602は、取得モジュールが現在のフレームを取得した後に第1のチャネル周波数領域信号に基づいて第1のチャネルノイズパワースペクトルの推定値を取得し、第1のチャネルノイズパワースペクトルの推定値に基づいて第1の初期ウィナー利得係数を決定し、第2のチャネル周波数領域信号に基づいて第2のチャネルノイズパワースペクトルの推定値を取得し、第2のチャネルノイズパワースペクトルの推定値に基づいて第2の初期ウィナー利得係数を決定するように特に構成される。
いくつかの可能な実装では、第1の初期ウィナー利得係数
は前述の式(10)を満たし、第2の初期ウィナー利得係数
は前述の式(11)を満たす。
いくつかの可能な実装では、第1のチャネル周波数領域信号に対応するウィナー利得係数は第1のチャネル周波数領域信号の第1の改善されたウィナー利得係数であり、第2のチャネル周波数領域信号に対応するウィナー利得係数は第2のチャネル周波数領域信号の第2の改善されたウィナー利得係数である。チャネル間時間差推定モジュール602は、取得モジュールが現在のフレームを取得した後で第1の初期ウィナー利得係数および第2の初期ウィナー利得係数を取得することと、第1の改善されたウィナー利得係数を取得するために、第1の初期ウィナー利得係数のためのバイナリマスキング関数を構築することと、第2の改善されたウィナー利得係数を取得するために、第2の初期ウィナー利得係数のためのバイナリマスキング関数を構築することとを行うように特に構成される。
いくつかの可能な実装では、第1の改善されたウィナー利得係数
は前述の式(12)を満たし、第2の改善されたウィナー利得係数
は前述の式(13)を満たす。
いくつかの可能な実装では、第1のチャネルオーディオ信号は第1のチャネル時間領域信号であり、第2のチャネルオーディオ信号は第2のチャネル時間領域信号である。チャネル間時間差推定モジュール602は、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号を取得するために、第1のチャネル時間領域信号および第2のチャネル時間領域信号に対して時間-周波数変換を行うことと、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することと、チャネル間時間差の推定値を取得するために、第2の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けすることとを行うように特に構成される。第2の重み関数の構造因子は、振幅重み付けパラメータと、現在のフレームの2乗コヒーレンス値とを含む。
いくつかの可能な実装では、第1のチャネルオーディオ信号は第1のチャネル周波数領域信号であり、第2のチャネルオーディオ信号は第2のチャネル周波数領域信号である。チャネル間時間差推定モジュール602は、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算し、第2の重み関数に基づいて周波数領域クロスパワースペクトルを重み付けし、重み付けされた周波数領域クロスパワースペクトルに基づいてチャネル間時間差の推定値を取得するように特に構成される。第2の重み関数の構造因子は、振幅重み付けパラメータと、現在のフレームの2乗コヒーレンス値とを含む。
いくつかの可能な実装では、第2の重み関数Φnew_2(k)は、前述の式(16)を満たす。
取得モジュール601、チャネル間時間差推定モジュール602、ノイズコヒーレンス値計算モジュール603、および発話終了点検出モジュール604の特定の実装プロセスについては、図4から図5における実施形態の詳細な説明に対して参照がなされてよいことが留意されるべきである。本明細書の簡潔さのために、詳細は、本明細書では再び説明されない。
本出願の本実施形態において言及される取得モジュール601は、受信インタフェース、受信回路、受信機などであってよい。チャネル間時間差推定モジュール602、ノイズコヒーレンス値計算モジュール603、および発話終了点検出モジュール604は、1つまたは複数のプロセッサであってよい。
同じ本発明の概念に基づいて、本出願の一実施形態は、ステレオオーディオ信号遅延推定装置を提供する。この装置は、オーディオコーディング装置内のチップまたはシステムオンチップであってもよいし、オーディオコーディング装置内にあり、図3に示されるステレオオーディオ信号遅延推定方法および方法の任意の可能な実装を実施するように構成された機能モジュールであってもよい。たとえば、依然として図6を参照されたい。ステレオオーディオ信号遅延推定装置600は、ステレオオーディオ信号の現在のフレームを取得するように構成された取得モジュール601であって、現在のフレームは、第1のチャネルオーディオ信号と、第2のチャネルオーディオ信号とを含む、取得モジュール601と、第1のチャネルオーディオ信号および第2のチャネルオーディオ信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算し、あらかじめ設定された重み関数に基づいて周波数領域クロスパワースペクトルを重み付けし、重み付けされた周波数領域クロスパワースペクトルに基づいて第1のチャネル周波数領域信号と第2のチャネル周波数領域信号との間のチャネル間時間差の推定値を取得するように構成されたチャネル間時間差推定モジュール602とを含む。
あらかじめ設定された重み関数は第1の重み関数または第2の重み関数であり、第1の重み関数の構造因子は第2の重み関数のそれとは異なる。第1の重み関数の構造因子は、第1のチャネル周波数領域信号に対応するウィナー利得係数と、第2のチャネル周波数領域信号に対応するウィナー利得と、振幅重み付けパラメータと、現在のフレームの2乗コヒーレンス値とを含む。第2の重み関数の構造因子は、振幅重み付けパラメータと、現在のフレームの2乗コヒーレンス値とを含む。
いくつかの可能な実装では、第1のチャネルオーディオ信号は第1のチャネル時間領域信号であり、第2のチャネルオーディオ信号は第2のチャネル時間領域信号である。チャネル間時間差推定モジュール602は、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号を取得するために、第1のチャネル時間領域信号および第2のチャネル時間領域信号に対して時間-周波数変換を行うことと、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号に基づいて現在のフレームの周波数領域クロスパワースペクトルを計算することとを行うように構成される。
いくつかの可能な実装では、第1のチャネルオーディオ信号は第1のチャネル周波数領域信号であり、第2のチャネルオーディオ信号は第2のチャネル周波数領域信号である。この場合、現在のフレームの周波数領域クロスパワースペクトルは、第1のチャネルオーディオ信号および第2のチャネルオーディオ信号に基づいて直接的に計算されてよい。
いくつかの可能な実装では、第1の重み関数Φnew_1(k)は、前述の式(7)を満たす。
いくつかの他の可能な実装では、第1の重み関数Φnew_1(k)は、前述の式(8)を満たす。
いくつかの可能な実装では、第1のチャネル周波数領域信号に対応するウィナー利得係数は第1のチャネル周波数領域信号の第1の初期ウィナー利得係数であり、第2のチャネル周波数領域信号に対応するウィナー利得係数は第2のチャネル周波数領域信号の第2の初期ウィナー利得係数である。チャネル間時間差推定モジュール602は、取得モジュール601が現在のフレームを取得した後に第1のチャネル周波数領域信号に基づいて第1のチャネルノイズパワースペクトルの推定値を取得し、第1のチャネルノイズパワースペクトルの推定値に基づいて第1の初期ウィナー利得係数を決定し、第2のチャネル周波数領域信号に基づいて第2のチャネルノイズパワースペクトルの推定値を取得し、第2のチャネルノイズパワースペクトルの推定値に基づいて第2の初期ウィナー利得係数を決定するように特に構成される。
いくつかの可能な実装では、第1の初期ウィナー利得係数
は前述の式(10)を満たし、第2の初期ウィナー利得係数
は前述の式(11)を満たす。
いくつかの可能な実装では、第1のチャネル周波数領域信号に対応するウィナー利得係数は第1のチャネル周波数領域信号の第1の改善されたウィナー利得係数であり、第2のチャネル周波数領域信号に対応するウィナー利得係数は第2のチャネル周波数領域信号の第2の改善されたウィナー利得係数である。チャネル間時間差推定モジュール602は、取得モジュール601が現在のフレームを取得した後で第1の初期ウィナー利得係数および第2の初期ウィナー利得係数を取得することと、第1の改善されたウィナー利得係数を取得するために、第1の初期ウィナー利得係数のためのバイナリマスキング関数を構築することと、第2の改善されたウィナー利得係数を取得するために、第2の初期ウィナー利得係数のためのバイナリマスキング関数を構築することとを行うように特に構成される。
いくつかの可能な実装では、第1の改善されたウィナー利得係数
は前述の式(12)を満たし、第2の改善されたウィナー利得係数
は前述の式(13)を満たす。
いくつかの可能な実装では、第2の重み関数Φnew_2(k)は、前述の式(16)を満たす。
取得モジュール601およびチャネル間時間差推定モジュール602の特定の実装プロセスについては、図3の実施形態の詳細な説明に対して参照がなされてよいことが留意されるべきである。本明細書の簡潔さのために、詳細は、本明細書では再び説明されない。
本出願の本実施形態において言及される取得モジュール601は、受信インタフェース、受信回路、受信機などであってよい。チャネル間時間差推定モジュール602は、1つまたは複数のプロセッサであってよい。
同じ本発明の概念に基づいて、本出願の一実施形態は、オーディオコーディング装置を提供する。このオーディオコーディング装置は、前述の実施形態のオーディオコーディング装置と一致する。図7は、本出願の一実施形態によるオーディオコーディング装置の構造を示す概略図である。図7を参照されたい。オーディオコーディング装置700は、互いに結合された不揮発性メモリ701とプロセッサ702とを含む。プロセッサ702は、図3から図5のステレオオーディオ信号遅延推定方法および方法の任意の可能な実装の動作ステップを行うためにメモリ701に記憶されたプログラムコードを呼び出す。
いくつかの可能な実装では、オーディオコーディング装置は、具体的には、ステレオコーディング装置であってもよい。装置は、独立したステレオコーダを構成してもよいし、マルチチャネル周波数領域信号中の複数の信号を統合することによって生成された2つのオーディオ信号によって形成されたステレオオーディオ信号を符号化する、マルチチャネルコーダのコアコーディング部分であってもよい。
実際の適用例では、オーディオコーディング装置は、特定用途向け集積回路(application specific integrated circuit,ASIC)、レジスタ転送層回路(レジスタ転送レベル、register transfer level,RTL)、またはフィールドプログラマブルゲートアレイ(field programmable gate array,FPGA)などのプログラマブルデバイスを使用することによって、実施されてよい。確かに、オーディオコーディング装置は、別のプログラマブルデバイスを使用することによって実施されてもまたよい。これは、本出願の本実施形態では具体的に限定されない。
同じ本発明の概念に基づいて、本出願の一実施形態は、コンピュータ可読記憶媒体を提供する。コンピュータ可読記憶媒体は命令を記憶し、命令がコンピュータ上で稼働するとき、図3から図5のステレオオーディオ信号遅延推定方法および方法の任意の可能な実装の動作ステップが行われる。
同じ本発明の概念に基づいて、本出願の一実施形態は、符号化されたビットストリームを含むコンピュータ可読記憶媒体を提供する。符号化されたビットストリームは、図3から図5のステレオオーディオ信号遅延推定方法および方法の任意の可能な実装により取得されるステレオオーディオ信号のチャネル間時間差を含む。
同じ本発明の概念に基づいて、本出願の一実施形態は、コンピュータプログラムまたはコンピュータプログラム製品を提供する。コンピュータプログラムまたはコンピュータプログラム製品がコンピュータ上で実行されるとき、コンピュータは、図3から図5のステレオオーディオ信号遅延推定方法および方法の任意の可能な実装の動作ステップを実施することが可能にされる。
当業者は、本明細書で開示および説明されるさまざまな例示的な論理ブロック、モジュール、およびアルゴリズムステップを参照しながら説明される機能が、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組み合わせによって実施されてよいことを諒解することができる。ソフトウェアによって実施される場合、例示的な論理ブロック、モジュール、およびステップを参照しながら説明される機能は、1つまたは複数の命令またはコードとして、コンピュータ可読媒体に記憶されるか、これに送信され、ハードウェアベースの処理ユニットによって実行されてよい。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応するコンピュータ可読記憶を含んでもよいし、ある場所から別の場所への(たとえば、通信プロトコルに従った)コンピュータプログラムの送信を容易にする任意の通信媒体を含んでもよい。このようにして、コンピュータ可読媒体は、一般に、(1)非一時的な有形コンピュータ可読記憶媒体、または(2)信号もしくは搬送波などの通信媒体に対応し得る。データ記憶媒体は、本出願で説明される技術を実施するための命令、コード、および/またはデータ構造を取り出すために1つもしくは複数のコンピュータまたは1つもしくは複数のプロセッサによってアクセス可能である任意の使用可能な媒体であってよい。コンピュータプログラム製品は、コンピュータ可読媒体を含んでよい。
限定ではなく例として、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM、CD-ROMもしくは別の光ディスク記憶装置、磁気ディスク記憶装置もしくは別の磁気記憶装置、フラッシュメモリ、または必要とされるプログラムコードを命令もしくはデータ構造の形で記憶することができ、コンピュータによってアクセス可能である他の任意の媒体を含んでよい。さらに、任意の接続は、コンピュータ可読媒体と呼ばれるのが適切である。たとえば、命令が、同軸ケーブル、光ファイバ、ツイストペア、デジタル加入者回線(digital subscriber line,DSL)、または赤外線、無線、もしくはマイクロ波などのワイヤレス技術を通じて、ウェブサイト、サーバ、または別のリモートソースから送信される場合、同軸ケーブル、光ファイバ、ツイストペア、DSL、または赤外線、無線、もしくはマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的な媒体を含まず、実際には、非一時的な有形記憶媒体を意味することが理解されるべきである。本明細書で使用されるディスクおよびディスクは、コンパクトディスク(CD)と、レーザディスクと、光ディスクと、デジタル多用途ディスク(DVD)と、ブルーレイディスクとを含む。ディスクは通常、データを磁気的に再生し、ディスクは、レーザを使用することによってデータを光学的に再生する。上記の組み合わせも、コンピュータ可読媒体の範囲内に含まれるべきである。
命令は、1つもしくは複数のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または等価な集積回路もしくはディスクリート論理回路などの、1つまたは複数のプロセッサによって実行されてよい。したがって、本明細書で使用される「プロセッサ」という用語は、前述の構造、または本明細書で説明される技術の実装に適用され得る他の任意の構造を指し得る。さらに、いくつかの態様では、本明細書で説明される例示的な論理ブロック、モジュール、およびステップを参照しながら説明される機能は、符号化および復号化のために構成された専用ハードウェアおよび/またはソフトウェアモジュール内で提供されてもよいし、複合コーデックに組み込まれてもよい。さらに、技術は、1つもしくは複数の回路または論理素子内で完全に実施されてもよい。
本出願の技術は、ワイヤレスハンドセット、集積回路(IC)、またはICのセット(たとえば、チップセット)を含む、さまざまな装置またはデバイス内で実施されてよい。さまざまな構成要素、モジュール、またはユニットが、開示の技術を行うように構成された装置の機能態様を目立たせるために本出願で説明されているが、機能は、異なるハードウェアユニットによって実施される必要はない。実際、上記で説明されたように、さまざまなユニットは、適切なソフトウェアおよび/またはファームウェアと組み合わせてコーデックハードウェアユニットに統合されてもよいし、相互運用可能なハードウェアユニット(上記で説明された1つまたは複数のプロセッサを含む)によって提供されてもよい。
前述の実施形態では、各実施形態の説明は、それぞれの焦点を有する。一実施形態で詳細に説明されていない部分については、他の実施形態における関連説明を参照されたい。
前述の説明は、本出願の特定の例示的な実装にすぎず、本出願の保護範囲を制限することを意図したものではない。本出願に開示されている技術範囲内の当業者によって容易に理解される任意の変形または置き換えは、本出願の保護範囲内に含まれるものとする。したがって、本出願の保護範囲は、請求項の保護範囲に従うものとする。
Claims (51)
- ステレオオーディオ信号の現在のフレームを取得するステップであって、前記現在のフレームは、第1のチャネルオーディオ信号と、第2のチャネルオーディオ信号とを含む、ステップと、
前記現在のフレームに含まれるノイズ信号の信号タイプがコヒーレントノイズ信号タイプである場合、第1のアルゴリズムを使用することによって前記第1のチャネルオーディオ信号と前記第2のチャネルオーディオ信号との間のチャネル間時間差を推定するステップ、または
前記現在のフレームに含まれるノイズ信号の信号タイプが拡散ノイズ信号タイプである場合、第2のアルゴリズムを使用することによって前記第1のチャネルオーディオ信号と前記第2のチャネルオーディオ信号との間のチャネル間時間差を推定するステップと
を含み、
前記第1のアルゴリズムは、第1の重み関数に基づいて前記現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、前記第2のアルゴリズムは、第2の重み関数に基づいて前記現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、前記第1の重み関数の構造因子は前記第2の重み関数のそれとは異なる、
ステレオオーディオ信号遅延推定方法。 - ステレオオーディオ信号の現在のフレームを取得する前記ステップの後、前記方法は、
前記現在のフレームのノイズコヒーレンス値を取得するステップと、
前記ノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも大きいかこれに等しい場合、前記現在のフレームに含まれる前記ノイズ信号の前記信号タイプはコヒーレント関連ノイズ信号タイプであると決定するステップ、または
前記ノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも小さい場合、前記現在のフレームに含まれる前記ノイズ信号の前記信号タイプは拡散ノイズ信号タイプであると決定するステップと
をさらに含む請求項1に記載の方法。 - 前記現在のフレームのノイズコヒーレンス値を取得する前記ステップは、
前記現在のフレームに対して発話終了点検出を行うステップと、
検出結果が、前記現在のフレームの信号タイプはノイズ信号タイプであることを示す場合、前記現在のフレームの前記ノイズコヒーレンス値を計算するステップ、または
検出結果が、前記現在のフレームの信号タイプは発話信号タイプであることを示す場合、前記ステレオオーディオ信号の前記現在のフレームの以前のフレームのノイズコヒーレンス値を前記現在のフレームの前記ノイズコヒーレンス値と決定するステップと
を含む請求項2に記載の方法。 - 前記第1のチャネルオーディオ信号は第1のチャネル時間領域信号であり、前記第2のチャネルオーディオ信号は第2のチャネル時間領域信号であり、
第1のアルゴリズムを使用することによって前記第1のチャネルオーディオ信号と前記第2のチャネルオーディオ信号との間のチャネル間時間差を推定する前記ステップは、
第1のチャネル周波数領域信号および第2のチャネル周波数領域信号を取得するために、前記第1のチャネル時間領域信号および前記第2のチャネル時間領域信号に対して時間-周波数変換を行うステップと、
前記第1のチャネル周波数領域信号および前記第2のチャネル周波数領域信号に基づいて前記現在のフレームの前記周波数領域クロスパワースペクトルを計算するステップと、
前記第1の重み関数に基づいて前記周波数領域クロスパワースペクトルを重み付けするステップと、
重み付けされた周波数領域クロスパワースペクトルに基づいて前記チャネル間時間差の推定値を取得するステップと
を含み、
前記第1の重み関数の前記構造因子は、前記第1のチャネル周波数領域信号に対応するウィナー利得係数と、前記第2のチャネル周波数領域信号に対応するウィナー利得係数と、振幅重み付けパラメータと、前記現在のフレームの2乗コヒーレンス値とを含む請求項1乃至3のいずれか一項に記載の方法。 - 前記第1のチャネルオーディオ信号は第1のチャネル周波数領域信号であり、前記第2のチャネルオーディオ信号は第2のチャネル周波数領域信号であり、
第1のアルゴリズムを使用することによって前記第1のチャネルオーディオ信号と前記第2のチャネルオーディオ信号との間のチャネル間時間差を推定する前記ステップは、
前記第1のチャネル周波数領域信号および前記第2のチャネル周波数領域信号に基づいて前記現在のフレームの前記周波数領域クロスパワースペクトルを計算するステップと、
前記第1の重み関数に基づいて前記周波数領域クロスパワースペクトルを重み付けするステップと、
重み付けされた周波数領域クロスパワースペクトルに基づいて前記チャネル間時間差の推定値を取得するステップと
を含み、
前記第1の重み関数の前記構造因子は、前記第1のチャネル周波数領域信号に対応するウィナー利得係数と、前記第2のチャネル周波数領域信号に対応するウィナー利得係数と、振幅重み付けパラメータと、前記現在のフレームの2乗コヒーレンス値とを含む請求項1乃至3のいずれか一項に記載の方法。 - 前記第1の重み関数Φnew_1(k)は、以下の式
βは前記振幅重み付けパラメータであり、β∈[0,1]であり、Wx1(k)は前記第1のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Wx2(k)は前記第2のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、X1(k)は前記第1のチャネル周波数領域信号であり、X2(k)は前記第2のチャネル周波数領域信号であり、
- 前記第1の重み関数Φnew_1(k)は、以下の式
βは前記振幅重み付けパラメータであり、β∈[0,1]であり、Wx1(k)は前記第1のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Wx2(k)は前記第2のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、X1(k)は前記第1のチャネル周波数領域信号であり、X2(k)は前記第2のチャネル周波数領域信号であり、
- 前記第1のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第1のチャネル周波数領域信号の第1の初期ウィナー利得係数であり、前記第2のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第2のチャネル周波数領域信号の第2の初期ウィナー利得係数であり、
ステレオオーディオ信号の現在のフレームを取得する前記ステップの後、前記方法は、
前記第1のチャネル周波数領域信号に基づいて第1のチャネルノイズパワースペクトルの推定値を取得し、前記第1のチャネルノイズパワースペクトルの前記推定値に基づいて前記第1の初期ウィナー利得係数を決定するステップと、
前記第2のチャネル周波数領域信号に基づいて第2のチャネルノイズパワースペクトルの推定値を取得し、前記第2のチャネルノイズパワースペクトルの前記推定値に基づいて前記第2の初期ウィナー利得係数を決定するステップと
をさらに含む請求項4乃至7のいずれか一項に記載の方法。 - 前記第1のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第1のチャネル周波数領域信号の第1の改善されたウィナー利得係数であり、前記第2のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第2のチャネル周波数領域信号の第2の改善されたウィナー利得係数であり、
ステレオオーディオ信号の現在のフレームを取得する前記ステップの後、前記方法は、
前記第1のチャネル周波数領域信号の第1の初期ウィナー利得係数および前記第2のチャネル周波数領域信号の第2の初期ウィナー利得係数を取得するステップと、
前記第1の改善されたウィナー利得係数を取得するために、前記第1の初期ウィナー利得係数のためのバイナリマスキング関数を構築するステップと、
前記第2の改善されたウィナー利得係数を取得するために、前記第2の初期ウィナー利得係数のためのバイナリマスキング関数を構築するステップと
をさらに含む請求項4乃至7のいずれか一項に記載の方法。 - 前記第1のチャネルオーディオ信号は第1のチャネル時間領域信号であり、前記第2のチャネルオーディオ信号は第2のチャネル時間領域信号であり、
第2のアルゴリズムを使用することによって前記第1のチャネルオーディオ信号と前記第2のチャネルオーディオ信号との間のチャネル間時間差を推定する前記ステップは、
第1のチャネル周波数領域信号および第2のチャネル周波数領域信号を取得するために、前記第1のチャネル時間領域信号および前記第2のチャネル時間領域信号に対して時間-周波数変換を行うステップと、
前記第1のチャネル周波数領域信号および前記第2のチャネル周波数領域信号に基づいて前記現在のフレームの前記周波数領域クロスパワースペクトルを計算するステップと、
前記チャネル間時間差の推定値を取得するために、前記第2の重み関数に基づいて前記周波数領域クロスパワースペクトルを重み付けするステップと
を含み、
前記第2の重み関数の前記構造因子は、振幅重み付けパラメータと、前記現在のフレームの2乗コヒーレンス値とを含む請求項1乃至11のいずれか一項に記載の方法。 - 前記第1のチャネルオーディオ信号は第1のチャネル周波数領域信号であり、前記第2のチャネルオーディオ信号は第2のチャネル周波数領域信号であり、
第2のアルゴリズムを使用することによって前記第1のチャネルオーディオ信号と前記第2のチャネルオーディオ信号との間のチャネル間時間差を推定する前記ステップは、
前記第1のチャネル周波数領域信号および前記第2のチャネル周波数領域信号に基づいて前記現在のフレームの前記周波数領域クロスパワースペクトルを計算するステップと、
前記第2の重み関数に基づいて前記周波数領域クロスパワースペクトルを重み付けするステップと、
重み付けされた周波数領域クロスパワースペクトルに基づいて前記チャネル間時間差の推定値を取得するステップと
を含み、
前記第2の重み関数の前記構造因子は、振幅重み付けパラメータと、前記現在のフレームの2乗コヒーレンス値とを含む請求項1乃至11のいずれか一項に記載の方法。 - ステレオオーディオ信号の現在のフレームを取得するステップであって、前記現在のフレームは、第1のチャネルオーディオ信号と、第2のチャネルオーディオ信号とを含む、ステップと、
前記第1のチャネルオーディオ信号および前記第2のチャネルオーディオ信号に基づいて前記現在のフレームの周波数領域クロスパワースペクトルを計算するステップと、
あらかじめ設定された重み関数に基づいて前記周波数領域クロスパワースペクトルを重み付けするステップであって、前記あらかじめ設定された重み関数は第1の重み関数または第2の重み関数である、ステップと、
重み付けされた周波数領域クロスパワースペクトルに基づいて第1のチャネル周波数領域信号と第2のチャネル周波数領域信号との間のチャネル間時間差の推定値を取得するステップと
を含み、
前記第1の重み関数の構造因子は、前記第1のチャネル周波数領域信号に対応するウィナー利得係数と、前記第2のチャネル周波数領域信号に対応するウィナー利得と、振幅重み付けパラメータと、前記現在のフレームの2乗コヒーレンス値とを含み、前記第2の重み関数の構造因子は、振幅重み付けパラメータと、前記現在のフレームの2乗コヒーレンス値とを含み、前記第1の重み関数の前記構造因子は、前記第2の重み関数のそれとは異なる、
ステレオオーディオ信号遅延推定方法。 - 前記第1のチャネルオーディオ信号は第1のチャネル時間領域信号であり、前記第2のチャネルオーディオ信号は第2のチャネル時間領域信号であり、
前記第1のチャネルオーディオ信号および前記第2のチャネルオーディオ信号に基づいて前記現在のフレームの周波数領域クロスパワースペクトルを計算する前記ステップは、
第1のチャネル周波数領域信号および第2のチャネル周波数領域信号を取得するために、前記第1のチャネル時間領域信号および前記第2のチャネル時間領域信号に対して時間-周波数変換を行うステップと、
前記第1のチャネル周波数領域信号および前記第2のチャネル周波数領域信号に基づいて前記現在のフレームの前記周波数領域クロスパワースペクトルを計算するステップと
を含む請求項15に記載の方法。 - 前記第1のチャネルオーディオ信号は第1のチャネル周波数領域信号であり、前記第2のチャネルオーディオ信号は第2のチャネル周波数領域信号である請求項15に記載の方法。
- 前記第1の重み関数Φnew_1(k)は、以下の式
βは前記振幅重み付けパラメータであり、β∈[0,1]であり、Wx1(k)は前記第1のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Wx2(k)は前記第2のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、X1(k)は前記第1のチャネル周波数領域信号であり、X2(k)は前記第2のチャネル周波数領域信号であり、
- 前記第1の重み関数Φnew_1(k)は、以下の式
βは前記振幅重み付けパラメータであり、β∈[0,1]であり、Wx1(k)は前記第1のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Wx2(k)は前記第2のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、X1(k)は前記第1のチャネル周波数領域信号であり、X2(k)は前記第2のチャネル周波数領域信号であり、
- 前記第1のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第1のチャネル周波数領域信号の第1の初期ウィナー利得係数であり、前記第2のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第2のチャネル周波数領域信号の第2の初期ウィナー利得係数であり、
ステレオオーディオ信号の現在のフレームを取得する前記ステップの後、前記方法は、
前記第1のチャネル周波数領域信号に基づいて第1のチャネルノイズパワースペクトルの推定値を取得し、前記第1のチャネルノイズパワースペクトルの前記推定値に基づいて前記第1の初期ウィナー利得係数を決定するステップと、
前記第2のチャネル周波数領域信号に基づいて第2のチャネルノイズパワースペクトルの推定値を取得し、前記第2のチャネルノイズパワースペクトルの前記推定値に基づいて前記第2の初期ウィナー利得係数を決定するステップと
をさらに含む請求項15乃至19のいずれか一項に記載の方法。 - 前記第1のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第1のチャネル周波数領域信号の第1の改善されたウィナー利得係数であり、前記第2のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第2のチャネル周波数領域信号の第2の改善されたウィナー利得係数であり、
ステレオオーディオ信号の現在のフレームを取得する前記ステップの後、前記方法は、
前記第1のチャネル周波数領域信号の第1の初期ウィナー利得係数および前記第2のチャネル周波数領域信号の第2の初期ウィナー利得係数を取得するステップと、
前記第1の改善されたウィナー利得係数を取得するために、前記第1の初期ウィナー利得係数のためのバイナリマスキング関数を構築するステップと、
前記第2の改善されたウィナー利得係数を取得するために、前記第2の初期ウィナー利得係数のためのバイナリマスキング関数を構築するステップと
をさらに含む請求項15乃至19のいずれか一項に記載の方法。 - 前記第2の重み関数Φnew_2(k)は、以下の式
βは前記振幅重み付けパラメータであり、β∈[0,1]であり、Wx1(k)は前記第1のチャネルのウィナー利得係数であり、Wx2(k)は前記第2のチャネルのウィナー利得係数であり、X1(k)は前記第1のチャネル周波数領域信号であり、X2(k)は前記第2のチャネル周波数領域信号であり、
- ステレオオーディオ信号の現在のフレームを取得するように構成された第1の取得モジュールであって、前記現在のフレームは、第1のチャネルオーディオ信号と、第2のチャネルオーディオ信号とを含む、第1の取得モジュールと、
前記現在のフレームに含まれるノイズ信号の信号タイプがコヒーレントノイズ信号タイプである場合、第1のアルゴリズムを使用することによって前記第1のチャネルオーディオ信号と前記第2のチャネルオーディオ信号との間のチャネル間時間差を推定すること、または前記現在のフレームに含まれるノイズ信号の信号タイプが拡散ノイズ信号タイプである場合、第2のアルゴリズムを使用することによって前記第1のチャネルオーディオ信号と前記第2のチャネルオーディオ信号との間のチャネル間時間差を推定することを行うように構成された第1のチャネル間時間差推定モジュールと
を備え、
前記第1のアルゴリズムは、第1の重み関数に基づいて前記現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、前記第2のアルゴリズムは、第2の重み関数に基づいて前記現在のフレームの周波数領域クロスパワースペクトルを重み付けすることを含み、前記第1の重み関数の構造因子は前記第2の重み関数のそれとは異なる、
ステレオオーディオ信号遅延推定装置。 - 前記装置は、前記第1の取得モジュールが前記現在のフレームを取得した後に前記現在のフレームのノイズコヒーレンス値を取得することと、前記ノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも大きいかこれに等しい場合、前記現在のフレームに含まれる前記ノイズ信号の前記信号タイプはコヒーレントノイズ信号タイプであると決定すること、または前記ノイズコヒーレンス値が、あらかじめ設定されたしきい値よりも小さい場合、前記現在のフレームに含まれる前記ノイズ信号の前記信号タイプは拡散ノイズ信号タイプであると決定することとを行うように構成されたノイズコヒーレンス値計算モジュールをさらに備える請求項25に記載の装置。
- 前記装置は、前記現在のフレームに対して発話終了点検出を行うように構成された発話終了点検出モジュールをさらに備え、前記ノイズコヒーレンス値計算モジュールは、検出結果が、前記現在のフレームの信号タイプはノイズ信号タイプであることを示す場合、前記現在のフレームの前記ノイズコヒーレンス値を計算する、または検出結果が、前記現在のフレームの信号タイプは発話信号タイプであることを示す場合、前記ステレオオーディオ信号の前記現在のフレームの以前のフレームのノイズコヒーレンス値を前記現在のフレームの前記ノイズコヒーレンス値と決定するように特に構成される請求項26に記載の装置。
- 前記第1のチャネルオーディオ信号は第1のチャネル時間領域信号であり、前記第2のチャネルオーディオ信号は第2のチャネル時間領域信号であり、前記第1のチャネル間時間差推定モジュールは、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号を取得するために、前記第1のチャネル時間領域信号および前記第2のチャネル時間領域信号に対して時間-周波数変換を行うことと、前記第1のチャネル周波数領域信号および前記第2のチャネル周波数領域信号に基づいて前記現在のフレームの前記周波数領域クロスパワースペクトルを計算することと、前記第1の重み関数に基づいて前記周波数領域クロスパワースペクトルを重み付けすることと、重み付けされた周波数領域クロスパワースペクトルに基づいて前記チャネル間時間差の推定値を取得することとを行うように構成され、前記第1の重み関数の前記構造因子は、前記第1のチャネル周波数領域信号に対応するウィナー利得係数と、前記第2のチャネル周波数領域信号に対応するウィナー利得係数と、振幅重み付けパラメータと、前記現在のフレームの2乗コヒーレンス値とを含む請求項25乃至27のいずれか一項に記載の装置。
- 前記第1のチャネルオーディオ信号は第1のチャネル周波数領域信号であり、前記第2のチャネルオーディオ信号は第2のチャネル周波数領域信号であり、前記第1のチャネル間時間差推定モジュールは、前記第1のチャネル周波数領域信号および前記第2のチャネル周波数領域信号に基づいて前記現在のフレームの前記周波数領域クロスパワースペクトルを計算し、前記第1の重み関数に基づいて前記周波数領域クロスパワースペクトルを重み付けし、重み付けされた周波数領域クロスパワースペクトルに基づいて前記チャネル間時間差の推定値を取得するように構成され、前記第1の重み関数の前記構造因子は、前記第1のチャネル周波数領域信号に対応するウィナー利得係数と、前記第2のチャネル周波数領域信号に対応するウィナー利得係数と、振幅重み付けパラメータと、前記現在のフレームの2乗コヒーレンス値とを含む請求項25乃至27のいずれか一項に記載の装置。
- 前記第1の重み関数Φnew_1(k)は、以下の式
βは前記振幅重み付けパラメータであり、β∈[0,1]であり、Wx1(k)は前記第1のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Wx2(k)は前記第2のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、X1(k)は前記第1のチャネル周波数領域信号であり、X2(k)は前記第2のチャネル周波数領域信号であり、
- 前記第1の重み関数Φnew_1(k)は、以下の式
βは前記振幅重み付けパラメータであり、β∈[0,1]であり、Wx1(k)は前記第1のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Wx2(k)は前記第2のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、X1(k)は前記第1のチャネル周波数領域信号であり、X2(k)は前記第2のチャネル周波数領域信号であり、
- 前記第1のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第1のチャネル周波数領域信号の第1の初期ウィナー利得係数であり、前記第2のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第2のチャネル周波数領域信号の第2の初期ウィナー利得係数であり、
前記第1のチャネル間時間差推定モジュールは、前記第1の取得モジュールが前記現在のフレームを取得した後に前記第1のチャネル周波数領域信号に基づいて第1のチャネルノイズパワースペクトルの推定値を取得し、前記第1のチャネルノイズパワースペクトルの前記推定値に基づいて前記第1の初期ウィナー利得係数を決定し、前記第2のチャネル周波数領域信号に基づいて第2のチャネルノイズパワースペクトルの推定値を取得し、前記第2のチャネルノイズパワースペクトルの前記推定値に基づいて前記第2の初期ウィナー利得係数を決定するように特に構成される請求項28乃至31のいずれか一項に記載の装置。 - 前記第1のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第1のチャネル周波数領域信号の第1の改善されたウィナー利得係数であり、前記第2のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第2のチャネル周波数領域信号の第2の改善されたウィナー利得係数であり、
前記第1のチャネル間時間差推定モジュールは、前記第1の取得モジュールが前記現在のフレームを取得した後に前記第1のチャネル周波数領域信号の第1の初期ウィナー利得係数および前記第2のチャネル周波数領域信号の第2の初期ウィナー利得係数を取得することと、前記第1の改善されたウィナー利得係数を取得するために、前記第1の初期ウィナー利得係数のためのバイナリマスキング関数を構築することと、前記第2の改善されたウィナー利得係数を取得するために、前記第2の初期ウィナー利得係数のためのバイナリマスキング関数を構築することとを行うように特に構成される請求項28乃至31のいずれか一項に記載の装置。 - 前記第1のチャネルオーディオ信号は第1のチャネル時間領域信号であり、前記第2のチャネルオーディオ信号は第2のチャネル時間領域信号であり、前記第1のチャネル間時間差推定モジュールは、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号を取得するために、前記第1のチャネル時間領域信号および前記第2のチャネル時間領域信号に対して時間-周波数変換を行うことと、前記第1のチャネル周波数領域信号および前記第2のチャネル周波数領域信号に基づいて前記現在のフレームの前記周波数領域クロスパワースペクトルを計算することと、前記チャネル間時間差の推定値を取得するために、前記第2の重み関数に基づいて前記周波数領域クロスパワースペクトルを重み付けすることとを行うように特に構成され、前記第2の重み関数の前記構造因子は、振幅重み付けパラメータと、前記現在のフレームの2乗コヒーレンス値とを含む請求項25乃至35のいずれか一項に記載の装置。
- 前記第1のチャネルオーディオ信号は第1のチャネル周波数領域信号であり、前記第2のチャネルオーディオ信号は第2のチャネル周波数領域信号であり、前記第1のチャネル間時間差推定モジュールは、前記第1のチャネル周波数領域信号および前記第2のチャネル周波数領域信号に基づいて前記現在のフレームの前記周波数領域クロスパワースペクトルを計算し、前記第2の重み関数に基づいて前記周波数領域クロスパワースペクトルを重み付けし、重み付けされた周波数領域クロスパワースペクトルに基づいて前記チャネル間時間差の推定値を取得するように特に構成され、前記第2の重み関数の前記構造因子は、振幅重み付けパラメータと、前記現在のフレームの2乗コヒーレンス値とを含む請求項25乃至35のいずれか一項に記載の装置。
- ステレオオーディオ信号の現在のフレームを取得するように構成された第2の取得モジュールであって、前記現在のフレームは、第1のチャネルオーディオ信号と、第2のチャネルオーディオ信号とを含む、第2の取得モジュールと、
前記第1のチャネルオーディオ信号および前記第2のチャネルオーディオ信号に基づいて前記現在のフレームの周波数領域クロスパワースペクトルを計算することと、あらかじめ設定された重み関数に基づいて前記周波数領域クロスパワースペクトルを重み付けすることであって、前記あらかじめ設定された重み関数は第1の重み関数または第2の重み関数である、重み付けすることと、重み付けされた周波数領域クロスパワースペクトルに基づいて第1のチャネル周波数領域信号と第2のチャネル周波数領域信号との間のチャネル間時間差の推定値を取得することとを行うように構成された第2のチャネル間時間差推定モジュールと
を備え、
前記第1の重み関数の構造因子は、前記第1のチャネル周波数領域信号に対応するウィナー利得係数と、前記第2のチャネル周波数領域信号に対応するウィナー利得と、振幅重み付けパラメータと、前記現在のフレームの2乗コヒーレンス値とを含み、前記第2の重み関数の構造因子は、振幅重み付けパラメータと、前記現在のフレームの2乗コヒーレンス値とを含み、前記第1の重み関数の前記構造因子は、前記第2の重み関数のそれとは異なる、
ステレオオーディオ信号遅延推定装置。 - 前記第1のチャネルオーディオ信号は第1のチャネル時間領域信号であり、前記第2のチャネルオーディオ信号は第2のチャネル時間領域信号であり、前記第2のチャネル間時間差推定モジュールは、第1のチャネル周波数領域信号および第2のチャネル周波数領域信号を取得するために、前記第1のチャネル時間領域信号および前記第2のチャネル時間領域信号に対して時間-周波数変換を行うことと、前記第1のチャネル周波数領域信号および前記第2のチャネル周波数領域信号に基づいて前記現在のフレームの前記周波数領域クロスパワースペクトルを計算することとを行うように構成される請求項39に記載の装置。
- 前記第1のチャネルオーディオ信号は第1のチャネル周波数領域信号であり、前記第2のチャネルオーディオ信号は第2のチャネル周波数領域信号である請求項39に記載の装置。
- 前記第1の重み関数Φnew_1(k)は、以下の式
βは前記振幅重み付けパラメータであり、β∈[0,1]であり、Wx1(k)は前記第1のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Wx2(k)は前記第2のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、X1(k)は前記第1のチャネル周波数領域信号であり、X2(k)は前記第2のチャネル周波数領域信号であり、
- 前記第1の重み関数Φnew_1(k)は、以下の式
βは前記振幅重み付けパラメータであり、β∈[0,1]であり、Wx1(k)は前記第1のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、Wx2(k)は前記第2のチャネル周波数領域信号に対応する前記ウィナー利得係数であり、X1(k)は前記第1のチャネル周波数領域信号であり、X2(k)は前記第2のチャネル周波数領域信号であり、
- 前記第1のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第1のチャネル周波数領域信号の第1の初期ウィナー利得係数であり、前記第2のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第2のチャネル周波数領域信号の第2の初期ウィナー利得係数であり、
前記第2のチャネル間時間差推定モジュールは、前記第2の取得モジュールが前記現在のフレームを取得した後に前記第1のチャネル周波数領域信号に基づいて第1のチャネルノイズパワースペクトルの推定値を取得し、前記第1のチャネルノイズパワースペクトルの前記推定値に基づいて前記第1の初期ウィナー利得係数を決定し、前記第2のチャネル周波数領域信号に基づいて第2のチャネルノイズパワースペクトルの推定値を取得し、前記第2のチャネルノイズパワースペクトルの前記推定値に基づいて前記第2の初期ウィナー利得係数を決定するように特に構成される請求項39乃至43のいずれか一項に記載の装置。 - 前記第1のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第1のチャネル周波数領域信号の第1の改善されたウィナー利得係数であり、前記第2のチャネル周波数領域信号に対応する前記ウィナー利得係数は前記第2のチャネル周波数領域信号の第2の改善されたウィナー利得係数であり、
前記第2のチャネル間時間差推定モジュールは、前記第2の取得モジュールが前記現在のフレームを取得した後に前記第1のチャネル周波数領域信号の第1の初期ウィナー利得係数および前記第2のチャネル周波数領域信号の第2の初期ウィナー利得係数を取得することと、前記第1の改善されたウィナー利得係数を取得するために、前記第1の初期ウィナー利得係数のためのバイナリマスキング関数を構築することと、前記第2の改善されたウィナー利得係数を取得するために、前記第2の初期ウィナー利得係数のためのバイナリマスキング関数を構築することとを行うように特に構成される請求項39乃至43のいずれか一項に記載の装置。 - 互いに結合された不揮発性メモリとプロセッサとを備え、前記プロセッサは、請求項1乃至24のいずれか一項に記載のステレオオーディオ信号遅延推定方法を行うために前記メモリに記憶されたプログラムコードを呼び出す、オーディオコーディング装置。
- コンピュータプログラムを備え、前記コンピュータプログラムがコンピュータ上で実行されるとき、前記コンピュータは、請求項1乃至24のいずれか一項に記載のステレオオーディオ信号遅延推定方法を行うことが可能にされる、コンピュータ記憶媒体。
- 符号化されたビットストリームを備え、前記符号化されたビットストリームは、請求項1乃至24のいずれか一項に記載のステレオオーディオ信号遅延推定方法により取得されたステレオオーディオ信号のチャネル間時間差を備える、コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010700806.7 | 2020-07-17 | ||
CN202010700806.7A CN113948098A (zh) | 2020-07-17 | 2020-07-17 | 一种立体声音频信号时延估计方法及装置 |
PCT/CN2021/106515 WO2022012629A1 (zh) | 2020-07-17 | 2021-07-15 | 一种立体声音频信号时延估计方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023533364A true JP2023533364A (ja) | 2023-08-02 |
Family
ID=79326926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023502886A Pending JP2023533364A (ja) | 2020-07-17 | 2021-07-15 | ステレオオーディオ信号遅延推定方法および装置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20230154483A1 (ja) |
EP (1) | EP4170653A4 (ja) |
JP (1) | JP2023533364A (ja) |
KR (1) | KR20230035387A (ja) |
CN (1) | CN113948098A (ja) |
BR (1) | BR112023000850A2 (ja) |
CA (1) | CA3189232A1 (ja) |
WO (1) | WO2022012629A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115691515A (zh) * | 2022-07-12 | 2023-02-03 | 南京拓灵智能科技有限公司 | 一种音频编解码方法及装置 |
WO2024053353A1 (ja) * | 2022-09-08 | 2024-03-14 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 信号処理装置、及び、信号処理方法 |
CN116032901B (zh) * | 2022-12-30 | 2024-07-26 | 北京天兵科技有限公司 | 多路音频数据信号采编方法、装置、系统、介质和设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004002192A1 (en) * | 2002-06-21 | 2003-12-31 | University Of Southern California | System and method for automatic room acoustic correction |
CN101848412B (zh) * | 2009-03-25 | 2012-03-21 | 华为技术有限公司 | 通道间延迟估计的方法及其装置和编码器 |
CN107479030B (zh) * | 2017-07-14 | 2020-11-17 | 重庆邮电大学 | 基于分频和改进的广义互相关双耳时延估计方法 |
CN107393549A (zh) * | 2017-07-21 | 2017-11-24 | 北京华捷艾米科技有限公司 | 时延估计方法及装置 |
RU2762302C1 (ru) * | 2018-04-05 | 2021-12-17 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство, способ или компьютерная программа для оценки разности во времени между каналами |
CN110082725B (zh) * | 2019-03-12 | 2023-02-28 | 西安电子科技大学 | 基于麦克风阵列的声源定位时延估计方法、声源定位系统 |
CN109901114B (zh) * | 2019-03-28 | 2020-10-27 | 广州大学 | 一种适用于声源定位的时延估计方法 |
CN111239686B (zh) * | 2020-02-18 | 2021-12-21 | 中国科学院声学研究所 | 一种基于深度学习的双通道声源定位方法 |
-
2020
- 2020-07-17 CN CN202010700806.7A patent/CN113948098A/zh active Pending
-
2021
- 2021-07-15 BR BR112023000850A patent/BR112023000850A2/pt unknown
- 2021-07-15 JP JP2023502886A patent/JP2023533364A/ja active Pending
- 2021-07-15 CA CA3189232A patent/CA3189232A1/en active Pending
- 2021-07-15 KR KR1020237004478A patent/KR20230035387A/ko active Search and Examination
- 2021-07-15 EP EP21842542.9A patent/EP4170653A4/en active Pending
- 2021-07-15 WO PCT/CN2021/106515 patent/WO2022012629A1/zh active Application Filing
-
2023
- 2023-01-13 US US18/154,549 patent/US20230154483A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
CA3189232A1 (en) | 2022-01-20 |
KR20230035387A (ko) | 2023-03-13 |
US20230154483A1 (en) | 2023-05-18 |
CN113948098A (zh) | 2022-01-18 |
BR112023000850A2 (pt) | 2023-04-04 |
EP4170653A1 (en) | 2023-04-26 |
EP4170653A4 (en) | 2023-11-29 |
WO2022012629A1 (zh) | 2022-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023533364A (ja) | ステレオオーディオ信号遅延推定方法および装置 | |
TWI653627B (zh) | 用以估計通道間時間差的裝置及方法與相關電腦程式 | |
TWI666627B (zh) | 高階保真立體音響訊號表象之壓縮方法和裝置以及解壓縮方法和裝置 | |
US11664034B2 (en) | Optimized coding and decoding of spatialization information for the parametric coding and decoding of a multichannel audio signal | |
AU2011357816B2 (en) | Determining the inter-channel time difference of a multi-channel audio signal | |
TWI714046B (zh) | 用於估計聲道間時間差的裝置、方法或計算機程式 | |
CN112154502A (zh) | 支持生成舒适噪声 | |
TW200816168A (en) | Processing of excitation in audio coding and decoding | |
US12067993B2 (en) | Inter-channel phase difference parameter encoding method and apparatus | |
JP2015517121A (ja) | インターチャネル差分推定方法及び空間オーディオ符号化装置 | |
JP6487569B2 (ja) | チャネル間時間差パラメータを決定するための方法および装置 | |
JP2023551040A (ja) | オーディオの符号化及び復号方法及び装置 | |
JP2022163058A (ja) | ステレオ信号符号化方法およびステレオ信号符号化装置 | |
WO2017206794A1 (zh) | 一种声道间相位差参数的提取方法及装置 | |
US11922958B2 (en) | Method and apparatus for determining weighting factor during stereo signal encoding | |
EP3465681A1 (en) | Method and apparatus for voice or sound activity detection for spatial audio | |
JP2017058696A (ja) | インターチャネル差分推定方法及び空間オーディオ符号化装置 | |
KR102697288B1 (ko) | 채널-간 위상 차이 파라미터 인코딩 방법 및 장치 | |
RU2648632C2 (ru) | Классификатор многоканального звукового сигнала | |
KR20240130819A (ko) | 채널-간 위상 차이 파라미터 인코딩 방법 및 장치 | |
JP2024521486A (ja) | コインシデントステレオ捕捉のためのチャネル間時間差(itd)推定器の改善された安定性 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240319 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240619 |