JP7204774B2 - チャネル間時間差を推定するための装置、方法またはコンピュータプログラム - Google Patents
チャネル間時間差を推定するための装置、方法またはコンピュータプログラム Download PDFInfo
- Publication number
- JP7204774B2 JP7204774B2 JP2020554532A JP2020554532A JP7204774B2 JP 7204774 B2 JP7204774 B2 JP 7204774B2 JP 2020554532 A JP2020554532 A JP 2020554532A JP 2020554532 A JP2020554532 A JP 2020554532A JP 7204774 B2 JP7204774 B2 JP 7204774B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- channel
- weighting
- cross
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 166
- 238000004590 computer program Methods 0.000 title claims description 13
- 238000001228 spectrum Methods 0.000 claims description 131
- 230000003595 spectral effect Effects 0.000 claims description 94
- 238000009499 grossing Methods 0.000 claims description 66
- 238000012545 processing Methods 0.000 claims description 50
- 238000004458 analytical method Methods 0.000 claims description 48
- 238000010606 normalization Methods 0.000 claims description 20
- 230000000694 effects Effects 0.000 claims description 13
- 238000000354 decomposition reaction Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 8
- 230000004807 localization Effects 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 24
- 230000006870 function Effects 0.000 description 22
- 238000004364 calculation method Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 12
- 230000015572 biosynthetic process Effects 0.000 description 11
- 238000001514 detection method Methods 0.000 description 11
- 238000003786 synthesis reaction Methods 0.000 description 11
- 238000005314 correlation function Methods 0.000 description 9
- 230000006835 compression Effects 0.000 description 7
- 238000007906 compression Methods 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 239000002131 composite material Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 240000006829 Ficus sundaica Species 0.000 description 1
- 206010019133 Hangover Diseases 0.000 description 1
- 125000000205 L-threonino group Chemical group [H]OC(=O)[C@@]([H])(N([H])[*])[C@](C([H])([H])[H])([H])O[H] 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Complex Calculations (AREA)
Description
の信号および右チャネル
の信号がフレーム化され、ウィンドウイングされ、DFT
を使用して周波数領域に変換される。
は時間サンプルインデックスであり、
はフレームインデックスであり、
は周波数インデックスであり、
はフレーム長であり、
はDFT長であり、
は分析ウィンドウである。
3.平滑化:相互相関スペクトルが、スペクトル平坦度測度に依存する平滑化係数を用いて、経時的に平滑化される。ITD推定器を定常的なトーン性信号に対してよりロバストにするために、スペクトル平坦度が低い場合は、より強力な平滑化が使用される。ITD推定器を過渡信号により迅速に適応させるために、すなわち信号が急速に変化している場合に、スペクトル平坦度が高いときは、より弱い平滑化が使用される。
5.逆変換:最終的なGCCが、相互相関スペクトル
を時間領域
に変換し戻すことによって取得される。
式中、
は0と1との間のパラメータである。
は、通常の相互相関の場合に対応し、
は、GCC-PHATの場合に対応する。通常、1未満であるが、1に近い値が使用され、これにより、相関の高いビンをより強調することにより、GCC-PHATを修正することが可能であり、相関の高いビンは通常、信号に対応し、一方、相関の低いビンは雑音に対応する。より正確には、
の値が最良の性能を与えることがわかった([4]においては0.75、[5]においては0.78であった)。
は、SADが信号を検出するフレーム上で推定することができ、一方、雑音のレベル
は雑音推定器によって推定される。このとき、高レベルの背景雑音の存在は、信号対雑音比
(dB単位)を閾値と比較することによって単純に検出され、たとえば、
である場合、高レベルの雑音が検出される。
が計算される。
2.相互相関スペクトル:従来技術と同じ
3.平滑化:従来技術と同じ、またはスペクトル特性に基づいて本明細書に記載されているものと同じ
4.重み付け:低レベルの背景雑音が検出された場合、従来技術と同じ重み付けが使用される(GCC-PHAT)。
ここで、
(例えば、
)である。GCC-MCSP出力をGCC-PHAT出力と同じ範囲内に保つために、追加の正規化ステップが実施される。
5.逆変換:従来技術と同じ
6.ピークピッキング:高レベルの背景雑音が検出され、MCSP重み付けが使用される場合に、ピークピッキングを適応させることができる。特に、より低い閾値が有益であることが見出された。
次に、
を、SNRに依存する重み係数
を用いて重み付けすることにより、閾値
が計算される。
かつ
である場合、隣接するピークが高い顕著なピークが拒否されないようにするために、ピークの大きさはまた、わずかに緩和された閾値(
)とも比較される。重み係数は、たとえば、ahigh=3,alow=2.5およびalowest=2であり得、一方、SNRthresholdは、たとえば、20dBであり得、境界ε=0.05であり得る。
式中、gは各パラメータ帯域に対して計算される利得であり、送信されているチャネル間レベル差(ILD)の関数である。
式中、
はパラメータ帯域ごとに送信される予測利得である。
DFTによって行われるステレオ処理からのさらなる時間周波数分解により、符号化システムの全体的な遅延を大幅に増大させることなく、良好な聴覚シーン分析が可能になることが重要である。デフォルトでは、10ミリ秒の時間分解能(コアコーダの20ミリ秒のフレーミングの2倍)が使用される。分析ウィンドウと合成ウィンドウとは同じであり、対称的である。ウィンドウは、図7において16kHzのサンプリングレートで表されている。重複領域は、発生する遅延を減らすために制限されており、後に説明するように、周波数領域においてITDを適用するときに、循環シフトを相殺するためにゼロパディングも追加されていることがわかる。
ステレオパラメータは最大で、ステレオDFTの時間分解能で送信することができる。これは最小で、コアコーダのフレーミング解像度、すなわち20msに減らすことができる。デフォルトでは、過渡が検出されない場合、パラメータは2つのDFTウィンドウにわたって20ミリ秒ごとに計算される。パラメータ帯域は、等価矩形帯域幅(ERB)の約2倍または4倍に続く、スペクトルの不均一で重複しない分解を構成する。デフォルトでは、16kHzの周波数帯域幅(32kbpsのサンプリングレート、超広帯域ステレオ)の合計12帯域に4倍のERBスケールが使用される。図8は、ステレオサイド情報が約5kbpsで送信される構成例をまとめたものである。
ITDは、位相変換を用いた一般化相互相関(GCC-PHAT)を使用して到来時間遅延(TDOA)を推定することによって計算される。
式中、LおよびRは、それぞれ左チャネルおよび右チャネルの周波数スペクトルである。周波数分析は、後続のステレオ処理に使用されるDFTとは独立して実施することができ、または、共有することができる。ITDを計算するための擬似コードは以下のとおりである。
R=fft(window(r));
tmp=L.*conj(R);
sfm_L=prod(abs(L).^(1/length(L)))/(mean(abs(L))+eps);
sfm_R=prod(abs(R).^(1/length(R)))/(mean(abs(R))+eps);
sfm=max(sfm_L,sfm_R);
h.cross_corr_smooth=(1-sfm)*h.cross_corr_smooth+sfm*tmp;
tmp=h.cross_corr_smooth./abs(h.cross_corr_smooth+eps);
tmp=ifft(tmp);
tmp=tmp([length(tmp)/2+1:length(tmp)1:length(tmp)/2+1]);
tmp_sort=sort(abs(tmp));
thresh=3*tmp_sort(round(0.95*length(tmp_sort)));
xcorr_time=abs(tmp(-(h.stereo_itd_q_max-(length(tmp)-1)/2-1):-(h.stereo_itd_q_min-(length(tmp)-1)/2-1)));
%smooth output for better detection
xcorr_time=[xcorr_time 0];
xcorr_time2=filter([0.25 0.5 0.25],1,xcorr_time)
if m>thresh
itd=h.stereo_itd_q_max-i+1;
else
itd=0;
end
図4eは、広帯域整合パラメータの例としてのチャネル間時間差のロバストで効率的な計算を得るために、先に示した擬似コードを実施するためのフローチャートを示している。
これには符号化器における追加の遅延が必要であり、これは、最大で処理可能な最大絶対ITDと等しい。ITDの経時的な変動は、DFTの分析ウィンドウイングによって平滑化される。
循環シフトによって時間シフトをシミュレートするには、DFTウィンドウのゼロパディングが必要である。ゼロパディングのサイズは、処理可能な最大絶対ITDに対応する。好ましい実施形態では、ゼロパディングは、両端に3.125ミリ秒のゼロを追加することによって、分析ウィンドウの両側で均一に分割される。その場合、可能な最大絶対ITDは6.25msである。A-Bマイクロフォン設定では、これは最悪の場合、2つのマイクロフォン間の約2.15メートルの最大距離に対応する。ITDの経時的な変動は、合成ウィンドウイングおよびDFTの重畳加算によって平滑化される。
IPDは、2つのチャネルを時間整合した後に計算され、これは、ステレオ構成に応じて、各パラメータ帯域、または少なくとも最大で所与の
に対して計算される。
次に、IPDが2つのチャネルに、それらの位相を整合させるために適用される。
式中、
、
であり、bは、周波数インデックスkが属するパラメータ帯域インデックスである。パラメータ
は、位相を整合させながら、2つのチャネル間で位相回転の量を分散させる役割を果たす。
は、IPDだけでなく、チャネルの相対振幅レベルILDにも依存する。チャネルの振幅が大きい場合、そのチャネルは先行チャネルと見なされ、振幅のより小さいチャネルよりも位相回転の影響を受けにくくなる。
和差変換は、エネルギーがミッド信号において保存されるように、2つのチャネルの時間および位相整合したスペクトルに対して実施される。
式中、
は1/1.2~1.2の範囲、すなわち-1.58~+1.58dBに制限される。この制限により、MおよびSのエネルギーを調整する際のアーティファクトが回避される。時間および位相が事前に整合されている場合、このエネルギー節約はそれほど重要ではないことに留意されたい。代替的に、境界は増減されてもよい。
式中、
であり、式中、
である。代替的に、前の式で推定された残差およびILDの平均二乗誤差(MSE)を最小化することにより、最適な予測利得gを求めることができる。
より高いパラメータ帯域について、サイド信号が予測され、チャネルが以下のように更新される。
最後に、チャネルがステレオ信号の元のエネルギーおよびチャネル間位相を復元することを目的として複素数値と乗算される。
式中、
ここで、aは前に定義されたように定義され、制限され、式中、
であり、atan2(x,y)は、yに対するxの4象限逆正接である.
最後に、チャネルは、送信ITDに応じて、時間領域または周波数領域のいずれかで時間シフトされる。時間領域チャネルは、逆DFTおよび重畳加算によって合成される。
[1] Patent application. “Apparatus and Method for Estimating an Inter-Channel Time Difference.” International Application Number PCT/EP2017/051214
Claims (30)
- 第1のチャネル信号と第2のチャネル信号との間のチャネル間時間差を推定するための装置であって、
前記第1のチャネル信号もしくは前記第2のチャネル信号または両方の信号または前記第1のチャネル信号もしくは前記第2のチャネル信号から導出される信号の信号特性(1038)を推定するための信号分析器(1037)と、
時間ブロック内の前記第1のチャネル信号および前記時間ブロック内の前記第2のチャネル信号から前記時間ブロックの相互相関スペクトルを計算するための計算器(1020)と、
前記信号分析器(1037)によって推定されている信号特性に応じて、第1の重み付け手順(1036a)または第2の重み付け手順(1036b)を使用して、重み付き相互相関スペクトルを得るために、平滑化または非平滑化相互相関スペクトルを重み付けするための重み付け手段(1036)であり、前記第1の重み付け手順は、前記第2の重み付け手順とは異なり、前記第1の重み付け手順(1036a)は、振幅が正規化され、位相が維持されるような重み付けを含み、前記第2の重み付け手順(1036b)は、指数が1未満または0より大きいべき乗演算または対数関数を使用して前記平滑化または非平滑化相互相関スペクトルから導出される重み付け係数を含む、重み付け手段(1036)と、
前記チャネル間時間差を取得するために前記重み付き相互相関スペクトルを処理するためのプロセッサ(1040)と
を備える、装置。 - 前記信号分析器(1037)が、前記第1のチャネル信号もしくは前記第2のチャネル信号または両方の信号または前記第1のチャネル信号もしくは前記第2のチャネル信号から導出される信号の雑音レベル(1038)を推定するための雑音推定器(1037)として構成され、第1の信号特性が第1の雑音レベルであり、第2の信号特性が第2の雑音レベルであり、または、前記信号分析器(1037)が、信号が第1の特性または第2の特性を有するかを判断するために、発話/音楽分析、干渉話者分析、背景音楽分析、明瞭発話分析、または任意の他の信号分析を実施するように構成されている、請求項1に記載の装置。
- 前記第1の重み付け手順(1036a)が第1の信号特性に対して選択され、前記第2の重み付け手順(1036b)が第2の信号特性に対して選択され、前記第1の信号特性が前記第2の信号特性とは異なる、請求項1に記載の装置。
- 前記第2の重み付け手順(1036b)は、振幅が正規化され、位相が維持されるような重み付けを含み、加えて、指数が1未満または0より大きい、または、0.79~0.82である、べき乗演算を使用して前記平滑化または非平滑化相互相関スペクトルから導出される重み付け係数を含む、請求項1~3のいずれか一項に記載の装置。
- 前記第1の重み付け手順(1036a)が以下の式に従って動作し、
、または
前記第2の重み付け手順(1036b)が以下の式に従って動作し、
は、前記第1の重み付け手順を適用することによって得られる周波数インデックスkおよび時間インデックスsの重み付けされた平滑化または非平滑化相互相関スペクトル値であり、
は、前記第2の重み付け手順を適用することによって得られる周波数インデックスkおよび時間インデックスsの重み付けされた平滑化または非平滑化相互相関スペクトル値であり、
は、周波数インデックスkおよび時間インデックスsの平滑化または非平滑化相互相関スペクトル値であり、
は1とは異なる指数値である、
請求項1~4のいずれか一項に記載の装置。 - 前記第2の重み付け手順(1036b)は、第2の正規化手順の出力範囲が、第1の正規化手順の出力範囲が位置決めされる範囲内にあるような、または、前記第2の正規化手順の出力範囲が、前記第1の正規化手順の出力範囲と同じであるような、正規化を含む、請求項1~5のいずれか一項に記載の装置。
- 前記プロセッサ(1040)が、前記第1の重み付け手順(1036a)または前記第2の重み付け手順(1036b)が使用されているかに応じて、第1のピークピッキング動作(1041)または第2のピークピッキング動作(1042)を実施するように構成されており、前記第1のピークピッキング動作は、前記第2のピークピッキング動作とは異なる、請求項1~7のいずれか一項に記載の装置。
- 前記第2の重み付け手順が使用されるときに前記第2のピークピッキング動作(1042)が使用され、前記第2のピークピッキング動作(1042)が、前記第1のピークピッキング動作(1041)によって使用される第1の閾値よりも低い第2の閾値を適用するように構成されている、請求項8に記載の装置。
- 前記雑音推定器(1037)は、背景雑音のレベルを推定するように構成されており(1060)、または、推定雑音レベルを経時的に平滑化するように構成されており(1061)、またはIIR平滑化フィルタを使用するように構成されている、請求項2および請求項2に戻って引用する場合の請求項3~9のいずれか一項に記載の装置。
- 前記雑音推定器(1037)は、前記時間ブロックをアクティブまたは非アクティブとして分類するための信号活動検出器(1070)をさらに備え、前記雑音推定器(1037)は、1つまたは複数のアクティブな時間ブロックを使用して信号レベルを計算する(1072)ように構成されており、または、前記雑音推定器(1037)は、信号対雑音比が閾値を下回る場合に、高い背景雑音レベルをシグナリングする(1050)するように構成されており、前記閾値が45~25dBの範囲にある、請求項2および請求項2に戻って引用する場合の請求項3~10のいずれか一項に記載の装置。
- 前記時間ブロックの前記第1のチャネル信号または前記第2のチャネル信号のスペクトルの特性を推定するためのスペクトル特性推定器(1010)と、
平滑化相互相関スペクトルを取得するために、前記スペクトル特性を使用して経時的に前記相互相関スペクトルを平滑化するための平滑化フィルタ(1030)と
を備え、前記重み付け手段(1036)は、前記平滑化相互相関スペクトルを重み付けするように構成されている、
請求項1~11のいずれか一項に記載の装置。 - 前記プロセッサ(1040)は、前記平滑化相互相関スペクトルの大きさを使用して、前記平滑化相互相関スペクトルを正規化する(1036a)ように構成されている、請求項1~12のいずれか一項に記載の装置。
- 前記プロセッサ(1040)は、
前記平滑化相互相関スペクトルまたは正規化された平滑化相互相関スペクトルの時間領域表現を計算し(1031)、
前記チャネル間時間差を決定するために、前記時間領域表現を分析する(1032)ように構成されている、
請求項1~13のいずれか一項に記載の装置。 - 前記プロセッサ(1040)は、前記時間領域表現をローパスフィルタリングし(458)、前記ローパスフィルタリングの結果をさらに処理する(1033)ように構成されている請求項14に記載の装置。
- 前記プロセッサ(1040)は、前記平滑化相互相関スペクトルから決定される時間領域表現内でピーク探索またはピークピッキング動作(1041、1042)を実施することによって前記チャネル間時間差決定を実施するように構成されている、請求項1~15のいずれか一項に記載の装置。
- 前記スペクトル特性推定器(1010)は、前記スペクトル特性として、前記スペクトルの雑音性またはトーン性を決定するように構成されており、
前記平滑化フィルタ(1030)は、第1の雑音の少ない特性もしくは第1のよりトーン性の高い特性の場合に第1の平滑化度によって経時的により強い平滑化を適用するように、または、第2の雑音の多い特性または第2のよりトーン性の低い特性の場合に第2の平滑化度によって経時的により弱い平滑化を適用するように構成されており、
前記第1の平滑化度は前記第2の平滑化度よりも大きく、前記第1の雑音の少ない特性は前記第2の雑音の多い特性よりも雑音が少ないか、または、前記第1のよりトーン性の高い特性は、前記第2のよりトーン性の低い特性よりもトーン性が高い、
請求項12~16のいずれか一項に記載の装置。 - 前記スペクトル特性推定器(1010)は、前記スペクトル特性として、前記第1のチャネル信号のスペクトルの第1のスペクトル平坦度測度および前記第2のチャネル信号の第2のスペクトルの第2のスペクトル平坦度測度を計算し、前記第1のスペクトル平坦度測度および前記第2のスペクトル平坦度測度から最大値を選択するか、前記第1のスペクトル平坦度測度と前記第2のスペクトル平坦度測度との間の加重平均もしくは非加重平均を決定するか、または前記第1のスペクトル平坦度測度および前記第2のスペクトル平坦度測度から最小値を選択することにより、前記第1のスペクトル平坦度測度および前記第2のスペクトル平坦度測度から前記スペクトル特性を決定するように構成されている、請求項12~17のいずれか一項に記載の装置。
- 前記平滑化フィルタ(1030)は、前記時間ブロックからの周波数の前記相互相関スペクトル値と、少なくとも1つの過去の時間ブロックからの前記周波数の相互相関スペクトル値との重み付け組み合わせによって、前記周波数の平滑化相互相関スペクトル値を計算するように構成されており、前記重み付け組み合わせの重み付け係数は、前記スペクトルの前記特性によって決定される、請求項12~18のいずれか一項に記載の装置。
- 前記プロセッサ(1040)は、前記重み付けされた平滑化または非平滑化相互相関スペクトルから導出される時間領域表現内の有効範囲および無効範囲を決定するように構成されており(1120)、
前記無効範囲内の少なくとも1つの最大ピークが検出され(1121)、前記有効範囲内の最大ピークと比較され(1123)、前記チャネル間時間差は、前記有効範囲内の前記最大ピークが前記無効範囲内の少なくとも1つの最大ピークよりも大きいときにのみ決定される(1124)、
請求項1~19のいずれか一項に記載の装置。 - 前記プロセッサ(1040)は、
前記平滑化相互相関スペクトルから導出された時間領域表現内でピーク検索動作を実施し(1102)、
前記時間領域表現から可変閾値の変数を決定し(1105)、
ピークを可変閾値と比較する(1106、1035)ように構成されており、前記チャネル間時間差は、ピークが前記可変閾値と所定の関係にあることに関連するタイムラグとして決定される、
請求項1~20のいずれか一項に記載の装置。 - 前記プロセッサ(1040)は、前記可変閾値を、前記時間領域表現の値の10%などの最大部分の中の値の整数倍に等しい値として決定する(1105)ように構成されている、請求項21に記載の装置。
- 前記プロセッサ(1040)は、前記平滑化相互相関スペクトルから導出される時間領域表現の複数のサブブロックの各サブブロックにおける最大ピーク振幅を決定する(1102)ように構成されており、
前記プロセッサ(1040)は、前記複数のサブブロックの前記最大ピークの大きさから導出される(1103)平均ピークの大きさに基づいて可変閾値を計算する(1105、1034)ように構成されており、
前記プロセッサ(1140)は、前記チャネル間時間差を、前記可変閾値よりも大きい前記複数のサブブロックの最大ピークに対応するタイムラグ値として決定するように構成されている、
請求項1~22のいずれか一項に記載の装置。 - 前記プロセッサ(1140)は、前記平均ピークの大きさと値との乗算によって前記可変閾値を計算する(1105)ように構成されており、前記平均ピークの大きさは、前記複数のサブブロックの前記最大ピークの大きさの平均として決定され、
前記値は、前記第1のチャネル信号および前記第2のチャネル信号に特徴的なSNR(信号対雑音比)によって決定され、第1の値は、第1のSNR値に関連付けられ、第2の値は、第2のSNR値に関連付けられ、前記第1の値は前記第2の値よりも大きく、前記第1のSNR値は前記第2のSNR値よりも大きい、
請求項23に記載の装置。 - 前記プロセッサは、第3のSNR値が前記第2のSNR値よりも低い場合、および前記閾値と最大ピークとの間の差が所定の値よりも低い場合に、前記第2の値(alow)よりも低い第3の値(alowest)を使用する(1104)ように構成されている、請求項24に記載の装置。
- 前記雑音推定器(1037)が、背景雑音推定値を提供するための背景雑音推定器(1060)および時間平滑化手段(1061)を備え、または
前記雑音推定器(1037)は、信号活動検出器(1070)、前記信号活動検出器(1070)の制御下でのみアクティブなフレームを選択するためのフレームセレクタ(1071)、および前記アクティブなフレーム内の信号レベルを計算するための信号レベル計算器(1072)、および前記信号レベル計算器(1072)の結果を経時的に平滑化して信号レベル推定値を提供するための時間平滑化手段(1073)を備え、または
前記雑音推定器(1037)は、フレームの平滑化または非平滑化信号レベルおよび平滑化または非平滑化背景雑音レベルから信号対雑音比を計算する(1074)ように構成されており、コンパレータ(1075)が、前記フレームの雑音レベル(1038、1050)を提供するために、前記信号対雑音比を前記フレームの閾値と比較する、
請求項2および請求項2に戻って引用する場合の請求項3~25のいずれか一項に記載の装置。 - 前記装置は、
前記推定チャネル間時間差の保存もしくは送信を実施し、または
前記推定チャネル間時間差を使用して、前記第1のチャネル信号および前記第2のチャネル信号のステレオもしくはマルチチャネル処理もしくは符号化を実施し、または
前記チャネル間時間差を使用して前記2つのチャネル信号の時間整合を実施し、または
前記推定チャネル間時間差を使用して到来時間差推定を実施し、または
2つのマイクロフォンおよび既知のマイクロフォン設定を有する部屋の中の話者位置を決定するために前記チャネル間時間差を使用して到来時間差推定を実施し、または
前記推定チャネル間時間差を使用してビームフォーミングを実施し、または
前記推定チャネル間時間差を使用して空間フィルタリングを実施し、または
前記推定チャネル間時間差を使用して前景または背景分解を実施し、または
前記推定チャネル間時間差を使用して音源の位置特定動作を実施し、または
前記第1のチャネル信号と前記第2のチャネル信号との間、または、前記第1のチャネル信号と、前記第2のチャネル信号と、少なくとも1つの追加の信号との間の時間差に基づいて音響三角測量を実施することにより、前記推定チャネル間時間差を使用して音源の位置特定を実施するように構成されている、
請求項1~26のいずれか一項に記載の装置。 - 第1のチャネル信号と第2のチャネル信号との間のチャネル間時間差を推定するための方法であって、
前記第1のチャネル信号もしくは前記第2のチャネル信号または両方の信号または前記第1のチャネル信号もしくは前記第2のチャネル信号から導出される信号の信号特性を推定することと、
時間ブロック内の前記第1のチャネル信号および前記時間ブロック内の前記第2のチャネル信号から前記時間ブロックの相互相関スペクトルを計算することと、
推定されている信号特性に応じて、第1の重み付け手順または第2の重み付け手順を使用して、重み付き相互相関スペクトルを得るために、平滑化または非平滑化相互相関スペクトルを重み付けすることであり、前記第1の重み付け手順は、前記第2の重み付け手順とは異なり、前記第1の重み付け手順は、振幅が正規化され、位相が維持されるような重み付けを含み、前記第2の重み付け手順は、指数が1未満または0より大きいべき乗演算または対数関数を使用して前記平滑化または非平滑化相互相関スペクトルから導出される重み付け係数を含む、重み付けすることと、
前記チャネル間時間差を取得するために前記重み付き相互相関スペクトルを処理することと
を含む、方法。 - 前記時間ブロックの前記第1のチャネル信号または前記第2のチャネル信号のスペクトルの特性を推定することと、
平滑化相互相関スペクトルを取得するために前記スペクトル特性を使用して経時的に前記相互相関スペクトルを平滑化することと
をさらに含み、前記重み付けは、前記平滑化相互相関スペクトルを重み付けする、
請求項28に記載の方法。 - コンピュータまたはプロセッサ上で実施されるときに、請求項28または29に記載の方法を実施するためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022210992A JP2023036893A (ja) | 2018-04-05 | 2022-12-28 | チャネル間時間差を推定するための装置、方法またはコンピュータプログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18165882.4 | 2018-04-05 | ||
EP18165882 | 2018-04-05 | ||
PCT/EP2019/058434 WO2019193070A1 (en) | 2018-04-05 | 2019-04-03 | Apparatus, method or computer program for estimating an inter-channel time difference |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022210992A Division JP2023036893A (ja) | 2018-04-05 | 2022-12-28 | チャネル間時間差を推定するための装置、方法またはコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021519949A JP2021519949A (ja) | 2021-08-12 |
JP7204774B2 true JP7204774B2 (ja) | 2023-01-16 |
Family
ID=61965696
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020554532A Active JP7204774B2 (ja) | 2018-04-05 | 2019-04-03 | チャネル間時間差を推定するための装置、方法またはコンピュータプログラム |
JP2022210992A Pending JP2023036893A (ja) | 2018-04-05 | 2022-12-28 | チャネル間時間差を推定するための装置、方法またはコンピュータプログラム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022210992A Pending JP2023036893A (ja) | 2018-04-05 | 2022-12-28 | チャネル間時間差を推定するための装置、方法またはコンピュータプログラム |
Country Status (18)
Country | Link |
---|---|
US (2) | US11594231B2 (ja) |
EP (3) | EP3776541B1 (ja) |
JP (2) | JP7204774B2 (ja) |
KR (1) | KR102550424B1 (ja) |
CN (2) | CN118283489A (ja) |
AR (1) | AR117567A1 (ja) |
AU (1) | AU2019249872B2 (ja) |
BR (1) | BR112020020457A2 (ja) |
CA (1) | CA3095971C (ja) |
ES (1) | ES2909343T3 (ja) |
MX (1) | MX2020010462A (ja) |
PL (1) | PL3776541T3 (ja) |
PT (1) | PT3776541T (ja) |
RU (1) | RU2762302C1 (ja) |
SG (1) | SG11202009801VA (ja) |
TW (1) | TWI714046B (ja) |
WO (1) | WO2019193070A1 (ja) |
ZA (1) | ZA202006125B (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11418879B2 (en) * | 2020-05-13 | 2022-08-16 | Nxp B.V. | Audio signal blending with beat alignment |
CN113948098A (zh) * | 2020-07-17 | 2022-01-18 | 华为技术有限公司 | 一种立体声音频信号时延估计方法及装置 |
CN116075889A (zh) * | 2020-08-31 | 2023-05-05 | 弗劳恩霍夫应用研究促进协会 | 依赖混合噪声信号的多声道信号产生器、音频编码器及相关方法 |
CN112242150B (zh) * | 2020-09-30 | 2024-04-12 | 上海佰贝科技发展股份有限公司 | 一种检测立体声的方法及其系统 |
CN117501361A (zh) * | 2021-06-15 | 2024-02-02 | 瑞典爱立信有限公司 | 用于重合立体声捕获的声道间时差(itd)估计器的提高的稳定性 |
WO2023038637A1 (en) * | 2021-09-13 | 2023-03-16 | Luminous Computing, Inc. | Optical filter system and method of operation |
CN114324972B (zh) * | 2022-01-10 | 2022-09-13 | 浙江大学 | 一种适用于流体互相关测速的自适应广义互相关时延估计方法 |
WO2024053353A1 (ja) * | 2022-09-08 | 2024-03-14 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 信号処理装置、及び、信号処理方法 |
WO2024202972A1 (ja) * | 2023-03-29 | 2024-10-03 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | チャネル間時間差推定装置、及び、チャネル間時間差推定方法 |
WO2024202997A1 (ja) * | 2023-03-29 | 2024-10-03 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | チャネル間時間差推定装置、及び、チャネル間時間差推定方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013097273A (ja) | 2011-11-02 | 2013-05-20 | Toyota Motor Corp | 音源推定装置、方法、プログラム、及び移動体 |
WO2017125563A1 (en) | 2016-01-22 | 2017-07-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for estimating an inter-channel time difference |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5434948A (en) | 1989-06-15 | 1995-07-18 | British Telecommunications Public Limited Company | Polyphonic coding |
US7116787B2 (en) * | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
US7720230B2 (en) * | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
US7573912B2 (en) | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
KR20080066537A (ko) * | 2007-01-12 | 2008-07-16 | 엘지전자 주식회사 | 부가정보를 가지는 오디오신호의 부호화/복호화 방법 및장치 |
GB2453117B (en) * | 2007-09-25 | 2012-05-23 | Motorola Mobility Inc | Apparatus and method for encoding a multi channel audio signal |
MX2010004220A (es) | 2007-10-17 | 2010-06-11 | Fraunhofer Ges Forschung | Codificacion de audio usando mezcla descendente. |
KR101405956B1 (ko) * | 2007-12-28 | 2014-06-12 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
BRPI0908630B1 (pt) | 2008-05-23 | 2020-09-15 | Koninklijke Philips N.V. | Aparelho de 'upmix' estéreo paramétrico, decodificador estéreo paramétrico, método para a geração de um sinal esquerdo e de um sinal direito a partir de um sinal de 'downmix' mono com base em parâmetros espaciais, dispositivo de execução de áudio, aparelho de 'downmix' estéreo paramétrico, codificador estéreo paramétrico, método para a geração de um sinal residual de previsão para um sinal de diferença a partir de um sinal esquerdo e de um sinal direito com base nos parâmetros espaciais, e, produto de programa de computador |
WO2010037426A1 (en) * | 2008-10-03 | 2010-04-08 | Nokia Corporation | An apparatus |
CN102292767B (zh) * | 2009-01-22 | 2013-05-08 | 松下电器产业株式会社 | 立体声音响信号编码装置、立体声音响信号解码装置及它们的编解码方法 |
KR101433701B1 (ko) * | 2009-03-17 | 2014-08-28 | 돌비 인터네셔널 에이비 | 적응형으로 선택가능한 좌/우 또는 미드/사이드 스테레오 코딩과 파라메트릭 스테레오 코딩의 조합에 기초한 진보된 스테레오 코딩 |
CN101848412B (zh) * | 2009-03-25 | 2012-03-21 | 华为技术有限公司 | 通道间延迟估计的方法及其装置和编码器 |
CN102157152B (zh) * | 2010-02-12 | 2014-04-30 | 华为技术有限公司 | 立体声编码的方法、装置 |
PL2671222T3 (pl) * | 2011-02-02 | 2016-08-31 | Ericsson Telefon Ab L M | Określanie międzykanałowej różnicy czasu wielokanałowego sygnału audio |
US9253574B2 (en) * | 2011-09-13 | 2016-02-02 | Dts, Inc. | Direct-diffuse decomposition |
JP2015517121A (ja) * | 2012-04-05 | 2015-06-18 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | インターチャネル差分推定方法及び空間オーディオ符号化装置 |
US9460729B2 (en) * | 2012-09-21 | 2016-10-04 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
EP2980789A1 (en) * | 2014-07-30 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhancing an audio signal, sound enhancing system |
EP3165000A4 (en) * | 2014-08-14 | 2018-03-07 | Rensselaer Polytechnic Institute | Binaurally integrated cross-correlation auto-correlation mechanism |
CN106033671B (zh) * | 2015-03-09 | 2020-11-06 | 华为技术有限公司 | 确定声道间时间差参数的方法和装置 |
CN107742521B (zh) * | 2016-08-10 | 2021-08-13 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
-
2019
- 2019-04-03 ES ES19713826T patent/ES2909343T3/es active Active
- 2019-04-03 CN CN202410175071.9A patent/CN118283489A/zh active Pending
- 2019-04-03 KR KR1020207031943A patent/KR102550424B1/ko active IP Right Grant
- 2019-04-03 RU RU2020135902A patent/RU2762302C1/ru active
- 2019-04-03 MX MX2020010462A patent/MX2020010462A/es unknown
- 2019-04-03 BR BR112020020457-9A patent/BR112020020457A2/pt active Search and Examination
- 2019-04-03 AU AU2019249872A patent/AU2019249872B2/en active Active
- 2019-04-03 JP JP2020554532A patent/JP7204774B2/ja active Active
- 2019-04-03 CN CN201980037464.0A patent/CN112262433B/zh active Active
- 2019-04-03 EP EP19713826.6A patent/EP3776541B1/en active Active
- 2019-04-03 SG SG11202009801VA patent/SG11202009801VA/en unknown
- 2019-04-03 EP EP24194360.4A patent/EP4435783A2/en active Pending
- 2019-04-03 PL PL19713826T patent/PL3776541T3/pl unknown
- 2019-04-03 WO PCT/EP2019/058434 patent/WO2019193070A1/en active Application Filing
- 2019-04-03 PT PT197138266T patent/PT3776541T/pt unknown
- 2019-04-03 TW TW108111909A patent/TWI714046B/zh active
- 2019-04-03 CA CA3095971A patent/CA3095971C/en active Active
- 2019-04-03 EP EP21212592.6A patent/EP3985665B1/en active Active
- 2019-04-05 AR ARP190100911A patent/AR117567A1/es active IP Right Grant
-
2020
- 2020-09-29 US US17/036,261 patent/US11594231B2/en active Active
- 2020-10-02 ZA ZA2020/06125A patent/ZA202006125B/en unknown
-
2022
- 2022-12-28 JP JP2022210992A patent/JP2023036893A/ja active Pending
-
2023
- 2023-01-26 US US18/159,932 patent/US20230169985A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013097273A (ja) | 2011-11-02 | 2013-05-20 | Toyota Motor Corp | 音源推定装置、方法、プログラム、及び移動体 |
WO2017125563A1 (en) | 2016-01-22 | 2017-07-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for estimating an inter-channel time difference |
Non-Patent Citations (1)
Title |
---|
KNAPP, Charles H.,The Generalized Correlation Method for Estimation of Time Delay,IEEE TRANSACTIONS ON ACOUSTIC, SPEECH, AND SIGNAL PROCESSING,VOL. ASSP-24, NO.4,米国,IEEE,1976年08月,pp.320-327 |
Also Published As
Publication number | Publication date |
---|---|
WO2019193070A1 (en) | 2019-10-10 |
AU2019249872B2 (en) | 2021-11-04 |
EP3985665A1 (en) | 2022-04-20 |
TWI714046B (zh) | 2020-12-21 |
KR102550424B1 (ko) | 2023-07-04 |
JP2021519949A (ja) | 2021-08-12 |
PL3776541T3 (pl) | 2022-05-23 |
CN112262433A (zh) | 2021-01-22 |
ZA202006125B (en) | 2022-07-27 |
AU2019249872A1 (en) | 2020-11-12 |
CA3095971C (en) | 2023-04-25 |
PT3776541T (pt) | 2022-03-21 |
JP2023036893A (ja) | 2023-03-14 |
CN112262433B (zh) | 2024-03-01 |
SG11202009801VA (en) | 2020-11-27 |
US20210012784A1 (en) | 2021-01-14 |
US11594231B2 (en) | 2023-02-28 |
MX2020010462A (es) | 2020-10-22 |
TW202004734A (zh) | 2020-01-16 |
US20230169985A1 (en) | 2023-06-01 |
CN118283489A (zh) | 2024-07-02 |
KR20200140864A (ko) | 2020-12-16 |
EP4435783A2 (en) | 2024-09-25 |
CA3095971A1 (en) | 2019-10-10 |
EP3776541A1 (en) | 2021-02-17 |
ES2909343T3 (es) | 2022-05-06 |
RU2762302C1 (ru) | 2021-12-17 |
AR117567A1 (es) | 2021-08-18 |
EP3776541B1 (en) | 2022-01-12 |
BR112020020457A2 (pt) | 2021-01-12 |
EP3985665B1 (en) | 2024-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7161564B2 (ja) | チャネル間時間差を推定する装置及び方法 | |
JP7204774B2 (ja) | チャネル間時間差を推定するための装置、方法またはコンピュータプログラム | |
RU2741379C1 (ru) | Оборудование для кодирования или декодирования кодированного многоканального сигнала с использованием заполняющего сигнала, сформированного посредством широкополосного фильтра |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220126 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220415 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220725 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7204774 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |