JP2021519949A - チャネル間時間差を推定するための装置、方法またはコンピュータプログラム - Google Patents
チャネル間時間差を推定するための装置、方法またはコンピュータプログラム Download PDFInfo
- Publication number
- JP2021519949A JP2021519949A JP2020554532A JP2020554532A JP2021519949A JP 2021519949 A JP2021519949 A JP 2021519949A JP 2020554532 A JP2020554532 A JP 2020554532A JP 2020554532 A JP2020554532 A JP 2020554532A JP 2021519949 A JP2021519949 A JP 2021519949A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- channel
- weighting
- time
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Complex Calculations (AREA)
Abstract
Description
の信号および右チャネル
の信号がフレーム化され、ウィンドウイングされ、DFT
を使用して周波数領域に変換される。
は時間サンプルインデックスであり、
はフレームインデックスであり、
は周波数インデックスであり、
はフレーム長であり、
はDFT長であり、
は分析ウィンドウである。
3.平滑化:相互相関スペクトルが、スペクトル平坦度測度に依存する平滑化係数を用いて、経時的に平滑化される。ITD推定器を定常的なトーン性信号に対してよりロバストにするために、スペクトル平坦度が低い場合は、より強力な平滑化が使用される。ITD推定器を過渡信号により迅速に適応させるために、すなわち信号が急速に変化している場合に、スペクトル平坦度が高いときは、より弱い平滑化が使用される。
5.逆変換:最終的なGCCが、相互相関スペクトル
を時間領域
に変換し戻すことによって取得される。
式中、
は0と1との間のパラメータである。
は、通常の相互相関の場合に対応し、
は、GCC−PHATの場合に対応する。通常、1未満であるが、1に近い値が使用され、これにより、相関の高いビンをより強調することにより、GCC−PHATを修正することが可能であり、相関の高いビンは通常、信号に対応し、一方、相関の低いビンは雑音に対応する。より正確には、
の値が最良の性能を与えることがわかった([4]においては0.75、[5]においては0.78であった)。
は、SADが信号を検出するフレーム上で推定することができ、一方、雑音のレベル
は雑音推定器によって推定される。このとき、高レベルの背景雑音の存在は、信号対雑音比
(dB単位)を閾値と比較することによって単純に検出され、たとえば、
である場合、高レベルの雑音が検出される。
が計算される。
2.相互相関スペクトル:従来技術と同じ
3.平滑化:従来技術と同じ、またはスペクトル特性に基づいて本明細書に記載されているものと同じ
4.重み付け:低レベルの背景雑音が検出された場合、従来技術と同じ重み付けが使用される(GCC−PHAT)。
ここで、
(例えば、
)である。GCC−MCSP出力をGCC−PHAT出力と同じ範囲内に保つために、追加の正規化ステップが実施される。
5.逆変換:従来技術と同じ
6.ピークピッキング:高レベルの背景雑音が検出され、MCSP重み付けが使用される場合に、ピークピッキングを適応させることができる。特に、より低い閾値が有益であることが見出された。
次に、
を、SNRに依存する重み係数
を用いて重み付けすることにより、閾値
が計算される。
かつ
である場合、隣接するピークが高い顕著なピークが拒否されないようにするために、ピークの大きさはまた、わずかに緩和された閾値(
)とも比較される。重み係数は、たとえば、ahigh=3,alow=2.5およびalowest=2であり得、一方、SNRthresholdは、たとえば、20dBであり得、境界ε=0.05であり得る。
式中、gは各パラメータ帯域に対して計算される利得であり、送信されているチャネル間レベル差(ILD)の関数である。
式中、
はパラメータ帯域ごとに送信される予測利得である。
DFTによって行われるステレオ処理からのさらなる時間周波数分解により、符号化システムの全体的な遅延を大幅に増大させることなく、良好な聴覚シーン分析が可能になることが重要である。デフォルトでは、10ミリ秒の時間分解能(コアコーダの20ミリ秒のフレーミングの2倍)が使用される。分析ウィンドウと合成ウィンドウとは同じであり、対称的である。ウィンドウは、図7において16kHzのサンプリングレートで表されている。重複領域は、発生する遅延を減らすために制限されており、後に説明するように、周波数領域においてITDを適用するときに、循環シフトを相殺するためにゼロパディングも追加されていることがわかる。
ステレオパラメータは最大で、ステレオDFTの時間分解能で送信することができる。これは最小で、コアコーダのフレーミング解像度、すなわち20msに減らすことができる。デフォルトでは、過渡が検出されない場合、パラメータは2つのDFTウィンドウにわたって20ミリ秒ごとに計算される。パラメータ帯域は、等価矩形帯域幅(ERB)の約2倍または4倍に続く、スペクトルの不均一で重複しない分解を構成する。デフォルトでは、16kHzの周波数帯域幅(32kbpsのサンプリングレート、超広帯域ステレオ)の合計12帯域に4倍のERBスケールが使用される。図8は、ステレオサイド情報が約5kbpsで送信される構成例をまとめたものである。
ITDは、位相変換を用いた一般化相互相関(GCC−PHAT)を使用して到来時間遅延(TDOA)を推定することによって計算される。
式中、LおよびRは、それぞれ左チャネルおよび右チャネルの周波数スペクトルである。周波数分析は、後続のステレオ処理に使用されるDFTとは独立して実施することができ、または、共有することができる。ITDを計算するための擬似コードは以下のとおりである。
R=fft(window(r));
tmp=L.*conj(R);
sfm_L=prod(abs(L).^(1/length(L)))/(mean(abs(L))+eps);
sfm_R=prod(abs(R).^(1/length(R)))/(mean(abs(R))+eps);
sfm=max(sfm_L,sfm_R);
h.cross_corr_smooth=(1−sfm)*h.cross_corr_smooth+sfm*tmp;
tmp=h.cross_corr_smooth./abs(h.cross_corr_smooth+eps);
tmp=ifft(tmp);
tmp=tmp([length(tmp)/2+1:length(tmp)1:length(tmp)/2+1]);
tmp_sort=sort(abs(tmp));
thresh=3*tmp_sort(round(0.95*length(tmp_sort)));
xcorr_time=abs(tmp(−(h.stereo_itd_q_max−(length(tmp)−1)/2−1):−(h.stereo_itd_q_min−(length(tmp)−1)/2−1)));
%smooth output for better detection
xcorr_time=[xcorr_time 0];
xcorr_time2=filter([0.25 0.5 0.25],1,xcorr_time)
if m>thresh
itd=h.stereo_itd_q_max−i+1;
else
itd=0;
end
図4eは、広帯域整合パラメータの例としてのチャネル間時間差のロバストで効率的な計算を得るために、先に示した擬似コードを実施するためのフローチャートを示している。
これには符号化器における追加の遅延が必要であり、これは、最大で処理可能な最大絶対ITDと等しい。ITDの経時的な変動は、DFTの分析ウィンドウイングによって平滑化される。
循環シフトによって時間シフトをシミュレートするには、DFTウィンドウのゼロパディングが必要である。ゼロパディングのサイズは、処理可能な最大絶対ITDに対応する。好ましい実施形態では、ゼロパディングは、両端に3.125ミリ秒のゼロを追加することによって、分析ウィンドウの両側で均一に分割される。その場合、可能な最大絶対ITDは6.25msである。A−Bマイクロフォン設定では、これは最悪の場合、2つのマイクロフォン間の約2.15メートルの最大距離に対応する。ITDの経時的な変動は、合成ウィンドウイングおよびDFTの重畳加算によって平滑化される。
IPDは、2つのチャネルを時間整合した後に計算され、これは、ステレオ構成に応じて、各パラメータ帯域、または少なくとも最大で所与の
に対して計算される。
次に、IPDが2つのチャネルに、それらの位相を整合させるために適用される。
式中、
、
であり、bは、周波数インデックスkが属するパラメータ帯域インデックスである。パラメータ
は、位相を整合させながら、2つのチャネル間で位相回転の量を分散させる役割を果たす。
は、IPDだけでなく、チャネルの相対振幅レベルILDにも依存する。チャネルの振幅が大きい場合、そのチャネルは先行チャネルと見なされ、振幅のより小さいチャネルよりも位相回転の影響を受けにくくなる。
和差変換は、エネルギーがミッド信号において保存されるように、2つのチャネルの時間および位相整合したスペクトルに対して実施される。
式中、
は1/1.2〜1.2の範囲、すなわち−1.58〜+1.58dBに制限される。この制限により、MおよびSのエネルギーを調整する際のアーティファクトが回避される。時間および位相が事前に整合されている場合、このエネルギー節約はそれほど重要ではないことに留意されたい。代替的に、境界は増減されてもよい。
式中、
であり、式中、
である。代替的に、前の式で推定された残差およびILDの平均二乗誤差(MSE)を最小化することにより、最適な予測利得gを求めることができる。
より高いパラメータ帯域について、サイド信号が予測され、チャネルが以下のように更新される。
最後に、チャネルがステレオ信号の元のエネルギーおよびチャネル間位相を復元することを目的として複素数値と乗算される。
式中、
ここで、aは前に定義されたように定義され、制限され、式中、
であり、atan2(x,y)は、yに対するxの4象限逆正接である.
最後に、チャネルは、送信ITDに応じて、時間領域または周波数領域のいずれかで時間シフトされる。時間領域チャネルは、逆DFTおよび重畳加算によって合成される。
[1] Patent application. “Apparatus and Method for Estimating an Inter−Channel Time Difference.” International Application Number PCT/EP2017/051214
Claims (31)
- 第1のチャネル信号と第2のチャネル信号との間のチャネル間時間差を推定するための装置であって、
前記第1のチャネル信号もしくは前記第2のチャネル信号または両方の信号または前記第1のチャネル信号もしくは前記第2のチャネル信号から導出される信号の信号特性(1038)を推定するための信号分析器(1037)と、
時間ブロック内の前記第1のチャネル信号および前記時間ブロック内の前記第2のチャネル信号から前記時間ブロックの相互相関スペクトルを計算するための計算器(1020)と、
前記信号分析器(1037)によって推定されている信号特性に応じて、第1の重み付け手順(1036a)または第2の重み付け手順(1036b)を使用して、重み付き相互相関スペクトルを得るために、平滑化または非平滑化相互相関スペクトルを重み付けするための重み付け手段(1036)であり、前記第1の重み付け手順は、前記第2の重み付け手順とは異なる、重み付け手段(1036)と、
前記チャネル間時間差を取得するために前記重み付き相互相関スペクトルを処理するためのプロセッサ(1040)と
を備える、装置。 - 前記信号分析器(1037)が、前記第1のチャネル信号もしくは前記第2のチャネル信号または両方の信号または前記第1のチャネル信号もしくは前記第2のチャネル信号から導出される信号の雑音レベル(1038)を推定するための雑音推定器(1037)として構成され、第1の信号特性が第1の雑音レベルであり、第2の信号特性が第2の雑音レベルであり、または、前記信号分析器(1037)が、信号が第1の特性または第2の特性を有するかを判断するために、発話/音楽分析、干渉話者分析、背景音楽分析、明瞭発話分析、または任意の他の信号分析を実施するように構成されている、請求項1に記載の装置。
- 前記第1の重み付け手順(1036a)が第1の信号特性に対して選択され、前記第2の重み付け手順(1036b)が第2の信号特性に対して選択され、前記第1の信号特性が前記第2の信号特性とは異なる、請求項1に記載の装置。
- 前記第1の重み付け手順(1036a)は、振幅が正規化され、位相が維持されるような重み付けを含み、前記第2の重み付け手順(1036b)は、指数が1未満または0より大きいべき乗演算または対数関数を使用して前記平滑化または非平滑化相互相関スペクトルから導出される重み付け係数を含む、請求項1〜3のいずれか一項に記載の装置。
- 前記第2の重み付け手順(1036b)は、振幅が正規化され、位相が維持されるような重み付けを含み、加えて、指数が1未満または0より大きい、または、0.79〜0.82である、べき乗演算を使用して前記平滑化または非平滑化相互相関スペクトルから導出される重み付け係数を含む、請求項1〜4のいずれか一項に記載の装置。
- 前記第1の重み付け手順(1036a)が以下の式に従って動作し、
、または
前記第2の重み付け手順(1036b)が以下の式に従って動作し、
は、前記第1の重み付け手順を適用することによって得られる周波数インデックスkおよび時間インデックスsの重み付けされた平滑化または非平滑化相互相関スペクトル値であり、
は、前記第2の重み付け手順を適用することによって得られる周波数インデックスkおよび時間インデックスsの重み付けされた平滑化または非平滑化相互相関スペクトル値であり、
は、周波数インデックスkおよび時間インデックスsの平滑化または非平滑化相互相関スペクトル値であり、
は1とは異なる指数値である、
請求項1〜5のいずれか一項に記載の装置。 - 前記第2の重み付け手順(1036b)は、前記第2の正規化手順の出力範囲が、前記第1の正規化手順の出力範囲が位置決めされる範囲内にあるような、または、前記第2の正規化手順の出力範囲が、前記第1の正規化手順の出力範囲と同じであるような、正規化を含む、請求項1〜6のいずれか一項に記載の装置。
- 前記プロセッサ(1040)が、前記第1の重み付け手順(1036a)または前記第2の重み付け手順(1036b)が使用されているかに応じて、第1のピークピッキング動作(1041)または第2のピークピッキング動作(1042)を実施するように構成されており、前記第1のピークピッキング動作は、前記第2のピークピッキング動作とは異なる、請求項1〜8のいずれか一項に記載の装置。
- 前記第2の重み付け手順が使用されるときに前記第2のピークピッキング動作(1042)が使用され、前記第2のピークピッキング動作(1042)が、前記第1のピークピッキング動作(1041)によって使用される第1の閾値よりも低い第2の閾値を適用するように構成されている、請求項1〜9のいずれか一項に記載の装置。
- 前記雑音推定器(1037)は、背景雑音のレベルを推定するように構成されており(1060)、または、推定雑音レベルを経時的に平滑化するように構成されており(1061)、またはIIR平滑化フィルタを使用するように構成されている、請求項2〜10のいずれか一項に記載の装置。
- 前記雑音推定器(1037)は、前記時間ブロックをアクティブまたは非アクティブとして分類するための信号活動検出器(1070)をさらに備え、前記雑音推定器(1037)は、1つまたは複数のアクティブな時間ブロックを使用して信号レベルを計算する(1072)ように構成されており、または、前記雑音推定器(1037)は、信号対雑音比が閾値を下回る場合に、高い背景雑音レベルをシグナリングする(1050)するように構成されており、前記閾値が45〜25dBの範囲にある、請求項2〜11のいずれかの装置。
- 前記時間ブロックの前記第1のチャネル信号または前記第2のチャネル信号のスペクトルの特性を推定するためのスペクトル特性推定器(1010)と、
平滑化相互相関スペクトルを取得するために、前記スペクトル特性を使用して経時的に前記相互相関スペクトルを平滑化するための平滑化フィルタ(1030)と
を備え、前記重み付け手段(1036)は、前記平滑化相互相関スペクトルを重み付けするように構成されている、
請求項1〜12のいずれか一項に記載の装置。 - 前記プロセッサ(1040)は、前記平滑化相互相関スペクトルの大きさを使用して、前記平滑化相互相関スペクトルを正規化する(1036a)ように構成されている、請求項1〜13のいずれか一項に記載の装置。
- 前記プロセッサ(1040)は、
前記平滑化相互相関スペクトルまたは正規化された平滑化相互相関スペクトルの時間領域表現を計算し(1031)、
前記チャネル間時間差を決定するために、前記時間領域表現を分析する(1032)ように構成されている、
請求項1〜14のいずれか一項に記載の装置。 - 前記プロセッサ(1040)は、前記時間領域表現をローパスフィルタリングし(458)、前記ローパスフィルタリングの結果をさらに処理する(1033)ように構成されている請求項1〜15のいずれか一項に記載の装置。
- 前記プロセッサ(1040)は、前記平滑化相互相関スペクトルから決定される時間領域表現内でピーク探索またはピークピッキング動作(1041、1042)を実施することによって前記チャネル間時間差決定を実施するように構成されている、請求項1〜16のいずれか一項に記載の装置。
- 前記スペクトル特性推定器(1010)は、前記スペクトル特性として、前記スペクトルの雑音性またはトーン性を決定するように構成されており、
前記平滑化フィルタ(1030)は、第1の雑音の少ない特性もしくは第1のよりトーン性の高い特性の場合に第1の平滑化度によって経時的により強い平滑化を適用するように、または、第2の雑音の多い特性または第2のよりトーン性の低い特性の場合に第2の平滑化度によって経時的により弱い平滑化を適用するように構成されており、
前記第1の平滑化度は前記第2の平滑化度よりも大きく、前記第1の雑音の少ない特性は前記第2の雑音の多い特性よりも雑音が少ないか、または、前記第1のよりトーン性の高い特性は、前記第2のよりトーン性の低い特性よりもトーン性が高い、
請求項13〜17のいずれか一項に記載の装置。 - 前記スペクトル特性推定器(1010)は、前記特性として、前記第1のチャネル信号のスペクトルの第1のスペクトル平坦度測度および前記第2のチャネル信号の第2のスペクトルの第2のスペクトル平坦度測度を計算し、最大値を選択するか、前記スペクトル平坦度測度間の加重平均もしくは非加重平均を決定するか、または最小値を選択することにより、前記第1のスペクトル平坦度測度および前記第2のスペクトル平坦度測度から前記スペクトルの前記特性を決定するように構成されている、請求項13〜18のいずれか一項に記載の装置。
- 前記平滑化フィルタ(1030)は、前記時間ブロックからの周波数の前記相互相関スペクトル値と、少なくとも1つの過去の時間ブロックからの前記周波数の相互相関スペクトル値との重み付け組み合わせによって、前記周波数の平滑化相互相関スペクトル値を計算するように構成されており、前記重み付け組み合わせの重み付け係数は、前記スペクトルの前記特性によって決定される、請求項13〜19のいずれか一項に記載の装置。
- 前記プロセッサ(1040)は、前記重み付けされた平滑化または非平滑化相互相関スペクトルから導出される時間領域表現内の有効範囲および無効範囲を決定するように構成されており(1120)、
前記無効範囲内の少なくとも1つの最大ピークが検出され(1121)、前記有効範囲内の最大ピークと比較され(1123)、前記チャネル間時間差は、前記有効範囲内の前記最大ピークが前記無効範囲内の少なくとも1つの最大ピークよりも大きいときにのみ決定される(1124)、
請求項1〜20のいずれか一項に記載の装置。 - 前記プロセッサ(1040)は、
前記平滑化相互相関スペクトルから導出された時間領域表現内でピーク検索動作を実施し(1102)、
前記時間領域表現から固定閾値の変数を決定し(1105)、
ピークを可変閾値と比較する(1106、1035)ように構成されており、前記チャネル間時間差は、ピークが前記可変閾値と所定の関係にあることに関連するタイムラグとして決定される、
請求項1〜21のいずれか一項に記載の装置。 - 前記プロセッサ(1040)は、前記可変閾値を、前記時間領域表現の値の10%などの最大部分の中の値の整数倍に等しい値として決定する(1105)ように構成されている、請求項22に記載の装置。
- 前記プロセッサ(1040)は、前記平滑化相互相関スペクトルから導出される時間領域表現の複数のサブブロックの各サブブロックにおける最大ピーク振幅を決定する(1102)ように構成されており、
前記プロセッサ(1040)は、前記複数のサブブロックの前記最大ピークの大きさから導出される(1103)平均ピークの大きさに基づいて可変閾値を計算する(1105、1034)ように構成されており、
前記プロセッサ(1140)は、前記チャネル間時間差を、前記可変閾値よりも大きい前記複数のサブブロックの最大ピークに対応するタイムラグ値として決定するように構成されている、
請求項1〜23のいずれか一項に記載の装置。 - 前記プロセッサ(1140)は、前記サブブロック内の前記ピークの間の平均ピークとして決定された平均閾値と値との乗算によって前記可変閾値を計算する(1105)ように構成されており
前記値は、前記第1の信号および前記第2のチャネル信号に特徴的なSNR(信号対雑音比)によって決定され、第1の値は、第1のSNR値に関連付けられ、第2の値は、第2のSNR値に関連付けられ、前記第1の値は前記第2の値よりも大きく、前記第1のSNR値は前記第2のSNR値よりも大きい、
請求項24に記載の装置。 - 前記プロセッサは、第3のSNR値が前記第2のSNR値よりも低い場合、および前記閾値と最大ピークとの間の差が所定の値よりも低い場合に、前記第2の値(alow)よりも低い第3の値(alowest)を使用する(1104)ように構成されている、請求項25に記載の装置。
- 前記雑音推定器(1037)が、背景雑音推定値を提供するための背景雑音推定器(1060)および時間平滑化手段(1061)を備え、または
前記雑音推定器(1037)は、信号活動検出器(1070)、前記信号活動検出器(1070)の制御下でのみアクティブなフレームを選択するためのフレームセレクタ(1071)、および前記アクティブなフレーム内の信号レベルを計算するための信号レベル計算器(1072)、および前記信号レベル計算器(1072)の結果を経時的に平滑化して信号レベル推定値を提供するための時間平滑化手段(1073)を備え、または
前記雑音推定器(1037)は、フレームの平滑化または非平滑化信号レベルおよび平滑化または非平滑化背景雑音レベルから信号対雑音比を計算する(1074)ように構成されており、コンパレータ(1075)が、前記フレームの雑音レベル(1038、1050)を提供するために、前記信号対雑音比を前記フレームの閾値と比較する、
請求項2〜26のいずれか一項に記載の装置。 - 前記装置は、
前記推定チャネル間時間差の保存もしくは送信を実施し、または
前記推定チャネル間時間差を使用して、前記第1のチャネル信号および前記第2のチャネル信号のステレオもしくはマルチチャネル処理もしくは符号化を実施し、または
前記チャネル間時間差を使用して前記2つのチャネル信号の時間整合を実施し、または
前記推定チャネル間時間差を使用して到来時間差推定を実施し、または
2つのマイクロフォンおよび既知のマイクロフォン設定を有する部屋の中の話者位置を決定するために前記チャネル間時間差を使用して到来時間差推定を実施し、または
前記推定チャネル間時間差を使用してビームフォーミングを実施し、または
前記推定チャネル間時間差を使用して空間フィルタリングを実施し、または
前記推定チャネル間時間差を使用して前景または背景分解を実施し、または
前記推定チャネル間時間差を使用して音源の位置特定動作を実施し、または
前記第1のチャネル信号と前記第2のチャネル信号との間、または、前記第1のチャネル信号と、前記第2のチャネル信号と、少なくとも1つの追加の信号との間の時間差に基づいて音響三角測量を実施することにより、前記推定チャネル間時間差を使用して音源の位置特定を実施するように構成されている、
請求項1〜27のいずれか一項に記載の装置。 - 第1のチャネル信号と第2のチャネル信号との間のチャネル間時間差を推定するための方法であって、
前記第1のチャネル信号もしくは前記第2のチャネル信号または両方の信号または前記第1のチャネル信号もしくは前記第2のチャネル信号から導出される信号の信号特性を推定することと、
時間ブロック内の前記第1のチャネル信号および前記時間ブロック内の前記第2のチャネル信号から前記時間ブロックの相互相関スペクトルを計算することと、
推定されている信号特性に応じて、第1の重み付け手順または第2の重み付け手順を使用して、重み付き相互相関スペクトルを得るために、平滑化または非平滑化相互相関スペクトルを重み付けすることであり、前記第1の重み付け手順は、前記第2の重み付け手順とは異なる、重み付けすることと、
前記チャネル間時間差を取得するために前記重み付き相互相関スペクトルを処理することと
を含む、方法。 - 前記時間ブロックの前記第1のチャネル信号または前記第2のチャネル信号のスペクトルの特性を推定することと、
平滑化相互相関スペクトルを取得するために前記スペクトル特性を使用して経時的に前記相互相関スペクトルを平滑化することと
をさらに含み、前記重み付けは、前記平滑化相互相関スペクトルを重み付けする、
請求項29に記載の方法。 - コンピュータまたはプロセッサ上で実施されるときに、請求項29または30に記載の方法を実施するためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022210992A JP2023036893A (ja) | 2018-04-05 | 2022-12-28 | チャネル間時間差を推定するための装置、方法またはコンピュータプログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18165882 | 2018-04-05 | ||
EP18165882.4 | 2018-04-05 | ||
PCT/EP2019/058434 WO2019193070A1 (en) | 2018-04-05 | 2019-04-03 | Apparatus, method or computer program for estimating an inter-channel time difference |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022210992A Division JP2023036893A (ja) | 2018-04-05 | 2022-12-28 | チャネル間時間差を推定するための装置、方法またはコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021519949A true JP2021519949A (ja) | 2021-08-12 |
JP7204774B2 JP7204774B2 (ja) | 2023-01-16 |
Family
ID=61965696
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020554532A Active JP7204774B2 (ja) | 2018-04-05 | 2019-04-03 | チャネル間時間差を推定するための装置、方法またはコンピュータプログラム |
JP2022210992A Pending JP2023036893A (ja) | 2018-04-05 | 2022-12-28 | チャネル間時間差を推定するための装置、方法またはコンピュータプログラム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022210992A Pending JP2023036893A (ja) | 2018-04-05 | 2022-12-28 | チャネル間時間差を推定するための装置、方法またはコンピュータプログラム |
Country Status (18)
Country | Link |
---|---|
US (2) | US11594231B2 (ja) |
EP (2) | EP3776541B1 (ja) |
JP (2) | JP7204774B2 (ja) |
KR (1) | KR102550424B1 (ja) |
CN (1) | CN112262433B (ja) |
AR (1) | AR117567A1 (ja) |
AU (1) | AU2019249872B2 (ja) |
BR (1) | BR112020020457A2 (ja) |
CA (1) | CA3095971C (ja) |
ES (1) | ES2909343T3 (ja) |
MX (1) | MX2020010462A (ja) |
PL (1) | PL3776541T3 (ja) |
PT (1) | PT3776541T (ja) |
RU (1) | RU2762302C1 (ja) |
SG (1) | SG11202009801VA (ja) |
TW (1) | TWI714046B (ja) |
WO (1) | WO2019193070A1 (ja) |
ZA (1) | ZA202006125B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024053353A1 (ja) * | 2022-09-08 | 2024-03-14 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 信号処理装置、及び、信号処理方法 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11418879B2 (en) * | 2020-05-13 | 2022-08-16 | Nxp B.V. | Audio signal blending with beat alignment |
CN113948098A (zh) * | 2020-07-17 | 2022-01-18 | 华为技术有限公司 | 一种立体声音频信号时延估计方法及装置 |
WO2022042908A1 (en) * | 2020-08-31 | 2022-03-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel signal generator, audio encoder and related methods relying on a mixing noise signal |
CN112242150B (zh) * | 2020-09-30 | 2024-04-12 | 上海佰贝科技发展股份有限公司 | 一种检测立体声的方法及其系统 |
EP4356373A1 (en) * | 2021-06-15 | 2024-04-24 | Telefonaktiebolaget LM Ericsson (publ) | Improved stability of inter-channel time difference (itd) estimator for coincident stereo capture |
WO2023038637A1 (en) * | 2021-09-13 | 2023-03-16 | Luminous Computing, Inc. | Optical filter system and method of operation |
CN114324972B (zh) * | 2022-01-10 | 2022-09-13 | 浙江大学 | 一种适用于流体互相关测速的自适应广义互相关时延估计方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013097273A (ja) * | 2011-11-02 | 2013-05-20 | Toyota Motor Corp | 音源推定装置、方法、プログラム、及び移動体 |
WO2017125563A1 (en) * | 2016-01-22 | 2017-07-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for estimating an inter-channel time difference |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5434948A (en) | 1989-06-15 | 1995-07-18 | British Telecommunications Public Limited Company | Polyphonic coding |
US7116787B2 (en) * | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
US7720230B2 (en) * | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
US7573912B2 (en) | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
KR20080066538A (ko) * | 2007-01-12 | 2008-07-16 | 엘지전자 주식회사 | 멀티 채널 신호의 부호화/복호화 방법 및 장치 |
GB2453117B (en) * | 2007-09-25 | 2012-05-23 | Motorola Mobility Inc | Apparatus and method for encoding a multi channel audio signal |
BRPI0816557B1 (pt) | 2007-10-17 | 2020-02-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Codificação de áudio usando upmix |
KR101405956B1 (ko) * | 2007-12-28 | 2014-06-12 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
BR122020009732B1 (pt) | 2008-05-23 | 2021-01-19 | Koninklijke Philips N.V. | Método para a geração de um sinal esquerdo e de um sinal direito a partir de um sinal de downmix mono com base em parâmetros espaciais, meio legível por computador não transitório, aparelho de downmix estéreo paramétrico para a geração de um sinal de downmix mono a partir de um sinal esquerdo e de um sinal direito com base em parâmetros espaciais e método para a geração de um sinal residual de previsão para um sinal de diferença a partir de um sinal esquerdo e de um sinal direito com base em parâmetros espaciais |
US20110206209A1 (en) * | 2008-10-03 | 2011-08-25 | Nokia Corporation | Apparatus |
EP2381439B1 (en) * | 2009-01-22 | 2017-11-08 | III Holdings 12, LLC | Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same |
MX2011009660A (es) * | 2009-03-17 | 2011-09-30 | Dolby Int Ab | Codificacion estereo avanzada basada en una combinacion de codificacion izquierda/derecha o media/lateral seleccionable de manera adaptable y de codificacion estereo parametrica. |
CN101848412B (zh) * | 2009-03-25 | 2012-03-21 | 华为技术有限公司 | 通道间延迟估计的方法及其装置和编码器 |
CN102157152B (zh) * | 2010-02-12 | 2014-04-30 | 华为技术有限公司 | 立体声编码的方法、装置 |
US9424852B2 (en) * | 2011-02-02 | 2016-08-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Determining the inter-channel time difference of a multi-channel audio signal |
US9253574B2 (en) * | 2011-09-13 | 2016-02-02 | Dts, Inc. | Direct-diffuse decomposition |
KR101662682B1 (ko) * | 2012-04-05 | 2016-10-05 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 채널간 차이 추정 방법 및 공간적 오디오 코딩 장치 |
EP2898506B1 (en) * | 2012-09-21 | 2018-01-17 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
EP2980789A1 (en) * | 2014-07-30 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhancing an audio signal, sound enhancing system |
US10068586B2 (en) * | 2014-08-14 | 2018-09-04 | Rensselaer Polytechnic Institute | Binaurally integrated cross-correlation auto-correlation mechanism |
CN106033671B (zh) * | 2015-03-09 | 2020-11-06 | 华为技术有限公司 | 确定声道间时间差参数的方法和装置 |
CN107742521B (zh) * | 2016-08-10 | 2021-08-13 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
-
2019
- 2019-04-03 CN CN201980037464.0A patent/CN112262433B/zh active Active
- 2019-04-03 ES ES19713826T patent/ES2909343T3/es active Active
- 2019-04-03 KR KR1020207031943A patent/KR102550424B1/ko active IP Right Grant
- 2019-04-03 PL PL19713826T patent/PL3776541T3/pl unknown
- 2019-04-03 SG SG11202009801VA patent/SG11202009801VA/en unknown
- 2019-04-03 EP EP19713826.6A patent/EP3776541B1/en active Active
- 2019-04-03 AU AU2019249872A patent/AU2019249872B2/en active Active
- 2019-04-03 MX MX2020010462A patent/MX2020010462A/es unknown
- 2019-04-03 RU RU2020135902A patent/RU2762302C1/ru active
- 2019-04-03 JP JP2020554532A patent/JP7204774B2/ja active Active
- 2019-04-03 TW TW108111909A patent/TWI714046B/zh active
- 2019-04-03 EP EP21212592.6A patent/EP3985665A1/en active Pending
- 2019-04-03 PT PT197138266T patent/PT3776541T/pt unknown
- 2019-04-03 BR BR112020020457-9A patent/BR112020020457A2/pt active Search and Examination
- 2019-04-03 CA CA3095971A patent/CA3095971C/en active Active
- 2019-04-03 WO PCT/EP2019/058434 patent/WO2019193070A1/en active Application Filing
- 2019-04-05 AR ARP190100911A patent/AR117567A1/es active IP Right Grant
-
2020
- 2020-09-29 US US17/036,261 patent/US11594231B2/en active Active
- 2020-10-02 ZA ZA2020/06125A patent/ZA202006125B/en unknown
-
2022
- 2022-12-28 JP JP2022210992A patent/JP2023036893A/ja active Pending
-
2023
- 2023-01-26 US US18/159,932 patent/US20230169985A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013097273A (ja) * | 2011-11-02 | 2013-05-20 | Toyota Motor Corp | 音源推定装置、方法、プログラム、及び移動体 |
WO2017125563A1 (en) * | 2016-01-22 | 2017-07-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for estimating an inter-channel time difference |
Non-Patent Citations (1)
Title |
---|
KNAPP, CHARLES H.: "The Generalized Correlation Method for Estimation of Time Delay", IEEE TRANSACTIONS ON ACOUSTIC, SPEECH, AND SIGNAL PROCESSING, vol. 24, no. 4, JPN6022002970, August 1976 (1976-08-01), US, pages 320 - 327, ISSN: 0004691462 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024053353A1 (ja) * | 2022-09-08 | 2024-03-14 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 信号処理装置、及び、信号処理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112262433A (zh) | 2021-01-22 |
AU2019249872A1 (en) | 2020-11-12 |
ES2909343T3 (es) | 2022-05-06 |
US20230169985A1 (en) | 2023-06-01 |
PT3776541T (pt) | 2022-03-21 |
JP7204774B2 (ja) | 2023-01-16 |
BR112020020457A2 (pt) | 2021-01-12 |
RU2762302C1 (ru) | 2021-12-17 |
US11594231B2 (en) | 2023-02-28 |
EP3985665A1 (en) | 2022-04-20 |
AR117567A1 (es) | 2021-08-18 |
EP3776541A1 (en) | 2021-02-17 |
US20210012784A1 (en) | 2021-01-14 |
TWI714046B (zh) | 2020-12-21 |
JP2023036893A (ja) | 2023-03-14 |
MX2020010462A (es) | 2020-10-22 |
EP3776541B1 (en) | 2022-01-12 |
SG11202009801VA (en) | 2020-11-27 |
CA3095971A1 (en) | 2019-10-10 |
KR20200140864A (ko) | 2020-12-16 |
CA3095971C (en) | 2023-04-25 |
CN112262433B (zh) | 2024-03-01 |
KR102550424B1 (ko) | 2023-07-04 |
PL3776541T3 (pl) | 2022-05-23 |
AU2019249872B2 (en) | 2021-11-04 |
WO2019193070A1 (en) | 2019-10-10 |
TW202004734A (zh) | 2020-01-16 |
ZA202006125B (en) | 2022-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7161564B2 (ja) | チャネル間時間差を推定する装置及び方法 | |
KR102550424B1 (ko) | 채널 간 시간 차를 추정하기 위한 장치, 방법 또는 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220126 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220415 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220725 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7204774 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |