JP7159928B2 - 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム - Google Patents
雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム Download PDFInfo
- Publication number
- JP7159928B2 JP7159928B2 JP2019045649A JP2019045649A JP7159928B2 JP 7159928 B2 JP7159928 B2 JP 7159928B2 JP 2019045649 A JP2019045649 A JP 2019045649A JP 2019045649 A JP2019045649 A JP 2019045649A JP 7159928 B2 JP7159928 B2 JP 7159928B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- covariance matrix
- spatial covariance
- time
- noise spatial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000011159 matrix material Substances 0.000 title claims description 138
- 238000000034 method Methods 0.000 title claims description 17
- 239000000203 mixture Substances 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 23
- 230000001629 suppression Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/1752—Masking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Description
[記号の定義]
まず、以下の実施形態で使用する記号を定義する。
I:Iはマイクロホン数を表す正整数である。例えば、I≧2である。
i:iはマイクロホン番号を表す正整数であり、1≦i≦Iを満たす。マイクロホン番号iのマイクロホン(すなわちi番目のマイクロホン)を「マイクロホンi」と表記する。マイクロホン番号iに対応する値やベクトルは、下付き添え字「i」を持つ記号で表現される。
S:Sは音源数を表す正整数である。例えば、S≧2である。音源は目的音源と目的音源以外の雑音源とを含む。
s:sは音源番号を表す正整数であり、1≦s≦Sを満たす。音源番号sの音源(すなわちs番目の音源)を「音源s」と表記する。
J:Jは雑音源数を表す正整数である。例えば、S≧J≧1である。
j,j’:j,j’は雑音源番号を表す正整数であり、1≦j,j’≦Jを満たす。雑音源番号jの雑音源(すなわちj番目の雑音源)を「雑音源j」と表記する。また雑音源番号は丸括弧付きの右上添え字で表す。雑音源番号jの雑音源に基づく値やベクトルは、右上添え字「(j)」を持つ記号で表現される。j’についても同様である。また、本明細書では、全雑音源から発せられた音を足し合わせた音を雑音として扱う。
L:Lは長時間区間を表す。長時間区間は処理対象の全時間区間であってもよいし、処理対象の全時間区間の一部の時間区間であってもよい。
Bk:Bkは一つの短時間区間(短時間ブロック)を表す。異なる複数の短時間区間をB1,…,BKで表し、Kは1以上の整数であり、k=1,…,Kである。例えば、長時間区間LをK個の時間区間に区分して得られるのが短時間区間B1,…,BKである。短時間区間B1,…,BKの一部またはすべては、長時間区間L以外の区間に含まれるものであってもよい。
t,τ:t,τは時間フレームの番号を表す正整数である。時間フレーム番号tに対応する値やベクトルは、下付き添え字「t」を持つ記号で表現される。τについても同様である。
f:fは周波数帯域番号を表す正整数である。周波数帯域番号fに対応する値やベクトルは、下付き添え字「f」を持つ記号で表現される。
T:Tは行列やベクトルの非共役転置を表す。αTはαを非共役転置して得られる行列やベクトルを表す。
H:Hは行列やベクトルの共役転置(エルミート転置)を表す。αHはαを共役転置して得られる行列やベクトルを表す。
α∈β:α∈βはαがβに属することを表す。
次に図1および図2を参照して第1実施形態の雑音空間共分散行列推定装置10の構成およびその処理内容を説明する。
図1に例示するように、本実施形態の雑音空間共分散行列推定装置10は、雑音空間共分散行列計算部11,13、および混合重み計算部12を有する。
雑音空間共分散行列計算部11は、単数または複数の音源s∈{1,…,S}から発せられた音響信号を集音して得られた観測信号に基づく時間周波数別観測信号xt,f、および、各時間周波数別観測信号xt,fに含まれる各雑音源jに対応する成分の占有確率を表すマスク情報λt,f (j)を入力とし、それらを用い、各雑音源j∈{1,…,J}について長時間区間Lに属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)に対応する時間非依存の雑音空間共分散行列Ψf (j)(第1雑音空間共分散行列)を得て出力する(ステップS11)。なお、雑音源とは、音声のように一つの場所から生成される音(点音源)以外に、暗騒音のように周囲のあらゆる方向から到来する音(拡散性雑音)も含むものとする。また、「λt,f (j)」の右上添字の「(j)」は本来右下添字の「t,f」の真上に記載すべきであるが、記載表記の制約上、「t,f」の右上に記載してある。「Ψf (j)」などその他の右上添字「(j)」を用いた表記も同様である。
音源sから発せられた音響信号はI個のマイクロホンi∈{1,…,I}(図示せず)で集音される。例えば、音源s∈{1,…,S}の何れかは雑音源j∈{1,…,J}である。集音された音響信号は時間領域のデジタル信号Xτ,1,…,Xτ,Iに変換され、時間領域のデジタル信号Xτ,1,…,Xτ,Iは、所定の時間区間ごとに周波数領域変換される。時間区間ごとの周波数領域変換の一例は短時間フーリエ変換である。例えば、当該時間区間ごとの周波数領域変換によって得られた信号を時間周波数別観測信号xt,f,1,…,xt,f,Iとし、xt,f=(xt,f,1,…,xt,f,I)Tとしてもよいし、当該時間区間ごとの周波数領域変換によって得られた信号らに何等かの演算を行って得られたものを時間周波数別観測信号xt,f,1,…,xt,f,Iとし、xt,f=(xt,f,1,…,xt,f,I)Tとしてもよい。すなわち、例えばi番目のマイクロホンで集音して得られた観測信号に対応する時間フレームtでの周波数帯域fに対応する各時間周波数別観測信号がxt,f,i(i∈{1,…,I})であり、xt,f=(xt,f,1,…,xt,f,I)Tである。本実施形態の雑音空間共分散行列計算部11には、少なくとも長時間区間Lに属する時間周波数別観測信号xt,f(ただしt∈L)が入力される。長時間区間Lに属する時間周波数別観測信号xt,fのみが入力されてもよいし、長時間区間Lを含む長時間区間Lよりも長い時間区間に属する時間周波数別観測信号xt,fが入力されてもよい。長時間区間Lに限定はない。例えば、集音が行われた時間区間全体を長時間区間Lとしてもよいし、そこから切り出された音声区間を長時間区間Lとしてもよいし、予め定められた時間区間を長時間区間Lとしてもよいし、指定された時間区間を長時間区間Lとしてもよい。長時間区間Lの例は、1秒から数十秒程度の時間区間である。時間周波数別観測信号xt,fは、図示していない記憶装置に格納されたものであってもよいし、ネットワークを通じて送信されるものであってもよい。
マスク情報λt,f (j)は、各時間周波数別観測信号xt,fに含まれる各雑音源jに対応する成分の占有確率を表す。言い換えると、マスク情報λt,f (j)は、時間フレームtでの周波数帯域fの各時間周波数別観測信号xt,f,1,…,xt,f,Iに含まれたj番目の雑音源に対応する成分の占有確率を表す。本実施形態では、図示していない外部の装置によって、少なくとも長時間区間Lに属する時間フレームt∈Lおよび短時間区間Bkに属する時間フレームt∈Bkについて各周波数帯域fおよび各雑音源jに対応するマスク情報λt,f (j)が推定されるものとする。マスク情報λt,f (j)の推定方法に限定はない。マスク情報λt,f (j)の推定方法は周知であり、例えば、complex Gaussian mixture model (CGMM)を用いる推定方法(例えば、参考文献1)、ニューラルネットワークを用いる推定方法(例えば、参考文献2)、およびそれらを結合した推定方法(例えば、参考文献3)などの様々な方法が知られている。
参考文献1:T. Higuchi, N. Ito, T. Yoshioka, and T. Nakatani, "Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise," Proc. IEEE ICASSP-2016, pp. 5210-5214, 2016.
参考文献2:J. Heymann, L. Drude, and R. Haeb-Umbach, "Neural network based spectral mask estimation for acoustic beamforming," Proc. IEEE ICASSP-2016, pp. 196-200, 2016.
参考文献3:T. Nakatani, N. Ito, T. Higuchi, S. Araki, and K. Kinoshita, "Integrating DNN-based and spatial clustering-based mask estimation for robust MVDR beamforming," Proc. IEEE ICASSP-2017, pp. 286-290, 2017.
マスク情報λt,f (j)は、事前に推定されて図示していない記憶装置に格納されたものであってもよいし、逐次的に推定されるものであってもよい。
本実施形態の雑音空間共分散行列計算部11は、時間周波数別観測信号xt,fとマスク情報λt,f (j)とを入力とし、長時間区間Lに属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)に対応する時間非依存の雑音空間共分散行列Ψf (j)を推定して出力する。例えば、雑音空間共分散行列Ψf (j)は、長時間区間Lに属する時間フレームt∈Lでの周波数帯域fについてのλt,f (j)・xt,f・xt,f Hの総和または重み付け和である。例えば、雑音空間共分散行列計算部11は、以下の式(1)のように雑音空間共分散行列Ψf (j)を計算(推定)して出力する。
混合重み計算部12は、互いに異なる複数の短時間区間Bk(ただし、k∈{1,…,K})それぞれのマスク情報λt,f (j)を入力とし、それらを用いて各短時間区間Bkにおける各雑音源j∈{1,…,J}に対応する混合重みμk,f (j)を得て出力する(ステップS12)。混合重みμk,f (j)の例は、全雑音源j’∈{1,…,J}についての各短時間区間Bkに属する時間フレーム番号tでの周波数帯域fに対応するマスク情報λt,f (j’)の総和に対する、各雑音源jについての各短時間区間Bkに属する時間フレームtでの周波数帯域fに対応するマスク情報λt,f (j)の総和の割合である。例えば、混合重み計算部12は、以下の式(2)のように混合重みμk,f (j)を得て出力する。
雑音空間共分散行列計算部13は、時間周波数別観測信号xt,f、各雑音源j∈{1,…,J}のマスク情報λt,f (j)、各雑音源jの雑音空間共分散行列Ψf (j)、および各雑音源jの混合重みμk,f (j)を入力とし、各雑音源n∈{1,…,J}について各短時間区間Bk(ただし、k∈{1,…,K})に属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)に対応する時変の雑音空間共分散行列(第2雑音空間共分散行列)と、各短時間区間Bkの混合重みμk,f (j)による雑音空間共分散行列Ψf (j)(第1雑音空間共分散行列)の重み付け和と、に基づく時変の雑音空間共分散行列R^k,f(第3雑音空間共分散行列)を得て出力する(ステップS13)。なお、「R」の右上添字「^」は本来「R」の真上に記載すべきであるが、記載表記の制約上、「R」の右上に記載する場合がある。例えば、全雑音源の足しあわせで構成される雑音について各短時間区間Bkおよび周波数帯域fに属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)に対応する時変の雑音空間共分散行列(第2雑音空間共分散行列)は、各短時間区間Bkに属する時間フレームtおよび全雑音源jでのλt,f (j)・xt,f・xt,f Hの総和または重み付け和である。また、雑音空間共分散行列R^k,f(第3雑音空間共分散行列)は、全雑音源の足しあわせで構成される雑音について各短時間区間Bkおよび周波数帯域fに属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)に対応する時変の雑音空間共分散行列(第2雑音空間共分散行列)と、混合重みμk,f (j)による雑音空間共分散行列Ψf (j)の全雑音源j∈{1,…,J}についての重み付け和と、の重み付け和に基づく。例えば、雑音空間共分散行列計算部13は、以下の式(3)のように時変の雑音空間共分散行列R^k,fを計算(推定)して出力する。
本実施形態では、全雑音源の足しあわせで構成される雑音について各短時間区間Bk(ただし、k∈{1,…,K})および各周波数帯fに属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)に対応する時変の雑音空間共分散行列(第2雑音空間共分散行列)と、各短時間区間Bkの混合重みμk,f (j)による雑音空間共分散行列Ψf (j)(第1雑音空間共分散行列)の重み付け和と、に基づく時変の雑音空間共分散行列R^k,f(第3雑音空間共分散行列)を生成した。ここで、雑音空間共分散行列Ψf (j)は長時間区間Lに属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)をすべて用いて計算されたものであり(ステップS11)、雑音空間共分散行列Ψf (j)について高い推定精度を担保できる。一方で、短時間区間B1,…,BKについて、全雑音源の足しあわせで構成される雑音について各短時間区間Bkに属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)に対応する時変の雑音空間共分散行列と、各短時間区間Bkの混合重みμk,f (j)による雑音空間共分散行列Ψf (j)の重み付け和と、に基づく時変の雑音空間共分散行列R^k,fを得るため、得られた雑音空間共分散行列R^k,fは各短時間区間Bkでの時間変化に柔軟に追従するものとなる。このように実施形態では、精度が高く、時間周波数別観測信号xt,fの時間変化に柔軟に追従する雑音空間共分散行列を得ることができる。
次に第2実施形態を説明する。第2実施形態の第1実施形態との相違点は、入力されたパラメータに基づいて、第3雑音空間共分散行列における第1雑音空間共分散行列および第2雑音空間共分散行列の重みを変更可能な点である。以下では既に説明した事項との相違点を中心に説明し、既に説明した事項については同じ参照番号を用いて説明を簡略化する。
次に第3実施形態を説明する。第3実施形態は第1,2実施形態の応用例であり、第1,2実施形態のように生成された雑音空間共分散行列R^k,fを雑音抑圧処理に利用するものである。以下、図3Aおよび図3Bを参照して第3実施形態の雑音抑圧装置30の構成およびその処理内容を説明する。
参考文献4:T Higuchi, N Ito, T Yoshioka, T Nakatani, "Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise," Proc. ICASSP 2016, 2016.
参考文献5:J Heymann, L Drude, R Haeb-Umbach, "Neural network based spectral mask estimation for acoustic beamforming," Proc.ICASSP 2016, 2016.
ビームフォーマWk,fは抑圧部33に送られる。
yt,f=Wk,fxt,f (4)
時間周波数別抑圧信号yt,fは周波数領域で他の処理に利用されてもよいし、時間領域に変換されてもよい。例えば、上述のように得られた時間周波数別抑圧信号yt,fを音声認識処理に利用した場合、非特許文献1に示した時不変の雑音共分散行列推定法を用いてビームフォーマを推定し雑音抑圧をしてえられる信号を音声認識処理に利用する場合に比べて単語誤り率を20%程度改善できる。
なお、本発明は上述の実施形態に限定されるものではない。例えば、上述の実施形態では長時間区間Lの更新が行われなかったが、長時間区間Lを更新しながら、各短時間区間について上述のように時変の雑音空間共分散行列R^k,fを得てもよい。例えば、バッチ処理によって前述のように雑音空間共分散行列R^k,fを得てもよいし、リアルタイムで雑音空間共分散行列推定装置に入力される時系列の時間周波数別観測信号xt,fおよびマスク情報λt,f (j)から長時間区間L分のデータを順次切り出して前述のように雑音空間共分散行列R^k,fを得てもよい。
また、式(3)に代えて以下のように雑音空間共分散行列R^k,fを計算してもよい。
Claims (5)
- 単数または複数の音源から発せられた音響信号を集音して得られた観測信号に基づく時間周波数別観測信号、および、各前記時間周波数別観測信号に含まれる各雑音源に対応する成分の占有確率を表すマスク情報を用い、各前記雑音源について長時間区間に属する前記時間周波数別観測信号および前記マスク情報に対応する時間非依存の第1雑音空間共分散行列を得る第1雑音空間共分散行列計算部と、
互いに異なる複数の短時間区間それぞれの前記マスク情報を用い、各前記短時間区間における各前記雑音源に対応する混合重みを得る混合重み計算部と、
各前記短時間区間に属する前記時間周波数別観測信号および前記マスク情報に対応する、前記雑音源すべての足しあわせで構成される雑音についての時変の第2雑音空間共分散行列と、
各前記短時間区間の前記混合重みによる前記第1雑音空間共分散行列の重み付け和と、
に基づく時変の第3雑音空間共分散行列を得る
第2雑音空間共分散行列計算部と、
を有する雑音空間共分散行列推定装置。 - 請求項1の雑音空間共分散行列推定装置であって、
前記第3雑音空間共分散行列は、前記第2雑音空間共分散行列と、各前記短時間区間での前記混合重みによる前記第1雑音空間共分散行列の重み付け和と、の重み付け和であり、
前記第3雑音空間共分散行列における前記第1雑音空間共分散行列および前記第2雑音空間共分散行列の重みを変更可能である、雑音空間共分散行列推定装置。 - 請求項1または2の雑音空間共分散行列推定装置であって、
αTはαの非共役転置を表し、αHはαの共役転置を表し、
J個の前記雑音源が存在し、Jが1以上の整数であり、
前記観測信号はI個のマイクロホンで集音されたものであり、Iが2以上の整数であり、
i番目のマイクロホンで集音して得られた前記観測信号に対応する時間フレームtでの周波数帯域fに対応する各前記時間周波数別観測信号がxt,f,iであり、xt,f=(xt,f,1,…,xt,f,I)Tであり、
時間フレームtでの周波数帯域fの各前記時間周波数別観測信号xt,f,1,…,xt,f,Iに含まれたj番目の前記雑音源に対応する成分の占有確率を表す前記マスク情報がλt,f (j)であり、
j番目の各前記雑音源に対応する前記第1雑音空間共分散行列は、前記長時間区間に属する時間フレームtでの周波数帯域fについてのλt,f (j)・xt,f・xt,f Hの総和または重み付け和であるΨf (j)であり、
各前記短時間区間B1,…,BKについて、Kが2以上の整数であり、k=1,…,Kであり、
各前記雑音源j∈{1,…,J}についての各前記短時間区間Bkでの周波数帯域fに対応する前記混合重みμk,f (j)が、全前記雑音源j’∈{1,…,J}についての各前記短時間区間Bkに属する時間フレームtでの周波数帯域fに対応する前記マスク情報λt,f (j’)の総和に対する、各前記雑音源jについての各前記短時間区間Bkに属する時間フレームtでの周波数帯域fに対応する前記マスク情報λt,f (j)の総和の割合であり、
各前記短時間区間Bkおよび各周波数帯fに属する前記時間周波数別観測信号xt,fおよび前記マスク情報λt,f (j)に対応する前記第2雑音空間共分散行列は、各前記短時間区間B k に属する時間フレームtおよび全雑音源jでの、各周波数帯fについてのλt,f (j)・xt,f・xt,f Hの総和または重み付け和であり、
前記第3雑音空間共分散行列が、前記第2雑音空間共分散行列と、前記混合重みμk,f (j)による前記第1雑音空間共分散行列Ψf (j)の全前記雑音源jについての重み付け和と、の重み付け和に基づく、雑音空間共分散行列推定装置。 - 単数または複数の音源から発せられた音響信号を集音して得られた観測信号に基づく時間周波数別観測信号、および、各前記時間周波数別観測信号に含まれる各雑音源に対応する成分の占有確率を表すマスク情報を用い、各前記雑音源について長時間区間に属する前記時間周波数別観測信号および前記マスク情報に対応する時間非依存の第1雑音空間共分散行列を得る第1雑音空間共分散行列計算ステップと、
互いに異なる複数の短時間区間それぞれの前記マスク情報を用い、各前記短時間区間における各前記雑音源に対応する混合重みを得る混合重み計算ステップと、
各前記短時間区間に属する前記時間周波数別観測信号および前記マスク情報に対応する、前記雑音源すべての足しあわせで構成される雑音についての時変の第2雑音空間共分散行列と、
各前記短時間区間の前記混合重みによる前記第1雑音空間共分散行列の重み付け和と、
に基づく時変の第3雑音空間共分散行列を得る
第2雑音空間共分散行列計算ステップと、
を有する雑音空間共分散行列推定方法。 - 請求項1から3の何れかに記載の雑音空間共分散行列推定装置としてコンピュータを機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019045649A JP7159928B2 (ja) | 2019-03-13 | 2019-03-13 | 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム |
PCT/JP2020/008216 WO2020184210A1 (ja) | 2019-03-13 | 2020-02-28 | 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム |
US17/437,701 US11676619B2 (en) | 2019-03-13 | 2020-02-28 | Noise spatial covariance matrix estimation apparatus, noise spatial covariance matrix estimation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019045649A JP7159928B2 (ja) | 2019-03-13 | 2019-03-13 | 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020148880A JP2020148880A (ja) | 2020-09-17 |
JP7159928B2 true JP7159928B2 (ja) | 2022-10-25 |
Family
ID=72427857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019045649A Active JP7159928B2 (ja) | 2019-03-13 | 2019-03-13 | 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11676619B2 (ja) |
JP (1) | JP7159928B2 (ja) |
WO (1) | WO2020184210A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113506582B (zh) * | 2021-05-25 | 2024-07-09 | 北京小米移动软件有限公司 | 声音信号识别方法、装置及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019045576A (ja) | 2017-08-30 | 2019-03-22 | 日本電信電話株式会社 | 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム |
-
2019
- 2019-03-13 JP JP2019045649A patent/JP7159928B2/ja active Active
-
2020
- 2020-02-28 US US17/437,701 patent/US11676619B2/en active Active
- 2020-02-28 WO PCT/JP2020/008216 patent/WO2020184210A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019045576A (ja) | 2017-08-30 | 2019-03-22 | 日本電信電話株式会社 | 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム |
Non-Patent Citations (1)
Title |
---|
HIGUCHI, Takuya, et al.,Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise,2016 IEEE International Conference on Acoustics, Speech and Signal Processing,2016年05月19日,p.5210-5214,ISSN 2379-190X |
Also Published As
Publication number | Publication date |
---|---|
JP2020148880A (ja) | 2020-09-17 |
US11676619B2 (en) | 2023-06-13 |
US20220130406A1 (en) | 2022-04-28 |
WO2020184210A1 (ja) | 2020-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4195267B2 (ja) | 音声認識装置、その音声認識方法及びプログラム | |
JP6652519B2 (ja) | ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム | |
CN104685562A (zh) | 用于从嘈杂输入信号中重构目标信号的方法和设备 | |
JP6225245B2 (ja) | 信号処理装置、方法及びプログラム | |
CN115223583A (zh) | 一种语音增强方法、装置、设备及介质 | |
JP6815956B2 (ja) | フィルタ係数算出装置、その方法、及びプログラム | |
JP7159928B2 (ja) | 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム | |
JP5726790B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
JP6711765B2 (ja) | 形成装置、形成方法および形成プログラム | |
US12212939B2 (en) | Target sound signal generation apparatus, target sound signal generation method, and program | |
JP4630203B2 (ja) | 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体、並びに、信号到来方向推定装置、信号到来方向推定方法、信号到来方向推定プログラム及び記録媒体 | |
EP3557576A1 (en) | Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program | |
JP7444243B2 (ja) | 信号処理装置、信号処理方法、およびプログラム | |
Nielsen et al. | An Analysis of Traditional Noise Power Spectral Density Estimators Based on the Gaussian Stochastic Volatility Model | |
Fontaine et al. | Multichannel audio modeling with elliptically stable tensor decomposition | |
JP6827908B2 (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
JP7173355B2 (ja) | Psd最適化装置、psd最適化方法、プログラム | |
JP7173356B2 (ja) | Psd最適化装置、psd最適化方法、プログラム | |
JP2018191255A (ja) | 収音装置、その方法、及びプログラム | |
CN113990343B (zh) | 语音降噪模型的训练方法和装置及语音降噪方法和装置 | |
JP7270869B2 (ja) | 情報処理装置、出力方法、及び出力プログラム | |
JP7264282B2 (ja) | 音声強調装置、学習装置、それらの方法、およびプログラム | |
US20240127841A1 (en) | Acoustic signal enhancement apparatus, method and program | |
WO2021100215A1 (ja) | 音源信号推定装置、音源信号推定方法、プログラム | |
WO2024038522A1 (ja) | 信号処理装置、信号処理方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210507 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220630 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220913 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220926 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7159928 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |