JP2004191968A - 信号ソースを分離するための方法及び装置 - Google Patents
信号ソースを分離するための方法及び装置 Download PDFInfo
- Publication number
- JP2004191968A JP2004191968A JP2003400576A JP2003400576A JP2004191968A JP 2004191968 A JP2004191968 A JP 2004191968A JP 2003400576 A JP2003400576 A JP 2003400576A JP 2003400576 A JP2003400576 A JP 2003400576A JP 2004191968 A JP2004191968 A JP 2004191968A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- source
- source signal
- separating
- mixed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000000203 mixture Substances 0.000 claims abstract description 60
- 238000004590 computer program Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 21
- 230000002452 interceptive effect Effects 0.000 claims description 11
- 230000005236 sound signal Effects 0.000 claims description 10
- 238000000926 separation method Methods 0.000 description 47
- 230000008569 process Effects 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 7
- 230000001419 dependent effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 101150044364 sctN1 gene Proteins 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000011551 log transformation method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【解決手段】 先ず、第1ソース信号と第2ソース信号との2つの混合体をそれぞれ表す2つの信号を得る。そこで、それら2つの信号と第1ソース及び第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して、しかも参照信号の使用を必要とすることなく、非線型信号ドメインにおいて、第1ソース信号をその混合体から分離する。
【選択図】 図1
Description
Proceedings of the IEEE 誌のvol. 9, October 1998, pp. 2009-2025 における「Blind Signal Separation: StatisticalPrinciples」と題した J.F. Cardoso 氏による論文。 Proceedings of ICSLP2000 誌の「Speech/Noise Separation Using Two Microphones and a VQ Model of SpeechSignals」と題した A. Acero 氏他による論文。 Prentice Hall SignalProcessing Series, 1993 誌の「Fundamentals of Speech Recognition」chapter 3 と題した L.Rabiner 氏他による論文。 Proceedings ofASRU2001,2002 誌の「Robust Speech Recognition with Multi-channel CodebookDependent Cepstral Normalization (MCDCN)」と題した S. Deligne 及び R. Gopinath 氏による論文。
y1 = x1-g(y1,y2,1) (1)
y2 =x2-g(y2,y1,a) (2)
なお、g(u,v,w) = C log(1+wexp(invC(v-u))) であり、invC は逆離散コサイン変換を指す。
Initialization :
y1(0)=x1
Iteration n(n≥1):
y2(n)=x2-Ey2[g(y2,y1,a)|y1=y1(n-1)]
y1(n)=x1-Ey1[g(y1,y2,1)|y2=y2(n)]
n=n+1
y2(n,t) = x2(t)-Σkp(k|x2(t))g(μ2k,y1(n-1,t),a) (3)
なお、p(k|x2(t)) は、ランダム変数 x2 がガウス分布N(μ2k+g(μ2k,y(n-1,t),a),Ξ2k(n,t)) に後続するものと仮定することによって、サブステップ202(ガウスkに対する事後計算)において計算される(なお、Ξ2k(n,t)は、ランダム変数x2 の差異を概算するために計算される。なお、g(u,v,w)=C log(1+w exp(invC(v-u))) である)。サブステップ204がp(k|x2(t)) と g(μ2k,y1(n-1,t),a) との乗算を行い、一方、サブステップ206が x2(t) と Σkp(k|x2(t))g(μ2k,y1(n-1,t),a)との減算を行う。その結果は、算定ソース y2(n,t) である。
y1(n,t) = x1(t)-Σkp(k|x1(t))g(μ1k,y2(n,t),1) (4)
なお、p(k|x1(t)) は、ランダム変数 x1 がガウス分布N(μ1k+g(μ1k,y2(n,t),1),Ξ1k(n,t)) に後続するものと仮定することによって、サブステップ208(ガウスkに対する事後計算)において計算される(なお、Ξ1k(n,t)は、ランダム変数x1 の差異を概算するために計算される。なお、g(u,v,w)=C log(1+w exp(invC(v-u))) である)。サブステップ210がp(k|x1(t)) と g(μ1k,y2(n,t),1) との乗算を行い、一方、サブステップ212が x1(t) と Σkp(k|x1(t))g(μ1k,y2(n,t),1)との減算を行う。その結果は、算定ソース y1(n,t) である。
Ξij = log[((Ξ1fij+Ξ2fij)/((μ1fi+μ2fi)(μ1fj+μ2fj)))+1]
なお、Ξ1fij(resp., Ξ2fij) は、Ξ1fij =μ1fi*μ1fj(exp(Ξ1fij)-1)(resp.,Ξ2fij=μ2fi*μ2fj(exp(Ξ2fij-1))として定義された共分散マトリクスΞ1f (resp., Ξ2f) における (i,j)th 素子を示し、μ1fi(resp.,μ2fi) は、ベクトルμ1f(resp., μ2f) の ith 次元を指し、μ1fi=exp(μ1i+Ξ1ij/2))(resp., μ2fi=exp(μ2i+(Ξ2ij/2))) である。
(A)分離されない、又は
(B)MCDCNプロセスによって分離される、又は
(C)CDSSプロセスによって分離される。
上記(A)、(B)及び(C)によって得られた音声認識エンジンのパフォーマンスがワード・エラー率(Word Error Rates - WER)によって比較される。
オリジナル音声 1.53
ノイズのある音声、分離無し 12.31
a = 0.3 a = 0.4 a = 0.5
ノイズのある音声、MCDCN 7.86 10.00 15.51
ノイズのある音声、CDSS 6.35 6.87 7.59
前記第1ソース信号及び前記第2ソース信号の2つの混合体をそれぞれ表す2つの信号を得るステップと、
前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するステップと、
を含む方法。
(2)前記2つの信号が、それぞれ、前記第1ソース信号及び前記第2ソース信号の非加重混合信号と前記第1ソース信号及び前記第2ソース信号の加重混合信号とを表す、上記(1)に記載の方法。
(3)前記分離するステップが、前記非加重混合信号を第1ケプストラル混合信号に変換すること及び前記加重混合信号を第2ケプストラル混合信号に変換することにより前記非線型ドメインにおいて遂行される、上記(2)に記載の方法。
(4)前記分離するステップが、前記第2ケプストラル混合信号と前記分離するステップにおける前の反復からの前記第1ソース信号に関する算定値とに基づいて前記第2ソース信号に関する算定値を反復的に生成するステップを含む、上記(3)に記載の方法。
(5)前記第2ソース信号に関する算定値を生成するステップは、前記第2ソース信号がガウス混合によってモデル化されることを仮定する、上記(4)に記載の方法。
(6)前記分離するステップが、更に、前記第1ケプストラル混合信号と前記第2ソース信号に関する算定値とに基づいて前記第1ソース信号に関する算定値を反復的に生成するステップを含む、上記(4)に記載の方法。
(7)前記第1ソース信号に関する算定値を生成するステップは、前記第1ソース信号がガウス混合によってモデル化されることを仮定する、上記(6)に記載の方法。
(8)前記分離された第1ソース信号が、その後、信号処理アプリケーションによって使用される、上記(1)に記載の方法。
(9)前記アプリケーションが音声認識である、上記(8)に記載の方法。
(10)前記第1ソース信号が音声信号であり、前記第2ソース信号が、競合する音声、干渉する音楽及び特定のノイズ・ソースの少なくとも1つを表す信号である、上記(1)に記載の方法。
(11)第1ソースに関連した信号(第1ソース信号)と第2ソースに関連した信号(第2ソース信号)との混合体から信号を分離するための装置であって、
メモリと、
前記メモリに結合され、(i)前記第1ソース信号及び前記第2ソース信号の2つの体をそれぞれ表す2つの混合信号を得るように動作し、(ii)前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するように動作する少なくとも1つのプロセッサと、
を含む装置。
(12)前記2つの信号が、それぞれ、前記第1ソース信号及び前記第2ソース信号の非加重混合信号と前記第1ソース信号及び前記第2ソース信号の加重混合信号とを表す、上記(11)に記載の装置。
(13)前記分離する操作が、前記非加重混合信号を第1ケプストラル混合信号に変換すること及び前記加重混合信号を第2ケプストラル混合信号に変換することにより、前記非線型ドメインにおいて遂行される、上記(12)に記載の装置。
(14)前記分離する操作が、前記第2ケプストラル混合信号及び前記分離する操作における前の反復からの前記第1ソース信号に関する算定値に基づいて前記第2ソース信号に関する算定値を反復的に生成する操作を含む、上記(13)に記載の装置。
(15)前記第2ソース信号に関する算定値を生成する操作は、前記第2ソース信号がガウス混合によってモデル化されることを仮定する、上記(14)に記載の装置。
(16)前記分離する操作が、更に、前記第1ケプストラル混合信号及び前記第2ソース信号に関する算定値に基づいて前記第1ソース信号に関する算定値を反復的に生成する操作を含む、上記(14)に記載の装置。
(17)前記第1ソース信号に関する算定値を生成する操作は、前記第1ソース信号がガウス混合によってモデル化されることを仮定する、上記(16)に記載の装置。
(18)前記分離された第1ソース信号が、その後、信号処理アプリケーションによって使用される、上記(11)に記載の装置。
(19)前記アプリケーションが音声認識である、上記(18)に記載の装置。
(20)前記第1ソース信号が音声信号であり、前記第2ソース信号が、競合する音声、干渉する音楽及び特定のノイズ・ソースの少なくとも1つを表す信号である、上記(11)に記載の装置。
(21)第1ソースに関連した信号(第1ソース信号)と第2ソースに関連した信号(第2ソース信号)との混合体から信号を分離するためのコンピュータ・プログラムであって、
前記第1ソース信号及び前記第2ソース信号の2つの混合体をそれぞれ表す2つの信号を得るステップと、
前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するステップと、
を、実行時にインプリメントする1つ又はそれ以上のプログラムを含むマシン可読媒体を構成するコンピュータ・プログラム。
(22)前記2つの信号が、それぞれ、前記第1ソース信号及び前記第2ソース信号の非加重混合信号と前記第1ソース信号及び前記第2ソース信号の加重混合信号とを表す、上記(21)に記載のコンピュータ・プログラム。
(23)前記分離するステップが、前記非加重混合信号を第1ケプストラル混合信号に変換すること及び前記加重混合信号を第2ケプストラル混合信号に変換することにより、前記非線型ドメインにおいて遂行される、上記(22)に記載のコンピュータ・プログラム。
(24)前記分離するステップが、前記第2ケプストラル混合信号及び前記分離するステップにおける前の反復からの前記第1ソース信号に関する算定値に基づいて前記第2ソース信号に関する算定値を反復的に生成するステップを含む、上記(23)に記載のコンピュータ・プログラム。
(25)前記第2ソース信号に関する算定値を生成するステップは、前記第2ソース信号がガウス混合によってモデル化されることを仮定する、上記(24)に記載のコンピュータ・プログラム。
(26)前記分離するステップが、更に、前記第1ケプストラル混合信号及び前記第2ソース信号に関する算定値に基づいて前記第1ソース信号に関する算定値を反復的に生成するステップを含む、上記(24)に記載のコンピュータ・プログラム。
(27)前記第1ソース信号に関する算定値を生成するステップは、前記第1ソース信号がガウス混合によってモデル化されることを仮定する、上記(26)に記載のコンピュータ・プログラム。
(28)前記分離された第1ソース信号が、その後、信号処理アプリケーションによって使用される、上記(21)に記載のコンピュータ・プログラム。
(29)前記アプリケーションがは音声認識である、上記(28)に記載のコンピュータ・プログラム。
(30)前記第1ソース信号が音声信号であり、前記第2ソース信号が、競合する音声、干渉する音楽及び特定のノイズ・ソースの少なくとも1つを表す信号である、上記(21)に記載のコンピュータ・プログラム。
(31)第1ソースに関連した信号(第1ソース信号)と第2ソースに関連した信号(第2ソース信号)との混合体から信号を分離するための装置であって、
前記第1ソース信号及び前記第2ソース信号の2つの混合体をそれぞれ表す2つの信号を得るための手段と、
前記2つの信号を得るための手段に結合され、前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するための手段と、
を含む装置。
Claims (31)
- 第1ソースに関連した信号(第1ソース信号)と第2ソースに関連した信号(第2ソース信号)との混合体から信号を分離する方法であって、
前記第1ソース信号及び前記第2ソース信号の2つの混合体をそれぞれ表す2つの信号を得るステップと、
前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するステップと、
を含む方法。 - 前記2つの信号が、それぞれ、前記第1ソース信号及び前記第2ソース信号の非加重混合信号と前記第1ソース信号及び前記第2ソース信号の加重混合信号とを表す、請求項1に記載の方法。
- 前記分離するステップが、前記非加重混合信号を第1ケプストラル混合信号に変換すること及び前記加重混合信号を第2ケプストラル混合信号に変換することにより前記非線型ドメインにおいて遂行される、請求項2に記載の方法。
- 前記分離するステップが、前記第2ケプストラル混合信号と前記分離するステップにおける前の反復からの前記第1ソース信号に関する算定値とに基づいて前記第2ソース信号に関する算定値を反復的に生成するステップを含む、請求項3に記載の方法。
- 前記第2ソース信号に関する算定値を生成するステップは、前記第2ソース信号がガウス混合によってモデル化されることを仮定する、請求項4に記載の方法。
- 前記分離するステップが、更に、前記第1ケプストラル混合信号と前記第2ソース信号に関する算定値とに基づいて前記第1ソース信号に関する算定値を反復的に生成するステップを含む、請求項4に記載の方法。
- 前記第1ソース信号に関する算定値を生成するステップは、前記第1ソース信号がガウス混合によってモデル化されることを仮定する、請求項6に記載の方法。
- 前記分離された第1ソース信号が、その後、信号処理アプリケーションによって使用される、請求項1に記載の方法。
- 前記アプリケーションが音声認識である、請求項8に記載の方法。
- 前記第1ソース信号が音声信号であり、前記第2ソース信号が、競合する音声、干渉する音楽及び特定のノイズ・ソースの少なくとも1つを表す信号である、請求項1に記載の方法。
- 第1ソースに関連した信号(第1ソース信号)と第2ソースに関連した信号(第2ソース信号)との混合体から信号を分離するための装置であって、
メモリと、
前記メモリに結合され、(i)前記第1ソース信号及び前記第2ソース信号の2つの混合体をそれぞれ表す2つの信号を得るように動作し、(ii)前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するように動作する少なくとも1つのプロセッサと、
を含む装置。 - 前記2つの信号が、それぞれ、前記第1ソース信号及び前記第2ソース信号の非加重混合信号と前記第1ソース信号及び前記第2ソース信号の加重混合信号とを表す、請求項11に記載の装置。
- 前記分離する操作が、前記非加重混合信号を第1ケプストラル混合信号に変換すること及び前記加重混合信号を第2ケプストラル混合信号に変換することにより、前記非線型ドメインにおいて遂行される、請求項12に記載の装置。
- 前記分離する操作が、前記第2ケプストラル混合信号及び前記分離する操作における前の反復からの前記第1ソース信号に関する算定値に基づいて前記第2ソース信号に関する算定値を反復的に生成する操作を含む、請求項13に記載の装置。
- 前記第2ソース信号に関する算定値を生成する操作は、前記第2ソース信号がガウス混合によってモデル化されることを仮定する、請求項14に記載の装置。
- 前記分離する操作が、更に、前記第1ケプストラル混合信号及び前記第2ソース信号に関する算定値に基づいて前記第1ソース信号に関する算定値を反復的に生成する操作を含む、請求項14に記載の装置。
- 前記第1ソース信号に関する算定値を生成する操作は、前記第1ソース信号がガウス混合によってモデル化されることを仮定する、請求項16に記載の装置。
- 前記分離された第1ソース信号が、その後、信号処理アプリケーションによって使用される、請求項11に記載の装置。
- 前記アプリケーションが音声認識である、請求項18に記載の装置。
- 前記第1ソース信号が音声信号であり、前記第2ソース信号が、競合する音声、干渉する音楽及び特定のノイズ・ソースの少なくとも1つを表す信号である、請求項11に記載の装置。
- 第1ソースに関連した信号(第1ソース信号)と第2ソースに関連した信号(第2ソース信号)との混合体から信号を分離するためのコンピュータ・プログラムであって、
前記第1ソース信号及び前記第2ソース信号の2つの混合体をそれぞれ表す2つの信号を得るステップと、
前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するステップと、
を、実行時にインプリメントする1つ又はそれ以上のプログラムを含むマシン可読媒体を構成するコンピュータ・プログラム。 - 前記2つの信号が、それぞれ、前記第1ソース信号及び前記第2ソース信号の非加重混合信号と前記第1ソース信号及び前記第2ソース信号の加重混合信号とを表す、請求項21に記載のコンピュータ・プログラム。
- 前記分離するステップが、前記非加重混合信号を第1ケプストラル混合信号に変換すること及び前記加重混合信号を第2ケプストラル混合信号に変換することにより、前記非線型ドメインにおいて遂行される、請求項22に記載のコンピュータ・プログラム。
- 前記分離するステップが、前記第2ケプストラル混合信号及び前記分離するステップにおける前の反復からの前記第1ソース信号に関する算定値に基づいて前記第2ソース信号に関する算定値を反復的に生成するステップを含む、請求項23に記載のコンピュータ・プログラム。
- 前記第2ソース信号に関する算定値を生成するステップは、前記第2ソース信号がガウス混合によってモデル化されることを仮定する、請求項24に記載のコンピュータ・プログラム。
- 前記分離するステップが、更に、前記第1ケプストラル混合信号及び前記第2ソース信号に関する算定値に基づいて前記第1ソース信号に関する算定値を反復的に生成するステップを含む、請求項24に記載のコンピュータ・プログラム。
- 前記第1ソース信号に関する算定値を生成するステップは、前記第1ソース信号がガウス混合によってモデル化されることを仮定する、請求項26に記載のコンピュータ・プログラム。
- 前記分離された第1ソース信号が、その後、信号処理アプリケーションによって使用される、請求項21に記載のコンピュータ・プログラム。
- 前記アプリケーションがは音声認識である、請求項28に記載のコンピュータ・プログラム。
- 前記第1ソース信号が音声信号であり、前記第2ソース信号が、競合する音声、干渉する音楽及び特定のノイズ・ソースの少なくとも1つを表す信号である、請求項21に記載のコンピュータ・プログラム。
- 第1ソースに関連した信号(第1ソース信号)と第2ソースに関連した信号(第2ソース信号)との混合体から信号を分離するための装置であって、
前記第1ソース信号及び前記第2ソース信号の2つの混合体をそれぞれ表す2つの信号を得るための手段と、
前記2つの信号を得るための手段に結合され、前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するための手段と、
を含む装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/315,680 US7225124B2 (en) | 2002-12-10 | 2002-12-10 | Methods and apparatus for multiple source signal separation |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004191968A true JP2004191968A (ja) | 2004-07-08 |
JP3999731B2 JP3999731B2 (ja) | 2007-10-31 |
Family
ID=32468771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003400576A Expired - Fee Related JP3999731B2 (ja) | 2002-12-10 | 2003-11-28 | 信号ソースを分離するための方法及び装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7225124B2 (ja) |
JP (1) | JP3999731B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012155339A (ja) * | 2005-06-28 | 2012-08-16 | Microsoft Corp | 音声状態モデルを使用したマルチセンサ音声高品質化 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4000095B2 (ja) * | 2003-07-30 | 2007-10-31 | 株式会社東芝 | 音声認識方法、装置及びプログラム |
US7893872B2 (en) * | 2006-04-27 | 2011-02-22 | Interdigital Technology Corporation | Method and apparatus for performing blind signal separation in an OFDM MIMO system |
JP2011107603A (ja) * | 2009-11-20 | 2011-06-02 | Sony Corp | 音声認識装置、および音声認識方法、並びにプログラム |
CN102723081B (zh) * | 2012-05-30 | 2014-05-21 | 无锡百互科技有限公司 | 语音信号处理方法、语音和声纹识别方法及其装置 |
EP2887233A1 (en) * | 2013-12-20 | 2015-06-24 | Thomson Licensing | Method and system of audio retrieval and source separation |
CN110164469B (zh) * | 2018-08-09 | 2023-03-10 | 腾讯科技(深圳)有限公司 | 一种多人语音的分离方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4209843A (en) * | 1975-02-14 | 1980-06-24 | Hyatt Gilbert P | Method and apparatus for signal enhancement with improved digital filtering |
SE511496C2 (sv) * | 1995-05-03 | 1999-10-11 | Ulf Lindgren | Förfarande vid signalseparation |
JP2000242624A (ja) | 1999-02-18 | 2000-09-08 | Retsu Yamakawa | 信号分離装置 |
US7116271B2 (en) * | 2004-09-23 | 2006-10-03 | Interdigital Technology Corporation | Blind signal separation using spreading codes |
-
2002
- 2002-12-10 US US10/315,680 patent/US7225124B2/en active Active
-
2003
- 2003-11-28 JP JP2003400576A patent/JP3999731B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012155339A (ja) * | 2005-06-28 | 2012-08-16 | Microsoft Corp | 音声状態モデルを使用したマルチセンサ音声高品質化 |
Also Published As
Publication number | Publication date |
---|---|
US7225124B2 (en) | 2007-05-29 |
US20040111260A1 (en) | 2004-06-10 |
JP3999731B2 (ja) | 2007-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kumar et al. | Delta-spectral cepstral coefficients for robust speech recognition | |
Delcroix et al. | Compact network for speakerbeam target speaker extraction | |
US6804640B1 (en) | Signal noise reduction using magnitude-domain spectral subtraction | |
JPH07271394A (ja) | 確実な電話音声認識のための信号バイアスの除去 | |
CN108198566B (zh) | 信息处理方法及装置、电子设备及存储介质 | |
Stouten et al. | Model-based feature enhancement with uncertainty decoding for noise robust ASR | |
JP4457221B2 (ja) | 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム | |
Wolfel et al. | Minimum variance distortionless response spectral estimation | |
Saleem et al. | Unsupervised speech enhancement in low SNR environments via sparseness and temporal gradient regularization | |
Takiguchi et al. | PCA-Based Speech Enhancement for Distorted Speech Recognition. | |
JP2003532162A (ja) | 雑音に影響された音声の認識のためのロバストなパラメータ | |
Algazi et al. | Transform representation of the spectra of acoustic speech segments with applications. I. General approach and application to speech recognition | |
US7319955B2 (en) | Audio-visual codebook dependent cepstral normalization | |
JP3999731B2 (ja) | 信号ソースを分離するための方法及び装置 | |
Chavan et al. | Speech recognition in noisy environment, issues and challenges: A review | |
JPH10149191A (ja) | モデル適応方法、装置およびその記憶媒体 | |
Kaur et al. | Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition | |
KR101610708B1 (ko) | 음성 인식 장치 및 방법 | |
JP3250604B2 (ja) | 音声認識方法および装置 | |
JP4464797B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
Ming et al. | Speech recognition with unknown partial feature corruption–a review of the union model | |
Acero et al. | Speech/noise separation using two microphones and a VQ model of speech signals. | |
Bagi et al. | Improved recognition rate of language identification system in noisy environment | |
Techini et al. | Robust front-end based on MVA and HEQ post-processing for Arabic speech recognition using hidden Markov model toolkit (HTK) | |
Kato et al. | HMM-based speech enhancement using sub-word models and noise adaptation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060620 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20060912 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20060915 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070410 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070703 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070807 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070809 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100817 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100817 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110817 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110817 Year of fee payment: 4 |
|
S202 | Request for registration of non-exclusive licence |
Free format text: JAPANESE INTERMEDIATE CODE: R315201 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110817 Year of fee payment: 4 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110817 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120817 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130817 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |