JP2005084244A - 定常雑音下における音声区間検出に基づく目的音声の復元方法 - Google Patents
定常雑音下における音声区間検出に基づく目的音声の復元方法 Download PDFInfo
- Publication number
- JP2005084244A JP2005084244A JP2003314247A JP2003314247A JP2005084244A JP 2005084244 A JP2005084244 A JP 2005084244A JP 2003314247 A JP2003314247 A JP 2003314247A JP 2003314247 A JP2003314247 A JP 2003314247A JP 2005084244 A JP2005084244 A JP 2005084244A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- spectrum
- noise
- estimated
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000001514 detection method Methods 0.000 title claims abstract description 62
- 238000001228 spectrum Methods 0.000 claims abstract description 274
- 238000012880 independent component analysis Methods 0.000 claims abstract description 21
- 238000000926 separation method Methods 0.000 claims abstract description 21
- 230000008569 process Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 description 23
- 238000000605 extraction Methods 0.000 description 11
- 238000012546 transfer Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 4
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 101150113537 Spib gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【解決手段】 2つの音源11、12からそれぞれ発信される目的音声及び雑音を、第1及び第2のマイク13、14でそれぞれ受信し独立成分分析法により目的音声に対応する推定スペクトルY* を抽出する第1工程と、推定スペクトルY* からその振幅分布の尖度の値を分離判定基準にして雑音が除去された推定スペクトルy* を分離する第2工程と、推定スペクトルy* の総和Fを求め、その最大値に応じて決定される閾値βを検出判定基準にして総和Fの周波数領域から音声区間及び雑音区間をそれぞれ検出する第3工程と、推定スペクトルY* から音声区間に存在する成分を抽出して目的音声の復元スペクトル群を生成し目的音声を復元する第4工程とを有する。
【選択図】 図1
Description
しかし、生活音や活動音が存在する一般家庭やオフィスでは、期待通りの認識率を得るのが難しい。このような環境下で音声認識エンジンのもつ本来の認識能力を引き出すには、雑音混じりの音声から雑音を除去して、話者音声のみを音声認識エンジンに受け渡す前処理が不可欠と考えられる。
その観点から、近年、独立成分分析法(以下、単にICA法という)や各種音声強調法が注目を集めており、様々なアルゴリズムが提案されている(例えば、非特許文献1〜5参照)。そして、これらの各種アルゴリズムのなかで、各音源が統計的に独立という仮定の基に、音声と雑音を分離するICA法が注目されている。
本発明はかかる事情に鑑みてなされたもので、実際的な環境下で受信した信号からICA法により作成した分離信号に基づいて音声区間と雑音区間を分離し、分離信号から音声区間に含まれる信号のみを抽出することで、目的音声に含まれる残留雑音を最小化することが可能な定常雑音下における音声区間検出に基づく目的音声の復元方法を提供することを目的とする。
前記各推定スペクトルY* を、該各推定スペクトルY* の振幅分布の尖度の値を分離判定基準にして前記雑音が除去された複数の推定スペクトルy* 及び前記雑音が残留する複数の推定スペクトルyに分離する第2工程と、
前記各推定スペクトルy* の総和Fを求め、該総和Fの最大値に応じて決定される閾値βを検出判定基準にして該総和Fの周波数領域から音声区間及び雑音区間をそれぞれ検出する第3工程と、
前記各推定スペクトルY* から前記音声区間に存在する成分を抽出して前記目的音声の復元スペクトル群を生成し、該復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して前記目的音声を復元する第4工程とを有する。
ここで、ICA法を適用して得られた周波数毎の分割スペクトルには、スケーリングの不定性と成分置換の問題が生じているため、これらの問題を別途解決して目的音声及び雑音にそれぞれ対応する周波数毎の推定スペクトルY* 、Yを抽出する。
しかし、抽出された各推定スペクトルY* を周波数毎に見てみると、雑音が良好に分離されている周波数と雑音がほとんど除去されていない周波数が存在している状態になっている。
このことから、各推定スペクトルY* において、その振幅分布の尖度を求めると、振幅分布の尖度が大きければその周波数では雑音が良好に除去されていると判定でき、尖度が小さければその周波数では雑音がほとんど除去されていないと判定することができる。従って、各推定スペクトルY* の振幅分布の尖度によって、各推定スペクトルY* を推定スペクトルy* と推定スペクトルyに分離することができる。
従って、目的音声に対応する各推定スペクトルY* から求めた音声区間に存在する成分のみを抽出して目的音声の復元スペクトル群を生成すると、復元スペクトル群には雑音成分は実質的に存在しないことになる。そして、この復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して目的音声信号を復元することができる。
これによって、検出判定基準として2値化された(閾値βに基づいて音声区間とするか、雑音区間とするかの2者択一の選択を行う)音声区間検出関数を設定することができる。その結果、各推定スペクトルY* から音声を特徴付けるスペクトルの現れる周波数領域を簡便に決定することができる。
前記各推定スペクトルY* を、該各推定スペクトルY* の振幅分布の尖度の値を分離判定基準にして前記雑音が除去された複数の推定スペクトルy* 及び前記雑音が残留する複数の推定スペクトルyに分離する第2工程と、
前記各推定スペクトルy* の総和Fを求め、該総和Fの最大値に応じて決定される閾値βを検出判定基準にして該総和Fの時間領域から音声区間及び雑音区間をそれぞれ検出する第3工程と、
前記各推定スペクトルY* を周波数領域から時間領域にフーリエ逆変換して得られた前記目的音声の信号から前記音声区間に存在する成分を抽出して前記目的音声を復元する第4工程とを有する。
このため、各推定スペクトルY* を周波数領域から時間領域にフーリエ逆変換して得られた時間領域の目的音声の信号から音声区間に存在する成分のみを抽出して目的音声の復元信号を生成することができる。
これによって、検出判定基準として2値化された(閾値βに基づいて音声区間とするか、雑音区間とするかの2者択一の選択を行う)音声区間検出関数を設定することができる。その結果、時間領域の目的音声の信号から雑音区間がゼロになって音声区間のみの音声が強調された信号を簡便に決定することができる。
各推定スペクトルY* の振幅分布の尖度は、振幅分布の不確定性の観点からエントロピーHを用いて定量的に評価することができる。この場合、雑音が除去される程推定スペクトルY* のエントロピーHは小さくなり、雑音が残留する程推定スペクトルY* のエントロピーHは大きくなる。
なお、尖度を定量的に計る尺度としては、例えば、平均の周りの四次のモーメントμと標準偏差σの4 乗との比、すなわちμ/σ4 (kurtosis)を使用することもできるが、異常値に対する評価の安定性が劣るという問題があり好ましくない。
(1)前記エントロピーHが予め設定した閾値α未満である推定スペクトルY* は前記推定スペクトルy* として分離し、
(2)前記エントロピーHが予め設定した閾値α以上である推定スペクトルY* は前記推定スペクトルyとして分離するように設定されていることが好ましい。
従って、エントロピーHの値に閾値αを設定して、エントロピーHがこの閾値α未満である推定スペクトルY* は雑音の除去が行われている推定スペクトルy* と認定し、エントロピーHがこの閾値α以上である推定スペクトルY* は雑音が残留する推定スペクトルyと認定することができる。
このように、2値化された(閾値αに基づいて推定スペクトルy* とするか、推定スペクトルyとするかの2者択一の選択を行う)分離判定基準を設定することにより、各推定スペクトルY* から推定スペクトルy* 及び推定スペクトルyを素早く、かつ容易に決定することができる。
その結果、雑音環境下での音声認識として、例えば、OA分野での音声指令、音声入力、流通業界での倉庫管理やカーナビゲーターへの音声指令等、従来のタッチセンサ、指、及びキーボードを用いた入力操作の代替が可能になる。
その結果、雑音環境下での音声認識として、例えば、OA分野での音声指令、音声入力、流通業界での倉庫管理やカーナビゲーターへの音声指令等、従来のタッチセンサ、指、及びキーボードを用いた入力操作の代替が可能になる。
図1は本発明の第1及び第2の実施の形態に係る定常雑音下における音声区間検出に基づく目的音声の復元方法を適用した目的音声の復元装置の構成図、図2は同復元方法における目的音声及び雑音から各推定スペクトルY* が形成されるまでの信号の流れを示す説明図、図3各推定スペクトルY* から構成された復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して得られた目的音声信号の波形を示す説明図、図4は雑音が除去された推定スペクトルY* の波形を示す説明図、図5は雑音が残留している推定スペクトルY* の波形を示す説明図、図6は雑音が除去された推定スペクトルY* の振幅分布を示す説明図、図7は雑音が残留している推定スペクトルY* の振幅分布を示す説明図、図8は雑音が除去された各推定スペクトルy* の総和を示す説明図、図9は各推定スペクトルY* に対して決定された音声区間検出関数のグラフ、図10は各推定スペクトルY* から音声区間に存在する成分を抽出して生成した目的音声の復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して得られた目的音声信号の説明図、図11は本発明の実施例1、2におけるバーチャルルームでの音源とマイクの配置を示す説明図である。
また、第1及び第2の増幅器15、16としては、可聴音域の信号を歪みなく増幅可能な周波数帯域の特性を備えた増幅器を使用できる。
また、復元装置本体17は、デジタル化された各混合信号を時間領域から周波数領域にフーリエ変換し、独立成分分析法の一例であるFastICA法により2つの分離信号U1 、U2 に分解する分離信号作成演算回路と、音源11及び音源12から第1及び第2のマイク13、14までの各伝達経路特性に基づいて、分離信号U1 から第1のマイク13で受信された複数のスペクトルv11と第2のマイク14で受信された複数のスペクトルv12を生成し、分離信号U2 から第1のマイク13で受信された複数のスペクトルv21と第2のマイク14で受信された複数のスペクトルv22を生成して分割スペクトルを形成する分割スペクトル生成演算回路を備えた分割スペクトル生成器22を有している。
そして、更に、復元装置本体17は、復元スペクトル抽出回路25から出力された復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して復元信号を生成させる復元信号生成回路26を有している。
特に、パーソナルコンピュータに各プログラムを搭載させた場合は、このパーソナルコンピュータにA/D変換器20、21を取付けることにより、復元装置本体17を一括して構成することができる。
また、復元信号増幅器18は、復元信号をアナログ変換して可聴音域を歪みなく増幅することが可能な特性を備えた増幅器を使用することができ、スピーカ19も可聴音域の信号を歪みなく出力可能な特性を備えたスピーカを使用できる。
また、目的音声の復元方法は、各推定スペクトルY* を、各推定スペクトルY* の振幅分布の尖度の値を分離判定基準にして雑音が除去された複数の推定スペクトルy* 及び雑音が残留する複数の推定スペクトルyに分離する第2工程と、各推定スペクトルy* の総和Fを求め、総和Fの最大値に応じて決定される閾値βを検出判定基準にして総和Fの周波数領域から音声区間及び雑音区間をそれぞれ検出する第3工程を有している。
更に、目的音声の復元方法は、各推定スペクトルY* から検出した音声区間に存在する成分を抽出して目的音声の復元スペクトル群を生成し、復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して目的音声を復元する第4工程とを有する。なお、tは時間を示す。以下、これらの各工程について詳細に説明する。
音源11から発信される信号s1 (t)と、音源12から発信される雑音信号s2 (t)は、一般に統計的に独立と考えることができる。そして、信号s1 (t)と信号s2 (t)を、異なる位置に設置した第1及び第2のマイク13、14で受信して得られる各混合信号x1 (t)、x2 (t)は、式(1)のように表記できる。
ここで、s(t)=[s1 (t),s2 (t)]T 、x(t)=[x1 (t),x2 (t)]T 、*は畳み込み記号、G(t)は各音源11、12から各マイク13、14までのそれぞれの伝達関数である。
また、得られた各周波数におけるスペクトルをフレーム順に並べることにより、スペクトルを時系列として扱うことができる。
このとき混合信号スペクトルx(ω,k)と、信号s1 (t)及び信号s2 (t)の各スペクトルは、周波数領域で式(3)のように関係づけられる。ここに、s(ω,k)はs(t)を窓掛けして離散フーリエ変換したもので、G(ω)はG(t)を離散してフーリエ変換して得られる複素定数行列である。
すなわち、混合信号スペクトルx(ω,k)と分離信号スペクトルU1 (ω,k)、U2 (ω,k)の間に、式(4)の関係が成立するような分離行列H(ω)を求めることにより、混合信号スペクトルx(ω,k)から、互いに独立となる分離信号スペクトルU1 (ω,k)、U2 (ω,k)を決定することができる。ここで、u(ω,k)=[U1 (ω,k),U2 (ω,k)]T である。
ここにQ(ω)は白色化行列、Pは各行と列の全ての要素が値1である1つの要素を除いて0である成分置換を表す行列、D(ω)=diag[d1 (ω),d2 (ω)]は振幅の曖昧さを表す対角行列である。
ここに、f(・)は非線型関数で、f′(・)はf(・)の微分、 ̄は共役、Κはフレームのサンプル数である。
このとき、分割スペクトルv1 (ω,k)=[v11(ω,k),v12(ω,k)]T 、v2 (ω,k)=[v21(ω,k),v22(ω,k)]T は、分離信号スペクトルUn (ω,k)から、式(11)、(12)に示すように、各ノードn(=1,2)で対になって生成されるスペクトルとして定義する。
なお、g11(ω)は音源11から第1のマイク13までの伝達関数、g21(ω)は音源11から第2のマイク14までの伝達関数、g12(ω)は音源12から第1のマイク13までの伝達関数、g22(ω)は音源12から第2のマイク14までの伝達関数を示す。
なお、ノード1で生成するスペクトルv11(ω,k)は、音源12から発信された信号スペクトルs2 (ω,k)を第1のマイク13で観測したときのスペクトル、ノード1で生成するスペクトルv12(ω,k)は、音源12から発信された信号スペクトルs2 (ω,k)を第2のマイク14で観測したときのスペクトルを示す。また、ノード2で生成するスペクトルv21(ω,k)は、音源11から発信された信号スペクトルs1 (ω,k)を第1のマイク13で観測したときのスペクトル、ノード2で生成するスペクトルv22(ω,k)は、音源11から発信された信号スペクトルs1 (ω,k)を第2のマイク14で観測したときのスペクトルを示す。
ここで、第1及び第2のマイクと各音源との距離に基づく音の伝達特性、例えば、音の強弱を考慮すると、周波数毎に得られた各スペクトルv11、v12、v21、v22間に、スペクトル強度の差が生じる。従って、第1及び第2のマイク13、14と各音源との距離に明確な差を予め設けておくと、各音源がどのマイクで受信されたか、すなわち、2つの音源の信号がそれぞれどのスペクトルv11、v12、v21、v22に相当するかを判定することができる。
例えば、 音源11は第2のマイク14に比べて第1のマイク13に近く、音源12は第1のマイク13に比べて第2のマイク14に近いと仮定する。このとき、音源11から各マイク13、14への信号の伝達特性を比較すると、式(19)なるゲインの大小関係が得られる。同様に、音源12から各マイク13、14への伝達特性についても、式(20)なるゲインの大小関係が得られる。
一方、成分置換がある場合、同様にしてスペクトルv11とスペクトルv12との差D1 、及びスペクトルv21とスペクトルv22との差D2 を考えると、ノード1での差D1 は負、またノード2での差D2 は正となることが導かれる。
従って、成分置換の有無については、分割スペクトルの差をそれぞれ調べて、ノード1での差D1 が正かつノード2での差D2 が負のとき、成分置換はないと判定し、ノード1での差D1 が負かつノード2での差D2 が正のとき、成分置換はあると判定する。
以上のことから、一方の音源のスペクトルy1 (ω,k)は式(23)として表せる。同様に、他方の音源のスペクトルy2 (ω,k)に、成分置換がない場合にはv22(ω,k)を採用し、成分置換がある場合にはv12(ω,k)を採用する。以上のことから、他方の音源のスペクトルy2 (ω,k)は式(24)として表せる。
なお、成分置換の有無は、式(21)、(22)を使用し判定する。
従って、一方の音源が話者音声であれば、成分置換のない頻度は高く、逆に、他方の音源が話者音声であれば、成分置換の生じる頻度は高くなる。
以上のようにして周波数毎に抽出した各推定スペクトルY* から構成される復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して得られた目的音声信号の波形(東京という音声)を図3に示す。図3から、復元された目的音声信号には、雑音信号が残留していることが判る。
そこで、抽出された複数の推定スペクトルY* を周波数毎に見てみると、図4に示すように、雑音が除去された推定スペクトルY* と、図5に示すように、雑音が残留している推定スペクトルY* とが存在している。そして、図4に示される雑音が除去された推定スペクトルY* の波形では、音声区間では振幅が大きく、非音声区間では振幅が非常に小さくなって、音声の始端と終端が明確に検出できる。従って、雑音が除去された推定スペクトルY* のみを利用すると精度の高い音声区間の検出できると考えられる。
従って、推定スペクトルY* の振幅分布の尖度を分離判定基準にすると、尖度の値の違いにより、各推定スペクトルY* を雑音が除去されている複数の推定スペクトルy* と雑音が除去されていない複数の推定スペクトルyとにそれぞれ分離できる。
なお、エントロピーHは式(25)で算出する。
音声の周波数成分は、時間的に変化するため、音声を特徴付けるスペクトルの現れる周波数領域は推定スペクトルy* によって異なる。そこで、各推定スペクトルy* の総和Fを求めることにより、音声を特徴付けるスペクトルの現れる周波数領域の範囲が明確になり、時間的な音声区間と一致する周波数領域における音声区間を検出することができる。
算出される総和Fは、例えば図8に示すような分布をもつ。なお、図8では、総和Fの最大値で規格化して表示している。そこで、総和Fの最大値(図8では1)に応じて決定される閾値βを適切に選ぶことにより、総和Fが閾値βを超える領域を音声区間、総和Fが閾値β以下の領域を雑音区間として特定することができる。
従って、図8の振幅分布と閾値βを用いて、検出判定基準として、図9に示すような2者択一型の音声区間検出関数F* (k)を設定することができる。ここで、F* (k)は、閾値β<Fの領域でF* (k)=1、閾値β≧Fの領域でF* (k)=0となる2値化関数である。
従って、目的音声に対応する各推定スペクトルY* に対して音声区間検出関数を掛けることにより、各推定スペクトルY* から音声区間に存在する成分のみを抽出することができる。
その結果、各推定スペクトルY* の音声区間に存在する成分のみから目的音声の復元スペクトル群{Z(ω,k)|k=0,1,・・・,K−1}を生成して、フレーム毎に逆離散フーリエ変換(フーリエ逆変換)して時間領域に戻して、それをすべてのフレームにわたって式(27)のように総和を取れば、目的音声音源の復元信号Z(t)が得られる。
図10に、図3の目的音声信号の復元に使用した各推定スペクトルY* に対して音声区間検出関数を作用させて復元した目的音声信号を示す。図3と図10を比較すると、図10には雑音信号が残留していないことが判る。
また、目的音声の復元方法は、各推定スペクトルY* を、各推定スペクトルY* の振幅分布の尖度の値を分離判定基準にして雑音が除去された複数の推定スペクトルy* 及び雑音が残留する複数の推定スペクトルyに分離する第2工程と、各推定スペクトルy* の総和Fを求め、総和Fの最大値に応じて決定される閾値βを検出判定基準にして総和Fの時間領域からから音声区間及び雑音区間をそれぞれ検出する第3工程を有している。
更に、目的音声の復元方法は、各推定スペクトルY* を周波数領域から時間領域にフーリエ逆変換して得られた前記目的音声の信号から検出した音声区間に存在する成分を抽出して目的音声を復元する第4工程を有する。
このため、第2の実施の形態に係る定常雑音下における音声区間検出に基づく目的音声の復元方法は、第1の実施の形態の目的音声の復元方法と比較して、第3及び第4工程が異なる。従って、第3及び第4工程についてのみ説明する。
すなわち、F* (t)は、F* ([t/τ])=1の領域でF* (t)=1、F* ([t/τ])=0の領域でF* (t)=0となる2値化関数として求まる。従って、F* ([t/τ])=1となるtの領域から音声区間を検出し、F* ([t/τ])=0となるtの領域から雑音区間をそれぞれ検出する(第3工程)。なお、[t/τ]は、t/τ以上の最小の整数を指すceiling記号である。
また、時間領域での音声区間検出関数F* (t)を、各推定スペクトルY* を周波数領域から時間領域にフーリエ逆変換して得られた目的音声の時間信号に掛けることにより、雑音区間がゼロになって音声区間のみの音声が強調された信号を得ることができ(第4工程)、これを復元信号増幅器18を介してスピーカ19に入力することにより目的音声を確認することができる。
図11に示すように、縦10m、横10m、及び高さ10mのバーチャルルーム内に音源1、2とマイク1、2を配置し、マイク1、2で観測される混合信号に対してFastICA法を適用して雑音除去を行って目的音声を復元し、音声区間の検出精度を求めた。
ここで、各マイク1、2間の距離は0.5m、各音源1、2間の距離は0.5m、床から各マイク1、2までの高さは1m、床から各音源1、2までの高さは1m、マイク1と音源1までの距離は0.5m、マイク2と音源2までの距離は0.5mである。またFastICA法には、ゴタンダ、ノブ、コヤ、カネダ、イシバシ(H.Gotannda,K.Nobu,T.Koya,K.Kaneda,T.Ishibashi)、”パーミュテイション コレクション アンド スピーチ イクストラクション ベイスド オン スプリット スペクトラム スルー ファスト アイ シー エイ(Permutation Correction and Speech Extraction Based on Split Spectrum Through FastICA)”、プロシーディング オブ インターナショナル シンポジウム オン インディペンデント コンポーネント アナリシス アンド ブラインド シグナル セパレイション(Proc.International Symposium on Independentaration)、2003年4月1日、p379−384に記載した方法を採用した。
混合信号から目的音声に対応する推定スペクトルY* を抽出し、本発明の方法で音声区間を検出し始端と終端を求めた。また、推定スペクトルY* から復元した目的音声の波形から目視により音声区間を検出し始端と終端を求めた。
その結果、本発明の方法により検出した音声区間の始端時刻は目視により検出した音声区間の始端時刻に対して−2.71msec(標準偏差13.49ms)、本発明の方法により検出した音声区間の終端時刻は目視により検出した音声区間の終端時刻に対して−4.96msec(標準偏差26.07msec)となって、音声区間を速めに検出する傾向を示したがその差は小さくほぼ正確に検出していることが判る。
音源2から非定常雑音としてNTT騒音データベース(NTTアドバンステクノロジ株式会社、アンビエント ノイズ データベース フォア テレホノメトリ(AmbientNoise Database for Telephonometry)1996、NTTアドバンステクノロジ株式会社、1996年)中の5種類の非定常雑音(オフィス(office)、レストラン(restaurant)、クラシカル(classical)、ステーション(station)、ストリート(street))を発信し、実施例1と同様の実験を行った。
その結果、本発明の方法により検出した音声区間の始端時刻は目視により検出した音声区間の始端時刻に対して−2.36msec(標準偏差14.12msec)、本発明の方法により検出した音声区間の終端時刻は目視により検出した音声区間の終端時刻に対して−13.40msec(標準偏差44.12msec)となって、雑音が非定常性を帯びている場合でも目視法と同程度の機能を有し、音声区間をほぼ正確に検出していることが判る。
例えば、目的音声及び雑音にそれぞれ対応する複数の推定スペクトルY* 、Yを抽出するのにFastICA法を適用したが、ICA法で分離した各スペクトルに対して各マイクと各音源との距離に基づく音の伝達特性を考慮してスケーリングの不定性を解決すると共に、各周波数で各スペクトルの包絡を求めて、その類似度に基づく成分置換の解消を行って推定スペクトルY* 、Yを抽出することもでき、推定スペクトルY* 、Yの抽出方法に指定はない。
Claims (6)
- 異なる2つの音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第1及び第2のマイクでそれぞれ受信して混合信号を形成し、該各混合信号を時間領域から周波数領域にフーリエ変換して、独立成分分析法により前記目的音声及び前記雑音にそれぞれ対応する各分割スペクトルから複数の推定スペクトルY* 、Yを抽出する第1工程と、
前記各推定スペクトルY* を、該各推定スペクトルY* の振幅分布の尖度の値を分離判定基準にして前記雑音が除去された複数の推定スペクトルy* 及び前記雑音が残留する複数の推定スペクトルyに分離する第2工程と、
前記各推定スペクトルy* の総和Fを求め、該総和Fの最大値に応じて決定される閾値βを検出判定基準にして該総和Fの周波数領域から音声区間及び雑音区間をそれぞれ検出する第3工程と、
前記各推定スペクトルY* から前記音声区間に存在する成分を抽出して前記目的音声の復元スペクトル群を生成し、該復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して前記目的音声を復元する第4工程とを有することを特徴とする定常雑音下における音声区間検出に基づく目的音声の復元方法。 - 請求項1記載の定常雑音下における音声区間検出に基づく目的音声の復元方法において、前記検出判定基準は、前記総和Fが前記閾値βを超える周波数領域を前記音声区間とし、前記総和Fが前記閾値β以下となる周波数領域を前記雑音区間として検出するように設定されていることを特徴とする定常雑音下における音声区間検出に基づく目的音声の復元方法。
- 異なる2つの音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第1及び第2のマイクでそれぞれ受信して混合信号を形成し、該各混合信号を時間領域から周波数領域にフーリエ変換して、独立成分分析法により前記目的音声及び前記雑音にそれぞれ対応する各分割スペクトルから複数の推定スペクトルY* 、Yを抽出する第1工程と、
前記各推定スペクトルY* を、該各推定スペクトルY* の振幅分布の尖度の値を分離判定基準にして前記雑音が除去された複数の推定スペクトルy* 及び前記雑音が残留する複数の推定スペクトルyに分離する第2工程と、
前記各推定スペクトルy* の総和Fを求め、該総和Fの最大値に応じて決定される閾値βを検出判定基準にして該総和Fの時間領域から音声区間及び雑音区間をそれぞれ検出する第3工程と、
前記各推定スペクトルY* を周波数領域から時間領域にフーリエ逆変換して得られた前記目的音声の信号から前記音声区間に存在する成分を抽出して前記目的音声を復元する第4工程とを有することを特徴とする定常雑音下における音声区間検出に基づく目的音声の復元方法。 - 請求項3記載の定常雑音下における音声区間検出に基づく目的音声の復元方法において、前記検出判定基準は、前記総和Fが前記閾値βを超える時間領域を前記音声区間とし、前記総和Fが前記閾値β以下となる時間領域を前記雑音区間として検出することを特徴とする定常雑音下における音声区間検出に基づく目的音声の復元方法。
- 請求項1〜4のいずれか1項に記載の定常雑音下における音声区間検出に基づく目的音声の復元方法において、前記尖度の値を前記各推定スペクトルY* の振幅分布のエントロピーHで評価することを特徴とする定常雑音下における音声区間検出に基づく目的音声の復元方法。
- 請求項5記載の定常雑音下における音声区間検出に基づく目的音声の復元方法において、前記分離判定基準は、
(1)前記エントロピーHが予め設定した閾値α未満である推定スペクトルY* は前記推定スペクトルy* として分離し、
(2)前記エントロピーHが予め設定した閾値α以上である推定スペクトルY* は前記推定スペクトルyとして分離するように設定されていることを特徴とする定常雑音下における音声区間検出に基づく目的音声の復元方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003314247A JP4496378B2 (ja) | 2003-09-05 | 2003-09-05 | 定常雑音下における音声区間検出に基づく目的音声の復元方法 |
PCT/JP2004/012899 WO2005029463A1 (en) | 2003-09-05 | 2004-08-31 | A method for recovering target speech based on speech segment detection under a stationary noise |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003314247A JP4496378B2 (ja) | 2003-09-05 | 2003-09-05 | 定常雑音下における音声区間検出に基づく目的音声の復元方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005084244A true JP2005084244A (ja) | 2005-03-31 |
JP4496378B2 JP4496378B2 (ja) | 2010-07-07 |
Family
ID=34372498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003314247A Expired - Fee Related JP4496378B2 (ja) | 2003-09-05 | 2003-09-05 | 定常雑音下における音声区間検出に基づく目的音声の復元方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4496378B2 (ja) |
WO (1) | WO2005029463A1 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010271411A (ja) * | 2009-05-19 | 2010-12-02 | Nara Institute Of Science & Technology | 雑音抑圧装置およびプログラム |
US7903767B2 (en) | 2006-05-30 | 2011-03-08 | Ntt Docomo, Inc. | Signal reception time period detector |
JP2011081293A (ja) * | 2009-10-09 | 2011-04-21 | Toyota Motor Corp | 信号分離装置、信号分離方法 |
US9159335B2 (en) | 2008-10-10 | 2015-10-13 | Samsung Electronics Co., Ltd. | Apparatus and method for noise estimation, and noise reduction apparatus employing the same |
EP3252765A1 (en) | 2016-05-30 | 2017-12-06 | Fujitsu Limited | Noise suppression in a voice signal |
JP2019533193A (ja) * | 2016-09-29 | 2019-11-14 | 合肥華凌股▲フン▼有限公司Hefei Hualing Co.,Ltd. | 音声制御システム及びそのウェイクアップ方法、ウェイクアップ装置、並びに家電製品、コプロセッサ |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006337851A (ja) * | 2005-06-03 | 2006-12-14 | Sony Corp | 音声信号分離装置及び方法 |
WO2006135986A1 (en) * | 2005-06-24 | 2006-12-28 | Monash University | Speech analysis system |
JP4556875B2 (ja) | 2006-01-18 | 2010-10-06 | ソニー株式会社 | 音声信号分離装置及び方法 |
CN106504762B (zh) * | 2016-11-04 | 2023-04-14 | 中南民族大学 | 鸟类群落数量估计系统及其方法 |
CN109951762B (zh) * | 2017-12-21 | 2021-09-03 | 音科有限公司 | 一种用于听力设备的源信号提取方法、系统和装置 |
CN112289343B (zh) * | 2020-10-28 | 2024-03-19 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频修复方法、装置及电子设备和计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2001294989A1 (en) * | 2000-10-04 | 2002-04-15 | Clarity, L.L.C. | Speech detection |
-
2003
- 2003-09-05 JP JP2003314247A patent/JP4496378B2/ja not_active Expired - Fee Related
-
2004
- 2004-08-31 WO PCT/JP2004/012899 patent/WO2005029463A1/en active Application Filing
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7903767B2 (en) | 2006-05-30 | 2011-03-08 | Ntt Docomo, Inc. | Signal reception time period detector |
US9159335B2 (en) | 2008-10-10 | 2015-10-13 | Samsung Electronics Co., Ltd. | Apparatus and method for noise estimation, and noise reduction apparatus employing the same |
JP2010271411A (ja) * | 2009-05-19 | 2010-12-02 | Nara Institute Of Science & Technology | 雑音抑圧装置およびプログラム |
JP2011081293A (ja) * | 2009-10-09 | 2011-04-21 | Toyota Motor Corp | 信号分離装置、信号分離方法 |
EP3252765A1 (en) | 2016-05-30 | 2017-12-06 | Fujitsu Limited | Noise suppression in a voice signal |
US9972338B2 (en) | 2016-05-30 | 2018-05-15 | Fujitsu Limited | Noise suppression device and noise suppression method |
EP3438977A1 (en) | 2016-05-30 | 2019-02-06 | Fujitsu Limited | Noise suppression in a voice signal |
JP2019533193A (ja) * | 2016-09-29 | 2019-11-14 | 合肥華凌股▲フン▼有限公司Hefei Hualing Co.,Ltd. | 音声制御システム及びそのウェイクアップ方法、ウェイクアップ装置、並びに家電製品、コプロセッサ |
Also Published As
Publication number | Publication date |
---|---|
WO2005029463A9 (en) | 2005-07-07 |
JP4496378B2 (ja) | 2010-07-07 |
WO2005029463A1 (en) | 2005-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4496379B2 (ja) | 分割スペクトル系列の振幅頻度分布の形状に基づく目的音声の復元方法 | |
JP3950930B2 (ja) | 音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法 | |
EP1914727B1 (en) | Noise suppression methods and apparatuses | |
CN111899756B (zh) | 一种单通道语音分离方法和装置 | |
US7533017B2 (en) | Method for recovering target speech based on speech segment detection under a stationary noise | |
JP4496378B2 (ja) | 定常雑音下における音声区間検出に基づく目的音声の復元方法 | |
WO2013138747A1 (en) | System and method for anomaly detection and extraction | |
CN103077728B (zh) | 一种病人虚弱语音端点检测方法 | |
Wang et al. | Robust harmonic features for classification-based pitch estimation | |
Feng et al. | A target guided subband filter for acoustic event detection in noisy environments using wavelet packets | |
KR20130068869A (ko) | 관심음원 제거방법 및 그에 따른 음성인식방법 | |
Do et al. | Speech source separation using variational autoencoder and bandpass filter | |
Do et al. | Speech Separation in the Frequency Domain with Autoencoder. | |
Bao et al. | A new time-frequency binary mask estimation method based on convex optimization of speech power | |
CN116312561A (zh) | 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置 | |
WO2017143334A1 (en) | Method and system for multi-talker babble noise reduction using q-factor based signal decomposition | |
Shahrul Azmi et al. | Noise robustness of Spectrum Delta (SpD) features in Malay vowel recognition | |
Vaidianathan et al. | Stuttered Speech Recognition And Classification Using Enhanced Kamnan Filter And Neural Network | |
Rahman et al. | A multiple functions multiplication approach for pitch extraction of noisy speech | |
US11881200B2 (en) | Mask generation device, mask generation method, and recording medium | |
Sharma et al. | Speech Diarization and ASR with GMM | |
Shi et al. | A speech endpoint detection algorithm based on BP neural network and multiple features | |
Pwint et al. | A new speech/non-speech classification method using minimal Walsh basis functions | |
Jesudhas et al. | A novel approach to build a low complexity smart sound recognition system for domestic environment | |
dos Santos Moura et al. | Source Extraction based on Binary Masking and Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20060301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20060301 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20060904 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20060907 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100309 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100323 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130423 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130423 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140423 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140423 Year of fee payment: 4 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |