JP2005084244A - 定常雑音下における音声区間検出に基づく目的音声の復元方法 - Google Patents

定常雑音下における音声区間検出に基づく目的音声の復元方法 Download PDF

Info

Publication number
JP2005084244A
JP2005084244A JP2003314247A JP2003314247A JP2005084244A JP 2005084244 A JP2005084244 A JP 2005084244A JP 2003314247 A JP2003314247 A JP 2003314247A JP 2003314247 A JP2003314247 A JP 2003314247A JP 2005084244 A JP2005084244 A JP 2005084244A
Authority
JP
Japan
Prior art keywords
speech
spectrum
noise
estimated
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003314247A
Other languages
English (en)
Other versions
JP4496378B2 (ja
Inventor
Hiroshi Gotanda
博 五反田
Takeshi Furuya
武志 古屋
Keiichi Kaneda
圭市 金田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WAVE COME KK
Kinki University
Kitakyushu Foundation for Advancement of Industry Science and Technology
Original Assignee
WAVE COME KK
Kinki University
Kitakyushu Foundation for Advancement of Industry Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WAVE COME KK, Kinki University, Kitakyushu Foundation for Advancement of Industry Science and Technology filed Critical WAVE COME KK
Priority to JP2003314247A priority Critical patent/JP4496378B2/ja
Priority to PCT/JP2004/012899 priority patent/WO2005029463A1/en
Publication of JP2005084244A publication Critical patent/JP2005084244A/ja
Application granted granted Critical
Publication of JP4496378B2 publication Critical patent/JP4496378B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】 ICA法により作成した分離信号から音声区間に含まれる信号のみを抽出して残留雑音を最小化することが可能な目的音声の復元方法を提供する。
【解決手段】 2つの音源11、12からそれぞれ発信される目的音声及び雑音を、第1及び第2のマイク13、14でそれぞれ受信し独立成分分析法により目的音声に対応する推定スペクトルY* を抽出する第1工程と、推定スペクトルY* からその振幅分布の尖度の値を分離判定基準にして雑音が除去された推定スペクトルy* を分離する第2工程と、推定スペクトルy* の総和Fを求め、その最大値に応じて決定される閾値βを検出判定基準にして総和Fの周波数領域から音声区間及び雑音区間をそれぞれ検出する第3工程と、推定スペクトルY* から音声区間に存在する成分を抽出して目的音声の復元スペクトル群を生成し目的音声を復元する第4工程とを有する。
【選択図】 図1

Description

本発明は、ICA法により得られた分離信号から音声区間と雑音区間を分離し、分離信号から音声区間に含まれる信号のみを抽出することで音声全体に含まれる残留雑音を最小化する定常雑音下における音声区間検出に基づく目的音声の復元方法に関する。
近年、音声認識技術は著しく進展して、周囲に雑音のない理想的な環境下では認識能力の極めて高い音声認識エンジンが供給できるようになってきている。
しかし、生活音や活動音が存在する一般家庭やオフィスでは、期待通りの認識率を得るのが難しい。このような環境下で音声認識エンジンのもつ本来の認識能力を引き出すには、雑音混じりの音声から雑音を除去して、話者音声のみを音声認識エンジンに受け渡す前処理が不可欠と考えられる。
その観点から、近年、独立成分分析法(以下、単にICA法という)や各種音声強調法が注目を集めており、様々なアルゴリズムが提案されている(例えば、非特許文献1〜5参照)。そして、これらの各種アルゴリズムのなかで、各音源が統計的に独立という仮定の基に、音声と雑音を分離するICA法が注目されている。
ベル、セイノフスキー(J.Bell and T.J.Sejnowski)、"アンインフォメーション マキシマイゼイション アプローチ ツー ブラインド セパレイション アンド ブラインド ディコンボルーション(An informationon and blind deconvolution"、ニューラル コンピューテイション(Neural Computation)、米国 、エムアイティー プレス(MIT Press)、1995年6月、7巻、6号、p.1129−1159 アマリ(S.Amari)、"ナチュラル グラディエント ワークス エフィシェントリー イン ラーニング (Natural gradient works efficiently in learning)、ニューラル コンピューテイション(Neural Computation)、米国 、エムアイティー プレス(MIT Press)、1998年2月、10巻、2号、p.254−276 リー、ギロラミ、セイノフスキー(T.W.Lee、M.Girolami and T.J.Sejnowski)、"インディペンデント コンポーネント アナリシス ユージング アン イクステンティッド インフォマックス アルゴリズム フォア ミクスト サブガウシアン アンド スーパーガウシアン ソーシズ(Independent component analysis using an extented informax algorithm for mixed subgaussian and supergaussian sources)、ニューラル コンピューテイション(Neural Computation)、米国 、エムアイティ プレス(MIT Press)、1999年2月、11巻、2号、p.417−441 ヒバリネン(A.Hyvarinen)、"ファスト アンド ロバスト フィクスト−ポイント アルゴリズム フォア インディペンデント コンポーネント アナリシス(Fast and robust fixed−point algorithms for independent component analysis)、トランザクション ニューラル ネットワークス(IEEE Trans. Neural Networks)、米国、アイイーイーイー(IEEE)、1999年6月、10巻、3号、p.626−634 ヒバリネン、オヤ(A.Hyvarinen、and E.Oja)、"インディペンデント コンポーネント アナリシス:アルゴリズム アンド アプリケイションズ(Independent component analysis:algorithms and applications)、ニューラル ネットワークス(Neural Networks)、米国、ペルガモン プレス(Pergamon Press)、2000年6月、13巻、4−5号、p.411−430
しかしながら、ICA法では、残響のない理想的環境下の場合は良好に音声と雑音を分離することができるが、残響が強い実際的な環境下の場合は残響に起因した残留雑音のため、分離能力が極端に低下するという問題がある。
本発明はかかる事情に鑑みてなされたもので、実際的な環境下で受信した信号からICA法により作成した分離信号に基づいて音声区間と雑音区間を分離し、分離信号から音声区間に含まれる信号のみを抽出することで、目的音声に含まれる残留雑音を最小化することが可能な定常雑音下における音声区間検出に基づく目的音声の復元方法を提供することを目的とする。
前記目的に沿う第1の発明に係る定常雑音下における音声区間検出に基づく目的音声の復元方法は、異なる2つの音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第1及び第2のマイクでそれぞれ受信して混合信号を形成し、該各混合信号を時間領域から周波数領域にフーリエ変換して、独立成分分析法により前記目的音声及び前記雑音にそれぞれ対応する各分割スペクトルから複数の推定スペクトルY* 、Yを抽出する第1工程と、
前記各推定スペクトルY* を、該各推定スペクトルY* の振幅分布の尖度の値を分離判定基準にして前記雑音が除去された複数の推定スペクトルy* 及び前記雑音が残留する複数の推定スペクトルyに分離する第2工程と、
前記各推定スペクトルy* の総和Fを求め、該総和Fの最大値に応じて決定される閾値βを検出判定基準にして該総和Fの周波数領域から音声区間及び雑音区間をそれぞれ検出する第3工程と、
前記各推定スペクトルY* から前記音声区間に存在する成分を抽出して前記目的音声の復元スペクトル群を生成し、該復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して前記目的音声を復元する第4工程とを有する。
第1及び第2のマイクでそれぞれ受信されて得られる混合信号のみを用いて2つの音源からそれぞれ発信される目的音声及び雑音を推定する場合、混合信号は畳み込み混合されている。このため、周波数領域に変換することで畳み込み混合を瞬時混合として取り扱うことができ、分離が容易となる。更に、各音源は統計的に独立と考えることができるので、独立成分分析(ICA)法を適用することができる。
ここで、ICA法を適用して得られた周波数毎の分割スペクトルには、スケーリングの不定性と成分置換の問題が生じているため、これらの問題を別途解決して目的音声及び雑音にそれぞれ対応する周波数毎の推定スペクトルY* 、Yを抽出する。
しかし、抽出された各推定スペクトルY* を周波数毎に見てみると、雑音が良好に分離されている周波数と雑音がほとんど除去されていない周波数が存在している状態になっている。
一方、時間領域での音声と雑音の統計的性質として、音声は0近傍の値を取る確率が非常に大きい尖度の高い分布になるのに対して、雑音は尖度の低い分布になることが知られている、このことは、周波数領域に変換した音声と雑音に対しても当てはまり、音声に対応したスペクトルの振幅分布は尖度が高く、雑音に対応したスペクトルの振幅分布は尖度が低くなる。
このことから、各推定スペクトルY* において、その振幅分布の尖度を求めると、振幅分布の尖度が大きければその周波数では雑音が良好に除去されていると判定でき、尖度が小さければその周波数では雑音がほとんど除去されていないと判定することができる。従って、各推定スペクトルY* の振幅分布の尖度によって、各推定スペクトルY* を推定スペクトルy* と推定スペクトルyに分離することができる。
一般に、音声の周波数成分は、時間的に変化するため、音声を特徴付けるスペクトルの現れる周波数領域は推定スペクトルy* によって異なることになる。そこで、各推定スペクトルy* の総和Fを求め、周波数領域における総和Fに対して総和Fの最大値に応じて決定される閾値βを適切に選ぶことにより、時間的な音声区間をカバーするような周波数領域における音声区間を検出することができる。そして、音声区間を除いた部分を周波数領域における雑音区間として検出することができる。
従って、目的音声に対応する各推定スペクトルY* から求めた音声区間に存在する成分のみを抽出して目的音声の復元スペクトル群を生成すると、復元スペクトル群には雑音成分は実質的に存在しないことになる。そして、この復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して目的音声信号を復元することができる。
第1の発明に係る定常雑音下における音声区間検出に基づく目的音声の復元方法において、前記検出判定基準は、前記総和Fが前記閾値βを超える周波数領域を前記音声区間とし、前記総和Fが前記閾値β以下となる周波数領域を前記雑音区間として検出するように設定されていることが好ましい。
これによって、検出判定基準として2値化された(閾値βに基づいて音声区間とするか、雑音区間とするかの2者択一の選択を行う)音声区間検出関数を設定することができる。その結果、各推定スペクトルY* から音声を特徴付けるスペクトルの現れる周波数領域を簡便に決定することができる。
前記目的に沿う第2の発明に係る定常雑音下における音声区間検出に基づく目的音声の復元方法は、異なる2つの音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第1及び第2のマイクでそれぞれ受信して混合信号を形成し、該各混合信号を時間領域から周波数領域にフーリエ変換して、独立成分分析法により前記目的音声及び前記雑音にそれぞれ対応する各分割スペクトルから複数の推定スペクトルY* 、Yを抽出する第1工程と、
前記各推定スペクトルY* を、該各推定スペクトルY* の振幅分布の尖度の値を分離判定基準にして前記雑音が除去された複数の推定スペクトルy* 及び前記雑音が残留する複数の推定スペクトルyに分離する第2工程と、
前記各推定スペクトルy* の総和Fを求め、該総和Fの最大値に応じて決定される閾値βを検出判定基準にして該総和Fの時間領域から音声区間及び雑音区間をそれぞれ検出する第3工程と、
前記各推定スペクトルY* を周波数領域から時間領域にフーリエ逆変換して得られた前記目的音声の信号から前記音声区間に存在する成分を抽出して前記目的音声を復元する第4工程とを有する。
混合信号を時間領域から周波数領域にフーリエ変換すると、混合信号は離散化された複数のスペクトルに分解される。そして、各スペクトルを大きさの順に並べたときのフレーム番号とサンプリング時刻の間には、フレーム周期を介して1対1の関係が成立する。従って、フレーム番号とサンプリング時刻の関係から、周波数領域で検出した音声区間を時間領域に変換することができる。そして、音声区間を除いた部分を時間領域における雑音区間として検出することができる。
このため、各推定スペクトルY* を周波数領域から時間領域にフーリエ逆変換して得られた時間領域の目的音声の信号から音声区間に存在する成分のみを抽出して目的音声の復元信号を生成することができる。
第2の発明に係る定常雑音下における音声区間検出に基づく目的音声の復元方法において、前記検出判定基準は、前記総和Fが前記閾値βを超える時間領域を前記音声区間とし、前記総和Fが前記閾値β以下となる時間領域を前記雑音区間として検出することが好ましい。
これによって、検出判定基準として2値化された(閾値βに基づいて音声区間とするか、雑音区間とするかの2者択一の選択を行う)音声区間検出関数を設定することができる。その結果、時間領域の目的音声の信号から雑音区間がゼロになって音声区間のみの音声が強調された信号を簡便に決定することができる。
第1及び第2の発明に係る定常雑音下における音声区間検出に基づく目的音声の復元方法において、前記尖度の値を前記各推定スペクトルY* の振幅分布のエントロピーHで評価することが好ましい。
各推定スペクトルY* の振幅分布の尖度は、振幅分布の不確定性の観点からエントロピーHを用いて定量的に評価することができる。この場合、雑音が除去される程推定スペクトルY* のエントロピーHは小さくなり、雑音が残留する程推定スペクトルY* のエントロピーHは大きくなる。
なお、尖度を定量的に計る尺度としては、例えば、平均の周りの四次のモーメントμと標準偏差σの4 乗との比、すなわちμ/σ4 (kurtosis)を使用することもできるが、異常値に対する評価の安定性が劣るという問題があり好ましくない。
第1及び第2の発明に係る定常雑音下における音声区間検出に基づく目的音声の復元方法において、前記分離判定基準は、
(1)前記エントロピーHが予め設定した閾値α未満である推定スペクトルY* は前記推定スペクトルy* として分離し、
(2)前記エントロピーHが予め設定した閾値α以上である推定スペクトルY* は前記推定スペクトルyとして分離するように設定されていることが好ましい。
各推定スペクトルY* を周波数毎に見てみると、雑音が良好に分離されている周波数と雑音がほとんど除去されていない周波数が存在しているので、推定スペクトルY* のエントロピーHは分布を持つことになる。
従って、エントロピーHの値に閾値αを設定して、エントロピーHがこの閾値α未満である推定スペクトルY* は雑音の除去が行われている推定スペクトルy* と認定し、エントロピーHがこの閾値α以上である推定スペクトルY* は雑音が残留する推定スペクトルyと認定することができる。
このように、2値化された(閾値αに基づいて推定スペクトルy* とするか、推定スペクトルyとするかの2者択一の選択を行う)分離判定基準を設定することにより、各推定スペクトルY* から推定スペクトルy* 及び推定スペクトルyを素早く、かつ容易に決定することができる。
請求項1、及びこれに従属する2、5、6記載の定常雑音下における音声区間検出に基づく目的音声の復元方法においては、実際的な環境下で受信した信号から目的音声に対応する分割スペクトルを抽出し音声区間と雑音区間を検出して音声区間に含まれる信号のみを抽出することができるので、音声全体に含まれる残留雑音を最小化して高品質の音声を復元することが可能になる。
その結果、雑音環境下での音声認識として、例えば、OA分野での音声指令、音声入力、流通業界での倉庫管理やカーナビゲーターへの音声指令等、従来のタッチセンサ、指、及びキーボードを用いた入力操作の代替が可能になる。
特に、請求項2記載の定常雑音下における音声区間検出に基づく目的音声の復元方法においては、各推定スペクトルY* から音声を特徴付けるスペクトルの現れる周波数領域を簡便に決定することができるので、素早く音声区間を検出することが可能になる。その結果、実環境下で音声復元の応答速度が速く、しかも、高品質の音声認識エンジンを供給することが可能になる。
請求項3、及びこれに従属する4〜6記載の定常雑音下における音声区間検出に基づく目的音声の復元方法においては、実際的な環境下で受信した信号から抽出した目的音声の時間信号に対して音声区間と雑音区間を検出して音声区間に含まれる信号のみを抽出することができるので、音声全体に含まれる残留雑音を最小化して高品質の音声を復元することが可能になる。
その結果、雑音環境下での音声認識として、例えば、OA分野での音声指令、音声入力、流通業界での倉庫管理やカーナビゲーターへの音声指令等、従来のタッチセンサ、指、及びキーボードを用いた入力操作の代替が可能になる。
特に、請求項4記載の定常雑音下における音声区間検出に基づく目的音声の復元方法においては、目的音声の時間信号から音声を特徴付ける信号の現れる時間領域を少ない計算量で検出することができるので、素早く音声区間を検出することが可能になる。その結果、実環境下で音声復元の応答速度が速く、しかも、高品質の音声認識エンジンを供給することが可能になる。
請求項5記載の定常雑音下における音声区間検出に基づく目的音声の復元方法においては、各推定スペクトルY* に異常値が含まれていても尖度を確実に評価することができるので、雑音が除去された推定スペクトルy* 及び雑音が残留する推定スペクトルyをそれぞれ確実に分離することが可能になる。
請求項6記載の定常雑音下における音声区間検出に基づく目的音声の復元方法においては、推定スペクトルY* から推定スペクトルy* 及び推定スペクトルyを少ない計算量で精度良く抽出することができるので、実環境下で音声復元の応答速度が速く、しかも、認識能力の極めて高い音声認識エンジンを供給することが可能になる。
続いて、添付した図面を参照しつつ、本発明を具体化した実施の形態につき説明し、本発明の理解に供する。
図1は本発明の第1及び第2の実施の形態に係る定常雑音下における音声区間検出に基づく目的音声の復元方法を適用した目的音声の復元装置の構成図、図2は同復元方法における目的音声及び雑音から各推定スペクトルY* が形成されるまでの信号の流れを示す説明図、図3各推定スペクトルY* から構成された復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して得られた目的音声信号の波形を示す説明図、図4は雑音が除去された推定スペクトルY* の波形を示す説明図、図5は雑音が残留している推定スペクトルY* の波形を示す説明図、図6は雑音が除去された推定スペクトルY* の振幅分布を示す説明図、図7は雑音が残留している推定スペクトルY* の振幅分布を示す説明図、図8は雑音が除去された各推定スペクトルy* の総和を示す説明図、図9は各推定スペクトルY* に対して決定された音声区間検出関数のグラフ、図10は各推定スペクトルY* から音声区間に存在する成分を抽出して生成した目的音声の復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して得られた目的音声信号の説明図、図11は本発明の実施例1、2におけるバーチャルルームでの音源とマイクの配置を示す説明図である。
図1に示すように、本発明の第1及び第2の実施の形態に係る定常雑音下における音声区間検出に基づく目的音声の復元方法を適用した目的音声の復元装置10は、異なる2つの音源11、12(一方が目的音声音源で他方が雑音源であるが、特定されていない)からそれぞれ発信される信号を受信する異なる位置に設けた第1のマイク13及び第2のマイク14と、各マイク13、14で受信されて得られた混合信号をそれぞれ増幅する第1及び第2の増幅器15、16と、各増幅器15、16から入力される混合信号から目的音声及び雑音を分離して復元信号として出力する復元装置本体17を有している。更に、目的音声の復元装置10は、出力された復元信号を増幅する復元信号増幅器18と、増幅された復元信号を出力するスピーカ19を有している。以下、これらについて詳細に説明する。
第1及び第2のマイク13、14としては、例えば、可聴音域(10〜20000Hz)の信号を集音するのに十分な周波数特性を有するマイクを使用することができる。ここで、第1のマイク13は、音源11に対して、第2のマイク14よりも接近して配置され、第2のマイク14は、音源12に対して、第1のマイク13よりも接近して配置されている。
また、第1及び第2の増幅器15、16としては、可聴音域の信号を歪みなく増幅可能な周波数帯域の特性を備えた増幅器を使用できる。
復元装置本体17は、各増幅器15、16から入力される混合信号をデジタル化するためのA/D変換器20、21を有している。
また、復元装置本体17は、デジタル化された各混合信号を時間領域から周波数領域にフーリエ変換し、独立成分分析法の一例であるFastICA法により2つの分離信号U1 、U2 に分解する分離信号作成演算回路と、音源11及び音源12から第1及び第2のマイク13、14までの各伝達経路特性に基づいて、分離信号U1 から第1のマイク13で受信された複数のスペクトルv11と第2のマイク14で受信された複数のスペクトルv12を生成し、分離信号U2 から第1のマイク13で受信された複数のスペクトルv21と第2のマイク14で受信された複数のスペクトルv22を生成して分割スペクトルを形成する分割スペクトル生成演算回路を備えた分割スペクトル生成器22を有している。
更に、復元装置本体17は、分割スペクトル生成器22で生成させた各スペクトルv11、v12、v21、v22に対して、第1及び第2のマイク13、14と音源11及び音源12との間の距離に基づく音の伝達特性を用いた判定基準を適用して、各分割スペクトルを目的音声及び雑音にそれぞれ対応させ、目的音声を復元するための複数の推定スペクトルY* を抽出し出力する推定スペクトル抽出回路23と、推定スペクトル抽出回路23から出力された各推定スペクトルY* の振幅分布の尖度の値を分離判定基準にして、各推定スペクトルY* を雑音が除去された複数の推定スペクトルy* と雑音が残留する複数の推定スペクトルyに分離し、各推定スペクトルy* の総和Fを求め総和Fの最大値に応じて決定される閾値βを検出判定基準にして、総和Fの周波数領域から音声区間を検出し出力する音声区間検出回路24を有している。また、復元装置本体17は、各推定スペクトルY* から検出された音声区間に存在する成分を抽出して目的音声の復元スペクトル群を生成して出力する復元スペクトル抽出回路25を有している。
そして、更に、復元装置本体17は、復元スペクトル抽出回路25から出力された復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して復元信号を生成させる復元信号生成回路26を有している。
そして、分離信号作成演算回路及び分割スペクトル生成演算回路を備えた分割スペクトル生成器22、推定スペクトル抽出回路23、音声区間検出回路24、復元スペクトル抽出回路25、及び復元信号生成回路26は、各回路の機能を発現する各プログラムを、例えば、パーソナルコンピュータに搭載させることにより構成することができる。また、各プログラムをマイクロコンピュータに搭載させ、これらのマイクロコンピュータが連携動作可能なように回路を形成することにより構成することもできる。
特に、パーソナルコンピュータに各プログラムを搭載させた場合は、このパーソナルコンピュータにA/D変換器20、21を取付けることにより、復元装置本体17を一括して構成することができる。
また、復元信号増幅器18は、復元信号をアナログ変換して可聴音域を歪みなく増幅することが可能な特性を備えた増幅器を使用することができ、スピーカ19も可聴音域の信号を歪みなく出力可能な特性を備えたスピーカを使用できる。
次に、本発明の第1の実施の形態に係る定常雑音下における音声区間検出に基づく目的音声の復元方法は、図1に示すように、異なる2つの音源11、12からそれぞれ発信される信号s1 (t)及び信号s2 (t)(一方が目的音声信号であり、他方が雑音信号である)を、異なる位置に設けた第1及び第2のマイク13、14でそれぞれ受信して混合信号x1 (t)、x2 (t)を形成し、各混合信号x1 (t)、x2 (t)を時間領域から周波数領域にフーリエ変換して、FastICA法により目的音声及び雑音にそれぞれ対応する複数の推定スペクトルY* 、Yを抽出する第1工程を有している。
また、目的音声の復元方法は、各推定スペクトルY* を、各推定スペクトルY* の振幅分布の尖度の値を分離判定基準にして雑音が除去された複数の推定スペクトルy* 及び雑音が残留する複数の推定スペクトルyに分離する第2工程と、各推定スペクトルy* の総和Fを求め、総和Fの最大値に応じて決定される閾値βを検出判定基準にして総和Fの周波数領域から音声区間及び雑音区間をそれぞれ検出する第3工程を有している。
更に、目的音声の復元方法は、各推定スペクトルY* から検出した音声区間に存在する成分を抽出して目的音声の復元スペクトル群を生成し、復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して目的音声を復元する第4工程とを有する。なお、tは時間を示す。以下、これらの各工程について詳細に説明する。
(第1工程)
音源11から発信される信号s1 (t)と、音源12から発信される雑音信号s2 (t)は、一般に統計的に独立と考えることができる。そして、信号s1 (t)と信号s2 (t)を、異なる位置に設置した第1及び第2のマイク13、14で受信して得られる各混合信号x1 (t)、x2 (t)は、式(1)のように表記できる。
ここで、s(t)=[s1 (t),s2 (t)]T 、x(t)=[x1 (t),x2 (t)]T 、*は畳み込み記号、G(t)は各音源11、12から各マイク13、14までのそれぞれの伝達関数である。
Figure 2005084244
(1)式のように、各音源11、12からの信号が畳み込まれて観測される場合、各混合信号x1 (t)、x2 (t)から、信号s1 (t)と信号s2 (t)を、時間領域で分離することは困難となる。そのため、混合信号x1 (t)、x2 (t)を式(2)のように短時間間隔(フレーム)、例えば数10msec程度の時間間隔で分割し、各フレーム毎に時間領域から周波数領域にフーリエ変換して扱う。周波数領域にフーリエ変換することにより、瞬時混合のときの問題と同様に扱える。
また、得られた各周波数におけるスペクトルをフレーム順に並べることにより、スペクトルを時系列として扱うことができる。
Figure 2005084244
ここに、ω(=0,2π/Μ,・・・,2π(Μ−1)/Μ)は規格化周波数、Μはフレーム内のサンプル数、w(t)は窓関数、τはフレーム周期、Κはフレーム数を表す。
このとき混合信号スペクトルx(ω,k)と、信号s1 (t)及び信号s2 (t)の各スペクトルは、周波数領域で式(3)のように関係づけられる。ここに、s(ω,k)はs(t)を窓掛けして離散フーリエ変換したもので、G(ω)はG(t)を離散してフーリエ変換して得られる複素定数行列である。
ここで、信号スペクトルs1 (ω,k)及び信号スペクトルs2 (ω,k)は本来独立であるので、FastICA法を用いて、混合信号スペクトルx(ω,k)から、互いに独立となる分離信号スペクトルU1 (ω,k)、U2 (ω,k)を求めると、これらのスペクトルが信号スペクトルs1 (ω,k)及び信号スペクトルs2 (ω,k)に相当することになる。
すなわち、混合信号スペクトルx(ω,k)と分離信号スペクトルU1 (ω,k)、U2 (ω,k)の間に、式(4)の関係が成立するような分離行列H(ω)を求めることにより、混合信号スペクトルx(ω,k)から、互いに独立となる分離信号スペクトルU1 (ω,k)、U2 (ω,k)を決定することができる。ここで、u(ω,k)=[U1 (ω,k),U2 (ω,k)]T である。
Figure 2005084244
Figure 2005084244
なお、周波数領域では、個々の周波数ωで、式(5)のように振幅の曖昧さや成分置換の問題が生じる。そのため、復元するのに意味ある分離信号を得るには、これらの問題を解決する必要がある。
ここにQ(ω)は白色化行列、Pは各行と列の全ての要素が値1である1つの要素を除いて0である成分置換を表す行列、D(ω)=diag[d1 (ω),d2 (ω)]は振幅の曖昧さを表す対角行列である。
Figure 2005084244
次に、周波数領域で、各信号スペクトルsi (ω,k)(i=1,2)を、その実部と虚部は平均がゼロで等しい分散をもち、実部と虚部は無相関という仮定の下で次のように定式化する。すなわち、周波数ωにおいて、分離荷重hn (ω)(n=1,2)を式(6)、式(7)に示すFastICA法のアルゴリズムに従って更新する。
ここに、f(・)は非線型関数で、f′(・)はf(・)の微分、 ̄は共役、Κはフレームのサンプル数である。
Figure 2005084244
Figure 2005084244
このアルゴリズムは、式(8)に示す収束条件CCがほぼ1(例えば、CCが0.9999以上)を満たすまで、繰り返される。さらに、h2 (ω)については、式(9)のように、h1 (ω)と直交化させて再び(7)式により規格化する。
Figure 2005084244
Figure 2005084244
上述のFastICA法のアルゴリズムを各周波数ωについて適用し、得られる分離荷重hn (ω)(n=1,2)を式(4)のH(ω)に対して、式(10)として代入すれば、各周波数での分離信号スペクトルu(ω,k)=[U1 (ω,k),U2 (ω,k)]T が求まる。
Figure 2005084244
図2に示すように、分離信号スペクトルU1 (ω,k)、U2 (ω,k)が出力される2つのノードを1、2と表記する。
このとき、分割スペクトルv1 (ω,k)=[v11(ω,k),v12(ω,k)]T 、v2 (ω,k)=[v21(ω,k),v22(ω,k)]T は、分離信号スペクトルUn (ω,k)から、式(11)、(12)に示すように、各ノードn(=1,2)で対になって生成されるスペクトルとして定義する。
Figure 2005084244
Figure 2005084244
ここで、成分置換は生じていないが、振幅の曖昧さが存在する場合、分離信号スペクトルUn (ω,k)は、式(13)として出力される。そして、この分離信号Un (ω,k)に対する分割スペクトルは、信号スペクトルs1 (ω,k)及信号スペクトルs2 (ω,k)と伝達関数との積として、式(14)、式(15)のように生成される。
なお、g11(ω)は音源11から第1のマイク13までの伝達関数、g21(ω)は音源11から第2のマイク14までの伝達関数、g12(ω)は音源12から第1のマイク13までの伝達関数、g22(ω)は音源12から第2のマイク14までの伝達関数を示す。
Figure 2005084244
Figure 2005084244
Figure 2005084244
また、成分置換と振幅の曖昧さの両方がある場合、分離信号スペクトルUn (ω,k)は、式(16)となって、ノード1、2での分割スペクトルは、式(17)、式(18)のように生成される。
なお、ノード1で生成するスペクトルv11(ω,k)は、音源12から発信された信号スペクトルs2 (ω,k)を第1のマイク13で観測したときのスペクトル、ノード1で生成するスペクトルv12(ω,k)は、音源12から発信された信号スペクトルs2 (ω,k)を第2のマイク14で観測したときのスペクトルを示す。また、ノード2で生成するスペクトルv21(ω,k)は、音源11から発信された信号スペクトルs1 (ω,k)を第1のマイク13で観測したときのスペクトル、ノード2で生成するスペクトルv22(ω,k)は、音源11から発信された信号スペクトルs1 (ω,k)を第2のマイク14で観測したときのスペクトルを示す。
Figure 2005084244
Figure 2005084244
Figure 2005084244
図2に示す4つのスペクトルv11(ω,k)、v12(ω,k)、v21(ω,k)、v22(ω,k)は、1つの音源に対して2つの候補となる推定値を有している。そして、一方の音源からの信号に対して成分置換がない場合にはv11(ω,k)とv12(ω,k)があり、成分置換がある場合にはv21(ω,k)とv22(ω,k)がある。
ここで、第1及び第2のマイクと各音源との距離に基づく音の伝達特性、例えば、音の強弱を考慮すると、周波数毎に得られた各スペクトルv11、v12、v21、v22間に、スペクトル強度の差が生じる。従って、第1及び第2のマイク13、14と各音源との距離に明確な差を予め設けておくと、各音源がどのマイクで受信されたか、すなわち、2つの音源の信号がそれぞれどのスペクトルv11、v12、v21、v22に相当するかを判定することができる。
例えば 音源11は第2のマイク14に比べて第1のマイク13に近く、音源12は第1のマイク13に比べて第2のマイク14に近いと仮定する。このとき、音源11から各マイク13、14への信号の伝達特性を比較すると、式(19)なるゲインの大小関係が得られる。同様に、音源12から各マイク13、14への伝達特性についても、式(20)なるゲインの大小関係が得られる。
Figure 2005084244
Figure 2005084244
このとき、式(19)、(20)のゲインの大小関係を念頭に、式(14)、(15)、もしくは式(17)、(18)を用いて、スペクトルv11とスペクトルv12との差D1 、及びスペクトルv21とスペクトルv22との差D2 を求めると、成分置換がない場合、ノード1での差D1 は正、またノード2で差D2 は負となることが導かれる。
一方、成分置換がある場合、同様にしてスペクトルv11とスペクトルv12との差D1 、及びスペクトルv21とスペクトルv22との差D2 を考えると、ノード1での差D1 は負、またノード2での差D2 は正となることが導かれる。
従って、成分置換の有無については、分割スペクトルの差をそれぞれ調べて、ノード1での差D1 が正かつノード2での差D2 が負のとき、成分置換はないと判定し、ノード1での差D1 が負かつノード2での差D2 が正のとき、成分置換はあると判定する。
ここで、差D1 をスペクトルv11とスペクトルv21との各絶対値の差として、差D2 をスペクトルv21とスペクトルv22との各絶対値の差としてそれぞれ求めた場合、差D1 、差D2 はそれぞれ、式(21)、式(22)のように表される。
Figure 2005084244
Figure 2005084244
ここで、成分置換がない場合には、一方の音源の信号のスペクトルy1 (ω,k)に、v11(ω,k)を採用する。これは、v11(ω,k)は第1のマイク13で観測されたスペクトルの推定値であり、第2のマイク14で観測されたスペクトルの推定値v12(ω,k)より大きく、周囲の暗騒音の影響を受けにくいからである。また、成分置換がある場合には、一方の音源のスペクトルy1 (ω,k)にv21(ω,k)を採用する。
以上のことから、一方の音源のスペクトルy1 (ω,k)は式(23)として表せる。同様に、他方の音源のスペクトルy2 (ω,k)に、成分置換がない場合にはv22(ω,k)を採用し、成分置換がある場合にはv12(ω,k)を採用する。以上のことから、他方の音源のスペクトルy2 (ω,k)は式(24)として表せる。
なお、成分置換の有無は、式(21)、(22)を使用し判定する。
Figure 2005084244
Figure 2005084244
FastICA法は、混合信号から非ガウス性の高い順に音源を分離するという特徴を有している。また、一般に、話者音声は雑音より非ガウス性が高いという特徴を有している。これらのことは、音源が話者音声と騒音である場合、話者音声に対応する分割スペクトルは、最初に出力される分離信号U1 に出力される頻度が高くなる。
従って、一方の音源が話者音声であれば、成分置換のない頻度は高く、逆に、他方の音源が話者音声であれば、成分置換の生じる頻度は高くなる。
このことから、フーリエ変換した際の各周波数毎に各スペクトルy1 、y2 を生成するとき、成分置換の有無の頻度、すなわち個数N+ 、N- を求め、個数N+ が個数N- より大きい場合、推定スペクトルY* としてスペクトルy1 を抽出し、推定スペクトルYとしてスペクトルy2 を抽出する。一方、個数N- が個数N+ より大きい場合、推定スペクトルY* としてスペクトルy2 を抽出し、推定スペクトルYとしてスペクトルy1 を抽出する。
(第2工程)
以上のようにして周波数毎に抽出した各推定スペクトルY* から構成される復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して得られた目的音声信号の波形(東京という音声)を図3に示す。図3から、復元された目的音声信号には、雑音信号が残留していることが判る。
そこで、抽出された複数の推定スペクトルY* を周波数毎に見てみると、図4に示すように、雑音が除去された推定スペクトルY* と、図5に示すように、雑音が残留している推定スペクトルY* とが存在している。そして、図4に示される雑音が除去された推定スペクトルY* の波形では、音声区間では振幅が大きく、非音声区間では振幅が非常に小さくなって、音声の始端と終端が明確に検出できる。従って、雑音が除去された推定スペクトルY* のみを利用すると精度の高い音声区間の検出できると考えられる。
ここで、図4、図5に示す各推定スペクトルY* の振幅分布をそれぞれ求めると、図6、図7に示すようになる。これらの図から、雑音が除去された推定スペクトルY* の振幅分布の尖度が高く、雑音が残留している推定スペクトルY* の振幅分布の尖度は低いことが判る。
従って、推定スペクトルY* の振幅分布の尖度を分離判定基準にすると、尖度の値の違いにより、各推定スペクトルY* を雑音が除去されている複数の推定スペクトルy* と雑音が除去されていない複数の推定スペクトルyとにそれぞれ分離できる。
尖度の値を定量的に評価する方法として、振幅分布のエントロピーHを使用することができる。エントロピーHは振幅分布の不確実性を示す尺度であり、尖度が高ければエントロピーは小さく、尖度は低ければエントロピーは大きくなる。従って、エントロピーHの値に予め閾値αを設定しておくと、分離判定基準は、(1)エントロピーHが閾値α未満である推定スペクトルY* は推定スペクトルy* として分離し、(2)エントロピーHが閾値α以上である推定スペクトルY* は推定スペクトルyとして分離することになる。
なお、エントロピーHは式(25)で算出する。
Figure 2005084244
ここに、pw (ln )は、各推定スペクトルY* の実部の値の分布範囲をN等分したとき区画ln に入る頻度qw (ln )(n=1,2,・・・,N)を、式(26)のように規格化して得られる確率である。
Figure 2005084244
(第3工程)
音声の周波数成分は、時間的に変化するため、音声を特徴付けるスペクトルの現れる周波数領域は推定スペクトルy* によって異なる。そこで、各推定スペクトルy* の総和Fを求めることにより、音声を特徴付けるスペクトルの現れる周波数領域の範囲が明確になり、時間的な音声区間と一致する周波数領域における音声区間を検出することができる。
算出される総和Fは、例えば図8に示すような分布をもつ。なお、図8では、総和Fの最大値で規格化して表示している。そこで、総和Fの最大値(図8では1)に応じて決定される閾値βを適切に選ぶことにより、総和Fが閾値βを超える領域を音声区間、総和Fが閾値β以下の領域を雑音区間として特定することができる。
従って、図8の振幅分布と閾値βを用いて、検出判定基準として、図9に示すような2者択一型の音声区間検出関数F* (k)を設定することができる。ここで、F* (k)は、閾値β<Fの領域でF* (k)=1、閾値β≧Fの領域でF* (k)=0となる2値化関数である。
(第4工程)
従って、目的音声に対応する各推定スペクトルY* に対して音声区間検出関数を掛けることにより、各推定スペクトルY* から音声区間に存在する成分のみを抽出することができる。
その結果、各推定スペクトルY* の音声区間に存在する成分のみから目的音声の復元スペクトル群{Z(ω,k)|k=0,1,・・・,K−1}を生成して、フレーム毎に逆離散フーリエ変換(フーリエ逆変換)して時間領域に戻して、それをすべてのフレームにわたって式(27)のように総和を取れば、目的音声音源の復元信号Z(t)が得られる。
図10に、図3の目的音声信号の復元に使用した各推定スペクトルY* に対して音声区間検出関数を作用させて復元した目的音声信号を示す。図3と図10を比較すると、図10には雑音信号が残留していないことが判る。
Figure 2005084244
本発明の第2の実施の形態に係る定常雑音下における音声区間検出に基づく目的音声の復元方法は、図1に示すように、異なる2つの音源11、12からそれぞれ発信される信号s1 (t)及び信号s2 (t)(一方が目的音声信号であり、他方が雑音信号である)を、異なる位置に設けた第1及び第2のマイク13、14でそれぞれ受信して混合信号x1 (t)、x2 (t)を形成し、各混合信号x1 (t)、x2 (t)を時間領域から周波数領域にフーリエ変換して、独立成分分析法の一例であるFastICA法により目的音声及び雑音にそれぞれ対応する複数の推定スペクトルY* 、Yを抽出する第1工程を有している。
また、目的音声の復元方法は、各推定スペクトルY* を、各推定スペクトルY* の振幅分布の尖度の値を分離判定基準にして雑音が除去された複数の推定スペクトルy* 及び雑音が残留する複数の推定スペクトルyに分離する第2工程と、各推定スペクトルy* の総和Fを求め、総和Fの最大値に応じて決定される閾値βを検出判定基準にして総和Fの時間領域からから音声区間及び雑音区間をそれぞれ検出する第3工程を有している。
更に、目的音声の復元方法は、各推定スペクトルY* を周波数領域から時間領域にフーリエ逆変換して得られた前記目的音声の信号から検出した音声区間に存在する成分を抽出して目的音声を復元する第4工程を有する。
ここで、本発明の第2の実施の形態に係る定常雑音下における音声区間検出に基づく目的音声の復元方法は、第1の実施の形態の目的音声の復元方法と比較し、音声区間を時間領域で検出し目的音声の時間信号からこの音声区間に存在する成分のみを抽出して目的音声を復元することが大きな特徴となっている。
このため、第2の実施の形態に係る定常雑音下における音声区間検出に基づく目的音声の復元方法は、第1の実施の形態の目的音声の復元方法と比較して、第3及び第4工程が異なる。従って、第3及び第4工程についてのみ説明する。
総和Fにおけるフレーム番号kとサンプリング時刻tとの間には、フレーム周期をτとして、τ(k−1)<t≦τkの関係が成立している。従って、k=[t/τ]の関係が成立していることを考慮すると、時間領域での音声区間検出関数F* (t)を設定することができる。
すなわち、F* (t)は、F* ([t/τ])=1の領域でF* (t)=1、F* ([t/τ])=0の領域でF* (t)=0となる2値化関数として求まる。従って、F* ([t/τ])=1となるtの領域から音声区間を検出し、F* ([t/τ])=0となるtの領域から雑音区間をそれぞれ検出する(第3工程)。なお、[t/τ]は、t/τ以上の最小の整数を指すceiling記号である。
また、時間領域での音声区間検出関数F* (t)を、各推定スペクトルY* を周波数領域から時間領域にフーリエ逆変換して得られた目的音声の時間信号に掛けることにより、雑音区間がゼロになって音声区間のみの音声が強調された信号を得ることができ(第4工程)、これを復元信号増幅器18を介してスピーカ19に入力することにより目的音声を確認することができる。
(実施例1)
図11に示すように、縦10m、横10m、及び高さ10mのバーチャルルーム内に音源1、2とマイク1、2を配置し、マイク1、2で観測される混合信号に対してFastICA法を適用して雑音除去を行って目的音声を復元し、音声区間の検出精度を求めた。
ここで、各マイク1、2間の距離は0.5m、各音源1、2間の距離は0.5m、床から各マイク1、2までの高さは1m、床から各音源1、2までの高さは1m、マイク1と音源1までの距離は0.5m、マイク2と音源2までの距離は0.5mである。またFastICA法には、ゴタンダ、ノブ、コヤ、カネダ、イシバシ(H.Gotannda,K.Nobu,T.Koya,K.Kaneda,T.Ishibashi)、”パーミュテイション コレクション アンド スピーチ イクストラクション ベイスド オン スプリット スペクトラム スルー ファスト アイ シー エイ(Permutation Correction and Speech Extraction Based on Split Spectrum Through FastICA)”、プロシーディング オブ インターナショナル シンポジウム オン インディペンデント コンポーネント アナリシス アンド ブラインド シグナル セパレイション(Proc.International Symposium on Independentaration)、2003年4月1日、p379−384に記載した方法を採用した。
音源1から目的音声として、「音声情報処理研究用 日本語音声データベース(平成3年度文部科学研究費補助金試験研究、研究代表者 板橋 秀一)」から5単語(材料、いよいよ、羨ましい、面白い、具合)の男女各1名による発話パターン10種類を発信し、音源2から定常雑音としてノイゼックス−92 データベース(Noisex−92 database)[online](http://spib.rice.edu/spib/)中の5種類(f16ノイズ(f16 noise)、ボルボノイズ(volvo noise)、ホワイトノイズ(white noise)、ピンクノイズ(pink noise)、タンクノイズ(tank noise))を発信し、マットラブ コード(Matlab code)[online](http://sound.media.mit.edu/ica−bench/)により50組の混合信号を生成した。
音声区間検出関数F* (k)は、総和Fを閾値βで2値化することで生成し、総和Fは推定スペクトルY* を閾値αで分離することにより生成しているので、音声区間の抽出精度は各閾値α、βに依存する。そのため、事前に最適な閾値α、βの値を調べた。その結果、閾値αの値は1.8〜2.3、閾値βの値は0.05〜0.15とそれぞれ決定された。そこで、閾値α=2.0、閾値β=0.08とした。
混合信号から目的音声に対応する推定スペクトルY* を抽出し、本発明の方法で音声区間を検出し始端と終端を求めた。また、推定スペクトルY* から復元した目的音声の波形から目視により音声区間を検出し始端と終端を求めた。
その結果、本発明の方法により検出した音声区間の始端時刻は目視により検出した音声区間の始端時刻に対して−2.71msec(標準偏差13.49ms)、本発明の方法により検出した音声区間の終端時刻は目視により検出した音声区間の終端時刻に対して−4.96msec(標準偏差26.07msec)となって、音声区間を速めに検出する傾向を示したがその差は小さくほぼ正確に検出していることが判る。
(実施例2)
音源2から非定常雑音としてNTT騒音データベース(NTTアドバンステクノロジ株式会社、アンビエント ノイズ データベース フォア テレホノメトリ(AmbientNoise Database for Telephonometry)1996、NTTアドバンステクノロジ株式会社、1996年)中の5種類の非定常雑音(オフィス(office)、レストラン(restaurant)、クラシカル(classical)、ステーション(station)、ストリート(street))を発信し、実施例1と同様の実験を行った。
その結果、本発明の方法により検出した音声区間の始端時刻は目視により検出した音声区間の始端時刻に対して−2.36msec(標準偏差14.12msec)、本発明の方法により検出した音声区間の終端時刻は目視により検出した音声区間の終端時刻に対して−13.40msec(標準偏差44.12msec)となって、雑音が非定常性を帯びている場合でも目視法と同程度の機能を有し、音声区間をほぼ正確に検出していることが判る。
以上、本発明の実施の形態を説明したが、本発明は、この実施の形態に限定されるものではなく、発明の要旨を変更しない範囲での変更は可能であり、前記したそれぞれの実施の形態や変形例の一部又は全部を組み合わせて本発明の定常雑音下における音声区間検出に基づく目的音声の復元方法を構成する場合も本発明の権利範囲に含まれる。
例えば、目的音声及び雑音にそれぞれ対応する複数の推定スペクトルY* 、Yを抽出するのにFastICA法を適用したが、ICA法で分離した各スペクトルに対して各マイクと各音源との距離に基づく音の伝達特性を考慮してスケーリングの不定性を解決すると共に、各周波数で各スペクトルの包絡を求めて、その類似度に基づく成分置換の解消を行って推定スペクトルY* 、Yを抽出することもでき、推定スペクトルY* 、Yの抽出方法に指定はない。
本発明の第1及び第2の実施の形態に係る定常雑音下における音声区間検出に基づく目的音声の復元方法を適用した目的音声の復元装置の構成図である。 同復元方法における目的音声及び雑音から各推定スペクトルY* が形成されるまでの信号の流れを示す説明図である。 各推定スペクトルY* から構成された復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して得られた目的音声信号の波形を示す説明図である。 雑音が除去された推定スペクトルY* の波形を示す説明図である。 雑音が残留している推定スペクトルY* の波形を示す説明図である。 雑音が除去された推定スペクトルY* の振幅分布を示す説明図である。 雑音が残留している推定スペクトルY* の振幅分布を示す説明図である。 雑音が除去された各推定スペクトルy* の総和を示す説明図である。 各推定スペクトルY* に対して決定された音声区間検出関数のグラフである。 各推定スペクトルY* から音声区間に存在する成分を抽出して生成した目的音声の復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して得られた目的音声信号の説明図である。 本発明の実施例1、2におけるバーチャルルームでの音源とマイクの配置を示す説明図である。
符号の説明
10:目的音声の復元装置、11、12:音源、13:第1のマイク、14:第2のマイク、15:第1の増幅器、16:第2の増幅器、17:復元装置本体、18:復元信号増幅器、19:スピーカ、20、21:A/D変換器、22:分割スペクトル生成器、23:推定スペクトル抽出回路、24:音声区間検出回路、25:復元スペクトル抽出回路、26:復元信号生成回路

Claims (6)

  1. 異なる2つの音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第1及び第2のマイクでそれぞれ受信して混合信号を形成し、該各混合信号を時間領域から周波数領域にフーリエ変換して、独立成分分析法により前記目的音声及び前記雑音にそれぞれ対応する各分割スペクトルから複数の推定スペクトルY* 、Yを抽出する第1工程と、
    前記各推定スペクトルY* を、該各推定スペクトルY* の振幅分布の尖度の値を分離判定基準にして前記雑音が除去された複数の推定スペクトルy* 及び前記雑音が残留する複数の推定スペクトルyに分離する第2工程と、
    前記各推定スペクトルy* の総和Fを求め、該総和Fの最大値に応じて決定される閾値βを検出判定基準にして該総和Fの周波数領域から音声区間及び雑音区間をそれぞれ検出する第3工程と、
    前記各推定スペクトルY* から前記音声区間に存在する成分を抽出して前記目的音声の復元スペクトル群を生成し、該復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して前記目的音声を復元する第4工程とを有することを特徴とする定常雑音下における音声区間検出に基づく目的音声の復元方法。
  2. 請求項1記載の定常雑音下における音声区間検出に基づく目的音声の復元方法において、前記検出判定基準は、前記総和Fが前記閾値βを超える周波数領域を前記音声区間とし、前記総和Fが前記閾値β以下となる周波数領域を前記雑音区間として検出するように設定されていることを特徴とする定常雑音下における音声区間検出に基づく目的音声の復元方法。
  3. 異なる2つの音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第1及び第2のマイクでそれぞれ受信して混合信号を形成し、該各混合信号を時間領域から周波数領域にフーリエ変換して、独立成分分析法により前記目的音声及び前記雑音にそれぞれ対応する各分割スペクトルから複数の推定スペクトルY* 、Yを抽出する第1工程と、
    前記各推定スペクトルY* を、該各推定スペクトルY* の振幅分布の尖度の値を分離判定基準にして前記雑音が除去された複数の推定スペクトルy* 及び前記雑音が残留する複数の推定スペクトルyに分離する第2工程と、
    前記各推定スペクトルy* の総和Fを求め、該総和Fの最大値に応じて決定される閾値βを検出判定基準にして該総和Fの時間領域から音声区間及び雑音区間をそれぞれ検出する第3工程と、
    前記各推定スペクトルY* を周波数領域から時間領域にフーリエ逆変換して得られた前記目的音声の信号から前記音声区間に存在する成分を抽出して前記目的音声を復元する第4工程とを有することを特徴とする定常雑音下における音声区間検出に基づく目的音声の復元方法。
  4. 請求項3記載の定常雑音下における音声区間検出に基づく目的音声の復元方法において、前記検出判定基準は、前記総和Fが前記閾値βを超える時間領域を前記音声区間とし、前記総和Fが前記閾値β以下となる時間領域を前記雑音区間として検出することを特徴とする定常雑音下における音声区間検出に基づく目的音声の復元方法。
  5. 請求項1〜4のいずれか1項に記載の定常雑音下における音声区間検出に基づく目的音声の復元方法において、前記尖度の値を前記各推定スペクトルY* の振幅分布のエントロピーHで評価することを特徴とする定常雑音下における音声区間検出に基づく目的音声の復元方法。
  6. 請求項5記載の定常雑音下における音声区間検出に基づく目的音声の復元方法において、前記分離判定基準は、
    (1)前記エントロピーHが予め設定した閾値α未満である推定スペクトルY* は前記推定スペクトルy* として分離し、
    (2)前記エントロピーHが予め設定した閾値α以上である推定スペクトルY* は前記推定スペクトルyとして分離するように設定されていることを特徴とする定常雑音下における音声区間検出に基づく目的音声の復元方法。
JP2003314247A 2003-09-05 2003-09-05 定常雑音下における音声区間検出に基づく目的音声の復元方法 Expired - Fee Related JP4496378B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003314247A JP4496378B2 (ja) 2003-09-05 2003-09-05 定常雑音下における音声区間検出に基づく目的音声の復元方法
PCT/JP2004/012899 WO2005029463A1 (en) 2003-09-05 2004-08-31 A method for recovering target speech based on speech segment detection under a stationary noise

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003314247A JP4496378B2 (ja) 2003-09-05 2003-09-05 定常雑音下における音声区間検出に基づく目的音声の復元方法

Publications (2)

Publication Number Publication Date
JP2005084244A true JP2005084244A (ja) 2005-03-31
JP4496378B2 JP4496378B2 (ja) 2010-07-07

Family

ID=34372498

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003314247A Expired - Fee Related JP4496378B2 (ja) 2003-09-05 2003-09-05 定常雑音下における音声区間検出に基づく目的音声の復元方法

Country Status (2)

Country Link
JP (1) JP4496378B2 (ja)
WO (1) WO2005029463A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010271411A (ja) * 2009-05-19 2010-12-02 Nara Institute Of Science & Technology 雑音抑圧装置およびプログラム
US7903767B2 (en) 2006-05-30 2011-03-08 Ntt Docomo, Inc. Signal reception time period detector
JP2011081293A (ja) * 2009-10-09 2011-04-21 Toyota Motor Corp 信号分離装置、信号分離方法
US9159335B2 (en) 2008-10-10 2015-10-13 Samsung Electronics Co., Ltd. Apparatus and method for noise estimation, and noise reduction apparatus employing the same
EP3252765A1 (en) 2016-05-30 2017-12-06 Fujitsu Limited Noise suppression in a voice signal
JP2019533193A (ja) * 2016-09-29 2019-11-14 合肥華凌股▲フン▼有限公司Hefei Hualing Co.,Ltd. 音声制御システム及びそのウェイクアップ方法、ウェイクアップ装置、並びに家電製品、コプロセッサ

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006337851A (ja) * 2005-06-03 2006-12-14 Sony Corp 音声信号分離装置及び方法
WO2006135986A1 (en) * 2005-06-24 2006-12-28 Monash University Speech analysis system
JP4556875B2 (ja) 2006-01-18 2010-10-06 ソニー株式会社 音声信号分離装置及び方法
CN106504762B (zh) * 2016-11-04 2023-04-14 中南民族大学 鸟类群落数量估计系统及其方法
CN109951762B (zh) * 2017-12-21 2021-09-03 音科有限公司 一种用于听力设备的源信号提取方法、系统和装置
CN112289343B (zh) * 2020-10-28 2024-03-19 腾讯音乐娱乐科技(深圳)有限公司 音频修复方法、装置及电子设备和计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001294989A1 (en) * 2000-10-04 2002-04-15 Clarity, L.L.C. Speech detection

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7903767B2 (en) 2006-05-30 2011-03-08 Ntt Docomo, Inc. Signal reception time period detector
US9159335B2 (en) 2008-10-10 2015-10-13 Samsung Electronics Co., Ltd. Apparatus and method for noise estimation, and noise reduction apparatus employing the same
JP2010271411A (ja) * 2009-05-19 2010-12-02 Nara Institute Of Science & Technology 雑音抑圧装置およびプログラム
JP2011081293A (ja) * 2009-10-09 2011-04-21 Toyota Motor Corp 信号分離装置、信号分離方法
EP3252765A1 (en) 2016-05-30 2017-12-06 Fujitsu Limited Noise suppression in a voice signal
US9972338B2 (en) 2016-05-30 2018-05-15 Fujitsu Limited Noise suppression device and noise suppression method
EP3438977A1 (en) 2016-05-30 2019-02-06 Fujitsu Limited Noise suppression in a voice signal
JP2019533193A (ja) * 2016-09-29 2019-11-14 合肥華凌股▲フン▼有限公司Hefei Hualing Co.,Ltd. 音声制御システム及びそのウェイクアップ方法、ウェイクアップ装置、並びに家電製品、コプロセッサ

Also Published As

Publication number Publication date
WO2005029463A9 (en) 2005-07-07
JP4496378B2 (ja) 2010-07-07
WO2005029463A1 (en) 2005-03-31

Similar Documents

Publication Publication Date Title
JP4496379B2 (ja) 分割スペクトル系列の振幅頻度分布の形状に基づく目的音声の復元方法
JP3950930B2 (ja) 音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法
EP1914727B1 (en) Noise suppression methods and apparatuses
CN111899756B (zh) 一种单通道语音分离方法和装置
US7533017B2 (en) Method for recovering target speech based on speech segment detection under a stationary noise
JP4496378B2 (ja) 定常雑音下における音声区間検出に基づく目的音声の復元方法
WO2013138747A1 (en) System and method for anomaly detection and extraction
CN103077728B (zh) 一种病人虚弱语音端点检测方法
Wang et al. Robust harmonic features for classification-based pitch estimation
Feng et al. A target guided subband filter for acoustic event detection in noisy environments using wavelet packets
KR20130068869A (ko) 관심음원 제거방법 및 그에 따른 음성인식방법
Do et al. Speech source separation using variational autoencoder and bandpass filter
Do et al. Speech Separation in the Frequency Domain with Autoencoder.
Bao et al. A new time-frequency binary mask estimation method based on convex optimization of speech power
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
WO2017143334A1 (en) Method and system for multi-talker babble noise reduction using q-factor based signal decomposition
Shahrul Azmi et al. Noise robustness of Spectrum Delta (SpD) features in Malay vowel recognition
Vaidianathan et al. Stuttered Speech Recognition And Classification Using Enhanced Kamnan Filter And Neural Network
Rahman et al. A multiple functions multiplication approach for pitch extraction of noisy speech
US11881200B2 (en) Mask generation device, mask generation method, and recording medium
Sharma et al. Speech Diarization and ASR with GMM
Shi et al. A speech endpoint detection algorithm based on BP neural network and multiple features
Pwint et al. A new speech/non-speech classification method using minimal Walsh basis functions
Jesudhas et al. A novel approach to build a low complexity smart sound recognition system for domestic environment
dos Santos Moura et al. Source Extraction based on Binary Masking and Machine Learning

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20060301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060301

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20060904

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100309

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100323

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130423

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130423

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140423

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140423

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees