JP5328744B2 - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法 Download PDF

Info

Publication number
JP5328744B2
JP5328744B2 JP2010232817A JP2010232817A JP5328744B2 JP 5328744 B2 JP5328744 B2 JP 5328744B2 JP 2010232817 A JP2010232817 A JP 2010232817A JP 2010232817 A JP2010232817 A JP 2010232817A JP 5328744 B2 JP5328744 B2 JP 5328744B2
Authority
JP
Japan
Prior art keywords
sound source
unit
noise
self
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010232817A
Other languages
English (en)
Other versions
JP2012088390A (ja
Inventor
一博 中臺
ギョカン・インジュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2010232817A priority Critical patent/JP5328744B2/ja
Priority to US13/157,648 priority patent/US8538751B2/en
Publication of JP2012088390A publication Critical patent/JP2012088390A/ja
Application granted granted Critical
Publication of JP5328744B2 publication Critical patent/JP5328744B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Manipulator (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音声認識装置及び音声認識方法に関する。
たとえば、ロボットが人間とコミュニケーションを行いながら機能するには、動作しながら人間の音声の音声認識を行なう必要がある。ロボットが動作する場合には、ロボットのモータなどによる、いわゆる自己ノイズが発生するので、ロボットは自己ノイズが発生する環境で音声認識を行なう必要がある。
自己ノイズを低減するために、測定された音のスペクトルから予め記憶したテンプレートを減算する方法が提案されている(非特許文献1及び2)。これらの方法は、単一チャネルベースのノイズ低減方法である。単一チャネルベースのノイズ低減方法は、一般的に、ノイズ推定が失敗した場合に生じる現象である、音楽ノイズの歪み効果(非特許文献3)など、音の信号の明瞭さ及び品質を低下させる。
他方、ロボットの音処理の分野では線形音源分離が広く使用されている。そこでは、マイクロフォンアレイを使用した音源分離技術を使用してノイズ抑制が実施される(非特許文献4及び5)。しかし、干渉する話者の場合に仮定される方向性のノイズモデル(非特許文献6)または拡散性の背景ノイズモデル(非特許文献7)は、ロボットの自己ノイズに全く当てはまらない。特にロボットのモータは、マイクロフォンの近くに位置しているので、拡散性及び方向性の両方の特性を有する音を生成する。
このように、従来、自己ノイズが発生する環境において高い精度で音声認識を行なう音声認識装置及び音声認識方法は開発されていなかった。
S. Boll, "Suppression of Acoustic Noise in Speech Using Spectral Subtraction", IEEE Transactions on Acoustics, Speech, and Signal Processing, vol.ASSP-27,No.2,1979. A.Ito, T.Kanayama, M.Suzuki, S.Makino, "Internal Noise Suppression for Speech Recognition by Small Robots", Interspeech 2005,pp.2685-2688,2005. I.Cohen, "Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement", IEEE Signal Processing Letters, vol.9,No.1,2002. K.Nakadai, H.Nakajima, Y.Hasegawa and H.Tsujino, "Sound source separation of moving speakers for robot audition", Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),pp.3685-3688,2009. S.Yamamoto, J.M.Valin, K.Nakadai, J.Rouat, F.Michaud, T.Ogata, and H.G.Okuno, "Enhanced Robot Speech Recognition Based on Microphone Array Source Separation and Missing Feature Theory", IEEE/RSJ International Conference on Robotics and Automation (ICRA),2005. S.Yamamoto, K.Nakadai, M.Nakano, H.Tsujino, J.M.Valin, K.Komatani, T.Ogata, and H.G.Okuno, "Real-time robot audition system that recognizes simultaneous speech in the real world", Proc. of the IEEE/RSJ International Conference on Robots and Intelligent Systems (IROS),2006. J.-M.Valin, J.Rouat and F.Michaud, "Enhanced Robot Audition Based on Microphone Array Source Separation with Post-Filter", Proc. IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS),pp.2123-2128,2004.
したがって、たとえば、自己ノイズが発生する環境において高い精度で音声認識を行なう音声認識装置及び音声認識方法に対するニーズがある。
本発明の第1の態様による音声認識装置は、音源分離・音声強調部と、自己ノイズ推定部と、該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、ミッシングフィーチャーマスクを生成する、ミッシングフィーチャーマスク生成部と、該音源分離・音声強調部の出力を使用して、音源ごとの音の特徴を抽出する音特徴抽出部と、該音特徴抽出部の出力及び該ミッシングフィーチャーマスクを使用して音声認識を行なう音声認識部と、を備えている。
本態様による音声認識装置のミッシングフィーチャーマスク生成部は、該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、ミッシングフィーチャーマスクを生成するので、音源の分離状況及び推定された自己ノイズに基づいて、音声認識部の入力データを調整し、音声認識の精度を向上させることができる。
本発明の第2の態様による音声認識装置は、音源分離・音声強調部と、自己ノイズ推定部と、該音源分離・音声強調部の出力を使用して、音源ごとの話者用ミッシングフィーチャーマスクを生成する、話者用ミッシングフィーチャーマスク生成部と、該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、音源ごとの自己ノイズ用ミッシングフィーチャーマスクを生成する、自己ノイズ用ミッシングフィーチャーマスク生成部と、話者用ミッシングフィーチャーマスク及び自己ノイズ用ミッシングフィーチャーマスクを統合して、統合ミッシングフィーチャーマスクを生成するミッシングフィーチャーマスク統合部と、該音源分離部の出力を使用して、音源ごとの音の特徴を抽出する音特徴抽出部と、該音特徴抽出部の出力及び該統合ミッシングフィーチャーマスクを使用して音声認識を行なう音声認識部と、を備えている。
本態様による音声認識装置は、話者用ミッシングフィーチャーマスク及び自己ノイズ用ミッシングフィーチャーマスクを統合して、統合ミッシングフィーチャーマスクを生成するミッシングフィーチャーマスク統合部を備えているので、該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して環境ごとに適切な統合ミッシングフィーチャーマスクを生成し、音声認識の精度を向上させることができる。
本発明の一つの実施形態による音声認識装置は、第2の態様による音声認識装置であって、前記自己ノイズ用ミッシングフィーチャーマスク生成部が、前記自己ノイズ推定部の出力を音源の数で除した値と、前記音源分離・音声強調部の音源ごとの出力との比を使用して、前記自己ノイズ用ミッシングフィーチャーマスクを生成する。
本形態による音声認識装置は、自己ノイズのエネルギを音源の数で除した値と、音源ごとの音のエネルギとの比を使用して、自己ノイズに対する音源分離・音声強調部の音源ごとの出力の信頼度を定めるので、自己ノイズに汚染された出力の部分を有効に除去し、音声認識の精度を向上させることができる。
本発明の一つの実施形態による音声認識装置は、第2の態様による音声認識装置であって、前記ミッシングフィーチャーマスク統合部が、前記音源分離・音声強調部の音源ごとの出力が前記自己ノイズ推定部の出力を音源の数で除した値以上である場合には、前記話者用ミッシングフィーチャーマスクを統合ミッシングフィーチャーマスクとし、前記音源分離・音声強調部の音源ごとの出力が前記自己ノイズ推定部の出力を音源の数で除した値よりも小さい場合には、自己ノイズ用ミッシングフィーチャーマスクを統合ミッシングフィーチャーマスクとする。
本形態による音声認識装置においては、音源からの音のエネルギ及び自己ノイズのエネルギに応じて、適切な統合ミッシングフィーチャーマスクを生成し、これを使用して音声認識を行なうことにより音声認識の精度を向上させることができる。
本発明の第3の態様による音声認識方法は、音源分離・音声強調部が音源を分離するステップと、自己ノイズ推定部が自己ノイズを推定するステップと、ミッシングフィーチャーマスク生成部が該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、ミッシングフィーチャーマスクを生成するステップと、音特徴抽出部が該音源分離・音声強調部の出力を使用して、音源ごとの音の特徴を抽出するステップと、音声認識部が該音特徴抽出部の出力及び該ミッシングフィーチャーマスクを使用して音声認識を行なうステップと、を含む。
本態様による音声認識方法においては、ミッシングフィーチャーマスク生成部が該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、ミッシングフィーチャーマスクを生成するので、音源の分離状況及び推定された自己ノイズに基づいて、音声認識部の入力データが調整され、音声認識の精度を向上させることができる。
本発明の第4の態様による音声認識方法は、音源分離・音声強調部が音源を分離するステップと、自己ノイズ推定部が自己ノイズを推定するステップと、話者用ミッシングフィーチャーマスク生成部が、該音源分離・音声強調部の出力を使用して、音源ごとの話者用ミッシングフィーチャーマスクを生成するステップと、自己ノイズ用ミッシングフィーチャーマスク生成部が、該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、音源ごとの自己ノイズ用ミッシングフィーチャーマスクを生成するステップと、ミッシングフィーチャーマスク統合部が、話者用ミッシングフィーチャーマスク及び自己ノイズ用ミッシングフィーチャーマスクを統合して、統合ミッシングフィーチャーマスクを生成するステップと、音特徴抽出部が、該音源分離・音声強調部の出力を使用して音源ごとの音の特徴を抽出するステップと、音声認識部が、該音特徴抽出部の出力及び該ミッシングフィーチャーマスクを使用して音声認識を行なうステップと、を含む。
本態様の音声認識方法によれば、ミッシングフィーチャーマスク統合部が、該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して環境ごとに適切な統合ミッシングフィーチャーマスクを生成し、音声認識の精度を向上させることができる。
本発明の一つの実施形態による音声認識方法は、第4の態様による音声認識方法であって、自己ノイズ用ミッシングフィーチャーマスクを生成するステップにおいて、前記自己ノイズ推定部の出力を音源の数で除した値と、前記音源分離・音声強調部の音源ごとの出力との比を使用して、前記自己ノイズ用ミッシングフィーチャーマスクを生成する。
本形態による音声認識方法は、自己ノイズのエネルギを音源の数で除した値と、音源ごとの音のエネルギとの比を使用して、自己ノイズに対する音源分離・音声強調部の音源ごとの出力の信頼度を定めるので、自己ノイズに汚染された出力の部分を有効に除去し、音声認識の精度を向上させることができる。
本発明の一つの実施形態による音声認識方法は、第4の態様による音声認識方法であって、統合ミッシングフィーチャーマスクを生成するステップにおいて、前記音源分離・音声強調部の音源ごとの出力が前記自己ノイズ推定部の出力を音源の数で除した値以上である場合には、前記話者用ミッシングフィーチャーマスクが統合ミッシングフィーチャーマスクとされ、前記音源分離・音声強調部の音源ごとの出力が前記自己ノイズ推定部の出力を音源の数で除した値よりも小さい場合には、自己ノイズ用ミッシングフィーチャーマスクが統合ミッシングフィーチャーマスクとされる。
本形態による音声認識方法においては、音源からの音のエネルギ及び自己ノイズのエネルギに応じて、適切な統合ミッシングフィーチャーマスクを生成し、これを使用して音声認識を行なうことにより音声認識の精度を向上させることができる。
本発明の一実施形態による音声認識装置の構成を示す図である。 本発明の一実施形態による音声認識方法を説明する流れ図である。 テンプレートデータベースの構造を示す図である。 テンプレートデータベースを作成する手順を示す流れ図である。 テンプレート減算を使用したノイズ低減の手順を示す流れ図である。 ロボット及びスピーカの配置を示す図である。 広いスピーカ間隔の場合について、種々の方法による音声認識の結果を示す図である。 狭いスピーカ間隔の場合について、種々の方法による音声認識の結果を示す図である。
図1は、本発明の一実施形態による音声認識装置の構成を示す図である。音声認識装置は、音源分離・音声強調部100と、自己ノイズ推定部200と、ミッシングフィーチャーマスク生成部300と、音特徴抽出部401と、音声認識部501と、を含む。
図2は、本発明の一実施形態による音声認識方法を説明する流れ図である。図2については、音声認識装置の各部の説明をした後で説明する。
音源分離・音声強調部100は、音源位置特定部101と、音源分離部103と、音声強調部105と、を含む。音源位置特定部101は、ロボットに設置された複数のマイクロフォンから音データを使用し、音源位置を特定する。音源分離部103は、特定した音源位置を使用して音源分離を行う。音源分離部103においては、幾何学的音源分離(Geometric Source Separation, GSS)と呼ばれる線形分離アルゴリズムが使用される(S.Yamamoto,K.Nakadai,M.Nakano,H.Tsujino,J.M.Valin,K.Komatani,T.Ogata,andH.G.Okuno,”Real-time robot audition system that recognizes simultaneous speech in the real world”, Proc. Of the IEEE/RSJ International Conference on Robots and Intelligent Systems (IROS),2006.)。図1に示すように、音源分離部103の出力はn個である。ここで、nは音源、すなわち、話者の数を表す。後で詳細に説明するように、ミッシングフィーチャーマスク生成部300、音特徴抽出部401、及び音声認識部501においては、音源ごとの処理が行われる。音声強調部105は、多チャンネルポスト・フィルタリング処理(I.Cohen and B.Berdugo, ”Microphone array post-filtering for non-stationary noise suppression”, Proc. IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP),pp.901-904,2002.)を行なう。ポストフィルタリング処理は、たとえば、背景ノイズなどの定常ノイズ、及び個別の音源の分離段階の出力チャネル間の漏れエネルギにより生じる非定常ノイズを減少させる。音源分離・音声強調部100は、方向性を有する音源を分離することのできる多チャンネルを使用する、上記の構成以外のどのような構成によって実現してもよい。
自己ノイズ推定部200は、ロボットに使用されるモータの動作状態を検出し、該動作状態に基づいてロボットの自己ノイズを推定する。自己ノイズ推定部200の構成及び機能の詳細については後で説明する。
ミッシングフィーチャーマスク生成部300は、音源分離・音声強調部100及び自己ノイズ推定部200の出力に基づいて、その環境に適切な話者(音源)ごとのミッシングフィーチャーマスクを生成する。ミッシングフィーチャーマスク生成部300の構成及び機能の詳細については後で説明する。
音特徴抽出部401は、音源分離・音声強調部100によって得られた話者(音源)ごとの音特徴を抽出する。
音声認識部501は、音特徴抽出部401によって得られた話者(音源)ごとの音特徴及びミッシングフィーチャーマスク生成部300によって得られた話者(音源)ごとのミッシングフィーチャーマスクを使用して音声認識を行なう。
自己ノイズ推定部200について説明する。自己ノイズ推定部200は、ロボットに使用されるモータの動作状態を検出する動作状態検出部201と、各動作状態に対応するノイズテンプレートを格納するテンプレートデータベース205と、動作状態検出部201によって検出されたその時点の動作状態に最も近い動作状態のノイズテンプレートを選択するノイズテンプレート選択部203と、を含む。ノイズテンプレート選択部203によって選択されたノイズテンプレートが、推定されたノイズである。
図3は、テンプレートデータベース205の構造を示す図である。
図4は、テンプレートデータベース205を作成する手順を示す流れ図である。
テンプレートデータベース205を作成する際には、ロボットが、個々の運動の間に1秒より短い休止を設けながら、多数の運動からなる連続した運動のシーケンスを実行して、動作状態検出部201が動作状態を検出し、音データが取得される。
図4のステップS1010において、動作状態検出部201が、所定の時間のロボットの動作状態を取得する。
ロボットの動作状態は、ロボットの各関節モータの角度
Figure 0005328744
、角速度
Figure 0005328744
及び角加速度
Figure 0005328744
によって表される。ロボットの関節の数をJとすると、動作状態を表す特徴ベクトルは以下のようになる。
Figure 0005328744
ここで、kは、時刻を表す。角度
Figure 0005328744
、角速度
Figure 0005328744
及び角加速度
Figure 0005328744
の値は、所定時間ごとに取得し、[-1,1]に規格化する。
図4のステップS1020において、所定の時間の音データが取得される。具体的に、上記のロボットの動作状態に対応する音データ、すなわち、モータ・ノイズに対応する音データが取得され、以下の周波数スペクトルによって表される。
Figure 0005328744
ここで、kは、時刻を表し、Fは周波数の範囲を表す。該周波数の範囲は、0kHz−8kHzを256に区分したものである。音データは、所定時間ごとに取得する。
図4のステップS1030において、動作状態検出部201によって取得された、動作状態を表す特徴ベクトル
Figure 0005328744
及び、動作状態に対応する音データの周波数スペクトル
Figure 0005328744
が、テンプレートデータベースに格納される。
動作状態を表す特徴ベクトル及び音データの周波数スペクトルには、時刻タグが付されている。したがって、時刻タグが一致した特徴ベクトル及び周波数スペクトルを組み合わせることによりテンプレートが生成される。図3に示テンプレートデータベース205は、このようにして生成されたテンプレートの集合として作成される。
図5は、ノイズ推定の手順を示す流れ図である。
図5のステップS2010において、動作状態検出部101が、ロボットの動作状態(特徴ベクトル)を取得する。
図5のステップS2020において、ノイズテンプレート選択部203が、動作状態検出部201から、取得された動作状態(特徴ベクトル)を受け取り、テンプレートデータベース205から、取得された動作状態に最も近い動作状態のテンプレートを選択する。
ここで、ロボットの関節の数をJとすると、動作状態の特徴ベクトルは3J次元空間の点に対応する。データベース105の任意のテンプレートの動作状態の特徴ベクトルを
Figure 0005328744
と表し、取得された動作状態の特徴ベクトルを
Figure 0005328744
と表す。そうすると、取得された動作状態に最も近い動作状態のテンプレートを選択することは、3J次元のユークリッド空間の距離
Figure 0005328744
が最も小さくなる特徴ベクトル
Figure 0005328744
を有するテンプレートを求めることに相当する。
ミッシングフィーチャーマスク生成部300について説明する。以下において、ミッシングフィーチャーマスクをMFMと呼称する。MFM生成部300は、話者用MFM生成部301と、自己ノイズ用MFM生成部303と、両方のMFMを統合して一つのMFMを生成するMFM統合部305と、を含む。
ミッシングフィーチャー理論自動音声認識(MFT−ASR)は、歪んだ音声の信頼できない部分の寄与を低減するためにマスクを適用する、非常に有望な隠れマルコフモデルに基づいた音声認識技術である(B.Raj and R.M.Stern, ”Missing-feature approaches in speech recognition”, IEEE Signal Processing Magazine, vol.22,pp.101-116,2005.)。音声認識に対して本質的な信頼性の高いパラメータを維持することによって、認識精度の実質的な増加が達成される。
話者用MFM生成部301は、話者分離アーティフェクトに対する信頼度(分離信頼度)を求め、この信頼度に基づいて話者用MFMを生成する。話者の分離信頼度は、たとえば以下の式で表せる(S.Yamamoto, J.M.Valin, K.Nakadai, J.Rouat, F.Michaud, T.Ogata, and H.G.Okuno, ”Enhanced Robot Speech Recognition Based on Microphone Array Source Separation and Missing Feature Theory”, IEEE/RSJ International Conference on Robotics and Automation(ICRA),2005.)。
Figure 0005328744
ここで、
Figure 0005328744
及び
Figure 0005328744
は、それぞれ時系列フレーム
Figure 0005328744
及びメル周波数帯
Figure 0005328744
に対する、ポストフィルタリング処理を行う音声強調部105の入力エネルギ推定値及び出力エネルギ推定値である。
Figure 0005328744
は背景ノイズエネルギ推定値を示し、
Figure 0005328744
は信頼性の尺度を示す。音声強調部105の入力エネルギ推定値
Figure 0005328744
は、
Figure 0005328744
と背景ノイズエネルギ推定値
Figure 0005328744
とリークエネルギ推定値を足し合わせたものであるので、リークがない場合(他の音源からの混ざりこみがなく完全に分離できている場合)には、話者の分離信頼度は1となる。他方、リークが大きくなるにつれて、話者の分離信頼度は0に近づく。話者の分離信頼度は、それぞれの音源に対して、時系列フレーム
Figure 0005328744
ごと及びメル周波数帯
Figure 0005328744
ごとに求める。このように求めた話者の分離信頼度に基づく、話者用MFMの生成については後で説明する。
自己ノイズ用MFM生成部303は、自己ノイズに対する信頼度を求め、この信頼度に基づいて自己ノイズ用MFMを生成する。ここで、自己ノイズ、すなわちロボットのモータのノイズは、存在する音源に対して一様に分配されると仮定する。したがって、ある音源に対するノイズエネルギは、全体のノイズエネルギを音源の数(話者の数)で除したものである。自己ノイズに対する信頼度は、以下の式で表せる。
Figure 0005328744
ここで、
Figure 0005328744
は、ノイズテンプレート、すなわちノイズ推定値であり、
Figure 0005328744
は、話者の数を表す。
Figure 0005328744
及び
Figure 0005328744
の値の範囲を合わせるために、とりうる値は0と1の間に制限される。式(3)によれば、高いモータ・ノイズ
Figure 0005328744
が推定された場合は、信頼度はゼロとなり、低いモータ・ノイズの場合は、
Figure 0005328744
が1に近づく。自己ノイズに対する信頼度は、それぞれの音源に対して、時系列フレーム
Figure 0005328744
ごと及びメル周波数帯
Figure 0005328744
ごとに求める。
つぎに、話者の分離信頼度に基づく、話者用MFMの生成及び自己ノイズに対する信頼度に基づく、自己ノイズ用MFMの生成について説明する。マスクには、0または1のいずれかの値をとるハードマスク及び0と1の間の連続した値をとるソフトマスクがある。ハードマスク(ハードMFM)は、以下の式によって表せる。なお、
Figure 0005328744
は、話者に関する分離信頼度
Figure 0005328744
またはマスク
Figure 0005328744
であることを示す
Figure 0005328744
、または自己ノイズに関する信頼度
Figure 0005328744
またはマスク
Figure 0005328744
であることを示す
Figure 0005328744
を表す。
ハードマスク(ハードMFM)は、以下の式によって表せる。
Figure 0005328744
ソフトマスク(ソフトMFM)は、以下の式によって表せる。
Figure 0005328744
ここで、
Figure 0005328744
はシグモイド重み関数の傾き値であり、
Figure 0005328744
は予め定められたしきい値である。信頼度がしきい値
Figure 0005328744
を下回る場合には、音声の特徴は信頼性が低い。
さらに、最小エネルギ基準(minimum energy criterion, mec)という概念を導入する。ノイズを含む信号のエネルギが所定のしきい値
Figure 0005328744
よりも小さい場合には、マスクは以下の式によって定められる。
Figure 0005328744
最小エネルギ基準は、たとえば停止中や静かな瞬間など非常に低いエネルギの信号を使用して行われる計算による誤った推定を防止するのに使用される。
MFM統合部305は、話者用MFM及び自己ノイズ用MFMを統合して統合MFMを生成する。上述のように、話者用MFM及び自己ノイズ用MFMは、異なる目的のために機能する。しかし、これらは、自己ノイズの下での複数話者音声認識において、補完的に使用することができる。統合マスクは、以下の式で表せる。
Figure 0005328744
ここで、
Figure 0005328744
は統合マスクであり、
Figure 0005328744
は、それぞれのマスクの重みである。また、
Figure 0005328744
は、ソフトマスクまたはハードマスクのAND及びOR演算を含む任意の統合方法を示す。
つぎに、図2の流れ図について説明する。
図2のステップS0010において、音源分離・音声強調部1が音源を分離する。
図2のステップS0020において、自己ノイズ推定部200が自己ノイズを推定する(すなわち、自己ノイズの推定値を求める)。
図2のステップS0030において、話者用MFM生成部301が話者(音源)ごとに話者用MFMを生成する。
図2のステップS0040において、自己ノイズ用MFM生成部303が話者(音源)ごとに自己ノイズ用MFMを生成する。
図2のステップS0050において、MFM統合部305が話者(音源)ごとに統合MFMを生成する。
図2のステップS0060において、音特徴抽出部401が話者(音源)ごとに音特徴を抽出する。
図2のステップS0070において、音声認識部501が、話者(音源)ごとの音特徴及び話者(音源)ごとの統合MFMを使用して音声認識を行なう。
実験
音声認識装置の性能を確認するための実験について以下に説明する。
1)実験の設定
実験には、人間型のロボットを使用する。ロボットは、頭部に8チャネルのマイクロフォンアレイを備えている。ロボットの多くの自由度の内、鉛直方向の頭部の動き(傾き)及びそれぞれの腕の動きのための4個のモータの、全部で9個の自由度を使用した。30分間のトレーニング・データベース及び10分間のテスト・データベースを記憶することによって、上記の部分によるランダムな動きを記録した。ノイズの記録は、独立した語の認識に使用される発話よりも長いので、全ての関節がノイズに寄与するセグメントを選択した。発話のエネルギレベルを、−6dBのSN比(ノイズは、他の二人の干渉しているスピーカ)に正規化した後、自己の動きのノイズ及びファン・ノイズを含む自己ノイズからなるノイズ信号及び周囲の背景ノイズを、明瞭なスピーチの発話に混合した。日本語の語のデータセットは、一人の女性及び二人の男性スピーカに対して、一般的な人間型ロボットの対話に使用される236語を含む。音モデルは、306人の男性及び女性スピーカによって話された60時間のスピーチデータである、日本語新聞記事文章(JNAS)コーパスを使用してトレーニングされる。したがって、音声認識は、ワード(語)オープンなテストである。音の特徴として、13個の静的なMSLS(Mel-scale logarithmic spectrum)、13個の差分(delta)MSLS及び1個の差分パワーを使用した。音声認識の結果は、語正答比率(WCR,Word Correct Rate)によって与えられる。
図6はロボット及びスピーカの配置を示す図である。実験中、スピーカの位置は、広いスピーカ間隔[−80°,0°,80°]または狭いスピーカ間隔[−20°,0°,20°]の固定構成に維持される。位置特定エラーによるご認識を防止し、本実施形態による装置及び方法の性能を評価するため、音源位置特定部101をバイパスし、人間によって位置を設定した。記録環境は、残響時間が0.2秒である4.0mx7.0mx3.0mの寸法の部屋である。
経験的に定めた以下のパラメータを備えたMFMを評価した。
Figure 0005328744
2)実験の結果
図7及び図8は、それぞれ広いスピーカ間隔の場合及び狭いスピーカ間隔の場合について、種々の方法による音声認識の結果を示す図である。全ての図において、横軸はSN比(単位dB)を表し、縦軸はWCR(語正答比率、単位%)を表す。多数話者の音声認識であるので、GSS+PF(音源分離部および音声強調部)を基準として考える。種々の方法とは、音源分離部および音声強調部のみ(マスクなし)、及び音源分離部および音声強調部にそれぞれ、自己ノイズ用ハードMFM(mecなし)、自己ノイズ用ハードMFM(mecあり)、話者用ハードMFM、話者用ハードMFM、自己ノイズ用ソフトMFM、話者用ソフトMFM及び統合ソフトMFMを加えたものである。図7及び図8におけるハードマスクに対する比較に示すように、最小エネルギ基準(minimum energy criterion, mec)による改善はわずかである。全体として最小エネルギ基準はWCRを1乃至3%しか改善しない。一般的な傾向は以下のとおりである。
(1)ほとんど全ての条件でソフトマスクの性能はハードマスクを上回る。この改善は、各々の特徴の信頼度の改善された確率的表現によるものである。
(2)自己ノイズマスクは、低いSN比に対してはうまく機能するが、高いSN比に対してはWCRが低下する。自己の動きノイズの誤った予測は、ノイズの多いスピーチと比較して明瞭なスピーチのマスクの品質、したがって、音声認識の正確さをより多く劣化させるからである。一方、(ロボットの動きがないか非常に大きな声のスピーチを意味する)高いSN比において、話者マスクは結果を大幅に改善ずるが、低いSN比では悪化する。
(3)話者間隔が狭くなると、WCRは大幅に低下する傾向にある。狭い分離角度に対して、−5dBにおいて、話者用マスク
Figure 0005328744
によって提供されるWCRは、自己ノイズ用マスク
Figure 0005328744
によるものと比較してわずかに増加する。その理由は、非常に近い話者に対して音源分離部によって生じるアーティファクトが支配的となるためである。
上記の傾向(1)及び(2)に基づいて、統合マスクを表す式(7)において、話者用マスク
Figure 0005328744
及び自己ノイズ用マスク
Figure 0005328744
をソフトマスクとし、重み
Figure 0005328744
を以下の式によって定めた。

Figure 0005328744

ここで、SNRはSN比を表す。SN比は、話者ごとに、音声強調部105の出力と、自己ノイズ推定部200の出力を話者の数で除したものとの比によって定める。
他方、AND及びORに基づく統合マスクのWCRは、話者用マスク
Figure 0005328744
のWCRまたは自己ノイズ用マスク
Figure 0005328744
のWCRの高い方を下回った。
100…音源分離・音声強調部、200…自己ノイズ推定部、300…ミッシングフィーチャーマスク(MFM)生成部、301…話者用MFM生成部、303…自己ノイズ用MFM生成部、305…MFM統合部、401…音特徴抽出部、501…音声認識部

Claims (8)

  1. 音源分離・音声強調部と、
    自己ノイズ推定部と、
    該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、ミッシングフィーチャーマスクを生成する、ミッシングフィーチャーマスク生成部と、
    該音源分離・音声強調部の出力を使用して、音源ごとの音の特徴を抽出する音特徴抽出部と、
    該音特徴抽出部の出力及び該ミッシングフィーチャーマスクを使用して音声認識を行なう音声認識部と、を備えた音声認識装置。
  2. 音源分離・音声強調部と、
    自己ノイズ推定部と、
    該音源分離・音声強調部の出力を使用して、音源ごとの話者用ミッシングフィーチャーマスクを生成する、話者用ミッシングフィーチャーマスク生成部と、
    該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、音源ごとの自己ノイズ用ミッシングフィーチャーマスクを生成する、自己ノイズ用ミッシングフィーチャーマスク生成部と、
    話者用ミッシングフィーチャーマスク及び自己ノイズ用ミッシングフィーチャーマスクを統合して、統合ミッシングフィーチャーマスクを生成するミッシングフィーチャーマスク統合部と、
    該音源分離・音声強調部の出力を使用して、音源ごとの音の特徴を抽出する音特徴抽出部と、
    該音特徴抽出部の出力及び該統合ミッシングフィーチャーマスクを使用して音声認識を行なう音声認識部と、を備えた音声認識装置。
  3. 前記自己ノイズ用ミッシングフィーチャーマスク生成部が、前記自己ノイズ推定部の出力を音源の数で除した値と、前記音源分離・音声強調部の音源ごとの出力との比を使用して、前記自己ノイズ用ミッシングフィーチャーマスクを生成する請求項2に記載の音声認識装置。
  4. 前記ミッシングフィーチャーマスク統合部が、前記音源分離・音声強調部の音源ごとの出力が前記自己ノイズ推定部の出力を音源の数で除した値以上である場合には、前記話者用ミッシングフィーチャーマスクを統合ミッシングフィーチャーマスクとし、前記音源分離・音声強調部の音源ごとの出力が前記自己ノイズ推定部の出力を音源の数で除した値よりも小さい場合には、自己ノイズ用ミッシングフィーチャーマスクを統合ミッシングフィーチャーマスクとする請求項2または3に記載の音声認識装置。
  5. 音源分離・音声強調部が音源を分離するステップと、
    自己ノイズ推定部が自己ノイズを推定するステップと、
    ミッシングフィーチャーマスク生成部が該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、ミッシングフィーチャーマスクを生成するステップと、
    音特徴抽出部が該音源分離・音声強調部の出力を使用して、音源ごとの音の特徴を抽出するステップと、
    音声認識部が該音特徴抽出部の出力及び該ミッシングフィーチャーマスクを使用して音声認識を行なうステップと、を含む音声認識方法。
  6. 音源分離・音声強調部が音源を分離するステップと、
    自己ノイズ推定部が自己ノイズを推定するステップと、
    話者用ミッシングフィーチャーマスク生成部が、該音源分離・音声強調部の出力を使用して、音源ごとの話者用ミッシングフィーチャーマスクを生成するステップと、
    自己ノイズ用ミッシングフィーチャーマスク生成部が、該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、音源ごとの自己ノイズ用ミッシングフィーチャーマスクを生成するステップと、
    ミッシングフィーチャーマスク統合部が、話者用ミッシングフィーチャーマスク及び自己ノイズ用ミッシングフィーチャーマスクを統合して、統合ミッシングフィーチャーマスクを生成するステップと、
    音特徴抽出部が、該音源分離・音声強調部の出力を使用して音源ごとの音の特徴を抽出するステップと、
    音声認識部が、該音特徴抽出部の出力及び該統合ミッシングフィーチャーマスクを使用して音声認識を行なうステップと、を含む音声認識方法。
  7. 自己ノイズ用ミッシングフィーチャーマスクを生成するステップにおいて、前記自己ノイズ推定部の出力を音源の数で除した値と、前記音源分離・音声強調部の音源ごとの出力との比を使用して、前記自己ノイズ用ミッシングフィーチャーマスクを生成する請求項6に記載の音声認識方法。
  8. 統合ミッシングフィーチャーマスクを生成するステップにおいて、前記音源分離・音声強調部の音源ごとの出力が前記自己ノイズ推定部の出力を音源の数で除した値以上である場合には、前記話者用ミッシングフィーチャーマスクが統合ミッシングフィーチャーマスクとされ、前記音源分離・音声強調部の音源ごとの出力が前記自己ノイズ推定部の出力を音源の数で除した値よりも小さい場合には、自己ノイズ用ミッシングフィーチャーマスクが統合ミッシングフィーチャーマスクとされる請求項6または7に記載の音声認識方法。
JP2010232817A 2010-10-15 2010-10-15 音声認識装置及び音声認識方法 Active JP5328744B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010232817A JP5328744B2 (ja) 2010-10-15 2010-10-15 音声認識装置及び音声認識方法
US13/157,648 US8538751B2 (en) 2010-10-15 2011-06-10 Speech recognition system and speech recognizing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010232817A JP5328744B2 (ja) 2010-10-15 2010-10-15 音声認識装置及び音声認識方法

Publications (2)

Publication Number Publication Date
JP2012088390A JP2012088390A (ja) 2012-05-10
JP5328744B2 true JP5328744B2 (ja) 2013-10-30

Family

ID=45934872

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010232817A Active JP5328744B2 (ja) 2010-10-15 2010-10-15 音声認識装置及び音声認識方法

Country Status (2)

Country Link
US (1) US8538751B2 (ja)
JP (1) JP5328744B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013072974A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 音声認識装置、方法及びプログラム
US9378752B2 (en) * 2012-09-05 2016-06-28 Honda Motor Co., Ltd. Sound processing device, sound processing method, and sound processing program
US9520141B2 (en) 2013-02-28 2016-12-13 Google Inc. Keyboard typing detection and suppression
US9747899B2 (en) 2013-06-27 2017-08-29 Amazon Technologies, Inc. Detecting self-generated wake expressions
US9608889B1 (en) 2013-11-22 2017-03-28 Google Inc. Audio click removal using packet loss concealment
US9747921B2 (en) * 2014-02-28 2017-08-29 Nippon Telegraph And Telephone Corporation Signal processing apparatus, method, and program
US9721580B2 (en) 2014-03-31 2017-08-01 Google Inc. Situation dependent transient suppression
JP6118838B2 (ja) * 2014-08-21 2017-04-19 本田技研工業株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
CN106328165A (zh) * 2015-06-30 2017-01-11 芋头科技(杭州)有限公司 一种机器人自身音源消除系统
JP7131424B2 (ja) * 2019-02-18 2022-09-06 日本電信電話株式会社 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム
US10997967B2 (en) * 2019-04-18 2021-05-04 Honeywell International Inc. Methods and systems for cockpit speech recognition acoustic model training with multi-level corpus data augmentation
KR102636002B1 (ko) * 2019-06-18 2024-02-08 엘지전자 주식회사 음성인식 로봇에 사용되는 사운드 처리방법
KR20210073343A (ko) 2019-12-10 2021-06-18 주식회사 케이티 중첩 음원을 분리하는 장치, 방법 및 컴퓨터 프로그램
CN113270099B (zh) * 2021-06-29 2023-08-29 深圳市欧瑞博科技股份有限公司 智能语音提取方法、装置、电子设备及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1098297A1 (en) * 1999-11-02 2001-05-09 BRITISH TELECOMMUNICATIONS public limited company Speech recognition
JP2001215990A (ja) * 2000-01-31 2001-08-10 Japan Science & Technology Corp ロボット聴覚装置
DE60141403D1 (de) * 2000-06-09 2010-04-08 Japan Science & Tech Agency Hörvorrichtung für einen Roboter
JP2002323900A (ja) * 2001-04-24 2002-11-08 Sony Corp ロボット装置、プログラム及び記録媒体
JP3632099B2 (ja) * 2002-12-17 2005-03-23 独立行政法人科学技術振興機構 ロボット視聴覚システム
JP4157581B2 (ja) * 2004-12-03 2008-10-01 本田技研工業株式会社 音声認識装置
US20080071540A1 (en) * 2006-09-13 2008-03-20 Honda Motor Co., Ltd. Speech recognition method for robot under motor noise thereof
JP5041934B2 (ja) * 2006-09-13 2012-10-03 本田技研工業株式会社 ロボット
US8019089B2 (en) * 2006-11-20 2011-09-13 Microsoft Corporation Removal of noise, corresponding to user input devices from an audio signal
JP2009156888A (ja) * 2007-12-25 2009-07-16 Sanyo Electric Co Ltd 音声補正装置及びそれを備えた撮像装置並びに音声補正方法
US8392185B2 (en) * 2008-08-20 2013-03-05 Honda Motor Co., Ltd. Speech recognition system and method for generating a mask of the system
JP5180928B2 (ja) * 2008-08-20 2013-04-10 本田技研工業株式会社 音声認識装置及び音声認識装置のマスク生成方法
JP5535746B2 (ja) * 2009-05-22 2014-07-02 本田技研工業株式会社 音データ処理装置及び音データ処理方法

Also Published As

Publication number Publication date
JP2012088390A (ja) 2012-05-10
US8538751B2 (en) 2013-09-17
US20120095761A1 (en) 2012-04-19

Similar Documents

Publication Publication Date Title
JP5328744B2 (ja) 音声認識装置及び音声認識方法
JP5738020B2 (ja) 音声認識装置及び音声認識方法
US8392185B2 (en) Speech recognition system and method for generating a mask of the system
Yamamoto et al. Enhanced robot speech recognition based on microphone array source separation and missing feature theory
JP2011191423A (ja) 発話認識装置、発話認識方法
Liu et al. Neural network based time-frequency masking and steering vector estimation for two-channel MVDR beamforming
US8666737B2 (en) Noise power estimation system, noise power estimating method, speech recognition system and speech recognizing method
Ince et al. Assessment of general applicability of ego noise estimation
Delcroix et al. Speech recognition in living rooms: Integrated speech enhancement and recognition system based on spatial, spectral and temporal modeling of sounds
Asano et al. Detection and separation of speech event using audio and video information fusion and its application to robust speech interface
US8548802B2 (en) Acoustic data processor and acoustic data processing method for reduction of noise based on motion status
JP5180928B2 (ja) 音声認識装置及び音声認識装置のマスク生成方法
Okuno et al. Robot audition: Missing feature theory approach and active audition
Na et al. Joint ego-noise suppression and keyword spotting on sweeping robots
Kumar et al. Unsupervised neural mask estimator for generalized eigen-value beamforming based ASR
Grondin et al. Robust speech/non-speech discrimination based on pitch estimation for mobile robots
Novoa et al. Robustness over time-varying channels in DNN-hmm ASR based human-robot interaction.
Gomez et al. Dereverberation robust to speaker's azimuthal orientation in multi-channel human-robot communication
JP5535746B2 (ja) 音データ処理装置及び音データ処理方法
Ng et al. Small footprint multi-channel convmixer for keyword spotting with centroid based awareness
Hu et al. Wake-up-word detection for robots using spatial eigenspace consistency and resonant curve similarity
Gomez et al. Utilizing visual cues in robot audition for sound source discrimination in speech-based human-robot communication
Liu et al. A unified network for multi-speaker speech recognition with multi-channel recordings
Himawan et al. Feature mapping using far-field microphones for distant speech recognition
Dat et al. A comparative study of multi-channel processing methods for noisy automatic speech recognition in urban environments

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130723

R150 Certificate of patent or registration of utility model

Ref document number: 5328744

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250