JP2012088390A

JP2012088390A - 音声認識装置及び音声認識方法

Info

Publication number: JP2012088390A
Application number: JP2010232817A
Authority: JP
Inventors: Kazuhiro Nakadai; 一博中臺; Ince Gokhan; ギョカン・インジュ
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2010-10-15
Filing date: 2010-10-15
Publication date: 2012-05-10
Anticipated expiration: 2030-10-15
Also published as: JP5328744B2; US8538751B2; US20120095761A1

Abstract

【課題】自己ノイズが発生する環境において高い精度で音声認識を行なう音声認識装置及び音声認識方法を提供する。
【解決手段】本発明による音声認識装置は、音源分離・音声強調部（１００）と、自己ノイズ推定部（２００）と、該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、ミッシングフィーチャーマスクを生成する、ミッシングフィーチャーマスク生成部（３００）と、該音源分離・音声強調部の出力を使用して、音源ごとの音の特徴を抽出する音特徴抽出部（４０１）と、該音特徴抽出部の出力及び該ミッシングフィーチャーマスクを使用して音声認識を行なう音声認識部（５０１）と、を備えている。
【選択図】図１

Description

本発明は、音声認識装置及び音声認識方法に関する。

たとえば、ロボットが人間とコミュニケーションを行いながら機能するには、動作しながら人間の音声の音声認識を行なう必要がある。ロボットが動作する場合には、ロボットのモータなどによる、いわゆる自己ノイズが発生するので、ロボットは自己ノイズが発生する環境で音声認識を行なう必要がある。

自己ノイズを低減するために、測定された音のスペクトルから予め記憶したテンプレートを減算する方法が提案されている（非特許文献１及び２）。これらの方法は、単一チャネルベースのノイズ低減方法である。単一チャネルベースのノイズ低減方法は、一般的に、ノイズ推定が失敗した場合に生じる現象である、音楽ノイズの歪み効果（非特許文献３）など、音の信号の明瞭さ及び品質を低下させる。

他方、ロボットの音処理の分野では線形音源分離が広く使用されている。そこでは、マイクロフォンアレイを使用した音源分離技術を使用してノイズ抑制が実施される（非特許文献４及び５）。しかし、干渉する話者の場合に仮定される方向性のノイズモデル（非特許文献６）または拡散性の背景ノイズモデル（非特許文献７）は、ロボットの自己ノイズに全く当てはまらない。特にロボットのモータは、マイクロフォンの近くに位置しているので、拡散性及び方向性の両方の特性を有する音を生成する。

このように、従来、自己ノイズが発生する環境において高い精度で音声認識を行なう音声認識装置及び音声認識方法は開発されていなかった。

S. Boll, "Suppression of Acoustic Noise in Speech Using Spectral Subtraction", IEEE Transactions on Acoustics, Speech, and Signal Processing, vol.ASSP-27,No.2,1979. A.Ito, T.Kanayama, M.Suzuki, S.Makino, "Internal Noise Suppression for Speech Recognition by Small Robots", Interspeech 2005,pp.2685-2688,2005. I.Cohen, "Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement", IEEE Signal Processing Letters, vol.9,No.1,2002. K.Nakadai, H.Nakajima, Y.Hasegawa and H.Tsujino, "Sound source separation of moving speakers for robot audition", Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),pp.3685-3688,2009. S.Yamamoto, J.M.Valin, K.Nakadai, J.Rouat, F.Michaud, T.Ogata, and H.G.Okuno, "Enhanced Robot Speech Recognition Based on Microphone Array Source Separation and Missing Feature Theory", IEEE/RSJ International Conference on Robotics and Automation (ICRA),2005. S.Yamamoto, K.Nakadai, M.Nakano, H.Tsujino, J.M.Valin, K.Komatani, T.Ogata, and H.G.Okuno, "Real-time robot audition system that recognizes simultaneous speech in the real world", Proc. of the IEEE/RSJ International Conference on Robots and Intelligent Systems (IROS),2006. J.-M.Valin, J.Rouat and F.Michaud, "Enhanced Robot Audition Based on Microphone Array Source Separation with Post-Filter", Proc. IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS),pp.2123-2128,2004.

したがって、たとえば、自己ノイズが発生する環境において高い精度で音声認識を行なう音声認識装置及び音声認識方法に対するニーズがある。

本発明の第１の態様による音声認識装置は、音源分離・音声強調部と、自己ノイズ推定部と、該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、ミッシングフィーチャーマスクを生成する、ミッシングフィーチャーマスク生成部と、該音源分離・音声強調部の出力を使用して、音源ごとの音の特徴を抽出する音特徴抽出部と、該音特徴抽出部の出力及び該ミッシングフィーチャーマスクを使用して音声認識を行なう音声認識部と、を備えている。

本態様による音声認識装置のミッシングフィーチャーマスク生成部は、該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、ミッシングフィーチャーマスクを生成するので、音源の分離状況及び推定された自己ノイズに基づいて、音声認識部の入力データを調整し、音声認識の精度を向上させることができる。

本発明の第２の態様による音声認識装置は、音源分離・音声強調部と、自己ノイズ推定部と、該音源分離・音声強調部の出力を使用して、音源ごとの話者用ミッシングフィーチャーマスクを生成する、話者用ミッシングフィーチャーマスク生成部と、該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、音源ごとの自己ノイズ用ミッシングフィーチャーマスクを生成する、自己ノイズ用ミッシングフィーチャーマスク生成部と、話者用ミッシングフィーチャーマスク及び自己ノイズ用ミッシングフィーチャーマスクを統合して、統合ミッシングフィーチャーマスクを生成するミッシングフィーチャーマスク統合部と、該音源分離部の出力を使用して、音源ごとの音の特徴を抽出する音特徴抽出部と、該音特徴抽出部の出力及び該統合ミッシングフィーチャーマスクを使用して音声認識を行なう音声認識部と、を備えている。

本態様による音声認識装置は、話者用ミッシングフィーチャーマスク及び自己ノイズ用ミッシングフィーチャーマスクを統合して、統合ミッシングフィーチャーマスクを生成するミッシングフィーチャーマスク統合部を備えているので、該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して環境ごとに適切な統合ミッシングフィーチャーマスクを生成し、音声認識の精度を向上させることができる。

本発明の一つの実施形態による音声認識装置は、第２の態様による音声認識装置であって、前記自己ノイズ用ミッシングフィーチャーマスク生成部が、前記自己ノイズ推定部の出力を音源の数で除した値と、前記音源分離・音声強調部の音源ごとの出力との比を使用して、前記自己ノイズ用ミッシングフィーチャーマスクを生成する。

本形態による音声認識装置は、自己ノイズのエネルギを音源の数で除した値と、音源ごとの音のエネルギとの比を使用して、自己ノイズに対する音源分離・音声強調部の音源ごとの出力の信頼度を定めるので、自己ノイズに汚染された出力の部分を有効に除去し、音声認識の精度を向上させることができる。

本発明の一つの実施形態による音声認識装置は、第２の態様による音声認識装置であって、前記ミッシングフィーチャーマスク統合部が、前記音源分離・音声強調部の音源ごとの出力が前記自己ノイズ推定部の出力を音源の数で除した値以上である場合には、前記話者用ミッシングフィーチャーマスクを統合ミッシングフィーチャーマスクとし、前記音源分離・音声強調部の音源ごとの出力が前記自己ノイズ推定部の出力を音源の数で除した値よりも小さい場合には、自己ノイズ用ミッシングフィーチャーマスクを統合ミッシングフィーチャーマスクとする。

本形態による音声認識装置においては、音源からの音のエネルギ及び自己ノイズのエネルギに応じて、適切な統合ミッシングフィーチャーマスクを生成し、これを使用して音声認識を行なうことにより音声認識の精度を向上させることができる。

本発明の第３の態様による音声認識方法は、音源分離・音声強調部が音源を分離するステップと、自己ノイズ推定部が自己ノイズを推定するステップと、ミッシングフィーチャーマスク生成部が該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、ミッシングフィーチャーマスクを生成するステップと、音特徴抽出部が該音源分離・音声強調部の出力を使用して、音源ごとの音の特徴を抽出するステップと、音声認識部が該音特徴抽出部の出力及び該ミッシングフィーチャーマスクを使用して音声認識を行なうステップと、を含む。

本態様による音声認識方法においては、ミッシングフィーチャーマスク生成部が該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、ミッシングフィーチャーマスクを生成するので、音源の分離状況及び推定された自己ノイズに基づいて、音声認識部の入力データが調整され、音声認識の精度を向上させることができる。

本発明の第４の態様による音声認識方法は、音源分離・音声強調部が音源を分離するステップと、自己ノイズ推定部が自己ノイズを推定するステップと、話者用ミッシングフィーチャーマスク生成部が、該音源分離・音声強調部の出力を使用して、音源ごとの話者用ミッシングフィーチャーマスクを生成するステップと、自己ノイズ用ミッシングフィーチャーマスク生成部が、該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、音源ごとの自己ノイズ用ミッシングフィーチャーマスクを生成するステップと、ミッシングフィーチャーマスク統合部が、話者用ミッシングフィーチャーマスク及び自己ノイズ用ミッシングフィーチャーマスクを統合して、統合ミッシングフィーチャーマスクを生成するステップと、音特徴抽出部が、該音源分離・音声強調部の出力を使用して音源ごとの音の特徴を抽出するステップと、音声認識部が、該音特徴抽出部の出力及び該ミッシングフィーチャーマスクを使用して音声認識を行なうステップと、を含む。

本態様の音声認識方法によれば、ミッシングフィーチャーマスク統合部が、該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して環境ごとに適切な統合ミッシングフィーチャーマスクを生成し、音声認識の精度を向上させることができる。

本発明の一つの実施形態による音声認識方法は、第４の態様による音声認識方法であって、自己ノイズ用ミッシングフィーチャーマスクを生成するステップにおいて、前記自己ノイズ推定部の出力を音源の数で除した値と、前記音源分離・音声強調部の音源ごとの出力との比を使用して、前記自己ノイズ用ミッシングフィーチャーマスクを生成する。

本形態による音声認識方法は、自己ノイズのエネルギを音源の数で除した値と、音源ごとの音のエネルギとの比を使用して、自己ノイズに対する音源分離・音声強調部の音源ごとの出力の信頼度を定めるので、自己ノイズに汚染された出力の部分を有効に除去し、音声認識の精度を向上させることができる。

本発明の一つの実施形態による音声認識方法は、第４の態様による音声認識方法であって、統合ミッシングフィーチャーマスクを生成するステップにおいて、前記音源分離・音声強調部の音源ごとの出力が前記自己ノイズ推定部の出力を音源の数で除した値以上である場合には、前記話者用ミッシングフィーチャーマスクが統合ミッシングフィーチャーマスクとされ、前記音源分離・音声強調部の音源ごとの出力が前記自己ノイズ推定部の出力を音源の数で除した値よりも小さい場合には、自己ノイズ用ミッシングフィーチャーマスクが統合ミッシングフィーチャーマスクとされる。

本形態による音声認識方法においては、音源からの音のエネルギ及び自己ノイズのエネルギに応じて、適切な統合ミッシングフィーチャーマスクを生成し、これを使用して音声認識を行なうことにより音声認識の精度を向上させることができる。

本発明の一実施形態による音声認識装置の構成を示す図である。本発明の一実施形態による音声認識方法を説明する流れ図である。テンプレートデータベースの構造を示す図である。テンプレートデータベースを作成する手順を示す流れ図である。テンプレート減算を使用したノイズ低減の手順を示す流れ図である。ロボット及びスピーカの配置を示す図である。広いスピーカ間隔の場合について、種々の方法による音声認識の結果を示す図である。狭いスピーカ間隔の場合について、種々の方法による音声認識の結果を示す図である。

図１は、本発明の一実施形態による音声認識装置の構成を示す図である。音声認識装置は、音源分離・音声強調部１００と、自己ノイズ推定部２００と、ミッシングフィーチャーマスク生成部３００と、音特徴抽出部４０１と、音声認識部５０１と、を含む。

図２は、本発明の一実施形態による音声認識方法を説明する流れ図である。図２については、音声認識装置の各部の説明をした後で説明する。

音源分離・音声強調部１００は、音源位置特定部１０１と、音源分離部１０３と、音声強調部１０５と、を含む。音源位置特定部１０１は、ロボットに設置された複数のマイクロフォンから音データを使用し、音源位置を特定する。音源分離部１０３は、特定した音源位置を使用して音源分離を行う。音源分離部１０３においては、幾何学的音源分離（Geometric Source Separation, GSS）と呼ばれる線形分離アルゴリズムが使用される（S.Yamamoto,K.Nakadai,M.Nakano,H.Tsujino,J.M.Valin,K.Komatani,T.Ogata,andH.G.Okuno,”Real-time robot audition system that recognizes simultaneous speech in the real world”, Proc. Of the IEEE/RSJ International Conference on Robots and Intelligent Systems (IROS),2006.）。図１に示すように、音源分離部１０３の出力はｎ個である。ここで、ｎは音源、すなわち、話者の数を表す。後で詳細に説明するように、ミッシングフィーチャーマスク生成部３００、音特徴抽出部４０１、及び音声認識部５０１においては、音源ごとの処理が行われる。音声強調部１０５は、多チャンネルポスト・フィルタリング処理（I.Cohen and B.Berdugo, ”Microphone array post-filtering for non-stationary noise suppression”, Proc. IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP),pp.901-904,2002.）を行なう。ポストフィルタリング処理は、たとえば、背景ノイズなどの定常ノイズ、及び個別の音源の分離段階の出力チャネル間の漏れエネルギにより生じる非定常ノイズを減少させる。音源分離・音声強調部１００は、方向性を有する音源を分離することのできる多チャンネルを使用する、上記の構成以外のどのような構成によって実現してもよい。

自己ノイズ推定部２００は、ロボットに使用されるモータの動作状態を検出し、該動作状態に基づいてロボットの自己ノイズを推定する。自己ノイズ推定部２００の構成及び機能の詳細については後で説明する。

ミッシングフィーチャーマスク生成部３００は、音源分離・音声強調部１００及び自己ノイズ推定部２００の出力に基づいて、その環境に適切な話者（音源）ごとのミッシングフィーチャーマスクを生成する。ミッシングフィーチャーマスク生成部３００の構成及び機能の詳細については後で説明する。

音特徴抽出部４０１は、音源分離・音声強調部１００によって得られた話者（音源）ごとの音特徴を抽出する。

音声認識部５０１は、音特徴抽出部４０１によって得られた話者（音源）ごとの音特徴及びミッシングフィーチャーマスク生成部３００によって得られた話者（音源）ごとのミッシングフィーチャーマスクを使用して音声認識を行なう。

自己ノイズ推定部２００について説明する。自己ノイズ推定部２００は、ロボットに使用されるモータの動作状態を検出する動作状態検出部２０１と、各動作状態に対応するノイズテンプレートを格納するテンプレートデータベース２０５と、動作状態検出部２０１によって検出されたその時点の動作状態に最も近い動作状態のノイズテンプレートを選択するノイズテンプレート選択部２０３と、を含む。ノイズテンプレート選択部２０３によって選択されたノイズテンプレートが、推定されたノイズである。

図３は、テンプレートデータベース２０５の構造を示す図である。

図４は、テンプレートデータベース２０５を作成する手順を示す流れ図である。

テンプレートデータベース２０５を作成する際には、ロボットが、個々の運動の間に１秒より短い休止を設けながら、多数の運動からなる連続した運動のシーケンスを実行して、動作状態検出部２０１が動作状態を検出し、音データが取得される。

図４のステップＳ１０１０において、動作状態検出部２０１が、所定の時間のロボットの動作状態を取得する。

ロボットの動作状態は、ロボットの各関節モータの角度

、角速度

及び角加速度

によって表される。ロボットの関節の数をＪとすると、動作状態を表す特徴ベクトルは以下のようになる。

ここで、ｋは、時刻を表す。角度

、角速度

及び角加速度

の値は、所定時間ごとに取得し、[-1,1]に規格化する。

図４のステップＳ１０２０において、所定の時間の音データが取得される。具体的に、上記のロボットの動作状態に対応する音データ、すなわち、モータ・ノイズに対応する音データが取得され、以下の周波数スペクトルによって表される。

ここで、ｋは、時刻を表し、Ｆは周波数の範囲を表す。該周波数の範囲は、０ｋＨｚ−８ｋＨｚを２５６に区分したものである。音データは、所定時間ごとに取得する。

図４のステップＳ１０３０において、動作状態検出部２０１によって取得された、動作状態を表す特徴ベクトル

及び、動作状態に対応する音データの周波数スペクトル

が、テンプレートデータベースに格納される。

動作状態を表す特徴ベクトル及び音データの周波数スペクトルには、時刻タグが付されている。したがって、時刻タグが一致した特徴ベクトル及び周波数スペクトルを組み合わせることによりテンプレートが生成される。図３に示テンプレートデータベース２０５は、このようにして生成されたテンプレートの集合として作成される。

図５は、ノイズ推定の手順を示す流れ図である。

図５のステップＳ２０１０において、動作状態検出部１０１が、ロボットの動作状態（特徴ベクトル）を取得する。

図５のステップＳ２０２０において、ノイズテンプレート選択部２０３が、動作状態検出部２０１から、取得された動作状態（特徴ベクトル）を受け取り、テンプレートデータベース２０５から、取得された動作状態に最も近い動作状態のテンプレートを選択する。

ここで、ロボットの関節の数をＪとすると、動作状態の特徴ベクトルは３Ｊ次元空間の点に対応する。データベース１０５の任意のテンプレートの動作状態の特徴ベクトルを

と表し、取得された動作状態の特徴ベクトルを

と表す。そうすると、取得された動作状態に最も近い動作状態のテンプレートを選択することは、３Ｊ次元のユークリッド空間の距離

が最も小さくなる特徴ベクトル

を有するテンプレートを求めることに相当する。

ミッシングフィーチャーマスク生成部３００について説明する。以下において、ミッシングフィーチャーマスクをＭＦＭと呼称する。ＭＦＭ生成部３００は、話者用ＭＦＭ生成部３０１と、自己ノイズ用ＭＦＭ生成部３０３と、両方のＭＦＭを統合して一つのＭＦＭを生成するＭＦＭ統合部３０５と、を含む。

ミッシングフィーチャー理論自動音声認識（ＭＦＴ−ＡＳＲ）は、歪んだ音声の信頼できない部分の寄与を低減するためにマスクを適用する、非常に有望な隠れマルコフモデルに基づいた音声認識技術である（B.Raj and R.M.Stern, ”Missing-feature approaches in speech recognition”, IEEE Signal Processing Magazine, vol.22,pp.101-116,2005.）。音声認識に対して本質的な信頼性の高いパラメータを維持することによって、認識精度の実質的な増加が達成される。

話者用ＭＦＭ生成部３０１は、話者分離アーティフェクトに対する信頼度（分離信頼度）を求め、この信頼度に基づいて話者用ＭＦＭを生成する。話者の分離信頼度は、たとえば以下の式で表せる（S.Yamamoto, J.M.Valin, K.Nakadai, J.Rouat, F.Michaud, T.Ogata, and H.G.Okuno, ”Enhanced Robot Speech Recognition Based on Microphone Array Source Separation and Missing Feature Theory”, IEEE/RSJ International Conference on Robotics and Automation(ICRA),2005.）。

ここで、

及び

は、それぞれ時系列フレーム

及びメル周波数帯

に対する、ポストフィルタリング処理を行う音声強調部１０５の入力エネルギ推定値及び出力エネルギ推定値である。

は背景ノイズエネルギ推定値を示し、

は信頼性の尺度を示す。音声強調部１０５の入力エネルギ推定値

は、

と背景ノイズエネルギ推定値

とリークエネルギ推定値を足し合わせたものであるので、リークがない場合（他の音源からの混ざりこみがなく完全に分離できている場合）には、話者の分離信頼度は１となる。他方、リークが大きくなるにつれて、話者の分離信頼度は０に近づく。話者の分離信頼度は、それぞれの音源に対して、時系列フレーム

ごと及びメル周波数帯

ごとに求める。このように求めた話者の分離信頼度に基づく、話者用ＭＦＭの生成については後で説明する。

自己ノイズ用ＭＦＭ生成部３０３は、自己ノイズに対する信頼度を求め、この信頼度に基づいて自己ノイズ用ＭＦＭを生成する。ここで、自己ノイズ、すなわちロボットのモータのノイズは、存在する音源に対して一様に分配されると仮定する。したがって、ある音源に対するノイズエネルギは、全体のノイズエネルギを音源の数（話者の数）で除したものである。自己ノイズに対する信頼度は、以下の式で表せる。

ここで、

は、ノイズテンプレート、すなわちノイズ推定値であり、

は、話者の数を表す。

及び

の値の範囲を合わせるために、とりうる値は０と１の間に制限される。式（３）によれば、高いモータ・ノイズ

が推定された場合は、信頼度はゼロとなり、低いモータ・ノイズの場合は、

が１に近づく。自己ノイズに対する信頼度は、それぞれの音源に対して、時系列フレーム

ごと及びメル周波数帯

ごとに求める。

つぎに、話者の分離信頼度に基づく、話者用ＭＦＭの生成及び自己ノイズに対する信頼度に基づく、自己ノイズ用ＭＦＭの生成について説明する。マスクには、０または１のいずれかの値をとるハードマスク及び０と１の間の連続した値をとるソフトマスクがある。ハードマスク（ハードＭＦＭ）は、以下の式によって表せる。なお、

は、話者に関する分離信頼度

またはマスク

であることを示す

、または自己ノイズに関する信頼度

またはマスク

であることを示す

を表す。

ハードマスク（ハードＭＦＭ）は、以下の式によって表せる。

ソフトマスク（ソフトＭＦＭ）は、以下の式によって表せる。

ここで、

はシグモイド重み関数の傾き値であり、

は予め定められたしきい値である。信頼度がしきい値

を下回る場合には、音声の特徴は信頼性が低い。

さらに、最小エネルギ基準（minimum energy criterion, mec）という概念を導入する。ノイズを含む信号のエネルギが所定のしきい値

よりも小さい場合には、マスクは以下の式によって定められる。

最小エネルギ基準は、たとえば停止中や静かな瞬間など非常に低いエネルギの信号を使用して行われる計算による誤った推定を防止するのに使用される。

ＭＦＭ統合部３０５は、話者用ＭＦＭ及び自己ノイズ用ＭＦＭを統合して統合ＭＦＭを生成する。上述のように、話者用ＭＦＭ及び自己ノイズ用ＭＦＭは、異なる目的のために機能する。しかし、これらは、自己ノイズの下での複数話者音声認識において、補完的に使用することができる。統合マスクは、以下の式で表せる。

ここで、

は統合マスクであり、

は、それぞれのマスクの重みである。また、

は、ソフトマスクまたはハードマスクのＡＮＤ及びＯＲ演算を含む任意の統合方法を示す。

つぎに、図２の流れ図について説明する。

図２のステップＳ００１０において、音源分離・音声強調部１が音源を分離する。

図２のステップＳ００２０において、自己ノイズ推定部２００が自己ノイズを推定する（すなわち、自己ノイズの推定値を求める）。

図２のステップＳ００３０において、話者用ＭＦＭ生成部３０１が話者（音源）ごとに話者用ＭＦＭを生成する。

図２のステップＳ００４０において、自己ノイズ用ＭＦＭ生成部３０３が話者（音源）ごとに自己ノイズ用ＭＦＭを生成する。

図２のステップＳ００５０において、ＭＦＭ統合部３０５が話者（音源）ごとに統合ＭＦＭを生成する。

図２のステップＳ００６０において、音特徴抽出部４０１が話者（音源）ごとに音特徴を抽出する。

図２のステップＳ００７０において、音声認識部５０１が、話者（音源）ごとの音特徴及び話者（音源）ごとの統合ＭＦＭを使用して音声認識を行なう。

実験
音声認識装置の性能を確認するための実験について以下に説明する。

１）実験の設定
実験には、人間型のロボットを使用する。ロボットは、頭部に８チャネルのマイクロフォンアレイを備えている。ロボットの多くの自由度の内、鉛直方向の頭部の動き（傾き）及びそれぞれの腕の動きのための４個のモータの、全部で９個の自由度を使用した。３０分間のトレーニング・データベース及び１０分間のテスト・データベースを記憶することによって、上記の部分によるランダムな動きを記録した。ノイズの記録は、独立した語の認識に使用される発話よりも長いので、全ての関節がノイズに寄与するセグメントを選択した。発話のエネルギレベルを、−６ｄＢのＳＮ比（ノイズは、他の二人の干渉しているスピーカ）に正規化した後、自己の動きのノイズ及びファン・ノイズを含む自己ノイズからなるノイズ信号及び周囲の背景ノイズを、明瞭なスピーチの発話に混合した。日本語の語のデータセットは、一人の女性及び二人の男性スピーカに対して、一般的な人間型ロボットの対話に使用される２３６語を含む。音モデルは、３０６人の男性及び女性スピーカによって話された６０時間のスピーチデータである、日本語新聞記事文章（ＪＮＡＳ）コーパスを使用してトレーニングされる。したがって、音声認識は、ワード（語）オープンなテストである。音の特徴として、１３個の静的なＭＳＬＳ（Mel-scale logarithmic spectrum）、１３個の差分（delta）ＭＳＬＳ及び１個の差分パワーを使用した。音声認識の結果は、語正答比率（ＷＣＲ，Word Correct Rate）によって与えられる。

図６はロボット及びスピーカの配置を示す図である。実験中、スピーカの位置は、広いスピーカ間隔［−８０°，０°，８０°］または狭いスピーカ間隔［−２０°，０°，２０°］の固定構成に維持される。位置特定エラーによるご認識を防止し、本実施形態による装置及び方法の性能を評価するため、音源位置特定部１０１をバイパスし、人間によって位置を設定した。記録環境は、残響時間が０．２秒である４．０ｍｘ７．０ｍｘ３．０ｍの寸法の部屋である。

経験的に定めた以下のパラメータを備えたＭＦＭを評価した。

２）実験の結果
図７及び図８は、それぞれ広いスピーカ間隔の場合及び狭いスピーカ間隔の場合について、種々の方法による音声認識の結果を示す図である。全ての図において、横軸はＳＮ比（単位ｄＢ）を表し、縦軸はＷＣＲ（語正答比率、単位％）を表す。多数話者の音声認識であるので、ＧＳＳ＋ＰＦ（音源分離部および音声強調部）を基準として考える。種々の方法とは、音源分離部および音声強調部のみ（マスクなし）、及び音源分離部および音声強調部にそれぞれ、自己ノイズ用ハードＭＦＭ（mecなし）、自己ノイズ用ハードＭＦＭ（mecあり）、話者用ハードＭＦＭ、話者用ハードＭＦＭ、自己ノイズ用ソフトＭＦＭ、話者用ソフトＭＦＭ及び統合ソフトＭＦＭを加えたものである。図７及び図８におけるハードマスクに対する比較に示すように、最小エネルギ基準（minimum energy criterion, mec）による改善はわずかである。全体として最小エネルギ基準はＷＣＲを１乃至３％しか改善しない。一般的な傾向は以下のとおりである。

（１）ほとんど全ての条件でソフトマスクの性能はハードマスクを上回る。この改善は、各々の特徴の信頼度の改善された確率的表現によるものである。

（２）自己ノイズマスクは、低いＳＮ比に対してはうまく機能するが、高いＳＮ比に対してはＷＣＲが低下する。自己の動きノイズの誤った予測は、ノイズの多いスピーチと比較して明瞭なスピーチのマスクの品質、したがって、音声認識の正確さをより多く劣化させるからである。一方、（ロボットの動きがないか非常に大きな声のスピーチを意味する）高いＳＮ比において、話者マスクは結果を大幅に改善ずるが、低いＳＮ比では悪化する。

（３）話者間隔が狭くなると、ＷＣＲは大幅に低下する傾向にある。狭い分離角度に対して、−５ｄＢにおいて、話者用マスク

によって提供されるＷＣＲは、自己ノイズ用マスク

によるものと比較してわずかに増加する。その理由は、非常に近い話者に対して音源分離部によって生じるアーティファクトが支配的となるためである。

上記の傾向（１）及び（２）に基づいて、統合マスクを表す式（７）において、話者用マスク

及び自己ノイズ用マスク

をソフトマスクとし、重み

を以下の式によって定めた。

ここで、ＳＮＲはＳＮ比を表す。ＳＮ比は、話者ごとに、音声強調部１０５の出力と、自己ノイズ推定部２００の出力を話者の数で除したものとの比によって定める。

他方、ＡＮＤ及びＯＲに基づく統合マスクのＷＣＲは、話者用マスク

のＷＣＲまたは自己ノイズ用マスク

のＷＣＲの高い方を下回った。

１００…音源分離・音声強調部、２００…自己ノイズ推定部、３００…ミッシングフィーチャーマスク（ＭＦＭ）生成部、３０１…話者用ＭＦＭ生成部、３０３…自己ノイズ用ＭＦＭ生成部、３０５…ＭＦＭ統合部、４０１…音特徴抽出部、５０１…音声認識部

Claims

音源分離・音声強調部と、
自己ノイズ推定部と、
該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、ミッシングフィーチャーマスクを生成する、ミッシングフィーチャーマスク生成部と、
該音源分離・音声強調部の出力を使用して、音源ごとの音の特徴を抽出する音特徴抽出部と、
該音特徴抽出部の出力及び該ミッシングフィーチャーマスクを使用して音声認識を行なう音声認識部と、を備えた音声認識装置。
音源分離・音声強調部と、
自己ノイズ推定部と、
該音源分離・音声強調部の出力を使用して、音源ごとの話者用ミッシングフィーチャーマスクを生成する、話者用ミッシングフィーチャーマスク生成部と、
該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、音源ごとの自己ノイズ用ミッシングフィーチャーマスクを生成する、自己ノイズ用ミッシングフィーチャーマスク生成部と、
話者用ミッシングフィーチャーマスク及び自己ノイズ用ミッシングフィーチャーマスクを統合して、統合ミッシングフィーチャーマスクを生成するミッシングフィーチャーマスク統合部と、
該音源分離・音声強調部の出力を使用して、音源ごとの音の特徴を抽出する音特徴抽出部と、
該音特徴抽出部の出力及び該統合ミッシングフィーチャーマスクを使用して音声認識を行なう音声認識部と、を備えた音声認識装置。
前記自己ノイズ用ミッシングフィーチャーマスク生成部が、前記自己ノイズ推定部の出力を音源の数で除した値と、前記音源分離・音声強調部の音源ごとの出力との比を使用して、前記自己ノイズ用ミッシングフィーチャーマスクを生成する請求項２に記載の音声認識装置。
前記ミッシングフィーチャーマスク統合部が、前記音源分離・音声強調部の音源ごとの出力が前記自己ノイズ推定部の出力を音源の数で除した値以上である場合には、前記話者用ミッシングフィーチャーマスクを統合ミッシングフィーチャーマスクとし、前記音源分離・音声強調部の音源ごとの出力が前記自己ノイズ推定部の出力を音源の数で除した値よりも小さい場合には、自己ノイズ用ミッシングフィーチャーマスクを統合ミッシングフィーチャーマスクとする請求項２または３に記載の音声認識装置。
音源分離・音声強調部が音源を分離するステップと、
自己ノイズ推定部が自己ノイズを推定するステップと、
ミッシングフィーチャーマスク生成部が該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、ミッシングフィーチャーマスクを生成するステップと、
音特徴抽出部が該音源分離・音声強調部の出力を使用して、音源ごとの音の特徴を抽出するステップと、
音声認識部が該音特徴抽出部の出力及び該ミッシングフィーチャーマスクを使用して音声認識を行なうステップと、を含む音声認識方法。
音源分離・音声強調部が音源を分離するステップと、
自己ノイズ推定部が自己ノイズを推定するステップと、
話者用ミッシングフィーチャーマスク生成部が、該音源分離・音声強調部の出力を使用して、音源ごとの話者用ミッシングフィーチャーマスクを生成するステップと、
自己ノイズ用ミッシングフィーチャーマスク生成部が、該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、音源ごとの自己ノイズ用ミッシングフィーチャーマスクを生成するステップと、
ミッシングフィーチャーマスク統合部が、話者用ミッシングフィーチャーマスク及び自己ノイズ用ミッシングフィーチャーマスクを統合して、統合ミッシングフィーチャーマスクを生成するステップと、
音特徴抽出部が、該音源分離・音声強調部の出力を使用して音源ごとの音の特徴を抽出するステップと、
音声認識部が、該音特徴抽出部の出力及び該統合ミッシングフィーチャーマスクを使用して音声認識を行なうステップと、を含む音声認識方法。
自己ノイズ用ミッシングフィーチャーマスクを生成するステップにおいて、前記自己ノイズ推定部の出力を音源の数で除した値と、前記音源分離・音声強調部の音源ごとの出力との比を使用して、前記自己ノイズ用ミッシングフィーチャーマスクを生成する請求項６に記載の音声認識方法。
統合ミッシングフィーチャーマスクを生成するステップにおいて、前記音源分離・音声強調部の音源ごとの出力が前記自己ノイズ推定部の出力を音源の数で除した値以上である場合には、前記話者用ミッシングフィーチャーマスクが統合ミッシングフィーチャーマスクとされ、前記音源分離・音声強調部の音源ごとの出力が前記自己ノイズ推定部の出力を音源の数で除した値よりも小さい場合には、自己ノイズ用ミッシングフィーチャーマスクが統合ミッシングフィーチャーマスクとされる請求項６または７に記載の音声認識方法。