JP2008064892A

JP2008064892A - 音声認識方法およびそれを用いた音声認識装置

Info

Publication number: JP2008064892A
Application number: JP2006240721A
Authority: JP
Inventors: Akira Saso; 晃佐宗
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2006-09-05
Filing date: 2006-09-05
Publication date: 2008-03-21

Abstract

【課題】マイクロフォンアレイ処理で除去しきれない残留雑音を補正する機能を持った音声認識手段とマイクロフォンアレイを組み合わせることで、静止または移動している指向性雑音源や無指向性雑音源を含む一般的な雑音環境下でも高精度に音声認識を実現する音声認識方法およびそれを用いた音声認識装置を提供すること。
【解決手段】音声認識方法は、マイクロフォンを複数個配置したマイクロフォンアレイにより入力音声を集音する手順１、前記集音した入力音声信号から遠距離にある音源の音波到来方向を推定した音波到来方向推定信号を作成する手順２、前記集音した入力音声信号から近距離にある音源の位置を推定する位置推定信号を作成する手順３、前記音波到来方向推定信号と前記位置推定信号に基づき前記集音した入力音声からユーザの音声を検出・分離して出力する手順４、前記ユーザの音声信号の特徴を補正処理する手順５、前記補正処理した音声信号を音声認識する手順６とからなる。
【選択図】図１

Description

本発明は、様々な環境騒音や他人の音声などが存在する雑音環境下において、ユーザの発話を検出し、ユーザの音声と雑音を分離し、分離したユーザの音声を認識する音声認識方法およびそれを用いた音声認識装置に関する。

様々な環境騒音や他人の音声などが存在する雑音環境下において高いＳＮＲでユーザ音声を録音するために（例えば、特許文献１参照）、口元近くにマイクロフォンを１つ配置する接話型のヘッドセットマイクロフォン（例えば、特許文献２参照）が用いられている。音声認識を行う場合、雑音に対して頑健な音声認識の実現が必要不可欠である。従来、雑音の混入を抑えるためにヘッドセットマイクロフォンなどの接話型マイクが広く用いられている。

特開２００３−０７６３９３号公報特開２００２−１５２３６５号公報

しかし、例えば、券売機などに音声認識を組み込む場合、券売機を使用する度にヘッドセットマイクを装着する必要があるため、券売機のユーザにとってその作業は煩わしく実用的ではないという問題が起こる。この問題を避けるためには、マイクを券売機に固定し、ユーザはマイクを一切身に付けずに券売機を使用できるようにする必要がある。しかし、ユーザとマイクの間の距離が広がると周囲雑音が混入し易くなり音声認識精度が劣化する問題、周囲雑音により引き起こされる券売機の誤動作などが問題となる。また、ユーザ音声以外に複数の周囲雑音が存在する場合に、どの音が認識すべき音声なのか判断が難しい問題などがある。
一方、指向性を持った静止雑音源は、マイクロフォンアレイを用いることで十分に抑圧できるが、実環境下では、例えば、歩行中の話者やクラクションを鳴らしながら走行している車など移動雑音源も少なくない。このような指向性を持った移動雑音源の場合、特に移動速度が速い時に、マイクロフォンアレイを用いたとしても、十分な抑圧効果が得られず、残留雑音の影響が無視できなくなる。更に、マイクロフォンアレイ処理では、指向性雑音はある程度抑圧が得られるが、無指向性雑音に対しては十分な抑圧効果が得られないという問題もある。

本発明の目的は、マイクロフォンアレイを用いた処理で除去しきれない残留雑音を補正する機能を持った音声認識手段と、マイクロフォンアレイを組み合わせることで、静止または移動している指向性雑音源や無指向性雑音源などが混在するより一般的な雑音環境下でも高精度に音声認識を実現する音声認識方法およびそれを用いた音声認識装置を提供することである。

本発明の音声認識装置は、静止または移動している雑音源を含む入力音声信号から認識対象となる音声信号のみを分離するマイクロフォンアレイ処理部と、前記分離した音声信号に残留している雑音歪を補正しながら音声認識をする音声認識処理部を有する。
マイクロフォンアレイ処理部は、音声入力手段と、周囲雑音を抑圧しユーザの音声だけを強調する音源分離処理手段を有する。
音声認識処理部は、前記分離音声に残留する雑音歪を補正する機能を持った音声認識手段を有する。

音声認識装置は、マイクロフォンアレイ処理部と、音声認識処理部から構成される。
マイクロフォンアレイ処理部は、入力音声（ユーザの音声等）をマイクロフォンアレイで受音するマイクロフォンアレイ音声入力装置と、この音声入力装置のマルチチャネル音声データから、ユーザの音声と周囲にいる他人の音声や雑音（以後、周囲雑音）の音源位置や到来方向の推定処理手段と、遠距離にある音源の音波到来方向を推定する遠距離にある音源の音波到来方向推定手段と、近距離にある音源の位置を推定する近距離にある音源の位置推定手段と、音源の位置推定手段の音源位置情報に基づいて認識対象の音声を分離する音源分離処理手段と、音源位置情報に基づいてユーザの発話を検出するユーザの発話検出手段と、ユーザの発話検出手段からの検出信号に応じて音源分離処理手段からの音声信号を切換出力する切換手段から構成される。
音声認識処理部は、切換手段からの音声信号に対して特徴を補正処理する特徴補正処理手段と、特徴補正処理手段からの特徴を補正した音声信号を音声認識して認識結果を出力する音声認識手段から構成される。

具体的には以下のようになる。
（１）音声認識方法は、マイクロフォンを複数個配置したマイクロフォンアレイにより入力音声を集音する手順１、前記集音した入力音声信号から遠距離にある音源の音波到来方向を推定した音波到来方向推定信号を作成する手順２、前記集音した入力音声信号から近距離にある音源の位置を推定する位置推定信号を作成する手順３、前記音波到来方向推定信号と前記位置推定信号に基づき前記集音した入力音声からユーザの音声のみを分離して出力する手順４、前記ユーザの音声信号の特徴を補正処理する手順５、前記補正処理した音声信号を音声認識する手順６とからなることを特徴とする。
（２）上記（１）記載の音声認識方法は、前記集音した入力音声からユーザの音声のみを分離して出力する手順４における出力する手順を、前記音波到来方向推定信号と前記位置推定信号に基づいてユーザの発話状態を検出した信号により行う手順としたことを特徴とする。

（３）上記（１）記載の音声認識方法は、前記音波到来方向推定信号と前記位置推定信号に基づいてユーザの発話状態を検出する手順を、前記音波到来方向推定信号と前記位置推定信号に基づいて予め想定されているユーザ発声領域に入る音源を選択する手順としたことを特徴とする。
（４）上記（１）乃至（３）のいずれか１項記載の音声認識方法は、前記マイクロフォンアレイにより入力音声を集音する手順１で指向性雑音を抑圧し、前記ユーザの音声信号の特徴を補正処理する手順５でマイクロフォンアレイ処理で除去できない無指向性雑音や突発性雑音による歪を除去することを特徴とする。
（５）音声認識装置は、マイクロフォンを複数個配置したマイクロフォンアレイにより入力音声を集音し、前記集音した入力音声信号から遠距離にある音源の音波到来方向を推定した音波到来方向推定信号を作成すると供に、前記集音した入力音声信号から近距離にある音源の位置を推定する位置推定信号を作成し、前記音波到来方向推定信号と前記位置推定信号に基づき前記集音した入力音声からユーザの音声のみを分離して出力するマイクロフォンアレイ処理部と、前記ユーザの音声信号の特徴を補正処理し、その補正処理した音声信号を音声認識する音声認識処理部とからなることを特徴とする。

（６）上記（５）記載の音声認識装置は、マイクロフォンを複数個配置したマイクロフォンアレイにより入力音声を集音し、前記集音した入力音声信号から遠距離にある音源の音波到来方向を推定した音波到来方向推定信号を作成すると供に、前記集音した入力音声信号から近距離にある音源の位置を推定する位置推定信号を作成し、前記音波到来方向推定信号と前記位置推定信号に基づき前記集音した入力音声から分離音声を分離し、該分離音声を前記音波到来方向推定信号と前記位置推定信号に基づいて求めたユーザの発話検出信号に応じて伝送切換えするマイクロフォンアレイ処理部と、前記切換えされた分離音声信号の特徴を補正処理し、その補正処理した音声信号を音声認識する音声認識処理部とからなることを特徴とする。

（７）上記（５）又は（６）記載の音声認識装置は、マイクロフォンを複数個配置したマイクロフォンアレイにより入力音声を集音するマイクロフォンアレイ音声入力装置と、前記マイクロフォンアレイ音声入力装置の出力信号を受け遠距離にある音源の音波到来方向を推定する音波到来方向推定手段と、前記マイクロフォンアレイ音声入力装置の出力信号を受け近距離にある音源の位置を推定する位置推定手段と、前記音波到来方向推定手段の出力信号と前記位置推定手段の出力信号に基づき前記マイクロフォンアレイ音声入力装置の出力信号から音源の音声信号を分離する音源分離処理手段と、前記音波到来方向推定手段と前記位置推定手段の出力信号に基づいてユーザの発話状態を検出する発話検出手段と、前記発話検出手段の出力信号に基づいて前記音源分離処理手段の分離音声を伝送又は非伝送にする開閉器と、前記開閉器からの分離音声信号を取り込み、該分離音声信号の特徴を補正する特徴補正処理手段と、前記特徴補正処理手段からの特徴を補正した音声信号に基づき音声を認識する音声認識手段とからなることを特徴とする。

本発明は、マイクロフォンアレイを用いることで、ユーザの音声と周囲雑音の音源位置や音波到来方向の推定が可能になる。システムに対するユーザの相対的な位置や方向を予め決めておくことで、ユーザの音声以外に複数の周囲雑音が存在していたとしても、マイクロフォンアレイを用いて各音源の位置や方向を推定することにより、ユーザの発声の有無を正しく検出でき、また周囲雑音によるシステムの誤動作を回避することができるようになる。また、ユーザの音声と周囲雑音が同時に発生している場合でも、ユーザの音声と周囲雑音の音源位置や音波到来方向の情報に基づいて、ユーザの音声だけを強調する音源分離処理を施すことが可能で、様々な雑音がある雑音環境下で、頑健な音声認識が実現される。

また、本発明の音声認識装置は、音声入力手段としてマイクロフォンアレイを用いることで、ユーザの音声と周囲雑音の音源位置や音波到来方向の推定が可能になる。システムに対するユーザの相対的な位置や音波到来方向を予め決めておくことで、ユーザの音声以外に複数の周囲雑音が存在していたとしても、各音源の推定された位置や音波到来方向に基づいて、ユーザの発話の有無を正しく検出でき、また周囲雑音によるシステムの誤動作を回避することができるようになる。また、ユーザの音声と周囲雑音が同時に発生している場合でも、ユーザの音声と周囲雑音の音源位置や音波到来方向の情報に基づいて、ユーザの音声だけを強調する音源分離処理を施すことが可能で、様々な雑音がある雑音環境下で、頑健な音声認識が実現される。

本発明において、マイクロフォンは任意の位置に配置できるが、以下では、図６に示すヘッドセットマイクロフォンアレイ音声入力装置を例に説明する。しかし、本発明のマイクロフォンアレイの形状は、図６のヘッドセットマイクロフォンアレイに限定されるものではない。
従来のヘッドセットマイクロフォンはヘッドセットの左右のどちらか一方だけに支柱が固定され、その先端に１つのマイクロフォンが配置される構造を持っている。これに対し、本発明のヘッドセットマイクロフォンアレイ音声入力装置は、ヘッドセットマイクロフォンがヘッドセットの左右両側に支柱が固定され、その先端に１つのマイクロフォンが配置される構造を持っている。

本発明のヘッドセット１は、頭に装着するためのヘッドバンド３と、ヘッドバンド３の両端にそれぞれ取り付けられるイヤーパッド付き収容ケース２Ｒおよび２Ｌと、イヤーパッド付き収納ケース２Ｒに設けた略棒状の支柱４Ｒおよびイヤーパッド付き収納ケース２Ｌに設けた略棒状の支柱４Ｌとからなる。イヤーパッド付き収容ケース２Ｒおよび２Ｌは、それぞれケース本体２Ｒａおよび２Ｌａとイヤーパッド２Ｒｂおよび２Ｌｂから構成する。

支柱４Ｒおよび４Ｌには、それぞれ同じ数の１以上の任意数のマイクロフォン５を離間して配置してある。好ましくは、支柱４Ｒと４Ｌ毎に同じ３個のマイクロフォン５をそれぞれ設ける。
ヘッドバンド３は、長さの調節を可能とするために下記のようにスライド調節可能に構成することができる。

イヤーパッド付き収納ケース２Ｒおよび２Ｌのケース本体２Ｒａおよび２Ｌａには、電池ボックス、無線の送受信回路、マイクロフォンアレイ６の各マイクロフォン５からの入力信号を必要な処理を行う処理回路等を必要に応じて収納する。ケース本体２Ｒａおよび２Ｌａとイヤーパッド２Ｒｂおよび２Ｌｂは、例えばイヤーパッドに設けた中空のボルトとケースと一体になったナットとの螺合により互いの間隔を調節する。他の手段によって互いの間隔を調節するようにしてもよい。

本発明は、イヤーパッド付き収容ケース２Ｒおよび２Ｌのケース本体２Ｒａおよび２Ｌａの両方にそれぞれ支柱４Ｒと４Ｌが固定され、その支柱上に複数のマイクロフォン５を配置することにより、マイクロフォンアレイ６を形成する。実装に用いるマイクロフォン５は、シリコンマイクロフォンなど１つの大きさが５ｍｍ×３ｍｍ程度のごく小さなものを用いる。支柱４Ｒおよび４Ｌ上に配置するマイクロフォンの個数や配置する間隔は、ソフトウエアで調整可能であるので、任意である。マイクロフォンアレイ６では、マイクロフォン５間の相対的な位置関係が常に保たれていることが必要な場合が多くある。しかし、ヘッドセットの場合、頭部の大きさによって左右のマイクロフォンアレイ６間の距離が変化する場合がある。これに対処するために、図２に示すように、左右のマイクロフォンアレイ６、６間の距離は支柱４Ｒと４Ｌを取り付けた収納ケース２Ｒおよび２Ｌのケース本体２Ｒａおよび２Ｌａとイヤーパッド２Ｒｂおよび２Ｌｂとの間隔を調節することにより調節する。

（平行マイクロフォンアレイ音声入力装置）
音声入力手段は、ユーザ音声を受音するために相互に離間して配置した複数のマイクロフォンアレイ６からなる受音手段を備える。
図６に示した平行マイクロフォンアレイ音声入力装置の構成について、以下に説明する。図６に示すように、マイクロフォンを取り付ける２本の金具は、一端をヘッドバンドに固定し、例えば２０ｃｍの間隔で平行にユーザの口元より先まで達する程度の長さを持ち、左右それぞれの金具上に任意数、例えば２つのマイクロフォン（計４個）を任意の間隔、例えば３ｃｍ間隔で配置している。

図７はケース本体に収納される処理回路のブロック図である。
図７に示すように、音声入力手段は、平行マイクロフォンアレイ３０ａ、３０ｂと、マイクロフォンアンプとＡＤＣ（アナログ／デジタルコンバータ）３２を有する。
受音手段は、少なくとも複数のマイクロフォンを備え、好ましくは多数個のマイクロフォンをアレイ状に配置したマイクロフォンアレイが好ましい。また、マイクロフォンの配置方向は、少なくとも相互に離間して、音源からのベクトルが異なるようにする。さらに好ましくは、マイクロフォンがユーザの口元先の両側に配置されていることが好ましい。このようにユーザの口元先の両側に配置されることにより、ユーザの音声入力が容易に且つ明瞭になる。

図７は本発明のケース本体に収納される処理回路のブロック図である。特にマイクロフォンアレイの各マイクロフォンからの入力信号を必要な処理を行う処理回路の例である。
本発明の処理回路は、平行マイクロフォンアレイ３０ａ、３０ｂはマイクロフォンアンプとＡＤＣ３２を介してＣＰＵ（中央演算処理装置）ボード３３に接続され、ＣＰＵ（中央演算処理装置）ボード３３は記憶装置３４にバスで接続される。ＣＰＵ（中央演算処理装置）ボード３３は、出力表示するためにディスプレイ３１に接続され、また、イヤーパッド内のイヤホーンスピーカ３５に接続され、更に、ケース本体２Ｒａおよび２Ｌａ内の送信装置３６に接続される。送受信装置３６は、有線、無線に限らず、任意の通信手段を採用できる。

ＣＰＵ（中央演算処理装置）ボード３３は、ＣＰＵを搭載したボードからなり、音声認識装置および制御手段を含む。音声認識装置および制御手段は、ＣＰＵボード３３とそれに接続される記憶装置３４により構成される。
音声認識装置は、平行マイクロフォンアレイ３０ａ、３０ｂで受音したマルチチャネル音声データに基づきユーザの音声信号を推定し認識結果を出力する。
平行マイクロフォンアレイ３０ａ、３０ｂでのサンプリングレートは任意に設定でき、例えば８ｋＨｚとし、量子化ビット数は任意に設定でき、例えば１６ｂｉｔとする。処理精度を上げるときには、サンプリングレートおよび量子化ビット数を上げる。

（画像表示手段）
ヘッドセット型マイクロフォンアレイ音声入力装置は、画像表示手段として、小型で薄型のディスプレイ（例えば、液晶、ＥＬ（エレクトロルミネッセンス、プラズマディスプレイ等））やヘッドマウンテッドディスプレイ等を備えることができ、前記発声位置推定処理の結果等を視覚的に示す。

（音声認識装置）
図１は本発明の音声認識装置のブロック構成図である。この音声認識装置は図7においてＣＰＵボード３３と記憶装置３４とから構成される。
音声認識装置４０は、マイクロフォンアレイ処理部４１と、音声認識処理部４２から構成される。
マイクロフォンアレイ処理部４１は、入力音声をひろうマイクロフォンアレイ音声入力装置４３と、装置４３の出力のひろった音から遠距離にある音源の音波到来方向を推定する遠距離にある音源の音波到来方向推定手段４５と、装置４３の出力のひろった音から近距離にある音源の位置を推定する近距離にある音源の位置推定手段４６と、手段４５および４６の音源位置情報に基づいて装置４３の出力のひろった音から抽出対象の音源の音声を分離する音源分離処理手段４４と、手段４５および４６の音源位置情報に基づいてユーザ（ヘッドセット型マイクロフォンアレイ音声入力装置装着者）の発話を検出するユーザの発話検出手段４７と、ユーザの発話検出手段４７からの検出信号に応じて音源分離処理手段４４からの音声信号を切換出力する切換手段４８から構成される。
音声認識処理部４２は、切換手段４８からの音声信号に対して特徴を補正処理する特徴補正処理手段４９と、手段４９からの特徴を補正した音声信号を音声認識して認識結果を出力する音声認識手段５０から構成される。

本発明のマイクロフォンアレイを用いる音声認識装置は、図４にも示すように下記の５つの要素技術から構成される。
１．マイクロフォンアレイから近距離にある音源の位置推定
２．マイクロフォンアレイから遠距離にある音源の音波到来方向の推定
３．ユーザの発話検出
４．音源分離処理
５．音声認識処理（特願２００３−３２０１８３）
これらの要素技術の詳細について以下で説明する。

（音源位置推定）
図８は本発明のマイクロフォンアレイの機能説明図である。
マイクロフォン１、２、３、４と、マイクロフォン５、６、７、８は、図８に示されるように、対向して、配置される。また、各マイクロフォンと音源の位置等は図のような関係になっているものとする。
マイクロフォンアレイから約１ｍ以内の近距離にある音源の位置を、マイクロフォンアレイで推定する方法について以下に説明する。

複数のマイクロフォンは3次元空間中の任意の位置に配置可能である。３次元空間中の任意の位置

に置かれた音源から出力された音響信号を、３次元空間中の任意の位置

に配置されたＱ個のマイクロフォンで受音する。音源と各マイクロフォン間の距離Ｒｑは次式で求められる。

音源から各マイクロフォンまでの伝播時間τｑは、音速をｖとすると、次式で求められる。

各マイクロフォンで受音した中心周波数ωの狭帯域信号の、音源のそれに対する利得ｇｑは、一般的に、音源とマイクロフォン間の距離Ｒｑと中心周波数ωの関数として定義される。

例えば、利得を距離Ｒｑだけの関数として、実験的に求めた次式のような関数を用いる。

中心周波数ωの狭帯域信号に関する、音源と各マイクロフォン間の伝達特性は、

と表される。そして、位置Ｐ０にある音源を表す位置ベクトルａ（ω，Ｐ０）を、次式のように、狭帯域信号に関する、音源と各マイクロフォン間の伝達特性を要素とする複素ベクトルとして定義する。

音源位置の推定はＭＵＳＩＣ法（相関行列を固有値分解することで信号部分空間と雑音部分空間を求め、任意の音源位置ベクトルと雑音部分空間の内積の逆数を求めることにより、音源の音波到来方向や位置を調べる手法）を用いて、以下の手順で行う。ｑ番目のマイクロフォン入力の短時間フーリエ変換を

で表し、これを要素として観測ベクトルを次のように定義する。

ここで、ｎはフレーム時刻のインデックスである。連続するＮ個の観測ベクトルから相関行列を次式により求める。

この相関行列の大きい順に並べた固有値を

とし、それぞれに対応する固有ベクトルを

とする。そして、音源数Ｓを次式により推定する。

もしくは、固有値に対する閾値を設け、その閾値を超える固有値の数を音源数Sとすることも可能である。
雑音部分空間の基底ベクトルから行列Ｒｎ（ω）を次のように定義し、

周波数帯域

および音源位置推定の探索領域Ｕを

として、

を計算する。そして、関数Ｆ（Ｐ）が極大値をとる座標ベクトルを求める。ここでは仮にＳ個の極大値を与える座標ベクトルがＰ１，Ｐ２，・・・，Ｐｓが推定されたとする。次にその各々の座標ベクトルにある音源のパワーを次式により求める。

そして、２つの閾値Ｆｔｈｒ，Ｐｔｈｒを用意し、各位置ベクトルにおけるＦ（Ｐｓ）とＰ（Ｐｓ）が次の条件を満足するときに、

連続するＮ個のフレーム時間内の座標ベクトルＰｌにおいて発声があったと判断する。
音源位置の推定処理は連続するＮ個のフレームを１つのブロックとして処理する。音源位置の推定をより安定に行うためには、フレーム数Ｎを増やす、そして／また連続するＮｂ個のブロックの全てで式（３０）の条件が満たされたら発声があったと判断する。ブロック数は任意に設定する。連続するＮフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により音源の移動奇跡を捉えることができる。
（周囲雑音の音波到来方向推定）

マイクロフォンアレイから遠距離にある音源の音波が到来する方向を、マイクロフォンアレイで推定する手法について以下に述べる。
複数のマイクロフォンは3次元空間中の任意の位置に配置可能である。遠距離から到来する音波は平面波として観測されると考える。

図２は本発明のマイクロフォンアレイを用いた受音機能を説明する説明図である。
図２は、例として、任意の位置に配置された３個のマイクロフォンｍ１、ｍ２、ｍ３で、音源から到来した音波を受音する場合を示している。図２で、点ｃは基準点を示しており、この基準点のまわりで音波の到来方向を推定する。図２で、平面ｓは、基準点ｃを含む平面波の断面を示している。平面ｓの法線ベクトルｎは、そのベクトルの向きを音波の伝播方向と逆向きとし、次式のように定義する。

3次元空間中の音源の音波到来方向は２つのパラメータ（θ，φ）で表される。方向（θ，φ）から到来する音波を各マイクロフォンで受音し、そのフーリエ変換を求めることで受音信号を狭帯域信号に分解し、各受音信号の狭帯域信号毎に利得と位相を複素数として表し、それを要素として狭帯域信号毎に全受音信号分だけ並べたベクトルを音源の位置ベクトルと定義する。以下の処理において、方向（θ，φ）から到来する音波は、前述の位置ベクトルとして表現される。位置ベクトルは具体的に以下のように求められる。ｑ番目のマイクロフォンと平面ｓの間の距離ｒｑを次式により求める。

距離ｒｑは平面ｓに関してマイクロフォンが音源側に位置すれば正となり、逆に音源と反対側にある場合は負の値をとる。音速をｖとするとマイクロフォンと平面ｓ間の伝播時間Ｔｑは次式で表される。

平面ｓでの振幅を基準としてそこから距離ｒｑ離れた位置の振幅に関する利得を、狭帯域信号の中心周波数ωと距離ｒｑの関数として次のように定義する。

平面ｓでの位相を基準としてそこから距離ｒｑ離れた位置の位相差は、次式で表される。

以上より、平面ｓを基準として、各マイクロフォンで観測される狭帯域信号の利得と位相差は次式で表される。

Ｑ個のマイクで（θ、φ）方向から到来する音波を観測するとき、音源の位置ベクトルは、各マイクロフォンについて式（２６）に従い求めた値を要素とするベクトルとして次式のように定義される。

音源の位置ベクトルが定義されたら、音波の到来方向推定は、ＭＵＳＩＣ法を用いて行われる。式（１５）で与えられる行列Ｒｎ（ω）を用い、音波到来方向推定の探索領域Ｉを

として、

を計算する。そして、関数Ｊ（θ、φ）が極大値を与える方向（θ、φ）を求める。ここでは仮にＫ個の音源が存在し、極大値を与えるＫ個の音波到来方向（（θ１、φ１），・・・，（θＫ、φＫ））が推定されたとする。次にその各々の音波到来方向にある音源のパワーを次式により求める。

そして、２つの閾値Ｊｔｈｒ，Ｑｔｈｒを用意し、各到来方向におけるＪ（θｋ，φｋ）とＱ（θｋ，φｋ）が次の条件を満足するときに、

連続するＮ個のフレーム時間内の到来方向（θｋ，φｋ）において発声があったと判断する。音波の到来方向の推定処理は連続するＮ個のフレームを１つのブロックとして処理する。到来方向の推定をより安定に行うためには、フレーム数Ｎを増やす、そして／また連続するＮｂ個のブロックの全てで式（３１）の条件が満たされたらその方向から音波の到来があったと判断する。ブロック数は任意に設定する。連続するＮフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により音波の到来方向の移動奇跡を捉えることができる。

近距離音源の位置推定結果と遠距離音源の音波到来方向推定結果は、続く発話検出処理や音源分離処理で重要な役割を果たすが、近距離音源と遠距離音源が同時に発生していて、更に、遠距離音源から到来する音波に対して近距離音源のパワーが著しく大きくなるとき、遠距離音源の音波の到来方向推定がうまく行えない場合がある。このような時は、近距離音源が発生する直前に推定された、遠距離音源の音波の到来方向推定結果を用いるなどして対処する。

（発話検出処理）
複数の音源が存在している場合、どの音源が認識すべき音声なのかの特定は一般的に難しい。一方、音声を用いたインタフェースを採用するシステムでは、予めシステムのユーザがシステムに対して相対的にどのような位置で発声するかを表すユーザ発声領域を決めておくことができる。この場合、前述の方法でシステムの周囲に音源が複数存在しているとしても、各音源の位置や音波の到来方向を推定できれば、システムが予め想定しているユーザ発声領域に入る音源を選択することで容易にユーザの音声を特定できるようになる。

式（２０）や式（３１）の条件が満たされることで音源の存在を検出し、更に音源の位置や音波の到来方向の条件が満たされてユーザの発声が検出される。この検出結果は発話区間情報として、後続音声認識処理において重要な役割を果たす。音声認識を行う場合、入力信号の中から発話区間の開始時点と終了時点を検出する必要がある。しかし、周囲雑音が存在する雑音環境下での発話区間検出は必ずしも容易ではない。一般的に、発話区間の開始時点がずれると音声認識精度が著しく劣化してしまう。一方、複数の音源が存在していても、その音源がある位置や音波の到来方向において、式（１８）や式（２９）で表される関数は鋭いピークを示す。従って、この情報を用いて発話区間検出を行っている本発明音声認識装置は、複数の周囲雑音が存在しても頑健に発話区間検出が行え、高い音声認識精度を保つことができるという利点を持つ。

例えば、図３に示すようなユーザの発声領域を定義することができる。
図３は本発明による発話検出処理の機能説明図である。
この図では簡単のためにＸ−Ｙ平面のみで表すが、一般的に3次元空間においても同様に任意のユーザ発声領域を定義することができる。図３では、任意の位置に配置された８個のマイクロフォンｍ１〜ｍ８を用いた処理を仮定し、近距離音源の探索領域および遠距離音源の探索領域のそれぞれで、ユーザ発声領域を定義している。近距離音源の探索空間は、（ＰｘＬ，ＰｙＬ）と（ＰｘＨ，ＰｙＨ）の2点を結ぶ直線を対角線とする矩形領域で、その領域内で（ＰＴｘＬ１，ＰＴｙＬ１）と（ＰＴｘＨ１，ＰＴｙＨ１）、（ＰＴｘＬ２，ＰＴｙＬ２）と（ＰＴｘＨ２，ＰＴｙＨ２）のそれぞれの2点を結ぶ直線を対角線とする２つの矩形領域をユーザの発声領域と定義している。従って、式（２０）により発声があったと判断された音源位置のなかで、その座標ベクトルが前記ユーザ発声領域内に入っているものを選択することで、近距離に存在する音源の中でユーザ音声を特定できる。

一方、遠距離音源の探索空間は点Ｃを基準として、角度θＬからθＨの方向を探索領域とし、その領域内で角度θＴＬ１からθＴＨ１の領域をユーザの発声領域と定義している。従って、式（３１）により発声があったと判断された音波の到来方向のなかで、到来方向が前記ユーザ発声領域内に入っているものを選択することで、遠距離に存在する音源の中でユーザ音声を特定できる。

（音源分離処理）
発話検出された音源の位置推定結果または音波の到来方向推定結果を用いて、ユーザの音声を強調し周囲雑音を抑圧する音源分離処理について以下に説明する。
ユーザ音声の発話位置または到来方向は前記発話検出処理により求められている。また、周囲雑音の音源位置または到来方向も既に推定されている。これらの推定結果と式（８）と式（２７）の音源位置ベクトル、そして無指向性雑音の分散を表すσを用いて、行列Ｖ（ω）を次式のように定義する。

この相関行列の大きい順に並べた固有値を

とし、それぞれに対応する固有ベクトルを

とする。

ここで、相関行列Ｖ（ω）には近距離音源Ｓ個と遠距離音源Ｋ個を合わせて（Ｓ＋Ｋ）個の音源が含まれているから、固有値の大きい方から（Ｓ＋Ｋ）の固有値と固有ベクトルを用いて、Ｚ（ω）を次式のように定義する。

そして、近距離の座標ベクトルＰに居るユーザの音声を強調する分離フィルタＷ（ω）は、次式で与えられる。

式（３６）の分離フィルタに式（１０）の観測ベクトルを乗じることで座標ベクトルＰに居るユーザの音声ｖ（ω）が得られる。

この強調されたユーザ音声の波形信号は式（３７）の逆フーリエ変換を計算することで求められる。

一方、遠距離の方向（θ，φ）に居るユーザの音声を強調する場合の分離フィルタＭ（ω）は次式で与えられる。

式（３８）の分離フィルタに式（１０）の観測ベクトルを乗じることで方向（θ，φ）に居るユーザの強調音声ｖ（ω）が得られる。

この強調されたユーザ音声の波形信号は式（３７）の逆フーリエ変換を計算することで求められる。
連続するＮフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により移動しているユーザの強調音声が得られる。

（音声認識処理）
前記音源分離処理は、指向性雑音に対しては有効であるが、無指向性雑音に対してはある程度雑音が残留してしまう。また、突発性雑音のように短時間で発生する雑音に対してもあまり雑音抑圧効果を望めない。そこで、前記音源分離処理により強調されたユーザ音声の認識に、例えば、特願２００３−３２０１８３号「背景雑音歪みの補正処理方法及びそれを用いた音声認識システム」で述べられている特徴補正法を組み込んだ音声認識エンジンを用いることで、残留雑音の影響を軽減する。なお本発明は、音声認識エンジンとして特願２００３−３２０１８３号に限定するものではなく、この他にも雑音に頑健な様々な手法を実装した音声認識エンジンを使用することが考えられる。

特願２００３−３２０１８３号で述べられている特徴補正法は、音声認識エンジンが予め音声認識のためにテンプレートモデルとして持っているＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ（ＨＭＭ）に基づいて雑音重畳音声の特徴量補正を行う。ＨＭＭは雑音のないクリーン音声から求めたＭｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ（ＭＦＣＣ）に基づいて学習されている。このため、特徴補正のために新たにパラメータを用意する必要がなく、既存の認識エンジンに比較的容易に特徴補正法を組み込むことができるという利点がある。この手法は雑音を定常成分と一時的に変化を示す非定常成分に分けて考え、定常成分に関しては発話直前の数フレームから雑音の定常成分を推定する。

ＨＭＭが持っている分布のコピーを生成し、推定した雑音の定常成分を加えることで定常雑音重畳音声の特徴量分布を生成する。観測された雑音重畳音声の特徴量の事後確率を、この定常雑音重畳音声の特徴量分布で評価することで、雑音の定常成分による歪を吸収する。しかし、この処理だけでは雑音の非定常成分による歪が考慮されていないので、雑音の非定常成分が存在する場合には、前記手段で求めた事後確率は正確ではなくなる。一方、特徴補正にＨＭＭを用いることで、特徴量時系列の時間的構造とそれに沿って求められる累積出力確率が利用可能となる。この累積出力確率から算出される重みを前述の事後確率に付与することにより、雑音の一時的に変化する非定常成分により劣化した事後確率の信頼度を改善することが出来る。

音声認識を行う場合、入力信号の中から発話区間の開始時点と終了時点を検出する必要がある。しかし、周囲雑音が存在する雑音環境下での発話区間検出は必ずしも容易ではない。特に、前記特徴補正を組み込んだ音声認識エンジンは、発話開始直前の数フレームから周囲雑音の定常的な特徴を推定するので、発話区間の開始時点がずれると認識精度が著しく劣化してしまう。一方、複数の音源が存在していても、その音源がある位置や音波の到来方向において、式（１８）や式（２９）で表される関数は鋭いピークを示す。従って、この情報を用いて発話区間検出を行っている本発明音声認識装置は、複数の周囲雑音が存在しても頑健に発話区間検出が行え、高い音声認識精度を保つことができる。

以下では、図８において、8個のマイクロフォンをＸ軸上で点Ｃを中心に左右対称になるように２ｃｍ間隔で直線状に配置したマイクロフォンアレイを用いて行った雑音環境下における音声認識実験の実施例について述べる。この実施例では、全ての音源は遠距離に位置すると仮定し、到来方向の探索領域はθＬ＝０°、θＨ＝１８０°、そしてユーザの発声領域はθＴＬ１＝７０°、θＴＨ１＝１１０°と設定した。ユーザはマイクロフォンアレイの正面（θ＝９０°）１．５ｍの位置から5種類の簡単なコマンド音声を１９回発声する。周囲雑音としてそれぞれθ＝２０°とθ＝１６０°の方向１．５ｍの位置に置かれた２つのスピーカから異なるテレビ音声を流している。その他に、マイクロフォンアレイから約５ｍ離れた場所に置かれている数台のコンピュータのファンの回る雑音や反射などの雑音が存在している。

図４は8個のマイクロフォンの中の１つで受音した波形信号を示している。横軸は時間軸、縦軸は振幅値を表す。
図５は音源の音波到来方向処理、発話検出処理そして音源分離処理を施して強調されたユーザ音声の波形信号を示している。横軸は時間軸、縦軸は振幅値を表す。
音声特徴量の補正処理を含まない通常の音声認識デコーダで、その強調音声を認識すると１９回の発声の内正しく認識されたのは１１回のみであった。これは、主に、マイクロフォンアレイ処理では除去しきれない、無指向性雑音が図５の強調音声に残留していることが影響している。一方、発話検出処理により得られる発話検出信号と前述の特徴補正を組み込んだ音声認識デコーダで、再度、強調音声を認識すると１９回全ての発話を正しく認識することができた。

券売機や様々な自動販売機における音声認識、家電製品に組み込むことによる音声リモコンの実現、カーナビにおける音声認識、電動車椅子などの車両の音声による制御、プラントなど雑音環境での音声による機器の制御など。

本発明の音声認識装置のブロック構成図である。本発明のマイクロフォンアレイを用いた受音機能を説明する説明図である。本発明による発話検出処理の機能説明図である。 8個のマイクロフォンの中の１つで受音した波形信号を示している。音源の音波到来方向処理、発話検出処理そして音源分離処理を施して強調されたユーザ音声の波形信号を示している。本発明のヘッドセットマイクロフォンアレイ音声入力装置の概略図である。本発明のケース本体に収納される処理回路のブロック図である。本発明のマイクロフォンアレイの機能説明図である。

符号の説明

１ヘッドセット
２Ｒ、２Ｌイヤーパッド付き収納ケース
３ヘッドバンド
４Ｒ、４Ｌ支柱
５マイクロフォン
６マイクロフォンアレイ
３０ａ、３０ｂ平行マイクロフォンアレイ
３１ディスプレイ
３２マイクロフォンアンプとＡＤＣ
３３ＣＰＵボード
３４記憶装置
３５イヤホーンスピーカ
３６送受信装置
４０音声認識装置
４１マイクロフォンアレイ処理部
４２音声認識処理部
４３マイクロフォンアレイ音声入力装置
４４音源分離処理手段
４５遠距離にある音源の音波到来方向推定手段
４６近距離にある音源の位置推定手段
４７ユーザの発話検出手段
４８切換器
４９特徴補正処理手段
５０音声認識手段
ｍ１、ｍ２、ｍ３、ｍ４、ｍ５、ｍ６、ｍ７、ｍ８マイクロフォン

Claims

マイクロフォンを複数個配置したマイクロフォンアレイにより入力音声を集音する手順１、前記集音した入力音声信号から遠距離にある音源の音波到来方向を推定した音波到来方向推定信号を作成する手順２、前記集音した入力音声信号から近距離にある音源の位置を推定する位置推定信号を作成する手順３、前記音波到来方向推定信号と前記位置推定信号に基づき前記集音した入力音声からユーザの音声のみを分離して出力する手順４、前記ユーザの音声信号の特徴を補正処理する手順５、前記補正処理した音声信号を音声認識する手順６とからなることを特徴とする音声認識方法。
前記集音した入力音声からユーザの音声のみを分離して出力する手順４における出力する手順を、前記音波到来方向推定信号と前記位置推定信号に基づいてユーザの発話状態を検出した信号により行う手順としたことを特徴とする請求項１記載の音声認識方法。
前記音波到来方向推定信号と前記位置推定信号に基づいてユーザの発話状態を検出する手順を、前記音波到来方向推定信号と前記位置推定信号に基づいて予め想定されているユーザ発声領域に入る音源を選択する手順としたことを特徴とする請求項２記載の音声認識方法。
前記マイクロフォンアレイにより入力音声を集音する手順１で指向性雑音を抑圧し、前記ユーザの音声信号の特徴を補正処理する手順５でマイクロフォンアレイ処理で除去できない無指向性雑音や突発性雑音による歪を除去することを特徴とする請求項１乃至３のいずれか１項記載の音声認識方法。
マイクロフォンを複数個配置したマイクロフォンアレイにより入力音声を集音し、前記集音した入力音声信号から遠距離にある音源の音波到来方向を推定した音波到来方向推定信号を作成すると供に、前記集音した入力音声信号から近距離にある音源の位置を推定する位置推定信号を作成し、前記音波到来方向推定信号と前記位置推定信号に基づき前記集音した入力音声からユーザの音声のみを分離して出力するマイクロフォンアレイ処理部と、前記ユーザの音声信号の特徴を補正処理し、その補正処理した音声信号を音声認識する音声認識処理部とからなることを特徴とする音声認識装置。
マイクロフォンを複数個配置したマイクロフォンアレイにより入力音声を集音し、前記集音した入力音声信号から遠距離にある音源の音波到来方向を推定した音波到来方向推定信号を作成すると供に、前記集音した入力音声信号から近距離にある音源の位置を推定する位置推定信号を作成し、前記音波到来方向推定信号と前記位置推定信号に基づき前記集音した入力音声から分離音声を分離し、該分離音声を前記音波到来方向推定信号と前記位置推定信号に基づいて求めたユーザの発話検出信号に応じて伝送切換えするマイクロフォンアレイ処理部と、前記切換えされた分離音声信号の特徴を補正処理し、その補正処理した音声信号を音声認識する音声認識処理部とからなることを特徴とする請求項５記載の音声認識装置。
マイクロフォンを複数個配置したマイクロフォンアレイにより入力音声を集音するマイクロフォンアレイ音声入力装置と、前記マイクロフォンアレイ音声入力装置の出力信号を受け遠距離にある音源の音波到来方向を推定する音波到来方向推定手段と、前記マイクロフォンアレイ音声入力装置の出力信号を受け近距離にある音源の位置を推定する位置推定手段と、前記音波到来方向推定手段の出力信号と前記位置推定手段の出力信号に基づき前記マイクロフォンアレイ音声入力装置の出力信号から音源の音声信号を分離する音源分離処理手段と、前記音波到来方向推定手段と前記位置推定手段の出力信号に基づいてユーザの発話状態を検出する発話検出手段と、前記発話検出手段の出力信号に基づいて前記音源分離処理手段の分離音声を伝送又は非伝送にする開閉器と、前記開閉器からの分離音声信号を取り込み、該分離音声信号の特徴を補正する特徴補正処理手段と、前記特徴補正処理手段からの特徴を補正した音声信号に基づき音声を認識する音声認識手段とからなることを特徴とする請求項５又は６記載の音声認識装置。