JP4516527B2

JP4516527B2 - 音声認識装置

Info

Publication number: JP4516527B2
Application number: JP2005515466A
Authority: JP
Inventors: 一博中臺; 広司辻野; 博奥乃; 俊一山本
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2003-11-12
Filing date: 2004-11-12
Publication date: 2010-08-04
Anticipated expiration: 2024-11-12
Also published as: US20090018828A1; EP1691344B1; DE602004021716D1; EP1691344A4; EP1691344A1; JPWO2005048239A1; WO2005048239A1

Description

本発明は、音声認識装置に関し、詳しくは、話者や、音声認識装置を備えた移動体が移動しても高い精度で音声を認識可能な音声認識装置に関する。

近年、音声認識技術は、実用化の域に入ってきており、情報の音声入力などに利用され始めている。一方、ロボットの研究開発も盛んとなっており、音声認識技術は、ロボットを実用化するための一つのキー技術ともなっている。すなわち、ロボットと人間との知的なソーシャルインタラクションを行うためには、人間の言葉をロボットが理解する必要があるため、音声認識の精度が重要となっている。

ところが、実際に人とのコミュニケーションを行うためには、実験室において口元に設置したマイクで音声を入力して行う音声認識とは異なるいくつかの問題がある。
例えば、実際の環境には様々な雑音があり、雑音の中から必要な音声信号を抽出しなければ音声認識をすることができない。また、話者が複数存在する場合にも、同様に認識の対象とする話者の音声のみを抽出する必要がある。また、音声認識においては、一般に隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）というモデルを利用して内容を特定するが、話者の位置（音響認識装置のマイクを基準とした方向）が異なると、話者の声の聞こえ方も異なることから、認識率に影響を及ぼすという問題がある。

このようなことから、本発明者を含む研究グループでは、アクティブオーディションにより複数の音源の定位・分離・認識を行う技術を発表している（非特許文献１参照）。
この技術は、人間の耳に相当する位置に２つのマイクを配置し、複数の話者が同時に発話した場合に、一人の発した単語を認識する技術である。詳しくは、２つのマイクから入力された音響信号から、話者の位置を定位し、各話者の音声を分離した上で、音声認識する。この認識の際、移動体（音声認識装置を備えたロボット等）から見て−９０°から９０°まで１０°おきの方向に対する各話者の音響モデルを予め作成しておく。そして、音声の認識時には、それらの音響モデルを用いて並列に認識プロセスを実行する。
″ＡＨｕｍａｎｏｉｄＬｉｓｔｅｎｓｔｏｔｈｒｅｅｓｉｍｕｌｔａｎｅｏｕｓｔａｌｋｅｒｓｂｙＩｎｔｅｇｒａｔｉｎｇＡｃｔｉｖｅＡｕｄｉｔｉｏｎａｎｄＦａｃｅＲｅｃｏｇｎｉｔｉｏｎ″ＫａｚｕｈｉｒｏＮａｋａｄａｉ，ｅｔａｌ．，ＩＪＣＡＩ−０３ＷｏｒｋｓｈｏｐｏｎＩｓｓｕｅｓｉｎＤｅｓｉｇｎｉｎｇＰｈｙｓｉｃａｌＡｇｅｎｔｓｆｏｒＤｙｎａｍｉｃＲｅａｌ−ＴｉｍｅＥｎｖｉｒｏｎｍｅｎｔｓ：ＷｏｒｌｄＭｏｄｅｌｉｎｇ，Ｐｌａｎｎｉｎｇ，ＬｅａｒｎｉｎｇａｎｄＣｏｍｍｕｎｉｃａｔｉｎｇ，ＰＰ１１７−１２４

しかしながら、前記した従来技術では、話者や移動体が移動する場合には、その都度移動体に対する話者の位置が変化するため、予め用意された音響モデルの方向と異なる方向に話者が位置すると、認識率が低下するという問題があった。
本発明は、このような背景に鑑みてなされたもので、話者や、移動体が移動しても高い精度で認識可能な音声認識装置を提供することを課題とする。

前記課題を解決するため、本発明の音声認識装置は、複数のマイクが検出した音響信号から、音声を認識して文字情報に変換する音声認識装置であって、前記複数のマイクが検出した音響信号に基づき、特定の話者の音源方向を特定する音源定位部と、前記複数のマイクが検出した１つ以上の音響信号に基づき、その音響信号に含まれる音声信号の特徴を抽出する特徴抽出部と、断続的な複数の方向に対応した方向依存音響モデルを記憶した音響モデル記憶部と、前記音源定位部が特定した音源方向の音響モデルを、前記音響モデル記憶部の方向依存音響モデルと当該方向依存音響モデル毎に設定された重みとを内積して合成して、前記音響モデル記憶部へ記憶させるパラメータ合成部を備える音響モデル合成部と、前記音響モデル合成部が合成した音響モデルを使用して、前記特徴抽出部が抽出した特徴について音声認識を行い、文字情報に変換する音声認識部と、を備え、前記パラメータ合成部は、前記音源が正面にあるときの重みを定める関数を学習により設定し、前記音源方向に対応する音響モデルを合成する際、前記音源が正面にあるときの重みを定める関数を前記音源方向に移動した関数を求め、当該移動した関数を参照して重みを設定し、前記学習として、前記音源が正面にあるときの重み初期値が予め設定され、当該重み初期値を用いて合成した音響モデルで前記音素列を認識させ、正解を出した前記方向依存音響モデルの重みを増加させ、正解を出さなかった前記方向依存音響モデルの重みを減少させて更新する試行を行うと共に更新した前記方向依存音響モデルの重みを用いて前記試行を所定の回数繰り返すことで、前記更新した方向依存音響モデルの重みを、前記音源が正面にあるときの重みを定める関数として設定することを特徴とする。

このような音声認識装置によれば、音源定位部が音源方向を特定し、音響モデル合成部は、音源方向と、方向依存音響モデルとに基づき、その方向に適した音響モデルを合成し、音声認識部がこの音響モデルを使用して音声認識を行う。

また、前記した音声認識装置においては、音源定位部が特定した音源方向に基づき、前記特定の話者の音声信号を前記音響信号から分離する音源分離部を備え、音源分離部が分離した音声信号に基づき、特徴抽出部が音声信号の特徴を抽出するように構成してもよい。

このような音声認識装置によれば、音源定位部が音源方向を特定し、音源分離部は、音源定位部が特定した音源方向の音声のみを分離する。そして、音響モデル合成部は、音源方向と、方向依存音響モデルとに基づき、その方向に適した音響モデルを合成し、音声認識部がこの音響モデルを使用して音声認識を行う。
なお、音源分離部が出力する音声信号というのは、音声としての意味を持つ情報であればよく、音声のアナログ信号そのものに限らず、デジタル化、符号化した信号や、周波数分析したスペクトルのデータを含む。

また、前記した音声認識装置では、前記音源定位部は、前記マイクが検出した音響信号を周波数分析した後、調波構造を抽出し、複数のマイクから抽出された調波構造の音圧差と位相差とを求め、この音圧差と位相差のそれぞれから音源方向の確からしさを求め、最も確からしい方向を音源方向と判断するよう構成することができる。

また、前記音源定位部は、前記複数のマイクから検出された音響信号の音圧差と位相差を用いて前記特定の話者の音源方向を特定するために、ロボットの頭部などの前記マイクが設けられる部材の表面で散乱する音響信号を音源方向ごとにモデル化した散乱理論を用いることができる。

さらに、前記した音声認識装置では、前記音源分離部は、前記音源定位部が特定した音源方向が、前記複数のマイクの配置により決定される正面に近い場合には、狭い方向帯域の音声を分離し、正面から離れると広い方向帯域の音声を分離するアクティブ方向通過型フィルタを用いて音声分離を行うよう構成されるのが好ましい。

また、前記した音声認識装置では、前記音響モデル合成部は、前記音響モデル記憶部の方向依存音響モデルの重み付き線形和により前記音源方向の音響モデルを合成するよう構成され、前記線形和に使用する重みが、学習により決定されるのが好ましい。

また、前記した音声認識装置では、前記話者を特定する話者同定部をさらに備え、前記音響モデル記憶部は、前記話者ごとに方向依存音響モデルを有し、前記音響モデル合成部は、前記話者同定部が特定した話者の方向依存音響モデルと、前記音源定位部が特定した音源方向とに基づき、前記音源方向の音響モデルを前記音響モデル記憶部の方向依存音響モデルに基づいて求め、前記音響モデル記憶部へ記憶させるよう構成されるのが好ましい。

また、前記特徴抽出部で抽出された特徴、または前記音源分離部が分離した音声信号について、予め用意した雛形と比較し、前記雛形との違いが予め設定した閾値より大きい領域、例えば周波数領域や、サブバンドを同定し、同定された領域については、その特徴としての信頼性が低いことを示す指標を前記音声認識部へ出力するマスキング部をさらに備えるのが望ましい。

本発明の実施形態に係る音声認識装置のブロック図である。音源定位部の一例を示すブロック図である。音源定位部の動作を説明する図である。音源定位部の動作を説明する図である。聴覚エピポーラ幾何を説明する図である。位相差Δφと周波数ｆの関係を示すグラフである。頭部伝達関数の一例を示すグラフである。音源分離部の一例を示すブロック図である。通過帯域関数の一例を示すグラフである。サブバンド選択部の動作を説明する図である。通過帯域の一例を図示した平面図である。（ａ）および（ｂ）は、ともに特徴抽出部の一例を示すブロック図である。音響モデル合成部の一例を示すブロック図である。方向依存音響モデルの認識単位とサブモデルを示した図である。パラメータ合成部の動作を説明する図である。（ａ）および（ｂ）は、ともに重みＷ_ｎの一例を示すグラフである。重みＷの学習方法を説明する図である。第２実施形態に係る音声認識装置のブロック図である。音響の入力距離差を示す図である。第３実施形態に係る音声認識装置のブロック図である。ストリーム追跡部のブロック図である。音源方向の履歴を図示したグラフである。

［第１実施形態］
次に、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。図１は、本発明の実施形態に係る音声認識装置のブロック図である。
図１に示すように、実施形態に係る音声認識装置１は、２つのマイクＭ_Ｒ，Ｍ_Ｌと、マイクＭ_Ｒ，Ｍ_Ｌが検出した音響信号から、話者（音源）の位置を特定する音源定位部１０と、音源定位部１０が特定した音源方向及び音源定位部１０で求めたスペクトルに基づいて、特定の方向の音源から来る音響を分離する音源分離部２０と、複数の方向についての音響モデルを記憶した音響モデル記憶部４９と、音響モデル記憶部４９内の音響モデル及び音源定位部１０が特定した音源方向に基づいて、その音源方向の音響モデルを合成する音響モデル合成部４０と、音源分離部２０が分離した特定音源のスペクトルから音響の特徴を抽出する特徴抽出部３０と、音響モデル合成部４０が合成した音響モデルと、特徴抽出部３０が抽出した音響の特徴に基づき音声認識を行う音声認識部５０とを備える。これらのうち、音源分離部２０は、任意的に用いられる。
本発明では、音響モデル合成部４０が生成した、音源の方向に適した音響モデルを利用して音声認識部５０が音声認識を行うため、高い認識率が実現される。

次に、実施形態に係る音声認識装置１の構成要素であるマイクＭ_Ｒ，Ｍ_Ｌ、音源定位部１０、音源分離部２０、特徴抽出部３０、音響モデル合成部４０、及び音声認識部５０についてそれぞれ説明する。

《マイクＭ_Ｒ，Ｍ_Ｌ》
マイクＭ_Ｒ，Ｍ_Ｌは、音を検出して電気信号（音響信号）として出力する一般的なマイクである。本実施形態では、２つとしているが、複数であれば幾つでもよく、例えば３つ、４つを使用しても構わない。マイクＭ_Ｒ，Ｍ_Ｌは、例えば、移動体であるロボットＲＢの両耳の部分に設けられる。
マイクＭ_Ｒ，Ｍ_Ｌの配置は、音響信号を集音するための一般的な音声認識装置１の正面を決定する。すなわち、マイクＭ_Ｒ，Ｍ_Ｌの集音方向のベクトルの和の方向が音声認識装置１の正面となる。図１に示すように、ロボットＲＢの頭の左右両脇にマイクＭ_Ｒ，Ｍ_Ｌが１つずつ設けられていれば、ロボットＲＢの正面が音声認識装置１の正面となる。

《音源定位部１０》
図２は、音源定位部の一例を示すブロック図であり、図３及び図４は、音源定位部の動作を説明する図である。
音源定位部１０は、２つのマイクＭ_Ｒ，Ｍ_Ｌから入力された２つの音響信号から、各話者ＨＭｊ（図３では、ＨＭ１，ＨＭ２）の音源方向を定位する。音源定位方法は、マイクＭ_Ｒ，Ｍ_Ｌに入力された音響信号の位相差を利用する方法、ロボットＲＢの頭部伝達関数を用いて推定する方法、右と左のマイクＭ_Ｒ，Ｍ_Ｌから入力された信号の相互相関をとる方法などがあり、それぞれ精度を上げるため、種々の改良が加えられているが、ここでは、本発明者が改良した手法を例にして説明する。

音源定位部１０は、図２に示すように、周波数分析部１１、ピーク抽出部１２、調波構造抽出部１３、ＩＰＤ計算部１４、ＩＩＤ計算部１５、聴覚エピポーラ幾何仮説データ１６、確信度計算部１７、及び確信度統合部１８を備える。
これらの各部を、図３及び図４を参照しながら説明する。場面として、ロボットＲＢに対し、２人の話者ＨＭ１，ＨＭ２が同時に話しかける場合で説明する。

〈周波数分析部１１〉
周波数分析部１１は、ロボットＲＢが備える左右のマイクＭ_Ｒ，Ｍ_Ｌが検出した左右の音響信号ＣＲ１，ＣＬ１から、微小時間Δｔの時間長の信号区間を切り出し、左右のチャンネルごとにＦＦＴ（高速フーリエ変換）により周波数分析を行う。
例えば、右のマイクＭ_Ｒからの音響信号ＣＲ１より得られる分析結果がスペクトルＣＲ２であり、左のマイクＭ_Ｌからの音響信号ＣＬ１より得られる分析結果がスペクトルＣＬ２である。
なお、周波数分析は、バンドパスフィルタなど、他の手法を用いることもできる。

〈ピーク抽出部１２〉
ピーク抽出部１２は、スペクトルＣＲ２，ＣＬ２から左右のチャンネルごとに一連のピークを抽出する。ピークの抽出は、スペクトルのローカルピークをそのまま抽出するか、スペクトラルサブトラクション法に基づいた方法（Ｓ．Ｆ．Ｂｏｌｌ，Ａｓｐｅｃｔｒａｌｓｕｂｔｒａｃｔｉｏｎａｌｇｏｒｉｔｈｍｆｏｒｓｕｐｐｒｅｓｓｉｏｎｏｆａｃｏｕｓｔｉｃｎｏｉｓｅｉｎｓｐｅｅｃｈ，Ｐｒｏｃｅｅｄｉｎｇｓｏｆ１９７９ＩｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄｓｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ−７９）参照）で行う。後者の方法は、スペクトルからピークを抽出し、これをスペクトルから減算し、残差スペクトルを生成する。そして、その残差スペクトルからピークが見つからなくなるまでピーク抽出の処理を繰り返す。
前記スペクトルＣＲ２，ＣＬ２に対し、ピークの抽出を行うと、例えばピークスペクトルＣＲ３，ＣＬ３のようにピークを構成するサブバンドの信号のみが抽出される。

〈調波構造抽出部１３〉
調波構造抽出部１３は、音源が有する調波構造に基づき、左右のチャンネルごとに特定の調波構造を有するピークをグループにする。例えば、人の声であれば、特定の人の声は、基本周波数の音と、基本周波数の倍音とからなるが、人により基本周波数が微妙に異なるので、その周波数の差により、複数の人の声をグループ分けすることができる。調波構造に基づいて同じグループに分けられたピークは、同じ音源から発せられた信号と推定できる。例えば、複数（Ｊ人）の話者が同時に話していれば、複数（Ｊ個）の調波構造が抽出される。

図３においては、ピークスペクトルＣＲ３，ＣＬ３の、ピークＰ１，Ｐ３，Ｐ５を一つのグループにして調波構造ＣＲ４１，ＣＬ４１とし、ピークＰ２，Ｐ４，Ｐ６を一つのグループにして調波構造ＣＲ４２，ＣＬ４２としている。

〈ＩＰＤ計算部１４〉
ＩＰＤ計算部１４は、調波構造抽出部１３が抽出した調波構造ＣＲ４１，ＣＲ４２，ＣＬ４１，ＣＬ４２のスペクトルから、ＩＰＤ（両耳間位相差）を計算する部分である。
ＩＰＤ計算部１４は、話者ＨＭｊに対応する調波構造（例えば、調波構造ＣＲ４１）に含まれているピーク周波数の集合を｛ｆ_ｋ｜ｋ＝０．．．Ｋ−１｝としたとき、各ｆ_ｋに対応するスペクトルのサブバンドを、右と左の両チャンネル（例えば、調波構造ＣＲ４１と調波構造ＣＬ４１）から選択し、次式（１）によりＩＰＤΔφ（ｆ_ｋ）を計算する。調波構造ＣＲ４１と調波構造ＣＬ４１から計算したＩＰＤΔφ（ｆ_ｋ）は、例えば、図４に示す両耳間位相差Ｃ５１のようになる。ここで、Δφ（ｆ_ｋ）は、ある調波構造に含まれるある倍音ｆ_ｋのＩＰＤであり、Ｋは、その調波構造に含まれる倍音の数を示す。

但し、
Δφ（ｆ_ｋ）：ｆ_ｋのＩＰＤ（両耳間位相差）
Ｊ［Ｓ_ｒ（ｆ_ｋ）］：右の入力信号のピークｆ_ｋのスペクトル虚部
Ｒ［Ｓ_ｒ（ｆ_ｋ）］：右の入力信号のピークｆ_ｋのスペクトル実部
Ｊ［Ｓ_ｌ（ｆ_ｋ）］：左の入力信号のピークｆ_ｋのスペクトル虚部
Ｒ［Ｓ_ｌ（ｆ_ｋ）］：左の入力信号のピークｆ_ｋのスペクトル実部

〈ＩＩＤ計算部１５〉
ＩＩＤ計算部１５は、各調波構造にある各倍音について、左のマイクＭ_Ｌから入力された音の音圧と、右のマイクＭ_Ｒから入力された音の音圧との差（両耳間音圧差）を計算する部分である。
ＩＩＤ計算部１５は、話者ＨＭｊに対応する調波構造（例えば、調波構造ＣＲ４１，ＣＬ４１）に含まれているピーク周波数ｆ_ｋの倍音に対応するスペクトルのサブバンドを、右と左の両チャンネル（例えば、調波構造ＣＲ４１と調波構造ＣＬ４１）から選択し、次式（２）によりＩＩＤΔρ（ｆ_ｋ）を計算する。調波構造ＣＲ４１と調波構造ＣＬ４１から計算したＩＩＤΔρ（ｆ_ｋ）は、例えば図４に示す両耳間音圧差Ｃ６１のようになる。

但し、
Δρ（ｆ_ｋ）：ｆ_ｋのＩＩＤ（両耳間音圧差）
ｐ_ｒ（ｆ_ｋ）：右の入力信号のピークｆ_ｋのパワー
ｐ_ｌ（ｆ_ｋ）：左の入力信号のピークｆ_ｋのパワー
ｐ_ｒ（ｆ_ｋ）＝１０ｌｏｇ_１０（Ｊ［Ｓ_ｒ（ｆ_ｋ）］^２＋Ｒ［Ｓ_ｒ（ｆ_ｋ）］^２）
ｐ_ｌ（ｆ_ｋ）＝１０ｌｏｇ_１０（Ｊ［Ｓ_ｌ（ｆ_ｋ）］^２＋Ｒ［Ｓ_ｌ（ｆ_ｋ）］^２）

〈聴覚エピポーラ幾何仮説データ１６〉
聴覚エピポーラ幾何仮説データ１６は、図５に示すように、ロボットＲＢの頭部を想定した球体を上から見たときに、音源Ｓと、ロボットＲＢの両耳のマイクＭ_Ｒ，Ｍ_Ｌとの距離差から生じる時間差に基づき想定される位相差のデータである。
聴覚エピポーラ幾何により、位相差Δφは、次式（３）により求められる。ここでは、頭部形状を球と仮定している。

ここで、Δφは両耳間位相差（ＩＰＤ）、ｖは音速、ｆは周波数、ｒは両耳間の距離２ｒから求まる値、θは音源方向を示す。
式（３）により、各音源方向より発せられた音響信号の周波数ｆと位相差Δφの関係は、図６のようになる。

〈確信度計算部１７〉
確信度計算部１７は、ＩＰＤ及びＩＩＤのそれぞれの確信度を計算する。
−ＩＰＤ確信度−
ＩＰＤの確信度は、話者ＨＭｊに対応する調波構造（例えば、調波構造ＣＲ４１，ＣＬ４１）が含んでいる倍音ｆ_ｋがどの方向から来ているらしいかをθの関数として求め、これを確率関数にあてはめる。
まず、ｆ_ｋのＩＰＤの仮説（予想値）を次式（４）に基づき計算する。

Δφ_ｈ（θ，ｆ_ｋ）は、ある調波構造内のｋ番目の倍音ｆ_ｋに対して音源方向がθの場合のＩＰＤの仮説（予想値）を示す。ＩＰＤの仮説は、例えば音源方向θを、±９０°の範囲で５°おきに変化させて計３７個の仮説を計算する。もっとも、より細かい角度ごとに計算しても、より大まかな角度ごとに計算してもかまわない。
次に、次式（５）により、Δφ_ｈ（θ，ｆ_ｋ）とΔφ（ｆ_ｋ）の差を求め、すべてのピークｆ_ｋについて合計する。この差は、仮説と入力との距離を表し、θが話者のいる方向に近いと小さく、遠いと大きくなる。

得られたｄ（θ）を、次式（６）の確率密度関数に代入し、確信度Ｂ_ＩＰＤ（θ）を得る。

ここで、Ｘ（θ）＝（ｄ（θ）−ｍ）／（√（ｓ／ｎ））、ｍは、ｄ（θ）の平均、ｓはｄ（θ）の分散であり、ｎはＩＰＤの仮説の個数（本実施形態では３７個）である。

−ＩＩＤ確信度−
ＩＩＤの確信度は、以下のようにして求める。まず、話者ＨＭｊに対応ずる調波構造が含む倍音の音圧差の合計を次式（７）で計算して求める。

ここで、Ｋは、その調波構造に含まれる倍音の数を示し、Δρ（ｆ_ｋ）は、ＩＩＤ計算部１５で求めたＩＩＤである。
次に、表１を利用して、音源方向の右らしさ、正面らしさ、左らしさを確信度とする。なお、表１は、実験的に得られた値である。
例えば、表１を参照して、仮説の音源方位θが４０°で、音圧差Ｓが正であれば確信度Ｂ_ＩＩＤ（θ）は、左上の欄を参照して０．３５とする。

〈確信度統合部１８〉
確信度統合部１８は、Ｄｅｍｐｓｔｅｒ−Ｓｈａｆｅｒ理論に基づき、ＩＰＤとＩＩＤの確信度Ｂ_ＩＰＤ（θ）、Ｂ_ＩＩＤ（θ）を次式（８）によって統合し、統合確信度Ｂ_{ＩＰＤ＋ＩＩＤ}（θ）を計算する。そして、統合確信度Ｂ_{ＩＰＤ＋ＩＩＤ}（θ）が最も大きくなる音源方向θを、話者ＨＭｊのいる方向とし、以下θ_ＨＭｊとする。

以上のような聴覚エピポーラ幾何を使用した仮説に代えて、頭部伝達関数を用いた仮説データ、又は散乱理論に基づく仮説データを用いることもできる。
（頭部伝達関数仮説データ）
頭部伝達関数仮説データは、ロボット周囲から発せられたインパルスより得られる、マイクＭ_ＲとマイクＭ_Ｌで検出した音の位相差及び音圧差である。
頭部伝達関数仮説データは、−９０°から９０°の間の適当な間隔（例えば５°）の方向から発したインパルスを、マイクＭ_Ｒ，Ｍ_Ｌで検出し、それぞれを周波数分析して周波数ｆに対する位相応答及び振幅応答を求め、その差を計算することによって得られる。
得られた頭部伝達関数仮説データは、図７（ａ）のＩＰＤ及び（ｂ）のＩＩＤのようになる。
頭部伝達関数を用いる場合には、ＩＰＤだけではなく、ＩＩＤについてもある音源方向から来た音の周波数とＩＩＤの関係が求められるので、ＩＰＤとＩＩＤの両方について距離データｄ（θ）を作ってから確信度を求める。仮説データの作成方法は、ＩＰＤとＩＩＤで変わりはない。
聴覚エピポーラ幾何を利用した仮説データの作成方法と異なり、計算ではなく計測で、各音源方向で発せられた信号に対する周波数ｆとＩＰＤの関係を求める。すなわち、図７（ａ），（ｂ）にある実測値から、それぞれの仮説と入力との距離であるｄ（θ）を直接計算する。

（散乱理論に基づく仮説データ）
散乱理論は、音を散乱する物体、例えばロボットの頭部による散乱波を考慮して、ＩＰＤ、ＩＩＤの双方を計算的に推定する理論である。ここでは、音を散乱する物体の内、マイクの入力に主に影響を与える物体はロボットの頭部であると仮定し、これを半径ａの球と仮定する。また頭部の中心の座標を極座標の原点とする。
点音源の位置をｒ_０、観測点をｒとすると、観測点における直接音によるポテンシャルは、次式（９）によって定義される。

但し、
ｆ：点音源の周波数
ｖ：音速
Ｒ：点音源と観測点の距離
また、観測点ｒを頭部表面とすると、直接音と散乱音によるポテンシャルは、
Ｊ．Ｊ．Ｂｏｗｍａｎ，Ｔ．Ｂ．Ａ．Ｓｅｎｉｏｒ，ａｎｄＰ．Ｌ．Ｅ．Ｕｓｌｅｎｇｈｉ：ＥｌｅｃｔｒｏｍａｇｎｅｔｉｃａｎｄＡｃｏｕｓｔｉｃＳｃａｔｔｅｒｉｎｇｂｙＳｉｍｐｌｅＳｈａｐｅｓ．ＨｅｍｉｓｐｈｅｒｅＰｕｂｌｉｓｈｉｎｇＣｏ．，１９８７．などに開示されているように、次式（１０）で定義される。

但し、
Ｖ^Ｓ：散乱音によるポテンシャル
Ｐ_ｎ：第一種Ｌｅｇｅｎｄｒｅ関数
ｈ_ｎ ^（１）：第一種球ハンケル関数
Ｍ_Ｒの極座標を（ａ，π／２，０）、Ｍ_Ｌの極座標を（ａ，−π／２，０）とすると、それぞれにおけるポテンシャルは、次式（１１）、（１２）で表される。

従って、散乱理論に基づく位相差ＩＰＤΔφ_Ｓ（θ，ｆ）と音圧差ＩＩＤΔρ_Ｓ（θ，ｆ）は、それぞれ次式（１３）、（１４）により求められる。

そして、前記（４）式のΔφ_ｈ（θ，ｆ_ｋ）を前記（１３）式のＩＰＤΔφ_Ｓ（θ，ｆ）に置き換え、前記した聴覚エピポーラ幾何を用いた場合と同じ手順でＢ_ＩＰＤ（θ）を求める。
すなわち、Δφ_ｓ（θ，ｆ_ｋ）とΔφ（ｆ_ｋ）の差を求め、すべてのピークｆ_ｋについて合計してｄ（θ）を求め、得られたｄ（θ）を、前記式（６）の確率密度関数に代入し、確信度Ｂ_ＩＰＤ（θ）を得る。

ＩＩＤもＩＰＤと同じ方法でｄ（θ）とＢ_ＩＩＤ（θ）を計算する。具体的には、ΔφをΔρとし、前記（４）式のΔφ_ｈ（θ，ｆ_ｋ）を前記（１４）式のＩＰＤΔρ_Ｓ（θ，ｆ_ｋ）でに置き換える。そして、Δρ_Ｓ（θ，ｆ_ｋ）とΔρ（ｆ_ｋ）の差を求め、すべてのピークｆ_ｋについて合計してｄ（θ）を求め、得られたｄ（θ）を、前記式（６）の確率密度関数に代入し、確信度Ｂ_ＩＩＤ（θ）を得る。

このように散乱理論に基づいて音源方向を推定すると、ロボットの頭部の表面に沿って散乱する音声、例えば後頭部を回り込む音の影響を考慮して、音源方向と位相差、および音源方向と音圧差の関係をモデル化できるので、音源方向の推定精度が向上する。特に、音源が側方にある場合は、後頭部を回り込んで音源と反対方向にあるマイクに到達する音のパワーは比較的大きいため、散乱理論を用いることによって音源方向の推定精度が向上する。

《音源分離部２０》
音源分離部２０は、音源定位部１０により定位された各音源方向の情報、並びに音源定位部で計算したスペクトル（例えばスペクトルＣＲ２）により、各話者ＨＭｊの音響（音声）信号を分離する部分である。音源分離方法には、ビームフォーミング、ナルフォーミング、ピーク追跡、指向性マイク、ＩＣＡ（ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ：独立成分分析）など、従来からある手法を用いることができるが、ここでは、本発明者が開発したアクティブ方向通過型フィルタによる方法について説明する。
音源方向の情報を利用して音源を分離する場合、音源の方向がロボットＲＢの正面から離れるにつれ、２本のマイクを用いて推定した音源方向情報の精度を期待できなくなる。そこで、本実施形態では、正面方向の音源については通過させる方向の範囲を狭く、正面から離れた音源では広くとるように通過帯域をアクティブに制御して、音源の分離精度を向上させる。

具体的には、音源分離部２０は、図８に示すように、通過帯域関数２１と、サブバンド選択部２２とを有する。

〈通過帯域関数２１〉
通過帯域関数２１は、図９に示したように、音源方向と通過帯域幅の関数で、音源方向が、正面（０°）から離れるにつれ、方向情報の精度を期待できなくなることから、音源方向が正面から離れるほど通過帯域幅が大きくなるように予め設定した関数である。

〈サブバンド選択部２２〉
サブバンド選択部２２は、スペクトルＣＲ２，ＣＬ２の各周波数の値（これを「サブバンド」という）から、特定の方向から来たと推測されるサブバンドを選択する部分である。
サブバンド選択部２２では、図１０に示すように、音源定位部１０で生成した左右の入力音のスペクトルＣＲ２，ＣＬ２から、各スペクトルのサブバンドについて、前記式（１）、（２）に従い、ＩＰＤΔφ（ｆ_ｉ）及びＩＩＤΔρ（ｆ_ｉ）を計算する（図１０の両耳間位相差Ｃ５２，両耳間音圧差Ｃ６２参照）。
そして、音源定位部１０で得られたθ_ＨＭｊを抽出すべき音源方向とし、通過帯域関数２１を参照して、θ_ＨＭｊに対応する通過帯域幅δ（θ_ＨＭｊ）を取得する。取得した通過帯域幅δ（θ_ＨＭｊ）を用いて、通過帯域の最大値θ_ｈと最小値θ_ｌを次式（１５）により求める。通過帯域Ｂは、方向として平面図で図示すると、例えば図１１のようになる。

次に、θ_ｌとθ_ｈに対応するＩＰＤとＩＩＤを推定する。これらの推定には、予め計測、又は計算した伝達関数を利用する。伝達関数は、音源方向θから来る信号に対して周波数ｆとＩＰＤ、ＩＩＤをそれぞれ関係づけている関数で、前記したエピポーラ幾何や、頭部伝達関数、散乱理論などを用いる。推定したＩＰＤは、例えば図１０の両耳間位相差Ｃ５３におけるΔφ_ｌ（ｆ），Δφ_ｈ（ｆ）であり、推定したＩＩＤは、例えば図１０の両耳間音圧差Ｃ６３におけるΔρ_ｌ（ｆ），Δρ_ｈ（ｆ）である。

次に、音源方向θ_ＨＭｊに対して、ロボットＲＢの伝達関数を利用して、スペクトルＣＲ２またはＣＬ２の周波数ｆ_ｉに応じ、周波数ｆ_ｉが所定の閾値周波数ｆ_ｔｈより小さければＩＰＤによりサブバンドを選択し、大きければＩＩＤによりサブバンドを選択する。すなわち、以下の条件式（１６）を満たすサブバンドを選択する。

ここで、ｆ_ｔｈは、フィルタリングの判断基準にＩＰＤとＩＩＤのどちらを用いるかを決める閾値周波数である。
この条件式によれば、例えば、図１０の両耳間位相差Ｃ５３においては、周波数ｆ_ｔｈより低い周波数で、ＩＰＤがΔφ_ｌ（ｆ）とΔφ_ｈ（ｆ）の間にある周波数ｆ_ｉのサブバンド（斜線部）が選択される。一方、図１０の両耳間音圧差Ｃ６３においては、周波数ｆ_ｔｈより高い周波数で、ＩＩＤがΔρ_ｌ（ｆ）とΔρ_ｈ（ｆ）の間にあるサブバンド（斜線部）が選択される。この選択されたサブバンドからなるスペクトルを本明細書において「選択スペクトル」という。

以上、本実施形態の音源分離部２０について説明したが、音源分離の方法には、この他に指向性マイクを利用した方法がある。即ち、指向性が狭いマイクをロボットＲＢに設けておき、音源定位部１０で得られた音源方向θ_ＨＭｊの方向に指向性マイクを向けるよう、顔の向きを変えれば、その方向から来る音声だけを取得することができる。
この指向性マイクによる方法の場合、１つの指向性マイクしかない場合には、１人の音声しか取得できないという問題もあるが、複数の指向性マイクを所定角度おきに設けておき、音源方向の指向性マイクからの音声信号を利用するようにすれば、複数人の音声の同時取得も可能である。

《特徴抽出部３０》
特徴抽出部３０は、音源分離部２０で分離された音声スペクトルあるいは分離をしないスペクトルＣＲ２（またはＣＬ２）（以下、音声認識に使用する場合に「認識用スペクトル」という）から音声認識に必要な特徴を抽出する部分である。音声の特徴としては、音声を周波数分析した線形スペクトルや、メル周波数スペクトル、メル周波数ケプストラム係数（ＭＦＣＣ：Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）を用いることができる。本実施形態では、ＭＦＣＣを用いる場合で説明する。なお、線形スペクトルを特徴として用いる場合は、特徴抽出部３０は、特に処理を行わない。また、メル周波数スペクトルを用いる場合は、コサイン変換（後述）を行わない。

特徴抽出部３０は、図１２（ａ）に示すように、対数変換部３１、メル周波数変換部３２、及びコサイン変換部３３を有する。
対数変換部３１は、サブバンド選択部２２（図８参照）が選択した認識用スペクトルの振幅を対数に変換して、対数スペクトルを得る。
メル周波数変換部３２は、対数変換部３１が生成した対数スペクトルを、メル周波数のバンドパスフィルタに通し、周波数がメルスケールに変換されたメル周波数対数スペクトルを得る。
コサイン変換部３３は、メル周波数変換部３２が生成したメル周波数対数スペクトルをコサイン変換する。このコサイン変換により得られた係数がＭＦＣＣとなる。

また、雑音などによって入力音声が変形している場合は、そのスペクトルサブバンドを特徴として信用しないよう、図１２（ｂ）に示すように指標（０から１）を付与するマスキング部３４を、特徴抽出部３０の中または後に任意的に追加してもよい。
図１２（ｂ）の例について具体的に説明すると、特徴抽出部３０が任意的にマスキング部３４を含む場合、単語辞書５９は、単語に対応してその単語の時系列スペクトルを有する。ここでは、この時系列スペクトルを「単語音声スペクトル」とする。
単語音声スペクトルは、雑音がない環境下で単語を発声した音声を周波数分析して得られる。特徴抽出部３０に認識用スペクトルが入力されると、入力音声に含まれていると推測された単語の単語音声スペクトルが想定音声スペクトルとして単語辞書から選別される。ここでは、認識用スペクトルと時間長が最も近いものを想定音声スペクトルとして推測する。認識用スペクトルと想定音声スペクトルは、それぞれ対数変換部３１、メル周波数変換部３２、コサイン変換部３３を経てＭＦＣＣに変換される。以下、認識用スペクトルのＭＦＣＣを「認識用ＭＦＣＣ」、想定音声スペクトルのＭＦＣＣを「想定ＭＦＣＣ」とする。
マスキング部３４は、認識用ＭＦＣＣと想定ＭＦＣＣの差を求め、予め想定した閾値より大きい場合は０を、小さい場合は１を、ＭＦＣＣの特徴量ベクトルの各特徴ごとに付与する。これを指標ωとして認識用ＭＦＣＣと合わせて音声認識部５０に出力する。
想定音声スペクトルを選別する際、１つだけではなく、複数選別してもよい。また、選別せずに全ての単語音声スペクトルを用いてもよい。その場合には、すべての想定音声スペクトルについて指標ωを求め、音声認識部５０に出力する。

なお、指向性マイクを用いて音源分離を行う場合には、指向性マイクから得られた分離音声に対し、ＦＦＴやバンドパスフィルタなどの一般的な周波数分析手法を用いてスペクトルを得る。

《音響モデル合成部４０》
音響モデル合成部４０は、音響モデル記憶部４９に記憶された方向依存音響モデルから、定位された各音源方位に応じた音響モデルを合成する部分である。
音響モデル合成部４０は、図１３に示すように、コサイン逆変換部４１、線形変換部４２、指数変換部４３、パラメータ合成部４４、対数変換部４５、メル周波数変換部４６、及びコサイン変換部４７を有し、音響モデル記憶部４９に記憶された方向依存音響モデルＨ（θ_ｎ）を参照してθ方向の音響モデルを合成する。

〈音響モデル記憶部４９〉
音響モデル記憶部４９には、ロボットＲＢの正面を基準とした方向θ_ｎごとに、方向θ_ｎに適した音響モデルである方向依存音響モデルＨ（θ_ｎ）が記憶されている。方向依存音響モデルＨ（θ_ｎ）は、特定の方向θ_ｎから発せられた人物の音声の特徴を、隠れマルコフモデル（ＨＭＭ）で学習させたものである。各方向依存音響モデルＨ（θ_ｎ）は、図１４に示すように、例えば音素を認識単位とし、音素ごとに対応するサブモデルｈ（ｍ，θ_ｎ）を記憶している。なお、サブモデルは、モノフォン、ＰＴＭ、バイフォン、トライフォンなど他の認識単位で作成してもよい。
サブモデルｈ（ｍ，θ_ｎ）の数は、例えば方向θ_ｎについて−９０°〜９０°まで３０°おきに７個のモデルを持ち、サブモデルを４０個のモノフォンで構成しているとすれば、合計７×４０＝２８０個となる。
サブモデルｈ（ｍ，θ_ｎ）は、状態数、各状態の確率密度分布、状態遷移確率の各パラメータを有している。本実施形態では、各音素の状態数は、前部（状態１）、中間部（状態２）、後部（状態３）の３つに固定している。また、本実施形態では、確率密度分布は、正規分布に固定するが、確率密度分布は、正規分布または他の分布の１つ以上の混合分布であってもよい。したがって、本実施形態では、状態遷移確率Ｐと、正規分布のパラメータ、つまり平均μ及び標準偏差σを学習させる。

サブモデルｈ（ｍ，θ_ｎ）の学習データは次のようにして作成する。
ロボットＲＢに対し、音響モデルを作成したい方向から、特定の音素からなる音声信号を図示しないスピーカにより発する。そして、検出した音響信号を特徴抽出部３０によりＭＦＣＣに変換し、後述する音声認識部５０で音声認識させる。すると、認識した音声が、音素ごとにどのくらいの確率であるかが結果として得られるが、この結果に対し、特定の方向の特定の音素であるという教師信号を与えることで音響モデルを適応学習させる。そして、サブモデルを学習するのに十分な種類（例えば、異なる話者）の音素や単語を学習させる。
なお、学習用音声を発する際、音響モデルを作成したい方向とは異なる方向から、別の音声をノイズとして発してもよい。この場合は、前記した音源分離部２０により音響モデルを作成したい方向の音響のみを分離した上で、特徴抽出部３０によりＭＦＣＣに変換する。また、これらの学習は、音響モデルを不特定話者のモデルとして持たせたい場合には、不特定の話者の声で学習させればよいし、特定話者ごとにモデルを持たせたい場合には、特定話者ごとに学習させればよい。

コサイン逆変換部４１から指数変換部４３は、確率密度分布のＭＦＣＣを線形スペクトルに戻す。つまり、確率密度分布について、特徴抽出部３０と逆の操作をする。

〈コサイン逆変換部４１〉
コサイン逆変換部４１は、音響モデル記憶部４９が記憶している方向依存音響モデルＨ（θ_ｎ）が有するＭＦＣＣについてコサイン逆変換してメル対数スペクトルを生成する。

〈線形変換部４２〉
線形変換部４２は、コサイン逆変換部４１により生成されたメル対数スペクトルの周波数を線形周波数に変換し、対数スペクトルを生成する。

〈指数変換部４３〉
指数変換部４３は、線形変換部４２により生成された対数スペクトルの強度を指数変換し、線形スペクトルを生成する。線形スペクトルは、平均μ、標準偏差σの確率密度分布として得られる。

〈パラメータ合成部４４〉
パラメータ合成部４４は、図１５に示すように、方向依存音響モデルＨ（θ_ｎ）にそれぞれ重みをかけた上でそれらの和をとり、音源方向θ_ＨＭｊの音響モデルＨ（θ_ＨＭｊ）を合成する。方向依存音響モデルＨ（θ_ｎ）にある各サブモデルは、それぞれコサイン逆変換部４１から指数変換部４３により、線形スペクトルの確率密度分布に変換され、それぞれ、平均μ_１ｎｍ，μ_２ｎｍ，μ_３ｎｍ，標準偏差σ_１ｎｍ，σ_２ｎｍ，σ_３ｎｍ，状態遷移確率Ｐ_１１ｎｍ，Ｐ_１２ｎｍ，Ｐ_２２ｎｍ，Ｐ_２３ｎｍ，Ｐ_３３ｎｍのパラメータを持っている。そして、これらのパラメータを、予め学習によって求められ、音響モデル記憶部４９に記憶されている重みと内積して、音源方向θ_ＨＭｊの音響モデルを合成する。つまり、パラメータ合成部４４は、方向依存音響モデルＨ（θ_ｎ）の線形和により音源方向θ_ＨＭｊの音響モデルを合成している。なお、重みＷ_{ｎθＨＭｊ}の設定の仕方は後述する。

Ｈ（θ_ＨＭｊ）にあるサブモデルを合成する場合には、状態１の平均μ_{１θＨＭｊｍ}を次式（１７）により求める。

平均μ_{２θＨＭｊｍ}，μ_{３θＨＭｊｍ}についても同様にして求めることができる。

また、状態１の標準偏差σ_{１θＨＭｊｍ}の合成については、共分散σ_{１θＨＭｊｍ} ^２を次式（１８）により求める。

標準偏差σ_{２θＨＭｊｍ}，σ_{３θＨＭｊｍ}についても同様にして求めることができる。
得られたμとσにより、確率密度分布を求めることができる。

また、状態１の状態遷移確率Ｐ_{１１θＨＭｊｍ}の合成については、次式（１９）により求める。

状態遷移確率Ｐ_{１２θＨＭｊｍ}，Ｐ_{２２θＨＭｊｍ}，Ｐ_{２３θＨＭｊｍ}，Ｐ_{３３θＨＭｊｍ}についても同様にして求めることができる。

次に、対数変換部４５からコサイン変換部４７により、確率密度分布を線形スペクトルからＭＦＣＣに変換し直す。すなわち、対数変換部４５は、対数変換部３１と、メル周波数変換部４６は、メル周波数変換部３２と、コサイン変換部４７は、コサイン変換部３３と同様であるので、詳細な説明を省略する。

なお、単一正規分布ではなく、混合正規分布の形で合成する場合には、前記した平均μ、標準偏差σの計算に代えて次式（２０）により確率密度分布ｆ_{１θＨＭｊｍ}（ｘ）を求める。

確率密度分布ｆ_{２θＨＭｊｍ}（ｘ），ｆ_{３θＨＭｊｍ}（ｘ）についても同様にして求めることができる。

パラメータ合成部４４は、このようにして得られた音響モデルを、音響モデル記憶部４９に記憶させる。
なお、このような音響モデルの合成は、音声認識装置１が作動している間、パラメータ合成部４４がリアルタイムに行う。

〈重みＷ_{ｎθＨＭｊ}の設定〉
重みＷ_{ｎθＨＭｊ}は、音源方向θ_ＨＭｊに対応する音響モデルを合成するときに、各方向依存音響モデルＨ（θ_ｎ）に対して設定するもので、Ｈ（θ_ｎ）に含まれるすべてのサブモデルｈ（ｍ，θ_ｎ）に対して用いる重みＷ_{ｎθＨＭｊ}を設定してもよいし、あるいは各サブモデルｈ（ｍ，θ_ｎ）に対応する重みＷ_{ｍｎθＨＭｊ}を設定してもよい。基本的には、音源が正面にある場合の重みＷ_ｎθ０を定める関数ｆ（θ）をあらかじめ設定しておき、音源方向θ_ＨＭｊに対応する音響モデルを合成する際に、ｆ（θ）をθ軸方向にθ_ＨＭｊ移動（θ→θ−θ_ＨＭｊとする）した関数ｆ（θ）を求め、これを参照してＷ_{ｎθＨＭｊ}を設定する。

〈関数ｆ（θ）の作成〉
［Ａ］ｆ（θ）を経験的に求める方法
ｆ（θ）を経験的に求める場合は、経験的に得られた定数ａを用いて次式のように表す。
ｆ（θ）＝ａθ＋α（θ＜０，θ＝−９０°のときｆ（θ）＝０）
ｆ（θ）＝−ａθ＋α（θ≧０，θ＝９０°のときｆ（θ）＝０）
ここで、定数ａ＝１．０とすれば、音源が正面にある場合のｆ（θ）は、図１６（ａ）のようになる。また、ｆ（θ）をθ軸方向にθ_ＨＭｊ移動したのが図１６（ｂ）である。

［Ｂ］ｆ（θ）を学習によって求める方法
ｆ（θ）を学習によって求める場合は、例えば次のような学習をする。
音源が正面にあるときの任意の音素ｍの重みをＷ_ｍｎθ０とする。最初に適当な初期値の重みの値のＷ_ｍｎθ０を設定しておき、このＷ_ｍｎθ０を用いて合成した音響モデルＨ（θ_０）でｍを含む適当な音素列、例えば音素列［ｍｍ′ｍ″］を認識させる試行を行う。具体的には、正面に設置したスピーカから、前記音素列を発し、これを認識させる。ここで、学習データは、１つの音素ｍ自体であってもよいのであるが、音素が複数つながった音素列で学習させた方が良い学習結果が得られるため、音素列を使用している。
この時の認識結果が、例えば図１７である。図１７では、初期値のＷ_ｍｎθ０を用いて合成した音響モデルＨ（θ_０）での認識結果が１行目であり、２行目以下のＨ（θ_ｎ）が方向θ_ｎの方向依存音響モデルＨ（θ_ｎ）を使用したときの認識結果である。例えば、音響モデルＨ（θ_９０）での認識結果は音素列［／ｘ／／ｙ／／ｚ／］であり、音響モデルＨ（θ_０）での認識結果は、音素列［／ｘ／／ｙ／ｍ″］であったことを示す。
１回目の試行後、まず１音素目を見て、図１７の正面からθ＝±９０°の範囲に一致する音素が認識された場合、その方向に対応するモデルの重みＷ_{ｍｎθ９０}をΔｄ増加させる。Δｄは実験的に求め、例えば０．０５とする。そして、一致する音素が認識されない場合、その方向に対応するモデルの重みＷ_ｍｎθ０をΔｄ／（ｎ−ｋ）減少させる。つまり、正解を出した方向依存音響モデルの重みは大きくし、正解を出さなかった方向依存音響モデルの重みは減少させる。

例えば、図１７の場合では、Ｈ（θ_ｎ）とＨ（θ_９０）が一致しているので、対応する重みＷ_ｍｎθと重みＷ_{ｍ９０θ０}をΔｄ増加させ、それ以外の重みを２Δｄ／（ｎ−２）減少させる。
一方、１音素目に一致する音素を認識した方向θ_ｎが無い場合、他の方向に対して重みの大きい、優勢な方向依存音響モデルＨ（θ_ｎ）があれば、その方向依存音響モデルＨ（θ_ｎ）の重みをΔｄ減少させ、それ以外のモデルの重みをｋΔｄ／（ｎ−ｋ）増加させる。つまり、どの方向依存音響モデルＨ（θ_ｎ）も認識できなかったということは、現在の重みの分配が良くない可能性があるから、現在の重みが優勢な方向について重みを減少させる。
優勢であるかどうかは、重みが予め定められた閾値（ここでは０．８とする）より大きいかどうかで判断する。優勢な方向依存音響モデルＨ（θ_ｎ）がなければ、最大の重みのみをΔｄ減少させ、その他の方向依存音響モデルＨ（θ_ｎ）の重みをΔｄ／（ｎ−１）増加させる。
そして、更新された重みを用いて、前記した試行を繰り返す。
そして、音響モデルＨ（θ_９０）の認識結果が、正解ｍとなったときに、繰り返しを終了し、次の音素ｍ′の認識および学習へ移るか、または学習を終了する。学習を終了した場合、ここで得られた重みＷ_{ｍｎθ９０}がｆ（θ）となる。次の音素ｍ′へ移る場合は、すべての音素について学習し、得られたＷ_{ｍｎθ９０}を平均したものがｆ（θ）となる。
これを平均せず、各サブモデルｈ（ｍ，θ_ｎ）に対応する重みＷ_{ｍｎθＨＭｊ}をｆ（θ）にしてもよい。
なお、所定の回数（例えば０．５／Δｄ回）繰り返しても、音響モデルＨ（θ_ＨＭｊ）の認識結果が正解に至らない場合、例えばｍの認識がうまくいかなかった場合には、次の音素ｍ′の学習へ移り、最終的にうまく認識できた音素（例えばｍ′）の重みの分布と同じ値で重みを更新する。
また、音響モデルを合成するたびにｆ（θ−θ_ＨＭｊ）を求めるのではなく、予め適当なθ_ＨＭｊについて、Ｈ（θ_ｎ）に含まれるすべてのサブモデルｈ（ｍ，θ）（表２参照）が用いる重みＷ_{ｎθＨＭｊ}または各サブモデルｈ（ｍ，θ_ｎ）に対応するＷ_{ｎθＨＭｊ}を求めた表３を作成しておいてもよい。なお、表２および表３において、添え字の１・・・ｍ・・・Ｍは音素を表し、１・・・ｎ・・・Ｎは方向を表す。

このようにして学習して得られた重みは、音響モデル記憶部４９に記憶させる。

《音声認識部５０》
音声認識部５０は、音源方向θ_ＨＭｊに対応して合成された音響モデルＨ（θ_ＨＭｊ）を用いて、分離された各話者ＨＭｊの音声あるいは入力音声から抽出した特徴を認識して文字情報とし、単語辞書５９を参照して言葉を認識し、認識結果を出力する。この音声認識の方法は一般的な隠れマルコフモデルを利用した認識方法なので、詳細な説明は省略する。
なお、マスキング部を特徴抽出部３０の中または後に設けて、ＭＦＣＣの各サブバンドの信用度を示す指標ωが付与されている場合には、音声認識部５０は、入力された特徴に次式（２１）のような処理を行ってから認識する。

ｘ_ｒ：音声認識に用いる特徴
ｘ：ＭＦＣＣ
ｉ：ＭＦＣＣの成分
ｘ_ｎ：ｘのうち信用できない成分
そして、得られた出力確率と状態遷移確率を用いて、一般的な隠れマルコフモデルを利用した認識方法と同様に認識を行う。

以上のように構成された、音声認識装置１による動作を説明する。
図１に示すように、ロボットＲＢのマイクＭ_Ｒ，Ｍ_Ｌに、複数の話者ＨＭｊ（図３参照）の音声が入力される。
そして、マイクＭ_Ｒ，Ｍ_Ｌが検出した音響信号の音源方向が音源定位部１０で定位される。音源定位は、前記したように周波数分析、ピーク抽出、調波構造の抽出、ＩＰＤ・ＩＩＤの計算の後、聴覚エピポーラ幾何に基づいた仮説データを利用して確信度を計算する。そして、ＩＰＤとＩＩＤの確信度を統合して最も可能性が高いθ_ＨＭｊを音源方向とする（図２参照）。

次に、音源分離部２０で、音源方向θ_ＨＭｊの音を分離する。音源分離は、通過帯域関数を利用して、音源方向θ_ＨＭｊのＩＰＤ及びＩＩＤのそれぞれの上限値Δφ_ｈ（ｆ），Δρ_ｈ（ｆ）及び下限値Δφ_ｌ（ｆ），Δρ_ｌ（ｆ）を求め、前記式（１６）の条件と、この上限値、下限値の条件とから、音源方向θ_ＨＭｊのスペクトルと推定されるサブバンド（選択スペクトル）を選択する。その後、選択サブバンドのスペクトルを逆ＦＦＴにより変換すれば、音声信号に変換できる。

次に、特徴抽出部３０は、音源分離部２０が分離した選択スペクトルを、対数変換部３１、メル周波数変換部３２、コサイン変換部３３によりＭＦＣＣに変換する。

一方、音響モデル合成部４０は、音響モデル記憶部４９に記憶された方向依存音響モデルＨ（θ_ｎ）と、音源定位部１０が定位した音源方向θ_ＨＭｊとから、音源方向θ_ＨＭｊに適切と考えられる音響モデルを合成する。
すなわち、音響モデル合成部４０は、方向依存音響モデルＨ（θ_ｎ）を、コサイン逆変換部４１、線形変換部４２、及び指数変換部４３により、線形スペクトルに変換する。そして、パラメータ合成部４４は、音源方向θ_ＨＭｊの重みＷ_{ｎθＨＭｊ}を音響モデル記憶部４９から読み出し、これと方向依存音響モデルＨ（θ_ｎ）との内積をとって、音源方向θ_ＨＭｊの音響モデルＨ（θ_ＨＭｊ）を合成する。そして、この線形スペクトルで表された音響モデルＨ（θ_ＨＭｊ）を、対数変換部４５，メル周波数変換部４６、及びコサイン変換部４７によりＭＦＣＣで表した音響モデルＨ（θ_ＨＭｊ）に変換する。

次に、音声認識部５０は、音響モデル合成部４０で合成された音響モデルＨ（θ_ＨＭｊ）を利用して、隠れマルコフモデルにより音声認識を行う。

このようにして、音声認識を行った結果の例が、表４である。

表４に示すように、方向依存音響モデルを−９０°〜９０°まで３０°おきに用意して、各音響モデルで４０°の方向から孤立単語を認識させたところ（従来手法）、最も認識率が高くても３０°方向の方向依存音響モデルを用いた６０％であった。これに対し、本実施形態の手法を使用して４０°方向の音響モデルを合成して、これを用いて孤立単語を認識させたところ、７８％の高い認識率を示した。このように、本実施形態の音声認識装置１によれば、任意の方向から音声が発せられた場合であっても、その方向に適した音響モデルをその都度合成するので、高い認識率を実現することができる。また、任意の方向の音声を認識できることから、移動している音源からの音声認識や、移動体（ロボットＲＢ）自身が移動しているときにも、高い認識率での音声認識が可能である。

また、方向依存音響モデルを、断続的な数個、例えば音源方向にして６０°ごとや３０°ごとに記憶しておけば良く、音響モデルの学習に必要なコストを小さくすることができる。
さらに、合成した音響モデル一つについて音声認識を行えば良いため、複数方向の音響モデルについて音声認識を試みる並列処理も不要であり、計算コストを小さくすることができる。そのため、実時間処理や、組み込み用途には好適である。

以上、本発明の第１実施形態について説明したが、本発明は第１実施形態には限定されず、以下の実施形態のように変形して実施することが可能である。

［第２実施形態］
第２実施形態では、第１実施形態の音源定位部１０に代えて、相互相関のピークを用いて音源方向を定位する音源定位部１１０を備える。なお、他の部分については第１実施形態と同様であるので説明を省略する。
《音源定位部１１０》
第２実施形態に係る音源定位部１１０は、図１８に示すように、フレーム切り出し部１１１、相互相関計算部１１２、ピーク抽出部１１３、方向推定部１１４を有する。

〈フレーム切り出し部１１１〉
フレーム切り出し部１１１は、左右のマイクＭ_Ｒ，Ｍ_Ｌに入力されたそれぞれの音響信号について、所定の時間長、例えば１００ｍｓｅｃで切り出す処理を行う。切り出し処理は、適当な時間間隔、例えば３０ｍｓｅｃごとに行われる。

〈相互相関計算部１１２〉
相互相関計算部１１２は、フレーム切り出し部１１１が切り出した右マイクＭ_Ｒの音響信号と、左マイクＭ_Ｌの音響信号とで、次式（２２）により相互相関を計算する

但し、
ＣＣ（Ｔ）：ｘ_Ｌ（ｔ）とｘ_Ｒ（ｔ）の相互相関
Ｔ：フレーム長
ｘ_Ｌ（ｔ）：フレーム長Ｔで切り出された、マイクＬからの入力信号
ｘ_Ｒ（ｔ）：フレーム長Ｔで切り出された、マイクＲからの入力信号

〈ピーク抽出部１１３〉
ピーク抽出部１１３は、得られた相互相関の結果からピークを抽出する。抽出するピークの数は、音源の数が予め分かっている場合は、その数に対応したピークを大きいものから選択する。音源数が不明なときは、予め定めた閾値を超えたピークを全て抽出するか、あるいは予め定めた所定数のピークを大きいものから順に選択する。

〈方向推定部１１４〉
音源方向θ_ＨＭｊは、得られたピークから、右マイクＭ_Ｒと左マイクＭ_Ｌに入力された音響信号の到達時間差Ｄに音速ｖを掛けて、図１９に示す距離差ｄを計算し、さらに、次式により求める。
θ_ＨＭｊ＝ａｒｃｓｉｎ（ｄ／２ｒ）

このような相互相関を用いた音源定位部１１０によっても、音源方向θ_ＨＭｊの方向が推定され、前記した音響モデル合成部４０により、音源方向θ_ＨＭｊに適した音響モデルを合成することで、認識率の向上を図ることができる。

［第３実施形態］
第３実施形態では、第１実施形態に加えて、音源定位部音源が同一音源から来ていることを確認しながら音声認識を行う機能を追加している。なお、第１実施形態と同じ部分については、同じ符号を付して説明を省略する。
第３実施形態に係る音声認識装置１００は、図２０に示すように、第１実施形態の音声認識装置１に加え、音源定位部１０が定位した音源方向を入力されて、音源を追跡し、同じ音源から音響が来続けているかを確認し、確認ができたなら、音源方向を音源分離部２０へ出力するストリーム追跡部６０を有している。

図２１に示すように、ストリーム追跡部６０は、音源方向履歴記憶部６１と、予測部６２と、比較部６３とを有する。

音源方向履歴記憶部６１は、図２２に示すような、時間と、その時間において認識された音源の方向及び音源のピッチ（その音源の調波構造が持つ基本周波数ｆ_０）とが関連づけて記憶されている。

予測部６２は、音源方向履歴記憶部６１から、直前まで追跡していた音源の音源方向の履歴を読み出し、直前までの履歴からカルマンフィルタなどにより現時点ｔ１での音源方向θ_ＨＭｊ及び基本周波数ｆ_０とからなるストリーム特徴ベクトル（θ_ＨＭｊ，ｆ_０）を予測し、比較部６３へ出力する。

比較部６３は、音源定位部１０から、音源定位部１０で定位された現時点ｔ１の各話者ＨＭｊの音源方向θ_ＨＭｊと、その音源の基本周波数ｆ_０とが入力される。そして、予測部６２から入力された予測したストリーム特徴ベクトル（θ_ＨＭｊ，ｆ_０）と、音源定位部１０で定位された音源方向及びピッチから求まるストリーム特徴ベクトル（θ_ＨＭｊ，ｆ_０）を比較して、その差（距離）が予め定めた閾値よりも小さい場合に、音源方向θ_ＨＭｊを音源分離部に出力する。また、ストリーム特徴ベクトル（θ_ＨＭｊ，ｆ_０）を音源方向履歴記憶部６１へ記憶させる。
前記した差（距離）が、予め定めた閾値よりも大きい場合には、定位した音源方向θ_ＨＭｊを音源分離部２０へ出力しないので、音声認識は行われない。なお、音源方向θ_ＨＭｊとは別に、音源の追跡ができているか否かを示すデータを、比較部６３から音源分離部２０へ出力してもよい。
なお、基本周波数ｆ_０を用いず、音源方向θ_ＨＭｊだけで予測してもよい。

このようなストリーム追跡部６０を有する音声認識装置１００によれば、音源定位部１０で音源方向が定位され、ストリーム追跡部６０へ音源方向とピッチが入力される。ストリーム追跡部６０では、予測部６２が、音源方向履歴記憶部６１に記憶された音源方向の履歴を読み出して現時点ｔ１でのストリーム特徴ベクトル（θ_ＨＭｊ，ｆ_０）を予測する。比較部６３は、予測部６２で予測されたストリーム特徴ベクトル（θ_ＨＭｊ，ｆ_０）と、音源定位部１０から入力された値から求まるストリーム特徴ベクトル（θ_ＨＭｊ，ｆ_０）とを比較して、その差（距離）が所定の閾値より小さければ、音源方向を音源分離部２０へ出力する。
音源分離部２０は、音源定位部１０から入力されたスペクトルのデータと、ストリーム追跡部６０が出力した音源方向θ_ＨＭｊのデータに基づき、第１実施形態と同様にして音源を分離する。そして、以下、特徴抽出部３０、音響モデル合成部４０、音声認識部５０でも、第１実施形態と同様にして、処理を行う。

このように、本実施形態の音声認識装置１００は、音源が追跡できているか否かを確認した上で音声認識を行うので、音源が移動している場合にも、同じ音源が発し続けている音声を連続して認識するため、誤認識の可能性を低くすることができる。特に、複数の移動する音源があって、それらの音源が交差する場合などに好適である。
また、音源方向を記憶、予測していることから、その方向の所定範囲についてのみ音源を探索すれば、処理を少なくすることができる。

以上、本発明の実施形態について説明したが、本発明は、前記した実施形態には限定されず適宜変更して実施される。
例えば、音声認識装置１が、カメラと、公知の画像認識装置を有し、話者の顔を認識して、誰が話しているかを自己が有するデータベースから話者を特定する話者同定部を備え、前記方向依存音響モデルを話者ごとに有していれば、話者に適した音響モデルを合成することができるので、認識率をより高くする事ができる。あるいは、カメラを使わず、ベクトル量子化（ＶＱ）を用いて、予め登録してある話者の音声をベクトル化したものと、音源分離部２０で分離された音声をベクトル化したものとを比較し、最も距離の近い話者を結果として出力することで話者を同定してもよい。

Claims

複数のマイクが検出した音響信号から、音声を認識して文字情報に変換する音声認識装置であって、
前記複数のマイクが検出した音響信号に基づき、特定の話者の音源方向を特定する音源定位部と、
前記複数のマイクが検出した１つ以上の音響信号に基づき、その音響信号に含まれる音声信号の特徴を抽出する特徴抽出部と、
断続的な複数の方向に対応した方向依存音響モデルを記憶した音響モデル記憶部と、
前記音源定位部が特定した音源方向の音響モデルを、前記音響モデル記憶部の方向依存音響モデルと当該方向依存音響モデル毎に設定された重みとを内積して合成して、前記音響モデル記憶部へ記憶させるパラメータ合成部を備える音響モデル合成部と、
前記音響モデル合成部が合成した音響モデルを使用して、前記特徴抽出部が抽出した特徴について音声認識を行い、文字情報に変換する音声認識部と、を備え、
前記パラメータ合成部は、
前記音源が正面にあるときの重みを定める関数を学習により設定し、前記音源方向に対応する音響モデルを合成する際、前記音源が正面にあるときの重みを定める関数を前記音源方向に移動した関数を求め、当該移動した関数を参照して重みを設定し、
前記学習として、前記音源が正面にあるときの重み初期値が予め設定され、当該重み初期値を用いて合成した音響モデルで前記音素列を認識させ、正解を出した前記方向依存音響モデルの重みを増加させ、正解を出さなかった前記方向依存音響モデルの重みを減少させて更新する試行を行うと共に更新した前記方向依存音響モデルの重みを用いて前記試行を所定の回数繰り返すことで、前記更新した方向依存音響モデルの重みを、前記音源が正面にあるときの重みを定める関数として設定することを特徴とする音声認識装置。
複数のマイクが検出した音響信号から、特定の話者の音声を認識して文字情報に変換する音声認識装置であって、
前記複数のマイクが検出した音響信号に基づき、前記特定の話者の音源方向を特定する音源定位部と、
前記音源定位部が特定した音源方向に基づき、前記特定の話者の音声信号を前記音響信号から分離する音源分離部と、
前記音源分離部が分離した音声信号の特徴を抽出する特徴抽出部と、
断続的な複数の方向に対応した方向依存音響モデルを記憶した音響モデル記憶部と、
前記音源定位部が特定した音源方向の音響モデルを、前記音響モデル記憶部の方向依存音響モデルと当該方向依存音響モデル毎に設定された重みとを内積して合成して、前記音響モデル記憶部へ記憶させるパラメータ合成部を備える音響モデル合成部と、
前記音響モデル合成部が合成した音響モデルを使用して、前記特徴抽出部が抽出した特徴について音声認識を行い、文字情報に変換する音声認識部と、を備え、
前記パラメータ合成部は、
前記音源が正面にあるときの重みを定める関数を学習により設定し、前記音源方向に対応する音響モデルを合成する際、前記音源が正面にあるときの重みを定める関数を前記音源方向に移動した関数を求め、当該移動した関数を参照して重みを設定し、
前記学習として、前記音源が正面にあるときの重み初期値が予め設定され、当該重み初期値を用いて合成した音響モデルで前記音素列を認識させ、正解を出した前記方向依存音響モデルの重みを増加させ、正解を出さなかった前記方向依存音響モデルの重みを減少させて更新する試行を行うと共に更新した前記方向依存音響モデルの重みを用いて前記試行を所定の回数繰り返すことで、前記更新した方向依存音響モデルの重みを、前記音源が正面にあるときの重みを定める関数として設定することを特徴とする音声認識装置。
前記音源分離部は、前記音源定位部が特定した音源方向が、前記複数のマイクの配置により決定される正面に近い場合には、狭い方向帯域の音声を分離し、正面から離れると広い方向帯域の音声を分離するアクティブ方向通過型フィルタを用いて音声分離を行うよう構成されたことを特徴とする請求項２に記載の音声認識装置。
前記音源定位部は、前記マイクが検出した音響信号を周波数分析した後、調波構造を抽出し、複数のマイクから抽出された調波構造の音圧差と位相差とを求め、この音圧差と位相差のそれぞれから音源方向の確からしさを求め、最も確からしい方向を音源方向と判断するよう構成されたことを特徴とする請求項１または請求項２に記載の音声認識装置。
前記音源定位部は、前記複数のマイクから検出された音響信号の音圧差と位相差を用いて前記特定の話者の音源方向を特定するために、前記マイクが設けられる部材の表面で散乱する音響信号を音源方向ごとにモデル化した散乱理論を用いることを特徴とする請求項１、請求項２または請求項４のいずれか１項に記載の音声認識装置。
前記音響モデル合成部は、前記音響モデル記憶部の方向依存音響モデルの重み付き線形和により前記音源方向の音響モデルを合成するよう構成され、
前記線形和に使用する重みが、学習により決定されたことを特徴とする請求項１から請求項５のいずれか１項に記載の音声認識装置。
前記話者を特定する話者同定部をさらに備え、
前記音響モデル記憶部は、前記話者ごとに方向依存音響モデルを有し、
前記音響モデル合成部は、前記話者同定部が特定した話者の方向依存音響モデルと、前記音源定位部が特定した音源方向とに基づき、前記音源方向の音響モデルを前記音響モデル記憶部の方向依存音響モデルに基づいて求め、前記音響モデル記憶部へ記憶させるよう構成されたことを特徴とする請求項１から請求項６のいずれか１項に記載の音声認識装置。