JP6703460B2

JP6703460B2 - 音声処理装置、音声処理方法及び音声処理プログラム

Info

Publication number: JP6703460B2
Application number: JP2016164608A
Authority: JP
Inventors: ランディゴメス; 一博中臺
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2016-08-25
Filing date: 2016-08-25
Publication date: 2020-06-03
Anticipated expiration: 2036-08-25
Also published as: JP2018031909A; US10283115B2; US20180061398A1

Description

本発明は、音声処理装置、音声処理方法及び音声処理プログラムに関する。

室内において話者が発話した音声は、壁面や設置物で反射して反射音を生じる。室内に設置された音声認識装置には、話者から直接到達した直接音に反射音が付加された音声が収音される。このような反射音は、音声認識率の低下の一因となりうる。音声認識において、予め室内環境を考慮して生成された音響モデルを用いることが提案されていた。しかしながら、室内環境に応じた音響モデルを作成するには、室内において多量の音声データを予め収集しておく必要があるため、多くの時間や作業量が費やされる。

音声認識における認識率の向上を目的として、その前処理として残響抑圧処理が提案されている。例えば、特許文献１には、複数の音響信号のうち少なくとも一つの音響信号を所定の遅延時間だけ遅らせた遅延付加済信号を生成する遅延付加手段と、遅延付加済信号を用いて残響抑圧処理を行う残響抑圧処理を行う残響抑圧処理手段と、音響信号に基づいて音源方向を推定する音源方向推定手段とを備え、遅延付加手段は、音響信号を収集する複数の収音装置の間の距離と、推定された音源方向とに基づいて遅延時間を算出することを特徴とする残響抑圧装置について記載されている。

特許第５５３０７４１号公報

残響抑圧処理によって抑圧される反射音成分は、室内の音響環境を表す情報であるが、音声認識処理において不要な成分として無視されることがあった。他方、音声認識装置はロボット等にも実装されることがあり、その移動によって観測される主な反射音の到来方向が変化する。このような音響環境の変化は、音声認識精度の低下の一因となっていた。

本発明は上記の点に鑑みてなされたものであり、本発明の課題は、音響環境の変化によらず音声認識精度を確保できる音声処理装置、音声処理方法及び音声処理プログラムを提供することである。

（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、複数チャネルの音声信号を到来方向毎の到来成分に分離する分離部と、所定の統計量と音声認識モデルを到来方向毎に記憶した記憶部と、前記到来成分が音源からの直接音成分か反射音成分か、を判定する直接音判定部と、前記直接音成分と前記反射音成分のそれぞれに対応する統計量を前記記憶部から選択する選択部と、前記選択部が選択した統計量に基づいて前記到来方向毎の音声認識モデルを更新する更新部と、前記直接音成分の音声認識モデルを用いて、前記直接音成分を用いて更新された音声を認識する音声認識部と、を備える音声処理装置である。

（２）本発明の他の態様は、（１）の音声処理装置であって、前記統計量は、前記音声認識モデルの少なくとも一部のパラメータと同種のパラメータであり、前記到来成分に対する尤度が高くなるように算出した統計量を前記記憶部に記憶する生成部、を備える。

（３）本発明の他の態様は、（２）の音声処理装置であって、前記音声認識モデルは、音響特徴量の出力確率を複数のガウス関数の線形結合として表すモデルであり、前記統計量は、ガウス関数の混合重み、平均値及び分散であり、前記更新部は、前記到来成分に対する尤度を高くするように前記音声認識モデルのガウス関数の平均値と分散を更新する。

（４）本発明の他の態様は、（１）から（３）のいずれかの音声処理装置であって、前記分離部が分離した到来成分から所定のフィルタ係数を用いて残響除去成分を生成し、前記残響除去成分のパワーと、有音区間における前記到来成分及び無音区間における前記到来成分に基づいて推定された残響除去成分のパワーとの差が小さくなるように前記フィルタ係数を算出する残響除去部、を備える。
（５）本発明の他の態様は、（１）から（４）のいずれかの音声処理装置であって、前記直接音判定部は、撮像部が撮像した画像に表される口の方向から話者方向を推定し、推定した話者方向との差が最も小さい到来方向に係る到来成分を直接音成分と判定し、それ以外の到来方向に係る到来成分を反射音成分として判定する音声処理装置である。
（６）本発明の他の態様は、（１）から（４）のいずれかの音声処理装置であって、前記直接音判定部は、前記到来成分の相互間の相関係数が所定の閾値以上である到来成分のうち最も先行する到来成分を直接音成分と判定し、それ以外の到来方向に係る到来成分を反射音成分として判定する音声処理装置である。

（７）本発明の他の態様は、音声処理装置における音声処理方法であって、複数チャネルの音声信号を到来方向毎の到来成分に分離する分離過程と、前記到来成分が音源からの直接音成分か反射音成分か、を判定する直接音判定部と、前記直接音成分と前記反射音成分のそれぞれに対応する統計量を、所定の統計量と音声認識モデルを到来方向毎に記憶した記憶部から選択する選択過程と、前記選択過程で選択された統計量に基づいて前記到来方向毎の音声認識モデルを更新する更新過程と、前記直接音成分の音声認識モデルを用いて、前記直接音成分を用いて更新された音声を認識する音声認識過程と、を有する音声処理方法である。

（８）本発明の他の態様は、コンピュータに、複数チャネルの音声信号を到来方向毎の到来成分に分離する分離過程、前記到来成分が音源からの直接音成分か反射音成分か、を判定する直接音判定過程、前記直接音成分と前記反射音成分のそれぞれに対応する統計量を、所定の統計量と音声認識モデルを到来方向毎に記憶した記憶部から選択する選択過程、前記選択過程で選択された統計量に基づいて前記到来方向毎の音声認識モデルを更新する更新過程、前記直接音成分を用いて更新された音声認識モデルを用いて、前記直接音成分の音声を認識する音声認識過程、を実行させるための音声処理プログラムである。

上述した（１）、（７）又は（８）の構成によれば、到来成分の到来方向に対応する統計量に基づいて更新された音声認識モデルを用いて、その到来成分の音声の発話内容が認識される。そのため、音源と収音部１５との位置関係による音響環境の変化による音声認識精度の低下が抑制される。また、種々の到来成分のうち音源から直接到来する直接音成分の音声が認識される。音声認識精度の低下の一因となりうる反射音成分が認識対象から除外されるので、音声認識精度の低下がさらに抑制される。
上述した（２）の構成によれば、音源と複数チャネルの音声信号を取得する収音部が設置される音響環境により異なる到来成分に対して尤度を高くするパラメータが統計量として取得され、その到来成分の到来方向と対応付けてモデル記憶部１２２に記憶される。そのため、音声認識精度の低下が抑制されるとともに、音声認識モデルの全てのパラメータを音声認識と並列して更新するよりも演算量や処理時間が低減する。
上述した（３）の構成によれば、到来成分による音響特徴量に応じた出力確率の変動を有効に説明できるパラメータとしてガウス関数の平均値と分散が更新される。そのため、音声認識精度の低下が抑制されるとともに、音声認識モデルの更新における演算量や処理時間が低減する。
上述した（４）の構成によれば、無音区間における到来成分を残響成分とみなし、有音区間における到来成分から残響成分を除去して得られる残響除去成分に、到来成分からフィルタ係数を用いて生成される残響除去成分が近似されるようにフィルタ係数が算出される。そのため、到来成分について算出されたフィルタ係数を用いて生成された残響成分として音声成分が得られ、得られた音声成分の音声が認識される。音声認識精度の低下の一因となる残響成分が除去された音声が逐次に認識対象として得られるので、音声認識精度の低下がさらに抑制される。

第１の実施形態に係る音声処理システムの構成例を示すブロック図である。直接音と反射音の例を示す模式図である。第１の実施形態に係る音声処理の例を示すフローチャートである。第２の実施形態に係る音声処理システムの構成例を示すブロック図である。第２の実施形態に係る対話データの例を示す図である。第２の実施形態に係る収音部の構成例を示す平面図である。実験に用いられた実験室の例を示す平面図である。処理方法毎の単語認識率の一例を示す図である。処理方法毎の単語認識率の他の例を示す図である。

（第１の実施形態）
以下、図面を参照しながら本発明の第１の実施形態について説明する。
図１は、本実施形態に係る音声処理システム１の構成例を示すブロック図である。
音声処理システム１は、音声処理装置１０及び収音部１５を含んで構成される。
音声処理装置１０は、収音部１５から入力された音声信号を収音部１５への到来方向毎の到来成分を示す到来成分信号に分離し、分離された到来成分信号に対応する統計量を、到来方向毎の統計量を有する音声認識モデルを記憶した記憶部から選択する。そして、音声処理装置１０は、選択した統計量を用いて音声認識モデルを更新し、更新した音声認識モデルを用いて到来成分のうち直接音の成分について音声認識処理を行う。

到来方向が識別される到来成分には、直接音と反射音とが含まれる。直接音とは、音源から直接到来する音の成分である。反射音とは、音源から放射される音のうち壁面などの反射物の表面において反射して到来する音の成分である。図２に示す例では、収音部１５に到来する直接音Ｄｔの到来方向は、収音部１５を基準とする話者Ｈｓの方向となる。収音部１５に主に到来する反射音Ｐｈ_１，…，Ｐｈ_ｍ，…，Ｐｈ_Ｍの到来方向は、それらの反射音を発生させる反射面の方向となる。従って、反射音の到来方向は、一般に直接音Ｄｔの到来方向とは異なる。以下に説明する例では、反射成分による到来方向の違いが利用される。なお、時間経過により複数の反射成分が重なり合い個々の反射成分やその到来方向が区別できなくなった成分が残響に相当する。

図１に戻り、収音部１５は、Ｎ（Ｎは２以上の整数）チャネルの音声信号を収音し、収音した音声信号を音声処理装置１０に送信する。収音部１５は、例えば、収音素子としてＮ個の電気音響変換素子を備え、それらが配置されてなるマイクロホンアレイである。個々の電気音響変換素子は、１チャネルの音声信号を収録する。収音部１５は、収録した音声信号を無線で送信してもよいし、有線で送信してもよい。収音部１５の位置は、固定されていてもよいし、車両、航空機、ロボット等の移動体に設置され、移動が可能であってもよい。収音部１５は、音声処理装置１０と一体化されていてもよいし、別体であってもよい。

次に、音声処理装置１０の構成について説明する。
音声処理装置１０は、アレイ処理部１１０、モデル生成部１２１、モデル記憶部１２２、統計量選択部１２３、モデル更新部１２４及び音声認識部１３０を含んで構成される。
アレイ処理部１１０は、収音部１５から入力されるΦ（Φは、２以上の整数）チャネルの音声信号から音声認識処理又は音声認識モデルの生成、学習に用いる到来成分信号を取得する。アレイ処理部１１０は、音源定位部１１１、音源分離部１１２、音声強調部１１３及び直接音判定部１１４を含んで構成される。

音源定位部１１１は、収音部１５から入力されるΦチャネルの音声信号について予め定めた期間（例えば、５０ｍｓ）毎に所定の音源定位処理を行い、Ｋ（Ｋは、２以上であってΦよりも小さい整数）個の到来方向を推定する。到来方向は、到来成分が到来する方向である。所定の音源定位処理は、例えば、ＭＵＳＩＣ法（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）である。音源定位部１１１は、Φチャネルの音声信号と推定した到来方向を示す到来方向信号を対応付けて音源分離部１１２に出力する。ＭＵＳＩＣ法による到来方向の推定の具体例については、後述する。

音源分離部１１２は、音源定位部１１１から入力されるΦチャネルの音声信号から所定のブラインド音源分離処理（ＢＳＳ：ＢｌｉｎｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）を行って到来方向信号が示すＫ個の到来方向それぞれの到来成分を示す到来成分信号に分離する。到来成分信号は、それぞれ対応する到来方向からの到来成分を示す音声信号である。所定のブラインド音源分離処理は、例えば、ＧＨＤＳＳ（Ｇｅｏｍｅｔｒｉｃ−ｃｏｎｓｔｒａｉｎｅｄＨｉｇｈ−ｏｒｄｅｒＤｅｃｏｒｒｅｌａｔｉｏｎ−ｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）法である。音源分離部１１２は、分離した到来方向毎の到来成分信号を音声強調部１１３に出力する。音源分離部１１２は、入力された到来方向信号を音声強調部１１３に出力してもよい。ＧＨＤＳＳ法による音源分離の具体例については、後述する。

音声強調部１１３は、音源分離部１１２から入力される到来成分信号が示す到来方向毎の到来成分に含まれている残響成分を所定の残響抑圧法を用いて抑圧する。残響成分の抑圧により、到来成分に含まれている音声成分が強調される。所定の残響抑圧法は、例えば、ウィーナフィルタリング（ＷｉｅｎｅｒＦｉｌｔｅｒｉｎｇ）法である。音声強調部１１３は、動作モードがランタイムモード（Ｒｕｎ−ｔｉｍｅＭｏｄｅ）である場合、残響成分を抑圧した到来方向毎の到来成分信号を統計量選択部１２３に出力する。ランタイムモードとは、音声認識処理を実行する動作モードである。音声強調部１１３は、動作モードが学習モード（ＴｒａｉｎｉｎｇＭｏｄｅ）である場合、到来方向毎の到来成分信号をモデル生成部１２１に出力する。学習モードとは、音声認識処理を行わずに、音声認識モデルを構成する統計量や音声認識モデルの更新に用いられる統計量を算出する動作モードである。従って、ランタイムモードにおいては、後述するように到来成分のうち直接音成分が音声認識に用いられる。他方、学習モードにおいては、直接音成分も反射音成分も統計量の算出に用いられる。ウィーナフィルタリング法による残響成分の抑圧の具体例については後述する。なお、音声強調部１１３は、音源分離部１１２から入力される到来方向信号を直接音判定部１１４に出力してもよい。

直接音判定部１１４は、音声強調部１１３から入力された到来成分信号が示す到来成分が直接音成分を示す到来成分信号であるか、反射音成分を示す到来成分信号であるかを到来方向毎に判定する。直接音判定部１１４は、直接音成分を示す到来成分信号を統計量選択部１２３に出力する。直接音判定部１１４は、音声強調部１１３から入力される到来方向信号を統計量選択部１２３に出力してもよい。直接音成分の判定の具体例については、後述する。

モデル生成部１２１は、音響モデルを更新するための統計量を到来成分毎に算出する。音響モデルは、音声認識に用いられる音声認識モデルのうち、処理対象の音声信号から得られる音響特徴量と認識される音素との関係を表す統計モデルである。音響モデルは、例えば、ガウシアン混合モデル（ＧＭＭ：ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）に基づく隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）である。ＧＭＭは、処理対象の音声信号から算出された音響特徴量に対する、ある発話状態における出力確率を複数（例えば、１２８〜５１２個）の多次元ガウス関数を基底として線形結合により得られた値をもって表す統計モデルである。ガウス関数の次元数が、ベクトル量である音響特徴量の次元数に相当する。ＧＭＭのモデルパラメータとして出力確率を算出する際の個々のガウス関数の寄与を表す混合重み（ｍｉｘｔｕｒｅｗｅｉｇｈｔ）と、個々のガウス関数の特徴を表す平均値（ｍｅａｎ）及び共分散行列（ｃｏｖａｒｉａｎｃｅｍａｔｒｉｘ）といったパラメータが含まれる。以下の説明では、共分散行列を単に分散と呼ぶこともある。これに対し、混合重み、平均値は、それぞれスカラー量、ベクトル量である。ＧＭＭは、音響特徴量の時系列に基づいて音源の種別を判定するために用いられることがある。ＨＭＭのモデルパラメータは、ＧＭＭのモデルパラメータと同種のモデルパラメータと、発話状態間の遷移確率を示す遷移確率（ｔｒａｎｓｉｔｉｏｎｐｒｏｂａｌｉｌｉｔｙ）をさらに含む。モデル生成部１２１は、統計量の一例として各基底の混合重み、平均値、及び分散を到来成分毎に算出する。到来成分毎のモデルパラメータは、各発話状態における各基底の累積混合要素占有度、平均値及び分散に基づいて導出されうる。より具体的には、到来成分毎の混合重みの更新量は、その到来成分に係る基底間の累積混合要素占有度の総和で正規化された算出対象の基底の累積混合要素占有度に相当する。到来成分毎の平均値は、その到来成分における算出対象の基底の累積混合要素占有度で正規化されたその基底の平均値に相当する。到来成分毎の分散は、算出対象の基底の累積混合要素占有度で正規化されたその基底の分散（行列）からその基底の平均値とその平均値の転置ベクトルとの積（行列）を差し引いて得られる行列となる。なお、モデル生成部１２１は、統計量として、さらに各基底の遷移確率を算出してもよい。到来成分毎の各基底の遷移確率は、算出対象の遷移元状態から遷移先状態への状態遷移占有度の遷移先状態間の総和で正規化された、その遷移元状態から算出対象の遷移先状態への状態遷移占有度となる。統計量の算出において所定の基底として、例えば、クリーン音声を用いて学習されたＨＭＭを構成する基底が利用可能である。累積混合要素占有度は、状態及び基底のセット毎の出現頻度として与えられる。状態遷移占有度は、遷移元状態から遷移先状態の組と基底のセット毎の出現頻度として与えられる。

混合重み、平均値及び分散を導出する処理については、例えば、次の文献に記載されている。
ＧｏｍｅｚＲ．，ＮａｋａｍｕｒａＫ．，ＭｉｚｕｍｏｔｏＴ．ａｎｄＮａｋａｄａｉＫ．，“Ｃｏｍｐｅｎｓａｔｉｎｇｃｈａｎｇｅｓｉｎｓｐｅａｋｅｒｐｏｓｉｔｉｏｎｆｏｒｉｍｐｒｏｖｅｄｖｏｉｓｅ−ｂａｓｅｄｈｕｍａｎ−ｒｏｂｏｔｃｏｍｍｕｎｉｃａｔｉｏｎ”，ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥ／ＲＡＳＨｕｍａｎｏｉｄｓ，２０１５

学習モードにおいては、音声処理装置１０が設置される室内において多数の音源位置から発話された音を学習データセットとして予め準備しておく。到来成分の総数Ｑは、一度に検出される反射音成分の数Ｍよりも十分に大きい。モデル生成部１２１は、それぞれの音源位置からの音に基づく到来成分ｑ毎の到来成分信号に基づいて、尤度がより高くなる音響モデルを与える統計量を算出する。モデル生成部１２１は、例えば、式（１）に示すように到来成分ｑ毎に音響モデルλ_ｃを用いて算出される尤度の期待値Ｌが最大となる音響モデルλ_ｃ’を与える統計量を算出する。以下の説明では、音響モデル又はその統計量について、尤度の期待値Ｌを、単に尤度Ｌと呼ぶことがある。

式（１）において、ｏ_ｑ ^ｒは、到来成分ｑに係る到来成分信号から算出される第ｒ発話における音響特徴量を示す。つまり、到来成分ｑに係る発話毎に音響モデルλ_ｃを用いて算出される尤度の合計もしくは平均値が最大化されるように統計量が算出される。統計量の算出において、直接音成分と各到来方向の反射音成分がそれぞれ用いられる。モデル生成部１２１は、到来成分ｑ毎に算出した統計量Φ（α_ｑ）として、累積混合要素占有度γ_ｉｂ ^（ｑ）、平均値ｍ_ｉｂ ^（ｑ）（ベクトル）、分散ｖ_ｉｂ ^（ｑ）（行列）のセットをモデル記憶部１２２に記憶する。ここで、ｉ、ｂは、それぞれ第ｉ発話状態、第ｂの基底を示す。モデル生成部１２１は、統計量Φ（α_ｑ）に、さらに到来成分ｑに係る到来方向α_ｑを対応付けてモデル記憶部１２２に記憶してもよい。

モデル記憶部１２２には、到来成分ｑ毎の統計量Φ（α_ｑ）が記憶される。また、モデル記憶部１２２には、クリーン音声に基づいて尤度が最大となるように生成された音響モデルと言語モデルとを予め記憶させておく。言語モデルは、音声認識モデルのうち、音素列の制約と音素列毎の出現確率を表す統計モデルである。言語モデルは、例えば、Ｎグラム（Ｎ−ｇｒａｍ）である。

統計量選択部１２３は、モデル記憶部１２２に記憶された統計量のうち、直接音判定部１１４から入力される到来成分信号に係る到来方向に最も近似した到来方向からＱ^ｏｐｔ個の到来方向α_ｑに係る統計量Φ（α_ｑ）を選択する。Ｑ^ｏｐｔは、Ｑよりも十分に小さい所定の正の整数である。Ｑ^ｏｐｔは、Ｋ以下であり、例えば、１〜３である。Ｑ^ｏｐｔが１であることは、直接音成分として判定された到来成分に係る統計量が選択され、反射音成分として判定された到来成分に係る統計量が選択されないことに相当する。統計量選択部１２３は、統計量Φ（α_ｑ）を選択する際、例えば、尤度に基づく手法を用いる。より具体的には、統計量選択部１２３は、個々の統計量Φ（α_ｑ）から音響モデルの一種であるＨＭＭλ_ｑ（後述）を導出し、導出したＨＭＭλ_ｑに基づいて、到来成分信号から算出される音響特徴量ｏに対する尤度Ｌ（ｏ｜λ_ｑ）を算出する。統計量選択部１２３は、算出されたＱ個の尤度Ｌ（ｏ｜λ_ｑ）のうち、最大となる尤度から第Ｑ^ｏｐｔ番目に高い尤度を与えるＱ^ｏｐｔ個のＨＭＭλ_ｑを特定し、特定したＨＭＭλ_ｑのそれぞれに基づくＱ^ｏｐｔ個の統計量Φ（α_ｑ）を選択する。

上述した統計量の選択法については、例えば、次の文献に記載されている。
Ｇｏｍｅｚ，Ｒ．，Ｋａｗａｈａｒａ，Ｔ．ａｎｄＮａｋａｄａｉ，Ｋ．，“Ｏｐｔｉｍｉｚｅｄｗａｖｅｌｅｔ−ｄｏｍａｉｎｆｉｌｔｅｒｉｎｇｕｎｄｅｒｎｏｉｓｙａｎｄｒｅｖｅｒｂｅｒａｎｔｃｏｎｄｉｔｉｏｎ”，ＰｒｏｃｅｅｄｉｎｇｓｏｎＴｒａｎｓａｃｔｉｏｎｓｏｎＳｉｇｎａｌａｎｄＰｒｏｃｅｓｓｉｎｇ，２０１５

統計量選択部１２３は、統計量Φ（α_ｑ）を選択する際、到来成分信号に係る到来方向を、直接音判定部１１４から入力された到来方向信号を参照して特定し、特定した到来方向に最も近似する到来方向からＱ^ｏｐｔ個の到来方向α_ｑのそれぞれに対応付けて記憶された統計量Φ（α_ｑ）を選択してもよい。統計量選択部１２３が、統計量Φ（α_ｑ）を選択する区間は、到来成分信号について有音判定処理（後述）を行って有音と判定された区間に限られてもよい。また、統計量選択部１２３が統計量Φ（α_ｑ）を選択する頻度は、音源定位、音源分離及び音声強調における頻度（例えば、１０〜５０ｍｓ毎）よりも低くてもよい。その頻度は、例えば、１００ｍｓ〜１ｓ、１回の発話毎などであってもよい。統計量選択部１２３は、選択したＱ^ｏｐｔ個の統計量Φ（α_ｑ）をモデル更新部１２４に出力し、入力された到来方向信号を音声認識部１３０に出力する。

モデル更新部１２４は、統計量選択部１２３から選択された統計量Φ（α_ｑ）を用いて、モデル記憶部１２２に記憶されたクリーン音声に基づいて生成された音響モデルを更新する。モデル更新部１２４は、更新された音響モデルを用いて、この統計量Φ（α_ｑ）の選択に用いられた到来方向信号について算出される尤度Ｌの期待値がより高くなるように音響モデルを更新する。モデル更新部１２４は、音響モデルを更新する際、例えば、最大尤度線形回帰法（ＭＬＬＲ：ＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎ）を用いることができる。モデル更新部１２４は、更新した音響モデルを音声認識部１３０に出力する。音響モデルの更新の具体例については、後述する。

音声認識部１３０は、統計量選択部１２３から入力された到来成分信号についてモデル更新部１２４から入力された音響モデルと、モデル記憶部１２２から読み出した言語モデルを用いて音声認識処理を行う。統計量の選択に用いられた到来成分信号について、その統計量を用いて更新された音響モデルを用いて発話内容を示す音素列が推定される。ここで、音声認識部１３０は、所定の時間（例えば、１０ｍｓ）毎に音響特徴量を算出し、算出した音響特徴量についてモデル更新部１２４から入力された音響モデルを用いて可能性がある音素列毎に第１の尤度を算出し、第１の尤度の降順に所定の個数の音素列の候補を定める。そして、音声認識部１３０は、音素列の候補毎に言語モデルを用いて、当該音素列で表される文の候補毎の第２尤度を算出する。音声認識部１３０は、第１尤度と第２尤度とを合成して得られる総合尤度が最も高い文を認識結果として定める。

（到来方向の推定）
次に、到来方向の一推定法であるＭＵＳＩＣ法について説明する。
音源定位部１１１は、予め所定の方向間隔（例えば、１〜５°）に分布した音源方向毎の伝達関数が記憶されている記憶部を備える。音源定位部１１１は、収音部１５の位置を基準とする方向αに設置された音源から各チャネルφ（φは、１以上Φ以下の整数）の収音素子までの伝達関数を要素とする伝達関数ベクトルＡ（ω，α）を生成する。ωは、周波数を示す。

他方、音源定位部１１１は、各チャネルφ（φは、１以上Φ以下の整数）の音声信号について所定のサンプル数からなるサブフレーム（例えば、１０〜２０ｍｓ）毎に短時間フーリエ変換（ＳＴＦＴ：ＳｈｏｒｔＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を行って周波数領域の変換係数を算出する。音源定位部１１１は、算出した変換係数のチャネル間の相関係数の所定のフレーム期間（例えば、５０〜１００ｍｓ）内の時間平均値を算出し、算出した時間平均値を要素値とする入力相関行列Ｘ（ω，ｆ）を生成する。入力相関行列は、Φ行Φ列の行列であり、要素値が配置される行、列は、それぞれ１つのチャネルと他のチャネルとに対応する。ｆは、フレームを示すインデックスである。

音源定位部１１１は、生成した入力相関行列Ｘ（ω，ｆ）について固有値展開を行い、Φ個の固有ベクトルｅ_１（ω，ｆ），…，ｅ_Φ（ω，ｆ）を算出する。ここで、固有ベクトルｅ_１（ω，ｆ），…，ｅ_Φ（ω，ｆ）の順序１，…，Φは、対応する固有値の降順である。音源定位部１１１は、音源方向、つまり到来方向α毎に伝達関数ベクトルＡ（ω，α）と第Ｋ＋１〜第Φ固有ベクトルに基づいて空間スペクトルＰ（ω，α，ｆ）を算出する。空間スペクトルＰ（ω，α，ｆ）は、式（２）で表される。

音源定位部１１１は、例えば、パワーが所定の閾値よりも大きい周波数帯域における空間スペクトルＰ（ω，α，ｆ）の周波数間の総和を拡張空間スペクトルＰ_ｅｘｔ（ω，α，ｆ）として算出する。音源定位部１１１は、算出した拡張空間スペクトルＰ_ｅｘｔ（ω，α，ｆ）が所定の閾値を超え、かつ極大値を与える到来方向αを、その極大値の降順に最大Ｋ個選択する。拡張空間スペクトルＰ_ｅｘｔ（ω，α，ｆ）の極大値は、その閾値を超えないこともあるので、選択される到来方向の個数は、Ｋ−１個であることや、到来方向が特定されないこともある。

なお、音源定位部１１１は、ＭＵＳＩＣ法に代えて、その他の手法を用いて音源方向を算出してもよい。音源定位部１１１は、例えば、一般化固有値分解（ＧＥＶＤ：ＧｅｎｅｒａｌｉｚｅｄＥｉｇｅｎｖａｌｕｅ）−ＭＵＳＩＣ法、一般化特異値分解（ＧｅｎｅｒａｌｉｚｅｄＳｉｎｇｕｌａｒＶａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎ；ＧＳＶＤ−）ＭＵＳＩＣ法、重み付き遅延和ビームフォーミング法（ＷＤＳ−ＢＦ：ＷｅｉｇｈｔｅｄＤｅｌａｙａｎｄＳｕｍＢｅａｍＦｏｒｍｉｎｇ）、等を用いてもよい。

（音源分離）
次に、音源分離の一手法であるＧＨＤＳＳ法について説明する。
ＧＨＤＳＳ法は、２つのコスト関数（ｃｏｓｔｆｕｎｃｔｉｏｎ）として、分離尖鋭度（ＳｅｐａｒａｔｉｏｎＳｈａｒｐｎｅｓｓ）Ｊ_ＳＳ（Ω（ω，ｆ））と幾何制約度（ＧｅｏｍｅｔｒｉｃＣｏｎｓｔｒａｉｎｔ）Ｊ_ＧＣ（Ω（ω，ｆ））が、それぞれ減少するように分離行列Ω（ω，ｆ）を適応的に算出する方法である。分離行列Ω（ω）は、音源定位部１１１から入力されたΦチャネルの音声信号の変換係数ベクトルｘ（ω，ｆ）に乗じることによって、Ｌチャネルの到来成分毎の変換係数ベクトルである推定値ベクトルｕ（ω）を算出するために用いられる行列である。

分離尖鋭度Ｊ_ＳＳ（Ω（ω，ｆ））、幾何制約度Ｊ_ＧＣ（Ω（ω，ｆ））は、それぞれ、式（３）、（４）で表される。

式（３）、（４）において、｜｜…｜｜^２は、行列…のフロベニウスノルム（Ｆｒｏｂｅｎｉｕｓｎｏｒｍ）である。フロベニウスノルムとは、行列を構成する各要素値の二乗和（スカラー値）である。φ（ｕ（ω，ｆ））は、推定値ベクトルｕ（ω，ｆ）の非線形関数、例えば、双曲線正接関数（ｈｙｐｅｒｂｏｌｉｃｔａｎｇｅｎｔｆｕｎｃｔｉｏｎ）である。［…］^Ｈは、行列又はベクトルの共役転置（ｃｏｎｊｕｇａｔｅｔｒａｎｓｐｏｓｅ）を示す。ｄｉａｇ［…］は、行列…の対角成分の総和を示す。従って、分離尖鋭度Ｊ_ＳＳ（Ω（ω）］）は、到来成分（推定値）のスペクトルのチャネル間非対角成分の大きさ、つまり、ある１つの到来成分が他の到来成分として誤って分離される度合いを表す指標値である。
式（４）において、Ｉは、単位行列を示す。従って、幾何制約度Ｊ_ＧＣ（Ω（ω，ｆ））とは、到来成分（推定値）のスペクトルと到来成分（音源）のスペクトルとの誤差の度合いを表す指標値である。

そして、音源分離部１１２は、式（５）に示すように、音源定位部１１１から入力されたΦチャネルの音声信号の変換係数ベクトルｘ（ω，ｆ）に分離行列Ω（ω，ｆ）を乗じて、Ｋ個の到来成分それぞれの変換係数を要素として有する推定値ベクトルｕ（ω）を算出する。

なお、音源分離部１１２は、ＧＨＤＳＳ法に代えて、その他の手法を用いて到来成分毎の到来成分信号を取得してもよい。音源分離部１１２は、例えば、独立成分分析法（ＩＣＡ：ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）、無相関音源分離法（Ｄｅｃｏｒｒｅｌａｔｉｏｎ−ｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）、等を用いてもよい。

（残響抑圧）
次に、残響抑圧の一手法であるウィーナフィルタリング法について説明する。
ウィーナフィルタリング法では、残響成分と、残響成分が抑圧された到来成分信号（以下、残響抑圧信号）との相関がないものと仮定して、フィルタリングされた残響成分が付加された到来成分信号（残響付加信号）と残響抑圧信号との平均二乗誤差を最小にする線形フィルタを形成する処理である。この線形フィルタは、ウィーナ利得（ＷｉｅｎｅｒＧａｉｎ）とも呼ばれる。算出されたウィーナ利得は、残響付加信号をフィルタリングして残響除去信号を生成するために用いられる。

ここで、音声処理装置１０は、到来方向毎に到来成分信号について有音判定処理（ＶＡＤ：ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）を行う有音判定部（図示せず）を備える。有音判定処理は、到来成分信号が音声を含むか否かを判定する処理である。有音判定処理は、例えば、到来成分信号のパワーが予め定めた閾値よりも高く、かつ、零交差数（ｎｕｍｂｅｒｏｆｚｅｒｏｃｒｏｓｓｉｎｇｓ）が予め定めた範囲（例えば、１秒当たり１００〜２００回よりも多い）場合に有音と判定し、それ以外の場合、無音と判定する処理である。零交差数とは、時間領域の信号値が単位時間当たりに零を交差する回数、つまり、信号値が負値から正値、又は正値から負値に変化する回数である。

音声強調部１１３は、到来方向毎の到来成分信号の変換係数ｓ_ｋ（ω，ｆ）についてウェーブレット変換（ｗａｖｅｌｅｔｔｒａｎｓｆｏｒｍ）を行ってウェーブレット係数（ｗａｖｅｌｅｔｃｏｅｆｆｉｃｉｅｎｔ）Ｓ_ｋ’（ｖ，τ）を算出する。ｋは、個々の到来成分を示す。ｖは、スケーリングパラメータ（ｓｃａｌｉｎｇｐａｒａｍｅｔｅｒ）を示す。スケーリングパラメータとは、ウェーブレット変換に用いられる基底の特徴を示す係数である。τは、シフトパラメータ（ｓｈｉｆｔｐａｒａｍｅｔｅｒ）を示す。シフトパラメータは、ウェーブレット変換において演算に用いる基底のシフト（ずれ）量を示す係数である。そして、音声強調部１１３は、式（６）に示すように、到来成分信号のウェーブレット係数Ｓ_ｋ’（ｖ，τ）と残響成分のウェーブレット係数Ｒ（ｖ，τ）の二乗和に対する、到来成分信号のウェーブレット係数Ｓ_ｋ’（ｖ，τ）の二乗値の比をウィーナゲインκとして算出する。ここで、到来成分信号のウェーブレット係数Ｓ_ｋ’（ｖ，τ）として、有音と判定された到来成分信号のウェーブレット係数が用いられ、残響成分のウェーブレット係数Ｒ（ｖ，τ）として、無音と判定された到来成分信号のウェーブレット係数が用いられる。

そして、音声強調部１１３は、ウェーブレット係数Ｓ_ｋ’（ｖ，τ）にウィーナゲインκを乗じて残響抑圧信号の推定値のウェーブレット係数Ｅ（ｖ，τ）を算出する。音声強調部１１３は、算出したウェーブレット係数Ｅ（ｖ，τ）について逆ウェーブレット変換を行って残響抑圧信号の変換係数Ｅ（ω，ｆ）を、残響成分を抑圧した残響抑圧信号の変換係数として算出する。さらに、音声強調部１１３は、残響抑圧信号の変換係数について短時間逆フーリエ変換を行うことにより残響抑圧信号、つまり残響成分が抑圧された到来成分信号を生成する。

なお、音声強調部１１３は、ウィーナフィルタリング法に代えて、その他の手法を用いて残響成分を抑圧してもよい。音声強調部１１３は、例えば、スペクトラルサブトラクション法、等を用いてもよい。

（直接音成分の判定）
次に、直接音判定部１１４が直接音成分を示す到来成分信号を判定する手法について説明する。直接音判定部１１４は、撮像部（図示せず）から取得された画像データが表す画像に表される話者の口の位置に基づいて、音源である話者の方向を推定する。直接音判定部１１４は、話者の口の位置を判定する際、公知の画像認識技術を用いて話者の口の画像を特定する。撮像部は、例えば、収音部１５に近接して、ロボットの頭部に設置され、その光軸方向、視野角及び解像度などの撮影パラメータは、予め直接音判定部１１４に設定されている。画像データは、撮像部の光軸に直交する２次元平面内に配置された画素毎の画素値と奥行値からなる３次元のデータである。奥行値は、画素に表わされている被写体の位置の光軸方向に平行な方向の座標値である。画像認識技術として、例えば、画像のｈａａｒ−ｌｉｋｅ特徴量を用いたＡｄａＢｏｏｓｔが利用可能である。ＡｄａＢｏｏｓｔは、パターン認識の一方法である。直接音判定部１１４は、話者の口の画像の重心点の位置を特定し、特定した位置について、撮像部の光軸方向、視野角及び解像度に基づいて収音部１５の位置を基準とした話者の方向を算出する。直接音判定部１１４は、音源定位部１１１から入力される到来方向信号が示す到来方向から、算出した話者の方向との差が到来方向間で最も小さい到来方向に係る到来成分信号を、直接音成分を示す到来成分信号として判定する。直接音判定部１１４は、それ以外の到来成分信号を、反射音成分を示す到来成分信号として判定する。この判定は、図２に示すように直接音Ｄｔの到来方向φ_ｋが現実の音源方向に対応付けられ、反射音Ｐ_ｍの到来方向φ_ｋは音源方向に対応付けられないことに基づく。

なお、直接音判定部１１４は、複数の到来成分信号間の相互相関係数に基づいて直接音成分を示す到来成分信号を判定してもよい。直接音判定部１１４は、例えば、各２つの到来成分信号からなる信号ペアのうち一方の信号のサンプルをシフトさせ、シフトした一方の信号と他方の信号との相関係数をシフト量毎に算出する。直接音判定部１１４は、シフト量間の相関係数の最大値が所定の閾値（例えば、０．５〜０．７）以上となる信号ペアを構成する各一群の到来成分信号を音源が共通の到来成分信号として特定する。直接音判定部１１４は、各一群の到来成分信号のうち相関係数の最大値を与えるシフト量に基づいて、最も先行する到来成分信号を、直接音成分を示す到来成分信号として判定し、それ以外の到来成分信号を、反射音成分を示す到来成分信号として判定する。なお、一群の到来成分信号に１個の到来成分信号しか含まれない場合には、その１個の到来成分信号を、直接音成分を示す到来成分信号として判定する。この判定は、音源から収音部１５までの直接音成分の伝達経路が、反射音成分の伝達経路よりも短くなることに基づく。

（音響モデルの更新）
次に、音響モデルの更新法の具体例として、ＨＭＭの基底関数として用いられるガウス関数の平均値、分散のＭＬＬＲに基づく更新法について説明する。モデル更新部１２４は、選択された統計量Φ（α_ｑ）を用いて、式（７）、式（８）にそれぞれ示す更新パラメータｋ^（ｐ）、Ｇ^{（ｐ）−１}を算出する。

式（７）、式（８）において、ｋ^（ｐ）は、行列Ｋ（後述）の構成要素である第ｐ行の行ベクトルを示す。ｂは、音響モデルの基底として用いられるガウス関数のインデックスを示す。Ｂは、基底の総数を示す。１／σ_ｂｐは、第ｂ基底の分散についての逆行列のｐ行ｐ列の要素値を示す。ε_ｃは、拡張平均ベクトル（ｅｘｔｅｎｄｅｄｍｅａｎｖｅｃｔｏｒ）を示す。Ｔは、ベクトル又は行列の転置を示す。γ_ｉｂ ^ｑは、第ｑの到来成分に係る第ｉ状態の第ｂ基底の分散（行列）を示す。

モデル更新部１２４は、第１番目の要素値として１と、第２〜第ｎ＋１番目の要素値として、更新前の基底ｂの平均値μ_ｂ（ｎ次元ベクトル）の第１〜第ｎ番目の要素値を割り当ててｎ＋１次元の列ベクトルである拡張平均ベクトルε_ｃを構成する。モデル更新部１２４は、行ベクトルｋ^（ｐ）を転置した列ベクトルｋ^（ｐ）Ｔにそれぞれ行列Ｇ^{（ｐ）−１}を乗算して得られるベクトル値Ｇ^{（ｐ）−１}ｋ^（ｐ）Ｔを第ｐ列の列ベクトルｗ^（ｐ）Ｔとして算出する。モデル更新部１２４は、算出した第ｐ列の列ベクトルｗ^（ｐ）Ｔを転置した行ベクトルｗ^（ｐ）を行間で結合して変換行列Ｗを算出する。そして、モデル更新部１２４は、基底ｂの平均値μ_ｂの拡張平均ベクトルに算出した変換行列Ｗを乗算して得られるベクトルＷε_ｃを更新後の基底ｂの平均値μ_ｂ ^ａｄｐとして算出する。
その後、モデル更新部１２４は、選択された統計量Φ（α_ｑ）と更新後の基底ｂの平均値μ_ｂ ^ａｄｐを用いて、式（９）に示す更新パラメータＨ（行列）を算出する。

式（９）において、Ｃ_ｂは、更新対象元のＨＭＭの基底ｂの分散σ_ｂ（行列）のコレスキー因子（Ｃｈｏｌｅｓｋｉｆａｃｔｏｒ）を示す。ここで、モデル更新部１２４は、更新パラメータＨ（行列）を算出する前に、分散σ_ｂ（行列）についてコレスキー分解を行ってコレスキー因子Ｃ_ｂと、その逆行列Ｃ_ｂ ^−１を予め算出しておく。
モデル更新部１２４は、算出した逆行列Ｃ_ｂ ^−１に、行列Ｈと、逆行列Ｃ_ｂ ^−１の転置行列（Ｃ_ｂ ^−１）^Ｔを乗算して得られる行列（Ｃ_ｂ ^−１）^ＴＨＣ_ｂ ^−１、￥を、更新後の基底ｂの分散σ_ｂとして算出する。モデル更新部１２４は、上述した演算を基底ｂ毎に実行する。

上述した音響モデルの更新法については、例えば、次の文献に記載されている。
Ｇａｌｅｓ，Ｍ．ａｎｄＷｏｏｄｌａｎｄ，Ｐ．Ｃ．，“ＭｅａｎａｎｄＶａｒｉａｎｃｅＡｄａｐｔａｔｉｏｎｗｉｔｈｉｎｔｈｅＭＬＬＲｆｒａｍｅｗｏｒｋ”，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｍｐｕｔｅｒＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅ，１９９６

直接音成分に係る統計量を用いて更新された音響モデルを用いることで、直接音成分を示す到来成分信号について音声認識率の低下が防止される。また、直接音成分と到来方向が近接した反射音成分に係る統計量も音響モデルの更新に用いる統計量として用いることで、選択される統計量の時間変化による更新後の音響モデルの特性の変化が緩和される。そのため、より安定した音声認識結果が得られる。

（音声処理）
次に、本実施形態に係る音声処理の例について説明する。図３は、本実施形態に係る音声処理の例を示すフローチャートである。図３に示す処理は、動作モードがランタイムモードである場合に実行される。
（ステップＳ１０１）音源定位部１１１は、収音部１５が取得したΦチャネルの音声信号について所定期間毎に音源定位処理を行い、Ｋ個の到来方向を推定する。その後、ステップＳ１０２の処理に進む。
（ステップＳ１０２）音源分離部１１２は、Φチャネルの音声信号についてブラインド音源分離処理を行ってＫ個の到来方向それぞれの到来成分信号に分離する。その後、ステップＳ１０３の処理に進む。
（ステップＳ１０３）音声強調部１１３は、到来方向毎の到来成分信号に含まれている残響成分を抑圧することにより相対的に音声成分を強調する。その後、ステップＳ１０４の処理に進む。
（ステップＳ１０４）直接音判定部１１４は、到来方向毎の到来成分信号のうち音源方向に最も近接する到来方向に係る到来成分信号を直接音成分に係る到来成分信号として判定する。その後、ステップＳ１０５の処理に進む。

（ステップＳ１０５）統計量選択部１２３は、直接音成分に係る到来成分信号に対応する到来方向とのなす角度の昇順に、Ｑ^ｏｐｔ個の到来方向α_ｑ毎の統計量Φ（α_ｑ）を選択する。その後、ステップＳ１０６の処理に進む。
（ステップＳ１０６）モデル更新部１２４は、モデル記憶部１２２に記憶された音響モデルを構成するモデルパラメータを選択されたＱ^ｏｐｔ個の到来方向α_ｑ毎の統計量Φ（α_ｑ）を用いて更新する。その後、ステップＳ１０７の処理に進む。
（ステップＳ１０７）モデル更新部１２４は、更新した音響モデルと、予め設定された言語モデルとを用いて直接音成分に係る到来成分信号について音声認識処理を行い認識結果として認識テキストを示す認識データを取得する。その後、図３に示す処理を終了する。

（第２の実施形態）
次に、本発明の第２の実施形態について説明する。特に断らない限り、第１の実施形態と同一の構成については、同一の符号を付して、その説明を援用する。
図４は、本実施形態に係る音声処理システム１の構成例を示すブロック図である。
音声処理システム１は、音声処理装置１０及び収音部１５に、さらに音声再生部１６を含んで構成される。
音声再生部１６は、音声処理装置１０から入力された音声信号に基づく音声を再生する。音声再生部１６は、例えば、スピーカである。
音声処理装置１０は、アレイ処理部１１０、モデル生成部１２１、モデル記憶部１２２、統計量選択部１２３、モデル更新部１２４及び音声認識部１３０に、さらに対話制御部１４０を含んで構成される。

対話制御部１４０は、音声認識部１３０から入力された認識結果である認識テキストを示す認識データに対応した応答データを取得する。対話制御部１４０は、取得した応答データが示す応答テキストについて公知のテキスト音声合成処理を行い、応答テキストで表される発話内容を示す音声信号である応答音声信号を生成する。対話制御部１４０は、生成した応答音声信号を音声再生部１６に出力する。

対話制御部１４０は、対話データを予め記憶しておいた記憶部（図示せず）と、応答データが示す応答テキストに応じた音声信号を合成する音声合成部（図示せず）を備える。対話データは、予め定めた発話データと応答データを対応付けて形成される。対話制御部１４０は、認識データと発話データとを照合し、認識データが示す認識テキストと合致するテキストを示す発話データを選択する。そして、対話制御部１４０は、選択した応答データに対応する発話データを特定する。なお、発話データ、応答データには、それぞれ翻訳区間、回答区間が含まれていてもよい。翻訳区間とは、翻訳対象とする原言語の語句が含まれる区間である。回答区間には翻訳された目的言語の語句が含まれる区間である。発話データ、応答データに、それぞれ翻訳区間、回答区間が含まれる場合には、対話制御部１４０は、認識データと発話データとを照合する際、認識データが示す認識データと発話データが示す発話テキストのうち翻訳区間を除いた部分とが合致するか否かを判定する。対話制御部１４０は、合致すると判定するとき、認識データのうち、翻訳区間に対応する区間内の認識テキストについて、予め設定された翻訳辞書データを参照して、その認識テキストに対応する応答テキストを特定する。翻訳辞書データには、翻訳対象の原言語の語句を示す認識テキストと、目的言語の対応する語句を示す応答テキストを対応付けて形成される。対話制御部１４０は、合致すると判定した発話データに対応する応答データの回答区間に特定した応答テキストを代入し、応答データの全区間の応答テキストについてテキスト音声合成処理を行う。

次に、対話データと対話制御部１４０の動作例について説明する。図５は、本実施形態に係る対話データの例を示す図である。
Ｓｐ１、Ｓｐ２は、それぞれ発話データを示す。Ｒｂ１、Ｒｂ２は、それぞれ発話データＳｐ１、Ｓｐ２に対応する応答データを示す。また、実線の下線部、破線の下線部は、それぞれ翻訳区間、回答区間を示す。発話データＳｐ１は、日本語で「やあ、東京でレストランに行って、酒が出たんだ。酒って英語で何て言うか知ってる？」を意味する英語のテキストからなる。そのうち、「酒」を意味する“ｓａｋｅ”の区間が日本語から英語への翻訳区間である。この翻訳区間に対応する認識データには、それ以外の語句、例えば、魚の名前などが含まれることがある。対話制御部１４０は、発話データＳｐ１と音声認識部１３０からの認識データのうち翻訳区間を除いた部分と合致すると判定するとき、発話データＳｐ１に対応する応答データＲｂ１を特定する。応答データＲｂ１は、日本語で「ｒｉｃｅｗｉｎｅと言うんだ。」を意味する英語のテキストからなる。そのうち、“ｒｉｃｅｗｉｎｅ”の区間が回答区間である。対話制御部１４０は、認識データのうち、翻訳区間内の認識テキストとして“ｓａｋｅ”を特定する。対話制御部１４０は、日本語から英語への翻訳に係る翻訳辞書データを参照して原言語として日本語の“ｓａｋｅ”に対応する目的言語である英語の応答テキスト“ｒｉｃｅｗｉｎｅ”を取得する。そして、対話制御部１４０は、応答データＲｂ１の回答区間に取得した“ｒｉｃｅｗｉｎｅ”を代入して応答データＲｂ１の全区間の応答テキスト“Ｔｈｅｙｃａｌｌｉｔｒｉｃｅｗｉｎｅ．”を生成する。対話制御部１４０は、生成した応答テキストについてテキスト音声合成処理を行い、その音声信号を生成する。対話制御部１４０は、生成した音声信号を音声再生部１６に出力する。これにより、発話内容が“Ｔｈｅｙｃａｌｌｉｔｒｉｃｅｗｉｎｅ”という英語の音声が再生される。

（動作検証）
次に、本実施形態に係る音声処理システム１について行った動作検証について説明する。
動作検証において、音声処理システム１を実装した人型ロボットＲｔを用いた。図６に示すようにロボットＲｔの頭部には、１６個の電気音響変換素子１５１を半径が異なる同一平面内の２つの同心円上に配置して収音部１５を形成した。各８個の電気音響変換素子１５１は、それぞれの同心円上に４５°間隔で配置される。一方の同心円上に配置される８個の電気音響変換素子１５１とは、方位角が２２．５°ずれた方向に、他方の８個の電気音響変換素子１５１が配置される。

動作検証は、４つの実験室１−４のそれぞれの室内において行われた。実験室１−４の平面上の大きさは、いずれも４．８ｍ×５．５ｍである。実験室１、２、３、４の残響時間（ＲＴ：ｒｅｖｅｒｂｅｒａｔｉｏｎｔｉｍｅ）は、それぞれ８０ｍｓ、２４０ｍｓ、９００ｍｓ、９４０ｍｓである。実験室１−４には、それぞれ空調装置、電子計算機が設置され、それらの動作音が雑音として提示される。信号対雑音比は、約１５−２０ｄＢである。

図７は、実験室４の平面図である。図７に示すように、各実験室には、音声認識率の検証のために３点の話者位置Ｐ１−Ｐ３を設定した。但し、ロボットＲｔの位置を一定とした。実験室１−４間において、ロボットＲｔとして構成された音声処理システム１と話者位置Ｐ１−Ｐ３との位置関係は同様である。話者位置Ｐ１、Ｐ２、Ｐ３の順にロボットＲｔまでの距離が大きくなる。そのうち、話者位置Ｐ１からロボットＲｔまでの距離が最も小さく、話者位置Ｐ３からの距離が最も大きい。従って、話者位置Ｐ１からの発話音声の認識が最も容易であり、話者位置Ｐ３において発話された音声は、残響の影響を最も強く受ける。なお、ロボットＲｔは、自由度が２０である人型の２足歩行ロボットである。また、実験室４には、図７に示すように２つのテーブルＴｂ、ソファＳｆ、白板Ｗｂ及び冷蔵庫Ｒｇなどの備品が設置されていた。これらの備品が配置される位置は、話者位置Ｐ１−Ｐ３とロボットＲｔとの間で伝搬する音声を遮蔽しない位置である。なお、統計量の取得に係る到来方向数Ｑを２５個とした。

動作検証では、各統計量の取得に用いたクリーン音声データベースとして日本語、英語それぞれの言語の新聞記事読み上げ音声コーパスを用いた。具体的には、日本語新聞記事文（ＪＮＡＳ：ＪａｐａｎｅｓｅＮｅｗｓｐａｐｅｒＡｒｔｉｃｌｅＳｅｎｔｅｎｃｅｓ）コーパスと、ウォールストリートジャーナル（ＷａｌｌＳｔｒｅｅｔＪｏｕｒｎａｌ）コーパスである。各到来成分の統計量を取得する際、それらのクリーン音声データベースの音声を、実験室内のあらゆる位置に設置したスピーカから繰り返し再生させた。そして、音声処理装置１０を学習モードで動作させることで、到来方向毎の到来成分信号を取得した。

本動作検証では、１０名の日本語を母語とする話者と１０名の英語を母語とする話者のそれぞれに対し、話者位置Ｐ１−Ｐ３のそれぞれにおいて各２０回の発話を収集した。話者とロボットとの対話シナリオとして、図５に例示した寿司と刺身に関する問答を用いた。問答において、各話者にそれぞれの母語を原言語として魚の名称とする質問を発話させた。このとき、ロボットに応答として、その名称に相当する目的言語の名称の音声を再生することとなる。この対話シナリオの下では、言語ならびに発話内容の依存性が少なくなり、主に魚の名称に係る発話に依存する。検証結果として、発話による単語認識率を話者位置毎に集計した。

また、本実施形態に係る音声認識率の有効性を考察するため、処理方法（Ａ）〜（Ｌ）間で音声認識率と比較する。
方法（Ａ）は、入力音声信号に対してスペクトラルサブトラクション法を用いて残響成分を抑圧して得られる残響抑圧音声について音声認識処理を行う手法である。但し、方法（Ａ）では、音声認識処理においてモデル更新は行われない（ＯｌｄＥｎｈａｎｃｅｍｅｎｔ）。方法（Ｂ）は、音声強調部１１３によりウィーナフィルタリング法を用いて残響成分を抑圧して得られる残響抑圧音声について音声認識処理を行う手法である。方法（Ｂ）においても（ＮｅｗＥｎｈａｎｃｅｍｅｎｔ）。方法（Ｃ）は、スペクトラルサブトラクション法による残響抑圧音声について、オンラインでバウム・ウェルチ（ＢＷ：Ｂａｕｍ−Ｗｅｌｃｈ）法を用いて更新した音響モデルを用いて音声認識処理を行う手法である。但し、方法（Ｃ）では、室内の音響環境に応じた統計量に基づく音響モデルの更新は行われない（ＯｌｄＥｎｈａｎｃｅｍｅｎｔ＋ＢＷｏｎｌｉｎｅ）。方法（Ｄ）は、ウィーナフィルタリング法による残響抑圧音声について、ＢＷ法を用いて更新した音響モデルを用いて音声認識処理を行う手法である。方法（Ｄ）でも、室内の音響環境に応じた統計量に基づく音響モデルの更新は行われない（ＮｅｗＥｎｈａｎｃｅｍｅｎｔ＋ＢＷｏｎｌｉｎｅ）。方法（Ｅ）は、ウィーナフィルタリング法による残響抑圧音声について、予め室内の音響環境に応じた統計量に基づいてＢＷ法を用いて更新した音響モデルを用いて音声認識処理を行う手法である（Ｅｎｖ−ａｄａｐｔｉｖｅＴｒ．＋ＮｅｗＥｎｈａｎｃｅｍｅｎｔ＋ＢＷｏｎｌｉｎｅ）。方法（Ｆ）は、スペクトラルサブトラクション法による残響抑圧音声について、予め室内の音響環境に応じた統計量を用いてＭＬＬＲに基づく更新法により更新した音響モデルを用いて音声認識処理を行う手法である（ＯｌｄＥｎｈａｎｃｅｍｅｎｔ＋ＭＬＬＲｏｎｌｉｎｅ）。方法（Ｇ）は、ウィーナフィルタリング法による残響抑圧音声について、予め室内の音響環境に応じた統計量を用いてＭＬＬＲに基づく更新法により更新した音響モデルを用いて音声認識処理を行う手法である（ＮｅｗＥｎｈａｎｃｅｍｅｎｔ＋ＭＬＬＲｏｎｌｉｎｅ）。

方法（Ｈ）は、上述した音声処理装置１０が行う手法である。即ち、方法（Ｈ）は、モデル生成部１２１において取得成分毎の統計量の算出、音声強調部１１３におけるウィーナフィルタリング法による残響成分抑圧、モデル更新部１２４におけるＭＬＬＲに基づく音響モデルの更新のいずれも有する手法である（Ｅｎｖ−ａｄａｐｔｉｖｅＴｒ．＋ＮｅｗＥｎｈａｎｃｅｍｅｎｔ＋ＭＬＬＲｏｎｌｉｎｅ）。

方法（Ｉ）は、音声強調部１１３におけるウィーナフィルタリング法による残響成分抑圧と、オフラインでＭＬＬＲ法を用いて到来方向に応じて更新された音響モデルを用いて音声認識処理を行う手法である。但し、方法（Ｉ）では、音響モデルの更新のために１５回の発話が用いられた（ＮｅｗＥｎｈａｎｃｅｍｅｎｔ＋ｏｆｆｌｉｎｅＭＬＬＲ［１５ａｄａｐｔ．ｕｔｔｅｒａｎｃｅｓ］）。方法（Ｊ）は、本実施形態に係る音声処理装置１０と同様にモデル生成部１２１における取得成分毎の統計量の算出、音声強調部１１３におけるウィーナフィルタリング法による残響成分抑圧が行われるが、各実験室においてオフラインで予めＭＬＬＲ法を用いて到来方向に応じて更新された更新後の音響モデルを用いて音声認識処理を行う手法である。方法（Ｊ）でも、音響モデルの更新のために１５回の発話が用いられた（Ｅｎｖ−ａｄａｐｔｉｖｅＴｒ．＋ＮｅｗＥｎｈａｎｃｅｍｅｎｔ＋ｏｆｆｌｉｎｅＭＬＬＲ［１５ａｄａｐｔ．ｕｔｔｅｒａｎｃｅｓ］）。方法（Ｋ）は、方法（Ｉ）と同様の手法であるが、音響モデルの更新に用いられる発話の数は３０回である点で方法（Ｉ）と異なる（ＮｅｗＥｎｈａｎｃｅｍｅｎｔ＋ｏｆｆｌｉｎｅＭＬＬＲ［３０ａｄａｐｔ．ｕｔｔｅｒａｎｃｅｓ］）。方法（Ｌ）は、方法（Ｊ）と同様の手法であるが、音響モデルの更新に用いられる発話の数は３０回である点で方法（Ｊ）と異なる（Ｅｎｖ−ａｄａｐｔｉｖｅＴｒ．＋ＮｅｗＥｎｈａｎｃｅｍｅｎｔ＋ｏｆｆｌｉｎｅＭＬＬＲ［３０ａｄａｐｔ．ｕｔｔｅｒａｎｃｅｓ］）。

なお、ＢＷ法は、与えられた発話データについて尤度の期待値が高くなるようにＨＭＭのモデルパラメータを反復して算出するアルゴリズムの一種である。ＢＷ法は、次の（１）〜（４）のステップを尤度の変化量が所定の変化量以内に収束するまで繰り返すことにより尤度を高くする手法である。（１）状態遷移確率とシンボル出力確率に基づいて発話データを構成する入力シンボル系列からその時系列順の順方向尤度と時系列の逆方向順の逆方向尤度を算出する処理、（２）順方向尤度と逆方向尤度に基づいて各時刻の状態遷移確率を算出する処理、（３）尤度がより高くなるように各時刻の状態遷移確率から状態遷移確率を再計算する処理、（４）尤度がより高くなるように各時刻の状態遷移確率からシンボル出力確率を再計算処理。従って、ＢＷ法では、基底毎の状態遷移確率が更新される点で、基底毎の平均値、分散を更新するＭＬＬＲ法に基づく更新法とは異なる。室内の音響環境に応じた音響モデルを更新するためには、到来成分毎の統計量として状態遷移確率、又は状態遷移確率を算出するための累積混合要素占有度ならびに状態遷移占有度を取得しておけばよい。

（実験結果）
次に、実験結果について説明する。図８は、処理方法毎の単語認識率の一例を示す図である。縦軸は、単語認識率を示し、横軸は、処理方法を話者位置毎にまとめて示す。単語認識率は、発話者及び実験室１−４間の平均値である。
図８に示す例では、主に残響抑圧方法、音響モデルの更新の有無もしくは更新方法間において単語認識率が比較されている。単語認識率は、話者位置Ｐ１、Ｐ２、Ｐ３の順に低くなる。つまり、話者位置から収音部１５までの距離が大きくなるほど単語認識率が低くなる。また、処理方法間では、単語認識率は、方法（Ａ）−（Ｈ）の順に高くなる。例えば、方法（Ａ）について、話者位置Ｐ１、Ｐ２、Ｐ３での単語認識率は、それぞれ７８％、５０％、３１％である。方法（Ｈ）、つまり本実施形態では、話者位置Ｐ１、Ｐ２、Ｐ３での単語認識率は、それぞれ９４％、７６％、６５％である。従って、本実施形態に係る方法（Ｈ）によれば他の方法よりも単語認識率が高くなる。また、方法（Ｂ）、（Ｄ）、（Ｇ）について方法（Ａ）、（Ｃ）、（Ｆ）よりも単語認識率が高くなることは、スペクトラルサブトラクション法よりも本実施形態で用いられているウィーナフィルタリング法を用いた残響抑圧の方が有効であることを示す。また、方法（Ｅ）、（Ｈ）について、方法（Ｄ）、（Ｇ）よりも単語認識率が高くなることは、音響環境に応じた音響モデルの更新が行われた方が、行われないよりも音声認識率が向上することを示す。特に、方法（Ｆ）−（Ｈ）について、方法（Ｃ）−（Ｅ）よりも単語認識率が高くなることは、ＢＷ法よりも本実施形態において例示したＭＬＬＲ法に基づく音響モデルの更新の方が有効であることを示す。

図９は、処理方法毎の単語認識率の他の例を示す図である。図９に示す例では、主に、音響モデルの更新がオンラインであるか否か、オフライン更新における発話量による単語認識率が比較されている。
図９に示す例でも、単語認識率は、話者位置Ｐ１、Ｐ２、Ｐ３の順に低くなる。処理方法間では、単語認識率は方法（Ｌ）、（Ｋ）、（Ｈ）、（Ｊ）、（Ｉ）、（Ｃ）の順に低くなる。しかしながら、方法（Ｈ）による単語認識率は、方法（Ｌ）、（Ｋ）による単語認識率と同等である。例えば、話者位置Ｐ１では、方法（Ｈ）、（Ｌ）による単語認識率は、いずれも９４％であり、方法（Ｋ）による単語認識率は、９３％である。方法（Ｈ）による単語認識率は、方法（Ｃ）、（Ｈ）〜（Ｌ）間で最も高い。これに対し、話者位置Ｐ３では、方法（Ｈ）、（Ｋ）、（Ｌ）による単語認識率は、それぞれ６５、６６、６８％となり、３番目に高い。しかしながら、方法（Ｋ）、（Ｌ）よりも発話量が少ない方法（Ｉ）、（Ｊ）による単語認識率は、それぞれ５７％、６３％となり、いずれも方法（Ｈ）よりも低い。方法（Ｃ）、（Ｈ）では、音響モデルの更新はいずれもオンラインでなされ、更新に要する所要時間は多くても１秒である。これに対し、方法（Ｉ）、（Ｊ）、（Ｋ）、（Ｌ）では、音響モデルの更新は、いずれもオフラインでなされ、所要時間は、それぞれ１０、１３、１６、１８秒である。従って、方法（Ｈ）によればオンラインでの音響モデルの更新により、音響モデルの学習のために十分多くの発話を必要とせずに音声認識率の低下を抑制することができる。

以上に説明したように、音声処理装置１０は、複数チャネルの音声信号を到来方向毎の到来成分に分離する音源分離部１１２を備える。また、音声処理装置１０は、到来方向毎の統計量と音声認識モデルを記憶したモデル記憶部１２２と、音源分離部１１２が分離した到来成分の到来方向に対応する統計量をモデル記憶部１２２から選択する統計量選択部１２３を備える。また、音声処理装置１０は、統計量選択部１２３が選択した統計量に基づいて音声認識モデルを更新するモデル更新部１２４と、更新した音声認識モデルを用いて、到来成分の音声を認識する音声認識部を備える。
この構成によれば、到来成分の到来方向に対応する統計量に基づいて更新された音声認識モデルを用いて、その到来成分の音声の発話内容が認識される。そのため、音源と収音部１５との位置関係による音響環境の変化による音声認識精度の低下が抑制される。

また、上述の統計量は、音声認識モデルの少なくとも一部のパラメータと同種のパラメータである。音声処理装置１０は、分離された到来成分に対する尤度が高くなるように算出した統計量をモデル記憶部１２２に記憶するモデル生成部１２１を備える。
この構成によれば、音源と収音部１５が設置される音響環境により異なる到来成分に対して尤度を高くするパラメータが統計量として取得され、その到来成分の到来方向と対応付けてモデル記憶部１２２に記憶される。そのため、音声認識精度の低下が抑制されるとともに、音声認識モデルの全てのパラメータを音声認識と並列して更新するよりも演算量や処理時間が低減する。

また、上述の音声認識モデルは、音響特徴量の出力確率を複数のガウス関数の線形結合として表すモデルであり、上述の統計量は、それぞれのガウス関数の混合重み、平均値及び分散である。また、モデル更新部１２４は、分離された到来成分に対する尤度を高くするように音声認識モデルのガウス関数の平均値と分散を更新する。
この構成によれば、到来成分による音響特徴量に応じた出力確率の変動を有効に説明できるパラメータとしてガウス関数の平均値と分散が更新される。そのため、音声認識精度の低下が抑制されるとともに、音声認識モデルの更新における演算量や処理時間が低減する。

また、音声処理装置１０において、音源分離部１１２は、到来成分として音源からの直接音成分と反射音成分を分離し、音声認識部１３０は、分離した直接音成分の音声を認識する。
この構成によれば、種々の到来成分のうち音源から直接到来する直接音成分の音声が認識される。音声認識精度の低下の一因となりうる反射音成分が認識対象から除外されるので、音声認識精度の低下が抑制される。

また、音声処理装置１０において、音源分離部１１２が分離した到来成分から所定のフィルタ係数を用いて残響除去成分を生成し、生成した残響除去成分のパワーと、有音区間における到来成分及び無音区間における到来成分に基づいて推定された残響除去成分のパワーとの差が小さくなるようにそのフィルタ係数を算出する残響除去部として、音声強調部１１３を備える。
この構成によれば、無音区間における到来成分を残響成分とみなし、有音区間における到来成分から残響成分を除去して得られる残響除去成分に、到来成分からフィルタ係数を用いて生成される残響除去成分が近似されるようにフィルタ係数が算出される。そのため、到来成分について算出されたフィルタ係数を用いて生成された残響成分として音声成分が得られ、得られた音声成分の音声が認識される。音声認識精度の低下の一因となる残響成分が除去された音声が逐次に認識対象として得られるので、音声認識精度の低下が抑制される。

上述した実施形態では、音声処理装置１０と、収音部１５と音声再生部１６の一方又は両方が別体である場合を例にしたが、これには限られない。収音部１５と音声再生部１６の一方又は両方は、音声処理装置１０と一体であってもよい。
また、音声処理システム１において、音声再生部１６が省略され、対話制御部１４０は無線又は有線で他の機器、例えば、多機能携帯電話機（いわゆるスマートフォンを含む）、タブレット端末装置、などの端末装置に出力し、その機器が備える再生部から音声を再生させてもよい。
また、音声処理システム１は、必ずしもロボットと一体化して構成されなくてもよく、他の移動体、例えば、ドローンと一体化して構成されてもよい。かかる移動体は、無人であっても有人であってもよい。また、音声処理システム１は、独立した一個の機器として実現されてもよい。かかる機器として、例えば、多機能携帯電話機などの端末装置として実現されてもよい。

なお、上述した実施形態及び変形例における音声処理装置１０の一部、例えば、アレイ処理部１１０、モデル生成部１２１、モデル記憶部１２２、統計量選択部１２３、モデル更新部１２４、音声認識部１３０及び対話制御部１４０の全部又は一部をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音声処理装置１０に内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

また、上述した実施形態及び変形例における音声処理装置１０の一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現してもよい。音声処理装置１０の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１…音声処理システム、１０…音声処理装置、１５…収音部、１６…音声再生部、１１０…アレイ処理部、１１１…音源定位部、１１２…音源分離部、１１３…音声強調部、１１４…直接音判定部、１２１…モデル生成部、１２２…モデル記憶部、１２３…統計量選択部、１２４…モデル更新部、１３０…音声認識部、１４０…対話制御部

Claims

複数チャネルの音声信号を到来方向毎の到来成分に分離する分離部と、
所定の統計量と音声認識モデルを到来方向毎に記憶した記憶部と、
前記到来成分が音源からの直接音成分か反射音成分か、を判定する直接音判定部と、
前記直接音成分と前記反射音成分のそれぞれに対応する統計量を前記記憶部から選択する選択部と、
前記選択部が選択した統計量に基づいて前記到来方向毎の音声認識モデルを更新する更新部と、
前記直接音成分を用いて更新された音声認識モデルを用いて、前記直接音成分の音声を認識する音声認識部と、
を備える音声処理装置。
前記統計量は、前記音声認識モデルの少なくとも一部のパラメータと同種のパラメータ
であり、
前記到来成分に対する尤度が高くなるように算出した統計量を前記記憶部に記憶する生
成部、
を備える請求項１に記載の音声処理装置。
前記音声認識モデルは、音響特徴量の出力確率を複数のガウス関数の線形結合として表
すモデルであり、
前記統計量は、ガウス関数の混合重み、平均値及び分散であり、
前記更新部は、前記到来成分に対する尤度を高くするように前記音声認識モデルのガウ
ス関数の平均値と分散を更新する
請求項２に記載の音声処理装置。
前記分離部が分離した到来成分から所定のフィルタ係数を用いて残響除去成分を生成し、前記残響除去成分のパワーと、有音区間における前記到来成分及び無音区間における前記到来成分に基づいて推定された残響除去成分のパワーとの差が小さくなるように前記フィルタ係数を算出する残響除去部、
を備える請求項１から請求項３のいずれか一項に記載の音声処理装置。
前記直接音判定部は、
撮像部が撮像した画像に表される口の方向から話者方向を推定し、
推定した話者方向との差が最も小さい到来方向に係る到来成分を直接音成分と判定し、それ以外の到来方向に係る到来成分を反射音成分として判定する
請求項１から請求項４のいずれか一項に記載の音声処理装置。
前記直接音判定部は、
前記到来成分の相互間の相関係数が所定の閾値以上である到来成分のうち最も先行する到来成分を直接音成分と判定し、それ以外の到来方向に係る到来成分を反射音成分として判定する
請求項１から請求項４のいずれか一項に記載の音声処理装置。
音声処理装置における音声処理方法であって、
複数チャネルの音声信号を到来方向毎の到来成分に分離する分離過程と、
前記到来成分が音源からの直接音成分か反射音成分か、を判定する直接音判定部と、
前記直接音成分と前記反射音成分のそれぞれに対応する統計量を、所定の統計量と音声認識モデルを到来方向毎に記憶した記憶部から選択する選択過程と、
前記選択過程で選択された統計量に基づいて前記到来方向毎の音声認識モデルを更新する更新過程と、
前記直接音成分を用いて更新された音声認識モデルを用いて、前記直接音成分の音声を認識する音声認識過程と、
を有する音声処理方法。
コンピュータに、
複数チャネルの音声信号を到来方向毎の到来成分に分離する分離過程、
前記到来成分が音源からの直接音成分か反射音成分か、を判定する直接音判定過程、
前記直接音成分と前記反射音成分のそれぞれに対応する統計量を、所定の統計量と音声認識モデルを到来方向毎に記憶した記憶部から選択する選択過程、
前記選択過程で選択された統計量に基づいて前記到来方向毎の音声認識モデルを更新する更新過程、
前記直接音成分を用いて更新された音声認識モデルを用いて、前記直接音成分の音声を認識する音声認識過程、
を実行させるための音声処理プログラム。