JP2015018015A

JP2015018015A - 音声処理装置、音声処理方法、及び音声処理プログラム

Info

Publication number: JP2015018015A
Application number: JP2013143079A
Authority: JP
Inventors: 一博中臺; Kazuhiro Nakadai; 圭佑中村; Keisuke Nakamura; ランディゴメス; Gomez Randy
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2013-07-08
Filing date: 2013-07-08
Publication date: 2015-01-29
Anticipated expiration: 2033-07-08
Also published as: US9208782B2; US20150012268A1; JP6169910B2

Abstract

【課題】残響特性を計測しなくても音声認識精度を向上する残響抑圧を実現できる音声処理装置、音声処理方法及び音声処理プログラムを提供する。【解決手段】残響特性選択部は複数の残響特性のそれぞれについて、当該残響特性による残響成分の寄与を示す補正データと、当該残響特性による残響が付加された残響付加音声で学習した適応音響モデルとを対応付け、収録した音声について前記適応音響モデルに基づく尤度を算出し、算出した尤度が最も大きい適応音響モデルに対応する補正データを選択し、残響除去部は前記補正データに基づいて前記音声から残響成分を除去する。【選択図】図２

Description

本発明は、音声処理装置、音声処理方法、及び音声処理プログラムに関する。

室内で放射された音は、壁面や設置物で反射が繰り返されることによって残響が生じる。残響が付加されると周波数特性が原音声から変化するため音声認識率が低下することがある。また、過去に発された音声が現在発されている音声に重畳するため明瞭度が低下することがある。そこで、残響環境下で収録した音声から残響成分を抑圧する残響抑圧技術が従来から開発されている。

例えば、特許文献１には、逆フィルタ処理部で適応的に同定した帰還経路のインパルス応答を用いて残響空間の伝達関数を求め、残響音声信号を伝達関数の大きさで除算することにより音源信号を復元する残響除去方法について記載されている。特許文献１に記載の残響除去方法では、残響特性を示すインパルスレスポンスを推定するが、残響時間は０．２〜２．０秒と比較的長いため、演算量が過大になり処理遅延が著しくなる。そのため、音声認識等への応用が広がらなかった。

また、非特許文献１には、予め残響時間が異なる残響環境下で学習しておいた音響モデルを複数個準備しておき、音声が収録された環境において最も尤度が高くなる音響モデルを検索する方法が記載されている。残響時間とは、最大値を基準とした残響の強度が所定の強度に減衰するまでの時間である。この方法では、検索した音響モデルを用いて音声認識が行われる。

特許第４３９６４４９公報

Ｈ−Ｇ．Ｈｉｒｓｃｈ，ＨａｒａｌｄＦｉｎｓｔｅｒ，ＡＮｅｗＡｐｐｒｏａｃｈｆｏｒｔｈｅＡｄａｐｔａｔｉｏｎｏｆＨＭＭｓｔｏＲｅｖｅｂｅｒａｔｉｏｎａｎｄＢａｃｋｇｒａｏｕｎｄＮｏｉｓｅ，ＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎ，Ｅｌｓｅｖｉｅｒ，２００８，２４４−２６３

しかしながら、非特許文献１に記載の方法では、音源と収音部との位置関係が考慮されていない。他方、ある残響空間において残響時間はほぼ一定であるが、音源から収音部までの距離に応じて残響成分の強度と直接音の強度との比が変化する。そのため、必ずしもその残響時間に応じた音響モデルが選択されるとは限らず、音声認識精度が低下することがあった。

本発明は上記の点に鑑みてなされたものであり、残響特性を計測しなくても音声認識精度を向上する残響抑圧を実現できる音声処理装置、音声処理方法及び音声認識プログラムを提供する。

（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、複数の残響特性のそれぞれについて、当該残響特性による残響成分の寄与を示す補正データと、当該残響特性による残響が付加された残響付加音声で学習した適応音響モデルとを対応付け、収録した音声について前記適応音響モデルに基づく尤度を算出し、算出した尤度が最も大きい適応音響モデルに対応する補正データを選択する残響特性選択部と、前記補正データに基づいて前記音声から残響成分を除去する残響除去部と、を備えることを特徴とする音声処理装置である。

（２）本発明の他の態様は、（１）の音声処理装置であって、前記複数の残響特性は、音源からの音声を収録する収音部と前記音源までの距離に反比例する成分の寄与がそれぞれ異なることを特徴とする。

（３）本発明の他の態様は、（２）の音声処理装置であって、前記残響特性選択部は、前記補正データ及び前記適応音響モデルにそれぞれの残響特性に係る前記距離を示す距離データが対応付け、前記算出した尤度が最も大きい適応音響モデルに対応する距離データを選択することを特徴とする。

（４）本発明の他の態様は、（３）の音声処理装置であって、予め定めた距離に係る残響特性による残響が付加された残響付加音声で学習した第１の音響モデルと、残響を無視できる環境下での音声を用いて学習された第２の音響モデルから、前記残響特性選択部が選択した距離データが示す距離に応じた音響モデルを予測する音響モデル予測部と、前記音響モデル予測部が予測した音響モデルを用いて、前記音声について音声認識処理を行う音声認識部と、を備えることを特徴とする。

（５）本発明の他の態様は、音声処理装置における音声処理方法において、複数の残響特性のそれぞれについて当該残響特性による残響が付加された残響付加音声で学習した適応音響モデルに基づく尤度を、収録した音声について算出し、算出した尤度が最も大きい適応音響モデルに対応する補正データを前記複数の残響特性のそれぞれについて前記適応音響モデルと補正データを対応付けて記憶した記憶部から選択する残響特性選択ステップと、前記補正データに基づいて前記音声から残響成分を除去する残響除去ステップと、を有する音声処理方法である。

（６）本発明の他の態様は、音声処理装置のコンピュータに、複数の残響特性のそれぞれについて当該残響特性による残響が付加された残響付加音声で学習した適応音響モデルに基づく尤度を、収録した音声について算出し、算出した尤度が最も大きい適応音響モデルに対応する補正データを前記複数の残響特性のそれぞれについて前記適応音響モデルと補正データを対応付けて記憶した記憶部から選択する残響特性選択手順、前記補正データに基づいて前記音声から残響成分を除去する残響除去手順、を実行させるための音声処理プログラムである。

上述した（１）、（５）又は（６）の構成によれば、収録した音声について最も尤度が大きい適応音響モデルに係る残響特性を示す補正データが選択され、その補正データが示す残響成分が音声から除去される。そのため、残響特性を計測しなくても音声認識精度を向上する残響抑圧を実現できる。
上述した（２）の構成によれば、収音部から音源までの距離によって異なる音源から放射される直接音による寄与が考慮されるため、残響抑圧精度を向上させることができる。

上述した（３）の構成によれば、選択した適応音響モデルに対応した距離を選択することで、収音部から音源までの距離を推定することができる。
上述した（４）の構成によれば、選択した距離に基づいて第１の音響モデルと第２の音響モデルから残響環境に応じた音響モデルが予測される。予測された音響モデルを用いて音声認識処理が行われるため音声認識精度が向上する。

本発明の実施形態に係る音声処理装置の配置例を示す平面図である。本実施形態に係る音声処理装置の構成を示すブロック図である。係数算出処理の例を示すフローチャートである。本実施形態に係る補正データ生成部の構成を示すブロック図である。本実施形態に係る残響特性選択部の構成を示すブロック図である。本実施形態に係る残響モデルデータ生成処理を示すフローチャートである。本実施形態に係る音声処理を示すフローチャートである。ＲＴＦの測定環境の例を示す平面図である。平均ＲＴＦの例を示す図である。ＲＴＦの利得の例を示す図である。処理方法毎の単語認識率の一例を示す図である。処理方法毎の単語認識率の他の例を示す図である。本実施形態の変形例に係る音声処理装置の構成を示すブロック図である。本変形例に係る音声処理を示すフローチャートである。

以下、図面を参照しながら本発明の実施形態について説明する。
図１は、本実施形態に係る音声処理装置１１の配置例を示す平面図である。
この配置例では、残響環境として部屋Ｒｍにおいて発話者Ｓｐが収音部１２（後述）の中心部から距離ｒだけ離れた位置に所在し、音声処理装置１１が収音部１２に接続されていることを示す。部屋Ｒｍは、到来した音波を反射する内壁を有する。収音部１２は、音源として発話者Ｓｐから直接到来した音声と、内壁を反射した音声を収録する。音源から直接到来した音声、反射した音声を、それぞれ直接音（ｄｉｒｅｃｔｓｏｕｎｄ）、反射音（ｒｅｆｌｅｃｔｉｏｎ）と呼ぶ。反射音のうち、直接音が発されてからの経過時間が所定の時間よりも比較的短く（例えば、約３０ｍｓ以下）、反射回数が比較的少なくそれぞれの反射パターンが区別される部分は、初期反射（ｅａｒｌｙｒｅｆｌｅｃｔｉｏｎ）と呼ばれる。反射音のうち、それよりも経過時間が長く、反射回数が多くそれぞれの反射パターンを区別できない部分は、後期反射（ｌａｔｅｒｅｆｌｅｃｔｉｏｎ）、後期残響（ｌａｔｅｒｅｖｅｒｂｅｒａｔｉｏｎ）又は単に残響（ｒｅｖｅｒｂｅｒａｔｉｏｎ）と呼ばれる。初期反射と後期反射とを区分する時間は、部屋Ｒｍの大きさによっても異なるが、音声認識においては処理単位となるフレーム長がその時間に相当する。前フレームで処理した直接音及び初期反射に係る後期反射が、現フレームの処理に影響することによる。

一般に、音源が収音部１２に近接する（ｒが小さい）ほど、音源からの直接音が主となり相対的に残響の割合が少なくなる。また、残響成分のうち周波数が低い成分ほど含まれる割合が多い。以下の説明では、収音部１２で収録される音声のうち、発話者Ｓｐが収音部１２に近接しているために残響成分が無視できるほど少ない音声を近接発話音声（ｃｌｏｓｅ−ｔａｌｋｉｎｇｓｐｅｅｃｈ）と呼ぶことがある。つまり、近接発話音声は、残響成分を含まない又は無視できるほど少ない音声であるクリーン音声（ｃｌｅａｎｓｐｅｅｃｈ）の一態様である。これに対し、発話者Ｓｐが収音部１２から離れているために残響成分を有意に含んでいる音声を遠隔発話音声（ｄｉｓｔａｎｔ−ｔａｌｋｉｎｇｓｐｅｅｃｈ）と呼ぶことがある。従って、「遠隔」とは、必ずしも距離ｒが大きいことに限られない。

音声処理装置１１は、複数の残響特性のそれぞれについて、当該残響特性による残響成分の寄与を示す補正データと、当該残響特性による残響が付加された残響付加音声で学習した適応音響モデルを生成し、これらを対応付けて記憶する。音声処理装置１１は、収録した音声について前記適応音響モデルに基づく尤度を算出し、算出した尤度が最も大きい適応音響モデルに対応する補正データを選択し、選択した補正データに基づいて前記音声から残響成分を除去する。そして、音声処理装置１１は、残響成分を除去音声について音声認識処理を行う。

ここで、複数の残響特性において、収音部１２と音源までの距離に反比例する成分の寄与がそれぞれ異なる。また、音源が収音部１２に近接するほど相対的に残響の割合が少なくなり、周波数が低いほど残響の割合が、周波数が低いほど少ないという特性がある。音声処理装置１１は、このような特性を有する残響特性を合成し、合成した残響特性を用いる。
これにより、残響特性を逐次に計測しなくても音声認識精度を向上する残響抑圧を実現できる。

収音部１２は、１個又は複数（Ｎ個、Ｎは０よりも大きい整数）のチャネルの音響信号を収録し、収録したＮチャネルの音響信号を音声処理装置１１に送信する。収音部１２には、Ｎ個のマイクロホンがそれぞれ異なる位置に配置されている。収音部１２は、収録したＮチャネルの音響信号を無線で送信してもよいし、有線で送信してもよい。Ｎが１よりも大きい場合には、送信の際にチャネル間で音響信号が同期していればよい。収音部１２の位置は、固定されていてもよいし、車両、航空機、ロボット等の移動体に設置され、移動が可能であってもよい。

次に、本実施形態に係る音声処理装置１１の構成について説明する。
図２は、本実施形態に係る音声処理装置１１の構成を示すブロック図である。
音声処理装置１１は、残響特性合成部１０１、音声信号取得部１０２、残響付加部１０３、音響モデル適応部１０４、補正データ生成部１０５、残響特性選択部１０６、音源分離部１０７、特徴量算出部１０８、残響除去部１０９、及び音声認識部１１０を含んで構成される。

残響特性合成部１０１は、予め定めた残響モデルに基づいて目標とする距離ｒ’に応じた残響特性Ａ’_［ｒ］ ^ｋΔ（ω，ｒ’）を示す残響特性データを合成する。ｋは、その反比例する成分の寄与の度合いを示す整数、Δは、ｋによる寄与の度合いの幅を示す実数、ωは周波数を示す。ｋは、１からＫ（１より大きい予め定めた整数、例えば、５）までの値である。Ｋ、Δは、予め動作確認もしくは事前学習を行って定めておく。残響特性合成部１０１は、合成した残響特性データを残響付加部１０３及び補正データ生成部１０５に出力する。この残響モデルでは、残響特性Ａ’_［ｒ］ ^ｋΔ（ω，ｒ’）が距離ｒ’に応じて反比例する成分を含むと仮定されている。この残響特性データを合成する処理（残響特性合成処理）については後述する。

音声信号取得部１０２は、クリーン音声の音声信号を取得し、取得した音声信号を残響付加部１０３、補正データ生成部１０５に出力する。音声信号取得部１０２は、例えば、クリーン音声を示す音声信号が記憶されるデータベースである。音声信号取得部１０２は、音声処理装置１１の外部から音声信号を入力する音声インタフェースであってもよい。

残響付加部１０３は、音声信号取得部１０２から入力された時間領域の音声信号を予め定めた時間間隔（例えば、１０ｍｓ）で周波数領域の周波数領域係数ｓ（ω）に変換して、周波数領域係数を示す周波数領域係数データを生成する。残響付加部１０３は、変換した周波数領域係数に残響特性合成部１０１から入力された残響特性データを示す残響特性Ａ’_［ｒ］ ^ｋΔ（ω，ｒ’）をそれぞれ乗じて、残響が付加された音声（残響付加音声、ｒｅｖｅｒｂｅｄｓｐｅｅｃｈ）の周波数領域係数ｓ_［ｒ］ ^ｋΔ（ω，ｒ’）を算出する。残響付加部１０３は、算出した周波数領域係数ｓ_［ｒ］ ^ｋΔ（ω，ｒ’）を示す残響付加周波数領域係数データを音響モデル適応部１０４に出力する。

音響モデル適応部１０４は、予めクリーン音声で尤度が最大になるように学習された音響モデルπ^（ｃ）を記憶させた記憶部（図示せず）を備える。音響モデルπ^（ｃ）は、例えば、混合ガウスモデル（ＧＭＭ：ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）である。音響モデル適応部１０４は、予め記憶した音響モデルπ^（ｃ）に対し、残響付加部１０３から入力された残響付加周波数領域係数データが示す周波数領域係数ｓ_［ｒ］ ^ｋΔ（ω，ｒ’）をそれぞれ用いて尤度が最大になる適応音響モデルπ_［ｒ］ ^ｋΔを生成する。
音響モデル適応部１０４は、適応音響モデルπ_［ｒ］ ^ｋΔを生成する際、例えば、最大尤度線形回帰法（ＭＬＬＲ：ＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎ）を用いる。これにより、比較的少量の学習用データを用いて適応音響モデルπ_［ｒ］ ^ｋΔを生成することができる。
音響モデル適応部１０４は、生成した適応音響モデルπ_［ｒ］ ^ｋΔを残響特性選択部１０６が有する残響モデル記憶部１０６１（図５）に記憶させる。音響モデルについては、後述する。

補正データ生成部１０５は、残響特性合成部１０１から入力された残響特性データに基づいて、各音源について予め定めた周波数帯域ｂ毎に重み係数（ｗｅｉｇｈｔｉｎｇｐａｒａｍｅｔｅｒｓ）δ_{ｂ，［ｒ］} ^ｋΔをそれぞれ算出する。ここで、ｂは、１からＢの間の整数、Ｂは予め定めた周波数帯域の数を示す１よりも大きい整数である。重み係数δ_{ｂ，［ｒ］} ^ｋΔは、残響付加音声のパワーのうち後期反射のパワーの割合を示す指標である。
補正データ生成部１０５は、重み係数δ_{ｂ，［ｒ］} ^ｋΔで補正した後期反射のパワーと残響付加音声のパワーの差が最小化されるように、重み係数δ_{ｂ，［ｒ］} ^ｋΔを算出する。補正データ生成部１０５は、算出した重み係数δ_{ｂ，［ｒ］} ^ｋΔを示す補正データを適応音響モデルπ_［ｒ］ ^ｋΔと対応付けて残響特性選択部１０６の残響モデル記憶部１０６１（図５）に記憶する。補正データ生成部１０５の構成については、後述する。

残響特性選択部１０６は、特徴量算出部１０８から入力された特徴量データが示す音響特徴量Ｔ［ｕ’］について、残響モデル記憶部１０６１に記憶されている音響モデルπ_［ｒ］ ^ｋΔ毎に尤度Ｐ（Ｔ［ｕ‘］｜π_［ｒ］ ^ｋΔ）を算出する。残響特性選択部１０６は、算出した尤度Ｐ（Ｔ［ｕ‘］｜π_［ｒ］ ^ｋΔ）が最大となる音響モデルπ_［ｒ］ ^ｋΔを選択し、選択した音響モデルπ_［ｒ］ ^ｋΔに対応する補正データを残響モデル記憶部１０６１から読み出す。読み出した補正データが示す重み係数δ_{ｂ，［ｒ］} ^ｋΔは、上述したように残響特性Ａ’_［ｒ］ ^ｋΔ（ω，ｒ’）からに基づいて得られた係数である。残響特性選択部１０６は、読み出した補正データを残響除去部１０９に出力する。残響特性選択部１０６の構成については、後述する。

音源分離部１０７は、収音部１２から入力されたＮチャネルの音響信号について音源分離処理を行って１個又は複数の音源の音響信号に分離する。音源分離部１０７は、分離した音源毎の音響信号を特徴量算出部１０８及び残響除去部１０９に出力する。
音源分離部１０７は、音源分離処理として、例えば、ＧＨＤＳＳ（Ｇｅｏｍｅｔｒｉｃ−ｃｏｎｓｔｒａｉｎｅｄＨｉｇｈｏｒｄｅｒＤｅｃｏｒｒｅｌａｔｉｏｎ−ｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）法を用いる。ＧＨＤＳＳ法は、１種のブラインド分離処理（ｂｌｉｎｄｄｅｃｏｎｖｏｌｕｔｉｏｎ）である。ＧＨＤＳＳ法については後述する。音源分離部１０７は、ＧＨＤＳＳ法に代えて、その他の音源分離処理、例えば、音源方向を推定し、推定した音源方向に感度が最も高くなるように指向性を制御する適応ビームフォーミング法（ａｄａｐｔｉｖｅｂｅａｍｆｏｒｍｉｎｇ）を用いてもよい。また、音源方向を推定する際、音源分離部１０７は、ＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）法を用いてもよい。

特徴量算出部１０８は、音源分離部１０７から入力された音響信号について予め定めた時間間隔（例えば、１０ｍｓ）毎に音響特徴量Ｔ（ｕ’）を算出する。音響特徴量は、例えば、静的メル尺度対数スペクトル（ｓｔａｔｉｃＭＳＬＳ：Ｍｅｌ−ＳｃａｌｅＬｏｇＳｐｅｃｔｒｕｍ）、デルタＭＳＬＳ及び１個のデルタパワーの組である。これらの係数の組は特性ベクトル（ｆｅａｔｕｒｅｖｅｃｔｏｒ）とも呼ばれる。
特徴量算出部１０８は、算出した音響特徴量Ｔ（ｕ’）を示す特徴量データを残響特性選択部１０６に出力する。

残響除去部１０９は、音源分離部１０７から入力された音響信号を周波数帯域ｂ毎の成分（周波数成分）に分離し、分離した周波数成分毎に残響特性選択部１０６から入力された補正データが示す重み係数δ_{ｂ，［ｒ］} ^ｋΔを用いて振幅を補正する。これにより、残響の一部である後期反射の成分が除去される。残響除去部１０９は、振幅を補正した帯域成分を周波数帯域ｂ間で合成して残響が除去された音声（残響除去音声、ｄｅｒｅｖｅｒｂｅｄｓｐｅｅｃｈ）を示す残響除去音声信号を生成する。残響除去部１０９は、入力された音響信号の振幅を補正する際に位相を変更しない。残響除去部１０９は、生成した残響除去音声信号を音声認識部１１０に出力する。

残響除去部１０９は、振幅を補正する際、残響除去音声信号の振幅｜ｅ（ω，ｔ）｜が例えば式（１）を満たすように算出する。

｜ｅ（ω，ｔ）｜^２＝｜ｒ（ω，ｔ）｜^２−δ_{ｂ，［ｒ］} ^ｋΔ｜ｒ（ω，ｔ）｜^２
（｜ｒ（ω，ｔ）｜^２−δ_{ｂ，［ｒ］} ^ｋΔ｜ｒ（ω，ｔ）｜^２）が０より大きい場合）
｜ｅ（ω，ｔ）｜^２＝β｜ｒ（ω，ｔ）｜^２（それ以外の場合） … （１）

式（１）において、ｒ（ω，ｔ）は、入力された音響信号の周波数領域係数を示す。式（１）の上段が示す処理により音響信号のパワーから後期反射の成分が除去される。式（１）の下段において、βは下限係数（ｆｌｏｏｒｉｎｇｃｏｅｆｆｉｃｉｅｎｔ）である。βは、１よりも０に近似した予め定めた正の微小な値（例えば、０．０５）である。このように、β｜ｒ（ω，ｔ）｜^２の項を設けて、残響除去音声信号において最低限の振幅を維持することで異音が検知されにくくなる。

音声認識部１１０は、残響除去部１０９から入力された残響除去音声信号について音声認識処理を行い、発話内容（例えば、単語、文を示すテキスト）を認識し、認識した発話内容を示す認識データを外部に出力する。
ここで、音声認識部１１０は、残響除去音声信号について予め定めた時間間隔（例えば、１０ｍｓ）毎に音響特徴量を算出する。音響特徴量は、例えば、特徴量算出部１０８で算出した特徴量と同様なもの、静的メル尺度対数スペクトル（ＭＳＬＳ：Ｍｅｌ−ＳｃａｌｅＬｏｇＳｐｅｃｔｒｕｍ）、デルタＭＳＬＳ及び１個のデルタパワーの組である。

音声認識部１１０は、算出した音響特徴量について予め設定された音響モデルλを用いて音素を認識する。音響モデルλは、例えば、連続隠れマルコフモデル（ｃｏｎｔｉｎｕｏｕｓＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）である。連続ＨＭＭは、出力分布密度が連続関数になっているモデルであり、その出力分布密度が複数の正規分布を基底として重み付け加算して示される。音響モデルλは、クリーン音声を用いて尤度が最大になるように学習されたものであってもよい。
音声認識部１１０は、認識した音素からなる音素列について予め設定された言語モデルを用いて発話内容を認識する。言語モデルは、音素列から単語や文を認識する際に用いられる統計モデルである。

（残響特性合成処理）
次に、残響特性合成部１０１における残響特性合成処理について説明する。
残響特性合成部１０１は、例えば、式（２）、（３）を用いて距離ｒ’に応じた残響伝達関数（ＲＴＦ：ＲｅｖｅｒｂｅｒａｔｉｏｎＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ）Ａ’（ω，ｒ’）を定める。ＲＴＦは、周波数ω毎の直接音のパワーに対する残響のパワーの比を示す係数であり、残響特性の一つの指標である。

Ａ’（ω，ｒ’）＝ｆ（ｒ’）Ａ（ω，ｒ） … （２）

式（２）において、ｆ（ｒ’）は、距離ｒ’に依存する利得である。Ａ（ω，ｒ）は、距離ｒに置かれた音源について予め測定されたＲＴＦを示す。距離ｒ’は、目標となる距離（目標距離）を示し、ＲＴＦを測定する距離ｒと区別して表記されている。ｆ（ｒ’）は、式（３）で表される。

ｆ（ｒ’）＝α_１／ｒ’＋α_２ … （３）

式（３）において、α_１、α_２は、それぞれ距離ｒ’に反比例する成分の寄与を示す係数、距離ｒ’に依存しない一定の成分の寄与を示す係数である。この距離ｒ’に反比例する成分の寄与は、直接音の寄与を示す。
式（２）、（３）は、（ｉ）部屋Ｒｍにおいて音源の位置によってＲＴＦの位相が変化しない、（ｉｉ）ＲＴＦの振幅は、距離ｒ’に反比例して減衰する成分を含む、という仮定（ｉ）（ｉｉ）に基づく。

具体的には、残響特性合成部１０１は、予め次に説明する処理を行って係数α_１、α_２を定めておく。
図３は、係数算出処理の例を示すフローチャートである。
（ステップＳ１０１）残響特性合成部１０１は、ｉ_ｄ個（ｉ_ｄは、１よりも大きい整数、例えば、３個）のＲＴＦＡ（ω，ｒ_ｉ）を予め計測しておく。距離ｒ_ｉ（ｉは、１からｉ_ｄまでの整数を示す）は、各々異なる距離である。例えば、収音部１２が複数のマイクロホンを備える場合には、既知の出力音響信号に基づく音を再生したとき、残響特性合成部１０１は、各マイクロホンが収録した音響信号を用いてＲＴＦＡ（ω，ｒ_ｉ）を取得することができる。その後、ステップＳ１０２に進む。

（ステップＳ１０２）残響特性合成部１０１は、取得したＲＴＦＡ（ω，ｒ_ｉ）のそれぞれについて、周波数間で平均して平均ＲＴＦ＜Ａ（ｒ_ｉ）＞を算出する。残響特性合成部１０１は、平均ＲＴＦ＜Ａ（ｒ_ｉ）＞を算出する際、例えば、式（４）を用いる。

式（４）において、｜…｜は、…の絶対値を示す。ｐは、各周波数を示すインデックス（ｆｒｅｑｕｅｎｃｙｂｉｎ）である。ｐ_ｈ、ｐ_ｌは、平均をとる周波数の区間の最高周波数、最低周波数を示すインデックスを示す。
その後、ステップＳ１０３に進む。

（ステップＳ１０３）残響特性合成部１０１は、平均ＲＴＦ＜Ａ（ｒ_ｉ）＞を式（２）、（３）で示される残響モデルに適合するように、係数α_１、α_２を算出する。残響特性合成部１０１は、例えば、式（５）を用いて係数α_１、α_２を算出する。

［α_１，α_２］^Ｔ＝（［Ｆ_ｙ］^Ｔ［Ｆ_ｙ］）^−１［Ｆ_ｙ］^Ｔ［Ｆ_ｘ］ … （５）

式（５）において、［…］は、ベクトル又は行列を示す。Ｔは、ベクトル又は行列の転置を示す。［Ｆ_ｘ］は、式（６）に示すように、距離の逆数１／ｒ_ｉと１からなるベクトルを各列に有する行列である。［Ｆ_ｙ］は、平均ＲＴＦ＜Ａ（ｒ_ｉ）＞を各列に有する行列である。

その後、図３に示す処理を終了する。
残響特性合成部１０１は、式（５）、（６）を用いて算出した係数α_１、α_２を式（３）に代入して、式（７）に示すように残響特性Ａ’_［ｒ］ ^ｋΔ（ω，ｒ’）の利得ｆ_ｋΔ（ｒ’）をｋ毎に算出する。

ｆ_ｋΔ（ｒ’）＝ｋ・Δ・α_１／ｒ’＋α_２ … （７）

式（７）は、距離ｒ’に反比例する成分が、式（３）における同じ成分のｋ・Δ倍である。
残響特性合成部１０１は、算出した利得ｆ_ｋΔ（ｒ’）とＲＴＦＡ（ω，ｒ）に基づいて、式（８）を用いて残響特性Ａ’_［ｒ］ ^ｋΔ（ω，ｒ’）をｋ毎に算出する。

Ａ’_［ｒ］ ^ｋΔ＝ｆ_ｋΔ（ｒ’）Ａ（ω，ｒ） … （８）

式（８）は、式（３）のｆ（ｒ’）をｆ_ｋΔ（ｒ’）に置き換えた式である。つまり、式（７）を用いてｋ毎に利得ｆ_ｋΔ（ｒ’）を変更することで、距離ｒ’に反比例する成分の寄与を変化させて、Ｋ個の残響特性Ａ’_［ｒ］ ^ｋΔ（ω，ｒ’）に多重化することができる。これにより、擬似的にＫ個の距離ｒ’による特性が異なる残響特性Ａ’_［ｒ］ ^ｋΔ（ω，ｒ’）を合成することができる。

（音響モデル）
まず、音響モデル適応部１０４で扱われる音響モデルπ^（ｃ）として、例えば、ＧＭＭについて説明する。ＧＭＭは、入力された音響特徴量に対する出力確率を複数（例えば、２５６個）の正規分布を基底として重みづけ加算して表す音響モデルの一種である。従って、音響モデルπ^（ｃ）は、混合重み係数、平均値、共分散行列といった統計量で規定される。また、出力確率を算出する際に用いられる正規分布の組（ｍｉｘｔｕｒｅ）が所定のクラス毎に分類されている。

音響モデル適応部１０４は、ＭＬＬＲを用いて残響特性Ａ’_［ｒ］ ^ｋΔ（ω，ｒ’）毎に、２種類の変換行列［Ｗ_ｍｃ ^ｋΔ］、［Ｈ_ｍｃ ^ｋΔ］を定めることができる。ここで、ｃは、それぞれクラスを示し、ｍ_ｃはクラスｃにおける正規分布の組を示す。［…］は、…が行列又はベクトルであることを示す記号である。これらの変換行列は、音響モデルπ^（ｃ）を残響特性Ａ’_［ｒ］ ^ｋΔ（ω，ｒ’）に係る適応音響モデルπ_［ｒ］ ^ｋΔに変換する行列である。変換行列［Ｗ_ｍｃ ^ｋΔ］、［Ｈ_ｍｃ ^ｋΔ］は、それぞれ式（９）、（１０）に示す関係を有する。

［μ_ｍｃ ^ｋΔ］＝［Ｗ_ｍｃ ^ｋΔ］［ζ_ｍｃ］ … （９）

［Σ_ｍｃ ^ｋΔ］＝［Ｂ_ｍｃ］^Ｔ［Ｈ_ｍｃ ^ｋΔ］［Ｂ_ｍｃ］ … （１０）

式（９）において、［μ_ｍｃ ^ｋΔ］は、平均ベクトル（ｍｅａｎｖｅｃｔｏｒ）を示す。平均ベクトル［μ_ｍｃ ^ｋΔ］は、適応音響モデルπ_［ｒ］ ^ｋΔを形成する正規分布の平均値を要素として有するベクトルである。［ζ_ｍｃ］は、拡張平均ベクトル（ｅｘｔｅｎｄｅｄｍｅａｎｖｅｃｔｏｒ）である。拡張平均ベクトル［ζ_ｍｃ］は、バイアスオフセット値（ｂｉａｓｏｆｆｓｅｔ）ｗと平均ベクトル［μ_ｍｃ ^（ｃ）］を結合したベクトル、つまり［ｗ，［μ_ｍｃ ^（ｃ）］^Ｔ］^Ｔと表されるベクトルである。バイアスオフセット値ｗは、１又は０の値であり、それぞれバイアスオフセットを用いるか否かを示す。平均ベクトル［μ_ｍｃ ^（ｃ）］は、もとの音響モデルπ_［ｒ］ ^（ｃ）を形成する正規分布の平均値を要素として有するベクトルである。

式（１０）において、［Σ_ｍｃ ^ｋΔ］は、共分散行列（ｃｏｖａｒｉａｎｃｅｍａｔｒｉｘ）を示す。共分散行列［Σ_ｍｃ ^ｋΔ］は、適応音響モデルπ_［ｒ］ ^ｋΔを形成する正規分布の共分散を要素として有するベクトルである。［Ｂ_ｍｃ］は、コレスキ因子（Ｃｈｏｌｅｓｋｉｆａｃｔｏｒ）の逆行列［Ｃ_ｍｃ］^−１である。コレスキ因子［Ｃ_ｍｃ］は、共分散行列［Σ_ｍｃ］と式（１１）に示す関係を有する。

［Σ_ｍｃ］^−１＝［Ｃ_ｍｃ］［Ｃ_ｍｃ］^Ｔ … （１１）

共分散行列［Σ_ｍｃ］は、もとの音響モデルπ_［ｒ］ ^（ｃ）を形成する正規分布の共分散行列を要素として有する行列である。
従って、音響モデル適応部１０４は、もとの音響モデルπ_［ｒ］ ^（ｃ）について、式（９）、（１０）に示す関係を用いて残響特性Ａ’_［ｒ］ ^ｋΔ（ω，ｒ’）毎に適応音響モデルπ_［ｒ］ ^ｋΔに変換することができる。

（補正データ生成部１０５の構成）
次に、本実施形態に係る補正データ生成部１０５の構成について説明する。
図４は、本実施形態に係る補正データ生成部１０５の構成を示すブロック図である。
補正データ生成部１０５は、後期反射特性設定部１０５１、残響特性設定部１０５２、２つの乗算部１０５３−１、１０５３−２、及び重み算出部１０５４を備える。

後期反射特性設定部１０５１は、残響特性合成部１０１から入力された残響特性データが示すＲＴＦＡ’_［ｒ］ ^ｋΔ（ω，ｒ’）に係る後期反射特性として後期反射の伝達関数Ａ’_{Ｌ，［ｒ］} ^ｋΔ（ω，ｒ’）を乗算部１０５３−１に乗算係数として設定する。
ここで、後期反射特性設定部１０５１は、ＲＴＦＡ’_［ｒ］ ^ｋΔ（ω，ｒ’）を時間領域に変換したインパルス応答を算出し、算出したインパルス応答から所定の経過時間（例えば、３０ｍｓ）よりも後の成分を抽出する。後期反射特性設定部１０５１は、抽出した成分を周波数領域に変換して後期反射特性の伝達関数Ａ’_{Ｌ，［ｒ］} ^ｋΔ（ω，ｒ’）を算出することができる。
残響特性設定部１０５２は、残響特性合成部１０１から入力された残響特性データが示すＲＴＦＡ’_［ｒ］ ^ｋΔ（ω，ｒ’）を乗算部１０５３−２に乗算係数として設定する。

乗算部１０５３−１、１０５３−２は、音声信号取得部１０２からそれぞれ入力された音声信号を周波数領域に変換した周波数領域係数と、それぞれに設定された乗算係数を乗算し、残響付加音声の周波数領域係数ｒ_［ｒ］ ^ｋΔ（ω，ｒ’，ｔ）、後期反射の周波数領域係数ｌ_［ｒ］ ^ｋΔ（ω，ｒ’ｔ）を算出する。ここで、ｔは、その時点におけるフレーム時刻を示す。乗算部１０５３−１、１０５３−２は、算出した残響付加音声の周波数領域係数ｒ_［ｒ］ ^ｋΔ（ω，ｒ’ｔ）、後期反射の周波数領域係数ｌ_［ｒ］ ^ｋΔ（ω，ｒ’ｔ）を、それぞれ重み算出部１０５４に出力する。

重み算出部１０５４は、乗算部１０５３−１、１０５３−２から残響付加音声の周波数領域係数ｒ_［ｒ］ ^ｋΔ（ω，ｒ’ｔ）、後期反射の周波数領域係数ｌ_［ｒ］ ^ｋΔ（ω，ｒ’ｔ）がそれぞれ入力される。重み算出部１０５４は、周波数帯域ｂ毎に残響付加音声の周波数領域係数ｒ_［ｒ］ ^ｋΔ（ω，ｒ’ｔ）と後期反射の周波数領域係数ｌ_［ｒ］ ^ｋΔ（ω，ｒ’ｔ）との間の平均二乗誤差（ｍｅａｎｓｑｕａｒｅｅｒｒｏｒ）Ｅ_{ｂ，［ｒ］} ^ｋΔが最も小さくなる重み係数δ_{ｂ，［ｒ］} ^ｋΔを算出する。平均二乗誤差Ｅ_{ｂ，［ｒ］} ^ｋΔは、例えば、式（１２）で表される。

式（１２）において、Ｔ_０は、その時点までの予め定めた時間長（例えば、１０秒）を示す。重み算出部１０５４は、周波数帯域ｂ毎に算出した重み係数δ_{ｂ，［ｒ］} ^ｋΔを示す補正データを残響特性選択部１０６の残響モデル記憶部１０６１（図５）に記憶する。

（残響特性選択部１０６の構成）
次に、本実施形態に係る残響特性選択部１０６の構成について説明する。
図５は、本実施形態に係る残響特性選択部１０６の構成を示すブロック図である。
残響特性選択部１０６は、残響モデル記憶部１０６１、尤度算出部１０６２、及び補正データ読出部１０６３を含んで構成される。

残響モデル記憶部１０６１には、音響モデル適応部１０４が生成した適応音響モデルπ_［ｒ］ ^ｋΔと補正データ生成部１０５が生成した補正データが対応付けて記憶されている。
尤度算出部１０６２は、特徴量算出部１０８から入力された特徴量データが示す音響特徴量Ｔ［ｕ’］について、残響モデル記憶部１０６１に記憶された音響モデルπ_［ｒ］ ^ｋΔのそれぞれについて尤度Ｐ（Ｔ［ｕ’］｜π_［ｒ］ ^ｋΔ）を算出し、算出した尤度Ｐ（Ｔ［ｕ‘］｜π_［ｒ］ ^ｋΔ）を補正データ読出部１０６３に出力する。

補正データ読出部１０６３は、尤度算出部１０６２から入力された尤度Ｐ（Ｔ［ｕ’］｜π_［ｒ］ ^ｋΔ）のうち最大となる尤度ｍａｘ（Ｐ（Ｔ［ｕ’］｜π_［ｒ］ ^ｋΔ））に係る音響モデルπ_［ｒ］ ^ｋΔを選択する。補正データ読出部１０６３は、選択した音響モデルπ_［ｒ］ ^ｋΔに対応付けられた補正データを残響モデル記憶部１０６１から読み出し、読み出した補正データを残響除去部１０９に出力する。

（ＧＨＤＳＳ法）
次に、音源分離部１０７で用いられるＧＨＤＳＳ法について説明する。
ＧＨＤＳＳ法は、収録された多チャネルの音響信号を音源毎の音響信号に分離する一つの方法である。この方法では、分離行列（ｓｅｐａｒａｔｉｏｎｍａｔｒｉｘ）［Ｖ（ω）］が逐次に算出され、入力音声ベクトル［ｘ（ω）］に分離行列［Ｖ（ω）］を乗算して音源ベクトル［ｕ（ω）］が推定される。分離行列［Ｖ（ω）］は、各音源から収音部１２の各マイクロホンまでの伝達関数を要素とする伝達関数行列［Ｈ（ω）］の擬似逆行列（ｐｓｅｕｄｏ−ｉｎｖｅｒｓｅｍａｔｒｉｘ）である。入力音声ベクトル［ｘ（ω）］は、各チャネルの音響信号の周波数領域係数を要素とするベクトルである。音源ベクトル［ｕ（ω）］は、各音源が発する音響信号の周波数領域係数を要素とするベクトルである。

ＧＨＤＳＳ法は、分離行列［Ｖ（ω）］を算出する際、分離尖鋭度（ｓｅｐａｒａｔｉｏｎｓｈａｒｐｎｅｓｓ）Ｊ_ＳＳ、幾何制約度（ｇｅｏｍｅｔｒｉｃｃｏｎｓｔｒａｉｎｔｓ）Ｊ_ＧＣといった２つのコスト関数をそれぞれ最小化するように音源ベクトル［ｕ（ω）］を算出する方法である。

分離尖鋭度Ｊ_ＳＳは、１つの音源が他の音源として誤って分離される度合いを表す指標値であり、例えば、式（１３）で表される。

式（１３）において、||…||^２は、…のフロベニウスノルム（Ｆｒｏｂｅｎｉｕｓｎｏｒｍ）を示す。＊は、ベクトル又は行列の共役転置（ｃｏｎｊｕｇａｔｅｔｒａｎｓｐｏｓｅ）を示す。ｄｉａｇ（…）は、…の対角要素からなる対角行列（ｄｉａｇｏｎａｌｍａｔｒｉｘ）を示す。

幾何制約度Ｊ_ＧＣは、音源ベクトル［ｕ（ω）］の誤差の度合いを表す指標値であり、例えば、式（１４）で表される。

式（１４）において、［Ｉ］は、単位行列（ｕｎｉｔｍａｔｒｉｘ）を示す。

（残響モデルデータ生成処理）
次に、本実施形態に係る残響モデルデータ生成処理について説明する。次に説明する残響モデルデータ生成処理は、後述する音声処理を行う前に予め実行しておく。
図６は、本実施形態に係る残響モデルデータ生成処理を示すフローチャートである。
（ステップＳ２０１）残響特性合成部１０１は、予め定めた残響モデルに基づいて目標とする距離ｒ’に応じた残響特性Ａ’_［ｒ］ ^ｋΔ（ω，ｒ’）を示す残響特性データを合成する。残響特性合成部１０１は、合成した残響特性データを残響付加部１０３及び補正データ生成部１０５に出力する。その後、ステップＳ２０２に出力する。
（ステップＳ２０２）残響付加部１０３は、音声信号取得部１０２から入力された時間領域の音声信号を周波数領域の周波数領域係数に変換し、変換した周波数領域係数に残響特性合成部１０１から入力された残響特性データを示す残響特性Ａ’_［ｒ］ ^ｋΔ（ω，ｒ’）をそれぞれ乗じて、残響付加音声の周波数領域係数ｓ_［ｒ］ ^ｋΔ（ω，ｒ’）を算出する。算出した周波数領域係数ｓ_［ｒ］ ^ｋΔ（ω，ｒ’）を示す残響付加周波数領域係数データを音響モデル適応部１０４に出力する。その後、ステップＳ２０４に出力する。

（ステップＳ２０３）音響モデル適応部１０４は、予め記憶した音響モデルπ^（ｃ）に対し、残響付加部１０３から入力された残響付加周波数領域係数データが示す変換係数ｓ_［ｒ］ ^ｋΔ（ω，ｒ’）をそれぞれ用いて尤度が最大になる適応音響モデルπ_［ｒ］ ^ｋΔを生成する。音響モデル適応部１０４は、生成した適応音響モデルπ_［ｒ］ ^ｋΔを残響モデル記憶部１０６１に記憶する。その後、ステップＳ２０３に出力する。
（ステップＳ２０４）補正データ生成部１０５は、残響特性合成部１０１から入力された残響特性データに基づいて、各音源について予め定めた周波数帯域ｂ毎に重み係数δ_{ｂ，［ｒ］} ^ｋΔをそれぞれ算出する。ここで、重み係数δ_{ｂ，［ｒ］} ^ｋΔは、重み係数δ_{ｂ，［ｒ］} ^ｋΔで補正した後期反射のパワーと残響付加音声のパワーの差が最小化されるように算出される。補正データ生成部１０５は、算出した重み係数δ_{ｂ，［ｒ］} ^ｋΔを示す補正データを適応音響モデルπ_［ｒ］ ^ｋΔと対応付けて残響モデル記憶部１０６１に記憶する。その後、図６に示す処理を終了する。

（音声処理）
次に、本実施形態に係る音声処理について説明する。
図７は、本実施形態に係る音声処理を示すフローチャートである。
（ステップＳ３０１）音源分離部１０７は、収音部１２から入力されたＮチャネルの音響信号について音源分離処理を行って１個又は複数の音源の音響信号に分離する。音源分離部１０７は、分離した音源毎の音響信号を特徴量算出部１０８及び残響除去部１０９に出力する。その後、ステップＳ３０２に進む。
（ステップＳ３０２）特徴量算出部１０８は、音源分離部１０７から入力された音響信号について予め定めた時間間隔毎に音響特徴量Ｔ（ｕ’）を算出し、算出した音響特徴量Ｔ（ｕ’）を示す特徴量データを残響特性選択部１０６に出力する。その後、ステップＳ３０３に進む。

（ステップＳ３０３）残響特性選択部１０６は、特徴量算出部１０８から入力された特徴量データが示す音響特徴量Ｔ［ｕ’］について、残響モデル記憶部１０６１が記憶する音響モデルπ_［ｒ］ ^ｋΔに基づく尤度Ｐ（Ｔ［ｕ’］｜π_［ｒ］ ^ｋΔ）をそれぞれ算出する。残響特性選択部１０６は、算出した尤度Ｐ（Ｔ［ｕ’］｜π_［ｒ］ ^ｋΔ）が最大となる音響モデルπ_［ｒ］ ^ｋΔを選択し、選択した音響モデルπ_［ｒ］ ^ｋΔに対応する補正データを残響モデル記憶部１０６１から読み出す。読み出した補正データを残響除去部１０９に出力する。その後、ステップＳ３０４に進む。

（ステップＳ３０４）残響除去部１０９は、音源分離部１０７から入力された音響信号を周波数帯域ｂ毎の成分に分離し、分離した周波数帯域成分毎に残響特性選択部１０６から入力された補正データが示す重み係数δ_{ｂ，［ｒ］} ^ｋΔを用いて振幅を補正する。残響除去部１０９は、振幅を補正した帯域成分を周波数帯域ｂ間で合成して残響除去音声を示す残響除去音声信号を生成し、生成した残響除去音声信号を音声認識部１１０に出力する。その後、ステップＳ３０５に進む。
（ステップＳ３０５）音声認識部１１０は、残響除去部１０９から入力された残響除去音声信号について音声認識処理を行い、発話内容を認識し、認識した発話内容を示す認識データを外部に出力する。その後、図７に示す処理を終了する。

（ＲＴＦの実測例）
次に、ＲＴＦの実測例について説明する。
図８は、ＲＴＦの測定環境の例を示す平面図である。
ＲＴＦは、既知の音響信号に基づく音を音源から発し、収音部１２で収録した音響信号を用いて得ることができる。図８において、収音部１２の中心を黒丸で示し、音源の位置を収音部１２から右方に向う線分Ｔ０の×印で示す。ここで、距離ｒは０．５ｍ、１．０ｍ、１．５ｍ、２．０ｍ、２．５ｍである。

測定は、異なる残響特性を有する２つの実験室Ｒｍ１、Ｒｍ２でそれぞれ行った、実験室Ｒｍ１、Ｒｍ２の残響時間（ｒｅｖｅｒｂｅｒａｔｉｏｎｔｉｍｅ）Ｔ_６０は、それぞれ２４０ｍｓ、６４０ｍｓである。Ｔ_６０は、ＲＴＦが最大値から−６０ｄＢに低減するまでの経過時間である。各実験室において、収音部１２を起点とする線分Ｔ１−Ｔ６の×印で示す各計測位置でＲＴＦを計測しておく。線分Ｔ１、Ｔ２、Ｔ３の方向は、線分Ｔ０から右回りに２０°、４０°、６０°の方向である。線分Ｔ４、Ｔ５、Ｔ６の方向は、線分Ｔ０から左回りに２０°、４０°、６０°の方向である。

図９は、平均ＲＴＦの例を示す図である。
横軸はサンプル数、縦軸は平均ＲＴＦを示す。この例では、１サンプルは、１フレームに相当する。図９において、距離ｒが０．５ｍ、０．６ｍ、０．７ｍ、０．９ｍ、１．０ｍ、１．５ｍ、２．０ｍ、２．５ｍのそれぞれについて、平均ＲＴＦが曲線で示されている。平均ＲＴＦは、距離ｒが大きくなるに従って低下する。例えば、距離ｒが０．５ｍ、１．０ｍ、２．０ｍであるとき、平均ＲＴＦは、それぞれ１．４×１０^−８、０．３３×１０^−８、０．０８×１０^−８となり、距離ｒの増加に応じて減少する。また、距離ｒにかかわらず、第１００サンプルよりも後のサンプルで、平均ＲＴＦがほぼ０に低下する。この点は、位相が距離ｒに依存しないこと、つまり上述した仮定（ｉ）を裏付ける。

図１０は、ＲＴＦの利得の例を示す図である。
横軸は距離、縦軸は利得を示す。この例では、ＲＴＦの利得について、実測値が＋印で示され、上述した残響モデルによる推定値が実線で示される。実測値は、推定値の周囲に分散し、距離ｒが小さいほど分散が大きくなる傾向がある。しかしながら、各距離ｒでの実測値の最大値、最小値同士も距離ｒにほぼ反比例する。例えば、実測値の最大値は、距離０．５ｍ、１．０、２．０ｍ、それぞれについて３．６、１．７、０．８となる。従って、これらの実測値は、係数α_１、α_２を調整することで推定値に近似できる。この点は、上述した仮定（ｉｉ）を裏付ける。

（実験結果）
次に、本実施形態に係る音声処理装置１１を用いて音声認識精度を検証した実験結果について説明する。
実験は、上述した実験室Ｒｍ１、Ｒｍ２それぞれで行った。発話回数は、ＲＴＦを測定した各計測位置について２００回であり、認識対象の語彙数は２万語である。音声認識部１１０では、音響モデルとして連続ＨＭＭの一種である、計８２５６個の正規分布からなるＰＴＭ（ＰｈｏｎｅｔｉｃａｌｌｙＴｉｅｄＭｉｘｔｕｒｅ、音素内タイドミクスチャ）ＨＭＭを用いた。音響モデルを学習させる際、クリーン音声の学習用データベース（ｔｒａｉｎｉｎｇｄａｔａｂａｓｅ）として日本語新聞記事文（ＪＮＡＳ：ＪａｐａｎｅｓｅＮｅｗｓｐａｐｅｒＡｒｔｉｃｌｅＳｅｎｔｅｎｃｅ）コーパス（ｃｏｒｐｕｓ）を用いた。音声認識部１１０で用いた言語モデルは、標準単語トライグラムモデル（ｓｔａｎｄａｒｄｗｏｒｄｔｒｉｇｒａｍｍｏｄｅｌ）である。

実験では、次の６通りの方法で発話された音声を処理し、処理した音声を用いて音声認識を行い、単語認識率を観測した。Ａ．処理を行わない（ｕｎｐｒｏｃｅｓｓｅｄ）、Ｂ．既存のブラインド残響除去（ｂｌｉｎｄｄｅｒｅｖｅｒｂｅｒａｔｉｏｎ）、Ｃ．従来のスペクトラルサブトラクション、Ｄ．残響除去部１０９による後期反射成分の除去（本実施形態）、Ｅ．残響除去部１０９による後期反射成分の除去と音響モデル適応部１０４によって選択した補正データの使用（本実施形態）、Ｆ．実測したＲＴＦを用いた反響除去。

（単語認識率の例）
図１１、図１２は、処理方法毎の単語認識率の例を示す図である。
図１１、図１２には、それぞれ実験室Ｒｍ１、Ｒｍ２で得られた単語認識率（単位は％）が示されている。各行は発話された音声の処理方法（方法Ａ−Ｆ）を示し、各列は距離ｒ’を示す。
実験室Ｒｍ１、Ｒｍ２との間では、残響時間がより長い実験室Ｒｍ２の方が、単語認識率が低い。また、同一の実験室同士については、距離が大きくなるほど単語認識率が低い。単語認識率は、方法Ａ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆの順に高くなる。例えば、実験室Ｒｍ１、距離ｒ’＝２．５ｍの場合、本実施形態に係る方法Ｄでの５０．８％は、従来技術に係る方法Ｃの４６．１％よりも有意に高い。この結果は、上述した残響モデルに基づいた残響除去により従来技術よりも音声認識率が向上することを示す。
また、本実施形態に係る方法Ｅでの５５．４％は、方法Ｄでの５０．８％よりも有意に高く、方法Ｆでの５６．１％とほぼ同等である。このことから、上述した音響モデルに基づいて選択した補正データを用いた残響除去により、残響特性を測定しなくとも残響特性が十分に除去された場合と同等な高い音声認識率を得ることができる。

以上に説明したように、本実施形態に係る音声処理装置（例えば、音声処理装置１１）は、複数の残響特性のそれぞれについて、当該残響特性による残響成分の寄与を示す補正データと、当該残響特性による残響が付加された残響付加音声で学習した適応音響モデルとを対応付け、収録した音声について適応音響モデルに基づく尤度を算出し、算出した尤度が最も大きい適応音響モデルに対応する補正データを選択する残響特性選択部（例えば、残響特性選択部１０６）と、補正データに基づいて音声から残響成分を除去する残響除去部（例えば、残響除去部１０９）と、を備える。
このため、本実施形態に係る音声処理装置では、収録した音声について最も尤度が大きい適応音響モデルに係る残響特性を示す補正データが選択され、その補正データが示す残響成分が音声から除去される。従って、残響特性を計測しなくても音声認識精度を向上する残響抑圧を実現できる。

また、本実施形態に係る音声処理装置は、複数の残響特性において、音源からの音声を収録する収音部と前記音源までの距離に反比例する成分の寄与がそれぞれ異なる。このため、残響特性を合成する際に、収音部から音源までの距離によって異なる音源から放射される直接音による寄与を考慮することができるため、残響抑圧精度を向上させることができる。

（変形例）
次に、本実施形態に係る変形例について説明する。上述した実施形態と同一の構成については、同一の符号を付して説明を援用する。
図１３は、本変形例に係る音声処理装置１１ａの構成を示すブロック図である。
音声処理装置１１ａは、残響特性合成部１０１ａ、音声信号取得部１０２、残響付加部１０３、音響モデル適応部１０４、補正データ生成部１０５、残響特性選択部１０６ａ、音源分離部１０７、特徴量算出部１０８、残響除去部１０９、音声認識部１１０及び音響モデル更新部（音響モデル予測部）１１１ａを含んで構成される。
即ち、音声処理装置１１ａは、音声処理装置１１（図２）において、残響特性合成部１０１及び残響特性選択部１０６に代えて、残響特性合成部１０１ａ及び残響特性選択部１０６ａを備える。また、音声処理装置１１ａは、さらに音響モデル更新部１１１ａを備える。

残響特性合成部１０１ａは、上述した残響モデルに基づいて複数のそれぞれ異なる距離ｒ_ｋ’に応じた残響特性Ａ’_［ｒ］（ω，ｒ_ｋ’）を示す残響特性データを合成する。
具体的には、残響特性合成部１０１ａは、上述した係数算出処理（図３）を行って係数α_１、α_２を定め、定めた係数α_１、α_２を式（３）に代入して、式（１５）に示すように残響特性Ａ’_［ｒ］（ω，ｒ_ｋ’）の利得ｆ（ｒ_ｋ’）を算出する。

ｆ（ｒ_ｋ’）＝α_１／ｒ_ｋ’＋α_２ … （１５）

残響特性合成部１０１は、式（１６）に示すように算出した利得ｆ（ｒ_ｋ’）と予め取得したＲＴＦＡ（ω，ｒ）を乗じて残響特性Ａ’_［ｒ］（ω，ｒ_ｋ’）を算出する。

Ａ’_［ｒ］（ω，ｒ_ｋ’）＝ｆ（ｒ_ｋ’）Ａ（ω，ｒ） … （１６）

式（１５）の第１項のα_１／ｒ_ｋ’は、式（７）のｋ・Δ・α_１／ｒ’から置き換えられている。つまり、式（１５）の第１項は、距離ｒ_ｋ’の関数として明示される。このことは、後述する距離ｒ_ｋ’を陽に用いる処理を行ううえで好都合である。

残響特性合成部１０１ａは、合成した残響特性データを残響付加部１０３、補正データ生成部１０５に出力する。残響付加部１０３、音響モデル適応部１０４、及び補正データ生成部１０５は、上述した処理において残響特性Ａ’_［ｒ］ ^ｋΔ（ω，ｒ’）を示す。ここでは、残響特性データの代わりに残響特性Ａ’_［ｒ］（ω，ｒ_ｋ’）を示す残響特性データを用いる。

従って、残響特性選択部１０６ａには、音響モデル適応部１０４が生成した適応音響モデルπ_［ｒ］ ^ｋと補正データ生成部１０５が生成した補正データが入力される。適応音響モデルπ_［ｒ］ ^ｋは、残響特性Ａ’_［ｒ］（ω，ｒ_ｋ’）に基づく残響付加周波数領域係数データを用いて尤度が最大になるように学習された音響モデルである。また、この補正データは、残響特性Ａ’_［ｒ］（ω，ｒ_ｋ’）について後期反射のパワーと残響付加音声のパワーの差が最小化されるように定められた重み係数δ_{ｂ，［ｒ］} ^ｋを示すデータである。

残響特性選択部１０６ａは、残響モデル記憶部１０６１ａ（図示せず）、尤度算出部１０６２（図５）及び補正データ読出部１０６３ａ（図示せず）を含んで構成される。
残響モデル記憶部１０６１ａには、音響モデル適応部１０４が生成した適応音響モデルπ_［ｒ］ ^ｋ、補正データ生成部１０５が生成した補正データ及び距離ｒ’を示す距離データが対応付けて記憶される。
従って、尤度算出部１０６２は、残響モデル記憶部１０６１ａに記憶された音響モデルπ_［ｒ］ ^ｋのそれぞれについて尤度Ｐ（Ｔ［ｕ’］｜π_［ｒ］ ^ｋ）を算出し、算出した尤度Ｐ（Ｔ［ｕ’］｜π_［ｒ］ ^ｋ）を補正データ読出部１０６３ａに出力する。

補正データ読出部１０６３ａは、尤度算出部１０６２から入力された尤度Ｐ（Ｔ［ｕ’］｜π_［ｒ］ ^ｋ）のうち最大となる尤度ｍａｘ（Ｐ（Ｔ［ｕ’］｜π_［ｒ］ ^ｋ））に係る音響モデルπ_［ｒ］ ^ｋを選択する。補正データ読出部１０６３ａは、選択した音響モデルπ_［ｒ］ ^ｋΔに対応付けられた補正データと距離データを残響モデル記憶部１０６１ａから読み出す。補正データ読出部１０６３ａは、読み出した補正データを残響除去部１０９に出力し、読み出した距離データを音響モデル更新部１１１ａに出力する。以下の説明では、読み出した距離データが示す距離をｒ’と表す。これにより、検出するためのハードウェアを具備しなくても、距離ｒ’を検出することができる。

音響モデル更新部１１１ａには、クリーン音声（即ち、距離ｒ）を用いて学習して生成された音響モデルλ^（ｃ）と、予め定めた距離ｒで発話された音声を用いて尤度が最大化されるように学習して生成された音響モデルλ^（ｒ）とが予め記憶されている記憶部を備える。音響モデルλ^（ｃ）、λ^（ｒ）は、上述した、クリーン音声による音響モデルπ_［ｒ］ ^（ｃ）、適応音響モデルπ_［ｒ］ ^ｋΔ、π_［ｒ］ ^ｋΔとは別個である。これらを区別するために、音響モデルλ^（ｃ）、λ^（ｒ）を、認識モデルλ^（ｃ）、λ^（ｒ）と呼ぶ。

音響モデル更新部１１１ａは、記憶された２つの認識モデルλ^（ｃ）、λ^（ｒ）を用いて残響特性選択部１０６ａから入力された距離データが示す距離ｒ’に基づいて予測（ｐｒｅｄｉｃｔ）して認識モデルλ’を生成する。ここで、符号（ｃ）、（ｒ）は、それぞれクリーン音声、距離ｒで発話された残響付加音声を示す。予測とは、補間（ｉｎｔｅｒｐｏｌａｔｉｏｎ）と外挿（ｅｘｔｒａｐｏｌａｔｉｏｎ）のいずれも含む概念である。音響モデル更新部１１１ａは、生成した認識モデルλ’を音声認識部１１０に出力し、音声認識部１１０が用いていた認識モデルをこの認識モデルλ’に更新する。これにより、音声認識部１１０は、音響モデル更新部１１１ａが生成した音響モデルλ’を用いて音声認識処理を行う。ここでは、認識モデルλ^（ｃ）、λ^（ｒ）を、それぞれクリーン音響モデルλ^（ｃ）、残響付加音響モデルλ^（ｒ）と呼んで区別することがある。

（認識モデルを予測する処理）
次に、認識モデルを予測する処理について説明する。
認識モデルλ^（ｃ）、λ^（ｒ）は、音響特徴量に基づいて音素を認識する際に用いられる。認識モデルλ^（ｃ）、λ^（ｒ）は、例えば、連続隠れマルコフモデル（ｃｏｎｔｉｎｕｏｕｓＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）である。連続ＨＭＭは、出力分布密度が連続関数になっているモデルであり、その出力分布密度が複数の正規分布を基底として重み付け加算して示される。例えば、残響付加音響モデルλ^（ｒ）は、例えば、正規分布毎の混合重み係数（ｍｉｘｔｕｒｅｗｅｉｇｈｔ）［Ｃ_ｉｍ ^（ｒ）］、平均値（ｍｅａｎ）［μ_ｉｍ ^（ｒ）］、共分散行列（ｃｏｖａｒｉａｎｃｅｍａｔｒｉｘ）［Σ_ｉｍ ^（ｒ）］、遷移確率（ｔｒａｎｓｉｔｉｏｎｐｒｏｂａｂｉｌｉｔｙ）ａ_ｉｊ ^（ｒ）といった統計量（ｓｔａｔｉｓｔｉｃｓ）で規定される。ここで、ｉ、ｊは、それぞれ現在の状態、遷移先の状態を示すインデックスである。ｍは、上述した周波数帯域を示すインデックスである。クリーン音響モデルλ^（ｃ）も、残響付加音響モデルλ^（ｒ）と同じ種類の統計量［Ｃ_ｉｍ ^（ｃ）］、μ_ｉｍ ^（ｃ）、［Σ_ｉｍ ^（ｃ）］、ａ_ｉｊ ^（ｃ）で規定される。

混合重み係数Ｃ_ｉｍ ^（ｒ）、平均値［μ_ｉｍ ^（ｒ）］、共分散行列［Σ_ｉｍ ^（ｒ）］、遷移確率ａ_ｉｊ ^（ｒ）は、累積混合要素占有確率（Ｐｒｏｂａｂｉｌｉｔｙｏｆａｃｃｕｍｕｌａｔｅｄｍｉｘｔｕｒｅｃｏｍｐｏｎｅｎｔｏｃｃｕｐａｎｃｙ）Ｌ_ｉｍ ^（ｒ）、状態占有確率（Ｐｒｏｂａｂｉｌｉｔｙｏｆｓｔａｔｅｏｃｃｕｐａｎｃｙ）Ｌ_ｉｊ ^（ｒ）、平均（ｍｅａｎ）［ｍ_ｉｊ ^（ｒ）］、分散（ｖａｒｉａｎｃｅ）［ｖ_ｉｊ ^（ｒ）］、といった十分統計量で表され、式（１７）−（２０）に示す関係を有する。

Ｃ_ｉｍ ^（ｒ）＝Ｌ_ｉｍ ^（ｒ）／Σ_ｍ＝１ ^ＭＬ_ｉｍ ^（ｒ） … （１７）

［μ_ｉｍ ^（ｒ）］＝［ｍ_ｉｊ ^（ｒ）］／Ｌ_ｉｍ ^（ｒ） … （１８）

［Σ_ｉｍ ^（ｒ）］＝［ｖ_ｉｊ ^（ｒ）］／Ｌ_ｉｍ ^（ｒ）−［μ_ｉｍ ^（ｒ）］［μ_ｉｍ ^（ｒ）］^Ｔ … （１９）

ａ_ｉｊ ^（ｒ）＝Ｌ_ｉｊ ^（ｒ）／Σ_ｊ＝１ ^ＪＬ_ｉｊ ^（ｒ） … （２０）

式（２０）において、ｉ、ｊは、それぞれ現在の状態、遷移先の状態を示すインデックスであり、Ｊは、遷移先の状態の数を示す。以下の説明では、累積混合要素占有確率Ｌ_ｉｍ ^（ｒ）、状態占有確率Ｌ_ｉｊ ^（ｒ）、平均［ｍ_ｉｊ ^（ｒ）］、分散［ｖ_ｉｊ ^（ｒ）］を事前確率（ｐｒｉｏｒｓ）β^（ｒ）と総称する。

音響モデル更新部１１１ａは、認識モデルλ^（ｒ）、λ^（ｃ）を用いて、認識モデルλ^（ｒ）を基準として距離ｒ’に応じた係数τ（ｒ’）で線形予測（補間又は外挿）して音響モデルλ’を生成する。音響モデル更新部１１１ａは、音響モデルλ’を生成する際、例えば、式（２１）−（２４）を用いる。

式（２１）−（２４）において、Ｌ_ｉｍ ^（ｃ）、Ｌ_ｉｊ ^（ｃ）、［ｍ_ｉｊ ^（ｃ）］、［ｖ_ｉｊ ^（ｃ）］は、それぞれクリーン音響モデルλ^（ｃ）での累積混合要素占有確率、状態占有確率、平均、分散であり、事前確率β^（ｃ）と総称する。係数τ（ｒ’）は、ｒ’＝０のとき０となり、ｒ’が大きくなるほど係数τ（ｒ’）が減少する関数である。また、ｒ’が０に近づくほど係数τ（ｒ’）は無限大に漸近する。
事前確率β^（ｃ）はパワーレベルが増加することに伴い増加するため、距離ｒ’に応じて変動する。式（２１）−（２４）に示すように、これらの統計量に基づいて線形予測を行うことで音響モデルλ’が高精度で予測される。従って、音声認識部１１０が、予測された音響モデルλ’を用いて音声認識処理を行うことで認識率が向上する。

次に、本変形例に係る音声処理について説明する。
図１４は、本変形例に係る音声処理を示すフローチャートである。
図１４に示す音声処理は、ステップＳ３０１、Ｓ３０２、Ｓ３０３ａ、Ｓ３０４、Ｓ３０５及びＳ３０６ａを有する。即ち、この音声処理は、図７に示す音声処理において、ステップＳ３０３に代えてステップＳ３０３ａを有し、さらにステップＳ３０６ａを有する。
この音声処理では、ステップＳ３０１、Ｓ３０２が行われた後、ステップＳ３０３ａに進む。

（ステップＳ３０３ａ）残響特性選択部１０６ａは、特徴量算出部１０８から入力された特徴量データが示す音響特徴量Ｔ［ｕ’］について、予め記憶された音響モデルπ_［ｒ］ ^ｋのそれぞれについて尤度Ｐ（Ｔ［ｕ’］｜π_［ｒ］ ^ｋ）を算出する。残響特性選択部１０６ａは、算出した尤度Ｐ（Ｔ［ｕ’］｜π_［ｒ］ ^ｋ）が最大となる尤度ｍａｘ（Ｐ（Ｔ［ｕ’］｜π_［ｒ］ ^ｋ））に係る音響モデルπ_［ｒ］ ^ｋに対応付けられた補正データと距離データを特定する。残響特性選択部１０６ａは、特定した補正データを残響除去部１０９に出力し、特定した距離データを音響モデル更新部１１１ａに出力する。その後、ステップＳ３０４に進む。ステップＳ３０４が行われた後、ステップＳ３０６ａに進む。

（ステップＳ３０６ａ）音響モデル更新部１１１ａは、２つの認識モデルλ^（ｃ）、λ^（ｒ）を用いて残響特性選択部１０６ａから入力された距離データが示す距離ｒ’に基づいて予測して認識モデルλ’を生成する。音響モデル更新部１１１ａは、音声認識部１１０に生成した認識モデルλ’を設定する。その後、ステップＳ３０５を行い、図１４に示す処理を終了する。

なお、音声処理装置１１ａは、音響モデル更新部１１１ａに限らず、距離ｒ’に応じた他の処理を行う構成を備えてもよい。距離ｒ’に応じた他の処理を行う構成とは、例えば、距離ｒ’に応じて他の音源から取得した音響信号の音量を制御する音量制御部（図示せず）である。また、そのような構成は、距離ｒ’が予め定めた距離の閾値よりも大きくなったとき、音声認識部１１０における音声認識処理を停止する認識制御部（図示せず）であってもよい。

このように、本変形例では、距離を検出するためのハードウェアを具備せずに、残響環境下で発声された音声に基づいて、その音声の音源である距離ｒ’を検出できる。その距離ｒ’に応じて認識モデルの予測等、種々の制御を行うことができる。
ここで、本変形例に係る音声処理装置（例えば、音声処理装置１１ａ）は、予め定めた距離に係る残響特性による残響が付加された残響付加音声で学習した第１の音響モデル（例えば、残響付加音響モデル）と、残響を無視できる環境下での音声を用いて学習された第２の音響モデル（例えば、クリーン音響モデル）から、残響特性選択部（例えば、残響特性選択部１０６ａ）で選択された距離データが示す距離に応じた音響モデルを予測する音響モデル予測部（例えば、音響モデル更新部１１１ａ）と、予測された音響モデルを用いて、残響が除去された音声に対して音声認識処理を行う音声認識部（例えば、音声認識部１１０）を備える。
このため、本変形例によれば、クリーン音響モデルと残響付加音響モデルから選択した距離に基づいて残響環境に応じた音響モデルが予測され、予測された音響モデルを用いて音声認識処理が行われるため音声認識精度が向上する。

なお、上述した実施形態において、残響特性合成部１０１は、残響特性Ａ’_［ｒ］ ^ｋΔ（ω，ｒ’）を生成する際、距離ｒ’に反比例する成分に代え、又はこれとともに、距離ｒ’によらない一定の成分（例えば、式（３）における係数α_２の項）について多重化してもよい。
なお、上述した実施形態、変形例において、収音部１２が備えるマイクロホンの個数Ｎが１である場合には、音源分離部１０７は省略されてもよい。
上述した音声処理装置１１、１１ａは、収音部１２と一体化されていてもよい。

なお、上述した実施形態において、尤度算出部１０６２は、残響モデル記憶部１０６１に記憶された適応音響モデルπ_［ｒ］ ^ｋΔのうち少なくとも２個を選択し、選択した適応音響モデルについて予測処理を行ってもよい。この予測処理において、尤度算出部１０６２は、選択した適応音響モデルをそれぞれ形成する統計量について各適応音響モデルの寄与を示す予測係数で重み付け演算を行う。尤度算出部１０６２は、重み付け演算が行われた統計量から予測された適応音響モデルを形成する。その場合、尤度算出部１０６２は、予測された適応音響モデルに基づいて、特徴量算出部１０８から入力された特徴量データが示す音響特徴量Ｔ［ｕ’］について尤度を算出する。そして、補正データ読出部１０６３は、算出した尤度が最大となる適応音響モデルの組と、予測係数を選択する。
そして、補正データ読出部１０６３は、選択した適応音響モデルの組のそれぞれに対応する補正データが示す重み係数δ_{ｂ，［ｒ］} ^ｋΔについて、選択した予測係数を用いて予測処理を行って重み係数を算出する。補正データ読出部１０６３は、算出した重み係数を示す補正データを残響除去部１０９に出力する。
これにより、予め離散的に設定された重み係数δ_{ｂ，［ｒ］} ^ｋΔが残響環境に応じて平滑化されるため、残響除去精度が向上し、ひいては音声認識精度が向上する。

また、上述した変形例でも、尤度算出部１０６２は、残響モデル記憶部１０６１ａに記憶された適応音響モデルπ_［ｒ］ ^ｋのうち少なくとも２個を選択し、選択した適応音響モデルについて予測処理を行ってもよい。尤度算出部１０６２は、予測された適応音響モデルに基づいて、特徴量算出部１０８から入力された特徴量データが示す音響特徴量Ｔ［ｕ’］について尤度を算出し、算出した尤度が最大となる適応音響モデルの組と、予測係数を選択する。補正データ読出部１０６３ａは、選択した適応音響モデルの組のそれぞれに対応する補正データが示す重み係数δ_{ｂ，［ｒ］} ^ｋについて、選択した予測係数を用いて予測処理を行って重み係数を算出し、算出した重み係数を示す補正データを残響除去部１０９に出力する。これにより、残響除去精度が向上し、ひいては音声認識精度が向上する。

上述した変形例において、補正データ読出部１０６３ａは、選択した適応音響モデルの組のそれぞれに対応する距離データが示す距離ｒ’について予測処理に用いた係数を用いて予測処理を行って距離を算出し、算出した距離を示す距離データを音響モデル更新部１１１ａに出力してもよい。
これにより、予め離散的に設定された距離が残響環境に応じて平滑化されるため、距離の推定精度が向上し、この距離を用いて予測した音響モデルを用いることで音声認識精度が向上する。

なお、上述した実施形態及び変形例における音声処理装置１１、１１ａの一部、例えば、残響特性合成部１０１、１０１ａ、音声信号取得部１０２、残響付加部１０３、音響モデル適応部１０４、補正データ生成部１０５、残響特性選択部１０６、１０６ａ、音源分離部１０７、特徴量算出部１０８、残響除去部１０９、音声認識部１１０及び音響モデル更新部１１１ａをコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音声処理装置１１、１１ａに内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態及び変形例における音声処理装置１１、１１ａの一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現してもよい。音声処理装置１１、１１ａの各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１１、１１ａ…音声処理装置、
１０１、１０１ａ…残響特性合成部、１０２…音声信号取得部、１０３…残響付加部、
１０４…音響モデル適応部、１０５…補正データ生成部、
１０５１…後期反射特性設定部、１０５２…残響特性設定部、
１０５３（１０５３−１、１０５３−２）…乗算部、１０５４…重み算出部、
１０６、１０６ａ…残響特性選択部、
１０６１、１０６１ａ…残響モデル記憶部、１０６２…尤度算出部、
１０６３、１０６３ａ…補正データ読出部、
１０７…音源分離部、１０８…特徴量算出部、１０９…残響除去部、１１０…音声認識部、
１１１ａ…音響モデル更新部（音響モデル予測部）
１２…収音部

Claims

複数の残響特性のそれぞれについて、当該残響特性による残響成分の寄与を示す補正データと、当該残響特性による残響が付加された残響付加音声で学習した適応音響モデルとを対応付け、収録した音声について前記適応音響モデルに基づく尤度を算出し、算出した尤度が最も大きい適応音響モデルに対応する補正データを選択する残響特性選択部と、
前記補正データに基づいて前記音声から残響成分を除去する残響除去部と、
を備えることを特徴とする音声処理装置。
前記複数の残響特性は、音源からの音声を収録する収音部と前記音源までの距離に反比例する成分の寄与がそれぞれ異なることを特徴とする請求項１に記載の音声処理装置。
前記残響特性選択部は、前記補正データ及び前記適応音響モデルにそれぞれの残響特性に係る前記距離を示す距離データを対応付け、前記算出した尤度が最も大きい適応音響モデルに対応する距離データを選択することを特徴とする請求項２に記載の音声処理装置。
予め定めた距離に係る残響特性による残響が付加された残響付加音声で学習した第１の音響モデルと、残響を無視できる環境下での音声を用いて学習された第２の音響モデルから、前記残響特性選択部が選択した距離データが示す距離に応じた音響モデルを予測する音響モデル予測部と、
前記音響モデル予測部が予測した音響モデルを用いて、前記音声について音声認識処理を行う音声認識部と、
を備えることを特徴とする請求項３に記載の音声処理装置。
音声処理装置における音声処理方法において、
複数の残響特性のそれぞれについて当該残響特性による残響が付加された残響付加音声で学習した適応音響モデルに基づく尤度を、収録した音声について算出し、算出した尤度が最も大きい適応音響モデルに対応する補正データを前記複数の残響特性のそれぞれについて前記適応音響モデルと補正データを対応付けて記憶した記憶部から選択する残響特性選択ステップと、
前記補正データに基づいて前記音声から残響成分を除去する残響除去ステップと、
を有する音声処理方法。
音声処理装置のコンピュータに、
複数の残響特性のそれぞれについて当該残響特性による残響が付加された残響付加音声で学習した適応音響モデルに基づく尤度を、収録した音声について算出し、算出した尤度が最も大きい適応音響モデルに対応する補正データを前記複数の残響特性のそれぞれについて前記適応音響モデルと補正データを対応付けて記憶した記憶部から選択する残響特性選択手順、
前記補正データに基づいて前記音声から残響成分を除去する残響除去手順、
を実行させるための音声処理プログラム。