JP6077957B2

JP6077957B2 - 音声処理装置、音声処理方法、及び音声処理プログラム

Info

Publication number: JP6077957B2
Application number: JP2013143078A
Authority: JP
Inventors: 一博中臺; 圭佑中村; ランディゴメス
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2013-07-08
Filing date: 2013-07-08
Publication date: 2017-02-08
Anticipated expiration: 2033-07-08
Also published as: JP2015019124A; US20150012269A1; US9646627B2

Description

本発明は、音声処理装置、音声処理方法、及び音声処理プログラムに関する。

室内で放射された音は、壁面や設置物で反射が繰り返されることによって残響が生じる。残響が付加されると周波数特性が原音声から変化するため音声認識率が低下することがある。また、過去に発された音声が現在発されている音声に重畳するため明瞭度が低下することがある。そこで、残響環境下で収録した音声から残響成分を抑圧する残響抑圧技術が従来から開発されている。

例えば、特許文献１には、逆フィルタ処理部で適応的に同定した帰還経路のインパルス応答を用いて残響空間の伝達関数を求め、残響音声信号を伝達関数の大きさで除算することにより音源信号を復元する残響除去方法について記載されている。特許文献１に記載の残響除去方法では、残響のインパルスレスポンスを推定するが、残響時間は０．２〜２．０秒と比較的長いため、演算量が過大になり処理遅延が著しくなる。そのため、音声認識への応用が広がらなかった。

非特許文献１、２には、音響モデルを用いて算出した尤度に基づき、周波数帯域毎の補正係数を算出し、音響モデルを学習させる方法について記載されている。これらの方法では、残響環境下で収録した音声の各周波数帯域の成分を算出した補正係数で補正し、学習した音響モデルで音声認識を行う。

特許第４３９６４４９公報

Ｒ．ＧｏｍｅｚａｎｄＴ．Ｋａｗａｈａｒａ，"ＯｐｔｉｍｉｚａｔｉｏｎｏｆＤｅｒｅｖｅｒｂｅｒａｔｉｏｎＰａｒａｍｅｔｅｒｓｂａｓｅｄｏｎＬｉｋｅｌｉｈｏｏｄｏｆＳｐｅｅｃｈＲｅｃｏｇｎｉｚｅｒ"，ＩＮＴＥＲＳＰＥＥＣＨ，Ｓｐｅｅｃｈ＆ＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ＩｎｔｅｒｎａｔｉｏｎａｌＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎＡｓｓｏｃｉａｔｉｏｎ，２００９，１２２３−１２２６Ｒ．ＧｏｍｅｚａｎｄＴ．Ｋａｗａｈａｒａ，"ＲｏｂｕｓｔＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎｂａｓｅｄｏｎＤｅｒｅｖｅｒｂｅｒａｔｉｏｎＰａｒａｍｅｔｅｒＯｐｔｉｍｉｚａｔｉｏｎｕｓｉｎｇＡｃｏｕｓｔｉｃＭｏｄｅｌＬｉｋｅｌｉｈｏｏｄ"，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ＆ＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥ，２０１０，１８（７），１７０８−１７１６

しかしながら、非特許文献１、２に記載の方法では、音源と収音部との位置関係が、補正係数や音響モデルを定めたときに用いたものと異なる場合、収録した音声から残響成分を適正に推定することができなかったため残響抑圧精度が低下していた。例えば、音源が発話者である場合には、移動することによって収音部で収録される音声の音量が変動するため残響成分の推定精度が低下することがあった。

本発明は上記の点に鑑みてなされたものであり、残響抑圧精度を向上する音声処理装置、音声処理方法、及び音声処理プログラムを提供する。

（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、音源からの音声を収録する収音部と、予め定めた複数の距離のそれぞれからの音声を用いて学習された音響モデルを有し、前記音源までの距離として前記収音部が収録した音声について最も尤度が高くなる音響モデルに対応した距離を定める距離取得部と、前記残響特性推定部が推定した残響特性から残響成分の寄与を示す補正データを生成する補正データ生成部と、前記補正データに基づいて前記音声の振幅を補正することにより前記音声から残響成分を除去する残響除去部と、を備えることを特徴とする音声処理装置である。

（２）本発明のその他の態様は、前記残響特性推定部が、前記距離取得部が取得した距離に反比例する成分を含む残響特性を推定することを特徴とする（１）の音声処理装置である。
（３）本発明のその他の態様は、前記残響特性推定部が、予め計測した残響特性に基づいて定めた前記反比例する成分の寄与を示す係数を用いて前記残響特性を推定することを特徴とする（２）の音声処理装置である。

（４）本発明のその他の態様は、前記補正データ生成部が、予め定めた周波数帯域毎に前記補正データを生成し、前記残響除去部が、周波数帯域毎の振幅をそれぞれ対応する周波数帯域の補正データを用いて補正することを特徴とする（１）から（３）のいずれかの音声処理装置である。

（５）本発明のその他の態様は、前記音声処理装置は、残響が付加された予め定めた距離からの音声を用いて学習された第１の音響モデルと、残響を無視できる環境での音声を用いて学習された第２の音響モデルから、前記距離取得部が取得した距離に応じた第３の音響モデルを予測する音響モデル予測部と、前記音響モデル予測部が予測した第３の音響モデルを用いて音声認識処理を行う音声認識部と、をさらに備えることを特徴とする（１）から（４）のいずれかの音声処理装置である。

（６）本発明のその他の態様は、音声処理装置における音声処理方法において、予め定めた複数の距離のそれぞれからの音声を用いて学習された音響モデルのそれぞれに対し収音部が収録した音声について尤度を算出し、音源までの距離として最も尤度が高くなる音響モデルに対応した距離を定める距離取得ステップと、前記距離取得ステップで取得した距離に応じた残響特性を推定する残響特性推定ステップと、前記残響特性推定ステップで推定した残響特性から残響成分の寄与を示す補正データを生成する補正データ生成ステップと、前記補正データに基づいて前記音声の振幅を補正することにより前記音声から残響成分を除去する残響除去ステップと、を有する音声処理方法である。

（７）本発明のその他の態様は、音声処理装置のコンピュータに、予め定めた複数の距離のそれぞれからの音声を用いて学習された音響モデルのそれぞれに対し収音部が収録した音声について尤度を算出し、音源までの距離として最も尤度が高くなる音響モデルに対応した距離を定める距離取得手順、前記距離取得手順で取得した距離に応じた残響特性を推定する残響特性推定手順、前記残響特性推定手順で推定した残響特性から残響成分の寄与を示す補正データを生成する補正データ生成手順、前記補正データに基づいて前記音声の振幅を補正することにより前記音声から残響成分を除去する残響除去手順、を実行させるための音声処理プログラムである。

上述した（１）、（６）又は（７）の構成によれば、収録された音声から、その都度取得した距離に応じて推定した残響特性が示す残響成分が除去されるので、残響抑圧精度が向上する。また、取得した音声に基づいて、予め学習した音響モデルを用いて音源から収音部までの距離を取得することができるため、距離の取得のためのハードウェアを備えずに残響抑圧精度が向上する。
上述した（２）の構成によれば、残響特性が音源から収音部までの距離に反比例する直接音成分を含むことを仮定することで、精度を損なうことなく少ない演算量で残響特性を推定することができる。
上述した（３）の構成によれば、その時点の残響特性をさらに少ない演算量で推定することができる。
上述した（４）の構成によれば、周波数帯域毎に推定した残響特性に基づいて残響成分が除去されるので、残響抑圧精度が向上する。

上述した（５）の構成によれば、音源から収音部までの取得された距離に基づいて予測された音響モデルが音声認識処理に用いられるため、その距離に応じた残響環境下での音声認識精度が向上する。

本発明の第１の実施形態に係る音声処理装置の配置例を示す平面図である。本実施形態に係る音声処理装置の構成を示す概略ブロック図である。係数算出処理の例を示すフローチャートである。本実施形態に係る補正データ生成部の構成を示す概略ブロック図である。本実施形態に係る音声処理を示すフローチャートである。平均ＲＴＦの例を示す図である。ＲＴＦの利得の例を示す図である。音響モデルの一例を示す図である。処理方法毎の単語認識率の一例を示す図である。処理方式毎の単語認識率の他の例を示す図である。処理方式毎の単語認識率の他の例を示す図である。本発明の第２の実施形態に係る音声処理装置の構成を示す概略ブロック図である。本実施形態に係る距離検出部の構成を示す概略ブロック図である。本実施形態に係る距離検出処理を示すフローチャートである。処理方法毎の単語認識率の一例を示す図である。処理方法毎の単語認識率の他の例を示す図である。距離の正答率の例を示す図である。本実施形態の変形例に係る音声処理装置の構成を示す概略ブロック図である。本変形例に係る音声処理を示すフローチャートである。

（第１の実施形態）
以下、図面を参照しながら本発明の第１の実施形態について説明する。
図１は、本実施形態に係る音声処理装置１１の配置例を示す平面図である。
この配置例では、残響環境として部屋Ｒｍにおいて発話者Ｓｐが収音部１２からの距離ｄだけ離れた位置に所在し、音声処理装置１１が収音部１２に接続されていることを示す。部屋Ｒｍは、到来した音波を反射する内壁を有する。収音部１２は、音源として発話者Ｓｐから直接到来した音声と、内壁を反射した音声を収録する。音源から直接到来した音声、反射した音声を、それぞれ直接音（ｄｉｒｅｃｔｓｏｕｎｄ）、反射音（ｒｅｆｌｅｃｔｉｏｎ）と呼ぶ。反射音のうち、直接音が発されてからの経過時間が所定の時間よりも比較的短く（例えば、約３０ｍｓ以下）、反射回数が比較的少なくそれぞれの反射パターンが区別される区間は、初期反射（ｅａｒｌｙｒｅｆｌｅｃｔｉｏｎ）と呼ばれる。反射音のうち、初期反射よりも経過時間が長く、反射回数が多くそれぞれの反射パターンを区別できない区間は、後期反射（ｌａｔｅｒｅｆｌｅｃｔｉｏｎ）、後期残響（ｌａｔｅｒｅｖｅｒｂｅｒａｔｉｏｎ）又は単に残響（ｒｅｖｅｒｂｅｒａｔｉｏｎ）と呼ばれる。一般的に、初期反射と後期反射とを区分する時間は、部屋Ｒｍの大きさによって異なるが、例えば、音声認識では処理単位となるフレーム長がその時間に相当する。前フレームで処理した直接音及び初期反射に係る後期反射が、現フレームの処理に影響するためである。

一般に、音源が収音部１２に近接する（距離ｄが小さい）ほど、音源からの直接音が主となり相対的に残響の割合が少なくなる。以下の説明では、収音部１２で収録される音声のうち、発話者Ｓｐが収音部１２に近接しているために残響成分が無視できるほど少ない音声を近接発話音声（ｃｌｏｓｅ−ｔａｌｋｉｎｇｓｐｅｅｃｈ）と呼ぶことがある。つまり、近接発話音声は、残響成分を含まない又は無視できるほど少ない音声であるクリーン音声（ｃｌｅａｎｓｐｅｅｃｈ）の一態様である。これに対し、発話者Ｓｐが収音部１２から離れているために残響成分を有意に含んでいる音声を遠隔発話音声（ｄｉｓｔａｎｔ−ｔａｌｋｉｎｇｓｐｅｅｃｈ）と呼ぶことがある。従って、「遠隔」とは、必ずしも距離ｄが大きいことに限られない。

音声処理装置１１は、距離検出部１０１（後述）が検出した音源から収音部１２までの距離に応じた残響特性を推定し、推定した残響特性から残響成分の寄与を示す補正データを生成する。音声処理装置１１は、生成した補正データに基づいて収録した音声の振幅を補正することにより残響成分を除去し、残響成分を除去した音声について音声認識処理を行う。以下の説明では、残響特性とは後期反射だけではなく、後期反射と初期反射との組み合わせの特性、又は後期反射と初期反射と直接音との組み合わせの特性も意味する。

ここで、音声処理装置１１は、音源が収音部１２に近接するほど相対的に残響の割合が少なくなるという残響特性を推定し、周波数によって残響成分の割合が異なるという特性を利用して残響成分を除去する。
これにより、残響特性を逐次に計測しなくても音源までの距離に応じた残響特性を推定できるので、入力音声に推定した残響特性を付与した残響を的確に推定することができる。音声処理装置１１は、入力音声から推定した残響を除去して得られた残響除去音声の残響抑圧精度を向上ざせることができる。なお、以下の説明では、残響環境下で収録された音声や、残響成分を付加した音声を残響付加音声（ｒｅｖｅｒｂｅｄｓｐｅｅｃｈ）と総称する。

収音部１２は、１個又は複数（Ｎ個、Ｎは０よりも大きい整数）のチャネルの音響信号を収録し、収録したＮチャネルの音響信号を音声処理装置１１に送信する。収音部１２には、Ｎ個のマイクロホンがそれぞれ異なる位置に配置されている。収音部１２は、収録したＮチャネルの音響信号を無線で送信してもよいし、有線で送信してもよい。Ｎが１よりも大きい場合には、チャネル間で同期がとれていればよい。収音部１２の位置は、固定されていてもよいし、車両、航空機、ロボット等の移動体に設置され、移動が可能であってもよい。

次に、本実施形態に係る音声処理装置１１の構成について説明する。
図２は、本実施形態に係る音声処理装置１１の構成を示す概略ブロック図である。
音声処理装置１１は、距離検出部（距離取得部）１０１、残響推定部１０２、音源分離部１０５、残響除去部１０６、音響モデル更新部（音響モデル予測部）１０７、及び音声認識部１０８を含んで構成される。

距離検出部１０１は、音源から収音部１２の中心部までの距離ｄ’を検出し、検出した距離ｄ’を示す距離データを残響推定部１０２及び音響モデル更新部１０７に出力する。以下の説明では、距離検出部１０１が検出した距離ｄ’と、予め定めた距離ｄや一般的な説明での距離ｄと、を区別する。距離検出部１０１は、例えば、赤外線センサを備える。その場合、距離検出部１０１は、距離の検出に用いる検出用信号として赤外線を放射し、音源からの反射波を受信する。距離検出部１０１は、放射した検出用信号と受信した反射波との間の遅延時間を検出する。距離検出部１０１は、検出した遅延時間と光速に基づいて音源までの距離を算出する。

距離検出部１０１は、音源までの距離を検出することができれば、赤外線センサの代わりに、超音波センサ等、他の検出手段を備えてもよい。また、距離検出部１０１は、音源分離部１０５に入力された音響信号のチャネル間の位相差と、各チャネルに対応するマイクロホンの位置に基づいて音源までの距離を算出してもよい。
残響推定部１０２は、距離検出部１０１から入力された距離データが示す距離ｄ’に応じた残響特性を推定する。残響推定部１０２は、推定した残響特性を除去する（ｄｅｒｅｖｅｒｂｅ）ための補正データを生成し、生成した補正データを残響除去部１０６に出力する。残響推定部１０２は、残響特性推定部１０３と補正データ生成部１０４とを含んで構成される。

残響特性推定部１０３は、予め定めた残響モデルに基づいて距離データが示す距離ｄ’に応じた残響特性を推定し、推定した残響特性を示す残響特性データを補正データ生成部１０４に出力する。
ここで、残響特性推定部１０３は、残響特性の指標として距離検出部１０１から入力された距離データが示す距離ｄ’に応じた残響伝達関数（ＲＴＦ：ＲｅｖｅｒｂｅｒａｔｉｏｎＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ）Ａ’（ω，ｄ’）を推定する。ＲＴＦは、周波数ω毎の直接音のパワーに対する残響のパワーの比を示す係数である。
ＲＴＦＡ’（ω，ｄ’）を推定する際、残響特性推定部１０３は、予め定めた距離ｄについて周波数ω毎に予め計測したＲＴＦＡ（ω，ｄ）を用いる。残響特性を推定する処理については後述する。

補正データ生成部１０４は、残響特性推定部１０３から入力された残響特性データと音源分離部１０５から入力された音源毎の音響信号に基づいて、各音源について予め定めた周波数帯域Ｂ_ｍ毎に重み係数（ｗｅｉｇｈｔｉｎｇｐａｒａｍｅｔｅｒｓ）δ_ｂ，ｍを算出する。ここで、ｍは、１からＭの間の整数である。Ｍは予め定めた帯域数を示す１よりも大きい整数である。重み係数δ_ｂ，ｍは、残響付加音声のパワーのうち残響の一部である後期反射のパワーの寄与を示す指標である。補正データ生成部１０４は、重み係数δ_ｂ，ｍで補正した後期反射のパワーと残響付加音声のパワーの差が最小化されるように、重み係数δ_ｂ，ｍを算出する。補正データ生成部１０４は、算出した重み係数δ_ｂ，ｍを示す補正データを残響除去部１０６に出力する。補正データ生成部１０４の構成については、後述する。

音源分離部１０５は、収音部１２から入力されたＮチャネルの音響信号について音源分離処理を行って１個又は複数の音源の音響信号に分離する。音源分離部１０５は、分離した音源毎の音響信号を補正データ生成部１０４及び残響除去部１０６に出力する。
音源分離部１０５は、音源分離処理として、例えば、ＧＨＤＳＳ（Ｇｅｏｍｅｔｒｉｃ−ｃｏｎｓｔｒａｉｎｅｄＨｉｇｈｏｒｄｅｒＤｅｃｏｒｒｅｌａｔｉｏｎ−ｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）法を用いる。ＧＨＤＳＳ法については、後述する。
なお、音源分離部１０５は、ＧＨＤＳＳ法に代えて、例えば、音源方向を推定し、指定した音源方向に感度が最も高くなるように指向性を制御する適応ビームフォーミング法（ａｄａｐｔｉｖｅｂｅａｍｆｏｒｍｉｎｇ）を用いてもよい。また、音源方向を推定する際、音源分離部１０５は、ＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）法を用いてもよい。

残響除去部１０６は、音源分離部１０５から入力された音響信号を周波数帯域Ｂ_ｍ毎の帯域成分に分離する。残響除去部１０６は、分離した帯域成分毎に残響推定部１０２から入力された補正データが示す重み係数δ_ｂ，ｍを用いて、その帯域成分の振幅を補正することによって残響の一部である後期反射の成分を除去する。残響除去部１０６は、振幅を補正した帯域成分を周波数帯域Ｂ_ｍ間で合成して残響が除去された音声（残響除去音声、ｄｅｒｅｖｅｒｂｅｄｓｐｅｅｃｈ）を示す残響除去音声信号を生成する。残響除去部１０６は、入力された音響信号の振幅を補正する際に位相を変更しない。残響除去部１０６は、生成した残響除去音声信号を音声認識部１０８に出力する。

残響除去部１０６は、振幅を補正する際、残響除去音声信号の振幅｜ｅ（ω，ｔ）｜が例えば式（１）を満たすように算出する。

｜ｅ（ω，ｔ）｜^２＝｜ｒ（ω，ｔ）｜^２−δ_ｂ，ｍ｜ｒ（ω，ｔ）｜^２
（｜ｒ（ω，ｔ）｜^２−δ_ｂ，ｍ｜ｒ（ω，ｔ）｜^２）が０より大きい場合）
｜ｅ（ω，ｔ）｜^２＝β｜ｒ（ω，ｔ）｜^２（それ以外の場合） … （１）

式（１）において、ｒ（ω，ｔ）は、音響信号を周波数領域に変換した周波数領域係数を示す。式（１）の上段により音響信号のパワーから後期反射の成分が除去される。式（１）の下段において、βは下限係数（ｆｌｏｏｒｉｎｇｃｏｅｆｆｉｃｉｅｎｔ）である。βは、１よりも０に近似した予め定めた正の微小な値（例えば、０．０５）である。このように、β｜ｒ（ω，ｔ）｜^２の項を設けて最低限の振幅を維持することで異音が検知されにくくなる。

音響モデル更新部１０７には、近接発話音声を用いて学習して生成された音響モデルλ^（ｃ）と、予め定めた距離ｄで発話された遠隔発話音声を用いて尤度が最大化されるように学習して生成された音響モデルλ^（ｄ）とが予め記憶されている記憶部を備える。音響モデル更新部１０７は、記憶された２つの音響モデルλ^（ｃ）、λ^（ｄ）から距離検出部１０１から入力された距離データが示す距離ｄ’に基づいて予測（ｐｒｅｄｉｃｔ）して音響モデルλ’を生成する。ここで、符号（ｃ）、（ｄ）は、それぞれ近接発話音声、遠隔発話音声を示す。予測とは、音響モデルλ^（ｃ）、λ^（ｄ）間での補間（ｉｎｔｅｒｐｏｌａｔｉｏｎ）と、音響モデルλ^（ｃ）、λ^（ｄ）からの外挿（ｅｘｔｒａｐｏｌａｔｉｏｎ）のいずれも含む概念である。音響モデル更新部１０７は、音声認識部１０８で用いていた音響モデルを、自部が生成した音響モデルλ’に更新する。音響モデルλ’を予測する処理については後述する。

音声認識部１０８は、残響除去部１０６から入力された残響除去音声信号について音響モデル更新部１０７が設定した音響モデルλ’を用いて音声認識処理を行い、発話内容（例えば、単語、文を示すテキスト）を認識し、認識した発話内容を示す認識データを外部に出力する。
ここで、音声認識部１０８は、残響除去音声信号について予め定めた時間間隔（例えば、１０ｍｓ）毎に音響特徴量を算出する。音響特徴量は、例えば、静的メル尺度対数スペクトル（ｓｔａｔｉｃＭＳＬＳ：Ｍｅｌ−ＳｃａｌｅＬｏｇＳｐｅｃｔｒｕｍ）、デルタＭＳＬＳ及び１個のデルタパワーの組である。
音声認識部１０８は、算出した音響特徴量について音響モデル更新部１０７が設定した音響モデルλ’を用いて音素を認識する。音声認識部１０８は、認識した音素からなる音素列について予め設定された言語モデルを用いて発話内容を認識する。言語モデルは、音素列から単語や文を認識する際に用いられる統計モデルである。

（残響特性を推定する処理）
次に、残響特性を推定する処理について説明する。
残響特性推定部１０３は、例えば、式（２）、（３）を用いて距離ｄ’に応じたＲＴＦＡ’（ω，ｄ’）を定める。

Ａ’（ω，ｄ’）＝ｆ（ｄ’）Ａ（ω，ｄ） … （２）

式（２）において、ｆ（ｄ’）は、距離ｄ’に依存する利得である。ｆ（ｄ’）は、式（３）で表される。

ｆ（ｄ’）＝α_１／ｄ’＋α_２ … （３）

式（３）において、α_１、α_２は、それぞれ距離ｄ’に反比例する成分の寄与を示す係数、距離ｄ’に依存しない一定の成分の寄与を示す係数である。
式（２）、（３）は、（ｉ）部屋Ｒｍにおいて音源の位置によってＲＴＦの位相が変化しない、（ｉｉ）ＲＴＦの振幅は、距離ｄ’に反比例して減衰する成分を含む、という仮定（ｉ）（ｉｉ）に基づく。

具体的には、残響特性推定部１０３は、予め次に説明する処理を行って係数α_１、α_２を定めておく。
図３は、係数算出処理の例を示すフローチャートである。
（ステップＳ１０１）残響特性推定部１０３は、ｉ_ｄ個（ｉ_ｄは、１よりも大きい整数、例えば、３個）のＲＴＦＡ（ω，ｄ_ｉ）を予め測定しておく。距離ｄ_ｉ（ｉは、１からｉ_ｄまでの整数を示す）は、各々異なる距離である。例えば、収音部１２が複数のマイクロホンを備える場合には、既知の出力音響信号に基づく音を再生したとき、残響特性推定部１０３は、各マイクロホンが収録した音響信号を用いてＲＴＦＡ（ω，ｄ_ｉ）を取得することができる。その後、ステップＳ１０２に進む。

（ステップＳ１０２）残響特性推定部１０３は、取得したＲＴＦＡ（ω，ｄ_ｉ）のそれぞれについて、周波数間で平均して平均ＲＴＦ＜Ａ（ｄ_ｉ）＞を算出する。残響特性推定部１０３は、平均ＲＴＦ＜Ａ（ｄ_ｉ）＞を算出する際、例えば、式（４）を用いる。

式（４）において、｜…｜は、…の絶対値である。ｐは、各周波数を示すインデックス（ｆｒｅｑｕｅｎｃｙｂｉｎ）である。ｐ_ｈ、ｐ_ｌは、平均をとる予め定めた周波数区間の最高周波数、最低周波数を示すインデックスである。
その後、ステップＳ１０３に進む。

（ステップＳ１０３）残響特性推定部１０３は、平均ＲＴＦ＜Ａ（ｄ_ｉ）＞を式（２）、（３）で示される残響モデルに適合するように、係数（ｆｉｔｔｉｎｇｐａｒａｍｅｔｅｒｓ）α_１、α_２を算出する。残響特性推定部１０３は、α_１、α_２を算出する際、例えば、式（５）を用いる。

［α_１，α_２］^Ｔ＝（［Ｆ_ｙ］^Ｔ［Ｆ_ｙ］）^−１［Ｆ_ｙ］^Ｔ［Ｆ_ｘ］ … （５）

式（５）において、［…］は、ベクトル又は行列を示す。Ｔは、ベクトル又は行列の転置を示す。式（６）に示すように、［Ｆ_ｘ］は、距離の逆数１／ｄ_ｉと１からなるベクトルを各列に有する行列である。［Ｆ_ｙ］は、平均ＲＴＦ＜Ａ（ｄ_ｉ）＞を各列に有するベクトルである。

その後、図３に示す処理を終了する。
そして、残響特性推定部１０３は、式（５）、（６）を用いて算出した係数α_１、α_２を式（３）に代入して利得ｆ（ｄ’）を算出し、算出した利得ｆ（ｄ’）とステップＳ１０１で取得したＲＴＦＡ（ω，ｄ_ｉ）の任意のいずれかを式（２）に代入して距離ｄ’に応じたＲＴＦＡ’（ω，ｄ’）を定める。

（補正データ生成部１０４の構成）
次に、本実施形態に係る補正データ生成部１０４の構成について説明する。
図４は、本実施形態に係る補正データ生成部１０４の構成を示す概略ブロック図である。
補正データ生成部１０４は、後期反射特性設定部１０４１、残響特性設定部１０４２、２つの乗算部１０４３−１、１０４３−２、及び重み算出部１０４４を備える。これらの構成のうち、後期反射合成部１０４１、２つの乗算部１０４３−２、及び重み算出部１０４４は、重み係数δ_ｂ，ｍを算出する際に用いられる。

後期反射特性設定部１０４１は、残響特性推定部１０３から入力された残響特性データが示すＲＴＦＡ’（ω，ｄ’）から後期反射特性として後期反射の伝達関数Ａ_Ｌ’（ω，ｄ’）を算出し、算出した後期反射の伝達関数Ａ_Ｌ’（ω，ｄ’）を乗算部１０４３−１に乗算係数として設定する。
ここで、後期反射特性設定部１０４１は、ＲＴＦＡ’（ω，ｄ’）を時間領域に変換したインパルス応答を算出し、算出したインパルス応答から所定の経過時間（例えば、３０ｍｓ）よりも後の成分を抽出する。後期反射特性設定部１０４１は、抽出した成分を周波数領域に変換して後期反射の伝達関数Ａ_Ｌ’（ω，ｄ’）を算出する。
残響特性設定部１０４２は、残響特性推定部１０３から入力された残響特性データが示すＲＴＦＡ’（ω，ｄ’）を乗算部１０４３−２に乗算係数として設定する。

乗算部１０４３−１、１０４３−２は、所定の音源（図示せず）からそれぞれ入力された音響信号を周波数領域に変換した周波数領域係数と、それぞれに設定された乗算係数を乗算し、残響付加音声の周波数領域係数ｒ（ω，ｄ’，ｔ）、後期反射の周波数領域係数ｌ（ω，ｄ’，ｔ）を算出する。ここで、ｔは、その時点におけるフレーム時刻を示す。音源として、クリーン音声を示す音響信号が記憶されているデータベースを用いてもよい。その音源による音声信号が再生される場合には、乗算部１０４３−１に音源から音響信号が直接入力されるようにし、乗算部１０４３−２に音源分離部１０５から入力された音響信号が入力されるようにしてもよい。乗算部１０４３−１、１０４３−２は、算出した残響付加音声の周波数領域係数ｒ（ω，ｄ’ｔ）、後期反射の周波数領域係数ｌ（ω，ｄ’，ｔ）を、それぞれ重み算出部１０４４に出力する。

重み算出部１０４４は、乗算部１０４３−１、１０４３−２から残響付加音声の周波数領域係数ｒ（ω，ｄ’ｔ）、後期反射の周波数領域係数ｌ（ω，ｄ’ｔ）がそれぞれ入力される。重み算出部１０４４は、周波数帯域Ｂｍ毎に残響付加音声の周波数領域係数ｒ（ω，ｄ’ｔ）と後期反射の周波数領域係数ｌ（ω，ｄ’ｔ）との間の平均二乗誤差（ｍｅａｎｓｑｕａｒｅｅｒｒｏｒ）Ｅ_ｍが最も小さくなる重み係数δ_ｂ，ｍを算出する。平均二乗誤差Ｅ_ｍは、例えば、式（７）で表される。

式（７）において、Ｔ_０は、その時点までの予め定めた時間長（例えば、１０秒）を示す。重み算出部１０４４は、周波数帯域Ｂ_ｍ毎に算出した重み係数δ_ｂ，ｍを示す補正データを残響除去部１０６に出力する。

（ＧＨＤＳＳ法）
次に、ＧＨＤＳＳ法について説明する。
ＧＨＤＳＳ法は、収録された多チャネルの音響信号を音源毎の音響信号に分離する一つの方法である。この方法では、分離行列（ｓｅｐａｒａｔｉｏｎｍａｔｒｉｘ）［Ｖ（ω）］が逐次に算出され、入力音声ベクトル［ｘ（ω）］に分離行列［Ｖ（ω）］を乗算して音源ベクトル［ｕ（ω）］が推定される。分離行列［Ｖ（ω）］は、各音源から収音部１２の各マイクロホンまでの伝達関数を要素とする伝達関数行列［Ｈ（ω）］の擬似逆行列（ｐｓｅｕｄｏ−ｉｎｖｅｒｓｅｍａｔｒｉｘ）である。入力音声ベクトル［ｘ（ω）］は、各チャネルの音響信号の周波数領域係数を要素とするベクトルである。音源ベクトル［ｕ（ω）］は、各音源が発する音響信号の周波数領域係数を要素とするベクトルである。

音源分離部１０５は、分離行列［Ｖ（ω）］を算出する際、分離尖鋭度（ｓｅｐａｒａｔｉｏｎｓｈａｒｐｎｅｓｓ）Ｊ_ＳＳ、幾何制約度（ｇｅｏｍｅｔｒｉｃｃｏｎｓｔｒａｉｎｔｓ）Ｊ_ＧＣといった２つのコスト関数をそれぞれ最小化するように音源ベクトル［ｕ（ω）］を算出する。

分離尖鋭度Ｊ_ＳＳは、１つの音源が他の音源として誤って分離される度合いを表す指標値であり、例えば、式（８）で表される。

式（８）において、||…||^２は、…のフロベニウスノルム（Ｆｒｏｂｅｎｉｕｓｎｏｒｍ）を示す。＊は、ベクトル又は行列の共役転置（ｃｏｎｊｕｇａｔｅｔｒａｎｓｐｏｓｅ）を示す。ｄｉａｇ（…）は、…の対角要素からなる対角行列（ｄｉａｇｏｎａｌｍａｔｒｉｘ）を示す。

幾何制約度Ｊ_ＧＣ（ω）は、音源ベクトル［ｕ（ω）］の誤差の度合いを表す指標値であり、例えば、式（９）で表される。

式（９）において、［Ｉ］は、単位行列（ｕｎｉｔｍａｔｒｉｘ）を示す。

（音響モデルを予測する処理）
次に、音響モデルを予測する処理について説明する。
音響モデルλ^（ｄ）は、音声認識部１０８において音響特徴量に基づいて音素を認識する際に用いられる。音響モデルλ^（ｄ）は、例えば、連続隠れマルコフモデル（ｃｏｎｔｉｎｕｏｕｓＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）である。連続ＨＭＭは、出力分布密度が連続関数になっているモデルであり、その出力分布密度が複数の正規分布を基底として重み付け加算して示される。音響モデルλ^（ｄ）は、例えば、正規分布毎の混合重み係数（ｍｉｘｔｕｒｅｗｅｉｇｈｔ）［Ｃ_ｉｍ ^（ｄ）］、平均値（ｍｅａｎ）μ_ｉｍ ^（ｄ）、共分散行列（ｃｏｖａｒｉａｎｃｅｍａｔｒｉｘ）［Σ_ｉｍ ^（ｄ）］、遷移確率（ｔｒａｎｓｉｔｉｏｎｐｒｏｂａｂｉｌｉｔｙ）ａ_ｉｊ ^（ｄ）といった統計量（ｓｔａｔｉｓｔｉｃｓ）で規定される。ここで、ｉ、ｊは、それぞれ現在の状態、遷移先の状態を示すインデックスである。ｍは、上述した周波数帯域を示すインデックスである。音響モデルλ^（ｃ）も、音響モデルλ^（ｄ）と同じ種類の統計量［Ｃ_ｉｍ ^（ｃ）］、μ_ｉｍ ^（ｃ）、［Σ_ｉｍ ^（ｃ）］、ａ_ｉｊ ^（ｃ）で規定される。

混合重み係数Ｃ_ｉｍ ^（ｄ）、平均値［μ_ｉｍ ^（ｄ）］、共分散行列［Σ_ｉｍ ^（ｄ）］、遷移確率ａ_ｉｊ ^（ｄ）は、累積混合要素占有確率（ｐｒｏｂａｂｉｌｉｔｙｏｆａｃｃｕｍｕｌａｔｅｄｍｉｘｔｕｒｅｃｏｍｐｏｎｅｎｔｏｃｃｕｐａｎｃｙ）Ｌ_ｉｍ ^（ｄ）、状態占有確率（ｐｒｏｂａｂｉｌｉｔｙｏｆｓｔａｔｅｏｃｃｕｐａｎｃｙ）Ｌ_ｉｊ ^（ｄ）、平均（ｍｅａｎ）［ｍ_ｉｊ ^（ｄ）］、分散（ｖａｒｉａｎｃｅ）［ｖ_ｉｊ ^（ｄ）］、といった十分統計量で表され、式（１０）−（１３）に示す関係を有する。

Ｃ_ｉｍ ^（ｄ）＝Ｌ_ｉｍ ^（ｄ）／Σ_ｍ＝１ ^ＭＬ_ｉｍ ^（ｄ） … （１０）

［μ_ｉｍ ^（ｄ）］＝［ｍ_ｉｊ ^（ｄ）］／Ｌ_ｉｍ ^（ｄ） … （１１）

［Σ_ｉｍ ^（ｄ）］＝［ｖ_ｉｊ ^（ｄ）］／Ｌ_ｉｍ ^（ｄ）−［μ_ｉｍ ^（ｄ）］［μ_ｉｍ ^（ｄ）］^Ｔ … （１２）

ａ_ｉｊ ^（ｄ）＝Ｌ_ｉｊ ^（ｄ）／Σ_ｊ＝１ ^ＪＬ_ｉｊ ^（ｄ） … （１３）

式（１３）において、ｉ、ｊは、それぞれ現在の状態、遷移先の状態を示すインデックスであり、Ｊは、遷移先の状態の数を示す。以下の説明では、累積混合要素占有確率Ｌ_ｉｍ ^（ｄ）、状態占有確率Ｌ_ｉｊ ^（ｄ）、平均［ｍ_ｉｊ ^（ｄ）］、分散［ｖ_ｉｊ ^（ｄ）］を事前確率（ｐｒｉｏｒｓ）β^（ｄ）と総称する。

音響モデル更新部１０７は、音響モデルλ^（ｄ）、λ^（ｃ）を用いて、音響モデルλ^（ｄ）を基準として距離ｄ’に応じた係数τ（ｄ’）で線形予測（補間又は外挿）して音響モデルλ’を生成する。音響モデル更新部１０７は、音響モデルλ’を生成する際、例えば、式（１４）−（１７）を用いる。

式（１４）−（１７）において、Ｌ_ｉｍ ^（ｃ）、Ｌ_ｉｊ ^（ｃ）、［ｍ_ｉｍ ^（ｃ）］、［ｖ_ｉｊ ^（ｃ）］は、それぞれ近接発話音声に係る音響モデルλ^（ｃ）での累積混合要素占有確率、状態占有確率、平均、分散であり、これらを事前確率β^（ｃ）と総称する。係数τ（ｄ’）は、ｄ’＝０のとき０となり、ｄ’が大きくなるほど係数τ（ｄ’）が減少する関数である。また、ｄ’が０に近づくほど係数τ（ｄ’）は無限大に漸近する。
事前確率β^（ｃ）はパワーレベルが増加することに伴い増加するため、距離ｄ’に応じて変動する。式（１４）−（１７）に示すように、これらの統計量に基づいて線形予測を行うことで音響モデルが高精度で予測される。

次に、本実施形態に係る音声処理について説明する。
図５は、本実施形態に係る音声処理を示すフローチャートである。
（ステップＳ２０１）音源分離部１０５は、収音部１２から入力されたＮチャネルの音響信号について音源分離処理を行って１個又は複数の音源の音響信号に分離する。音源分離部１０５は、分離した音源毎の音響信号を補正データ生成部１０４及び残響除去部１０６に出力する。その後、ステップＳ２０２に進む。
（ステップＳ２０２）距離検出部１０１は、音源から収音部１２の中心部までの距離ｄ’を検出し、検出した距離ｄ’を示す距離データを残響推定部１０２及び音響モデル更新部１０７に出力する。その後、ステップＳ２０３に進む。

（ステップＳ２０３）残響特性推定部１０３は、予め定めた残響モデルに基づいて距離データが示す距離ｄ’に応じた残響特性を推定し、推定した残響特性を示す残響特性データを補正データ生成部１０４に出力する。その後、ステップＳ２０４に進む。
（ステップＳ２０４）補正データ生成部１０４は、残響特性推定部１０３から入力された残響特性データに基づいて、各音源について予め定めた周波数帯域Ｂ_ｍ毎に重み係数δ_ｂ，ｍを示す補正データを生成する。補正データ生成部１０４は、生成した補正データを残響除去部１０６に出力する。その後、ステップＳ２０５に進む。

（ステップＳ２０５）残響除去部１０６は、音源分離部１０５から入力された音響信号を周波数帯域Ｂ_ｍ毎の成分に分離する。残響除去部１０６は、分離した帯域成分毎に残響推定部１０２から入力された残響除去データが示す重み係数δ_ｂ，ｍを用いて残響の一部である後期反射の成分を除去する。残響除去部１０６は、残響が除去した残響除去音声信号を音声認識部１０８に出力する。その後、ステップＳ２０６に進む。
（ステップＳ２０６）音響モデル更新部１０７は、２つの音響モデルλ^（ｃ）、λ^（ｄ）から距離検出部１０１から入力された距離データが示す距離ｄ’に基づいて予測して音響モデルλ’を生成する。音響モデル更新部１０７は、音声認識部１０８で用いていた音響モデルを、自部が生成した音響モデルλ’に更新する。その後、ステップＳ２０７に進む。

（ステップＳ２０７）音声認識部１０８は、残響除去部１０６から入力された残響除去音声信号について音響モデル更新部１０７が設定した音響モデルλ’を用いて音声認識処理を行って発話内容を認識する。その後、図５に示す処理を終了する。

（ＲＴＦの例）
次に、ＲＴＦの例について説明する。
図６は、平均ＲＴＦの例を示す図である。
横軸はサンプル数、縦軸は平均ＲＴＦを示す。この例では、１サンプルは、１フレームに相当する。図６において、距離ｄが０．５ｍ、０．６ｍ、０．７ｍ、０．９ｍ、１．０ｍ、１．５ｍ、２．０ｍ、２．５ｍのそれぞれについて、平均ＲＴＦが曲線で示されている。平均ＲＴＦは、距離ｄが大きくなるに従って低下する。例えば、距離ｄが０．５ｍ、１．０ｍ、２．０ｍであるとき、平均ＲＴＦは、それぞれ１．４×１０^−８、０．３３×１０^−８、０．０８×１０^−８となり、距離ｄの増加に応じて減少する。また、距離ｄにかかわらず、第１００サンプルよりも後のサンプルで、平均ＲＴＦがほぼ０に低下する。この点は、位相が距離ｄに依存しないこと、つまり上述した仮定（ｉ）を裏付ける。

図７は、ＲＴＦの利得の例を示す図である。
横軸は距離、縦軸は利得を示す。この例では、ＲＴＦの利得について、実測値が＋印で示され、上述した残響モデルによる推定値が実線で示される。実測値は、推定値の周囲に分散し、距離ｄが小さいほど分散が大きくなる傾向がある。しかしながら、各距離ｄでの実測値の最大値、最小値同士も距離ｄにほぼ反比例する。例えば、実測値の最大値は、距離０．５ｍ、１．０、２．０ｍ、それぞれについて３．６、１．７、０．８となる。従って、これらの実測値は、係数α_１、α_２を調整することで推定値に近似できる。この点は、上述した仮定（ｉｉ）を裏付ける。

（音響モデルの例）
次に、音響モデルの例について、説明する。
図８は、音響モデルの一例を示す図である。
横軸、縦軸は、それぞれ正規分布の混合数（ｐｏｏｌｏｆＧａｕｓｓｉａｎｍｉｘｔｕｒｅｓ）、混合要素占有数（ｍｉｘｔｕｒｅｃｏｍｐｏｎｅｎｔｏｃｃｕｐａｎｃｙ）を示す。正規分布の混合数とは、その音響モデルで用いられる正規分布の数であり、以下では単に「混合数」と呼ぶ。混合要素占有数は、その音響モデルでの混合要素の数である。上述した累積混合要素占有確率は、混合要素占有数に基づいて定められる。一点破線、破線は、それぞれクリーン音声、遠隔発話音声についての混合要素占有数を示す。遠隔発話音声については、距離ｄ＝１．０ｍ、１．５ｍ、２．０ｍ、２．５ｍそれぞれについて混合要素占有数が示されている。実線は、距離ｄ’＝１．５を目標距離として、クリーン音声の混合要素占有数と遠隔発話音声（距離ｄ＝２．５ｍ）の混合要素占有数とが混合数毎に補間された混合要素占有数である。

図８に示す例では、混合数毎の混合要素占有数は、クリーン音声の場合に最も大きく、距離ｄが大きくなるにつれて低下する。混合要素占有数の混合数による依存性は、クリーン音声と遠隔発話音声との間で同様な傾向を示し、遠隔発話音声について音源までの距離ｄが異なるもの同士でも同様な傾向を示す。この例では、補間された混合要素占有数は、距離ｄ＝１．５ｍについての遠隔発話音声の混合要素占有数にほぼ合致する。このことは、既知のクリーン音声、既知の距離ｄの遠隔発話音声それぞれについての音響モデルから検出された距離ｄ’に応じて補間された音響モデルが、その距離と同一の距離の遠隔発話音声についての音響モデルに近似することを示す。

（実験結果）
次に、本実施形態に係る音声処理装置１１を用いて音声認識精度を検証した実験結果について説明する。
実験は、異なる残響特性を有する２つの実験室Ｒｍ１、Ｒｍ２で行った、実験室Ｒｍ１、Ｒｍ２の残響時間（ｒｅｖｅｒｂｅｒａｔｉｏｎｔｉｍｅ）Ｔ_６０は、２４０ｍｓ、６４０ｍｓである。各実験室において、４通りの距離ｄ’（１，０ｍ、１．５ｍ、２．０ｍ、２．５ｍ）のそれぞれについて、話者に２００回の発話を行わせ、単語認識率を観測した。認識対象の語彙数は２万語である。音声認識部１０８で用いた言語モデルは、標準単語トライグラムモデル（ｓｔａｎｄａｒｄｗｏｒｄｔｒｉｇｒａｍｍｏｄｅｌ）である。事前に取得したＲＴＦＡ（ω，ｄ_ｉ）の個数ｉ_ｄは、３個である。距離ｄ_ｉは、０．５ｍ、１．３ｍ、３．０ｍである。収音部１２が備えるマイクロホンの個数Ｎは、１０個である。

音響モデルとして連続ＨＭＭの一種である、計８２５６個の正規分布からなるＰＴＭ（ＰｈｏｎｅｔｉｃａｌｌｙＴｉｅｄＭｉｘｔｕｒｅ、音素内タイドミクスチャ）ＨＭＭを用いた。音響モデルを学習させる際に用いた、クリーン音声の学習用データベース（ｔｒａｉｎｉｎｇｄａｔａｂａｓｅ）として日本語新聞記事文（ＪＮＡＳ：ＪａｐａｎｅｓｅＮｅｗｓｐａｐｅｒＡｒｔｉｃｌｅＳｅｎｔｅｎｃｅ）コーパス（ｃｏｒｐｕｓ）を用いた。

実験では、次の７通りの方法で発話された音声を処理し、処理した音声を用いて音声認識を行った。Ａ．処理を行わない（ｕｎｐｒｏｃｅｓｓｅｄ）、Ｂ．既存のブラインド残響除去（ｂｌｉｎｄｄｅｒｅｖｅｒｂｅｒａｔｉｏｎ）、Ｃ．従来のスペクトラルサブトラクション（非特許文献１、２）、Ｄ．残響除去部１０６による後期反射成分の除去（本実施形態）、Ｅ．実測したＲＴＦの後期反射成分の除去、Ｆ．残響除去部１０６による後期反射成分の除去と音響モデル更新部１０７による音響モデルの更新（本実施形態）、Ｇ．Ｆについて各距離に応じて再学習した音響モデルの使用。

（単語認識率の例）
図９は、処理方法毎の単語認識率の一例を示す図である。
各行には発話された音声の処理方法（方法Ａ−Ｇ）を示し、各列に部屋Ｒｍ１、Ｒｍ２それぞれについて、距離毎の単語認識率（単位は、％）が示されている。
部屋Ｒｍ１、Ｒｍ２との間では、残響時間がより長い部屋Ｒｍ２の方が、単語認識率が低い。また、同一の部屋同士では、距離が大きくなるほど単語認識率が低い。単語認識率は、方法Ａ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆ、Ｇの順に高くなる。例えば、部屋Ｒｍ１、距離ｄ＝２．５ｍの場合、本実施形態に係る方法Ｄでの４７．７％は、非特許文献１に係る方法Ｃの４４．６％よりも有意に高く、実測したＲＴＦに係る方法Ｅの４７．９％とほぼ同等である。即ち、検出された距離ｄ’に応じて推定した残響の一部を除去することで単語認識率が向上することが示される。また、本実施形態に係る方法Ｆの５４．０％は、方法Ｅの４７．７％よりも有意に高く、再学習した音響モデルを用いた方法Ｇの５５．２％とほぼ同等である。

次に、方法Ａ、Ｂ、Ｃ、Ｄについて、さらに距離ｄ’に応じて再学習した音響モデルを用いて音声認識処理を行い、単語認識率を観測した。
図１０、図１１は、単語認識率の他の例として、それぞれ部屋Ｒｍ１、Ｒｍ２で観測された処理方式毎の単語認識率を示す図である。
図１０、図１１ともに、横軸は方法Ａ、Ｂ、Ｃ、Ｄを示し、縦軸は距離１．０ｍ、１．５ｍ、２．０ｍ、２．５ｍ間で平均した単語認識率を示す。比較のために、方法Ｆに係る単語認識率が破線で示されている。

図１０、図１１によれば、各部屋、各方法ともに、音響モデルの再学習によって単語認識率が向上する。特に、本実施形態に係る方法Ｄに係る単語認識率が６８％（図１０）、３８％（図１１）と、方法Ｆに係る単語認識率６７％（図１０）、３７％（図１１）と同等になる。このことは、音響モデルを検出された距離ｄ’に応じて予測した音響モデルを用いることで、距離ｄ’に応じた残響環境下で学習した学習モデルと同等の精度が得られることを示す。

以上に説明したように、本実施形態は、音源からの音声を収録する収音部（例えば、収音部１２）と音源までの距離を取得する距離取得部（例えば、距離検出部１０１）と、取得した距離に応じた残響特性を推定する残響特性推定部（例えば、残響特性推定部１０３）を備える。また、本実施形態は、推定した残響特性から残響成分の寄与を示す補正データを生成する補正データ生成部（例えば、補正データ生成部１０４）と、補正データに基づいて音声の振幅を補正することにより残響成分を除去する残響除去部（例えば、残響除去部１０６）を備える。
このため、収録された音声から、その都度取得した距離に応じて推定した残響特性が示す残響成分が除去されるので、残響抑圧精度が向上する。

また、本実施形態では、残響特性推定部が、取得した距離に反比例する成分を含む残響特性を推定するため、残響成分が音源から収音部までの距離に反比例する成分を含むと仮定することで、精度を損なうことなく少ない演算量で残響特性（例えば、後期反射による成分）を推定することができる。
また、本実施形態では、残響特性推定部が残響環境下で予め計測した残響特性に基づいて定めた反比例する成分の寄与を示す係数を用いて残響特性を推定するため、その時点での残響特性をさらに少ない演算量で推定することができる。また、かかる推定は、実時間で行うことができる。
また、本実施形態では、補正データ生成部が予め定めた周波数帯域毎に補正データを生成し、残響除去部が周波数帯域毎の振幅をそれぞれ対応する周波数帯域の補正データを用いて補正することにより、残響成分を除去する。そのため、周波数帯域毎に異なる残響特性（例えば、周波数が低いほど残響レベルが大きい）を考慮して残響成分が除去されるので、残響抑圧精度が向上する。

また、本実施形態は、残響が付加された予め定めた距離からの音声を用いて学習された第１の音響モデル（例えば、遠隔音響モデル）と、残響を無視できる環境での音声を用いて学習された第２の音響モデル（例えば、クリーン音響モデル）から、前記距離取得部が取得した距離に応じた音響モデルを予測する音響モデル予測部（例えば、音響モデル更新部１０７）を備える。また、本実施形態は、予測した音響モデルを用いて音声認識処理を行う音声認識部（例えば、音声認識部１０８）を備える。
これにより、音源から収音部までの距離に基づいて予測された音響モデルが音声認識処理に用いられるため、当該距離に応じた残響環境下での音声認識精度を向上することができる。例えば、後期反射による成分が除去されないときでも、初期反射等、反射による音響特徴量の変化が逐次に考慮されるので音声認識精度が向上する。

（第２の実施形態）
次に、本発明の第２の実施形態に係る音声処理装置１１ａの構成について説明する。上述した実施形態と同一の構成については、同一の符号を付して説明を援用する。
図１２は、本実施形態に係る音声処理装置１１ａの構成を示す概略ブロック図である。
音声処理装置１１ａは、距離検出部１０１ａ、残響推定部１０２、音源分離部１０５、残響除去部１０６、音響モデル更新部１０７、及び音声認識部１０８を含んで構成される。即ち、音声処理装置１１ａは、音声処理装置１１（図２）において距離検出部１０１に代えて距離検出部１０１ａを備える。

距離検出部１０１ａは、音源分離部１０５から入力された音源毎の音響信号に基づいて、その音源の距離ｄ’を推定し、推定した距離ｄ’を示す距離データを残響推定部１０２及び音響モデル更新部１０７に出力する。ここで、距離検出部１０１ａには、所定の音響特徴量と音源から収音部までの距離との関係を示す統計量を含む距離モデルデータをそれぞれ異なる距離毎に記憶しておき、入力した音響信号に係る音響特徴量についての尤度が最大となる距離モデルデータを選択する。距離検出部１０１ａは、選択した距離モデルデータに対応した距離ｄ’を定める。

（距離検出部１０１ａの構成）
図１３は、本実施形態に係る距離検出部１０１ａの構成を示す概略ブロック図である。
距離検出部１０１ａは、特徴量算出部１０１１ａ、距離モデル記憶部１０１２ａ、及び距離選択部１０１３ａを含んで構成される。

特徴量算出部１０１１ａは、音源分離部１０５から入力された音響信号について予め定めた時間間隔（例えば、１０ｍｓ）毎に音響特徴量Ｔ（ｕ’）を算出する。音響特徴量は、例えば、静的メル尺度対数スペクトル（ＭＳＬＳ：Ｍｅｌ−ＳｃａｌｅＬｏｇＳｐｅｃｔｒｕｍ）、デルタＭＳＬＳ及び１個のデルタパワーの組である。これらの係数を要素として含むベクトルは、特性ベクトル（ｆｅａｔｕｒｅｖｅｃｔｏｒ）と呼ばれる。
特徴量算出部１０１１ａは、算出した音響特徴量Ｔ（ｕ’）を示す特徴量データを距離選択部１０１３ａに出力する。

距離モデル記憶部１０１２ａには、Ｄ個（Ｄは、１よりも大きい整数、例えば、５）の距離ｄのそれぞれに対応付けて距離モデルα^（ｄ）を記憶しておく。距離ｄは、例えば、０．５ｍ、１．０ｍ、１．５ｍ、２．０ｍ、２．５ｍである。距離モデルα^（ｄ）は、例えば、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ、混合ガウスモデル）である。
ＧＭＭは、入力された音響特徴量に対する出力確率を複数（例えば、２５６個）の正規分布を基底として重みづけ加算して表す音響モデルの一種である。従って、距離モデルα^（ｄ）は、混合重み係数、平均値、共分散行列といった統計量で規定される。各距離ｄについてＧＭＭを学習させる際、距離モデル記憶部１０１２ａでは、各距離ｄにおいて残響特性が付加された学習用音声信号を用いて尤度が最大となるように、これらの統計量を予め定めておく。

なお、混合重み係数、平均値、共分散行列は、ＨＭＭを構成する事前確率β^（ｄ）との間で式（１０）−（１２）に示す関係を有する。また、事前確率β^（ｄ）は、距離ｄの変化に応じて変化する係数である。そこで、各距離ｄについて学習用音声信号を用いて尤度が最大となるようにＨＭＭを学習させ、学習によって得られた事前確率β^（ｄ）を用いて、ＧＭＭを構成してもよい。

距離選択部１０１３ａは、特徴量算出部１０１１ａから入力された特徴量データが示す音響特徴量Ｔ（ｕ’）について距離モデル記憶部１０１２ａに記憶された距離モデルα^（ｄ）のそれぞれについて、尤度Ｐ（Ｔ（ｕ’）｜α^（ｄ））を算出する。距離選択部１０１３ａは、算出した尤度Ｐ（Ｔ（ｕ’）｜α^（ｄ））が最大となる距離モデルα^（ｄ）に対応する距離ｄを距離ｄ’として選択し、選択した距離ｄ’を示す距離データを残響推定部１０２及び音響モデル更新部１０７に出力する。
これにより、距離ｄ’を計測するためのハードウェアを備えなくても収音部１２から音源、例えば話者までの距離を推定し、推定した距離に応じた残響の抑圧が可能になる。

（距離検出処理）
次に、本実施形態に係る距離検出処理について説明する。本実施形態では、次に説明する処理を、図５に示す距離検出処理（ステップＳ２０２）の代わりに行う。
図１４は、本実施形態に係る距離検出処理を示すフローチャートである。
（ステップＳ３０１）特徴量算出部１０１１ａは、音源分離部１０５から入力された音響信号について予め定めた時間間隔毎に音響特徴量Ｔ（ｕ’）を算出する。特徴量算出部１０１１ａは、算出した音響特徴量Ｔ（ｕ’）を示す特徴量データを距離選択部１０１３ａに出力する。その後、ステップＳ３０２に進む。
（ステップＳ３０２）距離選択部１０１３ａは、特徴量算出部１０１１ａから入力された特徴量データが示す音響特徴量Ｔ（ｕ’）について距離モデル記憶部１０１２ａに記憶された距離モデルα^（ｄ）のそれぞれについて、尤度Ｐ（Ｔ（ｕ’）｜α^（ｄ））を算出する。その後、ステップＳ３０３に進む。
（ステップＳ３０３）距離選択部１０１３ａは、算出した尤度Ｐ（Ｔ（ｕ’）｜α^（ｄ））が最大となる距離モデルα^（ｄ）に対応する距離ｄを距離ｄ’として選択し、選択した距離ｄ’を示す距離データを残響推定部１０２及び音響モデル更新部１０７に出力する。
その後、図１４に示す処理を終了する。

なお、本実施形態では、音響モデル更新部１０７には、予め異なる距離ｄのそれぞれで発話された遠隔発話音声を用いて学習して生成された音響モデルλ^（ｄ）を記憶しておいてもよい。その場合、音響モデル更新部１０７は、距離検出部１０１ａから入力された距離データに対応する音響モデルλ^（ｄ’）を読み出し、音声認識部１０８で用いられる音響モデルを読み出した音響モデルλ^（ｄ’）に更新する。

（実験結果）
次に、本実施形態に係る音声処理装置１１ａを用いて距離の推定及び音声認識精度を検証した実験結果について説明する。
実験は、上述の２つの実験室Ｒｍ１、Ｒｍ２で行った。各実験室において、５通りの距離ｄ’（０．５ｍ、１．０ｍ、１．５ｍ、２．０ｍ、２．５ｍ）のそれぞれについて、１０名の話者に各々５０回の発話を行わせ単語認識率を観測した。認識対象の語彙数は１０００語である。音声認識部１０８で用いた言語モデルは、標準単語トライグラムモデル（ｓｔａｎｄａｒｄｗｏｒｄｔｒｉｇｒａｍｍｏｄｅｌ）である。上述のＰＴＭＨＭＭや距離の推定に用いるＧＭＭを学習させる際、ＪＮＡＳコーパスを用いた。ここでは、混合数（ＮｕｍｂｅｒｏｆＧａｕｓｓｉａｎｍｉｘｔｕｒｅｓ）を２５６とした。混合数とは、ＧＭＭを構成する正規分布の数である。なお、その他の条件は、第１の実施形態で説明した実験の条件と同様である。

実験では、次の４通りの方法で発話された音声を処理し、処理した音声を用いて音声認識を行った。Ａ．距離ｄ’による補償を行わない（Ｎｏｃｏｍｐｅｎｓａｔｉｏｎ）、Ｂ．従来の推定したＲＴＦを用いた残響補償（ＲＴＦｃｏｍｐｅｎｓａｔｉｏｎ（Ｅｓｔｉｍａｔｅｄ））、Ｃ．従来の測定したＲＴＦを用いた残響補償（ＲＴＦｃｏｍｐｅｎｓａｔｉｏｎ（Ｍｅａｓｕｒｅｄ））、Ｄ．距離検出部１０１ａで推定した距離に応じた残響補償（本実施形態）。

（単語認識率の例）
図１５、図１６は、それぞれ処理方法毎の単語認識率の例を示す図である。
図１５、図１６ともに、横軸に距離ｄ’、縦軸に単語認識率（単位は、％）を示す。
部屋Ｒｍ１、Ｒｍ２との間では、残響がより著しい部屋Ｒｍ２の方が、単語認識率が低い。また、同一の部屋については、距離が大きくなるほど単語認識率が低い。
単語認識率は、方法Ａ、Ｂ、Ｃ、Ｄの順に高くなる。例えば、部屋Ｒｍ１、距離ｄ＝２．０ｍの場合、本実施形態に係る方法Ｄでの５９％は、方法Ａ、Ｂ、Ｃの３７％、４０％、４３％よりも有意に高い。例えば、部屋Ｒｍ２、距離ｄ＝２．０ｍの場合、本実施形態に係る方法Ｄでの３２％は、方法Ａ、Ｂ、Ｃの−７％、２％、１１％よりも有意に高い。
本実施形態に係る方法Ｄでは、推定した距離ｄ’に応じて、その都度推定した後期反射成分を除去し、併せて推定した音響モデルを用いる。このことにより、ＲＴＦを用いても得られなかった高い精度を実現することが示される。

（混合数の検証）
上述した実験を行う前に、適切な混合数を定めるため、混合数による距離の正答率について行った検証について説明する。各試行では、音源の位置を予め定めた３箇所のいずれかをランダムに選択した。これらの３箇所のそれぞれを、Ｌｏｃ１、Ｌｏｃ２、Ｌｏｃ３と呼ぶ。これらの各位置に応じたＧＭＭを予め生成しておいた。それぞれのＧＭＭでの混合数は、２、４、８、１６、３２、６４、１２８、２５６、５１２の９通りである。この９通りのそれぞれについて、距離の正答率を観測する。ここで、音源の位置と選択されたＧＭＭが一致する場合を正答とし、それ以外の場合を誤答とする。

（距離の正答率の例）
図１７は、距離の正答率の例を示す図である。
各行は、混合数を示し、各列は、部屋Ｒｍ１、Ｒｍ２それぞれについて各音源位置での正答率（単位は、％）が示されている。
部屋Ｒｍ１、Ｒｍ２との間では、残響時間がより長い部屋Ｒｍ２の方が、正答率が低い。また、同一の部屋同士では、混合数が多くなるほど正答率が低い。各部屋について、音源位置間での正答率には有意な差は生じていない。
例えば、Ｒｍ１、音源位置Ｌｏｃ１の場合、混合数２、４、８、１６、３２、６４、１２８、２５６、５１２が増加すると、正答率は、１０％、１８％、２９％、４０％、５７％、７９％、９０％、９８％、９８％と高くなる。但し、混合数が２５６を超えると、正答率の変化が飽和する。従って、混合数を２５６と定めることで推定精度を確保することができる。

以上に説明したように、本実施形態では、距離取得部（例えば、距離検出部１０１ａ）が、予め定めた複数の距離のそれぞれからの音声を用いて学習された音響モデルを有し、最も尤度が高くなる音響モデルに対応した距離を選択する。そのため、距離の取得のためのハードウェアを備えずに残響抑圧精度を向上することができる。また、残響を除去した音声を音声認識処理に用いることで音声認識精度が向上する。

（変形例）
上述した実施形態は、次に示す変形例のように変形されてもよい。
次の説明では、主に音声処理装置１１ａ（図１２）との差異点について述べる。上述した実施形態と同一の構成については、同一の符号を付して説明を援用する。
図１８は、本変形例に係る音声処理装置１１ｂの構成を示す概略ブロック図である。
音声処理装置１１ｂは、距離検出部１０１ａ、残響推定部１０２、音源分離部１０５、残響除去部１０６、音響モデル更新部１０７、音声認識部１０８の他に、対話制御部１０９ｂ及び音量制御部１１０ｂを備える。

対話制御部１０９ｂは、音声認識部１０８から入力された認識データに応じた応答データを取得し、取得した応答データが示す応答テキストについて既知のテキスト音声合成処理を行って応答テキストに応じた音声信号（応答音声信号）を生成する。対話制御部１０９ｂは、生成した応答音声信号を音量制御部１１０ｂに出力する。応答データとは、予め定めた認識データと、これに対応する応答テキストを示す応答データを対応付けたデータである。例えば、認識データを示すテキストが「お元気ですか？」である場合、応答データが示すテキストが「お陰様で元気です。」である。
ここで、対話制御部１０９ｂは、予め定めた認識データと応答データの組を対応付けて記憶しておいた記憶部と、応答データが示す応答テキストに応じた音声信号を合成する音声合成部を備える。

音量制御部１１０ｂは、対話制御部１０９ｂから入力された応答音声信号の音量を、距離検出部１０１ａから入力された距離データが示す距離ｄ’に応じて制御する。音量制御部１１０ｂは、音量が制御された応答音声信号を音声再生部１３に出力する。音量制御部１１０ｂは、例えば、距離ｄ’と応答音声信号の平均振幅が比例するように音量を制御してもよい。収音部１２と音声再生部１３が一体化又は近接している場合には、音源としての話者の位置によらず、ほぼ一定の音量の音が提示される。
音声再生部１３は、音量制御部１１０ｂから入力された応答音声信号に応じた音を再生する。音声再生部１３は、例えば、スピーカである。

次に、本変形例に係る音声処理について説明する。
図１９は、本変形例に係る音声処理を示すフローチャートである。
本変形例に係る音声処理は、ステップＳ２０１、Ｓ２０３−Ｓ２０７（図５）を有し、ステップＳ２０２の代わりにステップＳ２０２ｂを有し、さらに、ステップＳ２０８ｂ、Ｓ２０９ｂを有する。ステップＳ２０２ｂは、図１４に示した距離検出処理と同一の処理である。そして、ステップＳ２０７が終了した後、ステップＳ２０８ｂに進む。

（ステップＳ２０８ｂ）対話制御部１０９ｂは、音声認識部１０８から入力された認識データに対応した応答データを取得し、取得した応答データが示す応答テキストについて既知のテキスト音声合成処理を用いて応答音声信号を生成する。その後、ステップＳ２０９ｂに進む。
（ステップＳ２０９ｂ）音量制御部１１０ｂは、対話制御部１０９ｂから入力された応答音声信号の音量を制御し、音量が制御された応答音声信号を音声再生部１３に出力する。
その後、図１９に示す処理を終了する。

なお、上述した変形は、音声処理装置１１（図２）に加えられてもよい。つまり、音声処理装置１１は、対話制御部１０９ｂ及び音量制御部１１０ｂをさらに備えてもよい。
音量制御部１１０ｂは、応答音声信号に限らず、他の音源から入力された音響信号（例えば、通信相手先の装置から受信した音響信号、音楽の音響信号、等）の音量を制御してもよい。その場合には、音声認識部１０８、対話制御部１０９ｂのいずれか又はその両者が省略されてもよい。これに応じて、図１９に示す処理において、ステップＳ２０７、Ｓ２０８ｂのいずれか又はその両者が省略されてもよい。
また、音声認識部１０８は、検出した距離ｄ’に応じて音声認識処理を停止するか否かを制御してもよい。例えば、検出した距離ｄ’が予め定めた距離の閾値（例えば、３ｍ）を超えるとき、音声認識部１０８は、音声認識処理を停止する。また、検出した距離ｄ’がその閾値を下回るとき、音声認識部１０８は、音声認識処理を開始又は再開する。残響環境において距離ｄ’が大きい場合には音声認識率が低下するが、そのような場合に音声認識処理を停止することにより、無用な処理を回避することができる。

このように、本変形例において距離取得部（例えば、距離検出部１０１ａ）は、予め定めた複数の距離のそれぞれからの音声を用いて学習された音響モデルを有し、前記音声について最も尤度が高くなる音響モデルに対応した距離を選択する。そのため、距離ｄ’を検出するためのハードウェアを具備せずに、検出した距離ｄ’に応じた音量制御、音声認識処理の停止の要否に係る制御等、種々の制御を行うことができる。

なお、上述した実施形態、変形例において、収音部１２が備えるマイクロホンの個数Ｎが１である場合には、音源分離部１０５は省略されてもよい。
上述した音声処理装置１１、１１ａ、１１ｂは、収音部１２と一体化されていてもよい。また、音声処理装置１１ｂは、音声再生部１３と一体化されていてもよい。
上述した音声処理装置１１において、検出した距離ｄ’を示す距離データを取得することができれば、距離検出部１０１は省略されていてもよい。音声処理装置１１は、例えば、音源に装着可能な距離検出部（図示せず）が検出した距離ｄ’を示す距離データを入力する距離入力部を備えていてもよい。距離入力部と上述した距離検出部１０１、１０１ａを距離取得部と総称する。

なお、上述した実施形態における音声処理装置１１、１１ａ、１１ｂの一部、例えば、距離検出部１０１ａ、残響推定部１０２、音源分離部１０５、残響除去部１０６、音響モデル更新部１０７、１０７ａ、音声認識部１０８、対話制御部１０９ｂ、及び音量制御部１１０ｂをコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音声処理装置１１、１１ａ、１１ｂに内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態における音声処理装置１１、１１ａ、１１ｂの一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現してもよい。音声処理装置１１、１１ａ、１１ｂの各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１１、１１ａ、１１ｂ…音声処理装置、
１０１、１０１ａ…距離検出部（距離取得部）、１０２…残響推定部、
１０３…残響特性推定部、１０４…補正データ生成部、１０５…音源分離部、
１０６…残響除去部、１０７…音響モデル更新部（音響モデル予測部）、
１０８…音声認識部、１０９ｂ…対話制御部、１１０ｂ…音量制御部、
１２…収音部、１３…音声再生部

Claims

音源からの音声を収録する収音部と、
予め定めた複数の距離のそれぞれからの音声を用いて学習された音響モデルを有し、前記音源までの距離として前記収音部が収録した音声について最も尤度が高くなる音響モデルに対応した距離を定める距離取得部と、
前記距離取得部が取得した距離に応じた残響特性を推定する残響特性推定部と、
前記残響特性推定部が推定した残響特性から残響成分の寄与を示す補正データを生成する補正データ生成部と、
前記補正データに基づいて前記音声の振幅を補正することにより前記音声から残響成分を除去する残響除去部と、
を備えることを特徴とする音声処理装置。
前記残響特性推定部は、前記距離取得部が取得した距離に反比例する成分を含む残響特性を推定することを特徴とする請求項１に記載の音声処理装置。
前記残響特性推定部は、予め計測した残響特性に基づいて定めた前記反比例する成分の寄与を示す係数を用いて前記残響特性を推定することを特徴とする請求項２に記載の音声処理装置。
前記補正データ生成部は、予め定めた周波数帯域毎に前記補正データを生成し、
前記残響除去部は、周波数帯域毎の振幅をそれぞれ対応する周波数帯域の補正データを用いて補正することを特徴とする請求項１から請求項３のいずれかに記載の音声処理装置。
前記音声処理装置は、
残響が付加された予め定めた距離からの音声を用いて学習された第１の音響モデルと、残響を無視できる環境での音声を用いて学習された第２の音響モデルから、前記距離取得部が取得した距離に応じた第３の音響モデルを予測する音響モデル予測部と、
前記音響モデル予測部が予測した第３の音響モデルを用いて音声認識処理を行う音声認識部と、
をさらに備えることを特徴とする請求項１から請求項４のいずれかに記載の音声処理装置。
音声処理装置における音声処理方法において、
予め定めた複数の距離のそれぞれからの音声を用いて学習された音響モデルのそれぞれに対し収音部が収録した音声について尤度を算出し、音源までの距離として最も尤度が高くなる音響モデルに対応した距離を定める距離取得ステップと、
前記距離取得ステップで取得した距離に応じた残響特性を推定する残響特性推定ステップと、
前記残響特性推定ステップで推定した残響特性から残響成分の寄与を示す補正データを生成する補正データ生成ステップと、
前記補正データに基づいて前記音声の振幅を補正することにより前記音声から残響成分を除去する残響除去ステップと、
を有する音声処理方法。
音声処理装置のコンピュータに、
予め定めた複数の距離のそれぞれからの音声を用いて学習された音響モデルのそれぞれに対し収音部が収録した音声について尤度を算出し、音源までの距離として最も尤度が高くなる音響モデルに対応した距離を定める距離取得手順、
前記距離取得手順で取得した距離に応じた残響特性を推定する残響特性推定手順、
前記残響特性推定手順で推定した残響特性から残響成分の寄与を示す補正データを生成する補正データ生成手順、
前記補正データに基づいて前記音声の振幅を補正することにより前記音声から残響成分を除去する残響除去手順、
を実行させるための音声処理プログラム。