JP2014137405A

JP2014137405A - 音響処理装置及び音響処理方法

Info

Publication number: JP2014137405A
Application number: JP2013004626A
Authority: JP
Inventors: Kazuhiro Nakadai; 一博中臺; Keisuke Nakamura; 圭佑中村; Daisuke Kimoto; 大輔木元
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2013-01-15
Filing date: 2013-01-15
Publication date: 2014-07-28
Anticipated expiration: 2033-01-15
Also published as: US20140200887A1; US9542937B2; JP6169849B2

Abstract

【課題】補助雑音を付加して音声認識率を向上させる音響処理装置及び音響処理方法を提供する。
【解決手段】雑音抑圧部は入力された音響信号に含まれる雑音成分を検出し、前記音響信号から検出した雑音成分を抑圧し、補助雑音付加部は前記雑音抑圧部が雑音成分を抑圧した音響信号に補助雑音を付加して補助雑音付加信号を生成し、歪み度合い算出部は前記補助雑音付加信号の歪み度合いを算出し、付加量決定部は前記歪み度合いに基づいて前記雑音付加部が前記補助雑音を付加する付加量を制御する。
【選択図】図１

Description

本発明は、音響処理装置及び音響処理方法、に関する。

雑音下で音声認識を行うと音声認識率が低下することが知られている。入力される音響信号に含まれる背景雑音を抑圧して音声認識率の低下を緩和することが提案されている。背景雑音を抑圧すると人間が発した音声の成分に歪みを生じさせるため、音声認識率を十分に低下できないことや、却って音声認識率が低下することがある。この現象に対して、例えば、特許文献１には、雑音を抑圧した後の音響信号に白色雑音を付加して歪みの影響を低減する処理が開示されている。特許文献１に記載の処理では、白色雑音の付加量を大きくするに従い雑音抑圧による歪みの影響が緩和され音声認識率が高くなることがある。しかしながら、白色雑音を付加すると音声の成分が相対的に少なくなるため音声認識率が却って低くなることもある。

他方、特許文献２には、例えば、各チャネルの音響信号について雑音成分を抽出し、雑音成分に含まれる定常雑音を推定し、定常雑音のスペクトルを減算係数に応じた度合いで各チャネルの音響信号のスペクトルから減算する第１雑音抑圧手段を備える雑音抑圧装置が開示されている。この雑音抑圧装置は、各チャネルの雑音成分のスペクトルから定常雑音のスペクトルを減算することで非定常雑音のスペクトルを推定し、目的音成分を強調するフィルタ係数を非定常雑音のスペクトルから生成する。また、この雑音抑圧装置は、第１雑音抑圧手段による処理後の複数のチャネルの音響信号についてフィルタ係数を適用したフィルタ処理を実行する第２雑音抑圧手段を備える。そして、この雑音抑圧装置は、音響信号の強度の度数分布における尖度が第１雑音抑圧手段による処理前と第２雑音抑圧手段による処理後とで変化する度合いを示す尖度変化指標を算定し、尖度変化指標に応じて減算係数を可変に制御する。

特許第５０４１９３４号公報特開２０１０−２７１４１１号公報

しかしながら、特許文献２に記載の雑音抑圧装置は、目的音と雑音との方向性の差異の指標として尖度変化指標に基づくスペクトル減算係数を定め、多チャネルの音響信号に含まれる背景雑音を低減するものであるため、処理量が過大である。従って、特許文献１に記載の音響処理装置の白色雑音等の補助雑音を付加する処理のように比較的小さい処理で音声認識率を向上させることができなかった。

本発明は上記の点に鑑みてなされたものであり、補助雑音を付加して音声認識率を向上させる音響処理装置及び音響処理方法を提供する。

（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、入力された音響信号に含まれる雑音成分を抑圧する雑音抑圧部と、前記雑音抑圧部が雑音成分を抑圧した音響信号に、補助雑音を付加して補助雑音付加信号を生成する補助雑音付加部と、前記補助雑音付加信号の歪み度合いを算出する歪み度合い算出部と、前記歪み度合い算出部が算出した歪み度合いに基づいて前記補助雑音付加部が前記補助雑音を付加する付加量を定める付加量決定部と、を備えることを特徴とする音響処理装置である。

（２）本発明の他の態様は、上述の音響処理装置であって、前記制御部は、前記補助雑音付加信号に基づいて音声認識率を推定し、推定した音声認識率が最も高くなるように補助雑音の付加量を制御することを特徴とする。

（３）本発明の他の態様は、上述の音響処理装置であって、前記制御部は、少なくとも２通りの抑圧量で雑音成分を抑圧させて生成された補助雑音付加信号の歪み度合いに基づいて音声認識率を推定し、推定した音声認識率が最も高くなる抑圧量を選択し、前記雑音抑圧部に選択した抑圧量で雑音成分を抑圧させることを特徴とする。

（４）本発明の他の態様は、上述の音響処理装置であって、前記制御部は、前記選択した抑圧量について推定した音声認識率が最も高くなるように前記補助雑音の付加量を制御することを特徴とする。

（５）本発明の他の態様は、上述の音響処理装置であって、前記歪み度合い算出部は、前記歪み度合いとして前記補助雑音付加信号の尖度と前記入力された音響信号の尖度に対する比である尖度比を算出することを特徴とする。

（６）本発明の他の態様は、上述の音響処理装置であって、前記補助雑音付加信号について音声認識処理を行う音声認識部を備え、前記歪み度合い算出部は、前記補助雑音付加信号の成分毎に歪み度合いを算出し、前記音声認識部は、歪み度合いが大きい成分ほど、その成分による寄与が少なくなるように前記音声認識処理を行うことを特徴とする。

（７）本発明の他の態様は、音響処理装置における音響処理方法であって入力された音響信号に含まれる雑音成分を検出し、前記音響信号から検出した雑音成分を抑圧する雑音抑圧過程と、前記雑音抑圧過程で雑音成分を抑圧した音響信号に、補助雑音を付加して補助雑音付加信号を生成する補助雑音付加過程と、前記補助雑音付加信号の歪み度合いを算出する歪み度合い算出過程と、前記歪み度合い算出過程で算出した歪み度合いに基づいて前記補助雑音付加過程で前記補助雑音を付加する付加量を定める付加量決定過程と、を有することを特徴とする音響処理方法である。

上述の（１）、（７）の態様によれば、雑音成分が抑圧された音響信号に、雑音抑圧による音声の歪み度合いに応じた付加量で補助雑音が付加されて歪みが緩和される。そのため、本態様によって取得した補助雑音付加信号を音声認識処理に用いることで比較的小さい処理量で音声認識率を向上させることができる。
上述の（２）の態様によれば、音声認識率が最も高くなる補助雑音の付加量が定められるので、音声認識率をさらに向上することができる。
上述の（３）の態様によれば、雑音成分の抑圧による歪みの影響を低減して音声認識率をさらに向上することができる。
上述の（４）の態様によれば、歪みの影響を緩和し音声認識率への影響がより少ない補助雑音の付加量を求めることができる。
上述の（５）の態様によれば、歪み度合いの指標としての補助雑音付加信号の尖度が、入力された音響信号の尖度で規格化されるので、処理に起因する歪み度合いを定量化することができる。
上述の（６）の態様によれば、歪み度合いが少ない成分が相対的に重視されて音声認識処理が行われるので、音声認識率をさらに向上することができる。

本発明の第１の実施形態に係る音響処理装置１の構成を示す概略ブロック図である。本実施形態に係る雑音推定処理の例を示すフローチャートである。パワースペクトルの時間変動の例を示すスペクトログラムである。複素補助雑音付加スペクトルに基づくパワーの例を示す図である。パワーの頻度分布の例を示す。本実施形態に係る歪み度合い算出部が統計量を算出する処理を示すフローチャートである。尖度比の例を示す図である。音声認識率の例を示す図である。本実施形態に係る音響処理を示すフローチャートである。本発明の第２の実施形態に係る音響処理装置の構成を示す概略ブロック図である。尖度比の他の例を示す図である。音声認識率のその他の例を示す図である。本実施形態に係る音響処理を示すフローチャートである。

（第１の実施形態）
以下、図面を参照しながら本発明の第１の実施形態について説明する。
図１は、本実施形態に係る音響処理装置１の構成を示す概略ブロック図である。
音響処理装置１は、収音部１０１、周波数領域変換部１０２、雑音抑圧部１０３、時間領域変換部１０７、加算部（補助雑音付加部）１０８、周波数領域変換部１０９、歪み度合い算出部１１０、制御部１１１、補助雑音生成部１１２、振幅調整部１１３及び音声認識部１１４を含んで構成される。

音響処理装置１は、入力された音響信号に含まれる雑音成分を雑音抑圧部１０３で抑圧し、雑音抑圧部１０３が雑音成分を抑圧した音響信号に、補助雑音付加部（加算部１０８）で補助雑音を付加して補助雑音付加信号を生成する。音響処理装置１は、歪み度合い算出部１１０で、生成した補助雑音付加信号の歪み度合いを算出し、制御部１１１では算出された歪み度合いに基づいて補助雑音付加部で補助雑音を付加する付加量を制御する。そして、音響処理装置１は、生成された補助雑音付加信号について音声認識部１１４で音声認識処理を行う。

収音部１０１は、到来した音波に基づいて電気信号である音響信号ｙ（ｔ）を生成し、生成した音響信号ｙ（ｔ）を周波数領域変換部１０２に出力する。ｔは、時刻である。収音部１０１は、例えば、可聴帯域（２０−２０ｋＨｚ）の音響信号を収録するマイクロホンである。
周波数領域変換部１０２は、収音部１０１から入力され、時間領域で表された音響信号ｙ（ｔ）を、周波数領域で表された複素入力スペクトルＹ（ｋ，ｌ）に変換する。ｋは、周波数を表すインデックスであり、ｌは、フレームを示すインデックスである。ここで、周波数領域変換部１０２は、音響信号ｙ（ｔ）について、例えば、フレームｌ毎に離散フーリエ変換（ＤＦＴ：ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を行う。周波数領域変換部１０２は、音響信号ｙ（ｔ）に窓関数（例えば、ハミング窓）を乗算して、窓関数が乗算された音響信号について周波数領域で表された複素入力スペクトルＹ（ｋ，ｌ）に変換してもよい。
周波数領域変換部１０２は、変換した複素入力スペクトルＹ（ｋ，ｌ）を雑音抑圧部１０３に出力する。

雑音抑圧部１０３は、周波数領域変換部１０２から入力された複素入力スペクトルＹ（ｋ，ｌ）の雑音成分を推定し、推定した雑音成分を抑圧した音響信号のスペクトル（複素雑音除去スペクトル）を算出する。雑音抑圧部１０３は、パワー算出部１０４、雑音推定部１０５及び減算部１０６を含んで構成される。
パワー算出部１０４は、周波数領域変換部１０２から入力された複素入力スペクトルＹ（ｋ，ｌ）に基づいてパワースペクトル｜Ｙ（ｋ，ｌ）｜^２を算出する。以下の説明では、パワースペクトルを単にパワーと呼ぶことがある。ここで、｜…｜は、複素数…の絶対値を示す。パワー算出部１０４は、算出したパワースペクトル｜Ｙ（ｋ，ｌ）｜^２を雑音推定部１０５、減算部１０６及び歪み度合い算出部１１０に出力する。

雑音推定部１０５はパワー算出部１０４から入力されたパワースペクトル｜Ｙ（ｋ，ｌ）｜^２に含まれる雑音成分のパワースペクトルλ（ｋ，ｌ）を算出する。以下の説明では、雑音パワースペクトルλ（ｋ，ｌ）を雑音パワーλ（ｋ，ｌ）と呼ぶことがある。
ここで、雑音推定部１０５は、例えば、ＨＲＬＥ（Ｈｉｓｔｏｇｒａｍ−ｂａｓｅｄＲｅｃｕｒｓｉｖｅＬｅｖｅｌＥｓｔｉｍａｔｉｏｎ）法を用いて雑音パワーλ（ｋ，ｌ）を算出する。ＨＲＬＥ法では、対数領域におけるパワースペクトル｜Ｙ（ｋ，ｌ）｜^２のヒストグラム（頻度分布）を算出し、その累積分布と予め定めた累積頻度Ｌｘ（例えば、０．３）に基づいて雑音パワーλ（ｋ，ｌ）を算出する。この累積頻度Ｌｘは、収録された音響信号に含まれる背景雑音の雑音パワーを定める変数、言い換えれば減算部１０６で減算（抑圧）される雑音成分の抑圧量を制御するための制御変数である。累積頻度Ｌｘが大きいほど、抑圧量が大きくなり、累積頻度Ｌｘが小さいほど抑圧量は小さくなる。累積頻度Ｌｘが０のときは、抑圧量も０になる。ＨＲＬＥ法を用いて雑音パワーλ（ｋ，ｌ）を算出する処理については後述する。
本実施形態では、雑音推定部１０５は、ＨＲＬＥ法の代わりに、ＭＣＲＡ（Ｍｉｎｉｍａ−ＣｏｎｔｒｏｌｌｅｄＲｅｃｕｒｓｉｖｅＡｖｅｒａｇｅ）法等、他の雑音成分を推定する方法を用いて雑音パワーλ（ｋ，ｌ）を算出してもよい。ＭＣＲＡ法を用いる場合には、累積頻度Ｌｘの代わりにＭＣＲＡ法で導入されている雑音の抑圧量を制御するための制御変数を用いる。そのような制御変数は、例えば、推定定常雑音の混合比α_ｄと定常雑音推定時の係数ｒのセットである。
雑音推定部１０５は、算出した雑音パワーλ（ｋ，ｌ）を減算部１０６に出力する。

減算部１０６は、パワー算出部１０４から入力されたパワースペクトル｜Ｙ（ｋ，ｌ）｜^２から雑音パワーλ（ｋ，ｌ）を減算することによって、複素雑音除去スペクトルＸ’（ｋ，ｌ）を算出する。
ここで、減算部１０６は、パワー算出部１０４から入力されたパワースペクトル｜Ｙ（ｋ，ｌ）｜^２と雑音推定部１０５から入力された雑音パワーλ（ｋ，ｌ）とに基づいて、利得Ｇ_ＳＳ（ｋ，ｌ）を、例えば式（１）を用いて算出する。

式（１）において、ｍａｘ（α，β）は、実数αとβのうち大きいほうの数を与える関数を示す。βは、予め定めた利得Ｇ_ＳＳ（ｋ，ｌ）の最小値である。ここで、関数ｍａｘの左側（実数αの側）は、フレームｌにおける周波数ｋに係る雑音成分が除去されたパワースペクトル｜Ｙ（ｋ，ｌ）｜^２−λ（ｋ，ｌ）の、雑音が除去されていないパワースペクトル｜Ｙ（ｋ，ｌ）｜^２の比に対する平方根を示す。

減算部１０６は、周波数領域変換部１０２から入力された複素入力スペクトルＹ（ｋ，ｌ）に算出した利得Ｇ_ＳＳ（ｋ，ｌ）を乗算して複素雑音除去スペクトルＸ’（ｋ，ｌ）を算出する。つまり、複素雑音除去スペクトルＸ’（ｋ，ｌ）は、複素入力スペクトルＹ（ｋ，ｌ）からその雑音成分を示す雑音パワーが減算（抑圧）された複素スペクトルを示す。減算部１０６は、算出した複素雑音除去スペクトルＸ’（ｋ，ｌ）を時間領域変換部１０７に出力する。

時間領域変換部１０７は、減算部１０６から入力された複素雑音除去スペクトルＸ’（ｋ，ｌ）を時間領域の雑音除去信号ｘ’（ｔ）に変換する。ここで、時間領域変換部１０７は、フレームｌ毎に推定雑音除去Ｘ’（ｋ，ｌ）に対して、例えば逆離散フーリエ変換（ＩｎｖｅｒｓｅＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ、ＩＤＦＴ）を行って、雑音除去信号ｘ’（ｔ）を算出する。時間領域変換部１０７は、変換した雑音除去信号ｘ’（ｔ）を加算部１０８に出力する。つまり、雑音除去信号ｘ’（ｔ）は、音響信号ｙ（ｔ）から雑音抑圧部１０３で推定された雑音成分が抑圧された音響信号である。
加算部１０８は、時間領域変換部１０７から入力された雑音除去信号ｘ’（ｔ）と振幅調整部１１３で振幅が調整された補助雑音信号ｗ’（ｔ）とを加算（付加）して補助雑音付加信号ｘ（ｔ）を生成する。加算部１０８は、生成した補助雑音付加信号ｘ（ｔ）を周波数領域変換部１０９と音声認識部１１４に出力する。

周波数領域変換部１０９は、加算部１０８から入力された補助雑音付加信号ｘ（ｔ）を、周波数領域で表された複素補助雑音付加スペクトルＸ（ｋ，ｌ）に変換する。周波数領域変換部１０９が補助雑音付加信号ｘ（ｔ）に行う処理は、周波数領域変換部１０２が音響信号ｙ（ｔ）に行う処理と同様であってもよい。周波数領域変換部１０９は、変換した複素補助雑音付加スペクトルＸ（ｋ，ｌ）を歪み度合い算出部１１０に出力する。

歪み度合い算出部１１０は、複素補助雑音付加スペクトルＸ（ｋ，ｌ）に基づいて上述した処理、主に雑音抑圧部１０３によって生じた歪みの度合いを示す指標値を算出する。雑音抑圧部１０３で推定した雑音成分のスペクトルを抑圧する処理を行うと、特定の狭い周波数帯域においてパワーが大きい成分を1個又は複数個有する歪みの成分が複素雑音除去スペクトルＸ’（ｋ，ｌ）や複素補助雑音付加スペクトルＸ（ｋ，ｌ）に残ることがある。このような歪みの成分は、ミュージカルノイズと呼ばれ、音声認識率を低下させる原因となる。

歪み度合い算出部１１０は、主にミュージカルノイズの特性を示す指標値として、複素補助雑音付加スペクトルＸ（ｋ，ｌ）のパワーｘの頻度分布（ヒストグラム）Ｐ（ｘ）における３次又は３次よりも高次のモーメントに基づく統計量を算出する。以下の説明では、頻度分布Ｐ（ｘ）を単に頻度Ｐ（ｘ）と呼ぶことがある。歪み度合い算出部１１０は、そのような指標値として、例えば、尖度（ｋｕｒｔｏｓｉｓ）Ｋを算出する。尖度Ｋは、頻度分布の尖鋭さを示す統計量である。尖度Ｋが大きいほど鋭いピークと長い裾を有する分布を示し、尖度Ｋが小さいほど鈍いピークと短い裾を有する分布を示す。具体的には、尖度Ｋは、μ_４／μ_２ ^２である。ここで、μ_４は、頻度分布Ｐ（ｘ）の４次のモーメントμ_４である。μ_２ ^２は、２次のモーメントμ_２の二乗値、つまり分散である。尖度Ｋにより、歪みの度合いを定量的に表すことができる。
ｎ次（ｎは、１よりも大きい整数）のモーメントμ_ｎは式（２）で表される。

式（２）において、μは、頻度分布Ｐ（ｘ）が与えられたときのパワーｘの期待値である。
歪み度合い算出部１１０は、指標値として歪度（ｓｋｅｗｎｅｓｓ）Ｓを算出してもよい。歪度Ｓは、頻度分布の偏りを示す統計量である。歪度Ｓが大きいほどパワーｘが大きい方向に頻度分布Ｐ（ｘ）が偏ることを示し、歪度Ｓが小さいほどパワーｘが小さい方向に頻度分布Ｐ（ｘ）が偏ることを示す。頻度分布Ｐ（ｘ）が正規分布である場合には、歪度は０である。歪度Ｓは、頻度分布Ｐ（ｘ）の３次のモーメントμ_３である。

歪み度合い算出部１１０は、指標値として尖度比（ｋｕｒｔｏｓｉｓｒａｔｉｏ）Ｋ_Ｒを算出してもよい。尖度比Ｋ_Ｒは、Ｋ_ｐｒｏｃ／Ｋ_ｏｒｉｇである。ここで、Ｋ_ｐｒｏｃは、複素補助雑音付加スペクトルＸ（ｋ，ｌ）についての尖度であり、Ｋ_ｏｒｉｇは、周波数領域変換部１０２から入力された複素入力スペクトルＹ（ｋ，ｌ）についての尖度である。つまり、尖度比Ｋ_Ｒは、上述した雑音成分を抑圧する処理と、補助雑音信号を付加する処理によって生じた歪みを定量化した指標値である。
なお、歪み度合い算出部１１０は、指標値として歪度差Ｓ_Ｄを算出してもよい。歪度差Ｓ_Ｄは、複素補助雑音付加スペクトルＸ（ｋ，ｌ）についての歪度Ｓ_ｐｒｏｃから複素入力スペクトルＹ（ｋ，ｌ）についての歪度Ｓ_ｏｒｉｇの差である。
歪み度合い算出部１１０は、算出した歪み度合いの指標値を制御部１１１に出力する。以下の説明では、歪み度合いの指標値として主に尖度比Ｋ_Ｒを用いる場合を例にとるが、本実施形態及び後述する実施形態では、尖度比Ｋ_Ｒの代わりに尖度Ｋ、歪度Ｓ又は歪度差Ｓ_Ｄのいずれを用いてもよい。

制御部１１１は、歪み度合い算出部１１０から入力された指標値に基づいて補助雑音信号の付加量を制御する。補助雑音信号の付加量は、例えば、振幅が調整された補助雑音信号ｗ’（ｔ）の平均パワーの、雑音除去信号ｘ’（ｔ）の平均パワーに対する割合で示される。この割合は無次元量である。
制御部１１１は、例えば、歪み度合いを示す指標値と音声認識率とを対応付けた音声認識率対応情報と、その指標値と補助雑音信号の付加量とを対応付けた付加量対応情報とを自部が備える記憶部に予め記憶しておく。音声認識率対応情報は、指標値と音声認識率との関係を示す表であってもよいし、指標値に基づいて音声認識率を算出する数式（関数）やその係数であってもよい。付加量対応情報は、指標値と付加量との関係を示す表であってもよいし、指標値に基づいて付加量を算出する数式（関数）であってもよい。音声認識率対応情報と付加量対応情報の例については後述する。後述するように、音声認識率対応情報には対応する音声認識率が最も高くなる指標値が存在する。この音声認識率が最も高くなる指標値に対応する付加量が、音声認識率が最も高くなる理想付加量である。

制御部１１１は、入力された指標値に対応する音声認識率を音声認識率対応情報に基づいて推定する。制御部１１１は、入力された指標値に対応する付加量を付加量対応情報に基づいて定める。制御部１１１は、定めた付加量と理想付加量との差である差分付加量を算出し、算出した差分付加量を振幅調整部１１３に出力する。差分付加量を付加量の制御に用いることで、音源によって指標値や音声認識率が異なっても所定の音源に係る指標値と音声認識率との関係を利用することができる。これによって、音声認識率が最高になるように付加量が制御される。

補助雑音生成部１１２は、補助雑音を示す補助雑音信号ｗを生成する。補助雑音生成部１１２は、例えば、各周波数帯域のパワーが等しい白色雑音（ホワイトノイズ）を示す信号を生成する。このような信号として、例えば、Ｍ系列等の疑似乱数系列を使用することができる。補助雑音生成部１１２は、その他、各オクターブ帯域のパワーがほぼ等しいピンクノイズを生成してもよい。補助雑音生成部１１２が生成する補助雑音は、白色雑音やピンクノイズ等の広帯域雑音に限られず、雑音除去信号ｘ’（ｔ）に付加されることにより音声認識率を向上させることができる音響信号であれば、例えば、周波数帯域が制限された帯域雑音であってもよい。補助雑音生成部１１２は、生成した補助雑音信号ｗを振幅調整部１１３に出力する。

振幅調整部１１３は、制御部１１１から入力された差分付加量を現在の付加量に加算して付加量を更新する。振幅調整部１１３は、更新した付加量に応じて補助雑音生成部１１２から入力された補助雑音信号ｗ（ｔ）の振幅を調整し、振幅を調整した補助雑音信号ｗ’（ｔ）を加算部１０８に出力する。振幅調整部１１３は、例えば、入力された音響信号の振幅を増加又は減少する増幅器である。

音声認識部１１４は、加算部１０８から入力された補助雑音付加信号ｘ（ｔ）について音声認識処理を行い、発話内容、例えば音韻列や単語を認識する。音声認識部１１４は例えば、音響モデルである隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ，ＨＭＭ）と単語辞書を備える。音声認識部１１４は、補助雑音付加信号ｘ（ｔ）について音響特徴量、例えば、１３個の静的メル尺度対数スペクトル（ＭＳＬＳ：Ｍｅｌ−ＳｃａｌｅＬｏｇＳｐｅｃｔｒｕｍ）と１３個のデルタＭＳＬＳと１個のデルタパワーを所定時間毎に算出する。音声認識部１１４は、算出した音響特徴量から音響モデルを用いて音韻を定め、定めた音韻で構成される音韻列から単語辞書を用いて単語を認識する。

次に、雑音推定部１０５がＨＲＬＥ法を用いて雑音パワーλ（ｋ，ｌ）を算出する雑音推定処理について説明する。
図２は、本実施形態に係る雑音推定処理の例を示すフローチャートである。
（ステップＳ１０１）雑音推定部１０５は、パワースペクトル｜Ｙ（ｋ，ｌ）｜^２に基づき対数スペクトルＹ_Ｌ（ｋ，ｌ）を算出する。ここで、Ｙ_Ｌ（ｋ，ｌ）＝２０ｌｏｇ_１０｜Ｙ（ｋ，ｌ）｜である。その後、ステップＳ１０２に進む。
（ステップＳ１０２）雑音推定部１０５は、算出した対数スペクトルＹ_Ｌ（ｋ，ｌ）が属する階級Ｉ_ｙ（ｋ，ｌ）を定める。ここで、Ｉ_ｙ（ｋ，ｌ）＝ｆｌｏｏｒ（Ｙ_Ｌ（ｋ，ｌ）−Ｌ_ｍｉｎ）／Ｌ_ｓｔｅｐである。ｆｌｏｏｒ（…）は、実数…、又は…よりも小さい最大の整数を与える床関数（ｆｌｏｏｒｆｕｎｃｔｉｏｎ）である。Ｌ_ｍｉｎ、Ｌ_ｓｔｅｐは、それぞれ予め定めた最小レベル、階級毎のレベルの幅である。その後、ステップＳ１０３に進む。

（ステップＳ１０３）雑音推定部１０５は、現フレームｌにおける階級Ｉ_ｙ（ｋ，ｌ）での度数Ｎ（ｋ，ｌ）を累積する。ここで、Ｎ（ｋ，ｌ，ｉ）＝αＮ（ｋ，ｌ−１，ｉ）＋（１−α）δ（ｉ−Ｉ_ｙ（ｋ，ｌ））である。αは、時間減衰係数（ｔｉｍｅｄｅｃａｙｐａｒａｍｅｔｅｒ）である。α＝１−１／（Ｔ_ｒ・Ｆ_ｓ）である。Ｔ_ｒは、予め定めた時定数（ｔｉｍｅｃｏｎｓｔａｎｔ）である。Ｆ_ｓは、サンプリング周波数である。δ（…）は、ディラックのデルタ関数（Ｄｉｒａｃ’ｓｄｅｌｔａｆｕｎｃｔｉｏｎ）である。ｉは、任意の階級、つまり対数スペクトルＹ_Ｌ（ｋ，ｌ）の区間を示すインデックスである。即ち、度数Ｎ（ｋ，ｌ，Ｉ_ｙ（ｋ，ｌ））は、前フレームｌ−１における度数Ｎ（ｋ，ｌ−１，Ｉ_ｙ（ｋ，ｌ））にαを乗じて減衰させた値に、１−αを加算して得られる。その後、ステップＳ１０４に進む。

（ステップＳ１０４）雑音推定部１０５は、最下位の階級０から階級ｉまで度数Ｎ（ｋ，ｌ，ｉ’）を加算して、累積度数Ｓ（ｋ，ｌ，ｉ）を算出する。その後、ステップＳ１０５に進む。
（ステップＳ１０５）雑音推定部１０５は、所定の累積頻度Ｌｘに対応する累積度数Ｓ（ｋ，ｌ，Ｉ_ｍａｘ）・Ｌｘ／１００に最も近似する累積度数Ｓ（ｋ，ｌ，ｉ）を与える階数ｉを、推定階数Ｉ_ｘ（ｋ，ｌ）として定める。即ち、推定階数Ｉ_ｘ（ｋ，ｌ）は、累積度数Ｓ（ｋ，ｌ，ｉ）との間で次の関係がある。Ｉ_ｘ（ｋ，ｌ）＝ａｒｇ_ｉｍｉｎ［Ｓ（ｋ，ｌ，Ｉ_ｍａｘ）・Ｌｘ／１００−Ｓ（ｋ，ｌ，ｉ）］ここで、ａｒｇ_ｉ（…）は、…の条件を満たすｉの値を示す。その後、ステップＳ１０６に進む。
（ステップＳ１０６）雑音推定部１０５は、定めた推定階数Ｉ_ｘ（ｋ，ｌ）を対数レベルλ_ＨＲＬＥ（ｋ，ｌ）に換算する。ここで、λ_ＨＲＬＥ（ｋ，ｌ）＝Ｌ_ｍｉｎ＋Ｌ_ｓｔｅｐ・Ｉ_ｘ（ｋ，ｌ）である。そして、対数レベルλ_ＨＲＬＥ（ｋ，ｌ）を、線形領域に変換して雑音パワーλ（ｋ，ｌ）を算出する。即ち、λ（ｋ，ｌ）＝１０^{（λＨＲＬＥ（ｋ，ｌ）／２０）}である。その後、処理を終了する。

次に、パワー算出部１０４が算出したパワースペクトル｜Ｙ（ｋ，ｌ）｜^２の例について説明する。
図３は、パワースペクトル｜Ｙ（ｋ，ｌ）｜^２の時間変動の例を示すスペクトログラムである。
図３において、横軸は時刻、縦軸は周波数を示す。図３では、パワーの大きさが濃淡で示されている。図３の右端に示されているように、パワーが大きい領域ほど濃く、パワーが小さい領域ほど薄く示されている。
図３では、時刻が１．３−２．０ｓ（秒）、３．３−４．２ｓ、５．９−６．７ｓである３つの区間では、それ以外の区間よりも濃く示されている。この３つの区間が、収録された音響信号に発話された音声が含まれる音声区間であることを示す。

図４は、複素補助雑音付加スペクトルＸ（ｋ，ｌ）に基づくパワーの例を示す図である。
図４において、横軸は周波数、縦軸はパワーを示す。但し、縦軸の数値は、機器に固有の設定値で規格化された無次元の値である。
図４は、音声区間内のある時刻（例えば、４．０ｓ）における複素補助雑音付加スペクトルＸ（ｋ，ｌ）に基づくパワーを示す。例えば、２２００Ｈｚ付近や、７２００Ｈｚ付近において、パワーを示す曲線は鋭いピークを有する。これらのピークは、ミュージカルノイズ、つまり、雑音抑圧部１０３で雑音成分を抑圧する処理によって生じた歪みを示す。

図５は、パワーｘの頻度分布Ｐ（ｘ）の例を示す。
図５において、横軸はパワーを示し、縦軸は頻度を示す。ここで、頻度は、予め定めたパワーの量子化幅（図５の例では、０．０１）で量子化した量子化パワー毎に、所定の時間内に現れた頻度を示す。図５に塗りつぶして示されている頻度分布は、雑音成分が抑圧されていない複素入力スペクトルＹ（ｋ，ｌ）に係る頻度分布を示す。図５に斜線で示されている頻度分布は、同じ時刻の複素入力スペクトルＹ（ｋ，ｌ）から算出された複素補助雑音付加スペクトルＸ（ｋ，ｌ）に基づくパワーに係る頻度分布を示す。図５に示されているように、複素補助雑音付加スペクトルＸ（ｋ，ｌ）に基づくパワーに係る頻度分布の方が、パワーの値がより大きい領域に分布している。これは、図４に示したように複素補助雑音付加スペクトルＸ（ｋ，ｌ）に、処理によって歪が加えられたことを示す。

次に、歪み度合い算出部１１０が、複素補助雑音付加スペクトルＸ（ｋ，ｌ）に基づいて指標値として３次又は３次よりも高次のモーメントに基づく統計量を算出する処理について説明する。
図６は、本実施形態に係る歪み度合い算出部１１０が統計量を算出する処理を示すフローチャートである。

（ステップＳ２０１）歪み度合い算出部１１０は、複素補助雑音付加スペクトルＸ（ｋ，ｌ）についてパワーを算出する。歪み度合い算出部１１０は、算出したパワーを、予め定めた量子化幅で、量子化した量子化パワーｘを算出する。その後、ステップＳ２０２に進む。
（ステップＳ２０２）歪み度合い算出部１１０は、現在のフレームｌよりも所定の累積時間前（例えば、２０秒）から現在のフレームｌまでの、その量子化パワーｘをとる回数を累積することによって量子化パワーｘ毎の頻度Ｐ（ｘ）を計数する。歪み度合い算出部１１０は、頻度を直接計数する代わりに、α’Ｐ’（ｘ）＋（１−α’）を現在の頻度Ｐ（ｘ）として算出し、この算出した値を頻度Ｐ（ｘ）と定めてもよい。α’は、０より大きく、１より小さい時間減衰係数であり、累積時間に対応する値である。Ｐ’（ｘ）は、直前のフレームｌ−１における頻度Ｐ（ｘ）である。その後、ステップＳ２０３に進む。

（ステップＳ２０３）歪み度合い算出部１１０は、頻度Ｐ（ｘ）を式（３）に示されるガンマ分布の確率密度関数でモデリング（当てはめ）を行う。

式（３）において、Γ（…）は、実数…のガンマ関数を示す。ａは、形状母数、θは、尺度母数である。ここで、歪み度合い算出部１１０は、形状母数ａ及び尺度母数θをそれぞれ、例えば、式（４）及び式（５）を用いて算出する。

式（４）において、γ＝ｌｏｇ（Ｅ［ｘ］）−Ｅ［ｌｏｇ（ｘ）］である。また、Ｅ［…］は期待値を示す。その後、ステップＳ２０４に進む。
（ステップＳ２０４）歪み度合い算出部１１０は、形状母数ａ及び尺度母数θに基づき統計量を算出する。例えば、歪み度合い算出部１１０は、歪度Ｓ_ｐｒｏｃを２／√ａと算出する。歪み度合い算出部１１０は、尖度Ｋ_ｐｒｏｃを６／ａと算出する。その後、図６に示す処理を終了する。

これにより、歪み度合い算出部１１０は、複素補助雑音付加スペクトルＸ（ｋ，ｌ）についての歪度Ｓ_ｐｒｏｃ、尖度Ｋ_ｐｒｏｃ等の統計量を比較的少ない演算量で算出することができる。また、歪み度合い算出部１１０は、複素入力スペクトルＹ（ｋ，ｌ）についても同様にして歪度Ｓ_ｏｒｉｇ、尖度Ｋ_ｏｒｉｇ等の統計量を算出することができる。そして、歪み度合い算出部１１０は、尖度Ｋ_ｐｒｏｃ、Ｋ_ｏｒｉｇに基づいて尖度比Ｋ_Ｒを算出してもよいし、歪度Ｓ_ｐｒｏｃ、Ｓ_ｏｒｉｇに基づいて歪度差Ｓ_Ｄを算出してもよい。

次に、歪み度合いを示す指標値の一種である尖度比Ｋ_Ｒの例について説明する。
図７は、尖度比Ｋ_Ｒの例を示す図である。
図７において、横軸は補助雑音信号の付加量を示し、縦軸は尖度比Ｋ_Ｒを示す。図７に示す付加量は、前述した振幅が調整された補助雑音信号ｗ’（ｔ）の平均振幅の雑音除去信号ｘ’（ｔ）の平均振幅に対する割合をパーセントで表した値である。付加量の最小値が０であり最大値が１００である。但し、図７に示す付加量は、０から４０までに限られている。また、この例では、雑音として白色雑音が付加されている環境下で１名の話者が発話している環境下で収録された音響信号が用いられている。

図７は、累積頻度Ｌｘが０、０．１、０．２、０．３、０．４、０．５、０．６のそれぞれについて、付加量と尖度比Ｋ_Ｒとの関係を示す。ここで、付加量が大きくなるほど尖度比Ｋ_Ｒが線形に減少する。この関係は、雑音成分の除去によって生じた歪みが、補助雑音信号が付加されるほど緩和されることを示す。また、累積頻度Ｌｘが０から０．５までの間では、付加量と尖度比Ｋ_Ｒとの関係に有意な差は認められず、累積頻度Ｌｘによる依存性がほとんどないことが示される。

制御部１１１には、例えば、図７に示す尖度比Ｋ_Ｒと付加量との関係を示す付加量対応情報を記憶しておいてもよい。付加量対応情報は、この尖度比Ｋ_Ｒが付加量についての一次関数を示す情報であってもよい。これにより、所定の音源に対する尖度比Ｋ_Ｒと付加量との関係が、付加量に対応する尖度比Ｋ_Ｒの目標値として与えられる。

次に、尖度比Ｋ_Ｒの音声認識率への依存性について説明する。
図８は、音声認識率の例を示す図である。
図８において、横軸は尖度比Ｋ_Ｒを示し、縦軸は音声認識率を示す。図８に示す認識率は、収録される雑音として白色雑音が付加されている環境下で1名の女性が発話しているときの単語認識率（ＷＣＲ：ＷｏｒｄＲｅｃｏｇｎｉｔｉｏｎＲａｔｅ）である。この例では、単語認識率は、発話された単語の各回について正しく認識された回数（正解数）を全発話数（計２１６回）で除算した値である。ここで、尖度比Ｋ_Ｒは、音声区間について算出されたものである。

図８は、累積頻度Ｌｘが０、０．１、０．２、０．３、０．４、０．５、０．６のそれぞれについて、尖度比Ｋ_Ｒと音声認識率の関係を示す。尖度比Ｋ_Ｒと音声認識率の関係に有意な差は認められず、尖度比Ｋ_Ｒが約１．１８のとき認識率が６６％と最も高くなり、累積頻度Ｌｘによる有意な差は認められなかった。付加量を大きくすることによって尖度比Ｋ_Ｒが小さくなり音声認識率が高くなるが、音声認識率が最も高くなった後は付加される補助雑音の影響が現れ認識率が低下することを示す。

制御部１１１には、例えば、図８に示す尖度比Ｋ_Ｒと音声認識率との関係を示す音声認識率対応情報を記憶しておいてもよい。音声認識率対応情報は、この音声認識率が、尖度比Ｋ_Ｒについての最大値を有する関数（例えば、二次関数）を示す情報であってもよい。これにより、予め定めた音源に対する音声認識率を最高にする尖度比に応じた付加量が、付加量の目標値として与えられる。

次に、本実施形態に係る音響処理について説明する。
図９は、本実施形態に係る音響処理を示すフローチャートである。
（ステップＳ３０１）音響処理装置１は、処理に用いる変数について、予め定めた初期値を設定する（初期設定）。かかる変数には、例えば、雑音推定部１０５においてＨＲＬＥ法を用いる場合における累積頻度Ｌｘ、振幅調整部１１３における付加量がある。その後、ステップＳ３０２に進む。
（ステップＳ３０２）パワー算出部１０４は、音響信号ｙ（ｔ）を周波数領域で表した複素入力スペクトルＹ（ｋ，ｌ）に基づいてパワースペクトル｜Ｙ（ｋ，ｌ）｜^２を算出する。雑音推定部１０５はパワースペクトル｜Ｙ（ｋ，ｌ）｜^２に含まれる雑音パワーλ（ｋ，ｌ）を、例えばＨＲＬＥ法を用いて算出することで雑音成分を推定する。その後、ステップＳ３０３に進む。

（ステップＳ３０３）減算部１０６は、パワースペクトル｜Ｙ（ｋ，ｌ）｜^２から雑音パワーλ（ｋ，ｌ）を減算して、雑音成分を除去した複素雑音除去スペクトルＸ’（ｋ，ｌ）を算出する。これにより、雑音成分が抑圧される。その後、ステップＳ３０４に進む。
（ステップＳ３０４）加算部１０８は、複素雑音除去スペクトルＸ’（ｋ，ｌ）を時間領域に変換した雑音除去信号ｘ’（ｔ）に振幅が調整された補助雑音信号ｗ’（ｔ）を加算（付加）して補助雑音付加信号ｘ（ｔ）を生成する。その後、ステップＳ３０５に進む。

（ステップＳ３０５）歪み度合い算出部１１０は、補助雑音付加信号ｘ（ｔ）を時間領域に変換した複素補助雑音付加スペクトルＸ（ｋ，ｌ）について歪みの度合いを示す指標値として、例えば、尖度比Ｋ_Ｒを算出する。その後、ステップＳ３０６に進む。
（ステップＳ３０６）制御部１１１は、歪みの度合いを示す指標値として尖度比Ｋ_Ｒに基づいて雑音除去信号ｘ’（ｔ）に補助雑音信号ｗ（ｔ）を付加する付加量を音声認識率が最高になるように制御する。ここで、制御部１１１は、例えば、尖度比Ｋ_Ｒに対応する付加量を予め記憶している付加量対応情報に基づいて定め、定めた付加量と音声認識率が最高になる理想付加量との差である差分付加量を算出する。その後、ステップＳ３０７に進む。
（ステップＳ３０７）音声認識部１１４は、雑音除去信号ｘ’（ｔ）に振幅が調整された補助雑音信号ｗ’（ｔ）が付加された補助雑音付加信号ｘ（ｔ）について音声認識処理を行い、発話内容を認識する。その後、処理を終了する。

上述したように、本実施形態では、入力された音響信号に含まれる雑音成分を抑圧し、雑音成分を抑圧した音響信号に、補助雑音を付加して補助雑音付加信号を生成し、補助雑音付加信号の歪み度合いを算出する。また、本実施形態では、算出した歪み度合いに基づいて補助雑音を付加する付加量を制御する。これにより、音声の歪み度合いに応じた付加量で補助雑音が付加されて歪みが緩和されるため音声認識率を向上することができる。
また、本実施形態では、補助雑音付加信号に基づいて音声認識率を推定し、推定した音声認識率が最も高くなるように補助雑音の付加量が制御されるため音声認識率をさらに向上することができる。

（第２の実施形態）
以下、図面を参照しながら本発明の第２の実施形態について第１の実施形態と同一の構成については同一の符号を付して説明する。
図１０は、本実施形態に係る音響処理装置２の構成を示す概略ブロック図である。
音響処理装置２は、音響処理装置１（図１）における制御部１１１の代わりに制御部２１１を備え、さらに、雑音抑圧部２０３、時間領域変換部２０７、加算部２０８及び振幅調整部２１３を含んで構成される。
音響処理装置２において、加算部１０８は、生成した補助雑音付加信号ｘ（ｔ）を音声認識部１１４に出力せず、補助雑音付加信号ｘ（ｔ）は、後述するように制御部２１１が累積頻度Ｌｘや付加量を制御するために用いる。音響処理装置２では、雑音抑圧部２０３は、制御部２１１が定めた累積頻度Ｌｘに基づいて雑音成分を抑圧する。また、制御部２１１が制御した付加量で振幅が調整された補助雑音信号が付加された補助雑音付加信号が音声認識部１１４で音声認識処理に用いられる。

制御部２１１は、制御部１１１（図１）と同様に歪み度合い算出部１１０から入力された指標値に基づいて補助雑音信号の付加量を制御する。但し、制御部２１１は、雑音推定部１０５に既に設定された累積頻度Ｌｘとは異なる１個又は複数の累積頻度Ｌｘについて、音声認識率を定める。以下では、既に設定された累積頻度Ｌｘとは異なる累積頻度Ｌｘを追加累積頻度Ｌｘと呼ぶことがある。
ここで、制御部２１１には、付加量対応情報と音声認識率対応情報を自部が備える記憶部に予め記憶しておく。音声認識率対応情報には、音声認識率に、歪み度合いを示す指標値と累積頻度Ｌｘとの組を対応付けておく（図８）。付加量対応情報には、付加量に、累積頻度Ｌｘと歪み度合いを示す指標値との組を対応付けておく（図７）。

制御部２１１は、１個又は複数の追加累積頻度Ｌｘのそれぞれを雑音推定部１０５に出力し、雑音推定部１０５は、追加累積頻度Ｌｘのそれぞれについて雑音パワーλ（ｋ，ｌ）を算出する。減算部１０６は、それぞれ算出された雑音パワーλ（ｋ，ｌ）に基づいて複素雑音除去スペクトルＸ’（ｋ，ｌ）を算出する。加算部１０８は、時間領域変換部１０７でそれぞれ算出された雑音除去信号ｘ’（ｔ）に、予め定めた付加量で振幅調整部１１３により振幅が調整された補助雑音信号ｗ’（ｔ）を付加して補助雑音付加信号ｘ（ｔ）を生成する。そして、歪み度合い算出部１１０は、それぞれ算出された複素補助雑音付加スペクトルＸ（ｋ，ｌ）について歪み度合いを示す指標値を算出して、制御部２１１に出力する。これにより、制御部２１１には、追加累積頻度Ｌｘのそれぞれについても歪み度合いを示す指標値が入力される。

制御部２１１は、音声認識率対応情報に基づいて、累積頻度Ｌｘ（追加累積頻度Ｌｘも含む）のそれぞれと、歪み度合い算出部１１０から入力されたそれぞれの累積頻度Ｌｘに対応した歪み度合いを示す指標値との組に対応した音声認識率を推定し、推定した音声認識率が最も高い累積頻度Ｌｘを選択する。制御部２１１は、選択した累積頻度Ｌｘを雑音抑圧部２０３の雑音推定部２０５に出力する。つまり、少なくとも２通りの累積頻度Ｌｘのそれぞれについて推定した音声認識率が最も高い累積頻度Ｌｘが選択される。
制御部２１１は、付加量対応情報に基づいて、選択した累積頻度Ｌｘと入力された歪み度合いを示す指標値との組に対応した付加量を推定する。この推定した付加量を推定付加量と呼ぶ。

制御部２１１は、さらに音声認識率対応情報に基づいて、選択した累積頻度Ｌｘについて音声認識率が最も高くなる歪み度合いを示す指標値を選択する。制御部２１１は、付加量対応情報に基づいて、選択した累積頻度Ｌｘと選択された歪み度合いを示す指標値に対応する付加量を推定する。この推定された付加量が、音声認識率が最も高くなる指標値に対応した理想付加量である。制御部２１１は、推定付加量と理想付加量との差である差分付加量を算出し、算出した差分付加量を振幅調整部１１３に出力する。振幅調整部１１３は、差分付加量を現在の付加量に加算して付加量を更新する。これにより、振幅調整部１１３では選択された累積頻度Ｌｘのもとで音声認識率が最も高くなるように振幅調整部１１３での付加量を制御することができる。制御部２１１は、振幅調整部１１３で更新した付加量を振幅調整部２１３に出力する。

雑音抑圧部２０３は、パワー算出部２０４、雑音推定部２０５及び減算部２０６を含んで構成される。
パワー算出部２０４は、パワー算出部１０４と同様に、周波数領域変換部１０２から入力された複素入力スペクトルＹ（ｋ，ｌ）に基づいてパワースペクトル｜Ｙ（ｋ，ｌ）｜^２を算出する。パワー算出部２０４は、算出したパワースペクトル｜Ｙ（ｋ，ｌ）｜^２を雑音推定部２０５及び減算部２０６に出力する。

雑音推定部２０５は、制御部２１１から入力された累積頻度Ｌｘに基づいて、雑音推定部１０５と同様にパワー算出部２０４から入力されたパワースペクトル｜Ｙ（ｋ，ｌ）｜^２に含まれる雑音パワーλ（ｋ，ｌ）を算出する。雑音推定部２０５は、算出した雑音パワーλ（ｋ，ｌ）を減算部２０６に出力する。
減算部２０６は、減算部１０６と同様に、パワー算出部２０４から入力されたパワースペクトル｜Ｙ（ｋ，ｌ）｜^２から雑音パワーλ（ｋ，ｌ）を減算することによって、雑音成分を除去した複素雑音除去スペクトルＸ’（ｋ，ｌ）を算出する。減算部２０６は、算出した複素雑音除去スペクトルＸ’（ｋ，ｌ）を時間領域変換部２０７に出力する。

時間領域変換部２０７は、時間領域変換部１０７と同様に、減算部２０６から入力された複素雑音除去スペクトルＸ’（ｋ，ｌ）を時間領域の雑音除去信号ｘ’（ｔ）に変換する。時間領域変換部２０７は、変換した雑音除去信号ｘ’（ｔ）を加算部２０８に出力する。
加算部２０８は、時間領域変換部２０７から入力された雑音除去信号ｘ’（ｔ）と振幅調整部２１３で振幅が調整された補助雑音信号ｗ’（ｔ）とを加算（付加）して補助雑音付加信号ｘ（ｔ）を生成する。加算部２０８は、生成した補助雑音付加信号ｘ（ｔ）を音声認識部１１４に出力する。

振幅調整部２１３は、制御部２１１から入力された付加量に応じて補助雑音生成部１１２から入力された補助雑音信号ｗ（ｔ）の振幅を調整し、振幅を調整した補助雑音信号ｗ’（ｔ）を加算部２０８に出力する。
従って、音声認識部１１４には、制御部２１１が定めた累積頻度Ｌｘに基づいて雑音成分が抑制され、制御部２１１が制御した付加量に基づいて補助雑音信号ｗ’（ｔ）が付加された補助雑音付加信号ｘ（ｔ）が供給される。

図１１は、尖度比Ｋ_Ｒの他の例を示す図である。
図１１において、横軸と縦軸の関係は図７に示す例と同様である。図１１や後述する図１２に示す例では、雑音として音楽が付加されている環境下で１名の話者が発話している環境下で収録された音響信号が用いられている。
この例でも、付加量が大きくなるほど尖度比Ｋ_Ｒが線形に減少し、累積頻度Ｌｘが０から０．４までの間では、付加量と尖度比Ｋ_Ｒとの関係に有意な差は認められず、累積頻度Ｌｘによる依存性がほとんどないことが示される。但し、累積頻度Ｌｘが０．５よりも大きい場合には付加量と尖度比Ｋ_Ｒとの関係に差が生じる。また、図１１に示す尖度比Ｋ_Ｒは、全体的に図７に示すものよりも大きい値であり、収録される雑音の音源によっても尖度比Ｋ_Ｒが異なることを示す。

制御部２１１には、例えば、図１１に示す付加量と尖度比Ｋ_Ｒ並びに累積頻度Ｌｘとの関係を示す付加量対応情報を記憶しておいてもよい。付加量対応情報は、この付加量と尖度比Ｋ_Ｒ並びに累積頻度Ｌｘとの関数を示す情報であってもよい。これにより、さらに累積頻度Ｌｘに対する依存性が考慮される。

図１２は、音声認識率のその他の例を示す図である。
図１２において、横軸と縦軸の関係は図８に示す例と同様である。
この例でも、音声認識率が最高となる尖度比Ｋ_Ｒが存在する。累積頻度Ｌｘが０から０．４までの間では、累積頻度Ｌｘによる有意な差は認められず、尖度比Ｋ_Ｒが約１．２６のとき認識率が８５％と最も高くなる。但し、累積頻度Ｌｘが０．５よりも大きい場合には尖度比Ｋ_Ｒと認識率との関係に差が生じる。また、図１２に示す認識率は、全体的に図８に示すものよりも大きい値であり、収録される雑音の音源によっても認識率が異なることを示す。

制御部１１１には、例えば、図１２に示す認識率と尖度比Ｋ_Ｒ並びに累積頻度Ｌｘとの関係を示す音声認識率対応情報を記憶しておいてもよい。音声認識率対応情報は、この音声認識率が、尖度比Ｋ_Ｒ並びに累積頻度Ｌｘとの関数を示す情報であってもよい。これにより、さらに累積頻度Ｌｘに対する依存性が考慮される。

次に、本実施形態に係る音響処理について説明する。
図１３は、本実施形態に係る音響処理を示すフローチャートである。
（ステップＳ４０１）音響処理装置１は、処理に用いる変数について、予め定めた初期値を設定する（初期設定）。かかる変数には、例えば、雑音推定部１０５においてＨＲＬＥ法を用いる場合における累積頻度Ｌｘ、振幅調整部１１３における付加量がある。その後、ステップＳ４０２に進む。
（ステップＳ４０２）雑音推定部１０５はパワースペクトル｜Ｙ（ｋ，ｌ）｜^２に含まれる雑音パワーλ（ｋ，ｌ）を、例えばＨＲＬＥ法を用いて制御部２１１から入力された少なくとも２通りの累積頻度Ｌｘのそれぞれについて算出する。これにより、それぞれの累積頻度Ｌｘについての雑音成分が推定される。その後、ステップＳ４０３に進む。

（ステップＳ４０３）減算部１０６は、パワースペクトル｜Ｙ（ｋ，ｌ）｜^２からそれぞれの雑音パワーλ（ｋ，ｌ）を減算して、雑音成分を除去した複素雑音除去スペクトルＸ’（ｋ，ｌ）を算出する。これにより、それぞれの累積頻度Ｌｘについて雑音成分が抑圧される。その後、ステップＳ４０４に進む。
（ステップＳ４０４）加算部１０８は、複素雑音除去スペクトルＸ’（ｋ，ｌ）を時間領域に変換した雑音除去信号ｘ’（ｔ）に振幅が調整された補助雑音信号ｗ’（ｔ）を加算（付加）して、それぞれの累積頻度Ｌｘについての補助雑音付加信号ｘ（ｔ）を生成する。その後、ステップＳ４０５に進む。

（ステップＳ４０５）歪み度合い算出部１１０は、補助雑音付加信号ｘ（ｔ）を時間領域に変換した複素補助雑音付加スペクトルＸ（ｋ，ｌ）について歪みの度合いを示す指標値として、例えば、それぞれの累積頻度Ｌｘについての尖度比Ｋ_Ｒを算出する。その後、ステップＳ４０６に進む。
（ステップＳ４０６）制御部２１１は、音声認識率対応情報に基づいて、それぞれの累積頻度Ｌｘ並びにそれぞれに基づいて算出された歪み度合いを示す指標値との組に対応した音声認識率を推定し、推定した音声認識率が最も高い累積頻度Ｌｘを選択する。累積頻度Ｌｘは雑音成分の抑圧量を示すところ、これにより、雑音抑圧量が決定される。制御部２１１は、選択した累積頻度Ｌｘを雑音推定部２０５に出力する。その後、ステップＳ４０７に進む。

（ステップＳ４０７）制御部２１１は、さらに音声認識率対応情報に基づいて、選択した累積頻度Ｌｘのもとで音声認識率が最大になるように付加量を定め、定めた付加量で振幅調整部１１３での付加量を制御する。制御部２１１は、振幅調整部１１３で制御された付加量を振幅調整部２１３に出力する。その後、ステップＳ４０８に進む。
（ステップＳ４０８）音声認識部１１４には、制御部２１１が定めた累積頻度Ｌｘに基づいて雑音成分が抑制され、制御部２１１が制御した付加量に基づいて補助雑音信号が付加された補助雑音付加信号ｘ（ｔ）が供給される。音声認識部１１４は、供給された補助雑音付加信号ｘ（ｔ）について音声認識処理を行い、発話内容を認識する。その後、処理を終了する。

上述したように、本実施形態では、少なくとも２通りの抑圧量で雑音成分を抑圧させて生成された補助雑音付加信号の歪み度合いに基づいて音声認識率を推定し、推定した音声認識率が最も高くなる抑圧量を選択し、選択した抑圧量で雑音成分を抑圧させる。これにより、雑音成分の抑圧による歪みの影響を低減して音声認識率をさらに向上することができる。また、本実施形態では、選択した抑圧量について推定した音声認識率が最も高くなるように補助雑音信号の付加量を制御する。これにより、歪みの影響を緩和し音声認識率への影響がより少ない補助雑音信号の付加量が選択される。

上述した実施形態では、さらに収音部１０１から入力された音響信号ｙ（ｔ）について、所定時間間隔で音声区間か非音声区間かを判定する音声判定部を備えてもよい。音声判定部は、音声区間と判定された区間の補助雑音付加信号ｘ（ｔ）を音声認識部１１４に供給し、非音声区間と判定された区間の補助雑音付加信号ｘ（ｔ）を音声認識部１１４に供給しない。また、音声判定部は、音声区間と判定された区間の音響信号ｙ（ｔ）を周波数領域変換部１０２に供給し、非音声区間と判定された区間の音響信号ｙ（ｔ）を周波数領域変換部１０２に供給しなくともよい。これにより、音声区間のみに音声認識処理が施され、非音声区間については処理が行われないため、高い音声認識率を確保することができる。

音声判定部は、音響信号ｙ（ｔ）に対して、例えば音声区間検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ；ＶＡＤ）を有音区間毎に行う。有音区間は、音響信号の振幅の立ち上がりから立ち下りに挟まれる区間である。立ち上がりとは、無音区間の後、音響信号のパワーが予め定めたパワーよりも大きくなる部分である。立ち下がりとは、無音区間の前に、音響信号のパワーが予め定めたパワーよりも小さくなる部分である。
音声判定部は、その時間間隔毎の零交差数が、予め定めた数を越えたとき、音声区間であると判定する。零交差数とは、音響信号の振幅値が零を跨ぐ回数、即ち、負値から正値、又は正値から負値に変化する回数である。

上述では、一定時間間隔で、歪み度合い算出部１１０が歪みの度合いを示す指標値を算出し、制御部１１１、２１１が補助雑音信号ｗ（ｔ）を付加する付加量を制御し、制御部２１１が雑音成分の抑圧量を選択する場合を例にとって説明した。しかし、上述した実施形態では、これには限られない。本実施形態では、少なくとも１回、歪み度合い算出部１１０が歪みの度合いを示す指標値を算出し、制御部１１１、２１１が補助雑音信号ｗ（ｔ）を付加する付加量を制御し、制御部２１１が雑音成分の抑圧量を選択した後では、これらの処理を省略してもよい。即ち、図９に示す音響処理において、ステップＳ３０５及びＳ３０６が、それぞれ少なくとも１回実行された後であれば、ステップＳ３０５及びＳ３０６を省略してもよい。また、図１３に示す音響処理において、ステップＳ４０５、Ｓ４０６及びＳ４０７が、それぞれ少なくとも１回実行された後であれば、ステップＳ４０５、Ｓ４０６及びＳ４０７を省略してもよい。これにより、処理量や処理によって生じる遅延が低減する。また、音響条件、例えば、音源の種類（例えば、話者）、残響時間、残響量、等が一定、又はその変動が少ない場合には音声認識率を維持することができる。

上述した実施形態において、音響処理装置１、２は、周囲の音響条件を判定する音響条件判定部（図示せず）を備え、歪み度合い算出部１１０は、音響条件判定部が判定した音響条件に基づいて歪み度合いを示す指標値を取得してもよい。これにより、歪み度合い算出部１１０が歪みの度合いを示す指標値を算出する処理や、制御部１１１、２１１が補助雑音信号ｗ（ｔ）を付加する付加量を制御する処理や、制御部２１１が雑音成分の抑圧量を選択する処理を逐次に行うことを省略することができる。そのため、音声認識率を維持し、処理量や処理によって生じる遅延が低減することができる。

ここで、音響条件判定部は、周囲の画像を撮影する撮影部から画像信号が入力され、入力された画像信号に基づいて音響条件を判定してもよい。ここで、音響条件判定部は、既知の画像認識技術を用いて画像信号に基づいて、周囲が室内であるか屋外（即ち、残響なし）であるかを判定する。室内であると判定された場合には、音響条件判定部は、既知の画像認識技術、その他の画像処理技術を用いて周囲の空間の大きさと内壁の材質等の空間情報を判定し、判定した空間情報に基づいて残響時間や残響量を算出してもよい。また、音響条件判定部は、既知の画像認識技術を用いて、話者を認識してもよい。
音響条件判定部は、収音部１０１から入力された音響信号に基づいて音響条件を判定してもよい。音響条件判定部は、既知の残響時間推定処理や残響量推定処理を用いて、それぞれ残響時間、残響量を算出してもよい。また、音響条件判定部は、既知の話者認識処理を用いて、話者を認識してもよい。
歪み度合い算出部１１０は、予め音響条件毎に歪み度合いを示す指標値を算出しておく。そこで、歪み度合い算出部１１０は、予め算出しておいた指標値と音響条件とを対応付けた音響条件情報を予め記憶させておいた記憶部を備え、音響条件判定部が判定した音響条件に対応する指標値を、記憶部から読み出すようにしてもよい。

上述では、制御部１１１、２１１が音声認識率の指標値として単語認識率を用いる場合を例にとって説明したが、単語認識率の代わりに尤度を用いてもよい。尤度とは、認識結果、例えば単語に対して統計的なもっともらしさを示す指標値である。尤度を示す値は、線形領域の実数値でもよいし、対数領域の実数値でもよい。
また、制御部１１１、２１１は、加算部１０８から補助雑音付加信号ｘ（ｔ）が入力され、入力された補助雑音付加信号ｘ（ｔ）について音声認識部１１４と同様の音声認識処理を行い、その過程で尤度を取得してもよい。
制御部１１１は、補助雑音信号ｗ’（ｔ）の付加量を変更し、変更された付加量が得られるように振幅調整部１１３に補助雑音信号ｗ’（ｔ）の振幅を調整させてもよい。さらに、制御部１１１は、音声認識処理によって得られた尤度が最も高くなる付加量を定めてもよいし、付加量毎に歪み度合い算出部１１０から入力された歪み度合いの指標値と尤度とを対応付けて上述の付加量対応情報を更新してもよい。
制御部２１１は、補助雑音信号ｗ’（ｔ）の付加量と抑圧量（例えば、累積頻度Ｌｘ）の組を変更し、変更された付加量が得られるように振幅調整部１１３に補助雑音信号ｗ’（ｔ）の振幅を調整させ、変更された抑圧量が得られるように雑音抑圧部１０３の抑圧量を制御してもよい。さらに、制御部１１１は、音声認識処理によって得られた尤度が最も高くなる付加量と抑圧量を定めてもよいし、付加量と抑圧量毎に歪み度合い算出部１１０から入力された歪み度合いの指標値と尤度とを対応付けて上述の音声認識率対応情報を更新してもよい。従って、尤度を音声認識率の指標値として用いることにより、制御部１１１、２１１においてオンラインで音声認識率を推定する処理や、付加量対応情報、音声認識率対応情報を更新することが可能になる。これにより、システム全体として音声認識率が向上する。

上述した実施形態では、収音部１０１は複数のチャネルの音響信号を収録し、その複数のチャネルのうち少なくとも１チャネルの音響信号を周波数領域変換部１０２に出力するものであってもよい。また、音響処理装置１、２は、収音部１０１が収録した複数のチャネルの音響信号から、それぞれ異なる方向から到来した少なくとも２個の音源のそれぞれの成分を、成分毎に異なるチャネルの音響信号に分離する音源分離部を備えていてもよい。音源分離部は、例えば、それぞれの音源の方向を公知の音源定位技術、例えばＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）法を用いて推定する。この音源分離部は、それぞれ推定された方向に指向性を向けた方向フィルタを用いて、収音部１０１が収録した複数のチャネルの音響信号から、それぞれの音源の成分を示す音響信号を取得する。音源分離部は、取得した音響信号のうち少なくとも1チャネルの音響信号を周波数領域変換部１０２に出力する。
これらの少なくとも１チャネルの音響信号が周波数領域で示されているデータである場合には、収音部１０１又は音源分離部は、そのデータを雑音抑圧部１０３に出力してもよい。

上述した実施形態では、音声認識部１１４、制御部１１１、２１１は、ミッシングフィーチャマスク（ＭＦＭ：ＭｉｓｓｉｎｇＦｅａｔｕｒｅＭａｓｋ）を用いた音声認識処理を行ってもよい。ＭＦＭを用いた音声認識処理は、ミッシングフィーチャ理論自動音声認識（ＭＦＴ−ＡＳＲ：ＭｉｓｓｉｎｇＦｅａｔｕｒｅＴｈｅｏｒｙ−ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）とも呼ばれる。ＭＦＭは、歪んだ音声の信頼できない成分の寄与を低減するマスクである。
上述した実施形態では、歪み度合い算出部１１０は、予め定めた周波数帯域毎に歪み度合いを示す指標値を算出する。そして、音声認識部１１４、制御部１１１、２１１は、歪み度合いを示す指標値が大きい周波数帯域ほど、その寄与が小さくなるＭＦＭを算出する。そして、音声認識部１１４は、制御部１１１、２１１は、算出したＭＦＭで音響特徴量に対応する尤度で周波数帯域毎に重み付け、重み付けた尤度が最も高い認識結果（例えば、音素）を定める。これにより、歪み度合いが大きい周波数帯域の成分ほど、その成分の音響特徴量による寄与が低減するため音声認識率が向上する。

このＭＦＭを用いた音声認識処理は、例えば、次の過程（ａ）−（ｉ）を有する。
（ａ）補助雑音付加信号ｘ（ｔ）を周波数領域の複素雑音除去スペクトルＸ’（ｋ，ｌ）に変換する。なお、本実施形態では、この過程を行う代わりに周波数領域変換部１０９から複素雑音除去スペクトルＸ’（ｋ，ｌ）を入力してもよい。
（ｂ）周波数領域変換部１０２から入力信号ｙ（ｔ）の複素スペクトルＹ（ｋ，ｌ）を入力する。
（ｃ）雑音抑圧部１０５、２０５から雑音パワーλ（ｋ，ｌ）を入力する。
（ｄ）予め定めた周波数帯域、例えば、メル周波数の帯域ｆ毎に複素スペクトルＹ（ｋ，ｌ）、複素雑音除去スペクトルＸ’（ｋ，ｌ）及び雑音パワーλ（ｋ，ｌ）に基づいて、例えば式（６）を用いて信頼度ｍ（ｆ，ｌ）を算出する。

式（６）において、Ｓ_ｉｎ（ｆ，ｌ）、Ｓ_ｏｕｔ（ｆ，ｌ）は、それぞれフレームｌ、帯域ｆにおける入力エネルギー値、出力エネルギー値を示す。入力エネルギー値Ｓ_ｉｎ（ｆ，ｌ）は、複素スペクトルＹ（ｋ，ｌ）の二乗和である。出力エネルギー値Ｓ_ｏｕｔ（ｆ，ｌ）は、複素雑音除去スペクトルＸ’（ｋ，ｌ）の二乗和である。Ｂ（ｆ，ｌ）は、フレームｌ、帯域ｆにおける雑音エネルギー値を示す。雑音エネルギー値Ｂ（ｆ，ｌ）は、雑音パワーλ（ｋ，ｌ）の総和である。
雑音抑圧処理においてミュージカルノイズ等の歪が生じていなければ、Ｓ_ｏｕｔ（ｆ，ｌ）＋Ｂ（ｆ，ｌ）は、Ｓ_ｉｎ（ｆ，ｌ）に補助雑音信号のエネルギー値を加算した値と等しくなる。従って、雑音が抑圧されておらず、補助雑音が付加されていない場合には、信頼度ｍ（ｆ，ｌ）は１となる。また、歪が生じていればＳ_ｏｕｔ（ｆ，ｌ）＋Ｂ（ｆ，ｌ）は、Ｓ_ｉｎ（ｆ，ｌ）に補助雑音信号のエネルギー値を加算した値よりもさらに大きい値となるため、信頼度ｍ（ｆ，ｌ）は、１よりも小さく、０により近い値となる。
従って、信頼度ｍ（ｆ，ｌ）は、補助雑音信号を加えたことや歪による劣化の度合いを示す指標値であって、その最大値が１、最小値が０である。

（ｅ）歪み度合い算出部１１０から、帯域ｆ毎に歪み度合いを示す指標値、例えば尖度比Ｋ_Ｒが入力される。
（ｆ）歪み度合いを示す指標値に基づいて後述するＭＦＭの閾値Ｔを算出する。ここで、歪み度合いを示す指標値が大きいほど、閾値Ｔが大きくなるように算出する。例えば、閾値Ｔを尖度比Ｋ_Ｒの一次関数、Ｔ＝ｃＫ_Ｒ＋ｄを用いて算出する。ここで、ｃ、ｄは、予め定めた実数値である。
（ｇ）信頼度ｍ（ｆ，ｌ）、尖度比Ｋ_Ｒに基づいて帯域ｆ毎にＭＦＭＭ（ｆ，ｌ）を算出する。上述した実施形態では、ＭＦＭとしてハードマスク（ハードＭＦＭ）を用いてもよいし、ソフトマスク（ＭＦＭ）を用いてもよい。ハードマスクを用いるとき、信頼度ｍ（ｆ，ｌ）が閾値Ｔよりも小さい場合、Ｍ（ｆ，ｌ）＝０であり、信頼度ｍ（ｆ，ｌ）が閾値Ｔと等しいか、閾値Ｔより大きい場合、Ｍ（ｆ，ｌ）＝１である。
ソフトマスクを用いるとき、信頼度ｍ（ｆ，ｌ）が閾値Ｔよりも小さい場合には、Ｍ（ｆ，ｌ）は０である。また、信頼度ｍ（ｆ，ｌ）が閾値Ｔと等しいか、閾値Ｔよりも大きい場合には、Ｍ（ｆ，ｌ）は信頼度ｍ（ｆ，ｌ）によって単調増加する関数であって、最小値が０、最大値が１である関数、例えば、式（７）に示されるシグモイド関数である。

式（７）において、σは、ｍ（ｆ，ｌ）の変化に対するＭ（ｆ，ｌ）の変化量を示す傾き値を示す。σは、０よりも大きい予め定められた実数である。即ち、Ｍ（ｆ，ｌ）は、信頼度ｍ（ｆ，ｌ）が閾値Ｔよりも小さい場合には、帯域ｆの成分による寄与を考慮せず、信頼度ｍ（ｆ，ｌ）が閾値Ｔよりも大きくなるほど、帯域ｆの成分による寄与が大きくなるように重み付けることを示す。従って、尖度比Ｋ_Ｒが大きいほど、ＭＦＭが小さくなる。

（ｈ）帯域ｆ毎に、補助雑音付加信号ｘ（ｔ）の音響特徴量ξ、例えば、ＭＳＬＳとデルタＭＳＬＳを算出する。
（ｉ）音響特徴量ξが与えられたときの状態Ｓ、例えば音素モデルの尤度Ｌ（ξ｜Ｓ）を、例えば式（８）を用いて算出する。

式（８）において、Ｌ（ξ（ｆ）｜Ｓ）は、帯域ｆにおける音響特徴量ξ（ｆ）が与えられたときの状態Ｓの尤度を示す。従って、式（８）は、帯域ｆ毎に、尤度Ｌ（ξ（ｆ）｜Ｓ）をＭＦＭＭ（ｆ，ｌ）で重み付けを行なって、尤度Ｌ（ξ｜Ｓ）を算出することを示す。

なお、上述した過程（ａ）−（ｄ）、（ｆ）では、帯域ｆ毎に信頼度ｍ（ｆ，ｌ）と閾値Ｔが算出され、過程（ｇ）で信頼度ｍ（ｆ，ｌ）と閾値Ｔとの関係でＭＦＭＭ（ｆ，ｌ）が算出されるが、上述した実施形態では、これには限られない。歪み度合いの指標値が大きい帯域ほど、その帯域の成分による寄与の大きさの指標としてＭＦＭＭ（ｆ，ｌ）が小さくなればよい。例えば、ハードマスクを用いとき、上述の過程（ｉ）で算出した閾値Ｔが所定の閾値Ｔ_０よりも小さい場合、Ｍ（ｆ，ｌ）＝１とし、閾値Ｔが閾値Ｔ_０と等しいか、閾値Ｔ_０より大きい場合、Ｍ（ｆ，ｌ）＝０としてもよい。ここで、閾値Ｔ_０は定数である。また、ソフトマスクを用いるとき、閾値Ｔが閾値Ｔ_０よりも大きい場合、Ｍ（ｆ，ｌ）は０である。閾値Ｔが閾値Ｔ_０よりも小さい場合、Ｍ（ｆ，ｌ）は閾値Ｔの増加に伴い単調減少し、最小値が０、最大値が１である関数、例えば、式（９）に示されるシグモイド関数であってもよい。

この例を用いる場合には、上述の過程（ａ）−（ｄ）、（ｇ）を省略してもよい。

なお、上述した実施形態における音響処理装置１、２の一部、例えば、周波数領域変換部１０２、１０９、雑音抑圧部１０３、２０３、時間領域変換部１０７、２０７、加算部１０８、２０８、歪み度合い算出部１１０、制御部１１１、２１１、補助雑音生成部１１２、振幅調整部１１３、２１３及び音声認識部１１４をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、音響処理装置１、２に内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態における音響処理装置１、２の一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現してもよい。音響処理装置１、２の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１、２…音響処理装置、１０１…収音部、１０２、１０９…周波数領域変換部、
１０３、２０３…雑音推定部、１０４、２０４…パワー算出部、
１０５、２０５…雑音推定部、１０６、２０６…減算部、
１０７、２０７…時間領域変換部、１０８、２０８…加算部、１１０…歪み度合い算出部、１１１、２１１…制御部、１１２…補助雑音生成部、１１３、２１３…振幅調整部、
１１４…音声認識部

Claims

入力された音響信号に含まれる雑音成分を抑圧する雑音抑圧部と、
前記雑音抑圧部が雑音成分を抑圧した音響信号に、補助雑音を付加して補助雑音付加信号を生成する補助雑音付加部と、
前記補助雑音付加信号の歪み度合いを算出する歪み度合い算出部と、
前記歪み度合い算出部が算出した歪み度合いに基づいて前記補助雑音付加部が前記補助雑音を付加する付加量を制御する制御部と、
を備えることを特徴とする音響処理装置。
前記制御部は、前記補助雑音付加信号に基づいて音声認識率を推定し、推定した音声認識率が最も高くなるように補助雑音の付加量を制御することを特徴とする請求項１に記載の音響処理装置。
前記制御部は、少なくとも２通りの抑圧量で雑音成分を抑圧させて生成された補助雑音付加信号の歪み度合いに基づいて音声認識率を推定し、推定した音声認識率が最も高くなる抑圧量を選択し、前記雑音抑圧部に選択した抑圧量で雑音成分を抑圧させることを特徴とする請求項２に記載の音響処理装置。
前記制御部は、前記選択した抑圧量について推定した音声認識率が最も高くなるように前記補助雑音の付加量を制御することを特徴とする請求項３に記載の音響処理装置。
前記歪み度合い算出部は、前記歪み度合いとして前記補助雑音付加信号の尖度と前記入力された音響信号の尖度に対する比である尖度比を算出することを特徴とする請求項１から４のいずれかに記載の音響処理装置。
前記補助雑音付加信号について音声認識処理を行う音声認識部を備え、
前記歪み度合い算出部は、前記補助雑音付加信号の成分毎に歪み度合いを算出し、
前記音声認識部は、歪み度合いが大きい成分ほど、その成分による寄与が少なくなるように前記音声認識処理を行うことを特徴とする請求項１から５のいずれかに記載の音響処理装置。
音響処理装置における音響処理方法であって
入力された音響信号に含まれる雑音成分を検出し、前記音響信号から検出した雑音成分を抑圧する雑音抑圧過程と、
前記雑音抑圧過程で雑音成分を抑圧した音響信号に、補助雑音を付加して補助雑音付加信号を生成する補助雑音付加過程と、
前記補助雑音付加信号の歪み度合いを算出する歪み度合い算出過程と、
前記歪み度合い算出過程で算出した歪み度合いに基づいて前記補助雑音付加過程で前記補助雑音を付加する付加量を制御する制御過程と、
を有することを特徴とする音響処理方法。