JP2014145838A

JP2014145838A - 音響処理装置及び音響処理方法

Info

Publication number: JP2014145838A
Application number: JP2013013251A
Authority: JP
Inventors: Kazuhiro Nakadai; 一博中臺; Keisuke Nakamura; 圭佑中村; Tatsuya Higuchi; 達矢樋口
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2013-01-28
Filing date: 2013-01-28
Publication date: 2014-08-14
Also published as: US20140214418A1; US9384760B2

Abstract

【課題】計算コストの低減と音声認識率の向上を両立する音響処理装置及び音響処理方法を提供する。
【解決手段】第１雑音抑圧部は入力された音響信号に含まれる雑音成分を第１の抑圧量で抑圧し、第２雑音抑圧部は入力された音響信号に含まれる雑音成分を第１の抑圧量よりも大きい第２の抑圧量で抑圧し、音声区間検出部は第２雑音抑圧部が雑音成分を抑圧した音響信号について音声が含まれる音声区間であるか否かを予め定めた時間毎に検出し、音声認識部は第１雑音抑圧部が雑音成分を抑圧した音響信号のうち、音声区間検出部が音声区間であると検出した区間について音声認識処理を行う。
【選択図】図１

Description

本発明は、音響処理装置及び音響処理方法、に関する。

雑音下で音声認識を行うと認識率が低下することが知られている。そこで、多チャネルの音響信号を収録し、収録した音響信号に含まれる音声と雑音を分離して、雑音を分離した音声について音声認識を行なうことが提案されている。音源を分離する処理として、音源毎の方向を推定し、推定した方向のそれぞれへの感度が高い指向性フィルタを用いて音源毎の音響信号に分離する音源分離技術がある。

例えば、特許文献１に記載の音信号処理装置では、異なる位置に配置された複数のマイクから取得した複数チャネルの音信号に基づいて目的音の方向と区間を推定し、推定された方向と区間から所定の目的音の音信号を抽出する。具体的には、複数チャネルの音信号に対して時間周波数領域の観測信号を生成し、観測信号に基づいて目的音の方向と目的音が発生している区間を検出する。さらに、検出した目的音の方向と区間に基づいて目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号と観測信号とから共分散行列を計算し、計算した共分散行列の固有ベクトルから目的音の音信号を抽出する抽出フィルタを生成する。

特開２０１２−２３４１５０号公報

しかしながら、特許文献１に記載の音信号処理装置は、音を発生している音源数に関わらず、複数チャネルの音信号について音源方向を推定し、複数チャネルの音信号から音源毎の音響信号に分離するため計算コストが非常に高く処理時間が長い。また、同時に音を発生している音源数は変動することがあり、音源方向の推定精度が低下する。ひいては、音源毎の分離の度合いが不完全になるため音声認識率が低下していた。

本発明は上記の点に鑑みてなされたものであり、計算コストの低減と音声認識率の向上を両立する音響処理装置及び音響処理方法を提供する。

（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、入力された音響信号に含まれる雑音成分を第１の抑圧量で抑圧する第１雑音抑圧部と、前記入力された音響信号に含まれる雑音成分を前記第１の抑圧量よりも大きい第２の抑圧量で抑圧する第２雑音抑圧部と、前記第２雑音抑圧部が雑音成分を抑圧した音響信号について音声が含まれる音声区間であるか否かを予め定めた時間毎に検出する音声区間検出部と、前記第１雑音抑圧部が雑音成分を抑圧した音響信号のうち、前記音声区間検出部が音声区間であると検出した区間について音声認識処理を行う音声認識部と、を備えることを特徴とする音響処理装置である。

（２）本発明の他の態様は、上述の音響処理装置であって、少なくとも２チャネルの音響信号を入力する音響信号入力部を備え、前記第１雑音抑圧部及び第２雑音抑圧部の一方は、前記少なくとも２チャネルのそれぞれについて雑音成分を抑圧し、前記音声区間検出部は、前記一方が雑音成分を抑圧した音響信号の強度が、前記少なくとも２チャネルのうち最も大きいチャネルである強度最大チャネルの音響信号について前記音声区間であるか否かを検出し、前記音声認識部は、前記第１雑音抑圧部が雑音成分を抑圧した前記強度最大チャネルの音響信号のうち、前記音声区間検出部が音声区間であると検出した区間について音声認識処理を行うことを特徴とする。

（３）本発明の他の態様は、上述の音響処理装置であって、少なくとも２チャネルの音響信号を入力する音響信号入力部を備え、前記音響信号入力部が入力した少なくとも２チャネルの音響信号について音源の個数と音源毎の方向を推定する音源推定部と、前記音源推定部が推定した音源の個数が少なくとも２個である場合、前記少なくとも２チャネルの音響信号から前記音源毎の方向に基づいて当該音源毎の音響信号に分離する音源分離部と、前記音声認識部は、前記音源分離部が分離した音源毎の音響信号のそれぞれについて音声認識処理を行うことを特徴とする。

（４）本発明の他の態様は、上述の音響処理装置であって、前記音声区間検出部は、前記第２雑音抑圧部が雑音成分を抑圧した音響信号の強度と零交差数をフレーム毎に算出し、算出した強度及び零交差数に基づいて音声区間であるか否かを検出することを特徴とする。

（５）本発明の他の態様は、音響処理装置における音響処理方法であって、入力された音響信号に含まれる雑音成分を第１の抑圧量で抑圧する第１雑音抑圧過程と、前記入力された音響信号に含まれる雑音成分を前記第１の抑圧量よりも大きい第２の抑圧量で抑圧する第２雑音抑圧過程と、前記第２雑音抑圧過程で雑音成分を抑圧した音響信号について音声が含まれる音声区間であるか否かを予め定めた時間毎に検出する音声区間検出過程と、前記第１雑音抑圧過程で雑音成分を抑圧した音響信号のうち、前記音声区間検出過程で音声区間であると検出した区間について音声認識処理を行う音声認識過程と、を有することを特徴とする音響処理方法である。

上述の（１）、（５）の態様によれば、より大きい第２の抑圧量で雑音成分を抑圧した雑音除去信号に基づいて音声区間を正確に判定することができ、より小さい第１の抑圧量で雑音成分を抑圧した歪みの少ない音響信号を用いて音声認識率が向上する。
上述の（２）の態様によれば、最も強度が大きい音声の成分が含まれるチャネルについて音声区間検出や音声認識に係る処理がなされるため、雑音成分の影響をより低減して音声認識率を向上させることができる。
上述の（３）の態様によれば、同時に複数の音源が音を発生することが少ない場合には、音源毎の音響信号を分離する処理のように処理量の大きい処理を行う機会が限定される。そのため、複数の音源に対する音声認識において音声認識率を向上させるとともにシステム全体として処理量を低減することができる。
上述の（４）の態様によれば、音声と非音声とを明確に判別する手がかりとしてフレーム毎の強度と零交差数を用いるため、そのフレームが音声認識の対象となる音声区間であることが的確に判別されるので音声認識率が向上する。

本発明の第１の実施形態に係る音響処理装置の構成を示す概略ブロック図である。ヒストグラムの一例を示す概念図である。累積分布の一例を示す概念図である。本実施形態に係る雑音推定処理を示すフローチャートである。入力信号の一例を示す図である。第２雑音除去信号の一例を示す図である。零交差点の例を示す概念図である。音声区間検出情報の例を示す図である。音声区間信号の例を示す図である。本実施形態に係る音響処理を示すフローチャートである。本発明の第２の実施形態に係る音響処理装置の構成を示す概略ブロック図である。本実施形態に係る音響処理を示すフローチャートである。本発明の第３の実施形態に係る音響処理装置の構成を示す概略ブロック図である。本実施形態に係る音響処理を示すフローチャートである。

（第１の実施形態）
以下、図面を参照しながら本発明の第１の実施形態について説明する。
図１は、本実施形態に係る音響処理装置１の構成を示す概略ブロック図である。
音響処理装置１は、収音部１０１、周波数領域変換部１０２、２個の雑音抑圧部１０３−１、１０３−２、２個の時間領域変換部１０７−１、１０７−２、音声区間検出部１０８、音声区間抽出部１０９及び音声認識部１１０を含んで構成される。

音響処理装置１は、雑音抑圧部１０３−１において、入力された音響信号に含まれる雑音成分を第１の抑圧量で抑圧し、雑音抑圧部１０３−２において、入力された音響信号に含まれる雑音成分を前記第１の抑圧量よりも大きい第２の抑圧量で抑圧する。また、音響処理装置１は、音声区間検出部１０８において、雑音抑圧部１０３−２で雑音成分が抑圧された音響信号について音声が含まれる音声区間であるか否かを予め定めた時間毎に検出する。音響処理装置１は、音声認識部１１０において、雑音抑圧部１０３−１で雑音成分が抑圧された音響信号のうち、音声区間検出部１０８で音声区間であると検出した区間について音声認識処理を行う。

収音部１０１は、到来した音波に基づいて電気信号である音響信号ｙ（ｔ）を生成し、生成した音響信号ｙ（ｔ）を周波数領域変換部１０２に出力する。ｔは、時刻である。収音部１０１は、例えば、可聴帯域（２０Ｈｚ−２０ｋＨｚ）の音響信号を収録するマイクロホンである。
周波数領域変換部１０２は、収音部１０１から入力され、時間領域で表された音響信号ｙ（ｔ）を、周波数領域で表された複素入力スペクトルＹ（ｋ，ｌ）に変換する。ｋは、周波数を表すインデックスである。ｌは、各フレームを表すインデックスである。ここで、周波数領域変換部１０２は、音響信号ｙ（ｔ）について、例えば、フレームｌ毎に離散フーリエ変換（ＤＦＴ：ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を行う。周波数領域変換部１０２は、音響信号ｙ（ｔ）に窓関数（例えば、ハミング窓）を乗算して、窓関数が乗算された音響信号について周波数領域で表された複素入力スペクトルＹ（ｋ，ｌ）に変換してもよい。
周波数領域変換部１０２は、変換した複素入力スペクトルＹ（ｋ，ｌ）を２個の雑音抑圧部１０３−１、１０３−２のそれぞれに出力する。

２個の雑音抑圧部１０３−１、１０３−２は、周波数領域変換部１０２から入力された複素入力スペクトルＹ（ｋ，ｌ）の雑音成分を推定し、推定した雑音成分を抑圧した音響信号のスペクトル（複素雑音除去スペクトル）Ｘ’（ｋ，ｌ）を算出する。２個の雑音抑圧部１０３−１、１０３−２の構成は、特に言及しない限り同様である。雑音抑圧部１０３−２については、雑音抑圧部１０３−１についての説明を援用する。但し、雑音抑圧部１０３−１で雑音成分を抑圧する抑圧量（第１の抑圧量）よりも、雑音抑圧部１０３−２で雑音成分を抑圧する抑圧量（第２の抑圧量）の方が大きい。

雑音抑圧部１０３−１は、パワー算出部１０４−１、雑音推定部１０５−１及び減算部１０６−１を含んで構成される。雑音抑圧部１０３−２は、パワー算出部１０４−２、雑音推定部１０５−２及び減算部１０６−２を含んで構成される。パワー算出部１０４−２、雑音推定部１０５−２及び減算部１０６−２は、パワー算出部１０４−１、雑音推定部１０５−１及び減算部１０６−１とそれぞれ同様な構成を備える。雑音抑圧部１０３−２については、主に雑音抑圧部１０３−１との差異点について説明する。

パワー算出部１０４−１は、周波数領域変換部１０２から入力された複素入力スペクトルＹ（ｋ，ｌ）に基づいてパワースペクトル｜Ｙ（ｋ，ｌ）｜^２を算出する。以下の説明では、パワースペクトルを単にパワーと呼ぶことがある。ここで、｜…｜は、複素数…の絶対値を示す。パワー算出部１０４−１は、算出したパワースペクトル｜Ｙ（ｋ，ｌ）｜^２を雑音推定部１０５−１及び減算部１０６−１に出力する。
パワー算出部１０４−２は、パワー算出部１０４−１と同様に、複素入力スペクトルＹ（ｋ，ｌ）に基づいて算出したパワースペクトル｜Ｙ（ｋ，ｌ）｜^２を雑音推定部１０５−２及び減算部１０６−２に出力する。

雑音推定部１０５−１は、パワー算出部１０４−１から入力されたパワースペクトル｜Ｙ（ｋ，ｌ）｜^２に含まれる雑音成分のパワースペクトルλ（ｋ，ｌ）を算出する。以下の説明では、雑音パワースペクトルλ（ｋ，ｌ）を雑音パワーλ（ｋ，ｌ）と呼ぶことがある。
雑音推定部１０５−２は、雑音推定部１０５−２と同様に、パワー算出部１０４−２から入力されたパワースペクトル｜Ｙ（ｋ，ｌ）｜^２に基づいて雑音パワーλ（ｋ，ｌ）を算出する。

ここで、雑音推定部１０５−１、１０５−２は、例えば、ＨＲＬＥ（Ｈｉｓｔｏｇｒａｍ−ｂａｓｅｄＲｅｃｕｒｓｉｖｅＬｅｖｅｌＥｓｔｉｍａｔｉｏｎ）法を用いて雑音パワーλ（ｋ，ｌ）を算出する。ＨＲＬＥ法では、対数領域におけるパワースペクトル｜Ｙ（ｋ，ｌ）｜^２のヒストグラム（頻度分布）を算出し、その累積分布と予め定めた累積頻度Ｌｘに基づいて雑音パワーλ（ｋ，ｌ）を算出する。ＨＲＬＥ法を用いて雑音パワーλ（ｋ，ｌ）を算出する処理については後述する。この累積頻度Ｌｘは、収録された音響信号に含まれる背景雑音の雑音パワーを定める変数、言い換えれば減算部１０６−１、１０６−２で減算（抑圧）される雑音成分の抑圧量を制御するための制御変数である。累積頻度Ｌｘが大きいほど、抑圧量が大きくなり、累積頻度Ｌｘが小さいほど抑圧量は小さくなる。累積頻度Ｌｘが０のときは、抑圧量も０になる。

なお、雑音推定部１０５−２でＨＲＬＥ法を用いる場合には、雑音推定部１０５−１で用いられている累積頻度Ｌｘ（例えば、０．３）よりも大きい累積頻度Ｌｘ（例えば、０．９２）を用いる。これにより、雑音推定部１０５−２での雑音成分の抑圧量は、雑音推定部１０５−１での雑音成分の抑圧量よりも大きくなる。

雑音推定部１０５−１、１０５−２は、ＨＲＬＥ法の代わりに、ＭＣＲＡ（Ｍｉｎｉｍａ−ＣｏｎｔｒｏｌｌｅｄＲｅｃｕｒｓｉｖｅＡｖｅｒａｇｅ）法等、他の方法を用いて雑音パワーλ（ｋ，ｌ）を算出してもよい。ＭＣＲＡ法を用いる場合には、累積頻度Ｌｘの代わりにＭＣＲＡ法で導入されている雑音の抑圧量を制御するための制御変数として、例えば、推定定常雑音の混合比α_ｄと定常雑音推定時の係数ｒのセットを用いてもよい。
雑音推定部１０５−１、１０５−２は、算出した雑音パワーλ（ｋ，ｌ）を減算部１０６−１、１０６−２に出力する。

減算部１０６−１は、パワー算出部１０４−１から入力されたパワースペクトル｜Ｙ（ｋ，ｌ）｜^２から雑音パワーλ（ｋ，ｌ）を減算又は減算に相当する演算を行うことによって、雑音成分を除去した音響信号のスペクトル（複素雑音除去スペクトル）を算出する。
ここで、減算部１０６−１は、パワー算出部１０４−１から入力されたパワースペクトル｜Ｙ（ｋ，ｌ）｜^２と雑音推定部１０５−１から入力された雑音パワーλ（ｋ，ｌ）とに基づいて、利得Ｇ_ＳＳ（ｋ，ｌ）を、例えば式（１）を用いて算出する。

式（１）において、ｍａｘ（α，β）は、実数αとβのうち大きいほうの数を与える関数を示す。βは、予め定めた利得Ｇ_ＳＳ（ｋ，ｌ）の最小値である。ここで、関数ｍａｘの左側（実数αの側）は、フレームｌにおける周波数ｋに係る雑音成分が除去されたパワースペクトル｜Ｙ（ｋ，ｌ）｜^２−λ（ｋ，ｌ）の、雑音が除去されていないパワースペクトル｜Ｙ（ｋ，ｌ）｜^２の比に対する平方根を示す。

減算部１０６−１は、周波数領域変換部１０２から入力された複素入力スペクトルＹ（ｋ，ｌ）に、算出した利得Ｇ_ＳＳ（ｋ，ｌ）を乗算して複素雑音除去スペクトルＸ’（ｋ，ｌ）を算出する。つまり、複素雑音除去スペクトルＸ’（ｋ，ｌ）は、複素入力スペクトルＹ（ｋ，ｌ）からその雑音成分を示す雑音パワーが減算（抑圧）された複素スペクトルを示す。減算部１０６−１は、算出した複素雑音除去スペクトルＸ’（ｋ，ｌ）を時間領域変換部１０７−１に出力する。
減算部１０６−２は、減算部１０６−１と同様に、パワー算出部１０４−２から入力されたパワースペクトル｜Ｙ（ｋ，ｌ）｜^２と雑音推定部１０５−１から入力された雑音パワーλ（ｋ，ｌ）に基づいて、複素雑音除去スペクトルＸ’’（ｋ，ｌ）を算出する。減算部１０６−２は、算出した複素雑音除去スペクトルＸ’’（ｋ，ｌ）を時間領域変換部１０７−２に出力する。

時間領域変換部１０７−１は、減算部１０６−１から入力された複素雑音除去スペクトルＸ’（ｋ，ｌ）を時間領域の第１雑音除去信号ｘ’（ｔ）に変換する。ここで、時間領域変換部１０７−１は、フレームｌ毎に複素雑音除去スペクトルＸ’（ｋ，ｌ）に対して、例えば逆離散フーリエ変換（ＩｎｖｅｒｓｅＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ、ＩＤＦＴ）を行って、第１雑音除去信号ｘ’（ｔ）を算出する。時間領域変換部１０７−１は、変換した第１雑音除去信号ｘ’（ｔ）を音声区間抽出部１０９に出力する。第１雑音除去信号ｘ’（ｔ）は、音響信号ｙ（ｔ）から雑音抑圧部１０３−１で推定された雑音成分が所定の抑圧量（第１の抑圧量）で抑圧された音響信号である。

時間領域変換部１０７−２は、時間領域変換部１０７−１と同様な処理を行って、減算部１０６−２から入力された複素雑音除去スペクトルＸ’’（ｋ，ｌ）を時間領域の第２雑音除去信号ｘ’’（ｔ）に変換する。時間領域変換部１０７−２は、変換した第２雑音除去信号ｘ’’（ｔ）を音声区間検出部１０８に出力する。第２雑音除去信号ｘ’’（ｔ）は、音響信号ｙ（ｔ）から雑音抑圧部１０３−２で推定された雑音成分が第１の抑圧量よりも大きい第２の抑圧量で抑圧された音響信号である。

音声区間検出部１０８は、時間領域変換部１０７−２から入力された第２雑音除去信号ｘ’’（ｔ）について、人間が発声した音声を含む音声区間であるか否かを検出する。音声区間を検出する処理は、音声区間検出、ＶＡＤ（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）と呼ばれる。
まず、音声区間検出部１０８は、第２雑音除去信号ｘ’’（ｔ）についてフレーム毎に有音区間であるか無音区間であるかを判定する。音声区間検出部１０８は、例えば、あるフレームを形成する信号値の強度が予め定めた強度の閾値を超える場合、そのフレームは有音区間であると判定する。音声区間検出部１０８は、その強度が予め定めた強度の閾値と等しいか、その強度の閾値よりも小さいとき、そのフレームは無音区間であると判定する。有音区間であるか否かの判定例については、後述する。

次に、音声区間検出部１０８は、有音区間であると判定したフレームについて、そのフレームが音声区間であるか否かを判定する。音声区間であるか否かを判定する処理の例については、後述する。
音声区間検出部１０８は、フレーム毎に音声区間であるか非音声区間であるかを示す音声区間検出情報を生成し、生成した音声区間検出情報を音声区間抽出部１０９に出力する。音声区間検出情報は、例えば、音声区間であることを示す場合、１である値を有し、非音声区間であることを示す場合、０である値を有する二値（バイナリ）情報であってもよい。

音声区間抽出部１０９は、時間領域変換部１０７−１から入力された第１雑音除去信号ｘ’（ｔ）から、音声区間検出部１０８から入力された音声区間検出情報が音声区間であることを示すフレームの信号を、音声区間信号ｚ（ｔ）として抽出する。音声区間抽出部１０９は、抽出した音声区間信号ｚ（ｔ）を音声認識部１１０に出力する。これにより、非音声区間の音響信号について、音声認識処理を施すことによって誤認識されることを回避する。

音声認識部１１０は、音声区間抽出部１０９から入力された音声区間信号ｚ（ｔ）について音声認識処理を行い、発話内容、例えば音韻列や単語を認識する。音声認識部１１０は、例えば、音響モデルである隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）と単語辞書を備える。音声認識部１１０は、補助雑音付加信号ｘ（ｔ）について音響特徴量、例えば、静的メル尺度対数スペクトル（ＭＳＬＳ：Ｍｅｌ−ＳｃａｌｅＬｏｇＳｐｅｃｔｒｕｍ）、デルタＭＳＬＳ及び１個のデルタパワーを、所定時間毎に算出する。音声認識部１１０は、算出した音響特徴量から音響モデルを用いて音韻を定め、定めた音韻からなる音韻列から単語辞書を用いて単語を認識する。

次に、雑音推定部１０５−１、１０５−２がＨＲＬＥ法を用いて雑音パワーλ（ｋ，ｌ）を算出する雑音推定処理について説明する。
ＨＲＬＥ法は、ある周波数について、パワー毎の頻度を計数してヒストグラムを生成し、生成したヒストグラムにおいて計数した頻度をパワーについて累積した累積頻度を算出し、予め定めた累積頻度Ｌｘを与えるパワーを雑音パワーと定める方法である。従って、累積頻度Ｌｘが大きいほど、推定される雑音パワーが大きくなり、累積頻度Ｌｘが小さいほど、推定される雑音パワーが小さくなる。

図２は、ヒストグラムの一例を示す概念図である。
図２において、横軸はパワーを示し、縦軸は頻度を示す。図２は、パワーの区間毎の頻度を示す。頻度は、所定の時間におけるフレーム毎に、算出されたパワー（スペクトル）があるパワーの区間に属すると判定された回数であり、度数とも呼ばれる。図２に示す例では、左側から２番目のパワーの区間に係る頻度が最も高いことを示す。このパワーの区間を、以下の説明では階級と呼ぶことがある。

図３は、累積分布の一例を示す概念図である。
図３において、横軸はパワーを示し、縦軸は累積頻度を示す。図３に示す累積頻度は、パワーの区間毎に図２に示す頻度を最も左側に示されている区間から順次累積した値である。累積頻度は、累積度数とも呼ばれる。Ｌｘは、ＨＲＬＥ法を用いて雑音パワーを算出する際に用いる累積頻度を示す。図３の例では、累積頻度Ｌｘに対応するパワーが、左から４番目のパワーの区間に係るパワーである。ＨＲＬＥ法では、このパワーが、雑音パワーと定められる。

次に、ＨＲＬＥ法に基づく具体的な雑音推定処理について説明する。
図４は、本実施形態に係る雑音推定処理を示すフローチャートである。
（ステップＳ１０１）雑音推定部１０５−１、１０５−２は、パワースペクトル｜Ｙ（ｋ，ｌ）｜^２に基づき対数スペクトルＹ_Ｌ（ｋ，ｌ）を算出する。ここで、Ｙ_Ｌ（ｋ，ｌ）は、式（２）で表される。

その後、ステップＳ１０２に進む。
（ステップＳ１０２）雑音推定部１０５−１、１０５−２は、算出した対数スペクトルＹ_Ｌ（ｋ，ｌ）が属する階級Ｉ_ｙ（ｋ，ｌ）を定める。ここで、Ｉ_ｙ（ｋ，ｌ）は、式（３）で表される。

式（３）において、ｆｌｏｏｒ（…）は、実数…、又は…よりも小さい最大の整数を与える床関数（ｆｌｏｏｒｆｕｎｃｔｉｏｎ）である。Ｌ_ｍｉｎ、Ｌ_ｓｔｅｐは、それぞれ予め定めた対数スペクトルＹ_Ｌ（ｋ，ｌ）の最小レベル、階級毎のレベルの幅である。その後、ステップＳ１０３に進む。

（ステップＳ１０３）雑音推定部１０５−１、１０５−２は、現フレームｌにおける階級ｉに対する度数Ｎ（ｋ，ｌ，ｉ）を、例えば式（４）を用いて累積する。

式（４）において、αは、時間減衰係数（ｔｉｍｅｄｅｃａｙｐａｒａｍｅｔｅｒ）である。ここで、α＝１−１／（Ｔ_ｒ・Ｆ_ｓ）である。Ｔ_ｒは、予め定めた時定数（ｔｉｍｅｃｏｎｓｔａｎｔ）であり、Ｆ_ｓは、サンプリング周波数である。δ（…）は、ディラックのデルタ関数（Ｄｉｒａｃ’ｓｄｅｌｔａｆｕｎｃｔｉｏｎ）である。即ち、度数Ｎ（ｋ，ｌ，ｉ）は、前フレームｌ−１における階級Ｉ_ｙ（ｋ，ｌ）に対する度数Ｎ（ｋ，ｌ−１，ｉ）にαを乗じて減衰させた値に、１−αを加算して得られる。これにより、階級Ｉ_ｙ（ｋ，ｌ）に対する度数Ｎ（ｋ，ｌ，Ｉ_ｙ（ｋ，ｌ））が累積される。その後、ステップＳ１０４に進む。

（ステップＳ１０４）雑音推定部１０５−１、１０５−２は、最下位の階級０から階級ｉまで度数Ｎ（ｋ，ｌ，ｉ’）を加算して、累積度数Ｓ（ｋ，ｌ，ｉ）を算出する。その後、ステップＳ１０５に進む。
（ステップＳ１０５）雑音推定部１０５−１、１０５−２は、累積頻度Ｌｘに対応する累積度数Ｓ（ｋ，ｌ，Ｉ_ｍａｘ）・Ｌｘに最も近似する累積度数Ｓ（ｋ，ｌ，ｉ）を与える階級ｉを、推定階級Ｉ_ｘ（ｋ，ｌ）として定める。即ち、推定階級Ｉ_ｘ（ｋ，ｌ）は、累積度数Ｓ（ｋ，ｌ，ｉ）との間で式（５）に示す関係がある。

式（５）において、ａｒｇｍｉｎ_ｉ［…］は、…を最小とするｉを与える関数である。
その後、ステップＳ１０６に進む。
（ステップＳ１０６）雑音推定部１０５−１、１０５−２は、推定階級Ｉ_ｘ（ｋ，ｌ）を対数レベルλ_ＨＲＬＥ（ｋ，ｌ）に換算する。λ_ＨＲＬＥ（ｋ，ｌ）は、例えば、式（６）を用いて算出される。

そして、対数レベルλ_ＨＲＬＥ（ｋ，ｌ）を、線形領域に変換して雑音パワーλ（ｋ，ｌ）を算出する。λ（ｋ，ｌ）は、例えば、式（７）を用いて算出される。

その後、本フローチャートに係る処理を終了する。

次に、雑音抑圧による効果について説明する。
図５は、入力信号ｙ（ｔ）の一例を示す図である。
図５において、横軸は時刻を示し、縦軸は入力信号ｙ（ｔ）の信号値を示す。図５では、背景雑音が重畳しているため、全体にわたり信号値の絶対値の平均が約０．０３と零よりも有意に大きい値をとる。従って、この信号値と同等又はそれよりも小さい音声は検知されない。
図６は、第２雑音除去信号ｘ’’（ｔ）の一例を示す図である。
図６において、横軸は時刻を示し、縦軸は第２雑音除去信号ｘ’’（ｔ）の信号値を示す。第２雑音除去信号ｘ’’（ｔ）の信号値の絶対値の平均は、例えば、時刻が２０．０―２０．７秒、２１．３−２３．０秒、２４．０−２５．７秒、２６．４−２７．４秒の各区間では、約０．００２である。この値は、入力信号ｙ（ｔ）における約０．０３よりも著しく小さいから、入力信号ｙ（ｔ）から背景雑音が抑圧されたことが示される。第２雑音除去信号ｘ’’（ｔ）では、左右方向に延びる２本の一点鎖線は、それぞれ音声区間検出部１０８が有音区間であるか否かを判定する際に用いる閾値を示す。この例では、閾値が、信号値（振幅）の絶対値が０．０１であることを示す。ここで、音声区間検出部１０８は、信号値の絶対値のフレーム内の平均値を強度として用い、強度が閾値よりも大きいときに、そのフレームが有音区間と判定し、強度が閾値と等しいか閾値よりも小さいときに、そのフレームが無音区間であると判定する。なお、音声区間検出部１０８は、強度として信号値の二乗値のフレーム内の総和であるパワーを用いてもよい。
ここで、時刻が２０．７−２１．３秒、２３．０−２４．０秒、２５．７−２６．４秒であるときに発話された音声による音響信号の波形が明瞭に示されている。これらの区間は、いずれも有音区間と判定される。

次に、音声区間検出部１０８が音声区間であるか否かを判定する処理の例について説明する。
音声区間検出部１０８は、例えば、有音区間であると判定したフレーム内の零交差数（ｎｕｍｂｅｒｏｆｚｅｒｏｃｒｏｓｓｉｎｇｓ）を計数する。零交差数とは、零交差点（ゼロクロス点（ｚｅｒｏｃｒｏｓｓｉｎｇ）とも呼ばれる）の数である。零交差点とは、そのフレームを構成する信号値が零を跨ぐ点である。例えば、ある時刻での信号値１が負値である場合、その次の時刻の信号値２が正値に変化するとき、信号値１、２の間を結ぶ線分上における信号値が零となる点である。また、ある時刻での信号値３が正値である場合、その次の時刻の信号値４が負値に変化するとき、信号値３、４の間を結ぶ線分上における信号値が零となる点である。
音声区間検出部１０８は、計数した零交差数が予め定めた零交差数の閾値（例えば、フレーム長が３２ｍｓである場合、１５個）よりも大きい場合、そのフレームが音声区間であると判定し、それ以外の場合、そのフレームが非音声区間であると判定する。非音声区間には、無音区間も含まれる。

図７は、零交差点の例を示す概念図である。
図７において、横軸は時刻を示し、縦軸は第２雑音除去信号ｘ’’（ｔ）の信号値を示す。図７では、時刻と信号値の単位や目盛は省略されている。
図７において、時刻の変化によって振幅が周期的に変化する曲線は、各時刻における第２雑音除去信号ｘ’’（ｔ）の信号値を示す。図７では、信号値が正値から負値に変化する点、負値から正値に変化する点、それぞれ円で囲まれている。この円で囲まれている４つの点が、それぞれ零交差点である。

次に、音声区間検出部１０８が生成する音声区間検出情報の例を示す。
図８は、音声区間検出情報の例を示す図である。
図８において、横軸は時刻を示し、縦軸は音声区間検出情報を形成する信号値を示す。図８に示す例では、時刻が２０．７−２１．３秒、２３．０−２４．０秒、２５．７−２６．４秒である区間では、信号値が１であり、その他の時刻では、信号値が０である。つまり、音声区間検出情報は、時刻が２０．７−２１．３秒、２３．０−２４．０秒、２５．７−２６．４秒である区間でのフレームが音声区間であり、その他の時刻では非音声区間であることを示す。

次に、音声区間抽出部１０９が抽出した音声区間信号ｚ（ｔ）の例について説明する。
図９は、音声区間信号の例を示す図である。
図９において、横軸は時刻を示し、縦軸は音声区間信号ｚ（ｔ）の信号値を示す。図９の横軸が示す時刻の範囲は、図６、８の横軸が示す範囲と同様である。図９に示す例では、時刻が２０．７−２１．３秒、２３．０−２４．０秒、２５．７−２６．４秒である場合には第１雑音除去信号ｘ’（ｔ）の信号値が示されている。それ以外の時刻では、振幅が０である。第１雑音除去信号ｘ’（ｔ）のうち、図８に示される音声区間が、音声区間信号ｚ（ｔ）として抽出されていることを示す。抽出された音声区間信号ｚ（ｔ）について、音声認識部１１０が音声認識処理を行う。

次に、本実施形態に係る音響処理について説明する。
図１０は、本実施形態に係る音響処理を示すフローチャートである。
（ステップＳ２０１）雑音抑圧部１０３−１は、音響信号ｙ（ｔ）に基づくパワースペクトル｜Ｙ（ｋ，ｌ）｜^２に含まれる雑音成分として雑音パワーλ（ｋ，ｌ）を、例えばＨＲＬＥ法を用いて第１の抑圧量で推定する。雑音抑圧部１０３−１は、パワースペクトル｜Ｙ（ｋ，ｌ）｜^２から推定した雑音パワーλ（ｋ，ｌ）を減算して、第１の抑圧量で雑音成分が抑圧された複素雑音除去スペクトルＸ’（ｋ，ｌ）を算出する。その後、ステップＳ２０２に進む。

（ステップＳ２０２）雑音抑圧部１０３−２は、パワースペクトル｜Ｙ（ｋ，ｌ）｜^２に含まれる雑音パワーλ（ｋ，ｌ）を第１の抑圧量よりも大きい第２の抑圧量での雑音成分を推定する。ＨＲＬＥ法が用いられる場合には、雑音抑圧部１０３−２における累積頻度Ｌｘは、雑音抑圧部１０３−１における累積頻度Ｌｘよりも大きい。雑音抑圧部１０３−２は、パワースペクトル｜Ｙ（ｋ，ｌ）｜^２から推定した雑音パワーλ（ｋ，ｌ）を減算して、第２の抑圧量で雑音成分が抑圧された複素雑音除去スペクトルＸ’’（ｋ，ｌ）を算出する。その後、ステップＳ２０３に進む。

（ステップＳ２０３）音声区間検出部１０８は、複素雑音除去スペクトルＸ’’（ｋ，ｌ）に基づく第２雑音除去信号ｘ’’（ｔ）について、フレーム毎に音声区間か否かを検出する。ここで、音声区間検出部１０８は、第２雑音除去信号ｘ’’（ｔ）の信号値の強度に基づいてフレーム毎に有音区間であるか無音区間であるかを判定する。音声区間検出部１０８は、有音区間であると判定したフレームについて、フレーム毎に零交差数を計数し、計数した零交差数に基づいて、そのフレームが音声区間であるか否かを判定する。音声区間検出部１０８は、音声区間であるか非音声区間であるかを示す音声区間検出情報を生成する。その後、ステップＳ２０４に進む。

（ステップＳ２０４）音声区間抽出部１０９は、第１雑音除去信号ｘ’（ｔ）から、音声区間検出情報が音声区間であることを示すフレームの信号を、音声区間信号ｚ（ｔ）として抽出する。その後、ステップＳ２０４に進む。
（ステップＳ２０５）音声認識部１１０は、音声区間信号ｚ（ｔ）について音声認識処理を行い、発話内容を認識する。その後、処理を終了する。

なお、上述では、時間領域変換部１０７−１が第１雑音除去信号ｘ’（ｔ）を、そのまま音声区間抽出部１０９に出力する場合を例にとって説明したが、本実施形態ではこれには限られない。本実施形態では、時間領域変換部１０７−１が出力する第１雑音除去信号ｘ’（ｔ）に白色雑音やピンクノイズ等の補助雑音を所定の付加量で付加してもよい。そして、音声区間抽出部１０９は、補助雑音を付加した音響信号について音声区間と判定されたフレームの信号を音声区間信号ｚ（ｔ）として抽出してもよい。これにより、雑音成分を抑圧することによって生じた歪が緩和するため、音声認識率が向上する。

以上、説明したように、本実施形態では、入力された音響信号に含まれる雑音成分を第１の抑圧量で抑圧し、入力された音響信号に含まれる雑音成分を第１の抑圧量よりも大きい第２の抑圧量で抑圧する。また、本実施形態では、第２の抑圧量で雑音成分を抑圧した音響信号について音声が含まれる音声区間であるか否かを予め定めた時間毎に検出し、第１の抑圧量で雑音成分を抑圧した音響信号のうち、音声区間であると検出した区間について音声認識処理を行う。

雑音成分の抑圧量を大きくするほど、雑音成分がより除去され雑音に重畳された音声成分より精度よく抽出されるので、雑音成分が除去されていない音響信号よりも音声認識率が向上する。他方、抑圧量が大きいほど、抽出された音声成分の歪みが顕著になるため、却って音声認識率が低下することがある。しかし、音声区間の判定の手がかりになる物理量、例えば、強度や零交差数は、歪みに対する依存性が低く頑健（ロバスト）である反面、雑音成分に対する依存性が高い。

従って、本実施形態では、より大きい抑圧量で雑音成分を抑圧した雑音除去信号に基づいて音声区間を正確に判定することができ、より小さい抑圧量で雑音成分を抑圧した歪みの少ない音響信号を用いて音声認識率が向上する。
また、本実施形態では複数チャネルの音信号について音源方向を推定し、複数チャネルの音信号から音源毎の音響信号に分離する等の計算コストの高い処理を含めなくてもよい。そのため、計算コストの低減と音声認識率の向上を両立することができる。

（第２の実施形態）
次に、本発明の第２の実施形態について、前述した実施形態と同一の構成について同一の符号を付して説明する。
図１１は、本実施形態に係る音響処理装置２の構成を示す概略ブロック図である。
音響処理装置２は、収音部２０１、周波数領域変換部２０２、２個の雑音抑圧部２０３−１、２０３−２、２個の時間領域変換部１０７−１、２０７−２、音声区間検出部１０８、音声区間抽出部１０９、音声認識部１１０及びチャネル選択部２１１を含んで構成される。即ち、音響処理装置２は、音響処理装置１（図１）において収音部１０１、雑音抑圧部１０３−１、１０３−２及び時間領域変換部１０７−２の代わりに、収音部２０１、雑音抑圧部２０３−１、２０３−２及び時間領域変換部２０７−２を備え、更にチャネル選択部２１１を備える。

収音部２０１は、到来した音波に基づいてＮ（Ｎは、２又は２よりも大きい整数）チャネルの音響信号を生成し、生成したＮチャネルの音響信号を周波数領域変換部２０２に出力する。収音部２０１は、例えば、それぞれ異なる位置に配置され、音波を音響信号に変換するマイクロホンをＮ個備えたマイクロホンアレイである。
周波数領域変換部２０２は、収音部２０１から入力されたＮチャネルの音響信号ｙ（ｔ）のそれぞれを、周波数領域変換部１０２と同様な処理を行って周波数領域で表された複素入力スペクトルＹ（ｋ，ｌ）に変換する。
周波数領域変換部２０２は、変換したＮチャネルの複素入力スペクトルＹ（ｋ，ｌ）を２個の雑音抑圧部２０３−１、２０３−２のそれぞれに出力する。

雑音抑圧部２０３−１は、周波数領域変換部２０２から入力されたＮチャネルの複素入力スペクトルＹ（ｋ，ｌ）のうち、チャネル選択部２１１から入力されたチャネル選択信号が示すチャネルについて第１の抑圧量で雑音成分を抑圧する。雑音抑圧部２０３−１が雑音成分を抑圧する処理は、雑音抑圧部１０３−１が雑音成分を抑圧する処理と同様であってもよい。雑音抑圧部２０３−１は、雑音成分を抑圧した複素雑音除去スペクトルＸ’（ｋ，ｌ）を時間領域変換部１０７−１に出力する。

ここで、雑音抑圧部２０３−１は、パワー算出部２０４−１、雑音推定部１０５−１及び減算部１０６−１を含んで構成される。
パワー算出部２０４−１は、周波数領域変換部２０２からＮチャネルの複素入力スペクトルＹ（ｋ，ｌ）が入力され、チャネル選択部２１１からチャネル選択信号が入力される。チャネル選択信号については、後述する。パワー算出部２０４−１は、入力されたＮチャネルの複素入力スペクトルＹ（ｋ，ｌ）のうち、チャネル選択信号が示すチャネルの複素入力スペクトルＹ（ｋ，ｌ）のパワースペクトル｜Ｙ（ｋ，ｌ）｜^２を算出する。パワー算出部１０４−１は、算出したパワースペクトル｜Ｙ（ｋ，ｌ）｜^２を雑音推定部１０５−１及び減算部１０６−１に出力する。

雑音抑圧部２０３−２は、周波数領域変換部２０２から入力されたＮチャネルの複素入力スペクトルＹ（ｋ，ｌ）に含まれる雑音成分を、それぞれのチャネルについて第２の抑圧量で雑音成分を抑圧する。雑音抑圧部２０３−１が雑音成分を抑圧する処理は、雑音抑圧部１０３−１が雑音成分を抑圧する処理と同様であってもよい。雑音抑圧部２０３−２は、雑音成分を抑圧したＮチャネルの複素雑音除去スペクトルＸ’’（ｋ，ｌ）を時間領域変換部２０７−２に出力する。

ここで、雑音抑圧部２０３−２は、パワー算出部２０４−２、雑音推定部２０５−２及び減算部２０６−２を含んで構成される。
パワー算出部２０４−２は、周波数領域変換部２０２からＮチャネルの複素入力スペクトルＹ（ｋ，ｌ）が入力され、それぞれのチャネルについてパワースペクトル｜Ｙ（ｋ，ｌ）｜^２を算出する。パワー算出部２０４−２は、算出したＮチャネルのパワースペクトル｜Ｙ（ｋ，ｌ）｜^２を雑音推定部２０５−２及び減算部２０６−２に出力する。

雑音推定部２０５−２は、パワー算出部２０４−２から入力されたＮチャネルのパワースペクトル｜Ｙ（ｋ，ｌ）｜^２に含まれる雑音成分のパワースペクトルλ（ｋ，ｌ）を、それぞれのチャネルについて算出する。雑音推定部２０５−２は、算出したＮチャネルの雑音パワーλ（ｋ，ｌ）を減算部２０６−２に出力する。
減算部２０６−２は、パワー算出部２０４−２から入力されたＮチャネルのパワースペクトル｜Ｙ（ｋ，ｌ）｜^２から、それぞれ対応するチャネルの雑音パワーλ（ｋ，ｌ）を減算して複素雑音除去スペクトルＸ’’（ｋ，ｌ）を算出する。減算部２０６−２が雑音パワーλ（ｋ，ｌ）を減算する処理は、減算部１０６−１が雑音パワーλ（ｋ，ｌ）を減算する処理と同様であってもよい。
減算部２０６−２は、算出したＮチャネルの複素雑音除去スペクトルＸ’’（ｋ，ｌ）を時間領域変換部２０７−２に出力する。

時間領域変換部２０７−２は、減算部２０６−２から入力されたＮチャネルの複素雑音除去スペクトルＸ’’（ｋ，ｌ）をそれぞれのチャネルについて時間領域の第２雑音除去信号ｘ’’（ｔ）に変換する。時間領域変換部２０７−２が時間領域の第２雑音除去信号ｘ’’（ｔ）に変換する処理は、時間領域変換部１０７−２が時間領域の第２雑音除去信号ｘ’’（ｔ）に変換する処理と同様であってよい。時間領域変換部２０７−２は、変換したＮチャネルの第２雑音除去信号ｘ’’（ｔ）をチャネル選択部２１１に出力する。

チャネル選択部２１１は、時間領域変換部２０７−２から入力されたＮチャネルの第２雑音除去信号ｘ’’（ｔ）について、それぞれ強度を算出する。チャネル選択部２１１は、強度として、信号値（振幅）の絶対値の所定の長さの区間毎の平均値を用いてもよいし、信号値の二乗値のフレーム内の総和であるパワーを用いてもよい。所定の長さの区間とは、１フレームの時間間隔であってもよいし、予め定めた１より大きい整数個のフレームの時間間隔であってもよい。チャネル選択部２１１は、Ｎチャネルのうち算出した強度が最も大きいチャネルを選択する。チャネル選択部２１１は、選択したチャネルを示すチャネル選択信号をパワー算出部２０４−１に出力し、選択チャネルに係る第２雑音除去信号ｘ’’（ｔ）を音声区間検出部１０８に出力する。

次に、本実施形態に係る音響処理について説明する。
図１２は、本実施形態に係る音響処理を示すフローチャートである。
本実施形態に係る音響処理は、図１０に示す音響処理においてステップＳ２０２が省略され、さらにステップＳ３０６−Ｓ３０９を有する。ステップＳ３０６−Ｓ３０９は、ステップＳ２０１が実行される前に実行される。また、図１２に示す音響処理では、ステップＳ２０１の後にステップＳ２０３が実行される。

（ステップＳ３０６）雑音抑圧部２０３−２は、音響信号ｙ（ｔ）のチャネル数であるＮチャネルにおいて、チャネル毎にステップＳ３０７の処理を実行する。
（ステップＳ３０７）雑音抑圧部２０３−２は、音響信号ｙ（ｔ）に基づくパワースペクトル｜Ｙ（ｋ，ｌ）｜^２に含まれる雑音成分として雑音パワーλ（ｋ，ｌ）を第２の抑圧量で雑音成分を推定する。雑音抑圧部２０３−２は、パワースペクトル｜Ｙ（ｋ，ｌ）｜^２から推定した雑音パワーλ（ｋ，ｌ）を減算して、第２の抑圧量で雑音成分が抑圧された複素雑音除去スペクトルＸ’’（ｋ，ｌ）を算出する。その後、ステップＳ３０８に進む。
（ステップＳ３０８）処理対象のチャネルを未処理のチャネルがなくなるまで変更して、ステップＳ３０７の処理を繰り返す。未処理のチャネルがなくなった後、ステップＳ３０９に進む。

（ステップＳ３０９）チャネル選択部２１１は、Ｎチャネルの複素雑音除去スペクトルＸ’’（ｋ，ｌ）に基づく第２雑音除去信号ｘ’’（ｔ）について、チャネル毎に強度を算出する。チャネル選択部２１１は、Ｎチャネルのうち算出した強度が最も大きいチャネルを選択する。
その後、選択されたチャネルについてステップＳ２０１、Ｓ２０３−Ｓ２０５を実行する。

なお、本実施形態では、雑音抑圧部１０３−１は、Ｎチャネルのそれぞれについてパワースペクトル｜Ｙ（ｋ，ｌ）｜^２に含まれる雑音成分として雑音パワーλ（ｋ，ｌ）を第１の抑圧量で雑音成分を抑圧した複素雑音除去スペクトルＸ’（ｋ，ｌ）を算出してもよい。そして、チャネル選択部２１１は、Ｎチャネルの複素雑音除去スペクトルＸ’（ｋ，ｌ）に基づく第１雑音除去信号ｘ’（ｔ）について、それぞれ強度を算出し、Ｎチャネルのうち算出した強度が最も大きいチャネルを選択してもよい。そして、音声区間抽出部１０９は、選択されたチャネルについて第１雑音除去信号ｘ’（ｔ）から、音声区間検出部１０８から入力された音声区間検出情報が音声区間であることを示すフレームの信号を、音声区間信号ｚ（ｔ）として抽出してもよい。この場合、雑音抑圧部２０３−２は、音響信号ｙ（ｔ）に基づくパワースペクトル｜Ｙ（ｋ，ｌ）｜^２に含まれる雑音成分として雑音パワーλ（ｋ，ｌ）を第２の抑圧量で雑音成分を推定する。雑音抑圧部２０３−２は、選択されたチャネルのパワースペクトル｜Ｙ（ｋ，ｌ）｜^２から推定した雑音パワーλ（ｋ，ｌ）を減算して、第２の抑圧量で雑音成分が抑圧された複素雑音除去スペクトルＸ’’（ｋ，ｌ）を算出してもよい。

上述したように、本実施形態では、少なくとも２チャネルのそれぞれについて第１の抑圧量及び第２の抑圧量の一方で雑音成分を抑圧し、その一方で雑音成分が抑圧された音響信号の強度が、少なくとも２チャネルのうち最も大きいチャネルの音響信号について音声区間であるか否かを検出する。そして、本実施形態では、第１の抑圧量で雑音成分が抑圧されたそのチャネルの音響信号のうち、音声区間であると検出した区間について音声認識処理を行う。
そのため、最も強度が大きい音声の成分が含まれるチャネルについて音声区間検出や音声認識に係る処理がなされるため、雑音成分の影響をより低減して音声認識率を向上させることができる。

（第３の実施形態）
以下、図面を参照しながら本発明の第３の実施形態について前述の実施形態と同一の構成については同一の符号を付して説明する。
図１３は、本実施形態に係る音響処理装置３の構成を示す概略ブロック図である。
音響処理装置３は、収音部２０１、周波数領域変換部１０２、２個の雑音抑圧部１０３−１、１０３−２、２個の時間領域変換部１０７−１、１０７−２、音声区間検出部１０８、音声区間抽出部１０９、音声認識部３１０、音源推定部３１２及び音源分離部３１３を含んで構成される。
即ち、音響処理装置３は、音響処理装置１（図１）において収音部１０１及び音声認識部１１０の代わりに収音部２０１及び音声認識部３１０を備え、更に音源推定部３１２及び音源分離部３１３を備える。

音源推定部３１２は、収音部２０１から入力されたＮチャネルの音響信号ｙ（ｔ）について音源方向と音源の個数を推定する。音源推定部３１２は、各チャネルの時間領域の音響信号ｙ（ｔ）についてフレームｌ毎に周波数領域の複素スペクトルＹ（ｋ，ｌ）に変換する。音源推定部３１２は、変換した複素スペクトルＹ（ｋ，ｌ）に基づいてフレームｌ毎に相関行列Ｒ（ｋ，ｌ）を算出する。相関行列Ｒ（ｋ，ｌ）は、チャネルｍ（ｍは、１からＮのうちいずれかの整数）の入力信号とチャネルｎ（ｎは、１からＮのうちいずれかの整数）の入力信号とのチャネル間相関を、第ｍ行第ｎ列の要素値として有する行列である。これにより、相関行列Ｒ（ｋ，ｌ）は、Ｎ行Ｎ列の正方行列になる。音源推定部３１２は、チャネル間相関を現在のフレームまでの予め定めた長さの区間について累積（移動平均）することによって相関行列Ｒ（ｋ，ｌ）を算出してもよい。

音源推定部３１２は、算出した相関行列Ｒ（ｋ，ｌ）について公知の演算方法（例えば、ＱＲ法）を用いて固有値展開を行い、フレームｌ毎にＮ個の固有値λ_１，…，λ_Ｎと固有値λ_１，…，λ_Ｎのそれぞれに対応する固有ベクトルｅ_１（ｋ，ｌ），…，ｅ_Ｎ（ｋ，ｌ）を算出する。固有値λ_１，…，λ_Ｎの順序１，…，Ｎは、その大きさの降順である。
音源推定部３１２は、周波数ｋ、方向ψ毎に伝達関数ベクトルＧ（ｋ，ψ）が予め記憶された記憶部（図示せず）を備えている。伝達関数ベクトルＧ（ｋ，ψ）は、方向ψにある音源から収音部２０１の各マイクロホン（チャネル）までの伝達関数を要素値として含むＮ列のベクトルである。伝達関数ベクトルＧ（ｋ，ψ）は、ステアリングベクトル（ｓｔｅｅｒｉｎｇｖｅｃｔｏｒ）とも呼ばれる。

音源推定部３１２は、各フレームｌについて、周波数ｋ、方向ψ毎に、Ｎ個の固有ベクトルｅ_１（ｋ，ｌ），…，ｅ_Ｎ（ｋ，ｌ）と読み出した伝達関数ベクトルＧ（ｋ，ψ）に基づいて空間スペクトルＰ（ｋ，ψ，ｌ）を算出する。音源推定部３１２は、空間スペクトルＰ（ｋ，ψ，ｌ）を算出する際に、例えば、式（８）を用いる。

式（８）において、Ｌは、目的音源数である。目的音源数とは、目的音として、その音源方向を検知する音源数の最大値である。Ｌは、０よりも大きく、Ｎよりも小さい予め設定された整数である。＊は、ベクトル又は行列の複素共役を示す演算子である。即ち、式（８）は、空間スペクトルＰ（ｋ，ψ，ｌ）が、伝達関数ベクトルＧ（ｋ，ψ）のノルムを、伝達関数ベクトルＧ（ｋ，ψ）とＮ−Ｌ個の固有ベクトルｅ_Ｌ＋１（ｋ，ｌ），…，ｅ_Ｎ（ｋ，ｌ）のそれぞれとの内積の総和で除算して算出されることを示す。理想的には、Ｎ−Ｌ個の固有ベクトルｅ_Ｌ＋１（ｋ，ｌ），…，ｅ_Ｎ（ｋ，ｌ）の方向は、最大Ｌ個の音源方向ψに係る伝達関数ベクトルＧ（ｋ，ψ）のそれぞれと直交する。そのため、最大Ｌ個の音源方向ψのそれぞれに係る空間スペクトルＰ（ｋ，ψ，ｌ）は、他の方向に係る空間スペクトルＰ（ｋ，ψ，ｌ）よりも大きい値をとる。

音源推定部３１２は、算出した空間スペクトルＰ（ｋ，ψ，ｌ）を予め定めた周波数帯域内で平均して、各フレームｌ、方向ψについて、平均化空間スペクトル＜Ｐ（ψ，ｌ）＞を算出する。音源推定部３１２は、＜Ｐ（ψ，ｌ）＞を算出する際、例えば、式（９）を用いる。

式（９）において、ｋ_Ｈは、上述の周波数帯域における周波数の上限（上限周波数）に係るインデックスを示し、ｋ_Ｌは、その周波数帯域における周波数の下限（下限周波数）に係るインデックスを示す。上限周波数は、例えば、３．５ｋＨｚであり、下限周波数は、例えば、０．５ｋＨｚである。式（９）の右辺の分母ｋ_Ｈ−ｋ_Ｌ＋１は、加算の対象となる空間スペクトルＰ（ｋ，ψ，ｌ）の個数を示す。

音源推定部３１２は、算出した平均化空間スペクトル＜Ｐ（ψ，ｌ）＞に基づいて、方向ψを定める。ここで、音源推定部３１２は、平均化空間スペクトル＜Ｐ（ψ，ｌ）＞が予め定めた閾値よりも大きくなる音源方向ψであって、平均化空間スペクトル＜Ｐ（ψ，ｌ）＞が極大値をとる方向ψを選択する。音源推定部３１２は、選択した方向ψを音源の方向と定め、定めた音源の数を計数して音源数と定める。計数した音源の数が、Ｌ個よりも多い場合には、音源推定部３１２は、平均化空間スペクトル＜Ｐ（ψ，ｌ）＞が最も大きくなる方向ψからＬ番目に大きくなる方向ψまで選択する。この場合、音源推定部３１２は、音源数をＬ個と定める。
音源推定部３１２は、選択した各音源の音源方向と音源数を示す音源方向情報を音源分離部３１３に出力する。

音源分離部３１３は、音源推定部３１２から入力された音源方向情報が示す音源数が１個よりも多いか否かを判定する。
音源数が１個よりも多いと判定された場合には、音源分離部３１３は、音源方向情報が示す各音源の音源方向に基づき収音部２０１から入力されたＮチャネルの音響信号から各音源の音響信号を分離する。ここで、音源分離部３１３は、例えば、収音部２０１において各チャネルに対応したマイクロホンの配置に基づいて音源方向情報が示す音源毎の音源方向への指向性が最も高くなる空間フィルタ係数をチャネル毎に算出する。音源分離部３１３は、算出した空間フィルタ係数をＮチャネルの音響信号にそれぞれ畳み込み演算を行って、その音源の音響信号を生成する。なお、音源分離部３１３は、音源方向と各チャネルのマイクロホンの配置に基づいて、その音源の音響信号を生成することができる方法であれば、上述の方法に限られない。例えば、音源分離部３１３は、特開２０１２−４２９５３号公報に記載の音源分離方法を用いてもよい。
音源分離部３１３は、分離した音源毎の音響信号を音声認識部３１０に出力する。

音源分離部３１３は、音源数が１個又は０個と判定された場合には、収音部２０１から入力されたＮチャネルの音響信号のうち、少なくともいずれかのチャネルの音響信号を周波数領域変換部１０２に出力する。音源分離部３１３は、例えば、Ｎチャネルの音響信号のうち最も強度が大きいチャネルを選択し、選択したチャネルの音響信号を周波数領域変換部１０２に出力してもよい。

音声認識部３１０は、音声区間抽出部１０９から音声区間信号ｚ（ｔ）が入力された場合、つまり、音源数が１個又は０個と判定された場合には、音声認識部１１０と同様に音声区間信号ｚ（ｔ）について音声認識処理を行う。
音声認識部３１０は、音源分離部３１３から音源毎の音響信号が入力された場合、つまり、音源数が１個より多いと判定された場合には、入力された音源毎の音響信号について音声認識処理を行う。

次に、本実施形態に係る音響処理について説明する。
図１４は、本実施形態に係る音響処理を示すフローチャートである。
（ステップＳ４０１）音源推定部３１２は、Ｎチャネルの時間領域の音響信号ｙ（ｔ）についてフレームｌ毎に相関行列Ｒ（ｋ，ｌ）を算出する。音源推定部３１２は、算出した相関行列Ｒ（ｋ，ｌ）の固有ベクトルｅ_１，…，ｅ_Ｎと伝達関数ベクトルＧ（ｋ，ψ）に基づいて空間スペクトルＰ（ｋ，ψ，ｌ）を算出する。音源推定部３１２は、算出した空間スペクトルＰ（ｋ，ψ，ｌ）を予め定めた周波数帯域内で平均して、各フレームｌ、音源方向ψについて、平均化空間スペクトル＜Ｐ（ψ，ｌ）＞を算出する。音源推定部３１２は、算出した平均化空間スペクトル＜Ｐ（ψ，ｌ）＞が極大値をとる方向ψを音源方向と定め、定めた音源の数を計数して音源数を推定する。その後、ステップＳ４０２に進む。

（ステップＳ４０２）音源分離部３１３は、音源推定部３１２が推定する音源数が１個よりも多いか否かを判定する。音源数が１個よりも多いと判定された場合には（ステップＳ４０２ＹＥＳ）、ステップＳ４０３に進む。音源数が１個又は０個と判定された場合には（ステップＳ４０２ＮＯ）、ステップＳ４０７に進む。
（ステップＳ４０３）音源分離部３１３は、推定された音源毎の音源方向に基づきＮチャネルの音響信号から音源毎の音響信号を分離する。その後、ステップＳ４０４に進む。

（ステップＳ４０４）音声認識部３１０は、推定された音源毎にステップＳ４０５の処理を実行する。
（ステップＳ４０５）音声認識部３１０は、音源分離部３１３から入力された音源毎の音響信号について音声認識処理を行う。その後、ステップＳ４０６に進む。
（ステップＳ４０６）処理対象の音源を他の未処理の音源に変更し、未処理の音源がなくなるまでステップＳ４０５の処理を繰り返す。未処理の音源がなくなったら処理を終了する。

（ステップＳ４０７）音源分離部３１３は、Ｎチャネルの音響信号のうち、いずれかのチャネルの音響信号を選択し、選択したチャネルの音響信号を周波数領域変換部１０２に出力する。その後、ステップＳ２０１に進む。そして、選択したチャネルの音響信号についてステップＳ２０１−Ｓ２０５に係る処理が行われる。

なお、音源推定部３１２は、相関行列Ｒ（ｋ，ｌ）の代わりに相関行列Ｒ（ｋ，ｌ）に予め定めた雑音相関行列Ｋ（ｋ，ｌ）で除算した行列について固有値展開を行ってもよい。雑音相関行列は、雑音を示す音響信号のチャネル間相関を要素値として有する行列である。これにより、雑音成分の影響を抑制して音声認識率を向上させることができる。
また、音源分離部３１３が分離した音源毎の音響信号のそれぞれについて、図１２を用いて説明した音響処理を行ってもよい。これにより、分離した音響信号に雑音成分が含まれていても、その雑音成分が抑圧されて音声認識処理が行われるので、音声認識率を向上させることができる。

上述したように、本実施形態では、少なくとも２チャネルの音響信号について音源の個数と音源毎の方向を推定し、推定した音源の個数が少なくとも２個である場合、少なくとも２チャネルの音響信号から音源毎の方向に基づいて当該音源毎の音響信号に分離する。また、本実施形態では、分離した音源毎の音響信号のそれぞれについて音声認識処理を行う。
即ち、推定した音源の個数が少なくとも２個である場合、音源毎の音響信号を分離し、分離された音響信号について音声認識処理を行う。会話等のように同時に複数の音源が音を発生することが少ない場合には、音源毎の音響信号を分離する処理のように処理量の大きい処理を行う機会が限定される。そのため、複数の音源に対する音声認識において音声認識率を向上させるとともにシステム全体として処理量を低減することができる。

なお、上述した実施形態における音響処理装置１、２、３の一部、例えば、周波数領域変換部１０２、２０２、雑音抑圧部１０３−１、１０３−２、２０３−１、２０３−２、時間領域変換部１０７−１、１０７−２、２０７−２、音声区間検出部１０８、音声区間抽出部１０９、音声認識部１１０、３１０、チャネル選択部２１１、音源推定部３１２、及び音源分離部３１３をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音響処理装置１、２、３に内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態における音響処理装置１、２、３の一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現してもよい。音響処理装置１、２、３の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１、２、３…音響処理装置、１０１、２０１…収音部、
１０２、２０２…周波数領域変換部、
１０３−１、１０３−２、２０３−１、２０３−２…雑音抑圧部、
１０４−１、１０４−２、２０４−１、２０４−２…パワー算出部、
１０５−１、１０５−２、２０５−２…雑音推定部、
１０６−１、１０６−２、２０６−２…減算部、
１０７−１、１０７−２、２０７−２…時間領域変換部、１０８…音声区間検出部、
１０９…音声区間抽出部、１１０、３１０…音声認識部、２１１…チャネル選択部、
３１２…音源推定部、３１３…音源分離部

Claims

入力された音響信号に含まれる雑音成分を第１の抑圧量で抑圧する第１雑音抑圧部と、
前記入力された音響信号に含まれる雑音成分を前記第１の抑圧量よりも大きい第２の抑圧量で抑圧する第２雑音抑圧部と、
前記第２雑音抑圧部が雑音成分を抑圧した音響信号について音声が含まれる音声区間であるか否かを予め定めた時間毎に検出する音声区間検出部と、
前記第１雑音抑圧部が雑音成分を抑圧した音響信号のうち、前記音声区間検出部が音声区間であると検出した区間について音声認識処理を行う音声認識部と、
を備えることを特徴とする音響処理装置。
少なくとも２チャネルの音響信号を入力する音響信号入力部を備え、
前記第１雑音抑圧部及び第２雑音抑圧部の一方は、前記少なくとも２チャネルのそれぞれについて雑音成分を抑圧し、
前記音声区間検出部は、前記一方が雑音成分を抑圧した音響信号の強度が、前記少なくとも２チャネルのうち最も大きいチャネルである最大強度チャネルの音響信号について音声区間であるか否かを検出し、
前記音声認識部は、前記第１雑音抑圧部が雑音成分を抑圧した前記最大強度チャネルの音響信号のうち、前記音声区間検出部が音声区間であると検出した区間について音声認識処理を行うことを特徴とする請求項１に記載の音響処理装置。
少なくとも２チャネルの音響信号を入力する音響信号入力部を備え、
前記音響信号入力部が入力した少なくとも２チャネルの音響信号について音源の個数と音源毎の方向を推定する音源推定部と、
前記音源推定部が推定した音源の個数が少なくとも２個である場合、前記少なくとも２チャネルの音響信号から前記音源毎の方向に基づいて当該音源毎の音響信号に分離する音源分離部と、
前記音声認識部は、前記音源分離部が分離した音源毎の音響信号のそれぞれについて音声認識処理を行うことを特徴とする請求項１に記載の音響処理装置。
前記音声区間検出部は、前記第２雑音抑圧部が雑音成分を抑圧した音響信号の強度と零交差数をフレーム毎に算出し、算出した強度及び零交差数に基づいて音声区間であるか否かを検出することを特徴とする請求項１から３のいずれかに記載の音響処理装置。
音響処理装置における音響処理方法であって、
入力された音響信号に含まれる雑音成分を第１の抑圧量で抑圧する第１雑音抑圧過程と、
前記入力された音響信号に含まれる雑音成分を前記第１の抑圧量よりも大きい第２の抑圧量で抑圧する第２雑音抑圧過程と、
前記第２雑音抑圧過程で雑音成分を抑圧した音響信号について音声が含まれる音声区間であるか否かを予め定めた時間毎に検出する音声区間検出過程と、
前記第１雑音抑圧過程で雑音成分を抑圧した音響信号のうち、前記音声区間検出過程で音声区間であると検出した区間について音声認識処理を行う音声認識過程と、
を有することを特徴とする音響処理方法。