JP6645322B2

JP6645322B2 - 雑音抑圧装置、音声認識装置、雑音抑圧方法、及び雑音抑圧プログラム

Info

Publication number: JP6645322B2
Application number: JP2016071021A
Authority: JP
Inventors: 智佳子松本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2020-02-14
Anticipated expiration: 2036-03-31
Also published as: JP2017181899A; US20170287501A1; EP3226244A1; US9911428B2

Description

本発明は、雑音抑圧装置、音声認識装置、雑音抑圧方法、及び雑音抑圧プログラムに関する。

マイクロフォン（以下「マイク」という）で収音した音声信号に含まれる雑音成分を抑圧する方法の１つとして、マイクアレイから入力された複数の音声信号における位相差に基づいて雑音を抑圧するための抑圧係数を決定する方法が知られている。また、この種の雑音抑圧方法においては、複数の音声信号における位相差に基づいて音声信号から発声区間を検出し、発声区間と非発声区間とで抑圧係数の決定方法を切り替えることが知られている。

音声信号から発声区間を検出する際には、マイクアレイからみた音源の方向を含む位相差領域を設定し、その位相差領域の方向から到来する音声の到来率に基づいて発声区間であるか否かを判定する。音声の到来率は、位相差領域と、複数の音声信号についての各周波数帯域での位相スペクトル差とに基づいて算出する。また、発声区間であるか否かは、音声の到来率が閾値以上であるか否かで判定する。音声の到来率に基づいて発声区間であるか否かを判定する場合、音声の到来率が閾値よりも小さい値から閾値以上の値に変化した時刻が発声区間の開始時刻となり、音声の到来率が閾値以上の値から閾値よりも小さい値に変化した時刻が発声区間の終了時刻となる。

更に、音声の到来率に基づいて発声区間であるか否かを判定する場合に、複数の連続したフレームの到来率による時間平滑化を行うことで、残留雑音による発声区間の誤検出（湧き出し誤り）を低減する方法が知られている（例えば特許文献１を参照。）。

特開２０１２−１９８２８９号公報

時間平滑化によって発声区間の誤検出を低減する場合、音声の到来率が閾値よりも小さい値から閾値以上の値になった後、数フレーム分の到来率の変化に基づいて、音声信号に目的音声が含まれるか否かを判定する。そのため、時間平滑化した到来率に基づいて決定される発声区間の開始時刻が、音声信号における実際の発声区間の開始時刻から遅延する。したがって、時間平滑化をした場合、残留雑音による発声区間の誤検出が低減するものの、実際の発声区間の開始直後の発声が発声区間に含まれない語頭切れが生じ、音質の劣化や音声認識率が低下することがある。

１つの側面において、本発明は、音声信号に含まれる雑音を抑圧する際に、残留雑音を低減するとともに、語頭切れの発生を低減することを目的とする。

１つの態様の雑音抑圧装置は、位相差算出部と、音声到来率算出部と、相違度算出部と、判定部と、抑圧係数決定部と、を備える。位相差算出部は、マイクロフォンアレイで収音目的の音声を収音して得られた第１の音声信号及び第２の音声信号の周波数スペクトルに基づいて、位相スペクトル差を算出する。音声到来率算出部は、第１の音声到来率を算出するとともに、第２の音声到来率を算出する。第１の音声到来率は、マイクロフォンアレイに到来する収音目的の音声の到来方向に基づいて設定された第１の位相差領域と、位相スペクトル差とに基づいて算出される音声到来率である。第２の音声到来率は、第１の位相差領域とは異なる第２の位相差領域と、位相スペクトル差とに基づいて算出される音声到来率である。相違度算出部は、第１の音声到来率と前記第２の音声到来率との相違の度合いを表す相違度を算出する。判定部は、相違度に基づいて、第１の音声信号に収音目的の音声が含まれるか否かを判定する。抑圧係数決定部は、収音目的の音声が含まれるか否かの判定結果と、位相スペクトル差とに基づいて、第１の音声信号についての周波数スペクトルに適用する抑圧係数を決定する。

音声信号に含まれる雑音を抑圧する際に、残留雑音を低減するとともに、語頭切れの発生を低減することが可能となる。

第１の実施形態に係る雑音抑圧装置の機能的構成を示す図である。位相差領域の組み合わせについての第１の例を説明する図である。位相差領域の組み合わせについての第２の例を説明する図である。位相差領域の組み合わせについての第３の例を説明する図である。位相差領域の組み合わせについての第４の例を説明する図である。第１の実施形態に係る雑音抑圧処理を説明するフローチャートである。音声入力信号と音声到来率との関係を説明するグラフである。図４Ａの（ｂ）のグラフにおける区間Ａ０を拡大したグラフである。第１の実施形態に係る騒音抑圧処理における第１の位相差領域及び第２の位相差領域の設定例を示す図である。第１の音声到来率及び第２の音声到来率の時間変化を示すグラフである。第１の音声到来率と音声到来率の比とを比較するグラフである。雑音抑圧処理の前後における音声信号の波形を比較するグラフである。発声の有無を判定する処理の内容を説明するフローチャートである。抑圧係数を決定する処理の内容を説明するフローチャートである。抑圧係数の算出方法の例を説明するグラフである。第２の実施形態に係る雑音抑圧装置の機能的構成を示す図である。第２の実施形態に係る発声の有無を判定する処理の内容を説明するフローチャートである。第２の実施形態に係る雑音抑圧処理における発声区間を説明するグラフである。第３の実施形態に係る音声認識装置の機能的構成を示す図である。雑音抑圧装置の第１の適用例を説明する図である。雑音抑圧装置の第２の適用例を説明する図である。雑音抑圧装置の第３の適用例を説明する図である。コンピュータのハードウェア構成を示す図である。

［第１の実施形態］
図１は、第１の実施形態に係る雑音抑圧装置の機能的構成を示す図である。

図１に示すように、本実施形態の雑音抑圧装置１は、信号受付部１０１と、信号変換部１０２と、位相差算出部１０３と、音声到来率算出部１０４と、相違度算出部１０５と、発声判定部１０６と、抑圧係数決定部１０７と、出力信号生成部１０８と、を備える。また、雑音抑圧装置１は、位相差領域設定部１０９と、位相差領域記憶部１２０と、を備える。

信号受付部１０１は、第１のマイクロフォン２０１及び第２のマイクロフォン２０２を含むマイクロフォンアレイ２で収音した音声信号の入力を受け付け、各音声信号を雑音抑圧の処理単位（フレーム）に分割する。以下、マイクロフォンのことを「マイク」という。また、信号受付部１０１において受け付ける第１のマイク２０１及び第２のマイク２０２からの音声信号のことを「音声入力信号」という。信号受付部１０１は、受け付けた音声入力信号を信号変換部１０２に送信する。

信号変換部１０２は、例えば、高速フーリエ変換等により、フレーム毎に音声入力信号を時間領域から周波数領域に変換する。信号変換部１０２が周波数領域に変換した音声入力信号（すなわち周波数スペクトル）は、１フレームにおける各周波数帯域の位相を表す位相スペクトルを含む。信号変換部１０２は、位相スペクトルを含む周波数スペクトルを位相差算出部１０３に送信する。また、信号変換部１０２は、周波数スペクトルを、例えば、出力信号生成部１０８に送信する。

位相差算出部１０３は、第１のマイクからの音声入力信号におけるフレームの位相スペクトルと、第２のマイクからの音声入力信号におけるフレームの位相スペクトルと、に基づいて、フレームの音声入力信号における位相スペクトル差を算出する。位相差算出部１０３は、算出した位相スペクトル差を音声到来率算出部１０４に送信する。また、位相差算出部１０３は、算出した位相スペクトル差を、例えば、抑圧係数決定部１０７に送信する。以下、位相スペクトル差のことを位相差ともいう。

音声到来率算出部１０４は、位相差算出部１０３が算出した位相スペクトル差に基づいて、所定の方向から到来する音声の到来率を算出する。本実施形態の雑音抑圧装置１における音声到来率算出部１０４は、第１の到来率算出部１０４Ａと、第２の到来率算出部１０４Ｂと、を含む。第１の到来率算出部１０４Ａと、第２の到来率算出部１０４Ｂとは、到来率を算出する音声の到来方向及び角度範囲の組み合わせ（言い換えると到来率を算出する音声の位相差領域）が異なる。第１の到来率算出部１０４Ａは、収音目的である音声（以下「目的音声」ともいう）の音源が存在する方向を含む第１の位相差領域からの音声到来率を算出する。第２の到来率算出部１０４Ｂは、第１の位相差領域とは異なる第２の位相差領域からの音声到来率を算出する。第１の位相差領域、及び第２の位相差領域は、位相差領域記憶部１２０に記憶させておく。音声到来率算出部１０４は、算出した第１の音声到来率及び第２の音声到来率を、相違度算出部１０５に送信する。

相違度算出部１０５は、第１の音声到来率と、第２の音声到来率との相違度を算出する。相違度算出部１０５は、第１の音声到来率Ｒ１と、第２の音声到来率Ｒ２との相違度として、例えば、音声到来率の比（Ｒ１／Ｒ２）を算出する。相違度算出部１０５は、算出した相違度を発声判定部１０６に送信する。

発声判定部１０６は、第１の音声到来率Ｒ１と、第２の音声到来率Ｒ２との相違度に基づいて、現在の処理対象であるフレームに目的音声の発声があるか否かを判定し、音声入力信号における目的音声の発声区間を検出する。発声判定部１０６は、例えば、相違度算出部１０５が算出した各フレームの音声到来率の比（Ｒ１／Ｒ２）の時系列データにおいて、音声到来率の比（Ｒ１／Ｒ２）が所定の閾値ＴＨ１以上であるフレームを発声区間内のフレームと判定する。発声判定部１０６は、現在の処理対象であるフレームに発声があるか否かの判定結果を抑圧係数決定部１０７に出力する。

抑圧係数決定部１０７は、発声の有無の判定結果と、各周波数帯域の位相スペクトル差とに基づいて、例えば、第１のマイク２０１からの音声入力信号についての周波数スペクトルにおける各周波数帯域のパワー値に適用する抑圧係数を決定する。抑圧係数決定部１０７は、算出した抑圧係数を出力信号生成部１０８に送信する。

出力信号生成部１０８は、第１のマイク２０１からの音声入力信号の各周波数帯域の周波数スペクトルに抑圧係数を適用し、雑音成分を抑圧した周波数スペクトルから音声信号を生成する。出力信号生成部１０８は、例えば、逆高速フーリエ変換により、雑音抑圧後の周波数スペクトルを時間領域の音声信号のフレームに変換する。出力信号生成部１０８は、生成した音声信号を出力装置３に送信する。出力装置３は、例えば、スピーカ等の音声信号を音波に変換して放射する装置、出力信号生成部１０８で生成した音声信号を無線信号に変調する装置等である。また、出力装置３は、出力信号生成部１０８で生成した音声信号に基づいて音声認識を行う装置でもよい。

位相差領域設定部１０９は、利用者による位相差領域の設定操作の入力を受け付ける。位相差領域設定部１０９は、第２の位相差領域の設定操作のみを受け付けてもよいし、第１の位相差領域及び第２の位相差領域の両方の設定操作を受け付けてもよい。

本実施形態に係る雑音抑圧装置１は、上記のように、第１の音声到来率と第２の音声到来率との相違度に基づいて発声の有無を判定する。第１の音声到来率と、第２の音声到来率とは、到来率を算出する位相差領域が異なる。第１の音声到来率を算出する第１の位相差領域と、第２の音声到来率を算出する第２の位相差領域との組み合わせは任意であり、マイクアレイ２と目的音声の音源との位置関係や、目的音声の音源と雑音の音源との位置関係等に基づいて適宜設定可能である。第１の位相差領域と、第２の位相差領域との組み合わせは、図２Ａから図２Ｄに示すような４通りに大別される。

図２Ａは、位相差領域の組み合わせの第１の例を説明する図である。図２Ｂは、位相差領域の組み合わせの第２の例を説明する図である。図２Ｃは、位相差領域の組み合わせの第３の例を説明する図である。図２Ｄは、位相差領域の組み合わせの第４の例を説明する図である。

図２Ａの（ａ）は、実空間におけるマイクアレイ２と、目的音声の音源４０と、想定される雑音の音源４１との位置関係についての第１の例を示している。また、図２Ａの（ｂ）は、マイクアレイ２と音源４０，４１とが図２Ａの（ａ）に示した位置関係である場合の、第１の位相差領域ＰＡ１と第２の位相差領域ＰＡ２との関係についての第１の例を示している。なお、雑音の音源４１は、雑音の発生源となる何らかの装置自体であってもよいし、実空間における種々の物体で反射した雑音が到来する方向を表す仮想音源であってもよい。

第１の音声到来率を算出する第１の位相差領域ＰＡ１は、マイクアレイ２と目的音声の音源４０との位置関係に基づいて設定する。マイクアレイ２と目的音声の音源４０との位置関係は、マイクアレイ２からみた目的音声の音源４０の方向θ１で表される。目的音声の音源の方向θ１は、図２Ａの（ａ）に示すように、第１のマイク２０１及び第２のマイク２０２の収音面を含む基準面５における第１のマイク２０１と第２のマイク２０２との中点Ｐを原点とし、当該原点を通る基準面５の法線からの角度で表す。図２Ａの（ａ）に示した例では、基準面５の法線方向をθ１＝０度とし、反時計周り方向を正としている。

目的音声の音源４０の方向がθ１≠０度である場合、第１のマイク２０１で収音した第１の音声入力信号と、第２のマイク２０２で収音した第２の音声入力信号との間には、角度θ１の大きさに応じた位相差が生じる。また、目的音声の音源４０の方向がθ１（≠０）である場合、第１の音声入力信号の位相スペクトルと、第２の音声入力信号の位相スペクトルとの位相スペクトル差は、理論上、図２Ａの（ｂ）に示した太線の直線ＰＤ（θ１）で表される。すなわち、目的音声の音源４０の方向がθ１（≠０）である場合、各周波数帯域の位相スペクトル差は、周波数の大きさに比例する。

また、目的音声の音源４０の方向を表す角度θ１の絶対値が大きくなると、各周波数帯域の位相スペクトル差を表す比例定数の絶対値が大きくなる。

ところが、マイクアレイ２を設置した実空間においては、空間内の環境等により、目的音声の音源４０から第１のマイク２０１に到来する音声と第２のマイク２０２に到来する音声との位相差に揺らぎが生じる。このため、位相差領域を設定する際には、例えば、第１のマイク２０１からみた目的音声の音源４０の方向とマイク間距離ｄとに基づいて、第１のマイク２０１に到来する音声と第２のマイク２０２に到来する音声との位相差を算出する。そして、算出した位相差と、位相差に生じる揺らぎの程度と、に基づいて、目的音声の音源４０からの目的音声が到来する第１の位相差領域ＰＡ１を設定する。

一方、第２の位相差領域ＰＡ２は、例えば、マイクアレイ２からみた目的音声の音源４０の方向と、マイクアレイ２が収音すると想定される雑音の到来方向（音源４１の方向）とに基づいて設定する。

図２Ａの（ａ）では、目的音声の音源４０の方向θ１が正の方向である。このため、マイクアレイ２が収音する雑音の到来方向（音源４１の方向）は、例えば、０度付近であると想定される。この場合、第２の位相差領域ＰＡ２は、例えば、図２Ａの（ｂ）に示すように、第１の位相差領域ＰＡ１からみて位相スペクトル差が小さい方向に、第１の位相差領域ＰＡ１と隣接させる。

また、目的音声の音源４０の方向θ１が正の方向である場合、図２Ｂの（ａ）に示すように、マイクアレイ２が収音する雑音の到来方向（音源４１の方向）が、例えば、図２Ａの（ａ）に示した方向よりも負の方向であると想定されることもある。このような場合、第２の位相差領域ＰＡ２は、例えば、図２Ｂの（ｂ）に示すように、第１の位相差領域ＰＡ１からみて位相スペクトル差が小さい方向に、第１の位相差領域ＰＡ１から離間させて設定する。

また、目的音声の音源４０の方向θ１が正の方向であり、かつ図２Ｃの（ａ）に示すように、θ１＝９０度に近い場合、マイクアレイ２が収音する雑音の到来方向（音源４１の方向）は、例えば、０度からθ１度の範囲であると想定されることがある。このような場合、第２の位相差領域ＰＡ２は、例えば、図２Ｃの（ｂ）に示すように、第１の位相差領域ＰＡ１からみて位相スペクトル差が小さい方向に、一部の領域が第１の位相差領域ＰＡ１と重複するように設定しもよい。

また、目的音声の音源４０の方向θ１が正の方向であり、かつ図２Ｄの（ａ）に示すように、θ１＝０度に近い場合、マイクアレイ２が収音する雑音の到来方向（音源４１の方向）も０度に近いと想定されることがある。このような場合、第２の位相差領域ＰＡ２は、例えば、図２Ｄの（ｂ）に示すように、第１の位相差領域ＰＡ１に内包させてもよい。

なお、図２Ａ〜図２Ｄは、第１の位相差領域ＰＡ１と第２の位相差領域ＰＡ２との設定例に過ぎない。第１の位相差領域ＰＡ１及び第２の位相差領域ＰＡ２は、マイクアレイ２からみた目的音声の音源４０の方向θ１、雑音の到来方向、目的音声や雑音の種類等に応じて、適宜設定可能である。第１の位相差領域ＰＡ１及び第２の位相差領域ＰＡ２を設定する際には、例えば、利用者が、位相差領域設定部１０９を介して各位相差領域の基準となる音源４０，４１の方向及び位相差の幅を指定する数値を入力して設定する。また、第１の位相差領域ＰＡ１及び第２の位相差領域ＰＡ２は、例えば、予め用意された複数種類の位相差領域ＰＡ１，ＰＡ２の組み合わせの中から選択して設定するようにしてもよい。

雑音抑圧装置１に接続されたマイクアレイ２を所定位置に設置するとともに、第１の位相差領域ＰＡ１及び第２の位相差領域ＰＡ２を設定し、雑音抑圧装置１の動作を開始させると、雑音抑圧装置１は、マイクアレイ２からの音声入力信号の受付を開始する。音声入力信号の受付は、信号受付部１０１が行う。また、信号受付部１０１は、受け付けた第１の音声入力信号及び第２の音声入力信号のそれぞれを雑音抑圧の処理単位（フレーム）に分割し、同時刻のフレームを一組として信号変換部１０２に送信する。この同時刻のフレームの組に基づいて、雑音抑圧装置１は、図３に示した雑音抑圧処理を行う。

図３は、第１の実施形態に係る雑音抑圧処理を説明するフローチャートである。
本実施形態に係る雑音抑圧装置は、第１の音声入力信号及び第２の音声入力信号における同時刻のフレームの組に対し、図３の雑音抑圧処理を順次行う。

雑音抑圧処理において、雑音抑圧装置１は、まず、処理対象のフレームの第１の音声入力信号及び第２の音声入力信号を時間領域から周波数領域に変換する（ステップＳ１）。ステップＳ１は、信号変換部１０２が行う。信号変換部１０２は、高速フーリエ変換等により、処理対象のフレーム（以下「現フレーム」ともいう）の各音声入力信号を、位相スペクトルを含む周波数スペクトルに変換する。信号変換部１０２は、周波数スペクトルの組を位相差算出部１０３に送信する。また、信号変換部１０２は、周波数スペクトルの組を、例えば、出力信号生成部１０８、又は図示しないバッファに保持させる。

次に、位相差算出部１０３が、周波数スペクトルの組における位相スペクトルに基づいて、周波数帯域毎の位相スペクトル差を算出する（ステップＳ２）。位相差算出部１０３は、算出した位相スペクトル差を音声到来率算出部１０４に送信する。また、位相差算出部１０３は、算出した位相スペクトル差を、例えば、抑圧係数決定部１０７、又は図示しないバッファに保持させる。

次に、音声到来率算出部１０４の第１の到来率算出部１０４Ａが、目的音声の音源の方向と対応付けられた第１の位相差領域ＰＡ１に基づいて第１の音声到来率Ｒ１を算出する（ステップＳ３）。第１の到来率算出部１０４Ａは、位相差領域記憶部１２０から第１の位相差領域ＰＡ１を読み出し、第１の位相差領域ＰＡ１と、位相スペクトル差とに基づいて、第１の音声到来率Ｒ１を算出する。第１の音声到来率Ｒ１は、例えば、処理対象のフレームの周波数スペクトルにおける周波数帯域の総数と、位相スペクトル差が第１の位相差領域ＰＡ１に含まれる周波数帯域の数と、に基づいて算出する。

次に、音声到来率算出部１０４の第２の到来率算出部１０４Ｂが、第１の位相差領域とは異なる第２の位相差領域に基づいて第２の音声到来率Ｒ２を算出する（ステップＳ４）。第２の到来率算出部１０４Ｂは、位相差領域記憶部１２０から第２の位相差領域ＰＡ２を読み出し、第２の位相差領域ＰＡ２と、位相スペクトル差とに基づいて、第２の音声到来率Ｒ２を算出する。第２の音声到来率Ｒ２は、例えば、処理対象のフレームの周波数スペクトルにおける周波数帯域の総数と、位相スペクトル差が第２の位相差領域ＰＡ２に含まれる周波数帯域の数と、に基づいて算出する。

なお、ステップＳ３及びＳ４の処理は、順序を逆にして行ってもよいし、並列に行ってもよい。音声到来率算出部１０４は、ステップＳ３及びＳ４の処理を終えると、算出した第１の音声到来率Ｒ１及び第２の音声到来率Ｒ２を相違度算出部１０５に送信する。

次に、相違度算出部１０５が、第１の音声到来率Ｒ１と第２の音声到来率Ｒ２との相違の度合いを表す値として、第１の音声到来率Ｒ１と第２の音声到来率Ｒ２との比（Ｒ１／Ｒ２）を算出する（ステップＳ５）。相違度算出部１０５は、相違度として算出した音声到来率の比（Ｒ１／Ｒ２）を発声判定部１０６に送信する。

次に、発声判定部１０６が、音声到来率の比（Ｒ１／Ｒ２）に基づいて、現フレームの発声の有無を判定する（ステップＳ６）。発声判定部１０６は、例えば、音声到来率の比（Ｒ１／Ｒ２）が閾値以上である場合に、現フレームに発声（すなわち目的音声の音源からの音声）が含まれると判定する。発声判定部１０６は、判定結果を抑圧係数決定部１０７に送信する。

次に、抑圧係数決定部１０７が、発声の有無の判定結果に基づいて、現フレームの周波数スペクトルに適用する抑圧係数を算出する（ステップＳ７）。抑圧係数決定部１０７は、例えば、周波数帯域毎に、位相スペクトル差に基づいて適用する抑圧係数を決定する。抑圧係数決定部１０７は、算出した抑圧係数を出力信号算出部１０８に出力する。

次に、出力信号算出部１０８が、第１の音声入力信号の現フレームの周波数スペクトルに抑圧係数を適用し、雑音成分を抑圧した音声信号のフレームを生成する（ステップＳ８）。出力信号生成部１０８は、例えば、第１の音声入力信号の現フレームを変換した周波数スペクトルに対し、抑圧係数決定部１０７で決定した抑圧係数を適用（乗算）する。これにより、第１の音声入力信号に含まれる雑音成分が抑圧される。

なお、ステップＳ８の後、出力信号生成部１０８は、抑圧係数を適用した周波数スペクトルに対して逆高速フーリエ変換を行い、雑音成分が抑圧された信号を周波数領域から時間領域に変換する。これにより、処理対象のフレームの第１の音声入力信号から雑音成分を抑圧した音声信号が生成される。その後、出力信号生成部１０８は、生成した雑音抑圧後の音声信号を１フレーム毎に、又は数フレームを結合して、出力装置３に出力する。

図４Ａは、音声入力信号と音声到来率との関係を説明するグラフである。図４Ｂは、図４Ａの（ｂ）のグラフにおける区間Ａ０を拡大したグラフである。

図４Ａの（ａ）は、第１の音声入力信号の波形の一例を示すグラフである。第１の音声入力信号は、目的音声の音源４０からの音声と、他の音源からの音声（雑音）とを含んでいる。図４Ａの（ａ）に示した第１の音声入力信号では、６個の区間Ａ１〜Ａ６が目的音声の音源からの音声（発声）を含む区間である。また、第２の音声入力信号は、第１の音声入力信号と略同一の波形で、目的音声の音源４０からの音声と、他の音源からの音声（雑音）とを含んでいる。図４Ａの（ａ）に示した音声入力信号に対してステップＳ１〜Ｓ３の処理を行って得られる第１の音声到来率Ｒ１は、例えば、図４Ａの（ｂ）に細い実線で示したような分布となる。この第１の音声到来率Ｒ１のみに基づいて発声の有無を判定する場合、雑音抑圧装置１は、処理対象のフレームにおける第１の音声到来率Ｒ１が閾値ＴＨ以上であると、そのフレームには発声があると判定する。

図４Ａの（ｂ）をみると、図４のＡの（ａ）に示した音声入力信号における実際の発声区間Ａ１〜Ａ６の音声到来率Ｒ１は、いずれも閾値ＴＨ以上となっている。しかしながら、図４Ａの（ｂ）に示した音声到来率Ｒ１においては、発声区間ではない区間（非発声区間）にも、音声到来率Ｒ１が閾値ＴＨ以上となるピークや区間が多数みられる。そのため、音声到来率Ｒ１のみに基づいて発声の有無を判定した場合、実際には非発声区間である区間に多数の発声区間があるとみなして雑音を抑圧することとなる。よって、音声到来率Ｒ１のみに基づいて発声の有無を判定して雑音を抑圧した場合、非発声区間に残留雑音が生じる。したがって、例えば、第１の音声到来率Ｒ１のみに基づいて発声の有無（発声区間）を判定して雑音を抑圧した音声信号に対して音声認識を行うと、残留雑音を発声区間と誤判定することによる湧き出し誤りが生じる可能性がある。

また、例えば、上記の湧き出し誤りを低減するため第１の音声到来率Ｒ１を時間平滑化すると、平滑化後の音声到来率Ｒ１は、図４Ａの（ｂ）に太い実線で示したような分布となる。すなわち、音声到来率Ｒ１を時間平滑化することで、非発声区間における残留雑音を低減することができる。

ところが、音声到来率Ｒ１を時間平滑化する場合、複数フレームにおける音声到来率Ｒ１の時間変化に基づいて平滑化する。そのため、音声到来率Ｒ１を時間平滑化した場合、例えば、図４Ｂに示すように、音声到来率Ｒ１が閾値ＴＨ以上となる時刻に時間Δｔの遅延が生じる。図４Ｂにおいて、細い実線は時間平滑化を行う前の音声到来率Ｒ１の時間変化を表しており、太い実線は時間平滑化後の音声到来率Ｒ１の時間変化を表している。すなわち、音声到来率Ｒ１を時間平滑化した場合、音声到来率Ｒ１に基づく発声区間の開始時刻が実際の開始時刻から遅延することによる語頭切れが生じることがある。

これに対し、本実施形態に係る雑音抑圧処理では、上記のように、第１の音声到来率Ｒ１と、第２の音声到来率Ｒ２との相違の度合いに基づいて発声の有無を判定する（ステップＳ３〜Ｓ６）。以下、図４Ａの（ａ）に示した音声入力信号に対する雑音抑圧処理を行う際の第１の位相差領域及び第２の位相差領域の設定例と、騒音抑圧処理において算出する相違度の例について説明する。

図５は、第１の実施形態に係る騒音抑圧処理における第１の位相差領域及び第２の位相差領域の設定例を示す図である。図６は、第１の音声到来率及び第２の音声到来率の時間変化を示すグラフである。図７は、第１の音声到来率と音声到来率の比とを比較するグラフである。図８は、雑音抑圧処理の前後における音声信号の波形を比較するグラフである。

本実施形態に係る雑音抑圧処理を行う際には、例えば、図５に示したような第１の位相差領域ＰＡ１及び第２の位相差領域ＰＡ２が設定されている。図５に示した第１の位相差領域ＰＡ１と第２の位相差領域ＰＡ２との組み合わせは、上述した第２の例（図２Ｂの（ｂ）参照）と対応しており、第１の位相差領域ＰＡ１は、目的音声の音源４０の方向θ１に基づいて設定されている。また、第２の位相差領域ＰＡ２は、第１の位相差領域ＰＡ１から離間させている。

第１の音声到来率Ｒ１は、例えば、処理対象のフレームの周波数スペクトルにおける周波数帯域の総数と、位相スペクトル差が第１の位相差領域ＰＡ１に含まれる周波数帯域の数と、に基づいて算出する。第１の位相差領域ＰＡ１は、上記のように、目的音声の音源４０がある方向を含む位相差領域である。そのため、第1の音声到来率Ｒ１は、例えば、図６の（ａ）に示したような分布となる。

図６の（ａ）の第１の音声到来率Ｒ１の分布は、図４Ａの（ｂ）に示した音声到来率Ｒ１の分布と同一であり、発声区間Ａ１〜Ａ６のそれぞれと対応するＲ１≒０．８のピークとともに、非発声区間の残留雑音のピークがみられる。

一方、第２の音声到来率Ｒ２は、例えば、処理対象のフレームの周波数スペクトルにおける周波数帯域の総数と、位相スペクトル差が第２の位相差領域ＰＡ２に含まれる周波数帯域の数と、に基づいて算出する。このとき、第２の音声到来率Ｒ２は、例えば、図６の（ｂ）に示したような分布となる。第２の音声到来率Ｒ２の算出に用いた第２の位相差領域ＰＡ２は、目的音声の音源４０がある方向を含む第１の位相差領域ＰＡ１から離間している。そのため、第１の音声入力信号と第２の音声入力信号とから算出される位相スペクトル差が第２の位相差領域ＰＡ２に含まれている周波数は、ほぼ全てが雑音である。したがって、第２の音声到来率Ｒ２は、目的音声の音源の発声を表すピークがみられず、Ｒ２≒０．２を中心として概ね０＜Ｒ２＜０．４の範囲で変動している。

第１の音声到来率Ｒ１における残留雑音のピーク値の多くは０．４以下、すなわち発声区間を表すピーク値の半分以下である。したがって、第１の音声到来率Ｒ１と第２の音声到来率Ｒ２との比（Ｒ１／Ｒ２）を算出すると、音声到来率の比（Ｒ１／Ｒ２）は、図７の（ｂ）に示したような分布となる。

第１の音声到来率Ｒ１の非発声区間に生じるピーク値は、発声区間のピーク値と比べて小さく、第２の音声到来率Ｒ２との差が小さい。そのため、第１の音声到来率Ｒ１と第２の音声到来率Ｒ２との比（Ｒ１／Ｒ２）を算出した場合、発声区間における比（Ｒ１／Ｒ２）が１よりも大きな値になるのに対し、非発声区間における比（Ｒ１／Ｒ２）は１に近い小さな値となる。したがって、音声到来率の比（Ｒ１／Ｒ２）では、発声区間を表すピーク値と、非発声区間における（残留雑音の要因となる）ピーク値との差が、図７の（ａ）に示した第１の音声到来率Ｒ１の分布におけるピーク値の差よりも顕著となる。また、音声到来率の比（Ｒ１／Ｒ２）の分布に対し、図７の（ｂ）に示したような閾値ＴＨ１を設定した場合、発声区間のピークと、非発声区間の残留雑音の要因となるピークとを容易に区別することが可能となる。

よって、第１の音声到来率Ｒ１と第２の音声到来率Ｒ２との比（Ｒ１／Ｒ２）に基づいて発声の有無を判定することにより、非発声区間に生じる残留雑音を低減することが可能となる。したがって、音声到来率の比（Ｒ１／Ｒ２）に基づいて発声の有無を判定して雑音を抑圧することにより、例えば、抑圧後の音声信号に対して音声認識を行った場合に残留雑音による湧き出し誤りを低減することが可能となる。

更に、第１の音声到来率Ｒ１と第２の音声到来率Ｒ２との比（Ｒ１／Ｒ２）は、第１の音声到来率Ｒ１における発声区間のピークを強調するものである。そのため、第１の音声到来率Ｒ１と第２の音声到来率Ｒ２との比（Ｒ１／Ｒ２）においては、音声到来率１を時間平滑化するときのような閾値ＴＨ１以上となる時刻（フレーム）の遅延、すなわち発声開始時刻の遅延が生じにくい。

例えば、図８の（ａ）に示した音声入力信号を含むマイクアレイ２からの音声入力信号に対し、音声到来率１を時間平滑化して発声区間を判定し雑音を抑圧した場合、図８の（ｂ）に示すような波形の音声信号が得られる。一方、図８の（ａ）に示した音声入力信号を含むマイクアレイ２からの音声入力信号に対し、本実施形態に係る雑音抑圧処理を行った場合、図８の（ｃ）に示すような波形の音声信号が得られる。図８の（ｂ）の波形と（ｃ）の波形とを比較すると、例えば、発声区間Ａ５における波形に顕著な差異がみられる。具体的には、時間平滑化をした場合の発声区間Ａ５の波形では、本実施形態に係る雑音抑圧処理を行った場合の波形における最初のピークがみられない。したがって、本実施形態に係る雑音抑圧処理を行うことにより、発声区間Ａ５等での語頭切れを抑制することが可能となる。

このように、本実施形態に係る雑音抑圧処理によれば、雑音環境下において正しい発声区間を検出することが可能となり、発声開始時刻の遅延による語頭切れの発生を低減するとともに、非発声区間の残留雑音による湧き出し誤りを低減することが可能となる。

また、本実施形態に係る上記の雑音抑圧処理では、第１の音声到来率Ｒ１と第２の音声到来率Ｒ２との相違の度合いを表す値として、音声到来率の比（Ｒ１／Ｒ２）を算出している。しかしながら、第１の音声到来率Ｒ１と第２の音声到来率Ｒ２との相違の度合いを表す値は、これに限らず、例えば、第１の音声到来率Ｒ１と第２の音声到来率Ｒ２との差（Ｒ１−Ｒ２）であってもよい。

次に、本実施形態に係る雑音抑圧処理における抑圧係数を決定する処理の例を、図９及び図１０を参照して説明する。

図９は、発声の有無を判定する処理の内容を説明するフローチャートである。図１０は、抑圧係数を決定する処理の内容を説明するフローチャートである。

本実施形態に係る雑音抑圧処理では、発声の有無を判定する処理（ステップＳ６）の判定結果に基づいて、抑圧係数決定部１０７が現フレームの周波数スペクトルに適用する抑圧係数を算出する（ステップＳ７）。このとき、抑圧係数決定部１０７は、現フレームが発声区間であるか否かに応じて、適用する抑圧係数の決定方法を切り替える。

発声の有無を判定する処理（ステップＳ６）において、発声判定部１０６は、図９に示すように、まず、現フレームの音声到来率の比（Ｒ１／Ｒ２）が閾値ＴＨ１以上であるか否かを判定する（ステップＳ６０１）。

（Ｒ１／Ｒ２）≧ＴＨ１の場合（ステップＳ６０１；ＹＥＳ）、発声判定部１０６は、現フレームに発声があると判定する（ステップＳ６０２）。すなわち、（Ｒ１／Ｒ２）≧ＴＨ１の場合、発声判定部１０６は、現フレームが目的音声の音源からの音声（発声）を含む発声区間内のフレームであると判定する。一方、（Ｒ１／Ｒ２）＜ＴＨ１の場合（ステップＳ６０１；ＮＯ）、発声判定部１０６は、現フレームに発声がないと判定する（ステップＳ６０３）。すなわち、（Ｒ１／Ｒ２）＜ＴＨ１の場合、発声判定部１０６は、現フレームが目的音声の音源からの音声（発声）を含まない、発声区間外（非発声区間）のフレームであると判定する。

ステップＳ６０２又はＳ６０３において現フレームの発声の有無を判定した後、発声判定部１０６は、判定結果を抑圧係数決定部１０７に出力（送信）し（ステップＳ６０４）、現フレームに対する判定処理を終了する（リターン）。

抑圧係数決定部１０７は、発声判定部１０６からの判定結果を受け取ると、図１０に示すように、まず、現フレームの各周波数帯域の位相スペクトル差を取得する（ステップＳ７０１）。

次に、抑圧係数決定部１０７は、発声判定部１０６からの判定結果に基づいて、現フレームに発声があるか否かを判定する（ステップＳ７０２）。現フレームに発声がある場合（ステップＳ７０２；ＹＥＳ）、抑圧係数決定部１０７は、現フレームの各周波数帯域の位相スペクトル差に基づいて、各周波数帯域のスペクトルに適用する抑圧係数を算出する（ステップＳ７０３）。一方、現フレームに発声がない場合（ステップＳ７０２；ＮＯ）、抑圧係数決定部１０７は、現フレームの各周波数帯域のスペクトルに適用する抑圧係数を、位相スペクトル差に基づく抑圧係数の最小値に決定する（ステップＳ７０４）。

ステップＳ７０３又はＳ７０４において抑圧係数を決定した後、抑圧係数決定部１０７は、現フレームの各周波数帯域のスペクトルに適用する抑圧係数を出力信号生成部１０８に出力（送信）し（ステップＳ７０５）、抑圧係数を算出する処理を終了する（リターン）。

図１１は、雑音の抑圧係数の算出方法の例を説明するグラフである。
図１１の（ａ）は、第１の位相差領域ＰＡ１の例を示すグラフである。図１１の（ａ）のグラフには、第１の位相差領域ＰＡ１の例として、目的音声の音源の方向θ１が０度の場合の位相差領域を示している。このグラフでは、目的音声に周波数帯域ｆの成分が含まれる場合、周波数帯域ｆの位相スペクトル差は、ＤＰ２以上、ＤＰ４以下の範囲のいずれかになることを想定している。

また、図１１の（ｂ）は、周波数帯域ｆの位相スペクトル差と、周波数帯域ｆのパワー値に適用する抑圧係数との関係を示すグラフである。すなわち、周波数帯域ｆの位相スペクトル差がＤＰ２以上、ＤＰ４以下の範囲のいずれかである場合、周波数帯域ｆのパワー値に適用する抑圧係数はＧ＝１とする。また、周波数帯域ｆの位相スペクトル差がＤＰ１以下（ＤＰ１＜ＤＰ２）、又はＤＰ５以上（ＤＰ４＜ＤＰ５）の範囲のいずれかである場合、周波数帯域ｆのパワー値に適用する抑圧係数はＧ＝Ｇｍｉｎ（＜１）とする。

更に、周波数帯域ｆの位相スペクトル差がＤＰ１からＤＰ２までの間、又はＤＰ４からＤＰ５までの間のいずれかである場合、周波数帯域ｆのパワー値に適用する抑圧係数は１からＧｍｉｎまでの間のいずれかの値とする。

なお、図１１の（ｂ）のグラフにおける位相スペクトル差がＤＰ２からＤＰ４までの範囲δ１（ｆ）と、位相スペクトル差がＤＰ１からＤＰ５までの範囲δ２（ｆ）は、周波数帯域ｆに応じて異なり、高周波になるほど各範囲δ１（ｆ），δ２（ｆ）は広くなる。

また、図１１の（ｂ）のグラフにおける中心値ＤＰ３は、目的音声の音源の方向θ１の値に応じて変化する。

本実施形態に係る雑音抑圧処理において、抑圧係数決定部１０７は、現フレームに発声がある場合、周波数帯域ｆ毎に設定された位相スペクトル差と抑圧係数との関係に基づいて、抑圧係数を算出する。一方、現フレームに発声がない場合、抑圧係数決定部１０７は、周波数帯域ｆに適用する抑圧係数を、位相スペクトル差によらず最小値Ｇｍｉｎに決定する。

このように、現フレームが発声区間ではない場合に各周波数帯域に適用する抑圧係数を位相スペクトル差によらず最小値Ｇｍｉｎに揃えることにより、ミュージカルノイズを軽減することが可能となる。

なお、図１１の（ｂ）に示した位相スペクトル差と抑圧係数との関係は一例に過ぎず、例えば、ＤＰ１＝ＤＰ２，ＤＰ４＝ＤＰ５としてもよい。また、位相スペクトル差と抑圧係数との関係は、例えば、中心値ＤＰ３を境とした位相スペクトル差が小さい領域での関係と位相スペクトル差が大きい領域での関係とが非対称になっていてもよい。すなわち、位相スペクトル差と抑圧係数との関係は、図１１の（ｂ）に示した関係に限らず、（ＤＰ４−ＤＰ３）≠（ＤＰ３−ＤＰ２）でもよいし、（ＤＰ２−ＤＰ１）≠（ＤＰ５−ＤＰ４）でもよい。

［第２の実施形態］
図１２は、第２の実施形態に係る雑音抑圧装置の機能的構成を示す図である。

図１２に示すように、本実施形態の雑音抑圧装置１は、信号受付部１０１と、信号変換部１０２と、位相差算出部１０３と、音声到来率算出部１０４と、相違度算出部１０５と、発声判定部１０６と、抑圧係数決定部１０７と、出力信号生成部１０８と、を備える。また、雑音抑圧装置１は、位相差領域設定部１０９と、位相差領域記憶部１２０と、発声情報記憶部１２１と、を備える。

本実施形態に係る雑音抑圧装置１において第１の実施形態に係る雑音抑圧装置１と異なる点は、発声判定部１０６において発声の有無を判定する処理の内容である。本実施形態の雑音抑圧装置１の発声判定部１０６は、現在処理対象のフレームよりも時間的に前となる過去フレームが発声区間であるか否かと、現在処理対象のフレームにおける音声到来率とに基づいて、現フレームに発声があるか否かを判定する。過去フレームが発声区間であるか否かを表す情報は、発声情報記憶部１２１に記憶させる。発声判定部１０６は、現在処理対象のフレームに対する発声の有無の判定を終えると、そのフレームに対する判定結果を発声情報記憶部１２１に記憶させる。また、発声判定部１０６は、次のフレームに対する発声の有無を判定する際に、発声情報記憶部１２１に記憶させた発声の有無の判定結果を読み出して取得する。

本実施形態に係る雑音抑圧装置１は、動作を開始させると、マイクアレイ２（第１のマイク２０１及び第２のマイク２０２）からの音声入力信号の受付を開始した後、図３に示した雑音抑圧処理を行う。本実施形態に係る雑音抑圧装置１における相違度算出部１０５は、第１の音声到来率Ｒ１と第２の音声到来率Ｒ２との相違の度合いとして、第１の実施形態と同様、音声到来率の比（Ｒ１／Ｒ２）を算出する（ステップＳ５）。なお、相違度算出部１０５は、音声到来率の比（Ｒ１／Ｒ２）を算出した後、第１の音声到来率Ｒ１と、算出した音声到来率の比（Ｒ１／Ｒ２）とを発声判定部１０６に送信する。発声判定部１０６は、第１の音声到来率Ｒ１と、音声到来率の比（Ｒ１／Ｒ２）とを取得すると、発声の有無を判定する処理（ステップＳ６）として、図１３に示した処理を行う。

図１３は、第２の実施形態に係る発声の有無を判定する処理の内容を説明するフローチャートである。

発声判定部１０６は、相違度算出部１０５から、現在処理対象のフレーム（現フレーム）における第１の音声到来率Ｒ１と、音声到来率の比（Ｒ１／Ｒ２）とを取得すると、図１３に示した処理を開始する。この処理において、発声判定部１０６は、まず、過去フレームの発声情報を取得する（ステップＳ６１１）。ステップＳ６１１において、発声判定部１０６は、過去フレームの発声情報として、過去フレームに対する発声の有無の判定結果を発声情報記憶部１２１から読み出す。

次に、発声判定部１０６は、過去フレームが発声区間であるか否かを判定する（ステップＳ６１２）。なお、雑音抑圧装置１の動作を開始させた直後（すなわち現フレームが最初の処理対象のフレーム）であり発声情報記憶部１２１に過去フレームの発声情報がない場合、発声判定部１０６は、過去フレームが非発声区間（発声区間ではない）と判定する。

過去フレームが発声区間ではない場合（ステップＳ６１２；ＮＯ）、発声判定部１０６は、次に、現フレームの音声到来率の比（Ｒ１／Ｒ２）が第１の閾値ＴＨ１以上であるか否かを判定する（ステップＳ６１３）。そして、（Ｒ１／Ｒ２）＜ＴＨ１である場合（ステップＳ６１３；ＮＯ）、発声判定部１０６は、現フレームに目的音声の発声がない（すなわち現フレームは発声区間外である）と判定する（ステップＳ６１５）。一方、（Ｒ１／Ｒ２）≧ＴＨ１である場合（ステップＳ６１３；ＹＥＳ）、発声判定部１０６は、現フレームに目的音声の発声がある（すなわち現フレームは発声区間内である）と判定する（ステップＳ６１６）。

これに対し、過去フレームが発声区間である場合（ステップＳ６１２；ＹＥＳ）、発声判定部１０６は、次に、現フレームの第１の音声到来率Ｒ１が第２の閾値ＴＨ２以上であるか否かを判定する（ステップＳ６１４）。そして、Ｒ１≧ＴＨ２である場合（ステップＳ６１４；ＹＥＳ）、発声判定部１０６は、現フレームに目的音声の発声がある（すなわち現フレームは発声区間内である）と判定する（ステップＳ６１６）。一方、Ｒ１＜ＴＨ２である場合（ステップＳ６１４；ＮＯ）、発声判定部１０６は、現フレームに目的音声の発声がない（すなわち現フレームは発声区間外である）と判定する（ステップＳ６１５）。

ステップＳ６１２〜Ｓ６１６により現フレームに目的音声の発声があるか否かを判定すると、発声判定部１０６は、判定結果を出力し（ステップＳ６１７）、現フレームに対する発声の有無を判定する処理を終了する（リターン）。なお、ステップＳ６１７において、発声判定部１０６は、判定結果を出力する処理として、判定結果を抑圧係数決定部１０７に送信する処理と、判定結果を発声情報記憶部１２１に記憶させる処理とを行う。

図１４は、第２の実施形態に係る雑音抑圧処理における発声区間を説明するグラフである。

本実施形態に係る雑音抑圧処理では、上記のように、過去フレームが発声区間であるか否かにより、現フレームの発声の有無の判定方法を切り替える。過去フレームが発声区間ではない場合、発声判定部１０６は、音声到来率の比（Ｒ１／Ｒ２）と、第１の閾値ＴＨ１とに基づいて、現フレームに目的音声の発声があるか否かを判定する。そのため、本実施形態に係る雑音抑圧処理では、図１４の（ｂ）に示すように、音声到来率の比（Ｒ１／Ｒ２）が（Ｒ１／Ｒ２）＜ＴＨ１から（Ｒ１／Ｒ２）＝ＴＨ１に変化した時刻ｔｓ１〜ｔｓ６のそれぞれが発声区間Ａ１〜Ａ６の開始時刻となる。この処理は、第１の実施形態に係る雑音抑圧処理における発声の有無の判定処理（図９を参照）と同じである。したがって、第１の実施形態に係る雑音抑圧処理と同様、本実施形態に係る雑音抑圧処理では、残留雑音を低減するとともに、語頭切れの発生を低減することが可能となる。

これに対し、過去フレームが発声区間である場合、本実施形態に係る雑音抑圧装置１の発生判定部１０６は、第１の音声到来率Ｒ１と、第２の閾値ＴＨ２とに基づいて、現フレームに目的音声の発声があるか否かを判定する。すなわち、本実施形態に係る雑音抑圧処理では、発声区間Ａ１の開始時刻ｔｓ１以降、図１４の（ａ）に示した第１の音声到来率Ｒ１が第２の閾値ＴＨ２以上であるか否かに基づいて、現フレームが発声区間内であるか否かを判定する。そして、図１４の（ａ）に示すように、第１の音声到来率Ｒ１がＲ１＝ＴＨ２からＲ１＜ＴＨ２に変化した時刻ｔｅ１が発声区間Ａ１の終了時刻となる。発声区間Ａ２〜Ａ６についても同様であり、第１の音声到来率Ｒ１がＲ１＝ＴＨ２からＲ１＜ＴＨ２に変化した時刻ｔｅ２〜ｔｅ６が、それぞれ、発声区間Ａ２〜Ａ６の終了時刻となる。

目的音声の音源がある方向を含む第１の位相差領域ＰＡ１からの第１の音声到来率Ｒ１は、発声区間では第２の閾値ＴＨ２と比べて高い値が継続する。そのため、本実施形態のように、第１の音声到来率Ｒ１と第２の閾値ＴＨ２とに基づいて発声区間が終了したか否かを判定することにより、語尾切れの発生を低減することが可能となる。

なお、本実施形態に係る上記の雑音抑圧処理では、第１の音声到来率Ｒ１と第２の音声到来率Ｒ２との相違の度合いを表す値として、音声到来率の比（Ｒ１／Ｒ２）を算出している。しかしながら、第１の音声到来率Ｒ１と第２の音声到来率Ｒ２との相違の度合いを表す値は、これに限らず、例えば、第１の音声到来率Ｒ１と第２の音声到来率Ｒ２との差（Ｒ１−Ｒ２）であってもよい。

［第３の実施形態］
図１５は、第３の実施形態に係る音声認識装置の機能的構成を示す図である。

本実施形態では、第１の実施形態に係る雑音抑圧処理により雑音を抑圧した音声信号に基づいて音声認識を行う音声認識装置について説明する。

図１５に示すように、本実施形態に係る音声認識装置１０は、第１の実施形態に係る雑音抑圧装置１が備える各部１０１〜１０９，１２０と、音声認識処理部１１０と、単語辞書記憶部１２２と、を備える。音声認識装置１０の信号受付部１０１、信号変換部１０２、位相差算出部１０３、音声到来率算出部１０４、相違度算出部１０５、発声判定部１０６、抑圧係数決定部１０７、及び出力信号生成部１０８の機能は、それぞれ、上述の通りである。また、音声認識装置１０の位相差領域設定部１０９、及び位相差領域記憶部１２０の機能は、それぞれ、上述の通りである。

音声認識処理部１１０は、出力信号生成部１０８で生成した雑音抑圧後の音声信号と、単語辞書記憶部１２２に記憶させた音声認識についての単語辞書とに基づいて、雑音抑圧後の音声信号に対する音声認識を行う。音声認識処理部１１０は、雑音抑圧後の音声信号と、単語辞書とに基づいて、音声信号に含まれる発声区間の単語を認識し、テキストデータを生成する。音声認識処理部１１０が行う音声認識処理は、既知である種々の認識処理のいずれでもよい。音声認識処理部１１０は、音声認識処理により生成したテキストデータを出力装置３に出力する。

本実施形態の音声認識装置１０には、第１のマイク２０１及び第２のマイク２０２を含むマイクアレイ２が接続される。音声認識装置１０及びマイクアレイ２の動作を開始させると、音声認識装置１０は、信号受付部１０１において第１の音声入力信号及び第２の音声入力信号の入力を受け付け、第１の実施形態で説明した雑音抑圧処理（図３を参照）を行う。また、音声認識装置１０は、雑音抑圧処理を行って得られる出力信号（音声信号）に対する音声認識処理を行い、認識結果（生成したテキストデータ）を出力装置３に出力する。

本実施形態の音声認識装置１０では、上記のように、第１の実施形態に係る雑音抑圧処理により雑音を抑圧した音声信号に対して音声認識を行う。第１の実施形態に係る雑音抑圧処理により雑音を抑圧した音声信号は、上記のように、語頭切れの発生を抑制することが可能である。また、第１の実施形態に係る雑音抑圧処理により雑音を抑圧した音声信号は、上記のように、湧き出し誤りの原因となる残留雑音を低減することが可能である。そのため、本実施形態によれば、語頭切れや残留雑音による誤認識を低減し、音声認識の精度を向上させることが可能となる。

なお、本実施形態では第１の実施形態に係る雑音抑圧処理により雑音を抑圧する音声認識装置１０を挙げたが、本発明に係る音声認識装置は、これに限らず、第２の実施形態に係る雑音抑圧処理により雑音を抑圧するものであってもよい。

また、本実施形態に係る音声認識装置１０においても、相違度算出部１０５で算出する第１の音声到来率Ｒ１と第２の音声到来率Ｒ２との相違の度合いを表す値は、音声到来率の比（Ｒ１／Ｒ２）に限らず、例えば、音声到来率の差（Ｒ１−Ｒ２）であってもよい。

［装置の適用例］
次に、第１の実施形態及び第２の実施形態に係る雑音抑圧装置１、並びに第３の実施形態に係る音声認識装置の適用例を説明する。

図１６Ａは、雑音抑圧装置の第１の適用例を説明する図である。
図１６Ａには、上述した雑音抑圧装置１（及び音声認識装置１０）の第１の適用例として、車両１１に搭載した例を示している。車両１１に搭載した雑音抑圧装置１及び音声認識装置１０は、例えば、カーナビゲーションシステムの音声入力や、ハンズフリー通話等に利用可能である。雑音抑圧装置１又は音声認識装置１０に接続されたマイクアレイ２は、例えば、車両１１のダッシュボード１１０１における車両左右方向の略中心部分に設置される。マイクアレイ２、雑音抑圧装置１、音声認識装置１０等は、例えば、カーナビゲーションシステムの筐体、或いは携帯電話端末等の通信装置に内蔵されていてもよい。

第１の適用例における目的音声の音源は、例えば、運転席１１０２に着座した利用者（運転者）１２である。そのため、第１の適用例においては、マイクアレイ２からみて運転者１２の頭部がある方向を目的音声の音源の方向として第１の位相差領域ＰＡ１を設定する。また、第１の適用例においては、例えば、助手席１１０３に着座した同乗者１３の発声等が雑音となり得る。そのため、第１の適用例においては、例えば、マイクアレイ２からみて同乗者１３の頭部がある方向を目安に第２の位相差領域ＰＡ２を設定する。

また、車両１１の車室における車両後方側にスピーカが設置されており、当該スピーカから音楽等が出力されている場合、それら音楽等が雑音となり得る。そのため、第１の適用例においては、車室後部のスピーカから発せられる音の広がりを考慮して第２の位相差領域ＰＡ２を設定してもよい。

更に、車両１１が左側通行の道路を走行しているときには、例えば、自車両１１の車両右方側を対向車が通る。そのため、対向車がすれ違う際に対向車が発するエンジン音等が雑音となり得る。そのため、第１の適用例においては、例えば、車両右方から到来する雑音を考慮して第２の位相差領域ＰＡ２を設定してもよい。

図１６Ｂは、雑音抑圧装置の第２の適用例を説明する図である。
図１６Ｂには、上述した雑音抑圧装置１の第２の適用例として、電話会議システムに適用した例を示している。電話会議システムにおいては、例えば、第１の雑音抑圧装置１Ａと、第２の雑音抑圧装置１Ｂとが、インターネットや電話網等の通信ネットワーク１５を介して接続される。また、第１の雑音抑圧装置１Ａ及び第２の雑音抑圧装置１Ｂは、それぞれ、他方の雑音抑圧装置から受信した音声信号に対して所定の処理を行って出力する、図示しない音声処理装置及び出力装置３（例えば、スピーカ）が接続されている。

第２の適用例において、雑音抑圧装置１に接続されたマイクアレイ２の設置位置は任意である。そのため、例えば、第１の利用者１２Ａがいる空間にあるテーブル１４Ａのように奥行き方向の寸法が大きいテーブルの上に第１の雑音抑圧装置１Ａ及びマイクアレイ２Ａを設置する場合、第１の利用者１２Ａの正面にマイクアレイ２Ａを設置することが可能である。この場合、第１の位相差領域及び第２の位相差領域は、例えば、図２Ｄの（ｂ）に示したように、第２の位相差領域ＰＡ２が第１の位相差領域ＰＡ１に内包されるよう設定する。

また、例えば、第２の利用者１２Ｂがいる空間にあるテーブル１４Ｂのように奥行き方向の寸法が小さいテーブルの上に第２の雑音抑圧装置１Ｂ及びマイクアレイ２Ｂを設置する場合、第２の利用者１２Ｂの右方となる位置にマイクアレイ２Ａを設置することがある。このような場合、第１の位相差領域及び第２の位相差領域は、例えば、図２Ｃの（ｂ）に示したように、第２の位相差領域ＰＡ２の一部が第１の位相差領域ＰＡ１と重複するよう設定する。

なお、図１６Ｂに示した第２の適用例における第１の位相差領域及び第２の位相差領域の組み合わせは、上記の組み合わせに限らず、他の組み合わせであってもよいことはもちろんである。

電話会議システムにおいては、語頭切れ、語尾切れ、及び残留雑音等による通話品質の劣化が少ないことが好ましい。また、電話会議システムで行われる、遠隔地にいる利用者同士の音声通話においては、処理遅延が少ないことが好ましい。そのため、第１の実施形態及び第２の実施形態に係る雑音抑圧装置１は、電話会議システムにおける雑音抑圧処理に適している。

また、第２の適用例では音声信号を送受信する電話会議システムを挙げているが、これに限らず、音声信号とともに映像信号を送受信するテレビ電話会議システムにも雑音抑圧装置１を適用可能であることはもちろんである。

図１６Ｃは、雑音抑圧装置の第３の適用例を説明する図である。
図１６Ｃには、上述した雑音抑圧装置１の第３の適用例として、遠隔地から所定空間を観察するシステムに適用した例を示している。この種のシステムにおいては、例えば、観察対象となる空間（室内）に設置されたベッド１６の近傍にある家具１７に雑音抑圧装置１と、マイクアレイ２とを配設してある。マイクアレイ２は、例えば、マイクアレイ２の正面方向にベッド１６の上の利用者１２の頭部が位置するように設置する。また、雑音抑圧装置１は、インターネット等の通信ネットワーク１５に接続されている。そのため、第３の適用例においては、例えば、遠隔地にいる観察者が所有する携帯型端末１８と、雑音抑圧装置１とを、通信ネットワーク１５を介して接続することができる。また、雑音抑圧装置１は、例えば、携帯型端末１８から受信した音声信号に対して所定の処理を行って出力する、図示しない音声処理装置及び出力装置３（例えば、スピーカ）が接続されている。

この種のシステムでは、例えば、遠隔地にいる観察者が携帯型端末１８を利用して観察対象となる室内にいる利用者１２と通話をすることができる。観察者と利用者１２とが通話をする際、例えば、語頭切れや語尾切れ、残留雑音等が生じると、利用者１２の発声を観察者が正しく聞き取ることができない可能性がある。そのため、例えば、何らかの理由により利用者１２やその周囲に生じた異常等が観察者に正確に伝わらず、対処が遅れる可能性がある。これに対し、上記の雑音抑圧装置１を適用した場合、語頭切れや語尾切れ、残留雑音等を抑制することが可能であるため、利用者１２と観察者との間で互いの発声を正しく聞き取ることが可能となる。

また、第３の適用例に係るシステムにおいては、例えば、雑音抑圧装置１の代わりに音声認識装置１０を用い、テキストデータを含む電子メール等により、利用者１２の発声を携帯型端末１８に送信することも可能である。

なお、第１の実施形態及び第２の実施形態に係る雑音抑圧装置１は、上記の適用例を含む特定の用途への適用に限定されるものではないが、通信や通話等、処理遅延の少ないことが望ましい用途へ適用することが好ましい。同様に、第３の実施形態に係る音声認識装置１０は、上記の適用例を含む特定の用途への適用に限定されるものではないが、移動体通信システムを利用した音声認識サービス等、処理遅延の少ないことが望ましい用途へ適用することが好ましい。

また、上記の実施形態に係る雑音抑圧装置１及び音声認識装置１０は、例えば、コンピュータと、当該コンピュータに実行させるプログラムとを用いて実現することが可能である。以下、コンピュータとプログラムとを用いて実現され雑音抑圧装置１及び音声認識装置１０について、図１７を参照して説明する。

図１７は、コンピュータのハードウェア構成を示す図である。
図１７に示すように、コンピュータ２０は、プロセッサ２００１と、主記憶装置２００２と、補助記憶装置２００３と、入力装置２００４と、表示装置２００５と、を備える。また、コンピュータ２０は、入出力インタフェース２００６と、媒体駆動装置２００７と、通信制御装置２００８と、を備える。コンピュータ２０におけるこれらの要素２００１〜２００８は、バス２０１０により相互に接続されており、要素間でのデータの受け渡しが可能になっている。

プロセッサ２００１は、Central Processing Unit（ＣＰＵ）やMicro Processing Unit（ＭＰＵ）等である。プロセッサ２００１は、オペレーティングシステムを含む各種のプログラムを実行することによりコンピュータ２０の全体の動作を制御する。また、プロセッサ２００１は、図３に示した雑音抑圧処理における演算処理を含む各種の演算処理を行う。

主記憶装置２００２は、図示しないRead Only Memory（ＲＯＭ）及びRandom Access Memory（ＲＡＭ）を含む。主記憶装置２００２のＲＯＭには、例えば、コンピュータ２０の起動時にプロセッサ２００１が読み出す所定の基本制御プログラム等が予め記録されている。また、主記憶装置２００２のＲＡＭは、プロセッサ２００１が、各種のプログラムを実行する際に必要に応じて作業用記憶領域として使用する。主記憶装置２００２のＲＡＭは、例えば、音声入力信号、周波数スペクトル、位相スペクトル差、及び抑圧係数等の一時的な記憶に利用可能である。

補助記憶装置２００３は、例えば、フラッシュメモリ等の不揮発性メモリである。補助記憶装置２００３には、プロセッサ２００１によって実行される各種のプログラムや各種のデータ等を記憶させることができる。補助記憶装置２００３は、例えば、図３、図９（又は図１３）、及び図１０に示した処理等を含む雑音抑圧プログラム、或いは音声認識プログラム等の記憶に利用可能である。また、補助記憶装置２００３は、例えば、音声入力信号、周波数スペクトル、位相スペクトル差、及び抑圧係数、並びに過去フレームの発声情報等の記憶に利用可能である。また、コンピュータ２０が、補助記憶装置２００３として利用可能なHard Disk Drive（ＨＤＤ）を搭載している場合、当該ＨＤＤを上記のプログラムや各種データの記憶に利用可能である。

入力装置２００４は、例えば、釦スイッチやタッチパネル装置等である。コンピュータ２０のオペレータ（利用者１２等）が入力装置２００４に対し所定の操作を行うと、入力装置２００４は、その操作内容に対応付けられている入力情報をプロセッサ２００１に送信する。入力装置２００４は、例えば、位相差領域設定部１０９として、第１の位相差領域ＰＡ１及び第２の位相差領域ＰＡ２を設定する操作等に利用可能である。

表示装置２００５は、例えば、液晶表示装置である。表示装置２００５は、例えば、コンピュータ２０の動作状態や、位相差領域の設定値等の表示に利用する。

入出力インタフェース２００６は、コンピュータ２０と、電子部品や他の電子装置（例えばマイクアレイ２）等とを接続する。

媒体駆動装置２００７は、可搬型記憶媒体２１に記録されているプログラムやデータの読み出し、補助記憶装置２００３に記憶されたデータ等の可搬型記憶媒体２１への書き込みを行う。可搬型記憶媒体２１としては、例えば、Secure Digital（ＳＤ）規格のメモリカード（フラッシュメモリ）や、Universal Serial Bus（ＵＳＢ）規格のコネクタを備えたフラッシュメモリが利用可能である。可搬型記録媒体２１は、上記の雑音抑圧プログラム、音声入力信号、雑音抑圧後の音声信号等の記憶に利用可能である。また、コンピュータ２０が媒体駆動装置２００７として利用可能な光ディスクドライブを搭載している場合、当該光ディスクドライブで認識可能な各種の光ディスクを可搬型記録媒体２１として利用可能である。可搬型記録媒体２１として利用可能な光ディスクには、例えば、Compact Disc（ＣＤ）、Digital Versatile Disc（ＤＶＤ）、Blu-ray Disc（Blu-rayは登録商標）等がある。

通信制御装置２００８は、コンピュータ２０をネットワークに接続し、ネットワークを介したコンピュータ２０と他の電子機器との各種通信を制御する装置である。通信制御装置２００８は、例えば、コンピュータ２０を利用した通話システムや電話会議システムにおける音声信号の送受信に利用可能である。

コンピュータ２０は、マイクアレイ２が接続された状態で、利用者が入力装置２００４を用いて雑音抑圧処理を含むプログラムの開始命令を入力すると、プロセッサ２００１が補助記憶装置２００３等から図３の処理を含むプログラムを読み出して実行する。この際、プロセッサ２００１は、雑音抑圧装置１及び音声認識装置１０の信号変換部１０２、位相差算出部１０３、音声到来率算出部１０４、相違度算出部１０５、発声判定部１０６、抑圧係数決定部１０７、及び出力信号生成部１０８等として機能（動作）する。また、コンピュータ２０において音声認識プログラムを実行した場合、プロセッサ２００１は、上記の各部１０２〜１０８に加え、音声認識処理部１１０として機能（動作）する。また、コンピュータ２０が図３の処理を含むプログラムを実行する際には、主記憶装置２００２のＲＡＭ、補助記憶装置２００３、及び可搬型記憶媒体２１等が、位相差領域記憶部１２０、発声情報記憶部１２１、単語辞書記憶部１２２として機能する。

なお、雑音抑圧装置１や音声認識装置１０として動作させるコンピュータ２０は、図１７に示した全ての要素２００１〜２００８を含む必要はなく、用途や条件に応じて一部の要素を省略することも可能である。例えば、コンピュータ２０は、媒体駆動装置２００７や通信制御装置２００８が省略されたものであってもよい。

以上記載した各実施形態に関し、更に以下の付記を開示する。
（付記１）
マイクロフォンアレイで収音目的の音声を収音して得られた第１の音声信号及び第２の音声信号の周波数スペクトルに基づいて、位相スペクトル差を算出する位相差算出部と、
前記マイクロフォンアレイに到来する前記収音目的の音声の到来方向に基づいて設定された第１の位相差領域と、前記位相スペクトル差とに基づいて、第１の音声到来率を算出するとともに、前記第１の位相差領域とは異なる第２の位相差領域と、前記位相スペクトル差とに基づいて、第２の音声到来率を算出する音声到来率算出部と、
前記第１の音声到来率と前記第２の音声到来率との相違の度合いを表す相違度を算出する相違度算出部と、
前記相違度に基づいて、前記第１の音声信号に前記収音目的の音声が含まれるか否かを判定する判定部と、
前記収音目的の音声が含まれるか否かの判定結果と、前記位相スペクトル差とに基づいて、前記第１の音声信号についての前記周波数スペクトルに適用する抑圧係数を決定する抑圧係数決定部と、
を備えることを特徴とする雑音抑圧装置。
（付記２）
前記雑音抑圧装置は、前記第２の位相差領域を設定する設定部、
を更に備えることを特徴とする付記１に記載の雑音抑圧装置。
（付記３）
前記設定部は、前記第１の位相差領域と隣接した前記第２の位相差領域を設定する、
ことを特徴とする付記２に記載の雑音抑圧装置。
（付記４）
前記設定部は、前記第１の位相差領域から離間した前記第２の位相差領域を設定する、
ことを特徴とする付記２に記載の雑音抑圧装置。
（付記５）
前記設定部は、一部の領域が前記第１の位相差領域と重複する前記第２の位相差領域を設定する、
ことを特徴とする付記２に記載の雑音抑圧装置。
（付記６）
前記設定部は、前記第１の位相差領域に内包される前記第２の位相差領域を設定する、
ことを特徴とする付記２に記載の雑音抑圧装置。
（付記７）
前記相違度算出部は、前記第１の音声到来率を前記第２の音声到来率で除した値を算出する、
ことを特徴とする付記１に記載の雑音抑圧装置。
（付記８）
前記相違度算出部は、前記第１の音声到来率から前記第２の音声到来率を減じた値を算出する、
ことを特徴とする付記１に記載の雑音抑圧装置。
（付記９）
前記抑圧係数決定部は、
前記第１の音声信号に前記収音目的の音声が含まれる場合には、前記位相スペクトル差に基づいて前記抑圧係数を算出し、前記第１の音声信号に前記収音目的の音声が含まれない場合には、前記位相スペクトル差に基づいて算出される前記抑圧係数の最小値に決定する、
ことを特徴とする付記１に記載の雑音抑圧装置。
（付記１０）
前記雑音抑圧装置は、前記判定部の判定結果を記憶させる記憶部、を更に備え、
前記判定部は、
現在の処理対象である前記第１の音声信号よりも時間的に前である前記第１の音声信号に前記収音目的の音声が含まれない場合には、前記相違度に基づいて、前記現在の処理対象である前記第１の音声信号に前記収音目的の音声が含まれるか否かを判定し、
前記現在の処理対象である前記第１の音声信号よりも時間的に前である前記第１の音声信号に前記収音目的の音声が含まれる場合には、前記第１の音声到来率に基づいて、前記現在の処理対象である前記第１の音声信号に前記収音目的の音声が含まれるか否かを判定する、
ことを特徴とする付記１に記載の雑音抑圧装置。
（付記１１）
付記１〜１０のいずれか１項に記載の雑音抑圧装置と、
前記雑音抑圧装置により雑音を抑圧した音声信号に対する音声認識処理を行う音声認識処理部と、
を備えることを特徴とする音声認識装置。
（付記１２）
コンピュータが、
マイクロフォンアレイで収音目的の音声を収音して得られた第１の音声信号及び第２の音声信号の周波数スペクトルに基づいて、位相スペクトル差を算出し、
前記マイクロフォンアレイに到来する前記収音目的の音声の到来方向に基づいて設定された第１の位相差領域と、前記位相スペクトル差とに基づいて、第１の音声到来率を算出するとともに、前記第１の位相差領域とは異なる第２の位相差領域と、前記位相スペクトル差とに基づいて、第２の音声到来率を算出し、
前記第１の音声到来率と前記第２の音声到来率との相違の度合いを表す相違度を算出し、
前記相違度に基づいて、前記第１の音声信号に前記収音目的の音声が含まれるか否かを判定し、
前記収音目的の音声が含まれるか否かの判定結果と、前記位相スペクトル差とに基づいて、前記第１の音声信号についての前記周波数スペクトルに適用する抑圧係数を決定する、
処理を実行することを特徴とする雑音抑圧方法。
（付記１３）
マイクロフォンアレイで収音目的の音声を収音して得られた第１の音声信号及び第２の音声信号の周波数スペクトルに基づいて、位相スペクトル差を算出し、
前記マイクロフォンアレイに到来する前記収音目的の音声の到来方向に基づいて設定された第１の位相差領域と、前記位相スペクトル差とに基づいて、第１の音声到来率を算出するとともに、前記第１の位相差領域とは異なる第２の位相差領域と、前記位相スペクトル差とに基づいて、第２の音声到来率を算出し、
前記第１の音声到来率と前記第２の音声到来率との相違の度合いを表す相違度を算出し、
前記相違度に基づいて、前記第１の音声信号に前記収音目的の音声が含まれるか否かを判定し、
前記収音目的の音声が含まれるか否かの判定結果と、前記位相スペクトル差とに基づいて、前記第１の音声信号についての前記周波数スペクトルに適用する抑圧係数を決定する、
処理をコンピュータに実行させる雑音抑圧プログラム。

１，１Ａ，１Ｂ雑音抑圧装置
１０音声認識装置
１０１信号受付部
１０２信号変換部
１０３位相差算出部
１０４音声到来率算出部
１０４Ａ第１の到来率算出部
１０４Ｂ第２の到来率算出部
１０５相違度算出部
１０６発声判定部
１０７抑圧係数決定部
１０８出力信号生成部
１０９位相差領域設定部
１１０音声認識処理部
１２０位相差領域記憶部
１２１発声情報記憶部
１２２単語辞書記憶部
２，２Ａ，２Ｂマイクアレイ（マイクロフォンアレイ）
２０１第１のマイク（マイクロフォン）
２０２第２のマイク（マイクロフォン）
３出力装置
４０，４１音源
１１車両
１１０１ダッシュボード
１１０２運転席
１１０３助手席
１２，１２Ａ，１２Ｂ利用者
１４Ａ，１４Ｂテーブル
１５通信ネットワーク
１６ベッド
１７家具
１８携帯型端末
２０コンピュータ
２００１プロセッサ
２００２主記憶装置
２００３補助記憶装置
２００４入力装置
２００５表示装置
２００６入出力インタフェース
２００７媒体駆動装置
２００８通信制御装置
２０１０バス
２１可搬型記録媒体

Claims

マイクロフォンアレイで収音目的の音声を収音して得られた第１の音声信号及び第２の音声信号の周波数スペクトルに基づいて、位相スペクトル差を算出する位相差算出部と、
前記マイクロフォンアレイに到来する前記収音目的の音声の到来方向に基づいて設定された第１の位相差領域と、前記位相スペクトル差とに基づいて、第１の音声到来率を算出するとともに、前記第１の位相差領域とは異なる第２の位相差領域と、前記位相スペクトル差とに基づいて、第２の音声到来率を算出する音声到来率算出部と、
前記第１の音声到来率と前記第２の音声到来率との相違の度合いを表す相違度を算出する相違度算出部と、
前記相違度に基づいて、前記第１の音声信号に前記収音目的の音声が含まれるか否かを判定する判定部と、
前記収音目的の音声が含まれるか否かの判定結果と、前記位相スペクトル差とに基づいて、前記第１の音声信号についての前記周波数スペクトルに適用する抑圧係数を決定する抑圧係数決定部と、
を備えることを特徴とする雑音抑圧装置。
前記雑音抑圧装置は、前記第２の位相差領域を設定する設定部、
を更に備えることを特徴とする請求項１に記載の雑音抑圧装置。
前記設定部は、一部の領域が前記第１の位相差領域と重複する前記第２の位相差領域を設定する、
ことを特徴とする請求項２に記載の雑音抑圧装置。
前記相違度算出部は、前記第１の音声到来率を前記第２の音声到来率で除した値を前記相違度として算出する、
ことを特徴とする請求項１に記載の雑音抑圧装置。
前記抑圧係数決定部は、
前記第１の音声信号に前記収音目的の音声が含まれる場合には、前記位相スペクトル差に基づいて前記抑圧係数を算出し、前記第１の音声信号に前記収音目的の音声が含まれない場合には、前記位相スペクトル差に基づいて算出される前記抑圧係数の最小値に決定する、
ことを特徴とする請求項１に記載の雑音抑圧装置。
前記雑音抑圧装置は、前記判定部の判定結果を記憶させる記憶部、を更に備え、
前記判定部は、
現在の処理対象である前記第１の音声信号よりも時間的に前である前記第１の音声信号に前記収音目的の音声が含まれない場合には、前記相違度に基づいて、前記現在の処理対象である前記第１の音声信号に前記収音目的の音声が含まれるか否かを判定し、
前記現在の処理対象である前記第１の音声信号よりも時間的に前である前記第１の音声信号に前記収音目的の音声が含まれる場合には、前記第１の音声到来率に基づいて、前記現在の処理対象である前記第１の音声信号に前記収音目的の音声が含まれるか否かを判定する、
ことを特徴とする請求項１に記載の雑音抑圧装置。
請求項１〜６のいずれか１項に記載の雑音抑圧装置と、
前記雑音抑圧装置により雑音を抑圧した音声信号に対する音声認識処理を行う音声認識処理部と、
を備えることを特徴とする音声認識装置。
コンピュータが、
マイクロフォンアレイで収音目的の音声を収音して得られた第１の音声信号及び第２の音声信号の周波数スペクトルに基づいて、位相スペクトル差を算出し、
前記マイクロフォンアレイに到来する前記収音目的の音声の到来方向に基づいて設定された第１の位相差領域と、前記位相スペクトル差とに基づいて、第１の音声到来率を算出するとともに、前記第１の位相差領域とは異なる第２の位相差領域と、前記位相スペクトル差とに基づいて、第２の音声到来率を算出し、
前記第１の音声到来率と前記第２の音声到来率との相違の度合いを表す相違度を算出し、
前記相違度に基づいて、前記第１の音声信号に前記収音目的の音声が含まれるか否かを判定し、
前記収音目的の音声が含まれるか否かの判定結果と、前記位相スペクトル差とに基づいて、前記第１の音声信号についての前記周波数スペクトルに適用する抑圧係数を決定する、
処理を実行することを特徴とする雑音抑圧方法。
マイクロフォンアレイで収音目的の音声を収音して得られた第１の音声信号及び第２の音声信号の周波数スペクトルに基づいて、位相スペクトル差を算出し、
前記マイクロフォンアレイに到来する前記収音目的の音声の到来方向に基づいて設定された第１の位相差領域と、前記位相スペクトル差とに基づいて、第１の音声到来率を算出するとともに、前記第１の位相差領域とは異なる第２の位相差領域と、前記位相スペクトル差とに基づいて、第２の音声到来率を算出し、
前記第１の音声到来率と前記第２の音声到来率との相違の度合いを表す相違度を算出し、
前記相違度に基づいて、前記第１の音声信号に前記収音目的の音声が含まれるか否かを判定し、
前記収音目的の音声が含まれるか否かの判定結果と、前記位相スペクトル差とに基づいて、前記第１の音声信号についての前記周波数スペクトルに適用する抑圧係数を決定する、
処理をコンピュータに実行させる雑音抑圧プログラム。