JP2012198289A

JP2012198289A - 音声誤検出判別装置、音声誤検出判別方法、およびプログラム

Info

Publication number: JP2012198289A
Application number: JP2011060796A
Authority: JP
Inventors: Chikako Matsumoto; 智佳子松本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-03-18
Filing date: 2011-03-18
Publication date: 2012-10-18
Anticipated expiration: 2031-03-18
Also published as: US20120239394A1; US8775173B2; JP5668553B2

Abstract

【課題】様々な雑音環境化において音声認識の精度を向上させることが可能な音声誤検出判別装置、音声誤検出判別システム、音声誤検出判別方法、およびプログラムを提供する。
【解決手段】入力信号取得部は、所定方向の音源からの音声を含む周囲音を複数のマイクによりそれぞれ収音した複数の音声信号を取得する。認識結果取得部は、音声信号に基づく音声認識を行った結果検出された、音声信号の音声区間を示す音声区間情報を含む認識結果を取得する。到来率算出部は、それぞれの複数の音声信号の単位時間毎の信号と所定方向とに基づき、単位時間における所定方向からの音声が周囲音に占める割合を示す音声到来率を算出する。誤り検出部は、認識結果と音声到来率とに基づき、音声区間情報が誤検出でないか否かを検出する。これにより、音声認識による音声区間の誤検出を判別できる。
【選択図】図１

Description

本発明は、音声誤検出判別装置、音声誤検出判別システム、音声誤検出判別方法、および誤検出判別プログラムに関する。

コンピュータ技術の発達により、音声認識の認識精度は急速に向上している。しかし、車載のカーナビ、テレビ会議、デジタルサイネージ等のように雑音環境下で音声認識する場合は、雑音区間を音声区間であると誤検出してしまう「湧き出し誤り」が生じる。そこで、雑音の多い環境においても、湧き出し誤りを防止する技術が必要とされている。

例えば、雑音耐性に優れ、音声信号の音素数に依存しない音声検出を行う音声検出装置及び方法として、入力信号の音響的特徴量を用いる例がある。この方法では、抽出した音響的特徴量を予め記憶された雑音信号の音響的特微量と比較し、入力信号の音響的特微量が記憶された雑音信号の音響的特微量に近い場合には雑音と判定する音声検出装置および方法である。

取得した音データのフレーム単位の音信号をスペクトルに変換し、スペクトルからスペクトル包絡を算出し、スペクトル包絡を除去したスペクトルにて、検出したピークを抑制する音声信号処理の例もある。この音声信号処理の例では、エンジン音、エアコン音等の帯域幅の広い緩やかなピークの定常雑音が発生する環境下でも、電子音、サイレン音等の非定常雑音の帯域幅の狭い鋭いピークを検出して抑制する。また、複数のマイクにより得られる音声信号で、各マイクからの信号の相関から到来方向を判断し、話者方向の到来音以外を抑圧する例もある。さらに、音声信号に基づいて雑音を抑制する雑音抑制係数を算出し、雑音抑制係数と元の音声信号とに基づき音声信号における雑音を抑制している例もある。

特開平１０−９７２６９号公報特開２００８−７６６７６号公報特開２０１０−１２４３７０号公報特開２００７−１８３３０６号公報

「マイクロホンアレイを用いた音声入力インタフェース」：雑誌ＦＵＪＩＴＳＵ１９９８−１月号（ＶＯＬ．４９、ＮＯ．１）ｐｐ．８０−８４

しかし例えば、雑音信号の音響的特微量に基づき雑音を判別する方式、周囲雑音を抑圧する方式、移相した信号を重ね合わせる方式等では、信号対雑音比が高い環境での判定精度は高いが、信号対雑音比が低い高雑音環境下では誤判定が多々生じる。スペクトル包絡を除去したスペクトルを用いる方式では、特定の帯域に鋭いピークが出るような非定常雑音に関しては効果があるが、他の人の話し声や、帯域の広い非定常雑音に関しては効果が得られない。音響モデル学習工程を備えた方式は、雑音を予め学習する方式であるため、定常雑音はうまく学習できるが、非定常雑音は学習できないため雑音を音声と誤認識する場合がある。また、話者方向の到来音以外を抑圧する例では、音声認識の前処理として区間検出を行っているため、前処理を行った後の音声データは、雑音が抑圧された区間から雑音混じりの音声区間に急に移行することとなり、音声認識率が悪くなるという問題が生じる。

よって、本発明は、非定常雑音を含む高雑音環境下等、様々な雑音環境下であっても、音声認識時に識別対象の音声以外の雑音区間を識別対象の音声と誤検出することを抑制することが可能な音声誤検出判別装置、音声誤検出判別システム、音声誤検出判別方法、およびプログラムを提供することを目的とする。

ひとつの態様である音声誤検出判別装置は、入力取得部、認識結果取得部、到来率算出部、誤り検出部を有している。入力取得部は、所定方向の音源からの音声を含む周囲音を複数のマイクロフォンによりそれぞれ収音した複数の音声信号を取得する。認識結果取得部は、前記複数の音声信号のうち少なくとも一方の音声信号に基づく音声認識を行った結果検出された、前記音声信号の音声区間を示す音声区間情報を含む認識結果を取得する。到来率算出部は、それぞれの前記複数の音声信号の単位時間毎の信号と前記所定方向とに基づき、前記単位時間における前記所定方向からの音声が前記周囲音に占める割合を示す音声到来率を算出する。誤り検出部は、前記認識結果と前記音声到来率とに基づき、前記音声区間情報が誤検出でないか否かを検出することを特徴としている。

別の態様である音声誤検出判別システムは、上記音声誤検出判別装置と、音声認識装置を有している。音声認識装置は、区間検出部と認識部を有している。区間検出部は、前記複数の音声信号の内の１つの音声信号に基づき音声区間を検出する。認識部は、前記音声区間と検出された区間の音声信号により音声認識を行い、文字列を出力する。

さらに別の態様である音声誤検出判別方法は、入力取得工程、認識結果取得工程、到来率算出工程、誤り検出工程を含んでいる。入力信号取得工程においては、所定方向の音源からの音声を含む周囲音を複数のマイクロフォンによりそれぞれ収音した複数の音声信号を取得する。認識結果取得工程においては、前記複数の音声信号の少なくとも一方の音声信号に基づく音声認識を行った結果検出された、前記音声信号の音声区間を示す音声区間情報を含む認識結果を取得する。到来率算出工程においては、それぞれの前記複数の音声信号の単位時間毎の信号と前記所定方向とに基づき、前記単位時間における前記所定方向からの音声が前記周囲音に占める割合を示す音声到来率を算出する。後検出判別工程においては、前記認識結果と前記音声到来率とに基づき、前記音声区間情報が誤検出でないか否かを検出する。

なお、上述した本発明に係る方法をコンピュータに行わせるためのプログラムであっても、このプログラムを当該コンピュータによって実行させることにより、上述した本発明に係る方法と同様の作用・効果を奏するので、前述した課題が解決される。

上述した態様の音声誤検出判別装置、音声誤検出判別システム、音声誤検出判別方法、およびプログラムによれば、様々な雑音環境下で雑音区間を音声区間であると誤検出してしまう「湧き出し誤り」を減らすことができる。

第１の実施の形態による音声誤検出判別システムの構成を示すブロック図である。第１の実施の形態による音声誤検出判別システムの機能を示すブロック図である。第１の実施の形態による音声誤検出判別システムの主要な動作を示すフローチャートである。第１の実施の形態による入力信号の例を示す図であり、（ａ）は、ＳＮＲが高い波形の例、（ｂ）はＳＮＲが低い波形の例である。第１の実施の形態による認識結果取得処理を示すフローチャートである。第１の実施の形態による音声到来率算出処理を示すフローチャートである。第１の実施の形態による到来方向判定処理を示すフローチャートである。第１の実施の形態による位相スペクトル差の許容範囲の例を周波数に対して示した図である。第１の実施の形態による音声誤検出判別処理を示すフローチャートである。第１の実施の形態による音声到来率の変化を示す図である。第２の実施の形態による音声到来率算出処理を示すフローチャートである。第３の実施の形態による誤検出判別処理を示すフローチャートである。第３の実施の形態による平滑化音声到来率を示す図である。第４の実施の形態による誤検出判別処理を示すフローチャートである。第５の実施の形態による音声到来率算出処理を示すフローチャートである。第６の実施の形態による音声到来率算出処理を示すフローチャートである。変形例５による音声誤検出判別システムの機能を示すブロック図である。標準的なコンピュータのハードウエア構成の一例を示すブロック図である。

（第１の実施の形態）
以下、図面を参照しながら第１の実施の形態による音声誤検出判別システムについて説明する。まず、図１および図２を参照しながら、音声誤検出判別システム１の構成および機能について説明する。図１は、第１の実施の形態による音声誤検出判別システム１の構成を示すブロック図、図２は、第１の実施の形態による音声誤検出判別システム１の機能を示すブロック図である。

図１に示すように、音声誤検出判別システム１は、誤検出判別装置３、音声認識装置５、制御部９および結果表示装置２１を有しており、互いにシステムバス１７により接続されている。音声誤検出判別システム１は、音声認識装置５により検出された音声区間の誤検出を誤検出判別装置３が判別し、結果表示装置２１により判別結果を反映した認識結果を出力するシステムである。

音声認識装置５は、区間検出部５１、認識部５２を備えるとともに、音声認識のための参照情報として、音響モデル５３、言語辞書５５等を有している。音響モデル５３は、認識対象の音素がそれぞれどのような周波数特性を持っているかを表す情報である。言語辞書５５は、音響モデルに対応する音素または音節定義で表記された認識語彙および文法を記録した情報である。

誤検出判別装置３は、入力信号取得部１１、認識結果取得部１３、誤検出判別部１５、記録部７を有している。誤検出判別部１５は、到来率算出部３１および誤り検出部３３を備えている。記録部７は、例えばＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）等のメモリであり、入力信号７１、認識結果情報７５、音声到来率７７、判別結果７９などを格納している。

入力信号７１は、入力信号取得部１１を介して取得される所定の音源からの音声を含む信号である。認識結果情報７５は、音声認識装置５による認識結果を示す情報である。音声到来率７７は、到来率算出部３１により算出される所定時間毎の音声到来率を示す情報である。判別結果７９は、音声認識装置５により識別された認識結果に誤検出判別装置３による誤検出の判別結果を加味した判別結果を示す情報である。また、入力信号取得部１１には、マイクアレイ１９が接続されている。

図２に示すように、マイクアレイ１９は、互いに距離ｄの間隔を有して配置されるマイクＡ、Ｂを有している。距離ｄは、両マイクでそれぞれ収音される音声が著しくは変わらず、かつ位相差測定可能な距離であればよい。また、マイクアレイ１９は、マイクアレイ１９に対し所定方向に配置された、例えば発話する人やスピーカなどの音源からの音声を含む周囲の音を収音するものとする。

図１、図２に示すように、音声認識装置５の入力信号取得部１１は、マイクＡおよびマイクＢがそれぞれ収音した音声から変換したそれぞれのアナログ入力信号を取得する。区間検出部５１は、入力信号取得部１１が取得した少なくとも一方の入力信号に基づき、音声が含まれる音声区間を検出し、音声区間の開始位置ｊｎおよび区間長Δｊｎを出力する。音声区間の検出は、従来のいかなる方法を用いてもよい。

例えば、取得した音声信号の信号対雑音比（ＳｉｇｎａｌｔｏＮｏｉｓｅＲａｔｉｏ：ＳＮＲ）が予め定められた閾値以上の区間を、音声区間と判別する方法を用いることができる。また、取得した入力信号を所定時間毎に区分したフレーム単位でスペクトルに変換し、変換したスペクトルから抽出する特徴量に基づき音声区間を検出する方法を用いることもできる。この方法では、特徴量として、変換したスペクトラムのパワーおよびピッチを抽出し、そのパワー及びピッチから音声区間検出用の閾値以上となるフレームを検出し、検出したフレームが一定時間以上連続する場合に、音声区間と判定する。

認識部５２は、上記のように検出された音声区間に基づき、音響モデル５３、言語辞書５５を参照しながら音声認識を行う。例えば、認識部５２は、音響モデル５３内の情報と検出された音声区間の波形とから類似度を計算し、言語辞書５５内の認識語彙に関する言語情報を参照することにより、音声区間に対応する文字列ｃａを検出する。音声認識装置５は、音声認識の結果、例えば、音声区間の開始位置ｊｎ、音声区間長Δｊｎ、文字列ｃａを認識結果情報として出力する。開始位置ｊｎおよび音声区間長Δｊｎは、それぞれフレーム番号およびフレーム長、または音声区間の開始時刻および継続時間、またはサンプル番号とサンプル数とする。

認識結果取得部１３は、音声認識装置５が出力した認識結果情報を、記録部７から取得する。誤検出判別部１５の到来率算出部３１は、記録部７からマイクアレイ１９が収音した音声に基づく入力信号７１Ａ、７１Ｂを取得し、所定時間のフレーム毎に、音源の配置された所定方向からの音声が占める、全音声における割合を音声到来率として算出する。誤り検出部３３は、到来率算出部３１が算出した音声到来率および音声認識装置５が出力した認識結果情報に基づき、音声区間の認識誤りを検出する。制御部９は、音声誤検出判別システム１全体の動作を制御する演算処理装置である。

以上のように構成された第１の実施の形態による音声誤検出判別システム１の動作について、図３から図１０を参照しながら説明する。図３は、音声誤検出判別システム１の主要な動作を示すフローチャートである。図３に示すように、音声誤検出判別システム１は、マイクアレイ１９のマイクＡおよびマイクＢが収音した音声から入力信号取得部１１を介して２つのアナログ入力信号を取得する（Ｓ１０１）。このとき制御部９は、取得された２つのアナログ入力信号を所定サンプリング周波数ｆｓでそれぞれサンプリングし、入力信号７１Ａ、７１Ｂとして記録部７に格納する。

図４は、入力信号の例を示す図であり、（ａ）は、ＳＮＲが高い波形の例、（ｂ）はＳＮＲが低い波形の例である。図４において、横軸は時間、縦軸は信号強度を表す。図４に示すように、入力信号取得部１１が取得する入力信号は、ＳＮＲが高い場合には入力信号８２のように、変動が大きい音声部分と、信号強度の小さい雑音部分とが混在した波形である。入力信号は、ＳＮＲが低い場合には入力信号８４のように、雑音と音声の区別がつきにくい波形となっている。

図３に戻って、Ｓ１０１の後は、認識結果取得処理と音声到来率算出処理とが平行して行われる。まず、認識結果取得処理（Ｓ１０２）について説明する。図５は、認識結果取得処理を示すフローチャートである。図５に示すように、区間検出部５１は、上述のように従来の方法を用いて音声区間を検出する（Ｓ１２１）。

例えば、図４の波形を例にして説明すると、区間検出部５１は、入力信号８２において、時刻ｔ１〜ｔ１＋Δｔ１、時刻ｔ２〜ｔ２＋Δｔ２を音声区間として検出する。また、区間検出部５１は、時刻ｔ３〜ｔ３＋Δｔ３、時刻ｔ４〜ｔ４＋Δｔ４、および時刻ｔ５〜ｔ５＋Δｔ５を音声区間として検出する。なお、図４（ｂ）の例では、時刻ｔ４〜ｔ４＋Δｔ４（領域４Ａ）が音声区間と判別されているが、これが誤検出の一例となっている。このとき、入力信号としては、入力信号７１Ａ、７１Ｂのいずれか少なくとも一方を用いる。

認識部５２は、検出した音声区間について、上述のように音響モデル５３、言語辞書５５を参照しながら、音声認識を行う（Ｓ１２２）。音声認識装置５は、検出した音声区間の開始位置ｊｎ、音声区間長Δｊｎ、文字列ｃａを認識結果情報として出力する（Ｓ１２３）。例えば、開始位置ｊｎ＝ｔ１、音声区間長Δｊｎ＝Δｔ１、文字列ｃａ＝「天気予報」などである。制御部９は、記録部２４に認識結果情報を格納する。

次に、図３に戻って、音声到来率算出処理について説明する。音源の音声がマイクに入力されているフレームにおいては、入力信号に含まれる多くの周波数が同一の到来方向を示すはずである。また、音源以外の音声がマイクに入力されているフレームにおいては、入力信号に含まれる周波数は、それぞれバラバラの到来方向もしくは、同一であっても音源とは異なる方向から到来しているはずである。よって、音声到来率算出処理は、音声到来率により音源の音声か否かを判別する処理となっている。

第１の実施の形態による音声到来率算出処理は、入力信号７１Ａ、７１Ｂをそれぞれ所定時間毎のフレームに分割して行われるため、制御部９は、まずフレーム番号ＦＮ＝０と設定し（Ｓ１０３）、音声到来率算出処理を行う（Ｓ１０４）。ここで、フレーム番号ＦＮは、フレームの時間的順序に応じた番号である。

図６は、Ｓ１０４の音声到来率算出処理を示すフローチャートである。図６に示すように、到来率算出部３１は、記録部７からマイクＡおよびマイクＢによるそれぞれの入力信号７１Ａ、７１Ｂを読出し、それぞれオーバラップ窓関数を掛ける（Ｓ１３１）。オーバラップ窓関数としては、例えば、ハミング窓関数、ハニング窓関数、ブラックマン窓関数、３シグマガウス窓関数、または三角窓関数等を用いることができる。Ｓ１３１により、入力信号７１Ａ、７１Ｂから、例えば、開始時間が時刻ｔ０、所定時間に対応するフレーム長Ｎ（フレーム内のサンプル数）の信号系列がフレームとして抽出される。ここで、時間的に隣り合うフレームの間隔は、例えばフレーム間隔Ｔとして設定される。

続いて、到来率算出部３１は、フレーム番号ＦＮ＝０のフレームに関して、高速フーリエ変換（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ：ＦＦＴ）を行い、周波数領域のスペクトルを生成する（Ｓ１３２）。すなわち、１フレーム長のサンプル数分の音声信号系列を入力信号７１Ａに対して信号ＩＮＡ（ｔ）、入力信号７１Ｂに対して信号ＩＮＢ（ｔ）とすると、それぞれ周波数ｆに関するスペクトル系列である振幅スペクトルＩＮＡＡＭＰ（ｆ）、ＩＮＢＡＭＰ（ｆ）と、位相スペクトルＩＮＡθ（ｆ）、ＩＮＢθ（ｆ）とが生成される。フレーム長Ｎとしては、２^ｎ（ｎは自然数）、例えば、Ｎ＝１２８、Ｎ＝２５６などを採用することができる。音声が音源方向からのものか否かの判定は、全周波数帯域において周波数スペクトル毎に行う。そこで、周波数ｆの順序番号を変数ｉ（ｉは整数）、変数ｉに対応する周波数を周波数ｆｉとする。このとき音声到来率ＳＣは、１フレーム内の全周波数ｆｉ（ｉ＝０〜Ｎ−１）の数＝Ｎに対する、到来方向が所定方向と判別された周波数の数の割合である。

到来率算出部３１は、変数ｉ＝０、到来数ｓｕｍ＝０と設定する（Ｓ１３３）。到来数ｓｕｍは、音源方向からの音声であると判別される周波数の数を加算するための変数であり、整数である。到来率算出部３１は、変数ｉ＜ＦＦＴフレーム長であるか否かを判別する（Ｓ１３４）。ここで、ＦＦＴフレーム長は、フレーム長Ｎとなる。次に、音声の到来方向が音源の方向であるか否かを判定する（Ｓ１３５）。

図７は、到来方向判定処理を示すフローチャートである。到来率算出部３１は、位相スペクトルＩＮＡθ（ｆ）、ＩＮＢθ（ｆ）を元に、位相スペクトル差ＤＩＦＦ（ｆｉ）を算出する（Ｓ１４１）。すなわち、以下の式１が用いられる。
ＤＩＦＦ（ｆｉ）＝ＩＮＡθ（ｆｉ）−ＩＮＢθ（ｆｉ）・・・（式１）

次に、スペクトルＩＮＡθ（ｆｉ）、スペクトルＩＮＢθ（ｆｉ）が、所定の音源の方向からの音声であるか否かを判別するため、位相スペクトル差ＤＩＦＦ（ｆｉ）が所定範囲内であるか否かを判別する（Ｓ１４２）。

図８は、音声が音源方向からのものであると判別する位相スペクトル差ＤＩＦＦ（ｆ）の許容範囲の例を周波数ｆに対して示した図である。図８において、横軸は周波数ｆ、縦軸は位相スペクトル差ＤＩＦＦ（ｆ）である。本実施の形態においては、音源の方向は予め定められており、例えば記録部７に予め格納されている。音源の方向が所定の方向であるとき、位相スペクトル差ＤＩＦＦ（ｆ）は、理想的には、周波数ｆに比例する値となる。しかしながら、マイクアレイ１９がおかれた環境や、音声認識の利用状況などに依存して、検出される位相スペクトル差ＤＩＦＦ（ｆ）は誤差を含むことになる。また、音源が一点でなく、ある範囲として規定される場合もある。

よって、例えば以下の方法で、位相スペクトル差ＤＩＦＦ（ｆ）の許容範囲を定めることができる。すなわち、図８に示すように、周波数ｆ＝ｆｋ（ｆｋはｆ０〜ｆｎのいずれか）において、ＤＩＦＦ１＜位相スペクトル差ＤＩＦＦ（ｆｋ）＜ＤＩＦＦ２を満たす範囲を、基準となる許容範囲として決める。次に、位相スペクトル差ＤＩＦＦ（ｆ）＝ａｆ（ａは係数）がその基準となる許容範囲の上限または下限を通る２直線ｌ１、ｌ２で囲まれる範囲を、周波数ｆに応じた位相スペクトル差ＤＩＦＦ（ｆ）の許容範囲と定める。図８は、このようにして定めた許容範囲の一例である。図８の例では、許容範囲は、直線ｌ１と直線ｌ２の間の領域１４８で表されている。

図７に戻って、到来率算出部３１は、変数ｉに対応する周波数ｆｉのとき、位相スペクトル差ＤＩＦＦ（ｆｉ）が直線ｌ１と直線ｌ２の間の領域１４８内にある場合に（Ｓ１４２：ＹＥＳ）、周波数ｆｉの音声が音源方向からの音声であると判別する（Ｓ１４３）。位相スペクトル差ＤＩＦＦ（ｆｉ）が直線ｌ１と直線ｌ２の間の領域１４８内にない場合に（Ｓ１４２：ＮＯ）、該当周波数ｆｉの音声が音源方向からの音声ではないと判別する（Ｓ１４４）。処理は、図６のＳ１３５に戻る。

図７において、該当周波数ｆｉの音声が音源方向からの音声であると判別された場合（Ｓ１３５：ＹＥＳ）には、図６の処理は、Ｓ１３６に進む。Ｓ１３６では、到来率算出部３１が到来数ｓｕｍ＝ｓｕｍ＋１とし、Ｓ１３７に進む。図７において、該当周波数ｆｉの音声が音源方向からの音声でないと判別された場合（Ｓ１３５：ＮＯ）には、図６の処理は、そのままＳ１３７に進む。Ｓ１３７では、到来率算出部３１は、変数ｉ＝ｉ＋１とし、Ｓ１３４に戻る。

以上のようなＳ１３４〜Ｓ１３７の処理が、周波数ｆ＜ＦＦＴフレーム長Ｎの間繰り返される（Ｓ１３４：ＹＥＳ）。変数ｉ＝Ｎとなると（Ｓ１３４：ＮＯ）、処理は１３８に進む。到来率算出部３１は、音声到来率ＳＣ＝ｓｕｍ／Ｎとして算出し（Ｓ１３８）、音声到来率ＳＣとフレーム番号ＦＮを記録部７に記録し（Ｓ１３９）、処理は、図３の１０４に戻る。

図３の処理に戻って、制御部９は、フレーム番号ＦＮ＝ＦＮ＋１とする（Ｓ１０５）とともに、フレーム番号ＦＮが全フレーム数ＦＮＡを超えているか否か判別する（Ｓ１０６）。全フレーム数ＦＮＡは、入力信号７１の時間的長さ、フレーム長Ｎ、フレーム間隔Ｔにより算出される。フレーム番号ＦＮが、全フレーム数ＦＮＡを超えていない場合には（Ｓ１０６：ＮＯ）、処理はＳ１０４に戻り、全フレームについて音声到来率を算出するまでＳ１０４〜Ｓ１０６の処理を繰り返す。フレーム番号ＦＮが全フレーム数ＦＮＡを超えると（Ｓ１０６：ＮＯ）、Ｓ１０７に進む。

制御部９は、記録部７の認識結果情報７５から、開始位置ｊｎと音声区間長Δｊｎとを取得する（Ｓ１０７）。ここで、記録されている開始位置ｊｎと音声区間長Δｊｎが時間やサンプル数で表されている場合には、フレーム番号ＦＮで表すように変換する。続いて、誤り検出部３３は、音声誤検出判別処理を行う。

図９は、音声誤検出判別処理を示すフローチャート、図１０は、音声到来率の変化を示す図である。音声誤検出判別処理を行う際には、誤り検出部３３は、音声認識装置５からの認識結果情報と、到来率算出部３１からの音声到来率ＳＣとを取得する。ここで、認識結果情報には、開始位置ｊｎ、音声区間長Δｊｎおよび文字列ｃａが含まれる。文字列ｃａは、音声認識装置５での認識結果として出力される文字列である。

図９に示すように、誤り検出部３３は、区間変数ｊ＝開始位置ｊｎ、音声率数ｓｕｍ２＝０と設定する（Ｓ１６１）。区間変数ｊは、検出対象フレームの位置を示す変数、音声率数ｓｕｍ２は、音声到来率ＳＣが閾値Ｔｈ１以上のフレームの数を計数するための変数である。

図１０において、縦軸は音声到来率ＳＣ、横軸は、図４（ｂ）の横軸に対応する時間である。図１０は、図４（ｂ）の信号８４の全フレームについて、フレームごとの音声到来率ＳＣを時間に対して示した例である。図１０の音声到来率変化１５０に示すように、図４（ｂ）で音声区間として検出された時刻ｔ３〜ｔ３＋Δｔ３および時刻ｔ５〜ｔ５＋Δｔ５については、音声到来率ＳＣは比較的高い値を示し、誤検出である時刻ｔ４〜ｔ４＋Δｔ４も含むその他の時間は、比較的低い値を示している。

誤り検出部３３は、まず、開始位置ｊｎに対応するフレームの音声到来率ＳＣを記録部７から読出し、閾値Ｔｈ１以上であるか否か判別する（Ｓ１６２）。ここで、例えば閾値Ｔｈ１は、３．２％とすることができる。音声到来率ＳＣが閾値Ｔｈ１以上の場合には、誤り検出部３３は、音声率数ｓｕｍ２＝ｓｕｍ２＋１とし（Ｓ１６３）、区間変数ｊ＝ｊ＋１とし、Ｓ１６５に進む。音声到来率ＳＣが閾値Ｔｈ１未満の場合には、誤り検出部３３は、そのまま処理をＳ１６５に進める。

誤り検出部３３は、区間変数ｊが音声区間終了位置ｊｎ＋Δｊｎより大きくなるまでＳ１６２〜Ｓ１６５の処理を繰り返す（Ｓ１６５：ＮＯ）。誤り検出部３３は、区間変数ｊが音声区間終了位置ｊｎ＋Δｊｎより大きいと判別すると（Ｓ１６５：ＹＥＳ）、音声率ＳＶ＝ｓｕｍ２／Δｊｎと算出する（Ｓ１６６）。誤り検出部３３は、音声認識装置５が認識した音声区間が、音声であるか非音声であるかの判定を行う。すなわち、誤り検出部３３は、算出した音声率ＳＶが予め決められた閾値Ｔｈ２よりも大きいか否か判別し（Ｓ１６７）、大きい場合には音声区間は誤検出ではないと判別し（Ｓ１６７：ＹＥＳ）、音声認識された文字列ｃａを出力すると判別する（Ｓ１６８）。閾値Ｔｈ２は、例えば０．５とすることができる。音声率ＳＶが閾値Ｔｈ２以下であると判別された場合には、音声区間は非音声であり、誤検出であると判別し（Ｓ１６７：ＮＯ）、誤り検出部３３は文字列ｃａを出力しないと判別する（Ｓ１６９）。誤り検出部３３は、判別結果を記録部７に記録し、処理を図３のＳ１０８に戻す。

図３に戻って、制御部９は、他にも記録部７に記録された音声区間があるか否かを判別する（Ｓ１０９）。他の音声区間があると判別されると（Ｓ１０９：ＹＥＳ）、処理はＳ１０７に戻る。他の音声区間はないと判別されると（Ｓ１０９：ＮＯ）、図１０のＳ１６８で出力すると判別された文字列ｃａのみを表示装置２１に表示する（Ｓ１１０）。

例えば、音声認識装置５による認識結果が、文字列ｃａ１＝「天気予報」「大阪」「ニュース」「最高気温」であった場合、「ニュース」が誤りであると検出されると、最終的な出力結果は、文字列ｃａ２＝「天気予報」「大阪」「最高気温」となる。

以上説明したように、第１の実施の形態による音声誤検出判別システム１は、マイクアレイ１９で収音された２つの入力信号を、それぞれ単位時間のフレーム毎にＦＦＴで周波数領域に変換する。また、上記２つの入力信号を変換した結果から周波数毎に位相差を求め、該当周波数ごとに音声が所定の音源方向からのものであるか否かを判定する。さらに、フレーム毎の全周波数帯域での音声到来率を、音声が所定音源方向からのものと判定された周波数の数と、フレーム長とから算出する。音声部分は音声到来率ＳＣが高くなる傾向を利用し、閾値Ｔｈ１以上の音声到来率ＳＣを持つ周波数の数の割合である音声率ＳＶを算出する。音声率ＳＶが閾値Ｔｈ２未満の場合に、音声認識装置５による音声区間検出が誤りであったと判別し、その区間に関して認識された文字列ｃａを出力しない。なお、音声誤検出判別システム１によれば、例えば、図４（ｂ）に示したような、ＳＮＲが０ｄＢの雑音混じり音声であっても、音声区間の誤検出の判別精度が９割以上となった。

以上説明したように、第１の実施の形態による音声誤検出判別システム１においては、マイクアレイ１９を使用することで、フレーム毎の音声／非音声判定時に所定方向の音源以外の方向から到来した雑音を非音声と判定することが可能となる。また、音声誤検出判別システム１は、音声認識装置５による音声認識と誤検出判定装置３による音声区間の誤検出判定とを行なうことができる。よって、音声誤検出判別システム１は、ＳＮＲなどに基づく音声認識により検出された音声区間のうち、音声到来率ＳＣに基づく音声率により判定された区間を真の音声区間とすることができ、雑音区間を誤って音声区間として検出する「湧き出し誤り」を判別することができる。

音声誤検出判別システム１は、音声率に基づき音声であると判定された音声区間については、音声認識結果を出力し、非音声であると判定された音声区間については、音声認識結果を出力しない。よって、雑踏の中で発生する非定常雑音（検出対象以外の話し声等）のように予め学習することができない雑音環境下でも、音声認識率を低下させずに、話者の音声信号を検出可能になる。すなわち、音声の誤検出を抑制し、音声認識の精度を向上させることが可能である。

また、音声誤検出判別システム１は、音声認識を行う処理と音声到来率を算出する処理とを並行して行う。音声到来率を算出する処理は、入力された信号そのものを用いて行うことで、例えば雑音抑制処理を前処理として行うことにより音声信号が歪み、本当の音声区間が検出から漏れてしまうことを未然に防止できる。音声認識処理も、入力された信号そのものを用いて行うことで、例えば雑音抑制処理などを前処理として行うことにより音声信号が歪み、音声認識率が低下することを未然に防止できる。

（第２の実施の形態）
次に、第２の実施の形態による音声誤検出判別システムについて説明する。第２の実施の形態による音声誤検出判別システムにおける動作は、第１の実施の形態による音声誤検出判別システム１における音声到来率算出処理の変形例である。よって、第２の実施の形態による音声誤検出判別システムにおいて、第１の実施の形態による音声誤検出判別システム１と同様の構成および動作については重複説明を省略する。

以下、図１１を参照しながら、第２の実施の形態による音声誤検出判別システム１の動作について説明する。図１１は、第２の実施の形態による音声到来率算出処理を示すフローチャートである。図１１は、図６のフローチャートに代えて用いるフローチャートである。図１１のＳ１８１〜Ｓ１８４は、図６のＳ１３１〜１３４、と同様であり、図１１のＳ１８８〜Ｓ１９２は、図６のＳ１３５〜Ｓ１３９と同様であるため、詳細説明を省略する。

図１１に示すように、マイクアレイ１９からの２つの入力信号に対してＦＦＴ処理が行われ、入力信号の所定のサンプル数分の音声信号系列を周波数領域へと変換する。次に、変数ｉ、到来数ｓｕｍを０に初期化しておく（Ｓ１８１〜Ｓ１８４）。以上は図６の処理と同様である。

図１１において、Ｓ１８５では、位相スペクトル差ＤＩＦＦ（ｆ）を算出する前に、周波数帯域ごとに定常雑音モデル推定を行う。例えば各周波数で、相関値や直前に推定された雑音モデルと入力信号の振幅スペクトルとの比を用いることで、定常雑音か否かの判定を行い、定常雑音と判定された場合に平均値を算出することで求められる。

例えば、フレーム番号ＦＮのフレームにおけるスペクトルの代表値を、現在の変数ｉに対応した周波数ｆｉにおけるスペクトル｜ＩＮ（ＦＮ、ｆｉ）｜とすると、定常雑音モデル｜Ｎ（ＦＮ、ｆｉ）｜は、以下の式２で表される。
｜Ｎ（ＦＮ、ｆｉ）｜
＝α（ｆｉ）｜Ｎ（ＦＮ−１、ｆｉ）｜＋（１−α（ｆｉ））｜ＩＮ（ＦＮ、ｆｉ）｜
・・・（式２）
ここでα（ｆｉ）は、０〜１の値である。

例えば上記式２により、定常雑音モデルを算出し、算出された定常雑音モデルと元の入力信号の振幅スペクトルとから更に、ＳＮＲを算出する。（Ｓ１８６）。算出したＳＮＲが閾値Ｔｈ３よりも大きい場合には（Ｓ１８７：ＹＥＳ）、その周波数帯域は音声である可能性が高くなるため、位相スペクトル差を算出し、位相スペクトルが音源方向であるかどうかの判定を行う（Ｓ１８８）。ＳＮＲが閾値Ｔｈ３よりも小さい場合には（Ｓ１８７：ＮＯ）、その周波数帯域は音声である可能性が低いため、位相スペクトルによる判定は行わず、Ｓ１９１に進む。その後、第１の実施の形態と同様に音声到来率ＳＣを算出し、算出した音声到来率ＳＣを記録し、図３の処理に戻る。

以上のようにして算出した到来数ｓｕｍを用いて、第１の実施の形態における音声誤検出判別システム１と同様に音声到来率を算出する。ここで、例えば閾値Ｔｈ３＝４とすることができる。

上記第２の実施の形態による音声誤検出判別システムによれば、第１の実施の形態による音声誤検出判別システムによる効果に加え、ＳＮＲが所定値以下の場合には、音源の音声ではないと判別するので、到来率算出部３１の処理量および処理時間を短縮することが可能になる。

（第３の実施の形態）
以下、図１２、図１３を参照しながら、第３の実施の形態による音声誤検出判別システムについて説明する。第３の実施の形態による音声誤検出判別システムにおける動作は、第１または第２の実施の形態による音声誤検出判別システムにおける誤検出判別処理の変形例である。よって、第３の実施の形態による音声誤検出判別システムにおいて、第１または第２の実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。

図１２は、第３の実施の形態による誤検出判別処理を示すフローチャートである。図１２は、図９のフローチャートに代えて用いるフローチャートである。第３の実施の形態においては、音声到来率を時間方向に平滑化した平滑化音声到来率を用いる。図１２のＳ２０１は、図９のＳ１６１と同様であり、図１２のＳ２０４〜Ｓ２１１は、図９のＳ１６３〜Ｓ１７０と同様であるため、詳細説明を省略する。

図１２に示すように、誤り検出部３３は、認識結果情報から音声区間の開始位置ｊｎを読取ると、区間変数ｊ＝ｊｎ、音声率数ｓｕｍ２＝０と初期化する。続いて、音声到来率ＳＣを平滑化する（Ｓ２０２）。音声到来率を時間方向に平滑化する方法としては、例えば１０フレーム分の音声到来率ＳＣの平均値を用いる方法がある。

図１３は、図１０に示した音声到来率ＳＣを平滑化した結果を示す図である。図１３の平滑化音声到来率変化２１３に示すように、音声区間である時刻ｔ３〜ｔ３＋Δｔ３および時刻ｔ５〜ｔ５＋Δｔ５については、音声到来率ＳＣより他の区間との平滑化音声到来率ＳＣａの差が鮮明になっている。誤検出である時刻ｔ４〜ｔ４＋Δｔ４では、平滑化音声到来率ＳＣａは、さらに低い値に落ち着いている。

誤り検出部３３は、平滑化音声到来率ＳＣａについて、音声到来率ＳＣと同様に閾値Ｔｈ１より大きいか否かの判別を行う（Ｓ２０３）。以下、図９の処理と同様に音声率を求め、誤検出か否かを判別し、判別結果を記録して図３の処理に戻る。

上記第３の実施の形態による音声誤検出判別システムによれば、第１の実施の形態による音声誤検出判別システムによる効果に加え、平滑化により、話者のリップノイズ等のように瞬時的に音声到来率が高い値を示すような非定常雑音を抑えることができ、より音声到来率の音声としての信頼度が増すという効果がある。また、第３の実施の形態による誤検出判別処理は、第１または第２の実施の形態による音声誤検出判別システムのいずれと組み合わせて用いてもよい。

（第４の実施の形態）
以下、図１４を参照しながら、第４の実施の形態による音声誤検出判別システムについて説明する。第４の実施の形態による音声誤検出判別システムにおける動作は、第１から第３の実施の形態による音声誤検出判別システムにおける誤検出判別処理の変形例である。よって、第４の実施の形態による音声誤検出判別システムにおいて、第１〜第３のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。

図１４は、第４の実施の形態による誤検出判別処理を示すフローチャートである。図１４は、図９のフローチャートに代えて用いるフローチャートである。第４の実施の形態においては、閾値Ｔｈ１以上の音声到来率ＳＣとなるフレームが時間方向に連続で予め決められた閾値Ｔｈ４より多く連続する場合に、音声区間と判別する。

図１４に示すように、誤り検出部３３は、認識結果情報から音声区間の開始位置ｊｎを読取り、区間変数ｊ＝ｊｎ、連続数ｓｕｍ３＝０、連続フラグｆｌｇ＝０と初期化する（Ｓ２２１）。連続数ｓｕｍ３は、閾値Ｔｈ１以上の音声到来率ＳＣとなるフレームが時間方向に連続する数の計数のための変数、連続フラグｆｌｇは、一つ前のフレームが閾値Ｔｈ１以上の音声到来率ＳＣであったことを示すフラグである。

誤り検出部３３は、音声到来率ＳＣが閾値Ｔｈ１以上であるか否か判別し（Ｓ２２２）、閾値Ｔｈ１未満の場合には（Ｓ２２２：ＮＯ）、連続数ｓｕｍ３＝０、連続フラグｆｌｇ＝０とし（Ｓ２２３）、Ｓ２２９に処理を進める。誤り検出部３３は、音声到来率ＳＣが閾値Ｔｈ１以上の場合には（Ｓ２２２：ＹＥＳ）、連続フラグｆｌｇ＝１であるか否かを判別する（Ｓ２２４）。連続フラグｆｌｇ＝１でない場合には（Ｓ２２４：ＮＯ）、誤り検出部３３は、連続フラグｆｌｇ＝１とし、処理をＳ２２９に進める。

Ｓ２２４において、連続フラグｆｌｇ＝１である場合には（Ｓ２２４：ＹＥＳ）、誤り検出部３３は、連続数ｓｕｍ３＝ｓｕｍ３＋１とし、連続数ｓｕｍ３が閾値Ｔｈ４より大きいか否か判別する（Ｓ２２７）。閾値Ｔｈ４は、判別対象の区間が音声区間であると判別する場合のフレームの連続数の最低数として予め決める値である。閾値Ｔｈ４は、例えば発声時の数音素に相当するフレーム数に設定される。具体的には、閾値Ｔｈ４として、１１０２５ＨｚサンプリングでＦＦＴフレーム長＝２５６の場合は、数音素２００ｍｓｅｃ相当の「１０」のような定数を用いる。

連続数ｓｕｍ３が閾値Ｔｈ４以下である場合には（Ｓ２２７：ＮＯ）、処理はＳ２２９に進む。連続数ｓｕｍ３が閾値Ｔｈ４より大きい場合には（Ｓ２２７：ＹＥＳ）、誤り検出部３３は、音声認識結果を出力すると判別し（Ｓ２２８）、Ｓ２３２に処理を進める。

Ｓ２２９では、誤り検出部３３は、区間変数ｊ＝ｊ＋１とし、区間変数が記録部７から読取った音声区間終了位置＝ｊｎ＋Δｊｎより大きいか否か判別する（Ｓ２３０）。区間変数ｊが音声区間終了位置以下である場合は（Ｓ２３０：ＮＯ）、Ｓ２２２の処理に戻る。区間変数ｊが音声区間終了位置を超えている場合には（Ｓ２３０：ＹＥＳ）、誤り検出部３３は、音声認識結果を出力しないと判別する（Ｓ２３１）。Ｓ２３２では、誤り検出部３３は、記録部７に音声認識結果を出力するか否かの判別結果を格納し（Ｓ２３２）、図３の処理に戻る。

上記第４の実施の形態による音声誤検出判別システムによれば、第１の実施の形態による音声誤検出判別システムによる効果に加え、以下のような付加的な効果が得られる。すなわち、音声認識装置５により音声区間と判別された区間は、閾値Ｔｈ１以上の音声到来率ＳＣを有するフレームが時間的に閾値Ｔｈ４以上連続している場合に音源の音声であると判別され、そうでない場合には音源の音声でないと判別される。これにより、より音声到来率の音声としての信頼度が増すという効果がある。また、第４の実施の形態による誤検出判別処理は、第１から第３の実施の形態による音声誤検出判別システムの組み合わせのいずれと組み合わせて用いてもよい。

（第５の実施の形態）
以下、図１５を参照しながら、第５の実施の形態による音声誤検出判別システムについて説明する。第５の実施の形態による音声誤検出判別システムにおける動作は、第１から第４の実施の形態による音声誤検出判別システムにおける音声到来率算出処理の変形例である。よって、第５の実施の形態による音声誤検出判別システムにおいて、第１〜第４のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。

図１５は、第５の実施の形態による音声到来率算出処理を示すフローチャートである。図１５は、図６のフローチャートに代えて用いるフローチャートである。第５の実施の形態においては、音声到来率算出を、ＦＦＴを行わずに実行する。ここで、第１の実施の形態において説明したように、記録部７には、マイクアレイ１９の２つのマイクＡ、Ｂからの入力信号７１Ａ、７１Ｂが記録されている。また、フレーム番号ＦＮ＝０と初期化されている。

図１５に示すように、到来率算出部３１は、まず、記録部７から不図示の音源方向を読み出す（Ｓ２４１）。音源方向は、予めユーザによりキー入力されてもよいし、センサにより検出してもよい。ここでは音源方向は、予め定めた点を原点とした座標系を定義し、その座標系における座標として設定する。

また、到来率算出部３１は、マイクアレイ１９のマイクＡ、マイクＢの位置と音源方向に基づき、位相差を検出する（Ｓ２４２）。ここで位相差は、音源からの音声がマイクＡとマイクＢに到達する際の時間差として算出する。

到来率算出部３１は、記録部７からマイクＡおよびマイクＢによるそれぞれの入力信号７１Ａ、７１Ｂを読出し、例えば、開始時間が時刻ｔ０、所定時間に対応するフレーム長Ｎ（フレーム内のサンプル数）、フレーム間隔Ｔの信号系列である入力信号７１Ａ＝ＩＮＡ（ｔ）、入力信号７１Ｂ＝ＩＮＢ（ｔ）を抽出する（Ｓ２４３）。なお、本実施の形態においては、フレーム長Ｎ＝１２８、２５６等の整数であるが、Ｎ＝２^ｎとは限らない。

到来率算出部３１は、取得した信号系列および上記位相差から、取得した音源の位置における当該フレームの相関係数を算出する（Ｓ２４４）。ここで、相関係数は−１から１の値として算出される。到来率算出部３１は、算出した相関係数が予め定めた閾値Ｔｈ５よりも大きい場合には（Ｓ２４５：ＹＥＳ）、当該フレームの音声が音源方向からの音声であると判定し（Ｓ２４６）、音声到来率ＳＣ＝１とする（Ｓ２４７）。到来率算出部３１は、算出した相関係数が予め定めた閾値Ｔｈ５以下の場合には（Ｓ２４５：ＮＯ）、当該フレームの音声が音源方向からの音声ではないと判定し（Ｓ２４８）、音声到来率ＳＣ＝１とする（Ｓ２４９）。ここで、例えば閾値Ｔｈ５＝０．７と定めることができる。到来率算出部３１は、算出した音声到来率ＳＣとフレーム番号ＦＮを記録部７に記録し（Ｓ２５０）、図３の処理に戻る。

以上のようなＳ２４１〜Ｓ２５０の処理が、全てのフレームについて繰り返されることにより、図１０に示したような音声到来率ＳＣの時間的変化が得られ、これに基づき音声誤検出判別を行う。

上記第５の実施の形態による音声誤検出判別システムによれば、第１の実施の形態による音声誤検出判別システムによる効果に加え、ＦＦＴを使わないことにより、より計算時間を短縮することが可能であるという効果を奏する。また、第５の実施の形態による誤検出判別処理は、第１から第４の実施の形態による音声誤検出判別システムのいずれと組み合わせて用いてもよい。

（第６の実施の形態）
以下、図１６を参照しながら、第６の実施の形態による音声誤検出判別システムについて説明する。第６の実施の形態による音声誤検出判別システムにおける動作は、第１から第５の実施の形態による音声誤検出判別システムにおける音声到来率算出処理の変形例である。よって、第６の実施の形態による音声誤検出判別システムにおいて、第１〜第５のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。

第６の実施の形態による音声誤検出判別システムは、マイクアレイ１９より３つの音声信号を取得する。すなわち、マイクアレイ１９は、マイクＡ、マイクＢ、およびマイクＣを備えた構成である。マイクＡ、マイクＢ、およびマイクＣは、マイクでそれぞれ収音される音声が著しくは変わらず、かつ位相差測定可能な距離を隔てて互いに設置されることが好ましい。

図１６は、第６の実施の形態による音声到来率算出処理を示すフローチャートである。図１６は、図６のフローチャートに代えて用いるフローチャートである。第６の実施の形態においても第５の実施の形態と同様、音声到来率算出を、ＦＦＴを行わずに実行する。第６の実施の形態において、記録部７には、マイクアレイ１９の３つのマイクＡ、Ｂ、Ｃからの入力信号７１が記録されている。また、フレーム番号ＦＮ＝０と初期化されている。

図１６に示すように、到来率算出部３１は、まず、記録部７から不図示の音源方向を読み出す（Ｓ２６１）。音源方向は、予めユーザによりキー入力されてもよいし、センサにより検出するようにしてもよい。音源方向は、予め定められた点を原点とした座標系を定義し、その座標系における座標として設定する。

到来率算出部３１は、記録部７からマイクＡおよびマイクＢによるそれぞれの入力信号７１Ａ、７１Ｂ、７１Ｃを読出し、例えば、それぞれ開始時間が時刻ｔ０、所定時間に対応するフレーム長Ｎ（フレーム内のサンプル数）、フレーム間隔Ｔの信号系列である入力信号７１Ａ＝ＩＮＡ（ｔ）、入力信号７１Ｂ＝ＩＮＢ（ｔ）、入力信号７１Ｃ＝ＩＮＣ（ｔ）を抽出する（Ｓ２６３）。なお、本実施の形態においては、フレーム長Ｎ＝１２８、２５６等の整数であるが、Ｎ＝２^ｎとは限らない。

到来率算出部３１は、取得した信号系列から、例えば入力信号７１Ａと入力信号７１Ｂ、入力信号７１Ｂと入力信号７１Ｃの当該フレームにおける２つの相関係数を算出する（Ｓ２６４）。到来率算出部３１は、音源の座標における相関係数の積を算出する。ここで、相関係数、およびその積は−１から１の値として算出される。到来率算出部３１は、算出した積が予め定めた閾値Ｔｈ６よりも大きい場合には（Ｓ２６５：ＹＥＳ）、当該フレームの音声が音源方向からの音声であると判定し（Ｓ２６６）、音声到来率ＳＣ＝１とする（Ｓ２６７）。到来率算出部３１は、算出した相関係数の積が予め定めた閾値Ｔｈ６以下の場合には（Ｓ２６８：ＮＯ）、当該フレームの音声が音源方向からの音声ではないと判定し、音声到来率ＳＣ＝１とする（Ｓ２６９）。ここで、例えば閾値Ｔｈ６＝０．７と定めることができる。到来率算出部３１は、算出した音声到来率ＳＣとフレーム番号ＦＮを記録部７に記録し（Ｓ２７０）、図３の処理に戻る。

以上のようなＳ２６１〜Ｓ２７０の処理が、全てのフレームについて繰り返されることにより、図１０に示したような音声到来率ＳＣの時間的変化が得られ、これに基づき音声誤検出判別を行う。

上記第６の実施の形態による音声誤検出判別システムによれば、第１の実施の形態による音声誤検出判別システムによる効果に加え、ＦＦＴを使わないことにより、より計算時間を短縮することが可能であるという効果を奏する。また、第６の実施の形態による誤検出判別処理は、第１から第４の実施の形態による音声誤検出判別システムのいずれと組み合わせて用いてもよい。

（変形例１）
以下、変形例１による音声誤検出判別システムについて説明する。変形例１よる音声誤検出判別システムにおける動作は、第１から第６の実施の形態による音声誤検出判別システムの認識結果取得処理（図３のＳ１０２）、および誤検出判別処理における音声非音声の判定処理（例えば、図９のＳ１６７）の変形例である。よって、変形例１では、第１〜第６のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。

変形例１では、認識結果取得処理の音声認識（図５のＳ１２２）において、開始位置ｊｎ、音声区間長Δｊｎ、文字列ｃａに加え、音声認識結果の確からしさを表す「認識スコア」を取得する。図９のＳ１６７において、変形例１では、音声率ＳＶに認識スコアＳＣをかけた値が閾値Ｔｈ２以上である場合に、判別対象の区間は音声区間であると判定して、音声認識結果を出力する。すなわち、音声率ＳＶ２＝認識スコアＳＣ×音声率数ｓｕｍ２／音声区間長Δｊｎにより音声率ＳＶ２を算出し、音声率ＳＶ２と閾値Ｔｈ２とを比較する。

なお、認識スコアＳＣは、例えば以下のようにして算出される。すなわち、音声認識装置５において、音声認識部５２は、区間検出部５１が音声区間と認識した区間の音声信号から特徴ベクトル系列を抽出する。認識部５２は、ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ（ＨＭＭ）を用いて言語辞書５５に格納されている認識対象カテゴリを表現したＨＭＭと、特徴ベクトル系列とを照合する。認識部５２は、特徴ベクトル系列の出現確率Ｐの自然対数値ｌｎ（Ｐ）を計算し、計算結果を認識スコアＳＣとする。なお、認識スコアＳＣの値は、０〜１までに正規化しておくことが好ましい。

例えば、音声率ＳＶ＝０．５で、認識スコアＳＣが０から１までの範囲で０．７８であった場合、音声到来率ＳＣと認識スコアＳＣを乗算し（０．５×０．７８＝０．３９）、この０．３９が閾値Ｔｈ２以上であるか否かで、音声か非音声かの判定を行う。

上記のように、変形例１による音声誤検出判別システムによれば、第１の実施の形態による音声誤検出判別システムによる効果に加え、音声認識と音声到来率の両方の結果を加味した結果を得ることができるという効果を奏する。また、変形例１の誤検出判別処理は、第１から第６の実施の形態による音声誤検出判別システムのいずれと組み合わせて用いてもよい。

（変形例２）
以下、変形例２による音声誤検出判別システムについて説明する。変形例２による音声誤検出判別システムにおける動作は、第１から第６の実施の形態による音声誤検出判別システムの誤検出判別処理における音声非音声の判定処理（例えば、図９のＳ１６７）の変形例である。よって、変形例２では、第１〜第６のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。

変形例２では、図９のＳ１６７において、変形例２では、音声率ＳＶに音声区間と認識された区間の平均ＳＮＲをかけた値が閾値Ｔｈ７以上である場合に、その判別対象区間は音源からの音声であると判定して音声認識結果を出力する。すなわち、音声率ＳＶ３＝ＳＮＲ×音声率数ｓｕｍ２／音声区間長Δｊｎにより音声率ＳＶ３を算出し、音声率ＳＶ３と閾値Ｔｈ７とを比較する。閾値Ｔｈ７は、例えば４とすることができる。

上記のように、変形例２による音声誤検出判別システムによれば、第１の実施の形態による音声誤検出判別システムによる効果に加え、音声であるかどうかの判定精度がより増す。特に、音声到来率算出の時にＳＮＲを用いない第１の実施の形態の場合（図９の場合）に効果を奏する。なお、変形例２の誤検出判別処理は、第１から第６の実施の形態による音声誤検出判別システムのいずれと組み合わせて用いてもよい。

（変形例３）
以下、変形例３による音声誤検出判別システムについて説明する。変形例３による音声誤検出判別システムにおける動作は、第１から第６の実施の形態による音声誤検出判別システムの認識結果取得処理（図３のＳ１０２）、および誤検出判別処理における音声非音声の判定処理（例えば、図９のＳ１６７）の変形例である。よって、変形例３では、第１〜第６のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。

変形例３では、認識結果取得処理において、開始位置ｊｎ、音声区間長Δｊｎ、文字列ｃａに加え、音声認識結果の確からしさを表す「認識スコア」を取得する。また、図９のＳ１６７において、変形例３では、音声率ＳＶに認識スコアＳＣと音声区間と認識された区間の平均ＳＮＲとをかけた値が閾値Ｔｈ２以上である場合に、その判別対象区間は音源からの音声であると判定して音声認識結果を出力する。すなわち、音声率ＳＶ４＝認識スコアＳＣ×ＳＮＲ×音声率数ｓｕｍ２／音声区間長Δｊｎにより音声率ＳＶ４を算出し、音声率ＳＶ４と閾値Ｔｈ２とを比較する。

上記のように、変形例３による音声誤検出判別システムによれば、第１の実施の形態による音声誤検出判別システムによる効果に加え、音声認識と音声到来率の両方の結果を加味した結果を得ることができるという効果を奏する。また、音声であるかどうかの判定精度がより増す。特に、音声到来率算出の時にＳＮＲを用いない第１の実施の形態の場合（図９の場合）に効果を奏する。なお、変形例３の誤検出判別処理は、第１から第６の実施の形態による音声誤検出判別システムのいずれと組み合わせて用いてもよい。

（変形例４）
以下、変形例４による音声誤検出判別システムについて説明する。変形例４は、第１から第６の実施の形態による音声誤検出判別システムの誤検出判別処理における、音声非音声の判定処理（例えば、図９のＳ１６７）の、音声率に関する閾値Ｔｈ２の設定方法に関する変形例である。よって、変形例４では、第１〜第６のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略し、閾値Ｔｈ２の設定方法についてのみ述べる。

閾値Ｔｈ２としては、常に定数（例：０〜１の範囲に正規化した場合の０．５）を使用する方法もある。しかし、音声認識装置５における音声認識処理において「ＳＮＲ等による音声区間検出」を行なうような場合において、雑音が多くＳＮＲが低くなると、実際の音声区間よりも広く音声区間と認識される場合が多い。また、呼気段落が長い場合には、語尾にかけて発声時に無声化する場合が多く、その場合は、音声率ＳＶが小さくなる傾向がある。それらに対処するために、閾値Ｔｈ２の設定方法の変形例として下記変形例４−１）〜変形例４−３）の３つの方法がある。

変形例４−１）音声区間長Δｊｎ依存性
閾値Ｔｈ２は、音声区間長Δｊｎが広くなる程、小さくなるように設定されることが好ましい。
（４−１−１）音声区間長Δｊｎ≧２００（フレーム）：閾値Ｔｈ２＝０．１５
（４−１−２）音声区間長Δｊｎ≦４０（フレーム）：閾値Ｔｈ２＝０．８０
（４−１−３）４０＜音声区間長Δｊｎ＜２００（フレーム）：閾値Ｔｈ２＝０．３０
本変形例によれば、音声誤検出判別システムは、音声認識により検出された音声区間で、音声の前後に雑音のみの区間が付加されてしまった場合でも、音声区間の誤検出判定の精度を維持することができる。

変形例４−２）雑音レベル依存性
閾値Ｔｈ２は、雑音レベルが大きくなるほど小さくなるように設定される。
（４−２−１）雑音レベル≧７０（ｄＢＡ）：閾値Ｔｈ２＝０．２０
（４−２−２）雑音レベル≦４０（ｄＢＡ）：閾値Ｔｈ２＝０．７０
（４−２−３）４０＜雑音レベル＜７０（ｄＢＡ）：閾値Ｔｈ２＝０．３０
本変形例によれば、周囲の雑音環境の変動に対して、誤検出判定の精度を向上させることができる。

変形例４−３）音素数依存性
閾値Ｔｈ２は、認識結果の音素数が大きくなるほど小さくなるように設定される。
（４−３−１）音素数≧２４：閾値Ｔｈ２＝０．２５
（４−３−２）音素数≦８：閾値Ｔｈ２＝０．６０
（４−３−３）８＜音素数＜２４：閾値Ｔｈ２＝０．４０
本変形例によれば、音素数に依存せずに誤検出判定の精度を維持することができる。
以上、変形例４−１）〜４−３）を組み合わせて用いる方法もある。

（変形例５）
以下、図１７を参照しながら、変形例５による音声誤検出判別システムについて説明する。変形例５による音声誤検出判別システムにおける動作は、第１から第６の実施の形態および各変形例による音声誤検出判別システムにおける音声認識処理の変形例である。よって、変形例５による音声誤検出判別システムにおいて、第１〜第６のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。

図１７は、変形例５による音声誤検出判別システムの機能を示すブロック図である。図１７に示す音声誤検出判別システムは、図２の音声誤検出判別システム１の変形例であり、音声認識装置５に代えて音声認識装置５０を有している。音声認識装置５０は、音声認識装置５に雑音抑制部４１を追加した構成である。雑音抑制部４１は、マイクアレイ１９から入力信号取得部１１が取得した信号７１の雑音を抑制する。雑音の抑制方法は、従来の様々な方法を適用できる。例えば、雑音抑制部４１は信号７１からフレームを作成し、周波数領域のスペクトルに変換し、スペクトルに基づいて包絡を算出し、スペクトルから包絡を除去することにより、雑音を抑制する。

以上のように、変形例５による音声誤検出判別システムによれば、第１の実施の形態による音声誤検出判別システムによる効果に加え、音声信号における雑音を抑制することにより、雑音環境下において、より精度の高い音声認識を行うことが可能である。なお、変形例５の誤検出判別処理は、第１から第６の実施の形態による音声誤検出判別システムおよび各変形例のいずれと組み合わせて用いてもよい。

ここで、上記第１から第６の実施の形態および、変形例１〜変形例５による音声誤検出判別システムの動作をコンピュータに行わせるために共通に適用されるコンピュータの例について説明する。図１８は、標準的なコンピュータのハードウエア構成の一例を示すブロック図である。図１８に示すように、コンピュータ３００は、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＣＰＵ）３０２、メモリ３０４、入力装置３０６、出力装置３０８、外部記憶装置３１２、媒体駆動装置３１４、ネットワーク接続装置３１８、音声インタフェース３２０等がバス３１０を介して接続されている。

ＣＰＵ３０２は、コンピュータ３００全体の動作を制御する演算処理装置である。メモリ３０４は、コンピュータ３００の動作を制御するプログラムを予め記憶したり、プログラムを実行する際に必要に応じて作業領域として使用したりするための記憶部である。メモリ３０４は、例えばＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ）等である。入力装置３０６は、コンピュータの使用者により操作されると、その操作内容に対応付けられている使用者からの各種情報の入力を取得し、取得した入力情報をＣＰＵ３０２に送付する装置であり、例えばキーボード装置、マウス装置などである。出力装置３０８は、コンピュータ３００による処理結果を出力する装置であり、表示装置などが含まれる。例えば表示装置は、ＣＰＵ３０２により送付される表示データに応じてテキストや画像を表示する。

外部記憶装置３１２は、例えば、ハードディスクなどの記憶装置であり、ＣＰＵ３０２により実行される各種制御プログラムや、取得したデータ等を記憶しておく装置である。媒体駆動装置３１４は、可搬記録媒体３１６に書き込みおよび読み出しを行うための装置である。ＣＰＵ３０２は、可搬型記録媒体３１６に記録されている所定の制御プログラムを、記録媒体駆動装置３１４を介して読み出して実行することによって、各種の制御処理を行うようにすることもできる。可搬記録媒体３１６は、例えばＣｏｎｐａｃｔＤｉｓｃ（ＣＤ）−ＲＯＭ、ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ（ＤＶＤ）、ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ（ＵＳＢ）メモリ等である。

ネットワーク接続装置３１８は、有線または無線により外部との間で行われる各種データの授受の管理を行うインタフェース装置である。音声インタフェース３２０は、マイクアレイ１９からの音声信号を取得するためのインタフェース装置である。バス３１０は、上記各装置等を互いに接続し、データのやり取りを行う通信経路である。

上記第１から第６の実施の形態および各変形例による音声誤検出判別システムの動作をコンピュータに実行させるプログラムは、例えば外部記憶装置３１２に記憶させる。ＣＰＵ３０２は、外部記憶装置３１２からプログラムを読み出し、コンピュータ３００に音声誤検出判別の動作を行なわせる。このとき、まず、音声誤検出判別の処理をＣＰＵ３０２に行わせるための制御プログラムを作成して外部記憶装置３１２に記憶させておく。そして、入力装置３０６から所定の指示をＣＰＵ３０２に与えて、この制御プログラムを外部記憶装置３１２から読み出させて実行させるようにする。また、このプログラムは、可搬記録媒体３１６に記憶するようにしてもよい。

なお、本発明は、以上に述べた実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々の構成または実施形態を採ることができる。また、本発明の要旨を逸脱しない範囲で、複数の実施の形態を組み合わせることができる。例えば、音声認識装置５による音声認識処理は、音声区間の開始位置ｊｎ、音声区間長Δｊｎまたは音声区間終了位置、認識結果の文字列ｃａが出力されるものであれば適用可能である。なお、音声区間長Δｊｎに代えて、音声区間終了位置を用いてもよい。

音声到来率算出方法は、上記において説明した方法に限定されず、所定時間毎の音声到来率が算出できる方法であればよい。例えば、音声率を算出する代わりに、音声区間の平均の音声到来率ＳＣを求め、予め決められた閾値と比較するようにしてもよい。定常雑音モデル推定、雑音抑制の方法も上記に限定されず、他の方法でもよい。

マイクアレイ１９は、音声誤検出判別システム１の内部に備えられてもよいし、外部に備えられてもよい。マイクアレイ１９は、例えば、音声認識機能を有する車載装置またはカーナビゲーション装置、ハンズフリー電話機、または携帯電話機のような情報機器に備えられてもよい。

音声認識装置５は、誤検出判別装置３と一体に備えられてもよく、ケーブルなどの接続手段により外部に備えられてもよい。また、音声認識装置５は、インターネット等のネットワークを介して接続された装置に備えるようにしてもよい。音声認識装置５が外部に備えられる場合には、マイクアレイ１９から取得した入力信号を音声誤検出判別システム１が送信し、音声認識装置５は、受信した入力信号に基づき処理を行う。

音源の方向については、予めキー入力などにより記録部７に記憶させてもよいが、ディジタルカメラ、超音波センサ、または赤外線センサを設け、自動的に検出するようにしてもよい。また、音声到来率ＳＣを算出する際の許容範囲については、制御部９により実行可能なプログラムに従い、音源の方向に応じて決定されるようにしてもよい。

以上の実施形態に関し、さらに以下の付記を開示する。
（付記１）
所定方向の音源からの音声を含む周囲音を複数のマイクロフォンによりそれぞれ収音した複数の音声信号を取得する入力信号取得部と、
前記複数の音声信号のうち少なくとも一方の音声信号に基づく音声認識を行った結果検出された、前記音声信号の音声区間を示す音声区間情報を含む認識結果を取得する認識結果取得部と、
それぞれの前記複数の音声信号の単位時間毎の信号と前記所定方向とに基づき、前記単位時間における前記所定方向からの音声が前記周囲音に占める割合を示す音声到来率を算出する到来率算出部と、
前記認識結果と前記音声到来率とに基づき、前記音声区間情報が誤検出でないか否かを検出する誤り検出部と、
を有することを特徴とする音声誤検出判別装置。
（付記２）
前記誤り検出部は、
前記音声区間における第１の閾値以上の音声到来率を有する前記単位時間の占める割合を示す音声率を算出し、前記音声率が第２の閾値以下の場合に、前記音声区間情報は誤検出であると検出することを特徴とする付記１に記載の音声誤判定判別装置。
（付記３）
前記到来率算出部は、
前記複数の音声信号の内の２つの音声信号からそれぞれ抽出した前記単位時間毎の信号をそれぞれ変換して２つの周波数軸上の音声信号を生成し、前記２つの周波数軸上の音声信号の前記周波数毎の位相差を算出し、
前記所定方向に基づき前記周波数毎の前記位相差の許容範囲を設定し、
前記位相差と前記許容範囲とに基づき前記音声到来率を算出することを特徴とする付記１または付記２に記載の音声誤検出判別装置。
（付記４）
前記到来率算出部は、
前記音声信号の定常雑音モデルを推定し、
前記２つの周波数軸上の音声信号に前記定常雑音モデルを適用した場合の信号対雑音比が第３の閾値以上である場合に、前記音声到来率を算出することを特徴とする付記３に記載の音声誤検出判別装置。
（付記５）
前記誤り検出部は、
複数の前記単位時間毎の前記音声到来率を平均した平滑化音声到来率を算出し、
前記認識結果と前記平滑化音声到来率とに基づき、前記音声区間が誤検出でないか否かを検出することを特徴とする付記１から付記４のいずれかに記載の音声誤検出判別装置。
（付記６）
前記誤り検出部は、
前記音声区間における第１の閾値以上の音声到来率を有する前記単位時間が所定時間以上続く場合に、前記音声区間情報は誤検出ではないと判定することを特徴とする付記１から付記４のいずれかに記載の音声誤検出判別装置。
（付記７）
前記認識結果取得部は、さらに、前記認識結果の確からしさを示す認識スコアを取得し、
前記誤り検出部は、
前記音声率に前記認識スコアを乗じた値を音声率として算出し、前記音声率が第２の閾値以下の場合に、前記音声区間は誤検出であると検出することを特徴とする付記２から６に記載の音声誤検出判別装置。
（付記８）
前記誤り検出部は、
前記音声率に前記音声区間の平均信号対雑音比を乗じた値を音声率として算出し、前記音声率が第２の閾値以下の場合に、前記音声区間情報は誤検出であると検出することを特徴とする付記２から付記７に記載の音声誤検出判別装置。
（付記９）
前記第２の閾値は、前記音声区間が長くなる程小さくなるように設定することを特徴とする付記２から付記８のいずれかに記載の音声誤検出判別装置。
（付記１０）
前記第２の閾値は、前記音声区間の雑音レベルが大きくなる程小さくなるように設定することを特徴とする付記２から付記８のいずれかに記載の音声誤検出判別装置。
（付記１１）
前記認識結果取得部は、前記認識結果として前記音声認識の結果の文字列をさらに取得し、
前記第２の閾値は、前記文字列における音素数が多くなる程小さくなるように設定することを特徴とする付記２から付記８のいずれかに記載の音声誤検出判別装置。
（付記１２）
前記到来率算出部は、
前記複数の音声信号の内の２つの前記音声信号の相関関数と、前記所定方向に基づく位相差を算出し、前記相関関数と前記位相差とに基づき前記音声到来率を算出することを特徴とする付記１または付記２に記載の音声誤検出判別装置。
（付記１３）
付記１から付記１５のいずれかに記載の音声誤検出判別装置と、
音声認識装置であって、
前記複数の音声信号の内の１つの音声信号に基づき音声区間を検出する区間検出部と、
前記音声区間と検出された区間の音声信号により音声認識を行い、文字列を出力する認識部と、
を有する音声認識装置と、
を備えたことを特徴とする音声誤検出判別システム。
（付記１４）
所定方向の音源からの音声を含む周囲音を複数のマイクロフォンによりそれぞれ収音した複数の音声信号を取得する入力信号取得工程と、
前記複数の音声信号のうち少なくとも一方の音声信号に基づく音声認識を行った結果検出された、前記音声信号の音声区間を示す音声区間情報を含む認識結果を取得する認識結果取得工程と、
それぞれの前記複数の音声信号の単位時間毎の信号と前記所定方向とに基づき、前記単位時間における前記所定方向からの音声が前記周囲音に占める割合を示す音声到来率を算出する到来率算出工程と、
前記認識結果と前記音声到来率とに基づき、前記音声区間情報が誤検出でないか否かを検出する誤検出判別工程と、
を有することを特徴とする音声誤検出判別方法。
（付記１５）
所定方向の音源からの音声を含む周囲音を複数のマイクロフォンによりそれぞれ収音した複数の音声信号を取得し、
前記複数の音声信号のうち少なくとも一方の音声信号に基づく音声認識を行った結果検出された、前記音声信号の音声区間を示す音声区間情報を含む認識結果を取得し、
それぞれの前記複数の音声信号の単位時間毎の信号と前記所定方向とに基づき、前記単位時間における前記所定方向からの音声が前記周囲音に占める割合を示す音声到来率を算出し、
前記認識結果と前記音声到来率とに基づき、前記音声区間情報が誤検出でないか否かを検出、
する処理をコンピュータに実行させるためのプログラム。

１音声誤検出判別システム
３誤検出判別装置
５音声認識装置
７記録部
９制御部
１１入力信号取得部
１３認識結果取得部
１５誤検出判定部
１７システムバス
１９マイクアレイ
２１認識結果表示装置
３１到来率算出部
３３誤り検出部
５１区間検出部
５２認識部
５３音響モデル
５５言語辞書

Claims

所定方向の音源からの音声を含む周囲音を複数のマイクロフォンによりそれぞれ収音した複数の音声信号を取得する入力信号取得部と、
前記複数の音声信号のうち少なくとも一方の音声信号に基づく音声認識を行った結果検出された、前記音声信号の音声区間を示す音声区間情報を含む認識結果を取得する認識結果取得部と、
それぞれの前記複数の音声信号の単位時間毎の信号と前記所定方向とに基づき、前記単位時間における前記所定方向からの音声が前記周囲音に占める割合を示す音声到来率を算出する到来率算出部と、
前記認識結果と前記音声到来率とに基づき、前記音声区間情報が誤検出でないか否かを検出する誤り検出部と、
を有することを特徴とする音声誤検出判別装置。
前記誤り検出部は、
前記音声区間における第１の閾値以上の音声到来率を有する前記単位時間の占める割合を示す音声率を算出し、前記音声率が第２の閾値以下の場合に、前記音声区間情報は誤検出であると検出することを特徴とする請求項１に記載の音声誤判定判別装置。
前記到来率算出部は、
前記複数の音声信号の内の２つの音声信号からそれぞれ抽出した前記単位時間毎の信号をそれぞれ変換して２つの周波数軸上の音声信号を生成し、前記２つの周波数軸上の音声信号の前記周波数毎の位相差を算出し、
前記所定方向に基づき前記周波数毎の前記位相差の許容範囲を設定し、
前記位相差と前記許容範囲とに基づき前記音声到来率を算出することを特徴とする請求項１または請求項２に記載の音声誤検出判別装置。
前記到来率算出部は、
前記音声信号の定常雑音モデルを推定し、
前記２つの周波数軸上の音声信号に前記定常雑音モデルを適用した場合の信号対雑音比が第３の閾値以上である場合に、前記音声到来率を算出することを特徴とする請求項３に記載の音声誤検出判別装置。
前記誤り検出部は、
複数の前記単位時間毎の前記音声到来率を平均した平滑化音声到来率を算出し、
前記認識結果と前記平滑化音声到来率とに基づき、前記音声区間が誤検出でないか否かを検出することを特徴とする請求項１から請求項４のいずれか一項に記載の音声誤検出判別装置。
前記誤り検出部は、
前記音声区間における第１の閾値以上の音声到来率を有する前記単位時間が所定時間以上続く場合に、前記音声区間情報は誤検出ではないと判定することを特徴とする請求項１から請求項４のいずれか一項に記載の音声誤検出判別装置。
前記認識結果取得部は、さらに、前記認識結果の確からしさを示す認識スコアを取得し、
前記誤り検出部は、
前記音声率に前記認識スコアを乗じた値を音声率として算出し、前記音声率が第２の閾値以下の場合に、前記音声区間は誤検出であると検出することを特徴とする請求項２から６に記載の音声誤検出判別装置。
前記第２の閾値は、前記音声区間が長くなる程小さくなるように設定することを特徴とする請求項２から請求項７のいずれか一項に記載の音声誤検出判別装置。
前記到来率算出部は、
前記複数の音声信号の内の２つの前記音声信号の相関関数と、前記所定方向に基づく位相差を算出し、前記相関関数と前記位相差とに基づき前記音声到来率を算出することを特徴とする請求項１または請求項２に記載の音声誤検出判別装置。
請求項１から請求項１２のいずれか一項に記載の音声誤検出判別装置と、
音声認識装置であって、
前記複数の音声信号の内の１つの音声信号に基づき音声区間を検出する区間検出部と、
前記音声区間と検出された区間の音声信号により音声認識を行い、文字列を出力する認識部と、
を有する音声認識装置と、
を備えたことを特徴とする音声誤検出判別システム。
所定方向の音源からの音声を含む周囲音を複数のマイクロフォンによりそれぞれ収音した複数の音声信号を取得する入力信号取得工程と、
前記複数の音声信号のうち少なくとも一方の音声信号に基づく音声認識を行った結果検出された、前記音声信号の音声区間を示す音声区間情報を含む認識結果を取得する認識結果取得工程と、
それぞれの前記複数の音声信号の単位時間毎の信号と前記所定方向とに基づき、前記単位時間における前記所定方向からの音声が前記周囲音に占める割合を示す音声到来率を算出する到来率算出工程と、
前記認識結果と前記音声到来率とに基づき、前記音声区間情報が誤検出でないか否かを検出する誤検出判別工程と、
を有することを特徴とする音声誤検出判別方法。
所定方向の音源からの音声を含む周囲音を複数のマイクロフォンによりそれぞれ収音した複数の音声信号を取得し、
前記複数の音声信号のうち少なくとも一方の音声信号に基づく音声認識を行った結果検出された、前記音声信号の音声区間を示す音声区間情報を含む認識結果を取得し、
それぞれの前記複数の音声信号の単位時間毎の信号と前記所定方向とに基づき、前記単位時間における前記所定方向からの音声が前記周囲音に占める割合を示す音声到来率を算出し、
前記認識結果と前記音声到来率とに基づき、前記音声区間情報が誤検出でないか否かを検出する処理をコンピュータに実行させるためのプログラム。