JP6350536B2

JP6350536B2 - 音声検出装置、音声検出方法及びプログラム

Info

Publication number: JP6350536B2
Application number: JP2015543725A
Authority: JP
Inventors: 真寺尾; 剛範辻川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2013-10-22
Filing date: 2014-05-08
Publication date: 2018-07-04
Anticipated expiration: 2034-05-08
Also published as: US20160275968A1; WO2015059947A1; JPWO2015059947A1

Description

本発明は、音声検出装置、音声検出方法及びプログラムに関する。

音声区間検出技術とは、音響信号の中から音声（人の声）が存在する時間区間を検出する技術である。音声区間検出は、様々な音響信号処理において重要な役割を担っている。例えば、音声認識では、検出した音声区間のみを認識対象とすることによって、処理量を低減しつつ湧き出し誤りを抑制して認識できる。耐雑音処理では、音声が検出されなかった非音声区間から雑音成分を推定することによって、音声区間の音質を向上できる。音声符号化では、音声区間のみを符号化することによって、効率的に信号を圧縮できる。

音声区間検出技術は音声を検出する技術であるが、たとえ音声であっても目的外の音声は雑音として扱い、検出の対象としないことが一般的である。例えば、携帯電話を介した会話内容を音声認識するために音声検出を用いる場合、検出すべき音声は携帯電話の使用者が発する音声である。携帯電話で送受信される音響信号に含まれる音声としては、携帯電話の使用者が発する音声以外にも、例えば、使用者の周囲にいる人々が会話している音声や、駅構内のアナウンス音声や、ＴＶが発する音声など様々な音声が考えられるが、これらは検出すべきではない音声である。以下では、検出の対象とすべき音声を「対象音声」と呼び、検出の対象とせずに雑音として扱う音声を「音声雑音」と呼ぶ。また、様々な雑音と無音とをあわせて「非音声」と呼ぶこともある。

下記非特許文献１には、雑音環境下での音声検出精度を向上するために、音響信号の振幅レベル、ゼロ交差数、スペクトル情報およびメルケプストラム係数を入力とした音声ＧＭＭと非音声ＧＭＭとの対数尤度比、の各特徴に基づいて計算される４つのスコアの重み付き和と所定の閾値とを比較することで、音響信号の各フレームが音声か非音声かを判定する手法が提案されている。

特許第４２８２２２７号公報

Yusuke Kida and Tatsuya Kawahara, "Voice Activity Detection based on Optimally Weighted Combination of Multiple Features," Proc. INTERSPEECH 2005, pp.2621-2624, 2005.

しかしながら、非特許文献１に記載の上記提案手法では、非音声ＧＭＭとして学習されていない雑音を対象音声として誤って検出してしまう可能性がある。上記提案手法は、非音声ＧＭＭとして学習されていない雑音に対しては非音声ＧＭＭの尤度が小さくなるため、音声ＧＭＭと非音声ＧＭＭとの対数尤度比が大きくなり、当該雑音を音声と誤判定してしまうからである。

例えば、電車の走行音が存在する環境下での音声検出を考える。非音声ＧＭＭの学習用音響データに電車の走行音が含まれていれば、電車の走行音が存在する区間では非音声ＧＭＭの尤度が大きくなる。その結果、音声ＧＭＭと非音声ＧＭＭとの対数尤度比は小さくなり、非音声であると正しく判定できる。しかし、非音声ＧＭＭの学習用音響データに電車の走行音が含まれていなければ、電車の走行音が存在する区間の非音声ＧＭＭの尤度は小さくなる。その結果、音声ＧＭＭと非音声ＧＭＭとの対数尤度比は大きくなり、電車の走行音を音声であると誤検出してしまう。

本発明は、このような事情に鑑みてなされたものであり、非音声モデルとして学習されていない雑音を音声区間として誤検出することなく、対象音声区間を高精度に検出することができる音声検出技術を提供する。

本発明によれば、
音響信号を取得する音響信号取得手段と、
前記音響信号から得られる複数の第１のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段、
前記第１のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段、及び、
前記尤度の比を用いて、対象音声を含む区間である対象音声区間の候補を決定する区間決定手段、を含む音声区間検出手段と、
前記特徴量を入力として複数の音素各々の事後確率を計算する処理を実行する事後確率計算手段と、
前記第１のフレーム毎に、前記複数の音素の事後確率のエントロピー及び時間差分の少なくとも一方を計算する事後確率ベース特徴計算手段と、
前記事後確率のエントロピー及び時間差分の少なくとも一方を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定する棄却手段と、
を有する音声検出装置が提供される。

また、本発明によれば、
コンピュータが、
音響信号を取得する音響信号取得工程と、
前記音響信号から得られる複数の第１のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算工程、前記第１のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算工程、及び、前記尤度の比を用いて、対象音声を含む区間である対象音声区間の候補を決定する区間決定工程を含む音声区間検出工程と、
前記特徴量を入力として複数の音素各々の事後確率を計算する処理を実行する事後確率計算工程と、
前記第１のフレーム毎に、前記複数の音素の事後確率のエントロピー及び時間差分の少なくとも一方を計算する事後確率ベース特徴計算工程と、
前記事後確率のエントロピー及び時間差分の少なくとも一方を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定する棄却工程と、
を実行する音声検出方法が提供される。

また、本発明によれば、
コンピュータを、
音響信号を取得する音響信号取得手段、
前記音響信号から得られる複数の第１のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段、前記第１のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段、及び、前記尤度の比を用いて、対象音声を含む区間である対象音声区間の候補を決定する区間決定手段、を含む音声区間検出手段、
前記特徴量を入力として複数の音素各々の事後確率を計算する処理を実行する事後確率計算手段、
前記第１のフレーム毎に、前記複数の音素の事後確率のエントロピー及び時間差分の少なくとも一方を計算する事後確率ベース特徴計算手段、
前記事後確率のエントロピー及び時間差分の少なくとも一方を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定する棄却手段、
として機能させるためのプログラムが提供される。

本発明によれば、非音声モデルとして学習されていない雑音を音声区間として誤検出することなく、対象音声区間を高精度に検出することができる。

上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
第１実施形態における音声検出装置の構成例を概念的に示す図である。音響信号から複数のフレームを切り出す処理の具体例を示す図である。第１実施形態における音声検出装置の動作例を示すフローチャートである。尤度比による音声の検出成功例を示す図である。尤度比による非音声の検出成功例を示す図である。尤度比による非音声の検出失敗例を示す図である。第２実施形態における音声検出装置の構成例を概念的に示す図である。第２実施形態における音声検出装置の動作例を示すフローチャートである。第３実施形態における音声検出装置の構成例を概念的に示す図である。第３実施形態における区間決定部の処理の具体例を示す図である。第３実施形態における音声検出装置の動作例を示すフローチャートである。第３実施形態における音声検出装置の効果を説明する図である。第４実施形態における音声検出装置の構成例を概念的に示す図である。第４実施形態における第１および第２の区間整形部の具体例を示す図である。第４実施形態における音声検出装置の動作例を示すフローチャートである。２種類の音声判定結果をそれぞれ区間整形してから統合する具体例を示す図である。２種類の音声判定結果を統合してから区間整形する具体例を示す図である。駅アナウンス雑音下における音量と尤度比の時系列の具体例を示す図である。ドア開閉雑音下における音量と尤度比の時系列の具体例を示す図である。第５実施形態における音声検出装置の構成例を概念的に示す図である。本実施形態の音声検出装置のハードウエア構成の一例を概念的に示す図である。

まず、本実施形態の音声検出装置のハードウエア構成の一例について説明する。

本実施形態の音声検出装置は、可搬型の装置であってもよいし、据置型の装置であってもよい。本実施形態の音声検出装置が備える各部は、任意のコンピュータのＣＰＵ（Central Processing Unit）、メモリ、メモリにロードされたプログラム（あらかじめ装置を出荷する段階からメモリ内に格納されているプログラムのほか、ＣＤ（Compact Disc）等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムも含む）、そのプログラムを格納するハードディスク等の記憶ユニット、ネットワーク接続用インタフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

図２１は、本実施形態の音声検出装置のハードウエア構成の一例を概念的に示す図である。図示するように、本実施形態の音声検出装置は、例えば、バス８Ａで相互に接続されるＣＰＵ１Ａ、ＲＡＭ（Random Access Memory）２Ａ、ＲＯＭ（Read Only Memory）３Ａ、表示制御部４Ａ、ディスプレイ５Ａ、操作受付部６Ａ、操作部７Ａ等を有する。なお、図示しないが、その他、外部機器と有線で接続される入出力Ｉ／Ｆ、外部機器と有線及び／又は無線で通信するための通信部、マイク、スピーカ、カメラ、補助記憶装置等の他の要素を備えてもよい。

ＣＰＵ１Ａは各要素とともに電子機器のコンピュータ全体を制御する。ＲＯＭ３Ａは、コンピュータを動作させるためのプログラムや各種アプリケーションプログラム、それらのプログラムが動作する際に使用する各種設定データなどを記憶する領域を含む。ＲＡＭ２Ａは、プログラムが動作するための作業領域など一時的にデータを記憶する領域を含む。

ディスプレイ５Ａは、表示装置（ＬＥＤ（Light Emitting Diode）表示器、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイ等）を有する。なお、ディスプレイ５Ａは、タッチパッドと一体になったタッチパネルディスプレイであってもよい。表示制御部４Ａは、ＶＲＡＭ（Video RAM）に記憶されたデータを読み出し、読み出したデータに対して所定の処理を施した後、ディスプレイ５Ａに送って各種画面表示を行う。操作受付部６Ａは、操作部７Ａを介して各種操作を受付ける。操作部７Ａは、操作キー、操作ボタン、スイッチ、ジョグダイヤル、タッチパネルディスプレイなどである。

以下、本実施の形態について説明する。なお、以下の実施形態の説明において利用する機能ブロック図（図１、７、９及び１３）は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。これらの図においては、各装置は１つの機器により実現されるよう記載されているが、その実現手段はこれに限定されない。すなわち、物理的に分かれた構成であっても、論理的に分かれた構成であっても構わない。

［第１実施形態］
［処理構成］
図１は、第１実施形態における音声検出装置１０の処理構成例を概念的に示す図である。第１実施形態における音声検出装置１０は、音響信号取得部２１、音声区間検出部２０、音声モデル２３１、非音声モデル２３２、事後確率計算部２５、事後確率ベース特徴計算部２６、棄却部２７等を有する。音声区間検出部２０は、スペクトル形状特徴計算部２２、尤度比計算部２３、区間決定部２４等を有する。事後確率ベース特徴計算部２６は、エントロピー計算部２６１、及び、時間差分計算部２６２を有する。棄却部２７は、図示するように分類器２８を有してもよい。

音響信号取得部２１は、処理の対象となる音響信号を取得し、取得した音響信号から複数のフレームを切り出す。音響信号は音声検出装置１０に付属するマイクからリアルタイムに取得しても良いし、事前に録音した音響信号を記録媒体や音声検出装置１０が備える補助記憶装置等から取得しても良い。また、音声検出処理を実行するコンピュータとは異なる他のコンピュータからネットワークを介して音響信号を取得しても良い。

音響信号は、時系列なデータである。以下では、音響信号の中の一部のかたまりを「区間」と呼ぶ。各区間は、区間開始時点と区間終了時点とで特定・表現される。音響信号から切り出された（得られた）フレーム各々の識別情報（例：フレームの通番等）で区間開始時点（開始フレーム）及び区間終了時点（終了フレーム）を表現してもよいし、音響信号の開始点からの経過時間で区間開始時点及び区間終了時点を表現してもよいし、その他の手法で表現してもよい。

時系列な音響信号は、検知対象の音声（以下、「対象音声」）を含む区間（以下、「対象音声区間」）と、対象音声を含まない区間（以下、「非対象音声区間」）とに分けられる。時系列順に音響信号を観察すると、対象音声区間と非対象音声区間とが交互に現れる。本実施形態の音声検出装置１０は、音響信号の中の対象音声区間を特定することを目的とする。

図２は、音響信号から複数のフレームを切り出す処理の具体例を示す図である。フレームとは、音響信号における短い時間区間のことである。所定のフレーム長の区間を所定のフレームシフト長ずつずらしていくことで、音響信号から複数のフレームを切り出す。通常、隣り合うフレーム同士は重なり合うように切り出される。例えば、フレーム長として３０ｍｓ、フレームシフト長として１０ｍｓなどを用いれば良い。

スペクトル形状特徴計算部２２は、音響信号取得部２１が切り出した複数のフレーム（第１のフレーム）各々に対して、第１のフレームの信号の周波数スペクトルの形状を表す特徴量を計算する処理を実行する。周波数スペクトルの形状を表す特徴量としては、音声認識の音響モデルでよく用いられるメル周波数ケプストラム係数（ＭＦＣＣ）、線形予測係数（ＬＰＣ係数）、知覚線形予測係数（ＰＬＰ係数）、および、それらの時間差分（Δ、ΔΔ）などの周知の特徴量を用いれば良い。これらの特徴量は、音声と非音声との分類にも有効であることが知られている。

尤度比計算部２３は、第１のフレーム毎に、スペクトル形状特徴計算部２２が計算した特徴量を入力として非音声モデル２３２の尤度に対する音声モデル２３１の尤度の比（以下、単に「尤度比」、「音声対非音声の尤度比」と言う場合がある）Λを計算する。尤度比Λは、数１に示す式で計算する。

ここで、ｘｔは入力特徴量、Θｓは音声モデルのパラメータ、Θｎは非音声モデルのパラメータである。尤度比は、対数尤度比として計算しても良い。

音声モデル２３１と非音声モデル２３２は、音声区間と非音声区間がラベル付けされた学習用音響信号を用いて事前に学習しておく。このとき、学習用音響信号の非音声区間に、音声検出装置１０を適用する環境で想定される雑音を多く含めておくことが望ましい。モデルとしては、例えば、混合ガウスモデル（ＧＭＭ）を用い、モデルパラメータは最尤推定により学習すれば良い。

区間決定部２４は、尤度比計算部２３が計算した尤度比を用いて、対象音声を含む対象音声区間の候補を検出する。例えば、区間決定部２４は、第１のフレーム毎に、尤度比とあらかじめ定めた所定の閾値とを比較する。そして、区間決定部２４は、尤度比が閾値以上である第１のフレームを、対象音声を含む第１のフレーム（以下、「第１の対象フレーム」）の候補と判定し、尤度比が閾値未満である第１のフレームを、対象音声を含まない第１のフレーム（以下、「第１の非対象フレーム」）の候補と判定する。

そして、区間決定部２４は、この判定結果に基づき、第１の対象フレームに対応する区間を、「対象音声区間の候補」に決定する。対象音声区間の候補は、第１の対象フレームの識別情報で特定・表現されてもよい。例えば、第１の対象フレームが、フレーム番号６〜９、１２〜１９、・・・である場合、対象音声区間の候補は、フレーム番号６〜９、１２〜１９、・・・と表現される。

その他、対象音声区間の候補は、音響信号の開始点からの経過時間を用いて特定・表現されてもよい。この場合、第１の対象フレームに対応する区間を、音響信号の開始点からの経過時間で表現する必要がある。以下、各フレームに対応する区間を、音響信号の開始点からの経過時間で表現する例について説明する。

各フレームに対応する区間は、各フレームが音響信号から切り出した区間の少なくとも一部となる。図２を用いて説明したように、複数のフレーム（第１のフレーム）は、前後するフレームと重複部分を有するように切り出される場合がある。このような場合には、各フレームに対応する区間は、各フレームで切り出された区間の一部となる。各フレームで切り出された区間のいずれを対応する区間とするかは設計的事項である。例えば、フレーム長：３０ｍｓ、フレームシフト長：１０ｍｓの場合、音響信号の中の０（開始点）〜３０ｍｓ部分を切り出したフレーム、１０ｍｓ〜４０ｍｓ部分を切り出したフレーム、２０ｍｓ〜５０ｍｓ部分を切り出したフレーム等が存在することとなる。この時、例えば、０（開始点）〜３０ｍｓ部分を切り出したフレームに対応する区間は音響信号の中の０〜１０ｍｓとし、１０ｍｓ〜４０ｍｓ部分を切り出したフレームに対応する区間は音響信号の中の１０ｍｓ〜２０ｍｓとし、２０ｍｓ〜５０ｍｓ部分を切り出したフレームに対応する区間は音響信号の中の２０ｍｓ〜３０ｍｓとしてもよい。このようにすれば、あるフレームに対応する区間は、他のフレームに対応する区間と重なり合わなくなる。なお、複数のフレーム（第１のフレーム）が前後するフレームと重複しないように切り出された場合、各フレームに対応する区間は、各フレームで切り出された部分の全部とすることができる。

事後確率計算部２５は、スペクトル形状特徴計算部２２が計算した特徴量を入力として、複数の第１のフレーム各々に対して、音声モデル２３１を用いて複数の音素の事後確率ｐ（ｑｋ|ｘｔ）を計算する。ここで、ｘｔは時刻ｔの特徴量、ｑｋは音素ｋを表す。なお、図１では尤度比計算部２３が用いる音声モデルと事後確率計算部２５が用いる音声モデルとが共有されているが、尤度比計算部２３と事後確率計算部２５はそれぞれ異なる音声モデルを用いても良い。また、スペクトル形状特徴計算部２２は、尤度比計算部２３が用いる特徴量と、事後確率計算部２５が用いる特徴量とで異なる特徴量を計算しても良い。

事後確率計算部２５が用いる音声モデルとしては、例えば、音素ごとに学習した混合ガウスモデル（音素ＧＭＭ）を用いることができる。音素ＧＭＭは、例えば、/ａ/、/ｉ/、 /ｕ/、/ｅ/、/ｏ/などの音素ラベルを付与した学習用音声データを用いて学習すれば良い。時刻ｔにおける音素ｑｋの事後確率ｐ（ｑｋ|ｘｔ）は、各音素の事前確率ｐ（ｑｋ）が音素ｋによらずに等しいと仮定することで、音素ＧＭＭの尤度ｐ（ｘｔ|ｑｋ）を用いて数２により計算できる。

音素事後確率の計算方法はＧＭＭを用いる方法に限るものではない。例えば、ニューラルネットワークを用いて、音素事後確率を直接計算するモデルを学習しても良い。

また、学習用音声データに対して音素ラベルを付与することなしに、音素に相当する複数のモデルを学習データから自動的に学習しても良い。例えば、人の声のみを含む学習用音声データを用いて１つのＧＭＭを学習し、学習された各ガウス分布の１つ１つを疑似的に音素のモデルと考えても良い。例えば、混合数３２のＧＭＭを学習すれば、学習された３２の単一ガウス分布は疑似的に複数の音素の特徴を表すモデルである、と考えることができる。この場合の「音素」は人間が音韻論的に定めた音素とは異なるが、本実施形態における「音素」とは、例えば上記で説明したような方法によって学習データから自動的に学習された音素であっても良い。

事後確率ベース特徴計算部２６は、エントロピー計算部２６１、及び、時間差分計算部２６２から構成される。エントロピー計算部２６１は、第１のフレーム各々に対して、事後確率計算部２５が計算した複数の音素の事後確率ｐ（ｑｋ|ｘｔ）を用いて、数３により時刻tのエントロピーＥ（ｔ）を計算する処理を実行する。

音素事後確率のエントロピーは、事後確率が特定の音素に集中しているほど小さな値となる。音素の列で構成されている音声区間は、事後確率が特定の音素に集中しているため、音素事後確率のエントロピーは小さくなる。一方で、非音声区間は、事後確率が特定の音素に集中することが少ないため、音素事後確率のエントロピーは大きくなる。

時間差分計算部２６２は、第１のフレーム各々に対して、事後確率計算部２５が計算した複数の音素の事後確率ｐ（ｑｋ|ｘｔ）を用いて、数４により時刻ｔの時間差分Ｄ（ｔ）を計算する。

音素事後確率の時間差分の計算方法は数４に限られるものではない。例えば、それぞれの音素事後確率の時間差分の二乗和をとる代わりに、時間差分の絶対値の和をとっても良い。

音素事後確率の時間差分は、事後確率の分布の時間変化が大きいほど大きな値となる。音声区間は、数十ｍｓ程度の短時間で次々と音素が変化していくため、音素事後確率の時間差分は大きくなる。一方で、非音声区間は、音素という観点でみたときに短時間で特徴が大きく変化することは少ないため、音素事後確率の時間差分は小さくなる。

棄却部２７は、事後確率ベース特徴計算部２６が計算した、音素事後確率のエントロピーと時間差分の少なくとも一方を用いて、区間決定部２４が検出した対象音声区間の候補を最終的な検出区間（対象音声区間）として出力するか、或いは、棄却（対象音声区間でない区間に変更）するかを判定する。すなわち、棄却部２７は、事後確率のエントロピー及び時間差分の少なくとも一方を用いて、対象音声区間の候補の中から対象音声を含まない区間に変更する区間を特定する。

前述したように、音声区間では音素事後確率のエントロピーは小さく時間差分は大きいという特徴があり、非音声区間ではその逆の特徴があるため、エントロピーと時間差分の一方、或いは、両方を用いることで、区間決定部２４が決定した対象音声区間の候補が音声であるか非音声であるかを分類することができる。

音響信号の中には、１つまたは互いに分離した複数の対象音声区間の候補が存在し得る（例：１つ目の対象音声区間の候補はフレーム番号６〜９、２つ目の対象音声区間の候補はフレーム番号１２〜１９、・・・）。棄却部２７は、音素事後確率のエントロピーについて、対象音声区間の候補毎に平均することで、平均化エントロピーを計算してもよい。同様に、音素事後確率の時間差分について、対象音声区間の候補毎に平均することで、平均化時間差分を計算してもよい。そして、平均化エントロピーと平均化時間差分を用いて、対象音声区間の候補各々が音声であるか非音声であるかを分類してもよい。すなわち、棄却部２７は、音響信号の中の互いに分離した複数の対象音声区間の候補各々に対して、事後確率のエントロピー及び時間差分の少なくとも一方の平均値を計算する処理を実行してもよい。そして、棄却部２７は、算出した平均値を用いて、複数の対象音声区間の候補各々を、対象音声を含まない区間とするか否か判定してもよい。

前述したように、音声区間では、音素事後確率のエントロピーが小さくなりやすいものの、中にはエントロピーが大きいフレームも存在する。１つの対象音声区間の候補全体に渡る複数フレームでエントロピーを平均化することで、対象音声区間の候補各々が音声であるか非音声であるかをさらに高精度に判定できる。同様に、音声区間では、音素事後確率の時間差分が大きくなりやすいものの、中には時間差分が小さいフレームも存在する。１つの対象音声区間の候補全体に渡る複数フレームで時間差分を平均化することで、当該対象音声区間の候補各々が音声であるか非音声であるかをさらに高精度に判定できる。本実施形態は、フレーム単位で判断するのでなく、対象音声区間の候補単位で音声であるか非音声であるかを判断することで、精度を向上させている。

棄却部２７による対象音声区間の候補各々の分類は、例えば、平均化エントロピーが所定の閾値よりも大きいこと、及び、平均化時間差分が別の所定の閾値よりも小さいこと、の少なくとも一方または両方を満たすときに、当該対象音声区間を非音声であると分類（対象音声を含まない区間に変更）すれば良い。

対象音声区間の候補の別の分類方法としては、例えば平均化エントロピー及び平均化時間差分の少なくとも一方を特徴とした分類器２８を用いて、対象音声区間の候補が音声を含むか否かを分類することもできる。分類器２８としては、ＧＭＭ、ロジスティック回帰、サポートベクトルマシンなどを用いれば良い。分類器２８の学習データとしては、音声であるか非音声であるかがラベル付けされた複数の音響信号区間から構成される学習用音響データを用いれば良い。

また、より望ましくは、対象音声を含む様々な音響信号から構成される第１の学習用音響データに対して音声区間検出部２０を適用し、区間決定部２４により検出された互いに分離した複数の対象音声区間の候補に対して音声であるか非音声であるかがラベル付けされたデータを第２の学習用音響データとし、第２の学習用音響データを用いて分類器２８を学習すると良い。このように分類器２８の学習データを用意することで、音声区間検出部２０によって音声区間と判定される音響信号が本当に音声であるか、或いは、非音声であるかを分類することに特化した分類器を学習できるため、棄却部２７はさらに高精度な判定が可能となる。

第１実施形態の音声検出装置１０は、区間決定部２４が出力した対象音声区間の候補が音声であるか非音声であるかを棄却部２７が判定し、音声であると判定された場合は、その対象音声区間の候補を対象音声区間として出力する。一方、対象音声区間の候補が非音声であると判定された場合は、その対象音声区間の候補は対象音声区間でない区間に変更され、対象音声区間として出力されない。

［動作例］
以下、第１実施形態における音声検出方法について図３を用いて説明する。図３は、第１実施形態における音声検出装置１０の動作例を示すフローチャートである。

音声検出装置１０は、処理の対象となる音響信号を取得し、音響信号から複数のフレームを切り出す（Ｓ３１）。音声検出装置１０は、機器に付属するマイクからリアルタイムに取得したり、あらかじめ記憶装置媒体や音声検出装置１０に記録された音響データを取得したり、ネットワークを介して他のコンピュータから取得したりすることができる。

次に、音声検出装置１０は、Ｓ３１で切り出された各フレームに対して、当該フレームの信号の周波数スペクトル形状を表す特徴量を計算する（Ｓ３２）。

次に、音声検出装置１０は、Ｓ３２で計算された特徴量を入力として、各フレームに対して、音声モデル２３１と非音声モデル２３２との尤度比を計算する（Ｓ３３）。音声モデル２３１と非音声モデル２３２とは、学習用音響信号を用いた学習によって、あらかじめ作成しておく。

次に、音声検出装置１０は、Ｓ３３で計算された尤度比を用いて、音響信号から対象音声区間の候補を検出する（Ｓ３４）。

次に、音声検出装置１０は、Ｓ３２で計算された特徴量を入力として、各フレームに対して、音声モデル２３１を用いて、複数の音素の事後確率を計算する（Ｓ３５）。音声モデル２３１は、学習用音響信号を用いた学習によって、あらかじめ作成しておく。

次に、音声検出装置１０は、各フレームに対して、Ｓ３５で計算された音素事後確率を用いて、音素事後確率のエントロピーと時間差分の少なくとも一方を計算する（Ｓ３６）。

次に、音声検出装置１０は、Ｓ３４で検出した対象音声区間の候補に対して、Ｓ３６で計算された音素事後確率のエントロピーと時間差分の少なくとも一方の平均値を計算する処理を実行する（Ｓ３７）。

次に、音声検出装置１０は、Ｓ３７で計算された平均化エントロピーと平均化時間差分の少なくとも一方を用いて、Ｓ３４で検出した対象音声区間の候補が音声であるか非音声であるかを分類する。音声であると分類した対象音声区間の候補は対象音声区間であると判定し、非音声であると分類した対象音声区間の候補は対象音声区間でないと判定する（Ｓ３８）。

次に、音声検出装置１０は、Ｓ３８の判定結果を示す出力データを生成する（Ｓ３９）。すなわち、音響信号の中のＳ３８で対象音声区間であると判定した区間、及び、それ以外の区間（非対象音声区間）を識別する情報を出力する。各区間は、例えばフレームを識別する情報で特定・表現されてもよいし、音響信号の開始点からの経過時間で特定・表現されてもよい。この出力データは、音声検出結果を用いる他のアプリケーション、例えば、音声認識、耐雑音処理、符号化処理などに出力するためのデータであっても良いし、ディスプレイなどに表示させるためのデータであっても良い。

［第１実施形態の作用及び効果］
上述したように第１実施形態では、まず初めに尤度比に基づいて音声区間を仮に検出し、次に音素事後確率のエントロピー及び時間差分の少なくとも一方を用いて、仮検出した区間が音声であるか非音声であるかを判定する。従って、第１実施形態によれば、非音声モデルとして学習されていない雑音が音響信号内に存在する場合でも、そのような雑音を誤って対象音声として検出することなく、対象音声区間を高精度に検出することができる。以下では、その理由について詳細に説明する。

音声対非音声の尤度比を用いて音声区間を検出する手法の一般的な特徴として、雑音が非音声モデルとして学習されていない場合に音声検出精度が低下する、という問題がある。具体的には、非音声モデルとして学習されていない雑音区間を音声区間であると誤検出してしまう。

第１実施形態の音声検出装置１０では、音声対非音声の尤度比を用いて音声区間を検出するとともに、さらに、非音声モデルの知識を一切用いずに、音声が持つ性質のみを用いてある区間が音声であるか非音声であるかを判定するため、雑音の種類に非常に頑健な判定が可能となる。音声が持つ性質とは、前述した２つの特徴、すなわち、音声は音素の列で構成されていること、及び、音声区間では数十ｍｓ程度の短時間で次々と音素が変化していくこと、である。ある音響信号区間がこれら２つの特徴を備えているかどうかを音素事後確率のエントロピーと時間差分により判定することで、雑音の種類に依存しない判定が可能となる。

以下、図４乃至図６を用いて、音素事後確率のエントロピーが音声と非音声との判別に有効であることを説明する。図４は、音声区間における音声モデル（図では音素/ａ/、/ｉ/、 /ｕ/、/ｅ/、/ｏ/、・・・の音素モデル）と非音声モデル（図ではＮｏｉｓｅモデル）の尤度の具体例を表す図である。このように、音声区間では、音声モデルの尤度が大きくなるため（図では音素/ｉ/の尤度が大きい）、音声対非音声の尤度比が大きくなる。従って、尤度比によって正しく音声であると判定できる。

図５は、非音声モデルとして学習されている雑音を含む雑音区間における音声モデルと非音声モデルの尤度の具体例を表す図である。このように、学習されている雑音の区間では、非音声モデルの尤度が大きくなるため、音声対非音声の尤度比が小さくなる。従って、尤度比によって正しく非音声であると判定できる。

図６は、非音声モデルとして学習されていない雑音を含む雑音区間における音声モデルと非音声モデルの尤度の具体例を表す図である。このように、学習されていない雑音の区間では、非音声モデルの尤度が小さくなるため、音声対非音声の尤度比は十分小さくならず、場合によってはかなり大きな値となる。従って、尤度比では学習されていない雑音の区間を誤って音声であると判定してしまう。

しかしながら、図５及び図６で示したように、雑音区間においては、特定の音素の事後確率が突出して大きくなることはなく、事後確率が複数の音素に分散する。すなわち、音素事後確率のエントロピーは大きくなる。これに対し、図４で示したように、音声区間においては、特定の音素の事後確率が突出して大きくなる。すなわち、音素事後確率のエントロピーは小さくなる。この特徴を利用することで、音声と非音声を識別することができる。

本発明者らは、音素事後確率のエントロピーと時間差分によって音声と非音声とを正しく分類するには少なくとも数百ｍｓ程度の時間長でエントロピーと時間差分とを平均化する必要があることを見出した。そして、そのような性質を最大限生かすために、まず初めに音声区間検出部２０によって尤度比を用いて対象音声区間の候補を決定し、次に、音響信号の中に存在する互いに分離した複数の対象音声区間の候補毎に、音素事後確率のエントロピーと時間差分の少なくとも一方を用いて対象音声区間とするか否かを判定する処理構成とした。そのため、第１実施形態の音声検出装置１０は様々な雑音が存在する環境下でも高精度に対象音声の区間を検出できる。

［第１実施形態の変形例１］
時間差分計算部２６２は、音素事後確率の時間差分を数５により計算しても良い。

ここで、ｎは時間差分をとるフレーム間隔であり、望ましくは音声における平均的な音素間隔に近い値とするのが良い。例えば、音素間隔が約１００ｍｓとし、フレームシフト長が１０ｍｓであるとすると、ｎ＝１０とすれば良い。本変形例によれば、音声区間における音素事後確率の時間差分がより大きな値となり、音声と非音声との判別精度が向上する。

［第１実施形態の変形例２］
リアルタイムに入力される音響信号を処理して音声区間を検出する場合、棄却部２７は、区間決定部２４が対象音声区間の候補の始端のみを確定している状態において、始端以降で入力された全フレーム区間を対象音声区間の候補として扱って、当該対象音声区間の候補が音声であるか非音声であるかを判定しても良い。そして、当該対象音声区間の候補が音声であると判定した場合に、当該対象音声区間の候補を始端のみが確定した音声検出結果として出力する。本変形例によれば、音声区間の誤検出を抑えつつ、例えば、音声認識のような音声区間の始端が検出されてから処理を開始する処理を、終端が確定するより前の早いタイミングで開始することができる。

本変形例においては、棄却部２７は、区間決定部２４が音声区間の始端を確定してからある程度の時間、例えば数百ｍｓ程度が経過してから、対象音声区間の候補が音声であるか非音声であるかの判定を始めることが望ましい。その理由は、音素事後確率のエントロピー及び時間差分による音声と非音声とを精度よく判定するためには、少なくとも数百ｍｓ程度の時間が必要となるためである。

［第１実施形態の変形例３］
事後確率計算部２５は、区間決定部２４が決定した対象音声区間の候補に対してのみ事後確率を計算する処理を実行してもよい。このとき、事後確率ベース特徴計算部２６は、対象音声区間の候補に対してのみ音素事後確率のエントロピーと時間差分の少なくとも一方を計算する。本変形例によれば、対象音声区間の候補に対してのみ、事後確率計算部２５、及び、事後確率ベース特徴計算部２６が動作するため、計算量を大きく削減できる。棄却部２７は、区間決定部２４が対象音声区間の候補であると判定した区間が音声であるか非音声であるかを判定するため、本変形例によれば、同じ検出結果を出力しつつ計算量を削減できる。

［第２実施形態］
以下、第２実施形態における音声検出装置１０について、第１実施形態と異なる内容を中心に説明する。以下の説明では、第１実施形態と同様の内容については適宜省略する。

［処理構成］
図７は、第２実施形態における音声検出装置１０の処理構成例を概念的に示す図である。第２実施形態における音声検出装置１０は、第１実施形態に加えて、音量計算部４１を更に有する。

音量計算部４１は、音響信号取得部２１が切り出した複数のフレーム（第２のフレーム）各々に対して、第２のフレームの信号の音量を計算する処理を実行する。音量としては、第２のフレームの信号の振幅やパワー、またはそれらの対数値などを用いれば良い。

或いは、第２のフレームにおける信号のレベルと推定雑音のレベルとの比を信号の音量としても良い。例えば、信号のパワーと推定雑音のパワーとの比を第２のフレームの音量としても良い。推定雑音レベルとの比を用いることで、マイクの入力レベル等の変化に頑健に音量を計算することができる。第２のフレームにおける雑音成分の推定には、例えば、特許文献１のような周知の技術を用いれば良い。

なお、音響信号取得部２１は、同じフレーム長および同じフレームシフト長で、音量計算部４１が処理する第２のフレームと、スペクトル形状特徴計算部２２が処理する第１のフレームとを切り出しても良いし、又は、フレーム長及びフレームシフト長の少なくとも一方において異なる値を用いて、第１のフレームと第２のフレームとを別々に切り出しても良い。例えば、第２のフレームはフレーム長１００ｍｓ、フレームシフト長２０ｍｓを用いて切り出し、第１のフレームはフレーム長３０ｍｓ、フレームシフト長１０ｍｓを用いて切り出すこともできる。このようにすることで、音量計算部４１とスペクトル形状特徴計算部２２のそれぞれに最適なフレーム長およびフレームシフト長を用いることができる。

区間決定部２４は、尤度比計算部２３が計算した尤度比と音量計算部４１が計算した音量とを用いて、対象音声区間の候補を検出する。以下、検出方法の一例を説明する。

まず、区間決定部２４は、第１のフレーム及び第２のフレームのペアを作成する。第１のフレーム及び第２のフレームのフレーム長及びフレームシフト長が同じである場合、区間決定部２４は、音響信号の同じ位置を切り出した第１のフレーム及び第２のフレーム同士をペアにする。第１のフレーム及び第２のフレームのフレーム長及びフレームシフト長の少なくとも一方が異なる場合、区間決定部２４は、第１の実施形態で説明した手法などを利用し、音響信号の開始点からの経過時間を用いて、第１のフレームに対応する区間及び第２のフレームに対応する区間を特定する。そして、経過時間が一致する第１のフレーム及び第２のフレーム同士をペアにする。なお、複数の経過時間において同じペアが現れる場合、それらは１つのペアとして扱うことができる。また、１つの第１のフレームが、異なる２つ以上の第２のフレームとペアになってもよい。同様に、１つの第２のフレームが、異なる２つ以上の第１のフレームとペアになってもよい。

ペア作成後、区間決定部２４は、ペアごとに以下の処理を実行する。例えば、第１のフレームにおける尤度比をｆＬ、第２のフレームにおける音量をｆＰとしたとき、数６によって両者の重み付き和としてスコアＳを計算する。そして、スコアＳが所定の閾値以上であるペアを、対象音声を含むペアと判定し、スコアＳが閾値未満であるペアを、対象音声を含むペアではないと判定（対象音声を含まないペアと判定）する。区間決定部２４は、対象音声を含むペアに対応する区間を対象音声区間の候補と判定し、対象音声を含まないペアに対応する区間を対象音声区間の候補でないと判定する。各ペアに対応する区間は、フレームの識別情報や、音響信号の開始点からの経過時間等を用いて特定・表現される。

ここで、ｗＬおよびｗＰは重みを表す。両重みは、開発データを用いて、例えば、音声と非音声の誤り最小化基準等によって学習しても良いし、経験的に定めても良い。

尤度比と音量とを用いて音声区間を検出する別の方法としては、尤度比と音量とを特徴とした分類器２８を用いて、各フレームが音声であるか非音声であるかを分類しても良い。分類器２８としては、ＧＭＭ、ロジスティック回帰、サポートベクトルマシンなどを用いれば良い。分類器２８の学習データとしては、音声であるか非音声であるかがラベル付けされた音響信号を用いれば良い。

［動作例］
以下、第２実施形態における音声検出方法について図８を用いて説明する。図８は、第２実施形態における音声検出装置１０の動作例を示すフローチャートである。図８では、図３と同じ工程については、図３と同じ符号を付している。前の実施形態で説明した工程についての説明は省略する。

Ｓ５１では、音声検出装置１０は、Ｓ３１で切り出された各フレームに対して、当該フレームの信号の音量を計算する。

Ｓ５２では、音声検出装置１０は、Ｓ３３で計算された尤度比と、Ｓ５１で計算された音量とを用いて、音響信号から対象音声区間の候補を検出する。

［第２実施形態の作用及び効果］
上述したように、第２実施形態では、音声対非音声の尤度比に加えて、音響信号の音量も用いて対象音声区間の候補の検出を行う。従って、第２実施形態によれば、人の声を含んだ音声雑音が存在する場合でもある程度正確に音声区間を決定できるとともに、非音声モデルとして学習されていない雑音が存在する場合でも、そのような雑音を誤って音声として検出することなく、対象音声区間をさらに高精度に検出することができる。

尤度比、音素事後確率のエントロピー、および、音素事後確率の時間差分は、いずれも音響信号の音量に関する情報を含まない。従って、第１実施形態の音声検出装置１０では音量が小さい音声雑音を誤って対象音声として検出してしまう場合がある。第２実施形態の音声検出装置１０は、さらに音量を用いて対象音声を検出するため、音声雑音を誤検出することなく、対象音声区間を高精度に検出することができる。

［第３実施形態］
以下、第３実施形態における音声検出装置１０について、第２実施形態と異なる内容を中心に説明する。以下の説明では、第２実施形態と同様の内容については適宜省略する。

［処理構成］
図９は、第３実施形態における音声検出装置１０の処理構成例を概念的に示す図である。第３実施形態における音声検出装置１０は、第２実施形態に加えて、第１の音声判定部６１および第２の音声判定部６２を更に有する。

第１の音声判定部６１は、第２のフレーム毎に、音量計算部４１が計算した音量とあらかじめ定めた所定の第１の閾値とを比較する。そして、第１の音声判定部６１は、音量が第１の閾値以上である第２のフレームを、対象音声を含む第２のフレーム（以下、「第２の対象フレーム」）であると判定し、音量が第１の閾値未満である第２のフレームを、対象音声を含まない第２のフレーム（以下、「第２の非対象フレーム」）であると判定する。第１の閾値は、処理対象の音響信号を用いて決定してもよい。例えば、処理対象の音響信号から切り出した複数の第２のフレーム各々の音量を算出し、算出結果を用いた所定の演算により算出した値（平均値、中間値、上位Ｘ％と下位（１００−Ｘ）％に分ける境界値等）を第１の閾値としてもよい。

第２の音声判定部６２は、第１のフレーム毎に、尤度比計算部２３が計算した尤度比とあらかじめ定めた所定の第２の閾値とを比較する。そして、第２の音声判定部６２は、尤度比が第２の閾値以上である第１のフレームを、対象音声を含む第１のフレーム（第１の対象フレーム）であると判定し、音量が第２の閾値未満である第１のフレームを、対象音声を含まない第１のフレーム（第１の非対象フレーム）であると判定する。

区間決定部２４は、音響信号の中の第１の対象フレームに対応する第１の対象区間、及び、第２の対象フレームに対応する第２の対象区間の両方に含まれる区間を、対象音声区間の候補と判定する。すなわち、区間決定部２４は、第１の音声判定部６１および第２の音声判定部６２の両方において対象音声を含むと判定された区間を、対象音声区間の候補であると判定する。

区間決定部２４は、第１の対象フレームに対応する区間及び第２の対象フレームに対応する区間を、互いに対比可能な表現（尺度）で特定する。そして、両方に含まれる対象音声区間を特定する。

例えば、第１のフレーム及び第２のフレームのフレーム長及びフレームシフト長が同じである場合、区間決定部２４は、フレームの識別情報を用いて、第１の対象区間及び第２の対象区間を特定してもよい。この場合、例えば、第１の対象区間は、フレーム番号６〜９、１２〜１９、・・・等と表現され、第２の対象区間は、フレーム番号５〜７、１１〜１９、・・・等と表現される。そして、区間決定部２４は、第１の対象区間及び第２の対象区間の両方に含まれるフレームを対象音声区間の候補として特定する。第１の対象区間及び第２の対象区間が上記例で示される場合、対象音声区間の候補は、フレーム番号６〜７、１２〜１９、・・・と表現される。

その他、区間決定部２４は、音響信号の開始点からの経過時間を用いて、第１の対象フレームに対応する区間及び第２の対象フレームに対応する区間を特定してもよい。この場合、例えば第１の実施形態で説明した手法を用いて、第１の対象フレーム及び第２の対象フレーム各々に対応する区間を音響信号の開始点からの経過時間で表現する。そして、区間決定部２４は、両方に含まれる時間帯を対象音声区間の候補と特定する。

図１０を用いて区間決定部２４における処理の一例を説明する。図１０の例の場合、第１のフレーム及び第２のフレームは、同じフレーム長及び同じフレームシフト長で切り出されている。図１０では、対象音声を含むと判定したフレームを「１」で表し、対象音声を含まない（非音声）と判定したフレームを「０」で表す。図中、「第１の判定結果」が第１の音声判定部６１による判定結果であり、「第２の判定結果」が第２の音声判定部６２による判定結果である。そして、「統合判定結果」が区間決定部２４による判定結果である。図より、区間決定部２４は、第１の音声判定部６２による第１の判定結果と第２の音声判定部６２による第２の判定結果との両方が「１」であるフレーム、すなわちフレーム番号５〜１５のフレームに対応する区間を、対象音声区間の候補と判定していることが分かる。

［動作例］
以下、第３実施形態における音声検出方法について図１１を用いて説明する。図１１は、第３実施形態における音声検出装置１０の動作例を示すフローチャートである。図１１では、図８と同じ工程については、図８と同じ符号が付されている。前の実施形態で説明した工程についての説明は省略する。

Ｓ７１では、音声検出装置１０は、Ｓ５１で計算された音量とあらかじめ定めた所定の第１の閾値とを比較する。そして、音声検出装置１０は、音量が第１の閾値以上である第２のフレームを、対象音声を含む第２の対象フレームであると判定し、音量が第１の閾値未満である第２のフレームを、対象音声を含まない第２の非対象フレームであると判定する。

Ｓ７２では、音声検出装置１０は、Ｓ３３で計算された尤度比とあらかじめ定めた所定の第２の閾値とを比較する。そして、音声検出装置１０は、尤度比が第２の閾値以上である第１のフレームを、対象音声を含む第１の対象フレームであると判定し、尤度比が第２の閾値未満である第１のフレームを、対象音声を含まない第１の非対象フレームであると判定する。

Ｓ７３では、音声検出装置１０は、Ｓ７１で判定された第１の対象フレームに対応する区間、及び、Ｓ７２で判定された第２の対象フレームに対応する区間の両方に含まれる区間を、対象音声区間の候補と判定する。

音声検出装置１０の動作は、図１１の動作例に限られるものではない。例えば、Ｓ５１〜Ｓ７１の処理と、Ｓ３２〜Ｓ７２の処理とは、順番を入れ替えて実行しても良い。これらの処理は複数のＣＰＵを用いて同時並列に実行しても良い。また、リアルタイムに入力される音響信号を処理する場合等においては、Ｓ３１〜Ｓ７３の各処理を１フレームずつ繰り返し実行しても良い。例えば、Ｓ３１では入力された音響信号から１フレーム分を切り出し、Ｓ５１〜Ｓ７１およびＳ３２〜Ｓ７２では切り出された１フレーム分のみを処理し、Ｓ７３ではＳ７１とＳ７２による判定が完了したフレームのみを処理し、入力された音響信号すべてを処理し終わるまでＳ３１〜Ｓ７３を繰り返し実行するように動作しても良い。

［第３実施形態の作用及び効果］
上述したように第３実施形態では、音量が所定の閾値以上であり、かつ、周波数スペクトルの形状を表す特徴量を入力としたときの音声モデルと非音声モデルとの尤度比が所定の閾値以上である区間を、対象音声区間の候補として検出する。従って、第３実施形態によれば、様々な種類の雑音が同時に存在する環境下においても正確に音声区間を決定できるとともに、非音声モデルとして学習されていない雑音が存在する場合でも、そのような雑音を誤って音声として検出することなく、対象音声区間をさらに高精度に検出することができる。

図１２は、第３実施形態の音声検出装置１０が、様々な種類の雑音が同時に存在しても正しく対象音声を検出できる効果を説明する図である。図１２は、検出すべき対象音声と、検出すべきではない雑音とを「音量」と「音声対非音声の尤度比」の２軸で表される空間上に配置した図である。検出すべき「対象音声」は、マイクに近い位置で発せられるため音量が大きく、また、人の声であるため尤度比も大きくなる。

本発明者らは、音声検出技術を適用する様々な場面における背景雑音を分析した結果、様々な種類の雑音は大きく「音声雑音」と「機械雑音」の２種類に分類でき、両雑音は「音量」と「尤度比」の空間上で図１２のようにＬ字型に分布していることを見出した。

音声雑音は、前述したとおり、人の声を含む雑音である。例えば、周囲の人々の会話音声、駅構内のアナウンス音声、ＴＶが発する音声などである。音声検出技術の適用場面では、これらの音声を検出したくないことがほとんどである。音声雑音は人の声であるため、音声対非音声の尤度比は大きくなる。従って、尤度比で音声雑音と検出すべき対象音声とを区別することはできない。一方で、音声雑音はマイクから離れたところで発せられているため、音量は小さくなる。図１２においては、音声雑音の大半は音量が第１の閾値ｔｈ１よりも小さな領域に存在する。従って、音量が第１の閾値以上である場合に音声と判定することで、音声雑音を棄却することができる。

機械雑音は、人の声を含まない雑音である。例えば、道路工事の音、自動車の走行音、ドアの開閉音、キーボードの打鍵音などである。機械雑音の音量は小さいことも大きいこともあり、場合によっては検出すべき対象音声と同等かそれ以上に大きいこともある。従って、音量で機械雑音と対象音声とを区別することはできない。一方で、機械雑音が非音声モデルとして適切に学習されていれば、機械雑音の音声対非音声の尤度比は小さくなる。図１２においては、機械雑音の大半は尤度比が第２の閾値ｔｈ２よりも小さな領域に存在する。従って、尤度比が所定の第２の閾値以上である場合に音声と判定することで、機械雑音を棄却することができる。

第３実施形態の音声検出装置１０は、音量計算部４１及び第１の音声判定部６１が、音量が小さい雑音、すなわち音声雑音を棄却するよう動作する。また、スペクトル形状特徴計算部２２、尤度比計算部２３及び第２の音声判定部６２が、尤度比が小さい雑音、すなわち機械雑音を棄却するよう動作する。そして、区間決定部２４が第１の音声判定部６１と第２の音声判定部６２の両方で対象音声と判定された区間を対象音声区間の候補として検出する。従って、音声雑音と機械雑音が同時に存在する環境下でも両雑音を誤検出することなく、対象音声区間の候補を高精度に検出できる。さらに、第３実施形態の音声検出装置１０は、棄却部２７が音素事後確率のエントロピーと時間差分の少なくとも一方を用いて、検出された対象音声区間の候補が本当に音声であるか非音声であるかを判定する。このような構成をとることにより、第３実施形態の音声検出装置１０は、音声雑音、機械雑音、非音声モデルとして学習されていない雑音、のいずれの雑音が存在する場合でも、高精度に対象音声区間を検出できる。

［第４実施形態］
以下、第４実施形態における音声検出装置１０について、第３実施形態と異なる内容を中心に説明する。以下の説明では、第３実施形態と同様の内容については適宜省略する。

［処理構成］
図１３は、第４実施形態における音声検出装置１０の処理構成例を概念的に示す図である。第４実施形態における音声検出装置１０は、第３実施形態の構成に加えて、第１の区間整形部８１および第２の区間整形部８２を更に有する。

第１の区間整形部８１は、第１の音声判定部６１の判定結果に対して、所定の値より短い対象音声区間と所定の値より短い非対象音声区間を除去する整形処理を施すことで、各フレームが音声か否かを判定する。

例えば、第１の区間整形部８１は、第１の音声判定部６１による判定結果に対して、以下の２つの整形処理のうちの少なくとも一方を実行する。そして、第１の区間整形部８１は、整形処理を行った後、整形処理後の判定結果を区間決定部２４に入力する。

「音響信号の中の互いに分離した複数の第２の対象区間（第１の音声判定部６１が対象音声を含むと判定した第２の対象フレームに対応する区間）の内、長さが所定の値より短い第２の対象区間に対応する第２の対象フレームを、第２の対象フレームでない第２のフレームに変更する整形処理」

「音響信号の中の互いに分離した複数の第２の非対象区間（第１の音声判定部６１が対象音声を含まないと判定した第２の対象フレームに対応する区間）の内、長さが所定の値より短い第２の非対象区間に対応する第２のフレームを第２の対象フレームに変更する整形処理」

図１４は、第１の区間整形部８１が、長さがＮｓ秒未満の第２の対象区間を第２の非対象区間とする整形処理、及び、長さがＮｅ秒未満の第２の非対象区間を第２の対象区間とする整形処理の具体例を示す図である。なお、長さは秒以外の単位、例えばフレーム数で測っても良い。

図１４の上段は、整形前の音声検出結果、すなわち第１の音声判定部６１の出力を表す。図１４の下段は、整形後の音声検出結果を表す。図１４の上段を見ると、時刻Ｔ１で対象音声を含むと判定されているが、連続して対象音声を含むと判定された区間（ａ）の長さがＮｓ秒未満である。このため、第２の対象区間（ａ）は第２の非対象区間に変更される（図１４の下段参照）。一方、図１４の上段を見ると、時刻Ｔ２から始まる第２の対象区間は長さがＮｓ秒以上であるため、第２の非対象区間に変更されず、そのまま第２の対象区間となる（図１４の下段参照）。すなわち、時刻Ｔ３において、時刻Ｔ２を音声検出区間（第２の対象区間）の始端として確定する。

さらに、図１４の上段を見ると、時刻Ｔ４で非音声と判定されているが、連続して非音声と判定された区間（ｂ）の長さがＮｅ秒未満である。このため、第２の非対象区間（ｂ）は第２の対象区間に変更される（図１４の下段参照）。また、図１４の上段を見ると、時刻Ｔ５から始まる第２の非対象区間（ｃ）も長さがＮｅ秒未満である。このため、第２の非対象区間（ｃ）も第２の対象区間に変更される（図１４の下段参照）。一方、図１４の上段を見ると、時刻Ｔ６から始まる第２の非対象区間は長さがＮｅ秒以上であるため、第２の対象区間に変更されず、そのまま第２の非対象区間となる（図１４の下段参照）。すなわち、時刻Ｔ７において、時刻Ｔ６を音声検出区間（第２の対象区間）の終端として確定する。

なお、整形に用いるパラメータＮｓおよびＮｅは、開発用のデータを用いた評価実験等により、あらかじめ適切な値に設定しておく。

以上の整形処理によって、図１４の上段の音声検出結果が、下段の音声検出結果に整形される。音声検出区間の整形処理は、上記の手順に限定されるものではない。例えば、上記の手順を経て得られた区間に対してさらに一定長以下の音声区間を除去する処理を加えても良いし、他の方法によって音声検出区間を整形しても良い。

第２の区間整形部８２は、第２の音声判定部６２の判定結果に対して、所定の値より短い音声区間と所定の値より短い非音声区間を除去する整形処理を施すことで、各フレームが音声か否かを判定する。

例えば、第２の区間整形部８２は、第２の音声判定部６２による判定結果に対して、以下の２つの整形処理のうちの少なくとも一方を実行する。そして、第２の区間整形部８２は、整形処理を行った後、整形処理後の判定結果を区間決定部２４に入力する。

「音響信号の中の互いに分離した複数の第１の対象区間（第２の音声判定部６２が対象音声を含むと判定した第１の対象フレームに対応する区間）の内、長さが所定の値より短い第１の対象区間に対応する第１の対象フレームを、第１の対象フレームでない第１のフレームに変更する整形処理」

「音響信号の中の互いに分離した複数の第１の非対象区間（第２の音声判定部６２が対象音声を含まないと判定した第１の対象フレームに対応する区間）の内、長さが所定の値より短い第１の非対象区間に対応する第１のフレームを第１の対象フレームに変更する整形処理」

第２の区間整形部８２の処理内容は第１の区間整形部８１と同じであり、入力が第１の音声判定部６１の判定結果ではなく、第２の音声判定部６２の判定結果となった点が異なる。整形に用いるパラメータ、例えば、図１４例におけるＮｓおよびＮｅは、第１の区間整形部８１と第２の区間整形部８２とで異なっても良い。

区間決定部２４は、第１の区間整形部８１および第２の区間整形部８２から入力された整形処理後の判定結果を用いて、対象音声区間の候補を特定する。具体的には、区間決定部２４は、第１の区間整形部８１および第２の区間整形部８２の両方において対象音声を含むと判定された区間を対象音声区間の候補と判定する。本実施形態の区間決定部２４の処理内容は第３実施形態の区間決定部２４と同じであり、入力が第１の音声判定部６１および第２の音声判定部６２の判定結果ではなく、第１の区間整形部８１および第２の区間整形部８２の判定結果である点が異なる。

第４実施形態の音声検出装置１０は、区間決定部２４により対象音声の候補であると判定された区間を音声検出結果として出力してもよい。

［動作例］
以下、第４実施形態における音声検出方法について図１５を用いて説明する。図１５は、第４実施形態における音声検出装置の動作例を示すフローチャートである。図１５では、図１１と同じ工程については、図１１と同じ符号が付されている。前の実施形態で説明した工程についての説明は省略する。

Ｓ９１では、音声検出装置１０は、Ｓ７１の音量に基づく判定結果に整形処理を施すことで、各フレームが音声か否かを判定する。

Ｓ９２では、音声検出装置１０は、Ｓ７２の尤度比に基づく判定結果に整形処理を施すことで、各フレームが音声か否かを判定する。

Ｓ７３では、音声検出装置１０は、Ｓ９１及びＳ９２の両方において音声と判定された区間を、対象音声区間の候補であると判定する。

音声検出装置１０の動作は、図１５の動作例に限られるものではない。例えば、Ｓ５１〜Ｓ９１の処理と、Ｓ３２〜Ｓ９２の処理とは、順番を入れ替えて実行しても良い。これらの処理は複数のＣＰＵを用いて同時並列に実行しても良い。また、リアルタイムに入力される音響信号を処理する場合等においては、Ｓ３１〜Ｓ７３の各処理を１フレームずつ繰り返し実行しても良い。このとき、Ｓ９１やＳ９２の整形処理は、あるフレームが音声か非音声かを判定するために、当該フレームより後のいくつかのフレームについてＳ７１やＳ７２の判定結果が必要となる。従って、Ｓ９１やＳ９２の判定結果は判定に必要なフレーム数分だけリアルタイムより遅れて出力される。Ｓ７３は、Ｓ９１やＳ９２による判定結果が得られた区間に対して実行するように動作すればよい。

［第４実施形態の作用及び効果］
上述したように、第４実施形態では、音量に基づく音声検出結果に対して整形処理を施すとともに、尤度比に基づく音声検出結果に対して別の整形処理を施した上で、それら２つの整形結果の両方において音声と判定された区間を、対象音声区間の候補として検出する。従って、第４実施形態によれば、様々な種類の雑音が同時に存在する環境下においても対象音声の区間を高精度に検出でき、かつ、発話中の息継ぎ等の短い間によって音声検出区間が細切れになることを防ぐことができる。

図１６は、第４実施形態の音声検出装置１０が、音声検出区間が細切れになることを防ぐことができる仕組みを説明する図である。図１６は、検出すべき１つの発話が入力されたときの、第４実施形態の音声検出装置１０の各部の出力を模式的に表した図である。

図１６の「音量による判定結果（Ａ）」は第１の音声判定部６１の判定結果を表し、「尤度比による判定結果（Ｂ）」は第２の音声判定部６２の判定結果を表す。図で示されるように、たとえ一続きの発話であっても、音量による判定結果（Ａ）と尤度比による判定結果（Ｂ）は複数の音声区間（第１及び第２の対象区間）と非音声区間（第１及び第２の非対象区間）から構成されることが多い。例えば、一続きの発話であっても音量は常に変動しており、部分的に数十ｍｓ〜１００ｍｓ程度音量が低下することはよくみられる。また、一続きの発話であっても、音素の境界などにおいて部分的に数十ｍｓ〜１００ｍｓ程度尤度比が低下することもよくみられる。さらに、音量による判定結果（Ａ）と尤度比による判定結果（Ｂ）とでは、対象音声と判定される区間の位置が一致しないことが多い。これは、音量と尤度比がそれぞれ音響信号の異なる特徴を捉えているためである。

図１６の「（Ａ）の整形結果」は第１の区間整形部８１の整形結果を表し、「（Ｂ）の整形結果」は第２の区間整形部８２の整形結果を表す。整形処理によって、音量に基づく判定結果中の短い非音声区間（第２の非対象区間）（ｄ）〜（ｆ）、及び、尤度比に基づく判定結果中の短い非音声区間（第１の非対象区間）（ｇ）〜（ｊ）が除去（第１及び第２の対象区間に変更）されて、それぞれ１つの音声検出区間（第１及び第２の対象区間）が得られている。

図１６の「統合結果」は区間決定部２４の判定結果を表す。第１の区間整形部８１および第２の区間整形部８２が短い非音声区間（第１及び第２の非対象区間）を除去（第１及び第２の対象区間に変更）しているため、統合結果として１つの発話区間が正しく検出されている。

第４実施形態の音声検出装置１０は、以上のように動作するため、検出すべき１つの発話区間が細切れになることを防ぐことができる。

このような効果は、音量に基づく判定結果、及び、尤度比に基づく判定結果のそれぞれに対して独立に区間整形処理を施した上で、それらを統合する構成としたからこそ得られる効果である。図１７は、図１６と同じ入力信号に対して、まず第３実施形態の音声検出装置１０を適用して得られた対象音声区間の候補に対して同様の整形処理を施した場合の各部の出力を模式的に表した図である。図１７の「（Ａ）、（Ｂ）の統合結果」は第３実施形態の区間決定部２４の判定結果（対象音声区間の候補）を表し、「整形結果」は得られた判定結果に対して整形処理を施した結果を表す。前述したように、音声による判定結果（Ａ）と尤度比による判定結果（Ｂ）とでは、音声と判定される区間の位置は一致しない。そのため、（Ａ）、（Ｂ）の統合結果には、長い非音声区間が現れることがある。図１７おける区間（ｌ）がそのような長い非音声区間である。区間（ｌ）の長さは整形処理のパラメータＮｅよりも長いため、整形処理によって除去されず、非音声の区間（ｏ）として残ってしまう。すなわち、区間決定部２４の結果に対して整形処理を施した場合、一続きの発話区間であっても、検出する音声区間が細切れになりやすい。

第４実施形態の音声検出装置１０によれば、２種類の判定結果（音量による判定結果及び尤度比による判定結果）を統合する前に、それぞれの判定結果に対して区間整形処理を施すため、一続きの発話区間を細切れにせずに１つの音声区間として検出することができる。

このように、発話の途中で音声検出区間が途切れないように動作することは、検出された音声区間に対して音声認識を適用する場合などにおいて特に効果がある。例えば、音声認識を用いた機器操作においては、発話の途中で音声検出区間が途切れてしまうと、発話の全てを音声認識することができないため、機器操作の内容を正しく認識できない。また、話し言葉では発話が途切れる言い淀み現象が頻発するが、言い淀みによって検出区間が分断されると音声認識の精度が低下しがちである。

以下では、音声雑音下、及び、機械雑音下における音声検出の具体例を示す。

図１８は、駅アナウンス雑音下において一続きの発話を行った場合の、音量と尤度比の時系列を表す。１．４〜３．４秒の区間が検出すべき対象音声区間である。駅アナウンス雑音は音声雑音であるため、発話が終了した後の区間（ｐ）においても尤度比は大きい値が継続している。一方、区間（ｐ）における音量は小さい値となっている。従って、第３および第４の実施形態の音声検出装置１０によれば、区間（ｐ）は正しく非音声と判定される。さらに、検出すべき対象音声区間（１．４〜３．４秒）では、音量と尤度比が大小の変化を繰り返し、その変化位置も異なっているが、第４実施形態の音声検出装置１０によればこのような場合でも、発話区間が途切れることなく、検出すべき対象音声区間を正しく１つの音声区間として検出できる。

図１９は、ドアが閉まる音（５．５〜５．９秒）が存在するときに一続きの発話を行った場合の、音量と尤度比の時系列である。１．３〜２．９秒の区間が検出すべき対象音声区間である。ドアが閉まる音は機械雑音であり、この事例では音量が対象音声区間以上に大きい値となっている。一方、ドアが閉まる音の尤度比は小さい値となっている。従って、第３および第４の実施形態の音声検出装置１０によれば、このドアが閉まる音は正しく非音声と判定される。さらに、検出すべき対象音声区間（１．３〜２．９秒）では、音量と尤度比が大小の変化を繰り返し、その変化位置も異なっているが、第４実施形態の音声検出装置１０によればこのような場合でも検出すべき対象音声区間を正しく１つの音声区間として検出できる。このように、第４実施形態の音声検出装置１０は、現実の様々な雑音環境下において効果的であることが確認されている。

［第４実施形態の変形例］
スペクトル形状特徴計算部２２は、第１の区間整形部８１が対象音声と判定した区間（第２の対象区間）に対してのみ特徴量を計算する処理を実行してもよい。このとき、尤度比計算部２３、第２の音声判定部６２、及び、第２の区間整形部８２は、スペクトル形状特徴計算部２２が特徴量を計算したフレーム（第２の対象区間に対応するフレーム）に対してのみ処理を行う。

本変形例によれば、第１の区間整形部８１が対象音声と判定した区間（第２の対象区間）に対してのみ、スペクトル形状特徴計算部２２、尤度比計算部２３、第２の音声判定部６２、及び、第２の区間整形部８２が動作するため、計算量を大きく削減できる。区間決定部２４は、少なくとも第１の区間整形部８１が音声と判定した区間でなければ対象音声区間と判定しないため、本変形例によれば、同じ検出結果を出力しつつ計算量を削減できる。

［第５実施形態］
第５実施形態は、第１、第２、第３または第４の実施形態をプログラムにより構成した場合に、そのプログラムにより動作するコンピュータとして実現される。

［処理構成］
図２０は、第５実施形態における音声検出装置１０の処理構成例を概念的に示す図である。第５実施形態における音声検出装置１０は、ＣＰＵ等を含んで構成されるデータ処理装置１２と、磁気ディスクや半導体メモリ等で構成される記憶装置１３と、音声検出用プログラム１１等を有する。記憶装置１３は、音声モデル２３１や非音声モデル２３２等を記憶する。

音声検出用プログラム１１は、データ処理装置１２に読み込まれ、データ処理装置１２の動作を制御することにより、データ処理装置１２上に第１、第２、第３または第４の実施形態の機能を実現する。すなわち、データ処理装置１２は、音声検出用プログラム１１の制御によって、音響信号取得部２１、スペクトル形状特徴計算部２２、尤度比計算部２３、区間決定部２４、事後確率計算部２５、事後確率ベース特徴計算部２６、棄却部２７、音量計算部４１、第１の音声判定部６１、第２の音声判定部６２、第１の区間整形部８１、第２の区間整形部８２等の処理を実行する。

上記の各実施形態及び各変形例の一部又は全部は、以下の付記のようにも特定され得る。但し、各実施形態及び各変形例が以下の記載に限定されるものではない。

以下、参考形態の例を付記する。
１．音響信号を取得する音響信号取得手段と、
前記音響信号から得られる複数の第１のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段、
前記第１のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段、及び、
前記尤度の比を用いて、対象音声を含む区間である対象音声区間の候補を決定する区間決定手段、を含む音声区間検出手段と、
前記特徴量を入力として複数の音素各々の事後確率を計算する処理を実行する事後確率計算手段と、
前記第１のフレーム毎に、前記複数の音素の事後確率のエントロピー及び時間差分の少なくとも一方を計算する事後確率ベース特徴計算手段と、
前記事後確率のエントロピー及び時間差分の少なくとも一方を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定する棄却手段と、
を有する音声検出装置。
２．１に記載の音声検出装置において、
前記棄却手段は、前記対象音声区間の候補に対して、前記事後確率のエントロピー及び時間差分の少なくとも一方の平均値を計算し、前記平均値を用いて、前記対象音声を含まない区間とするか否か判定する処理を実行する音声検出装置。
３．２に記載の音声検出装置において、
前記棄却手段は、前記エントロピーの前記平均値が所定の閾値よりも大きいこと、及び、前記時間差分の前記平均値が他の所定の閾値よりも小さいこと、の少なくとも一方または両方を満たす前記対象音声区間の候補を、前記対象音声を含まない区間とする音声検出装置。
４．１に記載の音声検出装置において、
前記棄却手段は、前記事後確率のエントロピー及び時間差分の少なくとも一方に基づいて音声及び非音声に分類する分類器を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定し、
前記分類器は、前記音声区間検出手段が第１の学習用音響信号に対して前記対象音声区間の候補を判定する処理を行うことで検出された複数の前記対象音声区間の候補各々に対して、音声であるか非音声であるかがラベル付けされた第２の学習用音響信号を用いて学習されている音声検出装置。
５．１から４のいずれかに記載の音声検出装置において、
前記事後確率計算手段は、前記対象音声区間の候補の前記音響信号に対してのみ、前記事後確率を計算する処理を実行する音声検出装置。
６．１から５のいずれかに記載の音声検出装置において、
前記音声区間検出手段は、前記音響信号から得られる複数の第２のフレーム各々に対して、音量を計算する処理を実行する音量計算手段をさらに有し、
前記区間決定手段は、前記尤度の比、及び、前記音量を用いて、前記対象音声区間の候補を決定する音声検出装置。
７．６に記載の音声検出装置において、
前記音声区間検出手段は、
前記音量が第１の閾値以上である前記第２のフレームを、前記対象音声を含む第２の対象フレームと判定する第１の音声判定手段と、
前記尤度の比が第２の閾値以上である前記第１のフレームを、前記対象音声を含む第１の対象フレームと判定する第２の音声判定手段と、
をさらに有し、
前記区間決定手段は、前記第１の対象フレームに対応する第１の対象区間、及び、前記第２の対象フレームに対応する第２の対象区間の両方に含まれる区間を、前記対象音声区間の候補に決定する音声検出装置。
８．７に記載の音声検出装置において、
前記第１の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記区間決定手段に入力する第１の区間整形手段と、
前記第２の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記区間決定手段に入力する第２の区間整形手段と、
をさらに有し、
前記第１の区間整形手段は、
長さが所定の値より短い前記第２の対象区間に対応する前記第２の対象フレームを前記第２の対象フレームでない前記第２のフレームに変更する整形処理、及び、
前記第２の対象区間でない第２の非対象区間の内、長さが所定の値より短い前記第２の非対象区間に対応する前記第２のフレームを前記第２の対象フレームに変更する整形処理、の少なくとも一方を実行し、
前記第２の区間整形手段は、
長さが所定の値より短い前記第１の対象区間に対応する前記第１の対象フレームを前記第１の対象フレームでない前記第１のフレームに変更する整形処理、及び、
前記第１の対象区間でない第１の非対象区間の内、長さが所定の値より短い前記第１の非対象区間に対応する前記第１のフレームを前記第１の対象フレームに変更する整形処理、の少なくとも一方を実行する音声検出装置。
９．コンピュータが、
音響信号を取得する音響信号取得工程と、
前記音響信号から得られる複数の第１のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算工程、前記第１のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算工程、及び、前記尤度の比を用いて、対象音声を含む区間である対象音声区間の候補を決定する区間決定工程を含む音声区間検出工程と、
前記特徴量を入力として複数の音素各々の事後確率を計算する処理を実行する事後確率計算工程と、
前記第１のフレーム毎に、前記複数の音素の事後確率のエントロピー及び時間差分の少なくとも一方を計算する事後確率ベース特徴計算工程と、
前記事後確率のエントロピー及び時間差分の少なくとも一方を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定する棄却工程と、
を実行する音声検出方法。
９−２．９に記載の音声検出方法において、
前記棄却工程では、前記対象音声区間の候補に対して、前記事後確率のエントロピー及び時間差分の少なくとも一方の平均値を計算し、前記平均値を用いて、前記対象音声を含まない区間とするか否か判定する処理を実行する音声検出方法。
９−３．９−２に記載の音声検出方法において、
前記棄却工程では、前記エントロピーの前記平均値が所定の閾値よりも大きいこと、及び、前記時間差分の前記平均値が他の所定の閾値よりも小さいこと、の少なくとも一方または両方を満たす前記対象音声区間の候補を、前記対象音声を含まない区間とする音声検出方法。
９−４．９−１に記載の音声検出方法において、
前記棄却工程では、前記事後確率のエントロピー及び時間差分の少なくとも一方に基づいて音声及び非音声に分類する分類器を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定し、
前記分類器は、前記音声区間検出工程により第１の学習用音響信号に対して前記対象音声区間の候補を判定する処理を行うことで検出された複数の前記対象音声区間の候補各々に対して、音声であるか非音声であるかがラベル付けされた第２の学習用音響信号を用いて学習されている音声検出方法。
９−５．９から９−４のいずれかに記載の音声検出方法において、
前記事後確率計算工程では、前記対象音声区間の候補の前記音響信号に対してのみ、前記事後確率を計算する処理を実行する音声検出方法。
９−６．９から９−５のいずれかに記載の音声検出方法において、
前記音声区間検出工程では、前記音響信号から得られる複数の第２のフレーム各々に対して、音量を計算する処理を実行する音量計算工程をさらに実行し、
前記区間決定工程では、前記尤度の比、及び、前記音量を用いて、前記対象音声区間の候補を決定する音声検出方法。
９−７．９−６に記載の音声検出方法において、
前記音声区間検出工程では、
前記音量が第１の閾値以上である前記第２のフレームを、前記対象音声を含む第２の対象フレームと判定する第１の音声判定工程と、
前記尤度の比が第２の閾値以上である前記第１のフレームを、前記対象音声を含む第１の対象フレームと判定する第２の音声判定工程と、
をさらに実行し、
前記区間決定工程では、前記第１の対象フレームに対応する第１の対象区間、及び、前記第２の対象フレームに対応する第２の対象区間の両方に含まれる区間を、前記対象音声区間の候補に決定する音声検出方法。
９−８．９−７に記載の音声検出方法において、
前記コンピュータは、
前記第１の音声判定工程での判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記区間決定工程に渡す第１の区間整形工程と、
前記第２の音声判定工程での判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記区間決定工程に渡す第２の区間整形工程と、
をさらに実行し、
前記第１の区間整形工程では、
長さが所定の値より短い前記第２の対象区間に対応する前記第２の対象フレームを前記第２の対象フレームでない前記第２のフレームに変更する整形処理、及び、
前記第２の対象区間でない第２の非対象区間の内、長さが所定の値より短い前記第２の非対象区間に対応する前記第２のフレームを前記第２の対象フレームに変更する整形処理、の少なくとも一方を実行し、
前記第２の区間整形工程では、
長さが所定の値より短い前記第１の対象区間に対応する前記第１の対象フレームを前記第１の対象フレームでない前記第１のフレームに変更する整形処理、及び、
前記第１の対象区間でない第１の非対象区間の内、長さが所定の値より短い前記第１の非対象区間に対応する前記第１のフレームを前記第１の対象フレームに変更する整形処理、の少なくとも一方を実行する音声検出方法。
１０．コンピュータを、
音響信号を取得する音響信号取得手段、
前記音響信号から得られる複数の第１のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段、前記第１のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段、及び、前記尤度の比を用いて、対象音声を含む区間である対象音声区間の候補を決定する区間決定手段、を含む音声区間検出手段、
前記特徴量を入力として複数の音素各々の事後確率を計算する処理を実行する事後確率計算手段、
前記第１のフレーム毎に、前記複数の音素の事後確率のエントロピー及び時間差分の少なくとも一方を計算する事後確率ベース特徴計算手段、
前記事後確率のエントロピー及び時間差分の少なくとも一方を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定する棄却手段、
として機能させるためのプログラム。
１０−２．１０に記載のプログラムにおいて、
前記棄却手段に、前記対象音声区間の候補に対して、前記事後確率のエントロピー及び時間差分の少なくとも一方の平均値を計算し、前記平均値を用いて、前記対象音声を含まない区間とするか否か判定する処理を実行させるプログラム。
１０−３．１０−２に記載のプログラムにおいて、
前記棄却手段に、前記エントロピーの前記平均値が所定の閾値よりも大きいこと、及び、前記時間差分の前記平均値が他の所定の閾値よりも小さいこと、の少なくとも一方または両方を満たす前記対象音声区間の候補を、前記対象音声を含まない区間とさせるプログラム。
１０−４．１０−１に記載のプログラムにおいて、
前記棄却手段に、前記事後確率のエントロピー及び時間差分の少なくとも一方に基づいて音声及び非音声に分類する分類器を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定させ、
前記分類器は、前記音声区間検出手段が第１の学習用音響信号に対して前記対象音声区間の候補を判定する処理を行うことで検出された複数の前記対象音声区間の候補各々に対して、音声であるか非音声であるかがラベル付けされた第２の学習用音響信号を用いて学習されているプログラム。
１０−５．１０から１０−４のいずれかに記載のプログラムにおいて、
前記事後確率計算手段に、前記対象音声区間の候補の前記音響信号に対してのみ、前記事後確率を計算する処理を実行させるプログラム。
１０−６．１０から１０−５のいずれかに記載のプログラムにおいて、
前記コンピュータを、前記音響信号から得られる複数の第２のフレーム各々に対して、音量を計算する処理を実行する音量計算手段としてさらに機能させ、
前記区間決定手段に、前記尤度の比、及び、前記音量を用いて、前記対象音声区間の候補を決定させるプログラム。
１０−７．１０−６に記載のプログラムにおいて、
前記コンピュータを、
前記音量が第１の閾値以上である前記第２のフレームを、前記対象音声を含む第２の対象フレームと判定する第１の音声判定手段、
前記尤度の比が第２の閾値以上である前記第１のフレームを、前記対象音声を含む第１の対象フレームと判定する第２の音声判定手段、
としてさらに機能させ、
前記区間決定手段に、前記第１の対象フレームに対応する第１の対象区間、及び、前記第２の対象フレームに対応する第２の対象区間の両方に含まれる区間を、前記対象音声区間の候補に決定させるプログラム。
１０−８．１０−７に記載のプログラムにおいて、
前記コンピュータを、
前記第１の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記区間決定手段に入力する第１の区間整形手段、
前記第２の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記区間決定手段に入力する第２の区間整形手段、
としてさらに機能させ、
前記第１の区間整形手段に、
長さが所定の値より短い前記第２の対象区間に対応する前記第２の対象フレームを前記第２の対象フレームでない前記第２のフレームに変更する整形処理、及び、
前記第２の対象区間でない第２の非対象区間の内、長さが所定の値より短い前記第２の非対象区間に対応する前記第２のフレームを前記第２の対象フレームに変更する整形処理、の少なくとも一方を実行させ、
前記第２の区間整形手段に、
長さが所定の値より短い前記第１の対象区間に対応する前記第１の対象フレームを前記第１の対象フレームでない前記第１のフレームに変更する整形処理、及び、
前記第１の対象区間でない第１の非対象区間の内、長さが所定の値より短い前記第１の非対象区間に対応する前記第１のフレームを前記第１の対象フレームに変更する整形処理、の少なくとも一方を実行させるプログラム。

この出願は、２０１３年１０月２２日に出願された日本出願特願２０１３−２１８９３５号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

音響信号を取得する音響信号取得手段と、
前記音響信号から得られる複数の第１のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段、
前記第１のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段、及び、
前記尤度の比を用いて、対象音声を含む区間である対象音声区間の候補を決定する区間決定手段、を含む音声区間検出手段と、
前記特徴量を入力として複数の音素各々の事後確率を計算する処理を実行する事後確率計算手段と、
前記第１のフレーム毎に、前記複数の音素の事後確率のエントロピー及び時間差分の少なくとも一方を計算する事後確率ベース特徴計算手段と、
前記事後確率のエントロピー及び時間差分の少なくとも一方を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定する棄却手段と、
を有する音声検出装置。
請求項１に記載の音声検出装置において、
前記棄却手段は、前記対象音声区間の候補に対して、前記事後確率のエントロピー及び時間差分の少なくとも一方の平均値を計算し、前記平均値を用いて、前記対象音声を含まない区間とするか否か判定する処理を実行する音声検出装置。
請求項２に記載の音声検出装置において、
前記棄却手段は、前記エントロピーの前記平均値が所定の閾値よりも大きいこと、及び、前記時間差分の前記平均値が他の所定の閾値よりも小さいこと、の少なくとも一方または両方を満たす前記対象音声区間の候補を、前記対象音声を含まない区間とする音声検出装置。
請求項１に記載の音声検出装置において、
前記棄却手段は、前記事後確率のエントロピー及び時間差分の少なくとも一方に基づいて音声及び非音声に分類する分類器を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定し、
前記分類器は、前記音声区間検出手段が第１の学習用音響信号に対して前記対象音声区間の候補を判定する処理を行うことで検出された複数の前記対象音声区間の候補各々に対して、音声であるか非音声であるかがラベル付けされた第２の学習用音響信号を用いて学習されている音声検出装置。
請求項１から４のいずれか一項に記載の音声検出装置において、
前記事後確率計算手段は、前記対象音声区間の候補の前記音響信号に対してのみ、前記事後確率を計算する処理を実行する音声検出装置。
請求項１から５のいずれか一項に記載の音声検出装置において、
前記音声区間検出手段は、前記音響信号から得られる複数の第２のフレーム各々に対して、音量を計算する処理を実行する音量計算手段をさらに有し、
前記区間決定手段は、前記尤度の比、及び、前記音量を用いて、前記対象音声区間の候補を決定する音声検出装置。
請求項６に記載の音声検出装置において、
前記音声区間検出手段は、
前記音量が第１の閾値以上である前記第２のフレームを、前記対象音声を含む第２の対象フレームと判定する第１の音声判定手段と、
前記尤度の比が第２の閾値以上である前記第１のフレームを、前記対象音声を含む第１の対象フレームと判定する第２の音声判定手段と、
をさらに有し、
前記区間決定手段は、前記第１の対象フレームに対応する第１の対象区間、及び、前記第２の対象フレームに対応する第２の対象区間の両方に含まれる区間を、前記対象音声区間の候補に決定する音声検出装置。
請求項７に記載の音声検出装置において、
前記第１の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記区間決定手段に入力する第１の区間整形手段と、
前記第２の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記区間決定手段に入力する第２の区間整形手段と、
をさらに有し、
前記第１の区間整形手段は、
長さが所定の値より短い前記第２の対象区間に対応する前記第２の対象フレームを前記第２の対象フレームでない前記第２のフレームに変更する整形処理、及び、
前記第２の対象区間でない第２の非対象区間の内、長さが所定の値より短い前記第２の非対象区間に対応する前記第２のフレームを前記第２の対象フレームに変更する整形処理、の少なくとも一方を実行し、
前記第２の区間整形手段は、
長さが所定の値より短い前記第１の対象区間に対応する前記第１の対象フレームを前記第１の対象フレームでない前記第１のフレームに変更する整形処理、及び、
前記第１の対象区間でない第１の非対象区間の内、長さが所定の値より短い前記第１の非対象区間に対応する前記第１のフレームを前記第１の対象フレームに変更する整形処理、の少なくとも一方を実行する音声検出装置。
コンピュータが、
音響信号を取得する音響信号取得工程と、
前記音響信号から得られる複数の第１のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算工程、前記第１のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算工程、及び、前記尤度の比を用いて、対象音声を含む区間である対象音声区間の候補を決定する区間決定工程を含む音声区間検出工程と、
前記特徴量を入力として複数の音素各々の事後確率を計算する処理を実行する事後確率計算工程と、
前記第１のフレーム毎に、前記複数の音素の事後確率のエントロピー及び時間差分の少なくとも一方を計算する事後確率ベース特徴計算工程と、
前記事後確率のエントロピー及び時間差分の少なくとも一方を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定する棄却工程と、
を実行する音声検出方法。
コンピュータを、
音響信号を取得する音響信号取得手段、
前記音響信号から得られる複数の第１のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段、前記第１のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段、及び、前記尤度の比を用いて、対象音声を含む区間である対象音声区間の候補を決定する区間決定手段、を含む音声区間検出手段、
前記特徴量を入力として複数の音素各々の事後確率を計算する処理を実行する事後確率計算手段、
前記第１のフレーム毎に、前記複数の音素の事後確率のエントロピー及び時間差分の少なくとも一方を計算する事後確率ベース特徴計算手段、
前記事後確率のエントロピー及び時間差分の少なくとも一方を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定する棄却手段、
として機能させるためのプログラム。