JP2003521006A

JP2003521006A - ２つのスイッチオフ規準を持つ音声検出装置

Info

Publication number: JP2003521006A
Application number: JP2001555084A
Authority: JP
Inventors: ヘインリッチバートオシック
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-01-27
Filing date: 2001-01-10
Publication date: 2003-07-08
Anticipated expiration: 2021-01-10
Also published as: DE60143506D1; JP4810044B2; US20010012996A1; WO2001056015A1; US6662156B2; ATE489702T1; EP1171869B1; JP2011221544A; EP1171869A1

Abstract

(57)【要約】受信信号（ＭＳ）における十分に良好な信号対雑音比を有する音声信号（ＳＳ１、ＳＳ２）を検出すると共に、音声タイムスロット（ＴＳ１、ＴＳ２、ＴＳ３、ＴＳ４）を決定する本発明による音声検出装置（８）には、受信信号（ＭＳ）のエネルギ量が第１エネルギ閾値（ＥＳ１）を越える場合に第１検出情報（ＤＩ１）を送出するスイッチオン閾検出器（１１）と、受信信号（ＭＳ）のエネルギ量が第１エネルギ閾値（ＥＳ１）より小さな第２エネルギ閾値（ＥＳ２）に満たない場合に第２検出情報（ＤＩ２）を送出するスイッチオフ閾検出器（１２）と、第１検出情報（ＤＩ１）及び第２検出情報（ＤＩ２）を入力及び処理し、第１スイッチオフ期間（ＴＡ１）の間に第２検出情報（ＤＩ２）が入力された場合に音声タイムスロット（ＴＳ１、ＴＳ２、ＴＳ３、ＴＳ４）を特徴付ける音声検出情報（ＳＤＩ）の生成を終了させる情報処理手段（１３）とが含まれる。該情報処理手段（１３）は、第２スイッチオフ期間（ＴＡ２）の間第１検出情報（ＤＩ１）が入力されなかった場合、及び／又は第３スイッチオフ期間（ＴＡ３）の間第１検出情報（ＤＩ１）が入力されなかった場合にも音声検出情報（ＳＤＩ）の送出を追加的に終了させるように構成され、第３スイッチオフ期間（ＴＡ３）の開始は第１検出情報（ＤＩ１）が入力されなくなった後に第２検出情報（ＤＩ２）が最初に入力される時として決定される。

Description

【発明の詳細な説明】

【０００１】

【技術分野】

本発明は、請求項１の導入部に記載したような音声検出装置、請求項５の導入
部に記載したような受信信号における十分に良好な信号対雑音比を持つ音声信号
を検出する音声検出方法、及び請求項８の導入部に記載したようなコンピュータ
プログラム製品に関する。

【０００２】

【背景技術】

上記のような音声検出装置、上記のような音声検出方法及び上記のようなコン
ピュータプログラム製品は、１９９８年から本出願人により “フリースピーチ
９８”と呼ばれるコンピュータプログラムとして販売されている音声認識装置の
一部として知られている。コンピュータが上記コンピュータプログラム“フリー
スピーチ９８”を実行し、ユーザが該コンピュータに接続されたマイクロフォン
に対して文を口述すると、上記既知の音声認識装置の音声認識手段により認識さ
れた該文が上記コンピュータに接続されたモニタ上に表示される。口述の間、ユ
ーザはマイクロフォンに向かって時には滑らかに話し、また時には短い休止を伴
いながら話す。ユーザは、時には、マイクロフォンを口から過度に遠くで保持し
、これにより該マイクロフォンにより発生される電気マイクロフォン信号の信号
対雑音比が悪くなる。従って、所謂音声タイムスロットの間においては、上記マ
イクロフォン信号はユーザにより話された文に対応する音声信号を含み、所謂休
止タイムスロットの間では上記マイクロフォン信号は音声信号を含まないか又は
信号対雑音比が劣る音声信号を含むことになる。

【０００３】上記既知の音声認識装置の音声検出装置には、上記マイクロフォンにより受信
信号として又は該受信信号を表す受信データとして送出されるマイクロフォン信
号を供給することができる。音声検出装置は、受信信号における音声信号の開始
及び終了を検出して、対応する音声タイムスロットを決定する。音声検出装置は
音声タイムスロットの間において音声認識手段に音声検出情報を供給し、該音声
認識手段は音声タイムスロットの間にマイクロフォンから送出されるマイクロフ
ォン信号のみを処理する。

【０００４】受信信号における音声信号を検出するために、上記既知の音声検出装置はスイ
ッチオン閾検出器及びスイッチオフ閾検出器を含み、これら検出器は入力信号の
エネルギ量（energy content）を第１及び第２エネルギ閾値と比較するが、ここ
で第１エネルギ閾値は第２エネルギ閾値より高い。受信信号のエネルギ量が第１
エネルギ閾値を越えると、上記スイッチオン閾検出器が第１検出情報を発生し、
受信信号のエネルギ量が第２エネルギ閾値に達しないと、スイッチオフ閾検出器
が第２検出情報を発生する。

【０００５】音声タイムスロットを決定するために、上記音声検出装置は上記検出情報を入
力し且つ処理する情報処理手段を含んでいる。音声タイムスロットのスイッチオ
ンの規準として第１検出情報の発生が検出され、その後音声タイムスロットの開
始は上記情報処理手段により、上記スイッチオン規準が満たされる２４０ms前と
して決定される。第１スイッチオフ期間の間の第２検出情報の中断のない発生は
音声タイムスロットのスイッチオフの規準として検出され、その後、音声タイム
スロットの終了は上記情報処理手段により上記スイッチオフ規準が満たされた時
として決定される。

【０００６】上記既知の音声検出装置、既知の音声検出方法及び既知のコンピュータプログ
ラムは、受信信号のスイッチオフ規準が、該受信信号のエネルギ量が第２エネル
ギ閾値周辺で変化する場合に満たされないという欠点を有している。斯様な受信
信号は、例えばユーザが電話の会話のために口述を中断し、マイクロフォンを机
の上に置いたような場合に、音声認識装置に供給される。この電話の会話の間に
ユーザにより又は室内の他の者により、マイクロフォンから遠く離れた位置で話
される言葉は、低い信号対雑音比を持つ音声信号を時々含むようなマイクロフォ
ン信号として該マイクロフォンに供給される。この低い信号対雑音比を持つ音声
信号を伴う受信信号は、音声認識装置により音声認識に適した音声信号として誤
って検出される。何故なら、音声タイムスロットが当該音声検出装置により終了
されていないからである。このようにして、認識されるために供給されたもので
は全くない音声信号が、音声認識手段により、上記の低い信号対雑音比による当
該音声認識装置の悪い認識率で処理され、殆どの場合誤った文が認識される。

【０００７】

【発明の開示】

本発明の目的は、上述したような問題を取り除き、冒頭で述べたような形式の
音声検出装置、音声検出方法及びコンピュータプログラム製品であって、音声タ
イムスロットを高信頼度で終了させるために第２スイッチオフ規準が設けられた
ような音声検出装置、音声検出方法及びコンピュータプログラム製品を提供する
ことにある。この目的は、上記のような音声検出装置によれば請求項１の特徴部
の対策により達成され、上記のような音声検出方法によれば請求項５の特徴部の
対策により達成され、上記のようなコンピュータプログラム製品によれば請求項
８の特徴部の対策により達成される。

【０００８】これによれば、情報処理手段において、第２スイッチオフ期間の間の第１検出
情報の中断されない欠落が音声タイムスロットを終了させる第２スイッチオフ規
準として検出され、その後、該音声タイムスロットの終了が上記情報処理手段に
より該第２スイッチオフ規準が満たされるかに応じて決定されるようになる。こ
の第２スイッチオフ規準に加えて、又は該規準の代わりに、上記情報処理手段は
第３スイッチオフ規準も検証することができ、該第３スイッチオフ規準によれば
、第１検出情報が受信されなくなった後第２検出情報が最初に入力されてから第
３スイッチオフ期間の間に該第１検出情報が入力されなかったかが判定される。

【０００９】上記第２及び／又は第３スイッチオフ規準に依存して音声タイムスロットを終
了させることは、例えば、上述したような作業状況が発生し、受信信号が前記閾
の周辺で変化するような場合においても、良好な信号対雑音比を有する１つの音
声信号のみが音声認識装置により音声認識のために高信頼度で使用されるという
利点を提供する。

【００１０】請求項２に記載の対策によれば高信頼度の第２スイッチオフ規準が得られ、請
求項３に記載の対策によれば音声タイムスロット用の高信頼度のスイッチオン規
準が得られる。請求項４に記載の対策は、スイッチオン閾検出器及びスイッチオ
フ閾検出器のエネルギ閾値を受信信号におけるエネルギ量に適応させるので、良
好な信号対雑音比を持つ音声信号の検出が改善される。

【００１１】

【発明を実施するための最良の形態】

以下、本発明を図に示す２つの実施例を参照して説明するが、本発明は、これ
ら実施例に限定されるものではない。

【００１２】図１は、コンピュータプログラム製品をロードすることが可能な内部メモリを
有するコンピュータを示し、該プログラム製品はソフトウェアコード部を有する
と共に音声認識ソフトウェアにより形成されている。該コンピュータ１が音声認
識ソフトウェアを処理する場合、該コンピュータ１は音声信号に割り当てられる
べき文章情報を認識する音声認識装置を形成する。

【００１３】該コンピュータ１のオーディオポート２にはマイクロフォン３を接続すること
ができ、該マイクロフォンにはユーザが文又は命令を口述することができ、該マ
イクロフォンによりマイクロフォン信号ＭＳをコンピュータ１に供給することが
できる。マイクロフォン３に向かって、ユーザは時には文を滑らかに話し、時に
は短い休止を伴って文を話す。ユーザは時にはマイクロフォン３を口から遠くに
離して保持し、その場合には、該マイクロフォンにより送出されるマイクロフォ
ン信号ＭＳの信号対雑音比は相対的に悪くなる。従って、所謂音声タイムスロッ
トＴＳの間ではマイクロフォン信号ＭＳはユーザにより話された文に対応する音
声信号ＳＳを含み、所謂休止タイムスロットＴＰにおいては音声信号ＳＳを含ま
ないか又は音声認識装置により処理されるのには適さない、劣った信号対雑音比
の音声信号ＳＳを含むことになる。マイクロフォン３によりオーディオポート２
を介してコンピュータ１に供給される斯様なマイクロフォン信号ＭＳは、入力信
号としてコンピュータ１へ、従って当該音声認識装置へ処理されるべく供給する
ことができる。図２Ａは斯様なマイクロフォン信号を時間の関数として示すが、
該信号に関しては後に更に説明する。

【００１４】コンピュータ１のモニタポート４にはモニタ５を接続することができ、該モニ
タにより当該音声認識装置により認識された文ＴＸを表示することができる。こ
の目的のため、認識された文を表すテキスト情報ＴＩをモニタポート４からモニ
タ５に伝送することができる。

【００１５】前記マイクロフォン信号ＭＳはオーディオポート２からＡ／Ｄ変換器６に供給
することができる。該Ａ／Ｄ変換器６は、通常知られているように、該Ａ／Ｄ変
換器６に供給される上記マイクロフォン信号ＭＳをデジタル化するように構成さ
れている。Ａ／Ｄ変換器６は、マイクロフォン信号ＭＳに含まれるユーザにより
話された文の情報を含む受信データＥＤを生成することができる。

【００１６】当該音声認識装置は、更に、Ａ／Ｄ変換器６により送出される上記受信データ
ＥＤを供給することが可能な記憶手段７を含んでいる。コンピュータ１における
該記憶装置７は、ハードディスクにより形成され、該ハードディスクに供給され
る受信データＥＤを記憶するように構成されている。該記憶手段７に供給された
受信データＥＤは、音声検出情報ＳＤＩが入力された場合にのみ永久に記憶され
るが、これについては後述する。

【００１７】当該音声認識装置は更に音声検出装置８を含み、該音声検出装置にもＡ／Ｄ変
換器６により送出される受信データＥＤを供給することができる。該音声検出装
置８は受信データＥＤを評価することによりタイムスロットを検出するように構
成され、該タイムスロットの間においては上記マイクロフォン信号ＭＳは十分に
良好な信号対雑音比を有するような音声信号ＳＳを含む。このようなタイムスロ
ットが検出された場合、音声検出装置８は適切な音声タイムスロットＴＳを決定
するが、これについては後に詳述する。

【００１８】更に、当該音声認識装置は上記マイクロフォン信号ＭＳのうちの音声タイムス
ロットＴＳの間に受信された部分のみを評価する。何故なら、マイクロフォン信
号ＭＳのこれらの部分のみが、ユーザにより話された文の正しく評価することが
できる情報を含むからである。音声タイムスロットＴＳを特徴付けるために、音
声検出装置８は音声検出情報ＳＤＩを記憶手段７に供給し、該記憶手段は結果と
してユーザにより話された文の、当該音声認識装置により正しく評価することが
できる情報を含む受信データＥＤのみを記憶する。

【００１９】コンピュータ１により形成される当該音声認識装置は、更に、音声認識手段９
を含み、該音声認識手段により音声認識方法が実行されて、記憶手段７に記憶さ
れた受信データＥＤを評価する。この目的のため、音声認識手段９により記憶手
段７に対して活性化情報ＡＩを供給して、記憶手段７に永久的に記憶された受信
データＥＤの送出を可能にする。音声認識手段９のような斯かる音声認識手段の
構成及び動作方法、並びに音声認識手段９において実行されるような音声認識方
法のステップは、長く知られており、例えば文献国際特許公開公報ＷＯ９９／３
５６４０等に開示されている。

【００２０】ユーザがマイクロフォン３に向かって文を話すと、例えば図２Ａに示すような
マイクロフォン信号ＭＳがコンピュータ１により形成された当該音声認識装置に
供給される。図２Ａに示すマイクロフォン信号ＭＳは、時間区間として、第１音
声信号ＳＳ１、第２音声信号ＳＳ２、第３音声信号ＳＳ３及びノイズ信号ＲＳを
含んでいる。第３音声信号ＳＳ３は、雑音信号ＲＳと比較して、比較的低いエネ
ルギ量を有している。何故なら、ユーザが該文を話した際にマイクロフォン３を
口から過度に離して保持したからである。従って、第３音声信号ＳＳ３の信号対
雑音比は劣り、それ故、該第３音声信号は音声処理処理手段９で正しく処理する
には不適である。

【００２１】音声検出装置８の目的は、マイクロフォン信号ＭＳが第１音声信号ＳＳ１及び
第２音声信号ＳＳ２を含むような音声タイムスロットＴＳを決定して、これら音
声信号ＳＳ１及びＳＳ２に含まれる情報を音声認識手段９が処理するのを可能に
することである。残りのタイムスロットは音声検出装置８により、マイクロフォ
ン信号ＭＳがノイズ信号ＲＳ及び第３音声信号ＳＳ３を含む休止タイムスロット
ＰＳとして決定されるべきである。音声検出装置８により決定された休止タイム
スロットＰＳの間においては、音声検出装置８により記憶手段７には何の音声検
出情報ＳＤＩも供給されない。

【００２２】この目的を達成するため、音声検出装置８は、エネルギ平均化手段１０、スイ
ッチオン閾検出器１１、スイッチオフ閾検出器１２及び情報処理手段１３を含ん
でいる。Ａ／Ｄ変換器６により送出することができる受信データＥＤは、エネル
ギ決定手段１０に供給することができる。該エネルギ決定手段１０は、評価タイ
ムスロット毎に、受信データＥＤの評価によりマイクロフォンＭＳに含まれるエ
ネルギ量を決定する。ここでは、評価タイムスロットは２０ミリ秒である。受信
データＥＤはデジタルドメインで評価される。これはアナログドメインではマイ
クロフォン信号ＭＳの二乗及び該二乗されたマイクロフォン信号の各評価タイム
スロットにわたる積分に相当するであろうのと同様である。専門家は、斯様なデ
ジタルドメインでのデータの評価には長い間馴染みがある。斯様にして決定され
たエネルギ情報ＥＩはエネルギ決定手段１０によりスイッチオン閾検出器１１及
びスイッチオフ閾検出器１２に供給することができるが、該情報はマイクロフォ
ン信号ＭＳのエネルギ量を特徴付けている。

【００２３】図２Ｂは、エネルギ決定手段１０により決定された図２Ａに示すマイクロフォ
ン信号ＭＳのエネルギ情報ＥＩを時間の関数として示している。マイクロフォン
信号ＭＳに含まれる音声信号ＳＳ１及びＳＳ２がノイズ信号ＲＳ及び第３音声信
号ＳＳ３より大きなエネルギ量を含むことを検出することができ、その結果、こ
れら音声信号ＳＳ１及びＳＳ２の検出がエネルギ情報ＥＩの評価により可能とな
る。

【００２４】この目的のため、スイッチオン閾検出器１１は、該スイッチオン閾検出器１１
に供給されるエネルギ情報ＥＩの値を、図２Ｂに示すような当該スイッチオン閾
検出器１１に記憶された第１エネルギ閾値ＥＳ１と連続的に比較する。スイッチ
オン閾検出器１１は、マイクロフォン信号ＭＳのエネルギ量が第１エネルギ閾値
ＥＳ１より大きい場合に第１検出情報ＤＩ１を生成するように構成されている。
図２Ａに示すマイクロフォン信号ＭＳが当該音声認識装置により受信された場合
に上記スイッチオン閾検出器１１により生成される第１検出情報ＤＩ１の時間の
関数としての波形が、図２Ｃに示されている。

【００２５】更に、スイッチオフ閾検出器１２は、該スイッチオフ閾検出器１２に供給され
るエネルギ情報ＥＩの値を、図２Ｂに示すような当該スイッチオフ閾検出器１２
に記憶された第２エネルギ閾値ＥＳ２と連続的に比較する。スイッチオフ閾検出
器１２は、マイクロフォン信号ＭＳのエネルギ量が第２エネルギ閾値ＥＳ２より
小さい場合に第２検出情報ＤＩ２を送出するように構成されている。図２Ａに示
すマイクロフォン信号ＭＳが当該音声認識装置により受信された場合に上記スイ
ッチオフ閾検出器１２により送出される第２検出情報ＤＩ２の時間の関数として
の波形が、図２Ｄに示されている。

【００２６】情報処理装置１３には、第１検出情報ＤＩ１と第２検出情報ＤＩ２とを供給す
ることができる。該情報処理装置１３は、該装置に供給される上記検出情報ＤＩ
１及びＤＩ２を評価し、音声タイムスロットＴＳを決定し、及び決定された音声
タイムスロットＴＳの間に音声検出情報ＳＤＩを送出するように構成されている
。

【００２７】以下においては、本発明の第１実施例による情報処理手段１３の動作方法が例
示として説明される。該例によれば、情報処理手段１３は図２Ｃ及び図２Ｄに示
す検出情報ＤＩ１及びＤＩ２を評価し、その後該情報処理装置１３により、図２
Ｅに波形が時間の関数として表されたような音声検出情報ＳＤＩが送出される。

【００２８】時点ｔ１から、情報処理手段１３は第１検出情報ＤＩ１を入力し、時点ｔ２に
おいて情報処理手段１３は、第１検出情報ＤＩ１がスイッチオン期間ＴＥにわた
り入力されたことを確定する。結果として、スイッチオン規準が第１音声タイム
スロットに関して満足されるが、これが音声検出情報ＳＤＩ１により特徴付けら
れている。該第１音声タイムスロットの開始は、該情報処理手段１３により、上
記時点ｔ１より進み期間ＴＶだけ早い時点ｔ３において定められる。

【００２９】上記スイッチオン期間ＴＥの間待つことは、例えばマイクロフォン３を机の上
に置く場合に発生し得るような、短い大きい雑音のマイクロフォン信号ＭＳの短
い大振幅が当該情報処理手段１３により誤って音声信号ＳＳとして検出されるこ
とがないという利点を提供する。第１音声タイムスロットの始点を上記進み期間
ＴＶだけ進めて配置することにより、マイクロフォン信号ＭＳにおいて検出され
た第１音声信号ＳＳ１の受信データＥＤが、第１エネルギ閾値ＥＳ１に到達する
前に、記憶手段７に記憶され、後に音声認識手段９により更に処理されるという
利点が得られる。これにより、全ての第１音声信号ＳＳ１の受信データＥＤが記
憶されると共に、該第１音声信号ＳＳ１の開始が音声認識手段９による処理から
失われることがなくなる。上述した２つの対策は、当該音声認識装置の認識率を
有利に改善する。

【００３０】スイッチオン規準が満足された後に、上記進み期間ＴＶ及びスイッチオン期間
ＴＥだけ進められた受信データＥＤの記憶に届くよう、記憶手段７に供給される
受信データＥＤは、常に、該記憶手段７の受信バッファに記憶される。進み期間
ＴＶ及びスイッチオン期間ＴＥの間に、予想される受信データＥＤは上記受信バ
ッファに短期間記憶することができ、次いで、該データＥＤは、スイッチオン規
準が満たされる時点ｔ２において記憶手段７に永久的に記憶することができる。

【００３１】情報処理手段１３は時点ｔ４において該第１音声タイムスロットの終了を決定
するようになっており、その際、該第１音声タイムスロットは音声期間ＴＳ１を
有するようになる。時点ｔ４において第１スイッチオフ規準が満足されるが、該
規準によれば第１スイッチオフ期間ＴＡ１にわたり第２検出情報ＤＩ２が情報処
理手段１３により中断無く入力されねばならない。図２Ｅに示すように、時点ｔ
３から時点ｔ４まで、記憶されるべき第１音声信号ＳＳ１の受信データＥＤに対
して、音声検出情報ＳＤＩ１が記憶手段７に供給される。

【００３２】第１音声タイムスロットの終了の上述したような方法による決定は、音声信号
ＳＳのエネルギ量が短期間に非常に小さい場合に、第１音声タイムスロットが誤
って早く終了されて、該第１音声信号ＳＳ１の最後の部分の受信データＥＤが音
声認識手段９に処理されるべく供給されなくなることがないであろうという利点
を提供する。音声信号ＳＳの斯様な短い非常に小さなエネルギ量は、“ｔ”又は
“ｐ”のような子音が発音される場合、及びマイクロフォン信号ＭＳの短い中断
がある場合等に発生し得る。

【００３３】図２の実施例によれば、情報処理手段１３は、第１休止期間ＴＰ１の後、第１
音声タイムスロットに関して上述したのと同様にして、時点ｔ５を第２音声タイ
ムスロットの開始と判定する。該第２音声タイムスロットの間、マイクロフォン
信号ＭＳは第２音声信号ＳＳ２を含み、該第２音声信号には第３音声信号ＳＳ３
が後続する。第３音声信号ＳＳ３のエネルギ量は第２エネルギ閾値ＥＳ２付近で
変化し、その際、第１スイッチオフ期間ＴＡ１より短い期間ＴＫの間だけ第２検
出情報ＤＩ２が入力される。従って、第３音声信号ＳＳ３の間では第１スイッチ
オフ規準は満たされず、結果として第２音声タイムスロットは情報処理手段１３
により終了されないであろう。

【００３４】本発明の第１実施例による情報処理手段１３は、ここで、第２スイッチオフ規
準が満たされるかを判定するように構成されている。該第２スイッチオフ規準は
、第２スイッチオフ期間ＴＡ２の間に第１検出情報ＤＩ１が入力されなかった場
合に満たされる。時点ｔ６以降、情報処理手段１３は、最早、第１検出情報ＤＩ
１を入力することはなく、その結果、情報処理手段１３は時点ｔ７において該第
２スイッチオフ規準の存在を確定する。図２Ｅに示すように、時点ｔ５から時点
ｔ７までの第２音声タイムスロットＴＳ２の間、第２の音声検出情報ＳＤＩ２が
記憶手段７に供給されて、時点ｔ５以降第２音声信号ＳＳ２の受信データＥＤを
記憶する。

【００３５】結果として、ノイズ信号ＲＳのみ又は悪い信号対雑音比を持つ第３音声信号Ｓ
Ｓ３のみを含むマイクロフォン信号ＭＳの受信データＥＤは音声認識手段９に供
給されず、これにより該音声認識手段９による誤った文の認識が防止されるとい
う利点が得られる。

【００３６】以下においては、本発明による追加の対策及びそれらの利点を、本発明の第２
実施例を参照して説明する。該第２実施例による音声検出装置は、上記第１実施
例による図１に示した音声検出装置８に相当するが、該第２実施例による情報処
理手段は第１スイッチオフ規準又は第３スイッチオフ規準が満たされるかを検証
するように構成されている。第３スイッチオフ規準は、第３スイッチオフ期間Ｔ
Ａ３の間に第１検出情報ＤＩ１が入力されなかった場合に満たされるが、該第３
スイッチオフ期間ＴＡ３の開始は、第１検出情報ＤＩ１が無くなった後、次いで
第２検出情報ＤＩ２が入力された場合に検出される。

【００３７】以下においては、本発明の第２実施例による情報処理手段の動作方法が例示に
より説明される。この例によれば、図２Ａに示すマイクロフォン信号ＭＳが当該
音声認識装置に供給され、図２Ｃ及び２Ｄに示す検出情報ＤＩ１及びＤＩ２が上
記情報処理手段により評価される。該第２実施例に基づく情報処理手段による評
価の結果、該情報処理手段は、図２Ｆに示すようなパターンの音声検出情報ＳＤ
Ｉを記憶手段７に供給する。

【００３８】当該情報処理手段は、第３音声期間ＴＳ３を持つ第３の音声検出情報ＳＤＩ３
により特徴付けられ、本発明の第１実施例による前記第１音声タイムスロットに
相当するような第３音声タイムスロットを決定する。この第３音声タイムスロッ
トの開始は前記スイッチオン規準により決定され、該第３音声タイムスロットの
終了は前記第１スイッチオフ規準により決定される。第２休止期間ＴＰ２の後、
該第２実施例による情報処理手段は、上記スイッチオン規準が満たされる時点ｔ
５において第４音声タイムスロットの開始を決定する。

【００３９】時点ｔ６以降では、当該情報処理手段は、最早、第１検出情報ＤＩ１を入力せ
ず、時点ｔ８において、第１検出情報ＤＩ１が無くなった後の第２検出情報ＤＩ
２を入力する。時点ｔ９において、当該情報処理手段は、時点ｔ８から第３スイ
ッチオフ期間ＴＡ３にわたって第１検出情報ＤＩ１が入力されず、従って第３ス
イッチオフ規準が満たされたことを確定する。続いて、該時点ｔ９において、当
該情報処理手段は音声期間ＴＳ４を持つ第４音声タイムスロットの終了を決定す
る。この第４音声タイムスロットを特徴付けるため、第４の音声検出情報ＳＤＩ
４が記憶手段７に供給される。

【００４０】このようにして、該第２実施例による情報処理手段により第３スイッチオフ規
準が判定されるという事実は、ノイズ信号ＲＳのみ又は悪い信号対雑音比を持つ
第３音声信号ＳＳ３のみを含むマイクロフォン信号ＭＳの受信データＥＤが音声
認識手段９に供給されず、これにより該音声認識手段９による誤った文の認識が
防止されるという利点を提供する。

【００４１】音声検出情報ＳＤＩが前記スイッチオン閾検出器及びスイッチオフ閾検出器に
供給されるようにすることが考えられる。その場合、これら閾検出器は、休止タ
イムスロットＴＰにおけるエネルギ情報ＥＩを評価して、休止タイムスロットＴ
Ｐの間においてマイクロフォン信号ＭＳに含まれるノイズ信号ＲＳのエネルギ量
に対する第１及び第２エネルギ閾値を適応化するように構成することができる。

【００４２】これは、当該音声検出装置が、例えば大きな背景雑音の結果として口述の間に
ノイズ信号ＲＳのエネルギ量が変化するような場合にも、良好な信号対雑音比を
持つ音声信号ＳＳのみを検出するようになるという利点を提供することができる
。

【００４３】本発明による音声検出装置には、アナログ信号を処理する手段を設けることも
できることができることが分かる。その場合、前記エネルギ決定手段はアナログ
受信信号を二乗すると共に該信号を前記評価タイムスロットにわたり積分し、且
つ、斯様にして決定されたアナログエネルギ信号を２つの比較器に供給する。こ
の場合、これら比較器は上記スイッチオン閾検出器及びスイッチオフ閾検出器を
構成することになる。

【００４４】本発明による音声検出装置は、マイクロフォン信号を磁気テープカセット又は
ハードディスク上に記録する口述記録器（ディクテーションマシン）に組み込み
、口述記録の音声により制御される自動起動及び自動停止を可能にするようにす
ることも考えられる。

【００４５】また、本発明による音声検出装置は、音声入力により起動及び停止される他の
マシンに設けることも考えられる。斯様なマシンは、例えば、移動電話である。

【図面の簡単な説明】

【図１】図１は、マイクロフォン及びモニタが接続されると共に音声認識ソフトウェア
が実行されるようなコンピュータであって、該コンピュータが音声検出装置も形
成するようなコンピュータをブロック図として示す。

【図２Ａ】図２Ａは、上記音声認識ソフトウェアが第１及び第２実施例に従い実行される
場合に上記コンピュータにおいて発生する信号及び情報の波形を時間の関数とし
て示す。

【図２Ｂ】図２Ｂは、上記音声認識ソフトウェアが第１及び第２実施例に従い実行される
場合に上記コンピュータにおいて発生する信号及び情報の波形を時間の関数とし
て示す。

【図２Ｃ】図２Ｃは、上記音声認識ソフトウェアが第１及び第２実施例に従い実行される
場合に上記コンピュータにおいて発生する信号及び情報の波形を時間の関数とし
て示す。

【図２Ｄ】図２Ｄは、上記音声認識ソフトウェアが第１及び第２実施例に従い実行される
場合に上記コンピュータにおいて発生する信号及び情報の波形を時間の関数とし
て示す。

【図２Ｅ】図２Ｅは、上記音声認識ソフトウェアが第１実施例に従い実行される場合に上
記コンピュータにおいて発生する信号及び情報の波形を時間の関数として示す。

【図２Ｆ】図２Ｆは、上記音声認識ソフトウェアが第２実施例に従い実行される場合に上
記コンピュータにおいて発生する信号及び情報の波形を時間の関数として示す。

───────────────────────────────────────────────────── 【要約の続き】報（ＤＩ１）が入力されなかった場合にも音声検出情報（ＳＤＩ）の送出を追加的に終了させるように構成され、第３スイッチオフ期間（ＴＡ３）の開始は第１検出情報（ＤＩ１）が入力されなくなった後に第２検出情報（ＤＩ２）が最初に入力される時として決定される。

Claims

【特許請求の範囲】

【請求項１】受信信号における十分に良好な信号対雑音比を有する音声信
号を検出すると共に、音声タイムスロットを決定する音声検出装置であって、該
音声検出装置は、前記受信信号のエネルギ量が第１エネルギ閾値を越える場合に第１検出情報を
送出するスイッチオン閾検出器と、前記受信信号のエネルギ量が前記第１エネルギ閾値より小さな第２エネルギ閾
値に満たない場合に第２検出情報を送出するスイッチオフ閾検出器と、前記第１検出情報及び第２検出情報を入力及び処理し、第１スイッチオフ期間
の間に前記第２検出情報が入力された場合に音声タイムスロットを特徴付ける音
声検出情報の送出を終了させる情報処理手段と、を含むような音声検出装置において、前記情報処理手段は、第２スイッチオフ期間の間前記第１検出情報が入力され
なかった場合、及び／又は第３スイッチオフ期間の間前記第１検出情報が入力さ
れなかった場合にも前記音声検出情報の送出を追加的に終了させるように構成さ
れ、前記第３スイッチオフ期間の開始は前記第１検出情報が入力されなくなった
後に前記第２検出情報が最初に入力される時として決定されることを特徴とする
音声検出装置。
【請求項２】請求項１に記載の音声検出装置において、前記情報処理手段
においては前記第１スイッチオフ期間が前記第２スイッチオフ期間及び／又は前
記第３スイッチオフ期間よりも短いことを特徴とする音声検出装置。
【請求項３】請求項１に記載の音声検出装置において、前記スイッチオン
閾検出器は、前記受信信号のエネルギ量が少なくとも１つのスイッチオン期間の
間前記第１エネルギ閾値より大きい場合に前記第１検出情報を生成するように構
成されていることを特徴とする音声検出装置。
【請求項４】請求項１に記載の音声検出装置において、当該音声検出装置
が、前記第１エネルギ閾値及び／又は第２エネルギ閾値を前記受信信号に含まれ
るノイズ信号のエネルギ量に適応化させるように構成されていることを特徴とす
る音声検出装置。
【請求項５】受信信号における十分に良好な信号対雑音比を有する音声信
号を検出すると共に、音声タイムスロットを決定する音声検出方法であって、該
音声検出方法は、前記受信信号のエネルギ量が第１エネルギ閾値を越える場合に第１検出情報を
送出するステップと、前記受信信号のエネルギ量が前記第１エネルギ閾値より小さな第２エネルギ閾
値に満たない場合に第２検出情報を送出するステップと、前記第１検出情報及び第２検出情報を入力及び処理するステップと、第１スイッチオフ期間の間に前記第２検出情報が入力された場合に音声タイム
スロットを特徴付ける音声検出情報の送出を終了させるステップと、を有するような音声検出方法において、前記終了させるステップは、第２スイッチオフ期間の間前記第１検出情報が入
力されなかった場合、及び／又は第３スイッチオフ期間の間前記第１検出情報が
入力されなかった場合にも前記音声検出情報の送出が追加的に終了されるように
構成され、前記第３スイッチオフ期間の開始は前記第１検出情報が入力されなく
なった後に前記第２検出情報が最初に入力される時として決定されることを特徴
とする音声検出方法。
【請求項６】請求項５に記載の音声検出方法において、前記第１検出情報
は、前記受信信号のエネルギ量が少なくとも１つのスイッチオン期間の間前記第
１エネルギ閾値より大きくなるまで送出されないことを特徴とする音声検出方法
。
【請求項７】請求項５に記載の音声検出方法において、前記第１エネルギ
閾値及び／又は第２エネルギ閾値が、前記受信信号に含まれるノイズ信号のエネ
ルギ量に適応化されることを特徴とする音声検出方法。
【請求項８】デジタルコンピュータの内部メモリに直接ロードすることが
できると共に、ソフトウェアコード部を含むようなコンピュータプログラム製品
において、該製品が前記コンピュータ上で実行された場合に、請求項５に記載の
音声検出方法の前記各ステップが前記コンピュータにより実行されることを特徴
とするコンピュータプログラム製品。
【請求項９】請求項８に記載のコンピュータプログラム製品において、コ
ンピュータにより読み取ることが可能な媒体上に記憶されていることを特徴とす
るコンピュータプログラム製品。