JP2011221544A

JP2011221544A - ２つのスイッチオフ規準を持つ音声検出装置

Info

Publication number: JP2011221544A
Application number: JP2011122008A
Authority: JP
Inventors: Bartosik Heinrich; ヘインリッチバートオシック
Original assignee: Nuance Communications Austria GmbH
Current assignee: Nuance Communications Austria GmbH
Priority date: 2000-01-27
Filing date: 2011-05-31
Publication date: 2011-11-04
Also published as: WO2001056015A1; JP4810044B2; DE60143506D1; ATE489702T1; JP2003521006A; EP1171869B1; EP1171869A1; US6662156B2; US20010012996A1

Abstract

【課題】十分に良好な信号対雑音比を有する音声信号を検出すると共に、音声タイムスロットを決定する。
【解決手段】受信信号のエネルギ量が第１エネルギ閾値を越える場合に第１検出情報を送出するスイッチオン閾検出器１１と、受信信号のエネルギ量が第１エネルギ閾値より小さな第２エネルギ閾値に満たない場合に第２検出情報を送出するスイッチオフ閾検出器１２と、第１スイッチオフ期間の間に第２検出情報が入力された場合に音声タイムスロットを特徴付ける音声検出情報の生成を終了させる情報処理手段１３とを含む。該情報処理手段は、第２スイッチオフ期間の間第１検出情報が入力されなかった場合、及び／又は第３スイッチオフ期間の間第１検出情報が入力されなかった場合にも音声検出情報の送出を追加的に終了させるように構成され、第３スイッチオフ期間の開始は第１検出情報が入力されなくなった後に第２検出情報が最初に入力される時として決定される。
【選択図】図１

Description

本発明は、請求項１の導入部に記載したような音声検出（speech detection）装置、請求項５の導入部に記載したような受信信号における十分に良好な信号対雑音比を持つ音声信号を検出する音声検出方法、及び請求項８の導入部に記載したようなコンピュータプログラム製品に関する。

上記のような音声検出装置、上記のような音声検出方法及び上記のようなコンピュータプログラム製品は、１９９８年から本出願人により“フリースピーチ９８”と呼ばれるコンピュータプログラムとして販売されている音声認識装置の一部として知られている。コンピュータが上記コンピュータプログラム“フリースピーチ９８”を実行し、ユーザが該コンピュータに接続されたマイクロフォンに対して文を口述すると、上記既知の音声認識装置の音声認識手段により認識された該文が上記コンピュータに接続されたモニタ上に表示される。口述の間、ユーザはマイクロフォンに向かって時には滑らかに話し、また時には短い休止を伴いながら話す。ユーザは、時には、マイクロフォンを口から過度に遠くで保持し、これにより該マイクロフォンにより発生される電気マイクロフォン信号の信号対雑音比が悪くなる。従って、所謂音声タイムスロットの間においては、上記マイクロフォン信号はユーザにより話された文に対応する音声信号を含み、所謂休止タイムスロットの間では上記マイクロフォン信号は音声信号を含まないか又は信号対雑音比が劣る音声信号を含むことになる。

上記既知の音声認識装置の音声検出装置には、上記マイクロフォンにより受信信号として又は該受信信号を表す受信データとして送出されるマイクロフォン信号を供給することができる。音声検出装置は、受信信号における音声信号の開始及び終了を検出して、対応する音声タイムスロットを決定する。音声検出装置は音声タイムスロットの間において音声認識手段に音声検出情報を供給し、該音声認識手段は音声タイムスロットの間にマイクロフォンから送出されるマイクロフォン信号のみを処理する。

受信信号における音声信号を検出するために、上記既知の音声検出装置はスイッチオン閾検出器及びスイッチオフ閾検出器を含み、これら検出器は入力信号のエネルギ量（energy content）を第１及び第２エネルギ閾値と比較するが、ここで第１エネルギ閾値は第２エネルギ閾値より高い。受信信号のエネルギ量が第１エネルギ閾値を越えると、上記スイッチオン閾検出器が第１検出情報を発生し、受信信号のエネルギ量が第２エネルギ閾値に達しないと、スイッチオフ閾検出器が第２検出情報を発生する。
音声タイムスロットを決定するために、上記音声検出装置は上記検出情報を入力し且つ処理する情報処理手段を含んでいる。音声タイムスロットのスイッチオンの規準として第１検出情報の発生が検出され、その後音声タイムスロットの開始は上記情報処理手段により、上記スイッチオン規準が満たされる２４０ms前として決定される。第１スイッチオフ期間の間の第２検出情報の中断のない発生は音声タイムスロットのスイッチオフの規準として検出され、その後、音声タイムスロットの終了は上記情報処理手段により上記スイッチオフ規準が満たされた時として決定される。

図１は、マイクロフォン及びモニタが接続されると共に音声認識ソフトウェアが実行されるようなコンピュータであって、該コンピュータが音声検出装置も形成するようなコンピュータをブロック図として示す。Ａは、上記音声認識ソフトウェアが第１及び第２実施例に従い実行される場合に上記コンピュータにおいて発生する信号及び情報の波形を時間の関数として示す。Ｂは、上記音声認識ソフトウェアが第１及び第２実施例に従い実行される場合に上記コンピュータにおいて発生する信号及び情報の波形を時間の関数として示す。Ｃは、上記音声認識ソフトウェアが第１及び第２実施例に従い実行される場合に上記コンピュータにおいて発生する信号及び情報の波形を時間の関数として示す。Ｄは、上記音声認識ソフトウェアが第１及び第２実施例に従い実行される場合に上記コンピュータにおいて発生する信号及び情報の波形を時間の関数として示す。Ｅは、上記音声認識ソフトウェアが第１実施例に従い実行される場合に上記コンピュータにおいて発生する信号及び情報の波形を時間の関数として示す。Ｆは、上記音声認識ソフトウェアが第２実施例に従い実行される場合に上記コンピュータにおいて発生する信号及び情報の波形を時間の関数として示す。

上記既知の音声検出装置、既知の音声検出方法及び既知のコンピュータプログラムは、受信信号のスイッチオフ規準が、該受信信号のエネルギ量が第２エネルギ閾値周辺で変化する場合に満たされないという欠点を有している。斯様な受信信号は、例えばユーザが電話の会話のために口述を中断し、マイクロフォンを机の上に置いたような場合に、音声認識装置に供給される。この電話の会話の間にユーザにより又は室内の他の者により、マイクロフォンから遠く離れた位置で話される言葉は、低い信号対雑音比を持つ音声信号を時々含むようなマイクロフォン信号として該マイクロフォンに供給される。この低い信号対雑音比を持つ音声信号を伴う受信信号は、音声認識装置により音声認識に適した音声信号として誤って検出される。何故なら、音声タイムスロットが当該音声検出装置により終了されていないからである。このようにして、認識されるために供給されたものでは全くない音声信号が、音声認識手段により、上記の低い信号対雑音比による当該音声認識装置の悪い認識率で処理され、殆どの場合誤った文が認識される。

本発明の目的は、上述したような問題を取り除き、冒頭で述べたような形式の音声検出装置、音声検出方法及びコンピュータプログラム製品であって、音声タイムスロットを高信頼度で終了させるために第２スイッチオフ規準が設けられたような音声検出装置、音声検出方法及びコンピュータプログラム製品を提供することにある。この目的は、上記のような音声検出装置によれば請求項１の特徴部の対策により達成され、上記のような音声検出方法によれば請求項５の特徴部の対策により達成され、上記のようなコンピュータプログラム製品によれば請求項８の特徴部の対策により達成される。

これによれば、情報処理手段において、第２スイッチオフ期間の間の第１検出情報の中断されない欠落が音声タイムスロットを終了させる第２スイッチオフ規準として検出され、その後、該音声タイムスロットの終了が上記情報処理手段により該第２スイッチオフ規準が満たされるかに応じて決定されるようになる。この第２スイッチオフ規準に加えて、又は該規準の代わりに、上記情報処理手段は第３スイッチオフ規準も検証することができ、該第３スイッチオフ規準によれば、第１検出情報が受信されなくなった後第２検出情報が最初に入力されてから第３スイッチオフ期間の間に該第１検出情報が入力されなかったかが判定される。

上記第２及び／又は第３スイッチオフ規準に依存して音声タイムスロットを終了させることは、例えば、上述したような作業状況が発生し、受信信号が前記閾の周辺で変化するような場合においても、良好な信号対雑音比を有する１つの音声信号のみが音声認識装置により音声認識のために高信頼度で使用されるという利点を提供する。

請求項２に記載の対策によれば高信頼度の第２スイッチオフ規準が得られ、請求項３に記載の対策によれば音声タイムスロット用の高信頼度のスイッチオン規準が得られる。請求項４に記載の対策は、スイッチオン閾検出器及びスイッチオフ閾検出器のエネルギ閾値を受信信号におけるエネルギ量に適応させるので、良好な信号対雑音比を持つ音声信号の検出が改善される。

以下、本発明を図に示す２つの実施例を参照して説明するが、本発明は、これら実施例に限定されるものではない。

図１は、コンピュータプログラム製品をロードすることが可能な内部メモリを有するコンピュータを示し、該プログラム製品はソフトウェアコード部を有すると共に音声認識ソフトウェアにより形成されている。該コンピュータ１が音声認識ソフトウェアを処理する場合、該コンピュータ１は音声信号に割り当てられるべき文章情報を認識する音声認識装置を形成する。

該コンピュータ１のオーディオポート２にはマイクロフォン３を接続することができ、該マイクロフォンにはユーザが文又は命令を口述することができ、該マイクロフォンによりマイクロフォン信号ＭＳをコンピュータ１に供給することができる。マイクロフォン３に向かって、ユーザは時には文を滑らかに話し、時には短い休止を伴って文を話す。ユーザは時にはマイクロフォン３を口から遠くに離して保持し、その場合には、該マイクロフォンにより送出されるマイクロフォン信号ＭＳの信号対雑音比は相対的に悪くなる。従って、所謂音声タイムスロットＴＳの間ではマイクロフォン信号ＭＳはユーザにより話された文に対応する音声信号ＳＳを含み、所謂休止タイムスロットＴＰにおいては音声信号ＳＳを含まないか又は音声認識装置により処理されるのには適さない、劣った信号対雑音比の音声信号ＳＳを含むことになる。マイクロフォン３によりオーディオポート２を介してコンピュータ１に供給される斯様なマイクロフォン信号ＭＳは、入力信号としてコンピュータ１へ、従って当該音声認識装置へ処理されるべく供給することができる。図２Ａは斯様なマイクロフォン信号を時間の関数として示すが、該信号に関しては後に更に説明する。

コンピュータ１のモニタポート４にはモニタ５を接続することができ、該モニタにより当該音声認識装置により認識された文ＴＸを表示することができる。この目的のため、認識された文を表すテキスト情報ＴＩをモニタポート４からモニタ５に伝送することができる。

前記マイクロフォン信号ＭＳはオーディオポート２からＡ／Ｄ変換器６に供給することができる。該Ａ／Ｄ変換器６は、通常知られているように、該Ａ／Ｄ変換器６に供給される上記マイクロフォン信号ＭＳをデジタル化するように構成されている。Ａ／Ｄ変換器６は、マイクロフォン信号ＭＳに含まれるユーザにより話された文の情報を含む受信データＥＤを生成することができる。

当該音声認識装置は、更に、Ａ／Ｄ変換器６により送出される上記受信データＥＤを供給することが可能な記憶手段７を含んでいる。コンピュータ１における該記憶装置７は、ハードディスクにより形成され、該ハードディスクに供給される受信データＥＤを記憶するように構成されている。該記憶手段７に供給された受信データＥＤは、音声検出情報ＳＤＩが入力された場合にのみ永久に記憶されるが、これについては後述する。

当該音声認識装置は更に音声検出装置８を含み、該音声検出装置にもＡ／Ｄ変換器６により送出される受信データＥＤを供給することができる。該音声検出装置８は受信データＥＤを評価することによりタイムスロットを検出するように構成され、該タイムスロットの間においては上記マイクロフォン信号ＭＳは十分に良好な信号対雑音比を有するような音声信号ＳＳを含む。このようなタイムスロットが検出された場合、音声検出装置８は適切な音声タイムスロットＴＳを決定するが、これについては後に詳述する。

更に、当該音声認識装置は上記マイクロフォン信号ＭＳのうちの音声タイムスロットＴＳの間に受信された部分のみを評価する。何故なら、マイクロフォン信号ＭＳのこれらの部分のみが、ユーザにより話された文の正しく評価することができる情報を含むからである。音声タイムスロットＴＳを特徴付けるために、音声検出装置８は音声検出情報ＳＤＩを記憶手段７に供給し、該記憶手段は結果としてユーザにより話された文の、当該音声認識装置により正しく評価することができる情報を含む受信データＥＤのみを記憶する。

コンピュータ１により形成される当該音声認識装置は、更に、音声認識手段９を含み、該音声認識手段により音声認識方法が実行されて、記憶手段７に記憶された受信データＥＤを評価する。この目的のため、音声認識手段９により記憶手段７に対して活性化情報ＡＩを供給して、記憶手段７に永久的に記憶された受信データＥＤの送出を可能にする。音声認識手段９のような斯かる音声認識手段の構成及び動作方法、並びに音声認識手段９において実行されるような音声認識方法のステップは、長く知られており、例えば文献国際特許公開公報ＷＯ９９／３５６４０等に開示されている。

ユーザがマイクロフォン３に向かって文を話すと、例えば図２Ａに示すようなマイクロフォン信号ＭＳがコンピュータ１により形成された当該音声認識装置に供給される。図２Ａに示すマイクロフォン信号ＭＳは、時間区間として、第１音声信号ＳＳ１、第２音声信号ＳＳ２、第３音声信号ＳＳ３及びノイズ信号ＲＳを含んでいる。第３音声信号ＳＳ３は、雑音信号ＲＳと比較して、比較的低いエネルギ量を有している。何故なら、ユーザが該文を話した際にマイクロフォン３を口から過度に離して保持したからである。従って、第３音声信号ＳＳ３の信号対雑音比は劣り、それ故、該第３音声信号は音声処理手段９で正しく処理するには不適である。

音声検出装置８の目的は、マイクロフォン信号ＭＳが第１音声信号ＳＳ１及び第２音声信号ＳＳ２を含むような音声タイムスロットＴＳを決定して、これら音声信号ＳＳ１及びＳＳ２に含まれる情報を音声認識手段９が処理するのを可能にすることである。残りのタイムスロットは音声検出装置８により、マイクロフォン信号ＭＳがノイズ信号ＲＳ及び第３音声信号ＳＳ３を含む休止タイムスロットＰＳとして決定されるべきである。音声検出装置８により決定された休止タイムスロットＰＳの間においては、音声検出装置８により記憶手段７には何の音声検出情報ＳＤＩも供給されない。

この目的を達成するため、音声検出装置８は、エネルギ平均化手段１０、スイッチオン閾検出器１１、スイッチオフ閾検出器１２及び情報処理手段１３を含んでいる。Ａ／Ｄ変換器６により送出することができる受信データＥＤは、エネルギ決定手段１０に供給することができる。該エネルギ決定手段１０は、評価タイムスロット毎に、受信データＥＤの評価によりマイクロフォンＭＳに含まれるエネルギ量を決定する。ここでは、評価タイムスロットは２０ミリ秒である。受信データＥＤはデジタルドメインで評価される。これはアナログドメインではマイクロフォン信号ＭＳの二乗及び該二乗されたマイクロフォン信号の各評価タイムスロットにわたる積分に相当するであろうのと同様である。専門家は、斯様なデジタルドメインでのデータの評価には長い間馴染みがある。斯様にして決定されたエネルギ情報ＥＩはエネルギ決定手段１０によりスイッチオン閾検出器１１及びスイッチオフ閾検出器１２に供給することができるが、該情報はマイクロフォン信号ＭＳのエネルギ量を特徴付けている。

図２Ｂは、エネルギ決定手段１０により決定された図２Ａに示すマイクロフォン信号ＭＳのエネルギ情報ＥＩを時間の関数として示している。マイクロフォン信号ＭＳに含まれる音声信号ＳＳ１及びＳＳ２がノイズ信号ＲＳ及び第３音声信号ＳＳ３より大きなエネルギ量を含むことを検出することができ、その結果、これら音声信号ＳＳ１及びＳＳ２の検出がエネルギ情報ＥＩの評価により可能となる。

この目的のため、スイッチオン閾検出器１１は、該スイッチオン閾検出器１１に供給されるエネルギ情報ＥＩの値を、図２Ｂに示すような当該スイッチオン閾検出器１１に記憶された第１エネルギ閾値ＥＳ１と連続的に比較する。スイッチオン閾検出器１１は、マイクロフォン信号ＭＳのエネルギ量が第１エネルギ閾値ＥＳ１より大きい場合に第１検出情報ＤＩ１を生成するように構成されている。図２Ａに示すマイクロフォン信号ＭＳが当該音声認識装置により受信された場合に上記スイッチオン閾検出器１１により生成される第１検出情報ＤＩ１の時間の関数としての波形が、図２Ｃに示されている。

更に、スイッチオフ閾検出器１２は、該スイッチオフ閾検出器１２に供給されるエネルギ情報ＥＩの値を、図２Ｂに示すような当該スイッチオフ閾検出器１２に記憶された第２エネルギ閾値ＥＳ２と連続的に比較する。スイッチオフ閾検出器１２は、マイクロフォン信号ＭＳのエネルギ量が第２エネルギ閾値ＥＳ２より小さい場合に第２検出情報ＤＩ２を送出するように構成されている。図２Ａに示すマイクロフォン信号ＭＳが当該音声認識装置により受信された場合に上記スイッチオフ閾検出器１２により送出される第２検出情報ＤＩ２の時間の関数としての波形が、図２Ｄに示されている。

情報処理装置１３には、第１検出情報ＤＩ１と第２検出情報ＤＩ２とを供給することができる。該情報処理装置１３は、該装置に供給される上記検出情報ＤＩ１及びＤＩ２を評価し、音声タイムスロットＴＳを決定し、及び決定された音声タイムスロットＴＳの間に音声検出情報ＳＤＩを送出するように構成されている。

以下においては、本発明の第１実施例による情報処理手段１３の動作方法が例示として説明される。該例によれば、情報処理手段１３は図２Ｃ及び図２Ｄに示す検出情報ＤＩ１及びＤＩ２を評価し、その後該情報処理装置１３により、図２Ｅに波形が時間の関数として表されたような音声検出情報ＳＤＩが送出される。

時点ｔ１から、情報処理手段１３は第１検出情報ＤＩ１を入力し、時点ｔ２において情報処理手段１３は、第１検出情報ＤＩ１がスイッチオン期間ＴＥにわたり入力されたことを確定する。結果として、スイッチオン規準が第１音声タイムスロットに関して満足されるが、これが音声検出情報ＳＤＩ１により特徴付けられている。該第１音声タイムスロットの開始は、該情報処理手段１３により、上記時点ｔ１より進み期間ＴＶだけ早い時点ｔ３において定められる。

上記スイッチオン期間ＴＥの間待つことは、例えばマイクロフォン３を机の上に置く場合に発生し得るような、短い大きい雑音のマイクロフォン信号ＭＳの短い大振幅が当該情報処理手段１３により誤って音声信号ＳＳとして検出されることがないという利点を提供する。第１音声タイムスロットの始点を上記進み期間ＴＶだけ進めて配置することにより、マイクロフォン信号ＭＳにおいて検出された第１音声信号ＳＳ１の受信データＥＤが、第１エネルギ閾値ＥＳ１に到達する前に、記憶手段７に記憶され、後に音声認識手段９により更に処理されるという利点が得られる。これにより、全ての第１音声信号ＳＳ１の受信データＥＤが記憶されると共に、該第１音声信号ＳＳ１の開始が音声認識手段９による処理から失われることがなくなる。上述した２つの対策は、当該音声認識装置の認識率を有利に改善する。

スイッチオン規準が満足された後に、上記進み期間ＴＶ及びスイッチオン期間ＴＥだけ進められた受信データＥＤの記憶に届くよう、記憶手段７に供給される受信データＥＤは、常に、該記憶手段７の受信バッファに記憶される。進み期間ＴＶ及びスイッチオン期間ＴＥの間に、予想される受信データＥＤは上記受信バッファに短期間記憶することができ、次いで、該データＥＤは、スイッチオン規準が満たされる時点ｔ２において記憶手段７に永久的に記憶することができる。

情報処理手段１３は時点ｔ４において該第１音声タイムスロットの終了を決定するようになっており、その際、該第１音声タイムスロットは音声期間ＴＳ１を有するようになる。時点ｔ４において第１スイッチオフ規準が満足されるが、該規準によれば第１スイッチオフ期間ＴＡ１にわたり第２検出情報ＤＩ２が情報処理手段１３により中断無く入力されねばならない。図２Ｅに示すように、時点ｔ３から時点ｔ４まで、記憶されるべき第１音声信号ＳＳ１の受信データＥＤに対して、音声検出情報ＳＤＩ１が記憶手段７に供給される。

第１音声タイムスロットの終了の上述したような方法による決定は、音声信号ＳＳのエネルギ量が短期間に非常に小さい場合に、第１音声タイムスロットが誤って早く終了されて、該第１音声信号ＳＳ１の最後の部分の受信データＥＤが音声認識手段９に処理されるべく供給されなくなることがないであろうという利点を提供する。音声信号ＳＳの斯様な短い非常に小さなエネルギ量は、“ｔ”又は“ｐ”のような子音が発音される場合、及びマイクロフォン信号ＭＳの短い中断がある場合等に発生し得る。

図２の実施例によれば、情報処理手段１３は、第１休止期間ＴＰ１の後、第１音声タイムスロットに関して上述したのと同様にして、時点ｔ５を第２音声タイムスロットの開始と判定する。該第２音声タイムスロットの間、マイクロフォン信号ＭＳは第２音声信号ＳＳ２を含み、該第２音声信号には第３音声信号ＳＳ３が後続する。第３音声信号ＳＳ３のエネルギ量は第２エネルギ閾値ＥＳ２付近で変化し、その際、第１スイッチオフ期間ＴＡ１より短い期間ＴＫの間だけ第２検出情報ＤＩ２が入力される。従って、第３音声信号ＳＳ３の間では第１スイッチオフ規準は満たされず、結果として第２音声タイムスロットは情報処理手段１３により終了されないであろう。

本発明の第１実施例による情報処理手段１３は、ここで、第２スイッチオフ規準が満たされるかを判定するように構成されている。該第２スイッチオフ規準は、第２スイッチオフ期間ＴＡ２の間に第１検出情報ＤＩ１が入力されなかった場合に満たされる。時点ｔ６以降、情報処理手段１３は、最早、第１検出情報ＤＩ１を入力することはなく、その結果、情報処理手段１３は時点ｔ７において該第２スイッチオフ規準の存在を確定する。図２Ｅに示すように、時点ｔ５から時点ｔ７までの第２音声タイムスロットＴＳ２の間、第２の音声検出情報ＳＤＩ２が記憶手段７に供給されて、時点ｔ５以降第２音声信号ＳＳ２の受信データＥＤを記憶する。

結果として、ノイズ信号ＲＳのみ又は悪い信号対雑音比を持つ第３音声信号ＳＳ３のみを含むマイクロフォン信号ＭＳの受信データＥＤは音声認識手段９に供給されず、これにより該音声認識手段９による誤った文の認識が防止されるという利点が得られる。

以下においては、本発明による追加の対策及びそれらの利点を、本発明の第２実施例を参照して説明する。該第２実施例による音声検出装置は、上記第１実施例による図１に示した音声検出装置８に相当するが、該第２実施例による情報処理手段は第１スイッチオフ規準又は第３スイッチオフ規準が満たされるかを検証するように構成されている。第３スイッチオフ規準は、第３スイッチオフ期間ＴＡ３の間に第１検出情報ＤＩ１が入力されなかった場合に満たされるが、該第３スイッチオフ期間ＴＡ３の開始は、第１検出情報ＤＩ１が無くなった後、次いで第２検出情報ＤＩ２が入力された場合に検出される。

以下においては、本発明の第２実施例による情報処理手段の動作方法が例示により説明される。この例によれば、図２Ａに示すマイクロフォン信号ＭＳが当該音声認識装置に供給され、図２Ｃ及び２Ｄに示す検出情報ＤＩ１及びＤＩ２が上記情報処理手段により評価される。該第２実施例に基づく情報処理手段による評価の結果、該情報処理手段は、図２Ｆに示すようなパターンの音声検出情報ＳＤＩを記憶手段７に供給する。

当該情報処理手段は、第３音声期間ＴＳ３を持つ第３の音声検出情報ＳＤＩ３により特徴付けられ、本発明の第１実施例による前記第１音声タイムスロットに相当するような第３音声タイムスロットを決定する。この第３音声タイムスロットの開始は前記スイッチオン規準により決定され、該第３音声タイムスロットの終了は前記第１スイッチオフ規準により決定される。第２休止期間ＴＰ２の後、該第２実施例による情報処理手段は、上記スイッチオン規準が満たされる時点ｔ５において第４音声タイムスロットの開始を決定する。

時点ｔ６以降では、当該情報処理手段は、最早、第１検出情報ＤＩ１を入力せず、時点ｔ８において、第１検出情報ＤＩ１が無くなった後の第２検出情報ＤＩ２を入力する。時点ｔ９において、当該情報処理手段は、時点ｔ８から第３スイッチオフ期間ＴＡ３にわたって第１検出情報ＤＩ１が入力されず、従って第３スイッチオフ規準が満たされたことを確定する。続いて、該時点ｔ９において、当該情報処理手段は音声期間ＴＳ４を持つ第４音声タイムスロットの終了を決定する。この第４音声タイムスロットを特徴付けるため、第４の音声検出情報ＳＤＩ４が記憶手段７に供給される。

このようにして、該第２実施例による情報処理手段により第３スイッチオフ規準が判定されるという事実は、ノイズ信号ＲＳのみ又は悪い信号対雑音比を持つ第３音声信号ＳＳ３のみを含むマイクロフォン信号ＭＳの受信データＥＤが音声認識手段９に供給されず、これにより該音声認識手段９による誤った文の認識が防止されるという利点を提供する。

音声検出情報ＳＤＩが前記スイッチオン閾検出器及びスイッチオフ閾検出器に供給されるようにすることが考えられる。その場合、これら閾検出器は、休止タイムスロットＴＰにおけるエネルギ情報ＥＩを評価して、休止タイムスロットＴＰの間においてマイクロフォン信号ＭＳに含まれるノイズ信号ＲＳのエネルギ量に対する第１及び第２エネルギ閾値を適応化するように構成することができる。

これは、当該音声検出装置が、例えば大きな背景雑音の結果として口述の間にノイズ信号ＲＳのエネルギ量が変化するような場合にも、良好な信号対雑音比を持つ音声信号ＳＳのみを検出するようになるという利点を提供することができる。

本発明による音声検出装置には、アナログ信号を処理する手段を設けることもできることができることが分かる。その場合、前記エネルギ決定手段はアナログ受信信号を二乗すると共に該信号を前記評価タイムスロットにわたり積分し、且つ、斯様にして決定されたアナログエネルギ信号を２つの比較器に供給する。この場合、これら比較器は上記スイッチオン閾検出器及びスイッチオフ閾検出器を構成することになる。

本発明による音声検出装置は、マイクロフォン信号を磁気テープカセット又はハードディスク上に記録する口述記録器（ディクテーションマシン）に組み込み、口述記録の音声により制御される自動起動及び自動停止を可能にするようにすることも考えられる。

また、本発明による音声検出装置は、音声入力により起動及び停止される他のマシンに設けることも考えられる。斯様なマシンは、例えば、移動電話である。

いくつかの態様を記載しておく。
〔態様１〕受信信号における十分に良好な信号対雑音比を有する音声信号を検出すると共に、音声タイムスロットを決定する音声検出装置であって、該音声検出装置は、
前記受信信号のエネルギ量が第１エネルギ閾値を越える場合に第１検出情報を送出するスイッチオン閾検出器と、
前記受信信号のエネルギ量が前記第１エネルギ閾値より小さな第２エネルギ閾値に満たない場合に第２検出情報を送出するスイッチオフ閾検出器と、
前記第１検出情報及び第２検出情報を入力及び処理し、第１スイッチオフ期間の間に前記第２検出情報が入力された場合に音声タイムスロットを特徴付ける音声検出情報の送出を終了させる情報処理手段と、
を含むような音声検出装置において、
前記情報処理手段は、第２スイッチオフ期間の間前記第１検出情報が入力されなかった場合、及び／又は第３スイッチオフ期間の間前記第１検出情報が入力されなかった場合にも前記音声検出情報の送出を追加的に終了させるように構成され、前記第３スイッチオフ期間の開始は前記第１検出情報が入力されなくなった後に前記第２検出情報が最初に入力される時として決定されることを特徴とする音声検出装置。
〔態様２〕態様１に記載の音声検出装置において、前記情報処理手段においては前記第１スイッチオフ期間が前記第２スイッチオフ期間及び／又は前記第３スイッチオフ期間よりも短いことを特徴とする音声検出装置。
〔態様３〕態様１に記載の音声検出装置において、前記スイッチオン閾検出器は、前記受信信号のエネルギ量が少なくとも１つのスイッチオン期間の間前記第１エネルギ閾値より大きい場合に前記第１検出情報を生成するように構成されていることを特徴とする音声検出装置。
〔態様４〕態様１に記載の音声検出装置において、当該音声検出装置が、前記第１エネルギ閾値及び／又は第２エネルギ閾値を前記受信信号に含まれるノイズ信号のエネルギ量に適応化させるように構成されていることを特徴とする音声検出装置。
〔態様５〕受信信号における十分に良好な信号対雑音比を有する音声信号を検出すると共に、音声タイムスロットを決定する音声検出方法であって、該音声検出方法は、
前記受信信号のエネルギ量が第１エネルギ閾値を越える場合に第１検出情報を送出するステップと、
前記受信信号のエネルギ量が前記第１エネルギ閾値より小さな第２エネルギ閾値に満たない場合に第２検出情報を送出するステップと、
前記第１検出情報及び第２検出情報を入力及び処理するステップと、
第１スイッチオフ期間の間に前記第２検出情報が入力された場合に音声タイムスロットを特徴付ける音声検出情報の送出を終了させるステップと、
を有するような音声検出方法において、
前記終了させるステップは、第２スイッチオフ期間の間前記第１検出情報が入力されなかった場合、及び／又は第３スイッチオフ期間の間前記第１検出情報が入力されなかった場合にも前記音声検出情報の送出が追加的に終了されるように構成され、前記第３スイッチオフ期間の開始は前記第１検出情報が入力されなくなった後に前記第２検出情報が最初に入力される時として決定されることを特徴とする音声検出方法。
〔態様６〕態様５に記載の音声検出方法において、前記第１検出情報は、前記受信信号のエネルギ量が少なくとも１つのスイッチオン期間の間前記第１エネルギ閾値より大きくなるまで送出されないことを特徴とする音声検出方法。
〔態様７〕態様５に記載の音声検出方法において、前記第１エネルギ閾値及び／又は第２エネルギ閾値が、前記受信信号に含まれるノイズ信号のエネルギ量に適応化されることを特徴とする音声検出方法。
〔態様８〕デジタルコンピュータの内部メモリに直接ロードすることができると共に、ソフトウェアコード部を含むようなコンピュータプログラムにおいて、該コンピュータプログラムが前記デジタルコンピュータ上で実行された場合に、態様５に記載の音声検出方法の前記各ステップが前記デジタルコンピュータにより実行されることを特徴とするコンピュータプログラム。
〔態様９〕態様８に記載のコンピュータプログラムが記憶されている、コンピュータにより読み取ることが可能な媒体。

Claims

受信信号における十分に良好な信号対雑音比を有する音声信号を検出すると共に、音声タイムスロットを決定する音声検出装置であって、該音声検出装置は、
前記受信信号のエネルギ量が第１エネルギ閾値を越える場合に第１検出情報を送出するスイッチオン閾検出器と、
前記受信信号のエネルギ量が前記第１エネルギ閾値より小さな第２エネルギ閾値に満たない場合に第２検出情報を送出するスイッチオフ閾検出器と、
前記第１検出情報及び第２検出情報を入力及び処理し、第１スイッチオフ期間の間に前記第２検出情報が入力された場合に音声タイムスロットを特徴付ける音声検出情報の送出を終了させる情報処理手段と、
を含むような音声検出装置において、
前記情報処理手段は、第２スイッチオフ期間の間前記第１検出情報が入力されなかった場合、及び／又は第３スイッチオフ期間の間前記第１検出情報が入力されなかった場合にも前記音声検出情報の送出を追加的に終了させるように構成され、前記第３スイッチオフ期間の開始は前記第１検出情報が入力されなくなった後に前記第２検出情報が最初に入力される時として決定されることを特徴とする音声検出装置。