JP2003521006A - 2つのスイッチオフ規準を持つ音声検出装置 - Google Patents

2つのスイッチオフ規準を持つ音声検出装置

Info

Publication number
JP2003521006A
JP2003521006A JP2001555084A JP2001555084A JP2003521006A JP 2003521006 A JP2003521006 A JP 2003521006A JP 2001555084 A JP2001555084 A JP 2001555084A JP 2001555084 A JP2001555084 A JP 2001555084A JP 2003521006 A JP2003521006 A JP 2003521006A
Authority
JP
Japan
Prior art keywords
voice
switch
detection information
energy
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001555084A
Other languages
English (en)
Other versions
JP4810044B2 (ja
JP2003521006A5 (ja
Inventor
ヘインリッチ バートオシック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Publication of JP2003521006A publication Critical patent/JP2003521006A/ja
Publication of JP2003521006A5 publication Critical patent/JP2003521006A5/ja
Application granted granted Critical
Publication of JP4810044B2 publication Critical patent/JP4810044B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Time-Division Multiplex Systems (AREA)

Abstract

(57)【要約】 受信信号(MS)における十分に良好な信号対雑音比を有する音声信号(SS1、SS2)を検出すると共に、音声タイムスロット(TS1、TS2、TS3、TS4)を決定する本発明による音声検出装置(8)には、受信信号(MS)のエネルギ量が第1エネルギ閾値(ES1)を越える場合に第1検出情報(DI1)を送出するスイッチオン閾検出器(11)と、受信信号(MS)のエネルギ量が第1エネルギ閾値(ES1)より小さな第2エネルギ閾値(ES2)に満たない場合に第2検出情報(DI2)を送出するスイッチオフ閾検出器(12)と、第1検出情報(DI1)及び第2検出情報(DI2)を入力及び処理し、第1スイッチオフ期間(TA1)の間に第2検出情報(DI2)が入力された場合に音声タイムスロット(TS1、TS2、TS3、TS4)を特徴付ける音声検出情報(SDI)の生成を終了させる情報処理手段(13)とが含まれる。該情報処理手段(13)は、第2スイッチオフ期間(TA2)の間第1検出情報(DI1)が入力されなかった場合、及び/又は第3スイッチオフ期間(TA3)の間第1検出情報(DI1)が入力されなかった場合にも音声検出情報(SDI)の送出を追加的に終了させるように構成され、第3スイッチオフ期間(TA3)の開始は第1検出情報(DI1)が入力されなくなった後に第2検出情報(DI2)が最初に入力される時として決定される。

Description

【発明の詳細な説明】
【0001】
【技術分野】
本発明は、請求項1の導入部に記載したような音声検出装置、請求項5の導入
部に記載したような受信信号における十分に良好な信号対雑音比を持つ音声信号
を検出する音声検出方法、及び請求項8の導入部に記載したようなコンピュータ
プログラム製品に関する。
【0002】
【背景技術】
上記のような音声検出装置、上記のような音声検出方法及び上記のようなコン
ピュータプログラム製品は、1998年から本出願人により “フリースピーチ
98”と呼ばれるコンピュータプログラムとして販売されている音声認識装置の
一部として知られている。コンピュータが上記コンピュータプログラム“フリー
スピーチ98”を実行し、ユーザが該コンピュータに接続されたマイクロフォン
に対して文を口述すると、上記既知の音声認識装置の音声認識手段により認識さ
れた該文が上記コンピュータに接続されたモニタ上に表示される。口述の間、ユ
ーザはマイクロフォンに向かって時には滑らかに話し、また時には短い休止を伴
いながら話す。ユーザは、時には、マイクロフォンを口から過度に遠くで保持し
、これにより該マイクロフォンにより発生される電気マイクロフォン信号の信号
対雑音比が悪くなる。従って、所謂音声タイムスロットの間においては、上記マ
イクロフォン信号はユーザにより話された文に対応する音声信号を含み、所謂休
止タイムスロットの間では上記マイクロフォン信号は音声信号を含まないか又は
信号対雑音比が劣る音声信号を含むことになる。
【0003】 上記既知の音声認識装置の音声検出装置には、上記マイクロフォンにより受信
信号として又は該受信信号を表す受信データとして送出されるマイクロフォン信
号を供給することができる。音声検出装置は、受信信号における音声信号の開始
及び終了を検出して、対応する音声タイムスロットを決定する。音声検出装置は
音声タイムスロットの間において音声認識手段に音声検出情報を供給し、該音声
認識手段は音声タイムスロットの間にマイクロフォンから送出されるマイクロフ
ォン信号のみを処理する。
【0004】 受信信号における音声信号を検出するために、上記既知の音声検出装置はスイ
ッチオン閾検出器及びスイッチオフ閾検出器を含み、これら検出器は入力信号の
エネルギ量(energy content)を第1及び第2エネルギ閾値と比較するが、ここ
で第1エネルギ閾値は第2エネルギ閾値より高い。受信信号のエネルギ量が第1
エネルギ閾値を越えると、上記スイッチオン閾検出器が第1検出情報を発生し、
受信信号のエネルギ量が第2エネルギ閾値に達しないと、スイッチオフ閾検出器
が第2検出情報を発生する。
【0005】 音声タイムスロットを決定するために、上記音声検出装置は上記検出情報を入
力し且つ処理する情報処理手段を含んでいる。音声タイムスロットのスイッチオ
ンの規準として第1検出情報の発生が検出され、その後音声タイムスロットの開
始は上記情報処理手段により、上記スイッチオン規準が満たされる240ms前と
して決定される。第1スイッチオフ期間の間の第2検出情報の中断のない発生は
音声タイムスロットのスイッチオフの規準として検出され、その後、音声タイム
スロットの終了は上記情報処理手段により上記スイッチオフ規準が満たされた時
として決定される。
【0006】 上記既知の音声検出装置、既知の音声検出方法及び既知のコンピュータプログ
ラムは、受信信号のスイッチオフ規準が、該受信信号のエネルギ量が第2エネル
ギ閾値周辺で変化する場合に満たされないという欠点を有している。斯様な受信
信号は、例えばユーザが電話の会話のために口述を中断し、マイクロフォンを机
の上に置いたような場合に、音声認識装置に供給される。この電話の会話の間に
ユーザにより又は室内の他の者により、マイクロフォンから遠く離れた位置で話
される言葉は、低い信号対雑音比を持つ音声信号を時々含むようなマイクロフォ
ン信号として該マイクロフォンに供給される。この低い信号対雑音比を持つ音声
信号を伴う受信信号は、音声認識装置により音声認識に適した音声信号として誤
って検出される。何故なら、音声タイムスロットが当該音声検出装置により終了
されていないからである。このようにして、認識されるために供給されたもので
は全くない音声信号が、音声認識手段により、上記の低い信号対雑音比による当
該音声認識装置の悪い認識率で処理され、殆どの場合誤った文が認識される。
【0007】
【発明の開示】
本発明の目的は、上述したような問題を取り除き、冒頭で述べたような形式の
音声検出装置、音声検出方法及びコンピュータプログラム製品であって、音声タ
イムスロットを高信頼度で終了させるために第2スイッチオフ規準が設けられた
ような音声検出装置、音声検出方法及びコンピュータプログラム製品を提供する
ことにある。この目的は、上記のような音声検出装置によれば請求項1の特徴部
の対策により達成され、上記のような音声検出方法によれば請求項5の特徴部の
対策により達成され、上記のようなコンピュータプログラム製品によれば請求項
8の特徴部の対策により達成される。
【0008】 これによれば、情報処理手段において、第2スイッチオフ期間の間の第1検出
情報の中断されない欠落が音声タイムスロットを終了させる第2スイッチオフ規
準として検出され、その後、該音声タイムスロットの終了が上記情報処理手段に
より該第2スイッチオフ規準が満たされるかに応じて決定されるようになる。こ
の第2スイッチオフ規準に加えて、又は該規準の代わりに、上記情報処理手段は
第3スイッチオフ規準も検証することができ、該第3スイッチオフ規準によれば
、第1検出情報が受信されなくなった後第2検出情報が最初に入力されてから第
3スイッチオフ期間の間に該第1検出情報が入力されなかったかが判定される。
【0009】 上記第2及び/又は第3スイッチオフ規準に依存して音声タイムスロットを終
了させることは、例えば、上述したような作業状況が発生し、受信信号が前記閾
の周辺で変化するような場合においても、良好な信号対雑音比を有する1つの音
声信号のみが音声認識装置により音声認識のために高信頼度で使用されるという
利点を提供する。
【0010】 請求項2に記載の対策によれば高信頼度の第2スイッチオフ規準が得られ、請
求項3に記載の対策によれば音声タイムスロット用の高信頼度のスイッチオン規
準が得られる。請求項4に記載の対策は、スイッチオン閾検出器及びスイッチオ
フ閾検出器のエネルギ閾値を受信信号におけるエネルギ量に適応させるので、良
好な信号対雑音比を持つ音声信号の検出が改善される。
【0011】
【発明を実施するための最良の形態】
以下、本発明を図に示す2つの実施例を参照して説明するが、本発明は、これ
ら実施例に限定されるものではない。
【0012】 図1は、コンピュータプログラム製品をロードすることが可能な内部メモリを
有するコンピュータを示し、該プログラム製品はソフトウェアコード部を有する
と共に音声認識ソフトウェアにより形成されている。該コンピュータ1が音声認
識ソフトウェアを処理する場合、該コンピュータ1は音声信号に割り当てられる
べき文章情報を認識する音声認識装置を形成する。
【0013】 該コンピュータ1のオーディオポート2にはマイクロフォン3を接続すること
ができ、該マイクロフォンにはユーザが文又は命令を口述することができ、該マ
イクロフォンによりマイクロフォン信号MSをコンピュータ1に供給することが
できる。マイクロフォン3に向かって、ユーザは時には文を滑らかに話し、時に
は短い休止を伴って文を話す。ユーザは時にはマイクロフォン3を口から遠くに
離して保持し、その場合には、該マイクロフォンにより送出されるマイクロフォ
ン信号MSの信号対雑音比は相対的に悪くなる。従って、所謂音声タイムスロッ
トTSの間ではマイクロフォン信号MSはユーザにより話された文に対応する音
声信号SSを含み、所謂休止タイムスロットTPにおいては音声信号SSを含ま
ないか又は音声認識装置により処理されるのには適さない、劣った信号対雑音比
の音声信号SSを含むことになる。マイクロフォン3によりオーディオポート2
を介してコンピュータ1に供給される斯様なマイクロフォン信号MSは、入力信
号としてコンピュータ1へ、従って当該音声認識装置へ処理されるべく供給する
ことができる。図2Aは斯様なマイクロフォン信号を時間の関数として示すが、
該信号に関しては後に更に説明する。
【0014】 コンピュータ1のモニタポート4にはモニタ5を接続することができ、該モニ
タにより当該音声認識装置により認識された文TXを表示することができる。こ
の目的のため、認識された文を表すテキスト情報TIをモニタポート4からモニ
タ5に伝送することができる。
【0015】 前記マイクロフォン信号MSはオーディオポート2からA/D変換器6に供給
することができる。該A/D変換器6は、通常知られているように、該A/D変
換器6に供給される上記マイクロフォン信号MSをデジタル化するように構成さ
れている。A/D変換器6は、マイクロフォン信号MSに含まれるユーザにより
話された文の情報を含む受信データEDを生成することができる。
【0016】 当該音声認識装置は、更に、A/D変換器6により送出される上記受信データ
EDを供給することが可能な記憶手段7を含んでいる。コンピュータ1における
該記憶装置7は、ハードディスクにより形成され、該ハードディスクに供給され
る受信データEDを記憶するように構成されている。該記憶手段7に供給された
受信データEDは、音声検出情報SDIが入力された場合にのみ永久に記憶され
るが、これについては後述する。
【0017】 当該音声認識装置は更に音声検出装置8を含み、該音声検出装置にもA/D変
換器6により送出される受信データEDを供給することができる。該音声検出装
置8は受信データEDを評価することによりタイムスロットを検出するように構
成され、該タイムスロットの間においては上記マイクロフォン信号MSは十分に
良好な信号対雑音比を有するような音声信号SSを含む。このようなタイムスロ
ットが検出された場合、音声検出装置8は適切な音声タイムスロットTSを決定
するが、これについては後に詳述する。
【0018】 更に、当該音声認識装置は上記マイクロフォン信号MSのうちの音声タイムス
ロットTSの間に受信された部分のみを評価する。何故なら、マイクロフォン信
号MSのこれらの部分のみが、ユーザにより話された文の正しく評価することが
できる情報を含むからである。音声タイムスロットTSを特徴付けるために、音
声検出装置8は音声検出情報SDIを記憶手段7に供給し、該記憶手段は結果と
してユーザにより話された文の、当該音声認識装置により正しく評価することが
できる情報を含む受信データEDのみを記憶する。
【0019】 コンピュータ1により形成される当該音声認識装置は、更に、音声認識手段9
を含み、該音声認識手段により音声認識方法が実行されて、記憶手段7に記憶さ
れた受信データEDを評価する。この目的のため、音声認識手段9により記憶手
段7に対して活性化情報AIを供給して、記憶手段7に永久的に記憶された受信
データEDの送出を可能にする。音声認識手段9のような斯かる音声認識手段の
構成及び動作方法、並びに音声認識手段9において実行されるような音声認識方
法のステップは、長く知られており、例えば文献国際特許公開公報WO99/3
5640等に開示されている。
【0020】 ユーザがマイクロフォン3に向かって文を話すと、例えば図2Aに示すような
マイクロフォン信号MSがコンピュータ1により形成された当該音声認識装置に
供給される。図2Aに示すマイクロフォン信号MSは、時間区間として、第1音
声信号SS1、第2音声信号SS2、第3音声信号SS3及びノイズ信号RSを
含んでいる。第3音声信号SS3は、雑音信号RSと比較して、比較的低いエネ
ルギ量を有している。何故なら、ユーザが該文を話した際にマイクロフォン3を
口から過度に離して保持したからである。従って、第3音声信号SS3の信号対
雑音比は劣り、それ故、該第3音声信号は音声処理処理手段9で正しく処理する
には不適である。
【0021】 音声検出装置8の目的は、マイクロフォン信号MSが第1音声信号SS1及び
第2音声信号SS2を含むような音声タイムスロットTSを決定して、これら音
声信号SS1及びSS2に含まれる情報を音声認識手段9が処理するのを可能に
することである。残りのタイムスロットは音声検出装置8により、マイクロフォ
ン信号MSがノイズ信号RS及び第3音声信号SS3を含む休止タイムスロット
PSとして決定されるべきである。音声検出装置8により決定された休止タイム
スロットPSの間においては、音声検出装置8により記憶手段7には何の音声検
出情報SDIも供給されない。
【0022】 この目的を達成するため、音声検出装置8は、エネルギ平均化手段10、スイ
ッチオン閾検出器11、スイッチオフ閾検出器12及び情報処理手段13を含ん
でいる。A/D変換器6により送出することができる受信データEDは、エネル
ギ決定手段10に供給することができる。該エネルギ決定手段10は、評価タイ
ムスロット毎に、受信データEDの評価によりマイクロフォンMSに含まれるエ
ネルギ量を決定する。ここでは、評価タイムスロットは20ミリ秒である。受信
データEDはデジタルドメインで評価される。これはアナログドメインではマイ
クロフォン信号MSの二乗及び該二乗されたマイクロフォン信号の各評価タイム
スロットにわたる積分に相当するであろうのと同様である。専門家は、斯様なデ
ジタルドメインでのデータの評価には長い間馴染みがある。斯様にして決定され
たエネルギ情報EIはエネルギ決定手段10によりスイッチオン閾検出器11及
びスイッチオフ閾検出器12に供給することができるが、該情報はマイクロフォ
ン信号MSのエネルギ量を特徴付けている。
【0023】 図2Bは、エネルギ決定手段10により決定された図2Aに示すマイクロフォ
ン信号MSのエネルギ情報EIを時間の関数として示している。マイクロフォン
信号MSに含まれる音声信号SS1及びSS2がノイズ信号RS及び第3音声信
号SS3より大きなエネルギ量を含むことを検出することができ、その結果、こ
れら音声信号SS1及びSS2の検出がエネルギ情報EIの評価により可能とな
る。
【0024】 この目的のため、スイッチオン閾検出器11は、該スイッチオン閾検出器11
に供給されるエネルギ情報EIの値を、図2Bに示すような当該スイッチオン閾
検出器11に記憶された第1エネルギ閾値ES1と連続的に比較する。スイッチ
オン閾検出器11は、マイクロフォン信号MSのエネルギ量が第1エネルギ閾値
ES1より大きい場合に第1検出情報DI1を生成するように構成されている。
図2Aに示すマイクロフォン信号MSが当該音声認識装置により受信された場合
に上記スイッチオン閾検出器11により生成される第1検出情報DI1の時間の
関数としての波形が、図2Cに示されている。
【0025】 更に、スイッチオフ閾検出器12は、該スイッチオフ閾検出器12に供給され
るエネルギ情報EIの値を、図2Bに示すような当該スイッチオフ閾検出器12
に記憶された第2エネルギ閾値ES2と連続的に比較する。スイッチオフ閾検出
器12は、マイクロフォン信号MSのエネルギ量が第2エネルギ閾値ES2より
小さい場合に第2検出情報DI2を送出するように構成されている。図2Aに示
すマイクロフォン信号MSが当該音声認識装置により受信された場合に上記スイ
ッチオフ閾検出器12により送出される第2検出情報DI2の時間の関数として
の波形が、図2Dに示されている。
【0026】 情報処理装置13には、第1検出情報DI1と第2検出情報DI2とを供給す
ることができる。該情報処理装置13は、該装置に供給される上記検出情報DI
1及びDI2を評価し、音声タイムスロットTSを決定し、及び決定された音声
タイムスロットTSの間に音声検出情報SDIを送出するように構成されている
【0027】 以下においては、本発明の第1実施例による情報処理手段13の動作方法が例
示として説明される。該例によれば、情報処理手段13は図2C及び図2Dに示
す検出情報DI1及びDI2を評価し、その後該情報処理装置13により、図2
Eに波形が時間の関数として表されたような音声検出情報SDIが送出される。
【0028】 時点t1から、情報処理手段13は第1検出情報DI1を入力し、時点t2に
おいて情報処理手段13は、第1検出情報DI1がスイッチオン期間TEにわた
り入力されたことを確定する。結果として、スイッチオン規準が第1音声タイム
スロットに関して満足されるが、これが音声検出情報SDI1により特徴付けら
れている。該第1音声タイムスロットの開始は、該情報処理手段13により、上
記時点t1より進み期間TVだけ早い時点t3において定められる。
【0029】 上記スイッチオン期間TEの間待つことは、例えばマイクロフォン3を机の上
に置く場合に発生し得るような、短い大きい雑音のマイクロフォン信号MSの短
い大振幅が当該情報処理手段13により誤って音声信号SSとして検出されるこ
とがないという利点を提供する。第1音声タイムスロットの始点を上記進み期間
TVだけ進めて配置することにより、マイクロフォン信号MSにおいて検出され
た第1音声信号SS1の受信データEDが、第1エネルギ閾値ES1に到達する
前に、記憶手段7に記憶され、後に音声認識手段9により更に処理されるという
利点が得られる。これにより、全ての第1音声信号SS1の受信データEDが記
憶されると共に、該第1音声信号SS1の開始が音声認識手段9による処理から
失われることがなくなる。上述した2つの対策は、当該音声認識装置の認識率を
有利に改善する。
【0030】 スイッチオン規準が満足された後に、上記進み期間TV及びスイッチオン期間
TEだけ進められた受信データEDの記憶に届くよう、記憶手段7に供給される
受信データEDは、常に、該記憶手段7の受信バッファに記憶される。進み期間
TV及びスイッチオン期間TEの間に、予想される受信データEDは上記受信バ
ッファに短期間記憶することができ、次いで、該データEDは、スイッチオン規
準が満たされる時点t2において記憶手段7に永久的に記憶することができる。
【0031】 情報処理手段13は時点t4において該第1音声タイムスロットの終了を決定
するようになっており、その際、該第1音声タイムスロットは音声期間TS1を
有するようになる。時点t4において第1スイッチオフ規準が満足されるが、該
規準によれば第1スイッチオフ期間TA1にわたり第2検出情報DI2が情報処
理手段13により中断無く入力されねばならない。図2Eに示すように、時点t
3から時点t4まで、記憶されるべき第1音声信号SS1の受信データEDに対
して、音声検出情報SDI1が記憶手段7に供給される。
【0032】 第1音声タイムスロットの終了の上述したような方法による決定は、音声信号
SSのエネルギ量が短期間に非常に小さい場合に、第1音声タイムスロットが誤
って早く終了されて、該第1音声信号SS1の最後の部分の受信データEDが音
声認識手段9に処理されるべく供給されなくなることがないであろうという利点
を提供する。音声信号SSの斯様な短い非常に小さなエネルギ量は、“t”又は
“p”のような子音が発音される場合、及びマイクロフォン信号MSの短い中断
がある場合等に発生し得る。
【0033】 図2の実施例によれば、情報処理手段13は、第1休止期間TP1の後、第1
音声タイムスロットに関して上述したのと同様にして、時点t5を第2音声タイ
ムスロットの開始と判定する。該第2音声タイムスロットの間、マイクロフォン
信号MSは第2音声信号SS2を含み、該第2音声信号には第3音声信号SS3
が後続する。第3音声信号SS3のエネルギ量は第2エネルギ閾値ES2付近で
変化し、その際、第1スイッチオフ期間TA1より短い期間TKの間だけ第2検
出情報DI2が入力される。従って、第3音声信号SS3の間では第1スイッチ
オフ規準は満たされず、結果として第2音声タイムスロットは情報処理手段13
により終了されないであろう。
【0034】 本発明の第1実施例による情報処理手段13は、ここで、第2スイッチオフ規
準が満たされるかを判定するように構成されている。該第2スイッチオフ規準は
、第2スイッチオフ期間TA2の間に第1検出情報DI1が入力されなかった場
合に満たされる。時点t6以降、情報処理手段13は、最早、第1検出情報DI
1を入力することはなく、その結果、情報処理手段13は時点t7において該第
2スイッチオフ規準の存在を確定する。図2Eに示すように、時点t5から時点
t7までの第2音声タイムスロットTS2の間、第2の音声検出情報SDI2が
記憶手段7に供給されて、時点t5以降第2音声信号SS2の受信データEDを
記憶する。
【0035】 結果として、ノイズ信号RSのみ又は悪い信号対雑音比を持つ第3音声信号S
S3のみを含むマイクロフォン信号MSの受信データEDは音声認識手段9に供
給されず、これにより該音声認識手段9による誤った文の認識が防止されるとい
う利点が得られる。
【0036】 以下においては、本発明による追加の対策及びそれらの利点を、本発明の第2
実施例を参照して説明する。該第2実施例による音声検出装置は、上記第1実施
例による図1に示した音声検出装置8に相当するが、該第2実施例による情報処
理手段は第1スイッチオフ規準又は第3スイッチオフ規準が満たされるかを検証
するように構成されている。第3スイッチオフ規準は、第3スイッチオフ期間T
A3の間に第1検出情報DI1が入力されなかった場合に満たされるが、該第3
スイッチオフ期間TA3の開始は、第1検出情報DI1が無くなった後、次いで
第2検出情報DI2が入力された場合に検出される。
【0037】 以下においては、本発明の第2実施例による情報処理手段の動作方法が例示に
より説明される。この例によれば、図2Aに示すマイクロフォン信号MSが当該
音声認識装置に供給され、図2C及び2Dに示す検出情報DI1及びDI2が上
記情報処理手段により評価される。該第2実施例に基づく情報処理手段による評
価の結果、該情報処理手段は、図2Fに示すようなパターンの音声検出情報SD
Iを記憶手段7に供給する。
【0038】 当該情報処理手段は、第3音声期間TS3を持つ第3の音声検出情報SDI3
により特徴付けられ、本発明の第1実施例による前記第1音声タイムスロットに
相当するような第3音声タイムスロットを決定する。この第3音声タイムスロッ
トの開始は前記スイッチオン規準により決定され、該第3音声タイムスロットの
終了は前記第1スイッチオフ規準により決定される。第2休止期間TP2の後、
該第2実施例による情報処理手段は、上記スイッチオン規準が満たされる時点t
5において第4音声タイムスロットの開始を決定する。
【0039】 時点t6以降では、当該情報処理手段は、最早、第1検出情報DI1を入力せ
ず、時点t8において、第1検出情報DI1が無くなった後の第2検出情報DI
2を入力する。時点t9において、当該情報処理手段は、時点t8から第3スイ
ッチオフ期間TA3にわたって第1検出情報DI1が入力されず、従って第3ス
イッチオフ規準が満たされたことを確定する。続いて、該時点t9において、当
該情報処理手段は音声期間TS4を持つ第4音声タイムスロットの終了を決定す
る。この第4音声タイムスロットを特徴付けるため、第4の音声検出情報SDI
4が記憶手段7に供給される。
【0040】 このようにして、該第2実施例による情報処理手段により第3スイッチオフ規
準が判定されるという事実は、ノイズ信号RSのみ又は悪い信号対雑音比を持つ
第3音声信号SS3のみを含むマイクロフォン信号MSの受信データEDが音声
認識手段9に供給されず、これにより該音声認識手段9による誤った文の認識が
防止されるという利点を提供する。
【0041】 音声検出情報SDIが前記スイッチオン閾検出器及びスイッチオフ閾検出器に
供給されるようにすることが考えられる。その場合、これら閾検出器は、休止タ
イムスロットTPにおけるエネルギ情報EIを評価して、休止タイムスロットT
Pの間においてマイクロフォン信号MSに含まれるノイズ信号RSのエネルギ量
に対する第1及び第2エネルギ閾値を適応化するように構成することができる。
【0042】 これは、当該音声検出装置が、例えば大きな背景雑音の結果として口述の間に
ノイズ信号RSのエネルギ量が変化するような場合にも、良好な信号対雑音比を
持つ音声信号SSのみを検出するようになるという利点を提供することができる
【0043】 本発明による音声検出装置には、アナログ信号を処理する手段を設けることも
できることができることが分かる。その場合、前記エネルギ決定手段はアナログ
受信信号を二乗すると共に該信号を前記評価タイムスロットにわたり積分し、且
つ、斯様にして決定されたアナログエネルギ信号を2つの比較器に供給する。こ
の場合、これら比較器は上記スイッチオン閾検出器及びスイッチオフ閾検出器を
構成することになる。
【0044】 本発明による音声検出装置は、マイクロフォン信号を磁気テープカセット又は
ハードディスク上に記録する口述記録器(ディクテーションマシン)に組み込み
、口述記録の音声により制御される自動起動及び自動停止を可能にするようにす
ることも考えられる。
【0045】 また、本発明による音声検出装置は、音声入力により起動及び停止される他の
マシンに設けることも考えられる。斯様なマシンは、例えば、移動電話である。
【図面の簡単な説明】
【図1】 図1は、マイクロフォン及びモニタが接続されると共に音声認識ソフトウェア
が実行されるようなコンピュータであって、該コンピュータが音声検出装置も形
成するようなコンピュータをブロック図として示す。
【図2A】 図2Aは、上記音声認識ソフトウェアが第1及び第2実施例に従い実行される
場合に上記コンピュータにおいて発生する信号及び情報の波形を時間の関数とし
て示す。
【図2B】 図2Bは、上記音声認識ソフトウェアが第1及び第2実施例に従い実行される
場合に上記コンピュータにおいて発生する信号及び情報の波形を時間の関数とし
て示す。
【図2C】 図2Cは、上記音声認識ソフトウェアが第1及び第2実施例に従い実行される
場合に上記コンピュータにおいて発生する信号及び情報の波形を時間の関数とし
て示す。
【図2D】 図2Dは、上記音声認識ソフトウェアが第1及び第2実施例に従い実行される
場合に上記コンピュータにおいて発生する信号及び情報の波形を時間の関数とし
て示す。
【図2E】 図2Eは、上記音声認識ソフトウェアが第1実施例に従い実行される場合に上
記コンピュータにおいて発生する信号及び情報の波形を時間の関数として示す。
【図2F】 図2Fは、上記音声認識ソフトウェアが第2実施例に従い実行される場合に上
記コンピュータにおいて発生する信号及び情報の波形を時間の関数として示す。
───────────────────────────────────────────────────── 【要約の続き】 報(DI1)が入力されなかった場合にも音声検出情報 (SDI)の送出を追加的に終了させるように構成さ れ、第3スイッチオフ期間(TA3)の開始は第1検出 情報(DI1)が入力されなくなった後に第2検出情報 (DI2)が最初に入力される時として決定される。

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 受信信号における十分に良好な信号対雑音比を有する音声信
    号を検出すると共に、音声タイムスロットを決定する音声検出装置であって、該
    音声検出装置は、 前記受信信号のエネルギ量が第1エネルギ閾値を越える場合に第1検出情報を
    送出するスイッチオン閾検出器と、 前記受信信号のエネルギ量が前記第1エネルギ閾値より小さな第2エネルギ閾
    値に満たない場合に第2検出情報を送出するスイッチオフ閾検出器と、 前記第1検出情報及び第2検出情報を入力及び処理し、第1スイッチオフ期間
    の間に前記第2検出情報が入力された場合に音声タイムスロットを特徴付ける音
    声検出情報の送出を終了させる情報処理手段と、 を含むような音声検出装置において、 前記情報処理手段は、第2スイッチオフ期間の間前記第1検出情報が入力され
    なかった場合、及び/又は第3スイッチオフ期間の間前記第1検出情報が入力さ
    れなかった場合にも前記音声検出情報の送出を追加的に終了させるように構成さ
    れ、前記第3スイッチオフ期間の開始は前記第1検出情報が入力されなくなった
    後に前記第2検出情報が最初に入力される時として決定されることを特徴とする
    音声検出装置。
  2. 【請求項2】 請求項1に記載の音声検出装置において、前記情報処理手段
    においては前記第1スイッチオフ期間が前記第2スイッチオフ期間及び/又は前
    記第3スイッチオフ期間よりも短いことを特徴とする音声検出装置。
  3. 【請求項3】 請求項1に記載の音声検出装置において、前記スイッチオン
    閾検出器は、前記受信信号のエネルギ量が少なくとも1つのスイッチオン期間の
    間前記第1エネルギ閾値より大きい場合に前記第1検出情報を生成するように構
    成されていることを特徴とする音声検出装置。
  4. 【請求項4】 請求項1に記載の音声検出装置において、当該音声検出装置
    が、前記第1エネルギ閾値及び/又は第2エネルギ閾値を前記受信信号に含まれ
    るノイズ信号のエネルギ量に適応化させるように構成されていることを特徴とす
    る音声検出装置。
  5. 【請求項5】 受信信号における十分に良好な信号対雑音比を有する音声信
    号を検出すると共に、音声タイムスロットを決定する音声検出方法であって、該
    音声検出方法は、 前記受信信号のエネルギ量が第1エネルギ閾値を越える場合に第1検出情報を
    送出するステップと、 前記受信信号のエネルギ量が前記第1エネルギ閾値より小さな第2エネルギ閾
    値に満たない場合に第2検出情報を送出するステップと、 前記第1検出情報及び第2検出情報を入力及び処理するステップと、 第1スイッチオフ期間の間に前記第2検出情報が入力された場合に音声タイム
    スロットを特徴付ける音声検出情報の送出を終了させるステップと、 を有するような音声検出方法において、 前記終了させるステップは、第2スイッチオフ期間の間前記第1検出情報が入
    力されなかった場合、及び/又は第3スイッチオフ期間の間前記第1検出情報が
    入力されなかった場合にも前記音声検出情報の送出が追加的に終了されるように
    構成され、前記第3スイッチオフ期間の開始は前記第1検出情報が入力されなく
    なった後に前記第2検出情報が最初に入力される時として決定されることを特徴
    とする音声検出方法。
  6. 【請求項6】 請求項5に記載の音声検出方法において、前記第1検出情報
    は、前記受信信号のエネルギ量が少なくとも1つのスイッチオン期間の間前記第
    1エネルギ閾値より大きくなるまで送出されないことを特徴とする音声検出方法
  7. 【請求項7】 請求項5に記載の音声検出方法において、前記第1エネルギ
    閾値及び/又は第2エネルギ閾値が、前記受信信号に含まれるノイズ信号のエネ
    ルギ量に適応化されることを特徴とする音声検出方法。
  8. 【請求項8】 デジタルコンピュータの内部メモリに直接ロードすることが
    できると共に、ソフトウェアコード部を含むようなコンピュータプログラム製品
    において、該製品が前記コンピュータ上で実行された場合に、請求項5に記載の
    音声検出方法の前記各ステップが前記コンピュータにより実行されることを特徴
    とするコンピュータプログラム製品。
  9. 【請求項9】 請求項8に記載のコンピュータプログラム製品において、コ
    ンピュータにより読み取ることが可能な媒体上に記憶されていることを特徴とす
    るコンピュータプログラム製品。
JP2001555084A 2000-01-27 2001-01-10 2つのスイッチオフ規準を持つ音声検出装置 Expired - Fee Related JP4810044B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP00890026.8 2000-01-27
EP00890026 2000-01-27
PCT/EP2001/000193 WO2001056015A1 (en) 2000-01-27 2001-01-10 Speech detection device having two switch-off criterions

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2011122008A Division JP2011221544A (ja) 2000-01-27 2011-05-31 2つのスイッチオフ規準を持つ音声検出装置

Publications (3)

Publication Number Publication Date
JP2003521006A true JP2003521006A (ja) 2003-07-08
JP2003521006A5 JP2003521006A5 (ja) 2008-03-06
JP4810044B2 JP4810044B2 (ja) 2011-11-09

Family

ID=8175896

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2001555084A Expired - Fee Related JP4810044B2 (ja) 2000-01-27 2001-01-10 2つのスイッチオフ規準を持つ音声検出装置
JP2011122008A Pending JP2011221544A (ja) 2000-01-27 2011-05-31 2つのスイッチオフ規準を持つ音声検出装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2011122008A Pending JP2011221544A (ja) 2000-01-27 2011-05-31 2つのスイッチオフ規準を持つ音声検出装置

Country Status (6)

Country Link
US (1) US6662156B2 (ja)
EP (1) EP1171869B1 (ja)
JP (2) JP4810044B2 (ja)
AT (1) ATE489702T1 (ja)
DE (1) DE60143506D1 (ja)
WO (1) WO2001056015A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60137225D1 (de) * 2000-06-29 2009-02-12 Koninkl Philips Electronics Nv Sprachsqualitätsschätzung für off-line spracherkennung
DE10251113A1 (de) * 2002-11-02 2004-05-19 Philips Intellectual Property & Standards Gmbh Verfahren zum Betrieb eines Spracherkennungssystems
GB0414711D0 (en) * 2004-07-01 2004-08-04 Ibm Method and arrangment for speech recognition
US8094790B2 (en) 2005-05-18 2012-01-10 Mattersight Corporation Method and software for training a customer service representative by analysis of a telephonic interaction between a customer and a contact center
US8094803B2 (en) 2005-05-18 2012-01-10 Mattersight Corporation Method and system for analyzing separated voice data of a telephonic communication between a customer and a contact center by applying a psychological behavioral model thereto
US7995717B2 (en) 2005-05-18 2011-08-09 Mattersight Corporation Method and system for analyzing separated voice data of a telephonic communication between a customer and a contact center by applying a psychological behavioral model thereto
US20070067850A1 (en) * 2005-09-21 2007-03-22 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Multiple versions of electronic communications
US20070067849A1 (en) * 2005-09-21 2007-03-22 Jung Edward K Reviewing electronic communications for possible restricted content
US20070067270A1 (en) * 2005-09-21 2007-03-22 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Searching for possible restricted content related to electronic communications
US8090575B2 (en) * 2006-08-04 2012-01-03 Jps Communications, Inc. Voice modulation recognition in a radio-to-SIP adapter
US8023639B2 (en) 2007-03-30 2011-09-20 Mattersight Corporation Method and system determining the complexity of a telephonic communication received by a contact center
US7869586B2 (en) 2007-03-30 2011-01-11 Eloyalty Corporation Method and system for aggregating and analyzing data relating to a plurality of interactions between a customer and a contact center and generating business process analytics
US8718262B2 (en) 2007-03-30 2014-05-06 Mattersight Corporation Method and system for automatically routing a telephonic communication base on analytic attributes associated with prior telephonic communication
US10419611B2 (en) 2007-09-28 2019-09-17 Mattersight Corporation System and methods for determining trends in electronic communications
KR101992676B1 (ko) * 2012-07-26 2019-06-25 삼성전자주식회사 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치
US9191510B2 (en) 2013-03-14 2015-11-17 Mattersight Corporation Methods and system for analyzing multichannel electronic communication data
US10832005B1 (en) 2013-11-21 2020-11-10 Soundhound, Inc. Parsing to determine interruptible state in an utterance by detecting pause duration and complete sentences

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3909532A (en) 1974-03-29 1975-09-30 Bell Telephone Labor Inc Apparatus and method for determining the beginning and the end of a speech utterance
US4008375A (en) * 1975-08-21 1977-02-15 Communications Satellite Corporation (Comsat) Digital voice switch for single or multiple channel applications
US4277645A (en) * 1980-01-25 1981-07-07 Bell Telephone Laboratories, Incorporated Multiple variable threshold speech detector
JPS5862699A (ja) * 1981-10-09 1983-04-14 シャープ株式会社 音声認識装置
JPS5876899A (ja) * 1981-10-31 1983-05-10 株式会社東芝 音声区間検出装置
JPS61259296A (ja) * 1985-05-14 1986-11-17 沖電気工業株式会社 音声区間検出方式
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
JPH0740200B2 (ja) * 1986-04-08 1995-05-01 沖電気工業株式会社 音声区間検出方法
JPS63226698A (ja) * 1987-03-16 1988-09-21 沖電気工業株式会社 不特定話者電話音声認識装置
JPS63298298A (ja) * 1987-05-29 1988-12-06 沖電気工業株式会社 音声認識装置の音声区間検出方式
JPH03182799A (ja) * 1989-12-13 1991-08-08 Mitsubishi Electric Corp 音声情報記録装置
US5657422A (en) * 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
JPH1195785A (ja) * 1997-09-19 1999-04-09 Brother Ind Ltd 音声区間検出方式
WO1999035640A2 (en) 1997-12-30 1999-07-15 Koninklijke Philips Electronics N.V. Speech recognition device using a command lexicon

Also Published As

Publication number Publication date
DE60143506D1 (de) 2011-01-05
JP4810044B2 (ja) 2011-11-09
US20010012996A1 (en) 2001-08-09
WO2001056015A1 (en) 2001-08-02
US6662156B2 (en) 2003-12-09
ATE489702T1 (de) 2010-12-15
EP1171869B1 (en) 2010-11-24
JP2011221544A (ja) 2011-11-04
EP1171869A1 (en) 2002-01-16

Similar Documents

Publication Publication Date Title
JP2011221544A (ja) 2つのスイッチオフ規準を持つ音声検出装置
US10930303B2 (en) System and method for enhancing speech activity detection using facial feature detection
US7610199B2 (en) Method and apparatus for obtaining complete speech signals for speech recognition applications
EP1472679B1 (en) Audio visual detection of voice activity for speech recognition system
EP2107553B1 (en) Method for determining barge-in
US20060247927A1 (en) Controlling an output while receiving a user input
KR101422020B1 (ko) 음성 인식 방법 및 장치
US20020116188A1 (en) System and method for adapting speech playback speed to typing speed
US20150310863A1 (en) Method and apparatus for speaker diarization
US20060080096A1 (en) Signal end-pointing method and system
EP1085500B1 (en) Voice recognition for controlling a device
JPH09106296A (ja) 音声認識装置及び方法
JP4682700B2 (ja) 音声認識装置
JP5431282B2 (ja) 音声対話装置、方法、プログラム
CN104078076A (zh) 一种语音录入方法及系统
JP2004094077A (ja) 音声認識装置及び制御方法並びにプログラム
US20080172225A1 (en) Apparatus and method for pre-processing speech signal
EP2540133B1 (en) Switching off dtx for music
EP3195314B1 (en) Methods and apparatus for unsupervised wakeup
US20040121812A1 (en) Method of performing speech recognition in a mobile title line communication device
US7177806B2 (en) Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system
JP2001154694A (ja) 音声認識装置及び方法
JP2754960B2 (ja) 音声認識装置
JP7131362B2 (ja) 制御装置、音声対話装置及びプログラム
KR100217734B1 (ko) 음성인식 전화기에서 잡음에 따른 음성 인식 레벨 조절장치 및 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080109

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080109

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090507

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110802

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110822

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140826

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees