JP2008508564A - スピーチエンドポインタ - Google Patents

スピーチエンドポインタ Download PDF

Info

Publication number
JP2008508564A
JP2008508564A JP2007524151A JP2007524151A JP2008508564A JP 2008508564 A JP2008508564 A JP 2008508564A JP 2007524151 A JP2007524151 A JP 2007524151A JP 2007524151 A JP2007524151 A JP 2007524151A JP 2008508564 A JP2008508564 A JP 2008508564A
Authority
JP
Japan
Prior art keywords
audio stream
end pointer
rules
audio
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007524151A
Other languages
English (en)
Inventor
フィル ヘザーリントン,
アレックス エスコット,
Original Assignee
キューエヌエックス ソフトウェア システムズ (ウェーブメイカーズ), インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by キューエヌエックス ソフトウェア システムズ (ウェーブメイカーズ), インコーポレイテッド filed Critical キューエヌエックス ソフトウェア システムズ (ウェーブメイカーズ), インコーポレイテッド
Publication of JP2008508564A publication Critical patent/JP2008508564A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

ルールに基づくエンドポインタは、音声ストリーム内に含まれる発話された発言を、バックグラウンドノイズおよび発話でないトランジェントから分離する。ルールに基づくエンドポインタは、様々な発話特性に基づいて発話された発言の開始および終了を決定するための複数のルールを含む。ルールは、音声ストリームまたは音声ストリームの一部分を、事象、事象の組み合わせ、事象の継続、または事象に関する継続に基づいて分析し得る。ルールは、音声ストリーム自体の特性、音声ストリーム内に含まれた予想される応答、または周囲環境条件を含み得る要因に応じて、手動で、あるいはダイナミックにカスタマイズされ得る。

Description

本発明は、自動音声認識に関し、より詳細には、話されている発言をバックグラウンドノイズおよび音声でないトランジェント(transient)から分離するシステムに関する。
車両環境内では、自動音声認識(ASR)システムを使用し、音声入力に基づいて乗客にナビゲーション指示を与えることができる。この機能性によって、手動で入力したり情報を画面から読んだりする間にドライバーの注意が道路から逸れるということがないという点で、安全性への配慮が低くなる。加えて、ASRシステムは、音声システム、空調制御、またはその他の車両機能を制御するためにも使用され得る。
ASRシステムによって、ユーザはマイクロフォンへ発話することが可能になる。また、ASRシステムは、信号をコンピュータによって認識されるコマンドへ変換する。コマンドを認識すると、コンピュータはアプリケーションを実行し得る。ASRシステムを実行する際の1つの要素は正確に話された発言を認識することである。このためには、発言の開始および/または終了を見つけること(エンドポインティング)が必要である。
一部のシステムは音声フレーム内のエネルギーを探索する。エネルギーを検知すると、システムは、エネルギーが検知されたポイントから所定の時間を引いたり(発言の開始時間を決定するため)、エネルギーが検知されたポイントから所定の時間を足したり(発言の終了時間を決定するため)することによって、発言のエンドポイントを予測する。次いで、音声ストリームのこの選択された部分は、話された発言を決定するために、ASRへ渡される。
音響信号におけるエネルギーは多くのソースに由来し得る。車両環境内では、例えば、音響信号エネルギーは道路の隆起、ドアのバタンという音、ぶつかる音、バンという音、エンジンノイズ、気動等のような一時的なノイズに由来し得る。エネルギーの存在に焦点をあてた上記のシステムは、これらのトランジェントノイズを、発話された発言であると誤解し、信号の周辺部分を処理するためにASRシステムへ送信することがある。このため、ASRシステムは、一時的なノイズを発話コマンドと認識することを不必要に試み、それによって誤ったポジティブ信号を生成したり、実際のコマンドに対する反応を遅延させたりすることがある。
したがって、一時的なノイズ状況において発話された発言を識別することが可能なインテリジェントなエンドポインタシステムが必要である。
ルールに基づいたエンドポインタは、音声ストリームにおける音声発話セグメントの開始、終了あるいは開始および終了の両方を決定する1つ以上のルールを含む。ルールは、事象の発生または事象の組合せ、あるいは発話特性の存在/非存在の継続などの、様々な要因に基づき得る。さらに、ルールは、沈黙の期間、有声の音声事象、無声の音声事象またはそのような事象の任意の組合せ、事象の継続、あるいは、ある事象に関する継続を分析することを含み得る。適用されるルールまたは分析されている音声ストリームの内容によって、ルールに基づくエンドポインタがASRに送信する音声ストリームの量は変動し得る。
ダイナミックなエンドポインタは、音声ストリームに関する1つ以上のダイナミックな局面を分析し、分析したダイナミックな局面に基づいて、音声発話の開始、終了、あるいは開始および終了の両方を決定し得る。分析され得るダイナミックな局面としては、(1)話者の発話のペース、話者の発話のピッチなど、音声ストリーム自体、(2)話者に対して与えられた質問に対する予想される回答(例えば、「はい」または「いいえ」)など、音声ストリームにおいて予想される回答、あるいは(3)バックグラウンドノイズレベル、エコーなど、周囲環境条件が挙げられるが、これらに限定されるわけではない。ルールは、音声発話セグメントのエンドポインティングを行うために1つ以上のダイナミックな局面を利用し得る。
本発明のその他のシステム、方法、特徴および利点は、以下の図面および詳細な説明を検討すれば当業者にとって明白である(あるいは明白となる)。このようなさらなるシステム、方法、特徴および利点が全て本記載内に含まれ、本発明の範囲内にあり、後述の特許請求の範囲によって保護されることが企図される。
本発明は、後続の図面および説明を参照すればよりよく理解することができる。図中の要素は必ずしも実寸大ではなく、本発明の原則を図示するうえで強調して配置されている。さらに、様々な図の全体において、図中の同一の参照番号は対応する部分を示す。
ルールに基づくエンドポインタは、トリガー特性を得るために音声ストリームの1つ以上の特性を検討し得る。トリガー特性は、有声音または無声音を含み得る。声帯が振動するときに生成された、有声の発話セグメント(例えば母音)は、ほぼ周期的な時間領域信号を出す。声帯が振動しないとき(英語の「f」の字を発話するときなど)に生成された、無声発話音は、周期性を有さず、ノイズ様の構造に似た時間領域信号を有する。音声ストリームにおけるトリガー特性を識別し、発話音の本来の特性に対して作用するルールのセットを採用することによって、エンドポインタは、発話発言の開始および/または終了の決定を改善し得る。
代替的に、エンドポインタは、音声ストリームの少なくとも1つのダイナミックな局面を分析し得る。分析され得る音声ストリームのダイナミックな局面としては、(1)話者の発話のペース、話者の発話のピッチなど、音声ストリーム自体、(2)話者に対して与えられた質問に対する予想される回答(例えば、「はい」または「いいえ」)など、音声ストリームにおいて予想される回答、あるいは(3)バックグラウンドノイズレベル、エコーなど、周囲環境条件が挙げられるが、これらに限定されるわけではない。ダイナミックなエンドポインタは、ルールに基づき得る。エンドポインタのダイナミックな性質によって、発話セグメントの開始および/または終了の決定の改善が可能となる。
図1は、音声に基づいて発話のエンドポインティングを実行するための装置100のブロック図である。エンドポインティング装置100は、1つ以上のオペレーティングシステムと関連する1つ以上のプロセッサ上で動作し得る、ハードウェアまたはソフトウェアを包含し得る。エンドポインティング装置100は、コンピュータのような処理環境102を含み得る。処理環境102は、処理ユニット104とメモリ106とを含み得る。処理ユニット104は双方向バスを介してメモリ106へアクセスすることによって、計算や論理を実行し得、かつ/またはオペレーションを制御し得る。メモリ106は入力音声ストリームを格納し得る。メモリ106は、音声発話セグメントの開始および/または終了を検知するために使用されるルールモジュール108を含み得る。メモリ106はさらに音声セグメントのトリガー特性を発見するために使用される発声分析モジュール116、および/または音声入力を認識するために使用され得るASRユニット118を含み得る。さらに、メモリ装置106は、エンドポインタの動作中に得られた、バッファリングされた音声情報を格納し得る。処理ユニット104は、入出力(I/O)ユニット110と通信する。I/Oユニット110は、音波を電気信号114に変換する装置から、入力された音声ストリームを受信し、電気信号を音声音112に変換する装置へ出力信号を送信する。I/Oユニット110は、処理ユニットと、電気信号を音声音112に変換する装置および音波を電気信号114に変換する装置との間のインタフェースの役割をし得る。I/Oユニット110は、音波を電気信号114に変換する装置を介して受信された入力音声ストリームを、音響波形からコンピュータ理解可能なフォーマットへ変換し得る。同様に、I/Oユニット110は、処理環境102から送信された信号を、電気信号を音声音112に変換する装置を介して出力するために電気信号に変換し得る。処理ユニット104は、図3および4のフローチャートを実行するように適切にプログラムされ得る。
図2は、車両200に組み込まれたエンドポインタ装置100を示す。車両200は運転手席202、助手席204および後部座席206を含み得る。さらに、車両200はエンドポインタ装置100を含み得る。処理環境102は、電子制御装置、電子制御モジュール、ボディ制御モジュールなどの、車両200のオンボードコンピュータに組みこまれ得、あるいは、1つ以上の許容可能なプロトコルを用いて車両200の既存の回路と通信し得る、製造後に組み込まれる別個のユニットであり得る。プロトコルの一部は、J1850VPW、J1850PWM、ISO、ISO9141−2、ISO14230、CAN、高速CAN、MOST、LIN、IDB−1394、IDB−C、D2B、Bluetooth、TTCAN、TTP、あるいはFlexRay(商標)の下で取引されているプロトコルを含み得る。電気信号を音声音112に変換する1つ以上の装置は、正面の乗客キャビティのような、車両200の乗客キャビティに位置し得る。この構成に限定するわけではないが、音波を電気信号114に変換する装置は、入力音声ストリームを受信するためにI/Oユニット110に接続され得る。代替的に、あるいは追加的に、後部座席の乗客から音声ストリームを受信してこれらの同じ乗客へ情報を出力するために、電気信号を音声音212に変換する追加の装置、および音波を電気信号214に変換する装置が、車両200の後部乗客キャビティに配置され得る。
図3は、発話エンドポインタシステムのフローチャートである。システムは、入力音声ストリームがフレームごとに分析され得るように、入力音声ストリームをフレームのような個別のセクションに分割することによって作動し得る。フレームはそれぞれ、入力音声ストリーム全体の約10ミリセカンドから約100ミリセカンドまでのあらゆる位置を含み得る。システムはデータを処理し始める前に、入力音声データの約350ミリセカンドから約500ミリセカンドといった所定のデータ量をバッファリングし得る。ブロック302に示すように、ノイズの他にエネルギーが存在するかを決定するためにエネルギー検出器が使用され得る。エネルギー検出器は、存在するエネルギー量を求めるために、フレームのような音声ストリームの一部分を調べ、量をノイズエネルギーの評価と比較する。ノイズエネルギーの評価は一定でもよく、ダイナミックに決定されてもよい。デシベル(dB)、すなわち電力比における差は、瞬間的な信号対ノイズ比(SNR)であり得る。分析の前に、フレームは発話ではないと仮定され得、その結果、エネルギー検出器がフレーム内にエネルギーが存在すると決定した場合、ブロック304で示されるように、フレームは発話ではないとしてマークされる。エネルギーが検出された後、ブロック306に示すように、フレームと示された、現在のフレームの発声分析が行われ得る。発声分析は、2005年5月17日に出願された米国特許出願第11/131,150号に記載されているように行われ得る。当該出願の明細書を、参照することにより、本明細書中に援用する。発声分析は、フレームの中に存在し得る任意のトリガー特性をチェックし得る。発声分析は、音声「S」あるいは「X」がフレームの中に存在するかをチェックし得る。代替的に、発声分析は、母音の存在をチェックし得る。限定という目的ではなく説明という目的のために、図3の残りについては、発声分析のトリガー特性として母音を使用するものとして説明する。
発声分析がフレームの中の母音の存在を識別し得る様々な方法が存在する。1つの方法はピッチエスティメータの使用を介する。ピッチエスティメータは母音が存在し得ることを示し、フレームの中の周期的信号を探索し得る。代替的に、ピッチエスティメータは、所定のレベルの固有振動数を求めてフレームを探索し得る。ピッチエスティメータは、母音の存在を示し得る。
母音がフレーム内に存在することを発声分析が決定した場合、フレームは、ブロック310に示すように、発話としてマークされる。次いで、システムは1つ以上のそれ以前のフレームを検討し得る。ブロック312に示すように、システムは先行するフレームであるフレームn−1を調べ得る。システムは、ブロック314に示すように、以前のフレームが以前に発話を含むものとしてマークされたかを決定し得る。以前のフレームが既に発話としてマークされていた場合、(すなわちブロック314に対する「はい」という回答)システムは、発話がフレーム内に含まれていることを既に決定しており、ブロック304に示すように、新たな音声フレームの分析に移る。以前のフレームが発話としてマークされなかった場合(すなわち、ブロック314に対する「いいえ」という回答)、システムは、1つ以上のルールを用いてフレームが発話としてマークされるかを決定し得る。
図3に示すように、決定ブロック「外部エンドポイント」として示されたブロック316は、1つ以上のルールを用いてフレームが発話としてマークされるかを決定するルーチンを使用し得る。フレームまたはフレームのグループなどの音声ストリームの任意の部分に対して1つ以上のルールが適用され得る。ルールは、調査中の現在のフレームが発話を含むかを決定し得る。ルールは、フレームまたはフレームのグループ内に発話があるかそうでないかどうかを示し得る。発話が存在する場合、フレームはエンドポイント内にあるものとして指定され得る。
発話が存在しないことをルールが示す場合、フレームはエンドポイント外にあるとして指定され得る。フレームn−1がエンドポイントの外部にある(例えば、発話が存在しない)ことを決定ブロック316が示す場合、ブロック304に示すように、新たな音声フレーム(フレームn+1)がシステムに入力され、発話ではないとしてマークされる。フレームn−1がエンドポイント内にある(例えば、発話が存在する)ことを決定ブロック316が示す場合、ブロック318に示すように、フレームn−1は発話としてマークされる。ブロック320に示すように、メモリ内にある最後のフレームが分析されるまで以前の音声ストリームがフレームごとに分析され得る。
図4は、図3に示したブロック316に関する、より詳細なフローチャートである。先に述べたように、ブロック316は1つ以上のルールを含み得る。ルールは、発話の存在および/または非存在に関する任意の局面に関連し得る。このように、ルールを用いて、発話された発言の開始および/または終了を決定し得る。
ルールは、事象(例えば有声エネルギー、無声エネルギー、沈黙の存在および/または非存在など)あるいは任意の事象の組み合わせ(例えば、後に沈黙が続きその後に有声エネルギーが続く、無声エネルギー、後に無声エネルギーが続きその後に沈黙が続く、沈黙など)を分析することに基づき得る。具体的には、ルールは、沈黙の期間からのエネルギー事象への推移または沈黙の期間からのエネルギー事象への推移を検討し得る。発話が、無声の事象または沈黙からの推移を母音の前に1つ以下含み得るというルールによって、ルールは母音の前の推移の数を分析し得る。あるいは、発話が、無声の事象または沈黙からの推移を母音の後2つ以下含み得るというルールによって、ルールは母音の後に推移の数を分析し得る。
1つ以上のルールは、様々な継続期間を調べ得る。具体的には、ルールは、事象(例えば有声エネルギー、無声エネルギー、沈黙の存在および/または非存在など)に関する継続を調べ得る。発話が、母音の前に約300ミリセカンドから400ミリセカンドの範囲内の継続期間を含み得、約350ミリセカンドであり得るというルールによって、ルールは母音の前の継続期間を分析し得る。あるいは、発話が、母音の後に約400ミリセカンドから800ミリセカンドの範囲内の継続期間を含み得、約600ミリセカンドであり得るというルールによって、ルールは母音の後の継続期間を分析し得る。
1つ以上のルールが、事象の期間を調べ得る。具体的には、ルールは、ある種のエネルギーの期間あるいはエネルギーの不足を調べ得る。無声エネルギーは分析され得るエネルギーの一種である。発話が、約150ミリセカンドから300ミリセカンドの範囲内の連続的な無声エネルギーの継続を含み得、約200ミリセカンドであり得るというルールによって、ルールは連続的な無声エネルギーの継続を分析し得る。代替的に、連続的な沈黙がエネルギーの不足として分析され得る。発話が、約50ミリセカンドから80ミリセカンドの範囲内の連続的な沈黙の継続を母音の前に含み得、約70ミリセカンドであり得るというルールによって、ルールは母音の前の連続的な沈黙の継続を分析し得る。あるいは、発話が、約200ミリセカンドから300ミリセカンドの範囲内の連続的な沈黙の継続を母音の後に含み得、約250ミリセカンドであり得るというルールによって、ルールは母音の後の連続の沈黙の継続を分析し得る。
ブロック402では、分析中のフレームまたはフレームのグループがバックグラウンドノイズレベルを超えるエネルギーを有するかを決定するためのチェックが行われる。バックグラウンドノイズレベルを超えるエネルギーを有するフレームまたはフレームのグループは、ある種のエネルギーの継続または事象に関する継続に基づいて、さらに分析され得る。分析中のフレームまたはフレームのグループがバックグラウンドノイズレベルを超えるエネルギーを有しない場合、そのフレームまたはフレームのグループは、連続的な沈黙の継続、エネルギー事象への沈黙の期間からの推移、または沈黙の期間からエネルギー事象への推移に基づいてさらに分析され得る。
分析中のフレームまたはフレームのグループの中にエネルギーが存在する場合、ブロック404において、「エネルギー」カウンタが増加する。「エネルギー」カウンタは、時間量を数える。時間量はフレーム長分増加する。フレームサイズが約32ミリセカンドである場合は、ブロック404は、「エネルギー」を約32ミリセカンドと数える。決定406において、チェックは「エネルギー」カウンタ値が時間閾値を超えるかを確認するためのチェックが行なわれる。決定ブロック406で評価された閾値は、発話の存在および/または非存在を決定するために使用され得る、連続的な発話されていないエネルギールールに対応する。決定ブロック406では、連続的な発話されていないエネルギーの最大の継続に対して閾値が評価され得る。「エネルギー」カウンタ値が、閾値設定を超えていると決定406が決定した場合、次いで、分析中のフレームまたはフレームのグループはブロック408において、エンドポイント外にある(例えば、発話が存在しない)として指定される。その結果、再び図3を参照すると、システムはブロック304へジャンプし、ここで新たなフレームであるフレームn+1がシステムに入力され発話でないとしてマークされる。代替的に、複数の閾値がブロック406で評価されてもよい。
「エネルギー」カウンタ値がブロック406で時間閾値を超えていない場合、「エネルギーなし」カウンタが分離閾値を超えるかを決定するためのチェックがブロック410で行なわれる。「エネルギー」カウンタ404と同様に、「エネルギーなし」カウンタ418も時間を数え、分析中のフレームまたはフレームのグループがノイズレベルを超えるエネルギーを有していない場合、フレーム長分増加される。分離閾値は、2つの破裂音の事象間の時間量を定義する時間閾値である。破裂音は話者の口から文字通りは列する子音である。空気が瞬間的に遮断されることによって破裂音を出すための圧力が起こされる。破裂音としては、音「P」、「T」、「B」、「D」、「K」が挙げられる。この閾値は、約10ミリセカンドから約50ミリセカンドの範囲内であり得、約25ミリセカンドであり得る。分離閾値を超える場合、分離された無声エネルギーの事象、すなわち、沈黙に囲まれた破裂音(例えばSTOPのP)が識別されており、また、「分離事象」カウンタ412が増加される。「分離事象」カウンタ412は整数値において増加される。「分離事象」カウンタ412を増加した後、「エネルギーなし」カウンタ418がブロック414でリセットされる。分析中のフレームまたはフレームのグループ内にエネルギーが発見されたため、このカウンタはリセットされる。「エネルギーなし」カウンタ418が分離の閾値を超えない場合、「エネルギーなし」カウンタ418は「分離事象」カウンタ412を増加せずにブロック414でリセットされる。ここでも、分析中のフレームまたはフレームのグループ内にエネルギーが発見されたため、「エネルギーなし」カウンタ418はリセットされる。「エネルギーなし」カウンタ418をリセットした後、ブロック416において「いいえ」という値を返すことによって、エンドポイント外の分析は、分析中のフレームまたはフレームのグループがエンドポイント内にある(例えば、発話が存在する)として指定する。その結果、図3を参照すると、システムは318または322において、分析されたフレームを発話としてマークする。
代替的に、分析中のフレームまたはフレームのグループ内にノイズレベルを超えるエネルギーが存在しないことを決定402が決定した場合、分析中のフレームまたはフレームのグループは沈黙またはバックグラウンドノイズを含む。この場合、「エネルギーなし」カウンタ418は増加される。決定420では、「エネルギーなし」カウンタ値が時間閾値を超えるかを確認するためのチェックが行なわれる。決定ブロック420で評価された閾値は、発話の存在および/非存在を決定するために使用され得る連続的な無声エネルギールール閾値に対応する。決定ブロック420において、連続の沈黙の継続の閾値が評価されてもよい。「エネルギーなし」カウンタ値が閾値設定を超えていると決定420が決定した場合、次いで、分析中のフレームまたはフレームのグループはブロック408において、エンドポイント外にある(例えば、発話が存在しない)として指定される。その結果、再び図3を参照すると、システムはブロック304へジャンプし、ここで新たなフレームであるフレームn+1がシステムに入力され発話でないとしてマークされる。代替的に、多数の閾値がブロック420で評価されてもよい。
「エネルギーなし」カウンタ418が時間閾値を超えていない場合、決定ブロック422において、許容される最大数の分離事象が起こったかを決定するためのチェックが行われる。「分離事象」カウンタは、このチェックに答えるために必要な情報を提供する。許容された最大数の分離事象は、設定可能なパラメータである。文法が予想される場合(例えば「はい」または「いいえ」という回答)、許容された最大数の分離事象は、エンドポインタの結果を「絞る」ように、それに従って設定され得る。許容された分離事象の最大数を超えている場合、次いで、分析中のフレームまたはフレームのグループはブロック408において、エンドポイント外にある(例えば、発話が存在しない)として指定される。その結果、再び図3を参照すると、システムはブロック304へジャンプし、ここで新たなフレームであるフレームn+1がシステムに入力され発話でないとしてマークされる。
許容された分離事象の最大数に到達していない場合、「エネルギー」カウンタ404はブロック424においてリセットされる。「エネルギー」カウンタ404は、エネルギーが存在しないフレームが識別された場合にリセットされ得る。「エネルギー」カウンタ404をリセットした後、ブロック416において「いいえ」という値を返すことによって、エンドポイント外の分析は、分析中のフレームまたはフレームのグループがエンドポイント内にある(例えば、発話が存在する)として指定する。その結果、図3を参照すると、システムは318または322において、分析されたフレームを発話としてマークする。
図5〜9は、シミュレーティングされた音声ストリームのいくつかの実際の時系列、これらの信号の様々な特性プロットおよび対応する実際の信号のスペクトログラフを示す。図5において、ブロック502は、シミュレーティングされた音声ストリームの実際の時系列を示す。シミュレーティングされた音声ストリームは、発話された発言「No」504、「Yes」506、「No」504、「YES」506、「NO」504、「YESSSSS」508、「NO」504および多くの「カチッ」という音510を含む。これらのカチッという音は、車両の方向指示器が使用されるときに発生される音を表し得る。ブロック512は、実際の時系列音声ストリームに関する様々な特性プロットを示す。ブロック512はX軸に沿ってサンプル数を表示する。プロット514はエンドポインタの分析の1つの表示である。プロット514が0レベルにある場合、エンドポインタは、発話された発言の存在を決定していない。プロット514が0でないレベルにある場合、エンドポインタは、発話された発言の開始および/または終了の境界を示す。プロット516は、バックグラウンドエネルギーを超えるエネルギーを表す。プロット518は時間領域で発話された発言を表す。ブロック520は、ブロック502において識別された対応する音声ストリームのスペクトル表示を示す。
ブロック512は、エンドポインタが入力音声ストリームにどのようにして応答し得るかを示す。図5に示すように、エンドポインタプロット514は正確に「NO」504および「YES」506信号を捕らえる。「YESSSSS」508が分析される場合、エンドポインタプロット514はしばらくの間、延びている「S」を捕らえるが、母音の後の最大時間または連続的な無声エネルギーの最大継続を超えたと発見すると、エンドポインタはカットされる。ルールに基づいたエンドポインタは、エンドポインタプロット514によって境界が定められた音声ストリームの一部分をASRへ送信する。ブロック512および図6〜9に示すように、ASRへ送信された音声ストリームの一部分は、適用されるルールによって変化する。「カチッという音」510はエネルギーを有するとして検出された。これは、ブロック512の最右部にある上記バックグラウンドエネルギープロット516によって表される。しかしながら、「カチッという音」510には母音が検出されなかったため、エンドポインタはこれらの音声音を除外する。
図6は、エンドポインティングされた1つの「NO」504のクローズアップである。時間スミアリングのため、1つまたは2つのフレーム分、発話された発言プロット518は遅延する。プロット518は、エネルギーが検出される期間の間中継続し、上にあるエネルギープロット516によって表される。発話された発言プロット518が上昇すると、レベルオフし、上にあるバックグラウンドエネルギープロット516へと続く。エンドポインタプロット514は、発話エネルギーが検出されると開始する。プロット518によって表される期間中には、いずれのエンドポインタルールも破られず、音声ストリームは発話された発言として認識される。エンドポインタは、母音の後の連続的沈黙の最大継続ルールまたは母音の後の最大時間ルールのいずれかが破られた可能性のある場合、最右端で途切れる。図示したように、ASRへ送信された音声ストリームの一部分は約3150のサンプルを含む。
図7は、エンドポインティングされた1つの「YES」506のクローズアップである。ここでも、時間スミアリングのため、1つまたは2つのフレーム分、発話された発言プロット518が遅延する。エンドポインタプロット514は、エネルギーが検出されると開始する。エンドポインタプロット514は、エネルギーがノイズへと低下するまで、すなわち、母音の後の連続的沈黙の最大継続ルールまたは最大時間ルールが破られるまで、継続する。図示したように、ASRへ送信された音声ストリームの一部分は約5550のサンプルを含む。図6および図7においてASRへ送信された音声ストリームの量の差は、異なるルールを提供するエンドポインタによって生じたものである。
図8は、エンドポインティングされた1つの「YESSSSS」508のクローズアップである。エンドポインタは、母音の後のエネルギーを子音の可能性があるものとして認めるが、これは単に合理的な時間量のためである。合理的な時間の後、母音の後の連続的な無声エネルギーの最大の継続ルールまたは最大時間ルールは、破られた可能性があり、ポインタはASRへ渡すデータを制限して減退する。図示したように、ASRへ送信された音声ストリームの一部分は約5750のサンプルを含む。発話された発言は焼く6500サンプルの間継続するが、合理的な時間量の後にエンドポインタが途切れるため、ASRへ送信される音声ストリームの量は、図6および図7において送信されたものとは異なる。
図9は、エンドポインティングされた、後に数回の「カチッという音」510が続く、1つの「NO」504のクローズアップである。図6〜8と同様に、時間スミアリングのため、1つまたは2つのフレーム分、発話された発言プロット518が遅延する。エンドポインタプロット514は、エネルギーが検出されると開始する。バックグラウンドノイズエネルギーレベルを超えるエネルギーが存在するため、一度目のカチッという音はエンドポイントプロット514内に含まれており、このエネルギーは子音(すなわち延びた「T」)であり得る。しかしながら、一度目のカチッという音と次のカチッという音との間には、約300ミリセカンドの沈黙がある。この例に用いられた閾値に従い、この沈黙の期間は母音の後の連続的沈黙の最大の継続を破る。したがって、エンドポインタは、一度目のカチッという音の後のエネルギーを除外した。
エンドポインタはまた、音声ストリームの少なくとも1つのダイナミックな局面を分析することによって音声発話セグメントの開始および/または終了を決定するように構成され得る。図10は、音声ストリームの少なくとも1つのダイナミックな局面を分析する、エンドポインタシステムの部分的なフローチャートである。グローバルな局面の初期化は1002で行われ得る。グローバルな局面は、音声ストリーム自体の特性を含み得る。限定という目的ではなく説明という目的のためであるが、これらのグローバルな局面としては、話者の発話のペースまたは話者の発話のピッチが挙げられる。ローカルな局面の初期化は1004で行われ得る。限定という目的ではなく説明という目的のためであるが、これらのローカルな局面としては、予想される話者の回答(たとえば「はい」または「いいえ」という答え)周囲環境条件(システムにおいてエコーまたはフィードバックの存在に影響する、開放された環境または閉鎖された環境)、あるいはバックグラウンドノイズの評価が挙げられる。
グローバルおよびローカルな初期化は、システムのオペレーションの全体において何度も起こり得る。バックグラウンドノイズの評価(ローカルな局面の初期化)は、システムが立ち上げられる度および/または所定の時間後に行われ得る。話者の発話のペースまたはピッチの決定(グローバルな初期化)は、より低いレートで初期化され得る。同様に、特定の応答が期待されるローカルな局面がより低いレートで初期化される。同様に、ASRがある回答が期待されているエンドポインタと通信する場合に、この初期化が起こり得る。周囲環境条件に関するローカルな局面は、パワーサイクルにつき一度のみ初期化するように構成され得る。
初期化期間1002および1004の間、エンドポインタは、先に図3および4に関して説明したようなそのデフォルト閾値設定で動作し得る。初期設定のうちのいずれかが閾値設定またはタイマーの変更を要する場合、システムは適切な限界値をダイナミックに変更し得る。代替的に、システムは、初期設定値に基づいて、以前にシステムのメモリ内に格納された特定のユーザまたは一般ユーザのプロファイルを呼び出し得る。このプロファイルは、全ての、あるいは特定の閾値設定またはタイマーを変更し得る。初期化処理中に、ユーザが速いペースで話すことをシステムが決定した場合、あるルールの最大の期間は、プロファイル内に格納されたレベルになり得る。さらに、ユーザプロファイルを作成し、後に使用するべく格納するためにシステムが初期化を実行する、トレーニングモードにおいてシステムを操作することも可能であり得る。1つ以上のプロフィルが後の使用のためにシステムのメモリ内に格納され得る。
図1で説明したエンドポインタに類似のダイナミックなエンドポインタが構成されてもよい。さらに、ダイナミックなエンドポインタは、処理環境とASRとの間の双方向バスを含み得る。双方向バスは、処理環境とASRとの間でデータや制御情報を送信し得る。ASRから処理環境へ渡された情報は、話者に対して与えられた質問に応じて予想される、ある返答を示すデータを含み得る。ASRから処理環境へ渡された情報は、音声ストリームの局面をダイナミックに分析するために使用され得る。
ダイナミックなエンドポインタの動作は、「エンドポイント外」ルーチン(ブロック316)の1つ以上のルールのうちの1つ以上の閾値がダイナミックに設定され得るという点以外は、図3および4に関して説明したエンドポインタに類似し得る。多量のバックグラウンドノイズが存在する場合、ノイズ決定(ブロック402)を超えるエネルギーに対する閾値は、この条件を考慮するためにダイナミックに増加され得る。この再設定を行なう際、ダイナミックなエンドポインタはより多くのトランジェントおよび発話でない音を拒否し得、それによって誤ったポジティブ信号の数を減少させることができる。ダイナミックに設定可能な閾値はバックグラウンドノイズレベルに限定されない。ダイナミックなエンドポインタによって利用される任意の閾値がダイナミックに設定され得る。
図3、4および10において示す方法は、1つ以上の集積回路などの装置内にプログラミングされた、あるいはコントローラまたはコンピュータによって処理される、シグナルベアリング媒体、メモリなどのコンピュータ可読媒体においてエンコードされ得る。方法がソフトウェアによって実行される場合、ソフトウェアは、ルールモジュール108に存在するメモリ内に存在するか、任意の種類の通信インタフェースを介してインタフェースされる。メモリは、論理関数をインプリメントするための、順序立てられた実行可能な命令のリストを含み得る。論理関数は、ディジタル回路を介して、ソースコードを介して、アナログ回路を介して、あるいは、電気信号、音声信号または映像信号を介してなど、アナログソースを介して、インプリメントされ得る。ソフトウェアは、命令を実行し得るシステム、装置または機器によって使用されるか、あるいはそれらと組み合わせて使用されるために、任意のコンピュータ可読媒体またはシグナルベアリング媒体において具体化され得る。そのようなシステムは、コンピュータベースのシステム、プロセッサを含むシステム、命令を実行できるシステム、あるいは、同じく命令を実行し得る、装置または機器から命令を選択的に引き出すその他のシステムを含み得る。
「コンピュータ可読媒体」、「機械可読媒体」、「伝播信号」媒体、および/または「シグナルベアリング媒体」は、命令実行可能なシステム、装置または機器によって使用されるか、あるいはそれらと組み合わせて使用されるために、ソフトウェアを含むか、格納するか、通信するか、広めるか、転送する、任意の手段を含み得る。機械可読媒体は、選択的に、電子、磁気、光学、電磁気、赤外線、または半導体の、システム、装置、機器または伝播媒体であり得るが、これらに限定されない。機械可読媒体の例の非制限的な例を列挙するとすれば、1つ以上のワイヤーを有する、「電子の」電気接続、携帯可能な磁気ディスクまたは光ディスク、ランダムアクセスメモリ「RAM」(電子)、読み取り専用メモリ「ROM」(電子)、イレーサブルプログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ(電子))あるいは光ファイバ(光学)等の揮発性メモリが挙げられる。ソフトウェアは、画像として、またはその他のフォーマットで(光学走査を介して)、電子的に保存され、コンパイルされ、かつ/または解釈されるか、あるいは処理されるため、機械可読媒体は、ソフトウェアがプリントされ得る有形の媒体をも含み得る。処理された媒体は、次いで、コンピュータおよび/またはマシンメモリ内に格納され得る。
本発明の様々な実施形態を記載したが、さらに多くの実施形態およびインプリメンテーションが本発明の範囲内で可能であることは、当業者に明白であろう。したがって、本発明は、付属の請求項およびそれらの均等物を考慮する以外には限定され得ない。
図1は、スピーチエンドポインティングシステムのブロック図である。 図2は、車両に組み込まれたスピーチエンドポインティングシステムの部分的な図示である。 図3は、スピーチエンドポインタのフローチャートである。 図4は、図3の一部分の、より詳細なフローチャートである。 図5は、シミュレーティングされた発話音のエンドポインティングである。 図6は、図5のシミュレーティングされた発話音のうちの一部の、詳細なエンドポインティングである。 図7は、図5のシミュレーティングされた発話音のうちの一部の、第2の詳細なエンドポインティングである。 図8は、図5のシミュレーティングされた発話音のうちの一部の、第3の詳細なエンドポインティングである。 図9は、図5のシミュレーティングされた発話音のうちの一部の、第4の詳細なエンドポインティングである。 図10は、音声に基づいたダイナミックなスピーチエンドポインティングシステムの部分的なフローチャートである。

Claims (39)

  1. 音声発話セグメントの開始および終了のうちの少なくとも一方を決定するエンドポインタであって、該エンドポインタは、
    発話事象を含む音声ストリームの一部分を識別する音声トリガーモジュールと、
    該音声トリガーモジュールと通信するルールモジュールであって、該ルールモジュールは、該音声ストリームの少なくとも一部を分析することによって、発話事象に関する音声発話セグメントが音声エンドポイント内にあるかを決定する複数の継続時間ルールを含む、ルールモジュールと
    を備える、エンドポインタ。
  2. 前記音声トリガーモジュールが母音を識別する、請求項1に記載のエンドポインタ。
  3. 前記音声トリガーモジュールがS音またはX音を識別する、請求項1に記載のエンドポインタ。
  4. 前記音声ストリームの前記一部分がフレームを有する、請求項1に記載のエンドポインタ。
  5. 前記ルールモジュールが前記音声ストリームの前記一部分におけるエネルギーの不足を分析する、請求項1に記載のエンドポインタ。
  6. 前記ルールモジュールが前記音声ストリームの前記一部分におけるエネルギーを分析する、請求項1に記載のエンドポインタ。
  7. 前記ルールモジュールが前記音声ストリームの前記一部分における経過時間を分析する、請求項1に記載のエンドポインタ。
  8. 前記ルールモジュールが前記音声ストリームの前記一部分における所定の数の破裂音を分析する、請求項1に記載のエンドポインタ。
  9. 前記ルールモジュールが前記音声発話セグメントの前記開始と終了とを検出する、請求項1に記載のエンドポインタ。
  10. エネルギー検出器モジュールをさらに備える、請求項1に記載のエンドポインタ。
  11. マイクロフォン出力部、処理ユニットおよびメモリと通信する、処理環境をさらに備え、前記ルールモジュールは該メモリ内に存在する、請求項1に記載のエンドポインタ。
  12. 複数の決定ルールを有するエンドポインタを用いて音声発話セグメントの開始および終了のうちの少なくとも一方を決定する方法であって、該方法は、
    音声ストリームの一部分を受信することと、
    該音声ストリームの該一部分がトリガー特性を含むかを決定することと、
    少なくとも1つの継続時間決定ルールを該トリガー特性に関する該音声ストリームの一部分に対して適用し、該音声ストリームの該一部分が音声エンドポイント内にあるかを決定することと
    を包含する、方法。
  13. 前記決定ルールが、前記トリガー特性を含む前記音声ストリームの前記一部分に対して適用される、請求項12に記載の方法。
  14. 前記決定ルールが、前記音声ストリームのうちの前記トリガー特性を含む前記一部分とは異なる一部分に対して適用される、請求項12に記載の方法。
  15. 前記トリガー特性が母音である、請求項12に記載の方法。
  16. 前記トリガー特性がS音またはX音である、請求項12に記載の方法。
  17. 前記音声ストリームの前記一部分がフレームである、請求項12に記載の方法。
  18. 前記ルールモジュールが前記音声ストリームの前記一部分におけるエネルギーの不足を分析する、請求項12に記載の方法。
  19. 前記ルールモジュールが前記音声ストリームの前記一部分におけるエネルギーを分析する、請求項12に記載の方法。
  20. 前記ルールモジュールが前記音声ストリームの前記一部分における経過時間を分析する、請求項12に記載の方法。
  21. 前記ルールモジュールが前記音声ストリームの前記一部分における所定の数の破裂音を分析する、請求項12に記載の方法。
  22. 前記ルールモジュールが潜在的な発話セグメントの開始および終了を検出する、請求項12に記載の方法。
  23. 音声ストリームにおける音声発話セグメントの開始および終了のうちの少なくとも一方を決定するエンドポインタであって、該エンドポインタは、
    該音声ストリームのうちの少なくとも1つのダイナミックな局面を分析することによって該音声発話セグメントが音声エンドポイント内にあるかを決定する複数の継続時間ルールを含む、エンドポインタモジュールと、
    該エンドポインタモジュールと通信するメモリであって、該複数のルールのうちの1つ以上の継続時間を変更するプロファイル情報を保存するように構成されている、メモリと
    を備える、エンドポインタ。
  24. 前記音声ストリームの前記ダイナミックな局面が話者の少なくとも1つの特徴を含む、請求項23に記載のエンドポインタ。
  25. 前記話者の前記特徴が話者の話すペースを含む、請求項24に記載のエンドポインタ。
  26. 前記音声ストリームの前記ダイナミックな局面が前記音声ストリームにおけるバックグラウンドノイズを含む、請求項23に記載のエンドポインタ。
  27. 前記音声ストリームの前記ダイナミックな局面が、該音声ストリームにおいて予測された音を含む、請求項23に記載のエンドポインタ。
  28. 前記予測された音が、話者に対して与えられた質問に対する少なくとも1つの予測された回答を含む、請求項27に記載のエンドポインタ。
  29. マイクロフォン入力部、処理ユニットおよびメモリと通信する、処理環境をさらに備え、前記エンドポインタモジュールは該メモリ内に存在する、請求項23に記載のエンドポインタ。
  30. 音声ストリームにおける音声発話セグメントの開始および終了のうちの少なくとも一方を決定するエンドポインタであって、該エンドポインタは、
    周期的な音声信号を含む音声ストリームの一部分を識別する音声トリガーモジュールと、
    複数のルールに基づいて認識装置へ入力された該音声ストリームの量を変動させる、エンドポインタモジュールと
    を備え、
    該複数のルールは、周期的な音声信号に関する音声ストリームの一部分が音声エンドポイント内にあるかを決定するための継続時間ルールを含む、エンドポインタ。
  31. 前記認識装置が自動音声認識装置である、請求項30に記載のエンドポインタ。
  32. 音声発話セグメントの開始および終了のうちの少なくとも一方を決定するための命令のセットを含む、コンピュータ可読記憶媒体であって、該命令のセットは、
    音波を電気信号に変換することと、
    該電気信号の周期性を識別することと、
    該識別された周期性に関する該電気信号の可変部分を分析することによって、該電気信号が音声エンドポイント内にあるかを決定することと
    を含む、コンピュータ可読記憶媒体。
  33. 前記電気信号の可変部分を分析することが、有声発話音の前の継続時間を分析することを含む、請求項32に記載のコンピュータ可読記憶媒体。
  34. 前記電気信号の可変部分を分析することが、有声発話音の後の継続時間を分析することを含む、請求項32に記載のコンピュータ可読記憶媒体。
  35. 前記電気信号の可変部分を分析することが、有声発話音の前または後の推移の数を分析することを含む、請求項32に記載のコンピュータ可読記憶媒体。
  36. 前記電気信号の可変部分を分析することが、有声発話音の前の連続した沈黙の継続を分析することを含む、請求項32に記載のコンピュータ可読記憶媒体。
  37. 前記電気信号の可変部分を分析することが、有声発話音の後の連続した沈黙の継続を分析することを含む、請求項32に記載のコンピュータ可読記憶媒体。
  38. 前記コンピュータ可読媒体が車両のオンボードコンピュータ内に格納されている、請求項32に記載のコンピュータ可読記憶媒体。
  39. 前記コンピュータ可読媒体が音声システムと通信する、請求項32に記載のコンピュータ可読記憶媒体。
JP2007524151A 2005-06-15 2006-04-03 スピーチエンドポインタ Pending JP2008508564A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/152,922 US8170875B2 (en) 2005-06-15 2005-06-15 Speech end-pointer
PCT/CA2006/000512 WO2006133537A1 (en) 2005-06-15 2006-04-03 Speech end-pointer

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2010278673A Division JP5331784B2 (ja) 2005-06-15 2010-12-14 スピーチエンドポインタ

Publications (1)

Publication Number Publication Date
JP2008508564A true JP2008508564A (ja) 2008-03-21

Family

ID=37531906

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2007524151A Pending JP2008508564A (ja) 2005-06-15 2006-04-03 スピーチエンドポインタ
JP2010278673A Active JP5331784B2 (ja) 2005-06-15 2010-12-14 スピーチエンドポインタ

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2010278673A Active JP5331784B2 (ja) 2005-06-15 2010-12-14 スピーチエンドポインタ

Country Status (7)

Country Link
US (3) US8170875B2 (ja)
EP (1) EP1771840A4 (ja)
JP (2) JP2008508564A (ja)
KR (1) KR20070088469A (ja)
CN (1) CN101031958B (ja)
CA (1) CA2575632C (ja)
WO (1) WO2006133537A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013545133A (ja) * 2010-10-29 2013-12-19 安徽科大訊飛信息科技股▲分▼有限公司 録音の終了点自動検出のための方法及びシステム
JP2017078869A (ja) * 2015-10-19 2017-04-27 グーグル インコーポレイテッド スピーチエンドポインティング
US10269341B2 (en) 2015-10-19 2019-04-23 Google Llc Speech endpointing
US10593352B2 (en) 2017-06-06 2020-03-17 Google Llc End of query detection
US10929754B2 (en) 2017-06-06 2021-02-23 Google Llc Unified endpointer using multitask and multidomain learning

Families Citing this family (126)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117149B1 (en) 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
US8326621B2 (en) 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US8073689B2 (en) 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US8271279B2 (en) 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US7725315B2 (en) 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US7895036B2 (en) 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US8543390B2 (en) 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US7716046B2 (en) 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US7610196B2 (en) 2004-10-26 2009-10-27 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US7680652B2 (en) 2004-10-26 2010-03-16 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US8170879B2 (en) 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US7949520B2 (en) 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
US8306821B2 (en) 2004-10-26 2012-11-06 Qnx Software Systems Limited Sub-band periodic signal enhancement system
US8284947B2 (en) * 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
FR2881867A1 (fr) * 2005-02-04 2006-08-11 France Telecom Procede de transmission de marques de fin de parole dans un systeme de reconnaissance de la parole
US8027833B2 (en) * 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8701005B2 (en) * 2006-04-26 2014-04-15 At&T Intellectual Property I, Lp Methods, systems, and computer program products for managing video information
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP4282704B2 (ja) * 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム
US8326620B2 (en) 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US8335685B2 (en) * 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
JP4827721B2 (ja) * 2006-12-26 2011-11-30 ニュアンス コミュニケーションズ,インコーポレイテッド 発話分割方法、装置およびプログラム
US8850154B2 (en) 2007-09-11 2014-09-30 2236008 Ontario Inc. Processing system having memory partitioning
US8904400B2 (en) 2007-09-11 2014-12-02 2236008 Ontario Inc. Processing system having a partitioning component for resource partitioning
US8694310B2 (en) 2007-09-17 2014-04-08 Qnx Software Systems Limited Remote control server protocol system
KR101437830B1 (ko) * 2007-11-13 2014-11-03 삼성전자주식회사 음성 구간 검출 방법 및 장치
US8209514B2 (en) 2008-02-04 2012-06-26 Qnx Software Systems Limited Media processing system having resource partitioning
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8442831B2 (en) * 2008-10-31 2013-05-14 International Business Machines Corporation Sound envelope deconstruction to identify words in continuous speech
US8413108B2 (en) * 2009-05-12 2013-04-02 Microsoft Corporation Architectural data metrics overlay
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
CN101996628A (zh) * 2009-08-21 2011-03-30 索尼株式会社 提取语音信号的韵律特征的方法和装置
CN102044242B (zh) * 2009-10-15 2012-01-25 华为技术有限公司 语音激活检测方法、装置和电子设备
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8473289B2 (en) * 2010-08-06 2013-06-25 Google Inc. Disambiguating input based on context
CN102456343A (zh) * 2010-10-29 2012-05-16 安徽科大讯飞信息科技股份有限公司 录音结束点检测方法及系统
US8762147B2 (en) * 2011-02-02 2014-06-24 JVC Kenwood Corporation Consonant-segment detection apparatus and consonant-segment detection method
US8543061B2 (en) 2011-05-03 2013-09-24 Suhami Associates Ltd Cellphone managed hearing eyeglasses
KR101247652B1 (ko) * 2011-08-30 2013-04-01 광주과학기술원 잡음 제거 장치 및 방법
US20130173254A1 (en) * 2011-12-31 2013-07-04 Farrokh Alemi Sentiment Analyzer
KR20130101943A (ko) 2012-03-06 2013-09-16 삼성전자주식회사 음원 끝점 검출 장치 및 그 방법
JP6045175B2 (ja) * 2012-04-05 2016-12-14 任天堂株式会社 情報処理プログラム、情報処理装置、情報処理方法及び情報処理システム
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9520141B2 (en) * 2013-02-28 2016-12-13 Google Inc. Keyboard typing detection and suppression
US9076459B2 (en) 2013-03-12 2015-07-07 Intermec Ip, Corp. Apparatus and method to classify sound to detect speech
US20140288939A1 (en) * 2013-03-20 2014-09-25 Navteq B.V. Method and apparatus for optimizing timing of audio commands based on recognized audio patterns
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US8775191B1 (en) 2013-11-13 2014-07-08 Google Inc. Efficient utterance-specific endpointer triggering for always-on hotwording
US8719032B1 (en) * 2013-12-11 2014-05-06 Jefferson Audio Video Systems, Inc. Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface
US8843369B1 (en) 2013-12-27 2014-09-23 Google Inc. Speech endpointing based on voice profile
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10272838B1 (en) * 2014-08-20 2019-04-30 Ambarella, Inc. Reducing lane departure warning false alarms
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10575103B2 (en) * 2015-04-10 2020-02-25 Starkey Laboratories, Inc. Neural network-driven frequency translation
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
JP6604113B2 (ja) * 2015-09-24 2019-11-13 富士通株式会社 飲食行動検出装置、飲食行動検出方法及び飲食行動検出用コンピュータプログラム
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
US10467509B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
CN107103916B (zh) * 2017-04-20 2020-05-19 深圳市蓝海华腾技术股份有限公司 一种应用于音乐喷泉的音乐开始和结束检测方法及系统
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN107180627B (zh) * 2017-06-22 2020-10-09 潍坊歌尔微电子有限公司 去除噪声的方法和装置
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
KR102629385B1 (ko) 2018-01-25 2024-01-25 삼성전자주식회사 바지-인 관련 직접 경로를 지원하는 저전력 보이스 트리거 시스템을 포함하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법
CN108962283B (zh) * 2018-01-29 2020-11-06 北京猎户星空科技有限公司 一种发问结束静音时间的确定方法、装置及电子设备
TWI672690B (zh) * 2018-03-21 2019-09-21 塞席爾商元鼎音訊股份有限公司 人工智慧語音互動之方法、電腦程式產品及其近端電子裝置
US11996119B2 (en) * 2018-08-15 2024-05-28 Nippon Telegraph And Telephone Corporation End-of-talk prediction device, end-of-talk prediction method, and non-transitory computer readable recording medium
CN110070884B (zh) * 2019-02-28 2022-03-15 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
CN111223497B (zh) * 2020-01-06 2022-04-19 思必驰科技股份有限公司 一种终端的就近唤醒方法、装置、计算设备及存储介质
US11138979B1 (en) * 2020-03-18 2021-10-05 Sas Institute Inc. Speech audio pre-processing segmentation
WO2022198474A1 (en) 2021-03-24 2022-09-29 Sas Institute Inc. Speech-to-analytics framework with support for large n-gram corpora
US11615239B2 (en) * 2020-03-31 2023-03-28 Adobe Inc. Accuracy of natural language input classification utilizing response delay
WO2024005226A1 (ko) * 2022-06-29 2024-01-04 엘지전자 주식회사 디스플레이 장치
CN115798521A (zh) * 2022-11-15 2023-03-14 四川启睿克科技有限公司 基于双向循环链表的语音检测方法
KR20240097174A (ko) * 2022-12-20 2024-06-27 현대모비스 주식회사 문자열 음원 기반 엔진음 생성 시스템 및 엔진음 생성 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004111996A1 (ja) * 2003-06-11 2004-12-23 Matsushita Electric Industrial Co., Ltd. 音響区間検出方法および装置

Family Cites Families (132)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US55201A (en) * 1866-05-29 Improvement in machinery for printing railroad-tickets
US4435617A (en) * 1981-08-13 1984-03-06 Griggs David T Speech-controlled phonetic typewriter or display device using two-tier approach
US4454609A (en) 1981-10-05 1984-06-12 Signatron, Inc. Speech intelligibility enhancement
US4531228A (en) 1981-10-20 1985-07-23 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
JPS5870292A (ja) * 1981-10-22 1983-04-26 日産自動車株式会社 車両用音声認識装置
US4486900A (en) 1982-03-30 1984-12-04 At&T Bell Laboratories Real time pitch detection by stream processing
CA1203906A (en) * 1982-10-21 1986-04-29 Tetsu Taguchi Variable frame length vocoder
US4989248A (en) 1983-01-28 1991-01-29 Texas Instruments Incorporated Speaker-dependent connected speech word recognition method
US4817159A (en) * 1983-06-02 1989-03-28 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
JPS6146999A (ja) * 1984-08-10 1986-03-07 ブラザー工業株式会社 音声始端決定装置
US5146539A (en) 1984-11-30 1992-09-08 Texas Instruments Incorporated Method for utilizing formant frequencies in speech recognition
US4630305A (en) 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
GB8613327D0 (en) 1986-06-02 1986-07-09 British Telecomm Speech processor
US4856067A (en) 1986-08-21 1989-08-08 Oki Electric Industry Co., Ltd. Speech recognition system wherein the consonantal characteristics of input utterances are extracted
JPS63220199A (ja) * 1987-03-09 1988-09-13 株式会社東芝 音声認識装置
US4843562A (en) 1987-06-24 1989-06-27 Broadcast Data Systems Limited Partnership Broadcast information classification system and method
US4811404A (en) 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
DE3739681A1 (de) 1987-11-24 1989-06-08 Philips Patentverwaltung Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens
JPH01169499A (ja) * 1987-12-24 1989-07-04 Fujitsu Ltd 単語音声区間切出し方式
US5027410A (en) 1988-11-10 1991-06-25 Wisconsin Alumni Research Foundation Adaptive, programmable signal processing and filtering for hearing aids
CN1013525B (zh) 1988-11-16 1991-08-14 中国科学院声学研究所 认人与不认人实时语音识别的方法和装置
US5201028A (en) * 1990-09-21 1993-04-06 Theis Peter F System for distinguishing or counting spoken itemized expressions
JP2974423B2 (ja) 1991-02-13 1999-11-10 シャープ株式会社 ロンバード音声認識方法
US5152007A (en) 1991-04-23 1992-09-29 Motorola, Inc. Method and apparatus for detecting speech
US5680508A (en) 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
US5293452A (en) 1991-07-01 1994-03-08 Texas Instruments Incorporated Voice log-in using spoken name input
US5408583A (en) 1991-07-26 1995-04-18 Casio Computer Co., Ltd. Sound outputting devices using digital displacement data for a PWM sound signal
DE69232407T2 (de) 1991-11-18 2002-09-12 Kabushiki Kaisha Toshiba, Kawasaki Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
US5305422A (en) * 1992-02-28 1994-04-19 Panasonic Technologies, Inc. Method for determining boundaries of isolated words within a speech signal
US5617508A (en) 1992-10-05 1997-04-01 Panasonic Technologies Inc. Speech detection device for the detection of speech end points based on variance of frequency band limited energy
FR2697101B1 (fr) 1992-10-21 1994-11-25 Sextant Avionique Procédé de détection de la parole.
US5400409A (en) 1992-12-23 1995-03-21 Daimler-Benz Ag Noise-reduction method for noise-affected voice channels
DE4243831A1 (de) 1992-12-23 1994-06-30 Daimler Benz Ag Verfahren zur Laufzeitschätzung an gestörten Sprachkanälen
US5692104A (en) 1992-12-31 1997-11-25 Apple Computer, Inc. Method and apparatus for detecting end points of speech activity
US5596680A (en) * 1992-12-31 1997-01-21 Apple Computer, Inc. Method and apparatus for detecting speech activity using cepstrum vectors
JP3186892B2 (ja) 1993-03-16 2001-07-11 ソニー株式会社 風雑音低減装置
US5583961A (en) 1993-03-25 1996-12-10 British Telecommunications Public Limited Company Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
EP0695453B1 (en) 1993-03-31 1999-10-06 BRITISH TELECOMMUNICATIONS public limited company Connected speech recognition
NZ263223A (en) 1993-03-31 1997-11-24 British Telecomm Path link passing speech recognition
US5526466A (en) 1993-04-14 1996-06-11 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus
JP3071063B2 (ja) 1993-05-07 2000-07-31 三洋電機株式会社 収音装置を備えたビデオカメラ
NO941999L (no) 1993-06-15 1994-12-16 Ontario Hydro Automatisert intelligent overvåkingssystem
US5495415A (en) 1993-11-18 1996-02-27 Regents Of The University Of Michigan Method and system for detecting a misfire of a reciprocating internal combustion engine
JP3235925B2 (ja) 1993-11-19 2001-12-04 松下電器産業株式会社 ハウリング抑制装置
US5568559A (en) 1993-12-17 1996-10-22 Canon Kabushiki Kaisha Sound processing apparatus
DE4422545A1 (de) 1994-06-28 1996-01-04 Sel Alcatel Ag Start-/Endpunkt-Detektion zur Worterkennung
EP0703569B1 (de) * 1994-09-20 2000-03-01 Philips Patentverwaltung GmbH System zum Ermitteln von Wörtern aus einem Sprachsignal
US5790754A (en) * 1994-10-21 1998-08-04 Sensory Circuits, Inc. Speech recognition apparatus for consumer electronic applications
US5502688A (en) 1994-11-23 1996-03-26 At&T Corp. Feedforward neural network system for the detection and characterization of sonar signals with characteristic spectrogram textures
ATE179827T1 (de) 1994-11-25 1999-05-15 Fleming K Fink Verfahren zur veränderung eines sprachsignales mittels grundfrequenzmanipulation
US5701344A (en) 1995-08-23 1997-12-23 Canon Kabushiki Kaisha Audio processing apparatus
US5584295A (en) 1995-09-01 1996-12-17 Analogic Corporation System for measuring the period of a quasi-periodic signal
US5949888A (en) 1995-09-15 1999-09-07 Hughes Electronics Corporaton Comfort noise generator for echo cancelers
JPH0990974A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
FI99062C (fi) 1995-10-05 1997-09-25 Nokia Mobile Phones Ltd Puhesignaalin taajuuskorjaus matkapuhelimessa
US6434246B1 (en) 1995-10-10 2002-08-13 Gn Resound As Apparatus and methods for combining audio compression and feedback cancellation in a hearing aid
FI100840B (fi) 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
DE19629132A1 (de) 1996-07-19 1998-01-22 Daimler Benz Ag Verfahren zur Verringerung von Störungen eines Sprachsignals
JP3611223B2 (ja) * 1996-08-20 2005-01-19 株式会社リコー 音声認識装置及び方法
US6167375A (en) 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
FI113903B (fi) 1997-05-07 2004-06-30 Nokia Corp Puheen koodaus
US20020071573A1 (en) 1997-09-11 2002-06-13 Finn Brian M. DVE system with customized equalization
US6487532B1 (en) 1997-09-24 2002-11-26 Scansoft, Inc. Apparatus and method for distinguishing similar-sounding utterances speech recognition
US6173074B1 (en) 1997-09-30 2001-01-09 Lucent Technologies, Inc. Acoustic signature recognition and identification
US6216103B1 (en) * 1997-10-20 2001-04-10 Sony Corporation Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise
DE19747885B4 (de) 1997-10-30 2009-04-23 Harman Becker Automotive Systems Gmbh Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion
US6098040A (en) 1997-11-07 2000-08-01 Nortel Networks Corporation Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking
US6192134B1 (en) 1997-11-20 2001-02-20 Conexant Systems, Inc. System and method for a monolithic directional microphone array
US6163608A (en) 1998-01-09 2000-12-19 Ericsson Inc. Methods and apparatus for providing comfort noise in communications systems
US6240381B1 (en) * 1998-02-17 2001-05-29 Fonix Corporation Apparatus and methods for detecting onset of a signal
US6480823B1 (en) 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
US6175602B1 (en) 1998-05-27 2001-01-16 Telefonaktiebolaget Lm Ericsson (Publ) Signal noise reduction by spectral subtraction using linear convolution and casual filtering
US6453285B1 (en) 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6507814B1 (en) 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
US6711540B1 (en) 1998-09-25 2004-03-23 Legerity, Inc. Tone detector with noise detection and dynamic thresholding for robust performance
EP1141948B1 (en) 1999-01-07 2007-04-04 Tellabs Operations, Inc. Method and apparatus for adaptively suppressing noise
US6574601B1 (en) * 1999-01-13 2003-06-03 Lucent Technologies Inc. Acoustic speech recognizer system and method
US6453291B1 (en) * 1999-02-04 2002-09-17 Motorola, Inc. Apparatus and method for voice activity detection in a communication system
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
JP3789246B2 (ja) * 1999-02-25 2006-06-21 株式会社リコー 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体
JP2000267690A (ja) * 1999-03-19 2000-09-29 Toshiba Corp 音声検知装置及び音声制御システム
JP2000310993A (ja) * 1999-04-28 2000-11-07 Pioneer Electronic Corp 音声検出装置
US6611707B1 (en) * 1999-06-04 2003-08-26 Georgia Tech Research Corporation Microneedle drug delivery device
US6910011B1 (en) 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
US7117149B1 (en) 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
US6405168B1 (en) 1999-09-30 2002-06-11 Conexant Systems, Inc. Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection
US6356868B1 (en) * 1999-10-25 2002-03-12 Comverse Network Systems, Inc. Voiceprint identification system
US7421317B2 (en) * 1999-11-25 2008-09-02 S-Rain Control A/S Two-wire controlling and monitoring system for the irrigation of localized areas of soil
US20030123644A1 (en) 2000-01-26 2003-07-03 Harrow Scott E. Method and apparatus for removing audio artifacts
KR20010091093A (ko) 2000-03-13 2001-10-23 구자홍 음성 인식 및 끝점 검출방법
US6535851B1 (en) 2000-03-24 2003-03-18 Speechworks, International, Inc. Segmentation approach for speech recognition systems
US6766292B1 (en) 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
US6304844B1 (en) * 2000-03-30 2001-10-16 Verbaltek, Inc. Spelling speech recognition apparatus and method for communications
DE10017646A1 (de) 2000-04-08 2001-10-11 Alcatel Sa Geräuschunterdrückung im Zeitbereich
US6996252B2 (en) * 2000-04-19 2006-02-07 Digimarc Corporation Low visibility watermark using time decay fluorescence
WO2001082484A1 (en) 2000-04-26 2001-11-01 Sybersay Communications Corporation Adaptive speech filter
US6873953B1 (en) * 2000-05-22 2005-03-29 Nuance Communications Prosody based endpoint detection
US6587816B1 (en) 2000-07-14 2003-07-01 International Business Machines Corporation Fast frequency-domain pitch estimation
US6850882B1 (en) 2000-10-23 2005-02-01 Martin Rothenberg System for measuring velar function during speech
US6721706B1 (en) * 2000-10-30 2004-04-13 Koninklijke Philips Electronics N.V. Environment-responsive user interface/entertainment device that simulates personal interaction
US7617099B2 (en) 2001-02-12 2009-11-10 FortMedia Inc. Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile
JP2002258882A (ja) * 2001-03-05 2002-09-11 Hitachi Ltd 音声認識システム及び情報記録媒体
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
DE10118653C2 (de) 2001-04-14 2003-03-27 Daimler Chrysler Ag Verfahren zur Geräuschreduktion
US6782363B2 (en) 2001-05-04 2004-08-24 Lucent Technologies Inc. Method and apparatus for performing real-time endpoint detection in automatic speech recognition
US6859420B1 (en) 2001-06-26 2005-02-22 Bbnt Solutions Llc Systems and methods for adaptive wind noise rejection
US7146314B2 (en) 2001-12-20 2006-12-05 Renesas Technology Corporation Dynamic adjustment of noise separation in data handling, particularly voice activation
US20030216907A1 (en) 2002-05-14 2003-11-20 Acoustic Technologies, Inc. Enhancing the aural perception of speech
US6560837B1 (en) 2002-07-31 2003-05-13 The Gates Corporation Assembly device for shaft damper
US7146316B2 (en) 2002-10-17 2006-12-05 Clarity Technologies, Inc. Noise reduction in subbanded speech signals
JP4352790B2 (ja) 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US7895036B2 (en) 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US7725315B2 (en) 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US8073689B2 (en) 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US7146319B2 (en) 2003-03-31 2006-12-05 Novauris Technologies Ltd. Phonetically based speech recognition system and method
US7014630B2 (en) * 2003-06-18 2006-03-21 Oxyband Technologies, Inc. Tissue dressing having gas reservoir
US20050076801A1 (en) * 2003-10-08 2005-04-14 Miller Gary Roger Developer system
KR20060094078A (ko) 2003-10-16 2006-08-28 코닌클리즈케 필립스 일렉트로닉스 엔.브이. 음성 동작 검출 장치 및 방법
US20050096900A1 (en) 2003-10-31 2005-05-05 Bossemeyer Robert W. Locating and confirming glottal events within human speech signals
US7492889B2 (en) 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
US7433463B2 (en) 2004-08-10 2008-10-07 Clarity Technologies, Inc. Echo cancellation and noise reduction method
US7383179B2 (en) 2004-09-28 2008-06-03 Clarity Technologies, Inc. Method of cascading noise reduction algorithms to avoid speech distortion
GB2422279A (en) 2004-09-29 2006-07-19 Fluency Voice Technology Ltd Determining Pattern End-Point in an Input Signal
US7716046B2 (en) 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US8284947B2 (en) 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
EP1681670A1 (en) 2005-01-14 2006-07-19 Dialog Semiconductor GmbH Voice activation
KR100714721B1 (ko) 2005-02-04 2007-05-04 삼성전자주식회사 음성 구간 검출 방법 및 장치
US8027833B2 (en) 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US7890325B2 (en) 2006-03-16 2011-02-15 Microsoft Corporation Subword unit posterior probability for measuring confidence

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004111996A1 (ja) * 2003-06-11 2004-12-23 Matsushita Electric Industrial Co., Ltd. 音響区間検出方法および装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013545133A (ja) * 2010-10-29 2013-12-19 安徽科大訊飛信息科技股▲分▼有限公司 録音の終了点自動検出のための方法及びシステム
US9330667B2 (en) 2010-10-29 2016-05-03 Iflytek Co., Ltd. Method and system for endpoint automatic detection of audio record
JP2017078869A (ja) * 2015-10-19 2017-04-27 グーグル インコーポレイテッド スピーチエンドポインティング
JP2017078848A (ja) * 2015-10-19 2017-04-27 グーグル インコーポレイテッド スピーチエンドポインティング
US10269341B2 (en) 2015-10-19 2019-04-23 Google Llc Speech endpointing
US11062696B2 (en) 2015-10-19 2021-07-13 Google Llc Speech endpointing
US11710477B2 (en) 2015-10-19 2023-07-25 Google Llc Speech endpointing
US10593352B2 (en) 2017-06-06 2020-03-17 Google Llc End of query detection
US10929754B2 (en) 2017-06-06 2021-02-23 Google Llc Unified endpointer using multitask and multidomain learning
US11551709B2 (en) 2017-06-06 2023-01-10 Google Llc End of query detection
US11676625B2 (en) 2017-06-06 2023-06-13 Google Llc Unified endpointer using multitask and multidomain learning

Also Published As

Publication number Publication date
JP2011107715A (ja) 2011-06-02
WO2006133537A1 (en) 2006-12-21
US8165880B2 (en) 2012-04-24
EP1771840A1 (en) 2007-04-11
US20120265530A1 (en) 2012-10-18
US8554564B2 (en) 2013-10-08
EP1771840A4 (en) 2007-10-03
CN101031958B (zh) 2012-05-16
US20070288238A1 (en) 2007-12-13
CA2575632C (en) 2013-01-08
US8170875B2 (en) 2012-05-01
KR20070088469A (ko) 2007-08-29
CA2575632A1 (en) 2006-12-21
US20060287859A1 (en) 2006-12-21
JP5331784B2 (ja) 2013-10-30
CN101031958A (zh) 2007-09-05

Similar Documents

Publication Publication Date Title
JP5331784B2 (ja) スピーチエンドポインタ
JP7582352B2 (ja) 音声区間検出装置、音声区間検出方法及びプログラム
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
RU2507609C2 (ru) Способ и дискриминатор для классификации различных сегментов сигнала
US8706483B2 (en) Partial speech reconstruction
US9418674B2 (en) Method and system for using vehicle sound information to enhance audio prompting
US9934780B2 (en) Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue&#39;s prompt pitch
US8874440B2 (en) Apparatus and method for detecting speech
US20180137880A1 (en) Phonation Style Detection
US20080082320A1 (en) Apparatus, method and computer program product for advanced voice conversion
US7359856B2 (en) Speech detection system in an audio signal in noisy surrounding
CN102667927A (zh) 语音活动检测的方法和背景估计器
CA2701439C (en) Measuring double talk performance
JP2006010739A (ja) 音声認識装置
JP6790851B2 (ja) 音声処理プログラム、音声処理方法、及び音声処理装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100107

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101214

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20101214

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101214

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110411

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20110428

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20111028