JP4643011B2 - 音声認識除去方式 - Google Patents
音声認識除去方式 Download PDFInfo
- Publication number
- JP4643011B2 JP4643011B2 JP2000597792A JP2000597792A JP4643011B2 JP 4643011 B2 JP4643011 B2 JP 4643011B2 JP 2000597792 A JP2000597792 A JP 2000597792A JP 2000597792 A JP2000597792 A JP 2000597792A JP 4643011 B2 JP4643011 B2 JP 4643011B2
- Authority
- JP
- Japan
- Prior art keywords
- score
- utterance
- speech recognition
- difference
- recognition system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 21
- 230000008859 change Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000001419 dependent effect Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Character Discrimination (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
- Apparatus For Radiation Diagnosis (AREA)
Description
【発明の属する技術分野】
本発明は一般に通信分野に関し、とくに音声認識システムに関する。
【0002】
【従来の技術】
音声認識(VR)はユーザまたはユーザの音声コマンドを認識し、人間と機械とのインターフェイスを容易にするために機械にシミュレートされた知能を与える最も重要な技術の1つを表している。VRはまた人間の音声を理解するための主要な技術を表している。音響スピーチ信号からの言語メッセージを再生する技術を用いるシステムは音声認識装置を呼ばれる。音声認識装置は典型的に、入来する生(未加工)のスピーチのVRを行うのに必要な情報を有する特徴のシーケンスまたはベクトルを抽出する音響プロセッサと、入力発話に対応する言語単語のシーケンスのような意味をなす所望の出力フォーマットを生成するために特徴のシーケンスまたはベクトルを復号する単語デコーダとを備えている。所定のシステムの性能を増加するため、システムに有効なパラメータを装備するためにトレーニングが必要とされる。換言すると、システムは最適に機能できる前に学習を必要とする。
【0003】
音響プロセッサは音声認識装置のフロントエンドスピーチ解析サブシステムの典型を示している。入力スピーチ信号に応答して、音響プロセッサは時間的に変化するスピーチ信号を特徴付けるための適切な表示を与える。音響プロセッサは背景雑音、チャンネル歪み、スピーカ特性、話し方等の関連のない情報を破棄すべきである。実効的な音響処理は強化された音響弁別パワーを有する音声認識装置を備えている。結局、解析される有効な特性は短時間のスペクトルエンベロープである。短時間のスペクトルエンベロープを特徴付けるための2つの普通に使用されるスペクトル解析技術は線形予測符号化(LPC)とフィルタバンクベースのスペクトルモデル化である。例示的なLPC技術は本発明の参考文献とされている米国特許第5,414,796 号明細書と、本発明の参考文献とされているL.B. Rabiner & R.W. Schafer のDigital Processing of Speech Signals、396 −453 頁(1978年)に記載されている。
【0004】
VR(通常音声認識とも呼ばれている)の使用は、安全性の理由で重要性が増している。たとえば、VRは無線電話のキーパッドのボタンを押す手作業の置換のために使用されることができる。これはとくに、ユーザが車を運転しながら呼を開始するときに重要である。VRなしで電話を使用する場合、運転者は操縦ハンドルから片手を放し、ダイヤリングにより通話するために電話のキーパッドを見ながらボタンを押さなければならない。これらの行動は自動車事故の可能性を増加する。スピーチエネーブル電話(すなわち、スピーチ認識用に設計されている電話)は、運転者が連続的に道路を見ながら通話できるようにする。さらに、手を使用しない自動車キットシステムにより、運転者は通話中操縦ハンドルを両手で握ったままでいることが可能になる。
【0005】
スピーチ認識装置は、スピーカ依存装置とスピーカ独立装置とに分類される。スピーカ独立装置は音声コマンドを任意のユーザから受けることができる。さらに、より一般的であるスピーカ依存装置は特定のユーザからのコマンドを認識するようにトレーニングされている。スピーカ依存のVR装置は典型的に2つのフェーズ、すなわち、トレーニングフェーズと認識フェーズで動作する。トレーニングフェーズでは、VRシステムはユーザにシステムの語彙の各単語を1度または2度発話させ、それによってシステムはこれらの特定の単語またはフレーズに対するユーザのスピーチ特性を学習できる。代わりに、音声的なVR装置では、トレーニングは言語の全ての音素を網羅するように特別にスクリプトされた1以上の簡単なアーティクルを読取ることにより実現される。手を使用しない自動車キット用の例示的な語彙はキーパッド上の数字と、“電話”、“送信”、“ダイヤル”、“取消し”、“クリア”、“追加”、“消去”、“履歴”、“プログラム”、“イエス”および“ノー” というキー単語と、予め限定された数の共通して呼ばれる会社の同僚、友人または家族のメンバーの名称を含んでいる。トレーニングが一度完了すると、ユーザはトレーニングされたキー単語を発話することにより、認識フェーズで呼を開始できる。たとえば名称“John”がトレーニングされた名称のうちの1つであるならば、ユーザはフレーズ“Call John ”と言うことによりジョンへの呼を開始する。VRシステムは単語“Call”と“John”を認識し、ジョンの電話番号としてユーザが前に入力した番号をダイヤルする。
【0006】
【発明が解決しようとする課題】
VRシステムのスループットは、ユーザが認識タスクの実行に成功した例の割合として規定されてもよい。認識タスクは一般に多数の段階を含んでいる。たとえば無線電話機による音声ダイヤリングでは、スループットは、ユーザがVRシステムによる通話を成功的に完了した回数の平均パーセンテージを示す。VRによる通話を成功するために必要な段階の数は、個々の通話によって異なる可能性が高い。一般に、VRシステムのスループットは、主としてVRシステムの認識の正確度および人間/機械インターフェースという2つの要因に依存する。人間のユーザの主観的理解力に相当するVRシステムの性能はスループットに基づいている。したがって、スループットを高める高い認識の正確度および知的人間・機械インターフェースを有するVRシステムが必要とされている。
【0007】
【課題を解決するための手段】
本発明は、スループットを増加させる高い認識の正確度および知的人間・機械インターフェースを有するVRシステムに関する。それによると、本発明の1つの特徴において、音声認識システムにおける発話捕捉方法は、発話を記憶された単語に関して比較して得られた第1の1以上の比較結果と、この第1の1以上の比較結果とその発話を1以上の別の記憶された単語と比較して得られた第2の1以上の比較結果との間の1以上の第1と第2の比較結果の差との間に第1の予め定められた関係が存在する場合、その発話を受入れ、第1の1以上の比較結果と、1以上の第1と第2の比較結果の差との間に第2の予め定められた関係が存在する場合、その発話に対してNベストアルゴリズムを適用し、第1の1以上の比較結果と、1以上の第1と第2の比較結果の差との間に第3の予め定められた関係が存在する場合、その発話を除去するステップを都合よく含んでいる。
【0008】
本発明の別の特徴において、音声認識システムは、発話のデジタル化されたスピーチサンプルからスピーチパラメータを抽出するように構成された音響プロセッサと、(1)発話を記憶された単語に関して比較して得られた第1の1以上の比較結果と、この第1の1以上の比較結果とその発話を1以上の別の記憶された単語と比較して得られた第2の1以上の比較結果との間の1以上の第1と第2の比較結果の差との間に第1の予め定められた関係が存在する場合、その発話を受入れ、(2)第1の1以上の比較結果と、1以上の第1と第2の比較結果の差との間に第2の予め定められた関係が存在する場合、その発話に対してNベストアルゴリズムを適用し、あるいは(3)第1の1以上の比較結果と、1以上の第1と第2の比較結果の差との間に第3の予め定められた関係が存在する場合、その発話を除去するように構成されている、音響プロセッサに結合されたプロセッサとを都合よく備えている。
【0009】
本発明のさらに別の特徴において、音声認識システムは、発話を記憶された単語に関して比較して得られた第1の1以上の比較結果と、この第1の1以上の比較結果とその発話を1以上の別の記憶された単語と比較して得られた第2の1以上の比較結果との間の1以上の第1と第2の比較結果の差との間に第1の予め定められた関係が存在する場合、その発話を受入れる手段と、第1の1以上の比較結果と、1以上の第1と第2の比較結果の差との間に第2の予め定められた関係が存在する場合、その発話に対してNベストアルゴリズムを適用する手段と、第1の1以上の比較結果と、1以上の第1と第2の比較結果の差との間に第3の予め定められた関係が存在する場合、その発話を除去する手段とを都合よく備えている。
【0010】
本発明の別の特徴において、音声認識システムは、発話のデジタル化されたスピーチサンプルからスピーチパラメータを抽出する手段と、(1)発話を記憶された単語に関して比較して得られた第1の1以上の比較結果と、この第1の1以上の比較結果とその発話を1以上の別の記憶された単語と比較して得られた第2の1以上の比較結果との間の1以上の第1と第2の比較結果の差との間に第1の予め定められた関係が存在する場合、その発話を受入れ、(2)第1の1以上の比較結果と、1以上の第1と第2の比較結果の差との間に第2の予め定められた関係が存在する場合、その発話に対してNベストアルゴリズムを適用し、あるいは(3)第1の1以上の比較結果と、1以上の第1と第2の比較結果の差との間に第3の予め定められた関係が存在する場合、その発話を除去する手段とを都合よく備えている。
【0011】
【発明の実施の形態】
1実施形態にしたがって、図1で示されているように、音声認識システム10はアナログデジタル変換器(A/D)12と、音響プロセッサ14と、VRテンプレートデータベース16と、パターン比較論理装置18と、決定論理装置20とを含んでいる。VRシステム10は、たとえば無線電話または手を使用しない自動車キット中に設けられることができる。
【0012】
VRシステム10がスピーチ認識フェーズにあるとき、人(図示せず)は単語またはフレーズを発話し、スピーチ信号を発生する。スピーチ信号は通常のトランスデューサ(図示せず)により電気スピーチ信号s(t)に変換される。スピーチ信号s(t)はA/D12へ与えられ、これはたとえばパルス符号変調(PCM)のような既知のサンプリング方法にしたがって、スピーチ信号s(t)をデジタル化されたスピーチサンプルs(n)へ変換する。
【0013】
スピーチサンプルs(n)はパラメータ決定のために音響プロセッサ14へ与えられる。音響プロセッサ14は入力スピーチ信号s(t)特性をモデル化する1組のパラメータを生成する。パラメータは、前述の米国特許第5,414,796 号明細書に記載されているように、たとえばスピーチコーダの符号化を含んだ任意の複数の既知のスピーチパラメータ決定技術にしたがって高速度フーリエ変換(FFT)ベースのケプストラム係数を使用して決定されてもよい。音響プロセッサ14はデジタル信号プロセッサ(DSP)として構成されてもよい。DSPはスピーチコーダを含んでもよい。代わりに、音響プロセッサ14はスピーチコーダとして構成されてもよい。
【0014】
パラメータ決定もVRシステム10のトレーニング中に実行され、ここでVRシステム10の全ての語彙単語の1組のテンプレートは永久的に記憶するためVRテンプレートデータベース16へ伝送される。VRテンプレートデータベース16は、たとえばフラッシュメモリ等の任意の通常の非揮発性記憶媒体の形態として都合よく構成される。これによって、VRシステム10へのパワーがオフに切換えられたとき、テンプレートがVRテンプレートデータベース16に保持されることが可能である。
【0015】
1組のパラメータはパターン比較論理装置18へ与えられる。パターン比較論理装置18は発話のスタートおよびエンドポイントを都合よく検出し、(たとえば時間導関数、2次時間導関数等の)ダイナミックな音響特性を計算し、関連するフレームを選択することにより音響特性を圧縮し、静的およびダイナミック特性を量子化する。エンドポイント検出、ダイナミック音響特性の微分、パターン圧縮、パターン量子化の種々の既知の方法は、たとえば、ここにおいて全文が参考文献とされている文献(Lawrence Rabiner & Biing-Hwang Juang、Fundamentals of Speech Recognition(1993年))に記載されている。
パターン比較論理装置18は、1組のパラメータをVRテンプレートデータベース16に記憶されている全てのテンプレートと比較する。このパラメータセットとVRテンプレートデータベース16に記憶されている全てのテンプレートとの比較結果、すなわち距離が決定論理装置20に与えられる。決定論理装置20は(1)パラメータセットに最も近く一致するテンプレートをVRテンプレートデータベース16から選択することができ、または(2)予め定められた一致しきい値内のN個の最も近い一致を選択する“Nベスト”選択アルゴリズムを使用することができ、あるいは(3)パラメータのセットを除去することができる。“Nベスト”選択アルゴリズムが使用されている場合、どの選択をするつもりだったのかを人に質問する。決定論理装置20の出力は、発話された語彙の単語についての決定である。たとえば、Nベスト状況では、人が“John Anders”と言うと、VRシステム10は“John Andrewsと言いましたか”と応答する。それに対して人は“John Anders”と答える。するとVRシステム10は“John Andersと言いましたか”と応答する。それで人が“はい”と応えると、その時点でVR10はダイヤリングによって呼を開始する。
【0016】
パターン比較論理装置18と決定論理装置20は、マイクロプロセッサとして構成されると都合がよい。その代り、パターン比較論理装置18と決定論理装置20は、任意の通常の形態のプロセッサ、制御装置、または状態マシンとして構成されてもよい。VRシステム10は、たとえば特定用途向け集積回路(ASIC)であってもよい。VRシステム10の認識の正確度は、VRシステム10が語彙中の発話された各語またはフレーズをどの程度正しく認識するかの尺度である。たとえば、95%の認識の正確度は、VRシステム10が語彙中の単語を100回中95回を正しく認識することを示している。
【0017】
1実施形態において、スコア対スコアの変化のグラフは、図2に示されているように、許容、Nベスト、および除去の領域に分けられる。領域は既知の線形弁別解析技術にしたがって線で分離されている。この既知の線形弁別解析技術は、ここにおいて全文が参考文献とされている文献[“ Pattern Classification and Scene Analysis ”,Richard O.Duda & Peter E.Hart(1973)]に記載されている。VRシステム10に入力された各発話は、上述のようにパターン比較論理装置18によってVRテンプレートデータベース16に記憶されている全ての各テンプレートに対する比較結果、またはそれら全ての各テンプレートからの距離を割当てられる。これらの距離、すなわちスコアは、多数のフレームにわたって合計された、N次元ベクトル空間中のベクトル間のユークリッド距離であると都合がよい。1実施形態では、そのベクトル空間は24次元ベクトル空間であり、そのスコアは24個のフレームにわたって累加され、そのスコアは整数の距離である。当業者は、そのスコアが分数またはその他の値として同様に表されることも可能であることを理解するであろう。当業者は、そのスコアがたとえば確率測度,尤度測度等であることができるように、ユークリッド距離の代わりに別の測定基準が使用されてもよいことも理解するであろう。
【0018】
所定の発話およびVRテンプレートデータベース16からの所定のVRテンプレートに対して、スコアが低くなる(すなわち、発話とVRテンプレートとの間の距離が短くなると)と、発話とVRテンプレートと間の一致がそれだけ一層近くなる。各発話に対して、決定論理装置20はVRテンプレートデータベース16中で最も近い一致に関連したスコアを、このスコアと、VRテンプレートデータベース16中で2番目に最も近い一致に関連したスコア(すなわち、2番目に低いスコア)との差に関して解析する。図2のグラフに示されているように、“スコア”は、スコアの変化に対して表されており、3つの領域が規定されている。除去領域は、スコアが比較的高く、そのスコアと2番目に低いスコアとの差が比較的小さいエリアを表している。発話がこの除去領域の範囲内に入っている場合、決定比較論理装置20はその発話を除去する。許容領域は、スコアが比較的低く、そのスコアと2番目に低いスコアとの差が比較的大きいエリアを表している。発話がこの許容領域の範囲内に入っている場合、決定比較論理装置20はその発話を受入れる。Nベスト領域は除去領域と許容領域との間に存在する。Nベスト領域は、スコアが除去領域内のスコアより低いか、あるいはそのスコアと2番目に低いスコアとの差が除去領域中のスコアに関する差より大きいかのいずれかであるエリアを表している。Nベスト領域はまた、スコアが許容領域内のスコアより高いか、あるいはNベスト領域内のスコアに関する差がスコア変化値の予め定められたしきい値より大きい場合に、そのスコアと2番目に低いスコアとの差が許容領域中のスコアに関する差より小さいかのいずれかであるエリアを表している。発話がこのNベスト領域内に入っている場合、上述したように、決定比較論理装置20はその発話にNベストアルゴリズムを適用する。
【0019】
図2を参照して説明する実施形態では、第1の線分が除去領域をNベスト領域から分離している。第1の線分はスコア値の予め定められたしきい値で“スコア”軸と交差する。第1の線分の傾きもまた予め定められている。第2の線分はNベスト領域を許容領域から分離する。第2の線分の傾きは、第1の線分の傾きと同じであるように予め定められているので第1および第2の線分は平行である。第3の線分は、“スコアの変化”軸上における変化値の予め定められたしきい値から垂直に延びて第2の線分の終点とぶつかっている。当業者は、第1および第2の線分が平行である必要はなく、随意に任意の傾きを割当てることが可能なことを認識するであろう。さらに、第3の線分は使用される必要がない。
【0020】
1実施形態において、スコアのしきい値が375であり、変化のしきい値が28であり、第2の線分の終点が延長された場合、その第2の線分は“スコア”軸と値250で交差するので、第1および第2の線分の傾きはそれぞれ1になる。スコア値がスコア変化値プラス375より大きい場合、発話は除去される。そうではなく、スコア値がスコア変化値プラス250よりより大きいか、あるいはスコア変化値が28より小さい場合、Nベストアルゴリズムがその発話に適用される。それ以外の場合、発話は受入れられる。
【0021】
図2を参照して説明する実施形態において、線形弁別解析に対して2つのディメンションが使用されている。“スコア”のディメンションは、多数のバンドパスフィルタ(示されていない)の出力から導かれた、所定の発話と所定のVRテンプレートとの間の距離を表している。“スコアの変化”のディメンションは、最も低いスコア、すなわち、最も近い一致したスコアと、2番目に低いスコア、すなわち2番目に最も近く一致した発話に対するスコアとの差を表している。別の実施形態では、“スコア”のディメンションは、発話のケプストラム係数から導かれた、所定の発話と所定のVRテンプレートとの差を表す。さらに別の実施形態において、“スコア”のディメンションは、発話の線形予測符号化(LPC)係数から導かれた、所定の発話と所定のVRテンプレートとの間の距離を表している。LPC係数およびケプストラム係数を導く技術は、上述の米国特許第 5,414,796号明細書に記載されている。
【0022】
別の実施形態では、線形弁別解析は2つのディメンションに限定されない。それによると、バンドパスフィルタ出力に基づく第1のスコアと、ケプストラム係数に基づく第2のスコアと、およびスコアの変化とが互いに関して解析される。その代りに、バンドパスフィルタ出力に基づく第1のスコアと、ケプストラム係数に基づく第2のスコアと、LPC係数に基づく第3のスコアと、およびスコアの変化とが互いに関して解析される。当業者は、“スコア”に対するディメンションの数を任意の特定の数に限定しなくてもよいことを容易に認識することができるであろう。当業者は、スコアのディメンションの数がVRシステムの語彙中の単語の数によってのみ制限されることを認識することができるであろう。当業者はまた、使用するスコアのタイプを任意の特定のタイプのスコアに制限する必要がなく、技術的に知られている任意のスコアリング方法を含むことができることを認識するであろう。さらに、当業者によって容易に理解されるように、“スコアの変化”に対するディメンションの数を1または任意の特定の数に限定しなくてもよい。たとえば1実施形態では、スコアは最も近い一致と2番目に近い一致との間のスコアの変化に関連して解析され、スコアはまた最も近い一致と3番目に近い一致との間のスコアの変化に関連して解析される。当業者は、スコアの変化のディメンションの数がVRシステムの語彙中の単語の数によってのみ制限されることを理解することができるであろう。
【0023】
以上のように、線形弁別解析に基づく新しい改善された音声認識除去方式を説明してきた。ここに開示した実施形態と関連して説明した種々の例示的な論理ブロックおよびアルゴリズムステップは、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、ディスクリートなゲートまたはトランジスタ論理装置、レジスタおよびFIFO等のディスクリートなハードウェア部品、1組のファームウェア命令を実行するプロセッサ、または任意の通常のプログラム可能なソフトウェアモジュールおよびプロセッサによって構成され、あるいは実行されることが可能なことを当業者は理解するであろう。プロセッサはマイクロプロセッサであると都合がよいが、別の実施形態では、プロセッサは任意の通常のプロセッサ、制御装置、マイクロ制御装置または状態マシンであってもよい。ソフトウェアモジュールはRAMメモリ、フラッシュメモリ、レジスタ、または技術的に知られている任意の他の形態の書込み可能な記憶媒体中に存在する。上記の説明で参照したデータ、命令、コマンド、情報、信号、ビット、符号、チップは、電圧、電流、電磁波、磁界または粒子、光フィールドまたは粒子、あるいはそれらの任意の組合せにより都合よく表されることができることを当業者はさらに認識するであろう。
【0024】
本発明の好ましい実施形態を示し説明した。しかしながら多くの変形が本発明の技術的範囲を逸脱せずにここで説明した実施形態に対して行われてもよいことは当業者に明白であろう。それ故、本発明は特許請求の範囲を除いては限定されない。
【図面の簡単な説明】
【図1】 音声認識システムのブロック図。
【図2】 除去、Nベスト、および許容領域を示している、VRシステムの除去方式に対するスコア対スコアの変化のグラフ。
Claims (28)
- 音声認識システムの語彙の中で、発話と比較して最も近かった語彙候補に対応するスコアを第1のスコアとし、
音声認識システムの語彙の中で、発話と比較して2番目に近かった語彙候補に対応するスコアを第2のスコアとし、
第1のスコアと第2のスコアとの間の差を決定し、
第1のスコアと前記決定された差とに基づいて発話を処理するステップを含んでおり、
前記発話を処理するステップには、
第1のスコアを第1の傾斜しきい値と比較し、第1のスコアが第1の傾斜しきい値より大きい場合、その発話を除去し、
そうでなければ、第1のスコアを第2の傾斜しきい値と比較し、第1のスコアが第2の傾斜しきい値より大きい場合、その発話を確認するためにNベストアルゴリズムを適用し、
そうでなければ、その発話を受入れることが含まれており、
第1と第2の傾斜しきい値は前記決定された差によって変化し、
第1の傾斜しきい値と第2の傾斜しきい値は、スコアを縦軸に、第1のスコアと第2のスコアとの差を横軸にとったとき正の傾斜した特性を有するしきい値である、音声認識システムにおける発話捕捉方法。 - 差は第1のスコアと第2のスコアとの間のスコアの変化に対応している請求項1記載の方法。
- 第1のスコアは最も近い一致に関連したスコアを含み、第2のスコアは2番目に最も近い一致に関連したスコアを含んでいる請求項1記載の方法。
- 第1のスコアおよび第2のスコアは、線形予測符号化係数に基づいている請求項1記載の方法。
- 第1のスコアおよび第2のスコアは、ケプストラム係数に基づいている請求項1記載の方法。
- 第1のスコアおよび第2のスコアは、バンドパスフィルタ出力に基づいている請求項1記載の方法。
- 差は、最も近い一致に関連したスコアと2番目に近い一致に関連したスコアとの間の差を含んでいる請求項1記載の方法。
- 発話のデジタル化されたスピーチサンプルからスピーチパラメータを抽出するように構成された音響プロセッサと、
この音響プロセッサに結合されたプロセッサとを具備しており、
前記プロセッサは、
音声認識システムの語彙の中で、発話と比較して最も近かった語彙候補に対応するスコアを第1のスコアとし、
音声認識システムの語彙の中で、発話と比較して2番目に近かった語彙候補に対応するスコアを第2のスコアとし、
第1のスコアと第2のスコアとの間の差を決定し、
第1のスコアと前記決定された差とに基づいて発話を処理するように構成されており、前記発話を処理することには、
第1のスコアを第1の傾斜しきい値と比較し、第1のスコアが第1の傾斜しきい値より大きい場合、その発話を除去し、
そうでなければ、第1のスコアを第2の傾斜しきい値と比較し、第1のスコアが第2の傾斜しきい値より大きい場合、その発話を確認するためにNベストアルゴリズムを適用し、
そうでなければ、その発話を受入れることが含まれており、
第1と第2の傾斜しきい値は前記決定された差によって変化し、
第1の傾斜しきい値と第2の傾斜しきい値は、スコアを縦軸に、第1のスコアと第2のスコアとの差を横軸にとったとき正の傾斜した特性を有するしきい値である、音声認識システム。 - 差は第1のスコアと第2のスコアとの間のスコアの変化に対応している請求項8記載の音声認識システム。
- 第1のスコアは最も近い一致に関連したスコアを含み、第2のスコアは2番目に最も近い一致に関連したスコアを含んでいる請求項8記載の音声認識システム。
- 第1および第2のスコアは、線形予測符号化係数に基づいている請求項8記載の音声認識システム。
- 第1のスコアおよび第2のスコアは、ケプストラム係数に基づいている請求項8記載の音声認識システム。
- 第1のスコアおよび第2のスコアは、バンドパスフィルタ出力に基づいている請求項8記載の音声認識システム。
- 差は、最も近い一致に関連したスコアと2番目に最も近い一致に関連したスコアとの間の差を含んでいる請求項8記載の音声認識システム。
- 音声認識システムの語彙の中で、発話と比較して最も近かった語彙候補に対応するスコアを第1のスコアとする手段と、
音声認識システムの語彙の中で、発話と比較して2番目に近かった語彙候補に対応するスコアを第2のスコアとする手段と、
第1のスコアと第2のスコアとの間の差を決定する手段と、
第1のスコアと前記決定された差とに基づいて発話を処理する手段とを具備しており、
前記発話を処理する手段は、
第1のスコアを第1の傾斜しきい値と比較し、第1のスコアが第1の傾斜しきい値より大きい場合、その発話を除去し、
そうでなければ、第1のスコアを第2の傾斜しきい値と比較し、第1のスコアが第2の傾斜しきい値より大きい場合、その発話を確認するためにNベストアルゴリズムを適用し、
そうでなければ、その発話を受入れることを行い、
第1と第2の傾斜しきい値は前記決定された差によって変化し、
第1の傾斜しきい値と第2の傾斜しきい値は、スコアを縦軸に、第1のスコアと第2のスコアとの差を横軸にとったとき正の傾斜した特性を有するしきい値である、音声認識システム。 - 差は、第1のスコアと第2のスコアとの間のスコアの変化に対応している請求項15記載の音声認識システム。
- 第1のスコアは最も近い一致に関連したスコアを含み、第2のスコアは2番目に最も近い一致に関連したスコアを含んでいる請求項15記載の音声認識システム。
- 第1のスコアおよび第2のスコアは、線形予測符号化係数に基づいている請求項15記載の音声認識システム。
- 第1のスコアおよび第2のスコアは、ケプストラム係数に基づいている請求項15記載の音声認識システム。
- 第1のスコアおよび第2のスコアは、バンドパスフィルタ出力に基づいている請求項15記載の音声認識システム。
- 差は、最も近い一致に関連したスコアと2番目に最も近い一致に関連したスコアとの間の差を含んでいる請求項15記載の音声認識システム。
- 発話のデジタル化されたスピーチサンプルからスピーチパラメータを抽出する手段と、
音声認識システムの語彙の中で、発話と比較して最も近かった語彙候補に対応するスコアを第1のスコアとし、
音声認識システムの語彙の中で、発話と比較して2番目に近かった語彙候補に対応するスコアを第2のスコアとし、
第1のスコアと第2のスコアとの間の差を決定し、
第1のスコアと前記決定された差とに基づいて発話を処理する手段とを具備しており、
前記発話を処理する手段は、
第1のスコアを第1の傾斜しきい値と比較し、第1のスコアが第1の傾斜しきい値より大きい場合、その発話を除去し、
そうでなければ、第1のスコアを第2の傾斜しきい値と比較し、第1のスコアが第2の傾斜しきい値より大きい場合、その発話を確認するためにNベストアルゴリズムを適用し、
そうでなければ、その発話を受入れることを行い、
第1と第2の傾斜しきい値は前記決定された差によって変化し、
第1の傾斜しきい値と第2の傾斜しきい値は、スコアを縦軸に、第1のスコアと第2のスコアとの差を横軸にとったとき正の傾斜した特性を有するしきい値である、音声認識システム。 - 差は、最も近い一致に関連したスコアと2番目に最も近い一致に関連したスコアとの間の差を含んでいる請求項22記載の音声認識システム。
- 差は、第1のスコアと第2のスコアとの間のスコアの変化に対応している請求項22記載の音声認識システム。
- 第1のスコアは最も近い一致に関連したスコアを含み、第2のスコアは1以上の2番目に最も近い一致に関連したスコアを含んでいる請求項22記載の音声認識システム。
- 第1のスコアおよび第2のスコアは、線形予測符号化係数に基づいている請求項22記載の音声認識システム。
- 第1のスコアおよび第2のスコアは、ケプストラム係数に基づいている請求項22記載の音声認識システム。
- 第1のスコアおよび第2のスコアは、バンドパスフィルタ出力に基づいている請求項22記載の音声認識システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/248,513 | 1999-02-08 | ||
US09/248,513 US6574596B2 (en) | 1999-02-08 | 1999-02-08 | Voice recognition rejection scheme |
PCT/US2000/002903 WO2000046791A1 (en) | 1999-02-08 | 2000-02-04 | Voice recognition rejection scheme |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002536691A JP2002536691A (ja) | 2002-10-29 |
JP2002536691A5 JP2002536691A5 (ja) | 2005-04-28 |
JP4643011B2 true JP4643011B2 (ja) | 2011-03-02 |
Family
ID=22939477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000597792A Expired - Lifetime JP4643011B2 (ja) | 1999-02-08 | 2000-02-04 | 音声認識除去方式 |
Country Status (11)
Country | Link |
---|---|
US (1) | US6574596B2 (ja) |
EP (1) | EP1159735B1 (ja) |
JP (1) | JP4643011B2 (ja) |
KR (1) | KR100698811B1 (ja) |
CN (1) | CN1178203C (ja) |
AT (1) | ATE362166T1 (ja) |
AU (1) | AU3589300A (ja) |
DE (1) | DE60034772T2 (ja) |
ES (1) | ES2286014T3 (ja) |
HK (1) | HK1043423B (ja) |
WO (1) | WO2000046791A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8266451B2 (en) * | 2001-08-31 | 2012-09-11 | Gemalto Sa | Voice activated smart card |
US7324942B1 (en) * | 2002-01-29 | 2008-01-29 | Microstrategy, Incorporated | System and method for interactive voice services using markup language with N-best filter element |
US7020337B2 (en) * | 2002-07-22 | 2006-03-28 | Mitsubishi Electric Research Laboratories, Inc. | System and method for detecting objects in images |
JP4454921B2 (ja) * | 2002-09-27 | 2010-04-21 | 株式会社半導体エネルギー研究所 | 半導体装置の作製方法 |
US7344901B2 (en) * | 2003-04-16 | 2008-03-18 | Corning Incorporated | Hermetically sealed package and method of fabricating of a hermetically sealed package |
EP1560354A1 (en) * | 2004-01-28 | 2005-08-03 | Deutsche Thomson-Brandt Gmbh | Method and apparatus for comparing received candidate sound or video items with multiple candidate reference sound or video items |
DE102004029873B3 (de) * | 2004-06-16 | 2005-12-29 | Deutsche Telekom Ag | Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme |
JP4845118B2 (ja) * | 2006-11-20 | 2011-12-28 | 富士通株式会社 | 音声認識装置、音声認識方法、および、音声認識プログラム |
CN102047322B (zh) * | 2008-06-06 | 2013-02-06 | 株式会社雷特龙 | 语音识别装置、语音识别方法以及电子设备 |
US8190437B2 (en) * | 2008-10-24 | 2012-05-29 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
US8442824B2 (en) | 2008-11-26 | 2013-05-14 | Nuance Communications, Inc. | Device, system, and method of liveness detection utilizing voice biometrics |
US8428759B2 (en) * | 2010-03-26 | 2013-04-23 | Google Inc. | Predictive pre-recording of audio for voice input |
US20150279354A1 (en) * | 2010-05-19 | 2015-10-01 | Google Inc. | Personalization and Latency Reduction for Voice-Activated Commands |
WO2014129033A1 (ja) * | 2013-02-25 | 2014-08-28 | 三菱電機株式会社 | 音声認識システムおよび音声認識装置 |
US9626963B2 (en) * | 2013-04-30 | 2017-04-18 | Paypal, Inc. | System and method of improving speech recognition using context |
BR102014023647B1 (pt) * | 2014-09-24 | 2022-12-06 | Fundacao Cpqd - Centro De Pesquisa E Desenvolvimento Em Telecomunicacoes | Método e sistema para detecção de fraudes em aplicações baseadas em processamento de voz |
US11520610B2 (en) * | 2017-05-18 | 2022-12-06 | Peloton Interactive Inc. | Crowdsourced on-boarding of digital assistant operations |
US11182557B2 (en) * | 2018-11-05 | 2021-11-23 | International Business Machines Corporation | Driving intent expansion via anomaly detection in a modular conversational system |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4567606A (en) | 1982-11-03 | 1986-01-28 | International Telephone And Telegraph Corporation | Data processing apparatus and method for use in speech recognition |
US4593367A (en) * | 1984-01-16 | 1986-06-03 | Itt Corporation | Probabilistic learning element |
FR2571191B1 (fr) | 1984-10-02 | 1986-12-26 | Renault | Systeme de radiotelephone, notamment pour vehicule automobile |
JPS61105671A (ja) | 1984-10-29 | 1986-05-23 | Hitachi Ltd | 自然言語処理装置 |
US4991217A (en) | 1984-11-30 | 1991-02-05 | Ibm Corporation | Dual processor speech recognition system with dedicated data acquisition bus |
JPS6269297A (ja) | 1985-09-24 | 1987-03-30 | 日本電気株式会社 | 話者確認タ−ミナル |
US4827520A (en) | 1987-01-16 | 1989-05-02 | Prince Corporation | Voice actuated control system for use in a vehicle |
US5231670A (en) | 1987-06-01 | 1993-07-27 | Kurzweil Applied Intelligence, Inc. | Voice controlled system and method for generating text from a voice controlled input |
US5321840A (en) | 1988-05-05 | 1994-06-14 | Transaction Technology, Inc. | Distributed-intelligence computer system including remotely reconfigurable, telephone-type user terminal |
US5054082A (en) | 1988-06-30 | 1991-10-01 | Motorola, Inc. | Method and apparatus for programming devices to recognize voice commands |
US5040212A (en) | 1988-06-30 | 1991-08-13 | Motorola, Inc. | Methods and apparatus for programming devices to recognize voice commands |
JP2966852B2 (ja) * | 1989-01-24 | 1999-10-25 | キヤノン株式会社 | 音声処理方法及び装置 |
US5325524A (en) | 1989-04-06 | 1994-06-28 | Digital Equipment Corporation | Locating mobile objects in a distributed computer system |
US5012518A (en) | 1989-07-26 | 1991-04-30 | Itt Corporation | Low-bit-rate speech coder using LPC data reduction processing |
US5146538A (en) | 1989-08-31 | 1992-09-08 | Motorola, Inc. | Communication system and method with voice steering |
JP2788658B2 (ja) * | 1989-12-01 | 1998-08-20 | 株式会社リコー | 音声ダイヤル装置 |
US5280585A (en) | 1990-09-28 | 1994-01-18 | Hewlett-Packard Company | Device sharing system using PCL macros |
CA2483322C (en) | 1991-06-11 | 2008-09-23 | Qualcomm Incorporated | Error masking in a variable rate vocoder |
WO1993001664A1 (en) | 1991-07-08 | 1993-01-21 | Motorola, Inc. | Remote voice control system |
US5305420A (en) | 1991-09-25 | 1994-04-19 | Nippon Hoso Kyokai | Method and apparatus for hearing assistance with speech speed control function |
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
EP0559349B1 (en) * | 1992-03-02 | 1999-01-07 | AT&T Corp. | Training method and apparatus for speech recognition |
JPH0664478B2 (ja) * | 1992-06-05 | 1994-08-22 | カシオ計算機株式会社 | パターン認識装置 |
CA2126380C (en) * | 1993-07-22 | 1998-07-07 | Wu Chou | Minimum error rate training of combined string models |
US5566272A (en) | 1993-10-27 | 1996-10-15 | Lucent Technologies Inc. | Automatic speech recognition (ASR) processing using confidence measures |
US5819221A (en) * | 1994-08-31 | 1998-10-06 | Texas Instruments Incorporated | Speech recognition using clustered between word and/or phrase coarticulation |
US5729656A (en) * | 1994-11-30 | 1998-03-17 | International Business Machines Corporation | Reduction of search space in speech recognition using phone boundaries and phone ranking |
CN1150515C (zh) * | 1995-03-07 | 2004-05-19 | 英国电讯公司 | 语音识别方法和装置 |
US5717826A (en) * | 1995-08-11 | 1998-02-10 | Lucent Technologies Inc. | Utterance verification using word based minimum verification error training for recognizing a keyboard string |
JPH0954597A (ja) * | 1995-08-11 | 1997-02-25 | Matsushita Joho Syst Kk | 項目入力装置 |
US5806029A (en) * | 1995-09-15 | 1998-09-08 | At&T Corp | Signal conditioned minimum error rate training for continuous speech recognition |
US5912949A (en) * | 1996-11-05 | 1999-06-15 | Northern Telecom Limited | Voice-dialing system using both spoken names and initials in recognition |
US6094476A (en) | 1997-03-24 | 2000-07-25 | Octel Communications Corporation | Speech-responsive voice messaging system and method |
-
1999
- 1999-02-08 US US09/248,513 patent/US6574596B2/en not_active Expired - Lifetime
-
2000
- 2000-02-04 CN CNB008035881A patent/CN1178203C/zh not_active Expired - Lifetime
- 2000-02-04 WO PCT/US2000/002903 patent/WO2000046791A1/en active IP Right Grant
- 2000-02-04 ES ES00914513T patent/ES2286014T3/es not_active Expired - Lifetime
- 2000-02-04 AT AT00914513T patent/ATE362166T1/de not_active IP Right Cessation
- 2000-02-04 KR KR1020017009889A patent/KR100698811B1/ko active IP Right Grant
- 2000-02-04 EP EP00914513A patent/EP1159735B1/en not_active Expired - Lifetime
- 2000-02-04 JP JP2000597792A patent/JP4643011B2/ja not_active Expired - Lifetime
- 2000-02-04 AU AU35893/00A patent/AU3589300A/en not_active Abandoned
- 2000-02-04 DE DE60034772T patent/DE60034772T2/de not_active Expired - Lifetime
-
2002
- 2002-07-10 HK HK02105126.4A patent/HK1043423B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
EP1159735A1 (en) | 2001-12-05 |
WO2000046791A1 (en) | 2000-08-10 |
DE60034772D1 (de) | 2007-06-21 |
HK1043423B (zh) | 2005-07-22 |
US20020055841A1 (en) | 2002-05-09 |
EP1159735B1 (en) | 2007-05-09 |
JP2002536691A (ja) | 2002-10-29 |
KR20010093327A (ko) | 2001-10-27 |
AU3589300A (en) | 2000-08-25 |
US6574596B2 (en) | 2003-06-03 |
ATE362166T1 (de) | 2007-06-15 |
KR100698811B1 (ko) | 2007-03-23 |
DE60034772T2 (de) | 2008-01-31 |
CN1178203C (zh) | 2004-12-01 |
ES2286014T3 (es) | 2007-12-01 |
CN1347547A (zh) | 2002-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6324509B1 (en) | Method and apparatus for accurate endpointing of speech in the presence of noise | |
JP4643011B2 (ja) | 音声認識除去方式 | |
EP1301922B1 (en) | System and method for voice recognition with a plurality of voice recognition engines | |
US6411926B1 (en) | Distributed voice recognition system | |
US6836758B2 (en) | System and method for hybrid voice recognition | |
US6735563B1 (en) | Method and apparatus for constructing voice templates for a speaker-independent voice recognition system | |
US6681207B2 (en) | System and method for lossy compression of voice recognition models | |
JP2004527006A (ja) | 分散型音声認識システムにおける音声アクティブな状態を送信するためのシステム及び方法 | |
JPH09106296A (ja) | 音声認識装置及び方法 | |
CA2427339C (en) | System and method for improving voice recognition in noisy environments and frequency mismatch conditions | |
JPH0997095A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100309 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100706 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100928 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101102 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101202 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4643011 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131210 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |