JP4643011B2

JP4643011B2 - 音声認識除去方式

Info

Publication number: JP4643011B2
Application number: JP2000597792A
Authority: JP
Inventors: ビー、ニン; チャン、チエンチュン; ガルダドリ、ハリナス; デジャコ、アンドリュー・ピー
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1999-02-08
Filing date: 2000-02-04
Publication date: 2011-03-02
Anticipated expiration: 2020-02-04
Also published as: EP1159735A1; WO2000046791A1; DE60034772D1; HK1043423B; US20020055841A1; EP1159735B1; JP2002536691A; KR20010093327A; AU3589300A; US6574596B2; ATE362166T1; KR100698811B1; DE60034772T2; CN1178203C; ES2286014T3; CN1347547A

Description

【０００１】
【発明の属する技術分野】
本発明は一般に通信分野に関し、とくに音声認識システムに関する。
【０００２】
【従来の技術】
音声認識（ＶＲ）はユーザまたはユーザの音声コマンドを認識し、人間と機械とのインターフェイスを容易にするために機械にシミュレートされた知能を与える最も重要な技術の１つを表している。ＶＲはまた人間の音声を理解するための主要な技術を表している。音響スピーチ信号からの言語メッセージを再生する技術を用いるシステムは音声認識装置を呼ばれる。音声認識装置は典型的に、入来する生（未加工）のスピーチのＶＲを行うのに必要な情報を有する特徴のシーケンスまたはベクトルを抽出する音響プロセッサと、入力発話に対応する言語単語のシーケンスのような意味をなす所望の出力フォーマットを生成するために特徴のシーケンスまたはベクトルを復号する単語デコーダとを備えている。所定のシステムの性能を増加するため、システムに有効なパラメータを装備するためにトレーニングが必要とされる。換言すると、システムは最適に機能できる前に学習を必要とする。
【０００３】
音響プロセッサは音声認識装置のフロントエンドスピーチ解析サブシステムの典型を示している。入力スピーチ信号に応答して、音響プロセッサは時間的に変化するスピーチ信号を特徴付けるための適切な表示を与える。音響プロセッサは背景雑音、チャンネル歪み、スピーカ特性、話し方等の関連のない情報を破棄すべきである。実効的な音響処理は強化された音響弁別パワーを有する音声認識装置を備えている。結局、解析される有効な特性は短時間のスペクトルエンベロープである。短時間のスペクトルエンベロープを特徴付けるための２つの普通に使用されるスペクトル解析技術は線形予測符号化（ＬＰＣ）とフィルタバンクベースのスペクトルモデル化である。例示的なＬＰＣ技術は本発明の参考文献とされている米国特許第5,414,796 号明細書と、本発明の参考文献とされているL.B. Rabiner & R.W. Schafer のDigital Processing of Speech Signals、396 −453 頁（1978年）に記載されている。
【０００４】
ＶＲ（通常音声認識とも呼ばれている）の使用は、安全性の理由で重要性が増している。たとえば、ＶＲは無線電話のキーパッドのボタンを押す手作業の置換のために使用されることができる。これはとくに、ユーザが車を運転しながら呼を開始するときに重要である。ＶＲなしで電話を使用する場合、運転者は操縦ハンドルから片手を放し、ダイヤリングにより通話するために電話のキーパッドを見ながらボタンを押さなければならない。これらの行動は自動車事故の可能性を増加する。スピーチエネーブル電話（すなわち、スピーチ認識用に設計されている電話）は、運転者が連続的に道路を見ながら通話できるようにする。さらに、手を使用しない自動車キットシステムにより、運転者は通話中操縦ハンドルを両手で握ったままでいることが可能になる。
【０００５】
スピーチ認識装置は、スピーカ依存装置とスピーカ独立装置とに分類される。スピーカ独立装置は音声コマンドを任意のユーザから受けることができる。さらに、より一般的であるスピーカ依存装置は特定のユーザからのコマンドを認識するようにトレーニングされている。スピーカ依存のＶＲ装置は典型的に２つのフェーズ、すなわち、トレーニングフェーズと認識フェーズで動作する。トレーニングフェーズでは、ＶＲシステムはユーザにシステムの語彙の各単語を１度または２度発話させ、それによってシステムはこれらの特定の単語またはフレーズに対するユーザのスピーチ特性を学習できる。代わりに、音声的なＶＲ装置では、トレーニングは言語の全ての音素を網羅するように特別にスクリプトされた１以上の簡単なアーティクルを読取ることにより実現される。手を使用しない自動車キット用の例示的な語彙はキーパッド上の数字と、“電話”、“送信”、“ダイヤル”、“取消し”、“クリア”、“追加”、“消去”、“履歴”、“プログラム”、“イエス”および“ノー” というキー単語と、予め限定された数の共通して呼ばれる会社の同僚、友人または家族のメンバーの名称を含んでいる。トレーニングが一度完了すると、ユーザはトレーニングされたキー単語を発話することにより、認識フェーズで呼を開始できる。たとえば名称“John”がトレーニングされた名称のうちの１つであるならば、ユーザはフレーズ“Call John ”と言うことによりジョンへの呼を開始する。ＶＲシステムは単語“Call”と“John”を認識し、ジョンの電話番号としてユーザが前に入力した番号をダイヤルする。
【０００６】
【発明が解決しようとする課題】
ＶＲシステムのスループットは、ユーザが認識タスクの実行に成功した例の割合として規定されてもよい。認識タスクは一般に多数の段階を含んでいる。たとえば無線電話機による音声ダイヤリングでは、スループットは、ユーザがＶＲシステムによる通話を成功的に完了した回数の平均パーセンテージを示す。ＶＲによる通話を成功するために必要な段階の数は、個々の通話によって異なる可能性が高い。一般に、ＶＲシステムのスループットは、主としてＶＲシステムの認識の正確度および人間／機械インターフェースという２つの要因に依存する。人間のユーザの主観的理解力に相当するＶＲシステムの性能はスループットに基づいている。したがって、スループットを高める高い認識の正確度および知的人間・機械インターフェースを有するＶＲシステムが必要とされている。
【０００７】
【課題を解決するための手段】
本発明は、スループットを増加させる高い認識の正確度および知的人間・機械インターフェースを有するＶＲシステムに関する。それによると、本発明の１つの特徴において、音声認識システムにおける発話捕捉方法は、発話を記憶された単語に関して比較して得られた第１の１以上の比較結果と、この第１の１以上の比較結果とその発話を１以上の別の記憶された単語と比較して得られた第２の１以上の比較結果との間の１以上の第１と第２の比較結果の差との間に第１の予め定められた関係が存在する場合、その発話を受入れ、第１の１以上の比較結果と、１以上の第１と第２の比較結果の差との間に第２の予め定められた関係が存在する場合、その発話に対してＮベストアルゴリズムを適用し、第１の１以上の比較結果と、１以上の第１と第２の比較結果の差との間に第３の予め定められた関係が存在する場合、その発話を除去するステップを都合よく含んでいる。
【０００８】
本発明の別の特徴において、音声認識システムは、発話のデジタル化されたスピーチサンプルからスピーチパラメータを抽出するように構成された音響プロセッサと、（１）発話を記憶された単語に関して比較して得られた第１の１以上の比較結果と、この第１の１以上の比較結果とその発話を１以上の別の記憶された単語と比較して得られた第２の１以上の比較結果との間の１以上の第１と第２の比較結果の差との間に第１の予め定められた関係が存在する場合、その発話を受入れ、（２）第１の１以上の比較結果と、１以上の第１と第２の比較結果の差との間に第２の予め定められた関係が存在する場合、その発話に対してＮベストアルゴリズムを適用し、あるいは（３）第１の１以上の比較結果と、１以上の第１と第２の比較結果の差との間に第３の予め定められた関係が存在する場合、その発話を除去するように構成されている、音響プロセッサに結合されたプロセッサとを都合よく備えている。
【０００９】
本発明のさらに別の特徴において、音声認識システムは、発話を記憶された単語に関して比較して得られた第１の１以上の比較結果と、この第１の１以上の比較結果とその発話を１以上の別の記憶された単語と比較して得られた第２の１以上の比較結果との間の１以上の第１と第２の比較結果の差との間に第１の予め定められた関係が存在する場合、その発話を受入れる手段と、第１の１以上の比較結果と、１以上の第１と第２の比較結果の差との間に第２の予め定められた関係が存在する場合、その発話に対してＮベストアルゴリズムを適用する手段と、第１の１以上の比較結果と、１以上の第１と第２の比較結果の差との間に第３の予め定められた関係が存在する場合、その発話を除去する手段とを都合よく備えている。
【００１０】
本発明の別の特徴において、音声認識システムは、発話のデジタル化されたスピーチサンプルからスピーチパラメータを抽出する手段と、（１）発話を記憶された単語に関して比較して得られた第１の１以上の比較結果と、この第１の１以上の比較結果とその発話を１以上の別の記憶された単語と比較して得られた第２の１以上の比較結果との間の１以上の第１と第２の比較結果の差との間に第１の予め定められた関係が存在する場合、その発話を受入れ、（２）第１の１以上の比較結果と、１以上の第１と第２の比較結果の差との間に第２の予め定められた関係が存在する場合、その発話に対してＮベストアルゴリズムを適用し、あるいは（３）第１の１以上の比較結果と、１以上の第１と第２の比較結果の差との間に第３の予め定められた関係が存在する場合、その発話を除去する手段とを都合よく備えている。
【００１１】
【発明の実施の形態】
１実施形態にしたがって、図１で示されているように、音声認識システム10はアナログデジタル変換器（Ａ／Ｄ）12と、音響プロセッサ14と、ＶＲテンプレートデータベース16と、パターン比較論理装置18と、決定論理装置20とを含んでいる。ＶＲシステム10は、たとえば無線電話または手を使用しない自動車キット中に設けられることができる。
【００１２】
ＶＲシステム10がスピーチ認識フェーズにあるとき、人（図示せず）は単語またはフレーズを発話し、スピーチ信号を発生する。スピーチ信号は通常のトランスデューサ（図示せず）により電気スピーチ信号ｓ（ｔ）に変換される。スピーチ信号ｓ（ｔ）はＡ／Ｄ12へ与えられ、これはたとえばパルス符号変調（ＰＣＭ）のような既知のサンプリング方法にしたがって、スピーチ信号ｓ（ｔ）をデジタル化されたスピーチサンプルｓ（ｎ）へ変換する。
【００１３】
スピーチサンプルｓ（ｎ）はパラメータ決定のために音響プロセッサ14へ与えられる。音響プロセッサ14は入力スピーチ信号ｓ（ｔ）特性をモデル化する１組のパラメータを生成する。パラメータは、前述の米国特許第5,414,796 号明細書に記載されているように、たとえばスピーチコーダの符号化を含んだ任意の複数の既知のスピーチパラメータ決定技術にしたがって高速度フーリエ変換（ＦＦＴ）ベースのケプストラム係数を使用して決定されてもよい。音響プロセッサ14はデジタル信号プロセッサ（ＤＳＰ）として構成されてもよい。ＤＳＰはスピーチコーダを含んでもよい。代わりに、音響プロセッサ14はスピーチコーダとして構成されてもよい。
【００１４】
パラメータ決定もＶＲシステム10のトレーニング中に実行され、ここでＶＲシステム10の全ての語彙単語の１組のテンプレートは永久的に記憶するためＶＲテンプレートデータベース16へ伝送される。ＶＲテンプレートデータベース16は、たとえばフラッシュメモリ等の任意の通常の非揮発性記憶媒体の形態として都合よく構成される。これによって、ＶＲシステム10へのパワーがオフに切換えられたとき、テンプレートがＶＲテンプレートデータベース16に保持されることが可能である。
【００１５】
１組のパラメータはパターン比較論理装置18へ与えられる。パターン比較論理装置18は発話のスタートおよびエンドポイントを都合よく検出し、（たとえば時間導関数、２次時間導関数等の）ダイナミックな音響特性を計算し、関連するフレームを選択することにより音響特性を圧縮し、静的およびダイナミック特性を量子化する。エンドポイント検出、ダイナミック音響特性の微分、パターン圧縮、パターン量子化の種々の既知の方法は、たとえば、ここにおいて全文が参考文献とされている文献（Lawrence Rabiner & Biing-Hwang Juang、Fundamentals of Speech Recognition（1993年））に記載されている。
パターン比較論理装置18は、１組のパラメータをＶＲテンプレートデータベース16に記憶されている全てのテンプレートと比較する。このパラメータセットとＶＲテンプレートデータベース16に記憶されている全てのテンプレートとの比較結果、すなわち距離が決定論理装置20に与えられる。決定論理装置20は（１）パラメータセットに最も近く一致するテンプレートをＶＲテンプレートデータベース16から選択することができ、または（２）予め定められた一致しきい値内のＮ個の最も近い一致を選択する“Ｎベスト”選択アルゴリズムを使用することができ、あるいは（３）パラメータのセットを除去することができる。“Ｎベスト”選択アルゴリズムが使用されている場合、どの選択をするつもりだったのかを人に質問する。決定論理装置20の出力は、発話された語彙の単語についての決定である。たとえば、Ｎベスト状況では、人が“ＪｏｈｎＡｎｄｅｒｓ”と言うと、ＶＲシステム10は“ＪｏｈｎＡｎｄｒｅｗｓと言いましたか”と応答する。それに対して人は“ＪｏｈｎＡｎｄｅｒｓ”と答える。するとＶＲシステム10は“ＪｏｈｎＡｎｄｅｒｓと言いましたか”と応答する。それで人が“はい”と応えると、その時点でＶＲ10はダイヤリングによって呼を開始する。
【００１６】
パターン比較論理装置18と決定論理装置20は、マイクロプロセッサとして構成されると都合がよい。その代り、パターン比較論理装置18と決定論理装置20は、任意の通常の形態のプロセッサ、制御装置、または状態マシンとして構成されてもよい。ＶＲシステム10は、たとえば特定用途向け集積回路（ＡＳＩＣ）であってもよい。ＶＲシステム10の認識の正確度は、ＶＲシステム10が語彙中の発話された各語またはフレーズをどの程度正しく認識するかの尺度である。たとえば、９５％の認識の正確度は、ＶＲシステム10が語彙中の単語を１００回中９５回を正しく認識することを示している。
【００１７】
１実施形態において、スコア対スコアの変化のグラフは、図２に示されているように、許容、Ｎベスト、および除去の領域に分けられる。領域は既知の線形弁別解析技術にしたがって線で分離されている。この既知の線形弁別解析技術は、ここにおいて全文が参考文献とされている文献［“ Pattern Classification and Scene Analysis ”,Richard O.Duda & Peter E.Hart(1973)］に記載されている。ＶＲシステム10に入力された各発話は、上述のようにパターン比較論理装置18によってＶＲテンプレートデータベース16に記憶されている全ての各テンプレートに対する比較結果、またはそれら全ての各テンプレートからの距離を割当てられる。これらの距離、すなわちスコアは、多数のフレームにわたって合計された、Ｎ次元ベクトル空間中のベクトル間のユークリッド距離であると都合がよい。１実施形態では、そのベクトル空間は２４次元ベクトル空間であり、そのスコアは２４個のフレームにわたって累加され、そのスコアは整数の距離である。当業者は、そのスコアが分数またはその他の値として同様に表されることも可能であることを理解するであろう。当業者は、そのスコアがたとえば確率測度，尤度測度等であることができるように、ユークリッド距離の代わりに別の測定基準が使用されてもよいことも理解するであろう。
【００１８】
所定の発話およびＶＲテンプレートデータベース16からの所定のＶＲテンプレートに対して、スコアが低くなる（すなわち、発話とＶＲテンプレートとの間の距離が短くなると）と、発話とＶＲテンプレートと間の一致がそれだけ一層近くなる。各発話に対して、決定論理装置20はＶＲテンプレートデータベース16中で最も近い一致に関連したスコアを、このスコアと、ＶＲテンプレートデータベース16中で２番目に最も近い一致に関連したスコア（すなわち、２番目に低いスコア）との差に関して解析する。図２のグラフに示されているように、“スコア”は、スコアの変化に対して表されており、３つの領域が規定されている。除去領域は、スコアが比較的高く、そのスコアと２番目に低いスコアとの差が比較的小さいエリアを表している。発話がこの除去領域の範囲内に入っている場合、決定比較論理装置20はその発話を除去する。許容領域は、スコアが比較的低く、そのスコアと２番目に低いスコアとの差が比較的大きいエリアを表している。発話がこの許容領域の範囲内に入っている場合、決定比較論理装置20はその発話を受入れる。Ｎベスト領域は除去領域と許容領域との間に存在する。Ｎベスト領域は、スコアが除去領域内のスコアより低いか、あるいはそのスコアと２番目に低いスコアとの差が除去領域中のスコアに関する差より大きいかのいずれかであるエリアを表している。Ｎベスト領域はまた、スコアが許容領域内のスコアより高いか、あるいはＮベスト領域内のスコアに関する差がスコア変化値の予め定められたしきい値より大きい場合に、そのスコアと２番目に低いスコアとの差が許容領域中のスコアに関する差より小さいかのいずれかであるエリアを表している。発話がこのＮベスト領域内に入っている場合、上述したように、決定比較論理装置20はその発話にＮベストアルゴリズムを適用する。
【００１９】
図２を参照して説明する実施形態では、第１の線分が除去領域をＮベスト領域から分離している。第１の線分はスコア値の予め定められたしきい値で“スコア”軸と交差する。第１の線分の傾きもまた予め定められている。第２の線分はＮベスト領域を許容領域から分離する。第２の線分の傾きは、第１の線分の傾きと同じであるように予め定められているので第１および第２の線分は平行である。第３の線分は、“スコアの変化”軸上における変化値の予め定められたしきい値から垂直に延びて第２の線分の終点とぶつかっている。当業者は、第１および第２の線分が平行である必要はなく、随意に任意の傾きを割当てることが可能なことを認識するであろう。さらに、第３の線分は使用される必要がない。
【００２０】
１実施形態において、スコアのしきい値が３７５であり、変化のしきい値が２８であり、第２の線分の終点が延長された場合、その第２の線分は“スコア”軸と値２５０で交差するので、第１および第２の線分の傾きはそれぞれ１になる。スコア値がスコア変化値プラス３７５より大きい場合、発話は除去される。そうではなく、スコア値がスコア変化値プラス２５０よりより大きいか、あるいはスコア変化値が２８より小さい場合、Ｎベストアルゴリズムがその発話に適用される。それ以外の場合、発話は受入れられる。
【００２１】
図２を参照して説明する実施形態において、線形弁別解析に対して２つのディメンションが使用されている。“スコア”のディメンションは、多数のバンドパスフィルタ（示されていない）の出力から導かれた、所定の発話と所定のＶＲテンプレートとの間の距離を表している。“スコアの変化”のディメンションは、最も低いスコア、すなわち、最も近い一致したスコアと、２番目に低いスコア、すなわち２番目に最も近く一致した発話に対するスコアとの差を表している。別の実施形態では、“スコア”のディメンションは、発話のケプストラム係数から導かれた、所定の発話と所定のＶＲテンプレートとの差を表す。さらに別の実施形態において、“スコア”のディメンションは、発話の線形予測符号化（ＬＰＣ）係数から導かれた、所定の発話と所定のＶＲテンプレートとの間の距離を表している。ＬＰＣ係数およびケプストラム係数を導く技術は、上述の米国特許第 5,414,796号明細書に記載されている。
【００２２】
別の実施形態では、線形弁別解析は２つのディメンションに限定されない。それによると、バンドパスフィルタ出力に基づく第１のスコアと、ケプストラム係数に基づく第２のスコアと、およびスコアの変化とが互いに関して解析される。その代りに、バンドパスフィルタ出力に基づく第１のスコアと、ケプストラム係数に基づく第２のスコアと、ＬＰＣ係数に基づく第３のスコアと、およびスコアの変化とが互いに関して解析される。当業者は、“スコア”に対するディメンションの数を任意の特定の数に限定しなくてもよいことを容易に認識することができるであろう。当業者は、スコアのディメンションの数がＶＲシステムの語彙中の単語の数によってのみ制限されることを認識することができるであろう。当業者はまた、使用するスコアのタイプを任意の特定のタイプのスコアに制限する必要がなく、技術的に知られている任意のスコアリング方法を含むことができることを認識するであろう。さらに、当業者によって容易に理解されるように、“スコアの変化”に対するディメンションの数を１または任意の特定の数に限定しなくてもよい。たとえば１実施形態では、スコアは最も近い一致と２番目に近い一致との間のスコアの変化に関連して解析され、スコアはまた最も近い一致と３番目に近い一致との間のスコアの変化に関連して解析される。当業者は、スコアの変化のディメンションの数がＶＲシステムの語彙中の単語の数によってのみ制限されることを理解することができるであろう。
【００２３】
以上のように、線形弁別解析に基づく新しい改善された音声認識除去方式を説明してきた。ここに開示した実施形態と関連して説明した種々の例示的な論理ブロックおよびアルゴリズムステップは、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、ディスクリートなゲートまたはトランジスタ論理装置、レジスタおよびＦＩＦＯ等のディスクリートなハードウェア部品、１組のファームウェア命令を実行するプロセッサ、または任意の通常のプログラム可能なソフトウェアモジュールおよびプロセッサによって構成され、あるいは実行されることが可能なことを当業者は理解するであろう。プロセッサはマイクロプロセッサであると都合がよいが、別の実施形態では、プロセッサは任意の通常のプロセッサ、制御装置、マイクロ制御装置または状態マシンであってもよい。ソフトウェアモジュールはＲＡＭメモリ、フラッシュメモリ、レジスタ、または技術的に知られている任意の他の形態の書込み可能な記憶媒体中に存在する。上記の説明で参照したデータ、命令、コマンド、情報、信号、ビット、符号、チップは、電圧、電流、電磁波、磁界または粒子、光フィールドまたは粒子、あるいはそれらの任意の組合せにより都合よく表されることができることを当業者はさらに認識するであろう。
【００２４】
本発明の好ましい実施形態を示し説明した。しかしながら多くの変形が本発明の技術的範囲を逸脱せずにここで説明した実施形態に対して行われてもよいことは当業者に明白であろう。それ故、本発明は特許請求の範囲を除いては限定されない。
【図面の簡単な説明】
【図１】音声認識システムのブロック図。
【図２】除去、Ｎベスト、および許容領域を示している、ＶＲシステムの除去方式に対するスコア対スコアの変化のグラフ。

Claims

音声認識システムの語彙の中で、発話と比較して最も近かった語彙候補に対応するスコアを第１のスコアとし、
音声認識システムの語彙の中で、発話と比較して２番目に近かった語彙候補に対応するスコアを第２のスコアとし、
第１のスコアと第２のスコアとの間の差を決定し、
第１のスコアと前記決定された差とに基づいて発話を処理するステップを含んでおり、
前記発話を処理するステップには、
第１のスコアを第１の傾斜しきい値と比較し、第１のスコアが第１の傾斜しきい値より大きい場合、その発話を除去し、
そうでなければ、第１のスコアを第２の傾斜しきい値と比較し、第１のスコアが第２の傾斜しきい値より大きい場合、その発話を確認するためにＮベストアルゴリズムを適用し、
そうでなければ、その発話を受入れることが含まれており、
第１と第２の傾斜しきい値は前記決定された差によって変化し、
第１の傾斜しきい値と第２の傾斜しきい値は、スコアを縦軸に、第１のスコアと第２のスコアとの差を横軸にとったとき正の傾斜した特性を有するしきい値である、音声認識システムにおける発話捕捉方法。
差は第１のスコアと第２のスコアとの間のスコアの変化に対応している請求項１記載の方法。
第１のスコアは最も近い一致に関連したスコアを含み、第２のスコアは２番目に最も近い一致に関連したスコアを含んでいる請求項１記載の方法。
第１のスコアおよび第２のスコアは、線形予測符号化係数に基づいている請求項１記載の方法。
第１のスコアおよび第２のスコアは、ケプストラム係数に基づいている請求項１記載の方法。
第１のスコアおよび第２のスコアは、バンドパスフィルタ出力に基づいている請求項１記載の方法。
差は、最も近い一致に関連したスコアと２番目に近い一致に関連したスコアとの間の差を含んでいる請求項１記載の方法。
発話のデジタル化されたスピーチサンプルからスピーチパラメータを抽出するように構成された音響プロセッサと、
この音響プロセッサに結合されたプロセッサとを具備しており、
前記プロセッサは、
音声認識システムの語彙の中で、発話と比較して最も近かった語彙候補に対応するスコアを第１のスコアとし、
音声認識システムの語彙の中で、発話と比較して２番目に近かった語彙候補に対応するスコアを第２のスコアとし、
第１のスコアと第２のスコアとの間の差を決定し、
第１のスコアと前記決定された差とに基づいて発話を処理するように構成されており、前記発話を処理することには、
第１のスコアを第１の傾斜しきい値と比較し、第１のスコアが第１の傾斜しきい値より大きい場合、その発話を除去し、
そうでなければ、第１のスコアを第２の傾斜しきい値と比較し、第１のスコアが第２の傾斜しきい値より大きい場合、その発話を確認するためにＮベストアルゴリズムを適用し、
そうでなければ、その発話を受入れることが含まれており、
第１と第２の傾斜しきい値は前記決定された差によって変化し、
第１の傾斜しきい値と第２の傾斜しきい値は、スコアを縦軸に、第１のスコアと第２のスコアとの差を横軸にとったとき正の傾斜した特性を有するしきい値である、音声認識システム。
差は第１のスコアと第２のスコアとの間のスコアの変化に対応している請求項８記載の音声認識システム。
第１のスコアは最も近い一致に関連したスコアを含み、第２のスコアは２番目に最も近い一致に関連したスコアを含んでいる請求項８記載の音声認識システム。
第１および第２のスコアは、線形予測符号化係数に基づいている請求項８記載の音声認識システム。
第１のスコアおよび第２のスコアは、ケプストラム係数に基づいている請求項８記載の音声認識システム。
第１のスコアおよび第２のスコアは、バンドパスフィルタ出力に基づいている請求項８記載の音声認識システム。
差は、最も近い一致に関連したスコアと２番目に最も近い一致に関連したスコアとの間の差を含んでいる請求項８記載の音声認識システム。
音声認識システムの語彙の中で、発話と比較して最も近かった語彙候補に対応するスコアを第１のスコアとする手段と、
音声認識システムの語彙の中で、発話と比較して２番目に近かった語彙候補に対応するスコアを第２のスコアとする手段と、
第１のスコアと第２のスコアとの間の差を決定する手段と、
第１のスコアと前記決定された差とに基づいて発話を処理する手段とを具備しており、
前記発話を処理する手段は、
第１のスコアを第１の傾斜しきい値と比較し、第１のスコアが第１の傾斜しきい値より大きい場合、その発話を除去し、
そうでなければ、第１のスコアを第２の傾斜しきい値と比較し、第１のスコアが第２の傾斜しきい値より大きい場合、その発話を確認するためにＮベストアルゴリズムを適用し、
そうでなければ、その発話を受入れることを行い、
第１と第２の傾斜しきい値は前記決定された差によって変化し、
第１の傾斜しきい値と第２の傾斜しきい値は、スコアを縦軸に、第１のスコアと第２のスコアとの差を横軸にとったとき正の傾斜した特性を有するしきい値である、音声認識システム。
差は、第１のスコアと第２のスコアとの間のスコアの変化に対応している請求項１５記載の音声認識システム。
第１のスコアは最も近い一致に関連したスコアを含み、第２のスコアは２番目に最も近い一致に関連したスコアを含んでいる請求項１５記載の音声認識システム。
第１のスコアおよび第２のスコアは、線形予測符号化係数に基づいている請求項１５記載の音声認識システム。
第１のスコアおよび第２のスコアは、ケプストラム係数に基づいている請求項１５記載の音声認識システム。
第１のスコアおよび第２のスコアは、バンドパスフィルタ出力に基づいている請求項１５記載の音声認識システム。
差は、最も近い一致に関連したスコアと２番目に最も近い一致に関連したスコアとの間の差を含んでいる請求項１５記載の音声認識システム。
発話のデジタル化されたスピーチサンプルからスピーチパラメータを抽出する手段と、
音声認識システムの語彙の中で、発話と比較して最も近かった語彙候補に対応するスコアを第１のスコアとし、
音声認識システムの語彙の中で、発話と比較して２番目に近かった語彙候補に対応するスコアを第２のスコアとし、
第１のスコアと第２のスコアとの間の差を決定し、
第１のスコアと前記決定された差とに基づいて発話を処理する手段とを具備しており、
前記発話を処理する手段は、
第１のスコアを第１の傾斜しきい値と比較し、第１のスコアが第１の傾斜しきい値より大きい場合、その発話を除去し、
そうでなければ、第１のスコアを第２の傾斜しきい値と比較し、第１のスコアが第２の傾斜しきい値より大きい場合、その発話を確認するためにＮベストアルゴリズムを適用し、
そうでなければ、その発話を受入れることを行い、
第１と第２の傾斜しきい値は前記決定された差によって変化し、
第１の傾斜しきい値と第２の傾斜しきい値は、スコアを縦軸に、第１のスコアと第２のスコアとの差を横軸にとったとき正の傾斜した特性を有するしきい値である、音声認識システム。
差は、最も近い一致に関連したスコアと２番目に最も近い一致に関連したスコアとの間の差を含んでいる請求項２２記載の音声認識システム。
差は、第１のスコアと第２のスコアとの間のスコアの変化に対応している請求項２２記載の音声認識システム。
第１のスコアは最も近い一致に関連したスコアを含み、第２のスコアは１以上の２番目に最も近い一致に関連したスコアを含んでいる請求項２２記載の音声認識システム。
第１のスコアおよび第２のスコアは、線形予測符号化係数に基づいている請求項２２記載の音声認識システム。
第１のスコアおよび第２のスコアは、ケプストラム係数に基づいている請求項２２記載の音声認識システム。
第１のスコアおよび第２のスコアは、バンドパスフィルタ出力に基づいている請求項２２記載の音声認識システム。