JP2002536691A

JP2002536691A - 音声認識除去方式

Info

Publication number: JP2002536691A
Application number: JP2000597792A
Authority: JP
Inventors: ビー、ニン; チャン、チエンチュン; ガルダドリ、ハリナス; デジャコ、アンドリュー・ピー
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1999-02-08
Filing date: 2000-02-04
Publication date: 2002-10-29
Anticipated expiration: 2020-02-04
Also published as: EP1159735A1; WO2000046791A1; DE60034772D1; HK1043423B; US20020055841A1; EP1159735B1; KR20010093327A; AU3589300A; US6574596B2; ATE362166T1; KR100698811B1; DE60034772T2; CN1178203C; ES2286014T3; CN1347547A; JP4643011B2

Abstract

(57)【要約】発話を捕捉する音声認識除去方式は、発話を受入れるか、その発話にＮベストアルゴリズムを適用するか、あるいは発話を除去するステップを含んでいる。第１の予め定められた関係が、記憶された単語に関する発話に対する１以上の最も近い比較結果と１以上の別の記憶された単語に関するその発話に対する１以上の別の比較結果との間の１以上の差と、その１以上の最も近い比較結果との間に存在する場合、その発話は受入れられる。第２の予め定められた関係が、１以上の最も近い比較結果と、この１以上の最も近い比較結果と１以上の別の比較結果との間の１以上の差との間に存在する場合は、Ｎベストアルゴリズムがその発話に適用される。第３の予め定められた関係が、１以上の最も近い比較結果と、この１以上の最も近い比較結果と１以上の別の比較結果との間の１以上の差との間に存在する場合には、その発話は除去される。１以上の別の比較結果の１つは、都合よく、発話と別の記憶単語の２番目に最も近い比較結果である。第１、第２のおよび第３の予め定められた関係は都合よく線形関係である。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】

本発明は一般に通信分野に関し、とくに音声認識システムに関する。

【０００２】

【従来の技術】

音声認識（ＶＲ）はユーザまたはユーザの音声コマンドを認識し、人間と機械
とのインターフェイスを容易にするために機械にシミュレートされた知能を与え
る最も重要な技術の１つを表している。ＶＲはまた人間の音声を理解するための
主要な技術を表している。音響スピーチ信号からの言語メッセージを再生する技
術を用いるシステムは音声認識装置を呼ばれる。音声認識装置は典型的に、入来
する生（未加工）のスピーチのＶＲを行うのに必要な情報を有する特徴のシーケ
ンスまたはベクトルを抽出する音響プロセッサと、入力発話に対応する言語単語
のシーケンスのような意味をなす所望の出力フォーマットを生成するために特徴
のシーケンスまたはベクトルを復号する単語デコーダとを備えている。所定のシ
ステムの性能を増加するため、システムに有効なパラメータを装備するためにト
レーニングが必要とされる。換言すると、システムは最適に機能できる前に学習
を必要とする。

【０００３】音響プロセッサは音声認識装置のフロントエンドスピーチ解析サブシステム
の典型を示している。入力スピーチ信号に応答して、音響プロセッサは時間的に
変化するスピーチ信号を特徴付けるための適切な表示を与える。音響プロセッサ
は背景雑音、チャンネル歪み、スピーカ特性、話し方等の関連のない情報を破棄
すべきである。実効的な音響処理は強化された音響弁別パワーを有する音声認識
装置を備えている。結局、解析される有効な特性は短時間のスペクトルエンベロ
ープである。短時間のスペクトルエンベロープを特徴付けるための２つの普通に
使用されるスペクトル解析技術は線形予測符号化（ＬＰＣ）とフィルタバンクベ
ースのスペクトルモデル化である。例示的なＬＰＣ技術は本発明の参考文献とさ
れている米国特許第5,414,796 号明細書と、本発明の参考文献とされているL.B.
Rabiner & R.W. Schafer のDigital Processing of Speech Signals、396 −45
3 頁（1978年）に記載されている。

【０００４】ＶＲ（通常音声認識とも呼ばれている）の使用は、安全性の理由で重要性が
増している。たとえば、ＶＲは無線電話のキーパッドのボタンを押す手作業の置
換のために使用されることができる。これはとくに、ユーザが車を運転しながら
呼を開始するときに重要である。ＶＲなしで電話を使用する場合、運転者は操縦
ハンドルから片手を放し、ダイヤリングにより通話するために電話のキーパッド
を見ながらボタンを押さなければならない。これらの行動は自動車事故の可能性
を増加する。スピーチエネーブル電話（すなわち、スピーチ認識用に設計されて
いる電話）は、運転者が連続的に道路を見ながら通話できるようにする。さらに
、手を使用しない自動車キットシステムにより、運転者は通話中操縦ハンドルを
両手で握ったままでいることが可能になる。

【０００５】スピーチ認識装置は、スピーカ依存装置とスピーカ独立装置とに分類される
。スピーカ独立装置は音声コマンドを任意のユーザから受けることができる。さ
らに、より一般的であるスピーカ依存装置は特定のユーザからのコマンドを認識
するようにトレーニングされている。スピーカ依存のＶＲ装置は典型的に２つの
フェーズ、すなわち、トレーニングフェーズと認識フェーズで動作する。トレー
ニングフェーズでは、ＶＲシステムはユーザにシステムの語彙の各単語を１度ま
たは２度発話させ、それによってシステムはこれらの特定の単語またはフレーズ
に対するユーザのスピーチ特性を学習できる。代わりに、音声的なＶＲ装置では
、トレーニングは言語の全ての音素を網羅するように特別にスクリプトされた１
以上の簡単なアーティクルを読取ることにより実現される。手を使用しない自動
車キット用の例示的な語彙はキーパッド上の数字と、“電話”、“送信”、“ダ
イヤル”、“取消し”、“クリア”、“追加”、“消去”、“履歴”、“プログ
ラム”、“イエス”および“ノー” というキー単語と、予め限定された数の共
通して呼ばれる会社の同僚、友人または家族のメンバーの名称を含んでいる。ト
レーニングが一度完了すると、ユーザはトレーニングされたキー単語を発話する
ことにより、認識フェーズで呼を開始できる。たとえば名称“John”がトレーニ
ングされた名称のうちの１つであるならば、ユーザはフレーズ“Call John ”と
言うことによりジョンへの呼を開始する。ＶＲシステムは単語“Call”と“John
”を認識し、ジョンの電話番号としてユーザが前に入力した番号をダイヤルする
。

【０００６】

【発明が解決しようとする課題】

ＶＲシステムのスループットは、ユーザが認識タスクの実行に成功した例の割
合として規定されてもよい。認識タスクは一般に多数の段階を含んでいる。たと
えば無線電話機による音声ダイヤリングでは、スループットは、ユーザがＶＲシ
ステムによる通話を成功的に完了した回数の平均パーセンテージを示す。ＶＲに
よる通話を成功するために必要な段階の数は、個々の通話によって異なる可能性
が高い。一般に、ＶＲシステムのスループットは、主としてＶＲシステムの認識
の正確度および人間／機械インターフェースという２つの要因に依存する。人間
のユーザの主観的理解力に相当するＶＲシステムの性能はスループットに基づい
ている。したがって、スループットを高める高い認識の正確度および知的人間・
機械インターフェースを有するＶＲシステムが必要とされている。

【０００７】

【課題を解決するための手段】

本発明は、スループットを増加させる高い認識の正確度および知的人間・機械
インターフェースを有するＶＲシステムに関する。それによると、本発明の１つ
の特徴において、音声認識システムにおける発話捕捉方法は、発話を記憶された
単語に関して比較して得られた第１の１以上の比較結果と、この第１の１以上の
比較結果とその発話を１以上の別の記憶された単語と比較して得られた第２の１
以上の比較結果との間の１以上の第１と第２の比較結果の差との間に第１の予め
定められた関係が存在する場合、その発話を受入れ、第１の１以上の比較結果と
、１以上の第１と第２の比較結果の差との間に第２の予め定められた関係が存在
する場合、その発話に対してＮベストアルゴリズムを適用し、第１の１以上の比
較結果と、１以上の第１と第２の比較結果の差との間に第３の予め定められた関
係が存在する場合、その発話を除去するステップを都合よく含んでいる。

【０００８】本発明の別の特徴において、音声認識システムは、発話のデジタル化された
スピーチサンプルからスピーチパラメータを抽出するように構成された音響プロ
セッサと、（１）発話を記憶された単語に関して比較して得られた第１の１以上
の比較結果と、この第１の１以上の比較結果とその発話を１以上の別の記憶され
た単語と比較して得られた第２の１以上の比較結果との間の１以上の第１と第２
の比較結果の差との間に第１の予め定められた関係が存在する場合、その発話を
受入れ、（２）第１の１以上の比較結果と、１以上の第１と第２の比較結果の差
との間に第２の予め定められた関係が存在する場合、その発話に対してＮベスト
アルゴリズムを適用し、あるいは（３）第１の１以上の比較結果と、１以上の第
１と第２の比較結果の差との間に第３の予め定められた関係が存在する場合、そ
の発話を除去するように構成されている、音響プロセッサに結合されたプロセッ
サとを都合よく備えている。

【０００９】本発明のさらに別の特徴において、音声認識システムは、発話を記憶された
単語に関して比較して得られた第１の１以上の比較結果と、この第１の１以上の
比較結果とその発話を１以上の別の記憶された単語と比較して得られた第２の１
以上の比較結果との間の１以上の第１と第２の比較結果の差との間に第１の予め
定められた関係が存在する場合、その発話を受入れる手段と、第１の１以上の比
較結果と、１以上の第１と第２の比較結果の差との間に第２の予め定められた関
係が存在する場合、その発話に対してＮベストアルゴリズムを適用する手段と、
第１の１以上の比較結果と、１以上の第１と第２の比較結果の差との間に第３の
予め定められた関係が存在する場合、その発話を除去する手段とを都合よく備え
ている。

【００１０】本発明の別の特徴において、音声認識システムは、発話のデジタル化された
スピーチサンプルからスピーチパラメータを抽出する手段と、（１）発話を記憶
された単語に関して比較して得られた第１の１以上の比較結果と、この第１の１
以上の比較結果とその発話を１以上の別の記憶された単語と比較して得られた第
２の１以上の比較結果との間の１以上の第１と第２の比較結果の差との間に第１
の予め定められた関係が存在する場合、その発話を受入れ、（２）第１の１以上
の比較結果と、１以上の第１と第２の比較結果の差との間に第２の予め定められ
た関係が存在する場合、その発話に対してＮベストアルゴリズムを適用し、ある
いは（３）第１の１以上の比較結果と、１以上の第１と第２の比較結果の差との
間に第３の予め定められた関係が存在する場合、その発話を除去する手段とを都
合よく備えている。

【００１１】

【発明の実施の形態】

１実施形態にしたがって、図１で示されているように、音声認識システム10は
アナログデジタル変換器（Ａ／Ｄ）12と、音響プロセッサ14と、ＶＲテンプレー
トデータベース16と、パターン比較論理装置18と、決定論理装置20とを含んでい
る。ＶＲシステム10は、たとえば無線電話または手を使用しない自動車キット中
に設けられることができる。

【００１２】ＶＲシステム10がスピーチ認識フェーズにあるとき、人（図示せず）は単語
またはフレーズを発話し、スピーチ信号を発生する。スピーチ信号は通常のトラ
ンスデューサ（図示せず）により電気スピーチ信号ｓ（ｔ）に変換される。スピ
ーチ信号ｓ（ｔ）はＡ／Ｄ12へ与えられ、これはたとえばパルス符号変調（ＰＣ
Ｍ）のような既知のサンプリング方法にしたがって、スピーチ信号ｓ（ｔ）をデ
ジタル化されたスピーチサンプルｓ（ｎ）へ変換する。

【００１３】スピーチサンプルｓ（ｎ）はパラメータ決定のために音響プロセッサ14へ与
えられる。音響プロセッサ14は入力スピーチ信号ｓ（ｔ）特性をモデル化する１
組のパラメータを生成する。パラメータは、前述の米国特許第5,414,796 号明細
書に記載されているように、たとえばスピーチコーダの符号化を含んだ任意の複
数の既知のスピーチパラメータ決定技術にしたがって高速度フーリエ変換（ＦＦ
Ｔ）ベースのケプストラム係数を使用して決定されてもよい。音響プロセッサ14
はデジタル信号プロセッサ（ＤＳＰ）として構成されてもよい。ＤＳＰはスピー
チコーダを含んでもよい。代わりに、音響プロセッサ14はスピーチコーダとして
構成されてもよい。

【００１４】パラメータ決定もＶＲシステム10のトレーニング中に実行され、ここでＶＲ
システム10の全ての語彙単語の１組のテンプレートは永久的に記憶するためＶＲ
テンプレートデータベース16へ伝送される。ＶＲテンプレートデータベース16は
、たとえばフラッシュメモリ等の任意の通常の非揮発性記憶媒体の形態として都
合よく構成される。これによって、ＶＲシステム10へのパワーがオフに切換えら
れたとき、テンプレートがＶＲテンプレートデータベース16に保持されることが
可能である。

【００１５】１組のパラメータはパターン比較論理装置18へ与えられる。パターン比較論
理装置18は発話のスタートおよびエンドポイントを都合よく検出し、（たとえば
時間導関数、２次時間導関数等の）ダイナミックな音響特性を計算し、関連する
フレームを選択することにより音響特性を圧縮し、静的およびダイナミック特性
を量子化する。エンドポイント検出、ダイナミック音響特性の微分、パターン圧
縮、パターン量子化の種々の既知の方法は、たとえば、ここにおいて全文が参考
文献とされている文献（Lawrence Rabiner & Biing-Hwang Juang、Fundamentals
of Speech Recognition（1993年））に記載されている。パターン比較論理装置18は、１組のパラメータをＶＲテンプレートデータベー
ス16に記憶されている全てのテンプレートと比較する。このパラメータセットと
ＶＲテンプレートデータベース16に記憶されている全てのテンプレートとの比較
結果、すなわち距離が決定論理装置20に与えられる。決定論理装置20は（１）パ
ラメータセットに最も近く一致するテンプレートをＶＲテンプレートデータベー
ス16から選択することができ、または（２）予め定められた一致しきい値内のＮ
個の最も近い一致を選択する“Ｎベスト”選択アルゴリズムを使用することがで
き、あるいは（３）パラメータのセットを除去することができる。“Ｎベスト”
選択アルゴリズムが使用されている場合、どの選択をするつもりだったのかを人
に質問する。決定論理装置20の出力は、発話された語彙の単語についての決定で
ある。たとえば、Ｎベスト状況では、人が“ＪｏｈｎＡｎｄｅｒｓ”と言うと
、ＶＲシステム10は“ＪｏｈｎＡｎｄｒｅｗｓと言いましたか”と応答する。
それに対して人は“ＪｏｈｎＡｎｄｅｒｓ”と答える。するとＶＲシステム10
は“ＪｏｈｎＡｎｄｅｒｓと言いましたか”と応答する。それで人が“はい”
と応えると、その時点でＶＲ10はダイヤリングによって呼を開始する。

【００１６】パターン比較論理装置18と決定論理装置20は、マイクロプロセッサとして構
成されると都合がよい。その代り、パターン比較論理装置18と決定論理装置20は
、任意の通常の形態のプロセッサ、制御装置、または状態マシンとして構成され
てもよい。ＶＲシステム10は、たとえば特定用途向け集積回路（ＡＳＩＣ）であ
ってもよい。ＶＲシステム10の認識の正確度は、ＶＲシステム10が語彙中の発話
された各語またはフレーズをどの程度正しく認識するかの尺度である。たとえば
、９５％の認識の正確度は、ＶＲシステム10が語彙中の単語を１００回中９５回
を正しく認識することを示している。

【００１７】１実施形態において、スコア対スコアの変化のグラフは、図２に示されている
ように、許容、Ｎベスト、および除去の領域に分けられる。領域は既知の線形弁
別解析技術にしたがって線で分離されている。この既知の線形弁別解析技術は、
ここにおいて全文が参考文献とされている文献［“ Pattern Classification an
d Scene Analysis ”,Richard O.Duda & Peter E.Hart(1973)］に記載されてい
る。ＶＲシステム10に入力された各発話は、上述のようにパターン比較論理装置
18によってＶＲテンプレートデータベース16に記憶されている全ての各テンプレ
ートに対する比較結果、またはそれら全ての各テンプレートからの距離を割当て
られる。これらの距離、すなわちスコアは、多数のフレームにわたって合計され
た、Ｎ次元ベクトル空間中のベクトル間のユークリッド距離であると都合がよい
。１実施形態では、そのベクトル空間は２４次元ベクトル空間であり、そのスコ
アは２４個のフレームにわたって累加され、そのスコアは整数の距離である。当
業者は、そのスコアが分数またはその他の値として同様に表されることも可能で
あることを理解するであろう。当業者は、そのスコアがたとえば確率測度，尤度
測度等であることができるように、ユークリッド距離の代わりに別の測定基準が
使用されてもよいことも理解するであろう。

【００１８】所定の発話およびＶＲテンプレートデータベース16からの所定のＶＲテンプレ
ートに対して、スコアが低くなる（すなわち、発話とＶＲテンプレートとの間の
距離が短くなると）と、発話とＶＲテンプレートと間の一致がそれだけ一層近く
なる。各発話に対して、決定論理装置20はＶＲテンプレートデータベース16中で
最も近い一致に関連したスコアを、このスコアと、ＶＲテンプレートデータベー
ス16中で２番目に最も近い一致に関連したスコア（すなわち、２番目に低いスコ
ア）との差に関して解析する。図２のグラフに示されているように、“スコア”
は、スコアの変化に対して表されており、３つの領域が規定されている。除去領
域は、スコアが比較的高く、そのスコアと２番目に低いスコアとの差が比較的小
さいエリアを表している。発話がこの除去領域の範囲内に入っている場合、決定
比較論理装置20はその発話を除去する。許容領域は、スコアが比較的低く、その
スコアと２番目に低いスコアとの差が比較的大きいエリアを表している。発話が
この許容領域の範囲内に入っている場合、決定比較論理装置20はその発話を受入
れる。Ｎベスト領域は除去領域と許容領域との間に存在する。Ｎベスト領域は、
スコアが除去領域内のスコアより低いか、あるいはそのスコアと２番目に低いス
コアとの差が除去領域中のスコアに関する差より大きいかのいずれかであるエリ
アを表している。Ｎベスト領域はまた、スコアが許容領域内のスコアより高いか
、あるいはＮベスト領域内のスコアに関する差がスコア変化値の予め定められた
しきい値より大きい場合に、そのスコアと２番目に低いスコアとの差が許容領域
中のスコアに関する差より小さいかのいずれかであるエリアを表している。発話
がこのＮベスト領域内に入っている場合、上述したように、決定比較論理装置20
はその発話にＮベストアルゴリズムを適用する。

【００１９】図２を参照して説明する実施形態では、第１の線分が除去領域をＮベスト領
域から分離している。第１の線分はスコア値の予め定められたしきい値で“スコ
ア”軸と交差する。第１の線分の傾きもまた予め定められている。第２の線分は
Ｎベスト領域を許容領域から分離する。第２の線分の傾きは、第１の線分の傾き
と同じであるように予め定められているので第１および第２の線分は平行である
。第３の線分は、“スコアの変化”軸上における変化値の予め定められたしきい
値から垂直に延びて第２の線分の終点とぶつかっている。当業者は、第１および
第２の線分が平行である必要はなく、随意に任意の傾きを割当てることが可能な
ことを認識するであろう。さらに、第３の線分は使用される必要がない。

【００２０】１実施形態において、スコアのしきい値が３７５であり、変化のしきい値が
２８であり、第２の線分の終点が延長された場合、その第２の線分は“スコア”
軸と値２５０で交差するので、第１および第２の線分の傾きはそれぞれ１になる
。スコア値がスコア変化値プラス３７５より大きい場合、発話は除去される。そ
うではなく、スコア値がスコア変化値プラス２５０よりより大きいか、あるいは
スコア変化値が２８より小さい場合、Ｎベストアルゴリズムがその発話に適用さ
れる。それ以外の場合、発話は受入れられる。

【００２１】図２を参照して説明する実施形態において、線形弁別解析に対して２つのデ
ィメンションが使用されている。“スコア”のディメンションは、多数のバンド
パスフィルタ（示されていない）の出力から導かれた、所定の発話と所定のＶＲ
テンプレートとの間の距離を表している。“スコアの変化”のディメンションは
、最も低いスコア、すなわち、最も近い一致したスコアと、２番目に低いスコア
、すなわち２番目に最も近く一致した発話に対するスコアとの差を表している。
別の実施形態では、“スコア”のディメンションは、発話のケプストラム係数か
ら導かれた、所定の発話と所定のＶＲテンプレートとの差を表す。さらに別の実
施形態において、“スコア”のディメンションは、発話の線形予測符号化（ＬＰ
Ｃ）係数から導かれた、所定の発話と所定のＶＲテンプレートとの間の距離を表
している。ＬＰＣ係数およびケプストラム係数を導く技術は、上述の米国特許第
5,414,796号明細書に記載されている。

【００２２】別の実施形態では、線形弁別解析は２つのディメンションに限定されない。
それによると、バンドパスフィルタ出力に基づく第１のスコアと、ケプストラム
係数に基づく第２のスコアと、およびスコアの変化とが互いに関して解析される
。その代りに、バンドパスフィルタ出力に基づく第１のスコアと、ケプストラム
係数に基づく第２のスコアと、ＬＰＣ係数に基づく第３のスコアと、およびスコ
アの変化とが互いに関して解析される。当業者は、“スコア”に対するディメン
ションの数を任意の特定の数に限定しなくてもよいことを容易に認識することが
できるであろう。当業者は、スコアのディメンションの数がＶＲシステムの語彙
中の単語の数によってのみ制限されることを認識することができるであろう。当
業者はまた、使用するスコアのタイプを任意の特定のタイプのスコアに制限する
必要がなく、技術的に知られている任意のスコアリング方法を含むことができる
ことを認識するであろう。さらに、当業者によって容易に理解されるように、“
スコアの変化”に対するディメンションの数を１または任意の特定の数に限定し
なくてもよい。たとえば１実施形態では、スコアは最も近い一致と２番目に近い
一致との間のスコアの変化に関連して解析され、スコアはまた最も近い一致と３
番目に近い一致との間のスコアの変化に関連して解析される。当業者は、スコア
の変化のディメンションの数がＶＲシステムの語彙中の単語の数によってのみ制
限されることを理解することができるであろう。

【００２３】以上のように、線形弁別解析に基づく新しい改善された音声認識除去方式を
説明してきた。ここに開示した実施形態と関連して説明した種々の例示的な論理
ブロックおよびアルゴリズムステップは、デジタル信号プロセッサ（ＤＳＰ）、
特定用途向け集積回路（ＡＳＩＣ）、ディスクリートなゲートまたはトランジス
タ論理装置、レジスタおよびＦＩＦＯ等のディスクリートなハードウェア部品、
１組のファームウェア命令を実行するプロセッサ、または任意の通常のプログラ
ム可能なソフトウェアモジュールおよびプロセッサによって構成され、あるいは
実行されることが可能なことを当業者は理解するであろう。プロセッサはマイク
ロプロセッサであると都合がよいが、別の実施形態では、プロセッサは任意の通
常のプロセッサ、制御装置、マイクロ制御装置または状態マシンであってもよい
。ソフトウェアモジュールはＲＡＭメモリ、フラッシュメモリ、レジスタ、また
は技術的に知られている任意の他の形態の書込み可能な記憶媒体中に存在する。
上記の説明で参照したデータ、命令、コマンド、情報、信号、ビット、符号、チ
ップは、電圧、電流、電磁波、磁界または粒子、光フィールドまたは粒子、ある
いはそれらの任意の組合せにより都合よく表されることができることを当業者は
さらに認識するであろう。

【００２４】本発明の好ましい実施形態を示し説明した。しかしながら多くの変形が本発
明の技術的範囲を逸脱せずにここで説明した実施形態に対して行われてもよいこ
とは当業者に明白であろう。それ故、本発明は特許請求の範囲を除いては限定さ
れない。

【図面の簡単な説明】

【図１】音声認識システムのブロック図。

【図２】除去、Ｎベスト、および許容領域を示している、ＶＲシステムの除去方式に対
するスコア対スコアの変化のグラフ。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ )，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者チャン、チエンチュンアメリカ合衆国カリフォルニア州 92131 サン・ディエゴ、サイプレス・テラス・プレイス 11456 (72)発明者ガルダドリ、ハリナスアメリカ合衆国カリフォルニア州 92129 サン・ディエゴ、オビエド・ストリート 9435 (72)発明者デジャコ、アンドリュー・ピーアメリカ合衆国カリフォルニア州 92126 サン・ディエゴ、フランダース・コーブ 10424 Ｆターム(参考） 5D015 CC11 HH04

Claims

【特許請求の範囲】

【請求項１】音声認識システムにおける発話捕捉方法において、発話を記憶された単語に関して比較して得られた第１の１以上の比較結果と、
この第１の１以上の比較結果とその発話を１以上の別の記憶された単語と比較し
て得られた第２の１以上の比較結果との間の１以上の第１と第２の比較結果の差
との間に第１の予め定められた関係が存在する場合、その発話を受入れ、前記第１の１以上の比較結果と、前記１以上の第１と第２の比較結果の差との
間に第２の予め定められた関係が存在する場合、その発話に対してＮベストアル
ゴリズムを適用し、前記第１の１以上の比較結果と、前記１以上の第１と第２の比較結果の差との
間に第３の予め定められた関係が存在する場合、その発話を除去するステップを
含んでいる発話捕捉方法。
【請求項２】前記第１の１以上の比較結果は複数の比較結果を含み、１以
上の別の比較結果は複数の別の比較結果を含んでいる請求項１記載の方法。
【請求項３】前記１以上の第１と第２の比較結果の差は複数の差を含んで
いる請求項１記載の方法。
【請求項４】記憶された単語は、音声認識システムの語彙の中でベストな
候補を含み、１以上の別の記憶された単語は音声認識システムの語彙の中で２番
目にベストな候補を含んでいる請求項１記載の方法。
【請求項５】前記第１の１以上の比較結果は１以上の最も近い比較結果を
含み、前記第２の１以上の別の比較結果は１以上の２番目に最も近い比較結果を
含んでいる請求項１記載の方法。
【請求項６】前記第１の１以上の比較結果および前記第２の１以上の比較
結果は、線形予測符号化係数を含んでいる請求項１記載の方法。
【請求項７】前記第１の１以上の比較結果および前記第２の１以上の比較
結果は、ケプストラム係数を含んでいる請求項１記載の方法。
【請求項８】１以上の比較結果および前記第２の１以上の比較結果は、バ
ンドパスフィルタ出力を含んでいる請求項１記載の方法。
【請求項９】第１、第２および第３の予め定められた関係は、線形関係で
ある請求項１記載の方法。
【請求項１０】第１の比較結果と第２の比較結果の前記１以上の差は、最
も近い比較結果と２番目に近い比較結果との間の差を含んでいる請求項１記載の
方法。
【請求項１１】第１の比較結果と第２の比較結果の前記１以上の差は、最
も近い比較結果と２番目に近い比較結果との間の第１の差と、最も近い比較結果
と３番目に近い比較結果との間の第２の差とを含んでいる請求項１記載の方法。
【請求項１２】発話のデジタル化されたスピーチサンプルからスピーチパ
ラメータを抽出するように構成された音響プロセッサと、（１）発話を記憶された単語に関して比較して得られた第１の１以上の比較結
果と、この第１の１以上の比較結果とその発話を１以上の別の記憶された単語と
比較して得られた第２の１以上の比較結果との間の１以上の第１と第２の比較結
果の差との間に第１の予め定められた関係が存在する場合、その発話を受入れ、
（２）前記第１の１以上の比較結果と、前記１以上の第１と第２の比較結果の差
との間に第２の予め定められた関係が存在する場合、その発話に対してＮベスト
アルゴリズムを適用し、あるいは（３）前記第１の１以上の比較結果と、前記１
以上の第１と第２の比較結果の差との間に第３の予め定められた関係が存在する
場合、その発話を除去するように構成されている、音響プロセッサに結合された
プロセッサとを具備している音声認識装置。
【請求項１３】１以上の比較結果は複数の比較結果を含み、１以上の別の
比較結果は複数の別の比較結果を含んでいる請求項１２記載の音声認識装置。
【請求項１４】１以上の差は複数の差を含んでいる請求項１２記載の音声
認識装置。
【請求項１５】記憶された単語は、音声認識システムの語彙の中でベスト
な候補を含み、１以上の別の記憶された単語は音声認識システムの語彙の中で２
番目にベストな候補を含んでいる請求項１２記載の音声認識装置。
【請求項１６】１以上の比較結果は１以上の最も近い比較結果を含み、１
以上の別の比較結果は１以上の２番目に最も近い比較結果を含んでいる請求項１
２記載の音声認識装置。
【請求項１７】１以上の比較結果および１以上の別の比較結果は、線形予
測符号化係数を含んでいる請求項１２記載の音声認識装置。
【請求項１８】１以上の比較結果および１以上の別の比較結果は、ケプス
トラム係数を含んでいる請求項１２記載の音声認識装置。
【請求項１９】１以上の比較結果および１以上の別の比較結果は、バンド
パスフィルタ出力を含んでいる請求項１２記載の音声認識装置。
【請求項２０】第１寝第２および第３の予め定められた関係は、線形関係
である請求項１２記載の音声認識装置。
【請求項２１】１以上の差は、最も近い比較結果と２番目に最も近い比較
結果との間の差を含んでいる請求項１２記載の音声認識装置。
【請求項２２】１以上の差は、最も近い比較結果と２番目に最も近い比較
結果との間の第１の差と、最も近い比較結果と３番目に最も近い比較結果との間
の第２の差とを含んでいる請求項１２記載の音声認識装置。
【請求項２３】発話を記憶された単語に関して比較して得られた第１の１
以上の比較結果と、この第１の１以上の比較結果とその発話を１以上の別の記憶
された単語と比較して得られた第２の１以上の比較結果との間の１以上の第１と
第２の比較結果の差との間に第１の予め定められた関係が存在する場合、その発
話を受入れる手段と、前記第１の１以上の比較結果と、前記１以上の第１と第２の比較結果の差との
間に第２の予め定められた関係が存在する場合、その発話に対してＮベストアル
ゴリズムを適用する手段と、前記第１の１以上の比較結果と、前記１以上の第１と第２の比較結果の差との
間に第３の予め定められた関係が存在する場合、その発話を除去する手段とを具
備している音声認識装置。
【請求項２４】１以上の比較結果は複数の比較結果を含み、１以上の別の
比較結果は複数の別の比較結果を含んでいる請求項２３記載の音声認識装置。
【請求項２５】１以上の差は複数の差を含んでいる請求項２３記載の音声
認識装置。
【請求項２６】記憶された単語は、音声認識システムの語彙の中でベスト
な候補を含み、１以上の別の記憶された単語は音声認識システムの語彙の中で２
番目にベストな候補を含んでいる請求項２３記載の音声認識装置。
【請求項２７】１以上の比較結果は１以上の最も近い比較結果を含み、１
以上の別の比較結果は１以上の２番目に最も近い比較結果を含んでいる請求項２
３記載の音声認識装置。
【請求項２８】１以上の比較結果および１以上の別の比較結果は、線形予
測符号化係数を含んでいる請求項２３記載の音声認識装置。
【請求項２９】１以上の比較結果および１以上の別の比較結果は、ケプス
トラム係数を含んでいる請求項２３記載の音声認識装置。
【請求項３０】１以上の比較結果および１以上の別の比較結果は、バンド
パスフィルタ出力を含んでいる請求項２３記載の音声認識装置。
【請求項３１】第１寝第２および第３の予め定められた関係は、線形関係
である請求項２３記載の音声認識装置。
【請求項３２】１以上の差は、最も近い比較結果と２番目に最も近い比較
結果との間の差を含んでいる請求項２３記載の音声認識装置。
【請求項３３】１以上の差は、最も近い比較結果と２番目に最も近い比較
結果との間の第１の差と、最も近い比較結果と３番目に最も近い比較結果との間
の第２の差とを含んでいる請求項２３記載の音声認識装置。
【請求項３４】発話のデジタル化されたスピーチサンプルからスピーチパ
ラメータを抽出する手段と、（１）発話を記憶された単語に関して比較して得られた第１の１以上の比較結
果と、この第１の１以上の比較結果とその発話を１以上の別の記憶された単語と
比較して得られた第２の１以上の比較結果との間の１以上の第１と第２の比較結
果の差との間に第１の予め定められた関係が存在する場合、その発話を受入れ、
（２）前記第１の１以上の比較結果と、前記１以上の第１と第２の比較結果の差
との間に第２の予め定められた関係が存在する場合、その発話に対してＮベスト
アルゴリズムを適用し、あるいは（３）前記第１の１以上の比較結果と、前記１
以上の第１と第２の比較結果の差との間に第３の予め定められた関係が存在する
場合、その発話を除去する手段とを具備している音声認識装置。
【請求項３５】１以上の比較結果は複数の比較結果を含み、１以上の別の
比較結果は複数の別の比較結果を含んでいる請求項３４記載の音声認識装置。
【請求項３６】１以上の差は複数の差を含んでいる請求項３４記載の音声
認識装置。
【請求項３７】記憶された単語は、音声認識システムの語彙の中でベスト
な候補を含み、１以上の別の記憶された単語は音声認識システムの語彙の中で２
番目にベストな候補を含んでいる請求項３４記載の音声認識装置。
【請求項３８】１以上の比較結果は１以上の最も近い比較結果を含み、１
以上の別の比較結果は１以上の２番目に最も近い比較結果を含んでいる請求項３
４記載の音声認識装置。
【請求項３９】１以上の比較結果および１以上の別の比較結果は、線形予
測符号化係数を含んでいる請求項３４記載の音声認識装置。
【請求項４０】１以上の比較結果および１以上の別の比較結果は、ケプス
トラム係数を含んでいる請求項３４記載の音声認識装置。
【請求項４１】１以上の比較結果および１以上の別の比較結果は、バンド
パスフィルタ出力を含んでいる請求項３４記載の音声認識装置。
【請求項４２】第１、第２および第３の予め定められた関係は、線形関係
である請求項３４記載の音声認識装置。
【請求項４３】１以上の差は、最も近い比較結果と２番目に最も近い比較
結果との間の差を含んでいる請求項３４記載の音声認識装置。
【請求項４４】１以上の差は、最も近い比較結果と２番目に最も近い比較
結果との間の第１の差と、最も近い比較結果と３番目に最も近い比較結果との間
の第２の差とを含んでいる請求項３４記載の音声認識装置。