JP5039879B2

JP5039879B2 - スピーチエネーブル装置のユーザインターフェースの完全性をテストする方法および装置

Info

Publication number: JP5039879B2
Application number: JP2000597794A
Authority: JP
Inventors: デジャコ、アンドリュー・ピー; ウォルターズ、リチャード・ピー; ガルダドリ、ハリナス
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1999-02-08
Filing date: 2000-02-04
Publication date: 2012-10-03
Anticipated expiration: 2020-02-04
Also published as: JP2003524795A; HK1043233B; WO2000046793A1; KR20010093325A; AU3589500A; EP1151431B1; DE60014583T2; US20020069064A1; HK1043233A1; ES2233350T3; ATE279003T1; EP1151431A1; DE60014583D1

Description

【０００１】
【発明の属する技術分野】
本発明は通信分野、特にスピーチエネーブル装置のユーザインターフェースの完全性のテストに関する。
【０００２】
【従来の技術】
音声認識（ＶＲ）はユーザまたはユーザの音声コマンドを認識し、人間の機械とのインターフェースを容易にするために機械にシミュレートされた知能を与える最も重要な技術の１つを表している。ＶＲはまた人間の音声を理解するための主要な技術を表している。音響スピーチ信号からの言語メッセージを再生する技術を用いるシステムは音声認識装置を呼ばれる。“音声認識装置”という用語はここでは一般に任意のスピーチによる動作可能なユーザインターフェース装置を意味するために使用されている。音声認識装置は入来する生（未加工）のスピーチのＶＲを行うのに必要な情報を有する特徴のシーケンスまたはベクトルを抽出する音響プロセッサと、入力発話に対応する言語単語のシーケンスのような意味をなす所望の出力フォーマットを生成するために特徴のシーケンスまたはベクトルを復号する単語デコーダとを具備している。所定のシステムの性能を増加するため、システムに有効なパラメータを装備するためにトレーニングが必要とされる。換言すると、システムは最適に機能できる前に学習を必要とする。
【０００３】
音響プロセッサは音声認識装置のフロントエンドスピーチ解析サブシステムを表している。入力スピーチ信号に応答して、音響プロセッサは時間的に変化するスピーチ信号を特徴付けるための適切な表示を与える。音響プロセッサは背景雑音、チャンネル歪み、スピーカ特性、話し方等の関連のない情報を破棄すべきである。実効的な音響処理は強化された音響弁別パワーを有する音声認識装置を備えている。結局、解析される有効な特性は短時間のスペクトルエンベロープである。短時間のスペクトルエンベロープを特徴付けるための２つの普通に使用されるスペクトル解析技術は線形予測符号化（ＬＰＣ）とフィルタバンクベースのスペクトルモデル化である。例示的なＬＰＣ技術は本発明の参考文献とされている米国特許第5,414,796 号明細書と、本発明の参考文献とされているL.B. Rabiner & R.W. Schafer のDigital Processing of Speech Signals、396 −453 頁（1978年）に記載されている。
【０００４】
（通常音声認識とも呼ばれている）ＶＲの使用は安全性の理由で重要性が増している。例えば、ＶＲは無線電話のキーパッドのボタンを押す手作業の置換のために使用されることができる。これは特にユーザが車を運転しながら呼を開始しているときに重要である。ＶＲなしで電話を使用するとき、運転者は一方の手を操縦ハンドルから外し、ダイヤリングによって通話するためにボタンを押しながら電話のキーパッドを見なければならない。これらの行動は自動車事故の可能性を増加する。スピーチエネーブル電話（即ちスピーチ認識用に設計されている電話）は運転者が連続的に道路を見ながら通話を行うことを可能にする。手を使用しない自動車キットシステムはさらに運転者が呼を開始しながら操縦ハンドルに両手を維持することを可能にする。
【０００５】
スピーチ認識装置はスピーカ依存装置とスピーカ独立装置とに分類される。スピーカ独立装置は音声コマンドを任意のユーザから受けることができる。さらにより一般的であるスピーカ依存装置は特定のユーザからのコマンドを認識するようにトレーニングされている。スピーカ依存のＶＲ装置は典型的に２つのフェーズ、即ちトレーニングフェーズと認識フェーズで動作する。トレーニングフェーズでは、ＶＲシステムはユーザにシステムの語彙の各単語を１度または２度発話させ、それによってシステムはこれらの特定の単語またはフレーズに対するユーザのスピーチ特性を学習できる。代わりに、音声的なＶＲ装置では、トレーニングは言語の全ての音素を網羅するように特別にスクリプトされた１以上の簡単なアーティクルを読取ることにより実現される。手を使用しない自動車キット用の例示的な語彙はキーパッド上の数字と、キーワード“呼”、“送信”、“ダイヤル”、“取消し”、“クリア”、“付加”、“消去”、“経歴”、“プログラム”、“イエス”、“ノー”と、予め限定された数の共通して呼ばれる共働者、友人または家族のメンバの名称を含んでいる。トレーニングが一度完了すると、ユーザはトレーニングされたキーワードを発話することにより、認識フェーズで呼を開始できる。例えば名称“John”がトレーニングされた名称のうちの１つであるならば、ユーザはフレーズ“Call John ”と言うことによりジョンへの呼を開始する。ＶＲシステムは単語“Call”と“John”を認識し、ジョンの電話番号のようなユーザが予め入力した番号をダイヤルする。
【０００６】
【発明が解決しようとする課題】
スピーチエネーブル製品は、ユーザインターフェースとアプリケーション論理装置の完全性をテストするために製品発達サイクル中および製品有効フェーズ中に何百人ものユーザによって何度もテストされなければならない。このような規模の統計的に意味のある反復可能なテストは、これを請け負う製造業者にとって非常に高価なものである。このために、多くのＶＲ製品は、実験室で行われるテストに限られたものとなり、市場において、すなわち消費者により多数のテストを実施される。製造業者は完全にテストされたＶＲ製品を消費者に提供することが望ましい。したがって、スピーチエネーブル製品およびスピーチエネーブルサービスをテストし、改善する廉価で反復可能な非侵入的テストパラダイムが必要とされている。
【０００７】
【課題を解決するための手段】
本発明は、スピーチエネーブル製品およびスピーチエネーブルサービスをテストし、改善する廉価で反復可能な非侵入的テストパラダイムに関する。それによると、本発明の１つの特徴において、音声認識装置をテストおよび訓練するための装置は、プロセッサと、プロセッサに結合され、複数の音声発声を記憶する記憶媒体と、音声認識装置の状態を決定し、その状態にしたがって応答を与えるプロセッサにより実行可能なソフトウェアモジュールとを備えている。
【０００８】
本発明の別の特徴において、音声認識装置をテストおよび訓練する方法は、複数の音声発声を記憶し、音声認識装置の状態を決定し、その状態にしたがって音声認識装置に応答を与えるステップを含んでいる。
【０００９】
本発明のさらに別の特徴において、音声認識装置をテストおよび訓練する装置は、複数の音声発声を記憶する手段と、音声認識装置状態を決定する手段と、その状態にしたがって音声認識装置に応答を与える手段とを備えている。
【００１０】
【発明の実施の形態】
図１で示されているように、通常の音声認識システム10は、アナログデジタル変換器（Ａ／Ｄ）12と、音響プロセッサ14と、ＶＲテンプレートデータベース16と、パターン比較論理装置18と、決定論理装置20を含んでいる。ＶＲシステム10は例えば無線電話あるいはハンドフリー自動車キットに設けられてもよい。
【００１１】
ＶＲシステム10がスピーチ認識フェーズにあるとき、人（図示せず）は単語またはフレーズを発話し、スピーチ信号を発生する。スピーチ信号は通常のトランスデューサ（図示せず）により電気スピーチ信号ｓ（ｔ）に変換される。スピーチ信号ｓ（ｔ）はＡ／Ｄ12へ与えられ、これは例えばパルス符号変調（ＰＣＭ）のような既知のサンプリング方法にしたがって、スピーチ信号ｓ（ｔ）をデジタル化されたスピーチサンプルｓ（ｎ）へ変換する。
【００１２】
スピーチサンプルｓ（ｎ）はパラメータ決定のために音響プロセッサ14へ与えられる。音響プロセッサ14は入力スピーチ信号ｓ（ｔ）特性をモデル化する１組のパラメータを生成する。パラメータは、前述の米国特許第5,414,796 号明細書に記載されているように、例えばスピーチコーダの符号化を含んだ任意の複数の既知のスピーチパラメータ決定技術にしたがって高速度フーリエ変換（ＦＦＴ）ベースのケプストラム係数を使用して決定されてもよい。音響プロセッサ14はデジタル信号プロセッサ（ＤＳＰ）として構成されてもよい。ＤＳＰはスピーチコーダを含んでもよい。代わりに、音響プロセッサ14はスピーチコーダとして構成されてもよい。
【００１３】
パラメータ決定もＶＲシステム10のトレーニング中に実行され、ここでＶＲシステム10の全ての語彙単語の１組のテンプレートは永久的に記憶するためＶＲテンプレートデータベース16へ伝送される。ＶＲテンプレートデータベース16は例えばフラッシュメモリ等の任意の通常の非揮発性記憶媒体の形態として有効に構成される。これによって、ＶＲシステム10へのパワーがオフに切換えられたとき、テンプレートがＶＲテンプレートデータベース16に保持されることが可能である。
【００１４】
１組のパラメータはパターン比較論理装置18へ与えられる。パターン比較論理装置18は発話のスタートおよびエンドポイントを有効に検出し、（例えば時間導関数、２次時間導関数等の）ダイナミックな音響特性を計算し、関連するフレームを選択することにより音響特性を圧縮し、静的およびダイナミック特性を量子化する。エンドポイント検出、ダイナミック音響特性の微分、パターン圧縮、パターン量子化の種々の既知の方法は、例えば文献（Lawrence Rabiner & Biing-Hwang Juang、Fundamentals of Speech Recognition（1993年））に記載されている。パターン比較論理装置18は１組のパラメータをＶＲテンプレートデータベース16に記憶されている全てのテンプレートと比較する。パラメータのセットとＶＲテンプレートデータベース16に記憶されている全てのテンプレートとの比較結果または離たりは決定論理装置20に与えられる。決定論理装置20はＶＲテンプレートデータベース16から、パラメータセットに最も近く一致するテンプレートを選択する。その代りとして、決定論理装置20は通常の“Ｎベスト”選択アルゴリズムを使用してもよく、これは予め定められた一致しきい値内のＮ個の最も近い一致を選択する。その後、意図した選択について人に質問する。決定論理装置20の出力は発話された語彙の単語についての決定である。
【００１５】
パターン比較論理装置18と決定論理装置20はマイクロプロセッサとして有効に構成されることが有効である。ＶＲシステム10は例えば特定用途向け集積回路（ＡＳＩＣ）であってもよい。ＶＲシステム10の認識の正確性はＶＲシステム10が語彙中の発話した単語またはフレーズをいかに正確に認識するかの尺度である。例えば９５％の認識の正確性はＶＲシステム10が語彙中の単語を１００回中９５回正確に認識することを示している。
【００１６】
１実施形態によると、図２に示されているように、ＶＲ製品用のテストシステム100 は、プロセッサ102 、ソフトウェアモジュール104 および記憶媒体106 を含んでいる。プロセッサ102 はマイクロプロセッサであると有効であるが、任意の通常の形態のプロセッサ、制御装置、または状態マシンであってよい。プロセッサ102 はソフトウェアモジュール104 に結合され、このソフトウェアモジュール104 は、ソフトウェア命令を保持したＲＡＭメモリとして構成されるとよい。ＲＡＭメモリ104 は装置に含まれたＲＡＭであってよく、あるいはプロセッサ102 およびＲＡＭメモリ104 がＡＳＩＣ中に設けられることもできる。別の実施形態では、ファームウェア命令がソフトウェアモジュール104 の代わりに使用される。記憶媒体106 はプロセッサ102 に結合され、プロセッサ102 によってアクセス可能なディスクメモリとして構成されるとよい。別の実施形態において、記憶媒体106 は任意の形態の通常の不揮発性メモリとして構成されることができる。プロセッサは、入出力接続により、テストされるべきＶＲ装置（示されていない）と通信することを可能にされている。入出力接続には、テストシステム100 をＶＲ装置と電気的に結合するケーブルを備えていることが好ましい。ケーブルに加えて、入出力接続は、デジタル・アナログ変換器（Ｄ／Ａ）（示されていない）およびラウドスピーカ（やはり示されていない）を含み、テストシステム100 がＶＲ装置と可聴音で通信することができる。
【００１７】
テストシステム100 は、ＶＲ装置を使用して何百人もの話者をシミュレートし、それによって反復可能で非侵入的な端末相互を通したテストをＶＲ装置に対して実施する。記憶媒体106 は１組の発話のデジタルサンプルを含み、各発話は多数の異なった話者によって繰り返されたものである。１実施形態において、１５０の単語が各話者によって話され、６００人の話者が録音されて、９０，０００のデジタルサンプルが生成されて記憶媒体106 に記憶される。ソフトウェアモジュール104 中に保持されたソフトウェア命令は、ＶＲ装置の状態（入力接続で受取られる）を予想し、出力接続を介して適切な応答を与えるためにプロセッサ102 によって実行される。ソフトウェア命令は、スクリプト言語で書込まれると都合がよい。出力接続からのケーブルは、ＶＲ装置の通常の直列ポートまたは診断モニタポートにより、および、またはＶＲ装置のＰＣＭポートによりＶＲ装置とインターフェースしてもよい。ＶＲ装置が無線電話装置である１実施形態では、電話装置のキーパッドのボタンを押すことをエミュレートし、電話装置のＬＣＤディスプレイ上に表示される文字を検索するようにＶＲ装置に命令するために直列ポートが使用されている。ＶＲ装置がハンドフリーのカーキット（および関連した電話器）である別の実施形態では、スピーチをカーキットに入力し、音声プロンプトおよび音声応答をカーキットから受信するためにカーキットＰＣＭポートが使用される。別の実施形態において、Ｄ／Ａおよびラウドスピーカにより、スピーチが聞こえるようにＶＲ装置に与えられてもよい。したがって、ＶＲ装置は、テストシステム100 を人間のユーザであると認識し、実時間で結果を生成する。さらに、ソフトウェアモジュール104 は、ＶＲ装置の認識の正確度を監視し、認識の正確度をユーザに報告するための命令を含んでいる。
【００１８】
１実施形態において、ＶＲ装置のユーザインターフェースの完全性は、図３のフローチャートに示されている方法のステップにしたがってテストされてもよい。当業者は、テストシステム（示されていない）により行われる図３に示されているアルゴリズムのステップが、想定されている特定のＶＲユーザインターフェースに対して調整されていることを認識するであろう。別の異なったＶＲユーザインターフェースは異なったアルゴリズムステップを生成することができる。図３の実施形態によると、ＶＲ装置が人間のユーザであると認識するテストシステムによって音声入力がＶＲ装置（示されていない）中に保存される。
【００１９】
ステップ200 において、プロンプト“音声タグを付加したか？”がＶＲ装置のＬＣＤスクリーン上に生成される。ＶＲ装置においてよく認められるこの特徴は、ユーザが前に入力した電話番号に音声タグを付加し、それによってユーザがその番号に対応した名前を言うことにより、ダイヤリングを開始することを可能する。テストシステムは、このテストシステムをＶＲ装置の診断または直列ポートに電気的に結合しているケーブルを介してこのプロンプトを受取って、音声タグを付加するための“ＯＫ”または別の音声タグを付加する“次へ”のいずれかを選択する。
【００２０】
ステップ202 において、コマンド“電話器を耳にあて、命令にしたがいなさい”がＶＲ装置のＬＣＤスクリーン上に現れ、テストシステムによって受信される。ステップ204 では、テストシステムは２秒間待機し、人間のユーザの応答時間をシミュレートする。ステップ206 では、コマンド“お名前を言って下さい”がＶＲ装置のＬＣＤスクリーン上に現れ、テストシステムにより受信される。ステップ208 では、ＶＲ装置は単語“お名前をどうぞ”を可聴的に発生し、その後に発信音が続く。
【００２１】
ステップ210 では、テストシステムは記憶された名前のデータベースから取出された名前を可聴的に発声し、ＶＲ装置は発声を“捕捉”する。ＶＲ装置は発声を捕捉できず、即ちエラー状態が生じる可能性がある。エラー状態は、例えば名前が話される前に２秒を超える時間が経過し、継続期間が２８０ｍ秒よりも少ないような話された名前が非常に短い場合、あるいは継続期間が２秒を超えるような話された名前が非常に長い場合を含んでいる。ＶＲ装置が発話を捕捉できないならば、ＶＲ装置はステップ208 の行為を反復する。予め定められた失敗数Ｎが連続して生じたならば、ＶＲ装置は停止し、ステップ206 へ戻る。
【００２２】
ＶＲ装置がステップ210 で与えられた発声を捕捉したならば、ＶＲ装置はステップ212 で、捕捉された発声を可聴的に発生する。ステップ214 で、ＶＲコマンド“もう一度どうぞ”がＶＲ装置のＬＣＤスクリーン上に現れ、テストシステムにより受信される。ステップ216 で、ＶＲ装置は単語“もう一度”を可聴的に発生し、その後に発信音が続く。
【００２３】
ステップ216 で、テストシステムは可聴的に名前を反復する。ＶＲ装置が発声を捕捉できず、即ちエラー状態が生じたならば、ＶＲ装置はステップ216 の行為を反復する。予め定められた失敗数Ｎが連続して生じたならば、ＶＲ装置は停止し、ステップ206 へ戻る。
【００２４】
ＶＲ装置がステップ218 で与えられた発声を捕捉したならば、テストシステムはステップ210 および218 で捕捉された２つの発声を比較しまたは“整合”させる。２つの応答が整合しないならば、第２の応答は拒否され、ＶＲ装置はステップ216 の行為を反復する。２つの発声の整合のため予め定められた数Ｍの失敗が生じたならば、ＶＲ装置は停止しステップ206 へ戻る。テストシステムはユーザにＶＲ装置の正確な尺度を与えるために失敗数を記録する。
【００２５】
適切な整合が生じたならば、ＶＲ装置はステップ222 で、第２の捕捉された発声を可聴的に反復する。ステップ224 で、単語“音声タグ保存成功”がＶＲ装置のＬＣＤスクリーン上に現れ、テストシステムによりケーブルを介して受信される。ステップ226 で、ＶＲ装置のＬＣＤスクリーンは、数が特定のメモリ位置に記憶されたことを示している。ステップ228 では、ＶＲ装置のＬＣＤスクリーンは使用されるメモリ位置数と、有効なメモリ位置数を示す。ＶＲ装置はその後、ＶＲモードを出る。
【００２６】
１実施形態では、ＶＲ装置のユーザインターフェースの完全性は図４のフローチャートで説明されている方法ステップにしたがってテストできる。当業者はテストシステム（図示せず）により実行される図４で示されているアルゴリズムステップが想定される特別なＶＲユーザインターフェースに対して調整されることを認識するであろう。他の異なるＶＲユーザインターフェースは異なるアルゴリズムステップを生成することができる。図４の実施形態にしたがって、音声エントリはＶＲ装置には人間のユーザのように見えるテストシステムによりＶＲ装置（図示せず）でダイヤルされる。
【００２７】
ステップ300 では、テストシステムはＶＲ装置の診断または直列ポートへ電気的に結合されているケーブルによりコマンドを送信する。このコマンドは人間のユーザがＶＲ装置上の送信ボタンを押すことをシミュレートする。ステップ302 では、ＶＲ装置は２つの可聴発信音を連続的に発信する。ステップ304 では、単語“スタートＶＲについて”および“送信＝再ダイヤル”がＶＲ装置のＬＣＤスクリーン上に現れ、ケーブルを介してテストシステムによって受信される。テストシステムはケーブルを介して呼を再ダイヤルするための“再ダイヤル”またはＶＲモードを入力するための“ＶＲ”を選択する選択肢を有する。送信キーはＶＲモードを開始することに使用され、ＶＲモードはユーザが送信を押した後２秒間アクションを行わない場合に生じる。しかしながら、ユーザは最初に押してから２秒以内に再度送信ボタンを押すことにより先に呼を行った番号を再ダイヤルする選択肢を有する。ＶＲ装置は、ＶＲモードが開始されることができることを示しているが、ユーザが送信ボタンを再度押したならば代わりに再ダイヤルすることができることを示している。ステップ306 では、テストシステムは２秒間待機し、人間のユーザの応答時間をシミュレートする。
【００２８】
ステップ308 では、テストシステムはケーブルを介して“ＶＲ”を選択し、ＶＲ装置はＶＲモードを入力する。コマンド“音声タグを言って下さい”はＶＲ装置のＬＣＤスクリーン上で発生され、ケーブルを介してテストシステムにより受信される。ステップ310 では、ＶＲ装置は単語“お名前をどうぞ”を可聴的に発生し、その後に発信音が続く。
【００２９】
ステップ312 では、テストシステムは記憶された名前のデータベースから取出された名前を可聴的に発声し、ＶＲ装置は発声を“捕捉”する。ＶＲ装置は発声を捕捉できず、即ちエラー状態が生じることがある。エラー状態は、例えば名前が言われる前に２秒を超える時間が経過し、継続期間が２８０ｍ秒よりも少ない等の発話された名前が非常に短い場合、あるいは継続期間が２秒を超える等の発話された名前が非常に長い場合を含んでいる。ＶＲ装置が発話を捕捉できないならば、ＶＲ装置はステップ310 の行為を反復する。予め定められた失敗数Ｎが連続して生じたならば、ＶＲ装置は停止し、ステップ308 へ戻る。
【００３０】
ステップ314 では、ＶＲ装置は捕捉された発声をＶＲ装置の語彙に記憶されている名前のリスト上の１つ１つの名前と比較しまたは“整合”する。
【００３１】
整合が発見されないならば、ＶＲ装置はステップ310 の行為を反復する。整合を発見するため予め定められた数の失敗Ｍが生じたならば、ＶＲ装置は停止しステップ308 へ戻る。テストシステムはユーザにＶＲ装置の正確な尺度を与えるために失敗数を記録する。
【００３２】
ステップ314 で１度よりも多数の整合が発見されたならば、ＶＲ装置はステップ316 へ進み、技術で知られているように、整合を解くためにｎベストアルゴリズムを使用する。ｎベストアルゴリズムにより、ＶＲ装置はテストシステムがＶＲ装置の名前の語彙から選択された予め定められた数ｎ間で選択することを可能にし、この数は便宜上２である。例えばＶＲ装置はテストシステムが最良の整合に対応する音声を“話した”か否かを可聴的に尋ねる。ＶＲ装置はまたイエスまたはノーを選択する選択肢と共に、そのＬＣＤスクリーン上に同一の質問を発生する。テストシステムはケーブルを介してこの情報を受信し、ケーブルを介してイエスまたはノーを選択する。テストシステムがノーを選択したならば、ＶＲ装置は質問を反復し、次に近い整合を参照する。プロセスは整合がテストシステムにより選択されるまで、または整合が選択されないで整合のリストが検索し尽くされるまで継続され、この点でＶＲ装置は停止し、ステップ308 を反復する。
【００３３】
ステップ314 またはステップ316 において整合が得られた後、ＶＲ装置はステップ318 へ進む。ステップ318 では、ＶＲ装置のＬＣＤスクリーンは、ＶＲ装置が名前に関連する記憶された電話番号に呼を行っていることを示している。この指示はケーブルを介してテストシステムにより受信される。ステップ320 では、ＶＲ装置はそれが選択された名前を呼出していることを可聴的に示している。
【００３４】
ステップ322 では、ＶＲ装置は典型的には沈黙状態であるテストシステムにより行われる発生を捕捉する。テストシステムはまたそれに結合されたラウドスピーカにより単語“イエス”を可聴的に発生する。あるいはテストシステムは単語“ノー”を発生する。ＶＲ装置が何も捕捉しなかったならば、呼が行われる（即ち無声が想定される）。ＶＲ装置がそのデータベースの語彙中に記憶されている単語“イエス”と適切に整合する発声を捕捉したならば、呼が行われる。一方、非常に長い発声または非常に短い発声が捕捉される場合のようなエラー状態が生じたならば、ＶＲ装置はテストシステムが呼を行うことを要求するか否かを質問する。ＶＲ装置が“イエス”以外の単語と適切に整合する発声を捕捉したならば、ＶＲ装置はテストシステムが呼を行うことを要求するか否かを質問する。テストシステムが肯定的に応答するならば、呼が行われる。テストシステムが否定的に応答するならば、ＶＲシステムは停止し、ステップ308 へ戻る。テストシステムはケーブルを介して応答する。その代りに、または付加的に、テストシステムはラウドスピーカを介して可聴的に応答し、この場合、応答は前述の方法と類似の方法で捕捉され整合されなければならない。
【００３５】
図３および４を参照して説明された実施形態では、コマンドはテストシステムをＶＲ装置の診断または直列ポートへ電気的に結合されているケーブルによりテストシステムからＶＲ装置へ送信される。このコマンドはテストシステムにより送信される。別の実施形態では、コンピュータモニタはＶＲ装置のＬＣＤスクリーン上に示される現在のディスプレイを含むＶＲ装置のユーザインターフェースのグラフィカル描写を表示するためテストシステムへ結合されてもよい。シミュレートされたボタンがモニタスクリーン上に設けられ、そのスクリーン上でユーザはキー押しコマンドをＶＲ装置へ送信するようにマウスクリックし、ユーザが物理的に同じボタンを押すことをシミュレートする。モニタを使用して、ユーザは実際にそれに接触せずにＶＲ装置を制御できる。
【００３６】
以上、スピーチエネーブル装置のユーザインターフェース完全性をテストする優秀で改良された方法および装置を説明した。当業者は例えば音声メモ特性等のＶＲユーザインターフェースの多数の他の特徴が前述のテストシステムでテストされることを理解する。当業者は、ここで説明した実施形態と関連して説明した種々の示された論理ブロックおよびアルゴリズムステップがデジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、ディスクリートなゲートまたはトランジスタ論理装置、レジスタおよびＦＩＦＯ等のディスクリートなハードウェア部品、１組のファームウェア命令を実行するプロセッサ、または任意の通常のプログラム可能なソフトウェアモジュールおよび、プロセッサによって構成されあるいは実行されることができることを理解するであろう。プロセッサはマイクロプロセッサであると有効であるが、別の実施形態では、プロセッサは任意の通常のプロセッサ、制御装置、マイクロ制御装置または状態マシンであってもよい。ソフトウェアモジュールはＲＡＭメモリ、フラッシュメモリ、レジスタまたは技術で知られている任意の他の形態の書込み可能な記憶媒体に設置される。当業者は前述の説明で参照したデータ、命令、コマンド、情報、信号、ビット、符号、チップが電圧、電流、電磁波、磁界または粒子、光フィールドまたは粒子、あるいは任意の組合せにより有効に表されることをさらに認識するであろう。
【００３７】
本発明の好ましい実施形態を示し説明した。しかしながら多くの変形が本発明の技術的範囲を逸脱せずにここで説明した実施形態に対して行われてもよいことは当業者には明白であろう。それ故、本発明は特許請求の範囲を除いては限定されない。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［１］プロセッサと、
プロセッサに結合され、複数の音声発声を記憶する記憶媒体と、
音声認識装置の状態を決定し、その状態にしたがって応答を与えるプロセッサにより実行可能なソフトウェアモジュールとを具備している音声認識装置をテストおよび訓練するための装置。
［２］ソフトウェアモジュールは状態にしたがって複数の音声発声の少なくとも１つをプロセッサによって生成することを可能にされている、［１］の装置。
［３］複数の音声発声は複数のデジタル化されたサンプルを含んでいる、［１］の装置。
［４］さらに、１以上のデジタル・アナログ変換器と１以上のラウドスピーカとを有している、［１］の装置。
［５］さらに、音声認識装置に装置を結合するケーブルを備えている、［１］の装置。
［６］音声認識装置は無線電話装置を含んでいる、［１］の装置。
［７］音声認識装置はカーキットに結合された無線電話装置を含んでいる、［１］の装置。
［８］複数の音声発声は多数のグループの音声発声を含み、音声発声の各グループは異なった人により話されたものである、［１］の装置。
［９］複数の音声発声は多数のグループの音声発声を含み、音声発声の各グループは異なった背景雑音状態の下で記録されたものである、［１］の装置。
［１０］ソフトウェアモジュールはさらに、音声認識装置の性能の監視をプロセッサにより実行可能にされている、［１］の装置。
［１１］複数の音声発声を記憶し、
音声認識装置の状態を決定し、
その状態にしたがって音声認識装置に応答を与えるステップを含んでいる音声認識装置をテストおよび訓練する方法。
［１２］前記音声認識装置に応答を与えるステップにおいて、音声認識装置により翻訳するために複数の記憶された音声発声の少なくとも１つを生成する、［１１］の方法。
［１３］前記記憶するステップにおいて、複数の音声発声をデジタル的にサンプリングし、デジタル化されたサンプルのデータベースを生成する、［１１］の方法。
［１４］前記音声認識装置に応答を与えるステップにおいて、記憶されたサンプルをアナログ信号に変換し、そのアナログ信号を少なくとも１つのラウドスピーカに導く、［１１］の方法。
［１５］前記音声認識装置に応答を与えるステップにおいて、記憶されたサンプルを音声認識装置に電気的に導く、［１１］の方法。
［１６］前記音声認識装置は、無線電話装置を含んでいる、［１１］の方法。
［１７］前記音声認識装置は、カーキットに結合された無線電話装置を含んでいる、［１１］の方法。
［１８］前記記憶するステップにおいて、多数のグループの音声発声を記憶し、音声発声の各グループは異なった人により話されるものである、［１１］の方法。
［１９］前記記憶するステップにおいて、多数のグループの音声発声を記憶し、音声発声の各グループは異なった背景雑音状態の下で記録される、［１１］の方法。
［２０］さらに、音声認識装置の性能を監視するステップを含んでいる、［１１］の方法。
［２１］複数の音声発声を記憶する手段と、
音声認識装置状態を決定する手段と、
その状態にしたがって音声認識装置に応答を与える手段とを備えている音声認識装置をテストおよび訓練する装置。
［２２］前記音声認識装置に応答を与える手段は、音声認識装置による翻訳のために複数の記憶された音声発声の少なくとも１つを生成する手段を含んでいる、［２１］の装置。
［２３］前記記憶する手段は、複数の音声発声をデジタル的にサンプリングする手段と、デジタル化されたサンプルのデータベースを生成する手段とを含んでいる、［２１］の装置。
［２４］前記音声認識装置に応答を与える手段は、記憶されたサンプルをアナログ信号に変換する手段と、そのアナログ信号を少なくとも１つのラウドスピーカに導く手段とを含んでいる、［２１］の装置。
［２５］前記音声認識装置に応答を与える手段は、記憶されたサンプルを音声認識装置に電気的に導く手段を含んでいる、［２１］の装置。
［２６］音声認識装置は無線電話装置を含んでいる、［２１］の装置。
［２７］音声認識装置はカーキットに結合された無線電話装置を含んでいる、［２１］の装置。
［２８］前記記憶する手段は、多数のグループの音声発声を記憶する手段を含み、音声発声の各グループは異なった人により話されたものである、［２１］の装置。
［２９］前記記憶する手段は、多数のグループの音声発声を記憶する手段を含み、音声発声の各グループは異なった背景雑音状態の下で記録されたものである、［２１］の装置。
［３０］さらに、音声認識装置の性能を監視する手段を具備している、［２１］の装置。
【図面の簡単な説明】
【図１】通常の音声認識システムのブロック図。
【図２】図１のシステムのような音声認識装置用のテストシステムのブロック図。
【図３】図２のテストシステムが音声認識システム中に音声入力を保存したときに音声認識システムによって行われる方法のステップを示すフローチャート。
【図４】図２のテストシステムが音声認識システムに音声入力をダイヤルしたときに音声認識システムによって行われる方法のステップを示すフローチャート。

Claims

プロセッサと、
プロセッサに結合され、複数の異なった話者によって繰り返された複数の音声発声を記憶する記憶媒体と、
音声認識装置をテストするように構成されて、プロセッサにより実行可能なソフトウェアモジュールとを具備しており、
前記音声認識装置のテストには、
前記音声認識装置から第１の動作のためのプロンプトを受信し、
前記第１の動作のためのプロンプトに応答して、前記記憶媒体に記憶されている複数の音声発声から取り出された音声発声を発声し、それにより前記音声認識装置はその発声された音声発声を捕捉し、
前記音声認識装置から第２の動作のためのプロンプトを受信し、
前記第２の動作のためのプロンプトに応答して、前記音声発声を再度発声し、それにより前記音声認識装置はその発声された音声発声を捕捉し、
前記捕捉された２つの音声発声を比較しまたは整合させ、
前記捕捉された２つの音声発声が整合しない場合、ユーザに前記音声認識装置の正確な尺度を与えるために失敗数を記録し、
前記捕捉された２つの音声発声が整合した場合、前記音声認識装置が２回目に捕捉された前記音声発声を発声して、その音声発声に関連する情報に音声タグを付加することを可能にする、ことが含まれている、音声認識装置をテストおよび訓練するための装置。
複数の音声発声は複数のデジタル化されたサンプルを含んでいる請求項１記載の装置。
さらに、１以上のデジタル・アナログ変換器と１以上のラウドスピーカとを有している請求項１記載の装置。
さらに、音声認識装置に装置を結合するケーブルを備えている請求項１記載の装置。
音声認識装置は無線電話装置を含んでいる請求項１記載の装置。
音声認識装置はカーキットに結合された無線電話装置を含んでいる請求項１記載の装置。
複数の音声発声は多数のグループの音声発声を含み、音声発声の各グループは異なった人により話されたものである請求項１記載の装置。
複数の音声発声は多数のグループの音声発声を含み、音声発声の各グループは異なった背景雑音状態の下で記録されたものである請求項１記載の装置。
ソフトウェアモジュールはさらに、音声認識装置の性能の監視をプロセッサにより実行可能にされている請求項１記載の装置。
複数の異なった話者によって繰り返された複数の音声発声を記憶し、
音声認識装置をテストするステップを含んでおり、
前記音声認識装置をテストするステップは、
前記音声認識装置から第１の動作のためのプロンプトを受信し、
前記第１の動作のためのプロンプトに応答して、前記記憶されている複数の音声発声から取り出された音声発声を発声し、それにより前記音声認識装置はその発声された音声発声を捕捉し、
前記音声認識装置から第２の動作のためのプロンプトを受信し、
前記第２の動作のためのプロンプトに応答して、前記音声発声を再度発声し、それにより前記音声認識装置はその発声された音声発声を捕捉し、
前記捕捉された２つの音声発声を比較しまたは整合させ、
前記捕捉された２つの音声発声が整合しない場合、ユーザに前記音声認識装置の正確な尺度を与えるために失敗数を記録し、
前記捕捉された２つの音声発声が整合した場合、前記音声認識装置が２回目に捕捉された前記音声発声を発声して、その音声発声に関連する情報に音声タグを付加することを可能にする、ステップを含んでいる、音声認識装置をテストおよび訓練する方法。
前記記憶するステップにおいて、複数の音声発声をデジタル的にサンプリングし、デジタル化されたサンプルのデータベースを生成する請求項１０記載の方法。
前記音声認識装置は、無線電話装置を含んでいる請求項１０記載の方法。
前記音声認識装置は、カーキットに結合された無線電話装置を含んでいる請求項１０記載の方法。
前記記憶するステップにおいて、多数のグループの音声発声を記憶し、音声発声の各グループは異なった人により話されるものである請求項１０記載の方法。
前記記憶するステップにおいて、多数のグループの音声発声を記憶し、音声発声の各グループは異なった背景雑音状態の下で記録される請求項１０記載の方法。
さらに、音声認識装置の性能を監視するステップを含んでいる請求項１０記載の方法。
複数の異なった話者によって繰り返された複数の音声発声を記憶する手段と、
音声認識装置をテストする手段とを備えており、
前記音声認識装置をテストする手段は、
前記音声認識装置から第１の動作のためのプロンプトを受信する手段と、
前記第１の動作のためのプロンプトに応答して、前記記憶されている複数の音声発声から取り出された音声発声を発声し、それにより前記音声認識装置はその発声された音声発声を捕捉する、手段と、
前記音声認識装置から第２の動作のためのプロンプトを受信する手段と、
前記第２の動作のためのプロンプトに応答して、前記音声発声を再度発声し、それにより前記音声認識装置はその発声された音声発声を捕捉する、手段と、
前記捕捉された２つの音声発声を比較しまたは整合させる手段と、
前記捕捉された２つの音声発声が整合しない場合、ユーザに前記音声認識装置の正確な尺度を与えるために失敗数を記録する手段と、
前記捕捉された２つの音声発声が整合した場合、前記音声認識装置が２回目に捕捉された前記音声発声を発声して、その音声発声に関連する情報に音声タグを付加することを可能にする、手段とを含んでいる、音声認識装置をテストおよび訓練する装置。
前記記憶する手段は、複数の音声発声をデジタル的にサンプリングする手段と、デジタル化されたサンプルのデータベースを生成する手段とを含んでいる請求項１７記載の装置。
音声認識装置は無線電話装置を含んでいる請求項１７記載の装置。
音声認識装置はカーキットに結合された無線電話装置を含んでいる請求項１７記載の装置。
前記記憶する手段は、多数のグループの音声発声を記憶する手段を含み、音声発声の各グループは異なった人により話されたものである請求項１７記載の装置。
前記記憶する手段は、多数のグループの音声発声を記憶する手段を含み、音声発声の各グループは異なった背景雑音状態の下で記録されたものである請求項１７記載の装置。
さらに、音声認識装置の性能を監視する手段を具備している請求項１７記載の装置。