JP5039879B2 - スピーチエネーブル装置のユーザインターフェースの完全性をテストする方法および装置 - Google Patents

スピーチエネーブル装置のユーザインターフェースの完全性をテストする方法および装置 Download PDF

Info

Publication number
JP5039879B2
JP5039879B2 JP2000597794A JP2000597794A JP5039879B2 JP 5039879 B2 JP5039879 B2 JP 5039879B2 JP 2000597794 A JP2000597794 A JP 2000597794A JP 2000597794 A JP2000597794 A JP 2000597794A JP 5039879 B2 JP5039879 B2 JP 5039879B2
Authority
JP
Japan
Prior art keywords
speech
utterances
voice
utterance
recognition device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000597794A
Other languages
English (en)
Other versions
JP2003524795A (ja
Inventor
デジャコ、アンドリュー・ピー
ウォルターズ、リチャード・ピー
ガルダドリ、ハリナス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2003524795A publication Critical patent/JP2003524795A/ja
Application granted granted Critical
Publication of JP5039879B2 publication Critical patent/JP5039879B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Monitoring And Testing Of Exchanges (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は通信分野、特にスピーチエネーブル装置のユーザインターフェースの完全性のテストに関する。
【0002】
【従来の技術】
音声認識(VR)はユーザまたはユーザの音声コマンドを認識し、人間の機械とのインターフェースを容易にするために機械にシミュレートされた知能を与える最も重要な技術の1つを表している。VRはまた人間の音声を理解するための主要な技術を表している。音響スピーチ信号からの言語メッセージを再生する技術を用いるシステムは音声認識装置を呼ばれる。“音声認識装置”という用語はここでは一般に任意のスピーチによる動作可能なユーザインターフェース装置を意味するために使用されている。音声認識装置は入来する生(未加工)のスピーチのVRを行うのに必要な情報を有する特徴のシーケンスまたはベクトルを抽出する音響プロセッサと、入力発話に対応する言語単語のシーケンスのような意味をなす所望の出力フォーマットを生成するために特徴のシーケンスまたはベクトルを復号する単語デコーダとを具備している。所定のシステムの性能を増加するため、システムに有効なパラメータを装備するためにトレーニングが必要とされる。換言すると、システムは最適に機能できる前に学習を必要とする。
【0003】
音響プロセッサは音声認識装置のフロントエンドスピーチ解析サブシステムを表している。入力スピーチ信号に応答して、音響プロセッサは時間的に変化するスピーチ信号を特徴付けるための適切な表示を与える。音響プロセッサは背景雑音、チャンネル歪み、スピーカ特性、話し方等の関連のない情報を破棄すべきである。実効的な音響処理は強化された音響弁別パワーを有する音声認識装置を備えている。結局、解析される有効な特性は短時間のスペクトルエンベロープである。短時間のスペクトルエンベロープを特徴付けるための2つの普通に使用されるスペクトル解析技術は線形予測符号化(LPC)とフィルタバンクベースのスペクトルモデル化である。例示的なLPC技術は本発明の参考文献とされている米国特許第5,414,796 号明細書と、本発明の参考文献とされているL.B. Rabiner & R.W. Schafer のDigital Processing of Speech Signals、396 −453 頁(1978年)に記載されている。
【0004】
(通常音声認識とも呼ばれている)VRの使用は安全性の理由で重要性が増している。例えば、VRは無線電話のキーパッドのボタンを押す手作業の置換のために使用されることができる。これは特にユーザが車を運転しながら呼を開始しているときに重要である。VRなしで電話を使用するとき、運転者は一方の手を操縦ハンドルから外し、ダイヤリングによって通話するためにボタンを押しながら電話のキーパッドを見なければならない。これらの行動は自動車事故の可能性を増加する。スピーチエネーブル電話(即ちスピーチ認識用に設計されている電話)は運転者が連続的に道路を見ながら通話を行うことを可能にする。手を使用しない自動車キットシステムはさらに運転者が呼を開始しながら操縦ハンドルに両手を維持することを可能にする。
【0005】
スピーチ認識装置はスピーカ依存装置とスピーカ独立装置とに分類される。スピーカ独立装置は音声コマンドを任意のユーザから受けることができる。さらにより一般的であるスピーカ依存装置は特定のユーザからのコマンドを認識するようにトレーニングされている。スピーカ依存のVR装置は典型的に2つのフェーズ、即ちトレーニングフェーズと認識フェーズで動作する。トレーニングフェーズでは、VRシステムはユーザにシステムの語彙の各単語を1度または2度発話させ、それによってシステムはこれらの特定の単語またはフレーズに対するユーザのスピーチ特性を学習できる。代わりに、音声的なVR装置では、トレーニングは言語の全ての音素を網羅するように特別にスクリプトされた1以上の簡単なアーティクルを読取ることにより実現される。手を使用しない自動車キット用の例示的な語彙はキーパッド上の数字と、キーワード“呼”、“送信”、“ダイヤル”、“取消し”、“クリア”、“付加”、“消去”、“経歴”、“プログラム”、“イエス”、“ノー”と、予め限定された数の共通して呼ばれる共働者、友人または家族のメンバの名称を含んでいる。トレーニングが一度完了すると、ユーザはトレーニングされたキーワードを発話することにより、認識フェーズで呼を開始できる。例えば名称“John”がトレーニングされた名称のうちの1つであるならば、ユーザはフレーズ“Call John ”と言うことによりジョンへの呼を開始する。VRシステムは単語“Call”と“John”を認識し、ジョンの電話番号のようなユーザが予め入力した番号をダイヤルする。
【0006】
【発明が解決しようとする課題】
スピーチエネーブル製品は、ユーザインターフェースとアプリケーション論理装置の完全性をテストするために製品発達サイクル中および製品有効フェーズ中に何百人ものユーザによって何度もテストされなければならない。このような規模の統計的に意味のある反復可能なテストは、これを請け負う製造業者にとって非常に高価なものである。このために、多くのVR製品は、実験室で行われるテストに限られたものとなり、市場において、すなわち消費者により多数のテストを実施される。製造業者は完全にテストされたVR製品を消費者に提供することが望ましい。したがって、スピーチエネーブル製品およびスピーチエネーブルサービスをテストし、改善する廉価で反復可能な非侵入的テストパラダイムが必要とされている。
【0007】
【課題を解決するための手段】
本発明は、スピーチエネーブル製品およびスピーチエネーブルサービスをテストし、改善する廉価で反復可能な非侵入的テストパラダイムに関する。それによると、本発明の1つの特徴において、音声認識装置をテストおよび訓練するための装置は、プロセッサと、プロセッサに結合され、複数の音声発声を記憶する記憶媒体と、音声認識装置の状態を決定し、その状態にしたがって応答を与えるプロセッサにより実行可能なソフトウェアモジュールとを備えている。
【0008】
本発明の別の特徴において、音声認識装置をテストおよび訓練する方法は、複数の音声発声を記憶し、音声認識装置の状態を決定し、その状態にしたがって音声認識装置に応答を与えるステップを含んでいる。
【0009】
本発明のさらに別の特徴において、音声認識装置をテストおよび訓練する装置は、複数の音声発声を記憶する手段と、音声認識装置状態を決定する手段と、その状態にしたがって音声認識装置に応答を与える手段とを備えている。
【0010】
【発明の実施の形態】
図1で示されているように、通常の音声認識システム10は、アナログデジタル変換器(A/D)12と、音響プロセッサ14と、VRテンプレートデータベース16と、パターン比較論理装置18と、決定論理装置20を含んでいる。VRシステム10は例えば無線電話あるいはハンドフリー自動車キットに設けられてもよい。
【0011】
VRシステム10がスピーチ認識フェーズにあるとき、人(図示せず)は単語またはフレーズを発話し、スピーチ信号を発生する。スピーチ信号は通常のトランスデューサ(図示せず)により電気スピーチ信号s(t)に変換される。スピーチ信号s(t)はA/D12へ与えられ、これは例えばパルス符号変調(PCM)のような既知のサンプリング方法にしたがって、スピーチ信号s(t)をデジタル化されたスピーチサンプルs(n)へ変換する。
【0012】
スピーチサンプルs(n)はパラメータ決定のために音響プロセッサ14へ与えられる。音響プロセッサ14は入力スピーチ信号s(t)特性をモデル化する1組のパラメータを生成する。パラメータは、前述の米国特許第5,414,796 号明細書に記載されているように、例えばスピーチコーダの符号化を含んだ任意の複数の既知のスピーチパラメータ決定技術にしたがって高速度フーリエ変換(FFT)ベースのケプストラム係数を使用して決定されてもよい。音響プロセッサ14はデジタル信号プロセッサ(DSP)として構成されてもよい。DSPはスピーチコーダを含んでもよい。代わりに、音響プロセッサ14はスピーチコーダとして構成されてもよい。
【0013】
パラメータ決定もVRシステム10のトレーニング中に実行され、ここでVRシステム10の全ての語彙単語の1組のテンプレートは永久的に記憶するためVRテンプレートデータベース16へ伝送される。VRテンプレートデータベース16は例えばフラッシュメモリ等の任意の通常の非揮発性記憶媒体の形態として有効に構成される。これによって、VRシステム10へのパワーがオフに切換えられたとき、テンプレートがVRテンプレートデータベース16に保持されることが可能である。
【0014】
1組のパラメータはパターン比較論理装置18へ与えられる。パターン比較論理装置18は発話のスタートおよびエンドポイントを有効に検出し、(例えば時間導関数、2次時間導関数等の)ダイナミックな音響特性を計算し、関連するフレームを選択することにより音響特性を圧縮し、静的およびダイナミック特性を量子化する。エンドポイント検出、ダイナミック音響特性の微分、パターン圧縮、パターン量子化の種々の既知の方法は、例えば文献(Lawrence Rabiner & Biing-Hwang Juang、Fundamentals of Speech Recognition(1993年))に記載されている。パターン比較論理装置18は1組のパラメータをVRテンプレートデータベース16に記憶されている全てのテンプレートと比較する。パラメータのセットとVRテンプレートデータベース16に記憶されている全てのテンプレートとの比較結果または離たりは決定論理装置20に与えられる。決定論理装置20はVRテンプレートデータベース16から、パラメータセットに最も近く一致するテンプレートを選択する。その代りとして、決定論理装置20は通常の“Nベスト”選択アルゴリズムを使用してもよく、これは予め定められた一致しきい値内のN個の最も近い一致を選択する。その後、意図した選択について人に質問する。決定論理装置20の出力は発話された語彙の単語についての決定である。
【0015】
パターン比較論理装置18と決定論理装置20はマイクロプロセッサとして有効に構成されることが有効である。VRシステム10は例えば特定用途向け集積回路(ASIC)であってもよい。VRシステム10の認識の正確性はVRシステム10が語彙中の発話した単語またはフレーズをいかに正確に認識するかの尺度である。例えば95%の認識の正確性はVRシステム10が語彙中の単語を100回中95回正確に認識することを示している。
【0016】
1実施形態によると、図2に示されているように、VR製品用のテストシステム100 は、プロセッサ102 、ソフトウェアモジュール104 および記憶媒体106 を含んでいる。プロセッサ102 はマイクロプロセッサであると有効であるが、任意の通常の形態のプロセッサ、制御装置、または状態マシンであってよい。プロセッサ102 はソフトウェアモジュール104 に結合され、このソフトウェアモジュール104 は、ソフトウェア命令を保持したRAMメモリとして構成されるとよい。RAMメモリ104 は装置に含まれたRAMであってよく、あるいはプロセッサ102 およびRAMメモリ104 がASIC中に設けられることもできる。別の実施形態では、ファームウェア命令がソフトウェアモジュール104 の代わりに使用される。記憶媒体106 はプロセッサ102 に結合され、プロセッサ102 によってアクセス可能なディスクメモリとして構成されるとよい。別の実施形態において、記憶媒体106 は任意の形態の通常の不揮発性メモリとして構成されることができる。プロセッサは、入出力接続により、テストされるべきVR装置(示されていない)と通信することを可能にされている。入出力接続には、テストシステム100 をVR装置と電気的に結合するケーブルを備えていることが好ましい。ケーブルに加えて、入出力接続は、デジタル・アナログ変換器(D/A)(示されていない)およびラウドスピーカ(やはり示されていない)を含み、テストシステム100 がVR装置と可聴音で通信することができる。
【0017】
テストシステム100 は、VR装置を使用して何百人もの話者をシミュレートし、それによって反復可能で非侵入的な端末相互を通したテストをVR装置に対して実施する。記憶媒体106 は1組の発話のデジタルサンプルを含み、各発話は多数の異なった話者によって繰り返されたものである。1実施形態において、150の単語が各話者によって話され、600人の話者が録音されて、90,000のデジタルサンプルが生成されて記憶媒体106 に記憶される。ソフトウェアモジュール104 中に保持されたソフトウェア命令は、VR装置の状態(入力接続で受取られる)を予想し、出力接続を介して適切な応答を与えるためにプロセッサ102 によって実行される。ソフトウェア命令は、スクリプト言語で書込まれると都合がよい。出力接続からのケーブルは、VR装置の通常の直列ポートまたは診断モニタポートにより、および、またはVR装置のPCMポートによりVR装置とインターフェースしてもよい。VR装置が無線電話装置である1実施形態では、電話装置のキーパッドのボタンを押すことをエミュレートし、電話装置のLCDディスプレイ上に表示される文字を検索するようにVR装置に命令するために直列ポートが使用されている。VR装置がハンドフリーのカーキット(および関連した電話器)である別の実施形態では、スピーチをカーキットに入力し、音声プロンプトおよび音声応答をカーキットから受信するためにカーキットPCMポートが使用される。別の実施形態において、D/Aおよびラウドスピーカにより、スピーチが聞こえるようにVR装置に与えられてもよい。したがって、VR装置は、テストシステム100 を人間のユーザであると認識し、実時間で結果を生成する。さらに、ソフトウェアモジュール104 は、VR装置の認識の正確度を監視し、認識の正確度をユーザに報告するための命令を含んでいる。
【0018】
1実施形態において、VR装置のユーザインターフェースの完全性は、図3のフローチャートに示されている方法のステップにしたがってテストされてもよい。当業者は、テストシステム(示されていない)により行われる図3に示されているアルゴリズムのステップが、想定されている特定のVRユーザインターフェースに対して調整されていることを認識するであろう。別の異なったVRユーザインターフェースは異なったアルゴリズムステップを生成することができる。図3の実施形態によると、VR装置が人間のユーザであると認識するテストシステムによって音声入力がVR装置(示されていない)中に保存される。
【0019】
ステップ200 において、プロンプト“音声タグを付加したか?”がVR装置のLCDスクリーン上に生成される。VR装置においてよく認められるこの特徴は、ユーザが前に入力した電話番号に音声タグを付加し、それによってユーザがその番号に対応した名前を言うことにより、ダイヤリングを開始することを可能する。テストシステムは、このテストシステムをVR装置の診断または直列ポートに電気的に結合しているケーブルを介してこのプロンプトを受取って、音声タグを付加するための“OK”または別の音声タグを付加する“次へ”のいずれかを選択する。
【0020】
ステップ202 において、コマンド“電話器を耳にあて、命令にしたがいなさい”がVR装置のLCDスクリーン上に現れ、テストシステムによって受信される。ステップ204 では、テストシステムは2秒間待機し、人間のユーザの応答時間をシミュレートする。ステップ206 では、コマンド“お名前を言って下さい”がVR装置のLCDスクリーン上に現れ、テストシステムにより受信される。ステップ208 では、VR装置は単語“お名前をどうぞ”を可聴的に発生し、その後に発信音が続く。
【0021】
ステップ210 では、テストシステムは記憶された名前のデータベースから取出された名前を可聴的に発声し、VR装置は発声を“捕捉”する。VR装置は発声を捕捉できず、即ちエラー状態が生じる可能性がある。エラー状態は、例えば名前が話される前に2秒を超える時間が経過し、継続期間が280m秒よりも少ないような話された名前が非常に短い場合、あるいは継続期間が2秒を超えるような話された名前が非常に長い場合を含んでいる。VR装置が発話を捕捉できないならば、VR装置はステップ208 の行為を反復する。予め定められた失敗数Nが連続して生じたならば、VR装置は停止し、ステップ206 へ戻る。
【0022】
VR装置がステップ210 で与えられた発声を捕捉したならば、VR装置はステップ212 で、捕捉された発声を可聴的に発生する。ステップ214 で、VRコマンド“もう一度どうぞ”がVR装置のLCDスクリーン上に現れ、テストシステムにより受信される。ステップ216 で、VR装置は単語“もう一度”を可聴的に発生し、その後に発信音が続く。
【0023】
ステップ216 で、テストシステムは可聴的に名前を反復する。VR装置が発声を捕捉できず、即ちエラー状態が生じたならば、VR装置はステップ216 の行為を反復する。予め定められた失敗数Nが連続して生じたならば、VR装置は停止し、ステップ206 へ戻る。
【0024】
VR装置がステップ218 で与えられた発声を捕捉したならば、テストシステムはステップ210 および218 で捕捉された2つの発声を比較しまたは“整合”させる。2つの応答が整合しないならば、第2の応答は拒否され、VR装置はステップ216 の行為を反復する。2つの発声の整合のため予め定められた数Mの失敗が生じたならば、VR装置は停止しステップ206 へ戻る。テストシステムはユーザにVR装置の正確な尺度を与えるために失敗数を記録する。
【0025】
適切な整合が生じたならば、VR装置はステップ222 で、第2の捕捉された発声を可聴的に反復する。ステップ224 で、単語“音声タグ保存成功”がVR装置のLCDスクリーン上に現れ、テストシステムによりケーブルを介して受信される。ステップ226 で、VR装置のLCDスクリーンは、数が特定のメモリ位置に記憶されたことを示している。ステップ228 では、VR装置のLCDスクリーンは使用されるメモリ位置数と、有効なメモリ位置数を示す。VR装置はその後、VRモードを出る。
【0026】
1実施形態では、VR装置のユーザインターフェースの完全性は図4のフローチャートで説明されている方法ステップにしたがってテストできる。当業者はテストシステム(図示せず)により実行される図4で示されているアルゴリズムステップが想定される特別なVRユーザインターフェースに対して調整されることを認識するであろう。他の異なるVRユーザインターフェースは異なるアルゴリズムステップを生成することができる。図4の実施形態にしたがって、音声エントリはVR装置には人間のユーザのように見えるテストシステムによりVR装置(図示せず)でダイヤルされる。
【0027】
ステップ300 では、テストシステムはVR装置の診断または直列ポートへ電気的に結合されているケーブルによりコマンドを送信する。このコマンドは人間のユーザがVR装置上の送信ボタンを押すことをシミュレートする。ステップ302 では、VR装置は2つの可聴発信音を連続的に発信する。ステップ304 では、単語“スタートVRについて”および“送信=再ダイヤル”がVR装置のLCDスクリーン上に現れ、ケーブルを介してテストシステムによって受信される。テストシステムはケーブルを介して呼を再ダイヤルするための“再ダイヤル”またはVRモードを入力するための“VR”を選択する選択肢を有する。送信キーはVRモードを開始することに使用され、VRモードはユーザが送信を押した後2秒間アクションを行わない場合に生じる。しかしながら、ユーザは最初に押してから2秒以内に再度送信ボタンを押すことにより先に呼を行った番号を再ダイヤルする選択肢を有する。VR装置は、VRモードが開始されることができることを示しているが、ユーザが送信ボタンを再度押したならば代わりに再ダイヤルすることができることを示している。ステップ306 では、テストシステムは2秒間待機し、人間のユーザの応答時間をシミュレートする。
【0028】
ステップ308 では、テストシステムはケーブルを介して“VR”を選択し、VR装置はVRモードを入力する。コマンド“音声タグを言って下さい”はVR装置のLCDスクリーン上で発生され、ケーブルを介してテストシステムにより受信される。ステップ310 では、VR装置は単語“お名前をどうぞ”を可聴的に発生し、その後に発信音が続く。
【0029】
ステップ312 では、テストシステムは記憶された名前のデータベースから取出された名前を可聴的に発声し、VR装置は発声を“捕捉”する。VR装置は発声を捕捉できず、即ちエラー状態が生じることがある。エラー状態は、例えば名前が言われる前に2秒を超える時間が経過し、継続期間が280m秒よりも少ない等の発話された名前が非常に短い場合、あるいは継続期間が2秒を超える等の発話された名前が非常に長い場合を含んでいる。VR装置が発話を捕捉できないならば、VR装置はステップ310 の行為を反復する。予め定められた失敗数Nが連続して生じたならば、VR装置は停止し、ステップ308 へ戻る。
【0030】
ステップ314 では、VR装置は捕捉された発声をVR装置の語彙に記憶されている名前のリスト上の1つ1つの名前と比較しまたは“整合”する。
【0031】
整合が発見されないならば、VR装置はステップ310 の行為を反復する。整合を発見するため予め定められた数の失敗Mが生じたならば、VR装置は停止しステップ308 へ戻る。テストシステムはユーザにVR装置の正確な尺度を与えるために失敗数を記録する。
【0032】
ステップ314 で1度よりも多数の整合が発見されたならば、VR装置はステップ316 へ進み、技術で知られているように、整合を解くためにn ベストアルゴリズムを使用する。n ベストアルゴリズムにより、VR装置はテストシステムがVR装置の名前の語彙から選択された予め定められた数n間で選択することを可能にし、この数は便宜上2である。例えばVR装置はテストシステムが最良の整合に対応する音声を“話した”か否かを可聴的に尋ねる。VR装置はまたイエスまたはノーを選択する選択肢と共に、そのLCDスクリーン上に同一の質問を発生する。テストシステムはケーブルを介してこの情報を受信し、ケーブルを介してイエスまたはノーを選択する。テストシステムがノーを選択したならば、VR装置は質問を反復し、次に近い整合を参照する。プロセスは整合がテストシステムにより選択されるまで、または整合が選択されないで整合のリストが検索し尽くされるまで継続され、この点でVR装置は停止し、ステップ308 を反復する。
【0033】
ステップ314 またはステップ316 において整合が得られた後、VR装置はステップ318 へ進む。ステップ318 では、VR装置のLCDスクリーンは、VR装置が名前に関連する記憶された電話番号に呼を行っていることを示している。この指示はケーブルを介してテストシステムにより受信される。ステップ320 では、VR装置はそれが選択された名前を呼出していることを可聴的に示している。
【0034】
ステップ322 では、VR装置は典型的には沈黙状態であるテストシステムにより行われる発生を捕捉する。テストシステムはまたそれに結合されたラウドスピーカにより単語“イエス”を可聴的に発生する。あるいはテストシステムは単語“ノー”を発生する。VR装置が何も捕捉しなかったならば、呼が行われる(即ち無声が想定される)。VR装置がそのデータベースの語彙中に記憶されている単語“イエス”と適切に整合する発声を捕捉したならば、呼が行われる。一方、非常に長い発声または非常に短い発声が捕捉される場合のようなエラー状態が生じたならば、VR装置はテストシステムが呼を行うことを要求するか否かを質問する。VR装置が“イエス”以外の単語と適切に整合する発声を捕捉したならば、VR装置はテストシステムが呼を行うことを要求するか否かを質問する。テストシステムが肯定的に応答するならば、呼が行われる。テストシステムが否定的に応答するならば、VRシステムは停止し、ステップ308 へ戻る。テストシステムはケーブルを介して応答する。その代りに、または付加的に、テストシステムはラウドスピーカを介して可聴的に応答し、この場合、応答は前述の方法と類似の方法で捕捉され整合されなければならない。
【0035】
図3および4を参照して説明された実施形態では、コマンドはテストシステムをVR装置の診断または直列ポートへ電気的に結合されているケーブルによりテストシステムからVR装置へ送信される。このコマンドはテストシステムにより送信される。別の実施形態では、コンピュータモニタはVR装置のLCDスクリーン上に示される現在のディスプレイを含むVR装置のユーザインターフェースのグラフィカル描写を表示するためテストシステムへ結合されてもよい。シミュレートされたボタンがモニタスクリーン上に設けられ、そのスクリーン上でユーザはキー押しコマンドをVR装置へ送信するようにマウスクリックし、ユーザが物理的に同じボタンを押すことをシミュレートする。モニタを使用して、ユーザは実際にそれに接触せずにVR装置を制御できる。
【0036】
以上、スピーチエネーブル装置のユーザインターフェース完全性をテストする優秀で改良された方法および装置を説明した。当業者は例えば音声メモ特性等のVRユーザインターフェースの多数の他の特徴が前述のテストシステムでテストされることを理解する。当業者は、ここで説明した実施形態と関連して説明した種々の示された論理ブロックおよびアルゴリズムステップがデジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、ディスクリートなゲートまたはトランジスタ論理装置、レジスタおよびFIFO等のディスクリートなハードウェア部品、1組のファームウェア命令を実行するプロセッサ、または任意の通常のプログラム可能なソフトウェアモジュールおよび、プロセッサによって構成されあるいは実行されることができることを理解するであろう。プロセッサはマイクロプロセッサであると有効であるが、別の実施形態では、プロセッサは任意の通常のプロセッサ、制御装置、マイクロ制御装置または状態マシンであってもよい。ソフトウェアモジュールはRAMメモリ、フラッシュメモリ、レジスタまたは技術で知られている任意の他の形態の書込み可能な記憶媒体に設置される。当業者は前述の説明で参照したデータ、命令、コマンド、情報、信号、ビット、符号、チップが電圧、電流、電磁波、磁界または粒子、光フィールドまたは粒子、あるいは任意の組合せにより有効に表されることをさらに認識するであろう。
【0037】
本発明の好ましい実施形態を示し説明した。しかしながら多くの変形が本発明の技術的範囲を逸脱せずにここで説明した実施形態に対して行われてもよいことは当業者には明白であろう。それ故、本発明は特許請求の範囲を除いては限定されない。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1]プロセッサと、
プロセッサに結合され、複数の音声発声を記憶する記憶媒体と、
音声認識装置の状態を決定し、その状態にしたがって応答を与えるプロセッサにより実行可能なソフトウェアモジュールとを具備している音声認識装置をテストおよび訓練するための装置。
[2]ソフトウェアモジュールは状態にしたがって複数の音声発声の少なくとも1つをプロセッサによって生成することを可能にされている、[1]の装置。
[3]複数の音声発声は複数のデジタル化されたサンプルを含んでいる、[1]の装置。
[4]さらに、1以上のデジタル・アナログ変換器と1以上のラウドスピーカとを有している、[1]の装置。
[5]さらに、音声認識装置に装置を結合するケーブルを備えている、[1]の装置。
[6]音声認識装置は無線電話装置を含んでいる、[1]の装置。
[7]音声認識装置はカーキットに結合された無線電話装置を含んでいる、[1]の装置。
[8]複数の音声発声は多数のグループの音声発声を含み、音声発声の各グループは異なった人により話されたものである、[1]の装置。
[9]複数の音声発声は多数のグループの音声発声を含み、音声発声の各グループは異なった背景雑音状態の下で記録されたものである、[1]の装置。
[10]ソフトウェアモジュールはさらに、音声認識装置の性能の監視をプロセッサにより実行可能にされている、[1]の装置。
[11]複数の音声発声を記憶し、
音声認識装置の状態を決定し、
その状態にしたがって音声認識装置に応答を与えるステップを含んでいる音声認識装置をテストおよび訓練する方法。
[12]前記音声認識装置に応答を与えるステップにおいて、音声認識装置により翻訳するために複数の記憶された音声発声の少なくとも1つを生成する、[11]の方法。
[13]前記記憶するステップにおいて、複数の音声発声をデジタル的にサンプリングし、デジタル化されたサンプルのデータベースを生成する、[11]の方法。
[14]前記音声認識装置に応答を与えるステップにおいて、記憶されたサンプルをアナログ信号に変換し、そのアナログ信号を少なくとも1つのラウドスピーカに導く、[11]の方法。
[15]前記音声認識装置に応答を与えるステップにおいて、記憶されたサンプルを音声認識装置に電気的に導く、[11]の方法。
[16]前記音声認識装置は、無線電話装置を含んでいる、[11]の方法。
[17]前記音声認識装置は、カーキットに結合された無線電話装置を含んでいる、[11]の方法。
[18]前記記憶するステップにおいて、多数のグループの音声発声を記憶し、音声発声の各グループは異なった人により話されるものである、[11]の方法。
[19]前記記憶するステップにおいて、多数のグループの音声発声を記憶し、音声発声の各グループは異なった背景雑音状態の下で記録される、[11]の方法。
[20]さらに、音声認識装置の性能を監視するステップを含んでいる、[11]の方法。
[21]複数の音声発声を記憶する手段と、
音声認識装置状態を決定する手段と、
その状態にしたがって音声認識装置に応答を与える手段とを備えている音声認識装置をテストおよび訓練する装置。
[22]前記音声認識装置に応答を与える手段は、音声認識装置による翻訳のために複数の記憶された音声発声の少なくとも1つを生成する手段を含んでいる、[21]の装置。
[23]前記記憶する手段は、複数の音声発声をデジタル的にサンプリングする手段と、デジタル化されたサンプルのデータベースを生成する手段とを含んでいる、[21]の装置。
[24]前記音声認識装置に応答を与える手段は、記憶されたサンプルをアナログ信号に変換する手段と、そのアナログ信号を少なくとも1つのラウドスピーカに導く手段とを含んでいる、[21]の装置。
[25]前記音声認識装置に応答を与える手段は、記憶されたサンプルを音声認識装置に電気的に導く手段を含んでいる、[21]の装置。
[26]音声認識装置は無線電話装置を含んでいる、[21]の装置。
[27]音声認識装置はカーキットに結合された無線電話装置を含んでいる、[21]の装置。
[28]前記記憶する手段は、多数のグループの音声発声を記憶する手段を含み、音声発声の各グループは異なった人により話されたものである、[21]の装置。
[29]前記記憶する手段は、多数のグループの音声発声を記憶する手段を含み、音声発声の各グループは異なった背景雑音状態の下で記録されたものである、[21]の装置。
[30]さらに、音声認識装置の性能を監視する手段を具備している、[21]の装置。
【図面の簡単な説明】
【図1】 通常の音声認識システムのブロック図。
【図2】 図1のシステムのような音声認識装置用のテストシステムのブロック図。
【図3】 図2のテストシステムが音声認識システム中に音声入力を保存したときに音声認識システムによって行われる方法のステップを示すフローチャート。
【図4】 図2のテストシステムが音声認識システムに音声入力をダイヤルしたときに音声認識システムによって行われる方法のステップを示すフローチャート。

Claims (23)

  1. プロセッサと、
    プロセッサに結合され、複数の異なった話者によって繰り返された複数の音声発声を記憶する記憶媒体と、
    音声認識装置をテストするように構成されて、プロセッサにより実行可能なソフトウェアモジュールとを具備しており、
    前記音声認識装置のテストには、
    前記音声認識装置から第1の動作のためのプロンプトを受信し、
    記第1の動作のためのプロンプトに応答して、前記記憶媒体に記憶されている複数の音声発声から取り出された音声発声を発声し、それにより前記音声認識装置はその発声された音声発声を捕捉し、
    前記音声認識装置から第2の動作のためのプロンプトを受信し、
    前記第2の動作のためのプロンプトに応答して、前記音声発声を再度発声し、それにより前記音声認識装置はその発声された音声発声を捕捉し、
    前記捕捉された2つの音声発声を比較しまたは整合させ、
    前記捕捉された2つの音声発声が整合しない場合、ユーザに前記音声認識装置の正確な尺度を与えるために失敗数を記録し、
    前記捕捉された2つの音声発声が整合した場合、前記音声認識装置が2回目に捕捉された前記音声発声を発声して、その音声発声に関連する情報に音声タグを付加することを可能にする、ことが含まれている、音声認識装置をテストおよび訓練するための装置。
  2. 複数の音声発声は複数のデジタル化されたサンプルを含んでいる請求項1記載の装置。
  3. さらに、1以上のデジタル・アナログ変換器と1以上のラウドスピーカとを有している請求項1記載の装置。
  4. さらに、音声認識装置に装置を結合するケーブルを備えている請求項1記載の装置。
  5. 音声認識装置は無線電話装置を含んでいる請求項1記載の装置。
  6. 音声認識装置はカーキットに結合された無線電話装置を含んでいる請求項1記載の装置。
  7. 複数の音声発声は多数のグループの音声発声を含み、音声発声の各グループは異なった人により話されたものである請求項1記載の装置。
  8. 複数の音声発声は多数のグループの音声発声を含み、音声発声の各グループは異なった背景雑音状態の下で記録されたものである請求項1記載の装置。
  9. ソフトウェアモジュールはさらに、音声認識装置の性能の監視をプロセッサにより実行可能にされている請求項1記載の装置。
  10. 複数の異なった話者によって繰り返された複数の音声発声を記憶し、
    音声認識装置をテストするステップを含んでおり、
    前記音声認識装置をテストするステップは、
    前記音声認識装置から第1の動作のためのプロンプトを受信し、
    記第1の動作のためのプロンプトに応答して、前記記憶されている複数の音声発声から取り出された音声発声を発声し、それにより前記音声認識装置はその発声された音声発声を捕捉し、
    前記音声認識装置から第2の動作のためのプロンプトを受信し、
    前記第2の動作のためのプロンプトに応答して、前記音声発声を再度発声し、それにより前記音声認識装置はその発声された音声発声を捕捉し、
    前記捕捉された2つの音声発声を比較しまたは整合させ、
    前記捕捉された2つの音声発声が整合しない場合、ユーザに前記音声認識装置の正確な尺度を与えるために失敗数を記録し、
    前記捕捉された2つの音声発声が整合した場合、前記音声認識装置が2回目に捕捉された前記音声発声を発声して、その音声発声に関連する情報に音声タグを付加することを可能にする、ステップを含んでいる、音声認識装置をテストおよび訓練する方法。
  11. 前記記憶するステップにおいて、複数の音声発声をデジタル的にサンプリングし、デジタル化されたサンプルのデータベースを生成する請求項10記載の方法。
  12. 前記音声認識装置は、無線電話装置を含んでいる請求項10記載の方法。
  13. 前記音声認識装置は、カーキットに結合された無線電話装置を含んでいる請求項10記載の方法。
  14. 前記記憶するステップにおいて、多数のグループの音声発声を記憶し、音声発声の各グループは異なった人により話されるものである請求項10記載の方法。
  15. 前記記憶するステップにおいて、多数のグループの音声発声を記憶し、音声発声の各グループは異なった背景雑音状態の下で記録される請求項10記載の方法。
  16. さらに、音声認識装置の性能を監視するステップを含んでいる請求項10記載の方法。
  17. 複数の異なった話者によって繰り返された複数の音声発声を記憶する手段と、
    音声認識装置をテストする手段とを備えており、
    前記音声認識装置をテストする手段は、
    前記音声認識装置から第1の動作のためのプロンプトを受信する手段と、
    記第1の動作のためのプロンプトに応答して、前記記憶されている複数の音声発声から取り出された音声発声を発声し、それにより前記音声認識装置はその発声された音声発声を捕捉する、手段と、
    前記音声認識装置から第2の動作のためのプロンプトを受信する手段と、
    前記第2の動作のためのプロンプトに応答して、前記音声発声を再度発声し、それにより前記音声認識装置はその発声された音声発声を捕捉する、手段と、
    前記捕捉された2つの音声発声を比較しまたは整合させる手段と、
    前記捕捉された2つの音声発声が整合しない場合、ユーザに前記音声認識装置の正確な尺度を与えるために失敗数を記録する手段と、
    前記捕捉された2つの音声発声が整合した場合、前記音声認識装置が2回目に捕捉された前記音声発声を発声して、その音声発声に関連する情報に音声タグを付加することを可能にする、手段とを含んでいる、音声認識装置をテストおよび訓練する装置。
  18. 前記記憶する手段は、複数の音声発声をデジタル的にサンプリングする手段と、デジタル化されたサンプルのデータベースを生成する手段とを含んでいる請求項17記載の装置。
  19. 音声認識装置は無線電話装置を含んでいる請求項17記載の装置。
  20. 音声認識装置はカーキットに結合された無線電話装置を含んでいる請求項17記載の装置。
  21. 前記記憶する手段は、多数のグループの音声発声を記憶する手段を含み、音声発声の各グループは異なった人により話されたものである請求項17記載の装置。
  22. 前記記憶する手段は、多数のグループの音声発声を記憶する手段を含み、音声発声の各グループは異なった背景雑音状態の下で記録されたものである請求項17記載の装置。
  23. さらに、音声認識装置の性能を監視する手段を具備している請求項17記載の装置。
JP2000597794A 1999-02-08 2000-02-04 スピーチエネーブル装置のユーザインターフェースの完全性をテストする方法および装置 Expired - Lifetime JP5039879B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/246,412 1999-02-08
US09/246,412 US20020069064A1 (en) 1999-02-08 1999-02-08 Method and apparatus for testing user interface integrity of speech-enabled devices
PCT/US2000/002905 WO2000046793A1 (en) 1999-02-08 2000-02-04 Method and apparatus for testing user interface integrity of speech-enabled devices

Publications (2)

Publication Number Publication Date
JP2003524795A JP2003524795A (ja) 2003-08-19
JP5039879B2 true JP5039879B2 (ja) 2012-10-03

Family

ID=22930568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000597794A Expired - Lifetime JP5039879B2 (ja) 1999-02-08 2000-02-04 スピーチエネーブル装置のユーザインターフェースの完全性をテストする方法および装置

Country Status (10)

Country Link
US (1) US20020069064A1 (ja)
EP (1) EP1151431B1 (ja)
JP (1) JP5039879B2 (ja)
KR (1) KR20010093325A (ja)
AT (1) ATE279003T1 (ja)
AU (1) AU3589500A (ja)
DE (1) DE60014583T2 (ja)
ES (1) ES2233350T3 (ja)
HK (1) HK1043233B (ja)
WO (1) WO2000046793A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108965958A (zh) * 2018-07-20 2018-12-07 深圳创维-Rgb电子有限公司 一种蓝牙语音遥控器的语音识别率测试方法及系统

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6519479B1 (en) * 1999-03-31 2003-02-11 Qualcomm Inc. Spoken user interface for speech-enabled devices
JP2004521392A (ja) * 2001-06-22 2004-07-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 発話制御手段と、発話制御手段の機能をテストするためのテスト手段とを有する装置
US6810111B1 (en) 2001-06-25 2004-10-26 Intervoice Limited Partnership System and method for measuring interactive voice response application efficiency
US7487084B2 (en) * 2001-10-30 2009-02-03 International Business Machines Corporation Apparatus, program storage device and method for testing speech recognition in the mobile environment of a vehicle
EP1751741A4 (en) * 2004-01-08 2008-08-13 Voice Signal Technologies Inc AUTOMATED TEST OF VOICE RECOGNITION SOFTWARE
KR100827074B1 (ko) * 2004-04-06 2008-05-02 삼성전자주식회사 이동 통신 단말기의 자동 다이얼링 장치 및 방법
US7747442B2 (en) * 2006-11-21 2010-06-29 Sap Ag Speech recognition application grammar modeling
US20080154590A1 (en) * 2006-12-22 2008-06-26 Sap Ag Automated speech recognition application testing
CN109003602B (zh) * 2018-09-10 2020-03-24 百度在线网络技术(北京)有限公司 语音产品的测试方法、装置、设备及计算机可读介质
US11769484B2 (en) * 2020-09-11 2023-09-26 International Business Machines Corporation Chaos testing for voice enabled devices

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4489435A (en) * 1981-10-05 1984-12-18 Exxon Corporation Method and apparatus for continuous word string recognition
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
JPS62102291A (ja) * 1985-10-30 1987-05-12 株式会社日立製作所 音声入出力装置の自動診断装置
JPH02157669A (ja) * 1988-12-09 1990-06-18 Nec Corp 回線試験器
JP2757576B2 (ja) * 1991-03-07 1998-05-25 日本電気株式会社 音声応答装置の負荷試験用擬似呼装置
US5572570A (en) * 1994-10-11 1996-11-05 Teradyne, Inc. Telecommunication system tester with voice recognition capability
JPH08331228A (ja) * 1995-05-31 1996-12-13 Nec Corp 音声認識装置試験用電話機
US5715369A (en) * 1995-11-27 1998-02-03 Microsoft Corporation Single processor programmable speech recognition test system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108965958A (zh) * 2018-07-20 2018-12-07 深圳创维-Rgb电子有限公司 一种蓝牙语音遥控器的语音识别率测试方法及系统

Also Published As

Publication number Publication date
JP2003524795A (ja) 2003-08-19
HK1043233B (zh) 2005-05-27
WO2000046793A1 (en) 2000-08-10
KR20010093325A (ko) 2001-10-27
AU3589500A (en) 2000-08-25
EP1151431B1 (en) 2004-10-06
DE60014583T2 (de) 2006-03-09
US20020069064A1 (en) 2002-06-06
HK1043233A1 (en) 2002-09-06
ES2233350T3 (es) 2005-06-16
ATE279003T1 (de) 2004-10-15
EP1151431A1 (en) 2001-11-07
DE60014583D1 (de) 2004-11-11

Similar Documents

Publication Publication Date Title
EP1301922B1 (en) System and method for voice recognition with a plurality of voice recognition engines
JP4202124B2 (ja) 話者独立音声認識システムのための音声テンプレートを構成するための方法及び装置
US6411926B1 (en) Distributed voice recognition system
EP0789901B1 (en) Speech recognition
US6836758B2 (en) System and method for hybrid voice recognition
US7181392B2 (en) Determining speech recognition accuracy
US20020178004A1 (en) Method and apparatus for voice recognition
JP2004518155A (ja) マッピングを用いた自動音声認識のためのシステムおよび方法
US9245526B2 (en) Dynamic clustering of nametags in an automated speech recognition system
US6681207B2 (en) System and method for lossy compression of voice recognition models
JP5039879B2 (ja) スピーチエネーブル装置のユーザインターフェースの完全性をテストする方法および装置
JPH0876785A (ja) 音声認識装置
JP4643011B2 (ja) 音声認識除去方式
Dumitru et al. A comparative study of feature extraction methods applied to continuous speech recognition in romanian language
WO2002069324A1 (en) Detection of inconsistent training data in a voice recognition system
Kahn et al. Experiments in speech recognition over the telephone network
Matassoni et al. Some results on the development of a hands-free speech recognizer for carenvironment
KR100647291B1 (ko) 음성의 특징을 이용한 음성 다이얼링 장치 및 방법
Atal Speech technology in 2001: New research directions
KR100278640B1 (ko) 이동 전화기를 위한 음성 다이얼링 장치 및방법
Canavesio et al. HMM modeling in the public telephone network environment: experiments and results
JPH09311693A (ja) 音声認識装置
JP2000187498A (ja) 音声認識装置及び方法
JPH0477795A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100309

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100609

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111102

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120321

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120417

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120420

R150 Certificate of patent or registration of utility model

Ref document number: 5039879

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150720

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term