JP2001005485A - 音声制御デバイスの活動化を向上させる方法および装置 - Google Patents

音声制御デバイスの活動化を向上させる方法および装置

Info

Publication number
JP2001005485A
JP2001005485A JP2000149693A JP2000149693A JP2001005485A JP 2001005485 A JP2001005485 A JP 2001005485A JP 2000149693 A JP2000149693 A JP 2000149693A JP 2000149693 A JP2000149693 A JP 2000149693A JP 2001005485 A JP2001005485 A JP 2001005485A
Authority
JP
Japan
Prior art keywords
voice
command
user
name
controlled device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000149693A
Other languages
English (en)
Inventor
Michael Geilhufe
マイケル・ゲイルフーフ
David Macmillan
デイビッド・マックミラン
Avraham Barel
エイブラハム・バーレル
Amos Brown
エイモス・ブラウン
Karin Lissette Bootsma
カリン・リセット・ブーツマ
Lawrence Kent Gaddy
ローレンス・ケント・ガディ
Phillip Paul Pyo
フィリップ・ポール・プヨ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INF STORAGE DEVICES Inc
Original Assignee
INF STORAGE DEVICES Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INF STORAGE DEVICES Inc filed Critical INF STORAGE DEVICES Inc
Publication of JP2001005485A publication Critical patent/JP2001005485A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Selective Calling Equipment (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

(57)【要約】 【課題】 認識精度を向上させるために音声制御電子デ
バイスを活動化させる方法を提供する。 【解決手段】 この方法は、通信環境における相対的無
音の期間を設けること、その音声制御デバイスに関連付
けられた名前およびコマンドを伝達することを含む。音
声認識エンジンによっていずれも認識されない場合、音
声制御デバイスは活動化されない。音声制御デバイス
は、通信環境における相対的無音の期間を認識すること
に従って活動化させるソフトウェア、前記音声制御デバ
イスに関連付けられた名前およびコマンドを通知するこ
とを含む。

Description

【発明の詳細な説明】
【0001】マイクロフィッシュの付録 本出願は、ここには印刷されていないが参照により本明
細書に組み込まれ、ここに完全に記述されているかのよ
うに逐語的であり同じ効力を有する、Informat
ion Storage Devices Inc.に
よる「ISD−SR 300,Embedded Sp
eech Recognition Processo
r」という名称のマイクロフィッシュの付録を含む。
【0002】
【発明の属する技術分野】本発明は一般にマシン・イン
タフェースに関する。特に、本発明はデバイス用の音声
ユーザ・インタフェースに関する。
【0003】
【従来の技術】コンピュータ用のグラフィカル・ユーザ
・インタフェース(GUI)はよく知られている。GU
Iは人間とコンピュータの対話のために、直感的で一貫
した方法を提供する。一般に、一度特定のGUIの使用
方法を学ぶと、学んだ人は同じまたは同様のGUIを使
用して動作する任意のコンピュータまたは装置を動作で
きるようになる。普及しているGUIの例は、Appl
eによるMAC OS、MicrosoftによるMS
Windows(登録商標)である。GUIは現在他
の装置にも移植されている。たとえば、MS Wind
ows GUIは、いくつかの異なる装置の間に共通の
GUIを与えるために、コンピュータからパーム・トッ
プ、パーソナル・オーガナイザ、および他の装置へ移植
されている。しかし、名前が示すようにGUIは少なく
とも何らかの種類のビジュアルまたはグラフィカル・デ
ィスプレイと、キーボード、マウス、タッチ・パッド、
またはタッチ・スクリーンなどの入力デバイスを要求す
る。ディスプレイと入力デバイスは装置内のスペースを
使用し、追加の構成要素を要求し、装置のコストを増大
する傾向がある。したがって、装置からディスプレイと
入力デバイスを除去し、コストを節約することが望まし
い。
【0004】最近、装置を制御するために発話認識方法
を使用する音声ユーザ・インタフェース(VUI)が導
入された。しかし、これらの従来技術のVUIはいくつ
かの欠点を有し、これらがすべての装置で普遍的に使用
できなくなっている。従来技術のVUIは通常使用が難
しい。従来技術のVUIは通常、LCDなどの何らかの
ディスプレイを要求するか、キーパッドまたはボタンな
どの手動の入力デバイスを要求するか、またはディスプ
レイと手動の入力デバイスの両方を要求する。さらに、
従来技術のVUIは通常、専用であり、ハードウェア装
置の単一の製作またはモデル、または単一のタイプのソ
フトウェア・アプリケーションへの使用に制限される。
これらは通常、コンピュータのオペレーティング・シス
テムとは異なって幅広く使用可能なわけではなく、した
がって、ソフトウェアのプログラマは種々の装置内でV
UIで動作するアプリケーションを書くことができな
い。従来技術のVUIに関連するコマンドは、通常は単
一のタイプの装置またはソフトウェア・アプリケーショ
ンのためにカスタマイズされている。従来技術のVUI
は通常、個別化とセキュリティを扱う方法など、多数の
ユーザをサポートすることにおいて追加の制限を有す
る。さらに従来技術のVUIは、前もってユーザがVU
I用の装置の存在を知っていることを要求する。従来技
術のVUIはその装置の存在を決定する方法を提供して
いない。さらに、従来技術のVUIは通常、インストラ
クション・マニュアルまたは画面に表示されたコマンド
を読んでその使用に習熟することをユーザに要求する。
従来技術のVUIは通常、ユーザがコマンドを学ぶため
の可聴方法を含まない。さらに、標準化が欠如している
ため、多数の音声制御式デバイスを使用する時に多数の
従来技術のVUIの使用方法を学ぶことを要求されるこ
とがある。
【0005】一般に、VUIによって制御された装置
は、何らかの種類の手動制御を依然として要求する。何
らかの手動制御が要求されているため、ボタン、キーパ
ッド、または1組のボタンまたはキーパッドなどの手動
入力デバイスが用意されている。正しく手動入力するた
めに、LCD、LEDまたは他のグラフィックスディス
プレイなどのディスプレイが提供されることがある。た
とえば、多くの音声起動電話は、電話番号が手動で格納
されていることを要求する。この場合は通常、手動入力
のために数字のキーパッドが用意されている。通常、正
しく手動入力し、装置の状態を表示するためにLCDが
含まれている。発話合成システムまたは音声フィードバ
ック・システムは、これらの装置には欠けていることが
ある。ボタンとディスプレイの追加は、装置の製造コス
トを増大する。コストを下げるために、装置からすべて
の手動入力と表示を除去できることが望ましい。さら
に、特定のボタンまたはディスプレイを必要とせずに、
遠隔から装置を制御できるとさらに好都合である。
【0006】従来は、VUI用の装置は少数の人によっ
て使用されていた。さらに、彼らは音声をローカルに聞
くために近距離音場マイクロフォンを使用していた。多
くの従来の装置は何らかの方法で固定されていたかまた
は、携帯可能になりにくかったか、サーバに基づいたシ
ステムであった。携帯装置のための音声制御機能を提供
することが望ましい。音声制御式デバイスに、近距離音
場マイクロフォン技術または遠距離音場マイクロフォン
技術のどちらかを提供することが望ましい。音声制御機
能がより多くの装置に含まれるように、低コストの音声
制御機能を提供することが望ましい。しかし、これらの
希望は多数の音声制御式デバイスおよび多数のユーザが
同じ地域にいた時に問題を起こす。たがいに可聴範囲内
に多数のユーザと多数の音声制御式デバイスがあると、
音声制御式デバイスがどのユーザからのコマンドを受け
取り、応答するのか見分けることが難しくなる。たとえ
ば、多数のユーザがいる環境内で1人のユーザが家に電
話をかけたい場合の、音声制御セル電話の場合を考えて
みる。ユーザは音声で起動された、家に電話をかけるコ
マンドを発行する。複数の音声制御セル電話が家に電話
をかけるコマンドを可聴に聞いた場合、多数の音声制御
セル電話が応答し、それぞれの家の電話番号のダイアル
を開始する。以前は、音声制御式デバイスがほとんどな
かったのでこれはそれほど大きな問題ではなかった。
【0007】
【発明が解決しようとする課題】いくつかの音声制御式
デバイスは発話者に依存する。発話者依存性とは、特定
のユーザが使用できるようになる前に、そのユーザによ
る訓練を要求する音声制御式デバイスを指す。発話者に
依存した音声制御式デバイスは、フレーズが話される方
法における音色の質を聞く。発話者に依存した音声制御
式デバイスは、多数のユーザまたは発話者が音声制御式
デバイスを使用するように要求されている用途には向い
ていない。これは、これらの装置は訓練を受けていない
ユーザからの発話を効率的に認識することができないた
めである。任意のユーザからの発話を認識するために、
わずかな訓練を要求するかまったく訓練を要求しないV
UIを備えた発話者から独立した音声制御式デバイスを
提供することが望ましい。
【0008】高い精度の発話認識を達成するために、音
声制御式デバイスはその装置に向けられていない発話へ
の応答を回避することが重要である。すなわち、音声制
御式デバイスは背景の会話、雑音、他の音声制御式デバ
イスへのコマンドに応答すべきではない。しかし、背景
の音を濾過して取り除くことが効果的すぎて、音声制御
式デバイスに向けられた発話の認識を妨げてはならな
い。背景の音の拒否と、音声制御式デバイスへ向けられ
た発話の認識の正しい混合比を見つけることは、発話者
から独立したシステムには特に難しい。発話者から独立
したシステムでは、音声制御式デバイスは幅広い声に応
答できなければならず、したがって、背景の音について
制限の厳しいフィルタを使用することはできない。対照
的に、発話者に依存したシステムは特定の人の声だけを
聞く必要があり、したがって背景の音に関してさらに厳
重なフィルタを使用することができる。発話者に依存し
たシステムにおけるこの利点にもかかわらず、背景の音
を濾過して取り除くことは依然として大きな課題であ
る。
【0009】いくつかの従来技術のシステムでは、発話
の認識を起動するためにユーザにボタンを物理的に押さ
せることによって背景の会話が濾過して取り除かれた。
この方法の欠点は、ユーザが音声または発話だけによっ
てではなく、音声制御式デバイスと物理的に対話するこ
とを要求することである。音声制御式デバイスの潜在的
な利点の1つは、音声制御式デバイスがまったくハンド
フリーの動作を約束することである。発話の認識を起動
するためにボタンを押す必要性を除去することは、この
ハンドフリーの目的を達成するために多いに役立つであ
ろう。
【0010】さらに、何人かの人が話している場所で
は、音声制御式デバイスは発話がその装置に向けられて
いない限り、すべての発話を無視すべきである。たとえ
ば、1人の人が別の人に「私はジョンに電話をする」と
言った場合、彼のポケットにあるセル電話は「ジョンに
電話をします」をコマンドとして翻訳すべきではない。
1つの場所に多数の音声制御式デバイスがある場合、ユ
ーザが制御したいのはどの音声制御式デバイスであるか
を一意的に識別する方法があるべきである。たとえば、
多数の音声制御電話、おそらく1組のデスクトップ電話
と、多数のセル電話がそれぞれ1人に1つずつある部屋
を考えてみる。だれかが「555−1212に電話をし
ます」と言ったとすると、各電話について所定のコマン
ドを無視するための手段がない限り、各電話は電話をか
けようと試みることがある。1つの音声制御式デバイス
が多数のユーザによって制御される場合、音声制御式デ
バイスがどのユーザがそれにコマンドを与えているのか
知ることが望ましい。たとえば、家の中の音声制御デス
クトップ電話は、夫、妻、子供によって使用されること
がある。各人は頻繁に電話する番号の独自の電話番号を
有することがある。音声制御式デバイスが「母に電話し
ます」と言われた時、装置が正しい人に電話できるよう
に、どのユーザがコマンドを発行しているのか知る必要
がある(つまり、電話は夫の母に電話すべきなのか、妻
の母に電話すべきなのか、または子供の母の仕事用の番
号に電話すべきなのか)。さらに、多数のユーザを有す
る音声制御式デバイスは、許可されない使用から守るた
めのセキュリティを実行したり、またはユーザの個別化
を他の人による故意でない対話または悪意のある対話
(盗み聞き、設定の変更、削除、追加を含む)から守る
ための方法を必要とすることがある。さらに、多数の音
声制御式デバイスがある場所では、音声制御式デバイス
の存在を識別する方法があるべきである。たとえば、新
しいホテルの部屋についた旅行者を考えてみる。ホテル
の部屋に入った時、旅行者はどんな音声制御式デバイス
が存在するのか、およびそれらをどのように制御するの
かを知りたいと思う。すべての音声制御式デバイスが同
じ方法で識別できるように、識別プロセスが標準化され
ていることが望ましい。
【0011】音声制御式デバイスでは音声制御のもとで
フレーズを格納することが望ましい。フレーズは単一の
言葉、または単位として扱われる1グループの言葉とし
て定義される。この格納は、選択肢を設定することまた
は個別化を作成することであることがある。たとえば音
声制御電話では、音声制御の元で人の名前および電話番
号を個別化された電話帳に格納することが望ましい。後
から、この電話帳を使用して人の名前を発話することに
よって彼らに電話することが可能である(たとえば、
「セル電話、ジョン・スミスに電話します」または「セ
ル電話、母に電話します」)。
【0012】フレーズ(「ジョン・スミス」)を格納す
るための従来技術の方法は、実際の音を保存しようとす
る圧縮された方法、圧縮されない方法、または変形され
た方法でフレーズを格納することによって動作した。次
いで、コマンド内におけるフレーズの検出は(つまり、
上の例ではジョンが電話されるべきであることを検出す
ること)、元の格納された発話音と、話されたコマンド
の間の、音に基づいた比較に依存する。時々、格納され
た波形は周波数ドメインに変形されるか、および/また
は、一致を促進するために時間調節されるが、どの場合
でも実行される基本的な動作は、実際の音を比較するこ
とである。格納された音の表現と検出のための比較は、
いくつかの欠点を被る。おそらく寒さ、ストレス、疲
れ、電話による騒音またはゆがんだ接続、または他の要
因によって発話者の声が変わると、典型的に比較は成功
せず、格納されたフレーズは認識されない。フレーズは
音の表現として格納されているので、テキストに基づい
たフレーズの表現を抽出する方法はない。さらに、音表
現を格納する結果、発話者に依存したシステムとなる。
別の人がコマンドで同じ音を使用して同じフレーズを話
し、フレーズを正しく認識させることが可能であるとは
考えられない。たとえば、秘書が電話帳のエントリを格
納し、マネジャがこれらのエントリを使用して電話をす
ることは信頼性がなくなる。発話者から独立した格納手
段を提供することが望ましい。さらに、フレーズが音表
現として格納されている場合、両方の音声制御式デバイ
スによって同じ波形処理アルゴリズムが使用されていな
い限り、格納されたフレーズは別の音声制御式デバイス
内で使用できない。フレーズは一度格納されたら、その
フレーズを使用して発話者から独立して認識でき、多数
の音声制御式デバイスによって使用できるような表現で
話されたフレーズを認識し格納することが望ましい。
【0013】現在、コンピュータと他の装置はモデム、
赤外線、または無線高周波伝送を使用して他のコンピュ
ータや装置にコマンドおよびデータを通信している。送
信されたコマンドおよび/またはデータは、通常はその
コンピュータまたは装置だけが理解できるディジタルな
形である。人間のユーザがコマンドまたはデータを理解
できるようにするためには、コマンドまたはデータはコ
ンピュータによって復号化され、次いでディスプレイ上
に数字またはASCIIテキストなどの何らかの種類の
フォーマットで表示されなければならない。コマンドお
よび/またはデータが送信される時、これらは通常はコ
ンピュータまたは装置または送信機器によって理解され
る何らかのディジタルなフォーマットにコード化され
る。音声制御式デバイスがより普及するにつれて、音声
制御式デバイス間の通信のための追加の回路を設けるの
を避けるために、音声制御式デバイスが人間のような発
話を使用して互いに通信できることが望ましい。さら
に、人間のユーザの介入がなくても、多数の音声制御式
デバイスがマシンからマシンへ情報を交換できることが
望ましい。
【0014】
【課題を解決するための手段】本発明は請求項に説明さ
れたような方法、装置、およびシステムを含む。簡単に
言うと、標準の音声ユーザ・インタフェースが提供さ
れ、標準の発話コマンドを使用することによって種々の
装置を制御する。標準のVUIはユーザと音声制御式デ
バイス間のインタフェースに関し、1組の標準のVUI
コマンドと構文を提供する。標準のVUIコマンドは、
音声制御式デバイスが1つの環境の中で使用可能かどう
かを決定するための識別フレーズを含む。他の標準VU
Iコマンドは、音声制御式デバイスの名前を決定し、こ
れらを変えるために設けられる。
【0015】音声制御式デバイスが開示される。音声制
御式デバイスは、ここでは可聴発話または非可聴発話の
どちらかによって制御される任意の装置として定義され
る。音声制御式デバイスはまた、ここでは器具、マシ
ン、音声制御器具、音声制御電子器具、名前起動電子器
具、発話制御装置、音声起動電子器具、音声起動器具、
音声制御電子装置、または自動識別音声制御電子装置と
も呼ばれることがある。
【0016】音声制御式デバイスの機能へアクセスする
ために、ユーザは一定期間の相対的な沈黙の後に、関連
する器具名のうち1つを音声制御式デバイスに通知す
る。器具名はデフォルトの名前の可能性もあり、ユーザ
が割当て可能な名前の場合もある。音声制御式デバイス
は、装置に関連した、ユーザが割当て可能な複数の名前
を有し、各ユーザに対して個別化された機能を提供する
可能性もある。
【0017】本発明の他の態様は、詳細な説明の中で説
明される。
【0018】
【発明の実施の形態】以下の、本発明の詳細な説明の中
では、本発明の完全な理解を与えるために多くの特定の
詳細が設定されている。しかし当業者であれば、これら
の特定の詳細がなくても本発明が実行できることは明ら
かであろう。他の例では本発明の態様を不必要に曖昧に
しないために、良く知られた方法、手順、構成要素、回
路は詳細には説明されていない。
【0019】本発明は、標準の音声ユーザ・インタフェ
ースと音声制御式デバイスのための方法、装置、および
システムを含む。簡単に言えば、標準の発話コマンドを
使用することによって種々の装置を制御するために、標
準の音声ユーザ・インタフェースが提供される。標準の
VUIはユーザと音声制御式デバイスの間のインタフェ
ースに関して1組のコアVUIコマンドと構文を提供す
る。コアVUIコマンドは識別フレーズを含み、音声制
御式デバイスがある環境の中で使用可能かどうかを決定
する。他のコアVUIコマンドは、音声制御式デバイス
の名前の決定を決定し、名前を変更するためのものであ
る。
【0020】音声制御式デバイスが開示される。音声制
御式デバイスは、ここでは可聴発話または非可聴発話の
どちらかによって制御される任意の装置として定義され
る。可聴および非可聴は、ここではのちに定義される。
音声制御式デバイスはまた、ここでは器具、マシン、音
声制御器具、音声制御電子器具、名前起動電子器具、発
話制御装置、音声起動電子器具、音声起動器具、音声制
御電子装置、または自動識別音声制御電子装置とも呼ば
れることがある。
【0021】本発明は可聴発話および非可聴発話を使用
して制御され、通信する。本発明に関してここで定義さ
れた発話は、a)信号または情報がそれを空気圧の変化
に変換する適切な装置を介して通過させられた場合、信
号または情報は人間によって聞かれることができ言語と
して考えられるような信号または情報、b)人間が信号
を聞く場合は、人間がそれを言語として考えるように、
空気圧の実際の変化を含む信号または情報を包含する。
可聴発話は、補助がなくても人間が聞くことのできる発
話を指す。非可聴発話は、可聴発話の定義の元に含まれ
ない発話の任意のコード化または表現を指し、人間の聴
力範囲の外で、空気以外の送信媒体で通信される可能性
のあるものを含む。発話の定義は、人間によって発せら
れた発話と、マシンから発せられた発話を含む(マシン
発話合成、プロンプトまたは他の形式など前もって記録
された人間の発話の再生を含む)。
【0022】音声制御式デバイスによって通知されるプ
ロンプトと、ユーザによって通知されるフレーズは、英
語以外の言語または方言、または多数の言語の組合せで
あることがある。フレーズはここでは単一の単語、また
は単位として扱われる単語のグループとして定義され
る。ユーザはここで定義されているように人間または装
置であり、音声起動装置を含む。したがって「ユーザの
話されたフレーズ」「コマンドを発行するユーザ」およ
びユーザによるすべての他の処置は、装置による処置と
人間による処置を含む。
【0023】音声制御式デバイスは発話によって制御さ
れるために、何らかの形の発話認識を含む。発話認識と
音声認識はここでは同義語として使用されており、同じ
意味を有する。好ましくは、発話者から独立した発話認
識システムが、音声制御式デバイスの発話認識機能を提
供するために使用される。発話者から独立した発話認識
システムは、発話者から独立した発話表現に応答する。
好ましい実施形態では、発話者から独立した発話表現
は、発話の音声的な表現である。しかし、発話者から独
立した発話の他の表現もまた、本発明によって使用され
ることがある。
【0024】本発明を備えた音声制御式デバイスの完全
な機能へアクセスするために、ユーザは音声制御式デバ
イスが関連する器具名の1つを音声制御式デバイスに通
知しなければならない。器具名は1つまたは複数のデフ
ォルト名、または1つまたは複数のユーザが割当可能な
名前を含む。音声制御式デバイスは、個別化された機能
を各ユーザに提供するために、音声制御式デバイスに関
連した、ユーザが割り当て可能な複数の名前を有するこ
とがある。
【0025】さらに本発明は、装置に向けられていない
背景の騒音または発話によって間違ってトリガさせられ
ることなく、会話が継続している間発話認識エンジンを
起動したままにしておく方法を提供する(ローカルな会
話または電話リンク上の会話を含む)。これを達成する
ために、本発明は本発明の標準VUIによって提供され
る音声制御式デバイス用の命名スキームを使用する。一
般に、音声制御式デバイスはその器具名によって指名さ
れない限り、装置はすべての発話を無視する。(のちに
論じられるが、この規則には1組の特別な例外があ
る)。所定の場合では、コマンドを認識するための基準
はさらに強化され、音声制御式デバイスのユーザが割り
当てた器具名によって指名されることを必要とする。音
声制御式デバイスは多数のユーザを有する可能性があ
り、多数のユーザの各々は、本発明の標準VUIのコマ
ンドを使用して装置に一意的な器具名を割り当てる。音
声制御式デバイスがユーザ割当て名のうち1つによって
指名された時、音声制御式デバイスはこれが指名されて
いることを決定し、またどのユーザが装置を指名してい
るのかを決定することができる。これは音声制御式デバ
イスがその、特定のユーザに関する個別化を使用するこ
とができる。たとえば、音声起動電話が4つの異なるユ
ーザ割当て名を有し(たとえばAardvark,Pl
atypus,Socrates,Zeus)、各ユー
ザは母に向けた電話帳エントリに関連した異なる電話番
号を有することがある。第1のユーザが「Aardva
rk、母に電話をします」と言った時、第1のユーザの
母が電話で呼ばれる。第2のユーザが「Platypu
s、母に電話をします」と言った時、第2のユーザの母
が電話で呼ばれる。Geronimoはその器具名の1
つではないので、「Geronimo、母に電話をしま
す」というコマンドはこの音声制御式デバイスによって
は起動しない。
【0026】本発明の他の態様は、音声制御式デバイス
の認識の精度を向上する。本発明は、第1に音声制御式
デバイスに向けられたフレーズの前に相対的な沈黙の期
間を要求し、第2に器具名を要求し、第3に有効なコマ
ンドを要求することによって認識の精度を集合的に向上
する。完全な沈黙は必要ないが相対的な沈黙が必要であ
り、ここで相対的な沈黙とは、フレーズが話されている
時の音レベルより静かな音レベルと定義される。要求さ
れる特定の期間の相対的な沈黙と、相対的な沈黙と音声
制御式デバイスに向けられた話されたフレーズの音強度
との間の許容されたデシベル差は、作成される音声制御
式デバイスのタイプ、装置が目的とする動作環境、使用
される発話認識システムの能力、および他の要因に依存
する。いくつかの場合では、要求される相対的な沈黙の
長さおよび/またはデシベル差は、特定の環境内で認識
の精度を最大化するために、音声制御式デバイスまたは
関連する回路またはソフトウェアによって変化させられ
る可能性もある。標準VUIによれば、各ユーザは音声
制御式デバイスに一意的な名前を割り当てることがで
き、またはデフォルトの器具名を使用することもでき
る。器具名を音声制御式デバイスに通知した後、コマン
ドが話されなければならない。この時点での有効なフレ
ーズは、「Help」または「Cancel」のような
特別なフレーズを含み、標準のVUI文法の一部であ
る。有効なコマンドが認識されないと、音声制御式デバ
イスは全シーケンスを拒否し、沈黙を待つ状態に戻る。
さらに、コマンドに応じて、典型的にはコマンドの修飾
子を表す1つまたは複数の追加フレーズが提供されるま
たは要求されることがある(たとえば、コマンド・シー
ケンス「<沈黙>555−1212に電話します」内の
電話番号)。この時点での有効な入力はまた、「Hel
p」または「Cancel」のような特別なフレーズを
含み、これは標準のVUI文法の一部である。コマンド
の後短い時間内に有効なフレーズの検出に失敗すること
は、全コマンド・シーケンスを拒否するための基礎とし
て使用するか、ユーザに彼の目的を明確にするようにプ
ロンプト指示するための基礎として使用することができ
る。どちらの方法でも、これは、追加のレベルの精度チ
ェックとして働く。別法として、フレーズがコマンドの
後短い時間の間に検出されない場合でも、とにかくコマ
ンドが実行される可能性もある。
【0027】音声制御式デバイスは、視覚的な識別、ま
たは音響的な識別、またはその両方によって識別でき
る。音響的な識別は、音声制御式デバイスとの可聴通信
と非可聴通信の両方を含むとして定義される。可聴と非
可聴は他の場所で定義されている。視覚的な識別は標準
的なロゴまたは他の視覚的な識別子の使用を介して生じ
ることがある。点滅するLEDは、視覚的な識別子の別
の例である。視覚的な識別は特に、常に起動されている
発話認識エンジンを有しない音声制御式デバイスに適し
ている。たとえば、バッテリの消費を最小にするため
に、バッテリで作動する音声制御式デバイスはスイッチ
(または、フリップ型セル電話のフリップ・オープンな
ど、その等価物)を押して発話認識エンジンを起動する
ことをユーザに要求することがある。音響的な識別は、
認識可能なコマンドを積極的に聞く音声制御式デバイス
だけに機能する。音響的な識別は、識別フレーズを言う
ユーザによって達成される。識別フレーズの例は、「そ
こに何がありますか」である。音声制御式デバイスは、
1つまたは複数の識別フレーズを有することがある。識
別フレーズを聞く任意の音声制御式デバイスが応答し
て、装置の存在を識別する。標準VUIによれば、応答
は最長2秒までの沈黙のランダム遅延であり、そのあと
に標準の信号(たとえば1つまたは複数のトーンまたは
ビーという音または他の音)、次いで少なくとも1つの
音声制御式デバイスの器具名、および任意の適用可能な
基本的な動作命令が続く(たとえば、「<ビー>私は電
話です。あなたは電話ヘルプと言うことができま
す」)。同じ通信環境内で多数の音声制御式デバイスか
らの応答を調整するために、各音声制御式デバイスはそ
の沈黙期間の間、別の音声制御式デバイスの応答を聞か
なければならず、他の音声制御式デバイスの応答の開始
は標準信号によってマークされる。他の音声制御式デバ
イスの標準信号の検出は都合のよい任意の手段で達成で
き、音声認識システムによる手段、DSPによる手段、
マイクロプロセッサによる手段、または特別な回路によ
る手段を含む。別の音声制御式デバイスがこの沈黙期間
の間に応答を開始した場合は、聞く側の音声制御式デバ
イスは、応答する側の音声制御式デバイスが終了した
後、沈黙タイミングを再開始しなければならない。2つ
の音声制御式デバイスがほとんど同時に応答を開始した
場合(たとえば、それらがちょうど良い時に標準信号重
複であるように)、これらは両方とも、ランダムに選択
された新しい沈黙遅延の間譲歩しなければならないが、
この時遅延は前の沈黙遅延の長さの最長2倍までであ
り、16秒を超えてはならない。
【0028】識別フレーズに応答する音声制御式デバイ
スを制限するために、ユーザは識別フレーズ内に音声制
御式デバイスの名前を含めることがある。たとえば1人
のユーザが「Socrates、そこにありますか」と
言って、Socratesと名付けられた音声制御式デ
バイスが近くにあるかどうかを確かめることがある。同
様に、1人のユーザが、「Clock、そこにあります
か」と言って、Clockという器具名(デフォルトの
器具名であろうとユーザ器具名であろうと)を有するす
べての音声制御式デバイスに応答させる可能性もある。
可能性のある変形例として、たとえばセキュリティ上の
理由で必要とされるために、音声制御式デバイスがその
名前以外の何らかの応答で応答することがある。
【0029】音声制御式デバイスは、視覚的な識別方法
と音響的な識別方法の両方を使用することがある。たと
えば、発話認識エンジンが連続的に動作中であっても、
視覚的なロゴおよび/または他の視覚的な識別子を依然
として表示することがある。同様に、発話エンジンの手
動での起動を要求する音声制御式デバイス内では、エン
ジンは一度起動されると、「そこに何がありますか」と
いうコマンドに応答できる。
【0030】本発明の別の態様では、ユーザの話された
フレーズの最初の格納(たとえば音声制御の元で新しい
電話帳エントリを作成する時)は、音声制御式デバイス
の、発話者から独立した発話認識エンジンによって処理
される。このエンジンは、発話者から独立した、フレー
ズの音声的な表現を戻す。この発話者から独立した音声
的な表現が、格納されたものである。
【0031】コマンドがユーザから発行された時、これ
はまた、本発明の発話者から独立した発話認識エンジン
によっても処理される。これは元のエントリを格納する
ための、発話者から独立した同じエンジンの使用である
可能性もあるし、まったく異なる、発話者から独立した
エンジンである可能性もある。どちらの場合でもエンジ
ンは、コマンド・シーケンスの発話者から独立した音声
的な表現を戻す。この発話者から独立した音声的な表現
は、前に格納された音声的な表現と比較され、コマンド
が認識可能かどうかを決定できる。
【0032】格納されている話されたエントリと任意の
コマンドの両方を、発話者から独立した音声的な表現に
変換することによって、多くの利点が提供される。 ・おそらく病気、ストレス、疲労、雑音の多いまたは歪
んだ電話リンクでの送信、または人間のユーザまたはマ
シンのユーザの会話を変更する可能性のある他の要因に
よってユーザの音声が変化した場合でも、認識は信頼で
きる。テキストに基づいた情報が格納でき、次いで認識
できる。 ・認識は他のユーザが元の音声フレーズを格納した場合
でも信頼できる。 ・認識は、ユーザが格納したコマンドおよびフレーズに
ついても、発話者から独立したものとなることがある。 ・テキスト・ソースから発生し格納された入力および異
なる発話者から発生し格納された入力がすべて組み合わ
され、信頼を持って認識できる。 ・発話者から独立した音声上の表現の使用は、これらが
使用可能になると、改良された認識エンジンへのアップ
グレードを促進する。改良された発話認識エンジンは、
すべての格納されたエントリが音声的な形で保持されて
いるため、信頼性に影響を与えることなくまたは再格納
を要求することなく、既存の格納された情報を使用する
ことができる。改良された発話認識エンジンを使用して
格納された新しい情報は、より古い認識エンジンを有す
る機器上でも使用できる。古い世代の機器と新しい世代
の機器は、音声的な表現を使用することによってあらか
じめ調整しなくても対話できる。これによってたとえ
ば、2つのPDAが音声で格納された電話帳エントリを
交換し、その情報の新しいユーザに信頼できる認識を提
供することが可能になる。最後に、同じレガシ波形の変
換を常に正しく実行できなければならない波形格納に基
づいたシステムとは異なり、発話者から独立した認識エ
ンジンが音声的な表現を作成できる限り、発話者から独
立した認識エンジンのさらなる開発を妨げたり制限した
りするレガシの制限はない。
【0033】音声制御式デバイス 次に図1Aを参照すると、環境100が示されている。
環境100は、オフィス、会議室、ホテルの部屋のよう
な通信環境、または音声制御式デバイスが位置する可能
性のある任意の場所であることがある。環境100の中
には、円によって表される何人かの人間のユーザ101
A〜101Hがいる。また環境100の中には、正方形
および長方形によって表され、各々本発明の標準の音声
ユーザ・インタフェース(VUI)によって動作するよ
うに制御される音声制御式デバイス102A〜102H
がある。長方形によって表されている音声制御式デバイ
ス102A〜102Eは、環境100の中で固定されて
いる。正方形によって表されている音声制御式デバイス
102F〜102Hは、人間のユーザ101F〜101
Hにそれぞれ関連づけられている移動音声制御式デバイ
スである。音声制御式デバイス102A〜102Hはま
た、既存の装置または将来の装置であることがある。音
声制御式デバイス102A〜102Eは一般に、ユーザ
の自動車、家、オフィス、工場、ホテル、または人間の
ユーザがいる可能性のある他の場所に関連づけられてい
ることがある。別法として、音声制御式デバイス102
A〜102Eが非可聴発話によって制御される場合、そ
の音声制御式デバイスは任意の場所に位置できる。
【0034】本発明では、標準VUIを使用するとユー
ザは、ユーザが割当て可能な名前をこれらの音声制御式
デバイス102A〜102Hに関連付けることができ
る。音声制御式デバイスのユーザが割当て可能な名前
は、電話、時計、光などの一般的な名前であることがあ
る。別法として、名前はもともと人間に与えられるJo
hn、Jim、Georgeなどの人格化された名前で
ある可能性もある。どちらの場合でも、音声制御式デバ
イス102A〜102Hは連続的に聞いているが、その
名前のうち1つ(ユーザ割当てまたはデフォルト)を認
識するまでコマンドに応答しない。任意の名前を音声制
御式デバイスに割り当てることができるが、音声制御式
デバイスと実際の人の間の混乱を最小限にするために、
ユーザは通常の会話の間には生じる可能性のないAar
dvarkまたはSocratesなどの普通でない名
前を選ぶことがある。図1Aを参照して、環境100が
人間のユーザ101A〜101Hが会議をしている会議
室であると考えてみる。さらに音声制御式デバイス10
2Aは、会議室100内でスピーカ・ホン機能を有する
電話であり、器具名は電話であると仮定する。101A
などの人間のユーザはまず、電話という名前を呼び出し
てから、その音声制御措置にコマンドを与える。音声制
御式デバイスに名前を与えることにより、音声制御式デ
バイスは与えられたコマンドに正しく応答し、多数のユ
ーザと音声制御式デバイスの間の混同を避けることがで
きる。音声制御式デバイスは電話、オーガナイザ、計算
機、照明、ステレオ・システム、電子レンジ、TVセッ
ト、洗濯機、ドライヤ、暖房システム、冷房システム、
または実質的に任意のシステムとすることができる。音
声制御式デバイス102A〜102Hは、人間のユーザ
101A〜101Hからのコマンドとデータ入力を聞
き、コマンドまたはデータが正しく解釈され実行されて
いることをユーザに可聴的に知らせるために、可聴通信
インタフェース(ACI)を含むことがある。音声制御
式デバイス102A〜102Hはさらに、発話認識及び
合成システム(SRS)を含む。SRSの発話認識は、
発話しているユーザからは独立して、およびユーザが人
間であるか装置であるかを問わず、異なる言語の発話の
解釈を行う。本発明の好ましい実施形態は発話者から独
立した音声認識システムを使用しているが、本発明はま
た、発話者に依存した音声認識システムとも互換性があ
る。SRSは、1つまたは1つ以上の言語で動作でき
る。SRSの発話合成は、可聴的に通信される可能性も
ありまたは非可聴的に通信される可能性もある音声制御
式デバイスによる発話応答、状態コマンド、またはデー
タを生成する。ここではまた発話の生成とも呼ばれる発
話合成は、ここで定義され、発話と応答する任意の方法
を含み(可聴または非可聴)、発話の記録、格納と再生
システム、再生を伴う以前に記録されたボキャブラリ・
システム、文字の組合せから発声を生成する洗練された
発話合成システム、および上記の何らかの組合せを含む
が、これらに限定されるものではない。好ましくは、音
声制御式デバイスは発話の記録、格納と再生システム、
および再生を伴う、以前に記録されたボキャブラリ・シ
ステムの両方を含む。
【0035】音声制御式デバイス102A〜102Hは
オプションとして、通信インタフェース(ECI)を含
み、非可聴音声または会話を使用した無線手段または有
線手段を介して音声制御式デバイスの遠隔制御を行う。
図1Aに示されたように音声制御式デバイス102A
は、電話システムへの接続のために接続105を有す
る。この方法では、音声制御式デバイス102Aは遠隔
からユーザに通知し、コマンドを受け取り、認識する。
次に図1Bを参照すると、人間のユーザ101Iは、電
話会社のスイッチ116上で、有線伝送媒体114また
は無線伝送媒体114上で電話112によって通信す
る。電話会社のスイッチ116は、接続105を介して
有線手段または無線手段によって音声制御式デバイス1
02Aに接続されている。電話112は無線電話または
有線電話である。この方法で、人間のユーザ101I
は、遠隔から通信環境100内の音声制御式デバイス1
02Aへ遠隔からインタフェースすることがある。別法
として、音声制御式デバイス102Eなどの音声制御式
デバイスは、遠隔コンピュータ118によってネットワ
ーク上で遠隔から制御されることがある。この場合、遠
隔の人間のユーザ101Jは、ネットワーク接続120
と接続106を介して音声制御式デバイス102Eに結
合されている遠隔コンピュータ118を介して、音声コ
マンドまたは命令を送信することができる。ネットワー
ク接続120は、インターネットなどのコンピュータ・
ネットワークを介した、リアルタイム送達または蓄積交
換の無線接続または有線接続であることがある。遠隔ユ
ーザが音声制御式デバイスに接続できる幅広い方法があ
り、その中には有線接続および無線接続の使用が含まれ
るが、これに限定されるものではない。有線接続は電話
システムおよびリアルタイムのインターネット接続など
のリアルタイム通信システム、音声表現の電子メールお
よび他の非リアルタイムのインターネット・プロトコル
などの蓄積交換システムを含むことがあるが、これに限
定されるものではない。無線システムは無線システムお
よび赤外線システムを含むことがあるが、これに限定さ
れるものではない。これらの任意の代替例は、回路に基
づいたシステムおよびパケットに基づいたシステムを含
む可能性があり、アナログ・システムおよびディジタル
・システムを含むことがある。これらの任意の代替例
は、種々の変調スキームおよび/またはコード化スキー
ムおよび/または暗号化スキームと共に使用される可能
性もあり、またはこれらなしでも使用されることがあ
る。
【0036】次に図2を参照すると、例としての音声制
御式デバイス102I〜102Mが図示されている。音
声制御式デバイス102Iは、冷凍庫、冷蔵庫、洗濯
機、ドライヤ、エア・コンディショナ、暖房装置、電子
レンジ、オーブン、およびストーブなどの家電製品の例
である。音声制御式デバイス102Jは、オプションの
通信インタフェース(ECI)を要求する音声制御式デ
バイスの例である。これはテレビ、ビデオ・カセット・
レコーダ、ステレオ、カムコーダ、テープ・レコーダ、
口述装置、目覚まし時計、時計ラジオ、および、標準の
有線電話、電話応答マシンなどの電話製品、照明スイッ
チ、警報システム、計算装置、インターネット接続装
置、サーバなどの、消費者家電のための音声制御式デバ
イスを含むことがある。音声制御式デバイス102K
は、セルラ電話、ウォークマン(登録商標)・スタイル
のシステム、カムコーダ、パーソナル・ディジタル・シ
ステムなどの携帯システムまたは無線システムの例であ
る。音声制御式デバイス102Lは、自動車セルラ電話
システム、自動車無線システム、カー・ナビゲーション
・システム、HAV(暖房、エア・コンディショニン
グ、換気)システム、および自動車用の他の制御システ
ムなどの、自動車音声制御システムの例である。音声制
御式デバイス102Mは、ボイスメール・システムなど
の遠隔制御装置の例である。
【0037】音声制御式デバイス102Iは、可聴通信
インタフェース(ACI)202、発話認識および合成
システム(SRS)204、および電気製品周辺機器と
制御回路(APCC)206を含む。ACI202はS
RS204に結合され、SRS204はAPCC206
に結合されている。音声制御式デバイス102Iでは、
ACI202は発話通信の主な手段である。
【0038】音声制御式デバイス102JはACI20
2、SRS204、APCC206、通信インタフェー
ス(ECI)207、および接続208を含む。ACI
202はSRS204に結合されている。APCC20
6はSRS204に結合されている。ECI207はS
RS204に結合し、接続208はECI207に結合
している。音声制御式デバイス102Jは代替として、
ACI202またはECI207を介して発話通信信号
または音声通信信号を使用して通信できる。音声制御式
デバイス102Kは、ACI202、SRS204、A
PCC206およびアンテナ209を含む。
【0039】音声制御式デバイス102Kは、ACI2
02を介した可聴発話信号を使用して、またはECI2
07を介したコード化された発話信号を使用して通信で
きる。ECI207はAPCC206に結合している。
ECI207はまた、接続212に結合している。接続
212はたとえば、アンテナまたは赤外線ポートである
ことがある。音声制御式デバイス102Lはまた、AC
I202、SRS204、APCC206およびアンテ
ナ209を含む。ACI202はSRS204に結合す
る。SRS204はAPCC206に結合する。アンテ
ナ209はAPCC206に結合する。音声制御式デバ
イス102Lは、アンテナ209を介してACI202
およびAPCC206によって通信できる。
【0040】音声制御式デバイス102Mは、APCC
206、SRS204、ECI207、および接続21
0を含む。接続210は有線接続または無線接続である
可能性があり、アンテナを含む。SRS204はAPC
C206に結合し、またECI207にも結合する。接
続210はECI207に結合する。音声制御式デバイ
ス102Mは、接続210上で、ECI207を介して
通信できる。
【0041】APCC206は、制御されるべき音声制
御式デバイス102の要素を表す。たとえば家電製品の
場合、制御されるべきアイテムは用途に応じて、温度、
時間設定、電力設定、またはサイクルであることがあ
る。消費者用電子製品の場合は、APCC206は通常
ボタン、スイッチ、ノブに関連するアイテムからなりた
つことがある。電話製品の場合、APCC206はボタ
ン、ダイアル、ディスプレイ、有線呼または無線呼を行
うための回路または無線装置を表すことがある。自動車
システムの場合、APCC206は、計測器パネル、温
度ノブ、ナビゲーション用システム、自動車無線チャネ
ル、音量、周波数特性を表すことがある。
【0042】次に図3を参照すると、音声制御式デバイ
ス102が図示されている。図3に示された音声制御式
デバイス102は、ここに説明された音声制御式デバイ
ス内の機能ブロックの例である。音声制御式デバイス1
02はACI202、APCC206およびSRS20
4を含む。音声制御式デバイス102はまた、ECI2
07AまたはECI207BなどのECI207を有す
ることがある。
【0043】図3に示されたACI202は、マイクロ
フォン303、スピーカ304、増幅器305を含む。
図3に示されたようなSRS204は、音声通信チップ
301、コード器/復号器(コーデック)306および
308、ホスト・マイクロコントローラ310、電源3
14、電力起動リセット回路316、水晶発振器回路3
17、メモリ318、およびメモリ328を含む。SR
S204はオプションとして、AC電源接続315、オ
プションのキーパッド311、またはオプションのディ
スプレイ312を含む可能性もある。ローカルなコマン
ド、プロンプトおよびデータなどの可聴発話の双方向的
な通信のために、発話通信パスはVCC301、コーデ
ック306、およびACI202を介する。非可聴発話
通信パスは、遠隔コマンド、プロンプトおよびデータな
どの、非可聴発話の双方向的な通信のために、VCC3
01、コーデック308、ECI207AまたはVCC
301、ホスト・マイクロコントローラ310、APC
C206、およびECI207Bを介する。ECI20
7は、電話ネットワーク、コンピュータ・ネットワー
ク、インターネット、高周波リンク、または赤外線リン
クなどを介した有線リンクまたは無線リンクを提供する
ことがある。
【0044】音声通信チップ301は音声制御式デバイ
ス102に、本発明の標準の音声ユーザ・インタフェー
スを使用した発話を介した通信の能力を与える。マイク
ロフォン303は音声制御式デバイス102に、音声コ
マンドおよび装置の器具名などの可聴発話を聞く能力を
与える。マイクロフォン303は用途に応じて、近距離
音場マイクロフォンでも遠距離音場マイクロフォンでも
よい。たとえば、近距離音場マイクロフォンは、ユーザ
の口が近い携帯セル電話内で好ましい可能性があり、一
方、遠距離音場マイクロフォンはユーザの口が離れてい
る車のセル電話内で好ましいことがある。スピーカ30
3を使用すると音声制御式デバイス102は、その名前
またはコマンドの受信を確認するなどのために発話を使
用して応答することができる。増幅器305は、マイク
ロフォン303によって受信された音声または発話信号
を増幅する。さらに、増幅器305は人間のユーザ10
1が音声制御式デバイス102に正しくインタフェース
できるように、スピーカ303を介したコーデック30
6からの音声信号表現を増幅できる。
【0045】マイクロフォン303とスピーカ304は
各々、可聴発話と発話表現の間を変換するための変換器
である。コーデック306は、ACI02からの発話表
現を、VCC301のためのコード化された発話信号に
コード化する。さらに、コーデック306は、VCC3
01からのコード化された発話信号を、ACI202を
介した可聴通信のための発話表現に復号する。
【0046】別法として、非可聴発話信号は、音声制御
式デバイス102によって双方向的に通信されることが
ある。この場合、VCC301はコード化された発話信
号を復号するためにコーデック308に与える。コーデ
ック308は、コード化された発話信号を復号し、接続
105上の通信のためにそれをECI207Aに与え
る。発話信号は接続105上で受信され、ECI207
Aに提供されることがある。ECI207Aは、コード
化のために発話信号をコーデック308に結合する。コ
ーデック308は発話信号をコード化し、そのコード化
された発話信号がVCC301に結合される。
【0047】発話信号はまた、APCC206を介して
電子的にも通信できる。送信のためのVCC301から
の発話信号は、マイクロコントローラ310に渡され
る。マイクロコントローラ310はこれらをAPCC2
06に結合し、APCC206は発話信号をECI20
7Bへ送信する。音声制御式デバイス102によって受
信されるべき発話信号はECI207Bによって受信さ
れ、APCC206に渡される。APCC206は次い
で、これらの受信された発話信号をマイクロコントロー
ラ310に結合することがあり、マイクロコントローラ
310は、これらの受信された発話信号を認識のために
VCC301上に渡す。
【0048】音声制御式デバイス102はホスト・マイ
クロコントローラ310からの信号によって、APCC
206を制御する。ホスト・マイクロコントローラ31
0はAPCC206に結合され、この制御を促進する。
音声制御式デバイス102はオプションとして、さらな
る入力手段として、マイクロコントローラ310に結合
されたキーパッド311を有することがある。キーパッ
ドは電力ボタン、会話ボタンへのプッシュ、または、セ
キュリティコード入力手段である可能性があり、さら
に、オプションとして他の情報を入力するために使用さ
れる。音声制御式デバイス102はオプションとして、
その状態またはユーザが関心のある他のアイテムを視覚
的に表示するために、ホスト・マイクロコントローラ3
10に結合されたディスプレイ312を含む。しかし、
音声制御式デバイスは一般に、オプションのキーパッド
311またはオプションのディスプレイ312がなくて
も機能することができる。
【0049】音声制御式デバイス102は電源314を
含む。電源314は、DC供給源またはAC供給源、ま
たは両方から電力を生成してもよい。DC供給源はバッ
テリ、太陽電池、または他のDC源でもよい。AC供給
源の場合、オプションのAC電力コード315が用意さ
れる。VCA102は電力起動リセット回路316を含
み、電源314が起動した時にそのシステムをリセット
する。
【0050】水晶発振器回路317はVCC301内の
他の回路と共に、VCC301に正確な振動入力を提供
し、クロック信号を生成する。
【0051】メモリ318はVCC301に結合され、
書換え可能な非揮発性メモリおよび書換え可能な揮発性
メモリ、および読取り専用メモリである。これらは典型
的にはフラッシュRAM、静的RAM、およびROMで
ある。メモリ318は、プログラムを格納するため、お
よびあらかじめ記録されたフレーズおよび記録されたフ
レーズを格納するために使用される。さらに、メモリ3
18はプログラム動作のためにスクラッチ・メモリを設
ける。業界内で標準の慣行であるように、使用されるメ
モリのタイプは、構成される特定の音声制御式デバイス
によって変化することがある。本発明に関するプログラ
ム格納は、ROMのように永久的である可能性、フラッ
シュのように非揮発性であるが可変的である可能性、R
AMのように揮発性である可能性があり、この場合、プ
ログラムは非揮発性メモリまたは遠隔の源からダウンロ
ードされることがある。
【0052】メモリ328は揮発性メモリ、非揮発性メ
モリまたはその混合であることがある。揮発性メモリの
みが使用されている場合、その内容は別の場所からダウ
ンロードされて初期化できる。メモリ328の大きさと
能力は、構成される音声制御式デバイスのタイプに依存
する。別法として、場合によっては、メモリを磁気、光
学、または他のタイプの記憶媒体で代用することができ
る。
【0053】音声制御式デバイス102内で、VCC3
01はさらに、1つの処理装置だけが音声制御式デバイ
ス102内に含まれるようにホスト・マイクロコントロ
ーラ310の機能を含むことがある。同様に、統合レベ
ルが増大し続けるにつれて当業界で慣習的であるよう
に、APCC206、コーデック306および/または
308、ECI207A、ECI207B、メモリ31
8、メモリ328、増幅器305、または他の要素がお
そらくVCC301に統合されるであろう。
【0054】次に図4を参照すると、音声通信チップ
(VCC)301の構成図が示されている。音声通信チ
ップ301は集積回路であり、処理装置402、メモリ
装置403、バスとメモリ・コントローラ(BMC)4
04、バス・アダプタ405、周辺機器406を含む。
音声通信チップ301はさらに、Informatio
n Storage Devices社による「ISD
−SR 300,Embedded Speech R
ecognition Processor」という名
称のマイクロフィッシュの付録に説明されている。処理
装置402はマイクロプロセッサとディジタル信号処理
モジュール(DSPM)を含む。メモリ装置403は、
DSPMランダム・アクセス・メモリ(RAM)40
7、システムRAM408、読取り専用メモリ(RO
M)409を含む。周辺機器406は、I/Oポート4
20、割込み制御装置(ICU)422、コード器/復
号器(コーデック)インタフェース424、パルス幅変
調器(PWM)426、MICROWIREインタフェ
ース428、マスタMICROWIREコントローラ4
30、リセットおよび構成コントローラ432、クロッ
ク生成器434およびウォッチドッグ・タイマ436を
含む。効果的に通信するために、音声通信チップ301
は、コア・バス415および、図4に示されたような構
成要素を内部接続する周辺バスを含む。
【0055】マイクロプロセッサ416は、RISKア
ーキテクチャを伴う汎用16ビット・マイクロプロセッ
サ・コアである。マイクロプロセッサ416は、整数の
算術論理およびプログラム制御に責任を持つ。DSPモ
ジュール(DSPM)418はDSP算術を実行する。
ROM409およびシステムRAM408は、プログラ
ムとデータの格納のために使用される。DSPM RA
M407は、DSPM418によって直接アクセスでき
る。DSPM418がアイドル状態の時、マイクロプロ
セッサ416はDSPM RAM407にアクセスでき
る。
【0056】バスとメモリ・コントローラ(BMC)4
04は、DRAM、拡張メモリ、オフチップ・ベース・
メモリ、およびI/O拡張などのオフチップ措置へのア
クセスを制御する。I/Oポート420は、音声通信チ
ップ301に結合された装置へのインタフェースを提供
する。I/Oポート420は、音声通信チップ301の
26個のI/Oピンを表す。拡張オプションなしにプロ
グラム・メモリに関して内部ROM409を使用する
と、16個のI/Oピンが個別に入力用または出力用に
構成でき、8個のI/Oピンは出力専用にし、2つのI
/Oピンは入力専用にすることができる。ICU422
は、5個のマスク可能な割込み(4つは内部的で1つは
外部的)と、3つの内部的なマスク不可能な割込み(N
MI)を処理する能力を与える。コーデック・インタフ
ェース424は、ACI202だけの場合は1つのコー
デック装置306への直接インタフェースとなり、AC
I202およびECI207Aの場合は2個のコーデッ
ク装置306および308への直接インタフェースとな
る。パルス幅変調器(PWM)426は、固定された周
波数と可変デューティ・サイクルを有する方形波を生成
する。MICROWIREインタフェース428は、ホ
スト・マイクロコントローラ310とのシリアル通信を
可能にする。マスタMICROWIREコントローラ4
30は、直列フラッシュ・メモリおよび他の周辺機器へ
のインタフェースを可能にする。リセットおよび構成ブ
ロック432は、リセットの間、音声通信チップ301
の環境のディフィニッションを制御し、ソフトウェア制
御構成を処理する。音声通信チップ301内の機能のい
くつかは互いに排他的である。選択肢の間の選択は、リ
セットに際してまたはモジュール構成レジスタを介して
行われる。クロック生成器434は、水晶発振器回路3
17にインタフェースし、リアルタイム・タイマを含む
音声通信チップの種々のブロックのためにクロックを提
供する。クロック生成器を使用し、音声通信チップ30
1をパワーダウン・モードに設定し、必要な時にそれを
通常の動作モードに戻すことによって、電力消費を削減
することもできる。音声通信チップ301がパワーダウ
ン・モードである時、その機能のいくつかは使用不能に
なり、いくつかのレジスタの内容は変更されている。ウ
ォッチドッグ・タイマ436は、ソフトウェアが処理ユ
ニット402の制御を失った時はいつでも、および音声
通信チップ301がパワーダウン・モードであった時に
は期間が終了した時にマスク不可能な割込みを生成す
る。
【0057】標準の音声ユーザ・インタフェースGUI
を備えているコンピュータ動作システムと同様に、標準
の音声ユーザ・インタフェース(VUI)も標準VUI
動作システム・コードを備えていると考えることができ
る。広い範囲の多くの音声制御式デバイスで動作する標
準VUIを使用すると、ユーザは今まで対話できなかっ
た装置を含めた任意の音声制御式デバイスとインタフェ
ースできる。ユーザは一度標準のVUIに馴れると、標
準のVUIで動作する任意の音声制御式デバイスに近づ
きすぐにその使用を開始できる。標準のVUI動作シス
テム・コードは、音声制御式デバイスを動作させる特定
の標準化されたコマンドと手順を有する。これらの標準
化されたコマンドと手順は、標準のVUI動作システム
・コードを実行するマシンに普遍的である。標準のVU
I動作システム・コードで動作する音声制御アプリケー
ション・ソフトウェアを書き、音声制御式デバイスを特
定の用途にカスタマイズすることができる。音声制御ア
プリケーション・ソフトウェアは音声制御式デバイスが
使用される用途に特有の音声コマンドを有する。特定の
音声制御式デバイスはまた、標準VUIの中心となる機
能を拡張する追加の特別機能を備えても良い。
【0058】中心となるVUIの機能のうち標準のVU
I機能のいくつかは、音声制御式デバイスの存在を発見
する方法、すべての音声制御式デバイスに関して共通の
コア・コマンド・セット、音声制御式デバイスが応答す
るコマンドの種類を学ぶ方法(コア・コマンドと器具特
有のコマンドの両方)、マニュアルまたはディスプレイ
の使用なしにユーザを助けるための発音されたヘルプ・
システム、ユーザが割当て可能な設定で音声制御式デバ
イスをユーザに個別化する方法、音声制御式デバイスの
使用を許可されたユーザに制御し、ユーザが割当て可能
な設定と情報を他のユーザから守るセキュリティ・メカ
ニズム、ユーザが音声制御式デバイスと対話し、共通動
作をするための標準の方法(たとえばはいといいえの選
択、選択肢のリストを一覧し、そこからアイテムを選ぶ
こと、優雅にエラーを処理する方法)。標準のVUIは
API(アプリケーション・プログラミング・インタフ
ェース)を含み、これを使用するとソフトウェア開発者
は標準のVUIとインタフェースし動作して、音声制御
コマンド・セットを拡張するカスタムの音声制御アプリ
ケーションを書くことができる。
【0059】次に図5を参照すると、構成図は音声制御
式デバイス102を制御し、標準のVUIおよび他の機
能を提供するソフトウェア500を示す。ソフトウェア
500はアプリケーション・コード510、VUIソフ
トウェア・モジュール512、およびボキャブラリ52
4を含む。アプリケーション・コード510はさらに修
正され、多数のアプリケーション・コードモジュールを
表す複数のアプリケーションをサポートすることが可能
であり、音声制御式デバイス102のさらなるカスタム
化を提供する。ボキャブラリ524は検出されるべきフ
レーズを含む。ボキャブラリ内のフレーズはトピックと
呼ばれるグループに分けられ、トピックは1つまたは複
数あることがある。図5では、ボキャブラリ524はト
ピック551とトピック552の2つのトピックからな
りたつ。
【0060】典型的に、アプリケーション・コード51
0は、アプリケーション・プログラミング・インタフェ
ース(API)507を介してVUIソフトウェア51
2にインタフェースする。VUIソフトウェア512
は、認識とプロンプト指示を含む音声インタフェースに
関係するアプリケーション・コード510に、特別なサ
ービスを提供する。VUIソフトウェア512とアプリ
ケーション・コード510の間の相互関係は、Micr
osoft社のMS WindowsとMicroso
ft Wordの相互関係と類似している。Micro
soft Windowsは、画面上にアイテムを表示
し、およびマウスの入力とキーボードの入力を受信する
ことに関し、特別なサービスをMicrosoft W
ordに提供する。
【0061】一般に、アプリケーション・コード510
はホスト・メモリの中に格納され、ホスト・マイクロコ
ントローラ310によって実行されることがある。しか
し、ホスト・マイクロコントローラ310の機能は、ソ
フトウェア500に関連するコードを実行するために、
1つの装置またはプロセッサ、および1つのメモリまた
は格納装置だけが必要とされるように、VCC301に
埋め込まれることがある。
【0062】コア・コマンドとアプリケーションに特有
のコマンドのためのフレーズを含め、認識可能なすべて
のフレーズは、ボキャブラリ524に含まれる。VUI
ソフトウェア・モジュール512は、たとえば認識の間
に使用するために、ボキャブラリ・フレーズに直接アク
セスできる。VUIソフトウェア・モジュール512は
また、トークンを処理することもできる。トークンはト
ピック551〜552内のフレーズに抽象的に結び付け
られている。トークンは整数の数字である。たとえば
「ダイアルする」に関するフレーズは「5」のトークン
値を有し、「電話を切ります」に関するフレーズは
「6」のトークン値を有するといいうようにである。認
識できる各フレーズに1つのトークン値が割り当てられ
ている。VUIソフトウェア・モジュール512がボキ
ャブラリ・ファイル524に関連したトークンを処理で
きるので、直接フレーズにアクセスする必要なくフレー
ズを参照することができる。これによって、VUIソフ
トウェア・モジュール502を修正することなく、言語
を変更する(英語からフランス語、など)ことができ
る。したがって、標準のVUIはボキャブラリ・ファイ
ル524を修正するだけで、異なる方言や言語を使用し
て機能する。
【0063】ユーザは、音声制御式デバイス内で動作す
る標準VUIの中心的な機能を使用すると、音声制御式
デバイスを指名する、音声制御式デバイスの存在を識別
する、ユーザが以前に格納した個別化された環境を起動
する、動作をキャンセルすることによって誤認識から回
復する、ヘルプ機能を使用して音声制御式デバイスと共
に使用できるコマンドと選択肢を識別する、標準的なコ
ア・コマンドのセットおよび他の追加コマンドを使用す
る、コマンドが標準の構文に従っていることを確認す
る、ことができる。(コマンドの構文は共通であるが、
任意の音声制御式デバイス上のコマンドの特定のリスト
は、音声制御式デバイスの性格によって異なる)。標準
のVUIはまた、APIに関して次のユーザ対話のため
の標準機能を含む。GETYESNO―ユーザからのは
い/いいえを受領する。GETRESPONSE―ユー
ザからの任意の入力を受領する。GETRESPONS
EPLUS―強化されたエラー回復機能で、ユーザから
の任意の入力を受領する。LISTANDSELECT
―ユーザに選択のリストを提供し、ユーザに1つを選択
させる。ACOUSTICADDWARD―後から認識
できるフレーズを追加する。
【0064】標準VUIで正しく機能するために、音声
制御式デバイス102のSRS204は、電力を供給さ
れた時に、会話とディジット(数)を連続的に認識す
る。しかし、一定の長さを超えた休止は、コマンドの終
了をマークするまたは、不完全なコマンド・シーケンス
が受信されたことの指示を与えるものとしてSRS20
4によって認識されることがある。
【0065】名前 本発明の標準VUIの主な要素は、各音声制御式デバイ
スが1つまたは複数の器具名を有し、器具名は各々がフ
レーズであるということである。最初の器具名は、工場
でメーカによってプログラミングされた音声制御式デバ
イスのためのデフォルト名である。しかしユーザは一般
に、音声制御式デバイスに彼らが選択したユーザ割当て
器具名を割り当てることができる。音声制御式デバイス
の命名は、人に命名するなどの別の種類の命名とは異な
る。1人の人は、彼と話したいすべての人に使用される
単一の(ファースト)名を有する。対照的に音声制御式
デバイスの命名では、音声制御式デバイスの各ユーザは
通常、音声制御式デバイスに異なる、ユニークな名前を
与える。したがって、音声制御式デバイスは、それが持
つユーザの数と同じ数の名前を有することになるであろ
う。
【0066】ユーザが名前によって音声制御式デバイス
を指名すると、2つのことが起きる。第1に、音声制御
式デバイスがその名前の1つを認識した時、音声制御式
デバイスは装置が指名されたことを知らされ、コマンド
を聞かなけばならなくなる。第2に、各ユーザは通常1
つの音声制御式デバイスについて異なる名前を使用する
ので、装置はユーザのアイデンティティ(発話者の識
別)を知らされる。ユーザが音声制御式デバイスの機能
に好みを有し、それを格納している場合、音声制御式デ
バイスはそのユーザの好みに合わせてそれ自体を個別に
設定することができる。
【0067】この命名のコンセプトを示すために、以下
の例の、2人のユーザを有する音声制御式デバイスであ
るデスクトップ電話を考えてみる。ユーザ1は電話に
「Aardvark」と命名し、ユーザ2は電話に「P
latypus」と命名してある。電話が「Aardv
ark、母に電話します」と聞いた場合、電話はユーザ
1によって指名され、およびユーザ1の電話帳を使用す
べきであることを認識する。したがって、ユーザ1によ
ってプログラミングされた「母」の番号をダイアルす
る。同様に、電話が「Platypus、母に電話しま
す」と聞いた場合、ユーザ2がそれを指名したことを知
り、ユーザ2によってプログラミングされた「母」の番
号をダイアルする。
【0068】間違った認識を最小化するために、ユーザ
は音声制御式デバイスに、通常の会話では一般に話され
ない名前を割り当てることが好ましい。普通でない名前
を選択することで、たがいに可聴範囲にある2つの音声
制御式デバイスは同じ名前を有しない(おそらく異なる
ユーザによって割り当てられている)。音声制御式デバ
イスのメモリ制限があるため、いくつかの場合ではフレ
ーズ名を話すための最大時間制限が要求されることがあ
る。
【0069】次に、音声制御式デバイス102とともに
標準VUIの詳細な動作のフロー・チャートが説明され
ている図6A〜6Eを参照する。図6A〜6Eのフロー
・チャートでは、実線の箱はユーザによって通知された
フレーズ(引用符の中に置かれている)またはユーザの
処置(引用符なし)を示す。点線の箱は、音声制御式デ
バイスによって通知されたフレーズ(引用符内)または
取られた処置(引用符なし)を示す。点線の箱のすぐ下
に直接実線の箱がある場合、現在の点線の箱内のアクシ
ョンが正常に終了した場合に点線の右から出るパスがと
られ、普通でないイベントが発生した場合には点線の箱
の下にある実線の箱へのパスがとられる。一般に、点線
の箱のすぐ下にある実線の箱は、普通でないイベントを
示す。
【0070】標準のVUIコマンド構文 次に図6Aを参照すると、すべての音声コマンドのため
の一般的な構文は、<沈黙><名前><コマンド><修
飾子と変数>である。<沈黙>は相対的な沈黙の期間
で、そのあいだユーザは話さないが背景の騒音と背景の
会話は依然として存在することがある。<名前>は音声
制御式デバイス102に関連する器具名である。<コマ
ンド>はユーザが実行したい動作である。<修飾子と変
数>は、いくつかのコマンドによって必要とされる追加
の情報からなりたつ。SRS204はユーザが音声制御
式デバイスを制御できるために、構文の中にある要素を
認識する。
【0071】ほとんどの音声制御式デバイスは連続的に
音声コマンド・シーケンスを聞く。音声制御式デバイス
がその<名前>を聞く時、次の<コマンド>が指定され
ていることを知る。各ユーザが音声制御式デバイスに関
して異なる<名前>を有するので、<名前>はまたユー
ザを一意的に識別し、音声制御式デバイスがそのユーザ
への個別化を選択できる。コマンドは、すべての音声制
御式デバイスに含まれるコアVUIコマンド、および所
定のアプリケーションに特有のコマンドを含み、これら
すべてはボキャブラリ524に格納されている。
【0072】<名前>の検出の前に<沈黙>を要求する
ことは、通常の会話の間に<名前>の誤った検出を妨げ
る(つまり、ユーザが音声制御式デバイスに話している
のではなく、会話によって別のユーザに話している
間)。すべての場合に、<沈黙>の長さはメーカによっ
て構成され、0(<沈黙>を要求されない)から1秒ま
たはそれ以上の範囲になることがある。典型的に、これ
は1秒の4分の1である。
【0073】Aardvarkと命名された電話などの
音声制御式デバイスで使用される可能性のある音声コマ
ンド・シーケンスの例は、「Aardvark、オフィ
スに電話します」「Aardvark、1−800−5
5−1212にダイアルします」および「Aardva
rk、電話を切ります」を含む。(提供されたコマンド
の例と説明では、簡潔にするために<沈黙>は示されな
いことが多く、これが示されるまたは説明される時で
も、メーカはゼロの長さの沈黙を使用するように選択す
る選択肢が常に存在する)。
【0074】コマンド構文が一般的な構文とは異なるこ
とが許される、2つの特別な場合がある。第1の特別な
場合は、<沈黙><名前>を連続的には聞いていない音
声制御式デバイスの場合である。たとえば、いくつかの
バッテリで動作するアプリケーションの場合、電力消費
に限度があるため、アイドル期間の間、音声制御式デバ
イス102内のVCC301が電力ダウンされることを
要求する場合がある。別の例は、名前を間違って認識す
ると望ましくない結果になる場所にある音声制御式デバ
イスであり、たとえばプレゼンテーションの間の会議室
内にあるデスクトップ電話である。第3の例は、たとえ
ば多数の会話が聞かれる場所など、間違った認識のリス
クが高い場所にある音声制御式デバイスである。
【0075】これらのタイプの状況については、代替の
コマンド構文が所定の型のボタンまたはスイッチと共に
使用される。第1の代替のコマンド構文は、<スイッチ
の起動><沈黙(オプション)><名前><コマンド>
<修飾子と変数>である。この構文では<スイッチの起
動>は、ユーザがボタンを押すまたは所定の他の機械的
な行動を実行して(たとえばフリップ型のセル電話を開
ける)、認識機能を起動することを意味する。
【0076】第2の特別な場合は、ユーザが通常一連の
コマンドを素早く連続して入力する場合である。これら
の場合については、ユーザはパスワード保護方法を使用
し、または音声制御式デバイスの器具<名前>を含むコ
マンドを発行し、その後コマンドを続けて入力すること
によって、ユーザ自身を音声制御式デバイスに示すこと
ができる。第2の代替のコマンド構文は(この例では、
3つの連続的なコマンド) <沈黙><名前><コマンド><必要に応じて修飾子と
変数> <沈黙><名前(オプション)><コマンド><必要に
応じて修飾子と変数> <沈黙><名前(オプション)><コマンド><必要に
応じて修飾子と変数> である。この構文を使用すると、ユーザは音声制御式デ
バイスの器具<名前>を常に繰り返す必要なく、一連の
コマンドを発行できる。しかしユーザは、コマンドの開
始時に<名前>を言うことが許されている。この構文で
は、<沈黙>は話された<名前>または<コマンド>を
正しく認識するために要求されることに注意されたい。
【0077】第1または第2の代替構文のうちどちらか
が使用されている場合、新しいユーザが音声制御式デバ
イスを使用し始めたかどうか、これらが正しく識別され
ているかどうかを確認することが望ましい。これは動作
をしない時間の後、または音声制御式デバイスの電力を
いれた後、または他の同様なプロトコルの後に、明示的
に<名前>を要求することによって確認することができ
る。
【0078】標準のコアVUIコマンド 標準VUIを使用して動作する音声制御式デバイス10
2のボキャブラリ524内に含まれる標準のコア・コマ
ンドは、いくつかある。図6A〜8は、以下のコマンド
の構文を示す。
【0079】図6Aを参照すると、開始600の時点で
音声制御式デバイスの器具名、<名前>は通常コマンド
の前に話される。音声制御式デバイスがコマンドを聞い
ている時にいつでも音声制御式デバイスの任意の器具名
を話すことができる。<名前>の後、所定の期間内にコ
マンドが続かない場合、音声制御式デバイスは元のアイ
ドル状態の開始600に戻る。これはN秒の実線の箱の
沈黙によって示される。この場合のNは通常、アプリケ
ーションに依存し、音声制御式デバイスのメーカによっ
て割り当てられているプログラミング可能な値である。
器具名を与えた後、601でユーザは音声制御式デバイ
ス上で動作する標準のVUIのさらなるコマンドにアク
セスすることを許可される。
【0080】ヘルプ・コマンドの構文は次の通りであ
る。<名前>ヘルプ<コマンド(オプション)>、また
は、ヘルプ<コマンド(オプション)>。ヘルプ・コマ
ンドは、任意の他のコマンドが与えられる時、または音
声制御式デバイスが応答を待っている時いつでもをも含
んだ任意の時に起動できる。音声制御式デバイスが有効
なコマンドを待っている間にヘルプ・コマンドが発行さ
れた場合、音声制御式デバイスが他のコマンドの前に<
名前>を要求する場合は、ヘルプの前に<名前>がなけ
ればならない。音声制御式デバイスが任意の他のタイプ
の応答を待っている間にヘルプ・コマンドが要求された
場合は、ヘルプ・コマンドの前に<名前>がある必要は
ない。<名前>がヘルプの前に要求されないすべての場
合、ユーザが「<名前>ヘルプ」と言った場合、<名前
>の使用はエラーを生じない。
【0081】ヘルプ機能は文脈依存であり、ヘルプが要
求されるといつでも、音声制御式デバイスは音声制御式
デバイスの現在の文脈が与えられれば、使用可能なオプ
ションの説明で応答する。音声制御式デバイスがコマン
ドを聞いている時にヘルプが要求されている場合、音声
制御式デバイスはその状態と、応答できるコマンドのリ
ストで応答する(たとえば「メイン・メニューで
は、「...」と言うことができます」)。任意の特定
のコマンドについてさらなる詳細は、「ヘルプ<コマン
ド>」構文(たとえば「ヘルプ・ダイアル」、「ヘルプ
・コール」、「ヘルプ・ヘルプ」)で得ることができ
る。音声制御式デバイスが何らかの形の非コマンド応答
(たとえば「名前を言う」)を待っている間に「ヘル
プ」が要求された場合、音声制御式デバイスは音声制御
式デバイスの現在の状態のステートメントで応答し、次
に装置が何を待っているかの説明が続く(たとえば「ユ
ーザの応答を待っています。あなたが作りたい電話帳エ
ントリの人の名前を言ってください、またはNever
mind(おかまいなく)と言ってキャンセルしてくだ
さい」)。
【0082】キャンセル・コマンドの構文は次の通りで
ある。<名前(オプション)>Nevermind、ま
たは、<名前(オプション)>キャンセルします。Ne
vermindコマンドまたはキャンセル・コマンド
は、音声制御式デバイスがコマンドを実行し、ユーザか
らの応答を待っている時いつでも発行されるであろう。
Nevermindまたはキャンセルは、音声制御式デ
バイスに現在のコマンドをキャンセルさせ、動作がキャ
ンセルされたというステートメントで応答させる(たと
えば「キャンセルされました」)。音声制御式デバイス
がコマンドを待っている間にNevermindまたは
キャンセルが発行された場合、これは無視される可能性
もある。Nevermindまたはキャンセルを伴う<
名前>の使用はオプションであり、これは<名前>が話
されたかどうかとまったく同じように働く。
【0083】メイン・メニューへ戻るの構文は<名前>
メイン・メニューである。コマンドのサブメニューを有
する音声制御式デバイスについては、<名前>メイン・
メニューはユーザをメイン・メニューに戻し、「メイン
・メニューにいます」などの応答を起こさせる。このコ
マンドは、ユーザが任意のサブメニューから知られたポ
イントへ戻る簡単な方法を提供する。メイン・メニュー
・コマンドは1つのメニューしか有しない音声制御式デ
バイス内では認識される必要はないが、サブメニューを
伴う音声制御式デバイスについては必須のコマンドであ
る。
【0084】音声制御式デバイス名を変える 場合によっては、音声制御式デバイスのユーザ割当てさ
れた名前を変更することが望ましい可能性もある。次に
図6A〜6Bを参照すると、名前変更コマンドの構文は
次のとおりである。<古い名前>あなたの名前を変えま
す。このコマンドを使用すると、ユーザは音声制御式デ
バイスに命名したり命名を変更したりすることができ
る。音声制御式デバイスが新しい時、装置は少なくとも
1つのデフォルトの、工場でプログラミングされた器具
名を有する(たとえば電話)。ほとんどの音声制御式デ
バイスは、1つまたは複数のユーザが割当て可能な器具
名をサポートする機能を有する。ユーザは、「<工場で
プログラミングされた名前>あなたの名前を変えます」
と言うことによって、器具名を命名することができる。
(たとえば「電話、あなたの名前を変えます」)。音声
制御式デバイスは次いで、新しい名前が繰り返されるこ
とを求め、次いでその名前を変える。このプロセスは、
各ユーザが割当て可能な名前についてもう一度繰り返す
ことができる。たとえば、ユーザが4人で、4つのユー
ザが割当て可能な器具名を割り当てることのできる電話
を考えてみる。ユーザはコマンドで4つの名前の変更を
実行することがある。「電話、あなたの名前を変えま
す」の次にユーザ1のための名前を(たとえば)Aar
dvarkに設定するダイアログが続く。「電話、あな
たの名前を変えます」の次にユーザ2のための名前を
(たとえば)Barracudaに設定するダイアログ
が続く。「電話、あなたの名前を変えます」の次にユー
ザ3のための名前を(たとえば)Coyoteに設定す
るダイアログが続く。「電話、あなたの名前を変えま
す」の次にユーザ4のための名前を(たとえば)Dog
goneに設定するダイアログが続く。ユーザがコマン
ド(「電話、あなたの名前を変えます」)で続いて5番
目のユーザが割当て可能な名前を変更しようと試みた場
合、すべての使用可能なユーザが割当て可能な器具名が
割り当てられているのでエラー・メッセージという結果
になる。すべてのユーザ割当て名が定義されている場合
でも、音声制御式デバイスは常に工場でプログラミング
された名前で応答することに注意されたい。したがっ
て、この第5の試みの例では、音声制御式デバイスは依
然として工場でプログラミングされた「電話」という名
前を認識するが、第5の新しいユーザが割当て可能な器
具名を割り当てることはできないだけである。
【0085】既存のユーザが割当て可能な器具名はま
た、「あなたの名前を変えます」コマンドで変更するこ
ともできる。上の例を続けると「Aardvark、あ
なたの名前を変えます」は第1のユーザに関する器具名
を変更し(たとえば、これはPlatypusに変更で
きる)、他の3つのユーザ名を変更しないままに残す。
同様に、「Platypus、あなたの名前を変えま
す」の次に名前を「電話」に変えるダイアログが続く
と、第1のユーザ名を工場でプログラミングされたデフ
ォルトにリセットする。
【0086】音声制御式デバイスの識別 音声制御式デバイスが普及するにつれて、ユーザが新し
い環境に入った時に音声制御式デバイスがそこに存在し
た場合、どの音声制御式デバイスが存在するかを容易に
識別することができることが重要である。たとえば、ユ
ーザがいくつかの装置を有するホテルの部屋に入る。こ
れらを使用するために、ユーザはどの装置が音声制御式
デバイスであるかを知る必要がある。さらに、ユーザは
装置を正しく制御するために器具名を知る必要がある。
可聴的に識別される他に、音声制御式デバイスは視覚的
に識別され、また標準のVUIを使用する音声制御式デ
バイスを示すロゴを使用することによって識別できる。
【0087】音声制御式デバイスが起動して認識可能な
コマンドを聞いている時、音響的な識別が機能する。ほ
とんどの場合、これは音声制御式デバイスが絶え間なく
聞いて認識を試みていることを意味する。ほとんどのバ
ッテリで作動する音声制御式デバイスの場合は、この連
続的な認識による電力の浪費は認められないため、これ
らの音声制御式デバイスではACで電力が供給されてい
る。図6Aと図6Cを参照すると、音響的な識別はユー
ザが識別フレーズを通知し、音声制御式デバイスにコマ
ンドすることによって達成できる。識別フレーズ「そこ
に何がありますか」、または何らかの他の適切な識別フ
レーズを使用して、音声制御式デバイスにそれ自体を認
識させることが可能である。
【0088】標準のVUI識別フレーズの構文は、<沈
黙>そこに何がありますか、である。この照会に応答し
て、この質問を聞いた任意の音声制御式デバイスが応答
するはずである。典型的な音声制御式デバイスの応答
は、最長で2秒までの相対的な沈黙のランダムな遅延で
あり、次にビーという音(標準の信号)、および「あな
たは私を<名前>で呼ぶことができます」という応答が
続き、ここで<名前>は、音声制御式デバイスを指名す
るために使用できる工場でプログラミングされた名前で
ある。上に説明された電話の音声制御式デバイスの例で
は、応答は「<ビー>あなたは私を電話と呼ぶことがで
きます」であろう。
【0089】図6Cを参照すると、最長で2秒までのラ
ンダムな遅延の間に、各応答する音声制御式デバイスは
他の音声制御式デバイスの応答を聞く(特に、他の音声
制御式デバイスのビーという音)。この沈黙期間の間に
他の音声制御式デバイスが応答を始めた時(ビーという
音によって明白である)、聞いている音声制御式デバイ
スは応答している音声制御式デバイスが終了した後、そ
の沈黙タイミングを再開始しなければならない。2つの
音声制御式デバイスが同時に応答を開始した場合(ビー
という音が重複した場合)、これらは両方とも新しくラ
ンダムに選択された沈黙遅延の間中断しなければならな
い。しかしこの時、ランダムな遅延は第1の遅延より長
く、前の沈黙遅延の長さより最長で2倍程度である。ど
の場合でも、遅延は16秒を超えるべきではない。他の
音声制御式デバイスが応答した場合、さらなる矛盾の解
決のために追加の中断期間が与えられる。
【0090】図6Aを参照すると、ユーザが割当て可能
な名前のリクエスト・コマンドの構文は、<名前>あな
たの名前を言ってください、または<名前>あなたの名
前(複数)を言ってください、である。セキュリティが
許せば、任意のユーザがプログラミングした<名前>ま
たはデフォルトの<名前>が使用できる。音声制御式デ
バイスに、装置が応答するすべてのユーザにプログラミ
ングされた<名前>の一覧を求めるために、ユーザが割
当て可能な名前のリクエスト・コマンドが使用される。
セキュリティが許せば、音声制御式デバイスは、リスト
様式で各ユーザがプログラミングした名前を通知する。
各ユーザが割り当てた名前の間で、装置は一瞬一時停止
する。この一時停止の間、ユーザはコマンドを音声制御
式デバイスに通知する可能性があり、このコマンドは、
音声制御式デバイスがそのユーザにプログラミングされ
た<名前>を与えられた時と同じように実行される。た
とえば、上記の例の電話の音声制御式デバイスを考えて
みる。一時停止の後にコマンド「電話、あなたの名前を
言ってください」というコマンドは、「私はAardv
ark(一時停止)、Barracuda(一時停
止)、Coyote(一時停止)、およびDoggon
e(一時停止)と命名されました」と言うことによって
電話に応答させる。音声制御式デバイスが「Coyot
e」と言った後の一時停止の間、ユーザが「母に電話し
ます」と言うと、この場合、電話はユーザCoyote
の母にコールする(母に関する電話番号がユーザCoy
oteによってあらかじめ格納されていると仮定す
る)。
【0091】セキュリティ上の考慮事項 ユーザが割当て可能な名前に関するコマンドは、音声制
御式デバイスにおけるセキュリティの問題を提起する。
いくつかの場合では、音声制御式デバイスへのアクセス
を許可されたユーザに限定する必要がある。標準VUI
によってサポートされている音声制御式デバイス内で
は、種々のセキュリティ保護の方法が使用できる。
【0092】もっとも簡単でセキュリティの程度が低い
保護は、VUIの命名機能を介して与えられる。この場
合、各ユーザは音声制御式デバイスについて一意的な名
前を選択することが要求される。ユーザに割り当てられ
た器具名は音声制御式デバイス内で機密にされ、1人の
ユーザによってのみ変更され削除される。この方法で
は、器具名を使用して基本的なセキュリティを提供でき
る。しかし、この方法には多くの欠点がある。第1にユ
ーザは典型的に、各コマンドを発行する前に名前を繰り
返さねばならず、だれかが名前を簡単に立ち聞きできる
ようになり、セキュリティの損失という結果になる。第
2に、ほとんどの音声制御式デバイスはその装置につい
てユーザ名を削除または変更する機能を含む。削除およ
び変更を簡単に実行できるようにすることが望ましい。
さらに、変更はその特定のユーザ以外のだれかによって
実行される必要もあることがある。たとえば、ユーザが
音声制御式デバイスにもともと割り当てた名前を忘れる
可能性もあり、またはそのユーザが装置の使用をやめ、
彼の設定を削除できない可能性もある。器具名をセキュ
リティとして使用する場合は、簡単に名前を変えられる
ニーズと、セキュリティの質の間で固有の矛盾がある。
【0093】より高いレベルのセキュリティは、音声制
御式デバイスへアクセスするときに、ユーザに秘密の数
字のシーケンス、パスワード、またはフレーズを言うこ
とを要求することによって達成されることがある。何ら
かの処置のない期間の後、または何らかの他の基準に基
づいてユーザが音声制御式デバイスを使用する時に、ロ
グインが要求されることがある。この方法の欠点は、話
された数字のシーケンスまたはフレーズが立ち聞きされ
ることがあることである。別のセキュリティの選択肢
は、ユーザに数字のシーケンス、パスワード、またはフ
レーズを、オプションのキーパッド311などのキーパ
ッド上で入力することを要求することである。これは追
加のハードウェアを導入するが、これは別の人に秘密の
コードを立ち聞きされるリスクを除去する。種々の他の
セキュリティ・オプションもまた可能であり、その中に
は物理的なキーまたはセキュリティ・カードの使用も含
まれる(たとえば磁気ストライプまたはスマートカー
ド)。
【0094】追加のセキュリティは、音声制御式デバイ
スへのユーザのアクセスを自動的にキャンセルまたは終
了することによって行われる。場合によっては、アクセ
スはコマンドの実行後ごとに、自動的にキャンセルされ
ることがある。他の場合には、アクセスの自動的なキャ
ンセルは、処置のない何らかの期間、電力ダウンまたは
リセット、何らかの動作の完了(たとえば電話では、呼
の終了時)の後、または「キャンセル・アクセス」コマ
ンドの使用による特定の要求の時点で発生することがあ
る。
【0095】アプリケーション特有コマンド 標準のVUIは、各音声制御式デバイスにいくつかのア
プリケーション特有コマンドを提供する。標準VUIに
よって提供されるアプリケーション特有コマンドは、電
話と応答マシン・アプリケーションに関連付けられてい
る。追加のアプリケーション特有コマンドはメーカによ
ってそのボキャブラリ用にプログラミングされ、ボキャ
ブラリの中に含められることがある。
【0096】標準VUIのためにコマンドを開発する一
般的なガイドラインは次の通りである。サブメニューは
数を限定され、コマンドの論理的なグループの周囲に組
織されるべきである。たとえば、電話TADは電話機
能、電話帳管理のためのサブメニュー、およびTAD機
能の他のサブメニューを含むメイン・メニューを有する
ことがある。
【0097】任意のメニューまたはサブメニュー内のコ
マンドの数は一般に、10またはそれ以下に限定され、
複雑さを最小限にするべきである。ヘルプ機能は明確に
使用可能なコマンドを説明すべきである。
【0098】複雑なコマンドは、管理可能な小さな単位
に分割すべきである。コマンドのフレーズは、認識の成
功率を高くするように選択すべきである。標準のVUI
コマンドは、認識の精度を高くするように選択すべきで
ある。カスタム・ボキャブラリを作成する時、混乱をま
ねく恐れのあるフレーズの使用を避けるために注意をす
べきである。
【0099】破壊的なイベント(削除など)に関して
は、ユーザによる正しい入力の確認と動作の確認が要求
されるべきである。
【0100】電話のボキャブラリ 次に図6D〜6E、図7、図8を参照すると、標準VU
Iのための電話ボキャブラリのためのフロー・チャート
が示されている。電話ボキャブラリは特に、デスクトッ
プ電話、セルラ電話、セルラ電話自動車キット、コード
レス電話などの電話音声制御式デバイスのためのもので
ある。本発明のSRS204は電話ボキャブラリ内のコ
マンドを認識し、これらを電話音声制御式デバイスのた
めの制御用に認識されたトークンに変換する機能を有す
る。電話ボキャブラリはすべての標準VUIコア・コマ
ンドと、以下のアプリケーション特有コマンドを有す
る。
【0101】呼コマンドの構文は、<名前>電話します
<ボイスタグ>、または<名前>電話します<ディジッ
ト>のどちらかである。呼コマンドを使用し、一連のデ
ィジットまたは電話帳ボイスタグのどちらかとして表現
された特定の電話番号をダイアルする。<ディジット>
は数字のディジットの任意のリストであることがある。
電話音声制御式デバイスは、ゼロに対して「oh(オ
ー)」、ゼロ−ゼロに対し「hundred(ハンドレッ
ド)」という別名が可能である。<ディジット>のシー
ケンスは埋め込まれた一時停止を含むことがある。しか
し一時停止がプログラミング可能な長さを超えた場合、
シーケンスは終了され、システムの設計者によって設定
された長さを超えた一時停止を認識した後、コマンドが
実行される。呼コマンドに対する電話音声制御式デバイ
スの応答は、音声に表され、認識されたディジットまた
は認識されたボイスタグを伴う、「<ディジット>に電
話します」または「<ボイスタグ>に電話します」で、
正しい認識を確認するべきである。誤認識の場合、「キ
ャンセル」コマンドを使用して、呼動作をキャンセルす
ることがある。
【0102】ダイアル・コマンドの構文は、<名前>ダ
イアルします<ボイスタグ>、または<名前>ダイアル
します<ディジット>のどちらかである。ダイアルコマ
ンドは呼コマンドと同じである。
【0103】応答コマンドの構文は、<名前>応答しま
す、である。このコマンドを使用して、着信呼に答え
る。応答プロンプトは「お話しください」である。
【0104】電話を切るコマンドの構文は、<名前>電
話を切ります、である。このコマンドを使用して、起動
中の呼の電話を切る。応答プロンプトは、ピッチの高い
ビーという音である。
【0105】再ダイアル・コマンドの構文は、<名前>
再ダイアルします、である。このコマンドを使用して番
号を再ダイアルする。応答は「<ディジット>を再ダイ
アルします」または「<ボイスタグ>を再ダイアルしま
す」であり、前の呼コマンドまたはダイアル・コマンド
が<ディジット>へのものであるかまたは<ボイスタグ
>へのものであるのかによって異なる。それ以前に呼が
なかった場合、応答は「再ダイアルするものがありませ
ん」である。
【0106】格納コマンドの構文は、<名前>格納しま
す、である。格納コマンドは電話帳サブメニュー内にあ
り、これを使用して新しいボイスタグを追加する。
【0107】削除コマンドの構文は、<名前>削除しま
す、である。削除コマンドは電話帳サブメニュー内にあ
り、これを使用してボイスタグを削除する。
【0108】消音コマンドの構文は、<名前>消音しま
す、である。このコマンドはマイクロフォンの音を消
す。音声制御式デバイスによる応答は「消音されまし
た」である。
【0109】オンライン・コマンドの構文は、<名前>
オンラインにします、である。このコマンドはマイクロ
フォンの消音を外す。応答は「オンラインになりまし
た」である。
【0110】ユーザからの応答を要求するために、プロ
ンプトが音声制御式デバイスによって通知される。プロ
ンプトは発話合成器、または、あらかじめ記録された発
話の再生または他の手段によって通知される(すなわち
プロンプト指示する)。電話ボキャブラリ内のプロンプ
トは次の、文脈依存ヘルプ・プロンプトを含む。
【表1】
【0111】これらのプロンプトの他に、音声制御式デ
バイスはいくつかの異なるトーン音またはビーという音
を生成できる。これらは中間ピッチのビーという音(た
とえば500Hzの正弦波200ミリ秒間)、低いピッ
チのビーという音(たとえば間違った入力を示すブザー
の音、または、低い周波数のビーという音250ミリ秒
間)および高いピッチのビーという音(たとえば120
0Hzの正弦波200ミリ秒間)を含む。他の音も可能
であり、本発明の目的とする範囲の中である。
【0112】電話応答音声制御式デバイスのためのボキ
ャブラリ 前記の他に、標準VUIに関するアプリケーション特有
コマンドを使用すると、ユーザは音声コマンドを使用し
ている電話応答音声制御式デバイスへインタフェースで
きる。ユーザはキーパッドを使用しないでメッセージ機
能を管理し、電話応答音声制御式デバイスからの遠隔ア
クセスを得ることができる。以下は、電話応答音声制御
式デバイスについてボキャブラリ224に含まれるべき
追加の音声コマンドを一覧したものである。
【表2】
【0113】自動車制御ボキャブラリ 標準のVUIに関する追加の特定のコマンドを使用する
と、ユーザは音声制御を使用した自動車のアクセサリに
インタフェースできる。自動車の音声制御に関する2つ
の主な領域は、車内アクセサリの制御と、娯楽システム
の制御を含む。自動車のアクセサリは環境の制御、ウィ
ンドウ、ドア・ロック、車内の照明を含む。ステアリン
グ、ブレーキ、加速、および車外の照明などの自動車内
の「ミッション・クリティカル」な要素は、誤認識が発
生した時に安全面での心配が起きることがあるため、音
声によって制御されないことが好ましい。娯楽の制御は
第1にCDプレイヤ/チェンジャおよびラジオのために
使用される。
【0114】音声制御式デバイスのための自動車制御ボ
キャブラリ224は、空気調整、ファンの速度、温度、
ドライバのウィンドウ、乗客のウィンドウ、左の後部ウ
ィンドウ、右の後部ウィンドウ、ウィンドウ、ドア・ロ
ック、ワイパ、低い、中間、高い、増加、減少、設定、
再設定、キャンセル、消去、再呼び出し、オン、オフ、
より涼しく、およびより暖かくを含む。
【0115】APIに関する標準のユーザ・インタフェ
ース機能 本発明の標準VUIはユーザの対話のための標準機能を
含み、これはアプリケーション・プログラミング・イン
タフェース(API)によってアクセスされる。これら
のAPIに関する標準機能はGETYESNO、GET
RESPONSE、GETRESPONSEPLUS、
およびLISTANDSELECTを含み、これらはカ
スタム・ソフトウェア開発者によって使用されて、本発
明の標準VUIの上で動作するアプリケーションを開発
する。図9A〜9B、図10A〜10C、図11、およ
び図12は、標準VUI内のこれらの標準ユーザ・イン
タフェース機能の機能を示すフロー・チャートである。
簡単に言えば、GETYESNO機能はユーザから肯定
的な応答(はい)、または否定的な応答(いいえ)をプ
ロンプト指示し、受け入れるためのものである。GET
RESPONSE機能は、期待される応答のリストに対
応するユーザからの入力をプロンプト指示し、受け入れ
るためのものである。GETRESPONSEPLUS
機能はGETRESPONSE機能と同様にユーザから
の入力をプロンプト指示し、受け入れるためのものであ
るが、強化されたエラー回復機能を有する。LISTA
NDSELECT機能はユーザに選択肢の一覧を提供
し、ユーザが選択肢の1つを選択できるようにする。G
ETYESNO、GETRESPONSE、GETRE
SPONSEPLUS、およびLISTANDSELE
CTの動作は、1997年のInternationa
l Journal of Speech Techn
ologyにある、Bruce E.Balentin
eらによる、「Debouncing the Spe
ech Button:A slidingCaptu
re Window Device for Sync
hronizing Turn−Taking」から改
良した。図9Aは、はい/いいえメニューの使用を示
し、図9Bは、拒否または間違った認識を解決する方法
を示す。図10Aは、GETRESPONSE機能およ
びGETRESPONSEPLUS機能に関して、始動
ウィンドウまたは開始ウィンドウを示す。図10Bは、
GETRESPONSE機能およびGETRESPON
SEPLUS機能に関して、会話開始ウィンドウまたは
開くウィンドウ機能を示す。図10Cは、GETRES
PONSE機能およびGETRESPONSEPLUS
機能に関して、認識終了ウィンドウまたは閉じるウィン
ドウ機能を示す。図11は、GETRESPONSEP
LUS機能に関して二重の取込みウィンドウを示す。図
12は、LISTANDSELECT機能に関してメニ
ュー・リスト機能を示す。
【0116】図9A〜9Bを参照すると、GETYES
NOユーザ・インタフェース機能を使用すると、ユーザ
に質問をし、「はい」または「いいえ」(または他の言
語内の同等のフレーズ)などの肯定的な応答または否定
的な応答を受け取る。GETYESNOに関連するパラ
メータは、QUESTION期間とTIMEOUT期間
である。質問パラメータはユーザへの音声プロンプトで
あり、「はい」または「いいえ」などで肯定的または否
定的に応答できる質問をする。タイムアウト・パラメー
タは応答が検出されなかったとフラグを付ける前に応答
を待つ秒数である。音声制御式デバイスは応答または結
果に応じて、バイト値を戻す。「いいえ」応答が検出さ
れた場合は、0が戻される。「はい」応答が検出された
場合は、1が戻される。許可された時間内に応答が検出
なかった場合は、TimeOutエラーを示す17が戻
される。応答が検出されても認識不可能で、ボキャブラ
リ外の単語エラーを示す場合に、18が戻される。
【0117】図10A〜10Cを参照すると、GETR
ESPONSEユーザ・インタフェース機能は応答を促
し、応答を待つPromptをユーザに再生する。GE
TRESPONSEは、TopicListとして知ら
れるリスト内のトピックに一致する話された応答を探
す。GETRESPONSEは、認識されたトークンの
アレイを戻すか、エラー標識を戻す。GETRESPO
NSEに関連するパラメータは、Prompt、Tim
eOut、STS_SoundおよびTopicLis
tである。Promptパラメータは、ユーザに送信さ
れるべき最初のプロンプトである。TimeOutパラ
メータは、応答が検出されなかったとフラグを付ける前
に応答を待つミリ秒の数である。STS_Soundパ
ラメータ(早すぎた発話の音)は、ユーザがPromp
tの再生が終わる前に話した場合、再生される音または
プロンプトである。典型的には、STS_Soundは
話されたフレーズではなく短いトーン音またはビーとい
う音である。パラメータTopicListは、SRS
204が話された応答を識別するために使用すべきトピ
ックのリストに関するボキャブラリ・サブセットであ
る。音声制御式デバイスは整数アレイへのポインタを戻
す。TopicListに関連する応答の認識が成功し
た場合、アレイ内の最初の要素は戻されたトークンの数
であり、アレイ内の続く要素は各識別された発話要素に
関するトークン(1または複数の単語)である。要素1
はn、戻されるトークンの数である。要素2からn+1
は、認識された各発話要素に関するToken値であ
る。たとえば、「電話、オフィスにダイアルします」と
いうフレーズを考えてみる。発話要素「電話」のための
トークン値が7、発話要素「ダイアル」が12、発話要
素「オフィス」が103であった場合、次いで、これら
がすべてうまく認識された場合、戻される完全なアレイ
は値3、7、12、103を伴う4要素長である。応答
の認識が成功しない場合、アレイは2要素長である。最
初の要素はゼロに設定され、第2の要素は発生したエラ
ーのタイプを示す。この場合要素1は0に設定され、エ
ラーが検出されたことを示す。要素2は17に設定さ
れ、応答が許可された時間内で検出されなかったことを
示すか(TimeOutエラー)、または18に設定さ
れ、応答が検出されたが認識不可能であったことを示す
(ボキャブラリ外の単語のエラー)。タイムアウト・エ
ラーに関して戻されるアレイは、値0と17を伴う2要
素長であり、ボキャブラリ外の単語エラーに関して戻さ
れるアレイは、値0と18を伴う2要素長である。
【0118】図11を参照すると、GETRESPON
SEPLUSユーザ・インタフェース機能はユーザにP
romptを再生し、応答を促し、応答を待つ。GET
RESPONSEPLUSは、ユーザに対してProm
ptを再生し、次いで話された応答を待つという点でG
ETRESPONSEと同様である。しかし、GETR
ESPONSEPLUSEは、プロンプトを再生し、ユ
ーザが話さなかったり、または背景に過剰な雑音を有す
るエラー状況から回復するプロンプトを再生する機能を
有する。GETRESPONSEPLUSは、Topi
cList内のトピックに一致する話された応答を聞
く。GETRESPONSEPLUSEは、認識された
トークンのアレイか、エラー標識のどちらかを戻す。G
ETRESPONSEPLUSのパラメータはInit
ial_Prompt、Timeout、STS_So
und、TopicList、MaxTries、 I
ntervene_Prompt、Repeat_Pr
ompt、およびHelp_Promptである。In
itial_Promptパラメータは、ユーザに再生
され応答を促すべき最初のプロンプトである。Time
Outパラメータは、応答が検出されなかったとフラグ
を付ける前に応答を待つためのミリ秒の数である。ST
S_Soundプロンプトは、Promptの再生が終
了する前にユーザが話した場合に再生されるべき音また
はプロンプトである。典型的には、STS_Sound
プロンプトは話されたフレーズではなく、短いトーン音
またはビーという音である。TopicListパラメ
ータは、SRS204が使用して話された応答を識別す
べきトピックのリストに関するボキャブラリ・サブセッ
トである。MaxTriesパラメータは、GETRE
SPONSEPLUSがよく認識しようして、ユーザに
再びプロンプト指示する最大の回数である。MaxTr
iesの後認識できない場合、GETRESPONSE
PLUSが戻り、エラーを示す。Intervene_
Promptパラメータは、ユーザに繰り返しを求める
ために再生されるプロンプトである(たとえば「雑音が
多すぎます。言ったことを繰り返してください」)。こ
のプロンプトは、前の認識の試みの間に雑音が多すぎた
場合に、再生される。Repeat_Promptパラ
メータは、言ったばかりのことの繰返しをユーザに求め
るために再生されるプロンプトである(「言ったことを
繰り返してください」など)。このプロンプトは、発話
が早すぎるエラーが発生した時に使用される。Help
_Promptパラメータは、ユーザがさらに命令を必
要とするように見える時に再生されるプロンプトで、ユ
ーザが何も言わない時も含まれる。音声制御式デバイス
は、ユーザ・インタフェース機能の終了時点で、整数ア
レイへのポインタを戻す。TopicListに関連す
る応答の認識が成功した場合、アレイ内の第1の要素は
戻されたトークンの数であり、アレイ内の続く要素は各
識別された発話要素に関するトークンである(1つまた
は複数の単語)。要素1はnで、戻されたトークンの数
である。要素2からn+1は、認識された各発話要素に
関するトークン値である。たとえば「電話、オフィスに
ダイアルします」というフレーズを考えてみる。発話要
素「電話」のトークン値が7であり、発話要素「ダイア
ル」のトークン値が12、発話要素「オフィス」のトー
クン値が103であり、これらがすべてうまく認識され
た場合、戻される完全なアレイは4要素長で値は3、
7、12、103である。認識が成功しなかった場合、
アレイは4要素長である。第1の要素はゼロである。第
2の要素は発生したもっとも最近のエラーのタイプを示
す。第3の要素から第5の要素は、GETRESPON
SEPLUSが呼ばれた時からGETRESPONSE
PLUSが戻った時までの間に発生した、各タイプのエ
ラーの回数を示す。この場合、要素1は値0を有し、エ
ラーが検出されたことを示す。要素2は値17を有し、
応答が許可された時間内に検出されなかったことを示す
か(TimeOutエラー)、値18を有し、応答が検
出されたが認識不可能であったことを示し(ボキャブラ
リ外の単語エラー)、または値19を有し、早すぎた発
話エラーが検出されたことを示す。要素3は値xを有
し、TimeOutエラーが検出された回数を示す。要
素4は値yを有し、ボキャブラリ外の単語エラーが検出
された回数を示す。要素5は値zを有し、早すぎた発話
エラーが検出された数を示す。
【0119】図12を参照すると、LISTANDSE
LECTユーザ・インタフェース機能は第1にProm
ptを再生する。次いで、ListOfMenuPro
mptsアレイ内で各プロンプトを再生し、各プロンプ
トの後にPauseTimeの間、一時停止する。これ
らの一時停止の間、認識器はTopicList内のト
ピックに一致する話された応答を聞く。LISTAND
SELECTは認識されたトークンのアレイか、エラー
標識のどちらかに戻る。LISTANDSELECTに
関するパラメータは、Initial_Prompt、
Timeout、STS_Sound、TopicLi
st、ListOfMenuPrompts、Paus
eTime、およびHelp_Promptを含む。I
nitial_Promptパラメータは、ユーザに再
生されるべき最初のプロンプトである。TimeOut
パラメータは、ListOfMenuPrompt内の
すべてのプロンプトを再生した後、または応答が検出さ
れなかったとフラグを付ける前に、応答を待つためのミ
リ秒数である。STS_Soundパラメータは、プロ
ンプトの再生を終わる前にユーザが話した場合に再生さ
れるべき音またはプロンプトである。典型的には、ST
S_Soundは話されたフレーズではなく短いトーン
音またはビーという音である。TopicListパラ
メータはSRS204が使用して話された応答を識別す
べき、トピックのリストに関するボキャブラリ・サブセ
ットである。ListOfMenuPromptsパラ
メータは、一度に1つ再生されるプロンプトのアレイで
ある。アレイ内の第1の要素は、ListOfMenu
Prompts内のプロンプトの数のカウントである。
PauseTimeパラメータは、ListOfMen
uPrompts内の各プロンプトを再生した後に一時
停止する時間である。PauseTimeパラメータ
は、ミリ秒の値を有する。Help_Promptパラ
メータは、ユーザが何も言わなかった時を含め、ユーザ
がさらなる命令を必要とするように見える時に再生され
るプロンプトである。音声制御式デバイスはユーザ・イ
ンタフェース機能の完了時に、整数アレイへのポインタ
を戻す。認識が成功した場合、アレイ内の第1の要素は
戻されたトークンの数であり、アレイ内の続く要素は各
識別された発話要素に関するトークンである(1つまた
は複数の単語)。要素1は値nを有し、戻されたトーク
ンの数を示す。要素2からn+1は値xを有し、認識さ
れた各発話要素に関するトークン値を示す。認識が成功
しなかった場合、アレイは2要素長である。第1の要素
はゼロである。第2の要素は発生したエラーのタイプを
示す。この場合、要素1は値0を有し、エラーが検出さ
れたことを示す。要素2は値17を有し、応答が許可さ
れた時間内に検出されなかったことを示すか(Time
Outエラー)または、値18を有し、応答が検出され
たが認識不可能であったことを示す(ボキャブラリ外の
単語エラー)。
【0120】ACOUSTICADDWORD機能はア
プリケーション・ソフトウェアによって使用され、ユー
ザがフレーズ、またはボイスタグと呼ばれるものを音声
制御式デバイスに追加することを可能にする。これらの
フレーズはGETRESPONSE機能およびGETR
ESPONSEPLUS機能を使用して後から認識でき
る。ACOUSTICADDWORD機能を使用して、
たとえば、電話内で名前によるダイアル入力を作成する
ことができる。人の名前(「ジョン・スミス」)または
アイデンティティ(「母」)または他の区別するフレー
ズ(「私のオフィスの番号」)をACOUSTICAD
DWORDで格納することにより、人は「ジョン・スミ
スに電話します」「母に電話します」、または「私のオ
フィス番号に電話します」と言うことによってその番号
に後から電話することができる。
【0121】ACOUSTICADDWORDは、ボイ
スタグを指定されたTopicListに格納する。動
作において、ACOUSTICADDWORDはプロン
プトを再生し、ボイスタグを受信し記録し、ボイスタグ
を確認し、次いでボイスタグを格納する。Acoust
icAddWordは、ボイスタグを複数回再チェック
することによってエラーから回復する能力を有する。A
cousticAddWordは、重複の場合チェック
し、エラーをユーザに戻す。ACOUSTICADDW
ORDに関するパラメータは、Initial_Pro
mpt、Timeout、STS_Sound、Top
icList、MaxTries、Repeat_Pr
ompt、Intervene_Prompt、Err
or_Prompt、Ok_Prompt、およびHe
lp_Promptを含む。Initial_Prom
ptパラメータはユーザに再生されるべき最初のプロン
プトであり、音声制御電話の電話帳に名前を格納する例
では「新しい名前を言ってください」などである。Ti
meoutパラメータは、失敗が検出されたというフラ
グを応答に付ける前に待つミリ秒数である。STS_S
ound(Spoke−Too_Soon Soun
d)パラメータは、Promptが再生を終了する前に
ユーザが話した場合に再生されるべき音またはプロンプ
トである。典型的に、STS_Soundは話されたフ
レーズではなく短いトーン音またはビーという音であ
る。パラメータTopicListはSRS204が新
しいボイスタグを格納すべきボキャブラリ・サブセット
である。MaxTriesパラメータはよく認識しよう
として、AcousticAddWordがユーザに再
びプロンプト指示する最大数である。MaxTries
の後、認識できない場合、AcousticAddWo
rdはエラー指示を戻す。Repeat_Prompt
パラメータは、言ったばかりのことの繰返しをユーザに
求めるために再生されるプロンプトである(たとえば
「言ったことを繰り返してください」)。このプロンプ
トは、発話が早すぎるエラーが発生した時に使用され
る。Intervene_Promptパラメータは、
ユーザに繰り返しを求めるために再生されるプロンプト
である(たとえば「雑音が多すぎます。言ったことを繰
り返してください」)。このプロンプトは、前の認識の
試みの間に雑音が多すぎる時に再生される。Error
_Promptパラメータは、繰り返された名前が最初
の名前に一致しない時か、または名前が二重であった場
合に再生されるプロンプトである(たとえば「もう一度
試みてください」)。OK_Promptパラメータ
は、新しい名前がうまく記録され格納された時に再生さ
れるプロンプトである(たとえば「<名前>がアドレス
・ブックに格納されました」)。Help_Promp
tパラメータは、ユーザが何も言わなかった時を含め、
ユーザがさらなる命令を必要とするように見える時に再
生されるプロンプトである。音声制御式デバイスは、ユ
ーザ・インタフェース機能の完了時に、整数アレイへの
ポインタを戻す。AcousticAddWordに関
連する応答の認識が成功した場合、アレイは7要素長で
ある。要素1は値1であり、成功した認識を示す。要素
2はSRS204によって割り当てられたトークン数を
示す値であり、格納されたボイスタグに対応する。要素
3は、ボイスタグの記録されたコピーへのポインタであ
る。要素4は、発生したタイムアウト・エラーの回数を
示す値である。要素5は、名前に一致しなかった失敗が
あった回数を示す値である。要素6は、早すぎる発話が
発生した回数を示す値である。要素7は、ヘルプ・プロ
ンプトが再生された回数を示す値である。認識が成功し
なかった場合、アレイは6要素長である。第1の要素は
ゼロである。第2の要素は発生したエラーのもっとも最
近のタイプを示す。第3の要素から第5の要素は、Ac
ousticAddWordが呼ばれた時からAcou
sticAddWordが戻った時までの間に発生した
各タイプのエラーの回数を示す。第6の要素は、ヘルプ
・プロンプトが再生された数である。この場合、要素1
はエラーが検出されたことを示す値である。要素2は、
値17を有し、応答が許可された時間内に検出されなか
ったことを示し(TimeOutエラー)、値18は応
答が検出されたが認識不可能であることを示し(Noi
seエラー)、値19は発話が早すぎるエラーが検出さ
れたことを示し、値20はRecognitionの失
敗を示し(繰り返しに一致がない)、または値21はV
oicetagリストがすでに一杯であることを示す。
要素3は値xで、TimeOutエラーが検出された回
数を示す。要素4は値yで、認識エラーが検出された回
数を示す。要素5は値zで、発話が早すぎるエラーが検
出された回数を示す。要素6は、ヘルプ・プロンプトが
再生された回数を示す値である。
【0122】音声制御式デバイスに関するエチケット 標準VUIは、音声制御式デバイスに関するエチケット
を含む。一般に、音声制御式デバイス(マシンとも呼ば
れる)は、行儀のよいお客のようにふるまうべきであ
る。
【0123】しかし、音声制御式デバイスと一緒の生活
に含まれる人間的な要素と人間的な問題はあまり探求さ
れていない。音声制御式デバイスの設計の際は、次の提
案が考慮されなければならない。
【0124】人間に要求するマシン マシンは人間に何かするように求めることができる。任
意の要求はていねいであるべきである。たとえば音声起
動セルラ電話は、そのバッテリが低くなった時に充電す
ることを求めることがある。人間はつねにマシンの要求
を拒否する選択肢を有し、マシンは人間の生命または貴
重なデータを脅かすような状況であると考えない限り、
それをていねいに受け入れるべきであり、脅かすような
状況である場合はさらに緊急な抗議をすることがある。
【0125】自分自身のために電話を使用するマシン 音声制御式デバイスが電話に応答した場合、または人間
のユーザに電話した場合、その呼が人間と考えられるリ
スクがあった場合には、マシン自体でマシンであると自
分を明確にすべきである。
【0126】ユーザの発話の記録 どのマシンも、そこにいる人間が会話が記録または転写
されていることを認識しているのでなければ、人間のユ
ーザの会話を記録または転写すべきではない。
【0127】ボリューム・レベル マシンは、明確に人間の声の方が大きいのでない限り、
周囲の騒音レベルに応答してボリューム・レベルを変調
すべきである。マシンは人間が静かにして欲しいと思う
時にはそれに敏感であるべきである(たとえば人間が眠
っている時)。マシンは不必要にしゃべるべきではな
く、これらを黙らせる手段としてユーザが介入できるよ
うにすべきである。
【0128】マシンからマシンへの通信 図13は、通信する1対の音声制御式デバイス102M
と102Nの構成図である(各々はマシンとも呼ばれ
る)。その一方または両方は通信環境1300内で本発
明の標準の音声ユーザ・インタフェース500を使用す
ることができる。音声制御式デバイスは互いに話して、
他にどの音声制御式デバイスが存在するか、これらがど
の種類の情報を理解するかを見つけ出し、情報を交換す
ることができる。たとえば、音声制御TVは音声制御V
CRに、動作するために必要な設定に関して尋ねること
がある。音声制御式デバイス間のマシンからマシンへの
通信は、可聴フォーマットおよび非可聴フォーマットの
両方で発生する。本質的に、発話を使用したマシンから
マシンへの通信は任意の発話互換媒体上で発生する可能
性があり、空気を介した音波、従来の電話リンク、イン
ターネットの音声リンク、無線の音声チャネルなどを含
む。マシンからマシンへの通信は、マシンの一部、また
はマシンのすべてが本発明のVUIを含む場合にも起
き、またどのマシンも本発明のVUIを含まない場合に
も起きる。
【0129】標準のVUIを使用すると、音声制御式デ
バイスは他の音声制御式デバイスを多くの方法で通信環
境内に置くことができる。これらは人間の他のマシンと
の対話の立ち聞き、マシンの別のマシンとの対話の立ち
聞き、識別フレーズ「<沈黙>そこに何がありますか」
を使用することによって自分自身を識別するように近く
のマシンに明示的に要求すること、「<沈黙>時計、そ
こにありますか」という名前カテゴリーによってそれら
を示すことによって特定の種類のマシン(たとえばすべ
ての時計)を明示的に探すこと、または「<沈黙>So
crates、そこにありますか」という名前によって
指名して特定のマシン(たとえば、Socratesと
名付けられたクロック)を明示的に探すことを含む。
【0130】最初の2つの場合では、他の会話を聞くプ
ロセスは、別のマシンの名前を明らかにする。別の3つ
の場合は、「あなたはそこにありますか」コマンドに応
答した、呼べば聞こえる場所にいるマシンは、自分の名
前で応答する。最後の2つの場合は、「そこに何があり
ますか」コマンドは、マシンの所定の種類と、特定の名
前のマシンに限定され、これによってそのコマンドに応
答するマシンの数を限定する。目的の音声制御式デバイ
スの名前が分かると、最初の音声制御式デバイスは別の
コマンドを別のマシンに発行することができる(たとえ
ば「Socrates、今何時ですか」)。
【0131】場合によっては、音声制御式デバイスは別
の音声制御式デバイスに話しかける必要があることがあ
るが、その装置のうちどちらか1つかまたは両方とも、
上記のプロトコルを厳守していないことがある。これら
の場合、マシンを明示的にプログラミングして正しいコ
マンドを発行し、適切な応答を認識することができる。
この対話の簡単な例は、音声制御能力を有する音声制御
式デバイス、および、発話された時間報告や、所望のデ
ータ(時間)をただ捕捉するなどの音声に基づいたサー
ビスをダイアルする電話音声インタフェースである。
【0132】したがって、音声制御デバイスの活動化を
向上させる方法及び装置に関する、本発明の好ましい実
施形態が説明される。本発明の好ましい実施形態は発話
者から独立した音声認識システムを使用しているが、本
発明はまた、発話者に依存した音声認識システムとも互
換である。本発明が特定の実施形態内で説明されたが、
本発明はこのような実施形態によって限定されると解釈
されるべきではなく、首記の請求の範囲に従って解釈さ
れるべきである。
【図面の簡単な説明】
【図1A】本発明の音声制御式デバイスを含む環境を示
す図である。
【図1B】図1Aに示された環境内における、音声制御
式デバイスでの遠隔通信を示す図である。
【図2】例としての音声制御式デバイスの図である。
【図3】本発明の音声制御式デバイスの詳細な構成図で
ある。
【図4】音声通信チップの詳細な構成図である。
【図5】本発明の標準の音声ユーザ・インタフェースの
構成図である。
【図6A】〜
【図6C】本発明の標準の音声ユーザ・インタフェース
に関するコア・コマンド構造のフロー・チャートであ
る。
【図6D】〜
【図6E】本発明の標準の音声ユーザ・インタフェース
に関する電話コマンド構造のフロー・チャートである。
【図7】本発明の標準の音声ユーザ・インタフェースに
関する「名前を格納する」電話コマンド構造のフロー・
チャートである。
【図8】本発明の標準の音声ユーザ・インタフェースに
関する「名前を削除する」電話コマンド構造のフロー・
チャートである。
【図9A】〜
【図9B】本発明の標準の音声ユーザ・インタフェース
に関する「GETYESNO」機能のフロー・チャート
である。
【図10A】〜
【図10C】本発明の標準の音声ユーザ・インタフェー
スに関する「GETRESPONSE」機能のフロー・
チャートである。
【図11】本発明の標準の音声ユーザ・インタフェース
に関する「GETRESPONSEPLUS」機能のフ
ロー・チャートである。
【図12】本発明の標準の音声ユーザ・インタフェース
に関する「LISTANDSELECT」機能のフロー
・チャートである。
【図13】本発明の標準の音声ユーザ・インタフェース
を使用して通信する一対の音声制御式デバイスの構成図
である。図の中の同様な参照番号と指示は、同様な機能
を提供する同様な要素を示す。
【コードの説明】
100 環境 101A〜101H 人間のユーザ 102A〜102H 音声制御式デバイス 105 接続 112 電話 114 伝送媒体 116 電話会社のスイッチ 118 遠隔コンピュータ 120 ネットワーク接続 102I〜102M 音声制御式デバイス
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成12年8月11日(2000.8.1
1)
【手続補正1】
【補正対象書類名】図面
【補正対象項目名】全図
【補正方法】変更
【補正内容】
【図1A】
【図1B】
【図10B】
【図2】
【図3】
【図4】
【図5】
【図6E】
【図10C】
【図6A】
【図10A】
【図6B】
【図6C】
【図6D】
【図7】
【図8】
【図9A】
【図9B】
【図11】
【図12】
【図13】
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/22 G10L 3/00 561H 571K 571H 571V (72)発明者 デイビッド・マックミラン アメリカ合衆国・94062・カリフォルニア 州・ウッドサイド・ジェファーソン アベ ニュ・3931 (72)発明者 エイブラハム・バーレル イスラエル国・99782・ドアール ナ シ ムション・ミシュマール アヤロン・22 (72)発明者 エイモス・ブラウン イスラエル国・54000・ジバット スムヘ ル・ハナシ・45 (72)発明者 カリン・リセット・ブーツマ アメリカ合衆国・95134・カリフォルニア 州・サン ホゼ・ミラン ドライブ 108 番・445 (72)発明者 ローレンス・ケント・ガディ アメリカ合衆国・95118・カリフォルニア 州・サン ホゼ・ラヴェンナ コート・ 5623 (72)発明者 フィリップ・ポール・プヨ アメリカ合衆国・95130・カリフォルニア 州・サン ホゼ・エルムウッド ドライ ブ・4989

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 認識精度を向上させるために音声制御電
    子デバイスを活動化させる方法であって、 a)通信環境における相対的沈黙を待つ発話認識システ
    ムを有する音声制御電子デバイスを設けるステップと、 b)前記通信環境における第1の相対的沈黙の期間を設
    けるステップと、 c)前記第1の相対的沈黙の期間を設けた後に、前記通
    信環境で前記音声制御電子デバイスに関連付けられた器
    具名を通信するステップと、 d)前記通信環境でコマンド・セットのコマンドを通信
    するステップと、 e)前記相対的沈黙、前記器具名および前記コマンドが
    すべて前記音声制御電子デバイスによって認識された場
    合に前記音声制御電子デバイスを活動化させ、そうでな
    い場合は認識されるまでステップ(b)から(e)のシ
    ーケンスを繰り返すステップとを含む方法。
  2. 【請求項2】 前記音声制御電子デバイスが話者に依存
    しない請求項1に記載の音声制御電子デバイスを活動化
    させる方法。
  3. 【請求項3】 認識精度が向上された音声制御電子デバ
    イスであって、 プロセッサと、 前記プロセッサに結合されたプロセッサ可読記憶媒体
    と、 前記プロセッサによって実行可能な前記プロセッサ可読
    記憶媒体に記録され、通信環境における第1の相対的沈
    黙の期間を認識するコードと、 前記プロセッサ可読記憶媒体に記録され、通信環境にお
    いて前記音声制御電子デバイスに通信された前記音声制
    御電子デバイスに関連付けられた器具名を認識するコー
    ドと、 前記プロセッサ可読記憶媒体に記録され、前記プロセッ
    サ可読記憶媒体に格納されたコマンド・セットのコマン
    ドを認識するコードであって、前記コマンドが前記通信
    環境において前記音声制御電子デバイスに通信されるコ
    ードと、 前記プロセッサ可読記憶媒体に記録され、前記第1の相
    対的沈黙の期間、前記器具名および前記コマンドを認識
    することに応答して前記音声制御電子デバイスを制御す
    るコードとを含む音声制御電子デバイス。
  4. 【請求項4】 前記プロセッサ可読記憶媒体に記録さ
    れ、第2の期間内で前記音声制御電子デバイスに通信さ
    れた前記コマンドに関連付けられたフレーズを認識する
    ことに応答して、前記音声制御電子デバイスをさらに制
    御するコードをさらに含む請求項3に記載の音声制御電
    子デバイス。
  5. 【請求項5】 可聴音声を使用して前記器具名および前
    記コマンドが与えられる請求項3に記載の音声制御電子
    デバイス。
  6. 【請求項6】 非可聴音声を使用して前記器具名および
    前記コマンドが与えら得る請求項3に記載の音声制御電
    子デバイス。
  7. 【請求項7】 認識精度を向上させるために音声制御電
    子デバイスを活動化させる方法であって、 a)通信環境における相対的沈黙を待つ音声認識システ
    ムを有する音声制御電子デバイスを設けるステップと、 b)前記通信環境における第1の相対的沈黙の期間を設
    けるステップと、 c)前記第1の相対的沈黙の期間を設けた後に、前記通
    信環境で前記音声制御電子デバイスに関連付けられた器
    具名を通信するステップと、 d)前記通信環境でコマンド・セットのコマンドを通信
    するステップと、 e)前記第1の相対的沈黙の期間、前記器具名および前
    記コマンドを認識し、第2の期間の時間を待つか、ある
    いは前記第2の期間の時間が満了する前に前記コマンド
    に関連付けられたフレーズが通信されるまで待って、前
    記音声制御デバイスを活動化させ、そうでない場合は認
    識されるまでステップ(b)から(e)のシーケンスを
    繰り返すステップとを含む方法。
  8. 【請求項8】 前記第1の相対的沈黙の期間、前記器具
    名および前記コマンドが認識され、前記フレーズが認識
    されない場合、前記音声制御デバイスが、前記フレーズ
    が認識された場合とは異なる方法で応答する請求項7に
    記載の音声制御電子デバイスを活動化させる方法。
JP2000149693A 1999-05-21 2000-05-22 音声制御デバイスの活動化を向上させる方法および装置 Pending JP2001005485A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US31660499A 1999-05-21 1999-05-21
US09/316604 1999-05-21

Publications (1)

Publication Number Publication Date
JP2001005485A true JP2001005485A (ja) 2001-01-12

Family

ID=23229766

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000149693A Pending JP2001005485A (ja) 1999-05-21 2000-05-22 音声制御デバイスの活動化を向上させる方法および装置

Country Status (3)

Country Link
EP (1) EP1054387A3 (ja)
JP (1) JP2001005485A (ja)
KR (1) KR20010020876A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003131772A (ja) * 2001-05-04 2003-05-09 Microsoft Corp Webで使用可能な認識のためのマークアップ言語拡張部
JP2009053781A (ja) * 2007-08-24 2009-03-12 Nintendo Co Ltd 情報処理プログラムおよび情報処理装置
US10448762B2 (en) 2017-09-15 2019-10-22 Kohler Co. Mirror
KR20200012928A (ko) * 2017-07-24 2020-02-05 미디어 그룹 코 엘티디 사용자 정의 가능한 웨이크업 음성 명령
US10663938B2 (en) 2017-09-15 2020-05-26 Kohler Co. Power operation of intelligent devices
US10887125B2 (en) 2017-09-15 2021-01-05 Kohler Co. Bathroom speaker
US11099540B2 (en) 2017-09-15 2021-08-24 Kohler Co. User identity in household appliances
US11153472B2 (en) 2005-10-17 2021-10-19 Cutting Edge Vision, LLC Automatic upload of pictures from a camera
US11921794B2 (en) 2017-09-15 2024-03-05 Kohler Co. Feedback for water consuming appliance

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100337268C (zh) * 2004-02-23 2007-09-12 宏碁股份有限公司 语音互动的方法及其系统
US7826945B2 (en) 2005-07-01 2010-11-02 You Zhang Automobile speech-recognition interface
US10088853B2 (en) 2012-05-02 2018-10-02 Honeywell International Inc. Devices and methods for interacting with an HVAC controller
US9536528B2 (en) * 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
US10145579B2 (en) 2013-05-01 2018-12-04 Honeywell International Inc. Devices and methods for interacting with a control system that is connected to a network
US10030878B2 (en) 2013-08-21 2018-07-24 Honeywell International Inc. User interaction with building controller device using a remote server and a duplex connection
US10054327B2 (en) 2013-08-21 2018-08-21 Honeywell International Inc. Devices and methods for interacting with an HVAC controller
US9295086B2 (en) 2013-08-30 2016-03-22 Motorola Solutions, Inc. Method for operating a radio communication device in a multi-watch mode
US10514677B2 (en) 2014-04-11 2019-12-24 Honeywell International Inc. Frameworks and methodologies configured to assist configuring devices supported by a building management system
CN104135619A (zh) * 2014-08-12 2014-11-05 广东欧珀移动通信有限公司 一种摄像头控制方法及装置
US10524046B2 (en) 2017-12-06 2019-12-31 Ademco Inc. Systems and methods for automatic speech recognition
US20190390866A1 (en) 2018-06-22 2019-12-26 Honeywell International Inc. Building management system with natural language interface
CN110491387B (zh) * 2019-08-23 2022-03-29 三星电子(中国)研发中心 一种基于多个终端的交互服务实现方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0810502A1 (de) * 1996-05-30 1997-12-03 DIEHL GMBH & CO. Steuereinheit für eine Heizungsanlage
US5926090A (en) * 1996-08-26 1999-07-20 Sharper Image Corporation Lost article detector unit with adaptive actuation signal recognition and visual and/or audible locating signal
WO1998055992A1 (de) * 1997-06-06 1998-12-10 BSH Bosch und Siemens Hausgeräte GmbH Haushaltsgerät, insbesondere elektrisch betriebenes haushaltsgerät

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003131772A (ja) * 2001-05-04 2003-05-09 Microsoft Corp Webで使用可能な認識のためのマークアップ言語拡張部
US11818458B2 (en) 2005-10-17 2023-11-14 Cutting Edge Vision, LLC Camera touchpad
US11153472B2 (en) 2005-10-17 2021-10-19 Cutting Edge Vision, LLC Automatic upload of pictures from a camera
US10071309B2 (en) 2007-08-24 2018-09-11 Nintendo Co., Ltd. Information processing program and information processing apparatus
JP2009053781A (ja) * 2007-08-24 2009-03-12 Nintendo Co Ltd 情報処理プログラムおよび情報処理装置
US9616337B2 (en) 2007-08-24 2017-04-11 Nintendo Co., Ltd. Information processing program and information processing apparatus
US8151007B2 (en) 2007-08-24 2012-04-03 Nintendo Co., Ltd. Information processing program and information processing apparatus
KR102293063B1 (ko) * 2017-07-24 2021-08-23 미디어 그룹 코 엘티디 사용자 정의 가능한 웨이크업 음성 명령
KR20200012928A (ko) * 2017-07-24 2020-02-05 미디어 그룹 코 엘티디 사용자 정의 가능한 웨이크업 음성 명령
JP2020525850A (ja) * 2017-07-24 2020-08-27 美的集団股▲フン▼有限公司Midea Group Co., Ltd. 方法、電子装置、家庭用機器ネットワークおよび記憶媒体
US10663938B2 (en) 2017-09-15 2020-05-26 Kohler Co. Power operation of intelligent devices
US11099540B2 (en) 2017-09-15 2021-08-24 Kohler Co. User identity in household appliances
US10887125B2 (en) 2017-09-15 2021-01-05 Kohler Co. Bathroom speaker
US11314215B2 (en) 2017-09-15 2022-04-26 Kohler Co. Apparatus controlling bathroom appliance lighting based on user identity
US11314214B2 (en) 2017-09-15 2022-04-26 Kohler Co. Geographic analysis of water conditions
US10448762B2 (en) 2017-09-15 2019-10-22 Kohler Co. Mirror
US11892811B2 (en) 2017-09-15 2024-02-06 Kohler Co. Geographic analysis of water conditions
US11921794B2 (en) 2017-09-15 2024-03-05 Kohler Co. Feedback for water consuming appliance
US11949533B2 (en) 2017-09-15 2024-04-02 Kohler Co. Sink device

Also Published As

Publication number Publication date
KR20010020876A (ko) 2001-03-15
EP1054387A3 (en) 2001-11-14
EP1054387A2 (en) 2000-11-22

Similar Documents

Publication Publication Date Title
JP2001027897A (ja) 音声制御デバイスの制御方法および装置
JP2001042895A (ja) 音声制御デバイスを識別する方法および装置
JP2001022372A (ja) 発話を使用した機械間の通信方法および装置
JP2001005485A (ja) 音声制御デバイスの活動化を向上させる方法および装置
JP2001013995A (ja) 標準の音声ユーザ・インタフェースの方法と装置および音声制御式デバイス
CN109410952B (zh) 一种语音唤醒方法、装置及系统
US20060074658A1 (en) Systems and methods for hands-free voice-activated devices
EP1171870B1 (en) Spoken user interface for speech-enabled devices
USRE41080E1 (en) Voice activated/voice responsive item locater
US20100332236A1 (en) Voice-triggered operation of electronic devices
CN111357048A (zh) 用于控制家庭助手装置的方法和系统
KR20030044899A (ko) 음성으로 제어되는 외국어 번역기용 방법 및 장치
CN101815121A (zh) 手机及手机寻找方法
JP3000999B1 (ja) 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体
CN111429917A (zh) 一种设备唤醒方法及终端设备
JP2002132292A (ja) 音声によるホームオートメーションシステム
KR20040008990A (ko) 음성인식 키 입력 무선 단말장치, 무선 단말장치에서키입력 대신 음성을 이용하는 방법 및 그 기록매체
KR102445779B1 (ko) 대화형 서비스 장치 및 대화형 서비스 장치의 제어 방법
CN217113827U (zh) 一种家用电器的声控系统
JPH04177400A (ja) 音声起動方式
JP3050232B2 (ja) 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体
CN114596856A (zh) 一种家用电器的声控系统