JP2001005485A

JP2001005485A - 音声制御デバイスの活動化を向上させる方法および装置

Info

Publication number: JP2001005485A
Application number: JP2000149693A
Authority: JP
Inventors: Michael Geilhufe; マイケル・ゲイルフーフ; David Macmillan; デイビッド・マックミラン; Avraham Barel; エイブラハム・バーレル; Amos Brown; エイモス・ブラウン; Karin Lissette Bootsma; カリン・リセット・ブーツマ; Lawrence Kent Gaddy; ローレンス・ケント・ガディ; Phillip Paul Pyo; フィリップ・ポール・プヨ
Original assignee: INF STORAGE DEVICES Inc
Current assignee: INF STORAGE DEVICES Inc
Priority date: 1999-05-21
Filing date: 2000-05-22
Publication date: 2001-01-12
Also published as: KR20010020876A; EP1054387A3; EP1054387A2

Abstract

(57)【要約】【課題】認識精度を向上させるために音声制御電子デ
バイスを活動化させる方法を提供する。【解決手段】この方法は、通信環境における相対的無
音の期間を設けること、その音声制御デバイスに関連付
けられた名前およびコマンドを伝達することを含む。音
声認識エンジンによっていずれも認識されない場合、音
声制御デバイスは活動化されない。音声制御デバイス
は、通信環境における相対的無音の期間を認識すること
に従って活動化させるソフトウェア、前記音声制御デバ
イスに関連付けられた名前およびコマンドを通知するこ
とを含む。

Description

【発明の詳細な説明】

【０００１】マイクロフィッシュの付録本出願は、ここには印刷されていないが参照により本明
細書に組み込まれ、ここに完全に記述されているかのよ
うに逐語的であり同じ効力を有する、Ｉｎｆｏｒｍａｔ
ｉｏｎＳｔｏｒａｇｅＤｅｖｉｃｅｓＩｎｃ．に
よる「ＩＳＤ−ＳＲ３００，ＥｍｂｅｄｄｅｄＳｐ
ｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎＰｒｏｃｅｓｓｏ
ｒ」という名称のマイクロフィッシュの付録を含む。

【０００２】

【発明の属する技術分野】本発明は一般にマシン・イン
タフェースに関する。特に、本発明はデバイス用の音声
ユーザ・インタフェースに関する。

【０００３】

【従来の技術】コンピュータ用のグラフィカル・ユーザ
・インタフェース（ＧＵＩ）はよく知られている。ＧＵ
Ｉは人間とコンピュータの対話のために、直感的で一貫
した方法を提供する。一般に、一度特定のＧＵＩの使用
方法を学ぶと、学んだ人は同じまたは同様のＧＵＩを使
用して動作する任意のコンピュータまたは装置を動作で
きるようになる。普及しているＧＵＩの例は、Ａｐｐｌ
ｅによるＭＡＣＯＳ、ＭｉｃｒｏｓｏｆｔによるＭＳ
Ｗｉｎｄｏｗｓ（登録商標）である。ＧＵＩは現在他
の装置にも移植されている。たとえば、ＭＳＷｉｎｄ
ｏｗｓＧＵＩは、いくつかの異なる装置の間に共通の
ＧＵＩを与えるために、コンピュータからパーム・トッ
プ、パーソナル・オーガナイザ、および他の装置へ移植
されている。しかし、名前が示すようにＧＵＩは少なく
とも何らかの種類のビジュアルまたはグラフィカル・デ
ィスプレイと、キーボード、マウス、タッチ・パッド、
またはタッチ・スクリーンなどの入力デバイスを要求す
る。ディスプレイと入力デバイスは装置内のスペースを
使用し、追加の構成要素を要求し、装置のコストを増大
する傾向がある。したがって、装置からディスプレイと
入力デバイスを除去し、コストを節約することが望まし
い。

【０００４】最近、装置を制御するために発話認識方法
を使用する音声ユーザ・インタフェース（ＶＵＩ）が導
入された。しかし、これらの従来技術のＶＵＩはいくつ
かの欠点を有し、これらがすべての装置で普遍的に使用
できなくなっている。従来技術のＶＵＩは通常使用が難
しい。従来技術のＶＵＩは通常、ＬＣＤなどの何らかの
ディスプレイを要求するか、キーパッドまたはボタンな
どの手動の入力デバイスを要求するか、またはディスプ
レイと手動の入力デバイスの両方を要求する。さらに、
従来技術のＶＵＩは通常、専用であり、ハードウェア装
置の単一の製作またはモデル、または単一のタイプのソ
フトウェア・アプリケーションへの使用に制限される。
これらは通常、コンピュータのオペレーティング・シス
テムとは異なって幅広く使用可能なわけではなく、した
がって、ソフトウェアのプログラマは種々の装置内でＶ
ＵＩで動作するアプリケーションを書くことができな
い。従来技術のＶＵＩに関連するコマンドは、通常は単
一のタイプの装置またはソフトウェア・アプリケーショ
ンのためにカスタマイズされている。従来技術のＶＵＩ
は通常、個別化とセキュリティを扱う方法など、多数の
ユーザをサポートすることにおいて追加の制限を有す
る。さらに従来技術のＶＵＩは、前もってユーザがＶＵ
Ｉ用の装置の存在を知っていることを要求する。従来技
術のＶＵＩはその装置の存在を決定する方法を提供して
いない。さらに、従来技術のＶＵＩは通常、インストラ
クション・マニュアルまたは画面に表示されたコマンド
を読んでその使用に習熟することをユーザに要求する。
従来技術のＶＵＩは通常、ユーザがコマンドを学ぶため
の可聴方法を含まない。さらに、標準化が欠如している
ため、多数の音声制御式デバイスを使用する時に多数の
従来技術のＶＵＩの使用方法を学ぶことを要求されるこ
とがある。

【０００５】一般に、ＶＵＩによって制御された装置
は、何らかの種類の手動制御を依然として要求する。何
らかの手動制御が要求されているため、ボタン、キーパ
ッド、または１組のボタンまたはキーパッドなどの手動
入力デバイスが用意されている。正しく手動入力するた
めに、ＬＣＤ、ＬＥＤまたは他のグラフィックスディス
プレイなどのディスプレイが提供されることがある。た
とえば、多くの音声起動電話は、電話番号が手動で格納
されていることを要求する。この場合は通常、手動入力
のために数字のキーパッドが用意されている。通常、正
しく手動入力し、装置の状態を表示するためにＬＣＤが
含まれている。発話合成システムまたは音声フィードバ
ック・システムは、これらの装置には欠けていることが
ある。ボタンとディスプレイの追加は、装置の製造コス
トを増大する。コストを下げるために、装置からすべて
の手動入力と表示を除去できることが望ましい。さら
に、特定のボタンまたはディスプレイを必要とせずに、
遠隔から装置を制御できるとさらに好都合である。

【０００６】従来は、ＶＵＩ用の装置は少数の人によっ
て使用されていた。さらに、彼らは音声をローカルに聞
くために近距離音場マイクロフォンを使用していた。多
くの従来の装置は何らかの方法で固定されていたかまた
は、携帯可能になりにくかったか、サーバに基づいたシ
ステムであった。携帯装置のための音声制御機能を提供
することが望ましい。音声制御式デバイスに、近距離音
場マイクロフォン技術または遠距離音場マイクロフォン
技術のどちらかを提供することが望ましい。音声制御機
能がより多くの装置に含まれるように、低コストの音声
制御機能を提供することが望ましい。しかし、これらの
希望は多数の音声制御式デバイスおよび多数のユーザが
同じ地域にいた時に問題を起こす。たがいに可聴範囲内
に多数のユーザと多数の音声制御式デバイスがあると、
音声制御式デバイスがどのユーザからのコマンドを受け
取り、応答するのか見分けることが難しくなる。たとえ
ば、多数のユーザがいる環境内で１人のユーザが家に電
話をかけたい場合の、音声制御セル電話の場合を考えて
みる。ユーザは音声で起動された、家に電話をかけるコ
マンドを発行する。複数の音声制御セル電話が家に電話
をかけるコマンドを可聴に聞いた場合、多数の音声制御
セル電話が応答し、それぞれの家の電話番号のダイアル
を開始する。以前は、音声制御式デバイスがほとんどな
かったのでこれはそれほど大きな問題ではなかった。

【０００７】

【発明が解決しようとする課題】いくつかの音声制御式
デバイスは発話者に依存する。発話者依存性とは、特定
のユーザが使用できるようになる前に、そのユーザによ
る訓練を要求する音声制御式デバイスを指す。発話者に
依存した音声制御式デバイスは、フレーズが話される方
法における音色の質を聞く。発話者に依存した音声制御
式デバイスは、多数のユーザまたは発話者が音声制御式
デバイスを使用するように要求されている用途には向い
ていない。これは、これらの装置は訓練を受けていない
ユーザからの発話を効率的に認識することができないた
めである。任意のユーザからの発話を認識するために、
わずかな訓練を要求するかまったく訓練を要求しないＶ
ＵＩを備えた発話者から独立した音声制御式デバイスを
提供することが望ましい。

【０００８】高い精度の発話認識を達成するために、音
声制御式デバイスはその装置に向けられていない発話へ
の応答を回避することが重要である。すなわち、音声制
御式デバイスは背景の会話、雑音、他の音声制御式デバ
イスへのコマンドに応答すべきではない。しかし、背景
の音を濾過して取り除くことが効果的すぎて、音声制御
式デバイスに向けられた発話の認識を妨げてはならな
い。背景の音の拒否と、音声制御式デバイスへ向けられ
た発話の認識の正しい混合比を見つけることは、発話者
から独立したシステムには特に難しい。発話者から独立
したシステムでは、音声制御式デバイスは幅広い声に応
答できなければならず、したがって、背景の音について
制限の厳しいフィルタを使用することはできない。対照
的に、発話者に依存したシステムは特定の人の声だけを
聞く必要があり、したがって背景の音に関してさらに厳
重なフィルタを使用することができる。発話者に依存し
たシステムにおけるこの利点にもかかわらず、背景の音
を濾過して取り除くことは依然として大きな課題であ
る。

【０００９】いくつかの従来技術のシステムでは、発話
の認識を起動するためにユーザにボタンを物理的に押さ
せることによって背景の会話が濾過して取り除かれた。
この方法の欠点は、ユーザが音声または発話だけによっ
てではなく、音声制御式デバイスと物理的に対話するこ
とを要求することである。音声制御式デバイスの潜在的
な利点の１つは、音声制御式デバイスがまったくハンド
フリーの動作を約束することである。発話の認識を起動
するためにボタンを押す必要性を除去することは、この
ハンドフリーの目的を達成するために多いに役立つであ
ろう。

【００１０】さらに、何人かの人が話している場所で
は、音声制御式デバイスは発話がその装置に向けられて
いない限り、すべての発話を無視すべきである。たとえ
ば、１人の人が別の人に「私はジョンに電話をする」と
言った場合、彼のポケットにあるセル電話は「ジョンに
電話をします」をコマンドとして翻訳すべきではない。
１つの場所に多数の音声制御式デバイスがある場合、ユ
ーザが制御したいのはどの音声制御式デバイスであるか
を一意的に識別する方法があるべきである。たとえば、
多数の音声制御電話、おそらく１組のデスクトップ電話
と、多数のセル電話がそれぞれ１人に１つずつある部屋
を考えてみる。だれかが「５５５−１２１２に電話をし
ます」と言ったとすると、各電話について所定のコマン
ドを無視するための手段がない限り、各電話は電話をか
けようと試みることがある。１つの音声制御式デバイス
が多数のユーザによって制御される場合、音声制御式デ
バイスがどのユーザがそれにコマンドを与えているのか
知ることが望ましい。たとえば、家の中の音声制御デス
クトップ電話は、夫、妻、子供によって使用されること
がある。各人は頻繁に電話する番号の独自の電話番号を
有することがある。音声制御式デバイスが「母に電話し
ます」と言われた時、装置が正しい人に電話できるよう
に、どのユーザがコマンドを発行しているのか知る必要
がある（つまり、電話は夫の母に電話すべきなのか、妻
の母に電話すべきなのか、または子供の母の仕事用の番
号に電話すべきなのか）。さらに、多数のユーザを有す
る音声制御式デバイスは、許可されない使用から守るた
めのセキュリティを実行したり、またはユーザの個別化
を他の人による故意でない対話または悪意のある対話
（盗み聞き、設定の変更、削除、追加を含む）から守る
ための方法を必要とすることがある。さらに、多数の音
声制御式デバイスがある場所では、音声制御式デバイス
の存在を識別する方法があるべきである。たとえば、新
しいホテルの部屋についた旅行者を考えてみる。ホテル
の部屋に入った時、旅行者はどんな音声制御式デバイス
が存在するのか、およびそれらをどのように制御するの
かを知りたいと思う。すべての音声制御式デバイスが同
じ方法で識別できるように、識別プロセスが標準化され
ていることが望ましい。

【００１１】音声制御式デバイスでは音声制御のもとで
フレーズを格納することが望ましい。フレーズは単一の
言葉、または単位として扱われる１グループの言葉とし
て定義される。この格納は、選択肢を設定することまた
は個別化を作成することであることがある。たとえば音
声制御電話では、音声制御の元で人の名前および電話番
号を個別化された電話帳に格納することが望ましい。後
から、この電話帳を使用して人の名前を発話することに
よって彼らに電話することが可能である（たとえば、
「セル電話、ジョン・スミスに電話します」または「セ
ル電話、母に電話します」）。

【００１２】フレーズ（「ジョン・スミス」）を格納す
るための従来技術の方法は、実際の音を保存しようとす
る圧縮された方法、圧縮されない方法、または変形され
た方法でフレーズを格納することによって動作した。次
いで、コマンド内におけるフレーズの検出は（つまり、
上の例ではジョンが電話されるべきであることを検出す
ること）、元の格納された発話音と、話されたコマンド
の間の、音に基づいた比較に依存する。時々、格納され
た波形は周波数ドメインに変形されるか、および／また
は、一致を促進するために時間調節されるが、どの場合
でも実行される基本的な動作は、実際の音を比較するこ
とである。格納された音の表現と検出のための比較は、
いくつかの欠点を被る。おそらく寒さ、ストレス、疲
れ、電話による騒音またはゆがんだ接続、または他の要
因によって発話者の声が変わると、典型的に比較は成功
せず、格納されたフレーズは認識されない。フレーズは
音の表現として格納されているので、テキストに基づい
たフレーズの表現を抽出する方法はない。さらに、音表
現を格納する結果、発話者に依存したシステムとなる。
別の人がコマンドで同じ音を使用して同じフレーズを話
し、フレーズを正しく認識させることが可能であるとは
考えられない。たとえば、秘書が電話帳のエントリを格
納し、マネジャがこれらのエントリを使用して電話をす
ることは信頼性がなくなる。発話者から独立した格納手
段を提供することが望ましい。さらに、フレーズが音表
現として格納されている場合、両方の音声制御式デバイ
スによって同じ波形処理アルゴリズムが使用されていな
い限り、格納されたフレーズは別の音声制御式デバイス
内で使用できない。フレーズは一度格納されたら、その
フレーズを使用して発話者から独立して認識でき、多数
の音声制御式デバイスによって使用できるような表現で
話されたフレーズを認識し格納することが望ましい。

【００１３】現在、コンピュータと他の装置はモデム、
赤外線、または無線高周波伝送を使用して他のコンピュ
ータや装置にコマンドおよびデータを通信している。送
信されたコマンドおよび／またはデータは、通常はその
コンピュータまたは装置だけが理解できるディジタルな
形である。人間のユーザがコマンドまたはデータを理解
できるようにするためには、コマンドまたはデータはコ
ンピュータによって復号化され、次いでディスプレイ上
に数字またはＡＳＣＩＩテキストなどの何らかの種類の
フォーマットで表示されなければならない。コマンドお
よび／またはデータが送信される時、これらは通常はコ
ンピュータまたは装置または送信機器によって理解され
る何らかのディジタルなフォーマットにコード化され
る。音声制御式デバイスがより普及するにつれて、音声
制御式デバイス間の通信のための追加の回路を設けるの
を避けるために、音声制御式デバイスが人間のような発
話を使用して互いに通信できることが望ましい。さら
に、人間のユーザの介入がなくても、多数の音声制御式
デバイスがマシンからマシンへ情報を交換できることが
望ましい。

【００１４】

【課題を解決するための手段】本発明は請求項に説明さ
れたような方法、装置、およびシステムを含む。簡単に
言うと、標準の音声ユーザ・インタフェースが提供さ
れ、標準の発話コマンドを使用することによって種々の
装置を制御する。標準のＶＵＩはユーザと音声制御式デ
バイス間のインタフェースに関し、１組の標準のＶＵＩ
コマンドと構文を提供する。標準のＶＵＩコマンドは、
音声制御式デバイスが１つの環境の中で使用可能かどう
かを決定するための識別フレーズを含む。他の標準ＶＵ
Ｉコマンドは、音声制御式デバイスの名前を決定し、こ
れらを変えるために設けられる。

【００１５】音声制御式デバイスが開示される。音声制
御式デバイスは、ここでは可聴発話または非可聴発話の
どちらかによって制御される任意の装置として定義され
る。音声制御式デバイスはまた、ここでは器具、マシ
ン、音声制御器具、音声制御電子器具、名前起動電子器
具、発話制御装置、音声起動電子器具、音声起動器具、
音声制御電子装置、または自動識別音声制御電子装置と
も呼ばれることがある。

【００１６】音声制御式デバイスの機能へアクセスする
ために、ユーザは一定期間の相対的な沈黙の後に、関連
する器具名のうち１つを音声制御式デバイスに通知す
る。器具名はデフォルトの名前の可能性もあり、ユーザ
が割当て可能な名前の場合もある。音声制御式デバイス
は、装置に関連した、ユーザが割当て可能な複数の名前
を有し、各ユーザに対して個別化された機能を提供する
可能性もある。

【００１７】本発明の他の態様は、詳細な説明の中で説
明される。

【００１８】

【発明の実施の形態】以下の、本発明の詳細な説明の中
では、本発明の完全な理解を与えるために多くの特定の
詳細が設定されている。しかし当業者であれば、これら
の特定の詳細がなくても本発明が実行できることは明ら
かであろう。他の例では本発明の態様を不必要に曖昧に
しないために、良く知られた方法、手順、構成要素、回
路は詳細には説明されていない。

【００１９】本発明は、標準の音声ユーザ・インタフェ
ースと音声制御式デバイスのための方法、装置、および
システムを含む。簡単に言えば、標準の発話コマンドを
使用することによって種々の装置を制御するために、標
準の音声ユーザ・インタフェースが提供される。標準の
ＶＵＩはユーザと音声制御式デバイスの間のインタフェ
ースに関して１組のコアＶＵＩコマンドと構文を提供す
る。コアＶＵＩコマンドは識別フレーズを含み、音声制
御式デバイスがある環境の中で使用可能かどうかを決定
する。他のコアＶＵＩコマンドは、音声制御式デバイス
の名前の決定を決定し、名前を変更するためのものであ
る。

【００２０】音声制御式デバイスが開示される。音声制
御式デバイスは、ここでは可聴発話または非可聴発話の
どちらかによって制御される任意の装置として定義され
る。可聴および非可聴は、ここではのちに定義される。
音声制御式デバイスはまた、ここでは器具、マシン、音
声制御器具、音声制御電子器具、名前起動電子器具、発
話制御装置、音声起動電子器具、音声起動器具、音声制
御電子装置、または自動識別音声制御電子装置とも呼ば
れることがある。

【００２１】本発明は可聴発話および非可聴発話を使用
して制御され、通信する。本発明に関してここで定義さ
れた発話は、ａ）信号または情報がそれを空気圧の変化
に変換する適切な装置を介して通過させられた場合、信
号または情報は人間によって聞かれることができ言語と
して考えられるような信号または情報、ｂ）人間が信号
を聞く場合は、人間がそれを言語として考えるように、
空気圧の実際の変化を含む信号または情報を包含する。
可聴発話は、補助がなくても人間が聞くことのできる発
話を指す。非可聴発話は、可聴発話の定義の元に含まれ
ない発話の任意のコード化または表現を指し、人間の聴
力範囲の外で、空気以外の送信媒体で通信される可能性
のあるものを含む。発話の定義は、人間によって発せら
れた発話と、マシンから発せられた発話を含む（マシン
発話合成、プロンプトまたは他の形式など前もって記録
された人間の発話の再生を含む）。

【００２２】音声制御式デバイスによって通知されるプ
ロンプトと、ユーザによって通知されるフレーズは、英
語以外の言語または方言、または多数の言語の組合せで
あることがある。フレーズはここでは単一の単語、また
は単位として扱われる単語のグループとして定義され
る。ユーザはここで定義されているように人間または装
置であり、音声起動装置を含む。したがって「ユーザの
話されたフレーズ」「コマンドを発行するユーザ」およ
びユーザによるすべての他の処置は、装置による処置と
人間による処置を含む。

【００２３】音声制御式デバイスは発話によって制御さ
れるために、何らかの形の発話認識を含む。発話認識と
音声認識はここでは同義語として使用されており、同じ
意味を有する。好ましくは、発話者から独立した発話認
識システムが、音声制御式デバイスの発話認識機能を提
供するために使用される。発話者から独立した発話認識
システムは、発話者から独立した発話表現に応答する。
好ましい実施形態では、発話者から独立した発話表現
は、発話の音声的な表現である。しかし、発話者から独
立した発話の他の表現もまた、本発明によって使用され
ることがある。

【００２４】本発明を備えた音声制御式デバイスの完全
な機能へアクセスするために、ユーザは音声制御式デバ
イスが関連する器具名の１つを音声制御式デバイスに通
知しなければならない。器具名は１つまたは複数のデフ
ォルト名、または１つまたは複数のユーザが割当可能な
名前を含む。音声制御式デバイスは、個別化された機能
を各ユーザに提供するために、音声制御式デバイスに関
連した、ユーザが割り当て可能な複数の名前を有するこ
とがある。

【００２５】さらに本発明は、装置に向けられていない
背景の騒音または発話によって間違ってトリガさせられ
ることなく、会話が継続している間発話認識エンジンを
起動したままにしておく方法を提供する（ローカルな会
話または電話リンク上の会話を含む）。これを達成する
ために、本発明は本発明の標準ＶＵＩによって提供され
る音声制御式デバイス用の命名スキームを使用する。一
般に、音声制御式デバイスはその器具名によって指名さ
れない限り、装置はすべての発話を無視する。（のちに
論じられるが、この規則には１組の特別な例外があ
る）。所定の場合では、コマンドを認識するための基準
はさらに強化され、音声制御式デバイスのユーザが割り
当てた器具名によって指名されることを必要とする。音
声制御式デバイスは多数のユーザを有する可能性があ
り、多数のユーザの各々は、本発明の標準ＶＵＩのコマ
ンドを使用して装置に一意的な器具名を割り当てる。音
声制御式デバイスがユーザ割当て名のうち１つによって
指名された時、音声制御式デバイスはこれが指名されて
いることを決定し、またどのユーザが装置を指名してい
るのかを決定することができる。これは音声制御式デバ
イスがその、特定のユーザに関する個別化を使用するこ
とができる。たとえば、音声起動電話が４つの異なるユ
ーザ割当て名を有し（たとえばＡａｒｄｖａｒｋ，Ｐｌ
ａｔｙｐｕｓ，Ｓｏｃｒａｔｅｓ，Ｚｅｕｓ）、各ユー
ザは母に向けた電話帳エントリに関連した異なる電話番
号を有することがある。第１のユーザが「Ａａｒｄｖａ
ｒｋ、母に電話をします」と言った時、第１のユーザの
母が電話で呼ばれる。第２のユーザが「Ｐｌａｔｙｐｕ
ｓ、母に電話をします」と言った時、第２のユーザの母
が電話で呼ばれる。Ｇｅｒｏｎｉｍｏはその器具名の１
つではないので、「Ｇｅｒｏｎｉｍｏ、母に電話をしま
す」というコマンドはこの音声制御式デバイスによって
は起動しない。

【００２６】本発明の他の態様は、音声制御式デバイス
の認識の精度を向上する。本発明は、第１に音声制御式
デバイスに向けられたフレーズの前に相対的な沈黙の期
間を要求し、第２に器具名を要求し、第３に有効なコマ
ンドを要求することによって認識の精度を集合的に向上
する。完全な沈黙は必要ないが相対的な沈黙が必要であ
り、ここで相対的な沈黙とは、フレーズが話されている
時の音レベルより静かな音レベルと定義される。要求さ
れる特定の期間の相対的な沈黙と、相対的な沈黙と音声
制御式デバイスに向けられた話されたフレーズの音強度
との間の許容されたデシベル差は、作成される音声制御
式デバイスのタイプ、装置が目的とする動作環境、使用
される発話認識システムの能力、および他の要因に依存
する。いくつかの場合では、要求される相対的な沈黙の
長さおよび／またはデシベル差は、特定の環境内で認識
の精度を最大化するために、音声制御式デバイスまたは
関連する回路またはソフトウェアによって変化させられ
る可能性もある。標準ＶＵＩによれば、各ユーザは音声
制御式デバイスに一意的な名前を割り当てることがで
き、またはデフォルトの器具名を使用することもでき
る。器具名を音声制御式デバイスに通知した後、コマン
ドが話されなければならない。この時点での有効なフレ
ーズは、「Ｈｅｌｐ」または「Ｃａｎｃｅｌ」のような
特別なフレーズを含み、標準のＶＵＩ文法の一部であ
る。有効なコマンドが認識されないと、音声制御式デバ
イスは全シーケンスを拒否し、沈黙を待つ状態に戻る。
さらに、コマンドに応じて、典型的にはコマンドの修飾
子を表す１つまたは複数の追加フレーズが提供されるま
たは要求されることがある（たとえば、コマンド・シー
ケンス「＜沈黙＞５５５−１２１２に電話します」内の
電話番号）。この時点での有効な入力はまた、「Ｈｅｌ
ｐ」または「Ｃａｎｃｅｌ」のような特別なフレーズを
含み、これは標準のＶＵＩ文法の一部である。コマンド
の後短い時間内に有効なフレーズの検出に失敗すること
は、全コマンド・シーケンスを拒否するための基礎とし
て使用するか、ユーザに彼の目的を明確にするようにプ
ロンプト指示するための基礎として使用することができ
る。どちらの方法でも、これは、追加のレベルの精度チ
ェックとして働く。別法として、フレーズがコマンドの
後短い時間の間に検出されない場合でも、とにかくコマ
ンドが実行される可能性もある。

【００２７】音声制御式デバイスは、視覚的な識別、ま
たは音響的な識別、またはその両方によって識別でき
る。音響的な識別は、音声制御式デバイスとの可聴通信
と非可聴通信の両方を含むとして定義される。可聴と非
可聴は他の場所で定義されている。視覚的な識別は標準
的なロゴまたは他の視覚的な識別子の使用を介して生じ
ることがある。点滅するＬＥＤは、視覚的な識別子の別
の例である。視覚的な識別は特に、常に起動されている
発話認識エンジンを有しない音声制御式デバイスに適し
ている。たとえば、バッテリの消費を最小にするため
に、バッテリで作動する音声制御式デバイスはスイッチ
（または、フリップ型セル電話のフリップ・オープンな
ど、その等価物）を押して発話認識エンジンを起動する
ことをユーザに要求することがある。音響的な識別は、
認識可能なコマンドを積極的に聞く音声制御式デバイス
だけに機能する。音響的な識別は、識別フレーズを言う
ユーザによって達成される。識別フレーズの例は、「そ
こに何がありますか」である。音声制御式デバイスは、
１つまたは複数の識別フレーズを有することがある。識
別フレーズを聞く任意の音声制御式デバイスが応答し
て、装置の存在を識別する。標準ＶＵＩによれば、応答
は最長２秒までの沈黙のランダム遅延であり、そのあと
に標準の信号（たとえば１つまたは複数のトーンまたは
ビーという音または他の音）、次いで少なくとも１つの
音声制御式デバイスの器具名、および任意の適用可能な
基本的な動作命令が続く（たとえば、「＜ビー＞私は電
話です。あなたは電話ヘルプと言うことができま
す」）。同じ通信環境内で多数の音声制御式デバイスか
らの応答を調整するために、各音声制御式デバイスはそ
の沈黙期間の間、別の音声制御式デバイスの応答を聞か
なければならず、他の音声制御式デバイスの応答の開始
は標準信号によってマークされる。他の音声制御式デバ
イスの標準信号の検出は都合のよい任意の手段で達成で
き、音声認識システムによる手段、ＤＳＰによる手段、
マイクロプロセッサによる手段、または特別な回路によ
る手段を含む。別の音声制御式デバイスがこの沈黙期間
の間に応答を開始した場合は、聞く側の音声制御式デバ
イスは、応答する側の音声制御式デバイスが終了した
後、沈黙タイミングを再開始しなければならない。２つ
の音声制御式デバイスがほとんど同時に応答を開始した
場合（たとえば、それらがちょうど良い時に標準信号重
複であるように）、これらは両方とも、ランダムに選択
された新しい沈黙遅延の間譲歩しなければならないが、
この時遅延は前の沈黙遅延の長さの最長２倍までであ
り、１６秒を超えてはならない。

【００２８】識別フレーズに応答する音声制御式デバイ
スを制限するために、ユーザは識別フレーズ内に音声制
御式デバイスの名前を含めることがある。たとえば１人
のユーザが「Ｓｏｃｒａｔｅｓ、そこにありますか」と
言って、Ｓｏｃｒａｔｅｓと名付けられた音声制御式デ
バイスが近くにあるかどうかを確かめることがある。同
様に、１人のユーザが、「Ｃｌｏｃｋ、そこにあります
か」と言って、Ｃｌｏｃｋという器具名（デフォルトの
器具名であろうとユーザ器具名であろうと）を有するす
べての音声制御式デバイスに応答させる可能性もある。
可能性のある変形例として、たとえばセキュリティ上の
理由で必要とされるために、音声制御式デバイスがその
名前以外の何らかの応答で応答することがある。

【００２９】音声制御式デバイスは、視覚的な識別方法
と音響的な識別方法の両方を使用することがある。たと
えば、発話認識エンジンが連続的に動作中であっても、
視覚的なロゴおよび／または他の視覚的な識別子を依然
として表示することがある。同様に、発話エンジンの手
動での起動を要求する音声制御式デバイス内では、エン
ジンは一度起動されると、「そこに何がありますか」と
いうコマンドに応答できる。

【００３０】本発明の別の態様では、ユーザの話された
フレーズの最初の格納（たとえば音声制御の元で新しい
電話帳エントリを作成する時）は、音声制御式デバイス
の、発話者から独立した発話認識エンジンによって処理
される。このエンジンは、発話者から独立した、フレー
ズの音声的な表現を戻す。この発話者から独立した音声
的な表現が、格納されたものである。

【００３１】コマンドがユーザから発行された時、これ
はまた、本発明の発話者から独立した発話認識エンジン
によっても処理される。これは元のエントリを格納する
ための、発話者から独立した同じエンジンの使用である
可能性もあるし、まったく異なる、発話者から独立した
エンジンである可能性もある。どちらの場合でもエンジ
ンは、コマンド・シーケンスの発話者から独立した音声
的な表現を戻す。この発話者から独立した音声的な表現
は、前に格納された音声的な表現と比較され、コマンド
が認識可能かどうかを決定できる。

【００３２】格納されている話されたエントリと任意の
コマンドの両方を、発話者から独立した音声的な表現に
変換することによって、多くの利点が提供される。・おそらく病気、ストレス、疲労、雑音の多いまたは歪
んだ電話リンクでの送信、または人間のユーザまたはマ
シンのユーザの会話を変更する可能性のある他の要因に
よってユーザの音声が変化した場合でも、認識は信頼で
きる。テキストに基づいた情報が格納でき、次いで認識
できる。・認識は他のユーザが元の音声フレーズを格納した場合
でも信頼できる。・認識は、ユーザが格納したコマンドおよびフレーズに
ついても、発話者から独立したものとなることがある。・テキスト・ソースから発生し格納された入力および異
なる発話者から発生し格納された入力がすべて組み合わ
され、信頼を持って認識できる。・発話者から独立した音声上の表現の使用は、これらが
使用可能になると、改良された認識エンジンへのアップ
グレードを促進する。改良された発話認識エンジンは、
すべての格納されたエントリが音声的な形で保持されて
いるため、信頼性に影響を与えることなくまたは再格納
を要求することなく、既存の格納された情報を使用する
ことができる。改良された発話認識エンジンを使用して
格納された新しい情報は、より古い認識エンジンを有す
る機器上でも使用できる。古い世代の機器と新しい世代
の機器は、音声的な表現を使用することによってあらか
じめ調整しなくても対話できる。これによってたとえ
ば、２つのＰＤＡが音声で格納された電話帳エントリを
交換し、その情報の新しいユーザに信頼できる認識を提
供することが可能になる。最後に、同じレガシ波形の変
換を常に正しく実行できなければならない波形格納に基
づいたシステムとは異なり、発話者から独立した認識エ
ンジンが音声的な表現を作成できる限り、発話者から独
立した認識エンジンのさらなる開発を妨げたり制限した
りするレガシの制限はない。

【００３３】音声制御式デバイス次に図１Ａを参照すると、環境１００が示されている。
環境１００は、オフィス、会議室、ホテルの部屋のよう
な通信環境、または音声制御式デバイスが位置する可能
性のある任意の場所であることがある。環境１００の中
には、円によって表される何人かの人間のユーザ１０１
Ａ〜１０１Ｈがいる。また環境１００の中には、正方形
および長方形によって表され、各々本発明の標準の音声
ユーザ・インタフェース（ＶＵＩ）によって動作するよ
うに制御される音声制御式デバイス１０２Ａ〜１０２Ｈ
がある。長方形によって表されている音声制御式デバイ
ス１０２Ａ〜１０２Ｅは、環境１００の中で固定されて
いる。正方形によって表されている音声制御式デバイス
１０２Ｆ〜１０２Ｈは、人間のユーザ１０１Ｆ〜１０１
Ｈにそれぞれ関連づけられている移動音声制御式デバイ
スである。音声制御式デバイス１０２Ａ〜１０２Ｈはま
た、既存の装置または将来の装置であることがある。音
声制御式デバイス１０２Ａ〜１０２Ｅは一般に、ユーザ
の自動車、家、オフィス、工場、ホテル、または人間の
ユーザがいる可能性のある他の場所に関連づけられてい
ることがある。別法として、音声制御式デバイス１０２
Ａ〜１０２Ｅが非可聴発話によって制御される場合、そ
の音声制御式デバイスは任意の場所に位置できる。

【００３４】本発明では、標準ＶＵＩを使用するとユー
ザは、ユーザが割当て可能な名前をこれらの音声制御式
デバイス１０２Ａ〜１０２Ｈに関連付けることができ
る。音声制御式デバイスのユーザが割当て可能な名前
は、電話、時計、光などの一般的な名前であることがあ
る。別法として、名前はもともと人間に与えられるＪｏ
ｈｎ、Ｊｉｍ、Ｇｅｏｒｇｅなどの人格化された名前で
ある可能性もある。どちらの場合でも、音声制御式デバ
イス１０２Ａ〜１０２Ｈは連続的に聞いているが、その
名前のうち１つ（ユーザ割当てまたはデフォルト）を認
識するまでコマンドに応答しない。任意の名前を音声制
御式デバイスに割り当てることができるが、音声制御式
デバイスと実際の人の間の混乱を最小限にするために、
ユーザは通常の会話の間には生じる可能性のないＡａｒ
ｄｖａｒｋまたはＳｏｃｒａｔｅｓなどの普通でない名
前を選ぶことがある。図１Ａを参照して、環境１００が
人間のユーザ１０１Ａ〜１０１Ｈが会議をしている会議
室であると考えてみる。さらに音声制御式デバイス１０
２Ａは、会議室１００内でスピーカ・ホン機能を有する
電話であり、器具名は電話であると仮定する。１０１Ａ
などの人間のユーザはまず、電話という名前を呼び出し
てから、その音声制御措置にコマンドを与える。音声制
御式デバイスに名前を与えることにより、音声制御式デ
バイスは与えられたコマンドに正しく応答し、多数のユ
ーザと音声制御式デバイスの間の混同を避けることがで
きる。音声制御式デバイスは電話、オーガナイザ、計算
機、照明、ステレオ・システム、電子レンジ、ＴＶセッ
ト、洗濯機、ドライヤ、暖房システム、冷房システム、
または実質的に任意のシステムとすることができる。音
声制御式デバイス１０２Ａ〜１０２Ｈは、人間のユーザ
１０１Ａ〜１０１Ｈからのコマンドとデータ入力を聞
き、コマンドまたはデータが正しく解釈され実行されて
いることをユーザに可聴的に知らせるために、可聴通信
インタフェース（ＡＣＩ）を含むことがある。音声制御
式デバイス１０２Ａ〜１０２Ｈはさらに、発話認識及び
合成システム（ＳＲＳ）を含む。ＳＲＳの発話認識は、
発話しているユーザからは独立して、およびユーザが人
間であるか装置であるかを問わず、異なる言語の発話の
解釈を行う。本発明の好ましい実施形態は発話者から独
立した音声認識システムを使用しているが、本発明はま
た、発話者に依存した音声認識システムとも互換性があ
る。ＳＲＳは、１つまたは１つ以上の言語で動作でき
る。ＳＲＳの発話合成は、可聴的に通信される可能性も
ありまたは非可聴的に通信される可能性もある音声制御
式デバイスによる発話応答、状態コマンド、またはデー
タを生成する。ここではまた発話の生成とも呼ばれる発
話合成は、ここで定義され、発話と応答する任意の方法
を含み（可聴または非可聴）、発話の記録、格納と再生
システム、再生を伴う以前に記録されたボキャブラリ・
システム、文字の組合せから発声を生成する洗練された
発話合成システム、および上記の何らかの組合せを含む
が、これらに限定されるものではない。好ましくは、音
声制御式デバイスは発話の記録、格納と再生システム、
および再生を伴う、以前に記録されたボキャブラリ・シ
ステムの両方を含む。

【００３５】音声制御式デバイス１０２Ａ〜１０２Ｈは
オプションとして、通信インタフェース（ＥＣＩ）を含
み、非可聴音声または会話を使用した無線手段または有
線手段を介して音声制御式デバイスの遠隔制御を行う。
図１Ａに示されたように音声制御式デバイス１０２Ａ
は、電話システムへの接続のために接続１０５を有す
る。この方法では、音声制御式デバイス１０２Ａは遠隔
からユーザに通知し、コマンドを受け取り、認識する。
次に図１Ｂを参照すると、人間のユーザ１０１Ｉは、電
話会社のスイッチ１１６上で、有線伝送媒体１１４また
は無線伝送媒体１１４上で電話１１２によって通信す
る。電話会社のスイッチ１１６は、接続１０５を介して
有線手段または無線手段によって音声制御式デバイス１
０２Ａに接続されている。電話１１２は無線電話または
有線電話である。この方法で、人間のユーザ１０１Ｉ
は、遠隔から通信環境１００内の音声制御式デバイス１
０２Ａへ遠隔からインタフェースすることがある。別法
として、音声制御式デバイス１０２Ｅなどの音声制御式
デバイスは、遠隔コンピュータ１１８によってネットワ
ーク上で遠隔から制御されることがある。この場合、遠
隔の人間のユーザ１０１Ｊは、ネットワーク接続１２０
と接続１０６を介して音声制御式デバイス１０２Ｅに結
合されている遠隔コンピュータ１１８を介して、音声コ
マンドまたは命令を送信することができる。ネットワー
ク接続１２０は、インターネットなどのコンピュータ・
ネットワークを介した、リアルタイム送達または蓄積交
換の無線接続または有線接続であることがある。遠隔ユ
ーザが音声制御式デバイスに接続できる幅広い方法があ
り、その中には有線接続および無線接続の使用が含まれ
るが、これに限定されるものではない。有線接続は電話
システムおよびリアルタイムのインターネット接続など
のリアルタイム通信システム、音声表現の電子メールお
よび他の非リアルタイムのインターネット・プロトコル
などの蓄積交換システムを含むことがあるが、これに限
定されるものではない。無線システムは無線システムお
よび赤外線システムを含むことがあるが、これに限定さ
れるものではない。これらの任意の代替例は、回路に基
づいたシステムおよびパケットに基づいたシステムを含
む可能性があり、アナログ・システムおよびディジタル
・システムを含むことがある。これらの任意の代替例
は、種々の変調スキームおよび／またはコード化スキー
ムおよび／または暗号化スキームと共に使用される可能
性もあり、またはこれらなしでも使用されることがあ
る。

【００３６】次に図２を参照すると、例としての音声制
御式デバイス１０２Ｉ〜１０２Ｍが図示されている。音
声制御式デバイス１０２Ｉは、冷凍庫、冷蔵庫、洗濯
機、ドライヤ、エア・コンディショナ、暖房装置、電子
レンジ、オーブン、およびストーブなどの家電製品の例
である。音声制御式デバイス１０２Ｊは、オプションの
通信インタフェース（ＥＣＩ）を要求する音声制御式デ
バイスの例である。これはテレビ、ビデオ・カセット・
レコーダ、ステレオ、カムコーダ、テープ・レコーダ、
口述装置、目覚まし時計、時計ラジオ、および、標準の
有線電話、電話応答マシンなどの電話製品、照明スイッ
チ、警報システム、計算装置、インターネット接続装
置、サーバなどの、消費者家電のための音声制御式デバ
イスを含むことがある。音声制御式デバイス１０２Ｋ
は、セルラ電話、ウォークマン（登録商標）・スタイル
のシステム、カムコーダ、パーソナル・ディジタル・シ
ステムなどの携帯システムまたは無線システムの例であ
る。音声制御式デバイス１０２Ｌは、自動車セルラ電話
システム、自動車無線システム、カー・ナビゲーション
・システム、ＨＡＶ（暖房、エア・コンディショニン
グ、換気）システム、および自動車用の他の制御システ
ムなどの、自動車音声制御システムの例である。音声制
御式デバイス１０２Ｍは、ボイスメール・システムなど
の遠隔制御装置の例である。

【００３７】音声制御式デバイス１０２Ｉは、可聴通信
インタフェース（ＡＣＩ）２０２、発話認識および合成
システム（ＳＲＳ）２０４、および電気製品周辺機器と
制御回路（ＡＰＣＣ）２０６を含む。ＡＣＩ２０２はＳ
ＲＳ２０４に結合され、ＳＲＳ２０４はＡＰＣＣ２０６
に結合されている。音声制御式デバイス１０２Ｉでは、
ＡＣＩ２０２は発話通信の主な手段である。

【００３８】音声制御式デバイス１０２ＪはＡＣＩ２０
２、ＳＲＳ２０４、ＡＰＣＣ２０６、通信インタフェー
ス（ＥＣＩ）２０７、および接続２０８を含む。ＡＣＩ
２０２はＳＲＳ２０４に結合されている。ＡＰＣＣ２０
６はＳＲＳ２０４に結合されている。ＥＣＩ２０７はＳ
ＲＳ２０４に結合し、接続２０８はＥＣＩ２０７に結合
している。音声制御式デバイス１０２Ｊは代替として、
ＡＣＩ２０２またはＥＣＩ２０７を介して発話通信信号
または音声通信信号を使用して通信できる。音声制御式
デバイス１０２Ｋは、ＡＣＩ２０２、ＳＲＳ２０４、Ａ
ＰＣＣ２０６およびアンテナ２０９を含む。

【００３９】音声制御式デバイス１０２Ｋは、ＡＣＩ２
０２を介した可聴発話信号を使用して、またはＥＣＩ２
０７を介したコード化された発話信号を使用して通信で
きる。ＥＣＩ２０７はＡＰＣＣ２０６に結合している。
ＥＣＩ２０７はまた、接続２１２に結合している。接続
２１２はたとえば、アンテナまたは赤外線ポートである
ことがある。音声制御式デバイス１０２Ｌはまた、ＡＣ
Ｉ２０２、ＳＲＳ２０４、ＡＰＣＣ２０６およびアンテ
ナ２０９を含む。ＡＣＩ２０２はＳＲＳ２０４に結合す
る。ＳＲＳ２０４はＡＰＣＣ２０６に結合する。アンテ
ナ２０９はＡＰＣＣ２０６に結合する。音声制御式デバ
イス１０２Ｌは、アンテナ２０９を介してＡＣＩ２０２
およびＡＰＣＣ２０６によって通信できる。

【００４０】音声制御式デバイス１０２Ｍは、ＡＰＣＣ
２０６、ＳＲＳ２０４、ＥＣＩ２０７、および接続２１
０を含む。接続２１０は有線接続または無線接続である
可能性があり、アンテナを含む。ＳＲＳ２０４はＡＰＣ
Ｃ２０６に結合し、またＥＣＩ２０７にも結合する。接
続２１０はＥＣＩ２０７に結合する。音声制御式デバイ
ス１０２Ｍは、接続２１０上で、ＥＣＩ２０７を介して
通信できる。

【００４１】ＡＰＣＣ２０６は、制御されるべき音声制
御式デバイス１０２の要素を表す。たとえば家電製品の
場合、制御されるべきアイテムは用途に応じて、温度、
時間設定、電力設定、またはサイクルであることがあ
る。消費者用電子製品の場合は、ＡＰＣＣ２０６は通常
ボタン、スイッチ、ノブに関連するアイテムからなりた
つことがある。電話製品の場合、ＡＰＣＣ２０６はボタ
ン、ダイアル、ディスプレイ、有線呼または無線呼を行
うための回路または無線装置を表すことがある。自動車
システムの場合、ＡＰＣＣ２０６は、計測器パネル、温
度ノブ、ナビゲーション用システム、自動車無線チャネ
ル、音量、周波数特性を表すことがある。

【００４２】次に図３を参照すると、音声制御式デバイ
ス１０２が図示されている。図３に示された音声制御式
デバイス１０２は、ここに説明された音声制御式デバイ
ス内の機能ブロックの例である。音声制御式デバイス１
０２はＡＣＩ２０２、ＡＰＣＣ２０６およびＳＲＳ２０
４を含む。音声制御式デバイス１０２はまた、ＥＣＩ２
０７ＡまたはＥＣＩ２０７ＢなどのＥＣＩ２０７を有す
ることがある。

【００４３】図３に示されたＡＣＩ２０２は、マイクロ
フォン３０３、スピーカ３０４、増幅器３０５を含む。
図３に示されたようなＳＲＳ２０４は、音声通信チップ
３０１、コード器／復号器（コーデック）３０６および
３０８、ホスト・マイクロコントローラ３１０、電源３
１４、電力起動リセット回路３１６、水晶発振器回路３
１７、メモリ３１８、およびメモリ３２８を含む。ＳＲ
Ｓ２０４はオプションとして、ＡＣ電源接続３１５、オ
プションのキーパッド３１１、またはオプションのディ
スプレイ３１２を含む可能性もある。ローカルなコマン
ド、プロンプトおよびデータなどの可聴発話の双方向的
な通信のために、発話通信パスはＶＣＣ３０１、コーデ
ック３０６、およびＡＣＩ２０２を介する。非可聴発話
通信パスは、遠隔コマンド、プロンプトおよびデータな
どの、非可聴発話の双方向的な通信のために、ＶＣＣ３
０１、コーデック３０８、ＥＣＩ２０７ＡまたはＶＣＣ
３０１、ホスト・マイクロコントローラ３１０、ＡＰＣ
Ｃ２０６、およびＥＣＩ２０７Ｂを介する。ＥＣＩ２０
７は、電話ネットワーク、コンピュータ・ネットワー
ク、インターネット、高周波リンク、または赤外線リン
クなどを介した有線リンクまたは無線リンクを提供する
ことがある。

【００４４】音声通信チップ３０１は音声制御式デバイ
ス１０２に、本発明の標準の音声ユーザ・インタフェー
スを使用した発話を介した通信の能力を与える。マイク
ロフォン３０３は音声制御式デバイス１０２に、音声コ
マンドおよび装置の器具名などの可聴発話を聞く能力を
与える。マイクロフォン３０３は用途に応じて、近距離
音場マイクロフォンでも遠距離音場マイクロフォンでも
よい。たとえば、近距離音場マイクロフォンは、ユーザ
の口が近い携帯セル電話内で好ましい可能性があり、一
方、遠距離音場マイクロフォンはユーザの口が離れてい
る車のセル電話内で好ましいことがある。スピーカ３０
３を使用すると音声制御式デバイス１０２は、その名前
またはコマンドの受信を確認するなどのために発話を使
用して応答することができる。増幅器３０５は、マイク
ロフォン３０３によって受信された音声または発話信号
を増幅する。さらに、増幅器３０５は人間のユーザ１０
１が音声制御式デバイス１０２に正しくインタフェース
できるように、スピーカ３０３を介したコーデック３０
６からの音声信号表現を増幅できる。

【００４５】マイクロフォン３０３とスピーカ３０４は
各々、可聴発話と発話表現の間を変換するための変換器
である。コーデック３０６は、ＡＣＩ０２からの発話表
現を、ＶＣＣ３０１のためのコード化された発話信号に
コード化する。さらに、コーデック３０６は、ＶＣＣ３
０１からのコード化された発話信号を、ＡＣＩ２０２を
介した可聴通信のための発話表現に復号する。

【００４６】別法として、非可聴発話信号は、音声制御
式デバイス１０２によって双方向的に通信されることが
ある。この場合、ＶＣＣ３０１はコード化された発話信
号を復号するためにコーデック３０８に与える。コーデ
ック３０８は、コード化された発話信号を復号し、接続
１０５上の通信のためにそれをＥＣＩ２０７Ａに与え
る。発話信号は接続１０５上で受信され、ＥＣＩ２０７
Ａに提供されることがある。ＥＣＩ２０７Ａは、コード
化のために発話信号をコーデック３０８に結合する。コ
ーデック３０８は発話信号をコード化し、そのコード化
された発話信号がＶＣＣ３０１に結合される。

【００４７】発話信号はまた、ＡＰＣＣ２０６を介して
電子的にも通信できる。送信のためのＶＣＣ３０１から
の発話信号は、マイクロコントローラ３１０に渡され
る。マイクロコントローラ３１０はこれらをＡＰＣＣ２
０６に結合し、ＡＰＣＣ２０６は発話信号をＥＣＩ２０
７Ｂへ送信する。音声制御式デバイス１０２によって受
信されるべき発話信号はＥＣＩ２０７Ｂによって受信さ
れ、ＡＰＣＣ２０６に渡される。ＡＰＣＣ２０６は次い
で、これらの受信された発話信号をマイクロコントロー
ラ３１０に結合することがあり、マイクロコントローラ
３１０は、これらの受信された発話信号を認識のために
ＶＣＣ３０１上に渡す。

【００４８】音声制御式デバイス１０２はホスト・マイ
クロコントローラ３１０からの信号によって、ＡＰＣＣ
２０６を制御する。ホスト・マイクロコントローラ３１
０はＡＰＣＣ２０６に結合され、この制御を促進する。
音声制御式デバイス１０２はオプションとして、さらな
る入力手段として、マイクロコントローラ３１０に結合
されたキーパッド３１１を有することがある。キーパッ
ドは電力ボタン、会話ボタンへのプッシュ、または、セ
キュリティコード入力手段である可能性があり、さら
に、オプションとして他の情報を入力するために使用さ
れる。音声制御式デバイス１０２はオプションとして、
その状態またはユーザが関心のある他のアイテムを視覚
的に表示するために、ホスト・マイクロコントローラ３
１０に結合されたディスプレイ３１２を含む。しかし、
音声制御式デバイスは一般に、オプションのキーパッド
３１１またはオプションのディスプレイ３１２がなくて
も機能することができる。

【００４９】音声制御式デバイス１０２は電源３１４を
含む。電源３１４は、ＤＣ供給源またはＡＣ供給源、ま
たは両方から電力を生成してもよい。ＤＣ供給源はバッ
テリ、太陽電池、または他のＤＣ源でもよい。ＡＣ供給
源の場合、オプションのＡＣ電力コード３１５が用意さ
れる。ＶＣＡ１０２は電力起動リセット回路３１６を含
み、電源３１４が起動した時にそのシステムをリセット
する。

【００５０】水晶発振器回路３１７はＶＣＣ３０１内の
他の回路と共に、ＶＣＣ３０１に正確な振動入力を提供
し、クロック信号を生成する。

【００５１】メモリ３１８はＶＣＣ３０１に結合され、
書換え可能な非揮発性メモリおよび書換え可能な揮発性
メモリ、および読取り専用メモリである。これらは典型
的にはフラッシュＲＡＭ、静的ＲＡＭ、およびＲＯＭで
ある。メモリ３１８は、プログラムを格納するため、お
よびあらかじめ記録されたフレーズおよび記録されたフ
レーズを格納するために使用される。さらに、メモリ３
１８はプログラム動作のためにスクラッチ・メモリを設
ける。業界内で標準の慣行であるように、使用されるメ
モリのタイプは、構成される特定の音声制御式デバイス
によって変化することがある。本発明に関するプログラ
ム格納は、ＲＯＭのように永久的である可能性、フラッ
シュのように非揮発性であるが可変的である可能性、Ｒ
ＡＭのように揮発性である可能性があり、この場合、プ
ログラムは非揮発性メモリまたは遠隔の源からダウンロ
ードされることがある。

【００５２】メモリ３２８は揮発性メモリ、非揮発性メ
モリまたはその混合であることがある。揮発性メモリの
みが使用されている場合、その内容は別の場所からダウ
ンロードされて初期化できる。メモリ３２８の大きさと
能力は、構成される音声制御式デバイスのタイプに依存
する。別法として、場合によっては、メモリを磁気、光
学、または他のタイプの記憶媒体で代用することができ
る。

【００５３】音声制御式デバイス１０２内で、ＶＣＣ３
０１はさらに、１つの処理装置だけが音声制御式デバイ
ス１０２内に含まれるようにホスト・マイクロコントロ
ーラ３１０の機能を含むことがある。同様に、統合レベ
ルが増大し続けるにつれて当業界で慣習的であるよう
に、ＡＰＣＣ２０６、コーデック３０６および／または
３０８、ＥＣＩ２０７Ａ、ＥＣＩ２０７Ｂ、メモリ３１
８、メモリ３２８、増幅器３０５、または他の要素がお
そらくＶＣＣ３０１に統合されるであろう。

【００５４】次に図４を参照すると、音声通信チップ
（ＶＣＣ）３０１の構成図が示されている。音声通信チ
ップ３０１は集積回路であり、処理装置４０２、メモリ
装置４０３、バスとメモリ・コントローラ（ＢＭＣ）４
０４、バス・アダプタ４０５、周辺機器４０６を含む。
音声通信チップ３０１はさらに、Ｉｎｆｏｒｍａｔｉｏ
ｎＳｔｏｒａｇｅＤｅｖｉｃｅｓ社による「ＩＳＤ
−ＳＲ３００，ＥｍｂｅｄｄｅｄＳｐｅｅｃｈＲ
ｅｃｏｇｎｉｔｉｏｎＰｒｏｃｅｓｓｏｒ」という名
称のマイクロフィッシュの付録に説明されている。処理
装置４０２はマイクロプロセッサとディジタル信号処理
モジュール（ＤＳＰＭ）を含む。メモリ装置４０３は、
ＤＳＰＭランダム・アクセス・メモリ（ＲＡＭ）４０
７、システムＲＡＭ４０８、読取り専用メモリ（ＲＯ
Ｍ）４０９を含む。周辺機器４０６は、Ｉ／Ｏポート４
２０、割込み制御装置（ＩＣＵ）４２２、コード器／復
号器（コーデック）インタフェース４２４、パルス幅変
調器（ＰＷＭ）４２６、ＭＩＣＲＯＷＩＲＥインタフェ
ース４２８、マスタＭＩＣＲＯＷＩＲＥコントローラ４
３０、リセットおよび構成コントローラ４３２、クロッ
ク生成器４３４およびウォッチドッグ・タイマ４３６を
含む。効果的に通信するために、音声通信チップ３０１
は、コア・バス４１５および、図４に示されたような構
成要素を内部接続する周辺バスを含む。

【００５５】マイクロプロセッサ４１６は、ＲＩＳＫア
ーキテクチャを伴う汎用１６ビット・マイクロプロセッ
サ・コアである。マイクロプロセッサ４１６は、整数の
算術論理およびプログラム制御に責任を持つ。ＤＳＰモ
ジュール（ＤＳＰＭ）４１８はＤＳＰ算術を実行する。
ＲＯＭ４０９およびシステムＲＡＭ４０８は、プログラ
ムとデータの格納のために使用される。ＤＳＰＭＲＡ
Ｍ４０７は、ＤＳＰＭ４１８によって直接アクセスでき
る。ＤＳＰＭ４１８がアイドル状態の時、マイクロプロ
セッサ４１６はＤＳＰＭＲＡＭ４０７にアクセスでき
る。

【００５６】バスとメモリ・コントローラ（ＢＭＣ）４
０４は、ＤＲＡＭ、拡張メモリ、オフチップ・ベース・
メモリ、およびＩ／Ｏ拡張などのオフチップ措置へのア
クセスを制御する。Ｉ／Ｏポート４２０は、音声通信チ
ップ３０１に結合された装置へのインタフェースを提供
する。Ｉ／Ｏポート４２０は、音声通信チップ３０１の
２６個のＩ／Ｏピンを表す。拡張オプションなしにプロ
グラム・メモリに関して内部ＲＯＭ４０９を使用する
と、１６個のＩ／Ｏピンが個別に入力用または出力用に
構成でき、８個のＩ／Ｏピンは出力専用にし、２つのＩ
／Ｏピンは入力専用にすることができる。ＩＣＵ４２２
は、５個のマスク可能な割込み（４つは内部的で１つは
外部的）と、３つの内部的なマスク不可能な割込み（Ｎ
ＭＩ）を処理する能力を与える。コーデック・インタフ
ェース４２４は、ＡＣＩ２０２だけの場合は１つのコー
デック装置３０６への直接インタフェースとなり、ＡＣ
Ｉ２０２およびＥＣＩ２０７Ａの場合は２個のコーデッ
ク装置３０６および３０８への直接インタフェースとな
る。パルス幅変調器（ＰＷＭ）４２６は、固定された周
波数と可変デューティ・サイクルを有する方形波を生成
する。ＭＩＣＲＯＷＩＲＥインタフェース４２８は、ホ
スト・マイクロコントローラ３１０とのシリアル通信を
可能にする。マスタＭＩＣＲＯＷＩＲＥコントローラ４
３０は、直列フラッシュ・メモリおよび他の周辺機器へ
のインタフェースを可能にする。リセットおよび構成ブ
ロック４３２は、リセットの間、音声通信チップ３０１
の環境のディフィニッションを制御し、ソフトウェア制
御構成を処理する。音声通信チップ３０１内の機能のい
くつかは互いに排他的である。選択肢の間の選択は、リ
セットに際してまたはモジュール構成レジスタを介して
行われる。クロック生成器４３４は、水晶発振器回路３
１７にインタフェースし、リアルタイム・タイマを含む
音声通信チップの種々のブロックのためにクロックを提
供する。クロック生成器を使用し、音声通信チップ３０
１をパワーダウン・モードに設定し、必要な時にそれを
通常の動作モードに戻すことによって、電力消費を削減
することもできる。音声通信チップ３０１がパワーダウ
ン・モードである時、その機能のいくつかは使用不能に
なり、いくつかのレジスタの内容は変更されている。ウ
ォッチドッグ・タイマ４３６は、ソフトウェアが処理ユ
ニット４０２の制御を失った時はいつでも、および音声
通信チップ３０１がパワーダウン・モードであった時に
は期間が終了した時にマスク不可能な割込みを生成す
る。

【００５７】標準の音声ユーザ・インタフェースＧＵＩ
を備えているコンピュータ動作システムと同様に、標準
の音声ユーザ・インタフェース（ＶＵＩ）も標準ＶＵＩ
動作システム・コードを備えていると考えることができ
る。広い範囲の多くの音声制御式デバイスで動作する標
準ＶＵＩを使用すると、ユーザは今まで対話できなかっ
た装置を含めた任意の音声制御式デバイスとインタフェ
ースできる。ユーザは一度標準のＶＵＩに馴れると、標
準のＶＵＩで動作する任意の音声制御式デバイスに近づ
きすぐにその使用を開始できる。標準のＶＵＩ動作シス
テム・コードは、音声制御式デバイスを動作させる特定
の標準化されたコマンドと手順を有する。これらの標準
化されたコマンドと手順は、標準のＶＵＩ動作システム
・コードを実行するマシンに普遍的である。標準のＶＵ
Ｉ動作システム・コードで動作する音声制御アプリケー
ション・ソフトウェアを書き、音声制御式デバイスを特
定の用途にカスタマイズすることができる。音声制御ア
プリケーション・ソフトウェアは音声制御式デバイスが
使用される用途に特有の音声コマンドを有する。特定の
音声制御式デバイスはまた、標準ＶＵＩの中心となる機
能を拡張する追加の特別機能を備えても良い。

【００５８】中心となるＶＵＩの機能のうち標準のＶＵ
Ｉ機能のいくつかは、音声制御式デバイスの存在を発見
する方法、すべての音声制御式デバイスに関して共通の
コア・コマンド・セット、音声制御式デバイスが応答す
るコマンドの種類を学ぶ方法（コア・コマンドと器具特
有のコマンドの両方）、マニュアルまたはディスプレイ
の使用なしにユーザを助けるための発音されたヘルプ・
システム、ユーザが割当て可能な設定で音声制御式デバ
イスをユーザに個別化する方法、音声制御式デバイスの
使用を許可されたユーザに制御し、ユーザが割当て可能
な設定と情報を他のユーザから守るセキュリティ・メカ
ニズム、ユーザが音声制御式デバイスと対話し、共通動
作をするための標準の方法（たとえばはいといいえの選
択、選択肢のリストを一覧し、そこからアイテムを選ぶ
こと、優雅にエラーを処理する方法）。標準のＶＵＩは
ＡＰＩ（アプリケーション・プログラミング・インタフ
ェース）を含み、これを使用するとソフトウェア開発者
は標準のＶＵＩとインタフェースし動作して、音声制御
コマンド・セットを拡張するカスタムの音声制御アプリ
ケーションを書くことができる。

【００５９】次に図５を参照すると、構成図は音声制御
式デバイス１０２を制御し、標準のＶＵＩおよび他の機
能を提供するソフトウェア５００を示す。ソフトウェア
５００はアプリケーション・コード５１０、ＶＵＩソフ
トウェア・モジュール５１２、およびボキャブラリ５２
４を含む。アプリケーション・コード５１０はさらに修
正され、多数のアプリケーション・コードモジュールを
表す複数のアプリケーションをサポートすることが可能
であり、音声制御式デバイス１０２のさらなるカスタム
化を提供する。ボキャブラリ５２４は検出されるべきフ
レーズを含む。ボキャブラリ内のフレーズはトピックと
呼ばれるグループに分けられ、トピックは１つまたは複
数あることがある。図５では、ボキャブラリ５２４はト
ピック５５１とトピック５５２の２つのトピックからな
りたつ。

【００６０】典型的に、アプリケーション・コード５１
０は、アプリケーション・プログラミング・インタフェ
ース（ＡＰＩ）５０７を介してＶＵＩソフトウェア５１
２にインタフェースする。ＶＵＩソフトウェア５１２
は、認識とプロンプト指示を含む音声インタフェースに
関係するアプリケーション・コード５１０に、特別なサ
ービスを提供する。ＶＵＩソフトウェア５１２とアプリ
ケーション・コード５１０の間の相互関係は、Ｍｉｃｒ
ｏｓｏｆｔ社のＭＳＷｉｎｄｏｗｓとＭｉｃｒｏｓｏ
ｆｔＷｏｒｄの相互関係と類似している。Ｍｉｃｒｏ
ｓｏｆｔＷｉｎｄｏｗｓは、画面上にアイテムを表示
し、およびマウスの入力とキーボードの入力を受信する
ことに関し、特別なサービスをＭｉｃｒｏｓｏｆｔＷ
ｏｒｄに提供する。

【００６１】一般に、アプリケーション・コード５１０
はホスト・メモリの中に格納され、ホスト・マイクロコ
ントローラ３１０によって実行されることがある。しか
し、ホスト・マイクロコントローラ３１０の機能は、ソ
フトウェア５００に関連するコードを実行するために、
１つの装置またはプロセッサ、および１つのメモリまた
は格納装置だけが必要とされるように、ＶＣＣ３０１に
埋め込まれることがある。

【００６２】コア・コマンドとアプリケーションに特有
のコマンドのためのフレーズを含め、認識可能なすべて
のフレーズは、ボキャブラリ５２４に含まれる。ＶＵＩ
ソフトウェア・モジュール５１２は、たとえば認識の間
に使用するために、ボキャブラリ・フレーズに直接アク
セスできる。ＶＵＩソフトウェア・モジュール５１２は
また、トークンを処理することもできる。トークンはト
ピック５５１〜５５２内のフレーズに抽象的に結び付け
られている。トークンは整数の数字である。たとえば
「ダイアルする」に関するフレーズは「５」のトークン
値を有し、「電話を切ります」に関するフレーズは
「６」のトークン値を有するといいうようにである。認
識できる各フレーズに１つのトークン値が割り当てられ
ている。ＶＵＩソフトウェア・モジュール５１２がボキ
ャブラリ・ファイル５２４に関連したトークンを処理で
きるので、直接フレーズにアクセスする必要なくフレー
ズを参照することができる。これによって、ＶＵＩソフ
トウェア・モジュール５０２を修正することなく、言語
を変更する（英語からフランス語、など）ことができ
る。したがって、標準のＶＵＩはボキャブラリ・ファイ
ル５２４を修正するだけで、異なる方言や言語を使用し
て機能する。

【００６３】ユーザは、音声制御式デバイス内で動作す
る標準ＶＵＩの中心的な機能を使用すると、音声制御式
デバイスを指名する、音声制御式デバイスの存在を識別
する、ユーザが以前に格納した個別化された環境を起動
する、動作をキャンセルすることによって誤認識から回
復する、ヘルプ機能を使用して音声制御式デバイスと共
に使用できるコマンドと選択肢を識別する、標準的なコ
ア・コマンドのセットおよび他の追加コマンドを使用す
る、コマンドが標準の構文に従っていることを確認す
る、ことができる。（コマンドの構文は共通であるが、
任意の音声制御式デバイス上のコマンドの特定のリスト
は、音声制御式デバイスの性格によって異なる）。標準
のＶＵＩはまた、ＡＰＩに関して次のユーザ対話のため
の標準機能を含む。ＧＥＴＹＥＳＮＯ―ユーザからのは
い／いいえを受領する。ＧＥＴＲＥＳＰＯＮＳＥ―ユー
ザからの任意の入力を受領する。ＧＥＴＲＥＳＰＯＮＳ
ＥＰＬＵＳ―強化されたエラー回復機能で、ユーザから
の任意の入力を受領する。ＬＩＳＴＡＮＤＳＥＬＥＣＴ
―ユーザに選択のリストを提供し、ユーザに１つを選択
させる。ＡＣＯＵＳＴＩＣＡＤＤＷＡＲＤ―後から認識
できるフレーズを追加する。

【００６４】標準ＶＵＩで正しく機能するために、音声
制御式デバイス１０２のＳＲＳ２０４は、電力を供給さ
れた時に、会話とディジット（数）を連続的に認識す
る。しかし、一定の長さを超えた休止は、コマンドの終
了をマークするまたは、不完全なコマンド・シーケンス
が受信されたことの指示を与えるものとしてＳＲＳ２０
４によって認識されることがある。

【００６５】名前本発明の標準ＶＵＩの主な要素は、各音声制御式デバイ
スが１つまたは複数の器具名を有し、器具名は各々がフ
レーズであるということである。最初の器具名は、工場
でメーカによってプログラミングされた音声制御式デバ
イスのためのデフォルト名である。しかしユーザは一般
に、音声制御式デバイスに彼らが選択したユーザ割当て
器具名を割り当てることができる。音声制御式デバイス
の命名は、人に命名するなどの別の種類の命名とは異な
る。１人の人は、彼と話したいすべての人に使用される
単一の（ファースト）名を有する。対照的に音声制御式
デバイスの命名では、音声制御式デバイスの各ユーザは
通常、音声制御式デバイスに異なる、ユニークな名前を
与える。したがって、音声制御式デバイスは、それが持
つユーザの数と同じ数の名前を有することになるであろ
う。

【００６６】ユーザが名前によって音声制御式デバイス
を指名すると、２つのことが起きる。第１に、音声制御
式デバイスがその名前の１つを認識した時、音声制御式
デバイスは装置が指名されたことを知らされ、コマンド
を聞かなけばならなくなる。第２に、各ユーザは通常１
つの音声制御式デバイスについて異なる名前を使用する
ので、装置はユーザのアイデンティティ（発話者の識
別）を知らされる。ユーザが音声制御式デバイスの機能
に好みを有し、それを格納している場合、音声制御式デ
バイスはそのユーザの好みに合わせてそれ自体を個別に
設定することができる。

【００６７】この命名のコンセプトを示すために、以下
の例の、２人のユーザを有する音声制御式デバイスであ
るデスクトップ電話を考えてみる。ユーザ１は電話に
「Ａａｒｄｖａｒｋ」と命名し、ユーザ２は電話に「Ｐ
ｌａｔｙｐｕｓ」と命名してある。電話が「Ａａｒｄｖ
ａｒｋ、母に電話します」と聞いた場合、電話はユーザ
１によって指名され、およびユーザ１の電話帳を使用す
べきであることを認識する。したがって、ユーザ１によ
ってプログラミングされた「母」の番号をダイアルす
る。同様に、電話が「Ｐｌａｔｙｐｕｓ、母に電話しま
す」と聞いた場合、ユーザ２がそれを指名したことを知
り、ユーザ２によってプログラミングされた「母」の番
号をダイアルする。

【００６８】間違った認識を最小化するために、ユーザ
は音声制御式デバイスに、通常の会話では一般に話され
ない名前を割り当てることが好ましい。普通でない名前
を選択することで、たがいに可聴範囲にある２つの音声
制御式デバイスは同じ名前を有しない（おそらく異なる
ユーザによって割り当てられている）。音声制御式デバ
イスのメモリ制限があるため、いくつかの場合ではフレ
ーズ名を話すための最大時間制限が要求されることがあ
る。

【００６９】次に、音声制御式デバイス１０２とともに
標準ＶＵＩの詳細な動作のフロー・チャートが説明され
ている図６Ａ〜６Ｅを参照する。図６Ａ〜６Ｅのフロー
・チャートでは、実線の箱はユーザによって通知された
フレーズ（引用符の中に置かれている）またはユーザの
処置（引用符なし）を示す。点線の箱は、音声制御式デ
バイスによって通知されたフレーズ（引用符内）または
取られた処置（引用符なし）を示す。点線の箱のすぐ下
に直接実線の箱がある場合、現在の点線の箱内のアクシ
ョンが正常に終了した場合に点線の右から出るパスがと
られ、普通でないイベントが発生した場合には点線の箱
の下にある実線の箱へのパスがとられる。一般に、点線
の箱のすぐ下にある実線の箱は、普通でないイベントを
示す。

【００７０】標準のＶＵＩコマンド構文次に図６Ａを参照すると、すべての音声コマンドのため
の一般的な構文は、＜沈黙＞＜名前＞＜コマンド＞＜修
飾子と変数＞である。＜沈黙＞は相対的な沈黙の期間
で、そのあいだユーザは話さないが背景の騒音と背景の
会話は依然として存在することがある。＜名前＞は音声
制御式デバイス１０２に関連する器具名である。＜コマ
ンド＞はユーザが実行したい動作である。＜修飾子と変
数＞は、いくつかのコマンドによって必要とされる追加
の情報からなりたつ。ＳＲＳ２０４はユーザが音声制御
式デバイスを制御できるために、構文の中にある要素を
認識する。

【００７１】ほとんどの音声制御式デバイスは連続的に
音声コマンド・シーケンスを聞く。音声制御式デバイス
がその＜名前＞を聞く時、次の＜コマンド＞が指定され
ていることを知る。各ユーザが音声制御式デバイスに関
して異なる＜名前＞を有するので、＜名前＞はまたユー
ザを一意的に識別し、音声制御式デバイスがそのユーザ
への個別化を選択できる。コマンドは、すべての音声制
御式デバイスに含まれるコアＶＵＩコマンド、および所
定のアプリケーションに特有のコマンドを含み、これら
すべてはボキャブラリ５２４に格納されている。

【００７２】＜名前＞の検出の前に＜沈黙＞を要求する
ことは、通常の会話の間に＜名前＞の誤った検出を妨げ
る（つまり、ユーザが音声制御式デバイスに話している
のではなく、会話によって別のユーザに話している
間）。すべての場合に、＜沈黙＞の長さはメーカによっ
て構成され、０（＜沈黙＞を要求されない）から１秒ま
たはそれ以上の範囲になることがある。典型的に、これ
は１秒の４分の１である。

【００７３】Ａａｒｄｖａｒｋと命名された電話などの
音声制御式デバイスで使用される可能性のある音声コマ
ンド・シーケンスの例は、「Ａａｒｄｖａｒｋ、オフィ
スに電話します」「Ａａｒｄｖａｒｋ、１−８００−５
５−１２１２にダイアルします」および「Ａａｒｄｖａ
ｒｋ、電話を切ります」を含む。（提供されたコマンド
の例と説明では、簡潔にするために＜沈黙＞は示されな
いことが多く、これが示されるまたは説明される時で
も、メーカはゼロの長さの沈黙を使用するように選択す
る選択肢が常に存在する）。

【００７４】コマンド構文が一般的な構文とは異なるこ
とが許される、２つの特別な場合がある。第１の特別な
場合は、＜沈黙＞＜名前＞を連続的には聞いていない音
声制御式デバイスの場合である。たとえば、いくつかの
バッテリで動作するアプリケーションの場合、電力消費
に限度があるため、アイドル期間の間、音声制御式デバ
イス１０２内のＶＣＣ３０１が電力ダウンされることを
要求する場合がある。別の例は、名前を間違って認識す
ると望ましくない結果になる場所にある音声制御式デバ
イスであり、たとえばプレゼンテーションの間の会議室
内にあるデスクトップ電話である。第３の例は、たとえ
ば多数の会話が聞かれる場所など、間違った認識のリス
クが高い場所にある音声制御式デバイスである。

【００７５】これらのタイプの状況については、代替の
コマンド構文が所定の型のボタンまたはスイッチと共に
使用される。第１の代替のコマンド構文は、＜スイッチ
の起動＞＜沈黙（オプション）＞＜名前＞＜コマンド＞
＜修飾子と変数＞である。この構文では＜スイッチの起
動＞は、ユーザがボタンを押すまたは所定の他の機械的
な行動を実行して（たとえばフリップ型のセル電話を開
ける）、認識機能を起動することを意味する。

【００７６】第２の特別な場合は、ユーザが通常一連の
コマンドを素早く連続して入力する場合である。これら
の場合については、ユーザはパスワード保護方法を使用
し、または音声制御式デバイスの器具＜名前＞を含むコ
マンドを発行し、その後コマンドを続けて入力すること
によって、ユーザ自身を音声制御式デバイスに示すこと
ができる。第２の代替のコマンド構文は（この例では、
３つの連続的なコマンド）＜沈黙＞＜名前＞＜コマンド＞＜必要に応じて修飾子と
変数＞＜沈黙＞＜名前（オプション）＞＜コマンド＞＜必要に
応じて修飾子と変数＞＜沈黙＞＜名前（オプション）＞＜コマンド＞＜必要に
応じて修飾子と変数＞である。この構文を使用すると、ユーザは音声制御式デ
バイスの器具＜名前＞を常に繰り返す必要なく、一連の
コマンドを発行できる。しかしユーザは、コマンドの開
始時に＜名前＞を言うことが許されている。この構文で
は、＜沈黙＞は話された＜名前＞または＜コマンド＞を
正しく認識するために要求されることに注意されたい。

【００７７】第１または第２の代替構文のうちどちらか
が使用されている場合、新しいユーザが音声制御式デバ
イスを使用し始めたかどうか、これらが正しく識別され
ているかどうかを確認することが望ましい。これは動作
をしない時間の後、または音声制御式デバイスの電力を
いれた後、または他の同様なプロトコルの後に、明示的
に＜名前＞を要求することによって確認することができ
る。

【００７８】標準のコアＶＵＩコマンド標準ＶＵＩを使用して動作する音声制御式デバイス１０
２のボキャブラリ５２４内に含まれる標準のコア・コマ
ンドは、いくつかある。図６Ａ〜８は、以下のコマンド
の構文を示す。

【００７９】図６Ａを参照すると、開始６００の時点で
音声制御式デバイスの器具名、＜名前＞は通常コマンド
の前に話される。音声制御式デバイスがコマンドを聞い
ている時にいつでも音声制御式デバイスの任意の器具名
を話すことができる。＜名前＞の後、所定の期間内にコ
マンドが続かない場合、音声制御式デバイスは元のアイ
ドル状態の開始６００に戻る。これはＮ秒の実線の箱の
沈黙によって示される。この場合のＮは通常、アプリケ
ーションに依存し、音声制御式デバイスのメーカによっ
て割り当てられているプログラミング可能な値である。
器具名を与えた後、６０１でユーザは音声制御式デバイ
ス上で動作する標準のＶＵＩのさらなるコマンドにアク
セスすることを許可される。

【００８０】ヘルプ・コマンドの構文は次の通りであ
る。＜名前＞ヘルプ＜コマンド（オプション）＞、また
は、ヘルプ＜コマンド（オプション）＞。ヘルプ・コマ
ンドは、任意の他のコマンドが与えられる時、または音
声制御式デバイスが応答を待っている時いつでもをも含
んだ任意の時に起動できる。音声制御式デバイスが有効
なコマンドを待っている間にヘルプ・コマンドが発行さ
れた場合、音声制御式デバイスが他のコマンドの前に＜
名前＞を要求する場合は、ヘルプの前に＜名前＞がなけ
ればならない。音声制御式デバイスが任意の他のタイプ
の応答を待っている間にヘルプ・コマンドが要求された
場合は、ヘルプ・コマンドの前に＜名前＞がある必要は
ない。＜名前＞がヘルプの前に要求されないすべての場
合、ユーザが「＜名前＞ヘルプ」と言った場合、＜名前
＞の使用はエラーを生じない。

【００８１】ヘルプ機能は文脈依存であり、ヘルプが要
求されるといつでも、音声制御式デバイスは音声制御式
デバイスの現在の文脈が与えられれば、使用可能なオプ
ションの説明で応答する。音声制御式デバイスがコマン
ドを聞いている時にヘルプが要求されている場合、音声
制御式デバイスはその状態と、応答できるコマンドのリ
ストで応答する（たとえば「メイン・メニューで
は、「．．．」と言うことができます」）。任意の特定
のコマンドについてさらなる詳細は、「ヘルプ＜コマン
ド＞」構文（たとえば「ヘルプ・ダイアル」、「ヘルプ
・コール」、「ヘルプ・ヘルプ」）で得ることができ
る。音声制御式デバイスが何らかの形の非コマンド応答
（たとえば「名前を言う」）を待っている間に「ヘル
プ」が要求された場合、音声制御式デバイスは音声制御
式デバイスの現在の状態のステートメントで応答し、次
に装置が何を待っているかの説明が続く（たとえば「ユ
ーザの応答を待っています。あなたが作りたい電話帳エ
ントリの人の名前を言ってください、またはＮｅｖｅｒ
ｍｉｎｄ（おかまいなく）と言ってキャンセルしてくだ
さい」）。

【００８２】キャンセル・コマンドの構文は次の通りで
ある。＜名前（オプション）＞Ｎｅｖｅｒｍｉｎｄ、ま
たは、＜名前（オプション）＞キャンセルします。Ｎｅ
ｖｅｒｍｉｎｄコマンドまたはキャンセル・コマンド
は、音声制御式デバイスがコマンドを実行し、ユーザか
らの応答を待っている時いつでも発行されるであろう。
Ｎｅｖｅｒｍｉｎｄまたはキャンセルは、音声制御式デ
バイスに現在のコマンドをキャンセルさせ、動作がキャ
ンセルされたというステートメントで応答させる（たと
えば「キャンセルされました」）。音声制御式デバイス
がコマンドを待っている間にＮｅｖｅｒｍｉｎｄまたは
キャンセルが発行された場合、これは無視される可能性
もある。Ｎｅｖｅｒｍｉｎｄまたはキャンセルを伴う＜
名前＞の使用はオプションであり、これは＜名前＞が話
されたかどうかとまったく同じように働く。

【００８３】メイン・メニューへ戻るの構文は＜名前＞
メイン・メニューである。コマンドのサブメニューを有
する音声制御式デバイスについては、＜名前＞メイン・
メニューはユーザをメイン・メニューに戻し、「メイン
・メニューにいます」などの応答を起こさせる。このコ
マンドは、ユーザが任意のサブメニューから知られたポ
イントへ戻る簡単な方法を提供する。メイン・メニュー
・コマンドは１つのメニューしか有しない音声制御式デ
バイス内では認識される必要はないが、サブメニューを
伴う音声制御式デバイスについては必須のコマンドであ
る。

【００８４】音声制御式デバイス名を変える場合によっては、音声制御式デバイスのユーザ割当てさ
れた名前を変更することが望ましい可能性もある。次に
図６Ａ〜６Ｂを参照すると、名前変更コマンドの構文は
次のとおりである。＜古い名前＞あなたの名前を変えま
す。このコマンドを使用すると、ユーザは音声制御式デ
バイスに命名したり命名を変更したりすることができ
る。音声制御式デバイスが新しい時、装置は少なくとも
１つのデフォルトの、工場でプログラミングされた器具
名を有する（たとえば電話）。ほとんどの音声制御式デ
バイスは、１つまたは複数のユーザが割当て可能な器具
名をサポートする機能を有する。ユーザは、「＜工場で
プログラミングされた名前＞あなたの名前を変えます」
と言うことによって、器具名を命名することができる。
（たとえば「電話、あなたの名前を変えます」）。音声
制御式デバイスは次いで、新しい名前が繰り返されるこ
とを求め、次いでその名前を変える。このプロセスは、
各ユーザが割当て可能な名前についてもう一度繰り返す
ことができる。たとえば、ユーザが４人で、４つのユー
ザが割当て可能な器具名を割り当てることのできる電話
を考えてみる。ユーザはコマンドで４つの名前の変更を
実行することがある。「電話、あなたの名前を変えま
す」の次にユーザ１のための名前を（たとえば）Ａａｒ
ｄｖａｒｋに設定するダイアログが続く。「電話、あな
たの名前を変えます」の次にユーザ２のための名前を
（たとえば）Ｂａｒｒａｃｕｄａに設定するダイアログ
が続く。「電話、あなたの名前を変えます」の次にユー
ザ３のための名前を（たとえば）Ｃｏｙｏｔｅに設定す
るダイアログが続く。「電話、あなたの名前を変えま
す」の次にユーザ４のための名前を（たとえば）Ｄｏｇ
ｇｏｎｅに設定するダイアログが続く。ユーザがコマン
ド（「電話、あなたの名前を変えます」）で続いて５番
目のユーザが割当て可能な名前を変更しようと試みた場
合、すべての使用可能なユーザが割当て可能な器具名が
割り当てられているのでエラー・メッセージという結果
になる。すべてのユーザ割当て名が定義されている場合
でも、音声制御式デバイスは常に工場でプログラミング
された名前で応答することに注意されたい。したがっ
て、この第５の試みの例では、音声制御式デバイスは依
然として工場でプログラミングされた「電話」という名
前を認識するが、第５の新しいユーザが割当て可能な器
具名を割り当てることはできないだけである。

【００８５】既存のユーザが割当て可能な器具名はま
た、「あなたの名前を変えます」コマンドで変更するこ
ともできる。上の例を続けると「Ａａｒｄｖａｒｋ、あ
なたの名前を変えます」は第１のユーザに関する器具名
を変更し（たとえば、これはＰｌａｔｙｐｕｓに変更で
きる）、他の３つのユーザ名を変更しないままに残す。
同様に、「Ｐｌａｔｙｐｕｓ、あなたの名前を変えま
す」の次に名前を「電話」に変えるダイアログが続く
と、第１のユーザ名を工場でプログラミングされたデフ
ォルトにリセットする。

【００８６】音声制御式デバイスの識別音声制御式デバイスが普及するにつれて、ユーザが新し
い環境に入った時に音声制御式デバイスがそこに存在し
た場合、どの音声制御式デバイスが存在するかを容易に
識別することができることが重要である。たとえば、ユ
ーザがいくつかの装置を有するホテルの部屋に入る。こ
れらを使用するために、ユーザはどの装置が音声制御式
デバイスであるかを知る必要がある。さらに、ユーザは
装置を正しく制御するために器具名を知る必要がある。
可聴的に識別される他に、音声制御式デバイスは視覚的
に識別され、また標準のＶＵＩを使用する音声制御式デ
バイスを示すロゴを使用することによって識別できる。

【００８７】音声制御式デバイスが起動して認識可能な
コマンドを聞いている時、音響的な識別が機能する。ほ
とんどの場合、これは音声制御式デバイスが絶え間なく
聞いて認識を試みていることを意味する。ほとんどのバ
ッテリで作動する音声制御式デバイスの場合は、この連
続的な認識による電力の浪費は認められないため、これ
らの音声制御式デバイスではＡＣで電力が供給されてい
る。図６Ａと図６Ｃを参照すると、音響的な識別はユー
ザが識別フレーズを通知し、音声制御式デバイスにコマ
ンドすることによって達成できる。識別フレーズ「そこ
に何がありますか」、または何らかの他の適切な識別フ
レーズを使用して、音声制御式デバイスにそれ自体を認
識させることが可能である。

【００８８】標準のＶＵＩ識別フレーズの構文は、＜沈
黙＞そこに何がありますか、である。この照会に応答し
て、この質問を聞いた任意の音声制御式デバイスが応答
するはずである。典型的な音声制御式デバイスの応答
は、最長で２秒までの相対的な沈黙のランダムな遅延で
あり、次にビーという音（標準の信号）、および「あな
たは私を＜名前＞で呼ぶことができます」という応答が
続き、ここで＜名前＞は、音声制御式デバイスを指名す
るために使用できる工場でプログラミングされた名前で
ある。上に説明された電話の音声制御式デバイスの例で
は、応答は「＜ビー＞あなたは私を電話と呼ぶことがで
きます」であろう。

【００８９】図６Ｃを参照すると、最長で２秒までのラ
ンダムな遅延の間に、各応答する音声制御式デバイスは
他の音声制御式デバイスの応答を聞く（特に、他の音声
制御式デバイスのビーという音）。この沈黙期間の間に
他の音声制御式デバイスが応答を始めた時（ビーという
音によって明白である）、聞いている音声制御式デバイ
スは応答している音声制御式デバイスが終了した後、そ
の沈黙タイミングを再開始しなければならない。２つの
音声制御式デバイスが同時に応答を開始した場合（ビー
という音が重複した場合）、これらは両方とも新しくラ
ンダムに選択された沈黙遅延の間中断しなければならな
い。しかしこの時、ランダムな遅延は第１の遅延より長
く、前の沈黙遅延の長さより最長で２倍程度である。ど
の場合でも、遅延は１６秒を超えるべきではない。他の
音声制御式デバイスが応答した場合、さらなる矛盾の解
決のために追加の中断期間が与えられる。

【００９０】図６Ａを参照すると、ユーザが割当て可能
な名前のリクエスト・コマンドの構文は、＜名前＞あな
たの名前を言ってください、または＜名前＞あなたの名
前（複数）を言ってください、である。セキュリティが
許せば、任意のユーザがプログラミングした＜名前＞ま
たはデフォルトの＜名前＞が使用できる。音声制御式デ
バイスに、装置が応答するすべてのユーザにプログラミ
ングされた＜名前＞の一覧を求めるために、ユーザが割
当て可能な名前のリクエスト・コマンドが使用される。
セキュリティが許せば、音声制御式デバイスは、リスト
様式で各ユーザがプログラミングした名前を通知する。
各ユーザが割り当てた名前の間で、装置は一瞬一時停止
する。この一時停止の間、ユーザはコマンドを音声制御
式デバイスに通知する可能性があり、このコマンドは、
音声制御式デバイスがそのユーザにプログラミングされ
た＜名前＞を与えられた時と同じように実行される。た
とえば、上記の例の電話の音声制御式デバイスを考えて
みる。一時停止の後にコマンド「電話、あなたの名前を
言ってください」というコマンドは、「私はＡａｒｄｖ
ａｒｋ（一時停止）、Ｂａｒｒａｃｕｄａ（一時停
止）、Ｃｏｙｏｔｅ（一時停止）、およびＤｏｇｇｏｎ
ｅ（一時停止）と命名されました」と言うことによって
電話に応答させる。音声制御式デバイスが「Ｃｏｙｏｔ
ｅ」と言った後の一時停止の間、ユーザが「母に電話し
ます」と言うと、この場合、電話はユーザＣｏｙｏｔｅ
の母にコールする（母に関する電話番号がユーザＣｏｙ
ｏｔｅによってあらかじめ格納されていると仮定す
る）。

【００９１】セキュリティ上の考慮事項ユーザが割当て可能な名前に関するコマンドは、音声制
御式デバイスにおけるセキュリティの問題を提起する。
いくつかの場合では、音声制御式デバイスへのアクセス
を許可されたユーザに限定する必要がある。標準ＶＵＩ
によってサポートされている音声制御式デバイス内で
は、種々のセキュリティ保護の方法が使用できる。

【００９２】もっとも簡単でセキュリティの程度が低い
保護は、ＶＵＩの命名機能を介して与えられる。この場
合、各ユーザは音声制御式デバイスについて一意的な名
前を選択することが要求される。ユーザに割り当てられ
た器具名は音声制御式デバイス内で機密にされ、１人の
ユーザによってのみ変更され削除される。この方法で
は、器具名を使用して基本的なセキュリティを提供でき
る。しかし、この方法には多くの欠点がある。第１にユ
ーザは典型的に、各コマンドを発行する前に名前を繰り
返さねばならず、だれかが名前を簡単に立ち聞きできる
ようになり、セキュリティの損失という結果になる。第
２に、ほとんどの音声制御式デバイスはその装置につい
てユーザ名を削除または変更する機能を含む。削除およ
び変更を簡単に実行できるようにすることが望ましい。
さらに、変更はその特定のユーザ以外のだれかによって
実行される必要もあることがある。たとえば、ユーザが
音声制御式デバイスにもともと割り当てた名前を忘れる
可能性もあり、またはそのユーザが装置の使用をやめ、
彼の設定を削除できない可能性もある。器具名をセキュ
リティとして使用する場合は、簡単に名前を変えられる
ニーズと、セキュリティの質の間で固有の矛盾がある。

【００９３】より高いレベルのセキュリティは、音声制
御式デバイスへアクセスするときに、ユーザに秘密の数
字のシーケンス、パスワード、またはフレーズを言うこ
とを要求することによって達成されることがある。何ら
かの処置のない期間の後、または何らかの他の基準に基
づいてユーザが音声制御式デバイスを使用する時に、ロ
グインが要求されることがある。この方法の欠点は、話
された数字のシーケンスまたはフレーズが立ち聞きされ
ることがあることである。別のセキュリティの選択肢
は、ユーザに数字のシーケンス、パスワード、またはフ
レーズを、オプションのキーパッド３１１などのキーパ
ッド上で入力することを要求することである。これは追
加のハードウェアを導入するが、これは別の人に秘密の
コードを立ち聞きされるリスクを除去する。種々の他の
セキュリティ・オプションもまた可能であり、その中に
は物理的なキーまたはセキュリティ・カードの使用も含
まれる（たとえば磁気ストライプまたはスマートカー
ド）。

【００９４】追加のセキュリティは、音声制御式デバイ
スへのユーザのアクセスを自動的にキャンセルまたは終
了することによって行われる。場合によっては、アクセ
スはコマンドの実行後ごとに、自動的にキャンセルされ
ることがある。他の場合には、アクセスの自動的なキャ
ンセルは、処置のない何らかの期間、電力ダウンまたは
リセット、何らかの動作の完了（たとえば電話では、呼
の終了時）の後、または「キャンセル・アクセス」コマ
ンドの使用による特定の要求の時点で発生することがあ
る。

【００９５】アプリケーション特有コマンド標準のＶＵＩは、各音声制御式デバイスにいくつかのア
プリケーション特有コマンドを提供する。標準ＶＵＩに
よって提供されるアプリケーション特有コマンドは、電
話と応答マシン・アプリケーションに関連付けられてい
る。追加のアプリケーション特有コマンドはメーカによ
ってそのボキャブラリ用にプログラミングされ、ボキャ
ブラリの中に含められることがある。

【００９６】標準ＶＵＩのためにコマンドを開発する一
般的なガイドラインは次の通りである。サブメニューは
数を限定され、コマンドの論理的なグループの周囲に組
織されるべきである。たとえば、電話ＴＡＤは電話機
能、電話帳管理のためのサブメニュー、およびＴＡＤ機
能の他のサブメニューを含むメイン・メニューを有する
ことがある。

【００９７】任意のメニューまたはサブメニュー内のコ
マンドの数は一般に、１０またはそれ以下に限定され、
複雑さを最小限にするべきである。ヘルプ機能は明確に
使用可能なコマンドを説明すべきである。

【００９８】複雑なコマンドは、管理可能な小さな単位
に分割すべきである。コマンドのフレーズは、認識の成
功率を高くするように選択すべきである。標準のＶＵＩ
コマンドは、認識の精度を高くするように選択すべきで
ある。カスタム・ボキャブラリを作成する時、混乱をま
ねく恐れのあるフレーズの使用を避けるために注意をす
べきである。

【００９９】破壊的なイベント（削除など）に関して
は、ユーザによる正しい入力の確認と動作の確認が要求
されるべきである。

【０１００】電話のボキャブラリ次に図６Ｄ〜６Ｅ、図７、図８を参照すると、標準ＶＵ
Ｉのための電話ボキャブラリのためのフロー・チャート
が示されている。電話ボキャブラリは特に、デスクトッ
プ電話、セルラ電話、セルラ電話自動車キット、コード
レス電話などの電話音声制御式デバイスのためのもので
ある。本発明のＳＲＳ２０４は電話ボキャブラリ内のコ
マンドを認識し、これらを電話音声制御式デバイスのた
めの制御用に認識されたトークンに変換する機能を有す
る。電話ボキャブラリはすべての標準ＶＵＩコア・コマ
ンドと、以下のアプリケーション特有コマンドを有す
る。

【０１０１】呼コマンドの構文は、＜名前＞電話します
＜ボイスタグ＞、または＜名前＞電話します＜ディジッ
ト＞のどちらかである。呼コマンドを使用し、一連のデ
ィジットまたは電話帳ボイスタグのどちらかとして表現
された特定の電話番号をダイアルする。＜ディジット＞
は数字のディジットの任意のリストであることがある。
電話音声制御式デバイスは、ゼロに対して「ｏｈ（オ
ー）」、ゼロ−ゼロに対し「hundred（ハンドレッ
ド）」という別名が可能である。＜ディジット＞のシー
ケンスは埋め込まれた一時停止を含むことがある。しか
し一時停止がプログラミング可能な長さを超えた場合、
シーケンスは終了され、システムの設計者によって設定
された長さを超えた一時停止を認識した後、コマンドが
実行される。呼コマンドに対する電話音声制御式デバイ
スの応答は、音声に表され、認識されたディジットまた
は認識されたボイスタグを伴う、「＜ディジット＞に電
話します」または「＜ボイスタグ＞に電話します」で、
正しい認識を確認するべきである。誤認識の場合、「キ
ャンセル」コマンドを使用して、呼動作をキャンセルす
ることがある。

【０１０２】ダイアル・コマンドの構文は、＜名前＞ダ
イアルします＜ボイスタグ＞、または＜名前＞ダイアル
します＜ディジット＞のどちらかである。ダイアルコマ
ンドは呼コマンドと同じである。

【０１０３】応答コマンドの構文は、＜名前＞応答しま
す、である。このコマンドを使用して、着信呼に答え
る。応答プロンプトは「お話しください」である。

【０１０４】電話を切るコマンドの構文は、＜名前＞電
話を切ります、である。このコマンドを使用して、起動
中の呼の電話を切る。応答プロンプトは、ピッチの高い
ビーという音である。

【０１０５】再ダイアル・コマンドの構文は、＜名前＞
再ダイアルします、である。このコマンドを使用して番
号を再ダイアルする。応答は「＜ディジット＞を再ダイ
アルします」または「＜ボイスタグ＞を再ダイアルしま
す」であり、前の呼コマンドまたはダイアル・コマンド
が＜ディジット＞へのものであるかまたは＜ボイスタグ
＞へのものであるのかによって異なる。それ以前に呼が
なかった場合、応答は「再ダイアルするものがありませ
ん」である。

【０１０６】格納コマンドの構文は、＜名前＞格納しま
す、である。格納コマンドは電話帳サブメニュー内にあ
り、これを使用して新しいボイスタグを追加する。

【０１０７】削除コマンドの構文は、＜名前＞削除しま
す、である。削除コマンドは電話帳サブメニュー内にあ
り、これを使用してボイスタグを削除する。

【０１０８】消音コマンドの構文は、＜名前＞消音しま
す、である。このコマンドはマイクロフォンの音を消
す。音声制御式デバイスによる応答は「消音されまし
た」である。

【０１０９】オンライン・コマンドの構文は、＜名前＞
オンラインにします、である。このコマンドはマイクロ
フォンの消音を外す。応答は「オンラインになりまし
た」である。

【０１１０】ユーザからの応答を要求するために、プロ
ンプトが音声制御式デバイスによって通知される。プロ
ンプトは発話合成器、または、あらかじめ記録された発
話の再生または他の手段によって通知される（すなわち
プロンプト指示する）。電話ボキャブラリ内のプロンプ
トは次の、文脈依存ヘルプ・プロンプトを含む。

【表１】

【０１１１】これらのプロンプトの他に、音声制御式デ
バイスはいくつかの異なるトーン音またはビーという音
を生成できる。これらは中間ピッチのビーという音（た
とえば５００Ｈｚの正弦波２００ミリ秒間）、低いピッ
チのビーという音（たとえば間違った入力を示すブザー
の音、または、低い周波数のビーという音２５０ミリ秒
間）および高いピッチのビーという音（たとえば１２０
０Ｈｚの正弦波２００ミリ秒間）を含む。他の音も可能
であり、本発明の目的とする範囲の中である。

【０１１２】電話応答音声制御式デバイスのためのボキ
ャブラリ前記の他に、標準ＶＵＩに関するアプリケーション特有
コマンドを使用すると、ユーザは音声コマンドを使用し
ている電話応答音声制御式デバイスへインタフェースで
きる。ユーザはキーパッドを使用しないでメッセージ機
能を管理し、電話応答音声制御式デバイスからの遠隔ア
クセスを得ることができる。以下は、電話応答音声制御
式デバイスについてボキャブラリ２２４に含まれるべき
追加の音声コマンドを一覧したものである。

【表２】

【０１１３】自動車制御ボキャブラリ標準のＶＵＩに関する追加の特定のコマンドを使用する
と、ユーザは音声制御を使用した自動車のアクセサリに
インタフェースできる。自動車の音声制御に関する２つ
の主な領域は、車内アクセサリの制御と、娯楽システム
の制御を含む。自動車のアクセサリは環境の制御、ウィ
ンドウ、ドア・ロック、車内の照明を含む。ステアリン
グ、ブレーキ、加速、および車外の照明などの自動車内
の「ミッション・クリティカル」な要素は、誤認識が発
生した時に安全面での心配が起きることがあるため、音
声によって制御されないことが好ましい。娯楽の制御は
第１にＣＤプレイヤ／チェンジャおよびラジオのために
使用される。

【０１１４】音声制御式デバイスのための自動車制御ボ
キャブラリ２２４は、空気調整、ファンの速度、温度、
ドライバのウィンドウ、乗客のウィンドウ、左の後部ウ
ィンドウ、右の後部ウィンドウ、ウィンドウ、ドア・ロ
ック、ワイパ、低い、中間、高い、増加、減少、設定、
再設定、キャンセル、消去、再呼び出し、オン、オフ、
より涼しく、およびより暖かくを含む。

【０１１５】ＡＰＩに関する標準のユーザ・インタフェ
ース機能本発明の標準ＶＵＩはユーザの対話のための標準機能を
含み、これはアプリケーション・プログラミング・イン
タフェース（ＡＰＩ）によってアクセスされる。これら
のＡＰＩに関する標準機能はＧＥＴＹＥＳＮＯ、ＧＥＴ
ＲＥＳＰＯＮＳＥ、ＧＥＴＲＥＳＰＯＮＳＥＰＬＵＳ、
およびＬＩＳＴＡＮＤＳＥＬＥＣＴを含み、これらはカ
スタム・ソフトウェア開発者によって使用されて、本発
明の標準ＶＵＩの上で動作するアプリケーションを開発
する。図９Ａ〜９Ｂ、図１０Ａ〜１０Ｃ、図１１、およ
び図１２は、標準ＶＵＩ内のこれらの標準ユーザ・イン
タフェース機能の機能を示すフロー・チャートである。
簡単に言えば、ＧＥＴＹＥＳＮＯ機能はユーザから肯定
的な応答（はい）、または否定的な応答（いいえ）をプ
ロンプト指示し、受け入れるためのものである。ＧＥＴ
ＲＥＳＰＯＮＳＥ機能は、期待される応答のリストに対
応するユーザからの入力をプロンプト指示し、受け入れ
るためのものである。ＧＥＴＲＥＳＰＯＮＳＥＰＬＵＳ
機能はＧＥＴＲＥＳＰＯＮＳＥ機能と同様にユーザから
の入力をプロンプト指示し、受け入れるためのものであ
るが、強化されたエラー回復機能を有する。ＬＩＳＴＡ
ＮＤＳＥＬＥＣＴ機能はユーザに選択肢の一覧を提供
し、ユーザが選択肢の１つを選択できるようにする。Ｇ
ＥＴＹＥＳＮＯ、ＧＥＴＲＥＳＰＯＮＳＥ、ＧＥＴＲＥ
ＳＰＯＮＳＥＰＬＵＳ、およびＬＩＳＴＡＮＤＳＥＬＥ
ＣＴの動作は、１９９７年のＩｎｔｅｒｎａｔｉｏｎａ
ｌＪｏｕｒｎａｌｏｆＳｐｅｅｃｈＴｅｃｈｎ
ｏｌｏｇｙにある、ＢｒｕｃｅＥ．Ｂａｌｅｎｔｉｎ
ｅらによる、「ＤｅｂｏｕｎｃｉｎｇｔｈｅＳｐｅ
ｅｃｈＢｕｔｔｏｎ：ＡｓｌｉｄｉｎｇＣａｐｔｕ
ｒｅＷｉｎｄｏｗＤｅｖｉｃｅｆｏｒＳｙｎｃ
ｈｒｏｎｉｚｉｎｇＴｕｒｎ−Ｔａｋｉｎｇ」から改
良した。図９Ａは、はい／いいえメニューの使用を示
し、図９Ｂは、拒否または間違った認識を解決する方法
を示す。図１０Ａは、ＧＥＴＲＥＳＰＯＮＳＥ機能およ
びＧＥＴＲＥＳＰＯＮＳＥＰＬＵＳ機能に関して、始動
ウィンドウまたは開始ウィンドウを示す。図１０Ｂは、
ＧＥＴＲＥＳＰＯＮＳＥ機能およびＧＥＴＲＥＳＰＯＮ
ＳＥＰＬＵＳ機能に関して、会話開始ウィンドウまたは
開くウィンドウ機能を示す。図１０Ｃは、ＧＥＴＲＥＳ
ＰＯＮＳＥ機能およびＧＥＴＲＥＳＰＯＮＳＥＰＬＵＳ
機能に関して、認識終了ウィンドウまたは閉じるウィン
ドウ機能を示す。図１１は、ＧＥＴＲＥＳＰＯＮＳＥＰ
ＬＵＳ機能に関して二重の取込みウィンドウを示す。図
１２は、ＬＩＳＴＡＮＤＳＥＬＥＣＴ機能に関してメニ
ュー・リスト機能を示す。

【０１１６】図９Ａ〜９Ｂを参照すると、ＧＥＴＹＥＳ
ＮＯユーザ・インタフェース機能を使用すると、ユーザ
に質問をし、「はい」または「いいえ」（または他の言
語内の同等のフレーズ）などの肯定的な応答または否定
的な応答を受け取る。ＧＥＴＹＥＳＮＯに関連するパラ
メータは、ＱＵＥＳＴＩＯＮ期間とＴＩＭＥＯＵＴ期間
である。質問パラメータはユーザへの音声プロンプトで
あり、「はい」または「いいえ」などで肯定的または否
定的に応答できる質問をする。タイムアウト・パラメー
タは応答が検出されなかったとフラグを付ける前に応答
を待つ秒数である。音声制御式デバイスは応答または結
果に応じて、バイト値を戻す。「いいえ」応答が検出さ
れた場合は、０が戻される。「はい」応答が検出された
場合は、１が戻される。許可された時間内に応答が検出
なかった場合は、ＴｉｍｅＯｕｔエラーを示す１７が戻
される。応答が検出されても認識不可能で、ボキャブラ
リ外の単語エラーを示す場合に、１８が戻される。

【０１１７】図１０Ａ〜１０Ｃを参照すると、ＧＥＴＲ
ＥＳＰＯＮＳＥユーザ・インタフェース機能は応答を促
し、応答を待つＰｒｏｍｐｔをユーザに再生する。ＧＥ
ＴＲＥＳＰＯＮＳＥは、ＴｏｐｉｃＬｉｓｔとして知ら
れるリスト内のトピックに一致する話された応答を探
す。ＧＥＴＲＥＳＰＯＮＳＥは、認識されたトークンの
アレイを戻すか、エラー標識を戻す。ＧＥＴＲＥＳＰＯ
ＮＳＥに関連するパラメータは、Ｐｒｏｍｐｔ、Ｔｉｍ
ｅＯｕｔ、ＳＴＳ＿ＳｏｕｎｄおよびＴｏｐｉｃＬｉｓ
ｔである。Ｐｒｏｍｐｔパラメータは、ユーザに送信さ
れるべき最初のプロンプトである。ＴｉｍｅＯｕｔパラ
メータは、応答が検出されなかったとフラグを付ける前
に応答を待つミリ秒の数である。ＳＴＳ＿Ｓｏｕｎｄパ
ラメータ（早すぎた発話の音）は、ユーザがＰｒｏｍｐ
ｔの再生が終わる前に話した場合、再生される音または
プロンプトである。典型的には、ＳＴＳ＿Ｓｏｕｎｄは
話されたフレーズではなく短いトーン音またはビーとい
う音である。パラメータＴｏｐｉｃＬｉｓｔは、ＳＲＳ
２０４が話された応答を識別するために使用すべきトピ
ックのリストに関するボキャブラリ・サブセットであ
る。音声制御式デバイスは整数アレイへのポインタを戻
す。ＴｏｐｉｃＬｉｓｔに関連する応答の認識が成功し
た場合、アレイ内の最初の要素は戻されたトークンの数
であり、アレイ内の続く要素は各識別された発話要素に
関するトークン（１または複数の単語）である。要素１
はｎ、戻されるトークンの数である。要素２からｎ＋１
は、認識された各発話要素に関するＴｏｋｅｎ値であ
る。たとえば、「電話、オフィスにダイアルします」と
いうフレーズを考えてみる。発話要素「電話」のための
トークン値が７、発話要素「ダイアル」が１２、発話要
素「オフィス」が１０３であった場合、次いで、これら
がすべてうまく認識された場合、戻される完全なアレイ
は値３、７、１２、１０３を伴う４要素長である。応答
の認識が成功しない場合、アレイは２要素長である。最
初の要素はゼロに設定され、第２の要素は発生したエラ
ーのタイプを示す。この場合要素１は０に設定され、エ
ラーが検出されたことを示す。要素２は１７に設定さ
れ、応答が許可された時間内で検出されなかったことを
示すか（ＴｉｍｅＯｕｔエラー）、または１８に設定さ
れ、応答が検出されたが認識不可能であったことを示す
（ボキャブラリ外の単語のエラー）。タイムアウト・エ
ラーに関して戻されるアレイは、値０と１７を伴う２要
素長であり、ボキャブラリ外の単語エラーに関して戻さ
れるアレイは、値０と１８を伴う２要素長である。

【０１１８】図１１を参照すると、ＧＥＴＲＥＳＰＯＮ
ＳＥＰＬＵＳユーザ・インタフェース機能はユーザにＰ
ｒｏｍｐｔを再生し、応答を促し、応答を待つ。ＧＥＴ
ＲＥＳＰＯＮＳＥＰＬＵＳは、ユーザに対してＰｒｏｍ
ｐｔを再生し、次いで話された応答を待つという点でＧ
ＥＴＲＥＳＰＯＮＳＥと同様である。しかし、ＧＥＴＲ
ＥＳＰＯＮＳＥＰＬＵＳＥは、プロンプトを再生し、ユ
ーザが話さなかったり、または背景に過剰な雑音を有す
るエラー状況から回復するプロンプトを再生する機能を
有する。ＧＥＴＲＥＳＰＯＮＳＥＰＬＵＳは、Ｔｏｐｉ
ｃＬｉｓｔ内のトピックに一致する話された応答を聞
く。ＧＥＴＲＥＳＰＯＮＳＥＰＬＵＳＥは、認識された
トークンのアレイか、エラー標識のどちらかを戻す。Ｇ
ＥＴＲＥＳＰＯＮＳＥＰＬＵＳのパラメータはＩｎｉｔ
ｉａｌ＿Ｐｒｏｍｐｔ、Ｔｉｍｅｏｕｔ、ＳＴＳ＿Ｓｏ
ｕｎｄ、ＴｏｐｉｃＬｉｓｔ、ＭａｘＴｒｉｅｓ、Ｉ
ｎｔｅｒｖｅｎｅ＿Ｐｒｏｍｐｔ、Ｒｅｐｅａｔ＿Ｐｒ
ｏｍｐｔ、およびＨｅｌｐ＿Ｐｒｏｍｐｔである。Ｉｎ
ｉｔｉａｌ＿Ｐｒｏｍｐｔパラメータは、ユーザに再生
され応答を促すべき最初のプロンプトである。Ｔｉｍｅ
Ｏｕｔパラメータは、応答が検出されなかったとフラグ
を付ける前に応答を待つためのミリ秒の数である。ＳＴ
Ｓ＿Ｓｏｕｎｄプロンプトは、Ｐｒｏｍｐｔの再生が終
了する前にユーザが話した場合に再生されるべき音また
はプロンプトである。典型的には、ＳＴＳ＿Ｓｏｕｎｄ
プロンプトは話されたフレーズではなく、短いトーン音
またはビーという音である。ＴｏｐｉｃＬｉｓｔパラメ
ータは、ＳＲＳ２０４が使用して話された応答を識別す
べきトピックのリストに関するボキャブラリ・サブセッ
トである。ＭａｘＴｒｉｅｓパラメータは、ＧＥＴＲＥ
ＳＰＯＮＳＥＰＬＵＳがよく認識しようして、ユーザに
再びプロンプト指示する最大の回数である。ＭａｘＴｒ
ｉｅｓの後認識できない場合、ＧＥＴＲＥＳＰＯＮＳＥ
ＰＬＵＳが戻り、エラーを示す。Ｉｎｔｅｒｖｅｎｅ＿
Ｐｒｏｍｐｔパラメータは、ユーザに繰り返しを求める
ために再生されるプロンプトである（たとえば「雑音が
多すぎます。言ったことを繰り返してください」）。こ
のプロンプトは、前の認識の試みの間に雑音が多すぎた
場合に、再生される。Ｒｅｐｅａｔ＿Ｐｒｏｍｐｔパラ
メータは、言ったばかりのことの繰返しをユーザに求め
るために再生されるプロンプトである（「言ったことを
繰り返してください」など）。このプロンプトは、発話
が早すぎるエラーが発生した時に使用される。Ｈｅｌｐ
＿Ｐｒｏｍｐｔパラメータは、ユーザがさらに命令を必
要とするように見える時に再生されるプロンプトで、ユ
ーザが何も言わない時も含まれる。音声制御式デバイス
は、ユーザ・インタフェース機能の終了時点で、整数ア
レイへのポインタを戻す。ＴｏｐｉｃＬｉｓｔに関連す
る応答の認識が成功した場合、アレイ内の第１の要素は
戻されたトークンの数であり、アレイ内の続く要素は各
識別された発話要素に関するトークンである（１つまた
は複数の単語）。要素１はｎで、戻されたトークンの数
である。要素２からｎ＋１は、認識された各発話要素に
関するトークン値である。たとえば「電話、オフィスに
ダイアルします」というフレーズを考えてみる。発話要
素「電話」のトークン値が７であり、発話要素「ダイア
ル」のトークン値が１２、発話要素「オフィス」のトー
クン値が１０３であり、これらがすべてうまく認識され
た場合、戻される完全なアレイは４要素長で値は３、
７、１２、１０３である。認識が成功しなかった場合、
アレイは４要素長である。第１の要素はゼロである。第
２の要素は発生したもっとも最近のエラーのタイプを示
す。第３の要素から第５の要素は、ＧＥＴＲＥＳＰＯＮ
ＳＥＰＬＵＳが呼ばれた時からＧＥＴＲＥＳＰＯＮＳＥ
ＰＬＵＳが戻った時までの間に発生した、各タイプのエ
ラーの回数を示す。この場合、要素１は値０を有し、エ
ラーが検出されたことを示す。要素２は値１７を有し、
応答が許可された時間内に検出されなかったことを示す
か（ＴｉｍｅＯｕｔエラー）、値１８を有し、応答が検
出されたが認識不可能であったことを示し（ボキャブラ
リ外の単語エラー）、または値１９を有し、早すぎた発
話エラーが検出されたことを示す。要素３は値ｘを有
し、ＴｉｍｅＯｕｔエラーが検出された回数を示す。要
素４は値ｙを有し、ボキャブラリ外の単語エラーが検出
された回数を示す。要素５は値ｚを有し、早すぎた発話
エラーが検出された数を示す。

【０１１９】図１２を参照すると、ＬＩＳＴＡＮＤＳＥ
ＬＥＣＴユーザ・インタフェース機能は第１にＰｒｏｍ
ｐｔを再生する。次いで、ＬｉｓｔＯｆＭｅｎｕＰｒｏ
ｍｐｔｓアレイ内で各プロンプトを再生し、各プロンプ
トの後にＰａｕｓｅＴｉｍｅの間、一時停止する。これ
らの一時停止の間、認識器はＴｏｐｉｃＬｉｓｔ内のト
ピックに一致する話された応答を聞く。ＬＩＳＴＡＮＤ
ＳＥＬＥＣＴは認識されたトークンのアレイか、エラー
標識のどちらかに戻る。ＬＩＳＴＡＮＤＳＥＬＥＣＴに
関するパラメータは、Ｉｎｉｔｉａｌ＿Ｐｒｏｍｐｔ、
Ｔｉｍｅｏｕｔ、ＳＴＳ＿Ｓｏｕｎｄ、ＴｏｐｉｃＬｉ
ｓｔ、ＬｉｓｔＯｆＭｅｎｕＰｒｏｍｐｔｓ、Ｐａｕｓ
ｅＴｉｍｅ、およびＨｅｌｐ＿Ｐｒｏｍｐｔを含む。Ｉ
ｎｉｔｉａｌ＿Ｐｒｏｍｐｔパラメータは、ユーザに再
生されるべき最初のプロンプトである。ＴｉｍｅＯｕｔ
パラメータは、ＬｉｓｔＯｆＭｅｎｕＰｒｏｍｐｔ内の
すべてのプロンプトを再生した後、または応答が検出さ
れなかったとフラグを付ける前に、応答を待つためのミ
リ秒数である。ＳＴＳ＿Ｓｏｕｎｄパラメータは、プロ
ンプトの再生を終わる前にユーザが話した場合に再生さ
れるべき音またはプロンプトである。典型的には、ＳＴ
Ｓ＿Ｓｏｕｎｄは話されたフレーズではなく短いトーン
音またはビーという音である。ＴｏｐｉｃＬｉｓｔパラ
メータはＳＲＳ２０４が使用して話された応答を識別す
べき、トピックのリストに関するボキャブラリ・サブセ
ットである。ＬｉｓｔＯｆＭｅｎｕＰｒｏｍｐｔｓパラ
メータは、一度に１つ再生されるプロンプトのアレイで
ある。アレイ内の第１の要素は、ＬｉｓｔＯｆＭｅｎｕ
Ｐｒｏｍｐｔｓ内のプロンプトの数のカウントである。
ＰａｕｓｅＴｉｍｅパラメータは、ＬｉｓｔＯｆＭｅｎ
ｕＰｒｏｍｐｔｓ内の各プロンプトを再生した後に一時
停止する時間である。ＰａｕｓｅＴｉｍｅパラメータ
は、ミリ秒の値を有する。Ｈｅｌｐ＿Ｐｒｏｍｐｔパラ
メータは、ユーザが何も言わなかった時を含め、ユーザ
がさらなる命令を必要とするように見える時に再生され
るプロンプトである。音声制御式デバイスはユーザ・イ
ンタフェース機能の完了時に、整数アレイへのポインタ
を戻す。認識が成功した場合、アレイ内の第１の要素は
戻されたトークンの数であり、アレイ内の続く要素は各
識別された発話要素に関するトークンである（１つまた
は複数の単語）。要素１は値ｎを有し、戻されたトーク
ンの数を示す。要素２からｎ＋１は値ｘを有し、認識さ
れた各発話要素に関するトークン値を示す。認識が成功
しなかった場合、アレイは２要素長である。第１の要素
はゼロである。第２の要素は発生したエラーのタイプを
示す。この場合、要素１は値０を有し、エラーが検出さ
れたことを示す。要素２は値１７を有し、応答が許可さ
れた時間内に検出されなかったことを示すか（Ｔｉｍｅ
Ｏｕｔエラー）または、値１８を有し、応答が検出され
たが認識不可能であったことを示す（ボキャブラリ外の
単語エラー）。

【０１２０】ＡＣＯＵＳＴＩＣＡＤＤＷＯＲＤ機能はア
プリケーション・ソフトウェアによって使用され、ユー
ザがフレーズ、またはボイスタグと呼ばれるものを音声
制御式デバイスに追加することを可能にする。これらの
フレーズはＧＥＴＲＥＳＰＯＮＳＥ機能およびＧＥＴＲ
ＥＳＰＯＮＳＥＰＬＵＳ機能を使用して後から認識でき
る。ＡＣＯＵＳＴＩＣＡＤＤＷＯＲＤ機能を使用して、
たとえば、電話内で名前によるダイアル入力を作成する
ことができる。人の名前（「ジョン・スミス」）または
アイデンティティ（「母」）または他の区別するフレー
ズ（「私のオフィスの番号」）をＡＣＯＵＳＴＩＣＡＤ
ＤＷＯＲＤで格納することにより、人は「ジョン・スミ
スに電話します」「母に電話します」、または「私のオ
フィス番号に電話します」と言うことによってその番号
に後から電話することができる。

【０１２１】ＡＣＯＵＳＴＩＣＡＤＤＷＯＲＤは、ボイ
スタグを指定されたＴｏｐｉｃＬｉｓｔに格納する。動
作において、ＡＣＯＵＳＴＩＣＡＤＤＷＯＲＤはプロン
プトを再生し、ボイスタグを受信し記録し、ボイスタグ
を確認し、次いでボイスタグを格納する。Ａｃｏｕｓｔ
ｉｃＡｄｄＷｏｒｄは、ボイスタグを複数回再チェック
することによってエラーから回復する能力を有する。Ａ
ｃｏｕｓｔｉｃＡｄｄＷｏｒｄは、重複の場合チェック
し、エラーをユーザに戻す。ＡＣＯＵＳＴＩＣＡＤＤＷ
ＯＲＤに関するパラメータは、Ｉｎｉｔｉａｌ＿Ｐｒｏ
ｍｐｔ、Ｔｉｍｅｏｕｔ、ＳＴＳ＿Ｓｏｕｎｄ、Ｔｏｐ
ｉｃＬｉｓｔ、ＭａｘＴｒｉｅｓ、Ｒｅｐｅａｔ＿Ｐｒ
ｏｍｐｔ、Ｉｎｔｅｒｖｅｎｅ＿Ｐｒｏｍｐｔ、Ｅｒｒ
ｏｒ＿Ｐｒｏｍｐｔ、Ｏｋ＿Ｐｒｏｍｐｔ、およびＨｅ
ｌｐ＿Ｐｒｏｍｐｔを含む。Ｉｎｉｔｉａｌ＿Ｐｒｏｍ
ｐｔパラメータはユーザに再生されるべき最初のプロン
プトであり、音声制御電話の電話帳に名前を格納する例
では「新しい名前を言ってください」などである。Ｔｉ
ｍｅｏｕｔパラメータは、失敗が検出されたというフラ
グを応答に付ける前に待つミリ秒数である。ＳＴＳ＿Ｓ
ｏｕｎｄ（Ｓｐｏｋｅ−Ｔｏｏ＿ＳｏｏｎＳｏｕｎ
ｄ）パラメータは、Ｐｒｏｍｐｔが再生を終了する前に
ユーザが話した場合に再生されるべき音またはプロンプ
トである。典型的に、ＳＴＳ＿Ｓｏｕｎｄは話されたフ
レーズではなく短いトーン音またはビーという音であ
る。パラメータＴｏｐｉｃＬｉｓｔはＳＲＳ２０４が新
しいボイスタグを格納すべきボキャブラリ・サブセット
である。ＭａｘＴｒｉｅｓパラメータはよく認識しよう
として、ＡｃｏｕｓｔｉｃＡｄｄＷｏｒｄがユーザに再
びプロンプト指示する最大数である。ＭａｘＴｒｉｅｓ
の後、認識できない場合、ＡｃｏｕｓｔｉｃＡｄｄＷｏ
ｒｄはエラー指示を戻す。Ｒｅｐｅａｔ＿Ｐｒｏｍｐｔ
パラメータは、言ったばかりのことの繰返しをユーザに
求めるために再生されるプロンプトである（たとえば
「言ったことを繰り返してください」）。このプロンプ
トは、発話が早すぎるエラーが発生した時に使用され
る。Ｉｎｔｅｒｖｅｎｅ＿Ｐｒｏｍｐｔパラメータは、
ユーザに繰り返しを求めるために再生されるプロンプト
である（たとえば「雑音が多すぎます。言ったことを繰
り返してください」）。このプロンプトは、前の認識の
試みの間に雑音が多すぎる時に再生される。Ｅｒｒｏｒ
＿Ｐｒｏｍｐｔパラメータは、繰り返された名前が最初
の名前に一致しない時か、または名前が二重であった場
合に再生されるプロンプトである（たとえば「もう一度
試みてください」）。ＯＫ＿Ｐｒｏｍｐｔパラメータ
は、新しい名前がうまく記録され格納された時に再生さ
れるプロンプトである（たとえば「＜名前＞がアドレス
・ブックに格納されました」）。Ｈｅｌｐ＿Ｐｒｏｍｐ
ｔパラメータは、ユーザが何も言わなかった時を含め、
ユーザがさらなる命令を必要とするように見える時に再
生されるプロンプトである。音声制御式デバイスは、ユ
ーザ・インタフェース機能の完了時に、整数アレイへの
ポインタを戻す。ＡｃｏｕｓｔｉｃＡｄｄＷｏｒｄに関
連する応答の認識が成功した場合、アレイは７要素長で
ある。要素１は値１であり、成功した認識を示す。要素
２はＳＲＳ２０４によって割り当てられたトークン数を
示す値であり、格納されたボイスタグに対応する。要素
３は、ボイスタグの記録されたコピーへのポインタであ
る。要素４は、発生したタイムアウト・エラーの回数を
示す値である。要素５は、名前に一致しなかった失敗が
あった回数を示す値である。要素６は、早すぎる発話が
発生した回数を示す値である。要素７は、ヘルプ・プロ
ンプトが再生された回数を示す値である。認識が成功し
なかった場合、アレイは６要素長である。第１の要素は
ゼロである。第２の要素は発生したエラーのもっとも最
近のタイプを示す。第３の要素から第５の要素は、Ａｃ
ｏｕｓｔｉｃＡｄｄＷｏｒｄが呼ばれた時からＡｃｏｕ
ｓｔｉｃＡｄｄＷｏｒｄが戻った時までの間に発生した
各タイプのエラーの回数を示す。第６の要素は、ヘルプ
・プロンプトが再生された数である。この場合、要素１
はエラーが検出されたことを示す値である。要素２は、
値１７を有し、応答が許可された時間内に検出されなか
ったことを示し（ＴｉｍｅＯｕｔエラー）、値１８は応
答が検出されたが認識不可能であることを示し（Ｎｏｉ
ｓｅエラー）、値１９は発話が早すぎるエラーが検出さ
れたことを示し、値２０はＲｅｃｏｇｎｉｔｉｏｎの失
敗を示し（繰り返しに一致がない）、または値２１はＶ
ｏｉｃｅｔａｇリストがすでに一杯であることを示す。
要素３は値ｘで、ＴｉｍｅＯｕｔエラーが検出された回
数を示す。要素４は値ｙで、認識エラーが検出された回
数を示す。要素５は値ｚで、発話が早すぎるエラーが検
出された回数を示す。要素６は、ヘルプ・プロンプトが
再生された回数を示す値である。

【０１２２】音声制御式デバイスに関するエチケット標準ＶＵＩは、音声制御式デバイスに関するエチケット
を含む。一般に、音声制御式デバイス（マシンとも呼ば
れる）は、行儀のよいお客のようにふるまうべきであ
る。

【０１２３】しかし、音声制御式デバイスと一緒の生活
に含まれる人間的な要素と人間的な問題はあまり探求さ
れていない。音声制御式デバイスの設計の際は、次の提
案が考慮されなければならない。

【０１２４】人間に要求するマシンマシンは人間に何かするように求めることができる。任
意の要求はていねいであるべきである。たとえば音声起
動セルラ電話は、そのバッテリが低くなった時に充電す
ることを求めることがある。人間はつねにマシンの要求
を拒否する選択肢を有し、マシンは人間の生命または貴
重なデータを脅かすような状況であると考えない限り、
それをていねいに受け入れるべきであり、脅かすような
状況である場合はさらに緊急な抗議をすることがある。

【０１２５】自分自身のために電話を使用するマシン音声制御式デバイスが電話に応答した場合、または人間
のユーザに電話した場合、その呼が人間と考えられるリ
スクがあった場合には、マシン自体でマシンであると自
分を明確にすべきである。

【０１２６】ユーザの発話の記録どのマシンも、そこにいる人間が会話が記録または転写
されていることを認識しているのでなければ、人間のユ
ーザの会話を記録または転写すべきではない。

【０１２７】ボリューム・レベルマシンは、明確に人間の声の方が大きいのでない限り、
周囲の騒音レベルに応答してボリューム・レベルを変調
すべきである。マシンは人間が静かにして欲しいと思う
時にはそれに敏感であるべきである（たとえば人間が眠
っている時）。マシンは不必要にしゃべるべきではな
く、これらを黙らせる手段としてユーザが介入できるよ
うにすべきである。

【０１２８】マシンからマシンへの通信図１３は、通信する１対の音声制御式デバイス１０２Ｍ
と１０２Ｎの構成図である（各々はマシンとも呼ばれ
る）。その一方または両方は通信環境１３００内で本発
明の標準の音声ユーザ・インタフェース５００を使用す
ることができる。音声制御式デバイスは互いに話して、
他にどの音声制御式デバイスが存在するか、これらがど
の種類の情報を理解するかを見つけ出し、情報を交換す
ることができる。たとえば、音声制御ＴＶは音声制御Ｖ
ＣＲに、動作するために必要な設定に関して尋ねること
がある。音声制御式デバイス間のマシンからマシンへの
通信は、可聴フォーマットおよび非可聴フォーマットの
両方で発生する。本質的に、発話を使用したマシンから
マシンへの通信は任意の発話互換媒体上で発生する可能
性があり、空気を介した音波、従来の電話リンク、イン
ターネットの音声リンク、無線の音声チャネルなどを含
む。マシンからマシンへの通信は、マシンの一部、また
はマシンのすべてが本発明のＶＵＩを含む場合にも起
き、またどのマシンも本発明のＶＵＩを含まない場合に
も起きる。

【０１２９】標準のＶＵＩを使用すると、音声制御式デ
バイスは他の音声制御式デバイスを多くの方法で通信環
境内に置くことができる。これらは人間の他のマシンと
の対話の立ち聞き、マシンの別のマシンとの対話の立ち
聞き、識別フレーズ「＜沈黙＞そこに何がありますか」
を使用することによって自分自身を識別するように近く
のマシンに明示的に要求すること、「＜沈黙＞時計、そ
こにありますか」という名前カテゴリーによってそれら
を示すことによって特定の種類のマシン（たとえばすべ
ての時計）を明示的に探すこと、または「＜沈黙＞Ｓｏ
ｃｒａｔｅｓ、そこにありますか」という名前によって
指名して特定のマシン（たとえば、Ｓｏｃｒａｔｅｓと
名付けられたクロック）を明示的に探すことを含む。

【０１３０】最初の２つの場合では、他の会話を聞くプ
ロセスは、別のマシンの名前を明らかにする。別の３つ
の場合は、「あなたはそこにありますか」コマンドに応
答した、呼べば聞こえる場所にいるマシンは、自分の名
前で応答する。最後の２つの場合は、「そこに何があり
ますか」コマンドは、マシンの所定の種類と、特定の名
前のマシンに限定され、これによってそのコマンドに応
答するマシンの数を限定する。目的の音声制御式デバイ
スの名前が分かると、最初の音声制御式デバイスは別の
コマンドを別のマシンに発行することができる（たとえ
ば「Ｓｏｃｒａｔｅｓ、今何時ですか」）。

【０１３１】場合によっては、音声制御式デバイスは別
の音声制御式デバイスに話しかける必要があることがあ
るが、その装置のうちどちらか１つかまたは両方とも、
上記のプロトコルを厳守していないことがある。これら
の場合、マシンを明示的にプログラミングして正しいコ
マンドを発行し、適切な応答を認識することができる。
この対話の簡単な例は、音声制御能力を有する音声制御
式デバイス、および、発話された時間報告や、所望のデ
ータ（時間）をただ捕捉するなどの音声に基づいたサー
ビスをダイアルする電話音声インタフェースである。

【０１３２】したがって、音声制御デバイスの活動化を
向上させる方法及び装置に関する、本発明の好ましい実
施形態が説明される。本発明の好ましい実施形態は発話
者から独立した音声認識システムを使用しているが、本
発明はまた、発話者に依存した音声認識システムとも互
換である。本発明が特定の実施形態内で説明されたが、
本発明はこのような実施形態によって限定されると解釈
されるべきではなく、首記の請求の範囲に従って解釈さ
れるべきである。

【図面の簡単な説明】

【図１Ａ】本発明の音声制御式デバイスを含む環境を示
す図である。

【図１Ｂ】図１Ａに示された環境内における、音声制御
式デバイスでの遠隔通信を示す図である。

【図２】例としての音声制御式デバイスの図である。

【図３】本発明の音声制御式デバイスの詳細な構成図で
ある。

【図４】音声通信チップの詳細な構成図である。

【図５】本発明の標準の音声ユーザ・インタフェースの
構成図である。

【図６Ａ】〜

【図６Ｃ】本発明の標準の音声ユーザ・インタフェース
に関するコア・コマンド構造のフロー・チャートであ
る。

【図６Ｄ】〜

【図６Ｅ】本発明の標準の音声ユーザ・インタフェース
に関する電話コマンド構造のフロー・チャートである。

【図７】本発明の標準の音声ユーザ・インタフェースに
関する「名前を格納する」電話コマンド構造のフロー・
チャートである。

【図８】本発明の標準の音声ユーザ・インタフェースに
関する「名前を削除する」電話コマンド構造のフロー・
チャートである。

【図９Ａ】〜

【図９Ｂ】本発明の標準の音声ユーザ・インタフェース
に関する「ＧＥＴＹＥＳＮＯ」機能のフロー・チャート
である。

【図１０Ａ】〜

【図１０Ｃ】本発明の標準の音声ユーザ・インタフェー
スに関する「ＧＥＴＲＥＳＰＯＮＳＥ」機能のフロー・
チャートである。

【図１１】本発明の標準の音声ユーザ・インタフェース
に関する「ＧＥＴＲＥＳＰＯＮＳＥＰＬＵＳ」機能のフ
ロー・チャートである。

【図１２】本発明の標準の音声ユーザ・インタフェース
に関する「ＬＩＳＴＡＮＤＳＥＬＥＣＴ」機能のフロー
・チャートである。

【図１３】本発明の標準の音声ユーザ・インタフェース
を使用して通信する一対の音声制御式デバイスの構成図
である。図の中の同様な参照番号と指示は、同様な機能
を提供する同様な要素を示す。

【コードの説明】

１００環境１０１Ａ〜１０１Ｈ人間のユーザ１０２Ａ〜１０２Ｈ音声制御式デバイス１０５接続１１２電話１１４伝送媒体１１６電話会社のスイッチ１１８遠隔コンピュータ１２０ネットワーク接続１０２Ｉ〜１０２Ｍ音声制御式デバイス

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成１２年８月１１日（２０００．８．１
１）

【手続補正１】

【補正対象書類名】図面

【補正対象項目名】全図

【補正方法】変更

【補正内容】

【図１Ａ】

【図１Ｂ】

【図１０Ｂ】

【図２】

【図３】

【図４】

【図５】

【図６Ｅ】

【図１０Ｃ】

【図６Ａ】

【図１０Ａ】

【図６Ｂ】

【図６Ｃ】

【図６Ｄ】

【図７】

【図８】

【図９Ａ】

【図９Ｂ】

【図１１】

【図１２】

【図１３】

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/22 Ｇ１０Ｌ 3/00 ５６１Ｈ５７１Ｋ５７１Ｈ５７１Ｖ (72)発明者デイビッド・マックミランアメリカ合衆国・94062・カリフォルニア州・ウッドサイド・ジェファーソンアベニュ・3931 (72)発明者エイブラハム・バーレルイスラエル国・99782・ドアールナシムション・ミシュマールアヤロン・22 (72)発明者エイモス・ブラウンイスラエル国・54000・ジバットスムヘル・ハナシ・45 (72)発明者カリン・リセット・ブーツマアメリカ合衆国・95134・カリフォルニア州・サンホゼ・ミランドライブ 108 番・445 (72)発明者ローレンス・ケント・ガディアメリカ合衆国・95118・カリフォルニア州・サンホゼ・ラヴェンナコート・ 5623 (72)発明者フィリップ・ポール・プヨアメリカ合衆国・95130・カリフォルニア州・サンホゼ・エルムウッドドライブ・4989

Claims

【特許請求の範囲】

【請求項１】認識精度を向上させるために音声制御電
子デバイスを活動化させる方法であって、ａ）通信環境における相対的沈黙を待つ発話認識システ
ムを有する音声制御電子デバイスを設けるステップと、ｂ）前記通信環境における第１の相対的沈黙の期間を設
けるステップと、ｃ）前記第１の相対的沈黙の期間を設けた後に、前記通
信環境で前記音声制御電子デバイスに関連付けられた器
具名を通信するステップと、ｄ）前記通信環境でコマンド・セットのコマンドを通信
するステップと、ｅ）前記相対的沈黙、前記器具名および前記コマンドが
すべて前記音声制御電子デバイスによって認識された場
合に前記音声制御電子デバイスを活動化させ、そうでな
い場合は認識されるまでステップ（ｂ）から（ｅ）のシ
ーケンスを繰り返すステップとを含む方法。
【請求項２】前記音声制御電子デバイスが話者に依存
しない請求項１に記載の音声制御電子デバイスを活動化
させる方法。
【請求項３】認識精度が向上された音声制御電子デバ
イスであって、プロセッサと、前記プロセッサに結合されたプロセッサ可読記憶媒体
と、前記プロセッサによって実行可能な前記プロセッサ可読
記憶媒体に記録され、通信環境における第１の相対的沈
黙の期間を認識するコードと、前記プロセッサ可読記憶媒体に記録され、通信環境にお
いて前記音声制御電子デバイスに通信された前記音声制
御電子デバイスに関連付けられた器具名を認識するコー
ドと、前記プロセッサ可読記憶媒体に記録され、前記プロセッ
サ可読記憶媒体に格納されたコマンド・セットのコマン
ドを認識するコードであって、前記コマンドが前記通信
環境において前記音声制御電子デバイスに通信されるコ
ードと、前記プロセッサ可読記憶媒体に記録され、前記第１の相
対的沈黙の期間、前記器具名および前記コマンドを認識
することに応答して前記音声制御電子デバイスを制御す
るコードとを含む音声制御電子デバイス。
【請求項４】前記プロセッサ可読記憶媒体に記録さ
れ、第２の期間内で前記音声制御電子デバイスに通信さ
れた前記コマンドに関連付けられたフレーズを認識する
ことに応答して、前記音声制御電子デバイスをさらに制
御するコードをさらに含む請求項３に記載の音声制御電
子デバイス。
【請求項５】可聴音声を使用して前記器具名および前
記コマンドが与えられる請求項３に記載の音声制御電子
デバイス。
【請求項６】非可聴音声を使用して前記器具名および
前記コマンドが与えら得る請求項３に記載の音声制御電
子デバイス。
【請求項７】認識精度を向上させるために音声制御電
子デバイスを活動化させる方法であって、ａ）通信環境における相対的沈黙を待つ音声認識システ
ムを有する音声制御電子デバイスを設けるステップと、ｂ）前記通信環境における第１の相対的沈黙の期間を設
けるステップと、ｃ）前記第１の相対的沈黙の期間を設けた後に、前記通
信環境で前記音声制御電子デバイスに関連付けられた器
具名を通信するステップと、ｄ）前記通信環境でコマンド・セットのコマンドを通信
するステップと、ｅ）前記第１の相対的沈黙の期間、前記器具名および前
記コマンドを認識し、第２の期間の時間を待つか、ある
いは前記第２の期間の時間が満了する前に前記コマンド
に関連付けられたフレーズが通信されるまで待って、前
記音声制御デバイスを活動化させ、そうでない場合は認
識されるまでステップ（ｂ）から（ｅ）のシーケンスを
繰り返すステップとを含む方法。
【請求項８】前記第１の相対的沈黙の期間、前記器具
名および前記コマンドが認識され、前記フレーズが認識
されない場合、前記音声制御デバイスが、前記フレーズ
が認識された場合とは異なる方法で応答する請求項７に
記載の音声制御電子デバイスを活動化させる方法。