JP2003241880A

JP2003241880A - 制御装置

Info

Publication number: JP2003241880A
Application number: JP2002370526A
Authority: JP
Inventors: Uwe Helmut Jost; ヘルムートジョストウェ; Yuan Shao; シャオユアン
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2001-12-20
Filing date: 2002-12-20
Publication date: 2003-08-29
Also published as: GB2388209C; GB0130488D0; US7664649B2; GB2388209B; US20030120494A1; GB2388209A; US7212971B2; US20070174060A1

Abstract

(57)【要約】（修正有）【解決手段】制御装置は、アクセスデータ、アクセスデ
ータと関連付けられた画面内の位置を定義する位置デー
タ、およびユーザがアクセスデータの使用を開始するた
めの音声コマンドを発するのを支援するための音声入力
データ、を含む表示画面用の画面データを提供する画面
データ提供装置１００と、ディスプレイ４４に画面デー
タを表す画面をユーザに対して表示させる画面データ表
示装置１００と、位置データ提供装置により提供される
位置データからユーザの注意が向けられる画面位置を判
定する位置判定装置１００と、判定された位置が位置デ
ータにより定義される位置に対応するとき、音声入力デ
ータを使用して、ユーザがアクセスデータの使用を開始
する音声コマンドを発するのを支援するためのプロンプ
トをユーザに提供するプロンプタ１００とを有する。【効果】音声による対話が可能になる

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ユーザがプロセッ
サ制御式装置と対話できるようにするための制御装置に
関する。

【０００２】

【従来の技術】従来、ユーザは、ディスプレイおよびキ
ーボードなどのキー入力に加えて、場合によってはマウ
スのようなポインティングデバイスも有するユーザイン
タフェースを使用して、計算装置などのプロセッサ制御
式装置と通信を行なう。通信中、プロセッサ制御式装置
はディスプレイに、キーおよび／またはポインティング
デバイスを使用してデータおよび／またはコマンドを入
力するようにユーザに促す種々の画面、ウィンドウ、ま
たはページをユーザに対して表示させることになる。ユ
ーザからのデータおよび／またはコマンドを受信する
と、プロセッサ制御式装置はアクションを実行するか、
あるいは、更に別の画面、ウィンドウ、またはページを
ユーザに対して表示することによって、更なるコマンド
および／またはデータの入力をユーザに要求する。プロ
セッサ制御式装置は、文書処理または表計算アプリケー
ションなどのアプリケーションソフトウェアを実行中の
計算装置であってもよい。計算装置は、独立して動作す
るように構成されても、あるいは、ネットワークに接続
されてもよい。後者の場合で、ユーザの計算装置がイン
ターネットなどのネットワークを介してサーバと通信を
行なう場合、ユーザの計算装置は、通常、いわゆるブラ
ウザとして構成されるであろう。

【０００３】プロセッサ制御式装置は、必ずしも、汎用
の計算装置から構成される必要はなく、例えば、オフィ
ス機器の一製品（複写機など）またはビデオカセットレ
コーダ（ＶＣＲ）などの家庭用機器の１製品などのプロ
セッサ制御式装置であってもよい。この場合、計算装置
にはユーザがプロセッサ制御式装置と対話を行なって所
望のアクションを実行させることを可能にするディスプ
レイおよび入力キーを有するコントロールパネルが備え
られるであろう。

【０００４】上述のように、ユーザは、プロセッサ制御
式装置との対話における自分の役割を手動で、すなわ
ち、キーの押下および／またはポインティングデバイス
の操作によって、コマンドおよび／またはデータを入力
することによって行なう。

【０００５】

【発明が解決しようとする課題】しかし、とりわけユー
ザがインターネットなどのネットワークを介してプロセ
ッサ制御式装置と通信を行なう場合に、計算装置と音声
による対話を行なう機能をユーザに対して提供すること
に対する関心が高まっている。

【０００６】ユーザの計算装置がブラウザとして構成さ
れ、サーバとネットワークを介して通信する場合、サー
バは、ＨＴＭＬ（Hypertext Markup Language）または
ＸＭＬ（eXtensible Markup Language）などのマークア
ップ言語を使用して生成されたマークアップ文書ファイ
ルとしてユーザの計算装置により表示するためのページ
を送信することになる。これらのマークアップ言語によ
り、アプリケーション開発者は、マークアップ要素、す
なわち、タグを付加することによる非常に簡単な方法で
ユーザに対する情報の提示を制御することが可能にな
る。この方法は、データを処理するプログラムを記述す
るよりもはるかに簡単である。なぜなら、アプリケーシ
ョン開発者は、レコードの構成、読み取り、および格納
の方法または個々のフィールドのアドレス指定の方法を
考える必要がなく、それどころか、全ての要素は直前に
配置されるため、マークアップタグはデータの必要箇所
にのみ挿入することが可能であるからである。

【０００７】ユーザが音声を使用してコマンドおよび／
またはデータを入力できるようにすることに対する関心
が高まっており、このため、Worldwide Web Consortium
（Ｗ３Ｃ）は、音声対応マークアップ言語ＶｏｉｃｅＸ
ＭＬを提案している。ＶｏｉｃｅＸＭＬは、Worldwide
Web Consortiumの業界標準規格ＸＭＬ（eXtensible Mar
kup Language）に基づいている。ＶｏｉｃｅＸＭＬのバ
ージョン１．０の仕様の詳細およびその後の開発につい
ては、ＶｏｉｃｅＸＭＬおよびＷ３Ｃのウェブサイトで
あるHTTP://www.voicexml.orgおよびHTTP://www.w3.org
において閲覧が可能である。

【０００８】

【課題を解決するための手段】本発明の一側面は、プロ
セッサ制御式装置とユーザとが音声によって対話するこ
とが可能な制御装置であって、少なくとも一部が音声入
力が可能であることを示すデータと関連付けられた画面
またはページをユーザに対して表示するように構成さ
れ、ユーザに対して音声入力が可能であることを視覚的
に示すように動作可能である制御装置を提供する。例え
ば、制御装置はディスプレイ上のカーソルを音声データ
入力と関連付けられたディスプレイ上の位置を示すべく
変化させるように動作可能であってもよい。そくわえ
て、あるいはそれとは別に、制御装置はディスプレイに
ユーザに対して音声入力が可能であることを示す音声イ
ンジケータを表示させるように動作可能であってもよ
い。

【０００９】本発明の他の側面は、音声入力が可能な表
示画面の位置にユーザが注意を向ける場合に、ユーザが
音声を発するのを支援するためのプロンプトをユーザに
対して提供する制御装置を提供する。

【００１０】本発明の一実施形態は、ディスプレイに音
声入力と関連付けられているか、あるいは、音声入力が
可能な１つ以上の位置をユーザに対して視覚的に識別さ
せるためにディスプレイを制御するように動作可能な制
御装置を提供する。

【００１１】本発明の他の実施形態は、ディスプレイに
ユーザが音声コマンドを発するのを支援するためのプロ
ンプトをユーザに対して表示させるように動作可能な制
御装置を提供する。これにより、ユーザは正確な音声コ
マンドを発することができ、特に、ユーザが制御装置と
の音声インタフェースに不慣れであり、どの種類または
形式の音声コマンドを使用すべきか分からない場合に有
用である。

【００１２】本発明の他の実施形態によれば、ディスプ
レイに音声コマンドと関連付けられた表示ページまたは
画面上の位置を表示画面またはページ上でユーザに対し
て視覚的に識別させるように構成されると共に、ユーザ
の注意がこの位置に向けられるときに、ユーザが音声コ
マンドを発するのを支援するプロンプトをユーザに対し
て提供するように動作可能である制御装置が提供され
る。これは、ユーザがインタフェースと音声対話を実行
するのを支援するために表示ページまたは画面に情報を
詰め込む必要がなく、表示ページまたは画面は、特定の
記号またはフォーマットにより視覚的に識別される音声
入力またはコマンドと関連付けられる表示画面またはペ
ージ上の各位置およびユーザの注意が音声入力と関連付
けられるか、あるいは、音声入力が可能な位置に向けら
れるときのみユーザに対して表示される適切な音声入力
をユーザが発するのを支援するためのプロンプトに対す
る従来のグラフィカルユーザインタフェースを模倣する
ことが可能であることを意味する。

【００１３】

【発明の実施の形態】以下、添付の図面を参照しながら
本発明の実施形態を説明する。

【００１４】図１は、複数の計算装置（ＰＣ）がネット
ワークＮを介してそれ自体が計算装置の形態であるサー
バに接続されるネットワークシステムＮＳを示す。計算
装置１はパーソナルコンピュータであっても、ワークス
テーションであっても、あるいは、その他の装置であっ
てもよい。

【００１５】ネットワークＮは計算装置間の通信を可能
にするものであればどのようなネットワークであっても
よく、例えば、構内通信網（ＬＡＮ）、イントラネッ
ト、およびインターネットのいずれかであってもよい。

【００１６】図１に示す計算装置１のうちの１つにおい
て示されるように、各計算装置１は、プロセッサが実行
可能な命令およびデータによって、ユーザインタフェー
ス４に接続されたマルチモーダルブラウザ３を提供する
ように構成される。ユーザインタフェース４は、ユーザ
がマルチモーダルブラウザ３との対話を行なえるように
し、マルチモーダルブラウザ３自体は、ネットワークＮ
を介してサーバ２と通信を行なう。

【００１７】図２は、図１に示す計算装置１を提供する
ために使用される計算装置１ａのブロック図である。図
２に示すように、計算装置１ａは、関連メモリ（ＲＯＭ
および／またはＲＡＭ）１０１、例えば、ハードディス
クドライブの形態の大容量記憶装置１０２、並びにフロ
ッピディスクドライブおよび／またはＣＤ−ＲＯＭドラ
イブおよび／またはＤＶＤドライブなどのリムーバブル
・メディア（ＲＭ）１０４を収容するためのリムーバブ
ル・メディア・ドライブ（ＲＭＤ）１０３を有するプロ
セッサユニット１００を有する。また、計算装置１ａ
は、プロセッサユニット１００に接続された通信デバイ
ス１０５を含む。この場合、通信デバイス１０５はネッ
トワークを介するサーバ２との通信を可能にするモデム
を備える。ネットワークがローカルネットワークの場
合、通信デバイス１０５はネットワークカードであって
もよい。

【００１８】計算装置１ａは、ユーザインタフェース４
を提供する各装置を含んでもよい。ユーザインタフェー
ス４は、ユーザ入力インタフェース４ａおよびユーザイ
ンタフェース４ｂから構成される。ユーザ入力インタフ
ェース４ａは、マウスなどのポインティングデバイス、
タッチパッドまたはデジタイジングタブレット、キーボ
ード４１、マイクロホン４２、およびオプションとして
カメラ４３を含む。ユーザ出力インタフェース４ｂは、
ディスプレイ４４、スピーカ４５、およびオプションと
してプリンタ４６を含む。

【００１９】計算装置１ａは、プログラム命令および／
またはデータによって、図１に示される後述のマルチモ
ーダルブラウザ３を提供するように構成またはプログラ
ムされる。プログラム命令および／またはデータは、以
下に示す方法のうちの少なくとも１つによってプロセッ
サユニット１００に供給される。

【００２０】１．大容量記憶装置１０２またはメモリ１
０１の不揮発（ＲＯＭなど）部分にあらかじめ記憶して
おく方法、２．リムーバブル・メディア１０４からダウンロードす
る方法、および、３．例えば、ネットワークＮ上の別の計算装置から通信
デバイス１０５を介して信号Ｓとして供給される方法

【００２１】図３に示すように、マルチモーダルブラウ
ザ３は、その全体的な動作を制御するオペレーションマ
ネージャ３０を有する。オペレーションマネージャ３０
は、マルチモーダル入力マネージャ３１に接続される。
マルチモーダル入力マネージャ３１は、様々なユーザ入
力装置、すなわち、この場合ではポインティングデバイ
ス４０、キーボード４１、マイクロホン４２、およびオ
プションとしてのカメラ４３からの様々なモダリティ入
力を受信するように構成される。マルチモーダル入力マ
ネージャ３１は、この様々なモダリティ入力の中からオ
ペレーションマネージャ３０により処理可能なコマンド
およびデータを供給する。

【００２２】オペレーションマネージャ３０は出力マネ
ージャ３２にも接続される。出力マネージャ３２はオペ
レーションマネージャ３０の制御の下で、様々なユーザ
出力インタフェース装置、すなわち、この場合ではディ
スプレイ４４、スピーカ４５、およびオプションとして
のプリンタ４６にデータおよび命令を供給する。

【００２３】オペレーションマネージャ３０は音声生成
装置にも接続される。この場合の音声生成装置は音声合
成装置３３である。この音声生成装置は、出力マネージ
ャ３２がスピーカ４５にオーディオデータを供給し、音
声ブラウザがユーザに対して音声を出力できるようにす
るために、既知の方法でテキストデータを音声データに
変換する。オペレーションマネージャ３０は、マイクロ
ホン４２を介してマルチモーダル入力マネージャ３１に
入力される音声データをオペレーションマネージャ３０
により理解可能なデータに変換できるようにするための
音声認識装置３４にも接続される。

【００２４】一実施例においては、計算装置はＪＡＶＡ
（登録商標）オペレーティング・プラットフォームに従
って動作するように構成される。図４はＪＡＶＡ（登録
商標）オペレーティング・プラットフォームを使用して
実施される場合のマルチモーダルブラウザ３の機能ブロ
ック図である。

【００２５】図４に示すように、オペレーションマネー
ジャ３０はダイアログマネージャを有し、このダイアロ
グマネージャは、ネットワークＮとダイアログインタプ
リタ３００がサーバ２からマークアップ言語文書または
ダイアログファイルを受信できるようにする通信インタ
フェース３５とを介してサーバ２と通信を行なうように
構成されるダイアログインタプリタ３００を含むか、あ
るいは、それに関連付けられる。ダイアログインタプリ
タ３００は、ダイアログファイルを解釈／実行し、ユー
ザとの対話の実行を可能にするように構成される。図４
に示すように、ダイアログマネージャ３０およびダイア
ログインタプリタ３００は、共にマルチモーダル入力イ
ンタフェースマネージャ３１および出力マネージャ３２
に接続されており、ダイアログインタプリタ３００は、
出力マネージャ３２に直接接続されると同時に、音声合
成装置３３を介しても接続される。これは、音声による
プロンプトが必要な場合に、スピーカ４５を介して音声
出力をユーザへ供給できるようにするためである。

【００２６】マルチモーダル入力マネージャ３１は、複
数の入力モダリティモジュールを有し、この入力モダリ
ティモジュールは可能な入力モダリティごとに１つずつ
ある。入力モダリティモジュールは、ダイアログマネー
ジャ３０と通信を行なう入力コントローラ３１０の制御
下にある。図４に示すように、マルチモーダル入力マネ
ージャ３１は、マイクロホン４２からの音声データを受
信するように構成される音声入力モジュール３１３、ポ
インティングデバイス４０からのデータを受信するよう
に構成されるポインティングデバイス入力モジュール３
１２、およびキーボード４１からのキーストロークデー
タを受信するように構成されるキーボード入力モジュー
ル３１１を有する。図４に示すように、マルチモーダル
入力マネージャ３１は、カメラ４３からの入力データを
受信するためのカメラ入力モジュール３１４を更に有し
てもよい。

【００２７】ダイアログマネージャ３０は音声認識装置
３４とも通信を行なう。音声認識装置３４は、自動音声
認識（ＡＳＲ）エンジン３４０およびこれにより使用さ
れる文法ファイルを格納する文法ファイル記憶装置３４
１を具備する。文法ファイル記憶装置３４１は、他のモ
ダリティにより使用される文法ファイルを格納してもよ
い。ＡＳＲエンジン３４０はいかなる公知の形態のもの
を使用してもよい。例として、Nuance, Lernout and Ha
uspie社製、ＩＢＭ社製（商標名ViaVoice）、およびDra
gon Systems社製（商標名Dragon Naturally Speaking）
の音声認識エンジンがある。

【００２８】サーバ２からダイアログインタプリタ３０
０に供給されるダイアログファイルまたは文書ファイル
は、マルチモーダルマークアップ言語（ＭＭＭＬ）で記
述される。マルチモーダルマークアップ言語は、Worldw
ide Web Consortiumの業界標準規格ＸＭＬ（eXtensible
Markup Language）に基づいている。ここで、Ｖｏｉｃ
ｅＸＭＬ（ＸＭＬに基づく音声対応マークアップ言語）
仕様の用語との比較を容易にするために、ダイアログマ
ネージャ３０がＶｏｉｃｅＸＭＬインタプリタコンテキ
ストに類似する一方で、ダイアログインタプリタ３００
はＶｏｉｃｅＸＭＬインタプリタに類似し、サーバ２は
文書サーバを構成することに留意すべきである。

【００２９】計算装置１が通信インタフェース３５を介
してネットワークＮに接続されるとき、サーバ２はダイ
アログマネージャ３０を介してダイアログインタプリタ
３００から受信した要求を処理し、それに対する応答と
してマークアップ言語文書ファイル（ダイアログファイ
ル）を供給する。このマークアップ言語文書ファイル
は、ダイアログインタプリタ３００によって処理され
る。ダイアログマネージャ３０は、ダイアログインタプ
リタ３００と並行してマルチモーダル入力マネージャ３
１を介して供給されるユーザ入力を監視してもよい。例
えば、ダイアログマネージャ３０はイベントリスナ３０
１を登録してもよい。イベントリスナ３０１は、ユーザ
を高レベルのパーソナルアシスタントへと昇格させる専
門的なエスケープコマンドを表すか、あるいは、音量特
性またはテキスト音声変換特性のようなユーザプリファ
レンスを変更するマルチモーダル入力マネージャ３１か
らの入力などの特定のイベントの発生を受信する。ま
た、ダイアログマネージャ３０は、１つ以上の各入出力
装置からのエラーメッセージなどのコンピュータ装置に
おけるイベントの発生を受信するイベントリスナを公知
の方法で登録してもよい。

【００３０】ダイアログマネージャ３０は、マルチモー
ダル入力マネージャ３１からの入力を検出し、サーバ２
から最初のマークアップ言語文書ファイルを獲得し、出
力マネージャ３２を介して肯定応答の発行などのユーザ
入力に対する最初の応答を制御する役割をもつ。ダイア
ログインタプリタ３００は、最初の肯定応答の後にユー
ザとの対話を実行する役割をもつ。

【００３１】サーバ２により供給されるＶｏｉｃｅＸＭ
Ｌ文書のようなマークアップ言語文書ファイルは、主
に、ダイアログと呼ばれるトップレベル要素から構成さ
れる。ダイアログにはフォームとメニューの２種類があ
る。ダイアログインタプリタ３００は、特に指定のない
場合には、第１のダイアログで文書の実行を開始する。
各ダイアログが実行される際にそのダイアログが次のダ
イアログを判定する。文書は、各フォーム項目のセット
をいくつか含む複数のフォームからそれぞれ構成され
る。フォーム項目は、フォームを定義するフィールド項
目、フィールド項目変数、およびフォームフィールドの
集合の制御を支援する制御項目に分けられる。ダイアロ
グインタプリタ３００は、ＶｏｉｃｅＸＭＬ仕様バージ
ョン１により詳細に記載されるように、フォーム項目を
選択して訪れるメインループを有するフォーム解釈アル
ゴリズム（ＦＩＡ）を使用してフォームを解釈する。

【００３２】上述のようにユーザ入力を検出すると、ダ
イアログマネージャ３０はフィールド解釈アルゴリズム
を使用して第１の文書ファイルまたはダイアログファイ
ルの第１のフィールド項目にアクセスし、ユーザに肯定
応答を与えるとともにユーザの応答を促す。ダイアログ
マネージャ３０はユーザからの応答を待ち、マルチモー
ダル入力マネージャ３１を介して応答を受信すると、そ
の入力が音声入力の場合にはＡＳＲエンジン３４０とそ
のフィールド項目と関連付けられた文法ファイル記憶装
置中の文法ファイル３４１とにアクセスし、受信した音
声データに基づいてＡＳＲエンジン３４０に音声認識処
理を実行させる。音声認識処理の結果またはユーザから
の入力が非音声入力の場合にはマルチモーダル入力マネ
ージャ３１からの入力を受信すると、ダイアログマネー
ジャ３０はダイアログインタプリタ３００と通信を行な
う。ダイアログインタプリタ３００は、サーバ２から受
信したユーザ入力と関連する文書を取得する。ダイアロ
グインタプリタ３００は、ダイアログマネージャ３０に
適切なアクションを実行させる。

【００３３】ユーザ入力オプションおよびユーザ入力に
応じてダイアログマネージャ３０が実行するアクション
は、ダイアログインタプリタ３００により現在実行中の
ダイアログファイルにより判定される。

【００３４】このアクションは、ダイアログインタプリ
タ３００が出力マネージャ３２にユーザ出力装置（この
場合、ディスプレイ４４およびスピーカ４５）のうちの
適切な装置に更なる情報を求める新たなプロンプトを提
供させることからなってもよく、あるいは、ディスプレ
イ４４により表示される画面を変更（例えば、ウィンド
ウを開く、ドロップダウンメニューを表示させる、ある
いはディスプレイに全く新規のページまたは画面を表示
させることによって）してもよく、および／または、プ
リンタ４４で文書を印刷させてもよい。

【００３５】また、ユーザからの入力によりダイアログ
マネージャ３０に通信インタフェース３５およびネット
ワークＮを介して別の計算装置または別の計算装置が保
持するサイトへのリンクを確立させてもよい。この場
合、マークアップ言語文書ファイルは、ポインティング
デバイス４０を使用してユーザが選択することによりダ
イアログマネージャ３０がネットワークＮ上の特定のア
ドレスにアクセスするようになるリンクを既知の方法で
含んでもよい。例えば、ネットワークＮがインターネッ
トの場合、このリンク（いわゆる「ハイパーリンク」）
はダイアログマネージャ３０に同じインターネットサイ
トの更なるダイアログファイルまたはページにアクセス
するように指示することになる。あるいは、ダイアログ
マネージャ３０にネットワークＮ上の別のサイトへのア
クセス権を求めさせてもよい。

【００３６】くわえて、あるいは、それとは別に、サー
バ２により供給されるダイアログファイルまたは文書フ
ァイルを実現するのに用いられるマルチモーダルマーク
アップ言語があるので、ユーザは音声コマンドによりこ
のようなリンクにアクセスすることができる。マルチモ
ーダルマークアップ言語は、音声コマンドにより活性化
することが可能なリンク、すなわち、「音声リンク」を
提供するように文書の一部をマーク付けできるようにす
るマークアップ言語要素、すなわち、タグを提供する。

【００３７】これは、本実施形態において、ユーザに対
して表示される画面を表す画面データを提供するダイア
ログファイル内および、ユーザに対して表示されるテキ
ストを定義するマークアップテキスト内において、１対
の音声リンクタグにより区切られる音声コマンドにより
アクティブにすることが可能なリンクにアクセスするた
めのアクセスデータと関連付けられたテキストを提供す
ることにより達成される。音声リンクタグはテキストが
表示されるフォーマットを定義するため、ユーザはリン
クが音声コマンドによりアクセス可能であることを識別
できる。

【００３８】また、音声リンクタグは、音声リンクが利
用可能なテキストの上にポインティングデバイスカーソ
ルが位置するときに、ディスプレイ４４に表示されるポ
インティングデバイスカーソルをユーザの通常のカーソ
ル（例えば、デフォルトは矢印）から音声リンク表現カ
ーソル記号に変化させる。音声リンク表現カーソル記号
は、音声リンクタグ上にあるときにブラウザによって選
択されるデフォルトであってもよく、あるいは、音声リ
ンクタグにより指定されてもよい。どちらの場合であっ
ても、音声リンクカーソル記号を口の形の記号などにす
ることもできる。

【００３９】くわえて、音声リンクタグは、ユーザに対
して表示されることでユーザが音声コマンドを発するこ
とができるようにするための１または２以上のヒントを
提供する１または２以上のプロンプトを定義するか、あ
るいは、実際に音声コマンドによりリンクにアクセスす
るのに使用可能な１または２以上の単語を示すデータと
関連付けられる。また、音声リンクタグはＡＳＲエンジ
ン３４０がユーザからのその後の入力を処理するのに使
用する文法ファイル記憶部３４１中に格納される１また
は２以上の文法を識別するデータと関連付けられる。こ
れらの文法ファイルは、文法ファイル記憶装置３４１に
事前に記憶されても、あるいは、通信インタフェース３
５を介してネットワークから文書ファイルと共にダウン
ロードされてもよい。

【００４０】上述のマルチモーダルブラウザの動作の一
例を図５から図１０を利用して説明する。

【００４１】ユーザがマルチモーダルブラウザ３をアク
ティブにしたとする。ユーザは最初に公知の方法でネッ
トワークアドレスを入力することによってネットワーク
Ｎ上のサイトへのリンクを確立するであろう。ダイアロ
グマネージャ３０は、通信インタフェース３５を介して
ネットワークＮ上のそのアドレスとの通信を確立する。
この場合、アドレスはサーバ２が管理するサイトを表す
ものとする。サーバ２においてそのサイトとの通信が確
立されると、サーバ２は通信インタフェース３５を介し
て第１のダイアログファイルまたは文書データをダイア
ログマネージャ３０に供給する。これをダイアログイン
タプリタ３００が受信する（図５ａのステップＳ１）。
ダイアログインタプリタ３００はこのダイアログファイ
ルを解釈して、サーバ２により供給されるマークアップ
言語文書ファイルを表す表示画面またはページをディス
プレイ４４によりユーザに対して表示する（図５ａのス
テップＳ２）。

【００４２】図６はステップＳ２においてユーザに対し
て表示されるページまたは表示画面５０の一例を示す。
図６において明らかなように、表示画面は従来のWindow
s（登録商標）型のブラウザウィンドウ内に表示され
る。ここでは、サーバ２が管理するサイトはオンライン
バンキングサービスであり、表示画面またはページ５０
は初期画面、すなわち、ウェルカム画面である。また、
表示画面またはページ５０は、文書ファイルの以下のマ
ークアップ部分により定義される音声リンクを含む。

【００４３】＜output＞ WELCOME To THE.... ＜speech link name="banksel" prompt="bank.prom" next="http://bank/sel"＞＜grammar src= "bank.gram"/＞ BANK ＜/speech link＞＜/output＞

【００４４】ここで、音声リンクタグの対（＜speech l
ink＞）は、音声リンクと関連付けられたテキストを区
切ると共に、ファイル（ここでは、音声リンクがユーザ
によってアクティブにされるときにマルチモーダルブラ
ウザ３に対して指示を与える「BANKSEL」として識別さ
れるファイル）を識別する。

【００４５】上述のように、出力項目も音声リンクと関
連付けられたプロンプトおよび文法ファイルを識別す
る。これは、通常、適切なファイル名の識別により行な
われることになる。したがって、上述の例では、音声リ
ンクと関連付けられる文法は、「bank.gram」として識
別され、プロンプトファイルは「bank.prom」として識
別される。（上述の例の省略記号は、銀行名および他の
文法ファイルが音声リンクと関連付けられる可能性など
の省略された事項を示す）。プロンプトおよび文法ファ
イルは、場合によっては、ブラウザにより事前に記憶さ
れることもある（特にユーザが以前にそのサイトにアク
セスしたことがある場合）。しかし、一般的に、プロン
プトおよび文法ファイルは、共に使用される第１の文書
ファイルと関連してサーバ２により供給されることにな
る。

【００４６】プロンプトファイルは、音声リンクをアク
ティブにするべくユーザが音声コマンドを発するのを支
援するために、ユーザに対して表示される少なくとも１
つのヒントを表すデータと音声リンクをアクティブにす
るのに使用可能な実際の音声コマンドとを提供する。ユ
ーザがそのページに慣れている場合、マイクロホン４２
を使用して適切な音声コマンドを直接入力するだけで音
声リンクをアクティブ化するであろう。しかし、ユーザ
がそのサイトに不慣れである場合、音声リンクが存在す
ることに気が付かない可能性がある。本実施形態では、
音声リンクタグは、音声リンクが使用可能であることを
ユーザに対して強調表示する音声リンクと関連付けられ
るテキストに対する書式設定を定義するか、別の可能性
として、音声リンクデフォルトフォーマットを使用すべ
きであることをブラウザに対して示すため、音声リンク
の存在がユーザに対して強調表示される。図６に示す例
において、音声リンクタグは、音声リンクと関連付けら
れたテキストを引用符で囲み、下線を付す。下線はリン
クが利用可能であることを示し、引用符は音声入力によ
ってアクティブにすることが可能なリンクであることを
示す。

【００４７】図７は、図６に示した画面５０に類似の画
面５２を示しているが、音声リンクタグは音声リンクと
関連付けられたテキストに対して別の種類の書式設定を
定義する。図７に示すように、ここでは、音声リンクは
波線５３により下線が付される。

【００４８】音声リンクと関連付けられたテキストの識
別により、そのテキストに対して使用される書式設定に
慣れているユーザは音声リンクを識別することができ
る。

【００４９】本実施形態では、マークアップ言語文書ま
たはダイアログファイルは、ポインティングデバイスカ
ーソルが音声リンクと関連付けられたテキストの上に位
置するときに表示画面に表示されるポインティングデバ
イスカーソルをダイアログマネージャ３０に変更させる
ための指示も含む（図５ａのステップＳ３）。図７に示
すように、ポインティングデバイスカーソルは、通常、
矢印５５として表示される。しかし、ポインティングデ
バイスカーソルが（ポインティングデバイスをユーザが
操作することによって）音声リンクテキストの上に置か
れたと判定されたときには、マルチモーダルブラウザ３
は表示されるカーソルをここでは口の形状５３へと変化
させ、音声リンクが存在することを示す表示をユーザに
対して更に提供する。音声リンクカーソル記号は、音声
リンクがあるときに必ず使用されるデフォルト記号であ
ってもよく、あるいは、音声リンクにより指定されても
よい。

【００５０】ユーザがポインティングデバイスカーソル
を音声リンクテキストから離すようにすぐに移動させな
い場合、図５ａのステップＳ４において、マークアップ
言語文書ファイルは、ダイアログマネージャ３０に音声
リンクと関連付けられたプロンプトファイルを検索さ
せ、このプロンプトをユーザに対して表示させる。

【００５１】図９は、ユーザに対して表示されるプロン
プトの一例を示している。この場合、プロンプトは、こ
の音声リンクにおいて入力されるであろう音声コマン
ド、すなわち、既存の顧客に対しては「アクセスアカウ
ント」または「アクセス」、新規の顧客に対しては「ヘ
ルプ」または「新規」の音声コマンドを、ユーザに対し
て提供する子ウィンドウ５７から構成される。

【００５２】図１０は、ステップＳ４においてユーザに
対して表示されるであろう別の種類のプロンプトを示し
ている。この場合、プロンプトはドロップダウンメニュ
ー５８として表示されるので、ユーザがポインティング
デバイスを使用して矢印５９を選択すると、音声コマン
ドを発するためのヒントおよび／またはこの音声リンク
をアクティブにするためにユーザが入力可能な実際の音
声コマンドのドロップダウンリストが現れる。

【００５３】ここで図５ｂを参照されたい。ステップＳ
５において、マルチモーダルブラウザ３がマルチモーダ
ル入力マネージャ３１を介してユーザが話した言葉を表
す音声データ４２を受信すると、ダイアログマネージャ
３０は音声リンクと関連付けられた文法ファイルへのア
クセスを求める指示と共にこのデータをＡＳＲエンジン
３４０に渡す。音声認識プロセスの結果を受信すると、
ステップＳ６において、ダイアログマネージャ３０は音
声リンクと関連付けられたアクセスデータに従って動作
する。これにより、マルチモーダルブラウザ３は、例え
ば、子ウィンドウを出現させるアクションまたは、ドロ
ップダウンメニューを表示させるアクションを実行して
もよく、あるいは、ユーザにより入力された音声コマン
ド入力に従って、更なるダイアログまたは文書ファイル
を要求するためにネットワークＮを介してダイアログイ
ンタプリタ３００にサーバ２と通信を行なわせてもよ
い。その後、マルチモーダルブラウザ３は、ステップＳ
５に戻って更なる入力を待つ。

【００５４】ステップＳ５において音声が入力されない
場合、ステップＳ７においてダイアログマネージャ３０
は、ユーザがアドレスウィンドウ６０（図６〜１０）に
別のページまたはサイトアドレスを既知の方法で入力す
ることによってその特定のページまたはサイトから出る
ことを決定したか、あるいは、ファイルメニュー６１
（図６〜１０）から公知の方法で終了を選択することに
よってブラウザを閉じることを決定したかを確認する。
ステップＳ７における回答がｙｅｓの場合には手続きが
終了する。回答がｎｏの場合には、ステップＳ５におい
て音声が入力されなかったのでダイアログマネージャ３
０はステップＳ５へと戻る。

【００５５】図６および図７において示すように、ペー
ジまたは画面は、「ここをクリック」とラベル付けさ
れ、ハイパーリンクと関連付けられたボタン５４を含ん
でもよい。ハイパーリンクは、従来の手段によって、す
なわち、ポインティングデバイスを使用してカーソルを
ボタン５４の上に置いて、ポインティングデバイスがマ
ウスの場合にはクリックやダブルクリックなどの既知の
方法でボタン５４を選択することによってユーザが同じ
リンクにアクセスできるようにする。

【００５６】上述の実施形態では、音声リンクと関連付
けられたテキストは、図６に示したように引用符で囲
み、下線を付すことによって、あるいは、図７に示すよ
うに波線で下線を付すことによって、表示画面またはペ
ージ上で明確に識別される。くわえて、ポインティング
デバイスカーソルは、音声リンクの上に位置するときに
は矢印から音声リンクを表す口の記号またはその他の記
号に変化する。しかし、必ずしもこの通りでなくてもよ
く、例えば、音声リンクはこれらの方法のうちのいずれ
かにより定義されてもよい。

【００５７】例えば、音声リンクは、カーソルが音声リ
ンクの上に位置するときにカーソルを変化させなくても
（例えば、図６に示すように引用符で囲み、下線を付す
ことによって）音声リンクとして識別されるようにテキ
ストの書式設定を行なってもよい。別の可能性として、
音声リンクは、カーソルが音声リンクの上にあるときに
音声リンクを識別することなくカーソルを通常のカーソ
ルから音声リンク識別カーソル５６へと変化させるよう
にダイアログマネージャ３０に指示するだけでもよい。
これは、図６および図７に示す例では、引用符および下
線が省略されることを意味するであろう。この場合、ユ
ーザはカーソルが音声リンクの上に位置するまで音声リ
ンクの存在に気が付かないであろう。この後者のオプシ
ョンは、音声リンクを定義する情報によって画像または
アイコンが整形されるまたは隠される必要がないよう
に、音声リンクがテキストと関連付けられるのではな
く、画像またはアイコンと関連付けられる場合に使用さ
れてもよい。ポインティングデバイスカーソルが音声リ
ンクと関連付けられた画面の領域の上を通過するときに
ユーザは音声リンクの存在を発見する。別の可能性とし
て、音声リンクは、ユーザがカーソルを音声リンクと関
連付けられた画面の領域の上に配置するときに音声プロ
ンプト（例えば、図９に示すプロンプト５７または図１
０に示すプロンプト５８）を表示させるようにしてもよ
い。この場合、カーソルを変化させる必要はない。これ
により音声プロンプトへの即時のアクセスがユーザに提
供されるであろう。

【００５８】別の可能性として、音声リンクと関連付け
られた文法ファイルにより多数の異なる音声コマンドの
使用が可能であるか、あるいは、所要の音声コマンドが
ユーザにとって自明のことであり、プロンプティングが
必要ない場合、プロンプトファイルは省略されてもよ
く、音声リンクは、それと関連付けられた表示語または
テキストに下線を付すまたは強調表示するおよび／また
はポインティングデバイスカーソルを音声リンクと共に
一意的に識別されるカーソルに変化させることによって
識別されてもよい。

【００５９】もちろん、２つ以上の音声リンクを同じ表
示画面またはページ上で提供し、音声リンクをアクティ
ブにする音声コマンドを互いに異なるようにすることも
可能である。

【００６０】上述の実施形態は、ユーザに対して音声ま
たは手操作（キーボードおよび／またはポインティング
デバイス）入力を使用して対話を実行する機能を提供す
る。しかし、アプリケーション開発者は、ユーザが音声
入力の可能性のみを有するように文書ファイルを設計す
ることを選択してもよい。

【００６１】上述の実施形態では、ユーザとの対話での
ブラウザの役割は、ユーザに対して画面またはページを
表示することによって実行される。それとは別に、およ
び／または、それに加えて、対話でのブラウザの役割
は、サーバ２から受信したダイアログファイルに従って
音声生成装置３３により供給されるユーザに対する音声
出力を含んでもよい。この場合、プロンプトは必ずしも
視覚的なプロンプトである必要はなく、音声プロンプト
もしくは音響プロンプトでもよい。もちろん、ブラウザ
からの音声出力が必要とされない場合には、音声生成装
置３３は省略されてもよい。上述の例では、音声生成装
置３３は音声合成装置である。しかし、音声生成装置に
は音声合成を必要としない事前記録メッセージが備えら
れていてもよい。

【００６２】上述の実施形態において、音声認識装置３
４はマルチモーダルブラウザ３特有のものである。必ず
しもこの構成でなくてもよく、例えば、音声認識装置３
４はネットワークＮを介してマルチモーダルブラウザ３
によってアクセスされてもよい。

【００６３】上述の実施形態において、サーバ２はマル
チモーダルブラウザ３から離れた位置にあり、ネットワ
ークＮを介してアクセスされる。必ずしもこの構成でな
くてもよく、例えば、マルチモーダルブラウザ３は、独
立型の計算装置の一部を形成する文書サーバであるサー
バ２と共に、その計算装置の一部を形成してもよい。

【００６４】上述の実施形態では、音声リンクによりユ
ーザは音声コマンドを入力し、マルチモーダルブラウザ
３に別のウェブページまたはサイトへのリンクを要求さ
せることができる。必ずしもこの構成でなくてもよく、
例えば、音声リンクは、適切な音声コマンドが入力され
ると、ローカルファイルを開く、ドロップダウンメニュ
ーを表示させるなどの特定のアクションをユーザの計算
装置に実行させる表示画面に表示されるアイコン、メニ
ューなどの均等物であってもよい。

【００６５】上述の実施形態では、ポインティングデバ
イスはマウス、デジタイジングデバイス、または同様の
デバイスである。カメラ４３が設けられる場合、マルチ
モーダル入力マネージャ３１は、図４に示すように、画
面上におけるユーザの注視の方向を判定することが可能
なパターン認識ソフトウェアを含むカメラ入力３１４を
有していてもよい。この場合、ユーザの注意が向けられ
る表示画面上の位置（すなわち、焦点）は、ポインティ
ングデバイスの出力ではなく、注視入力情報から判定す
ることが可能である。

【図面の簡単な説明】

【図１】ネットワークシステムの機能ブロック図であ
る。

【図２】図１のネットワークにおいて使用されうる典型
的な計算装置のブロック図である。

【図３】マルチモーダルブラウザを提供するように構成
される場合に図２に示す計算装置により提供される機能
構成要素を説明するための機能ブロック図である。

【図４】図３に示すマルチモーダルブラウザのより詳細
な機能ブロック図である。

【図５ａ】マルチモーダルブラウザの動作を説明するた
めのフローチャートである。

【図５ｂ】マルチモーダルブラウザの動作を説明するた
めのフローチャートである。

【図６】、

【図７】、

【図８】、

【図９】、

【図１０】図３および図４に示すマルチモーダルブラウ
ザによりユーザに対して表示される表示画面またはペー
ジの例を示す図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ユアンシャオイギリス国アールジー12 ２エックスエイチ，バークシャー，ブラックネル, ロンドンロード，ザブラカンズキヤノンリサーチセンターヨーロッパリミテッド内Ｆターム(参考） 5E501 AA02 AC07 AC25 AC37 BA05 CA02 CA08 CB02 CB05 CB06 CB07 CB09 CB14 CB15 CC17 DA02 EA03 EA05 EA10 EA12 EA21 FA02 FA03 FA05 FA13 FA25 FA45 FB25

Claims

【特許請求の範囲】

【請求項１】ユーザに対して画面を表示するためのデ
ィスプレイと、ユーザからの音声データを受信するオー
ディオ入力手段と、ユーザの注意が向けられる画面位置
の判定が可能なデータを提供する位置データ提供手段と
を有するプロセッサ制御式装置とユーザとが音声によっ
て対話することが可能な制御装置であって、アクセスデータと、前記アクセスデータと関連付けられ
た前記画面内の位置を定義する位置データと、前記アク
セスデータの使用を開始するための音声コマンドをユー
ザが発することができるようにするための音声入力デー
タと、を含む表示画面用の画面データを提供する画面デ
ータ提供手段と、前記ディスプレイに前記画面データを表す画面をユーザ
に対して表示させる画面データ表示制御手段と、前記位置データ提供手段によって提供される位置データ
からユーザの注意が向けられる前記画面位置を判定する
位置判定手段と、前記判定された位置が前記位置データにより定義される
位置に対応するとき、前記音声入力データを使用して、
ユーザが前記アクセスデータの使用を開始する音声コマ
ンドを発するのを支援するためのプロンプトをユーザに
対して提供するプロンプト手段と、を有する制御装置。
【請求項２】前記画面データ提供手段は、音声コマン
ドを発するためのヒント、および、利用可能な音声コマ
ンドのセット、の少なくともいずれかを表すデータを前
記音声入力データとして提供することを特徴とする請求
項１に記載の制御装置。
【請求項３】前記プロンプト手段は、前記ディスプレ
イに前記プロンプトをユーザに対して表示させるように
動作可能であることを特徴とする請求項１に記載の制御
装置。
【請求項４】前記プロンプト手段は、前記ディスプレ
イにドロップダウンメニューおよびリストのうちの１つ
として前記プロンプトをユーザに対して表示させるよう
に動作可能であることを特徴とする請求項１に記載の制
御装置。
【請求項５】前記プロンプト手段は、前記プロセッサ
制御式装置が音声生成手段を有する場合にオーディオ出
力として前記プロンプトを提供するように動作可能であ
ることを特徴とする請求項１に記載の制御装置。
【請求項６】前記画面データは、前記アクセスデータ
と関連付けられた前記画面位置において前記画面上に表
示されるインジケータを定義するインジケータデータを
含み、前記画面データ表示制御手段は、前記インジケー
タを前記アクセスデータと関連付けられた前記画面位置
において表示させるように動作可能であることを特徴と
する請求項１に記載の制御装置。
【請求項７】前記インジケータデータは、前記アクセ
スデータの使用を開始するのに音声コマンド入力が利用
可能であることを示すインジケータを定義することを特
徴とする請求項６に記載の制御装置。
【請求項８】前記インジケータデータは、前記インジ
ケータを波線として定義することを特徴とする請求項７
に記載の制御装置。
【請求項９】前記ディスプレイにユーザの注意が向け
られる画面位置を表すカーソルを前記画面上に表示させ
るために、前記カーソルが前記アクセスデータと関連付
けられた前記画面位置にあり、ユーザに対して前記アク
セスデータの存在を示すときに、前記カーソルを変化さ
せるように動作可能なカーソル制御手段を更に有するこ
とを特徴とする請求項１に記載の制御装置。
【請求項１０】前記カーソル制御手段は、前記カーソ
ルが前記アクセスデータと関連付けられた前記画面位置
にあるときに、口の表現などのアクセスデータと関連付
けられた画面位置を識別するためのデフォルトカーソル
および前記画面データにより指定されるカーソルのうち
のいずれかに前記カーソルを変化させるように動作可能
であることを特徴とする請求項９に記載の制御装置。
【請求項１１】前記位置判定手段は、前記位置データ
提供手段を構成するカメラにより提供される画像データ
からユーザの注視の方向を表すデータを取得することに
よって、ユーザの注意が向けられる前記画面位置を判定
するように動作可能であることを特徴とする請求項１に
記載の制御装置。
【請求項１２】ユーザに対して画面を表示するための
ディスプレイと、ユーザからの音声データを受信するオ
ーディオ入力手段と、ユーザの注意が向けられる画面位
置の判定を可能にするためのデータを提供する位置デー
タ提供手段と、請求項１に記載の制御装置とを有するユ
ーザインタフェース。
【請求項１３】ユーザに対して画面を表示するための
ディスプレイと、ユーザからの音声データを受信するオ
ーディオ入力手段と、ユーザの注意が向けられる画面位
置の判定を可能にするためのデータを提供する位置デー
タ提供手段とを有するプロセッサ制御式装置とユーザと
が音声によって対話することができるように、プロセッ
サ手段に、アクセスデータと、前記アクセスデータと関連付けられ
た前記画面内の位置を定義する位置データと、音声コマ
ンドをユーザが発することができるようにするための音
声入力データと、を含む表示画面用の画面データを提供
する画面データ提供ステップと、前記ディスプレイに前記画面データを表す画面をユーザ
に対して表示させるステップと、前記位置データ提供手段により提供される位置データか
らユーザの注意が向けられる前記画面位置を判定するス
テップと、前記判定された位置が前記位置データにより定義される
位置に対応するとき、前記音声入力データを使用して、
ユーザが前記アクセスデータの使用を開始する音声コマ
ンドを発するのを支援するためのプロンプトをユーザに
対して提供するプロンプト提供ステップと、を実行させるための方法。
【請求項１４】前記画面データ提供ステップは、音声
コマンドを発するためのヒント、および、利用可能な音
声コマンドのセット、の少なくともいずれかを表すデー
タを前記音声入力データとして提供することを特徴とす
る請求項１３記載の方法。
【請求項１５】前記プロンプト提供ステップは、前記
プロンプトをユーザに対して表示することを特徴とする
請求項１３に記載の方法。
【請求項１６】前記プロンプト提供ステップは、ドロ
ップダウンメニューおよびリストのうちの１つとして前
記プロンプトをユーザに対して表示することを特徴とす
る請求項１３に記載の方法。
【請求項１７】前記プロンプト提供ステップは、前記
プロセッサ制御式装置が音声生成手段を有する場合にオ
ーディオ出力として前記プロンプトを提供することを特
徴とする請求項１３に記載の方法。
【請求項１８】前記画面データは、前記アクセスデー
タと関連付けられた前記画面位置において前記画面上に
表示されるインジケータを定義するインジケータデータ
を含み、前記ディスプレイに前記画面データを表示させ
るステップは、前記インジケータを前記アクセスデータ
と関連付けられた前記画面位置において表示させること
を特徴とする請求項１３に記載の方法。
【請求項１９】前記インジケータデータは、前記アク
セスデータの使用を開始するのに音声コマンド入力が利
用可能であることを示すインジケータを定義することを
特徴とする請求項１８に記載の方法。
【請求項２０】前記インジケータデータは、前記イン
ジケータを波線として定義することを特徴とする請求項
１９に記載の方法。
【請求項２１】前記プロセッサ手段に、前記ディスプレイにユーザの注意が向けられる画面位置
を表すカーソルを前記画面上に表示させ、前記表示され
たカーソルが前記アクセスデータと関連付けられた前記
画面位置にあり、ユーザに対して前記アクセスデータの
存在を示すときに、前記カーソルを変化させるステップ
を更に実行させることを特徴とする請求項１３に記載の
方法。
【請求項２２】前記プロセッサ手段は、前記カーソル
が前記アクセスデータと関連付けられた前記画面位置に
あるときに、口の表現などの前記アクセスデータの存在
を識別するためのデフォルトカーソルおよび前記画面デ
ータにより指定されるカーソルのうちのいずれかに前記
カーソルを変化させることを特徴とする請求項２１に記
載の方法。
【請求項２３】前記プロセッサ手段は、前記位置デー
タ提供手段を構成するカメラにより提供される画像デー
タからユーザの注視の方向を表すデータを取得すること
によって、ユーザの注意が向けられる前記画面位置を判
定することを特徴とする請求項１３に記載の方法。
【請求項２４】前記プロセッサ手段に請求項１３記載
の方法を実行させるためのプロセッサ実行可能な命令お
よび／またはデータを有する信号。
【請求項２５】プロセッサ手段に請求項１３記載の方
法を実行させるためのプロセッサ実行可能な命令および
／またはデータを具備する記憶媒体。
【請求項２６】ユーザに対して画面を表示するための
ディスプレイと、ユーザからの音声データを受信するオ
ーディオ入力手段とを有するプロセッサ制御式装置とユ
ーザとが音声により対話できるようにする制御装置であ
って、前記ディスプレイに画面データを表す画面をユーザに対
して表示させる画面データ表示制御手段と、ユーザが入力した音声データを使用して、ユーザがアク
セスデータの使用を開始する音声コマンドを発するのを
支援するためのプロンプトをユーザに対して提供するプ
ロンプト手段と、を有する制御装置。
【請求項２７】ユーザに対して画面を表示するための
ディスプレイと、ユーザからの音声データを受信するオ
ーディオ入力手段とを有するプロセッサ制御式装置とユ
ーザとが音声によって対話することができるように、プ
ロセッサ手段に、前記ディスプレイに画面データを表す画面をユーザに対
して表示させるステップと、ユーザが入力した音声データを使用して、ユーザがアク
セスデータの使用を開始する音声コマンドを発するのを
支援するためのプロンプトをユーザに対して提供するス
テップと、を実行させるための方法。
【請求項２８】ユーザに対して画面を表示するための
ディスプレイと、ユーザからの音声データを受信するオ
ーディオ入力手段とを有するプロセッサ制御式装置とユ
ーザとが音声によって対話することができるように、プ
ロセッサによって実行されるプログラムであって、前記ディスプレイに画面データを表す画面をユーザに対
して表示させるための画面データ表示制御コードと、ユーザが入力した音声データを使用して、ユーザがアク
セスデータの使用を開始する音声コマンドを発するのを
支援するためのプロンプトをユーザに対して提供するた
めのプロンプトコードと、を含むプログラム。