JP2003241880A - 制御装置 - Google Patents

制御装置

Info

Publication number
JP2003241880A
JP2003241880A JP2002370526A JP2002370526A JP2003241880A JP 2003241880 A JP2003241880 A JP 2003241880A JP 2002370526 A JP2002370526 A JP 2002370526A JP 2002370526 A JP2002370526 A JP 2002370526A JP 2003241880 A JP2003241880 A JP 2003241880A
Authority
JP
Japan
Prior art keywords
data
user
screen
voice
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002370526A
Other languages
English (en)
Inventor
Uwe Helmut Jost
ヘルムート ジョスト ウェ
Yuan Shao
シャオ ユアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2003241880A publication Critical patent/JP2003241880A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99948Application of database or data structure, e.g. distributed, multimedia, or image

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

(57)【要約】 (修正有) 【解決手段】制御装置は、アクセスデータ、アクセスデ
ータと関連付けられた画面内の位置を定義する位置デー
タ、およびユーザがアクセスデータの使用を開始するた
めの音声コマンドを発するのを支援するための音声入力
データ、を含む表示画面用の画面データを提供する画面
データ提供装置100と、ディスプレイ44に画面デー
タを表す画面をユーザに対して表示させる画面データ表
示装置100と、位置データ提供装置により提供される
位置データからユーザの注意が向けられる画面位置を判
定する位置判定装置100と、判定された位置が位置デ
ータにより定義される位置に対応するとき、音声入力デ
ータを使用して、ユーザがアクセスデータの使用を開始
する音声コマンドを発するのを支援するためのプロンプ
トをユーザに提供するプロンプタ100とを有する。 【効果】音声による対話が可能になる

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ユーザがプロセッ
サ制御式装置と対話できるようにするための制御装置に
関する。
【0002】
【従来の技術】従来、ユーザは、ディスプレイおよびキ
ーボードなどのキー入力に加えて、場合によってはマウ
スのようなポインティングデバイスも有するユーザイン
タフェースを使用して、計算装置などのプロセッサ制御
式装置と通信を行なう。通信中、プロセッサ制御式装置
はディスプレイに、キーおよび/またはポインティング
デバイスを使用してデータおよび/またはコマンドを入
力するようにユーザに促す種々の画面、ウィンドウ、ま
たはページをユーザに対して表示させることになる。ユ
ーザからのデータおよび/またはコマンドを受信する
と、プロセッサ制御式装置はアクションを実行するか、
あるいは、更に別の画面、ウィンドウ、またはページを
ユーザに対して表示することによって、更なるコマンド
および/またはデータの入力をユーザに要求する。プロ
セッサ制御式装置は、文書処理または表計算アプリケー
ションなどのアプリケーションソフトウェアを実行中の
計算装置であってもよい。計算装置は、独立して動作す
るように構成されても、あるいは、ネットワークに接続
されてもよい。後者の場合で、ユーザの計算装置がイン
ターネットなどのネットワークを介してサーバと通信を
行なう場合、ユーザの計算装置は、通常、いわゆるブラ
ウザとして構成されるであろう。
【0003】プロセッサ制御式装置は、必ずしも、汎用
の計算装置から構成される必要はなく、例えば、オフィ
ス機器の一製品(複写機など)またはビデオカセットレ
コーダ(VCR)などの家庭用機器の1製品などのプロ
セッサ制御式装置であってもよい。この場合、計算装置
にはユーザがプロセッサ制御式装置と対話を行なって所
望のアクションを実行させることを可能にするディスプ
レイおよび入力キーを有するコントロールパネルが備え
られるであろう。
【0004】上述のように、ユーザは、プロセッサ制御
式装置との対話における自分の役割を手動で、すなわ
ち、キーの押下および/またはポインティングデバイス
の操作によって、コマンドおよび/またはデータを入力
することによって行なう。
【0005】
【発明が解決しようとする課題】しかし、とりわけユー
ザがインターネットなどのネットワークを介してプロセ
ッサ制御式装置と通信を行なう場合に、計算装置と音声
による対話を行なう機能をユーザに対して提供すること
に対する関心が高まっている。
【0006】ユーザの計算装置がブラウザとして構成さ
れ、サーバとネットワークを介して通信する場合、サー
バは、HTML(Hypertext Markup Language)または
XML(eXtensible Markup Language)などのマークア
ップ言語を使用して生成されたマークアップ文書ファイ
ルとしてユーザの計算装置により表示するためのページ
を送信することになる。これらのマークアップ言語によ
り、アプリケーション開発者は、マークアップ要素、す
なわち、タグを付加することによる非常に簡単な方法で
ユーザに対する情報の提示を制御することが可能にな
る。この方法は、データを処理するプログラムを記述す
るよりもはるかに簡単である。なぜなら、アプリケーシ
ョン開発者は、レコードの構成、読み取り、および格納
の方法または個々のフィールドのアドレス指定の方法を
考える必要がなく、それどころか、全ての要素は直前に
配置されるため、マークアップタグはデータの必要箇所
にのみ挿入することが可能であるからである。
【0007】ユーザが音声を使用してコマンドおよび/
またはデータを入力できるようにすることに対する関心
が高まっており、このため、Worldwide Web Consortium
(W3C)は、音声対応マークアップ言語VoiceX
MLを提案している。VoiceXMLは、Worldwide
Web Consortiumの業界標準規格XML(eXtensible Mar
kup Language)に基づいている。VoiceXMLのバ
ージョン1.0の仕様の詳細およびその後の開発につい
ては、VoiceXMLおよびW3Cのウェブサイトで
あるHTTP://www.voicexml.orgおよびHTTP://www.w3.org
において閲覧が可能である。
【0008】
【課題を解決するための手段】本発明の一側面は、プロ
セッサ制御式装置とユーザとが音声によって対話するこ
とが可能な制御装置であって、少なくとも一部が音声入
力が可能であることを示すデータと関連付けられた画面
またはページをユーザに対して表示するように構成さ
れ、ユーザに対して音声入力が可能であることを視覚的
に示すように動作可能である制御装置を提供する。例え
ば、制御装置はディスプレイ上のカーソルを音声データ
入力と関連付けられたディスプレイ上の位置を示すべく
変化させるように動作可能であってもよい。そくわえ
て、あるいはそれとは別に、制御装置はディスプレイに
ユーザに対して音声入力が可能であることを示す音声イ
ンジケータを表示させるように動作可能であってもよ
い。
【0009】本発明の他の側面は、音声入力が可能な表
示画面の位置にユーザが注意を向ける場合に、ユーザが
音声を発するのを支援するためのプロンプトをユーザに
対して提供する制御装置を提供する。
【0010】本発明の一実施形態は、ディスプレイに音
声入力と関連付けられているか、あるいは、音声入力が
可能な1つ以上の位置をユーザに対して視覚的に識別さ
せるためにディスプレイを制御するように動作可能な制
御装置を提供する。
【0011】本発明の他の実施形態は、ディスプレイに
ユーザが音声コマンドを発するのを支援するためのプロ
ンプトをユーザに対して表示させるように動作可能な制
御装置を提供する。これにより、ユーザは正確な音声コ
マンドを発することができ、特に、ユーザが制御装置と
の音声インタフェースに不慣れであり、どの種類または
形式の音声コマンドを使用すべきか分からない場合に有
用である。
【0012】本発明の他の実施形態によれば、ディスプ
レイに音声コマンドと関連付けられた表示ページまたは
画面上の位置を表示画面またはページ上でユーザに対し
て視覚的に識別させるように構成されると共に、ユーザ
の注意がこの位置に向けられるときに、ユーザが音声コ
マンドを発するのを支援するプロンプトをユーザに対し
て提供するように動作可能である制御装置が提供され
る。これは、ユーザがインタフェースと音声対話を実行
するのを支援するために表示ページまたは画面に情報を
詰め込む必要がなく、表示ページまたは画面は、特定の
記号またはフォーマットにより視覚的に識別される音声
入力またはコマンドと関連付けられる表示画面またはペ
ージ上の各位置およびユーザの注意が音声入力と関連付
けられるか、あるいは、音声入力が可能な位置に向けら
れるときのみユーザに対して表示される適切な音声入力
をユーザが発するのを支援するためのプロンプトに対す
る従来のグラフィカルユーザインタフェースを模倣する
ことが可能であることを意味する。
【0013】
【発明の実施の形態】以下、添付の図面を参照しながら
本発明の実施形態を説明する。
【0014】図1は、複数の計算装置(PC)がネット
ワークNを介してそれ自体が計算装置の形態であるサー
バに接続されるネットワークシステムNSを示す。計算
装置1はパーソナルコンピュータであっても、ワークス
テーションであっても、あるいは、その他の装置であっ
てもよい。
【0015】ネットワークNは計算装置間の通信を可能
にするものであればどのようなネットワークであっても
よく、例えば、構内通信網(LAN)、イントラネッ
ト、およびインターネットのいずれかであってもよい。
【0016】図1に示す計算装置1のうちの1つにおい
て示されるように、各計算装置1は、プロセッサが実行
可能な命令およびデータによって、ユーザインタフェー
ス4に接続されたマルチモーダルブラウザ3を提供する
ように構成される。ユーザインタフェース4は、ユーザ
がマルチモーダルブラウザ3との対話を行なえるように
し、マルチモーダルブラウザ3自体は、ネットワークN
を介してサーバ2と通信を行なう。
【0017】図2は、図1に示す計算装置1を提供する
ために使用される計算装置1aのブロック図である。図
2に示すように、計算装置1aは、関連メモリ(ROM
および/またはRAM)101、例えば、ハードディス
クドライブの形態の大容量記憶装置102、並びにフロ
ッピディスクドライブおよび/またはCD−ROMドラ
イブおよび/またはDVDドライブなどのリムーバブル
・メディア(RM)104を収容するためのリムーバブ
ル・メディア・ドライブ(RMD)103を有するプロ
セッサユニット100を有する。また、計算装置1a
は、プロセッサユニット100に接続された通信デバイ
ス105を含む。この場合、通信デバイス105はネッ
トワークを介するサーバ2との通信を可能にするモデム
を備える。ネットワークがローカルネットワークの場
合、通信デバイス105はネットワークカードであって
もよい。
【0018】計算装置1aは、ユーザインタフェース4
を提供する各装置を含んでもよい。ユーザインタフェー
ス4は、ユーザ入力インタフェース4aおよびユーザイ
ンタフェース4bから構成される。ユーザ入力インタフ
ェース4aは、マウスなどのポインティングデバイス、
タッチパッドまたはデジタイジングタブレット、キーボ
ード41、マイクロホン42、およびオプションとして
カメラ43を含む。ユーザ出力インタフェース4bは、
ディスプレイ44、スピーカ45、およびオプションと
してプリンタ46を含む。
【0019】計算装置1aは、プログラム命令および/
またはデータによって、図1に示される後述のマルチモ
ーダルブラウザ3を提供するように構成またはプログラ
ムされる。プログラム命令および/またはデータは、以
下に示す方法のうちの少なくとも1つによってプロセッ
サユニット100に供給される。
【0020】1.大容量記憶装置102またはメモリ1
01の不揮発(ROMなど)部分にあらかじめ記憶して
おく方法、 2.リムーバブル・メディア104からダウンロードす
る方法、および、 3.例えば、ネットワークN上の別の計算装置から通信
デバイス105を介して信号Sとして供給される方法
【0021】図3に示すように、マルチモーダルブラウ
ザ3は、その全体的な動作を制御するオペレーションマ
ネージャ30を有する。オペレーションマネージャ30
は、マルチモーダル入力マネージャ31に接続される。
マルチモーダル入力マネージャ31は、様々なユーザ入
力装置、すなわち、この場合ではポインティングデバイ
ス40、キーボード41、マイクロホン42、およびオ
プションとしてのカメラ43からの様々なモダリティ入
力を受信するように構成される。マルチモーダル入力マ
ネージャ31は、この様々なモダリティ入力の中からオ
ペレーションマネージャ30により処理可能なコマンド
およびデータを供給する。
【0022】オペレーションマネージャ30は出力マネ
ージャ32にも接続される。出力マネージャ32はオペ
レーションマネージャ30の制御の下で、様々なユーザ
出力インタフェース装置、すなわち、この場合ではディ
スプレイ44、スピーカ45、およびオプションとして
のプリンタ46にデータおよび命令を供給する。
【0023】オペレーションマネージャ30は音声生成
装置にも接続される。この場合の音声生成装置は音声合
成装置33である。この音声生成装置は、出力マネージ
ャ32がスピーカ45にオーディオデータを供給し、音
声ブラウザがユーザに対して音声を出力できるようにす
るために、既知の方法でテキストデータを音声データに
変換する。オペレーションマネージャ30は、マイクロ
ホン42を介してマルチモーダル入力マネージャ31に
入力される音声データをオペレーションマネージャ30
により理解可能なデータに変換できるようにするための
音声認識装置34にも接続される。
【0024】一実施例においては、計算装置はJAVA
(登録商標)オペレーティング・プラットフォームに従
って動作するように構成される。図4はJAVA(登録
商標)オペレーティング・プラットフォームを使用して
実施される場合のマルチモーダルブラウザ3の機能ブロ
ック図である。
【0025】図4に示すように、オペレーションマネー
ジャ30はダイアログマネージャを有し、このダイアロ
グマネージャは、ネットワークNとダイアログインタプ
リタ300がサーバ2からマークアップ言語文書または
ダイアログファイルを受信できるようにする通信インタ
フェース35とを介してサーバ2と通信を行なうように
構成されるダイアログインタプリタ300を含むか、あ
るいは、それに関連付けられる。ダイアログインタプリ
タ300は、ダイアログファイルを解釈/実行し、ユー
ザとの対話の実行を可能にするように構成される。図4
に示すように、ダイアログマネージャ30およびダイア
ログインタプリタ300は、共にマルチモーダル入力イ
ンタフェースマネージャ31および出力マネージャ32
に接続されており、ダイアログインタプリタ300は、
出力マネージャ32に直接接続されると同時に、音声合
成装置33を介しても接続される。これは、音声による
プロンプトが必要な場合に、スピーカ45を介して音声
出力をユーザへ供給できるようにするためである。
【0026】マルチモーダル入力マネージャ31は、複
数の入力モダリティモジュールを有し、この入力モダリ
ティモジュールは可能な入力モダリティごとに1つずつ
ある。入力モダリティモジュールは、ダイアログマネー
ジャ30と通信を行なう入力コントローラ310の制御
下にある。図4に示すように、マルチモーダル入力マネ
ージャ31は、マイクロホン42からの音声データを受
信するように構成される音声入力モジュール313、ポ
インティングデバイス40からのデータを受信するよう
に構成されるポインティングデバイス入力モジュール3
12、およびキーボード41からのキーストロークデー
タを受信するように構成されるキーボード入力モジュー
ル311を有する。図4に示すように、マルチモーダル
入力マネージャ31は、カメラ43からの入力データを
受信するためのカメラ入力モジュール314を更に有し
てもよい。
【0027】ダイアログマネージャ30は音声認識装置
34とも通信を行なう。音声認識装置34は、自動音声
認識(ASR)エンジン340およびこれにより使用さ
れる文法ファイルを格納する文法ファイル記憶装置34
1を具備する。文法ファイル記憶装置341は、他のモ
ダリティにより使用される文法ファイルを格納してもよ
い。ASRエンジン340はいかなる公知の形態のもの
を使用してもよい。例として、Nuance, Lernout and Ha
uspie社製、IBM社製(商標名ViaVoice)、およびDra
gon Systems社製(商標名Dragon Naturally Speaking)
の音声認識エンジンがある。
【0028】サーバ2からダイアログインタプリタ30
0に供給されるダイアログファイルまたは文書ファイル
は、マルチモーダルマークアップ言語(MMML)で記
述される。マルチモーダルマークアップ言語は、Worldw
ide Web Consortiumの業界標準規格XML(eXtensible
Markup Language)に基づいている。ここで、Voic
eXML(XMLに基づく音声対応マークアップ言語)
仕様の用語との比較を容易にするために、ダイアログマ
ネージャ30がVoiceXMLインタプリタコンテキ
ストに類似する一方で、ダイアログインタプリタ300
はVoiceXMLインタプリタに類似し、サーバ2は
文書サーバを構成することに留意すべきである。
【0029】計算装置1が通信インタフェース35を介
してネットワークNに接続されるとき、サーバ2はダイ
アログマネージャ30を介してダイアログインタプリタ
300から受信した要求を処理し、それに対する応答と
してマークアップ言語文書ファイル(ダイアログファイ
ル)を供給する。このマークアップ言語文書ファイル
は、ダイアログインタプリタ300によって処理され
る。ダイアログマネージャ30は、ダイアログインタプ
リタ300と並行してマルチモーダル入力マネージャ3
1を介して供給されるユーザ入力を監視してもよい。例
えば、ダイアログマネージャ30はイベントリスナ30
1を登録してもよい。イベントリスナ301は、ユーザ
を高レベルのパーソナルアシスタントへと昇格させる専
門的なエスケープコマンドを表すか、あるいは、音量特
性またはテキスト音声変換特性のようなユーザプリファ
レンスを変更するマルチモーダル入力マネージャ31か
らの入力などの特定のイベントの発生を受信する。ま
た、ダイアログマネージャ30は、1つ以上の各入出力
装置からのエラーメッセージなどのコンピュータ装置に
おけるイベントの発生を受信するイベントリスナを公知
の方法で登録してもよい。
【0030】ダイアログマネージャ30は、マルチモー
ダル入力マネージャ31からの入力を検出し、サーバ2
から最初のマークアップ言語文書ファイルを獲得し、出
力マネージャ32を介して肯定応答の発行などのユーザ
入力に対する最初の応答を制御する役割をもつ。ダイア
ログインタプリタ300は、最初の肯定応答の後にユー
ザとの対話を実行する役割をもつ。
【0031】サーバ2により供給されるVoiceXM
L文書のようなマークアップ言語文書ファイルは、主
に、ダイアログと呼ばれるトップレベル要素から構成さ
れる。ダイアログにはフォームとメニューの2種類があ
る。ダイアログインタプリタ300は、特に指定のない
場合には、第1のダイアログで文書の実行を開始する。
各ダイアログが実行される際にそのダイアログが次のダ
イアログを判定する。文書は、各フォーム項目のセット
をいくつか含む複数のフォームからそれぞれ構成され
る。フォーム項目は、フォームを定義するフィールド項
目、フィールド項目変数、およびフォームフィールドの
集合の制御を支援する制御項目に分けられる。ダイアロ
グインタプリタ300は、VoiceXML仕様バージ
ョン1により詳細に記載されるように、フォーム項目を
選択して訪れるメインループを有するフォーム解釈アル
ゴリズム(FIA)を使用してフォームを解釈する。
【0032】上述のようにユーザ入力を検出すると、ダ
イアログマネージャ30はフィールド解釈アルゴリズム
を使用して第1の文書ファイルまたはダイアログファイ
ルの第1のフィールド項目にアクセスし、ユーザに肯定
応答を与えるとともにユーザの応答を促す。ダイアログ
マネージャ30はユーザからの応答を待ち、マルチモー
ダル入力マネージャ31を介して応答を受信すると、そ
の入力が音声入力の場合にはASRエンジン340とそ
のフィールド項目と関連付けられた文法ファイル記憶装
置中の文法ファイル341とにアクセスし、受信した音
声データに基づいてASRエンジン340に音声認識処
理を実行させる。音声認識処理の結果またはユーザから
の入力が非音声入力の場合にはマルチモーダル入力マネ
ージャ31からの入力を受信すると、ダイアログマネー
ジャ30はダイアログインタプリタ300と通信を行な
う。ダイアログインタプリタ300は、サーバ2から受
信したユーザ入力と関連する文書を取得する。ダイアロ
グインタプリタ300は、ダイアログマネージャ30に
適切なアクションを実行させる。
【0033】ユーザ入力オプションおよびユーザ入力に
応じてダイアログマネージャ30が実行するアクション
は、ダイアログインタプリタ300により現在実行中の
ダイアログファイルにより判定される。
【0034】このアクションは、ダイアログインタプリ
タ300が出力マネージャ32にユーザ出力装置(この
場合、ディスプレイ44およびスピーカ45)のうちの
適切な装置に更なる情報を求める新たなプロンプトを提
供させることからなってもよく、あるいは、ディスプレ
イ44により表示される画面を変更(例えば、ウィンド
ウを開く、ドロップダウンメニューを表示させる、ある
いはディスプレイに全く新規のページまたは画面を表示
させることによって)してもよく、および/または、プ
リンタ44で文書を印刷させてもよい。
【0035】また、ユーザからの入力によりダイアログ
マネージャ30に通信インタフェース35およびネット
ワークNを介して別の計算装置または別の計算装置が保
持するサイトへのリンクを確立させてもよい。この場
合、マークアップ言語文書ファイルは、ポインティング
デバイス40を使用してユーザが選択することによりダ
イアログマネージャ30がネットワークN上の特定のア
ドレスにアクセスするようになるリンクを既知の方法で
含んでもよい。例えば、ネットワークNがインターネッ
トの場合、このリンク(いわゆる「ハイパーリンク」)
はダイアログマネージャ30に同じインターネットサイ
トの更なるダイアログファイルまたはページにアクセス
するように指示することになる。あるいは、ダイアログ
マネージャ30にネットワークN上の別のサイトへのア
クセス権を求めさせてもよい。
【0036】くわえて、あるいは、それとは別に、サー
バ2により供給されるダイアログファイルまたは文書フ
ァイルを実現するのに用いられるマルチモーダルマーク
アップ言語があるので、ユーザは音声コマンドによりこ
のようなリンクにアクセスすることができる。マルチモ
ーダルマークアップ言語は、音声コマンドにより活性化
することが可能なリンク、すなわち、「音声リンク」を
提供するように文書の一部をマーク付けできるようにす
るマークアップ言語要素、すなわち、タグを提供する。
【0037】これは、本実施形態において、ユーザに対
して表示される画面を表す画面データを提供するダイア
ログファイル内および、ユーザに対して表示されるテキ
ストを定義するマークアップテキスト内において、1対
の音声リンクタグにより区切られる音声コマンドにより
アクティブにすることが可能なリンクにアクセスするた
めのアクセスデータと関連付けられたテキストを提供す
ることにより達成される。音声リンクタグはテキストが
表示されるフォーマットを定義するため、ユーザはリン
クが音声コマンドによりアクセス可能であることを識別
できる。
【0038】また、音声リンクタグは、音声リンクが利
用可能なテキストの上にポインティングデバイスカーソ
ルが位置するときに、ディスプレイ44に表示されるポ
インティングデバイスカーソルをユーザの通常のカーソ
ル(例えば、デフォルトは矢印)から音声リンク表現カ
ーソル記号に変化させる。音声リンク表現カーソル記号
は、音声リンクタグ上にあるときにブラウザによって選
択されるデフォルトであってもよく、あるいは、音声リ
ンクタグにより指定されてもよい。どちらの場合であっ
ても、音声リンクカーソル記号を口の形の記号などにす
ることもできる。
【0039】くわえて、音声リンクタグは、ユーザに対
して表示されることでユーザが音声コマンドを発するこ
とができるようにするための1または2以上のヒントを
提供する1または2以上のプロンプトを定義するか、あ
るいは、実際に音声コマンドによりリンクにアクセスす
るのに使用可能な1または2以上の単語を示すデータと
関連付けられる。また、音声リンクタグはASRエンジ
ン340がユーザからのその後の入力を処理するのに使
用する文法ファイル記憶部341中に格納される1また
は2以上の文法を識別するデータと関連付けられる。こ
れらの文法ファイルは、文法ファイル記憶装置341に
事前に記憶されても、あるいは、通信インタフェース3
5を介してネットワークから文書ファイルと共にダウン
ロードされてもよい。
【0040】上述のマルチモーダルブラウザの動作の一
例を図5から図10を利用して説明する。
【0041】ユーザがマルチモーダルブラウザ3をアク
ティブにしたとする。ユーザは最初に公知の方法でネッ
トワークアドレスを入力することによってネットワーク
N上のサイトへのリンクを確立するであろう。ダイアロ
グマネージャ30は、通信インタフェース35を介して
ネットワークN上のそのアドレスとの通信を確立する。
この場合、アドレスはサーバ2が管理するサイトを表す
ものとする。サーバ2においてそのサイトとの通信が確
立されると、サーバ2は通信インタフェース35を介し
て第1のダイアログファイルまたは文書データをダイア
ログマネージャ30に供給する。これをダイアログイン
タプリタ300が受信する(図5aのステップS1)。
ダイアログインタプリタ300はこのダイアログファイ
ルを解釈して、サーバ2により供給されるマークアップ
言語文書ファイルを表す表示画面またはページをディス
プレイ44によりユーザに対して表示する(図5aのス
テップS2)。
【0042】図6はステップS2においてユーザに対し
て表示されるページまたは表示画面50の一例を示す。
図6において明らかなように、表示画面は従来のWindow
s(登録商標)型のブラウザウィンドウ内に表示され
る。ここでは、サーバ2が管理するサイトはオンライン
バンキングサービスであり、表示画面またはページ50
は初期画面、すなわち、ウェルカム画面である。また、
表示画面またはページ50は、文書ファイルの以下のマ
ークアップ部分により定義される音声リンクを含む。
【0043】 <output> WELCOME To THE.... <speech link name="banksel" prompt="bank.prom" next="http://bank/sel"> <grammar src= "bank.gram"/> BANK </speech link> </output>
【0044】ここで、音声リンクタグの対(<speech l
ink>)は、音声リンクと関連付けられたテキストを区
切ると共に、ファイル(ここでは、音声リンクがユーザ
によってアクティブにされるときにマルチモーダルブラ
ウザ3に対して指示を与える「BANKSEL」として識別さ
れるファイル)を識別する。
【0045】上述のように、出力項目も音声リンクと関
連付けられたプロンプトおよび文法ファイルを識別す
る。これは、通常、適切なファイル名の識別により行な
われることになる。したがって、上述の例では、音声リ
ンクと関連付けられる文法は、「bank.gram」として識
別され、プロンプトファイルは「bank.prom」として識
別される。(上述の例の省略記号は、銀行名および他の
文法ファイルが音声リンクと関連付けられる可能性など
の省略された事項を示す)。プロンプトおよび文法ファ
イルは、場合によっては、ブラウザにより事前に記憶さ
れることもある(特にユーザが以前にそのサイトにアク
セスしたことがある場合)。しかし、一般的に、プロン
プトおよび文法ファイルは、共に使用される第1の文書
ファイルと関連してサーバ2により供給されることにな
る。
【0046】プロンプトファイルは、音声リンクをアク
ティブにするべくユーザが音声コマンドを発するのを支
援するために、ユーザに対して表示される少なくとも1
つのヒントを表すデータと音声リンクをアクティブにす
るのに使用可能な実際の音声コマンドとを提供する。ユ
ーザがそのページに慣れている場合、マイクロホン42
を使用して適切な音声コマンドを直接入力するだけで音
声リンクをアクティブ化するであろう。しかし、ユーザ
がそのサイトに不慣れである場合、音声リンクが存在す
ることに気が付かない可能性がある。本実施形態では、
音声リンクタグは、音声リンクが使用可能であることを
ユーザに対して強調表示する音声リンクと関連付けられ
るテキストに対する書式設定を定義するか、別の可能性
として、音声リンクデフォルトフォーマットを使用すべ
きであることをブラウザに対して示すため、音声リンク
の存在がユーザに対して強調表示される。図6に示す例
において、音声リンクタグは、音声リンクと関連付けら
れたテキストを引用符で囲み、下線を付す。下線はリン
クが利用可能であることを示し、引用符は音声入力によ
ってアクティブにすることが可能なリンクであることを
示す。
【0047】図7は、図6に示した画面50に類似の画
面52を示しているが、音声リンクタグは音声リンクと
関連付けられたテキストに対して別の種類の書式設定を
定義する。図7に示すように、ここでは、音声リンクは
波線53により下線が付される。
【0048】音声リンクと関連付けられたテキストの識
別により、そのテキストに対して使用される書式設定に
慣れているユーザは音声リンクを識別することができ
る。
【0049】本実施形態では、マークアップ言語文書ま
たはダイアログファイルは、ポインティングデバイスカ
ーソルが音声リンクと関連付けられたテキストの上に位
置するときに表示画面に表示されるポインティングデバ
イスカーソルをダイアログマネージャ30に変更させる
ための指示も含む(図5aのステップS3)。図7に示
すように、ポインティングデバイスカーソルは、通常、
矢印55として表示される。しかし、ポインティングデ
バイスカーソルが(ポインティングデバイスをユーザが
操作することによって)音声リンクテキストの上に置か
れたと判定されたときには、マルチモーダルブラウザ3
は表示されるカーソルをここでは口の形状53へと変化
させ、音声リンクが存在することを示す表示をユーザに
対して更に提供する。音声リンクカーソル記号は、音声
リンクがあるときに必ず使用されるデフォルト記号であ
ってもよく、あるいは、音声リンクにより指定されても
よい。
【0050】ユーザがポインティングデバイスカーソル
を音声リンクテキストから離すようにすぐに移動させな
い場合、図5aのステップS4において、マークアップ
言語文書ファイルは、ダイアログマネージャ30に音声
リンクと関連付けられたプロンプトファイルを検索さ
せ、このプロンプトをユーザに対して表示させる。
【0051】図9は、ユーザに対して表示されるプロン
プトの一例を示している。この場合、プロンプトは、こ
の音声リンクにおいて入力されるであろう音声コマン
ド、すなわち、既存の顧客に対しては「アクセスアカウ
ント」または「アクセス」、新規の顧客に対しては「ヘ
ルプ」または「新規」の音声コマンドを、ユーザに対し
て提供する子ウィンドウ57から構成される。
【0052】図10は、ステップS4においてユーザに
対して表示されるであろう別の種類のプロンプトを示し
ている。この場合、プロンプトはドロップダウンメニュ
ー58として表示されるので、ユーザがポインティング
デバイスを使用して矢印59を選択すると、音声コマン
ドを発するためのヒントおよび/またはこの音声リンク
をアクティブにするためにユーザが入力可能な実際の音
声コマンドのドロップダウンリストが現れる。
【0053】ここで図5bを参照されたい。ステップS
5において、マルチモーダルブラウザ3がマルチモーダ
ル入力マネージャ31を介してユーザが話した言葉を表
す音声データ42を受信すると、ダイアログマネージャ
30は音声リンクと関連付けられた文法ファイルへのア
クセスを求める指示と共にこのデータをASRエンジン
340に渡す。音声認識プロセスの結果を受信すると、
ステップS6において、ダイアログマネージャ30は音
声リンクと関連付けられたアクセスデータに従って動作
する。これにより、マルチモーダルブラウザ3は、例え
ば、子ウィンドウを出現させるアクションまたは、ドロ
ップダウンメニューを表示させるアクションを実行して
もよく、あるいは、ユーザにより入力された音声コマン
ド入力に従って、更なるダイアログまたは文書ファイル
を要求するためにネットワークNを介してダイアログイ
ンタプリタ300にサーバ2と通信を行なわせてもよ
い。その後、マルチモーダルブラウザ3は、ステップS
5に戻って更なる入力を待つ。
【0054】ステップS5において音声が入力されない
場合、ステップS7においてダイアログマネージャ30
は、ユーザがアドレスウィンドウ60(図6〜10)に
別のページまたはサイトアドレスを既知の方法で入力す
ることによってその特定のページまたはサイトから出る
ことを決定したか、あるいは、ファイルメニュー61
(図6〜10)から公知の方法で終了を選択することに
よってブラウザを閉じることを決定したかを確認する。
ステップS7における回答がyesの場合には手続きが
終了する。回答がnoの場合には、ステップS5におい
て音声が入力されなかったのでダイアログマネージャ3
0はステップS5へと戻る。
【0055】図6および図7において示すように、ペー
ジまたは画面は、「ここをクリック」とラベル付けさ
れ、ハイパーリンクと関連付けられたボタン54を含ん
でもよい。ハイパーリンクは、従来の手段によって、す
なわち、ポインティングデバイスを使用してカーソルを
ボタン54の上に置いて、ポインティングデバイスがマ
ウスの場合にはクリックやダブルクリックなどの既知の
方法でボタン54を選択することによってユーザが同じ
リンクにアクセスできるようにする。
【0056】上述の実施形態では、音声リンクと関連付
けられたテキストは、図6に示したように引用符で囲
み、下線を付すことによって、あるいは、図7に示すよ
うに波線で下線を付すことによって、表示画面またはペ
ージ上で明確に識別される。くわえて、ポインティング
デバイスカーソルは、音声リンクの上に位置するときに
は矢印から音声リンクを表す口の記号またはその他の記
号に変化する。しかし、必ずしもこの通りでなくてもよ
く、例えば、音声リンクはこれらの方法のうちのいずれ
かにより定義されてもよい。
【0057】例えば、音声リンクは、カーソルが音声リ
ンクの上に位置するときにカーソルを変化させなくても
(例えば、図6に示すように引用符で囲み、下線を付す
ことによって)音声リンクとして識別されるようにテキ
ストの書式設定を行なってもよい。別の可能性として、
音声リンクは、カーソルが音声リンクの上にあるときに
音声リンクを識別することなくカーソルを通常のカーソ
ルから音声リンク識別カーソル56へと変化させるよう
にダイアログマネージャ30に指示するだけでもよい。
これは、図6および図7に示す例では、引用符および下
線が省略されることを意味するであろう。この場合、ユ
ーザはカーソルが音声リンクの上に位置するまで音声リ
ンクの存在に気が付かないであろう。この後者のオプシ
ョンは、音声リンクを定義する情報によって画像または
アイコンが整形されるまたは隠される必要がないよう
に、音声リンクがテキストと関連付けられるのではな
く、画像またはアイコンと関連付けられる場合に使用さ
れてもよい。ポインティングデバイスカーソルが音声リ
ンクと関連付けられた画面の領域の上を通過するときに
ユーザは音声リンクの存在を発見する。別の可能性とし
て、音声リンクは、ユーザがカーソルを音声リンクと関
連付けられた画面の領域の上に配置するときに音声プロ
ンプト(例えば、図9に示すプロンプト57または図1
0に示すプロンプト58)を表示させるようにしてもよ
い。この場合、カーソルを変化させる必要はない。これ
により音声プロンプトへの即時のアクセスがユーザに提
供されるであろう。
【0058】別の可能性として、音声リンクと関連付け
られた文法ファイルにより多数の異なる音声コマンドの
使用が可能であるか、あるいは、所要の音声コマンドが
ユーザにとって自明のことであり、プロンプティングが
必要ない場合、プロンプトファイルは省略されてもよ
く、音声リンクは、それと関連付けられた表示語または
テキストに下線を付すまたは強調表示するおよび/また
はポインティングデバイスカーソルを音声リンクと共に
一意的に識別されるカーソルに変化させることによって
識別されてもよい。
【0059】もちろん、2つ以上の音声リンクを同じ表
示画面またはページ上で提供し、音声リンクをアクティ
ブにする音声コマンドを互いに異なるようにすることも
可能である。
【0060】上述の実施形態は、ユーザに対して音声ま
たは手操作(キーボードおよび/またはポインティング
デバイス)入力を使用して対話を実行する機能を提供す
る。しかし、アプリケーション開発者は、ユーザが音声
入力の可能性のみを有するように文書ファイルを設計す
ることを選択してもよい。
【0061】上述の実施形態では、ユーザとの対話での
ブラウザの役割は、ユーザに対して画面またはページを
表示することによって実行される。それとは別に、およ
び/または、それに加えて、対話でのブラウザの役割
は、サーバ2から受信したダイアログファイルに従って
音声生成装置33により供給されるユーザに対する音声
出力を含んでもよい。この場合、プロンプトは必ずしも
視覚的なプロンプトである必要はなく、音声プロンプト
もしくは音響プロンプトでもよい。もちろん、ブラウザ
からの音声出力が必要とされない場合には、音声生成装
置33は省略されてもよい。上述の例では、音声生成装
置33は音声合成装置である。しかし、音声生成装置に
は音声合成を必要としない事前記録メッセージが備えら
れていてもよい。
【0062】上述の実施形態において、音声認識装置3
4はマルチモーダルブラウザ3特有のものである。必ず
しもこの構成でなくてもよく、例えば、音声認識装置3
4はネットワークNを介してマルチモーダルブラウザ3
によってアクセスされてもよい。
【0063】上述の実施形態において、サーバ2はマル
チモーダルブラウザ3から離れた位置にあり、ネットワ
ークNを介してアクセスされる。必ずしもこの構成でな
くてもよく、例えば、マルチモーダルブラウザ3は、独
立型の計算装置の一部を形成する文書サーバであるサー
バ2と共に、その計算装置の一部を形成してもよい。
【0064】上述の実施形態では、音声リンクによりユ
ーザは音声コマンドを入力し、マルチモーダルブラウザ
3に別のウェブページまたはサイトへのリンクを要求さ
せることができる。必ずしもこの構成でなくてもよく、
例えば、音声リンクは、適切な音声コマンドが入力され
ると、ローカルファイルを開く、ドロップダウンメニュ
ーを表示させるなどの特定のアクションをユーザの計算
装置に実行させる表示画面に表示されるアイコン、メニ
ューなどの均等物であってもよい。
【0065】上述の実施形態では、ポインティングデバ
イスはマウス、デジタイジングデバイス、または同様の
デバイスである。カメラ43が設けられる場合、マルチ
モーダル入力マネージャ31は、図4に示すように、画
面上におけるユーザの注視の方向を判定することが可能
なパターン認識ソフトウェアを含むカメラ入力314を
有していてもよい。この場合、ユーザの注意が向けられ
る表示画面上の位置(すなわち、焦点)は、ポインティ
ングデバイスの出力ではなく、注視入力情報から判定す
ることが可能である。
【図面の簡単な説明】
【図1】ネットワークシステムの機能ブロック図であ
る。
【図2】図1のネットワークにおいて使用されうる典型
的な計算装置のブロック図である。
【図3】マルチモーダルブラウザを提供するように構成
される場合に図2に示す計算装置により提供される機能
構成要素を説明するための機能ブロック図である。
【図4】図3に示すマルチモーダルブラウザのより詳細
な機能ブロック図である。
【図5a】マルチモーダルブラウザの動作を説明するた
めのフローチャートである。
【図5b】マルチモーダルブラウザの動作を説明するた
めのフローチャートである。
【図6】、
【図7】、
【図8】、
【図9】、
【図10】図3および図4に示すマルチモーダルブラウ
ザによりユーザに対して表示される表示画面またはペー
ジの例を示す図である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ユアン シャオ イギリス国 アールジー12 2エックスエ イチ, バークシャー, ブラックネル, ロンドン ロード, ザ ブラカンズ キヤノン リサーチ センター ヨーロッ パ リミテッド 内 Fターム(参考) 5E501 AA02 AC07 AC25 AC37 BA05 CA02 CA08 CB02 CB05 CB06 CB07 CB09 CB14 CB15 CC17 DA02 EA03 EA05 EA10 EA12 EA21 FA02 FA03 FA05 FA13 FA25 FA45 FB25

Claims (28)

    【特許請求の範囲】
  1. 【請求項1】 ユーザに対して画面を表示するためのデ
    ィスプレイと、ユーザからの音声データを受信するオー
    ディオ入力手段と、ユーザの注意が向けられる画面位置
    の判定が可能なデータを提供する位置データ提供手段と
    を有するプロセッサ制御式装置とユーザとが音声によっ
    て対話することが可能な制御装置であって、 アクセスデータと、前記アクセスデータと関連付けられ
    た前記画面内の位置を定義する位置データと、前記アク
    セスデータの使用を開始するための音声コマンドをユー
    ザが発することができるようにするための音声入力デー
    タと、を含む表示画面用の画面データを提供する画面デ
    ータ提供手段と、 前記ディスプレイに前記画面データを表す画面をユーザ
    に対して表示させる画面データ表示制御手段と、 前記位置データ提供手段によって提供される位置データ
    からユーザの注意が向けられる前記画面位置を判定する
    位置判定手段と、 前記判定された位置が前記位置データにより定義される
    位置に対応するとき、前記音声入力データを使用して、
    ユーザが前記アクセスデータの使用を開始する音声コマ
    ンドを発するのを支援するためのプロンプトをユーザに
    対して提供するプロンプト手段と、を有する制御装置。
  2. 【請求項2】 前記画面データ提供手段は、音声コマン
    ドを発するためのヒント、および、利用可能な音声コマ
    ンドのセット、の少なくともいずれかを表すデータを前
    記音声入力データとして提供することを特徴とする請求
    項1に記載の制御装置。
  3. 【請求項3】 前記プロンプト手段は、前記ディスプレ
    イに前記プロンプトをユーザに対して表示させるように
    動作可能であることを特徴とする請求項1に記載の制御
    装置。
  4. 【請求項4】 前記プロンプト手段は、前記ディスプレ
    イにドロップダウンメニューおよびリストのうちの1つ
    として前記プロンプトをユーザに対して表示させるよう
    に動作可能であることを特徴とする請求項1に記載の制
    御装置。
  5. 【請求項5】 前記プロンプト手段は、前記プロセッサ
    制御式装置が音声生成手段を有する場合にオーディオ出
    力として前記プロンプトを提供するように動作可能であ
    ることを特徴とする請求項1に記載の制御装置。
  6. 【請求項6】 前記画面データは、前記アクセスデータ
    と関連付けられた前記画面位置において前記画面上に表
    示されるインジケータを定義するインジケータデータを
    含み、前記画面データ表示制御手段は、前記インジケー
    タを前記アクセスデータと関連付けられた前記画面位置
    において表示させるように動作可能であることを特徴と
    する請求項1に記載の制御装置。
  7. 【請求項7】 前記インジケータデータは、前記アクセ
    スデータの使用を開始するのに音声コマンド入力が利用
    可能であることを示すインジケータを定義することを特
    徴とする請求項6に記載の制御装置。
  8. 【請求項8】 前記インジケータデータは、前記インジ
    ケータを波線として定義することを特徴とする請求項7
    に記載の制御装置。
  9. 【請求項9】 前記ディスプレイにユーザの注意が向け
    られる画面位置を表すカーソルを前記画面上に表示させ
    るために、前記カーソルが前記アクセスデータと関連付
    けられた前記画面位置にあり、ユーザに対して前記アク
    セスデータの存在を示すときに、前記カーソルを変化さ
    せるように動作可能なカーソル制御手段を更に有するこ
    とを特徴とする請求項1に記載の制御装置。
  10. 【請求項10】 前記カーソル制御手段は、前記カーソ
    ルが前記アクセスデータと関連付けられた前記画面位置
    にあるときに、口の表現などのアクセスデータと関連付
    けられた画面位置を識別するためのデフォルトカーソル
    および前記画面データにより指定されるカーソルのうち
    のいずれかに前記カーソルを変化させるように動作可能
    であることを特徴とする請求項9に記載の制御装置。
  11. 【請求項11】 前記位置判定手段は、前記位置データ
    提供手段を構成するカメラにより提供される画像データ
    からユーザの注視の方向を表すデータを取得することに
    よって、ユーザの注意が向けられる前記画面位置を判定
    するように動作可能であることを特徴とする請求項1に
    記載の制御装置。
  12. 【請求項12】 ユーザに対して画面を表示するための
    ディスプレイと、ユーザからの音声データを受信するオ
    ーディオ入力手段と、ユーザの注意が向けられる画面位
    置の判定を可能にするためのデータを提供する位置デー
    タ提供手段と、請求項1に記載の制御装置とを有するユ
    ーザインタフェース。
  13. 【請求項13】 ユーザに対して画面を表示するための
    ディスプレイと、ユーザからの音声データを受信するオ
    ーディオ入力手段と、ユーザの注意が向けられる画面位
    置の判定を可能にするためのデータを提供する位置デー
    タ提供手段とを有するプロセッサ制御式装置とユーザと
    が音声によって対話することができるように、プロセッ
    サ手段に、 アクセスデータと、前記アクセスデータと関連付けられ
    た前記画面内の位置を定義する位置データと、音声コマ
    ンドをユーザが発することができるようにするための音
    声入力データと、を含む表示画面用の画面データを提供
    する画面データ提供ステップと、 前記ディスプレイに前記画面データを表す画面をユーザ
    に対して表示させるステップと、 前記位置データ提供手段により提供される位置データか
    らユーザの注意が向けられる前記画面位置を判定するス
    テップと、 前記判定された位置が前記位置データにより定義される
    位置に対応するとき、前記音声入力データを使用して、
    ユーザが前記アクセスデータの使用を開始する音声コマ
    ンドを発するのを支援するためのプロンプトをユーザに
    対して提供するプロンプト提供ステップと、 を実行させるための方法。
  14. 【請求項14】 前記画面データ提供ステップは、音声
    コマンドを発するためのヒント、および、利用可能な音
    声コマンドのセット、の少なくともいずれかを表すデー
    タを前記音声入力データとして提供することを特徴とす
    る請求項13記載の方法。
  15. 【請求項15】 前記プロンプト提供ステップは、前記
    プロンプトをユーザに対して表示することを特徴とする
    請求項13に記載の方法。
  16. 【請求項16】 前記プロンプト提供ステップは、ドロ
    ップダウンメニューおよびリストのうちの1つとして前
    記プロンプトをユーザに対して表示することを特徴とす
    る請求項13に記載の方法。
  17. 【請求項17】 前記プロンプト提供ステップは、前記
    プロセッサ制御式装置が音声生成手段を有する場合にオ
    ーディオ出力として前記プロンプトを提供することを特
    徴とする請求項13に記載の方法。
  18. 【請求項18】 前記画面データは、前記アクセスデー
    タと関連付けられた前記画面位置において前記画面上に
    表示されるインジケータを定義するインジケータデータ
    を含み、前記ディスプレイに前記画面データを表示させ
    るステップは、前記インジケータを前記アクセスデータ
    と関連付けられた前記画面位置において表示させること
    を特徴とする請求項13に記載の方法。
  19. 【請求項19】 前記インジケータデータは、前記アク
    セスデータの使用を開始するのに音声コマンド入力が利
    用可能であることを示すインジケータを定義することを
    特徴とする請求項18に記載の方法。
  20. 【請求項20】 前記インジケータデータは、前記イン
    ジケータを波線として定義することを特徴とする請求項
    19に記載の方法。
  21. 【請求項21】 前記プロセッサ手段に、 前記ディスプレイにユーザの注意が向けられる画面位置
    を表すカーソルを前記画面上に表示させ、前記表示され
    たカーソルが前記アクセスデータと関連付けられた前記
    画面位置にあり、ユーザに対して前記アクセスデータの
    存在を示すときに、前記カーソルを変化させるステップ
    を更に実行させることを特徴とする請求項13に記載の
    方法。
  22. 【請求項22】 前記プロセッサ手段は、前記カーソル
    が前記アクセスデータと関連付けられた前記画面位置に
    あるときに、口の表現などの前記アクセスデータの存在
    を識別するためのデフォルトカーソルおよび前記画面デ
    ータにより指定されるカーソルのうちのいずれかに前記
    カーソルを変化させることを特徴とする請求項21に記
    載の方法。
  23. 【請求項23】 前記プロセッサ手段は、前記位置デー
    タ提供手段を構成するカメラにより提供される画像デー
    タからユーザの注視の方向を表すデータを取得すること
    によって、ユーザの注意が向けられる前記画面位置を判
    定することを特徴とする請求項13に記載の方法。
  24. 【請求項24】 前記プロセッサ手段に請求項13記載
    の方法を実行させるためのプロセッサ実行可能な命令お
    よび/またはデータを有する信号。
  25. 【請求項25】 プロセッサ手段に請求項13記載の方
    法を実行させるためのプロセッサ実行可能な命令および
    /またはデータを具備する記憶媒体。
  26. 【請求項26】 ユーザに対して画面を表示するための
    ディスプレイと、ユーザからの音声データを受信するオ
    ーディオ入力手段とを有するプロセッサ制御式装置とユ
    ーザとが音声により対話できるようにする制御装置であ
    って、 前記ディスプレイに画面データを表す画面をユーザに対
    して表示させる画面データ表示制御手段と、 ユーザが入力した音声データを使用して、ユーザがアク
    セスデータの使用を開始する音声コマンドを発するのを
    支援するためのプロンプトをユーザに対して提供するプ
    ロンプト手段と、 を有する制御装置。
  27. 【請求項27】 ユーザに対して画面を表示するための
    ディスプレイと、ユーザからの音声データを受信するオ
    ーディオ入力手段とを有するプロセッサ制御式装置とユ
    ーザとが音声によって対話することができるように、プ
    ロセッサ手段に、 前記ディスプレイに画面データを表す画面をユーザに対
    して表示させるステップと、 ユーザが入力した音声データを使用して、ユーザがアク
    セスデータの使用を開始する音声コマンドを発するのを
    支援するためのプロンプトをユーザに対して提供するス
    テップと、 を実行させるための方法。
  28. 【請求項28】 ユーザに対して画面を表示するための
    ディスプレイと、ユーザからの音声データを受信するオ
    ーディオ入力手段とを有するプロセッサ制御式装置とユ
    ーザとが音声によって対話することができるように、プ
    ロセッサによって実行されるプログラムであって、 前記ディスプレイに画面データを表す画面をユーザに対
    して表示させるための画面データ表示制御コードと、 ユーザが入力した音声データを使用して、ユーザがアク
    セスデータの使用を開始する音声コマンドを発するのを
    支援するためのプロンプトをユーザに対して提供するた
    めのプロンプトコードと、 を含むプログラム。
JP2002370526A 2001-12-20 2002-12-20 制御装置 Pending JP2003241880A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0130488.0 2001-12-20
GB0130488A GB2388209C (en) 2001-12-20 2001-12-20 Control apparatus

Publications (1)

Publication Number Publication Date
JP2003241880A true JP2003241880A (ja) 2003-08-29

Family

ID=9928035

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002370526A Pending JP2003241880A (ja) 2001-12-20 2002-12-20 制御装置

Country Status (3)

Country Link
US (2) US7212971B2 (ja)
JP (1) JP2003241880A (ja)
GB (1) GB2388209C (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008109275A1 (en) * 2007-03-05 2008-09-12 Microsoft Corporation Displaying data sensitive targets
JP2013137584A (ja) * 2011-12-27 2013-07-11 Toshiba Corp 電子機器、表示方法、およびプログラム
JP2016508271A (ja) * 2013-01-04 2016-03-17 コピン コーポレーション 制御可能なヘッドセットコンピュータディスプレイ
US9817232B2 (en) 2010-09-20 2017-11-14 Kopin Corporation Head movement controlled navigation among multiple boards for display in a headset computer
US10013976B2 (en) 2010-09-20 2018-07-03 Kopin Corporation Context sensitive overlays in voice controlled headset computer displays
US10474418B2 (en) 2008-01-04 2019-11-12 BlueRadios, Inc. Head worn wireless computer having high-resolution display suitable for use as a mobile internet device
US10627860B2 (en) 2011-05-10 2020-04-21 Kopin Corporation Headset computer that uses motion and voice commands to control information display and remote devices

Families Citing this family (147)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
GB2388209C (en) * 2001-12-20 2005-08-23 Canon Kk Control apparatus
US7966188B2 (en) * 2003-05-20 2011-06-21 Nuance Communications, Inc. Method of enhancing voice interactions using visual messages
US20050010892A1 (en) * 2003-07-11 2005-01-13 Vocollect, Inc. Method and system for integrating multi-modal data capture device inputs with multi-modal output capabilities
US9274598B2 (en) * 2003-08-25 2016-03-01 International Business Machines Corporation System and method for selecting and activating a target object using a combination of eye gaze and key presses
JP2005157494A (ja) * 2003-11-20 2005-06-16 Aruze Corp 会話制御装置及び会話制御方法
US7925512B2 (en) * 2004-05-19 2011-04-12 Nuance Communications, Inc. Method, system, and apparatus for a voice markup language interpreter and voice browser
FR2878522B1 (fr) * 2004-12-01 2008-04-18 Merck Sante Soc Par Actions Si Nouveaux inhibiteurs specifiques de la caspas-10
US20070152076A1 (en) * 2004-12-13 2007-07-05 Chiang Kuo C Monitoring system with a wireless transmitting/receiving module
US8340971B1 (en) * 2005-01-05 2012-12-25 At&T Intellectual Property Ii, L.P. System and method of dialog trajectory analysis
US7707501B2 (en) * 2005-08-10 2010-04-27 International Business Machines Corporation Visual marker for speech enabled links
US20070055520A1 (en) * 2005-08-31 2007-03-08 Microsoft Corporation Incorporation of speech engine training into interactive user tutorial
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8073700B2 (en) * 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US8311836B2 (en) * 2006-03-13 2012-11-13 Nuance Communications, Inc. Dynamic help including available speech commands from content contained within speech grammars
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8843376B2 (en) 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8202529B2 (en) 2008-05-30 2012-06-19 Abbott Cardiovascular Systems Inc. Implantable drug delivery devices having alternating hydrophilic and amphiphilic polymer layers
US8986728B2 (en) 2008-05-30 2015-03-24 Abbott Cardiovascular Systems Inc. Soluble implantable device comprising polyelectrolyte with hydrophobic counterions
US20090297578A1 (en) * 2008-06-03 2009-12-03 Trollsas Mikael O Biosoluble coating comprising anti-proliferative and anti-inflammatory agent combination for treatment of vascular disorders
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8954328B2 (en) * 2009-01-15 2015-02-10 K-Nfb Reading Technology, Inc. Systems and methods for document narration with multiple characters having multiple moods
US8271876B2 (en) * 2009-01-26 2012-09-18 International Business Machines Corporation Trigger, generate, and display hover helps for multiple user interface elements
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8392186B2 (en) 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
US9600135B2 (en) 2010-09-10 2017-03-21 Vocollect, Inc. Multimodal user notification system to assist in data capture
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9263045B2 (en) 2011-05-17 2016-02-16 Microsoft Technology Licensing, Llc Multi-mode text input
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9152376B2 (en) * 2011-12-01 2015-10-06 At&T Intellectual Property I, L.P. System and method for continuous multimodal speech and gesture interaction
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
JP6001758B2 (ja) * 2012-04-27 2016-10-05 ヒューレット−パッカード デベロップメント カンパニー エル.ピー.Hewlett‐Packard Development Company, L.P. ユーザからのオーディオ入力
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9646610B2 (en) 2012-10-30 2017-05-09 Motorola Solutions, Inc. Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition
US9144028B2 (en) 2012-12-31 2015-09-22 Motorola Solutions, Inc. Method and apparatus for uplink power control in a wireless communication system
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10811004B2 (en) * 2013-03-28 2020-10-20 Nuance Communications, Inc. Auto-generation of parsing grammars from a concept ontology
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN113794800B (zh) 2018-11-23 2022-08-26 华为技术有限公司 一种语音控制方法及电子设备
DE102018132589A1 (de) * 2018-12-18 2020-06-18 Bayerische Motoren Werke Aktiengesellschaft Steuerung einer Multimodalen Benutzerschnittstelle

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10161801A (ja) * 1996-11-27 1998-06-19 Sony Corp 入力装置
JPH11110186A (ja) * 1997-10-02 1999-04-23 Nippon Telegr & Teleph Corp <Ntt> ブラウザシステム、音声プロキシサーバ、リンク項目の読み上げ方法及びリンク項目の読み上げプログラムを格納した記憶媒体
WO2000021232A2 (en) * 1998-10-02 2000-04-13 International Business Machines Corporation Conversational browser and conversational systems
JP2002007019A (ja) * 2000-06-22 2002-01-11 Hitachi Ltd ヘルプガイダンス自動表示・消去方式
JP2003216574A (ja) * 2001-10-21 2003-07-31 Microsoft Corp ダイアログを目的とするアプリケーション抽象化のための記録媒体及び方法

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5297146A (en) * 1988-07-01 1994-03-22 Kabushiki Kaisha Toshiba Communication terminal apparatus and its control method
US5163083A (en) * 1990-10-12 1992-11-10 At&T Bell Laboratories Automation of telephone operator assistance calls
WO1993014454A1 (en) * 1992-01-10 1993-07-22 Foster-Miller, Inc. A sensory integrated data interface
US6903723B1 (en) * 1995-03-27 2005-06-07 Donald K. Forest Data entry method and apparatus
JPH0934837A (ja) 1995-07-14 1997-02-07 Oki Electric Ind Co Ltd 情報入力用端末装置
US6161126A (en) 1995-12-13 2000-12-12 Immersion Corporation Implementing force feedback over the World Wide Web and other computer networks
US6078310A (en) * 1996-06-26 2000-06-20 Sun Microsystems, Inc. Eyetracked alert messages
JPH1039995A (ja) * 1996-07-19 1998-02-13 Nec Corp 視線・音声入力装置
JPH1078952A (ja) * 1996-07-29 1998-03-24 Internatl Business Mach Corp <Ibm> 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置
US5819220A (en) 1996-09-30 1998-10-06 Hewlett-Packard Company Web triggered word set boosting for speech interfaces to the world wide web
US6847336B1 (en) * 1996-10-02 2005-01-25 Jerome H. Lemelson Selectively controllable heads-up display system
US6018710A (en) 1996-12-13 2000-01-25 Siemens Corporate Research, Inc. Web-based interactive radio environment: WIRE
US6111562A (en) * 1997-01-06 2000-08-29 Intel Corporation System for generating an audible cue indicating the status of a display object
US5807175A (en) 1997-01-15 1998-09-15 Microsoft Corporation Dynamic detection of player actuated digital input devices coupled to a computer port
US6351273B1 (en) * 1997-04-30 2002-02-26 Jerome H. Lemelson System and methods for controlling automatic scrolling of information on a display or screen
US6211861B1 (en) 1998-06-23 2001-04-03 Immersion Corporation Tactile mouse device
US6289140B1 (en) 1998-02-19 2001-09-11 Hewlett-Packard Company Voice control input for portable capture devices
US6269336B1 (en) 1998-07-24 2001-07-31 Motorola, Inc. Voice browser for interactive services and methods thereof
EP1101160B1 (en) 1998-08-05 2003-04-02 BRITISH TELECOMMUNICATIONS public limited company Multimodal user interface
US6243076B1 (en) 1998-09-01 2001-06-05 Synthetic Environments, Inc. System and method for controlling host system interface with point-of-interest data
GB9911971D0 (en) * 1999-05-21 1999-07-21 Canon Kk A system, a server for a system and a machine for use in a system
JP2001075704A (ja) 1999-09-02 2001-03-23 Sony Corp 情報処理装置及び方法、媒体
JP4320487B2 (ja) * 1999-09-03 2009-08-26 ソニー株式会社 情報処理装置および方法、並びにプログラム格納媒体
IL133698A0 (en) * 1999-12-23 2001-04-30 Metzger Ram Pointing device
US7043439B2 (en) 2000-03-29 2006-05-09 Canon Kabushiki Kaisha Machine interface
GB2364814A (en) * 2000-07-12 2002-02-06 Canon Kk Speech recognition
JP2002041276A (ja) * 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
US6795806B1 (en) * 2000-09-20 2004-09-21 International Business Machines Corporation Method for enhancing dictation and command discrimination
US20020126090A1 (en) * 2001-01-18 2002-09-12 International Business Machines Corporation Navigating and selecting a portion of a screen by utilizing a state of an object as viewed by a camera
US6801604B2 (en) 2001-06-25 2004-10-05 International Business Machines Corporation Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources
US20030083872A1 (en) * 2001-10-25 2003-05-01 Dan Kikinis Method and apparatus for enhancing voice recognition capabilities of voice recognition software and systems
GB2387927B (en) * 2001-12-20 2005-07-13 Canon Kk Control apparatus
GB2388209C (en) * 2001-12-20 2005-08-23 Canon Kk Control apparatus
JP2003264646A (ja) * 2002-03-08 2003-09-19 Sharp Corp 通信システムおよび通信制御装置
US7363398B2 (en) * 2002-08-16 2008-04-22 The Board Of Trustees Of The Leland Stanford Junior University Intelligent total access system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10161801A (ja) * 1996-11-27 1998-06-19 Sony Corp 入力装置
JPH11110186A (ja) * 1997-10-02 1999-04-23 Nippon Telegr & Teleph Corp <Ntt> ブラウザシステム、音声プロキシサーバ、リンク項目の読み上げ方法及びリンク項目の読み上げプログラムを格納した記憶媒体
WO2000021232A2 (en) * 1998-10-02 2000-04-13 International Business Machines Corporation Conversational browser and conversational systems
JP2002007019A (ja) * 2000-06-22 2002-01-11 Hitachi Ltd ヘルプガイダンス自動表示・消去方式
JP2003216574A (ja) * 2001-10-21 2003-07-31 Microsoft Corp ダイアログを目的とするアプリケーション抽象化のための記録媒体及び方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008109275A1 (en) * 2007-03-05 2008-09-12 Microsoft Corporation Displaying data sensitive targets
US10474418B2 (en) 2008-01-04 2019-11-12 BlueRadios, Inc. Head worn wireless computer having high-resolution display suitable for use as a mobile internet device
US10579324B2 (en) 2008-01-04 2020-03-03 BlueRadios, Inc. Head worn wireless computer having high-resolution display suitable for use as a mobile internet device
US9817232B2 (en) 2010-09-20 2017-11-14 Kopin Corporation Head movement controlled navigation among multiple boards for display in a headset computer
US10013976B2 (en) 2010-09-20 2018-07-03 Kopin Corporation Context sensitive overlays in voice controlled headset computer displays
US10627860B2 (en) 2011-05-10 2020-04-21 Kopin Corporation Headset computer that uses motion and voice commands to control information display and remote devices
US11237594B2 (en) 2011-05-10 2022-02-01 Kopin Corporation Headset computer that uses motion and voice commands to control information display and remote devices
US11947387B2 (en) 2011-05-10 2024-04-02 Kopin Corporation Headset computer that uses motion and voice commands to control information display and remote devices
JP2013137584A (ja) * 2011-12-27 2013-07-11 Toshiba Corp 電子機器、表示方法、およびプログラム
JP2016508271A (ja) * 2013-01-04 2016-03-17 コピン コーポレーション 制御可能なヘッドセットコンピュータディスプレイ

Also Published As

Publication number Publication date
GB2388209C (en) 2005-08-23
GB0130488D0 (en) 2002-02-06
US7664649B2 (en) 2010-02-16
GB2388209B (en) 2005-07-13
US20030120494A1 (en) 2003-06-26
GB2388209A (en) 2003-11-05
US7212971B2 (en) 2007-05-01
US20070174060A1 (en) 2007-07-26

Similar Documents

Publication Publication Date Title
JP2003241880A (ja) 制御装置
US7672851B2 (en) Enhanced application of spoken input
EP1485773B1 (en) Voice-controlled user interfaces
JP3938121B2 (ja) 情報処理装置及びその制御方法、プログラム
US8788271B2 (en) Controlling user interfaces with contextual voice commands
EP1485790B1 (en) Voice-controlled data entry
JP3432076B2 (ja) 音声対話型ビデオスクリーン表示システム
JP3811280B2 (ja) ハイパーリンク化された情報との音声化されたインターフェースのためのシステムおよび方法
US7546382B2 (en) Methods and systems for authoring of mixed-initiative multi-modal interactions and related browsing mechanisms
US8798999B2 (en) Dialog design tool and method
US20060136220A1 (en) Controlling user interfaces with voice commands from multiple languages
US7165034B2 (en) Information processing apparatus and method, and program
JP4416398B2 (ja) 制御装置
US6499015B2 (en) Voice interaction method for a computer graphical user interface
JP2004310748A (ja) ユーザ入力に基づくデータの提示
JP3814566B2 (ja) 情報処理装置、情報処理方法、制御プログラム
US20030139932A1 (en) Control apparatus
US20060287860A1 (en) Printing to a text-to-speech output device
JP2002259113A (ja) 音声マクロ処理装置、その方法、そのコンピュータ・プログラムおよびそのプログラムを記録した記録媒体
KR102548088B1 (ko) 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치 및 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060303

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061211