JP2007535261A - アプリケーション制御の方法およびシステム - Google Patents
アプリケーション制御の方法およびシステム Download PDFInfo
- Publication number
- JP2007535261A JP2007535261A JP2007510186A JP2007510186A JP2007535261A JP 2007535261 A JP2007535261 A JP 2007535261A JP 2007510186 A JP2007510186 A JP 2007510186A JP 2007510186 A JP2007510186 A JP 2007510186A JP 2007535261 A JP2007535261 A JP 2007535261A
- Authority
- JP
- Japan
- Prior art keywords
- pointing device
- target area
- image
- user
- management system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/16—Constructional details or arrangements
- G06F1/1613—Constructional details or arrangements for portable computers
- G06F1/1633—Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
- G06F1/1684—Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675
- G06F1/1686—Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675 the I/O peripheral being an integrated camera
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/0354—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of 2D relative movements between the device, or an operating part thereof, and a plane or surface, e.g. 2D mice, trackballs, pens or pucks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/16—Constructional details or arrangements
- G06F1/1613—Constructional details or arrangements for portable computers
- G06F1/1626—Constructional details or arrangements for portable computers with a single-body enclosure integrating a flat display, e.g. Personal Digital Assistants [PDAs]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/038—Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/041—Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
- G06F3/042—Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- User Interface Of Digital Computer (AREA)
- Selective Calling Equipment (AREA)
Abstract
本発明はアプリケーション(A1,A2,...,An)の制御のためのダイアログ管理システムおよび方法を記載する。アプリケーション(A1,A2,...,An)を制御するためのダイアログ管理システム(1)は移動ポインティングデバイスを有しており、該移動ポインティングデバイスは当該移動ポインティングデバイス(2)が向けられている方向(D)の目標領域の像(22、23、31)を生成するカメラと、その目標領域画像(22、23、31)を局所対話装置(7)に伝送する伝送インターフェース(4a、4b)とを有している。局所対話装置(7)は、発話入力を検出および処理し、可聴プロンプトを生成および出力するための音声インターフェース設備(5)と、ユーザー入力を解釈して出力プロンプトを生成することによってダイアログの流れを整理するためのコア・ダイアログ・エンジン(11)と、ダイアログ管理システム(1)とアプリケーション(A1,A2,...,An)との間の通信のためのアプリケーションインターフェース(12)と、移動ポインティングデバイス(2)から目標領域画像(22、23、31)を受け取るための受信インターフェース(13a、13b)と、目標領域画像(22、23、31)を処理するための画像処理設備(14)とを有している。
Description
本発明は、アプリケーションのリモートコントロールのためのダイアログ管理を駆動するためのダイアログ管理システムおよび方法に関する。さらに、本発明はそのような発話ダイアログ・システムのためのローカル対話装置およびポインティングデバイスに関する。
リモコンは今日、たとえばテレビ、DVDプレーヤー、チューナーなどほとんどあらゆる消費者電子装置に付随している。平均的な家庭では、いくつものリモコン――しばしば消費者電子装置のそれぞれに一つ――が必要となることがある。所有する消費者電子装置のことをよく知っている人にとってでさえも、それぞれのリモコンの各ボタンが実際に何のためなのかを覚えるのは難題である。さらに、いくつかの消費者電子装置で利用可能な画面上のメニュー式案内はとても直感的とは言いがたく、その装置で利用できる選択肢(オプション)についての深い知識を有さないユーザーにとっては特にそうである。その結果として、ユーザーは、さがしている選択肢をみつけるために画面上に呈示されているメニューを絶えず調べ、それから適切なボタンを求めてリモコンを見つめなければならない。実にしばしば、ボタンには直感的でない名称や略称が与えられている。さらに、リモコン上のボタンは、先にモードボタンを押してから利用する、さらなる機能を実行することもある。現在の消費者電子装置で利用可能なおびただしい選択肢は、残念ながら、多くのユーザーにとってそのような装置をプログラムすることがいらいらの募る操作となりうるということを意味している。ボタンや非直感的なメニュー選択肢が多いと、装置をプログラムすることが必要以上に難しくなり、しばしば、ユーザーが買った装置を最大限に利用できないという結果につながる。
所有する消費者電子装置すべてを十分に使うことは、今日のほとんどすべての消費者電子装置に独自のリモコン装置がついてくるという事実によって一層困難なものとなっている。たいていのリモコンボタンの略称および記号は今では標準化され、異なる言語の国々でも同じリモコン装置の販売が可能となっているが、それであっても同じ機能を実行するためにリモコンが違えば異なる略称または記号が使われることもある。本質的に同じものを意味する「チャンネル」または「番組」を指すのに使われる略称のCHおよびPRがその例である。また、リモコンによって、形、大きさ、全体的な外観、そして必要な電池さえも異なる。
そのようなおびただしいリモコンによって引き起こされる混乱を減じるべく、「万能リモコン(universal remote control)」という新しい製品範疇が開発されるに至っている。しかし、万能リモコンでさえも、今日市販されているあらゆる消費者電子装置によって提供されるすべての機能にアクセスすることは望むべくもない。特に、新しい技術や機能が絶えず開発されているからなおさらである。さらに、現代の消費者電子装置によって提供される幅広い機能は、そうした機能を呼び出すために相応に多数のボタンを必要とする。そのため、すべてのボタンを受け容れるには、不便なほど大型のリモコンが必要になる。
さらに、典型的なリモコンは一つまたは高々少数の似たような装置を制御することに限定されている。そうした装置はみな、互換インターフェースを備えていなければならない。たとえば、一つのリモコンでは、よくて、テレビ、CDプレーヤー、ビデオデッキに使うことができるが、それができるのは制御される装置の近隣にいるときだけである。ユーザーがリモコンを装置の近辺から持ち出せば、もはや装置の機能を制御することはできない。
装置またはアプリケーションを、たとえばユーザーとダイアログ管理システムとの間の声によるダイアログによって制御する諸方法が知られている。時に、そのようなダイアログ管理システムは、何らかの方法でアプリケーションと通信することができ、それにより、ユーザーは適切なコマンドをダイアログ管理システムに向けて話すことによって間接的にアプリケーションを制御できる。ダイアログ管理システムが話されたコマンドを解釈し、そのコマンドをアプリケーションにしかるべく通信するのである。しかしながら、そのようなダイアログ管理システムは、完全に発話ベースである伝達に限定されている。すなわち、ユーザーは、制御されるべきアプリケーションにとっての一意的な解釈を有する明確なコマンドを発生しなければならない。ユーザーはそうしたコマンドをすべて覚えなければならず、ダイアログ管理システムもそれを認識するようトレーニングされる必要があるかもしれない。さらに、こうした諸方法の使用は通例、ユーザーがダイアログ管理システムの近傍にいる状況に限定される。したがって、アプリケーションの制御はユーザーのいる場所によって制約を受ける。
したがって、本発明の目的は、アプリケーションのユーザーによって便利で直感的なリモートコントロールのための方法およびシステムを提供することである。
この目的のため、本発明はアプリケーションを制御するための、移動ポインティングデバイスおよび局所対話装置を有するダイアログ管理システムを提供する。移動ポインティングデバイスはカメラを有しており、当該移動ポインティングデバイスが向けられている方向の目標領域の像を生成することができ、その目標領域画像を伝送インターフェースによって、たとえばブルートゥース規格または802.11b規格を使って、無線式に局所対話装置に伝送することができる。局所対話装置のほうは、発話(speech)入力を検出および処理し、可聴プロンプトを生成および出力するための音声(audio)インターフェース設備と、ユーザー入力を解釈して出力プロンプトを生成することによってダイアログの流れを整理するためのコア・ダイアログ・エンジンとを有している。さらに、局所対話装置は、移動ポインティングデバイスから目標領域画像を受け取るための受信インターフェースおよび目標領域画像を処理するための画像処理設備とともに、ダイアログ管理システムとアプリケーションとの間の通信のためにアプリケーションインターフェースを有している。該アプリケーションインターフェースは好ましくはパラレルな仕方でいくつかのアプリケーションを扱うことができる。ダイアログ管理システムは好ましくは、家庭および/またはオフィス環境において実行されるいくつかのアプリケーションを制御し、ユーザーにその状態を通知することができる。
「目標領域」とは、移動ポインティングデバイスの正面にあって、該デバイスのカメラによって像として記録されることのできる領域を意味するものと理解される。目標領域の大きさは主として、移動ポインティングデバイスに組み込まれているカメラの機能によって決定されうる。画像を生成するためには、ユーザーは移動ポインティングデバイスをある装置の正面に、新聞や雑誌の紙面に、あるいは撮影したいいかなるオブジェクトにでも向けることができる。簡単のため、移動ポインティングデバイスが向けられる目標のことを以下では「視覚呈示」と称する。「目標領域画像」の用語は可能な限りの広義に理解されるものとする。たとえば、目標領域画像は単に、画像全体のうちの有意な部分、たとえば強調された輪郭線、角、エッジなどに関する画像データであってもよい。
本発明に基づく局所対話装置は、パソコン、テレビ、ビデオレコーダーなどといった既存の装置に組み込まれてもよい。好ましい実施形態では、局所対話装置は、ロボットまたは好ましくは人間のような物理的側面をもつ単体の装置として実装される。局所対話装置は、たとえばDE10249060A1に記載されている専用装置として実現されてもよい。これは、概略的に人の顔の特徴をもつ可動部分が回ってユーザーのほうを向き、その装置がユーザーの言うことを聞いているという印象を与えることができるように構築されるものである。そのような局所対話装置は、ユーザーが部屋から部屋に動くにつれてユーザーについて回ることができるよう構築されることさえできる。局所対話装置と個々のアプリケーションとの間のインターフェースは、ケーブルによって実現されてもよい。好ましくは、インターフェースは赤外線、ブルートゥースなどの無線式に実現され、局所対話装置はその割り当てられた環境内で本質的に移動可能のままであり、それを使って駆動すべきアプリケーションの直近に位置していることに制約されない。無線インターフェースが十分な到達距離をもてば、ダイアログ管理システムの局所対話装置は、オフィスビルや個人宅のような建物の異なる部屋に位置している諸装置の数多くのアプリケーションを制御するために容易に使うことができる。局所対話装置と個々のアプリケーションとの間のインターフェースは好ましくは専用のアプリケーションインターフェース・ユニットにおいて管理される。ここで、アプリケーションと局所対話装置との間の通信の管理は、声によるユーザー入力から解釈された任意のコマンドまたは命令を各アプリケーションに転送し、アプリケーションからユーザーに向けられた任意のフィードバックを受け取ることによって行われる。アプリケーションインターフェース・ユニットは、いくつかのアプリケーションをパラレルな仕方で扱うことができる。本発明の特に好ましい実施形態では、局所対話装置は、ダイアログ・プロンプトの呈示の間、制御されるべきアプリケーションのためのユーザー選択肢の呈示の間、またはユーザーに画像または音声メッセージを呈示する間、ユーザーのほうを向く、自動的に指向可能な正面を有する。
声によるダイアログによってアプリケーションまたは装置を制御するためのそのようなダイアログ管理システムを駆動するための本発明に基づく方法は、適切な場合には移動ポインティングデバイスを特定のオブジェクトに向け、何らかの方法で移動ポインティングデバイスに統合されているカメラによって目標領域の画像を生成する追加的なステップを有する。目標領域の画像はその後、ダイアログ管理システムの局所対話装置に伝送され、そこで処理されて、その装置またはアプリケーションを制御するための制御情報が引き出される。
本方法および本システムは、このように、ユーザーにとって、単にコンパクトな手持ち式の移動ポインティングデバイスを視覚呈示に向けて該視覚呈示の少なくとも一部の画像を生成し、この画像を局所対話装置に伝送することによって、アプリケーションと対話する快適な方法を提供する。あとは局所対話装置が前記画像を解釈して、適切なら対応するアプリケーションまたはデバイスと通信することができる。したがって、ユーザーはもはや発話ダイアログや所定のコマンドセットに限定されず、あるオブジェクトを指す、あるいはある視覚呈示を指すことによって、たとえば声によるコマンドを補強するために、より自然な仕方で意思伝達することができる。
従属請求項および以下の記述は、本発明の特に有利な実施形態および特徴を開示する。
すでに述べたように、局所対話装置は、単一のアプリケーションと通信するために使われることもできるが、複数の異なるアプリケーションを制御するために使われることも等しく可能である。アプリケーションは翻訳プログラム、買い置き食材管理アプリケーションまたはその他任意のデータベースといった単なる機能であってもよいし、あるいはテレビ、DVDプレーヤーまたは冷蔵庫のような実際の装置であってもよい。よって、移動ポインティングデバイスは一つのアプリケーション用、あるいは複数のアプリケーション用のリモコンとして使うことができる。さらに、ある局所対話装置にいくつかの移動ポインティングデバイスを割り当てることができるので、たとえば、家庭の各人が自分の移動ポインティングデバイスをもつようにできる。他方、一つの移動ポインティングデバイスを異なる環境にあるいくつかの局所対話装置に割り当ててもよく、たとえばユーザーは移動ポインティングデバイスを自宅のみならず、職場のような異なる場所でアプリケーションを制御するために使うことができる。
アプリケーションを制御するためのユーザー選択肢をユーザーに呈示する方法は、静的なもの、動的なものを含めていくつかありうる。選択肢は発話ダイアログによって音響的にユーザーに呈示されることもでき、そうすればユーザーはその選択肢を聞いて声により所望の選択肢を指定することができる。他方、選択肢を視覚的に呈示することも同様に可能である。ある装置についてのユーザー選択肢の静的な形での最も簡単な視覚呈示は、装置そのものの正面である。そこではさまざまな選択肢がボタンやつまみの形で利用可能になっている。ビデオデッキの停止、早送り、録画および再生ボタンがその例である。静的な視覚呈示のもう一つの例として考えられるのは、ユーザー選択肢を、たとえばコンピュータのプリントアウトやテレビ情報誌の番組ガイドのような印刷された形で示すことである。特に、テレビまたはテレビに接続できるDVDプレーヤーのような装置については、選択肢はユーザーに対して、装置正面のボタンとして静的な形でユーザーに提供されてもよいが、テレビ画面上に動的に表示されることも容易にできる。ここで、選択肢はメニュー項目の形で、あるいはアイコンとして示されうる。本発明の特に好ましい実施形態では、二つ以上の装置についてのユーザー選択肢が一つの視覚呈示において同時に示されることができる。たとえば、チューナーの選択肢およびDVD選択肢など、両方の装置にとって有意な選択肢が一緒に表示されてもよい。選択肢のそのような組み合わせの一つの例として考えられるのが、サラウンドサウンド、ドルビー(登録商標)などといったチューナーの音声選択肢の組をワイドスクリーン、字幕などといったDVD選択肢と一緒に表示することである。ユーザーはこうして容易かつ迅速に両方の装置についての選択肢をカスタマイズできる。
本発明のある好ましい実施形態では、局所対話装置は、いくつかのアプリケーションについてのユーザー選択肢の視覚呈示を壁など好適な表面への画像投影像(image backdrop)の形で投影できるプロジェクターに接続されうる。局所対話装置はまた、独立したスクリーンを利用してもよいし、あるいは制御されるべきアプリケーションの一つのスクリーンを使用してもよい。このようにして、普通ではディスプレイを備えていない、買い置き食材管理アプリケーションのようなアプリケーションについても、ユーザー選択肢が快適な仕方で呈示できる。同様に、装置の正面にあるボタンによって表される装置のいかなる選択肢も、たとえば、選択しやすいようより大きな画像投影像でのメニュー選択肢として呈示されることができる。本発明のさらに好ましい実施形態では、局所対話装置は視覚呈示のハードコピーを生成することができる。たとえば、今後の番組のリストを批評家による関連する評とともに印刷することもできるし、あるいはユーザーの買い置き食材にある製品をつかってユーザーが調理できる料理のレシピを印刷することもできる。
さらに、本発明は、ユーザーに、当該装置についての選択肢をパーソナル化する手段を容易に提供しうる。それはたとえば、弱視のユーザーを補助するなどのために画面上に一度に表示する選択肢の数を少なくすることによってできる。さらに、ユーザーは必要としそうもない機能を省略することを明示的に選んでもよい。たとえば、DVDプレーヤーについて、外国語字幕のはいった映画を見たくなることは決してないということもありうる。この場合、ユーザーは視覚呈示からこれらの選択肢を省くよう、自分のインターフェースをパーソナル化できる。テレビのような装置は、一部のユーザー向けの選択肢の部分集合のみがアクセスできるよう構成することもできる。このようにして、たとえば子供がその年齢層に不適切な番組を見るのを防ぐため、ある種のチャンネルを許可されたユーザーだけがアクセスできるようにすることができる。
視覚呈示は発話ダイアログを補強するために使われることができる。たとえば、視覚的に呈示されたいくつかの選択肢のうちからユーザーが声で一つの選択肢を指定または選択できるようにするのである。本発明に基づく移動ポインティングデバイスによって、ユーザーは有利には、カメラを含んでいる移動ポインティングデバイスをユーザー選択肢の視覚呈示に向けることによって、利用可能なオプションのうちから選択をすることもできる。
カメラは好ましくは移動ポインティングデバイスに組み込まれるが、移動ポインティングデバイス上に取り付けられるのでもよい。カメラは好ましくは、ユーザーによって目標とされる移動ポインティングデバイスの正面にある領域の画像を生成するように配向される。目標領域の画像は視覚呈示全体のうちのごく小さな部分集合であってもよいし、視覚呈示をそっくりカバーしてもよいし、あるいは視覚呈示の周辺の領域をも含んでもよい。視覚呈示全体に対する目標領域画像の大きさは、視覚呈示の大きさ、移動ポインティングデバイスと呈示との間の距離、およびカメラそのものの機能に依存しうる。ユーザーは、移動ポインティングデバイスが視覚呈示からある距離にあるよう位置されてもよい。同じように、ユーザーは視覚呈示に非常に近くに移動ポインティングデバイスを保持してもよい。これは、ユーザーが移動ポインティングデバイスを雑誌の形のテレビ番組ガイドに向けるときにありうることである。
本発明のある好ましい実施形態では、移動ポインティングデバイスの内部または表面上に光源が設置されうる。光源は、懐中電灯のように当該移動ポインティングデバイスが向けられる領域を照明するはたらきをし、周囲が暗くてもユーザーが視覚呈示を容易に読めるようにする。同じように、光源は向けられている方向に放出される光の集中ビームの源であってもよい。それにより、ユーザーがねらっている視覚呈示上の目標点またはその近くに光点が現れ、ユーザーが所望の選択肢をねらうのを助けるための視覚的な位置フィードバックを提供する。単純な実現として考えられるのは、適切な仕方で移動ポインティングデバイスの内部に組み込むか表面上に取り付けるかしたレーザー光源でありうる。したがって、以下では、本発明をいかなる形であれ限定することなく、集中光の源はレーザービームであると想定する。
ユーザーはポインティングデバイスを、視覚呈示におけるある特定の選択肢に向けることができる。たとえばビデオデッキ装置の正面にある再生ボタンに、テレビ画面上に表示されているDVD選択肢に、あるいはテレビ情報誌における特定の番組に向けるのである。選択がなされたことを示すため、ユーザーはポインティングデバイスを所定の仕方で視覚呈示上で動かしうる。所定の仕方というのはたとえば所望の選択肢のまわりでループまたは円形を描くなどである。ユーザーはポインティングデバイスを視覚呈示から隔たったある距離のところで宙で動かしてもよいし、あるいは視覚呈示のすぐ上または非常に近いところでポインティングデバイスを動かしてもよい。ある特定の選択肢の選択を指示するもう一つの方法として考えられるのは、ポインティングデバイスを所定の時間、じっとその選択肢に向けておくことである。同じように、ユーザーはポインティングデバイスをその視覚呈示を横切ってさっと動かすことによって、たとえば、局所対話装置によって動的な視覚呈示のために使われているテレビ装置の画面から視覚呈示を除去し、その後通常の番組視聴へ復帰することを指示したり、あるいは前のメニューレベルに戻ったりすることができる。視覚呈示に対するポインティングデバイスの動きは好ましくは、局所対話装置の画像処理ユニットによって検出されてもよいし、あるいはポインティングデバイス内の動きセンサーによって検出されてもよい。さらなる可能性として考えられるのは、ポインティングデバイス上のボタンを押すことによって、ポインティングデバイスが向けられている選択肢の選択を指示することである。ある好ましい実施形態では、ボタンを押したり所定の仕方でポインティングデバイスを動かしたりする間、ユーザーが選択肢の光学的中心から著しく離れた点を指していたような場合には、コア・ダイアログ・エンジンが、ユーザーの動作を正しく解釈したことを確認するために、声による確認を開始できる。この場合、コア・ダイアログ・エンジンは選択された選択肢または機能の開始に進む前に確認を要求しうる。
視覚呈示が動的な性質のものである場合、ダイアログ管理システムは好ましくは、局所対話装置をして、選択された選択肢を何らかの仕方で強調するよう視覚呈示を変更させる。何らかの仕方というのは、たとえば選択肢が点滅して見えるようにしたり、あるいはユーザーが指している視覚呈示のその領域をハイライトしたりすることによって、そしておそらくはこれに耳に聞こえる「クリック」音を伴わせてである。移動ポインティングデバイスはまた、「ドラッグアンドドロップ」技術を使って視覚呈示中のある機能を選択してもよい。これは特に、ユーザーが大きめのコンテンツ空間を進んでいかなければならないときで、バッファリングされているDVD映画データを表すアイコンをごみ箱を表す別のアイコンまでドラッグすることによって、そのバッファリングされているデータをメモリから消去すべきであると示すのである。さまざまな機能がユーザーによって開始されうる。ユーザーは、たとえば移動ポインティングデバイスの所定の仕方での動きを繰り返したり、あるいは移動ポインティングデバイス上のボタンを2度押したりすることによって「ダブルクリック」と同様の仕方で選択肢を選択する。
どの選択肢がユーザーによって選択されたかを判定するため、画像処理設備が、受信された目標領域画像をたとえばいくつかの所定の視覚呈示のテンプレートと比較しうる。比較のためには単一の所定のテンプレートで十分であるかもしれないし、あるいは比較がうまくいくために二つ以上のテンプレートを適用することが必要になるかもしれない。
所定のテンプレートは内部メモリに保存されてもよいし、外部ソースからアクセスされてもよい。好ましくは、制御ユニットは、たとえば内部的または外部的メモリ、メモリースティック、イントラネットまたはインターネットから、制御されるべき装置の視覚呈示についてのあらかじめ定義されたテンプレートを取得するための適切なインターフェースをもつアクセス・ユニットを有している。テンプレートとは、制御されるべき装置の正面のグラフィック表現でありうる。たとえば、再生、早送り、巻き戻し、停止および録画機能を表すボタンなどの利用可能なユーザー選択肢を表す、ビデオデッキ装置の正面の簡略化した表現である。テンプレートはまた、テレビ画面上に表示される選択肢のメニューのグラフィック表現であってもよく、視覚呈示の特定の諸領域に関連付けられた利用可能な装置の選択肢の位置を示しうる。たとえば、DVDプレーヤーについての再生、早送り、字幕、言語などといったユーザー選択肢もテレビ画面上に視覚呈示されることができる。テンプレートはまた、視覚呈示のまわりの領域を描いてもよい。たとえば、装置の筐体を含めてもよいし、装置のすぐ周辺の何らかを含めてもよい。
画面上にこれらを表示できる装置についてのユーザー選択肢は、しばしばメニューの形で呈示できる。その場合、ユーザーはメニュー内を渡り歩いて所望の選択肢または機能にたどり着くことができる。本発明のある好ましい実施形態によれば、制御されるべき装置についての可能なメニューレベルのそれぞれについてテンプレートが存在する。それによりユーザーは、当該装置の制御のどのレベルにおいても、利用可能な選択肢のどれに移動ポインティングデバイスを向けることもできる。もう一つの種類のテンプレートは、雑誌のテレビ番組ガイドの外観を有しうる。ここでは、テレビガイドのページレイアウトについてのテンプレートがアクセス・ユニットによって、たとえば毎日または週に一度の割合で、取得および/または更新されうる。好ましくは、画像解釈ソフトウェアがテレビガイドのページの書式に対応している。テンプレートは好ましくは、ユーザーに利用可能なさまざまな番組選択肢のページ上の位置を特徴としてもつ。ユーザーは移動ポインティングデバイスを、実際のテレビ番組ガイドのページの形の視覚呈示のほうに向け、特定の選択肢を選択する。あるいはガイドがテレビ画面上に視覚呈示され、ユーザーは利用可能な選択肢のうちから選択をするために移動ポインティングデバイスをそこに向ける。
その他のテンプレートとして考えられるのは、たとえば買い置き食材管理アプリケーションのようなアプリケーションのための、既知の製品の描写である。ここでは、テンプレートはユーザーが購買および消費したい製品を表しうる。ユーザーは管理されるべきあらゆる製品のテンプレートを、インターネットから画像をダウンロードすることによって、あるいは移動ポインティングデバイスを用いてオブジェクトの写真を撮ってその画像を局所対話装置に転送することによって取得しうる。局所対話装置では、取得されたテンプレートは処理され、買い置き食材管理アプリケーションに転送される。買い置き食材管理アプリケーションにおいては、該テンプレートは、ユーザーが後刻局所対話装置に送信する可能性のある画像との比較のためのテンプレートとしてのはたらきをすることができる。
選択された選択肢を判別するために目標領域画像を処理するためには、コンピュータビジョン技術を応用して、視覚呈示中でユーザーが指している点、すなわち目標点を見出すことが便利である。
本発明のある好ましい実施形態によれば、目標領域画像中の固定点、好ましくは目標領域画像の中心が、移動ポインティングデバイスの長手軸の方向の架空の直線を視覚呈示まで延長することによって得られ、目標点として使われうる。
コンピュータビジョンの諸アルゴリズムを使った視覚呈示の目標領域画像を処理する方法は、目標画像中の特徴点を検出して視覚呈示のテンプレート中の対応する点を決定し、目標画像中の点をテンプレート中の対応する点にマッピングする変換を利用することを含みうる。目標領域画像の特徴点は、視覚呈示の中の点であってもよいし、視覚呈示の周辺の領域の点であってもよい。たとえば、テレビ画面の角だとか、制御される装置の近傍にあってあらかじめ定義されたテンプレート中に記録されてもいるオブジェクトに属する点である。この変換は次いで、移動ポインティングデバイスの視覚呈示に対する位置およびアスペクトの決定に使用できる。それにより、移動ポインティングデバイスの軸と視覚呈示との交点をテンプレート中で位置特定することができる。テンプレート中でのこの交点の位置は、視覚呈示上での目標点に対応し、選択肢のどれがユーザーによって目標とされていたかを容易に判定するのに使うことができる。あらかじめ定義されたテンプレートにおける目標点の位置は、ユーザーによって選択された選択肢を示す。このようにして、目標領域画像をあらかじめ定義されたテンプレートと比較することは、特徴的な角の点のような顕著な点のみを同定および比較することに制約される。本発明において適用されうる「比較」の語は広義に理解されるものとする。すなわち、ユーザーがねらっている点を迅速に同定するために十分な特徴を比較するだけによるのである。
ユーザーによって選択された選択肢を判定するもう一つの可能な方法は、パターンマッチングのような諸方法を使って、目標点を中心とする受信された目標領域画像をあらかじめ定義されたテンプレートと直接比較して、視覚呈示中で目標とされている点を位置特定することである。目標領域画像をあらかじめ定義されたテンプレートと比較するもう一つの方法は、特徴的な角の点のような顕著な点のみを同定および比較することに制約される。
本発明のあるさらなる実施形態によれば、目標領域画像の一部として制御ユニット中の受信機に送信されたレーザー点の位置が、ユーザーによって選択された選択肢を位置特定するために目標点として使用されうる。レーザー点は目標領域画像の中心に重ね合わされてもよいが、目標領域画像の中心から外れていても構わない。
本発明の好ましい実施形態では、移動ポインティングデバイスは、ユーザーが快適に握ることのできる細長い形の杖またはペンの形状でありうる。こうしてユーザーは視覚呈示から快適な見る距離に位置したまま、移動ポインティングデバイスを視覚呈示中の目標点に向けることができる。同様に、移動ポインティングデバイスはピストルの形に成形されていてもよい。
本発明の特に好ましい実施形態によれば、移動ポインティングデバイスおよび局所対話装置は、発話およびメディアデータの通信ネットワークを通じた長距離送信および/または受信のための相互インターフェースを有する。それによりユーザーはアプリケーションの近傍にいる必要なく、該アプリケーションと通信し、該アプリケーションを制御することができる。しかしながら、本発明の特に経済的な実施形態では、移動ポインティングデバイスは移動電話のような携帯機器に組み込まれているか接続可能である。そのようなすでに存在している種類の機器を使うことによって、発話およびその他のメディアデータを任意の種類の通信ネットワークを通じて送信するための手段を提供するための経済的かつ直感的な方法が提供される。声によるコマンドまたは説明コメントは、移動ポインティングデバイスに発話によって吹き込まれて、目標領域画像に伴って局所対話装置に送信されることもできるし、あるいは独立して局所対話装置に送信されてもよい。たとえば、ユーザーがスーパーマーケットで買い物をしている場合、局所対話装置に特定の製品の画像を送り、それに「家にこれの買い置きがあるか?」という問い合わせを付けることができる。局所対話装置は、買い置き食材管理アプリケーションを調べたのち、返答を移動ポインティングデバイスに送信することができる。すると移動ポインティングデバイスはユーザーに問題の製品がいくらか家にあるか、さらにいくらか買う必要があるかどうかを通知する。
移動ポインティングデバイスは、ユーザーによって、ユーザーに関心のある、あるいはアプリケーションの制御に適用可能な任意の特定のオブジェクトに向けられることができる。たとえば、ユーザーは、あとで見たい興味のあるものを雑誌でみつけたら、移動ポインティングデバイスを雑誌の記事に向けてもよい。この機能は、ユーザーが家から離れていて、その情報をすぐ処理することができない状況で特に有用でありうる。たとえば、近い将来ある特定の番組が予定されていることを見たが、予定の帰宅時刻では番組録画をビデオデッキで予約するには遅すぎるということがありうる。この場合、ユーザーは移動ポインティングデバイスをその番組に関する関連情報を含むページの領域に向けて画像を生成しうる。ユーザーは次いで、目標領域画像の局所対話装置への伝送を開始する。ユーザーは画像にSMSのようなテキスト文を付けることを選んでもよいし、あるいは「この番組を録画」のような発話メッセージを送ってもよい。局所対話装置はその画像を処理してその番組に関する関連情報を抽出し、付随するメッセージを解釈して関連機器に適切なコマンドを送る。
しかしながら、状況によっては、ユーザーは画像を局所対話装置にすぐ伝送することを望まないこともありうる。たとえば目標領域画像が後刻処理できる場合、あるいはユーザーが移動電気通信ネットワーク上での伝送コストを回避したい場合である。この目的のため、移動ポインティングデバイスは目標領域画像の一時記憶のためのメモリを有しうる。メモリは、必要に応じて挿入または取り外しできるスマートカードの形でもよいし、あるいは組み込みメモリの形であってもよい。本発明のある好ましい実施形態では、移動ポインティングデバイスは該移動ポインティングデバイスのメモリに画像を読み込むための好適なインターフェースを有する。そのようなインターフェースの例はUSBでありうる。これによりユーザーは別のソースからの関心のある画像を自分の移動ポインティングデバイスに読み込むことができる。するとユーザーは、それをすぐ、あるいは後刻、局所対話装置に伝送できる。
このように本発明は、全体として、買い置き食材製品や書籍のような品目の巨大な集合(collection)を管理するための簡単かつ柔軟な方法を提供する。非常にしばしば、書籍の集合は家庭においていくつかの部屋や棚に分散している。移動ポインティングデバイスの助けにより、ユーザーは特定の書籍を指して、局所対話装置にある種の言葉を発音することによってその書籍を同定できる。移動ポインティングデバイスがその書籍の画像を生成するが、これは最も普通には書籍の背である。書籍が棚にきちんとしまってあるときに見えるのは背だけだからである。ユーザーはいくつかの書籍を指してそれぞれについて画像を生成してもよい。ユーザーは画像が移動ポインティングデバイス中に保存されるようにしてもよいし、あるいはそれぞれ最も好適なインターフェースを通じて局所対話装置に伝送されることを許容してもよい。ユーザーが書籍についてのすべての必要とされる画像を集め終わったとき、ユーザーはある画像に対応する適切な言葉を局所対話装置に話す。たとえば、『ハックルベリー・フィン』の背の写真について、ユーザー「書籍『ハックルベリー・フィン』は子供部屋の棚にある」と言う。同様に、「書籍『馬鹿でもわかる物理学』は書斎のいちばん下の棚にある」あるいは「『戦争と平和』は居間の窓の隣の棚にある」と言って、対応する書籍を同定してもよい。局所対話装置は話された言葉を画像と関連付け、その言葉を適切な仕方でメモリに保存する。後刻、ユーザーまたは別の人物がある書籍を位置特定したい場合、必要なのは「『戦争と平和』はどこにある?」と尋ねることだけで、すると局所対話装置が「それは居間の窓の隣の棚にあります」と返答することになる。オブジェクトの位置特定をさらに助けるため、局所対話装置はスクリーン上に、ユーザーが移動ポインティングデバイスを用いてもともと作成した画像をも表示してもよい。それによりそのオブジェクトが容易かつ迅速にみつけられる。
このように管理できるのは書籍ばかりではない。本方法は実際上いかなる品目にも適用可能である。特に、パスポート、出生証明書など、頻繁に必要ではないが、それだけに所在を忘れやすい品目がこの方法で位置特定できる。よって、あらゆる種類の品目の集合が、ユーザーが該品目のうちの何でも簡単に位置特定できるように管理できる。移動ポインティングデバイスおよび局所対話装置を用いることで、ユーザーは容易にアプリケーションをトレーニングして、任意の品目の所在を記録することができる。ダイアログ管理システムはまた、アプリケーションをトレーニングして品目またはオブジェクトをその外見ベースで認識させるようにしたり、買い物リストをまとめて意思決定プロセスを単純化したりするためにも使うことができる。ユーザーはたとえば、移動ポインティングデバイスを、買い置き食材棚のさまざまな製品に順に向けていき、各オブジェクトについての画像を生成し、その画像に「これは私のお気に入りの朝食のシリアル」または「この種のコーヒーは二度と買い物リストに入れないこと」などといった適切な説明コメントを付けてもよい。
本発明のその他の目的および特徴は、付属の図面とともに考慮される以下の詳細な記述から明らかとなるであろう。ただし、図面は単に解説の目的のために描かれたものであって、本発明の範囲を限定するためではないことは理解しておくものとする。
図1は、局所対話装置7を示しており、該局所対話装置7はいくつかの無線インターフェース13a、13bにより対応するインターフェース4a、4bを具備する移動ポインティングデバイス2と通信する。一対のインターフェース4b、13bが、赤外線接続による、あるいはより好ましくは典型的にはブルートゥースのような規格を実装した無線方式による、局所領域通信のためにはたらく。このインターフェース対4b、13bは、移動ポインティングデバイス2が局所対話装置7からある範囲内にあるときには自動的に使われる。この距離を超えると、インターフェース5がGSMもしくはUMTSといった規格またはその他任意の電気通信ネットワークもしくはインターネットを使って無線通信を可能にする。これらのインターフェース4a、4b、13a、13bはマルチメディア、発話などを伝送するためにも使用できる。これらのインターフェース4a、4b、13a、13bおよび第三のインターフェース4c、13cは、移動ポインティングデバイス2と局所対話装置7との間の情報の同期を可能にする。第三のインターフェース4cを使って2つのデバイス2、7の間のデータを同期させるためには、ユーザーは移動ポインティングデバイス2を、局所対話装置7と何らかの方法で接続されている架台(図示せず)に置きうる。同期プロセスは自動的に、あるいはまずユーザーに確認したのちに開始されうる。
移動ポインティングデバイス2は、なかでも、画像を生成してその画像を局所対話装置7に伝送するために使われる。この目的のため、移動ポインティングデバイス2はカメラ3を有している。このカメラ3は、移動ポインティングデバイス2の正面方向に位置しており、指している方向Dの移動ポインティングデバイス2の正面の領域の画像を生成する。移動ポインティングデバイス2は細長い形状をもち、指している方向Dは移動ポインティングデバイス2の長手軸に沿っている。画像は、移動ポインティングデバイス2の筐体内に含まれている送信機によってインターフェース4a、4bの一方を介して局所対話装置7に送られる。
移動ポインティングデバイス2に取り付けられたレーザー光源8が、本質的に指している方向Dにレーザー光ビームを放出する。ある好ましい実施形態では、移動ポインティングデバイス2は一つまたは複数のボタン(図示せず)を具備している。一つのボタンは、ユーザーが押すことによって、たとえば該ユーザーが選択をしたことを確認し、目標領域の画像を送信することができる。あるいはまた、ボタンの機能は移動ポインティングデバイス2に取り付けられた光源8を作動もしくは停止させること、および/または移動ポインティングデバイス2そのものを作動もしくは停止させることであってもよい。同様に、移動ポインティングデバイス2は該移動ポインティングデバイス2に組み込まれている動きセンサーによって作動させられてもよい。図の例では、ポインティングデバイス2は、キーパッド、マイク、スピーカーなどをもつユーザーインターフェース6を有しており、これによりユーザーは、たとえダイアログ管理システム1の近傍にいなくても、インターフェース4a、13aによってダイアログ管理システム1のために発話またはマルチメディアデータを提供できる。代替的には、ポインティングデバイスはPDA、携帯電話などのような好適な機器(図示せず)に組み込まれていてもよい。
移動ポインティングデバイス2はその電力を一つまたは複数の電池(図示せず)から引き出す。移動ポインティングデバイス2の電力消費によっては、移動ポインティングデバイス2を不使用中に装着して電池に充電する架台(やはり図示せず)を設けることが必要となることもある。理想的には、これは同期目的のために使われるのと同じ架台である。
話されたユーザー入力を解釈し、可聴出力プロンプトを発するため、局所対話装置7は、マイク17、スピーカー16および音声処理ブロック9を有する音声インターフェース設備5を具備していてもよい。音声処理ブロック9は入力された発話を、コア・ダイアログ・エンジン11による処理に好適なデジタル形式に変換することができ、デジタルの音声出力プロンプトを合成してスピーカーを介して出力するための音信号にすることができる。あるいはまた、局所対話装置7は、それが制御する装置のマイクまたはスピーカーを利用し、それらを使ってユーザーとの発話による意思伝達を行ってもよい。
局所対話装置7はまた、該局所対話装置7といくつかのアプリケーションA1、A2、…Anとの間で交わされる出入りする情報をさばくためのアプリケーションインターフェース10も具備している。図では単なるブロックとして示されているアプリケーションA1、A2、…Anは、現実にはユーザーが何らかの方法で対話したいと思ういかなる種類の装置またはアプリケーションであってもよい。この例では、アプリケーションA1、A2、…Anはなかでも、テレビA1、インターネット接続のあるパソコンのようなインターネットアプリケーションA2、および買い置き食材管理アプリケーションAnを含みうる。
この例におけるダイアログの流れは、ユーザー(図示せず)と局所対話装置7によって駆動されるさまざまなアプリケーションA1、A2、…Anとの間の通信からなる。ユーザーは話されたコマンドまたは要求をマイク17を通じて局所対話装置7に対して発する。話されたコマンドまたは要求は録音され、音声インターフェースブロック9においてデジタル化される。音声インターフェースブロック9は録音された発話入力をコア・ダイアログ・エンジンに渡す。このエンジン11は、詳しく図示していないが、話されたコマンドまたはユーザー要求を同定するための発話認識および言語理解に関わる通常のステップを実行するためのいくつかのモジュールと、ダイアログの流れを制御し、ユーザー入力を適切なアプリケーションA1、A2、…Anによって理解可能な好適な形に変換するためのダイアログ・コントローラとを有している。
たとえば話されたコマンドをコア・ダイアログ・エンジン11が構文解析できないとか、理解できない場合、あるいは話されたコマンドがアクティブであるアプリケーションA1、A2、…Anのどれにも適用できない場合など、ユーザーから何らかのさらなる情報を取得することが必要であれば、コア・ダイアログ・エンジン11は適切な要求を生成し、それを音声インターフェースブロック9に転送する。該音声インターフェースブロック9においてそれが発話に合成され、次いでスピーカーのような音出力設備16によって可聴音に変換される。
ユーザーが自宅におらず、よって局所対話装置7からある距離隔たっている状況におけるダイアログ管理システム1の有用性が図2で図解されている。ここでは、ユーザー(図示せず)は病院の待合室に座っているなどしており、用意されている雑誌20の一つにおもしろい記事をみつけるなどしている。記事はユーザーが録画したいテレビ番組についての情報を含んでいるなどする。あるいはおもしろいウェブサイトに関するものであってもよいし、あるいは単に、ユーザーが誰かほかの人に見せたいと思う何らかの文章や画像であってもよい。
記事中の情報を自分の局所対話装置7に伝達するため、ユーザーは自分の移動ポインティングデバイス2を目標領域21、すなわち雑誌のページ20にある興味のある記事をカバーする領域に向ける。レーザー点PLの助けにより、ユーザーは撮影したいと思う、ページ20の領域を位置特定できる。移動ポインティングデバイス2内のカメラ3が目標領域の画像22を生成し、ボタンを押すと、画像22が自動的に電気通信ネットワークNを介して局所対話装置7の受信機13aに送信される。局所対話装置7はユーザーの自宅にあり、局所通信インターフェース4b、13bの範囲外にあるので、画像22を局所対話装置7に送信するためには長距離インターフェース4a、13aが使われる。局所対話装置7は自動的に新情報の到着の確認を出し、画像処理設備14、ここでは画像処理ユニットにおいて必要とされる処理ステップを実行し、内部メモリ12に画像22を保存する。
自宅に戻ったユーザーは、前記記事をもう一度見てその情報を何らかの仕方で使いたいと思うなどする。この目的のため、ユーザーは、「さっき送った画像を見たい」のような適切な発話コマンドを局所対話装置7に向けて発する。局所対話装置7はそのローカルメモリ12から当該画像を取得し、それを適宜表示する。目標領域画像が大きい場合にはテレビ画面を使ってもよいし、あるいは目標領域画像が小さい場合には別の好適な装置のより小さなディスプレイを使ってもよい。ユーザーは局所対話装置7に、当該画像をある種の方法で扱うよう命令できる。たとえば、当該画像があるテレビ番組についての情報を含んでいる場合、ユーザーは「今晩この番組を録画」と言うなどし、局所対話装置7は適切なコマンドをテレビA1に送る。当該画像がウェブサイトのURLであれば、ユーザーは「このインターネットのウェブサイトに接続」と言うなどし、この場合、局所対話装置7はインターネットアプリケーションA2に適切なコマンドを発する。当該画像はユーザーが自分の集合に追加したいレシピからなることもあり、その場合、ユーザーは「これを買い置き食材アプリケーションに追加して必要なものが揃っているようにする」と言うなどする。ここで、局所対話装置7はそのレシピを適切な形で買い置き食材アプリケーションAnに送り、しかるべき問い合わせを発する。買い置き食材アプリケーションAnがある品目がない、あるいは必要量に足りないと報告する場合、この品目が自動的に買い物リストに入れられる。
ユーザーインターフェース6および長距離通信インターフェース4a、13aによって、ユーザーは、局所対話装置7から遠く離れているときであっても、局所対話装置とのダイアログを遂行して、目標領域画像22が処理される仕方を指定できる。このようにして、ユーザーは、目標領域画像22中の情報が当該画像22中に記載されている番組を録画するようビデオデッキを予約するために使われるよう指定しうるのである。
図3はダイアログ管理システム1の別の使用を図解している。ここでは、移動ポインティングデバイス2は、たとえばスーパーマーケットの棚にある製品、蔵書中の書籍または倉庫中の商品などでありうる品目についての空間情報および視覚情報を記録するために使われる。移動ポインティングデバイス2を特定の品目24に向けることによって、各項目24の画像23が生成され、品目24の位置に関する空間情報を伴って局所対話装置7に送信されることができる。空間情報は、移動ポインティングデバイス2により位置センサー(図示せず)によって供給されてもよいし、あるいはユーザーによりたとえば品目の位置の発話による説明によって供給されてもよい。好適な画像処理機能を備えている画像処理設備14なら、それ自身でオブジェクト24の画像およびその周囲を解析することによってオブジェクト24の位置に関する空間情報を導出できる。
局所対話装置7は近くに位置していてもよいし、あるいは完全に別の位置にあって、移動ポインティングデバイス2はその長距離インターフェース4aを使って画像23および付随する空間情報を適切なインターフェース13aに送るのでもよい。代替的に、ユーザーは、移動ポインティングデバイス2のローカルメモリ25に画像23を保存して後刻引き出すことを選んでもよい。
こうして局所対話装置7に送られる情報は、アプリケーションA1、A2、…Anを品目の画像を認識したり、要求があったときにそれらを位置特定したりするようトレーニングするのに使われてもよい。
ダイアログ管理システム1のあるさらなる応用では、移動ポインティングデバイス2は、局所対話装置7またはアプリケーションA1のディスプレイ30に視覚呈示されているいくつかのユーザー選択肢M1、M2、M3のうちから選択をするために使われることができる。図4は、視覚呈示に向けられている移動ポインティングデバイス2によって生成される目標領域画像31の概略的な表現を示している。移動ポインティングデバイス2はある距離からある傾いた角度で視覚呈示(visual presentation)VPに向けられており、視覚呈示VPにおける選択肢M1、M2、M3のスケールおよび見え方(perspective)は目標領域画像31においてゆがんで見える。移動ポインティングデバイス2の視覚呈示VPに対する角度にかかわりなく、目標領域画像31は常に画像中心点PTを中心としている。レーザー点PLも目標領域画像31中に現れ、画像中心点PTからある距離離れていてもよいし、あるいは画像中心点PTに一致していてもよい。画像処理ユニット14は目標領域画像31を所定のテンプレートと比較して選ばれた選択肢を判定する。
所定のテンプレートは、アクセス・ユニット15によって、たとえば内部メモリ12、外部メモリ19またはインターネットのような別のソースから取得されることができる。理想的には、アクセス・ユニット15は、外部データ19へのアクセスを許容するいくつかのインターフェースを有している。たとえば、ユーザーはフロッピー(登録商標)ディスク、CDまたはDVDのような記憶媒体19上に保存されているあらかじめ定義されたテンプレートを提供することができる。テンプレートはまた、たとえば、ユーザーがテンプレート上の特定の領域と特定の機能との間の相関を指定するトレーニング・セッションにおいて、ユーザーによって構成設定されてもよい。
ユーザーによって選択された選択肢を判別するために、移動ポインティングデバイス2の長手軸の視覚呈示VPとの交点PTが位置特定される。すると、選ばれた選択肢を判別するためにテンプレートにおいて交点PTに対応する点が位置特定できる。この目的のため、エッジおよび角検出の諸方法を使ったコンピュータビジョンの諸アルゴリズムが適用されて、視覚呈示VPのテンプレート中の点[(xa′,ya′), (xb′,yb′), (xc′,yc′)]に対応する目標領域画像における点[(xa,ya), (xb,yb), (xc,yc)]が位置特定される。
各点はベクトルとして表現できる。たとえば点(xa,ya)はベクトルvaとして表現できる。次のステップとして、目標領域画像をテンプレートにマッピングする変換関数Tλが利用される。
f(λ)=Σi|Tλ(vi)−v′i|2
ここで、ベクトルviは目標領域画像における座標の組(xi,yi)を表し、ベクトルv′iはテンプレートにおける対応する座標の組(x′i,y′i)を表す。当該関数に対する最もコスト効率のよい解を与える当該画像の回転および並進についてのパラメータを含むパラメータセットλは、視覚呈示VPに対する移動ポインティングデバイス2の位置および向きを決定するために適用されうる。コンピュータビジョンの諸アルゴリズムは、移動ポインティングデバイス2内のカメラ3は固定であり、指している身振りの方向を「見ている」という事実を利用する。次のステップは、指している方向Dにおける移動ポインティングデバイス2の長手軸の、視覚呈示VPの面との交点を計算することである。この点は目標領域画像の中心PTと取られてもよいし、あるいは前記デバイスがレーザーポインタを有している場合には、レーザー点PLが代わりに使われてもよい。ひとたび交点の座標が計算されれば、この点を視覚呈示VPのテンプレートにおいて位置特定し、よってユーザーが選択した選択肢を判別することは簡単な問題である。
本発明は、好ましい実施形態およびその変形の形で開示されてきたが、本発明の範囲から外れることなくそれに数多くの追加的な修正および変形を施すことができることは理解されるであろう。家庭ダイアログ・システムと一緒に用いられる移動ポインティングデバイスは、自宅にいても外にいてもアプリケーションを制御するための普遍的なユーザーインターフェースのはたらきができる。つまり、指すことによってユーザーの意図が表現できるときには常に有益でありうる。これはすなわち、本質的にいかなる種類のユーザーインターフェースについても使用できるということを意味している。移動ポインティングデバイスの小さな形状因子およびその便利で直感的な使用法は、この簡単な装置を強力な万能リモコンに押し上げることができる。多数の装置を制御するために使用され、該装置のコンテンツ品目へのアクセスを提供するとともに該装置のユーザーインターフェース選択肢のパーソナル化を許容するというその機能は、これを強力なツールにする。ペン形状への代替としては、移動ポインティングデバイスはたとえば内蔵カメラをもつ携帯情報端末(PDA)または内蔵カメラをもつ携帯電話あってもよい。移動ポインティングデバイスは他の伝統的なリモコン機能と、あるいは制御されるべき装置のコンテンツ品目への直接アクセスのための声による制御といった他の入力モードと組み合わされてもよい。
ここで、ベクトルviは目標領域画像における座標の組(xi,yi)を表し、ベクトルv′iはテンプレートにおける対応する座標の組(x′i,y′i)を表す。当該関数に対する最もコスト効率のよい解を与える当該画像の回転および並進についてのパラメータを含むパラメータセットλは、視覚呈示VPに対する移動ポインティングデバイス2の位置および向きを決定するために適用されうる。コンピュータビジョンの諸アルゴリズムは、移動ポインティングデバイス2内のカメラ3は固定であり、指している身振りの方向を「見ている」という事実を利用する。次のステップは、指している方向Dにおける移動ポインティングデバイス2の長手軸の、視覚呈示VPの面との交点を計算することである。この点は目標領域画像の中心PTと取られてもよいし、あるいは前記デバイスがレーザーポインタを有している場合には、レーザー点PLが代わりに使われてもよい。ひとたび交点の座標が計算されれば、この点を視覚呈示VPのテンプレートにおいて位置特定し、よってユーザーが選択した選択肢を判別することは簡単な問題である。
本発明は、好ましい実施形態およびその変形の形で開示されてきたが、本発明の範囲から外れることなくそれに数多くの追加的な修正および変形を施すことができることは理解されるであろう。家庭ダイアログ・システムと一緒に用いられる移動ポインティングデバイスは、自宅にいても外にいてもアプリケーションを制御するための普遍的なユーザーインターフェースのはたらきができる。つまり、指すことによってユーザーの意図が表現できるときには常に有益でありうる。これはすなわち、本質的にいかなる種類のユーザーインターフェースについても使用できるということを意味している。移動ポインティングデバイスの小さな形状因子およびその便利で直感的な使用法は、この簡単な装置を強力な万能リモコンに押し上げることができる。多数の装置を制御するために使用され、該装置のコンテンツ品目へのアクセスを提供するとともに該装置のユーザーインターフェース選択肢のパーソナル化を許容するというその機能は、これを強力なツールにする。ペン形状への代替としては、移動ポインティングデバイスはたとえば内蔵カメラをもつ携帯情報端末(PDA)または内蔵カメラをもつ携帯電話あってもよい。移動ポインティングデバイスは他の伝統的なリモコン機能と、あるいは制御されるべき装置のコンテンツ品目への直接アクセスのための声による制御といった他の入力モードと組み合わされてもよい。
ダイアログ管理システムの有用性は、ここに記載された用途に制限される必要はない。たとえば、医療環境内で、あるいは産業においても同様に用途を見出しうる。局所対話装置と組み合わせて使用される移動ポインティングデバイスは、障害をもつか動きが制約されているかして機器に手を伸ばしたり機器を通常の仕方で操作したりすることができないユーザーの生活を著しく容易にすることができる。
明確のため、本願を通じて単数形の使用は複数を排除するものではなく、「有する」は他のステップまたは要素を排除するものでないことは理解しておく必要がある。「ユニット」は、明確に単一のエンティティであると記載されているのでない限り、いくつかのブロックまたは装置を含んでいることもある。
Claims (13)
- アプリケーションを制御するためのダイアログ管理システムであって、
当該システムは移動ポインティングデバイスを有しており、該移動ポインティングデバイスは、
・該移動ポインティングデバイスが向けられている方向の目標領域の像を生成するカメラと、
・その目標領域画像を局所対話装置に伝送する伝送インターフェースとを有しており、
当該システムは局所対話装置を有しており、該局所対話装置は、
・発話入力を検出および処理し、可聴プロンプトを生成および出力するための音声インターフェース設備と、
・ユーザー入力を解釈して出力プロンプトを生成することによってダイアログの流れを整理するためのコア・ダイアログ・エンジンと、
・当該ダイアログ管理システムと前記アプリケーションとの間の通信のためのアプリケーションインターフェースと、
・前記移動ポインティングデバイスから前記目標領域画像を受け取るための受信インターフェースと、
・前記目標領域画像を処理するための画像処理設備とを有している、
ことを特徴とするシステム。 - 請求項1記載のダイアログ管理システムであって、
前記局所対話装置が、制御されるべき前記アプリケーションについてのユーザー選択肢の視覚呈示に関連付けられたあらかじめ定義されたテンプレートにアクセスするためのアクセス・ユニットを有しており、
前記画像処理設備が、前記画像を生成する際に前記移動ポインティングデバイスが向けられていた前記視覚呈示において選ばれた選択肢を判別するために、前記目標領域または該目標領域の一点をあらかじめ定義されたテンプレート中で位置特定する手段を有している、
ことを特徴とするシステム。 - 請求項1または2記載のダイアログ管理システムであって、前記局所対話装置が、制御されるべき前記アプリケーションについての前記ユーザー選択肢の視覚呈示および/もしくは視覚的なダイアログ・プロンプトを動的に表示するため、ならびに/またはユーザーに対して画像を出力するためのディスプレイ・ユニットを有していることを特徴とするシステム。
- 請求項1ないし3のうちいずれか一項記載のダイアログ管理システムであって、前記画像処理設備が、コンピュータビジョンのアルゴリズムを使って前記目標領域画像中の目標点を決定する手段を有することを特徴とするシステム。
- 請求項1ないし4のうちいずれか一項記載のダイアログ管理システムであって、前記移動ポインティングデバイスが該移動ポインティングデバイスに取り付けられた集中光ビームの光源を有しており、ユーザーに対して該移動ポインティングデバイスが向けられている視覚呈示中で光点を示すことができることを特徴とするシステム。
- 請求項1ないし5のうちいずれか一項記載のダイアログ管理システムであって、前記移動ポインティングデバイスが目標領域画像の保存のための記憶媒体を有することを特徴とするシステム。
- 請求項1ないし6のうちいずれか一項記載のダイアログ管理システムであって、
前記移動ポインティングデバイスが発話およびメディアデータを送信および/または受信するインターフェースを有しており、
前記局所対話装置が通信ネットワークを通じて発話およびメディアデータを受信および/または送信するインターフェースを有している、
ことを特徴とするシステム。 - ・前記移動ポインティングデバイスが向けられている方向の目標領域の像を生成するカメラと、
・その目標領域画像を局所対話装置に伝送する伝送インターフェースとを有している、
ことを特徴とする、請求項1ないし7のうちいずれか一項記載の発話ダイアログ管理システムのための移動ポインティングデバイス。 - ・発話入力を検出および処理し、可聴プロンプトを生成および出力するための音声インターフェース設備と、
・可聴プロンプトを出力するための音出力設備と、
・ユーザー入力を解釈して出力プロンプトを生成することによってダイアログの流れを整理するためのコア・ダイアログ・エンジンと、
・当該ダイアログ管理システムと前記アプリケーションとの間の通信のためのアプリケーションインターフェースと、
・移動ポインティングデバイスから前記目標領域画像を受け取るための受信インターフェースと、
・前記目標領域画像を処理するための画像処理設備とを有している、
ことを特徴とする、請求項1ないし7のうちいずれか一項記載の発話ダイアログ管理システムのための局所対話装置。 - 話されたダイアログによりアプリケーションを制御するダイアログ管理システムを駆動する方法であって、
該アプリケーションを制御するための制御情報を引き出すために、カメラを有する移動ポインティングデバイスを特定のオブジェクトに向け、前記移動ポインティングデバイスが向けられている目標領域の画像を生成し、その目標領域画像を当該ダイアログ管理システムの局所対話装置に伝送し、その目標領域画像を処理する、追加的なステップを有することを特徴とする方法。 - 請求項10記載の方法であって、前記移動ポインティングデバイスが向けられるオブジェクトが、制御されるべき前記アプリケーションについてのユーザー選択肢を含んでおり、選ばれた選択肢を判別するために前記目標領域画像が解析されることを特徴とする方法。
- 前記目標領域画像が前記ダイアログ管理システムをトレーニングするために使われることを特徴とする、請求項10または11記載の方法。
- 前記目標領域画像が前記ダイアログ管理システムのために特定のオブジェクトについての位置に関する情報を引き出すために使われることを特徴とする、請求項12記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP04101823 | 2004-04-29 | ||
PCT/IB2005/051294 WO2005106633A2 (en) | 2004-04-29 | 2005-04-20 | Method and system for control of an application |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007535261A true JP2007535261A (ja) | 2007-11-29 |
Family
ID=35056824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007510186A Pending JP2007535261A (ja) | 2004-04-29 | 2005-04-20 | アプリケーション制御の方法およびシステム |
Country Status (6)
Country | Link |
---|---|
US (1) | US20080249777A1 (ja) |
EP (1) | EP1745349A2 (ja) |
JP (1) | JP2007535261A (ja) |
KR (1) | KR20070011398A (ja) |
CN (1) | CN1950790A (ja) |
WO (1) | WO2005106633A2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060253205A1 (en) * | 2005-05-09 | 2006-11-09 | Michael Gardiner | Method and apparatus for tabular process control |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US8385950B1 (en) * | 2007-11-09 | 2013-02-26 | Google Inc. | Capturing and automatically uploading media content |
US8248372B2 (en) * | 2009-06-26 | 2012-08-21 | Nokia Corporation | Method and apparatus for activating one or more remote features |
JP5652594B2 (ja) * | 2010-05-12 | 2015-01-14 | セイコーエプソン株式会社 | プロジェクターおよび制御方法 |
US20140333590A1 (en) * | 2012-02-01 | 2014-11-13 | Hitachi Maxell, Ltd. | Digital pen |
CN106202359B (zh) * | 2016-07-05 | 2020-05-15 | 广东小天才科技有限公司 | 拍照搜题的方法及装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4327976A (en) * | 1978-07-19 | 1982-05-04 | Fuji Photo Optical Co., Ltd. | Light beam projecting device for auto-focusing camera |
US5737491A (en) * | 1996-06-28 | 1998-04-07 | Eastman Kodak Company | Electronic imaging system capable of image capture, local wireless transmission and voice recognition |
JP3690024B2 (ja) * | 1996-12-25 | 2005-08-31 | カシオ計算機株式会社 | 印刷装置及び印刷装置を使用する撮像画像印刷方式 |
US6023241A (en) * | 1998-11-13 | 2000-02-08 | Intel Corporation | Digital multimedia navigation player/recorder |
US6636259B1 (en) * | 2000-07-26 | 2003-10-21 | Ipac Acquisition Subsidiary I, Llc | Automatically configuring a web-enabled digital camera to access the internet |
GB2372864B (en) * | 2001-02-28 | 2005-09-07 | Vox Generation Ltd | Spoken language interface |
DE10110979A1 (de) * | 2001-03-07 | 2002-09-26 | Siemens Ag | Anordnung zur Verknüpfung von optisch erkannten Mustern mit Informationen |
JP3811025B2 (ja) * | 2001-07-03 | 2006-08-16 | 株式会社日立製作所 | ネットワーク・システム |
US6990639B2 (en) * | 2002-02-07 | 2006-01-24 | Microsoft Corporation | System and process for controlling electronic components in a ubiquitous computing environment using multimodal integration |
DE10249060A1 (de) * | 2002-05-14 | 2003-11-27 | Philips Intellectual Property | Dialogsteuerung für elektrisches Gerät |
-
2005
- 2005-04-20 KR KR1020067022188A patent/KR20070011398A/ko not_active Application Discontinuation
- 2005-04-20 CN CNA2005800137041A patent/CN1950790A/zh active Pending
- 2005-04-20 US US11/568,406 patent/US20080249777A1/en not_active Abandoned
- 2005-04-20 EP EP05718772A patent/EP1745349A2/en not_active Withdrawn
- 2005-04-20 JP JP2007510186A patent/JP2007535261A/ja active Pending
- 2005-04-20 WO PCT/IB2005/051294 patent/WO2005106633A2/en not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
US20080249777A1 (en) | 2008-10-09 |
WO2005106633A2 (en) | 2005-11-10 |
WO2005106633A3 (en) | 2006-05-18 |
KR20070011398A (ko) | 2007-01-24 |
EP1745349A2 (en) | 2007-01-24 |
CN1950790A (zh) | 2007-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9544633B2 (en) | Display device and operating method thereof | |
EP1697911B1 (en) | Method and system for control of a device | |
US20080094354A1 (en) | Pointing device and method for item location and/or selection assistance | |
JP2007535261A (ja) | アプリケーション制御の方法およびシステム | |
EP4037328A1 (en) | Display device and artificial intelligence system | |
US20050273553A1 (en) | System, apparatus, and method for content management | |
JP2008508587A (ja) | 機器の制御方法 | |
US11544602B2 (en) | Artificial intelligence device | |
US20210208550A1 (en) | Information processing apparatus and information processing method | |
AU2022201740B2 (en) | Display device and operating method thereof | |
EP4345817A1 (en) | Display device and operating method thereof | |
US20240055005A1 (en) | Display device and operating method therof | |
US20240223861A1 (en) | Smart content search from audio/video captures while watching tv content itself |