JP2001100878A

JP2001100878A - マルチモーダル入出力装置

Info

Publication number: JP2001100878A
Application number: JP27740899A
Authority: JP
Inventors: Katsumi Tanaka; 克己田中; Tetsuro Chino; 哲朗知野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1999-09-29
Filing date: 1999-09-29
Publication date: 2001-04-13

Abstract

(57)【要約】【課題】この発明は、利用者の自由な入力を許し、ま
た利用者の使用状況に適応したマルチモーダル入出力装
置を提供することを課題とする。【解決手段】この発明は、利用者の視線入力情報、音
声入力情報、操作入力情報、画像入力情報及び動作入力
情報のうち、少なくとも一つ以上の情報を認識する入力
手段と、前記入力情報の少なくとも一種類以上の情報を
受け利用者の意図情報を検出する意図検出手段と、意図
検出結果に基づき利用者にフィードバックを返す出力手
段と、過去の動作実行系列を保持する動作履歴保持手段
と、利用者が操作内容を登録する利用者操作登録手段と
から構成される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力された視覚情
報、音声情報、操作情報のうち少なくとも一つの入力あ
るいは出力を通じて利用者の意図を推定し、それに基づ
き利用者にフィードバックを返し、コマンドを実行する
マルチモーダル入出力装置に関する。

【０００２】

【従来の技術】近年、パーソナルコンピュータを含む計
算機システムにおいて、従来のキーボードやマウスなど
による入力と、ディスプレイなどによる文字や画像情報
の出力に加えて、音声情報や画像情報などマルチメディ
ア情報を入出力することが可能になって来ている。こう
いった状況に加え、自然言語解析や自然言語生成、ある
いは音声認識や音声合成技術もしくは対話処理技術の進
歩などによって、利用者と音声入出力を対話する音声対
話システムへの要求が高まっており、自由発話による音
声入力によって利用可能な対話システムである、“ＴＯ
ＳＢＵＲＧ−ＩＩ”（文献信学論、Ｖｏｌ．Ｊ７７−
Ｄ−ＩＩ、Ｎｏ．８，ｐｐ１４１７−１４２８，１９９
４）など、様々な音声対話システムの開発がなされてい
る。

【０００３】また、さらに、こういった音声入出力に加
え、例えばカメラを使った視覚情報入力を利用したり、
あるいはタッチパネル、ペン、タブレット、データグロ
ーブ、フットスイッチ、対人センサ、ヘッドマウントデ
ィスプレイ、フォースディスプレイ（提力装置）など、
様々な入出力デバイスを通じて利用者と授受できる情報
を利用して、利用者とインタラクションを行なうマルチ
モーダル対話システムへの要求が高まっている。このマ
ルチモーダルインタフェースは、人間同士の対話におい
ても、例えば音声など一つのメディア（チャネル）のみ
を用いてコミュニケションを行なっている訳ではなく、
身振りや手ぶりあるいは表情といった様々なメディアを
通じて授受される非言語メッセージを駆使して対話する
ことによって、自然で円滑なインタラクションを行なっ
ている（“ＩｎｔｅｌｌｉｇｅｎｔＭｕｌｔｉｍｅｄ
ｉａＩｎｔｅｒｆａｃｅｓ”，ＭａｙｂｕｒｙＭ．
Ｔ，Ｅｄｓ．，ＴｈｅＡＡＡＩＰｒｅｓｓ／Ｔｈｅ
ＭＩＴＰｒｅｓｓ，１９９３）ことから考えても、
自然で使いやすいヒューマンインタフェースを実現する
ための一つの有力な方法として期待が高まっている。

【０００４】

【発明が解決しようとする課題】しかし、従来のマルチ
モーダル入出力装置においては、ユーザの入力とシステ
ムの動作間の対応が一元的であり、同一の入力情報に対
しては同様の出力、動作を行なっていた。このような方
式下においては、ユーザによる、自らの操作状況に応じ
た柔軟な操作を実現することは不可能であった。

【０００５】特に、画像、音声、マウスによる操作な
ど、それぞれの認識装置からの入力を統合処理する場合
は、入力手段の多様化、周囲状況の変化に伴い認識装置
からの入力が微細に変化する可能性があり、そのような
周囲状況に対して頑健な処理を行なう必要が生じる。こ
のような場合には、入力装置の処理能力（扱える画像、
音声データなどの規模）に制限が加えられる可能性があ
り、その結果ユーザの行なえる操作が限定されてしま
い、利便性が大きく低下することになる。

【０００６】また、ノート型コンピュータ、携帯情報機
器のような小型の機器を操作する場合には、ユーザが使
用できる画面領域が狭いために、複雑な画面上の操作が
困難であるという問題があった。

【０００７】そこで、本発明は、上記に鑑みてなされた
ものであり、その目的とするところは、マルチモーダル
入出力装置に対して、どのような場合にも出力時、動作
実行時に状況に応じた柔軟な対応を行なうことによりユ
ーザが実行可能な動作を多様化し、より利便性の高いイ
ンタフェースを提供することにある。

【０００８】

【課題を解決するための手段】上記目的を達成するため
に、課題を解決する第１の手段は、利用者の視線入力情
報、音声入力情報、操作入力情報、画像入力情報及び動
作入力情報のうち、少なくとも一つ以上の情報を認識す
るための入力手段と、前記入力手段により認識された入
力情報のうち、少なくとも一種類以上の入力情報を受け
て、利用者の意図情報を検出する意図検出手段と、前記
意図検出手段により検出された意図情報に基づき利用者
にフィードバックを返す出力手段とを具備したマルチモ
ーダル入出力装置において、前記意図検出手段により検
出された意図情報に基づき一連の動作を実行する動作実
行手段と、前記動作実行手段により実行された過去の動
作実行系列を保持する動作履歴保持手段と、利用者が操
作内容を登録する利用者操作登録手段とを有し、前記動
作実行手段は、前記意図検出手段、前記動作履歴保持手
段、前記利用者操作登録手段の少なくとも一つより与え
られる情報に基づいて実行する動作系列を決定すること
を特徴とする。

【０００９】第２の手段は、前記第１の手段において、
前記出力手段は、前記意図検出手段、前記動作履歴保持
手段、前記利用者操作登録手段の少なくとも一つより与
えられる情報に基づいて出力方法を決定することを特徴
とする。

【００１０】第３の手段は、前記第１の手段において、
動作実行時における利用者の付帯情報を記憶する動作付
帯情報保持手段を具備することを特徴とする。

【００１１】第４の手段は、前記第３の手段において、
前記出力手段は、前記動作付帯情報保持手段より与えら
れる情報のうち少なくとも一つを選び表示することを特
徴とする。

【００１２】第５の手段は、前記第３又は第４の手段に
おいて、動作付帯情報保持手段の付帯情報は、システム
操作画面情報、利用者音声情報、利用者画像情報のうち
少なくとも一つを含むことを特徴とする。

【００１３】

【発明の実施の形態】以下、本発明の実施形態を図面を
用いて説明する。

【００１４】図１は本発明の第１の実施形態に係るマル
チモーダル入出力システムの全体ブロック図である。図
１において、このシステムは複数の操作対象を有する。
このうちの第１の操作対象は、画像入力に基づく視線検
出エンジン１、音声入力に基づく音声認識エンジン２、
マウス、キーボード等からなる操作入力部３、視線検出
エンジン１、音声認識エンジン２、操作入力部３よりの
入力を統合し、利用者の意図を検出する入力統合部４、
操作対象側で行なう操作を決定するシステム操作決定部
５、利用者が操作対象側で行う操作を登録する利用者操
作登録部６、意図検出結果に基づき利用者に出力を行な
うフィードバック生成部７、一連の操作系列を実行する
動作実行部８、過去の動作履歴を保存する動作履歴格納
部９を備えている。第２以降の操作対象は、それぞれ符
号１１〜１９（第２の操作対象）に示すように第１の操
作対象と同様のユニットを有する。各操作対象の入力統
合部４、１４、フィードバック生成部７、１７同士は結
合されており、情報の交換を行なうことが可能である。
本実施形態では、ウインドウシステムを対象とし、操作
対象は図２に示すアイコンの一つ一つとする。また本実
施形態でいう意図とは、利用者の操作対象に対する選択
意図とする。

【００１５】ここで、利用者が視線、音声、操作入力を
用いて操作対象を選択する方法については、例えば特願
平１０−１６３４４９号公報の「マルチモーダル入出力
装置のインタフェース装置及びその方法」に記載された
内容を用いることができる。これは利用者の視線、音
声、操作入力を入力統合部４、１４により予め学習し、
その学習結果を用いて現在の利用者の意図、すなわち選
択対象に対する選択意図の有無を推定し、適切なフィー
ドバックを返すことにより周囲環境に適応した操作対象
選択手段を提供する方法である。視線検出エンジン１、
音声認識エンジン２、操作入力部３、入力統合部４、フ
ィードバック生成部７の処理については特願平１０−１
６３４４９号公報に記載されている手法と同様のものを
用いることとする。

【００１６】以下、特願平１０−１６３４４９号公報に
述べられている手法の概要を説明する。入力手段となる
視線検出エンジン１、音声認識エンジン２、操作入力部
３は、入力統合部４に対し、操作対象と入力情報を類似
度に換算した情報として送るものとする。例えば視線検
出エンジン１は、ユーザの入力顔画像を解析し、視線が
自らのアイコンに向けられている度合を０〜１の類似度
で表し、入力統合部４に送る。入力手段は、本実施形態
で示すものに限られるものではなく、例えば顔画像以外
の画像入力を解析した結果としての画像入力情報、デー
タグローブ等を用いた動作入力情報を用いてもよい。こ
れらの情報は、視線検出エンジン１等の出力結果と同様
に入力統合部４に送出される。

【００１７】入力統合部４では、各入力情報より、自ら
が選択されている確率を求める。また学習により、利用
者や環境に適応してより確度の高い意図選択を行なう。
フィードバック生成部７では、入力統合部４から送られ
た選択意図確率に基づいて選択対象アイコンが利用者に
対して行なうフィードバック方法を決定する。その上で
利用者に対するフィードバックを、ウインドウシステム
上におけるアイコンの輝度、大きさ、形状変化または音
声出力により実現する。また、各操作対象の入力統合部
４、１４、フィードバック生成部７、１７同士は結合さ
れており、情報の交換を行なうことが可能である。この
情報交換により、各操作対象が協調して利用者による選
択を容易にする働きをする。例えば各操作対象間の距離
を離すことにより、視線による選択を容易にすることが
できる。

【００１８】次に、システム操作決定部５、１５等にお
ける処理について説明する。

【００１９】図３はシステム操作決定部５、１５での処
理の流れの一例を示すフローチャートである。以下、図
３のフローチャートにしたがって処理の流れを説明す
る。ステップＳ１において、現在アクティブな、すなわ
ちユーザからの入力を受け付ける状態になっているアプ
リケーション（以下アプリと呼ぶ）を取得する。ステッ
プＳ２においては、ステップＳ１において求めた、現在
アクティブになっているアプリが存在するかどうかの判
定を行なう。存在した場合はステップＳ３に進み、存在
しなかった場合はステップＳ１０に進む。ステップＳ３
においては、利用者操作登録部６、１６に登録されてい
る、当該アプリに対するコマンドを取得する。ここで、
利用者操作登録部６、１６の登録情報は図４に示すよう
な、アプリまたはアプリ内コマンドのリストとして表現
されている。ステップＳ４において、当該アプリに対す
るコマンドが登録されているかどうかを判定し、登録さ
れていた場合はステップＳ５に進み、登録されていなか
った場合はステップＳ６に進む。ステップＳ５において
は、利用者操作登録部６、１６に登録されていたコマン
ドを操作対象に割り当て、コマンドに関する情報を操作
対象内に表示し、処理を終了する。ここで、コマンドに
関する情報とは、コマンド文字列、コマンドを示す画像
アイコン、コマンドを示す音声データなどのマルチメデ
ィア情報が含まれる。ステップＳ６においては、当該ア
プリ内で実行されたコマンド履歴を動作履歴格納部９、
１９により検索する。ステップＳ７においては、ステッ
プＳ６において求めたコマンド履歴を、最も最近に実行
された順にソートする。ステップＳ８においては、ステ
ップＳ４においてソートされた順に従い、最も最近に実
行され、かつ他の操作対象に割り当てられていないコマ
ンドを取り出す。ステップＳ９においては、ステップＳ
６において取り出されたコマンドを操作対象に割り当
て、コマンドに関する情報を操作対象内に表示する。こ
こで、コマンドに関する情報とは、コマンド文字列、コ
マンドを示す画像アイコン、コマンドを示す音声データ
などのマルチメディア情報が含まれる。ステップＳ１０
〜Ｓ１６までの処理はステップＳ３〜Ｓ９までの処理に
それぞれ対応しており、アプリ内で実行されるコマンド
でなくアプリ自身の実行情報を利用者操作登録部６、１
６またはアプリ実行履歴より検索し、操作対象に割り当
てることとする。

【００２０】次に、利用者操作登録部６、１６における
処理について説明する。ここでは、例えばＧＵＩ（グラ
フィック・ユーザ・インタフェース）などの手法を用い
て、利用者がアプリまたはコマンドを予め登録する手段
を提供する。利用者により登録されたアプリまたはコマ
ンドは、図４に示す利用者操作登録リストに蓄えられ
る。ここで、リストの項目ひとつひとつは、「コマンド
（アプリ名）」の形式で格納されている。コマンド名が
「アプリ」の場合はアプリそのものを示す。

【００２１】次に、フィードバック生成部７、１７にお
ける処理について、基本的な操作対象の選択手法につい
ては特願平１０−１６３４４９号公報に記載されている
内容と同様の処理を行なうものとする。付加的な処理と
して、システム操作決定部５、１５の操作内容（コマン
ドまたはアプリ）が変化した場合は、フィードバック生
成部７、１７はその変化を検知し、操作対象内の表現を
変更する。この表現の例としては、コマンドまたはアプ
リに関連づけられた文字列、画像アイコン、音声データ
などに関する表示を、新規に設定された操作内容のもの
に置き換えることとする。

【００２２】次に、動作実行部８、１８における処理に
ついて説明する。動作実行部８、１８は入力統合部４に
おいて、操作対象に対する「選択意志あり」の判定が下
された場合を検知する。検知された場合には、システム
操作決定部５、１５の内部に存在する操作内容に関する
情報を取得し、その内容にしたがって操作を実行する。
また、その操作内容情報を動作履歴格納部９、１９等に
送り、動作履歴情報を更新する。

【００２３】次に、動作履歴格納部９、１９における処
理について説明する。ここでは、システムが観測可能
な、利用者が行なった操作の履歴を図５に示す形式で保
存する。図５において、「操作名」欄には観測された操
作名が「コマンド（アプリ名）」の形式で格納されてい
る。コマンド名が「アプリ」の場合はアプリそのものを
示す。「実行時刻」欄には、その操作が最も最近に実行
された時刻が格納されている。「頻度」欄には、その操
作が過去において実行された回数が格納されている。動
作履歴格納部９、１９は、システムの基本ソフト（オペ
レーティングシステム）の機能を用いて、利用者が実際
に行なった操作を監視し、それによって図５に示す情報
を随時更新する。また動作実行部８、１８により動作実
行が行なわれた場合は、その情報を受けとって図５に示
す内容を更新する。

【００２４】なお、本実施形態では操作対象ごとに各構
成要素が独立した構成となっているが、必ずしもその限
りではなく、例えば図１中の視線検出エンジン１、音声
認識エンジン２、操作入力部３、入力統合部４、システ
ム操作決定部５、利用者操作登録部６、フィードバック
生成部７、動作実行部８、動作履歴格納部９の構成部分
を他の操作対象が共有する構成をとってもよい。この場
合は、各操作対象間で同一の処理を一つにまとめること
ができるため、より効率の良いシステム構成を実現する
ことができる。

【００２５】また、システム操作決定部５、１５におけ
る操作内容の決定を、図３に示すステップＳ８、Ｓ１５
で過去において最も最近実行された操作を検索すること
により行なっているが、必ずしもその限りではなく、例
えば過去の実行回数、操作の重要度、その他の状況に応
じた合理的は判断基準を用いてもよい。これは、動作履
歴格納部９、１９において観測、更新する動作履歴情報
の内容を拡張し、さらにシステム操作決定部５、１５に
おける操作内容決定の基準を変更することにより実現可
能である。

【００２６】また、図３に示すステップＳ４、Ｓ１１の
処理において、利用者操作登録部６、１６内の利用者操
作登録リスト情報が存在した場合は、ステップＳ５、Ｓ
１２においてそれを優先して操作対象に割り当てている
が、必ずしもその限りでなく、例えばステップＳ６〜Ｓ
９、Ｓ１３〜Ｓ１６のコマンド履歴情報を優先して操作
対象に割り当てるように処理の流れを変更しても良い。

【００２７】また、図３に示すステップＳ３、Ｓ１０に
おいて複数のコマンドまたはアプリが取得された場合、
ステップＳ６〜Ｓ９、Ｓ１３〜Ｓ１６に示す過去の動作
履歴情報を検索するルーチンを実行することにより、利
用者操作登録リスト中の複数のコマンドまたはアプリの
中から最も最近実行されたものを選択、または上記に挙
げたそれ以外の手法を用いた選択を行うことにより、操
作内容を決定するように処理の流れを拡張することも可
能である。

【００２８】また、フィードバック生成部７、１７にお
ける操作対象内の表示更新の際には、必ずしも操作に関
するすべての情報を表示する必要はなく、状況に応じて
表示する情報を変更することができる。これは、システ
ム操作決定部５、１５を操作内容のみならず表示内容も
決定するように拡張し、フィードバック生成部７、１７
は表示内容に関する情報も参照するようにすればよい
か、またはフィードバック生成部７、１７内の処理にお
いて求めたフィードバック手法に基づき表示内容を決定
する手段を設ければよい。このように本発明において
は、その趣旨を逸脱しない範囲で種々の変形を行なうこ
とが可能である。

【００２９】上記実施形態によれば、利用者のシステム
利用状況に応じた適切な操作を提示、実行するためのマ
ルチモーダル入出力装置を構築することができ、利用者
の利用効率が向上するという効果が得られる。

【００３０】次に、本発明の第２の実施形態について説
明する。

【００３１】図６は本発明の第２の実施形態に係るマル
チモーダル入出力システムの全体ブロック図である。図
６において、このシステムは複数の操作対象を有する。
このうちの第１の操作対象は、画像入力に基づく視線検
出エンジン２１、音声入力に基づく音声認識エンジン２
２、マウス・キーボード等からなる操作入力部２３、視
線検出エンジン２１、音声認識エンジン２２、操作入力
部２３よりの入力を統合し、利用者の意図を検出する入
力統合部２４、操作対象側で行なう操作を決定するシス
テム操作決定部２５、利用者が操作対象側で行う操作を
登録する利用者操作登録部２６、意図検出結果に基づき
利用者に出力を行なうフィードバック生成部２７、一連
の操作系列を実行する動作実行部２８、過去の動作履歴
を保存する動作履歴格納部２９、利用者の動作検出時に
その付帯情報を記憶する動作付帯情報検出部３０を備え
ている。第２以降の操作対象は、それぞれ符号４１〜５
０（第２の操作対象）に示すように第１の操作対象と同
様のユニットを有する。各操作対象の入力統合部２４、
４４、フィードバック生成部２７、４７同士は結合され
ており、情報の交換を行なうことが可能である。本実施
形態では、ウインドウシステムを対象とし、操作対象は
図２に示すアイコンの一つ一つとする。また本実施形態
でいう意図とは、利用者の操作対象に対する選択意図と
する。

【００３２】視線検出エンジン２１、４１、音声認識エ
ンジン２２、４２、操作入力部２３、４３、入力統合部
２４、４４、システム操作決定部２５、４５、利用者動
作登録部２６、４６、動作実行部２８、４８における処
理については、先に説明した第１の実施形態の構成と同
様であり、説明は省略する。

【００３３】次に、動作履歴格納部２９，４９における
処理について説明する。ここでは、システムが観測可能
な、利用者が行なった操作の履歴を図７に示す形式で保
存する。図７において、「操作名」欄には観測された操
作名が「コマンド（アプリ名）」の形式で格納されてい
る。「実行時刻」欄には、その操作が最も最近に実行さ
れた時刻が格納されている。「頻度」欄には、その操作
が過去において実行された回数が、「付帯情報」欄に
は、利用者が操作を行った時点における、付帯情報が格
納されている。動作履歴格納部２９、４９は、システム
の基本ソフト（オペレーティングシステム）の機能を用
いて、利用者が実際に行なった操作を監視し、それによ
って図５に示す情報を随時更新する。付帯情報欄につい
ては、動作付帯情報検出部３０、５０に検出要求を出
し、その結果を受け取ることとする。ここでいう付帯情
報とは、利用者が操作実行時に行った行動の記録であ
り、例えば操作実行時の画面情報、利用者が発生した音
声情報、利用者の顔画像情報などが含まれる。付帯情報
の形式は、マルチメディア情報が保存可能な任意の形式
の組み合わせ（ＭＰＥＧ，ＸＭＬ等）を用いることがで
きる。また、動作実行部２８、４８により動作実行が行
なわれた場合には、その情報を受けとって図６に示す内
容を更新する。

【００３４】次に、動作付帯情報検出部３０、５０にお
ける処理について説明する。ここでは、動作履歴格納部
２９、４９より検出要求を受け取ったならば、操作実行
時の画面情報、利用者が発生した音声情報、利用者の顔
画像情報などを、基本ソフトの機能、マイク、カメラな
どを用いて検出し、結果を動作履歴格納部２９、４９に
送る。

【００３５】次に、フィードバック生成部２７、４７に
おける処理について説明する。基本的な処理について
は、第１の実施形態と同様に、特願平１０−１６３４４
９号公報に記載された内容と同様の処理を行なうものと
する。付加的な処理として、システム操作決定部２５、
４５の操作内容（コマンドまたはアプリ）が変化した場
合には、フィードバック生成部２７、４７はその変化を
検知し、操作対象内の表現を変更する。この表現の例と
しては、コマンドまたはアプリに関連づけられた文字
列、画像アイコン、音声データなどに関する表示を、新
規に設定された操作内容のものに置き換えることとす
る。それに加えて、システム操作決定部２５、４５にお
いて決定された操作内容に関する付帯情報を動作履歴格
納部２９、４９より検索し、その内容を操作対象中に表
示する。

【００３６】なお、本実施形態では操作対象ごとに各構
成要素が独立した構成となっているが、必ずしもその限
りではなく、例えば図６に示す視線検出エンジン２１、
音声認識エンジン２２、操作入力部２３、入力統合部２
４、システム操作決定部２５、利用者操作登録部２６、
フィードバック生成部２７、動作実行部２８、動作履歴
格納部２９、動作付帯情報検出部３０の構成部分を他の
操作対象が共有する構成をとってもよい。この場合は、
各操作対象間で同一の処理を一つにまとめることができ
るため、より効率の良いシステム構成を実現することが
できる。

【００３７】また、フィードバック生成部２７、４７に
おいてコマンドまたはアプリに関連づけられた文字列、
画像アイコン、音声データなどに関する表示を、新規に
設定された操作内容のものに置き換えるとともに、付帯
情報を表示するとしているが、かならずしもその限りで
はなく、それらの情報のうちの任意の組合わせを選択し
て表示しても良い。この組み合わせは、あらかじめシス
テム側で設定しておくか、利用者が選択可能にするため
のインタフェースを利用者操作登録部２６、４６に付加
することにより設定可能である。この場合には、フィー
ドバック生成部２７、４７は設定された項目のみを表示
するものとする。このように本発明においては、その趣
旨を逸脱しない範囲で種々の変形を行なうことが可能で
ある。

【００３８】上記第２の実施形態によれば、利用者のシ
ステム利用状況に応じた適切な操作を提示、実行するた
めのマルチモーダル入出力装置を構築する際に、利用者
が過去に操作した際の操作内容を提示することにより利
用者にわかりやすい操作内容の提示を与えることがで
き、利用者の利便性が向上するという効果が得られる。

【００３９】

【発明の効果】以上説明したように、本発明によれば、
利用者のマルチモーダル入力に対して、システム側で状
況に依存した操作を実行することができ、利用者の利便
性を著しく向上させたインタフェースを構成することが
できる。

【図面の簡単な説明】

【図１】本発明の第１の実施形態に係るマルチモーダル
入出力システムのブロック図である。

【図２】本発明の第１、第２の実施形態で用いるタスク
の一例を示す図である。

【図３】本発明の第１の実施形態におけるのシステム操
作決定部５、１５の処理の一例を示すフローチャートで
ある。

【図４】本発明の第１、第２の実施形態で用いる利用者
操作登録リストの一例を示す図である。

【図５】本発明の第１の実施形態で用いる動作履歴情報
の一例を示す図である。

【図６】本発明の第２の実施形態に係るマルチモーダル
入出力システムのブロック図である。

【図７】本発明の第２の実施形態で用いる動作履歴情報
の一例を示す図である。

【符号の説明】

１，１１，２１，４１視線検出エンジン２，１２，２２，４２音声認識エンジン３，１３，２３，４３操作入力部４，１４，２４，４４入力統合部５，１５，２５，４５システム操作決定部６，１６，２６，４６利用者操作登録部７，１７，２７，４７フィードバック生成部８，１８，２８，４８動作実行部９，１９，２９，４９動作履歴格納部３０，５０動作付帯情報検出部

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5E501 AA03 BA05 CA02 CB02 CB09 CB15 CC08 CC09 CC13 DA08 DA17 FA04 FA32 FB04 FB21 FB25

Claims

【特許請求の範囲】

【請求項１】利用者の視線入力情報、音声入力情報、
操作入力情報、画像入力情報及び動作入力情報のうち、
少なくとも一つ以上の情報を認識するための入力手段
と、前記入力手段により認識された入力情報のうち、少なく
とも一種類以上の入力情報を受けて、利用者の意図情報
を検出する意図検出手段と、前記意図検出手段により検出された意図情報に基づき利
用者にフィードバックを返す出力手段とを具備したマル
チモーダル入出力装置において、前記意図検出手段により検出された意図情報に基づき一
連の動作を実行する動作実行手段と、前記動作実行手段により実行された過去の動作実行系列
を保持する動作履歴保持手段と、利用者が操作内容を登録する利用者操作登録手段とを有
し、前記動作実行手段は、前記意図検出手段、前記動作履歴
保持手段、前記利用者操作登録手段の少なくとも一つよ
り与えられる情報に基づいて実行する動作系列を決定す
ることを特徴とするマルチモーダル入出力装置。
【請求項２】請求項１記載のマルチモーダル入出力装
置において、前記出力手段は、前記意図検出手段、前記
動作履歴保持手段、前記利用者操作登録手段の少なくと
も一つより与えられる情報に基づいて出力方法を決定す
ることを特徴とするマルチモーダル入出力装置。
【請求項３】請求項１記載のマルチモーダル入出力装
置において、動作実行時における利用者の付帯情報を記
憶する動作付帯情報保持手段を具備することを特徴とす
るマルチモーダル入出力装置。
【請求項４】請求項３記載のマルチモーダル入出力装
置において、前記出力手段は、前記動作付帯情報保持手
段より与えられる情報のうち少なくとも一つを選び表示
することを特徴とするマルチモーダル入出力装置。
【請求項５】請求項３又は４記載のマルチモーダル入
出力装置において、動作付帯情報保持手段の付帯情報
は、システム操作画面情報、利用者音声情報、利用者画
像情報のうち少なくとも一つを含むことを特徴とするマ
ルチモーダル入出力装置。