JP3729918B2 - マルチモーダル対話装置及び対話方法 - Google Patents
マルチモーダル対話装置及び対話方法 Download PDFInfo
- Publication number
- JP3729918B2 JP3729918B2 JP05661396A JP5661396A JP3729918B2 JP 3729918 B2 JP3729918 B2 JP 3729918B2 JP 05661396 A JP05661396 A JP 05661396A JP 5661396 A JP5661396 A JP 5661396A JP 3729918 B2 JP3729918 B2 JP 3729918B2
- Authority
- JP
- Japan
- Prior art keywords
- input
- output
- media
- allocation
- media allocation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/038—Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
- Input From Keyboards Or The Like (AREA)
- Digital Computer Display Output (AREA)
Description
【発明の属する技術分野】
本発明は、情報処理装置において、組合わせて利用可能な複数の入出力手段を有するヒューマン・マシン対話装置およびその制御方法に関する。
【0002】
【従来の技術】
近年、電子計算機は、キーボード、マウス、マイクロフォン、タッチパネル、イメージスキャナ、ビデオカメラ、ペン、データグローブ、対人センサなどの種類の異なる複数の入力手段、すなわち入力デバイスを装備し、様々な情報を入力することができるようになっており、また、ディスプレイやスピーカといった出力デバイスにも、様々な情報を音声言語や効果音、音楽といった様々な形態で出力できる機能を装備してきており、これらの各種入出力デバイスを有効に利用したより、使い易いヒューマン・マシンインタフェイスの要求が高まっている。 また、近年、これらの入出力デバイスを用いて、例えば利用者がディスプレイ上の対象を指で指示しながら音声でコマンドを発声するなど、複数の入力デバイスを組み合わせた複雑な入力が可能な入力手段、すなわち入力メディアを装備し、また、ディスプレイやスピーカなどの複数の出力デバイスを利用して、例えばスピーカから音声言語でメッセージを伝えながらディスプレイに表示した人間の顔の表情と、スピーカからの効果音でニュアンスを伝えるといった具合に、複数の出力デバイスやその出力内容および形式を組み合わせた複雑な出力が可能な出力手段、すなわち出力メディアを装備することで、インタフェイスの使い易さや情報伝達の質及び効率を向上させようというマルチモーダルインタフェイス技術の開発が盛んに行われている。
【0003】
ところで従来、スムーズで自然な、利用者と計算機上のアプリケーションソフトウェアとの間の情報の授受を実現するためには、この情報の授受を利用者とアプリケーションの間の対話と見なし、予め記録された対話規則に基づいて対話プランを展開し、対話規則において決められた入出力方法の組合せでマルチモーダル対話を実現するなどしていた。
【0004】
【発明が解決しようとする課題】
しかし、各々の対話のフェイズにおいて入出力に使用するデバイスとデバイスの利用方式の組合わせ、すなわち、メディア割当(メディアロケーション)を対話規則中に予め記述しておく方式では、例えば、周辺ノイズ音量が大きく音声を入出力手段として用いることが適切でないような状況に対処できないなど、メディアアロケーションが対話の流れに固定的であり、状況に応じて入出力手段の組合せを選択し利用者と対話することができないという問題があった。
【0005】
例えば、利用者が音声で入力することが可能な対話装置を利用する場合を考えてみる。この場合、現在の技術では音声認識の技術が十分成熟していないため、利用者によっては何度も同じ単語を発生しても認識に失敗するということが発生し得る。これは、発音に癖があり過ぎる場合等に多く発生し、対話装置側での認識成功の確率は極めて低くなる。
【0006】
にも拘らず、従来のマルチモーダル対話装置はこのような利用者に対しても、音声による入力のし直しを何度も要求してしまうため、時間の無駄が生じたり、利用者にストレスを感じさせたりするという問題があった。
【0007】
また、例えば音声による地名入力に対して音声認識により、該当の観光地をデータベースから検索し、検索結果を出力手段に出力するといった構成の音声指示による旅行案内システムを考えてみると、この旅行案内システムが利用者に音声による地名入力を求めたが、これに対して利用者が例えば「竜安寺」(りょうあんじ)という地名を「りゅうあんじ」と読み間違えて発声したため、システムが検索に失敗したような場合、従来のマルチモーダル対話装置においては入出力メディア割当を動的に行う手段を持たないため、利用者とのコミュニケーションを回復するのが困難であった。
【0008】
つまり、利用者が「りょうあんじ」という正しい固有名詞の読みを知らないことが、利用者とのコミュニケーショクの失敗に繋がっているわけであるが、これも例えば、漢字で入力選択する形式に切り替えたりすれば、コミュニケーション回復が出来る可能性が極めて大であるにもかかわらず、このような入出力メディア割当を状況に応じて変更するといったことができないので、硬直状態に陥り、結果的には案内サービスができないということになる。
【0009】
また、例えば従来からある対話装置においてデータベース検索結果の内容を利用者に提示するような場合、出力形態は予めプログラミングされた形態に固定されている。つまり、検索結果の出力件数にかかわりなく同一の出力形態が採られ、例えば数十件あるいは数百件の検索結果があるのに、それを一つ一つ音声で読み上げたり、逆に数件しかない検索結果を表形式で表示したりといった、利用者にとってわかりにくく使いにくい入出力方式となる場合が少なからずあった。
【0010】
さらに、利用者が要求するメディア割当に合わせてシステムが利用者と対話を行うことができないため、システムの利用者はシステムが決定し指定したメディア割当に従って入出力を行わなければならないという問題もあった。
【0011】
入力手段には種々のものがあるが、利用者にとって使い易い入力手段は各人共通しているわけではなく、例えば、ある利用者は音声による入力を好むが、別の利用者はコマンド文字列をキーボード入力するのを好むといった具合に、利用者により使い易い入出力手段は異なっているのが普通である。
【0012】
しかしながら、従来の対話装置においてはこれらの個々人の差異が考慮されておらず、固定的な入出力手段の組合せが提供されていて、利用者の好みで入出力手段を選択的に利用できるようにはなっておらず、使い勝手が良いものとはいえないという問題があった。
【0013】
また、入力手段を複数持つ従来のマルチモーダル対話装置において、どの入力手段を用いるべきかといったことや、どの入力手段がある時点で利用可能かというこを利用者が認識することは困難であり、入力に際して利用者に戸惑いやストレスを与えるという問題があった。
【0014】
更に、例えば従来の音声による入力もしくは出力が可能な対話装置において、外部の騒音が激しくなるなど音声を利用するのが好ましくない場合でも音声を入力あるいは出力に用いるなど、動的にメディアアロケーション(メディア割当)が行なえない従来の対話装置においては、外部環境的要素の変化に応じた入出力方式の変更が行えないという問題があった。
【0015】
このように従来のマルチモーダル対話装置では、利用者はシステムが持つ対話規則で予め決められた入出力モードの組合せに従ってシステムと対話を行うことを強制させ、利用者にとってわかり易く使い易いインタフェイスではなかったため、利用者が情報の入力に際してストレスを感じたり、出力を理解し難かったりしており、ときには入出力の失敗の原因ともなっていた。
【0016】
また、音声単語認識モードでは認識失敗に起因する入力や失敗や誤入力があり得るといったように、選択された特定の入出力手段の性質に起因する入出力の失敗の場合でも、結果として対話の目的が未達成となってしまっていた。
【0017】
そこで、この発明の目的とするところは、利用者の使い易い入出力インタフェイスとなり得るマルチモーダル対話装置を提供することにある。
特に本発明では、ある時点で適切な入出力のメディア割当を動的に選択する機能を持つことで、アプリケーションプログラムのフロントエンドとして様々な状況に応じて利用者に使い易い入出力インタフェイスを提供することができるマルチモーダル対話装置を作成することにある。
【0018】
【課題を解決するための手段】
本発明に係るマルチモーダル対話装置は、利用者との対話により所要の処理を行って結果を出力する対話装置において、利用者からの情報を得るための異なる各種入力用デバイスのうち、入力メディア割当に従って少なくとも一つの入力用デバイスからの入力情報を解釈し、この解釈に基づいて入力対応情報を発生させる入力手段と、この発生された対応情報それぞれに、所要の目的に応じた処理を行い、この処理結果を出力する問題解決手段と、前記処理結果を、異なる各種出力用デバイスのうち、出力メディア割当に従った出力用デバイスから出力する出力手段と、前記入力手段から前記問題解決手段へ与えられる前記入力対応情報の中から1つを選択する手段及び前記入力手段により発生される複数の入力対応情報を組み合わせこの組み合わせたものを選択する手段の少なくとも一つ、および、前記問題解決手段から出力手段に出力する出力情報を得るために該問題解決手段からの情報の1つを選択する手段及び該問題解決手段からの情報を複数を選択するときの前記複数を組み合わせこの組み合わせたものを選択する手段の少なくとも一つ、の双方の組を割り当て、この割り当てに応じて、前記入力メディア割当を前記入力手段へ、前記出力メディア割当を前記出力手段へそれぞれ出力する入出力メディア割当手段と、前記問題解決する上で前記問題を解決するためのプランを作成するプラン作成手段と、このプラン作成手段により作成されたプランに基づいて前記入力手段、前記出力手段および前記問題解決手段に指示を行うことによって前記所要の処理を実行させる手段と、前記プランによる前記出力用デバイスへの指示に応答した利用者による前記入力用デバイスへ入力により、利用者との対話状況を取得する対話状況取得手段と、前記利用者との対話状況に応じて、前記入出力メディア割当手段が割り当てる割り当てを変更する手段と、を具備したことを特徴とするものである。
【0019】
本発明によれば、利用者が計算機システムと対話を行う際に、対話の各時点で利用可能な入出力手段を反映した入出力方式を選択し、また利用者がその利用者にとって利用しやすい入出力手段を用いた入出力の方式を選択し利用することが可能となる。
【0020】
また本発明によれば、メディアアロケーション(メディア割当)が対話の流れに固定的であり、状況に応じて入出力手段の組合せを選択し利用者と対話することができないという従来のマルチモーダル対話装置の問題を解決することが可能となる。
【0021】
更に本発明によれば、従来のマルチモーダル対話装置ならば特定の利用者に対して音声による入力のし直しを何度も要求してしまうなど、時間の無駄が生じたり利用者にストレスを感じさせたりするという問題があったような場合においても、動的に入出力手段を選択し切替える手段を具備することによりこの問題を解決し、利用者が時間の無駄やストレスを感じることなく計算機システムを利用することが可能となる。
【0022】
更に本発明によれば、入力の解釈処理が失敗した場合に従来のマルチモーダル対話装置においては利用者とのコミュニケーションを回復するのが困難であったのに対し、動的に入出力手段を選択し切替える手段を具備することにより、この問題を解決し、速かに利用者とのコミニュケーションを回復することができる。
【0023】
更に、例えば従来からある対話装置においてデータベース検索結果の内容を利用者に提示するような場合、少ない検索結果を知らせるために音声出力の形態を採用していれば、検索結果が数十件、数百件あってもその検索結果の出力を音声で読み上げるなど、出力件数にかかわりなく同一の出力形態が採られ、逆に大量の検索結果の扱いを容易にするために表形式を採用している場合には、数件しかない検索結果であっても表形式で表示したりといった固定的なものである。
【0024】
しかし、本発明では動的に入出力手段を選択し切替える手段を設けて、このような、利用者にとってわかりにくく使いにくい入出力方式となるような場合においては、動的に入出力手段を選択し切替えるようにすることにより、この問題を解決し、利用者にわかりやすい入出力方式をとることができるようになる。
【0025】
更に、本発明によれば、従来の対話装置においては使い易い入出力手段に関する個々人の差異が考慮されておらず、固定的な入出力手段の組合せが選択されていたという問題に対して、各々の利用者がそれぞれにとって使いやすい入出力方法の組合せを利用することが可能となる。
【0026】
更に、本発明によれば、入力手段を複数持つ従来のマルチモーダル対話装置において、どの入力手段を用いるべきかやどの入力手段がある時点で利用可能かということを利用者が認識することは困難であり、入力に際して利用者に戸惑いやストレスを与えるという問題に対して、利用者が入力に利用することが可能な手段を表示もしくは掲示する手段を具備することによりこの問題を解決し、利用者が入力手段を容易に認識することが可能となり、利用者にわかりやすく使いやすいインタフェイスを提供することが可能となる。
【0027】
かくして、利用者は利用者とアプリケーションプログラムが求める情報の質と量、及び利用する計算機システムが利用可能な入出力手段に依存するがアプリケーションプログラムに依存しないヒューマン・マシンインタフェイスを利用することが可能になる。
【0028】
【発明の実施の形態】
本発明は、入出力のそれぞれについて、手段の組み合わせを動的に選択する手段を具備することにより、状況に応じた入出力方法を利用者に提供することで、使い易いインタフェイスを実現し、また、利用可能な入力手段を利用者に知らしめる手段を具備することで、よりわかり易い入力環境を利用者に提供し、さらに入出力手段の組み合わせを変更して利用者との対話の失敗から回復し、対話を継続することができるマルチモーダル対話装置を提供するものであり、以下、図面を参照して本発明の詳細について説明する。
【0029】
図1は本発明の具体例に係るマルチモーダル対話装置の構成図である。
図1に示すように本発明のマルチモーダル対話装置10は入力部11、メディア割当決定部12、対話管理部13、出力部14の計4つの構成要素からなり、システムに接続される物理デバイスを通じて利用者との対話処理を行い、利用者と問題解決手段(バックグラウンドアプリケーション)15の仲立ちを行う。
【0030】
入力部11はマウスデバイス、マイクロフォン、テレビカメラ、キーボード、タブレット、イメージスキャナ、センサなど各種の入力デバイスIDVa〜IDVnの出力を取り込むためのものであり、出力部14はディスプレイ、スピーカ、ランプ、プリンタ、プロッタ等各種の出力デバイスODVa〜ODVnへの駆動出力を発生するものである。
【0031】
メディア割当決定部12は入力用出力用の各種デバイスとそれら各種デバイスの利用方式の組合せ、すなわち、メディア割当(メディアアロケーション)を決定するための装置であり、その時々での最良の組み合わせを選択することができる機能を有する。
【0032】
また、対話管理部13は問題解決手段15との間で授受される情報や、入力部11および出力部14からの状態情報等に基づいてメディア割当の要求を行ったり、対話のプランを生成したりする等、ユーザとシステムの間の対話の方法、流れを制御するものである。
【0033】
問題解決手段15は、入力に対してその回答や返答を行うアプリケーションであり、これは対話によって目的の回答を出したり、目的の仕事をするようなアプリケーションであって例えば、観光案内システムや定期券乗車券発売機等なんでも良い。
図15に、本発明のマルチモーダル対話装置10の詳細構成をブロック図で示す。
【0034】
(入力部11および出力部14の詳細)
図15に示すように、本発明のマルチモーダル対話装置10の入力部11は入力デバイス処理部111、入力モード処理部112、入力メディア処理部113の3つのモジュールから構成され、また、出力部14は出力メディア処理部141、出力モード処理部142、出力デバイス処理部143の3個のモジュールからなる。
【0035】
ここで、モードとは一つのデバイスからの入力(出力も同様)を解釈し、抽象化したものとする。例えば、マウスデバイスから入力されたデータはそれを解釈するモード部品により操作対象の指示、コマンドの発行といった複数のモードによる解釈と利用が可能である。
【0036】
同様に、メディアとは複数(一つでもよい)のモードからの解釈結果を組み合わせたものとし、入力を組み合わせて得られる処理結果を指示内容として指示対象に渡すことができるものを指している。
【0037】
例えば、マウス・オブジェクト指示−音声コマンドメディアは、パソコン等のポインティングデバイスであるマウスデバイスからの入力と、音声によるコマンドを併せて解釈してコマンド発行をするものであり、アプリケーションへのコマンドを指示する音声を解釈することのできる音声コマンドモードと、マウスデバイスからの入力をコマンド操作対象を指示する操作として解釈するマウス・オブジェクト指示モードの解釈結果とを入力とし、それらの入力を組み合わせて「マウスで指示された対象に対して音声で指示されたコマンドを発行する」という処理をアプリケーションに伝えるといったことを行うメディアである。
【0038】
<入力部11>
入力部11の構成要素である入力デバイス処理部111は、各物理入力デバイスから伝達されたデータを入力とし、ディジタルデータへの変換等そのデータを解釈するための最小限の処理を行う入力デバイス処理部品を構成要素に持つ。
デバイス処理部品は入力デバイス毎に用意され、独立・並列に動作する。各デバイス処理部品は、対応するデバイスへの入力に上記の処理を施した後、対応する一つまたは複数の入力モード処理部112に送付する。例えばマイクデバイス処理部品は、例えば利用者がマイクロフォンから入力した音声を背景ノイズと共に取り込み、例えば12kHzの標本周波数、16bitの量子化ビット数のデジタルオーディオ信号に変換し、その信号を入力モード処理部112に出力する。
【0039】
入力モード処理部112は、各抽象入力モードへの入力を処理する部品を構成要素に持つ。一つの入力モード処理部品は一つの抽象入力モードに対応し、一つの入力デバイス処理部から送付された整形されたデータを、抽象モード毎に抽象化し解釈する。各入力モード部品は入力デバイス部品と例えば表1に示したように1対1、もしくは1対多の対応関係にある。
【0040】
各入力モード処理部112で解釈された結果は、入力メディア処理部113に送付される。例えば、音声コマンド入力モード処理部品は、送られてきたデジタルオーディオ信号を、例えば高速フーリエ変換による周波数分析により特徴パラメータ時系列を求め、さらに例えば複合類似度法、隠れマルコフモデルなどの方式に基づき音声認識を行い、与えられた認識対象コマンド語彙の中から尤度の最も高い語彙を得、その情報を入力メディア処理部113に出力する。
【0041】
入力メディア処理部113は、入力モード処理部112から得られた利用者の入力のモード毎の解釈結果を各抽象メディア単位に組合せることで統合された入力を生成し、得られた複数のメディア入力のうちから必要なメディアからの入力をメディア割当決定部12の指示に従いながら選択し、問題解決手段15に対する入力コマンドおよびデータを与える。
【0042】
入力メディア処理部113の構成要素は、各抽象メディア毎に用意された入力メディア処理部品113aと、それらの部品の処理結果のうちどれを問題解決手段15に送付するかを指定するメディア選択スイッチSWである。各入力メディア処理部品113aは、一つまたは複数の入力モード部品からの出力データ(抽象モードでの解釈結果)を入力として受け入れ、それらを統合してメディアとしての解釈結果をメディア選択スイッチSWに送る。
【0043】
メディア選択スイッチSWは、対話管理部13の指示に従いバックグラウンドアプリケーションに送付するメディア出力を選択し、送付する。例えばマウス・オブジェクト指示−音声コマンドメディア入力処理部品は、マウス・オブジェクト指示モード入力処理部品の出力と音声コマンドモード入力処理部品の出力を入力とし、それらを組み合わせてメディアとしての解釈を生成し出力する。そして、例えば、現在の入力メディアとしてマウス・オブジェクト指示−音声コマンドメディアが選択されている場合、メディア選択スイッチSWはこのメディアによる入力の解釈結果のみを問題解決手段15に引き渡す。
【0044】
<出力部14>
出力部14の構成要素である出力メディア処理部143は、対話管理部13が与えるメディアのアロケーション情報(割当て情報)に従いながら問題解決手段15からの出力データを選択し、各抽象出力メディアに振り分けてメディア毎に加工し、それらを出力モード単位に分割・統合して出力モード処理部の各モード処理部品にその出力モードが取り扱うデータを受け渡す。
このような処理を行うために、出力メディア処理部143は出力メディア振り分けスイッチ143a、出力メディア処理部143b、メディア・モードインタフェイス143cの3つのモジュールから成る。メディア振り分けスイッチ143aは、バックグラウンドアプリケーションが送付してきた出力データを対話管理部13の指示に従いながら、実際に(利用者に)出力されるデータを選択し、それを抽象メディア処理部品に振り分ける。
【0045】
出力メディア処理部品143は、各抽象出力メディアに対応する出力メディア処理部品を構成要素として持ち、メディア振り分けスイッチ143aにより担当メディアに振り分けられた出力データを、そのメディアに出力できる形に加工して送出する。メディア・モードインタフェイス143cは、各抽象出力モード1対1に対応するメディア・モードインタフェイス部品を構成要素に持つ。各メディア・モードインタフェイス部品はそのモードが担当する1つまたは複数の抽象メディア処理部品からの出力を統合し、対応する出力モード処理部品にデータを受け渡す。
【0046】
出力モード処理部142は、各抽象出力モードへの出力を処理する出力モード処理部品142aとモード毎の出力データを出力デバイス毎に統合するモード・デバイスインタフェイス142bを構成要素に持つ。一つの出力モード処理部品は一つの抽象出力モードに対応し、そのモードに対応するメディア・モードインタフェイス部品から送られてきたメディアデータに出力モード毎の処理を施し、モード・デバイスインタフェイス142bに受け渡す。
【0047】
モード・デバイスインタフェイス142bの一つの部品は一つの出力デバイス部品に対応し、そのデバイスが担当する1つまたは複数の抽象デバイス処理部品からの出力を統合し、対応する出力デバイス処理部品にデータを受け渡す。
出力デバイス処理部141は、各出力デバイス毎に用意された出力デバイス処理部品を構成要素として持つ。各出力デバイス処理部品は、対応するメディア・デバイスインタフェイスの出力データを入力コマンド及びデータとして担当する出力デバイスを駆動する。
【0048】
(メディア割当決定部12の詳細)
図15に示されるように本発明のマルチモーダル対話装置10のメディア割当決定部12は、符号121を付して示したように、メディア割当生成部というモジュールと、符号122を付して示す次メディア割当選択テーブル、およひ符号123を付して示す現メディア割当記憶スロット、符号124を付して示すモード−メディア割当対応表の3つの記憶部品から構成される。
これらのうち、メディア割当生成部121は、実際にアプリケーションに入力するデータ及びその組み合わせ(メディアアロケーション)、そして対話管理部13の問いに合わせに応じて次メディア割当選択テーブル112を参照して、実際にユーザに与えるデータとしその適切な組み合わせ・表現方法を生成し、対話管理部13に伝達する。
【0049】
(対話管理部13の詳細)
図15に示されるように、本発明のマルチモーダル対話装置10の対話管理部13は、入力メディア処理部113および出力メディア処理部143から得られる入出力モードの状態と、問題解決手段(バックグラウンドアプリケーション)15とのデータ交換の状態を、問題解決手段15から問題解決手段15の状態の通知や問題解決手段15からの入出力要求を、複数の利用者に共通した特徴情報、問題解決手段15の制御方法に関する情報をイベントとして受け取り、それらの情報をもとに対話のプランを生成する。
【0050】
そして、そのプランの実行過程において入力メディア処理部113と出力メディア処理部143、そして問題解決手段15に指示を行うことにより、ユーザとシステムの間の対話の方法・流れを制御する。
【0051】
このような処理を行う枠組としては、入力メディア処理部113や出力メディア処理部143、問題解決手段(バックグラウンドアプリケーション)15、およびメディア割当決定部12といった他のモジュールとの間の情報の授受を対話と見做せば、例えば、特開平5−216618号に開示した音声対話システムのように、状態遷移モデルを用いた方法や、Sacerdoti,E.D.著“AStructure for Plans and Behavior”,American Elservier刊,1977年にあるような階層プラン合成方式を利用することで、実現可能である。
【0052】
対話管理部13は符号131を付して示したように、対話プランナと呼ぶモジュールを持ち、この対話プランナ131は対話規制記憶テーブル132、および対話プリミティブ記憶テーブル133の2つの記憶テーブルと、図示しないがプラン記憶部、初期目標記録スロット、および現在目標スロットという3つの記憶部品を持ち、それにより対話プランを構築し、実行する。
【0053】
以上が本装置の構成とその機能である。
本装置の中核モジュールである対話管理部13の動作のフローチャートを図19に示す。この図に基づいて本装置の動作原理とデータの利用方法について述べる。
【0054】
まず、本装置が起動されると、対話管理部13の対話プランナ131はプラン生成のための初期目標が予め設定されている初期目標記録スロットから取り出し、その目標を基に対話管理部13内の図示しないプラント記憶部に全ての対話プランを順に展開する。
【0055】
プラン記憶部の一つの項目は、“ノードID”、“目標”、“状態”、“サブノードIDリスト”、“結果”の5つのスロットから成り、これをプランノードと呼ぶ。ある一つの目標が立てられると、プランノードが一つ生成され、設定された目標が目標スロットに代入され、ノードIDスロットには各プランノードにユニークな記号が割りあてられる。
【0056】
状態スロットには、“未処理”、“処理中”、“成功”、“失敗”、“再試行”の5つのうち1つが代入される。
サブノードIDリストスロットには、目標スロットの内容から展開されたサブ目標に対応するプランノードのIDがリストの形式で収納される。
【0057】
結果スロットには、そのスロットが属するプランノードの目標の実行結果が収納される。以降、例えば、“ノードIDスロットの値がp000であるプランノード”のことを、単に“プランp000”、あるいは“サブプランp000”と記述する。
【0058】
ある対話目標をそのサブ目標に展開するために、対話管理部13は対話規則記憶テーブル132を持つ。対話規則記憶テーブル132には図2に示すような対話規則を表す複数の項目が収められており、その各々を対話規則ノードと呼ぶ。一つの対話規則ノードは“ルールID”、“目標”、“適用条件”、“サブ目標リスト”の4つのスロットからなる。“ルールID”はプランノードのノードIDと同様に、各対話規則にユニークな記号が割り当てられる。
【0059】
各対話規則ノードには、その規則が達成する目標が目標スロットに納められ、目標が展開されて生成される(一般に複数の)サブ目標の系列がサブ目標リストスロットに納められ、規則を適用するための条件が適用条件スロットにそれぞれ納められる。
【0060】
対話プランナ131は対話規則記憶テーブル132に収められた対話規則を上から順に探索し、条件に適合する最初の対話規則を適用する。対話プランの生成と実行は、与えられた目標を満足する規則を対話規則の中から探索・適用してサブ目標に展開・実行するという操作を再帰的に繰り返すことで実現されている。
【0061】
そして、最終的に初期目標が満足された場合、対話全体が成功し、本装置は停止する。以降、例えば、ルールIDスロットの値が“r00”である対話規則ノード”のことを、単に“対話規則r00”、あるいは“ルールr00”と記述する。
【0062】
対話プランナ131はある時点での対話の目標を現在目標スロットに納めて管理する。現在目標スロットの目標を展開する対話規則を探索する前に、対話プランナ131は図3に示すような直接実行可能な対話の最小単位である対話プリミティブを収納した対話プリミティブ記憶テーブル133を探索する。
【0063】
対話プリミティブ記憶テーブル133の一つの項目を対話プリミティブノードと呼び、これは“ファクトID”、“目標”、“仕様”の3つのスロットからなる。 現在目標スロットの内容が、対話プリミティブ記憶テーブル133中の、ある対話プリミティブノードの目標スロットの値に単一化可能である場合、対話プラナン131はその目標を対話プリミティブとなみし、対応する対話プリミティブノードの仕様スロットに記述されている内容を実行する。
【0064】
対話管理部13が管理し実行するモジュール間の対話のプリミティブは、メディア割当決定部12に対する適切なメディア割り当ての問い合わせとその回答、入出力メディア部品に対する設定指令と入出力指令、問題解決手段15に対する入出力要求のいずれかである。
【0065】
以降、例えば、「ファクトIDスロットの値が“f00”である対話プリミティブノード」のことを単に“対話プリミティブf00”あるいは“ファクトf00”と記述する。
【0066】
対話プラントの展開・実行時にある時点での目標に単一化可能な対話プリミティブ、および対話規則のいずれもなかった場合、その目標は失敗する。
ある目標が失敗した場合、対話プランナ131はコンピュータプログラム言語のひとつである“Prolog言語”の実行過程において計算機をバックトラックするのと同様の方法で、対話プラントの展開過程の後戻りと対話規則の再試行を行う。
【0067】
すなわち、ある対話目標Pi の実行に際し、対話規則Ri を適用して失敗した場合、対話プランナ131Pi に適用可能な他の対話規則、もしくは対話プリミティブを探索し、適用可能なものがあればその対話規則または対話プリミティブを適用してPi を満足するという目標を再試行する。
【0068】
Pi に適用可能なすべての対話規則および対話プリミティブが失敗した場合、対話プランナ131は対話目標Pi の直前に成功した対話目標Pc まで後戻りし、同様にその対話目標Pc の再試行を行う。目標遂行の失敗が続く限り目標の後戻りは連続的に発生し、仮に初期目標まで後戻りして初期目標自体が失敗した場合、対話全体が失敗したことになり、本装置は停止する。
【0069】
メディア割当決定部12は、マルチメディア割当(MA)の問合せである“MA問合せ”という対話プリミティブの実行という形で対話プランナ131から呼び出される。メディア割当決定部12は、現メディア割当記憶スロットに収納されている問い合せが発生した時点でのメディア割当の状態と、図6に示すような次メディア割当選択テーブル122を用いて、その時点で適切なメディア割当を決定する。
【0070】
次メディア割当選択テーブル122の一つの項目を次メディア割当選択ノードと呼び、各次メディア割当選択ノードは“ノードID”、“現メディア割当”、“条件”、“次メディア割当”の4つのスロットを持つ。
【0071】
メディアアロケーション生成部121は、現メディア割当記憶スロットの内容とメディア割当決定部12が呼び出された際の条件が適合する次メディア割当選択ノードを、次メディア割当選択テーブル122の中から探索し、次メディア割当の候補を生成する。
【0072】
次にメディア割当生成部121は、発見した次メディア割当選択ノードの次メディア割当スロットの内容から、図7に示すようなモード−メディア割当対応表124を探索して、あるメディア割当を適用する際の制約条件を検証する。モード−メディア割当対応表124の一つの項目をモード−メデァア割当対応ノードと呼び、各モード−メディア割当対応ノードは、“ID”、メディア割当名”、“制約”、“入出力モード組”の4つのスロットからなる。
【0073】
メディア割当生成部121がメディア割当の制約検証を行う際には、メディア割当名のスロットが探索するメディア割当名と合致するモード−メディア割当対応ノードを探索し、そのモード−メディア割当対応ノードの制約スロットに記述されているメディア割当を実際に行う際の制約を取り出し、問い合わせ時点での状態がその制約を満足しているかどうかを検証する。
【0074】
この制約が満足されていれば、そのメディア割当候補が最終的に次メディア割当として選択され、対話プランナ131に回答される。ここで、メディア割当生成部121がメディア割当の決定を依頼され、次メディア割当選択テーブルを探索する際に、あるメディア割当ノードの現メディア割当スロットもしくは条件スロットの値が“−”の場合、そのスロットの値は検証に用いられない。
【0075】
例えば、現メディア割当スロットの内容が“−”である次メディア割当ノードは、現メディア割当記憶スロットの値が何であっても条件スロットの内容とモード−メディア対応表の制約スロットの内容が適合していれば、適応可能である。また、次メディア割当ノードの現メディア割当スロットおよび次メディア割当スロットには、メディア割当の内容以外に入力メディアと出力メディアの組の形でも記述できる。
【0076】
また、この入力メディアと出力メディアのいずれかに、変数を用いることが可能である。例えば、図6にノードIDスロットの値が“m06”である次メディア割当選択ノードにおいて、現メディア割当スロット値が“(音声言語、XXX)”であり、次メディア割当スロットの値が“(ペン文字列、XXX)”となっているが、次メディア割当選択ノードは現メディア割当記憶スロットの値になっているメディア割当の入力メディア、すなわち、現在設定されている入力メディアが“音声言語”であれば、出力メディアが何であれ他の制約が満足されれば適用可能である。
【0077】
このとき、現メディア割当スロットの出力メディア側の値、すなわち、変数““XXX”には現メディア割当記憶スロットの出力メディア側の値が一時的に代入され、その代入結果はその現メディア割当スロットが属する次メディア割当選択ノードに反映される。
【0078】
そして、次メディア割当スロットの制約の探索と検証は、モード−メディア割当対応表の入出力メディアスロットの値と対応づけることにより行う。例えば、現メディア割当スロットの値が“ヒューマン”である時に、呼出条件が“入力失敗”でメディア割当生成部121が呼び出されたとする。
【0079】
メディア割当生成部121は次メディア割当を決定するために、まず次メディア割当選択テーブル122を探索するが、図6にある次メディア割当選択ノードのうちノードIDスロットの値が“m01”から“m05”の次メディア割当選択ノードは条件が適合しないため選択されない。
【0080】
次にメディア割当生成部121はノードIDスロットの値が“m06”の次メディア割当選択ノードが適応可能であるか否か検証しようとするが、この次メディア割当選択ノードの現メディア割当スロットの値が入力メディアと出力メディアの組の形式で記述されているため、まず現メディア割当記憶スロットの値を入力メディアと出力メディアの組に再構成する。
【0081】
そのために、メディア割当生成部121は図7を探索し、ノードIDスロットの値が“mm01”であるモード−メディア割当対応ノードのメディア割当スロットの値が現メディア割当記憶スロットの値と同じ“ヒューマン”であることから、このモード−メディア割当対応ノードの入出力モードスロットの値からメディア割当“ヒューマン”の入力メディアが“音声言語”モード単体であり出力メディアが“音声言語”モードと“顔画像”モードの組合せである“(音声言語、音声言語+顔画像)”という入出力メディア組であることを得る。
【0082】
メディア割当生成部121はこの情報を用い、ノードIDの値がm06である件の次メディア割当選択ノードの現メディア割当スロットの値である。“(音声言語、XXX)”と単一化を図り、変数XXXに“音声言語+顔画像”を一時的に代入する。
【0083】
この代入は同じ次メディア割当選択ノードの次メディア割当スロットに反映され、このスロットの値は“(ペン文字列、音声言語+顔画像)”となる。
次に、メディア割当生成部121は同じ次メディア割当選択ノードの条件スロットの値“呼出条件=入力失敗”を検証し、この場合は成功する。さらにメディア割当生成部121は図7の如きモード−メディア割当対応表の探索を行い、入出力モードスロットの値が“(ペン文字列、音声言語+顔画像)”であるモード−メディア割当対応ノードの制約を検証する。
【0084】
仮にその制約が満足された場合、次メディア割当の選択は成功し、このモード−メディア割当対応のノードのメディア割当名スロットの値である“ペン文字列入力・ヒューマン対応”と言うメディア割当が現メディア割当記憶スロットに代入され、メディアアロケーション結果(メディア割当結果)として対話管理部13に返される。
変数XXXへの一時的な代入は、その変数が所属する次メディア割当選択ノードの検証が終了すると解消される。
以降、例えば「ノードIDスロットの値が“m00”である次メディア割当選択ノード」のことを、単に“次メディア割当選択ノードm00”と記述する。また例えば「IDスロットの値が“mm00”であるモード−メディア割当対応ノード」のことを、単に“モード・メディア割当対応ノードmm00”と記述する。
【0085】
[具体的動作例(第一の動作例)]
本発明を理解し易くするために、具体例として本装置を観光地における旅館案内のアプリケーションに適用した場合の例をつぎに述べる。ここでの観光地における旅館案内のアプリケーションが、すなわち、今までの説明で登場した問題解決手段15に相当する。
【0086】
対話管理部13の対話規則記憶テーブル132には、図2に示す対話規則および図3に示す対話プリミティブが予め記憶されている。また、初期目標記憶スロットには、“対話セッション”という初期目標が予め与えられ記憶されている。
【0087】
まず本装置を起動させた時、対話プランナ131は初期目標を初期目標記憶スロットから取り出し、その目標を満足する規則“r00”を呼び出す。そして、対話プランナ131によって対話規則“r00”は図4に示すように展開される。
【0088】
対話プランナ131は初期のサブ目標であるユーザ検出を呼び出し、対話規則“r11”が展開され、さらに対話規則“r12”が展開される。サブ目標“MA問合せ(待機、MA1)”の実行にあたり、対話プランナ131は適応可能な対話規則が対話規則記憶テーブル132に無いため、図3に示す対話プリミティブ記憶テーブル133を検索する。
【0089】
その結果、対話プランナ131は、対話プリミティブ“f01”を発見し、仕様の項目にある“メディア割当決定部呼び出し”を実行し、メディア割当決定部12にその時点で呼び出し条件に適合し、かつ、利用可能なメディア割り当てを問い合わせる。
【0090】
メディア割当決定部12は、その時点のメディア割当と利用可能なメディアやその他の状況をもとに、図6に示すような次メディア割当選択テーブル122を引いて次に選択すべきメディア割当を決定する。この場合テーブル要素“m01”が適用され、“待機”のメディア割当が選択される。
【0091】
次にメディア割当決定部12は、図7のモード−メディア割当対応表を引いて該当するメディア割当を適用する際の制約を確認する。この場合、入力センサデバイスが利用可能であれば、メディア割当決定部12は最終的に“待機”のメディア割当を選択し対話管理部に返答する。
【0092】
対話管理部13は、メディア割当決定部12が返答してきたメディア割当に基づき、入力メディア処理部113および出力メディア処理部143に、それぞれ利用すべきメディアを通知する。これにより、入力メディア処理部113および出力メディア処理部143はその通知に従ってモード−メディア割当対応表を引き、それぞれメディア選択スイッチSW、メディア振り分けスイッチ143aの状態を変更することで入出力チャネルを設定する。
【0093】
この例の待機メディア割当の場合、入力チャネルとして対人センサのみを開き、出力チャネルは例えば図20のような待機メッセージを画面に出力する。
以上の処理により、サブ目標“p11”は成功し、対話プランナ131は次のサブ目標“検出待機”を実行に移そうとする。このサブ目標は図3の対話プリミティブ記憶テーブル133に記憶されている通り対話プリミティブであり、即座に実行される。
【0094】
このとき、対話管理部13内のプラン記憶部の状態は図5のようになっている。対話プリミティブ“ユーザ検出”は、対人センサ検出メディアの状態が変化するまで待ち状態を続ける。
【0095】
装置の前に利用者が立つと入力センサが反応し、対話プリミティブ“ユーザ検出”が成功し、サブプラン“p01”が満足され、次のサブ目標“MAR選択(初期)”が呼び出される。このサブ目標は更に“r12”により展開され、待機メディアの選択時と同様に対話プランナ131はサブ目標“MA問合わせ”を実行するためにメディア割当決定部12を呼び出して対話開始のためのメディア割当を問合わせる。
【0096】
メディア割当決定部12は、待機メディア割当の場合と同様に、自己の保持する次メディア割当選択テーブル122とモード−メディア割当対応表124を引くことによって、条件と制約を満足するメディア割当を選択する。
【0097】
この結果、この例の場合には“ヒューマン”というメディア割当が選択され、対話管理部13に返答される。対話管理部13は返答されたメディア割当を入力メディア処理部113と出力メディア処理部143に指示することで、メディア割当“ヒューマン”に基づく対話を行う。
【0098】
このメディア割当“ヒューマン”というのは、入力に音声認識、出力には顔画像と音声言語を用いることで音声による自然な対話が行えるメディア割当である。従って、利用者は自分の声で質問や要望、回答や応答等を行えば良く、それに対する返答や回答等は装置側がディスプレイに顔画像を表示し、併せて音声言語を用いて行ってくれることになって、より人間がわかり易く、扱い易いものとなる。
【0099】
また更に、例えば上のような場合において、背景雑音が大きいために音声入力モードもしくは音声出力モートが使用不可能であると入力メディア処理部113もしくは出力メディア処理部143からメディア割当決定部12にデータが与えられていれば、メディア割当“ヒューマン”は選択されず、別のメディア割当が行われて対話が継続される。例えば、背景雑音の影響を全く受けることのないように、入力はキーボード、出力は画面による文字表示といった具合である。
【0100】
かくして、本発明は従来のマルチモーダル対話装置の基本構成に、適切なメディア割当を決定する手段を追加する構成としたことにより、対話の状況およびその時点で利用可能な入出力手段に合わせて適切な入出力メディアを動的に選択することができるようになり、これにより、状況に応じてより使い易いインタフェイスを利用者に提供することが可能となる。
【0101】
以上は、マルチモーダル対話装置の側がその時々の状況に対応して最適な種々の入出力メディアを動的に選択することで、使い易いインタフェイスを利用者に提供するものであったが、利用者の側が種々の入出力メディアのうちの、使用したいものを任意に選択指定することで、個々の利用者の使い易いインタフェイスを提供する構成とすることもできる。
【0102】
マルチモーダル対話装置において、利用者の側が種々の入出力メディアのうちの、使用したいものを任意に選択指定する構成にするには、前述の構成に更に、利用者が入力可能なメディアを掲示する手段を付加すれば良い。このような構成とすることにより、利用者がどのような手段で入力を行うことができるかを容易に知ることができ、より使い易いインタフェイスを提供することが可能となる。
【0103】
例えば、上記の動作例のメディア割当“ヒューマン”においては、図16のように例えばマイクのアイコンを画面に表示することで音声による入力が可能であることを利用者に知らしめ、音声による入力を促す効果が期待できる。その後、サブ目標“開始セッション”が対話規則“r03”で満足される過程で、利用者のセッション開始要求とシステムの認識が行われ、かくして図8に示す一例としてのシナリオの“A)”および“B)”を動作させることが可能となる。
【0104】
すなわち、シナリオの A)
案内システムの前に一人の旅行者が立つ
これにより、案内システムではセンサがこれを検知してディスプレイをオンにし、システムのタイトル画面を表示し、効果音と共に入力を促すプロンプトを画面に表示する。
【0105】
シナリオの B)
旅行者が音声により「宿を探して下さい」と話しかけ、これにシステムが「了解しました」と答える。
【0106】
このような内容の開始セッションが成功すると、対話管理部13は問題解決手段である案内システムを実現するアプリケーションにタスクが開始されたことを通告する。この場合、問題解決手段である当該アプリケーションは、その通知に応じてデータベース検索のための初期検索条件の獲得、すなわち、“到着日”、“出発日”、“人数”、“予算”を対話管理部13に対して要求する。
【0107】
この要求に基づいて、対話管理部13は再びメディア割当決定部12に適切なメディア割当の決定を要請し、その解答に基づき、メディア割当“変数表示音声入出力”をセットし、図17に示すような画面のように入力中の検索条件の状態を表示しながら、図8のシナリオの“C)”に示す如き対話を音声を用いて行うことで、対話管理部13は問題解決手段であるアプリケーションの要求を満足する。
【0108】
(第二の動作例)
次に場面展開を変えた第二の動作例ついて述べる。
図8のシナリオ“C)”までの対話により、データベース検索の初期条件を得て、問題解決手段(バックグラウンドアプリケーション)は検索処理を行い、検索終了後、対話管理部13に対して検索結果の出力を要求する。
【0109】
このとき、問題解決手段15側は出力要求と共に検索結果の概要、すなわち検索結果の件数と1件毎のデータベース要素、すなわち、“名称”、“名称の読み”、“住所”、“規模”、“部屋の種類と各部屋の宿泊料”、その他“特徴”、“外観写真”、“地図”、“そこまでの行き方と到達時間”、“最寄り駅”、“付近の名勝”が問題解決手段15側からマルチモーダル対話装置10の出力部14における出力メディア処理部143に出力されることが通告される。
【0110】
このとき、対話プランナ131のプラン記憶部は図10のサブ目標“p42”まで成功した状態となっている。
次のサブ目標“p43”である“候補決定”を満足するために、対話プランナ131は対話規則を検索し、まず“r07”を適用しようとするが適用条件が合わないために失敗し、他の対話規則を検索する。
【0111】
次に対話プランナ131は“r08”を選択し、サブ目標“p431”である“選択要求”が展開される。このサブ目標は同様に対話規則“r10”によって、サブ目標系統列[p4311,p4312,p4313]に展開される。
【0112】
これらのサブ目標系統列のうち、サブ目標“p4311”は更に展開されてプラン記憶部は図10のような状態になり、更に対話規則“r12”に従い、メディア割当決定で12が呼び出される。メディア割当決定部12ではこれまでの記述と同様の処理が行われるが、検索結果が3件と少ないことから次メディア割当選択テーブル122の探索において次メディア割当選択ノード“m3”が条件に適合して選択される。
【0113】
その結果、利用者が検索結果の中から候補を選択するための入出力メディア割当として“タッチパネル表示選択・要素名音声読み上げ”が選択され、対話管理部13により、そのメディア割当が実行される。
【0114】
これにより、図18のように画面上に3件の宿泊施設についてそれぞれ“名称”、“住所”、“写真”、“規模”、“付近の名称”が配置されたタッチパネルボタンを、出力メディア処理部143が問題解決手段15から流されてきたデータから選択してセットするとともに、図8のシナリオ“D)”のように、それぞれの物件の名称を音声で読み上げてその選択を促すメッセージがスピーカから音声が出力されることになる。
【0115】
従来からある対話装置の場合、出力件数にかかわらず同一の出力形態が取られ、例えば数十件あるいは数百件の検索結果を音声で読み上げたり、逆に数件しかない検索結果を表形式で表示したりといった、利用者にとってわかりにくく使いにくい入出力方式となる場合が少なからずあった。
【0116】
例えば、データベースの検索結果が多いような場合にも、従来の対話装置では図8のシナリオ“D)”の対話と同様に全ての物件の名称が読み上げられるといったことが発生していた。
【0117】
本対話装置はこのような問題にも対処すべく、従来からある階層プラン生成方式や状態遷移グラフ方式に基づく対話管理機構に加えて、状況に応じ動的に入出力の形態を設定する機構を導入している。従って、本装置によれば、対話管理部13がメディア割当決定部12にその時点で適切なメディア割当を問い合わせ、その回答内容に対応してメディア割当を動的に設定し、利用者に提示する物件数が多ければ、例えば、表形式の検索結果提示を選択するといったように、その時々の状況に合わせて最適な形態で検索結果提示をすることができる。
【0118】
例えば、図8のシナリオ“D)”の対話においては、上述のように検索結果の提示物件数が3件であり、この3件の宿泊施設の検索結果から利用者に望みのものを選択させるために、メディア割当生成部121で次メディア割当選択テーブル122のノード“m04”が選択され、その結果、図18のように1件に対しして比較的画面の面積を割いた形での入出力メディア割当がなされていた。
【0119】
しかしながら、同様の場面でも検索結果件数が仮に10件であった場合、メディア割当生成部121で選択される次メディア割当選択ノードは“m05”となり、これによって図21のような表形式の画面出力が割り当てられ、また宿泊施設名を音声で読み上げることなく検索結果件数のみを音声で伝えるといった形で利用者にストレスを与えないような入出力メディア割当がなされる。
【0120】
かくして、本装置によればアプリケーション(問題解決手段)が出力を要求する情報の質と量に対応して利用者に受け入れ易く、わかり易い出力手段の組み合わせを設定することが可能となる。
【0121】
更に、例えば図8のシナリオ“G)”の場合のように、データベース検索結果の件数が極めて多いような場合には、表形式での出力形態でも利用者が結果を選択する際に大きな負担を与えるため、アプリケーション(問題解決手段)の要求に従って検索結果を提示すること自体が適切でない。
【0122】
この場合にはつぎのようになる。今、上記図8のシナリオ“D)”のケースと同様に、問題解決手段による検索処理が行われ、対話プランナ131のプラン記憶部は図10のようにサブ目標“p43111”まで対話が進んでいるとする。
【0123】
この例の場合、検索結果要素数が534件と多く図6の次メディア割当選択テーブルに条件が適合する次メディア割当選択ノード122がないため、メディア割当決定部12を呼び出すサブ目標“p43111”、すなわち“MA問い合わせ”が失敗してしまう。“p43111”の失敗を受けて、対話プランナ131は周知のコンピュータ言語の一つであるprologインタプリンタと同様の後戻処理を行う。
【0124】
すなわち、“p43111”の上位ゴールである“p4311”の“MA選択(選択肢提示)”にまず後戻し、“p4311”に適用可能な対話規則もしくは対話プリミティブがないか再試行する。この場合、失敗した対話規則“r12”意外に適用可能な対話規則も対話プリミティブもないため、“p4311”も失敗し、“p4311”の上位ゴールである“p431”の“選択要求”まだ後戻りする。
【0125】
更にこの“p431”も同様に失敗するため、“p43”の“候補決定”まで後戻し、同様にこのゴールの再試行のために適用可能な対話規則もしくは対話プリミティブが探索され、図2の対話規則“r09”が適用され、図11のようにサブ目標系列[p4301,p4302,p4303]が展開される。
【0126】
対話プランナ131は“p4301”の“検索条件絞り込み”の実行に際し、更に、対話規則“r14”を適用し、サブ目標系列[p43011,p43012,p43013]を生成する。
【0127】
次に対話プリミティブであるサブ目標“p43011”の“未入力変数問合せ”の実行過程で対話管理部13は問題解決手段15に対し、物件検索にまだ用いていない変数を問合せ、問題解決手段15側はその要請に対し、未入力の変数リスト[観光予定地,部屋様式,宿泊施設様式]を報告する。
【0128】
次のサブ目標“p43012”の“member(入力変数、[観光予定地,部屋様式,宿泊施設様式])”の実行で未入力変数リストの内から変数“観光予定地”が取り出される。
【0129】
そして、その変数を追加条件として利用者に入力させるために、次のサブ目標“p43013”の“追加条件入力”に対話規則“r17”が適用され、サブ目標系列[p430131,p430132,p430133]が生成される。
【0130】
これらのサブ目標系列の実行過程において図8のシナリオ“G)”のような対話を行われ、かくして本装置はメディア割当の失敗から回復して利用者との対話を継続することが可能となる。
【0131】
図11は、図11図8のシナリオ“G)”のシステムの発話S14が発せられた時のプラン記憶部の状態を示している。
【0132】
(第三の動作例)
次に場面展開を変えた第三の動作例について述べる。
図8のシナリオ“D)”までの対話の後に、図8のシナリオ“E)”のように利用者が道順と到達時間を求めたとする。すなわち、対話装置10が決定し出力したメディア割当に対して利用者がそのメディア割当とは異なるメディア割当での出力を求めたような場合、従来のマルチモーダル対話装置においては入出力メディア割当を動的に行う手段を持たないため、そもそもこのような利用者の要求に応えることが不可能であった。しかし、本発明の装置ではこのような事態に対応できる。
【0133】
このような事態に遭遇した場合、本装置は対話の制御と入出力メディアの割り当てを分離し、メディア割当決定部12が対話の流れとは独立にメディア割当選択することができる。そのため、このような事態での対処を可能にしている。
【0134】
図8のシナリオ“E)”におけるU6のような利用者の要求があった時、対話プランナ131のプラン記憶部の状態は図12のように、サブ目標“p4313”の“ユーザ選択”の処理中の状態で利用者の入力を待っている状態であった。ここで利用者の入力が候補の選択好意でなく、メディア割当変更とそれに伴う再出力要求であったため、サブ目標“p4313”は失敗する。
【0135】
この失敗に伴い第二の動作例の場合と同様に後戻処理が発生し、“p4313”の親目標である“p431”の“選択要求”が失敗し、図2の対話規則“r15”が再試行される。この対話規則の実行過程で対話プランナ131は
“ユーザ要求(出力([道順,到達時間]))”
という条件で、メディア割当決定部12に適切なメディア割当の選択を依頼する。この依頼により、メディア割当決定部12は“名称、写真、地図タッチパネル表示選択・道順音声読み上げ”というメディア割当を選択する。そして、この選択したメディア割当を対話プランナ131に渡す。
【0136】
対話プランナ131はこの選択に従い、宿泊施設の選択肢を表示する際の出力メディア割当を変更し、三件の各宿泊施設についてその“名称”、“写真”、“地図”をディスプレイに表示してタッチパネルボタンを設定すると共に、図8のシナリオ“E)”におけるS11のような発話[離山山荘はバスで約1時間半ほどです。ひなびた庵には列車で30分ほど行ったところからバスに乗り換えて30分程かかります。奥山院はここからバスで30分ほど乗ってから30分ほど歩いたところにあります。」といった内容の発話を行い、利用者に情報を提供し、宿泊施設の候補の選択を再び利用者に要求する。この時点でのプラン記憶部の状態を図13に示す。
【0137】
かくして、本装置によれば利用者が要求する入出力方法を用い、また利用者の割込みに応じて利用者が主導権を持った形での対話継続が可能となり、より個々の利用者に使い易いインタフェイスを提供することが可能となる。
【0138】
(第四の動作例)
利用者から得た音声入力の内容が、正しくないためにシステムが音声認識処理に失敗したような場合での対処動作例を、次に、第四の動作例として述べる。
図8のシナリオ“H)“のように、システムが利用者からの音声入力を求めたが、利用者が地名を読み間違えたため、システムが音声認識処理に失敗したような場合、従来のマルチモーダル対話装置においては入出力メディア割当を動的に行う手段を持たないため、利用者とのコミニュケーションを回復するのが困難であった。
【0139】
しかしながら、このような場合にも本装置では、対話プランナ131が利用者との対話の失敗を対話規則実行時の失敗と捉え、失敗したサブ目標を満足できる他の対話規則を探索し、適用可能な対話規則があれば再試行する。
【0140】
この例では音声入力というヒューマン・マシンインタフェイスとしての観点がは優れているが、入力処理、特に読み間違いが発生し易い地名の入力処理の確実性という観点では劣っている入力メディアにおいて失敗が発生したとことから、手書き文字認識という入力メディアを選択し再試行することで利用者との対話を継続することに成功している。
【0141】
このような制御は次のようにして実現されている。
既に述べたように、図8のシシナリオG)に示したシステム発話S14つまり、「どのようなところを観光されるご予定でしょうか?」という発話の時点でのプラン記憶部の状態は、図11のようになっている。
【0142】
ここで、音声言語モードでの入力処理において、利用者が“竜安寺”を指名するつもりで“りゅうあんじ”と読み間違えたとする。この“りゅうあんじ”は音声認識の対象語彙となっていなかったとすると、音声認識処理が失敗してしまうことになる。
【0143】
このため、サブ目標“p4301331”は失敗し、その親目標“p430133”の“入力処理”は適用可能な別の対話規則“r19”で再試行される。この“r19”は同じメディア割当で再入力を求めるという対話規則であり、この対話規則により、“p4301331”は図14に示すようにサブ目標系列[p43013301,p43013302]に展開され、それらの実行過程で装置と利用者のあいだでS15とU9の対話がなされる。
【0144】
つまり、
装置:「は?もう一度お願いします」
利用者:「りゅうあんじです」
なる対話がなされる。
【0145】
しかし同様の理由で音声認識処理は失敗し、サブ目標“p430133”は再び失敗する。
次に適用された規則“r20”は、入力失敗をキーとしてメディア割当をやり直し、再入力させる対話規則であり、この対話規則により“p430133”は再試行され、サブ目標列[p43013311,p43013312,p43013313]に展開される。
【0146】
サブ目標“p4301311”のMA選択(入力失敗(観光予定地))”は更に対話規則“r12”でサブ目標系列[p430133111,p430133112]に展開される。
【0147】
サブ目標“p430133111”の“MA問合せ”は対話プリミティブであり、対話プリミティブ記憶テーブル133の内容に従いメディア割当決定部12の呼び出しが行われる。
【0148】
既に述べたように、メディア割当決定部12は図6に示す次メディア割当選択テーブル122を参照し、次メディア割当選択ノード“m6”がこの場合選択される。この次メディア割当選択ノードは現在のメディア割当の入力モードのみを音声言語モードからペン文字列入力モードに変更するというメディア割当の選択であり、このメディア割当に従って変数入力の対話を継続することで、図8のS16以降に対話を進め、更には宿泊施設の選択というタスクを継続させるような対話に復帰することが可能となる。
【0149】
すなわち、
装置:「認識できませんでした。ペンで行き先の名前を書いてください」
利用者がペンで画面に「竜安寺」と書くことで文字認識し、装置は「竜安寺」を「りょうあんじ」と認識する。
装置:「竜安寺(りょうあんじ)ですね。検索しますのでしばらくお待ちください」
なる対話が成功する。
【0150】
かくして、本装置によれば利用者との対話の失敗に対して、別の入出力手段に替えて再度実施すべく、入出力手段を変更するよう制御する構成としたことで失敗から回復し、利用者との対話を継続することが可能となる。
【0151】
更に、例えば外部の騒音が激しくなったような場合に対処できるように、外部雑音を捉えるデバイスを本装置に付加し、その入力により音声入出力の適切性を判断する入力モード部品を実現すれば、メディア割当生成部121でメディア割当を行う際に、音声入力可能もしくは音声出力可能と図7のモード−メディア対応表の制約部に記述されているメディア割当については、選択されることがなくなる。
【0152】
その結果、例えば音声入力を行うメディア割当が選択されていて、利用者からの入力を音声で受け付けていた時に急に騒音が激しくなったような場合に、上記の動作例と同様に音声認識失敗に伴ってメディア割当決定部呼び出しが発生し、メディア割当決定部での次メディア割当の選択が新たに実施されるが、その選択においては音声を入出力に用いるようなメディア割当は選択されることがなくなる。
【0153】
かくして、このような構成の装置によれば、外部環境的要素の変化に応じて入出力方式を変更する制御を付加したことで、外部環境的要素に応じて最適な入出力方式を選択して使用するので、利用者との対話を継続することが可能となる。
【0154】
なお、上述の例では、入力部11の構成について入力デバイス処理部111、入力モード処理部112、入力メディア処理部113の3つのモジュールを持ち、出力部14についても出力メディア処理部141、出力モード処理部142、出力デバイス処理部143の3つのモジュールを持つことを前提として記述しているが、本装置を実現する入出力処理部品の構成はこれに限定されるものではなく、種々の変形を行うことが可能である。
【0155】
また、上述の例では、入力部と出力部が独立した別の構成要素として記述しているが、これらを一体化した入出力部として実現することも可能であり、そのような実現方法も本発明の趣旨の範囲内である。
【0156】
また、上述した例では、メディア割当決定部を対話管理部や問題解決手段と独立した構成部品として、また、問題解決手段についても同様に入力部や出力部、対話管理部等に対して独立した部品として記述しているが、本装置を実現する部品の構成方法はこれに限定されるものではなく、例えば、メディア割当決定機能を持つ対話管理部を実現することで独立した部品としてのメディア割当決定部がなくとも本装置を実現することが可能であり、また、例えば、問題解決手段が対話管理部の機能やメディア割当決定部の機能、さらには入力部の機能や出力部の機能を持つように構成することも可能であり、そのような実現方法も本発明の趣旨の範囲内である。
【0157】
このように、本発明を実現する装置はその部品構成について種々の実現方法があり、ここに説明した部品の構成に限定されるものではないことを断っておく。また、上述した例では、メディア割当決定部12の制御方式について、ある時点におけるメディア割当と、その時点での状況に基づいて次のメディア割当を決定する次メディア割当選択テーブル122を用いることを前提として記述しているが、本装置を実現するメディア割当決定方式はこれに限定されるものではなく、例えば状態遷移モデルに基づくメディア割当決定方式においても実現可能であり、また、例えば次メディア割当選択テーブル122に選好度などのスロットや情報を付け加えることで、よりきめ細かいメディア割当の選択を実現することも可能になる。
【0158】
また上述した例ではメディア割当生成部121においてメディア割当を決定する際に用いるメディア割当のヒストリ情報として1回分、すなわち現在のメディア割当情報のみ明確に記述されているが、例えば次メディア割当選択テーブル122の条件部に過去のメディア割当の状態を記述することにより、メディア割当の決定に対し、メディア割当のヒストリ情報を利用することが可能である。
【0159】
また、上述の例では、階層プラン生成方式に基づく対話管理を前提として記述するが、本装置を実現する対話管理方式はこれに限定されるものではなく、例えば状態遷移モデルに基づく対話制御方式においても実現可能である。
【0160】
更に、上述の例では、利用者が利用可能な入力方法をディスプレイ上に他の情報と共に表示することにより利用者に知らしめているが、本装置を実現する入力メディアの提示形式はこれに限定されるものではなく、例えばもう一つのディスプレイに表示するなど他の出力デバイスから提示することとしても実現可能である。
【0161】
また、上述の例では、利用者が利用可能な入力方法のみをディスプレイに表示することで利用者に知らしめているが、利用者に知らしめるのは入力方法に限定されるものではなく、出力方法についても同様に表示することが可能であり、例えば耳の不自由な利用者に対して音声による応答を本装置が行ったとしても、利用者がそれを知ることができるため、利用者がメディア割当の変更を要求することが可能となる。
【0162】
また、更に例えば、メディア割当決定部に特定利用者モデル記憶部を設け、そこに利用者が利用可能なメディアもしくは利用不可能なメディアを予め記録しておくことで、上記の耳の不自由な利用者に対する場合においても利用者が毎回要求することなしに、個々の利用者に対応して最適なメディア割当を設定することが可能になる。
【0163】
また、例えば、上記のようなメディア割当に関する利用者個々の事情を、例えば、ICカードのような可変媒体に記録しておき、例えば、ICカード読取り可能なデバイスを本装置に装備して、このデバイスを利用して利用者が利用開始時にそのICカードを挿入して読み取らせ、特定利用者モデル記憶部にその読取り情報を記憶させることで、不特定多数を対象とした装置においても、予め利用者個々の事情を設定して対処することができるようになり、その結果、利用者個々の事情に応じたメディア割当の設定が利用開始の最初の時点から可能になる装置が得られるようになる。この場合、個々の利用者の最適なメディア割当てが利用開始の最初の時点から実施されるので、変更の要求操作をすることなしに、円滑な利用が可能になることからサービス向上に役立つ。
【0164】
また、特定利用者のみが利用するようなシステケの場合には例えば、不揮発性メモリに特定利用者モデル記憶を行うようにし、利用者が更新できるようにしたり、学習機能を持たせて記憶内容を学習結果を反映させるようにする等のことによって、利用を重ねるに連れ、その利用者が利用しやすいインタフェイスを提供することができるようになる。
【0165】
さらにメディア割当決定部にID3やニューロ等の機能的な学習機能を装備し、特定利用者モデル記憶部の内容を学習により自動更新することにより、利用者が自分で利用者モデルを更新せずとも、利用を重ねるだけで次第にその利用者が利用し易いインタフェイスを提供することができるようになる。
【0166】
また、以上では特定利用者モデル記憶部の記憶内容について、特定の利用者が利用可能なメディアもしくは利用不可能なメディアとしたが、特定利用者モデル記憶部の記憶内容はこれに限定されるものではなく、例えば、特定利用者が選考するメディアについても同様に、特定利用者モデル記憶部に記憶することで、より個々の利用者にとり好ましいインタフェイスを提供することができるようになり、そのような実現方法も本発明の趣旨の範囲内である。
【0167】
さらに利用者が利用可能な入り方法を知らしめるための出力メディア自体をメディア割当決定部において決定し、その決定に基づく出力メディア割当を用いて出力することで、利用者に知らしめるといった方法を採用することも可能であり、そのような実現方法も本発明の趣旨の範囲内である。
【0168】
なお、上述の例では、利用者の読み間違いによる音声認識の失敗を扱う例を示したが、例えば、環境音(ノイズ)が原因となって音声入力が阻害される場合等のように、利用するメディアの状況の変化によって対話に傷害が発生するような状況においても、入力及び出力メディアの状態を監視するメディア監視機能をメディア切替部に組み込み、ある時点でメディア切替部によって設定され、現在利用しようとしているメディア割当が、障害なく利用され、利用者と対話装置とのコミュニケーションが無事に達成されたかを監視することによって、障害解消のための処理を行うことが可能となる。
【0169】
すなわち、例えば、利用者からの音声入力を受付けようとしている場面や、利用者への出力を音声によって行おうとしている場面等において、例えば、周囲雑音のレベル等を常時監視することによって、例えば、大きな騒音等の発生による利用者と対話装置とのコミュニケーションの阻害の生じた場合に、これを対話管理部に通知して例えば、音声による入出力をやめて、画面表示とキーボード入力を行わせるようにする等、何等かの障害発生の場合に、適切にメディア変更を行ったり、あるいは、問い返し等の障害解消のためのサブ対話を起動させる等の処理を実現することが可能になり、その結果、環境等の変化に対しても対処し得る対話装置が実現できる。
このように本発明においては、その趣旨を逸脱しない範囲で種々の変形を行うことが可能である。
【0170】
【発明の効果】
以上説明したように、本発明によれば、対話の状況及びその時点で利用可能な入出力手段に合せて適切な入出力メディアを動的に選択するようにしたことにより、状況に応じて使いやすいインタフェイスを利用者に提供することが可能となる。また、利用者がどのような手段で入力を行うことが出来るかを容易に知ることができ、より使い易いインタフェイスを提供することが可能となる。
【0171】
また、アプリケーションが出力を要求する情報の質と量に対応して利用者が受け入れ易くわかに易い出力手段の組み合わせを設定することが可能となり、利用者が要求する入出力方法を用いることでより個々の利用者に使いやすいインタフェイスを提供することが可能となり、利用者にとって好ましい入出力手段を用いることで、より個々の利用者に使いやすいインタフェイスを提供することが可能となる。また、利用者にとって好ましくない入出力手段を避けることで、より個々の利用者に使い易いインタフェイスを提供することが可能となる。更には、入出力手段を変更することで利用者との対話の失敗から回復し、利用者との対話を継続することが可能となるなどの実用上多大な効果が奏せられる。
【図面の簡単な説明】
【図1】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのブロック構成図。
【図2】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するための対話規則の例を示す図。
【図3】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するための対話プリミティブ記憶テーブル例を示す図。
【図4】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのプラン記憶部(起動時)の例を示す図。
【図5】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのプラン記憶部(待機時)の例を示す図。
【図6】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するための次メディア割当選択テーブルの例を示す図。
【図7】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのモード−メディア割当対応表の例を示す図。
【図8】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するための想定する動作例シナリオの例を図。
【図9】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのプラン記憶部(初期条件入力要求時)の例を示す図。
【図10】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのプラン記憶部(初期検索終了時、抜粋)の例いを示す図。
【図11】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのプラン記憶部(条件絞り込み対話、抜粋)の例を示す図。
【図12】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのプラン記憶部(利用者割込時、抜粋)の例を示す図。
【図13】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのプラン記憶部(利用者割込対処時、抜粋)の例を示す図。
【図14】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのプラン記憶部(音声認識失敗への対処、抜粋)の例を示す図。
【図15】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するための詳細な構成図。
【図16】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのメディア割当“ヒューマン”の画面例を示す図。
【図17】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのメディア割当“変数表示音声入出力”の画面例を示す図。
【図18】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのメディア割当“タッチパネル表示選択・要素名音声読み上げ”の画面例を示す図。
【図19】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するための対話管理のアルゴリズム例を示す図。
【図20】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するための待機状態例を示す図。
【図21】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのメディア割当“表形式タッチパネル表示選択・検索結果件数音声出力”の画面例を示す図。
【符号の説明】
10…マルチモーダル対話装置
11…入力部
12…メディア割当決定部
13…対話管理部
14…出力部
111…入力デバイス処理部
112…入力モード処理部
113…入力メディア処理部
121…メディアアロケーション生成部
122…次メディア割当選択テーブル
123…現メディア割当記憶スロット
124…モードメディア割当対応表
131…対話プランナ
132…対話規則テーブル
133…対話プリミティブ記憶テーブル
141…出力メディア処理部
142…出力モード処理部
143…出力デバイス処理部
143a…出力メディア振り分けスイッチ
143b…出力メディア処理部
143c…メディア・モードインタフェイス
SW…メディア選択スイッチ
IDVa〜IDVn…入力デバイス
ODVa〜ODVn…出力デバイス
Claims (7)
- 利用者との対話により所要の処理を行って結果を出力する対話装置において、
利用者からの情報を得るための異なる各種入力用デバイスのうち、入力メディア割当に従って少なくとも一つの入力用デバイスからの入力情報を解釈し、この解釈に基づいて入力対応情報を発生させる入力手段と、
この発生された対応情報それぞれに、所要の目的に応じた処理を行い、この処理結果を出力する問題解決手段と、
前記処理結果を、異なる各種出力用デバイスのうち、出力メディア割当に従った出力用デバイスから出力する出力手段と、
前記入力手段から前記問題解決手段へ与えられる前記入力対応情報の中から1つを選択する手段及び前記入力手段により発生される複数の入力対応情報を組み合わせこの組み合わせたものを選択する手段の少なくとも一つ、
および、前記問題解決手段から出力手段に出力する出力情報を得るために該問題解決手段からの情報の1つを選択する手段及び該問題解決手段からの情報を複数を選択するときの前記複数を組み合わせこの組み合わせたものを選択する手段の少なくとも一つ、
の双方の組を割り当て、この割り当てに応じて、前記入力メディア割当を前記入力手段へ、前記出力メディア割当を前記出力手段へそれぞれ出力する入出力メディア割当手段と、
前記問題解決する上で前記問題を解決するためのプランを作成するプラン作成手段と、
このプラン作成手段により作成されたプランに基づいて前記入力手段、前記出力手段および前記問題解決手段に指示を行うことによって前記所要の処理を実行させる手段と、
前記プランによる前記出力用デバイスへの指示に応答した利用者による前記入力用デバイスへ入力により、利用者との対話状況を取得する対話状況取得手段と、
前記利用者との対話状況に応じて、前記入出力メディア割当手段が割り当てる割り当てを変更する手段と、
を具備したことを特徴とするマルチモーダル対話装置。 - 利用者との対話により所要の処理を行って結果を出力する対話装置において、
利用者からの情報を得るための異なる各種入力用デバイスのうち、入出力メディア割当に従って少なくとも一つの入力用デバイスからの入力情報を解釈し、この解釈に基づいて対応情報を発生させる入力手段と、
この発生された対応情報それぞれに、所要の目的に応じた処理を行い、結果を出力する問題解決手段と、
前記問題解決手段の出力に基づいた結果を、異なる各種出力用デバイスのうち、入出力メディア割当に従った出力用デバイスから出力する出力手段と、
前記問題解決手段からの処理結果に応じて前記入力メディア割当および前記出力メディア割当の少なくともいずれか一方の変更処理を指示し、また、前記入力手段と出力手段による入出力を管理する対話管理手段と、
利用者から少なくとも一つの入力用デバイスに与えられた入力データから前記問題解決手段への入力を得るために、前記入力用デバイスのうち、利用する前記入力用デバイスと当該入力用デバイスに与えられた前記入力データの入力方法の組の少なくとも一つ、
および、前記問題解決手段の出力から利用者に指示する表現を得るために、前記出力用デバイスのうち、利用する前記出力用デバイスと当該出力用デバイスに与えられた前記出力データの出力方法の組の少なくとも一つ、
の双方の組を前記問題解決手段の処理内容に応じて割り当て、この割り当てに応じて、前記入力メディア割当を前記入力手段へ、前記出力メディア割当を前記出力手段へそれぞれ出力する入出力メディア割当手段と、
前記問題解決手段の処理内容に応じて前記入出力メディア割当手段が割り当てる割り当てを変更する手段と、
ための入出力メディア割当を実施すると共に、入出力メディア割当の変更処理の指示を受けたときはその変更を行うべく処理して新たなメディア割当をするメディア割当手段と、
を具備したことを特徴とするマルチモーダル対話装置。 - 入力対応に、システムの目的に応じた計算処理を行ない、この処理結果を出力する問題解決手段と、
異なる各種入力用デバイスのうち、入力メディア割当に対応して少なくとも一つの入力用デバイスから、利用者によって前記入力用デバイスに入力された入力情報を解釈し、この解釈に基づいて入力対応情報を前記問題解決手段に与える入力手段と、
前記問題解決手段からの前記処理結果を得て、これを異なる各種出力用デバイスのうち、出力メディア割当に対応した出力用デバイスに振り分けて、利用者に出力する出力手段と、
前記問題解決手段からの前記処理結果に応じて前記入力メディア割当および前記出力メディア割当の少なくともいずれか一方の変更処理を指示し、また、前記入力手段と出力手段による入出力を管理する対話管理手段と、
前記入力手段から前記問題解決手段に与えられる入力対応情報を、入力メディア毎に発生する前記入力対応情報の中から選択する手段、および入力メディア毎に発生される入力対応情報を組み合わせる手段の少なくとも一つ、
および前記問題解決手段の出力から利用者に指示する表現を生成するためにその出力を選択する手段およびそれらを組み合わせる手段の少なくとも一つ、
の双方の組を割り当て、この割り当てに応じて、前記入力メディア割当を前記入力手段へ、前記出力メディア割当を前記出力手段へそれぞれ出力する入出力メディア割当手段とを備え、
前記入出力メディア割当手段は、前記対話管理手段から前記入力メディア割当または前記出力メディア割当の変更処理の指示を受けたときはこの変更を行なうことを特徴とするマルチモーダル対話装置。 - 前記対話管理手段には、
前記入力手段および前記出力手段の少なくとも一方の動作状況を適宜監視し、現在選択され利用されている入力メディア割当および出力メディア割当の利用に対する障害が発生した場合に、該障害の発生を表す障害情報を、前記入出力メディア割当手段に通知するメディア監視機能を備えると共に、
前記入出力メディア割当手段には、
該障害情報を前記対話管理手段から受けると、前記入力メディア割当および出力メディア割当の少なくとも一方を前記動作状況に応じて変更する機能を備えることを特徴とする請求項3に記載のマルチモーダル対話装置。 - 前記問題解決手段には、
システムの問題解決のために必要な入力対応情報である入力必要情報を利用者から獲得する必要があるような場合に、前記対話管理手段に対し前記入力要求情報を発生し、前記入力必要情報を利用者に入力してもらうよう求める入力要求機能、
もしくは、前記対話管理手段には、前記出力手段が設定されている前記出力メディア割当に従って利用者に対する出力を構成するために必要な情報を、前記問題解決手段に出力を求める出力必要情報を発生し、この出力必要情報を前記問題解決手段が出力するよう求める出力要求機能、
のうち少なくとも一つの機能を備えると共に、
前記メディア割当手段には、
この備えた機能により前記入力メディア割当または出力メディア割当の変更処理の指示を受けたときは、前記入力要求情報、もしくは前記出力要求情報のうちの少なくとも一つを利用して新たなメディア割当を行なう機能を備えることを特徴とする請求項2または3いずれか1項記載のマルチモーダル対話装置。 - 前記メディア割当手段は、
更に、前記入出力メディア割当を記録するメディア割当記憶スロットと、
前記メディア割当記憶スロットに現在選択されている入力メディア割当および出力メディア割当を記録する手段とを備え、
入力メディア割当または出力メディア割当変更処理の指示を受けたときは、前記メディア割当記憶スロットに記録されている入力メディア割当および出力メディア割当を利用して、まだ用していない入力メディア割当および出力メディア割当の組の割当を行なうことを特徴とする請求項1乃至3のいずれか1項記載のマルチモーダル対話装置。 - 対話装置によって入力された情報に対して所要の処理を行って結果を出力する対話方法において、
前記対話装置が、
異なる各種入力用デバイスのうち、入力メディア割当に従って少なくとも一つの入力用デバイスからの入力情報を解釈し、この解釈に基づいて入力対応情報を発生させる入力ステップと、
この発生された対応情報それぞれに、所要の目的に応じた処理を行い、この処理結果を出力する問題解決ステップと、
前記処理結果を、異なる各種出力用デバイスのうち、出力メディア割当に従った出力用デバイスから出力する出力ステップと、
前記入力ステップから前記問題解決ステップへ与えられる前記入力対応情報の中から1つを選択するステップ及び前記入力ステップにより発生される複数の入力対応情報を組み合わせこの組み合わせたものを選択するステップの少なくとも一つ、
および、前記問題解決ステップから出力ステップに出力される出力情報を得るために該問題解決ステップからの情報の1つを選択するステップ及び該問題解決ステップからの情報を複数を選択するときの前記複数を組み合わせこの組み合わせたものを選択するステップの少なくとも一つ、
の双方を対応させて割り当て、この割り当てに応じて、前記入力メディア割当を前記入力ステップへ、前記出力メディア割当を前記出力ステップへそれぞれ出力する入出力メディア割当ステップと、
前記問題解決ステップの処理内容に応じて前記入出力メディア割当ステップが割り当てる割り当てを変更するステップと、
を実行することを特徴とするマルチモーダル対話方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05661396A JP3729918B2 (ja) | 1995-07-19 | 1996-03-14 | マルチモーダル対話装置及び対話方法 |
US08/683,264 US5878274A (en) | 1995-07-19 | 1996-07-18 | Intelligent multi modal communications apparatus utilizing predetermined rules to choose optimal combinations of input and output formats |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20520295 | 1995-07-19 | ||
JP7-205202 | 1995-07-19 | ||
JP05661396A JP3729918B2 (ja) | 1995-07-19 | 1996-03-14 | マルチモーダル対話装置及び対話方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0991112A JPH0991112A (ja) | 1997-04-04 |
JP3729918B2 true JP3729918B2 (ja) | 2005-12-21 |
Family
ID=26397570
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP05661396A Expired - Fee Related JP3729918B2 (ja) | 1995-07-19 | 1996-03-14 | マルチモーダル対話装置及び対話方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5878274A (ja) |
JP (1) | JP3729918B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8738371B2 (en) | 2007-03-05 | 2014-05-27 | Kabushiki Kaisha Toshiba | User interactive apparatus and method, and computer program utilizing a direction detector with an electromagnetic transmitter for detecting viewing direction of a user wearing the transmitter |
Families Citing this family (84)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6260015B1 (en) * | 1998-09-03 | 2001-07-10 | International Business Machines Corp. | Method and interface for correcting speech recognition errors for character languages |
WO2000021232A2 (en) * | 1998-10-02 | 2000-04-13 | International Business Machines Corporation | Conversational browser and conversational systems |
US7076737B2 (en) | 1998-12-18 | 2006-07-11 | Tangis Corporation | Thematic response to a computer user's context, such as by a wearable personal computer |
US8225214B2 (en) | 1998-12-18 | 2012-07-17 | Microsoft Corporation | Supplying enhanced computer user's context data |
US6747675B1 (en) | 1998-12-18 | 2004-06-08 | Tangis Corporation | Mediating conflicts in computer user's context data |
US7107539B2 (en) * | 1998-12-18 | 2006-09-12 | Tangis Corporation | Thematic response to a computer user's context, such as by a wearable personal computer |
US6920616B1 (en) | 1998-12-18 | 2005-07-19 | Tangis Corporation | Interface for exchanging context data |
US7046263B1 (en) * | 1998-12-18 | 2006-05-16 | Tangis Corporation | Requesting computer user's context data |
US6801223B1 (en) | 1998-12-18 | 2004-10-05 | Tangis Corporation | Managing interactions between computer users' context models |
US6842877B2 (en) * | 1998-12-18 | 2005-01-11 | Tangis Corporation | Contextual responses based on automated learning techniques |
US7073129B1 (en) | 1998-12-18 | 2006-07-04 | Tangis Corporation | Automated selection of appropriate information based on a computer user's context |
US9183306B2 (en) | 1998-12-18 | 2015-11-10 | Microsoft Technology Licensing, Llc | Automated selection of appropriate information based on a computer user's context |
US7225229B1 (en) | 1998-12-18 | 2007-05-29 | Tangis Corporation | Automated pushing of computer user's context data to clients |
US6791580B1 (en) * | 1998-12-18 | 2004-09-14 | Tangis Corporation | Supplying notifications related to supply and consumption of user context data |
US7055101B2 (en) | 1998-12-18 | 2006-05-30 | Tangis Corporation | Thematic response to a computer user's context, such as by a wearable personal computer |
US6513046B1 (en) | 1999-12-15 | 2003-01-28 | Tangis Corporation | Storing and recalling information to augment human memories |
US7779015B2 (en) * | 1998-12-18 | 2010-08-17 | Microsoft Corporation | Logging and analyzing context attributes |
US7231439B1 (en) | 2000-04-02 | 2007-06-12 | Tangis Corporation | Dynamically swapping modules for determining a computer user's context |
US8181113B2 (en) * | 1998-12-18 | 2012-05-15 | Microsoft Corporation | Mediating conflicts in computer users context data |
US7080322B2 (en) | 1998-12-18 | 2006-07-18 | Tangis Corporation | Thematic response to a computer user's context, such as by a wearable personal computer |
US6466232B1 (en) | 1998-12-18 | 2002-10-15 | Tangis Corporation | Method and system for controlling presentation of information to a user based on the user's condition |
US6812937B1 (en) | 1998-12-18 | 2004-11-02 | Tangis Corporation | Supplying enhanced computer user's context data |
JP2000194559A (ja) * | 1998-12-24 | 2000-07-14 | Canon Inc | 情報処理装置及びその方法、及びそのプログラムを格納した記憶媒体 |
JP4528384B2 (ja) * | 1999-07-08 | 2010-08-18 | マイクロソフト コーポレーション | 音声入力用グラフィカル・ユーザ・インターフェースのための表示装置 |
US6732210B1 (en) * | 2000-01-03 | 2004-05-04 | Genesis Microchip Inc | Communication bus for a multi-processor system |
US7028269B1 (en) * | 2000-01-20 | 2006-04-11 | Koninklijke Philips Electronics N.V. | Multi-modal video target acquisition and re-direction system and method |
WO2003050799A1 (en) * | 2001-12-12 | 2003-06-19 | International Business Machines Corporation | Method and system for non-intrusive speaker verification using behavior models |
AU2001249768A1 (en) | 2000-04-02 | 2001-10-15 | Tangis Corporation | Soliciting information based on a computer user's context |
US7464153B1 (en) * | 2000-04-02 | 2008-12-09 | Microsoft Corporation | Generating and supplying user context data |
WO2002029603A1 (en) * | 2000-09-30 | 2002-04-11 | Intel Corporation | Method, apparatus, and system for determining information representations and modalities based on user preferences and resource consumption |
US20020054130A1 (en) * | 2000-10-16 | 2002-05-09 | Abbott Kenneth H. | Dynamically displaying current status of tasks |
US6990639B2 (en) | 2002-02-07 | 2006-01-24 | Microsoft Corporation | System and process for controlling electronic components in a ubiquitous computing environment using multimodal integration |
US20040015637A1 (en) * | 2002-07-22 | 2004-01-22 | Cedric Yau | Multiple bus interface for a computer system |
JP3979209B2 (ja) | 2002-07-23 | 2007-09-19 | オムロン株式会社 | データ入力方法およびデータ入力装置 |
US7966188B2 (en) * | 2003-05-20 | 2011-06-21 | Nuance Communications, Inc. | Method of enhancing voice interactions using visual messages |
US20040233200A1 (en) * | 2003-05-23 | 2004-11-25 | Karren Ronald M. | Systems and methods for interactive multimedia presentation and marketing |
GB2402507A (en) * | 2003-06-03 | 2004-12-08 | Canon Kk | A user input interpreter and a method of interpreting user input |
US7409690B2 (en) * | 2003-12-19 | 2008-08-05 | International Business Machines Corporation | Application module for managing interactions of distributed modality components |
US7401337B2 (en) | 2003-12-19 | 2008-07-15 | International Business Machines Corporation | Managing application interactions using distributed modality components |
US20050136897A1 (en) * | 2003-12-19 | 2005-06-23 | Praveenkumar Sanigepalli V. | Adaptive input/ouput selection of a multimodal system |
US7430324B2 (en) * | 2004-05-25 | 2008-09-30 | Motorola, Inc. | Method and apparatus for classifying and ranking interpretations for multimodal input fusion |
FR2875919A1 (fr) * | 2004-09-27 | 2006-03-31 | France Telecom | Agent rationnel dialoguant, systeme de dialogue intelligent l'utilisant, procede de pilotage d'un dialogue intelligent, et programme pour sa mise en oeuvre |
US20060112056A1 (en) * | 2004-09-27 | 2006-05-25 | Accenture Global Services Gmbh | Problem solving graphical toolbar |
WO2006069381A2 (en) * | 2004-12-22 | 2006-06-29 | Enterprise Integration Group | Turn-taking confidence |
US20060155546A1 (en) * | 2005-01-11 | 2006-07-13 | Gupta Anurag K | Method and system for controlling input modalities in a multimodal dialog system |
JP4847022B2 (ja) * | 2005-01-28 | 2011-12-28 | 京セラ株式会社 | 発声内容認識装置 |
US7548859B2 (en) * | 2005-08-03 | 2009-06-16 | Motorola, Inc. | Method and system for assisting users in interacting with multi-modal dialog systems |
US20080072234A1 (en) * | 2006-09-20 | 2008-03-20 | Gerald Myroup | Method and apparatus for executing commands from a drawing/graphics editor using task interaction pattern recognition |
JP2008129713A (ja) | 2006-11-17 | 2008-06-05 | Fujitsu Ltd | 複数のモダリティを関連付けるための方法、そのプログラムおよび複数モダリティを関連付けるマルチモーダルシステム |
CN101424973A (zh) * | 2007-11-02 | 2009-05-06 | 夏普株式会社 | 输入装置 |
US10133372B2 (en) * | 2007-12-20 | 2018-11-20 | Nokia Technologies Oy | User device having sequential multimodal output user interface |
US20090162818A1 (en) * | 2007-12-21 | 2009-06-25 | Martin Kosakowski | Method for the determination of supplementary content in an electronic device |
US8647122B2 (en) * | 2008-06-28 | 2014-02-11 | Wael Abouelsaadat | System and method for enhancing prayer and healing rituals |
US20100125483A1 (en) * | 2008-11-20 | 2010-05-20 | Motorola, Inc. | Method and Apparatus to Facilitate Using a Highest Level of a Hierarchical Task Model To Facilitate Correlating End User Input With a Corresponding Meaning |
US8478712B2 (en) * | 2008-11-20 | 2013-07-02 | Motorola Solutions, Inc. | Method and apparatus to facilitate using a hierarchical task model with respect to corresponding end users |
KR20100078040A (ko) * | 2008-12-30 | 2010-07-08 | 삼성전자주식회사 | 멀티모달 시스템 및 그 입력처리방법 |
USD625733S1 (en) | 2009-03-04 | 2010-10-19 | Apple Inc. | Graphical user interface for a display screen or portion thereof |
WO2011149558A2 (en) | 2010-05-28 | 2011-12-01 | Abelow Daniel H | Reality alternate |
US8352908B2 (en) | 2010-06-28 | 2013-01-08 | International Business Machines Corporation | Multi-modal conversion tool for form-type applications |
JP5578571B2 (ja) * | 2011-03-31 | 2014-08-27 | Kddi株式会社 | 入出力デバイス情報を考慮したマルチモーダル対話プログラム、システム及び方法 |
USD671558S1 (en) | 2011-10-04 | 2012-11-27 | Apple Inc. | Display screen or portion thereof with icon |
USD703231S1 (en) | 2012-03-06 | 2014-04-22 | Apple Inc. | Display screen or portion thereof with graphical user interface |
USD705808S1 (en) | 2012-03-27 | 2014-05-27 | Apple Inc. | Display screen or portion thereof with animated graphical user interface |
USD711408S1 (en) | 2012-06-10 | 2014-08-19 | Apple Inc. | Display screen or portion thereof with graphical user interface |
USD703695S1 (en) | 2012-06-10 | 2014-04-29 | Apple Inc. | Display screen or portion thereof with graphical user interface |
USD754159S1 (en) | 2012-06-11 | 2016-04-19 | Apple Inc. | Display screen or portion thereof with graphical user interface |
JP5949413B2 (ja) | 2012-10-04 | 2016-07-06 | 日本電気株式会社 | ユーザ指示認識システム、ユーザ指示認識方法、情報処理装置、携帯端末およびその制御方法と制御プログラム |
USD704220S1 (en) * | 2013-02-23 | 2014-05-06 | Samsung Electronics Co., Ltd. | Display screen or portion thereof with graphical user interface |
USD736255S1 (en) * | 2013-02-23 | 2015-08-11 | Samsung Electronics Co., Ltd. | Display screen or portion thereof with graphical user interface |
US20140267035A1 (en) * | 2013-03-15 | 2014-09-18 | Sirius Xm Connected Vehicle Services Inc. | Multimodal User Interface Design |
JP6115941B2 (ja) * | 2013-03-28 | 2017-04-19 | Kddi株式会社 | 対話シナリオにユーザ操作を反映させる対話プログラム、サーバ及び方法 |
EP3112982A4 (en) | 2014-02-24 | 2017-07-12 | Mitsubishi Electric Corporation | Multimodal information processing device |
JP6359327B2 (ja) * | 2014-04-25 | 2018-07-18 | シャープ株式会社 | 情報処理装置および制御プログラム |
USD771112S1 (en) | 2014-06-01 | 2016-11-08 | Apple Inc. | Display screen or portion thereof with graphical user interface |
JP2016066151A (ja) * | 2014-09-24 | 2016-04-28 | 三菱電機株式会社 | 情報処理装置および情報処理方法 |
WO2016157658A1 (ja) * | 2015-03-31 | 2016-10-06 | ソニー株式会社 | 情報処理装置、制御方法、およびプログラム |
US10114676B2 (en) | 2015-05-05 | 2018-10-30 | Microsoft Technology Licensing, Llc | Building multimodal collaborative dialogs with task frames |
USD760746S1 (en) | 2015-06-04 | 2016-07-05 | Apple Inc. | Display screen or portion thereof with animated graphical user interface |
USD793440S1 (en) * | 2016-01-26 | 2017-08-01 | Google Inc. | Display screen with transitional graphical user interface |
USD792462S1 (en) | 2016-01-26 | 2017-07-18 | Google Inc. | Display screen with transitional graphical user interface for image navigation and selection |
USD843442S1 (en) | 2017-09-10 | 2019-03-19 | Apple Inc. | Type font |
JP6966979B2 (ja) | 2018-06-26 | 2021-11-17 | 株式会社日立製作所 | 対話システムの制御方法、対話システム及びプログラム |
USD902221S1 (en) | 2019-02-01 | 2020-11-17 | Apple Inc. | Electronic device with animated graphical user interface |
USD900871S1 (en) | 2019-02-04 | 2020-11-03 | Apple Inc. | Electronic device with animated graphical user interface |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5201034A (en) * | 1988-09-30 | 1993-04-06 | Hitachi Ltd. | Interactive intelligent interface |
JPH06131437A (ja) * | 1992-10-20 | 1994-05-13 | Hitachi Ltd | 複合形態による操作指示方法 |
JPH0772767A (ja) * | 1993-06-15 | 1995-03-17 | Xerox Corp | 対話型ユーザ支援システム |
-
1996
- 1996-03-14 JP JP05661396A patent/JP3729918B2/ja not_active Expired - Fee Related
- 1996-07-18 US US08/683,264 patent/US5878274A/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8738371B2 (en) | 2007-03-05 | 2014-05-27 | Kabushiki Kaisha Toshiba | User interactive apparatus and method, and computer program utilizing a direction detector with an electromagnetic transmitter for detecting viewing direction of a user wearing the transmitter |
Also Published As
Publication number | Publication date |
---|---|
JPH0991112A (ja) | 1997-04-04 |
US5878274A (en) | 1999-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3729918B2 (ja) | マルチモーダル対話装置及び対話方法 | |
Allen et al. | An architecture for a generic dialogue shell | |
Jokinen et al. | Spoken dialogue systems | |
Oviatt et al. | Designing the user interface for multimodal speech and pen-based gesture applications: State-of-the-art systems and future research directions | |
US8798999B2 (en) | Dialog design tool and method | |
US5748841A (en) | Supervised contextual language acquisition system | |
JP4689670B2 (ja) | 車両及び他の複雑な装置用の双方向マニュアル、システム及び方法 | |
Trung | Multimodal dialogue management-state of the art | |
EP0752129B1 (en) | A method and apparatus for providing a human-machine dialog supportable by operator intervention | |
JP3178426B2 (ja) | 自然言語対話システム及び自然言語対話プログラム記録媒体 | |
US20140028780A1 (en) | Producing content to provide a conversational video experience | |
US7260531B2 (en) | Interactive system, method, and program performing data search using pronunciation distance and entropy calculations | |
McTear et al. | Handling errors and determining confirmation strategies—an object-based approach | |
Hone et al. | Designing habitable dialogues for speech-based interaction with computers | |
JP3468572B2 (ja) | 対話処理装置 | |
JP2007018290A (ja) | 手書き文字入力表示支援装置及び方法並びにプログラム | |
Coen et al. | A context sensitive natural language modality for an intelligent room | |
Mane et al. | Designing the user interface for speech recognition applications | |
JP2006030513A (ja) | 教育支援装置及び教育情報管理サーバ | |
JP2007193422A (ja) | 対話型の情報処理システム、およびサービス・シナリオ用のヘルプ・シナリオを提供する方法 | |
KR102368929B1 (ko) | 음성인식기반 단축키 xr인터렉티브 연동시스템 및 이를 이용한 연동 방법 | |
CN110447026A (zh) | 用于在新的域中提供自动化助理的开发人员平台 | |
Lin et al. | The design of a multi-domain mandarin Chinese spoken dialogue system | |
US8346560B2 (en) | Dialog design apparatus and method | |
JP3536524B2 (ja) | 音声認識方法および音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040702 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040830 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050414 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050606 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051005 |
|
LAPS | Cancellation because of no payment of annual fees |