JPH0991112A

JPH0991112A - マルチモーダル対話装置及び対話方法

Info

Publication number: JPH0991112A
Application number: JP8056613A
Authority: JP
Inventors: Yasuyuki Kono; 恭之河野; Tomoo Ikeda; 朋男池田; Tetsuro Chino; 哲朗知野; Katsumi Tanaka; 克己田中
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1995-07-19
Filing date: 1996-03-14
Publication date: 1997-04-04
Anticipated expiration: 2016-03-14
Also published as: US5878274A; JP3729918B2

Abstract

(57)【要約】【課題】入出力メディアを状況に応じて動的に切替え
て対話する。【解決手段】異なる各種入力用デバイスのうち、入力
メディア割当に対応して少なくとも一つのデバイスから
利用者の入力デ−タを解釈し、その解釈対応の入力を前
記問題解決手段に与える入力手段11と、この入力対応
に、システムの目的に応じた処理を行い、結果を出力す
る問題解決手段15と、この問題解決手段の出力を解釈
し、この解釈結果を異なる各種出力用デバイスのうち、
出力メディア割当に対応した出力用デバイスに振り分け
て、利用者に出力する出力手段14と、利用者から複数の
入力デバイスに与えられた入力デ−タから問題解決手段
への入力デ−タを構築するために入力デ−タを選択し解
釈するための方法及びそれらのデ−タを組み合わせる方
法を前記入力手段および出力手段による前記利用者との
対話状況対応に動的に生成するメディア割当手段12とを
具備する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、情報処理装置にお
いて、組合わせて利用可能な複数の入出力手段を有する
ヒューマン・マシン対話装置およびその制御方法に関す
る。

【０００２】

【従来の技術】近年、電子計算機は、キーボード、マウ
ス、マイクロフォン、タッチパネル、イメージスキャ
ナ、ビデオカメラ、ペン、データグローブ、対人センサ
などの種類の異なる複数の入力手段、すなわち入力デバ
イスを装備し、様々な情報を入力することができるよう
になっており、また、ディスプレイやスピーカといった
出力デバイスにも、様々な情報を音声言語や効果音、音
楽といった様々な形態で出力できる機能を装備してきて
おり、これらの各種入出力デバイスを有効に利用したよ
り、使い易いヒューマン・マシンインタフェイスの要求
が高まっている。また、近年、これらの入出力デバイス
を用いて、例えば利用者がディスプレイ上の対象を指で
指示しながら音声でコマンドを発声するなど、複数の入
力デバイスを組み合わせた複雑な入力が可能な入力手
段、すなわち入力メディアを装備し、また、ディスプレ
イやスピーカなどの複数の出力デバイスを利用して、例
えばスピーカから音声言語でメッセージを伝えながらデ
ィスプレイに表示した人間の顔の表情と、スピーカから
の効果音でニュアンスを伝えるといった具合に、複数の
出力デバイスやその出力内容および形式を組み合わせた
複雑な出力が可能な出力手段、すなわち出力メディアを
装備することで、インタフェイスの使い易さや情報伝達
の質及び効率を向上させようというマルチモーダルイン
タフェイス技術の開発が盛んに行われている。

【０００３】ところで従来、スムーズで自然な、利用者
と計算機上のアプリケーションソフトウェアとの間の情
報の授受を実現するためには、この情報の授受を利用者
とアプリケーションの間の対話と見なし、予め記録され
た対話規則に基づいて対話プランを展開し、対話規則に
おいて決められた入出力方法の組合せでマルチモーダル
対話を実現するなどしていた。

【０００４】

【発明が解決しようとする課題】しかし、各々の対話の
フェイズにおいて入出力に使用するデバイスとデバイス
の利用方式の組合わせ、すなわち、メディア割当（メデ
ィアロケーション）を対話規則中に予め記述しておく方
式では、例えば、周辺ノイズ音量が大きく音声を入出力
手段として用いることが適切でないような状況に対処で
きないなど、メディアアロケーションが対話の流れに固
定的であり、状況に応じて入出力手段の組合せを選択し
利用者と対話することができないという問題があった。

【０００５】例えば、利用者が音声で入力することが可
能な対話装置を利用する場合を考えてみる。この場合、
現在の技術では音声認識の技術が十分成熟していないた
め、利用者によっては何度も同じ単語を発生しても認識
に失敗するということが発生し得る。これは、発音に癖
があり過ぎる場合等に多く発生し、対話装置側での認識
成功の確率は極めて低くなる。

【０００６】にも拘らず、従来のマルチモーダル対話装
置はこのような利用者に対しても、音声による入力のし
直しを何度も要求してしまうため、時間の無駄が生じた
り、利用者にストレスを感じさせたりするという問題が
あった。

【０００７】また、例えば音声による地名入力に対して
音声認識により、該当の観光地をデータベースから検索
し、検索結果を出力手段に出力するといった構成の音声
指示による旅行案内システムを考えてみると、この旅行
案内システムが利用者に音声による地名入力を求めた
が、これに対して利用者が例えば「竜安寺」（りょうあ
んじ）という地名を「りゅうあんじ」と読み間違えて発
声したため、システムが検索に失敗したような場合、従
来のマルチモーダル対話装置においては入出力メディア
割当を動的に行う手段を持たないため、利用者とのコミ
ュニケーションを回復するのが困難であった。

【０００８】つまり、利用者が「りょうあんじ」という
正しい固有名詞の読みを知らないことが、利用者とのコ
ミュニケーショクの失敗に繋がっているわけであるが、
これも例えば、漢字で入力選択する形式に切り替えたり
すれば、コミュニケーション回復が出来る可能性が極め
て大であるにもかかわらず、このような入出力メディア
割当を状況に応じて変更するといったことができないの
で、硬直状態に陥り、結果的には案内サービスができな
いということになる。

【０００９】また、例えば従来からある対話装置におい
てデータベース検索結果の内容を利用者に提示するよう
な場合、出力形態は予めプログラミングされた形態に固
定されている。つまり、検索結果の出力件数にかかわり
なく同一の出力形態が採られ、例えば数十件あるいは数
百件の検索結果があるのに、それを一つ一つ音声で読み
上げたり、逆に数件しかない検索結果を表形式で表示し
たりといった、利用者にとってわかりにくく使いにくい
入出力方式となる場合が少なからずあった。

【００１０】さらに、利用者が要求するメディア割当に
合わせてシステムが利用者と対話を行うことができない
ため、システムの利用者はシステムが決定し指定したメ
ディア割当に従って入出力を行わなければならないとい
う問題もあった。

【００１１】入力手段には種々のものがあるが、利用者
にとって使い易い入力手段は各人共通しているわけでは
なく、例えば、ある利用者は音声による入力を好むが、
別の利用者はコマンド文字列をキーボード入力するのを
好むといった具合に、利用者により使い易い入出力手段
は異なっているのが普通である。

【００１２】しかしながら、従来の対話装置においては
これらの個々人の差異が考慮されておらず、固定的な入
出力手段の組合せが提供されていて、利用者の好みで入
出力手段を選択的に利用できるようにはなっておらず、
使い勝手が良いものとはいえないという問題があった。

【００１３】また、入力手段を複数持つ従来のマルチモ
ーダル対話装置において、どの入力手段を用いるべきか
といったことや、どの入力手段がある時点で利用可能か
というこを利用者が認識することは困難であり、入力に
際して利用者に戸惑いやストレスを与えるという問題が
あった。

【００１４】更に、例えば従来の音声による入力もしく
は出力が可能な対話装置において、外部の騒音が激しく
なるなど音声を利用するのが好ましくない場合でも音声
を入力あるいは出力に用いるなど、動的にメディアアロ
ケーション（メディア割当）が行なえない従来の対話装
置においては、外部環境的要素の変化に応じた入出力方
式の変更が行えないという問題があった。

【００１５】このように従来のマルチモーダル対話装置
では、利用者はシステムが持つ対話規則で予め決められ
た入出力モードの組合せに従ってシステムと対話を行う
ことを強制させ、利用者にとってわかり易く使い易いイ
ンタフェイスではなかったため、利用者が情報の入力に
際してストレスを感じたり、出力を理解し難かったりし
ており、ときには入出力の失敗の原因ともなっていた。

【００１６】また、音声単語認識モードでは認識失敗に
起因する入力や失敗や誤入力があり得るといったよう
に、選択された特定の入出力手段の性質に起因する入出
力の失敗の場合でも、結果として対話の目的が未達成と
なってしまっていた。

【００１７】そこで、この発明の目的とするところは、
利用者の使い易い入出力インタフェイスとなり得るマル
チモーダル対話装置を提供することにある。特に本発明
では、ある時点で適切な入出力のメディア割当を動的に
選択する機能を持つことで、アプリケーションプログラ
ムのフロントエンドとして様々な状況に応じて利用者に
使い易い入出力インタフェイスを提供することができる
マルチモーダル対話装置を作成することにある。

【００１８】

【課題を解決するための手段】本発明に係るマルチモー
ダル対話装置は、利用者から複数の入力デバイスに与え
られた入力データからアプリケーションプログラムへの
入力データを構築するために入力データを選択し解釈す
るための方法及びそれらのデータを組み合わせる方法を
予め定めたルールに基づいて動的に生成する手段と、ア
プリケーションプログラムの出力データから利用者に提
示する表現を生成するために出力データを選択する方法
及びそれらのデータの組み合わせ・表現の方法を予め定
めたルールに基づいて動的に生成する手段を具備し、利
用者との対話の各々の時点において、入出力のそれぞれ
について適切な手段の組合せを動的に選択し対話を継続
することができることを特徴とするものである。

【００１９】本発明によれば、利用者が計算機システム
と対話を行う際に、対話の各時点で利用可能な入出力手
段を反映した入出力方式を選択し、また利用者がその利
用者にとって利用しやすい入出力手段を用いた入出力の
方式を選択し利用することが可能となる。

【００２０】また本発明によれば、メディアアロケーシ
ョン（メディア割当）が対話の流れに固定的であり、状
況に応じて入出力手段の組合せを選択し利用者と対話す
ることができないという従来のマルチモーダル対話装置
の問題を解決することが可能となる。

【００２１】更に本発明によれば、従来のマルチモーダ
ル対話装置ならば特定の利用者に対して音声による入力
のし直しを何度も要求してしまうなど、時間の無駄が生
じたり利用者にストレスを感じさせたりするという問題
があったような場合においても、動的に入出力手段を選
択し切替える手段を具備することによりこの問題を解決
し、利用者が時間の無駄やストレスを感じることなく計
算機システムを利用することが可能となる。

【００２２】更に本発明によれば、入力の解釈処理が失
敗した場合に従来のマルチモーダル対話装置においては
利用者とのコミュニケーションを回復するのが困難であ
ったのに対し、動的に入出力手段を選択し切替える手段
を具備することにより、この問題を解決し、速かに利用
者とのコミニュケーションを回復することができる。

【００２３】更に、例えば従来からある対話装置におい
てデータベース検索結果の内容を利用者に提示するよう
な場合、少ない検索結果を知らせるために音声出力の形
態を採用していれば、検索結果が数十件、数百件あって
もその検索結果の出力を音声で読み上げるなど、出力件
数にかかわりなく同一の出力形態が採られ、逆に大量の
検索結果の扱いを容易にするために表形式を採用してい
る場合には、数件しかない検索結果であっても表形式で
表示したりといった固定的なものである。

【００２４】しかし、本発明では動的に入出力手段を選
択し切替える手段を設けて、このような、利用者にとっ
てわかりにくく使いにくい入出力方式となるような場合
においては、動的に入出力手段を選択し切替えるように
することにより、この問題を解決し、利用者にわかりや
すい入出力方式をとることができるようになる。

【００２５】更に、本発明によれば、従来の対話装置に
おいては使い易い入出力手段に関する個々人の差異が考
慮されておらず、固定的な入出力手段の組合せが選択さ
れていたという問題に対して、各々の利用者がそれぞれ
にとって使いやすい入出力方法の組合せを利用すること
が可能となる。

【００２６】更に、本発明によれば、入力手段を複数持
つ従来のマルチモーダル対話装置において、どの入力手
段を用いるべきかやどの入力手段がある時点で利用可能
かということを利用者が認識することは困難であり、入
力に際して利用者に戸惑いやストレスを与えるという問
題に対して、利用者が入力に利用することが可能な手段
を表示もしくは掲示する手段を具備することによりこの
問題を解決し、利用者が入力手段を容易に認識すること
が可能となり、利用者にわかりやすく使いやすいインタ
フェイスを提供することが可能となる。

【００２７】かくして、利用者は利用者とアプリケーシ
ョンプログラムが求める情報の質と量、及び利用する計
算機システムが利用可能な入出力手段に依存するがアプ
リケーションプログラムに依存しないヒューマン・マシ
ンインタフェイスを利用することが可能になる。

【００２８】

【発明の実施の形態】本発明は、入出力のそれぞれにつ
いて、手段の組み合わせを動的に選択する手段を具備す
ることにより、状況に応じた入出力方法を利用者に提供
することで、使い易いインタフェイスを実現し、また、
利用可能な入力手段を利用者に知らしめる手段を具備す
ることで、よりわかり易い入力環境を利用者に提供し、
さらに入出力手段の組み合わせを変更して利用者との対
話の失敗から回復し、対話を継続することができるマル
チモーダル対話装置を提供するものであり、以下、図面
を参照して本発明の詳細について説明する。

【００２９】図１は本発明の具体例に係るマルチモーダ
ル対話装置の構成図である。図１に示すように本発明の
マルチモーダル対話装置１０は入力部１１、メディア割
当決定部１２、対話管理部１３、出力部１４の計４つの
構成要素からなり、システムに接続される物理デバイス
を通じて利用者との対話処理を行い、利用者と問題解決
手段（バックグラウンドアプリケーション）１５の仲立
ちを行う。

【００３０】入力部１１はマウスデバイス、マイクロフ
ォン、テレビカメラ、キーボード、タブレット、イメー
ジスキャナ、センサなど各種の入力デバイスＩＤＶａ〜
ＩＤＶｎの出力を取り込むためのものであり、出力部１
４はディスプレイ、スピーカ、ランプ、プリンタ、プロ
ッタ等各種の出力デバイスＯＤＶａ〜ＯＤＶｎへの駆動
出力を発生するものである。

【００３１】メディア割当決定部１２は入力用出力用の
各種デバイスとそれら各種デバイスの利用方式の組合
せ、すなわち、メディア割当（メディアアロケーショ
ン）を決定するための装置であり、その時々での最良の
組み合わせを選択することができる機能を有する。

【００３２】また、対話管理部１３は問題解決手段１５
との間で授受される情報や、入力部１１および出力部１
４からの状態情報等に基づいてメディア割当の要求を行
ったり、対話のプランを生成したりする等、ユーザとシ
ステムの間の対話の方法、流れを制御するものである。

【００３３】問題解決手段１５は、入力に対してその回
答や返答を行うアプリケーションであり、これは対話に
よって目的の回答を出したり、目的の仕事をするような
アプリケーションであって例えば、観光案内システムや
定期券乗車券発売機等なんでも良い。図１５に、本発明
のマルチモーダル対話装置１０の詳細構成をブロック図
で示す。

【００３４】（入力部１１および出力部１４の詳細）図
１５に示すように、本発明のマルチモーダル対話装置１
０の入力部１１は入力デバイス処理部１１１、入力モー
ド処理部１１２、入力メディア処理部１１３の３つのモ
ジュールから構成され、また、出力部１４は出力メディ
ア処理部１４１、出力モード処理部１４２、出力デバイ
ス処理部１４３の３個のモジュールからなる。

【００３５】ここで、モードとは一つのデバイスからの
入力（出力も同様）を解釈し、抽象化したものとする。
例えば、マウスデバイスから入力されたデータはそれを
解釈するモード部品により操作対象の指示、コマンドの
発行といった複数のモードによる解釈と利用が可能であ
る。

【００３６】同様に、メディアとは複数（一つでもよ
い）のモードからの解釈結果を組み合わせたものとし、
入力を組み合わせて得られる処理結果を指示内容として
指示対象に渡すことができるものを指している。

【００３７】例えば、マウス・オブジェクト指示−音声
コマンドメディアは、パソコン等のポインティングデバ
イスであるマウスデバイスからの入力と、音声によるコ
マンドを併せて解釈してコマンド発行をするものであ
り、アプリケーションへのコマンドを指示する音声を解
釈することのできる音声コマンドモードと、マウスデバ
イスからの入力をコマンド操作対象を指示する操作とし
て解釈するマウス・オブジェクト指示モードの解釈結果
とを入力とし、それらの入力を組み合わせて「マウスで
指示された対象に対して音声で指示されたコマンドを発
行する」という処理をアプリケーションに伝えるといっ
たことを行うメディアである。

【００３８】＜入力部１１＞入力部１１の構成要素であ
る入力デバイス処理部１１１は、各物理入力デバイスか
ら伝達されたデータを入力とし、ディジタルデータへの
変換等そのデータを解釈するための最小限の処理を行う
入力デバイス処理部品を構成要素に持つ。デバイス処理
部品は入力デバイス毎に用意され、独立・並列に動作す
る。各デバイス処理部品は、対応するデバイスへの入力
に上記の処理を施した後、対応する一つまたは複数の入
力モード処理部１１２に送付する。例えばマイクデバイ
ス処理部品は、例えば利用者がマイクロフォンから入力
した音声を背景ノイズと共に取り込み、例えば１２ｋＨ
ｚの標本周波数、１６ｂｉｔの量子化ビット数のデジタ
ルオーディオ信号に変換し、その信号を入力モード処理
部１１２に出力する。

【００３９】入力モード処理部１１２は、各抽象入力モ
ードへの入力を処理する部品を構成要素に持つ。一つの
入力モード処理部品は一つの抽象入力モードに対応し、
一つの入力デバイス処理部から送付された整形されたデ
ータを、抽象モード毎に抽象化し解釈する。各入力モー
ド部品は入力デバイス部品と例えば表１に示したように
１対１、もしくは１対多の対応関係にある。

【００４０】各入力モード処理部１１２で解釈された結
果は、入力メディア処理部１１３に送付される。例え
ば、音声コマンド入力モード処理部品は、送られてきた
デジタルオーディオ信号を、例えば高速フーリエ変換に
よる周波数分析により特徴パラメータ時系列を求め、さ
らに例えば複合類似度法、隠れマルコフモデルなどの方
式に基づき音声認識を行い、与えられた認識対象コマン
ド語彙の中から尤度の最も高い語彙を得、その情報を入
力メディア処理部１１３に出力する。

【００４１】入力メディア処理部１１３は、入力モード
処理部１１２から得られた利用者の入力のモード毎の解
釈結果を各抽象メディア単位に組合せることで統合され
た入力を生成し、得られた複数のメディア入力のうちか
ら必要なメディアからの入力をメディア割当決定部１２
の指示に従いながら選択し、問題解決手段１５に対する
入力コマンドおよびデータを与える。

【００４２】入力メディア処理部１１３の構成要素は、
各抽象メディア毎に用意された入力メディア処理部品１
１３ａと、それらの部品の処理結果のうちどれを問題解
決手段１５に送付するかを指定するメディア選択スイッ
チＳＷである。各入力メディア処理部品１１３ａは、一
つまたは複数の入力モード部品からの出力データ（抽象
モードでの解釈結果）を入力として受け入れ、それらを
統合してメディアとしての解釈結果をメディア選択スイ
ッチＳＷに送る。

【００４３】メディア選択スイッチＳＷは、対話管理部
１３の指示に従いバックグラウンドアプリケーションに
送付するメディア出力を選択し、送付する。例えばマウ
ス・オブジェクト指示−音声コマンドメディア入力処理
部品は、マウス・オブジェクト指示モード入力処理部品
の出力と音声コマンドモード入力処理部品の出力を入力
とし、それらを組み合わせてメディアとしての解釈を生
成し出力する。そして、例えば、現在の入力メディアと
してマウス・オブジェクト指示−音声コマンドメディア
が選択されている場合、メディア選択スイッチＳＷはこ
のメディアによる入力の解釈結果のみを問題解決手段１
５に引き渡す。

【００４４】＜出力部１４＞出力部１４の構成要素であ
る出力メディア処理部１４３は、対話管理部１３が与え
るメディアのアロケーション情報（割当て情報）に従い
ながら問題解決手段１５からの出力データを選択し、各
抽象出力メディアに振り分けてメディア毎に加工し、そ
れらを出力モード単位に分割・統合して出力モード処理
部の各モード処理部品にその出力モードが取り扱うデー
タを受け渡す。このような処理を行うために、出力メデ
ィア処理部１４３は出力メディア振り分けスイッチ１４
３ａ、出力メディア処理部１４３ｂ、メディア・モード
インタフェイス１４３ｃの３つのモジュールから成る。
メディア振り分けスイッチ１４３ａは、バックグラウン
ドアプリケーションが送付してきた出力データを対話管
理部１３の指示に従いながら、実際に（利用者に）出力
されるデータを選択し、それを抽象メディア処理部品に
振り分ける。

【００４５】出力メディア処理部品１４３は、各抽象出
力メディアに対応する出力メディア処理部品を構成要素
として持ち、メディア振り分けスイッチ１４３ａにより
担当メディアに振り分けられた出力データを、そのメデ
ィアに出力できる形に加工して送出する。メディア・モ
ードインタフェイス１４３ｃは、各抽象出力モード１対
１に対応するメディア・モードインタフェイス部品を構
成要素に持つ。各メディア・モードインタフェイス部品
はそのモードが担当する１つまたは複数の抽象メディア
処理部品からの出力を統合し、対応する出力モード処理
部品にデータを受け渡す。

【００４６】出力モード処理部１４２は、各抽象出力モ
ードへの出力を処理する出力モード処理部品１４２ａと
モード毎の出力データを出力デバイス毎に統合するモー
ド・デバイスインタフェイス１４２ｂを構成要素に持
つ。一つの出力モード処理部品は一つの抽象出力モード
に対応し、そのモードに対応するメディア・モードイン
タフェイス部品から送られてきたメディアデータに出力
モード毎の処理を施し、モード・デバイスインタフェイ
ス１４２ｂに受け渡す。

【００４７】モード・デバイスインタフェイス１４２ｂ
の一つの部品は一つの出力デバイス部品に対応し、その
デバイスが担当する１つまたは複数の抽象デバイス処理
部品からの出力を統合し、対応する出力デバイス処理部
品にデータを受け渡す。出力デバイス処理部１４１は、
各出力デバイス毎に用意された出力デバイス処理部品を
構成要素として持つ。各出力デバイス処理部品は、対応
するメディア・デバイスインタフェイスの出力データを
入力コマンド及びデータとして担当する出力デバイスを
駆動する。

【００４８】（メディア割当決定部１２の詳細）図１５
に示されるように本発明のマルチモーダル対話装置１０
のメディア割当決定部１２は、符号１２１を付して示し
たように、メディア割当生成部というモジュールと、符
号１２２を付して示す次メディア割当選択テーブル、お
よひ符号１２３を付して示す現メディア割当記憶スロッ
ト、符号１２４を付して示すモード−メディア割当対応
表の３つの記憶部品から構成される。これらのうち、メ
ディア割当生成部１２１は、実際にアプリケーションに
入力するデータ及びその組み合わせ（メディアアロケー
ション）、そして対話管理部１３の問いに合わせに応じ
て次メディア割当選択テーブル１１２を参照して、実際
にユーザに与えるデータとしその適切な組み合わせ・表
現方法を生成し、対話管理部１３に伝達する。

【００４９】（対話管理部１３の詳細）図１５に示され
るように、本発明のマルチモーダル対話装置１０の対話
管理部１３は、入力メディア処理部１１３および出力メ
ディア処理部１４３から得られる入出力モードの状態
と、問題解決手段（バックグラウンドアプリケーショ
ン）１５とのデータ交換の状態を、問題解決手段１５か
ら問題解決手段１５の状態の通知や問題解決手段１５か
らの入出力要求を、複数の利用者に共通した特徴情報、
問題解決手段１５の制御方法に関する情報をイベントと
して受け取り、それらの情報をもとに対話のプランを生
成する。

【００５０】そして、そのプランの実行過程において入
力メディア処理部１１３と出力メディア処理部１４３、
そして問題解決手段１５に指示を行うことにより、ユー
ザとシステムの間の対話の方法・流れを制御する。

【００５１】このような処理を行う枠組としては、入力
メディア処理部１１３や出力メディア処理部１４３、問
題解決手段（バックグラウンドアプリケーション）１
５、およびメディア割当決定部１２といった他のモジュ
ールとの間の情報の授受を対話と見做せば、例えば、特
開平５−２１６６１８号に開示した音声対話システムの
ように、状態遷移モデルを用いた方法や、Ｓａｃｅｒｄ
ｏｔｉ，Ｅ．Ｄ．著“ＡＳｔｒｕｃｔｕｒｅｆｏｒ
ＰｌａｎｓａｎｄＢｅｈａｖｉｏｒ”，Ａｍｅｒｉ
ｃａｎＥｌｓｅｒｖｉｅｒ刊，１９７７年にあるよう
な階層プラン合成方式を利用することで、実現可能であ
る。

【００５２】対話管理部１３は符号１３１を付して示し
たように、対話プランナと呼ぶモジュールを持ち、この
対話プランナ１３１は対話規制記憶テーブル１３２、お
よび対話プリミティブ記憶テーブル１３３の２つの記憶
テーブルと、図示しないがプラン記憶部、初期目標記録
スロット、および現在目標スロットという３つの記憶部
品を持ち、それにより対話プランを構築し、実行する。

【００５３】以上が本装置の構成とその機能である。本
装置の中核モジュールである対話管理部１３の動作のフ
ローチャートを図１９に示す。この図に基づいて本装置
の動作原理とデータの利用方法について述べる。

【００５４】まず、本装置が起動されると、対話管理部
１３の対話プランナ１３１はプラン生成のための初期目
標が予め設定されている初期目標記録スロットから取り
出し、その目標を基に対話管理部１３内の図示しないプ
ラント記憶部に全ての対話プランを順に展開する。

【００５５】プラン記憶部の一つの項目は、“ノードＩ
Ｄ”、“目標”、“状態”、“サブノードＩＤリス
ト”、“結果”の５つのスロットから成り、これをプラ
ンノードと呼ぶ。ある一つの目標が立てられると、プラ
ンノードが一つ生成され、設定された目標が目標スロッ
トに代入され、ノードＩＤスロットには各プランノード
にユニークな記号が割りあてられる。

【００５６】状態スロットには、“未処理”、“処理
中”、“成功”、“失敗”、“再試行”の５つのうち１
つが代入される。サブノードＩＤリストスロットには、
目標スロットの内容から展開されたサブ目標に対応する
プランノードのＩＤがリストの形式で収納される。

【００５７】結果スロットには、そのスロットが属する
プランノードの目標の実行結果が収納される。以降、例
えば、“ノードＩＤスロットの値がｐ０００であるプラ
ンノード”のことを、単に“プランｐ０００”、あるい
は“サブプランｐ０００”と記述する。

【００５８】ある対話目標をそのサブ目標に展開するた
めに、対話管理部１３は対話規則記憶テーブル１３２を
持つ。対話規則記憶テーブル１３２には図２に示すよう
な対話規則を表す複数の項目が収められており、その各
々を対話規則ノードと呼ぶ。一つの対話規則ノードは
“ルールＩＤ”、“目標”、“適用条件”、“サブ目標
リスト”の４つのスロットからなる。“ルールＩＤ”は
プランノードのノードＩＤと同様に、各対話規則にユニ
ークな記号が割り当てられる。

【００５９】各対話規則ノードには、その規則が達成す
る目標が目標スロットに納められ、目標が展開されて生
成される（一般に複数の）サブ目標の系列がサブ目標リ
ストスロットに納められ、規則を適用するための条件が
適用条件スロットにそれぞれ納められる。

【００６０】対話プランナ１３１は対話規則記憶テーブ
ル１３２に収められた対話規則を上から順に探索し、条
件に適合する最初の対話規則を適用する。対話プランの
生成と実行は、与えられた目標を満足する規則を対話規
則の中から探索・適用してサブ目標に展開・実行すると
いう操作を再帰的に繰り返すことで実現されている。

【００６１】そして、最終的に初期目標が満足された場
合、対話全体が成功し、本装置は停止する。以降、例え
ば、ルールＩＤスロットの値が“ｒ００”である対話規
則ノード”のことを、単に“対話規則ｒ００”、あるい
は“ルールｒ００”と記述する。

【００６２】対話プランナ１３１はある時点での対話の
目標を現在目標スロットに納めて管理する。現在目標ス
ロットの目標を展開する対話規則を探索する前に、対話
プランナ１３１は図３に示すような直接実行可能な対話
の最小単位である対話プリミティブを収納した対話プリ
ミティブ記憶テーブル１３３を探索する。

【００６３】対話プリミティブ記憶テーブル１３３の一
つの項目を対話プリミティブノードと呼び、これは“フ
ァクトＩＤ”、“目標”、“仕様”の３つのスロットか
らなる。現在目標スロットの内容が、対話プリミティ
ブ記憶テーブル１３３中の、ある対話プリミティブノー
ドの目標スロットの値に単一化可能である場合、対話プ
ラナン１３１はその目標を対話プリミティブとなみし、
対応する対話プリミティブノードの仕様スロットに記述
されている内容を実行する。

【００６４】対話管理部１３が管理し実行するモジュー
ル間の対話のプリミティブは、メディア割当決定部１２
に対する適切なメディア割り当ての問い合わせとその回
答、入出力メディア部品に対する設定指令と入出力指
令、問題解決手段１５に対する入出力要求のいずれかで
ある。

【００６５】以降、例えば、「ファクトＩＤスロットの
値が“ｆ００”である対話プリミティブノード」のこと
を単に“対話プリミティブｆ００”あるいは“ファクト
ｆ００”と記述する。

【００６６】対話プラントの展開・実行時にある時点で
の目標に単一化可能な対話プリミティブ、および対話規
則のいずれもなかった場合、その目標は失敗する。ある
目標が失敗した場合、対話プランナ１３１はコンピュー
タプログラム言語のひとつである“Ｐｒｏｌｏｇ言語”
の実行過程において計算機をバックトラックするのと同
様の方法で、対話プラントの展開過程の後戻りと対話規
則の再試行を行う。

【００６７】すなわち、ある対話目標Ｐ_i の実行に際
し、対話規則Ｒ_i を適用して失敗した場合、対話プラン
ナ１３１Ｐ_i に適用可能な他の対話規則、もしくは対話
プリミティブを探索し、適用可能なものがあればその対
話規則または対話プリミティブを適用してＰ_i を満足す
るという目標を再試行する。

【００６８】Ｐ_i に適用可能なすべての対話規則および
対話プリミティブが失敗した場合、対話プランナ１３１
は対話目標Ｐ_i の直前に成功した対話目標Ｐ_c まで後戻
りし、同様にその対話目標Ｐ_c の再試行を行う。目標遂
行の失敗が続く限り目標の後戻りは連続的に発生し、仮
に初期目標まで後戻りして初期目標自体が失敗した場
合、対話全体が失敗したことになり、本装置は停止す
る。

【００６９】メディア割当決定部１２は、マルチメディ
ア割当（ＭＡ）の問合せである“ＭＡ問合せ”という対
話プリミティブの実行という形で対話プランナ１３１か
ら呼び出される。メディア割当決定部１２は、現メディ
ア割当記憶スロットに収納されている問い合せが発生し
た時点でのメディア割当の状態と、図６に示すような次
メディア割当選択テーブル１２２を用いて、その時点で
適切なメディア割当を決定する。

【００７０】次メディア割当選択テーブル１２２の一つ
の項目を次メディア割当選択ノードと呼び、各次メディ
ア割当選択ノードは“ノードＩＤ”、“現メディア割
当”、“条件”、“次メディア割当”の４つのスロット
を持つ。

【００７１】メディアアロケーション生成部１２１は、
現メディア割当記憶スロットの内容とメディア割当決定
部１２が呼び出された際の条件が適合する次メディア割
当選択ノードを、次メディア割当選択テーブル１２２の
中から探索し、次メディア割当の候補を生成する。

【００７２】次にメディア割当生成部１２１は、発見し
た次メディア割当選択ノードの次メディア割当スロット
の内容から、図７に示すようなモード−メディア割当対
応表１２４を探索して、あるメディア割当を適用する際
の制約条件を検証する。モード−メディア割当対応表１
２４の一つの項目をモード−メデァア割当対応ノードと
呼び、各モード−メディア割当対応ノードは、“Ｉ
Ｄ”、メディア割当名”、“制約”、“入出力モード
組”の４つのスロットからなる。

【００７３】メディア割当生成部１２１がメディア割当
の制約検証を行う際には、メディア割当名のスロットが
探索するメディア割当名と合致するモード−メディア割
当対応ノードを探索し、そのモード−メディア割当対応
ノードの制約スロットに記述されているメディア割当を
実際に行う際の制約を取り出し、問い合わせ時点での状
態がその制約を満足しているかどうかを検証する。

【００７４】この制約が満足されていれば、そのメディ
ア割当候補が最終的に次メディア割当として選択され、
対話プランナ１３１に回答される。ここで、メディア割
当生成部１２１がメディア割当の決定を依頼され、次メ
ディア割当選択テーブルを探索する際に、あるメディア
割当ノードの現メディア割当スロットもしくは条件スロ
ットの値が“−”の場合、そのスロットの値は検証に用
いられない。

【００７５】例えば、現メディア割当スロットの内容が
“−”である次メディア割当ノードは、現メディア割当
記憶スロットの値が何であっても条件スロットの内容と
モード−メディア対応表の制約スロットの内容が適合し
ていれば、適応可能である。また、次メディア割当ノー
ドの現メディア割当スロットおよび次メディア割当スロ
ットには、メディア割当の内容以外に入力メディアと出
力メディアの組の形でも記述できる。

【００７６】また、この入力メディアと出力メディアの
いずれかに、変数を用いることが可能である。例えば、
図６にノードＩＤスロットの値が“ｍ０６”である次メ
ディア割当選択ノードにおいて、現メディア割当スロッ
ト値が“（音声言語、ＸＸＸ）”であり、次メディア割
当スロットの値が“（ペン文字列、ＸＸＸ）”となって
いるが、次メディア割当選択ノードは現メディア割当記
憶スロットの値になっているメディア割当の入力メディ
ア、すなわち、現在設定されている入力メディアが“音
声言語”であれば、出力メディアが何であれ他の制約が
満足されれば適用可能である。

【００７７】このとき、現メディア割当スロットの出力
メディア側の値、すなわち、変数““ＸＸＸ”には現メ
ディア割当記憶スロットの出力メディア側の値が一時的
に代入され、その代入結果はその現メディア割当スロッ
トが属する次メディア割当選択ノードに反映される。

【００７８】そして、次メディア割当スロットの制約の
探索と検証は、モード−メディア割当対応表の入出力メ
ディアスロットの値と対応づけることにより行う。例え
ば、現メディア割当スロットの値が“ヒューマン”であ
る時に、呼出条件が“入力失敗”でメディア割当生成部
１２１が呼び出されたとする。

【００７９】メディア割当生成部１２１は次メディア割
当を決定するために、まず次メディア割当選択テーブル
１２２を探索するが、図６にある次メディア割当選択ノ
ードのうちノードＩＤスロットの値が“ｍ０１”から
“ｍ０５”の次メディア割当選択ノードは条件が適合し
ないため選択されない。

【００８０】次にメディア割当生成部１２１はノードＩ
Ｄスロットの値が“ｍ０６”の次メディア割当選択ノー
ドが適応可能であるか否か検証しようとするが、この次
メディア割当選択ノードの現メディア割当スロットの値
が入力メディアと出力メディアの組の形式で記述されて
いるため、まず現メディア割当記憶スロットの値を入力
メディアと出力メディアの組に再構成する。

【００８１】そのために、メディア割当生成部１２１は
図７を探索し、ノードＩＤスロットの値が“ｍｍ０１”
であるモード−メディア割当対応ノードのメディア割当
スロットの値が現メディア割当記憶スロットの値と同じ
“ヒューマン”であることから、このモード−メディア
割当対応ノードの入出力モードスロットの値からメディ
ア割当“ヒューマン”の入力メディアが“音声言語”モ
ード単体であり出力メディアが“音声言語”モードと
“顔画像”モードの組合せである“（音声言語、音声言
語＋顔画像）”という入出力メディア組であることを得
る。

【００８２】メディア割当生成部１２１はこの情報を用
い、ノードＩＤの値がｍ０６である件の次メディア割当
選択ノードの現メディア割当スロットの値である。
“（音声言語、ＸＸＸ）”と単一化を図り、変数ＸＸＸ
に“音声言語＋顔画像”を一時的に代入する。

【００８３】この代入は同じ次メディア割当選択ノード
の次メディア割当スロットに反映され、このスロットの
値は“（ペン文字列、音声言語＋顔画像）”となる。次
に、メディア割当生成部１２１は同じ次メディア割当選
択ノードの条件スロットの値“呼出条件＝入力失敗”を
検証し、この場合は成功する。さらにメディア割当生成
部１２１は図７の如きモード−メディア割当対応表の探
索を行い、入出力モードスロットの値が“（ペン文字
列、音声言語＋顔画像）”であるモード−メディア割当
対応ノードの制約を検証する。

【００８４】仮にその制約が満足された場合、次メディ
ア割当の選択は成功し、このモード−メディア割当対応
のノードのメディア割当名スロットの値である“ペン文
字列入力・ヒューマン対応”と言うメディア割当が現メ
ディア割当記憶スロットに代入され、メディアアロケー
ション結果（メディア割当結果）として対話管理部１３
に返される。変数ＸＸＸへの一時的な代入は、その変数
が所属する次メディア割当選択ノードの検証が終了する
と解消される。以降、例えば「ノードＩＤスロットの値
が“ｍ００”である次メディア割当選択ノード」のこと
を、単に“次メディア割当選択ノードｍ００”と記述す
る。また例えば「ＩＤスロットの値が“ｍｍ００”であ
るモード−メディア割当対応ノード」のことを、単に
“モード・メディア割当対応ノードｍｍ００”と記述す
る。

【００８５】［具体的動作例（第一の動作例）］本発明
を理解し易くするために、具体例として本装置を観光地
における旅館案内のアプリケーションに適用した場合の
例をつぎに述べる。ここでの観光地における旅館案内の
アプリケーションが、すなわち、今までの説明で登場し
た問題解決手段１５に相当する。

【００８６】対話管理部１３の対話規則記憶テーブル１
３２には、図２に示す対話規則および図３に示す対話プ
リミティブが予め記憶されている。また、初期目標記憶
スロットには、“対話セッション”という初期目標が予
め与えられ記憶されている。

【００８７】まず本装置を起動させた時、対話プランナ
１３１は初期目標を初期目標記憶スロットから取り出
し、その目標を満足する規則“ｒ００”を呼び出す。そ
して、対話プランナ１３１によって対話規則“ｒ００”
は図４に示すように展開される。

【００８８】対話プランナ１３１は初期のサブ目標であ
るユーザ検出を呼び出し、対話規則“ｒ１１”が展開さ
れ、さらに対話規則“ｒ１２”が展開される。サブ目標
“ＭＡ問合せ（待機、ＭＡ１）”の実行にあたり、対話
プランナ１３１は適応可能な対話規則が対話規則記憶テ
ーブル１３２に無いため、図３に示す対話プリミティブ
記憶テーブル１３３を検索する。

【００８９】その結果、対話プランナ１３１は、対話プ
リミティブ“ｆ０１”を発見し、仕様の項目にある“メ
ディア割当決定部呼び出し”を実行し、メディア割当決
定部１２にその時点で呼び出し条件に適合し、かつ、利
用可能なメディア割り当てを問い合わせる。

【００９０】メディア割当決定部１２は、その時点のメ
ディア割当と利用可能なメディアやその他の状況をもと
に、図６に示すような次メディア割当選択テーブル１２
２を引いて次に選択すべきメディア割当を決定する。こ
の場合テーブル要素“ｍ０１”が適用され、“待機”の
メディア割当が選択される。

【００９１】次にメディア割当決定部１２は、図７のモ
ード−メディア割当対応表を引いて該当するメディア割
当を適用する際の制約を確認する。この場合、入力セン
サデバイスが利用可能であれば、メディア割当決定部１
２は最終的に“待機”のメディア割当を選択し対話管理
部に返答する。

【００９２】対話管理部１３は、メディア割当決定部１
２が返答してきたメディア割当に基づき、入力メディア
処理部１１３および出力メディア処理部１４３に、それ
ぞれ利用すべきメディアを通知する。これにより、入力
メディア処理部１１３および出力メディア処理部１４３
はその通知に従ってモード−メディア割当対応表を引
き、それぞれメディア選択スイッチＳＷ、メディア振り
分けスイッチ１４３ａの状態を変更することで入出力チ
ャネルを設定する。

【００９３】この例の待機メディア割当の場合、入力チ
ャネルとして対人センサのみを開き、出力チャネルは例
えば図２０のような待機メッセージを画面に出力する。
以上の処理により、サブ目標“ｐ１１”は成功し、対話
プランナ１３１は次のサブ目標“検出待機”を実行に移
そうとする。このサブ目標は図３の対話プリミティブ記
憶テーブル１３３に記憶されている通り対話プリミティ
ブであり、即座に実行される。

【００９４】このとき、対話管理部１３内のプラン記憶
部の状態は図５のようになっている。対話プリミティブ
“ユーザ検出”は、対人センサ検出メディアの状態が変
化するまで待ち状態を続ける。

【００９５】装置の前に利用者が立つと入力センサが反
応し、対話プリミティブ“ユーザ検出”が成功し、サブ
プラン“ｐ０１”が満足され、次のサブ目標“ＭＡＲ選
択（初期）”が呼び出される。このサブ目標は更に“ｒ
１２”により展開され、待機メディアの選択時と同様に
対話プランナ１３１はサブ目標“ＭＡ問合わせ”を実行
するためにメディア割当決定部１２を呼び出して対話開
始のためのメディア割当を問合わせる。

【００９６】メディア割当決定部１２は、待機メディア
割当の場合と同様に、自己の保持する次メディア割当選
択テーブル１２２とモード−メディア割当対応表１２４
を引くことによって、条件と制約を満足するメディア割
当を選択する。

【００９７】この結果、この例の場合には“ヒューマ
ン”というメディア割当が選択され、対話管理部１３に
返答される。対話管理部１３は返答されたメディア割当
を入力メディア処理部１１３と出力メディア処理部１４
３に指示することで、メディア割当“ヒューマン”に基
づく対話を行う。

【００９８】このメディア割当“ヒューマン”というの
は、入力に音声認識、出力には顔画像と音声言語を用い
ることで音声による自然な対話が行えるメディア割当で
ある。従って、利用者は自分の声で質問や要望、回答や
応答等を行えば良く、それに対する返答や回答等は装置
側がディスプレイに顔画像を表示し、併せて音声言語を
用いて行ってくれることになって、より人間がわかり易
く、扱い易いものとなる。

【００９９】また更に、例えば上のような場合におい
て、背景雑音が大きいために音声入力モードもしくは音
声出力モートが使用不可能であると入力メディア処理部
１１３もしくは出力メディア処理部１４３からメディア
割当決定部１２にデータが与えられていれば、メディア
割当“ヒューマン”は選択されず、別のメディア割当が
行われて対話が継続される。例えば、背景雑音の影響を
全く受けることのないように、入力はキーボード、出力
は画面による文字表示といった具合である。

【０１００】かくして、本発明は従来のマルチモーダル
対話装置の基本構成に、適切なメディア割当を決定する
手段を追加する構成としたことにより、対話の状況およ
びその時点で利用可能な入出力手段に合わせて適切な入
出力メディアを動的に選択することができるようにな
り、これにより、状況に応じてより使い易いインタフェ
イスを利用者に提供することが可能となる。

【０１０１】以上は、マルチモーダル対話装置の側がそ
の時々の状況に対応して最適な種々の入出力メディアを
動的に選択することで、使い易いインタフェイスを利用
者に提供するものであったが、利用者の側が種々の入出
力メディアのうちの、使用したいものを任意に選択指定
することで、個々の利用者の使い易いインタフェイスを
提供する構成とすることもできる。

【０１０２】マルチモーダル対話装置において、利用者
の側が種々の入出力メディアのうちの、使用したいもの
を任意に選択指定する構成にするには、前述の構成に更
に、利用者が入力可能なメディアを掲示する手段を付加
すれば良い。このような構成とすることにより、利用者
がどのような手段で入力を行うことができるかを容易に
知ることができ、より使い易いインタフェイスを提供す
ることが可能となる。

【０１０３】例えば、上記の動作例のメディア割当“ヒ
ューマン”においては、図１６のように例えばマイクの
アイコンを画面に表示することで音声による入力が可能
であることを利用者に知らしめ、音声による入力を促す
効果が期待できる。その後、サブ目標“開始セッショ
ン”が対話規則“ｒ０３”で満足される過程で、利用者
のセッション開始要求とシステムの認識が行われ、かく
して図８に示す一例としてのシナリオの“Ａ）”および
“Ｂ）”を動作させることが可能となる。

【０１０４】すなわち、シナリオのＡ）案内システムの前に一人の旅行者が立つこれにより、案内システムではセンサがこれを検知して
ディスプレイをオンにし、システムのタイトル画面を表
示し、効果音と共に入力を促すプロンプトを画面に表示
する。

【０１０５】シナリオのＢ）旅行者が音声により「宿を探して下さい」と話しかけ、
これにシステムが「了解しました」と答える。

【０１０６】このような内容の開始セッションが成功す
ると、対話管理部１３は問題解決手段である案内システ
ムを実現するアプリケーションにタスクが開始されたこ
とを通告する。この場合、問題解決手段である当該アプ
リケーションは、その通知に応じてデータベース検索の
ための初期検索条件の獲得、すなわち、“到着日”、
“出発日”、“人数”、“予算”を対話管理部１３に対
して要求する。

【０１０７】この要求に基づいて、対話管理部１３は再
びメディア割当決定部１２に適切なメディア割当の決定
を要請し、その解答に基づき、メディア割当“変数表示
音声入出力”をセットし、図１７に示すような画面のよ
うに入力中の検索条件の状態を表示しながら、図８のシ
ナリオの“Ｃ）”に示す如き対話を音声を用いて行うこ
とで、対話管理部１３は問題解決手段であるアプリケー
ションの要求を満足する。

【０１０８】（第二の動作例）次に場面展開を変えた第
二の動作例ついて述べる。図８のシナリオ“Ｃ）”まで
の対話により、データベース検索の初期条件を得て、問
題解決手段（バックグラウンドアプリケーション）は検
索処理を行い、検索終了後、対話管理部１３に対して検
索結果の出力を要求する。

【０１０９】このとき、問題解決手段１５側は出力要求
と共に検索結果の概要、すなわち検索結果の件数と１件
毎のデータベース要素、すなわち、“名称”、“名称の
読み”、“住所”、“規模”、“部屋の種類と各部屋の
宿泊料”、その他“特徴”、“外観写真”、“地図”、
“そこまでの行き方と到達時間”、“最寄り駅”、“付
近の名勝”が問題解決手段１５側からマルチモーダル対
話装置１０の出力部１４における出力メディア処理部１
４３に出力されることが通告される。

【０１１０】このとき、対話プランナ１３１のプラン記
憶部は図１０のサブ目標“ｐ４２”まで成功した状態と
なっている。次のサブ目標“ｐ４３”である“候補決
定”を満足するために、対話プランナ１３１は対話規則
を検索し、まず“ｒ０７”を適用しようとするが適用条
件が合わないために失敗し、他の対話規則を検索する。

【０１１１】次に対話プランナ１３１は“ｒ０８”を選
択し、サブ目標“ｐ４３１”である“選択要求”が展開
される。このサブ目標は同様に対話規則“ｒ１０”によ
って、サブ目標系統列［ｐ４３１１，ｐ４３１２，ｐ４
３１３］に展開される。

【０１１２】これらのサブ目標系統列のうち、サブ目標
“ｐ４３１１”は更に展開されてプラン記憶部は図１０
のような状態になり、更に対話規則“ｒ１２”に従い、
メディア割当決定で１２が呼び出される。メディア割当
決定部１２ではこれまでの記述と同様の処理が行われる
が、検索結果が３件と少ないことから次メディア割当選
択テーブル１２２の探索において次メディア割当選択ノ
ード“ｍ３”が条件に適合して選択される。

【０１１３】その結果、利用者が検索結果の中から候補
を選択するための入出力メディア割当として“タッチパ
ネル表示選択・要素名音声読み上げ”が選択され、対話
管理部１３により、そのメディア割当が実行される。

【０１１４】これにより、図１８のように画面上に３件
の宿泊施設についてそれぞれ“名称”、“住所”、“写
真”、“規模”、“付近の名称”が配置されたタッチパ
ネルボタンを、出力メディア処理部１４３が問題解決手
段１５から流されてきたデータから選択してセットする
とともに、図８のシナリオ“Ｄ）”のように、それぞれ
の物件の名称を音声で読み上げてその選択を促すメッセ
ージがスピーカから音声が出力されることになる。

【０１１５】従来からある対話装置の場合、出力件数に
かかわらず同一の出力形態が取られ、例えば数十件ある
いは数百件の検索結果を音声で読み上げたり、逆に数件
しかない検索結果を表形式で表示したりといった、利用
者にとってわかりにくく使いにくい入出力方式となる場
合が少なからずあった。

【０１１６】例えば、データベースの検索結果が多いよ
うな場合にも、従来の対話装置では図８のシナリオ
“Ｄ）”の対話と同様に全ての物件の名称が読み上げら
れるといったことが発生していた。

【０１１７】本対話装置はこのような問題にも対処すべ
く、従来からある階層プラン生成方式や状態遷移グラフ
方式に基づく対話管理機構に加えて、状況に応じ動的に
入出力の形態を設定する機構を導入している。従って、
本装置によれば、対話管理部１３がメディア割当決定部
１２にその時点で適切なメディア割当を問い合わせ、そ
の回答内容に対応してメディア割当を動的に設定し、利
用者に提示する物件数が多ければ、例えば、表形式の検
索結果提示を選択するといったように、その時々の状況
に合わせて最適な形態で検索結果提示をすることができ
る。

【０１１８】例えば、図８のシナリオ“Ｄ）”の対話に
おいては、上述のように検索結果の提示物件数が３件で
あり、この３件の宿泊施設の検索結果から利用者に望み
のものを選択させるために、メディア割当生成部１２１
で次メディア割当選択テーブル１２２のノード“ｍ０
４”が選択され、その結果、図１８のように１件に対し
して比較的画面の面積を割いた形での入出力メディア割
当がなされていた。

【０１１９】しかしながら、同様の場面でも検索結果件
数が仮に１０件であった場合、メディア割当生成部１２
１で選択される次メディア割当選択ノードは“ｍ０５”
となり、これによって図２１のような表形式の画面出力
が割り当てられ、また宿泊施設名を音声で読み上げるこ
となく検索結果件数のみを音声で伝えるといった形で利
用者にストレスを与えないような入出力メディア割当が
なされる。

【０１２０】かくして、本装置によればアプリケーショ
ン（問題解決手段）が出力を要求する情報の質と量に対
応して利用者に受け入れ易く、わかり易い出力手段の組
み合わせを設定することが可能となる。

【０１２１】更に、例えば図８のシナリオ“Ｇ）”の場
合のように、データベース検索結果の件数が極めて多い
ような場合には、表形式での出力形態でも利用者が結果
を選択する際に大きな負担を与えるため、アプリケーシ
ョン（問題解決手段）の要求に従って検索結果を提示す
ること自体が適切でない。

【０１２２】この場合にはつぎのようになる。今、上記
図８のシナリオ“Ｄ）”のケースと同様に、問題解決手
段による検索処理が行われ、対話プランナ１３１のプラ
ン記憶部は図１０のようにサブ目標“ｐ４３１１１”ま
で対話が進んでいるとする。

【０１２３】この例の場合、検索結果要素数が５３４件
と多く図６の次メディア割当選択テーブルに条件が適合
する次メディア割当選択ノード１２２がないため、メデ
ィア割当決定部１２を呼び出すサブ目標“ｐ４３１１
１”、すなわち“ＭＡ問い合わせ”が失敗してしまう。
“ｐ４３１１１”の失敗を受けて、対話プランナ１３１
は周知のコンピュータ言語の一つであるｐｒｏｌｏｇイ
ンタプリンタと同様の後戻処理を行う。

【０１２４】すなわち、“ｐ４３１１１”の上位ゴール
である“ｐ４３１１”の“ＭＡ選択（選択肢提示）”に
まず後戻し、“ｐ４３１１”に適用可能な対話規則もし
くは対話プリミティブがないか再試行する。この場合、
失敗した対話規則“ｒ１２”意外に適用可能な対話規則
も対話プリミティブもないため、“ｐ４３１１”も失敗
し、“ｐ４３１１”の上位ゴールである“ｐ４３１”の
“選択要求”まだ後戻りする。

【０１２５】更にこの“ｐ４３１”も同様に失敗するた
め、“ｐ４３”の“候補決定”まで後戻し、同様にこの
ゴールの再試行のために適用可能な対話規則もしくは対
話プリミティブが探索され、図２の対話規則“ｒ０９”
が適用され、図１１のようにサブ目標系列［ｐ４３０
１，ｐ４３０２，ｐ４３０３］が展開される。

【０１２６】対話プランナ１３１は“ｐ４３０１”の
“検索条件絞り込み”の実行に際し、更に、対話規則
“ｒ１４”を適用し、サブ目標系列［ｐ４３０１１，ｐ
４３０１２，ｐ４３０１３］を生成する。

【０１２７】次に対話プリミティブであるサブ目標“ｐ
４３０１１”の“未入力変数問合せ”の実行過程で対話
管理部１３は問題解決手段１５に対し、物件検索にまだ
用いていない変数を問合せ、問題解決手段１５側はその
要請に対し、未入力の変数リスト［観光予定地，部屋様
式，宿泊施設様式］を報告する。

【０１２８】次のサブ目標“ｐ４３０１２”の“ｍｅｍ
ｂｅｒ（入力変数、［観光予定地，部屋様式，宿泊施設
様式］）”の実行で未入力変数リストの内から変数“観
光予定地”が取り出される。

【０１２９】そして、その変数を追加条件として利用者
に入力させるために、次のサブ目標“ｐ４３０１３”の
“追加条件入力”に対話規則“ｒ１７”が適用され、サ
ブ目標系列［ｐ４３０１３１，ｐ４３０１３２，ｐ４３
０１３３］が生成される。

【０１３０】これらのサブ目標系列の実行過程において
図８のシナリオ“Ｇ）”のような対話を行われ、かくし
て本装置はメディア割当の失敗から回復して利用者との
対話を継続することが可能となる。

【０１３１】図１１は、図１１図８のシナリオ“Ｇ）”
のシステムの発話Ｓ１４が発せられた時のプラン記憶部
の状態を示している。

【０１３２】（第三の動作例）次に場面展開を変えた第
三の動作例について述べる。図８のシナリオ“Ｄ）”ま
での対話の後に、図８のシナリオ“Ｅ）”のように利用
者が道順と到達時間を求めたとする。すなわち、対話装
置１０が決定し出力したメディア割当に対して利用者が
そのメディア割当とは異なるメディア割当での出力を求
めたような場合、従来のマルチモーダル対話装置におい
ては入出力メディア割当を動的に行う手段を持たないた
め、そもそもこのような利用者の要求に応えることが不
可能であった。しかし、本発明の装置ではこのような事
態に対応できる。

【０１３３】このような事態に遭遇した場合、本装置は
対話の制御と入出力メディアの割り当てを分離し、メデ
ィア割当決定部１２が対話の流れとは独立にメディア割
当選択することができる。そのため、このような事態で
の対処を可能にしている。

【０１３４】図８のシナリオ“Ｅ）”におけるＵ６のよ
うな利用者の要求があった時、対話プランナ１３１のプ
ラン記憶部の状態は図１２のように、サブ目標“ｐ４３
１３”の“ユーザ選択”の処理中の状態で利用者の入力
を待っている状態であった。ここで利用者の入力が候補
の選択好意でなく、メディア割当変更とそれに伴う再出
力要求であったため、サブ目標“ｐ４３１３”は失敗す
る。

【０１３５】この失敗に伴い第二の動作例の場合と同様
に後戻処理が発生し、“ｐ４３１３”の親目標である
“ｐ４３１”の“選択要求”が失敗し、図２の対話規則
“ｒ１５”が再試行される。この対話規則の実行過程で
対話プランナ１３１は“ユーザ要求（出力（［道順，到
達時間］））”という条件で、メディア割当決定部１２
に適切なメディア割当の選択を依頼する。この依頼によ
り、メディア割当決定部１２は“名称、写真、地図タッ
チパネル表示選択・道順音声読み上げ”というメディア
割当を選択する。そして、この選択したメディア割当を
対話プランナ１３１に渡す。

【０１３６】対話プランナ１３１はこの選択に従い、宿
泊施設の選択肢を表示する際の出力メディア割当を変更
し、三件の各宿泊施設についてその“名称”、“写
真”、“地図”をディスプレイに表示してタッチパネル
ボタンを設定すると共に、図８のシナリオ“Ｅ）”にお
けるＳ１１のような発話［離山山荘はバスで約１時間半
ほどです。ひなびた庵には列車で３０分ほど行ったとこ
ろからバスに乗り換えて３０分程かかります。奥山院は
ここからバスで３０分ほど乗ってから３０分ほど歩いた
ところにあります。」といった内容の発話を行い、利用
者に情報を提供し、宿泊施設の候補の選択を再び利用者
に要求する。この時点でのプラン記憶部の状態を図１３
に示す。

【０１３７】かくして、本装置によれば利用者が要求す
る入出力方法を用い、また利用者の割込みに応じて利用
者が主導権を持った形での対話継続が可能となり、より
個々の利用者に使い易いインタフェイスを提供すること
が可能となる。

【０１３８】（第四の動作例）利用者から得た音声入力
の内容が、正しくないためにシステムが音声認識処理に
失敗したような場合での対処動作例を、次に、第四の動
作例として述べる。図８のシナリオ“Ｈ）“のように、
システムが利用者からの音声入力を求めたが、利用者が
地名を読み間違えたため、システムが音声認識処理に失
敗したような場合、従来のマルチモーダル対話装置にお
いては入出力メディア割当を動的に行う手段を持たない
ため、利用者とのコミニュケーションを回復するのが困
難であった。

【０１３９】しかしながら、このような場合にも本装置
では、対話プランナ１３１が利用者との対話の失敗を対
話規則実行時の失敗と捉え、失敗したサブ目標を満足で
きる他の対話規則を探索し、適用可能な対話規則があれ
ば再試行する。

【０１４０】この例では音声入力というヒューマン・マ
シンインタフェイスとしての観点がは優れているが、入
力処理、特に読み間違いが発生し易い地名の入力処理の
確実性という観点では劣っている入力メディアにおいて
失敗が発生したとことから、手書き文字認識という入力
メディアを選択し再試行することで利用者との対話を継
続することに成功している。

【０１４１】このような制御は次のようにして実現され
ている。既に述べたように、図８のシシナリオＧ）に示
したシステム発話Ｓ１４つまり、「どのようなところを
観光されるご予定でしょうか？」という発話の時点での
プラン記憶部の状態は、図１１のようになっている。

【０１４２】ここで、音声言語モードでの入力処理にお
いて、利用者が“竜安寺”を指名するつもりで“りゅう
あんじ”と読み間違えたとする。この“りゅうあんじ”
は音声認識の対象語彙となっていなかったとすると、音
声認識処理が失敗してしまうことになる。

【０１４３】このため、サブ目標“ｐ４３０１３３１”
は失敗し、その親目標“ｐ４３０１３３”の“入力処
理”は適用可能な別の対話規則“ｒ１９”で再試行され
る。この“ｒ１９”は同じメディア割当で再入力を求め
るという対話規則であり、この対話規則により、“ｐ４
３０１３３１”は図１４に示すようにサブ目標系列［ｐ
４３０１３３０１，ｐ４３０１３３０２］に展開され、
それらの実行過程で装置と利用者のあいだでＳ１５とＵ
９の対話がなされる。

【０１４４】つまり、装置：「は？もう一度お願いします」利用者：「りゅうあんじです」なる対話がなされる。

【０１４５】しかし同様の理由で音声認識処理は失敗
し、サブ目標“ｐ４３０１３３”は再び失敗する。次に
適用された規則“ｒ２０”は、入力失敗をキーとしてメ
ディア割当をやり直し、再入力させる対話規則であり、
この対話規則により“ｐ４３０１３３”は再試行され、
サブ目標列［ｐ４３０１３３１１，ｐ４３０１３３１
２，ｐ４３０１３３１３］に展開される。

【０１４６】サブ目標“ｐ４３０１３１１”のＭＡ選択
（入力失敗（観光予定地））”は更に対話規則“ｒ１
２”でサブ目標系列［ｐ４３０１３３１１１，ｐ４３０
１３３１１２］に展開される。

【０１４７】サブ目標“ｐ４３０１３３１１１”の“Ｍ
Ａ問合せ”は対話プリミティブであり、対話プリミティ
ブ記憶テーブル１３３の内容に従いメディア割当決定部
１２の呼び出しが行われる。

【０１４８】既に述べたように、メディア割当決定部１
２は図６に示す次メディア割当選択テーブル１２２を参
照し、次メディア割当選択ノード“ｍ６”がこの場合選
択される。この次メディア割当選択ノードは現在のメデ
ィア割当の入力モードのみを音声言語モードからペン文
字列入力モードに変更するというメディア割当の選択で
あり、このメディア割当に従って変数入力の対話を継続
することで、図８のＳ１６以降に対話を進め、更には宿
泊施設の選択というタスクを継続させるような対話に復
帰することが可能となる。

【０１４９】すなわち、装置：「認識できませんでした。ペンで行き先の名前を
書いてください」利用者がペンで画面に「竜安寺」と書くことで文字認識
し、装置は「竜安寺」を「りょうあんじ」と認識する。装置：「竜安寺（りょうあんじ）ですね。検索しますの
でしばらくお待ちください」なる対話が成功する。

【０１５０】かくして、本装置によれば利用者との対話
の失敗に対して、別の入出力手段に替えて再度実施すべ
く、入出力手段を変更するよう制御する構成としたこと
で失敗から回復し、利用者との対話を継続することが可
能となる。

【０１５１】更に、例えば外部の騒音が激しくなったよ
うな場合に対処できるように、外部雑音を捉えるデバイ
スを本装置に付加し、その入力により音声入出力の適切
性を判断する入力モード部品を実現すれば、メディア割
当生成部１２１でメディア割当を行う際に、音声入力可
能もしくは音声出力可能と図７のモード−メディア対応
表の制約部に記述されているメディア割当については、
選択されることがなくなる。

【０１５２】その結果、例えば音声入力を行うメディア
割当が選択されていて、利用者からの入力を音声で受け
付けていた時に急に騒音が激しくなったような場合に、
上記の動作例と同様に音声認識失敗に伴ってメディア割
当決定部呼び出しが発生し、メディア割当決定部での次
メディア割当の選択が新たに実施されるが、その選択に
おいては音声を入出力に用いるようなメディア割当は選
択されることがなくなる。

【０１５３】かくして、このような構成の装置によれ
ば、外部環境的要素の変化に応じて入出力方式を変更す
る制御を付加したことで、外部環境的要素に応じて最適
な入出力方式を選択して使用するので、利用者との対話
を継続することが可能となる。

【０１５４】なお、上述の例では、入力部１１の構成に
ついて入力デバイス処理部１１１、入力モード処理部１
１２、入力メディア処理部１１３の３つのモジュールを
持ち、出力部１４についても出力メディア処理部１４
１、出力モード処理部１４２、出力デバイス処理部１４
３の３つのモジュールを持つことを前提として記述して
いるが、本装置を実現する入出力処理部品の構成はこれ
に限定されるものではなく、種々の変形を行うことが可
能である。

【０１５５】また、上述の例では、入力部と出力部が独
立した別の構成要素として記述しているが、これらを一
体化した入出力部として実現することも可能であり、そ
のような実現方法も本発明の趣旨の範囲内である。

【０１５６】また、上述した例では、メディア割当決定
部を対話管理部や問題解決手段と独立した構成部品とし
て、また、問題解決手段についても同様に入力部や出力
部、対話管理部等に対して独立した部品として記述して
いるが、本装置を実現する部品の構成方法はこれに限定
されるものではなく、例えば、メディア割当決定機能を
持つ対話管理部を実現することで独立した部品としての
メディア割当決定部がなくとも本装置を実現することが
可能であり、また、例えば、問題解決手段が対話管理部
の機能やメディア割当決定部の機能、さらには入力部の
機能や出力部の機能を持つように構成することも可能で
あり、そのような実現方法も本発明の趣旨の範囲内であ
る。

【０１５７】このように、本発明を実現する装置はその
部品構成について種々の実現方法があり、ここに説明し
た部品の構成に限定されるものではないことを断ってお
く。また、上述した例では、メディア割当決定部１２の
制御方式について、ある時点におけるメディア割当と、
その時点での状況に基づいて次のメディア割当を決定す
る次メディア割当選択テーブル１２２を用いることを前
提として記述しているが、本装置を実現するメディア割
当決定方式はこれに限定されるものではなく、例えば状
態遷移モデルに基づくメディア割当決定方式においても
実現可能であり、また、例えば次メディア割当選択テー
ブル１２２に選好度などのスロットや情報を付け加える
ことで、よりきめ細かいメディア割当の選択を実現する
ことも可能になる。

【０１５８】また上述した例ではメディア割当生成部１
２１においてメディア割当を決定する際に用いるメディ
ア割当のヒストリ情報として１回分、すなわち現在のメ
ディア割当情報のみ明確に記述されているが、例えば次
メディア割当選択テーブル１２２の条件部に過去のメデ
ィア割当の状態を記述することにより、メディア割当の
決定に対し、メディア割当のヒストリ情報を利用するこ
とが可能である。

【０１５９】また、上述の例では、階層プラン生成方式
に基づく対話管理を前提として記述するが、本装置を実
現する対話管理方式はこれに限定されるものではなく、
例えば状態遷移モデルに基づく対話制御方式においても
実現可能である。

【０１６０】更に、上述の例では、利用者が利用可能な
入力方法をディスプレイ上に他の情報と共に表示するこ
とにより利用者に知らしめているが、本装置を実現する
入力メディアの提示形式はこれに限定されるものではな
く、例えばもう一つのディスプレイに表示するなど他の
出力デバイスから提示することとしても実現可能であ
る。

【０１６１】また、上述の例では、利用者が利用可能な
入力方法のみをディスプレイに表示することで利用者に
知らしめているが、利用者に知らしめるのは入力方法に
限定されるものではなく、出力方法についても同様に表
示することが可能であり、例えば耳の不自由な利用者に
対して音声による応答を本装置が行ったとしても、利用
者がそれを知ることができるため、利用者がメディア割
当の変更を要求することが可能となる。

【０１６２】また、更に例えば、メディア割当決定部に
特定利用者モデル記憶部を設け、そこに利用者が利用可
能なメディアもしくは利用不可能なメディアを予め記録
しておくことで、上記の耳の不自由な利用者に対する場
合においても利用者が毎回要求することなしに、個々の
利用者に対応して最適なメディア割当を設定することが
可能になる。

【０１６３】また、例えば、上記のようなメディア割当
に関する利用者個々の事情を、例えば、ＩＣカードのよ
うな可変媒体に記録しておき、例えば、ＩＣカード読取
り可能なデバイスを本装置に装備して、このデバイスを
利用して利用者が利用開始時にそのＩＣカードを挿入し
て読み取らせ、特定利用者モデル記憶部にその読取り情
報を記憶させることで、不特定多数を対象とした装置に
おいても、予め利用者個々の事情を設定して対処するこ
とができるようになり、その結果、利用者個々の事情に
応じたメディア割当の設定が利用開始の最初の時点から
可能になる装置が得られるようになる。この場合、個々
の利用者の最適なメディア割当てが利用開始の最初の時
点から実施されるので、変更の要求操作をすることなし
に、円滑な利用が可能になることからサービス向上に役
立つ。

【０１６４】また、特定利用者のみが利用するようなシ
ステケの場合には例えば、不揮発性メモリに特定利用者
モデル記憶を行うようにし、利用者が更新できるように
したり、学習機能を持たせて記憶内容を学習結果を反映
させるようにする等のことによって、利用を重ねるに連
れ、その利用者が利用しやすいインタフェイスを提供す
ることができるようになる。

【０１６５】さらにメディア割当決定部にＩＤ３やニュ
ーロ等の機能的な学習機能を装備し、特定利用者モデル
記憶部の内容を学習により自動更新することにより、利
用者が自分で利用者モデルを更新せずとも、利用を重ね
るだけで次第にその利用者が利用し易いインタフェイス
を提供することができるようになる。

【０１６６】また、以上では特定利用者モデル記憶部の
記憶内容について、特定の利用者が利用可能なメディア
もしくは利用不可能なメディアとしたが、特定利用者モ
デル記憶部の記憶内容はこれに限定されるものではな
く、例えば、特定利用者が選考するメディアについても
同様に、特定利用者モデル記憶部に記憶することで、よ
り個々の利用者にとり好ましいインタフェイスを提供す
ることができるようになり、そのような実現方法も本発
明の趣旨の範囲内である。

【０１６７】さらに利用者が利用可能な入り方法を知ら
しめるための出力メディア自体をメディア割当決定部に
おいて決定し、その決定に基づく出力メディア割当を用
いて出力することで、利用者に知らしめるといった方法
を採用することも可能であり、そのような実現方法も本
発明の趣旨の範囲内である。

【０１６８】なお、上述の例では、利用者の読み間違い
による音声認識の失敗を扱う例を示したが、例えば、環
境音（ノイズ）が原因となって音声入力が阻害される場
合等のように、利用するメディアの状況の変化によって
対話に傷害が発生するような状況においても、入力及び
出力メディアの状態を監視するメディア監視機能をメデ
ィア切替部に組み込み、ある時点でメディア切替部によ
って設定され、現在利用しようとしているメディア割当
が、障害なく利用され、利用者と対話装置とのコミュニ
ケーションが無事に達成されたかを監視することによっ
て、障害解消のための処理を行うことが可能となる。

【０１６９】すなわち、例えば、利用者からの音声入力
を受付けようとしている場面や、利用者への出力を音声
によって行おうとしている場面等において、例えば、周
囲雑音のレベル等を常時監視することによって、例え
ば、大きな騒音等の発生による利用者と対話装置とのコ
ミュニケーションの阻害の生じた場合に、これを対話管
理部に通知して例えば、音声による入出力をやめて、画
面表示とキーボード入力を行わせるようにする等、何等
かの障害発生の場合に、適切にメディア変更を行った
り、あるいは、問い返し等の障害解消のためのサブ対話
を起動させる等の処理を実現することが可能になり、そ
の結果、環境等の変化に対しても対処し得る対話装置が
実現できる。このように本発明においては、その趣旨を
逸脱しない範囲で種々の変形を行うことが可能である。

【０１７０】

【発明の効果】以上説明したように、本発明によれば、
対話の状況及びその時点で利用可能な入出力手段に合せ
て適切な入出力メディアを動的に選択するようにしたこ
とにより、状況に応じて使いやすいインタフェイスを利
用者に提供することが可能となる。また、利用者がどの
ような手段で入力を行うことが出来るかを容易に知るこ
とができ、より使い易いインタフェイスを提供すること
が可能となる。

【０１７１】また、アプリケーションが出力を要求する
情報の質と量に対応して利用者が受け入れ易くわかに易
い出力手段の組み合わせを設定することが可能となり、
利用者が要求する入出力方法を用いることでより個々の
利用者に使いやすいインタフェイスを提供することが可
能となり、利用者にとって好ましい入出力手段を用いる
ことで、より個々の利用者に使いやすいインタフェイス
を提供することが可能となる。また、利用者にとって好
ましくない入出力手段を避けることで、より個々の利用
者に使い易いインタフェイスを提供することが可能とな
る。更には、入出力手段を変更することで利用者との対
話の失敗から回復し、利用者との対話を継続することが
可能となるなどの実用上多大な効果が奏せられる。

【図面の簡単な説明】

【図１】本発明を説明するための図であって、本発明の
具体的な実施の態様を説明するためのブロック構成図。

【図２】本発明を説明するための図であって、本発明の
具体的な実施の態様を説明するための対話規則の例を示
す図。

【図３】本発明を説明するための図であって、本発明の
具体的な実施の態様を説明するための対話プリミティブ
記憶テーブル例を示す図。

【図４】本発明を説明するための図であって、本発明の
具体的な実施の態様を説明するためのプラン記憶部（起
動時）の例を示す図。

【図５】本発明を説明するための図であって、本発明の
具体的な実施の態様を説明するためのプラン記憶部（待
機時）の例を示す図。

【図６】本発明を説明するための図であって、本発明の
具体的な実施の態様を説明するための次メディア割当選
択テーブルの例を示す図。

【図７】本発明を説明するための図であって、本発明の
具体的な実施の態様を説明するためのモード−メディア
割当対応表の例を示す図。

【図８】本発明を説明するための図であって、本発明の
具体的な実施の態様を説明するための想定する動作例シ
ナリオの例を図。

【図９】本発明を説明するための図であって、本発明の
具体的な実施の態様を説明するためのプラン記憶部（初
期条件入力要求時）の例を示す図。

【図１０】本発明を説明するための図であって、本発明
の具体的な実施の態様を説明するためのプラン記憶部
（初期検索終了時、抜粋）の例いを示す図。

【図１１】本発明を説明するための図であって、本発明
の具体的な実施の態様を説明するためのプラン記憶部
（条件絞り込み対話、抜粋）の例を示す図。

【図１２】本発明を説明するための図であって、本発明
の具体的な実施の態様を説明するためのプラン記憶部
（利用者割込時、抜粋）の例を示す図。

【図１３】本発明を説明するための図であって、本発明
の具体的な実施の態様を説明するためのプラン記憶部
（利用者割込対処時、抜粋）の例を示す図。

【図１４】本発明を説明するための図であって、本発明
の具体的な実施の態様を説明するためのプラン記憶部
（音声認識失敗への対処、抜粋）の例を示す図。

【図１５】本発明を説明するための図であって、本発明
の具体的な実施の態様を説明するための詳細な構成図。

【図１６】本発明を説明するための図であって、本発明
の具体的な実施の態様を説明するためのメディア割当
“ヒューマン”の画面例を示す図。

【図１７】本発明を説明するための図であって、本発明
の具体的な実施の態様を説明するためのメディア割当
“変数表示音声入出力”の画面例を示す図。

【図１８】本発明を説明するための図であって、本発明
の具体的な実施の態様を説明するためのメディア割当
“タッチパネル表示選択・要素名音声読み上げ”の画面
例を示す図。

【図１９】本発明を説明するための図であって、本発明
の具体的な実施の態様を説明するための対話管理のアル
ゴリズム例を示す図。

【図２０】本発明を説明するための図であって、本発明
の具体的な実施の態様を説明するための待機状態例を示
す図。

【図２１】本発明を説明するための図であって、本発明
の具体的な実施の態様を説明するためのメディア割当
“表形式タッチパネル表示選択・検索結果件数音声出
力”の画面例を示す図。

【符号の説明】

１０…マルチモーダル対話装置１１…入力部１２…メディア割当決定部１３…対話管理部１４…出力部１１１…入力デバイス処理部１１２…入力モード処理部１１３…入力メディア処理部１２１…メディアアロケーション生成部１２２…次メディア割当選択テーブル１２３…現メディア割当記憶スロット１２４…モードメディア割当対応表１３１…対話プランナ１３２…対話規則テーブル１３３…対話プリミティブ記憶テーブル１４１…出力メディア処理部１４２…出力モード処理部１４３…出力デバイス処理部１４３ａ…出力メディア振り分けスイッチ１４３ｂ…出力メディア処理部１４３ｃ…メディア・モードインタフェイスＳＷ…メディア選択スイッチＩＤＶａ〜ＩＤＶｎ…入力デバイスＯＤＶａ〜ＯＤＶｎ…出力デバイス

───────────────────────────────────────────────────── フロントページの続き (72)発明者田中克己大阪府大阪市北区大淀中１丁目１番30号株式会社東芝関西支社内

Claims

【特許請求の範囲】

【請求項１】利用者との対話により所要の処理を行っ
て結果を出力する対話装置において、利用者からの情報を得るための異なる各種入力用デバイ
スのうち、入力メディア割当に従って少なくとも一つの
入力用デバイスからの入力情報を解釈し、その解釈に基
づいて対応情報を発生させる入力手段と、この発生された対応情報それぞれに、所要の目的に応じ
た処理を行い、結果を出力する問題解決手段と、前記問題解決手段の出力に基づいた結果を、異なる各種
出力用デバイスのうち、出力メディア割当に従った出力
用デバイスから出力する出力手段と、前記入力手段から前記問題解決手段へ与えられる前記対
応情報を前記入力メディア毎に発生する前記対応情報の
中から選択する手段、前記入力メディア毎に発生される
対応情報を組合わせる手段の少なくとも一つを割当てる
前記入力メディア割当、および、前記問題解決手段から
出力手段に出力する出力情報を得るために該問題解決手
段からの情報を選択する手段およびそれらを組み合わせ
る手段の少なくとも一つを割当てる前記出力メディア割
当て、に基づいて前記利用者との対話状況に従い、入力
または出力メディア割当を行うメディア割当手段と、を
具備したことを特徴とするマルチモーダル対話装置。
【請求項２】利用者との対話により所要の処理を行っ
て結果を出力する対話装置において、利用者からの情報を得るための異なる各種入力用デバイ
スのうち、入出力メディア割当に従って少なくとも一つ
の入力用デバイスからの入力情報を解釈し、その解釈に
基づいて対応情報を発生させる入力手段と、この発生された対応情報それぞれに、所要の目的に応じ
た処理を行い、結果を出力する問題解決手段と、前記問題解決手段の出力に基づいた結果を、異なる各種
出力用デバイスのうち、入出力メディア割当に従った出
力用デバイスから出力する出力手段と、前記入力手段から前記問題解決手段へ与えられる前記対
応情報を前記入力メディア毎に発生する前記対応情報の
中から選択する手段、前記入力メディア毎に発生される
対応情報を組み合わせる手段の少なくとも一つ、および、前記問題解決手段から出力手段に出力する出力
情報を得るために該問題解決手段からの情報を選択する
手段及びそれらを組み合わせる手段の少なくとも一つ、の双方を対応させて割り当てる入出力メディア割当てに
基づいて前記利用者との対話状況に従い、入出力メディ
アの割当を行うメディア割当手段と、を具備したことを特徴とするマルチモーダル対話装置。
【請求項３】利用者との対話により所要の処理を行っ
て結果を出力する対話装置において、利用者からの情報を得るための異なる各種入力用デバイ
スのうち、入出力メディア割当に従って少なくとも一つ
の入力用デバイスからの入力情報を解釈し、その解釈に
基づいて対応情報を発生させる入力手段と、この発生された対応情報それぞれに、所要の目的に応じ
た処理を行い、結果を出力する問題解決手段と、前記問題解決手段の出力に基づいた結果を、異なる各種
出力用デバイスのうち、入出力メディア割当に従った出
力用デバイスから出力する出力手段と、前記問題解決手段からの処理結果に応じて入出力メディ
ア割当の変更処理を指示し、また、前記入力手段と出力
手段による入出力を管理する対話管理手段と、利用者から少なくとも一つの入力デバイスに与えられた
入力データから前記問題解決手段への入力を得るため
に、所定の規則に従って前記入力用デバイスのうち、利
用するデバイスと入力データの入力方法の組合わせの少
なくとも一つ、および、前記問題解決手段の出力から利用者に指示する
表現を得るために、所定の規則に従って前記出力用デバ
イスのうち、利用するデバイスと出力データの出力方法
の組合せの少なくとも一つ、の双方を対応させて選択し割り当てるための入出力メデ
ィア割当を実施すると共に、入出力メディア割当の変更
処理の指示を受けた時はその変更を行うべく処理して新
たなメディア割当をするメディア割当手段と、を具備したことを特徴とするマルチモーダル対話装置。
【請求項４】入力対応に、システムの目的に応じた計
算処理を行ない、結果を出力する問題解決手段と、異なる各種入力用デバイスのうち、入出力メディア割当
に対応して少なくとも一つのデバイスから利用者の入力
データを解釈し、その解釈対応の入力を前記問題解決手
段に与える入力手段と、前記問題解決手段からの処理結果を得て、これを異なる
各種出力用デバイスのうち、入出力メディア割当に対応
した出力用デバイスに振り分けて、利用者に出力する出
力手段と、前記問題解決手段からの処理結果に応じて入出力メディ
ア割当の変更処理を指示し、また、前記入力手段と出力
手段による入出力を管理する対話管理手段と、前記問題解決手段に与えられる入力情報を、入力メディ
ア毎に発生する前記対応情報の中から選択する手段、お
よび入力メディア毎に発生される対応情報を組み合わせ
る手段の少なくとも一つ、および前記問題解決手段の出力から利用者に指示する表
現を生成するためにその出力を選択する手段およびそれ
らを組み合わせる手段の少なくとも一つ、の双方の組み合わせである前記入出力メディア割当を選
択すると共に、入出力メディア割当の変更処理の指示を
受けた時はその変更を行なうべく処理して新たな入出力
メディア割当を選択するメディア割当手段と、を備えることを特徴とするマルチモーダル対話装置。
【請求項５】前記対話管理手段には、入力装置および
出力手段の少なくとも一方の動作状況を適宜監視し、現
在選択され利用されている入出力メディア割当の利用に
対する障害が発生した場合に、該障害の発生を表す障害
情報を、メディア割当決定手段に通知するメディア監視
機能を備えると共に、前記メディア割当手段には該障害情報を受けると、入出
力メディア割当を、適宜変更する機能を備えることを特
徴とする請求項２または３または４いずれか１項記載の
マルチモーダル対話装置。
【請求項６】前記問題解決手段には、システムの問題
解決のために必要な情報を利用者から獲得する必要があ
るような場合に、前記対話管理手段に対し入力要求情報
を発生し、前記入力必要情報を利用者に入力してもらう
よう求める入力要求機能、もしくは、前記対話管理手段には、前記出力手段が設定
されている入出力メディア割当に従って利用者に対する
出力を構成するために必要な情報を、問題解決手段に出
力を求める出力要求情報を発生し、前記出力必要情報を
問題解決手段が出力するよう求める出力要求機能、のうち少なくとも一つの機能を備えると共に、前記メデ
ィア割当手段には、入出力メディア割当変更処理の指示
を受けた時は、前記入力要求情報、もしくは前記出力要
求情報のうちの少なくとも一つを利用して新たなメディ
ア割当を行なう機能を備えることを特徴とする請求項３
または４いずれか１項記載のマルチモーダル対話装置。
【請求項７】利用者との対話により利用者から得た情
報を解釈して入力対応情報を発生させ、この発生された
入力対応情報それぞれに所要の目的に応じた処理を行な
い結果を出力する問題解決装置に通信手段を通じて入力
対応情報を送付し、問題解決装置から通信手段を通じて
得られた該入力対応情報に対する処理結果を利用者との
対話により出力する対話装置において、利用者からの情報を得るための異なる各種入力用デバイ
スのうち、入出力メディア割当に従って少なくとも一つ
の入力用デバイスからの入力情報を解釈し、その解釈に
基づいて対応情報を発生させる入力手段と、通信手段を通じて前記問題解決装置から得られた結果
を、異なる各種出力用デバイスのうち、入出力メディア
割当に従った出力用デバイスから出力する出力手段と、前記問題解決装置に対し、入力手段において発生された
前記入力対応の送付、および、問題解決装置が発生し出
力した問題解決結果の受けとりを行なう通信手段と、前記入力手段から前記問題解決装置へ送付される前記対
応情報を前記入力メディア毎に発生する前記対応情報の
中から選択する手段、前記入力メディア毎に発生される
対応情報を組み合わせる手段の少なくとも一つ、および、前記問題解決装置から出力手段に出力する出力
情報を得るために該問題解決装置からの情報を選択する
手段及びそれらを組み合わせる手段の少なくとも一つ、の双方の組合せである入出力メディア割当を前記利用者
との対話状況に従い発生し、利用者との対話を行なうた
めの入出力メディア割当を行なうメディア割当を手段
と、を具備したことを特徴とするマルチモーダル対話装置。
【請求項８】利用者との対話により利用者から得た情
報を解釈して入力対応情報を発生させ、この発生された
入力対応情報それぞれに所要の目的に応じた処理を行な
い結果を出力する問題解決装置に入力対応情報を送付
し、問題解決装置から得られた該入力対応情報に対する
処理結果を利用者との対話により出力する対話装置にお
いて、利用者からの情報を得るための異なる各種入力用デバイ
スのうち、入出力メディア割当に従って少なくとも一つ
の入力用デバイスからの入力情報を解釈し、その解釈に
基づいて対応情報を発生させる入力手段と、通信手段を通じて前記問題解決装置から得られた結果
を、異なる各種出力用デバイスのうち、入出力メディア
割当に従った出力用デバイスから出力する出力手段と、前記問題解決装置からの処理結果に応じて入力メディア
割当、出力メディア割当の変更処理を指示し、また、前
記入力手段と出力手段による入出力を管理する対話管理
手段と、前記問題解決装置に対し、入力手段において発生された
前記入力対応の送付、および、問題解決装置が発生し出
力した問題解決結果の受け取りを行なう通信手段と、利用者から少なくとも一つの入力デバイスに与えられた
入力データから前記問題解決装置に与える入力対応情報
を得るために、所定の規則に従って前記入力用デバイス
のうち、利用するデバイスと入力データの入力方法の組
合わせの少なくとも一つ、および、前記問題解決装置から得られた結果から利用者
に提示する表現を得るために、所定の規則に従って前記
出力用デバイスのうち、利用するデバイスと出力データ
の出力方法の組合わせの少なくとも一つ、の双方を対応させて選択し割り当てるための入出力メデ
ィア割当を実施すると共に、入出力メディア割当の変更
処理指示を受けた時はその変更を行なうべく処理して新
たなメディア割当てをするメディア割当手段と、を具備したことを特徴とするマルチモーダル対話装置。
【請求項９】前記メディア割当手段には入出力メディ
ア割当を記録するメディア割当記憶スロットを持ち、前
記メディア割当記憶スロットに現在選択されている入出
力メディア割当を記録すると共に、入出力メディア割当変更処理の指示を受けた時は、前記
メディア割当記憶スロットに記録されている入出力メデ
ィア割当情報を利用して新たなメディア割当を行なう機
能を備えることを特徴とする請求項２または３または４
または７または８いずれか１項記載のマルチモーダル対
話装置。
【請求項１０】前記メディア割当手段には、過去に選
択された入出力メディア割当の系列を記憶するメディア
割当ヒストリ記憶スロットを持ち、前記メディア割当ヒ
ストリ記憶スロットにそれまでに選択されてきた入出力
メディア割当の系列を記憶し、入出力メディア割当が変
更された時は、そのときに選択されていた入出力メディ
ア割当を前記メディア割当ヒストリ記憶スロットに追加
すると共に、入出力メディア割当変更処理の指示を受けた時は、前記
メディア割当ヒストリ記憶スロットに記録されている過
去の入出力メディア割当情報を利用して新たなメディア
割当を行なう機能を備えることを特徴とする請求項２ま
たは３または４または７または８いずれか１項記載のマ
ルチモーダル対話装置。
【請求項１１】前記対話管理手段には、前記問題解決
装置がシステムの問題解決にのために必要な情報を利用
者から獲得する必要があるような場合に、問題解決装置
が発生し、対話管理手段に対して通信手段を通じて送付
された入力要求情報に対し、前記入力必要情報を利用者
に入力してもらうよう前記入力手段に求める入力要求受
け付け機能、もしくは、対話管理手段には、前記出力手段が設定され
ている入出力メディア割当に従って利用者に対する出力
を構成するために必要な情報を、問題解決装置に出力を
求める出力要求情報を発生して前記通信手段を通じて送
付し、前記出力必要情報を問題解決装置が通信手段を通
じて送付してくるよう求める出力要求機能、のうち少なくとも一つの機能を備えると共に、前記メディア割当手段には、入出力メディア割当変更処
理の指示を受けた時は、前記入力要求情報、もしくは前
記出力要求情報のうち少なくとも一つを利用して新たな
メディア割当を行なう機能を備えることを特徴とする請
求項８記載のマルチモーダル対話装置。
【請求項１２】利用者との対話により所用の処理を行
って結果を出力する対話方法において、利用者からの情報を得るための異なる各種入力用デバイ
スのうち、入出力メディア割当に従って少なくとも一つ
の入力用デバイスからの入力情報を解釈し、その解釈対
応の情報を発生させる入力ステップと、この発生した情報対応に、所要の目的に応じた処理を行
い。結果を出力する問題解決ステップと、前記問題解決ステップとの出力に基づいた結果を、異な
る各種出力用デバイスのうち、入出力メディア割当に対
応した出力用デバイスから出力する出力ステップと、前記問題解決ステップからの処理結果に応じて入出力メ
ディア割当の変更処理を指示し、また、前記入力ステッ
プと出力ステップによる入出力を管理する対話管理ステ
ップと、前記複数の入力デバイスのうち、少なくとも一つの入力
デバイスに与えられた入力データから前記問題解決ステ
ップへの入力を得るために、前記入力用デバイスのう
ち、利用するデバイスを選択し、入力メディア毎に発生
される入力の組合わせの少なくとも一つ、および、前記問題解決手段の出力から利用者に提示する
表現を生成するために前記出力用デバイスのうち、利用
するデバイスと出力データの出力方法の組合わせの少な
くとも一つ、の双方の組合せである前記入出力メディア割当を所定の
規則に従って選択し、該入力メディア割当を実施すると
共に、これら入出力メディア割当の変更処理の指示を受
けた時はその変更を行うべく処理して新たなメディア割
当を生成するメディア割当ステップと、を備えることを特徴とするマルチモーダル対話装置。