JPH10198544A - マルチモーダル入力解釈装置及びその入力統合・解釈方法 - Google Patents

マルチモーダル入力解釈装置及びその入力統合・解釈方法

Info

Publication number
JPH10198544A
JPH10198544A JP9002373A JP237397A JPH10198544A JP H10198544 A JPH10198544 A JP H10198544A JP 9002373 A JP9002373 A JP 9002373A JP 237397 A JP237397 A JP 237397A JP H10198544 A JPH10198544 A JP H10198544A
Authority
JP
Japan
Prior art keywords
input
information
interpretation
integrated
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9002373A
Other languages
English (en)
Inventor
Yasuyuki Kono
恭之 河野
Takehide Yano
武秀 屋野
Tomoo Ikeda
朋男 池田
Tetsuro Chino
哲朗 知野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP9002373A priority Critical patent/JPH10198544A/ja
Publication of JPH10198544A publication Critical patent/JPH10198544A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】曖昧性を持ったマルチモーダル入力を効率良く
解釈でき、その入力解釈中に遅着した入力データを効率
よく統合・解釈できると共に知識ベースの内容が変更さ
れても過去の問題解決に用いた知識状態を再現できるよ
うにすること。 【解決手段】曖昧性を持ったマルチモーダル入力及び遅
着データを含むマルチモーダル入力の解釈処理におい
て、処理中に得られる途中過程を管理手段13に逐一保存
しておき、解釈部12による後の処理での参照に供するこ
とを可能にする構成をとることにより、過去の問題解決
の途中過程を再利用したマルチモーダル入力解釈を行う
機能を持つ。また、解釈部12による解釈処理に用いる知
識ベースは状況対応に更新可能であり、かつ、重複問い
合わせは行わないようにして効率的な知識の参照を行う
機能を持ち、また、与えられた時刻における問題解決過
程を再現することで、過去の問題解決状況を参照可能に
する機能を持つ。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、マルチモーダル入
力解釈装置、及びそのその入力統合・解釈方法に関す
る。
【0002】
【従来の技術】一般に人間は対面する他の人に対し、言
葉や身振り、手振り、表情といった様々な伝達手段と方
法、すなわち、モダリティを利用して自分の意図を表現
し、効率的に伝達している。
【0003】すなわち、人間は複数のモダリティを組み
合わせて日常のコミュニケーションを行っている。この
ことから、人間のコミュニケーションは本質的にマルチ
モーダルであり、情報処理システムのインタフェイスに
も利用者が入力方法などを意識せずに自然に、すなわ
ち、人間型の人間に対するのと同じように複数のモダリ
ティを組み合わせて自分の意志を伝えることができ、ま
た複数のモダリティを組み合わせたわかり易く自然な表
現を利用者が得ることができるマルチモーダルインタフ
ェイスが求められている。
【0004】近年の技術の進歩に伴い、情報処理システ
ムへの入力にはキーボードやボタンといった従来のデバ
イスに加えて、ぺンやマイク、カメラといった様々な入
力デバイスを利用できるようになってきている。
【0005】またこのような入力デバイスの広がりに呼
応し、それらのデバイスを人間が情報の入力に用いるた
めの音声認識や文宇認識、ジェスチャ認識や表情認識な
ど個々のモダリティの認識技術の研究、開発が行われて
きている。そして、これらの各モードから得られた情報
を統合・解釈することで、利用者がシステムをより自然
に操作できるようなマルチモーダルインタフェイスが次
世代のヒューマンーマシンインタフェイスとして求めら
れており、その研究、開発が盛んに行われるようになっ
てきている。
【0006】人間が他の人に対して意図を表現するのと
近い形、すなわち、利用者が複数のモダリティを組み合
わせた入力により自らの意図を情報処理システムに伝達
できるマルチモーダルインタフェイスを実現するために
は、入力デバイスから得られる入力信号の系列を対応す
る各モダリティにおいて受理して認識処理を行い、その
ようにして得られた各モダリティの認識結果を複数(場
合によっては一つ)統合して意味解析を行い、利用者の
意図を検知する技術が必要となる。
【0007】例えば、マイクは音声による言語入力とい
うモダリティに対応する入力デバイスであり、ぺンとぺ
ンタブレットは対象物の直接指示動作や手書き文字によ
る言語入力の複数のモダリティに対応している。
【0008】ここで、利用者がタブレット上に表示され
ている地図のある範囲をぺンで指示しながら、「このへ
んの新しい百貨店」と発声したような場合を想定すると
する。
【0009】この場合、音声言語や直接指示動作といっ
たモダリティの個々の認識結果には利用者の入力意図は
完全に包含されておらず、個々のモダリティの認識結果
のみを用いて意味解析を行っても利用者の意図を同定す
ることはできない。
【0010】関連する複数のモダリティ、この場合は
“音声言語”と“直接指示動作”、という2種のモダリ
ティの認識結果を統合し、“音声言語”モダリティの認
識結果の要素である「このへんの」と、“直接指示動
作”の認識結果と、を対応付けて解析することではじめ
て同定が可能となる。
【0011】このように、複数のモダリティからの入力
を受け付け、それらを適切に統合して意味解析を行うマ
ルチモーダル入力解釈アーキテクチャの開発は、マルチ
モーダルインタフェイスの実現に、最も本質的、かつ、
必要な課題の一つである。
【0012】既に示したように、人間が行うひとまとま
りの自然な表現を、一つのモダリティだけからとらえる
ようにした場合、“意味的なまとまりがない”、すなわ
ち、完結した解析のできない状態の入力として与えられ
ることになる。このため、マルチモーダル入力解釈装置
は意味的にまとまりのない入力を複数のモダリティから
非同期に受け取り、それらを結合して意味のあるまとま
りにしてから解析する機能が求められる。
【0013】従来、このような機能を持つマルチモーダ
ル入力解釈(解析)装置の多くにおいては、特定の問題
領域において特定のモダリティの組み合わせについての
統合方法をアド・ホックな形で実現することが一般的で
あり、他の問題領域やモダリティの組み合わせに適用す
るには新規に設計・開発を行う必要があった。
【0014】このような問題を回避してマルチモーダル
解釈を行う一般的な枠組を実現した先行技術としては、
特公平7−122879号公報で開示されているマルチ
モーダル入力解析装置(MM−DCG)がある。このM
M−DCGは、複数のモダリティからのタイムスタンプ
付き入力データを、入力時間順に並べた1本のストリー
ムとして構成し、時間制約を記述することのできる構文
解析規則を適用するという方式でマルチモーダル入力の
解析を行っており、アドホックでないマルチモーダル入
力解釈の枠組となっている。
【0015】また、外国においての例としては、Koo
nsらも“IntegratingSimultane
ous Input from Speech, Ge
ze and Hand Gestures”,In
Maybury(ed.)、 Inteligent
Multimedia Interfaces,MIT
Press, 1993において入力時刻情報付きの入
力データ列を構文解析木を用いてマルチモーダル入力解
析する手法を提案している。
【0016】ところで、マルチモーダル入力解析を行う
場合の問題として、認識処理に要する資源のモダリティ
による差が挙げられる。すなわち、“音声認識”や“表
情認識”をはじめとしてモダリティの認識処理に、無視
できない時間を要するモダリティがあるため、マルチモ
ーダル入力の解析中に解析中のデータよりも入力時刻が
過去のデータが遅れて到着することがあり得る。
【0017】MM−DCGやKoonsらのシステムの
ような構文解析技術を基盤とする手法においては、この
ような問題を回避するために、到着遅れのデータがない
と期待できる状況になるまで待ってから、マルチモーダ
ル解析処理を開始するか、解析中の途中結果を破棄して
構文解析を殆どはじめからやり直すことが一般的であっ
た。
【0018】前者の方法では、ある程度の待ち時間を経
過しない限り、解析処理を開始できず、マルチモーダル
入力解析結果が得られるまでに無視できない程度の遅れ
がでてしまう。その上、既に挙げたように個々のモダリ
ティに対する入力は意味的なまとまりを持つてなされて
いないため、マルチモーダル解析が終了しないうちに欠
けている入力がないかどうかを判断することは、一般に
極めて困難である。
【0019】このため、前者の方法では入力の時刻遅れ
によるマルチモーダル解析の失敗、もしくは誤りを回避
することは困難であった。
【0020】また、後者の方法ではマルチモーダル解析
の失敗を回避することはできるが、遅れて到着したデー
タが得られた段階でマルチモーダル解析処理をやり直す
必要があり、その処理時間の無駄が無視できない程度に
大きかった。
【0021】音声認識や文字認識、直接指示領域の認識
といったマルチモーダルインタフェイスの各モダリティ
の入力データを生成する処理は、一般に処理自体の複雑
さや、各モダリティの認識部ヘの入力データの利用者に
よる個人性の強さに起因して、その認識結果から曖味性
を排除することが極めて困難である。
【0022】すなわち、各モダリティの認識処理におい
て誤りのない唯一の認識結果を得ることは困難であり、
各モダリティの認識結果は、最もゆう度(尤度)の高い
候補を筆頭に複数の候補を結果として出力するのが一般
的である。
【0023】このように、マルチモーダル入力解析・解
釈の入力データとなる各モダリティの認識結果には本質
的に曖昧性が含まれており、マルチモーダル入力解析に
おいては各入力要素について複数の候補の中から正しい
候補を同定してゆく作業を解析処理と並行して進める必
要がある。
【0024】従来、これらの各モダリティの認識処理に
おいて、発生する結果の曖味性に起因するマルチモーダ
ル統合解釈時の入力要素の曖昧性の処理においては、マ
ルチモーダル入力の各要素の候補数の直積を最大限とす
る複数回数のマルチモーダル解析処理を行い、得られた
マルチモーダル解釈結果候補の内で最も解釈結果として
の合理性の高い候補を何らかの尺度から選択してそれを
結果とすることが一般的であった。このため、マルチモ
ーダル入力の各要素の候補数の直積の回数分だけ解析処
理を繰り返す必要があった。
【0025】例えば、上述の音声言語とぺンによる直示
動作を組み合わせたマルチモーダル入力において、音声
言語のモダリティの認識結果として、 「(このへんの、この)(新しい、やかましい)(百貨
店、書店)」 という形の候補が、また、ぺンによる直示動作の認識結
果として、2つの候補が得られたとする。
【0026】この場合、マルチモーダル入力解析の解析
単位として、最大24 =16通りの候補を仮定し検証す
る必要がある(音声認識結果がラティスとして得られる
場合には解析対象のマルチモーダル入力候補数はより少
なくなる)。すなわち、複数のマルチモーダル入力候補
についての解析を行い、解析した候補中で最も確からし
い候補を正解の入力として選択するという処理を行う必
要がある。
【0027】ここで、解析が行われる複数の候補間の相
違性を見てみると、例えば上述の例では第1の候補の音
声言語モダリティが 「このへんの、新しい、百貨店」 であり、また、第2の候補が 「このへんの、新しい、書店」 といった形で、一部の要素を除いて他の候補と殆ど同様
であるようなものが大部分である。
【0028】この例でも第1の候補の解析後に第2の候
補の解析を行うような場合、解析処理のかなりの部分が
重複することになる。
【0029】しかしながら、曖味性を処理する機能を持
つ従来のマルチモーダル入力解析装置においては、類似
する候捕の解析処理を行う場合における重複計算を避け
るための制御メカニズムが定式化されていなかった。こ
のため、各候補について全く新規に解析処理が行われる
こととなるので、多くの処理時間を要するという問題が
あった。
【0030】候捕の解析処理など、与えられた課題を解
く処理をすることを問題解決と呼ぶとすると、この問題
解決のための処理システムの処理を制御し、その一貫性
を管理する枠組みとして、「文献:deKleer,
“AnAsgumption−based Truth
Maintenance System”, Art
ificial Intelligence, Vo
l.28,1986」に開示されている仮説型一貫性管
理機構ATMSがある。このATMSは多重世界問題を
取り扱う問題解決器に対する知的キャッシュであり、複
数の世界間で情報を最大限に伝達して効率良く問題を解
決する上で、有用な機能を提供する。
【0031】ここでは、上記参考文献の並列型ATMS
ではなく巡回型ATMS(参考文献:deKleer,
“Back to backtracking, co
ntrolling the ATMS”, Pro
c. AAAI−86, pp.1403−1416,
1986)を前提にする。
【0032】ATMSと問題解決システムは、情報の授
受により、インタラクティブに機能する別個のシステム
である。問題解決システムはその推論過程をATMSに
通知する。問題解決システムが扱う全てのデータはAT
MSが管理する。
【0033】ここで、「問題解決」とは、例えば、上記
のマルチモーダル入力解釈問題においては与えられたマ
ルチモーダル入力を解析し、その解析結果を得るという
ように、計算機システムが与えられた入力に対して所定
の処理を行い、その解を出力することを指す。
【0034】問題解決システムが通知する情報は、 [N1 ,N2 …,Nk →D] の形態をとり、データDがデータの集合{N1 ,N2 ,
…Nk }から導出されたことを表す。{N1 ,N2 ,…
Nk }をデータDの支持理由という。
【0035】問題解決システムで扱うデータは、“前提
データ”、“仮定データ”、“導出データ”の何れかに
分類される。
【0036】ここで、これら3種のデータのうち、“前
提データ”は、いかなる状況でも成立するものとして定
義される。“前提データ”は、他のデータに依存せずに
成立すると仮定されたデータである。
【0037】また、“導出データ”は、他のデータから
推論規則により導出されたデータである。問題解決シス
テムは導出データの推論過程をATMSに通知する。
【0038】導出データから支持理由を辿ると、最終的
には“前提データ”または“仮定データ”に必ず到達で
きる。このため、全てのデータに対してそれが依存する
仮定の集合を計算することができる。この仮定の集合は
環境と呼ばれる。
【0039】各データについて問題解決システムから通
知された支持理由を記録し、そのデータが成立する無矛
盾な環境を計算することが、ATMSの主要なタスクの
一つである。矛盾の導出が通知されるとATMSは矛盾
の環境を計算し、それを矛盾レコードに記録する。矛盾
レコードに含まれる環境は許されない仮定の組み合わせ
と解釈できる。
【0040】問題解決のある局面はコンテクストと呼ば
れ、その局面で成立するデータの集合により定義され
る。コンテクストに含まれる全てのノードを導出する環
境の集合を、そのコンテクストの特性環境と呼ぶ。AT
MSは矛盾レコードを用いて問題解決システムの推論過
程の無矛盾性を管理する。
【0041】問題解決システムは、矛盾レコードに記録
された環境を包含しない新たな特性環境を選択し、AT
MSに通知する。新たな特性環境が通知されると、AT
MSはそれまでに導出された各ノードが新しい特性環境
において“成立する(in)”か“成立しない(ou
t)”かを決定し、inノードの集合により、新しいコ
ンテクストを構成する。そのコンテクストの元で問題解
決システムは問題解決を続行する。
【0042】ATMSの持つこのような機能を、一貫性
管理機能と呼ぶ。すなわち,ATMSは問題解決システ
ムにおいて扱われるデータの一貫性を管理し、維持する
ことで問題解決システムの推論過程を制御する。
【0043】ATMSを用いた問題解決システムにおい
て特性環境を遷移することは、推論の途上で何らかの仮
定を改変することに当たる。特に、以前に立てた仮定の
更新は、問題空間の非単調な変更に他ならない。ATM
Sベースの問題解決システムでは、ATMSが管理する
仮定の状態を制御することで、非単調な推論が実現でき
る。また、既に述べたように問題解決システムが過去に
行った推論過程はATMSに記録されており、問題解決
システムは問題解決の途上でそのコンテクストにおいて
inであるデータについては再計算せずに利用可能であ
ることがATMSによって保証される。
【0044】すなわち、適切な特性環境の制御を行うこ
とで、ATMSを問題解決システムの知的キャッシュと
して用いることができる。
【0045】従来、西岡氏の研究(参考文献:西岡、
“仮説推論に基づく音声言語処理方式に関する研究”、
大阪大学大学院基礎工学研究科博士論文、1993)に
代表されるように、音声という単独モダリティによる対
話における曖味性の処置に、ATMSをはじめとする汎
用の知識管理の枠組みを利用した実験的な枠組はあった
が、マルチモーダル入力解析の推論制御、知的キャッシ
ュとして利用した枠組は未だ提案されていない。これは
次のような理由による。
【0046】特定の問題解決システムにATMSを導入
する際の設計上のポイントとして、(1)データの分類
(前提データ、仮定データ、導出データ)とその依存関
係の設定、(2)矛盾検出ルールの定義、(3)矛盾解
消器の設計、の3つが挙げられる。
【0047】従来、音声言語処理のような単純な単一モ
ダリティの入力を処理するための上記設計ポイントにつ
いては整理がなされてきたが、既に述べたような遅着デ
ータといったマルチモーダル入力解釈問題に特有の問題
を扱うことのできる定式化は存在しなかった。
【0048】ATMSは推論順序に関係なくコンテクス
トを構築・再現でき、PS(推論システム)の推論順序
の自由度を拡大する。しかし、マルチモーダルでもユニ
モーダルでも何れの場合でも、利用者とインタラクショ
ンをとりながら何らかのタスクを遂行してゆくシステム
においては、そのタスクに関連するデータは刻々更新さ
れることになる。
【0049】このため、問題解決の処理中におけるある
時点で“in”であったが、タスクの遂行によりデータ
が更新され、“out”になるというデータも発生す
る。ATMSベースの問題解決システムでは、このよう
なデータから導出されていたデータは自動的にコンテク
ストから取り除かれ、利用できなくなる。このため、過
去に行った問題解決データのうち、タスクの遂行により
更新されたデータに関連するものは無くなってしまうが
ために、別のデータの処理で、過去に実施済みの同じよ
うなデータについての問題解決の計算を必要とする際
に、再利用ができず、その分、解析処理が非効率になっ
てしまうという問題があった。
【0050】
【発明が解決しようとする課題】このように従来のマル
チモーダル入力解釈装置においては、少なくとも一つの
モダリティからの入力の認識結果が遅着(遅れて到着)
した場合に、遅着データを統合して解釈できない、もし
くは遅着データを統合・解釈するために、殆ど全ての解
釈処理をし直さなければならず、非効率であるという問
題があった。
【0051】また、各モダリティから得られる認識結果
の曖味性に起因する複数候補の解釈において、各候補に
ついてそれぞれ解析処理が行う必要があり、多くの処理
時間がかかり非効率であるという問題もあった。更に、
刻々更新される情報に基づく問題解決を行う際に過去の
情報にアクセスできる機能を提供できないという問題も
あった。
【0052】本発明はこのような事情を考慮してなされ
たもので、遅着データがあってもその遅着データを効率
的に統合して解釈することができ、曖昧性を持った各モ
ダリティの認識結果から構成されるマルチモーダル入力
の統合・解釈を、効率的に行うことができると共に、更
新前の知識ベースに基づく推論結果を参照しながら、最
新の知識ベースに基づく問題解決ができるようにした効
率的で高速処理が可能なマルチモーダル入力解釈装置及
びその入力統合・解釈方式を提供することにある。
【0053】
【課題を解決するための手段】本発明に係るマルチモー
ダル入力解釈装置及びそのその入力統合・解釈方式は、
使用者の指示を受け取るための各種入力デバイスと、こ
れら入力デバイス対応に設けられ、対応する入力デバイ
スからの入力信号について認識処理し、その入力信号の
認識結果情報は当該入力信号の実際の入力時刻を示す信
号入力時刻情報を含めた情報である単一モード入力対応
情報として得る入力手段と、これらの入力手段から得ら
れた一つ以上の単一モード入力対応情報を統合して解釈
し、少なくとも一つ以上の入力デバイスを介して与えら
れた各種の指示に対応する解を、マルチモーダル入力対
応情報として生成する場合に、各単一モード入力対応情
報に含まれる信号入力時刻情報を用い、入力された一つ
以上の単一モード入力対応情報から統合して解釈する一
つ以上の単一モード入力情報を選択し、この選択された
単一モード入力対応情報を統合して入力統合情報を生成
する機能を備える入力統合手段と、前記入力統合手段か
ら得られた入力統合情報を基に、知識管理手段から得ら
れる情報を参照して所定の解釈処理を行い、マルチモー
ダル入力対応情報を生成すると共に、一貫性管理手段に
保存された情報中に、再利用可能な処理結果があれば解
釈処理を省略して再利用し、マルチモーダル入力対応情
報とする統合入力解釈手段と、前記入力統合手段と前記
統合入力解釈手段のうち、少なくともいずれか一方から
通知される問題解決過程を記憶する一貫性管理手段と、
前記入力統合手段と前記統合入力解釈手段のうち、少な
くとも一方が自己での与えられた課題解決処理である問
題解決の処理時に利用する情報を貯え、受けた指示に応
じて、当該貯えられている情報に対して参照、もしくは
変更の少なくともいずれかの操作を施す知識管理手段と
を具備する構成としたことを特徴とする。
【0054】また、上記に加えて本発明に係るマルチモ
ーダル入力解釈装置及びそのその入力統合・解釈方式
は、前記一貫性管理手段には、他の情報に依存せずに成
立されると仮定された仮定ノードと、他のノードから導
出された導出ノードの少なくとも2種類の情報を含み、
前記問題解決過程はノードとノード間の依存関係として
通知され、問題解決の各時点において成立する仮定の集
合が指定されると、管理下にある各ノードがその時点で
成立しているか否かの状態を検証する機能を備えると共
に他の手段からの問い合わせに応じてその検証結果を提
供する機能が含まれ、入力統合手段と統合入力解釈手段
の少なくとも何れか一方の処理状況が所定の状態になる
かもしくは一貫性管理手段が管理するデータノードが所
定の状態になると次の問題解決状況となる仮定の集合を
計算し、一貫性管理手段に通知する環境管理手段を持つ
ことを特徴とするものである。
【0055】また、上記に加えて本発明に係るマルチモ
ーダル入力解釈装置及びそのその入力統合・解釈方式
は、前記入力統合手段には接続する単一モード入力装置
から与えられた単一モード入力対応情報の集合である単
一モード入力対応情報集合を保持し、前記一貫性管理手
段に通知する仮定には、単一モード入力対応情報集合の
どの部分集合を選択し統合するかを示す仮定と、前記選
択した部分集合の要素である単一モード入力対応情報個
々についての仮定を含むことを特徴とするものである。
【0056】また、上記に加えて本発明に係るマルチモ
ーダル入力解釈装置及びそのその入力統合・解釈方式
は、前記単一モード入力対応情報には入力信号の入力時
刻である信号入力時刻情報、もしくは単一入力対応情報
が生成された時刻である単一入力対応情報生成時刻情報
のうち、少なくとも何れか一方を含み、前記入力統合手
段手段には各単一モード入力対応情報に含まれる信号入
力時刻情報もしくは単一入力対応情報生成時刻情報を用
いることにより、与えられた一つ以上の単一モード入力
対応情報から統合して解釈処理に供する一つ以上の単一
モード入力情報を選択する機能を備えることを特徴とす
るものである。
【0057】また、上記に加えて本発明に係るマルチモ
ーダル入力解釈装置及びそのその入力統合・解釈方式
は、前記一貫性管理手段には、他の情報に依存せずに成
立されると仮定された仮定ノードと、他のノードから導
出された導出ノードの少なくとも2種類の情報を含み、
前記問題解決過程はノードとノード間の依存関係として
通知され、問題解決の各時点において成立する仮定の集
合が指定されると、管理下にある各ノードがその時点で
成立しているか否かの状態を検証する機能を備えると共
に、他の手段からの問い合わせに応じてその検証結果を
提供する機能が含まれ、入力統合手段と統合入力解釈手
段の少なくとも何れか一方の処理状況が所定の状態にな
るかもしくは一貫性管理手段が管理するデータノードが
所定の状態になると次の問題解決状況となる仮定の集合
を計算し、一貫性管理手段に通知する環境管理機能を持
つことに加え、入力統合手段と統合入力解釈手段の少な
くともいずれか一方が一貫性管理手段に通知するノード
及び問題解決過程の依存関係を監視し、予め定められた
特徴を有するノードに対して通知された時点の時刻情報
を付与する機能を備えたタイムスタンプ付与手段を持つ
ことを特徴とするものである。
【0058】また、上記に加えて本発明に係るマルチモ
ーダル入力解釈装置及びそのその入力統合・解釈方式
は、前記一貫性管理手段には、他の情報に依存せずに成
立されると仮定された仮定ノードと、他のノードから導
出された導出ノードの少なくとも2種類の情報を含み、
前記問題解決過程はノードとノード問の依存関係として
通知され、問題解決の各時点において成立する仮定の集
合が指定されると、管理下にある各ノードがその時点で
成立しているか否かの状態を検証する機能を備えると共
に他の手段からの問い合わせに応じてその検証結果を提
供する機能が含まれ、入力統合手段と統合入力解釈手段
の少なくとも何れか一方の処理状況が所定の状態になる
かもしくは一貫性管理手段が管理するデータノードが所
定の状態になると次の問題解決状況となる仮定の集合を
訃算し一貫性管理手段に通知する環境管理手段と、入力
統合手段と統合入力解釈手段の少なくともいずれか一方
が一貫性管理手段に通知するノード及び問題解決過程の
依存関係を監視し、予め定められた特徴を有するノード
に対して通知された時点の時刻情報を付与する機能を備
えたタイムスタンプ付与手段を持ち、前記タイムスタン
プ付与手段は前記知識管理手段への指示を監視し、知識
管理手段に貯えられている情報を参照して得た情報に時
刻情報を付与する機能を備え、前記知識管理手段には知
識管理手段に与えられた知識参照の問い合わせを記憶
し、与えられた知識変更の指示により成立しなくなった
過去の知識参照を同定してキャンセル情報を問い合わせ
元に伝達する機能を備え、前記環境管理手段には入力統
合手段と統合入力解釈手段の少なくともいずれか一方か
ら知識管理手段への参照操作を含む操作の指示を取り次
ぎ、その操作指示に対する知識管理手段からの回答を取
り次いで伝達すると共にその回答を表現した仮定を生成
し一貫性管理手段に伝達する知識操作代行機能を備える
と共に、知識管理手段への参照操作によって得られた情
報とその情報に付与された時刻情報とを含む知識参照情
報を記億し、他の手段から同一の参照要求が与えられた
際、知識参照情報に記憶している情報にキャンセル情報
が伝達されていなければ知識参照情報に記憶している情
報を利用してその参照要求への回答を生成して伝達する
知識参照キャッシュ機能を備えると共に、与えられた時
刻における問題解決過程を博現する機能を備えることを
特徴とするものである。
【0059】本発明は、使用者の指示を受け取るための
各種入力デバイスを用い、これら各入力デバイスからの
入力信号に対して認識処理を行い、その入力信号の認識
結果情報は当該入力信号の実際の入力時刻を示す信号入
力時刻情報を含めた情報である単一モード入力対応情報
として得、これら得た一つ以上の単一モード入力対応情
報を統合して解釈し、少なくとも一つ以上の入力デバイ
スを介して与えられた各種の指示に対応する解を、マル
チモーダル入力対応情報として生成するにあたり、入力
統合手段では各単一モード入力対応情報に含まれる信号
入力時刻情報を用い、入力された一つ以上の単一モード
入力対応情報から統合して解釈する一つ以上の単一モー
ド入力情報を選択し、この選択された単一モード入力対
応情報を統合して入力統合情報を生成する。この入力統
合情報を得る過程である問題解決過程は、一貫性管理手
段に保存する。一貫性管理手段は、前記入力統合手段と
前記統合入力解釈手段の少なくともいずれか一方から通
知される問題解決過程を記億する。
【0060】統合入力解釈手段は、入力統合手段にて得
られた入力統合情報を元に、知識管理手段で得られる情
報とを参照して所定の解釈処理を行い、少なくとも一つ
以上の入力デバイスを介して与えられた各種の指示に対
応する解を、マルチモーダルに対応する解(マルチモー
ダル入力対応情報)として生成する。この解を得る過程
である問題解決過程も、一貫性管理手段に保存する。
【0061】統合入力解釈手段は、解を得るにあたり、
前記一貫性管理手段に保存される情報中に、再利用可能
な処理結果があれば問題解決過程を踏むことなく、すな
わち、処理を省略して既に保存された当該処理結果を再
利用し、マルチモーダル入力対応情報とする。
【0062】このように、本発明は一貫性管理手段に、
前記入力統合手段や前記統合入力解釈手段から通知され
る問題解決過程を逐一記憶しておき、後の処理で再利用
できるものは、問題解決の処理を省略してこの記憶され
ている処理結果を再利用し、処理の無駄をなくすように
した。
【0063】従来のマルチモーダル入力解釈装置におい
ては、各モダリティの認識処理において発生する結果の
曖味性に起因するマルチモーダル統合解釈時の入力要索
の曖味性を持ったマルチモーダル入力の解析処理におい
て、各マルチモーダル入力候補について繰り返し解析処
理が行われるため、多くの処理時間がかかるという問題
もあったが、本発明では、過去の問題解決の途中過程を
再利用した効率のよいマルチモーダル入力解釈ができる
ようになるものである。
【0064】具体的には、本発明では、入力統合手段と
統合入力解釈手段の少なくともいずれか一方から通知さ
れる問題解決過程を他の情報に依存せずに成立されると
仮定された仮定ノードと、他のノードから導出された導
出ノードの形式で伝達されて記憶し、それを用いて問題
解決過程の一貫性を維持する一貫性管理手段を設け、入
力統合手段と統合入力解釈手段の少なくとも何れか一方
の処理状況が所定の状態になるかもしくは一貫性管理手
段が管理するデータノードが所定の状態になると次の問
題解決状況となる仮定の集合を計算し、一貫性管理手段
に通知する環境管理手段を設けることで、例えば前記一
貫性管理手段に通知する仮定には、単一モード入力対応
情報集合のどの部分集合を選択し統合するかを示す仮定
と、前記選択した部分集合の要素である単一モード入力
対応情報個々についての仮定を含み、それらの仮定に基
づくデータとしてマルチモーダル入力統合・解析の過程
が伝達されるようにしたことで、例えば、あるマルチモ
ーダル入力候補の解析が失敗し、その候補とある特定の
単一モード入力に対応する要素を差し替えた別のマルチ
モーダル入力候補の解析を行う際に、差し替えられなか
った単一モード入力情報のみに依存する過去のマルチモ
ーダル入力候補解析の途中結果について再利用すること
ができるなど、過去の問題解決の途中過程を再利用した
効率のよいマルチモーダル入力解釈ができるようになっ
ている。
【0065】また、従来のマルチモーダル入力解釈装置
においては、マルチモーダル入力の解析中に解析中のデ
ータよりも入力時刻が過去のデータが遅れて到着する遅
着データの問題を回避するために、到着遅れのデータが
ないと期待できる状況になるまで待ってからマルチモー
ダル解析処理を開始するか、解析中の途中結果を破棄し
て構文解析を殆ど初めからやり直す必要があるという問
題があった。
【0066】しかし、本発明では、前記単一モード入力
対応情報には入力信号の入力時刻である信号入力時刻情
報、もしくは単一入力対応情報が生成された時刻である
単一入力対応情報生成時刻情報のうち少なくとも何れか
一方を含み、前記入力統合手段には各単一モード入力対
応情報に含まれる信号入力時刻情報もしくは単一入力対
応情報生成時刻情報を用いることにより、与えられた一
つ以上の単一モード入力対応情報から統合して解釈処理
に供する一つ以上の単一モード入力情報を選択する機能
を備え、入力統合手段と統合入力解釈手段の少なくとも
いずれか一方から通知される問題解決過程を他の情報に
依存せずに成立されると仮定された仮定ノードと、他の
ノードから導出された導出ノードの形式で伝達されて記
録し、それを用いて問題解決過程の一貫性を維持する一
貫性管理手段を設け、入力統合手段と統合入力解決手段
の少なくとも何れか一方の処理状況が所定の状態になる
かもしくは一貫性管理手段が管理するデータノードが所
定の状態になると次の問題解決状況となる仮定の集合を
計算し、一貫性管理手段に通知する環境管理手段を設け
るようにしたことで、例えば、前記一貫性管理手段に通
知する仮定には、単一モード入力対応情報集合のどの部
分集合を選択し統合するかを示す仮定と、前記選択した
部分集合の要素である単一モード入力対応情報個々につ
いての仮定を含み、それらの仮定に基づくデータとして
マルチモーダル入力統合・解析の過程が伝達されること
で、例えば、遅着データが到着する前に進行していたマ
ルチモーダル入力候補の解析処理の途中過程のうち、遅
着データがない仮定から導出されていない途中経過につ
いて再利用を行なうなど、過去の問題解決の途中過程を
再利用した効率の良いマルチモーダル入力解釈ができる
ようになっている。
【0067】加えて、従来のマルチモーダル入力解釈装
置においては、一般に知識ベースに対する煩雑な問い合
わせの必要性が発生するが、問い合わせる必要が生ずる
度に知識ベースへの問い合わせを行うと知識ベース問い
合わせの処理時間が重複して必要となり、知識ベースに
対する問い合わせへの回答を入力解釈モジュール中で記
憶し、その情報を問題解決に使おうとすると知識ベース
の内容の更新に対応できないという問題もあった。
【0068】しかし本発明では、入力統合手段と統合入
力解釈手段の処理状況が所定の状態になるかもしくは一
貫性管理手段が管理するデータノードが所定の状態にな
ると次の問題解決状況となる仮定の集合を計算し、一貫
性管理手段に通知する環境管理手段と、入力統合手段と
統合入力解釈手段の少なくともいずれか一方が一貫性管
理手段に通知するノード及び問題解決過程の依存関係を
監視し、予め定められた特徴を有するノードに対して通
知された時点の時刻情報を付与する機能を備えたタイム
スタンプ付与手段を設けるようにしたことで、例えば、
前記タイムスタンプ付与手段は前記知識管理手段への指
示を監視し、知識管理手段に貯えられている情報を参照
して得た情報に時刻情報を付与する機能を備え、前記知
識管理手段には知識管理手段に与えられた知識参照の問
い合わせを記憶し、与えられた知識変更の指示により成
立しなくなった過去の知識参照を同定してキャンセル情
報を問い合わせ元に伝達する機能を備え、前記環境管理
手段には入力統合手段と統合入力解釈手段の少なくとも
いずれか一方から知識管理手段への参照操作を含む操作
の指示を取り次ぎ、その操作指示に対する知識管理手段
からの回答を取り次いで伝達すると共にその回答を表現
した仮定を生成し一貫性管理手段に伝達する知識操作代
行機能を備えると共に、知識管理手段への参照操作によ
つて得られた情報とその情報に付与された時刻情報とを
含む知識参照情報を記憶し、他の手段から同一の参照要
求が与えられた際、知織参照情報に記億している情報に
キャンセル情報が伝達されていなければ知識参照情報に
記億している情報を利用してその参照要求への回答を生
成して伝達する知識参照キャッシュ機能を備えるなどに
より、知識の更新に対応し、かつ、重複問い合わせを行
わない効率的な知識の参照ができるようになっている。
【0069】更に、従来のマルチモーダル入力解釈装置
においては、利用者とやりとりをしながらタスクを遂行
してゆくシステムでは、そのタスクに関連するデータは
刻々更新されるが、後の問題解決で過去のデータを参照
する必要がある場合に参照できなくなるという問題もあ
った。
【0070】しかし本発明では、例えば入力統合手段と
統合入力解釈手段の処理状況が所定の状態になるかもし
くは一貫性管理手段が管理するデータノードが所定の状
態になると次の問題解決状況となる仮定の集合を計算し
一貫性管理手段に通知する環境管理手段と、入力統合手
段と統合入力解釈手段の少なくともいずれか一方が一貫
性管理手段に通知するノード及びノード間の依存関係を
監視し、予め定められた特徴を有するノードに対して通
知された時点の時刻情報を付与する機能を備えたタイム
スタンプ付与手段を持ち、前記タイムスタンプ付与手段
は前記知識管理手段への指示を監視し、知識管理手段に
貯えられている情報を参照して得た情報に時刻情報を付
与する機能を備え、前記知識管理手段には知識管理手段
に与えられた知識参照の問い合わせを記億し、与えられ
た知識変更の指示により成立しなくなった過去の知識参
照を同定してキャンセル情報を問い合わせ元に伝達する
機能を備え、前記環境管理手段には入力統合手段と統合
入力解釈手段の少なくともいずれか一方から知識管理手
段への参照操作を含む操作の指示を取り次ぎ、その操作
指示に対する知識管理手段からの回答を取り次いで伝達
すると共にその回答を表現した仮定を生成し一貫性管理
手段に伝達する知識操作代行機能を備えると共に、知識
管理手段への参照操作によつて得られた情報とその情報
に付与された時刻情報とを含む知識参照情報を記億し、
他の手段から同一の参照要求が与えられた際、知識参照
情報に記億している情報にキャンセル情報が伝達されて
いなければ知識参照情報に記億している情報を利用して
その参照要求への回答を生成して伝達する知識参照キャ
ッシュ機能を備えると共に、与えられた時刻における問
題解決過程を再現することで、過去の問題解決状況を参
照できるようになっている。
【0071】故に、本発明によれば、各モダリティの認
識処理において発生する結果の曖味性に起因するマルチ
モーダル統合解釈時の入力要素の曖昧性を持ったマルチ
モーダル入力の解析処理において、過去の問題解決の途
中過程を再利用した効率のよいマルチモーダル入力解釈
が可能となる。
【0072】さらに、本発明によれば、マルチモーダル
入力の解析中に解析中のデータよりも入力時刻が過去の
データが遅れて到着する遅着データの処理において、過
去の問題解決の途中過程を再利用した効率のよいマルチ
モーダル入力解釈が可能となる。
【0073】さらに、本発明によれば、知識の更新に対
応しかつ重複問い合わせを行わない効率的な知識の参照
が可能となる。
【0074】さらに、本発明によれば、与えられた時刻
における問題解決過程を再現することで、過去の問題解
決状況を参照することが可能となる。
【0075】
【発明の実施の形態】本発明は、曖昧性を持ったマルチ
モーダル入力及び遅着データを含むマルチモーダル入力
の解釈処理において、過去の問題解決の途中過程を再利
用した効率の良いマルチモーダル入力解釈を行う機能を
持ち、知識の更新に対応し、かつ、重複問い合わせは行
わないようにした効率的な知識の参照を行う機能を持
ち、また、与えられた時刻における問題解決過程を再現
することで、過去の問題解決状況を参照することが可能
な機能を持つマルチモーダル入力解釈装置及びそのその
入力統合・解釈方式を提供するものであり、以下、図面
を参照して本発明の詳細につき説明する。
【0076】図1は、本発明の具体例に係るマルチモー
ダル入力解釈装置の概略構成図である。図1に示すよう
に、本発明のマルチモーダル入力解釈装置101は、入
力統合部11、統合入力解釈部12、一貫性管理部1
3、タイムスタンプ付与部14、環境管理部15、知識
管理部16からなり、また、複数の入力デバイス102
a〜102cとその認識装置103a〜103cに接続
し、各入力デバイスから利用者が入力した単独モード入
力解釈結果を認識装置103a〜103cから受け取
り、それらをマルチモーダル入力として統合し、マルチ
モーダル入力の解釈処理を行って解釈結果を得、それを
情報処理装置104の入力として与える構成としてあ
る。
【0077】なお、音声モード認識部やジェスチャモー
ド認識部といった各モダリティ認識装置103a〜10
3cは、利用者の音声入力やジェスチャ入力があると、
その認識を行い、認識結果が得られると、入力時刻情報
とユニークなIDを付与して入力統合部11に認識結果
を出力するが、これをMM入力要素と呼ぶ。
【0078】これらのうち、入力統合部11は、各モダ
リティの認識部から非同期にMM入力要素を受け取り、
統合して、解釈すべきひとかたまりのMM入力要素集合
(MM入力)を決定する機能を有する。
【0079】統合入力解釈部12は、MM入力要素それ
ぞれについて候補を一つずつ選択したMM入力候補の集
合を生成し、そして、それぞれのMM入力候補につい
て、知識ベース中のドメイン知識を参照してMM入力の
解析を行い、利用者のMM入力内容を同定する処理を行
うものである。
【0080】一貫性管理部13は、入力統合部11、及
び統合入力解釈部12における問題解決の過程をそれぞ
れより情報として得て逐一記録するものである。また、
一貫性管理部13は問題解決の各時点において成立する
仮定の集合が指定されると、管理下にある各ノードがそ
の時点で成立しているか否かの状態を検証する機能を備
えて当該検証を行うと共に、他の手段からの問い合わせ
に応じてその検証結果を提供するといった機能を有す
る。
【0081】タイムスタンプ付与部14は、入力統合部
11、及び統合入力解釈部12が一貫性管理部13に通
知するノード及び問題解決過程の依存関係を監視すると
共に、予め定められた特徴を有するノードが通知される
と、そのノードに対して通知された時点の時刻情報を付
与する機能を有する。
【0082】環境管理部15は、MM入力候補の解析に
失敗するなどにより一貫性管理部13に矛盾の発生が通
知されるか、又はあるMM入力候補の解析処理が終了す
るなど一貫性管理部13が管理するデータが予め与えら
れた状態に達すると、問題解決のための新たな環境を生
成し、一貫性管理部13にその環境への遷移を指示する
機能を有する。
【0083】知識管理部16は、入力統合部11、及び
統合入力解釈部12が参照するドメイン知識を貯え、問
題解決時に利用する情報を貯え、環境管理部15の指示
に応じて貯えられている情報に対して参照、もしくは変
更の操作を施す機能を有するものである。
【0084】このような構成の本発明のマルチモーダル
入力解釈装置101の作用を説明する。本発明のマルチ
モーダル入力解釈装置101は、入力統合部11に、複
数の入力デバイス102a〜102cとその認識装置1
03a〜103cが接続され、各入力デバイスから利用
者が入力した単独モード入力解釈結果を認識装置103
a〜103cから受け取り、それらをマルチモーダル入
力として統合し、統合入力解釈部12によりマルチモー
ダル入力の解釈処理を行って解釈結果を得、それを情報
処理装置104の入力として与えるようにしてある。
【0085】ここで、入力デバイス102a〜102c
は例えば、ペン入力装置、音声入力装置、表情読取り装
置、視線認識装置、文字認識装置、キーボード装置、タ
ッチパネルである、…といった具合であり、図では3系
統としてあるが設置個数の制限はなく、例えば、1系統
あたり1種類として、システムとして必要な種類とデバ
イス数を備えているものとする。
【0086】入力デバイス102a〜102cには各モ
ダリティの認識装置103a〜103cがあり、各モダ
リティの認識装置103a〜103cは、例えば、入力
デバイスがペンであれば、そのペンによるジェスチャ
(ポイントする、丸や四角で囲む、レ点を打つといった
操作)例えば、ディスプレイ上にペンでポイントすれ
ば、そのポイントを認識し、また、エリアをペンで囲め
ば、その囲んだエリアを認識し、レ点を打てば、そのレ
点を打った位置を認識する。また、入力デバイスが音声
であれば、音声認識してその認識結果を出力するといっ
た具合である。
【0087】このように、音声認識する音声モード認識
部やジェスチャ認識するジェスチャモード認識部といっ
た各モダリティの認識装置(103a〜103c)は、
利用者の音声入力やジェスチャ入力があるとその認識を
行い、認識結果が得られるとその認識結果を入力時刻情
報とユニークなIDを付与して入力統合部11に認識結
果を出力する。これをMM入力要素と呼ぶ。
【0088】MM入力要素を受ける入力統合部11は、
各モダリティの認識部103a〜103cから非同期に
MM入力要素を受け取り、統合して解釈すべきひとかた
まりのMM入力要素集合(MM入力)を決定する。ここ
で行われる処理をMM入力統合処理と呼ぶ。例えば、認
識結果をその認識結果に付属する入力時刻情報や他の条
件から候補順位を付与し、候補順位対応に、統合して解
釈すべきひとかたまりのMM入力要素集合(MM入力)
を決定する。
【0089】統合入力解釈部12は、MM入力要素それ
ぞれについて候補を一つずつ選択したMM入力候補の集
合を生成する。そして、統合入力解釈部12は、それぞ
れのMM入力候補について、知識管理部16の持つ知識
ベース中のドメイン知識を参照してMM入力の解析を行
い、利用者のMM入力内容を同定しようとする。MM入
力内容が同定されれば、統合入力解釈部12はそれを情
報処理装置104に送付する。ここで行われる処理、す
なわち、統合入力解釈部12でのこれらの処理をMM入
力解析処理と呼ぶ。
【0090】一方、入力統合部11、及び統合入力解釈
部12における問題解決の過程は、逐一、一貫性管理部
13に通知される。そして、この一貫性管理部13は、
この通知された内容を逐一、記録する。一貫性管理部1
3で行われる処理は、参考文献(deKleer,“B
ack to backtracking,contr
oling the ATMS”, Proc. AA
AI−86, pp.1403−1416, 198
6)で開示されている巡回型ATMSに準拠し、扱うデ
ータは、“前提データ”、“仮定データ”、“導出デー
タ”の何れかに分類される。
【0091】これらのうち、“前提データ”は、いかな
る状況でも成立するものとして定義される。“仮定デー
タ”は、他のデータに依存せずに成立すると仮定された
データである。また、“導出データ”は他のデータから
推論規則により導出されたデータである。
【0092】また、一貫性管理部13に通知される問題
解決過程の情報は、ノードとノード間の依存関係の情報
として通知されるようにしてあり、一貫性管理部13は
問題解決の各時点において成立する仮定の集合が指定さ
れると、管理下にある各ノードがその時点で成立してい
るか否かの状態を検証する機能を備えて当該検証を行う
と共に、他の手段からの問い合わせに応じてその検証結
果を提供する。
【0093】知識管理部16は、入力統合部11、及び
統合入力解釈部12が参照するドメイン知識を貯え、ま
た、問題解決時に利用する情報を貯え、これら貯えられ
た情報については、環境管理部15の指示に応じて参
照、もしくは変更の操作を施す。
【0094】また、タイムスタンプ付与部14では、入
力統合部11、及び統合入力解釈部12が一貫性管理部
13に通知するノード及び問題解決過程の依存関係の情
報を監視する。そして、タイムスタンプ付与部14は、
入力統合部11や統合入力解釈部12から一貫性管理部
13に対して、予め定められた特徴を有するノードが通
知されると、そのノードに対して通知された時点の時刻
情報を、一貫性管理部13に付与する。従って、一貫性
管理部13は入力統合部11及び統合入力解釈部12か
ら通知された情報に対して当該付与された時刻情報を含
めて記録する。
【0095】統合入力解釈部12が、MM入力候補の解
析に失敗するなどにより、一貫性管理部13に矛盾の発
生が通知されるか、または、あるMM入力候補の解析処
理が終了するなど一貫性管理部13が管理するデータが
予め与えられた状態に達すると、環境管理部15は問題
解決のための新たな環境を生成し、一貫性管理部13に
その環境への遷移を指示する。そして、この一貫性管理
部13は、この通知された内容を記録する。入力統合部
11、及び統合入力解釈部12は新たな環境の下で問題
解決を続行する。
【0096】統合入力解釈部12が問題解決に成功し、
解を得たならば、その解は情報処理装置104に送ら
れ、情報処理装置104は例えば、文字及び色による強
調で画面上に表示させるように画像情報を作成してディ
スプレイに表示させ、あるいはプリンタなどに出力させ
て使用者にハードコピーを提供する。
【0097】以上が本発明に係る情報処理システムの概
略構成である。
【0098】ここでぺンによる直接指示と、音声による
マルチモーダル入力の照応解決を行うシステムを例にと
り、図2〜図3を参照して更に詳しく説明する。
【0099】<直接指示とマルチモーダル入力の照応解
決を行うシステム例>今、ディスプレイとタッチパネ
ル、キーボード、ペン入力装置、手書き文字入力装置、
音声入力機能などと、それらの認識装置を備えた案内シ
ステムを考えてみる。
【0100】入力統合部11は、各モダリティの認識部
103から非同期にMM入力要素を受け取り、統合して
解釈すべきひとかたまりのMM入力要素集合(MM入
力)を決定し、統合入力解釈部12に渡すという処理を
逐次、実施している。そして、統合入力解釈部12は、
MM入力要素それぞれについて候補を一つずつ選択した
MM入力候補の集合を生成する。そして、統合入力解釈
部12は、それぞれのMM入力候補について、知識ベー
ス中のドメイン知識を参照してMM入力の解析を行い、
利用者のMM入力内容を同定しようとする。
【0101】今、システム利用者が東京駅周辺でのホテ
ルを探しているとする。この場合、ディスプレイ画面
に、東京駅周辺の地図を表示させるようシステムに指示
し、東京駅周辺の地図が表示されたならば、利用者所望
の検索条件を所望のモダリティを使用してシステムに入
力する。この入力は利用者の好きなモダリティで良く、
例えば、地図画面上でぺンにより、大まかなエリアを線
で囲むように描いたり、言葉で「この辺のホテル」など
と呟いたり、キーボード操作や手書き入力で具体的に
「東京駅から歩いて10分位の新しいホテル」といった
具合に、操作し易い方法で入力を試みる。その結果、ペ
ン入力ならばペンとその認識装置というモダリティが、
その入力結果を認識し、また、音声ならば、マイクロフ
ォン(以下、マイクと呼ぶ)と音声認識装置というモダ
リティが、その入力結果を認識し、また、手書き入力な
らば、その手書き入力部とその認識装置というモダリテ
ィが、その入力結果を認識し、それぞれ認識結果を入力
時刻情報とユニークなIDを付与して入力統合部11に
送る。
【0102】図2にぺンによる直接指示と、音声による
マルチモーダル入力の照応解決を行うシステムの出力画
面例を示す。
【0103】この画面は、本システムの利用者が、入力
デバイス102としてペン入力装置のペンを用いて、デ
ィスプレイ上の表示地図画像である東京駅周辺の地図に
おける“東京駅の北西部”の所望領域を丸く囲みなが
ら、「この辺の新しいホテル」と発声したと想定した時
のものである。この丸く囲まれた領域内に、新設ホテル
ではないが、東京ステーションホテルと、パレスホテル
という二つのホテルがあったとする。そして、前者は旧
来のからのホテルであり、後者は新設ホテルであるとす
る。地図上において線で丸く囲まれた領域近傍では、こ
れらのホテルが該当するが、丸く囲む線の領域内のもの
程、順位が高く、上記丸く囲まれた領域外では、当該線
から離れる程順位が低くなる。線からどの程度の範囲を
含めるかは、使用者の指示に従うが、指示が無ければデ
フォルト値に従う。この基準に該当するホテルは長方形
で画面上に表示される。
【0104】地図画面上の太い長方形は、ジェスチャ認
識部103の第1位の候補が表現しているオブジェクト
集合である[東京ステーションホテル、パレスホテル]
を表示している。前者は第1候補、後者は第2候補とな
る。音声から得られる情報(マイクと音声認識装置によ
り得られる音声認識情報)では「新しいホテル」という
条件が第1候補である。
【0105】最初に第1候補同士で同定されることにな
るが、しかし、[東京ステーションホテル]は「新しい
ホテル」ではないから、音声から得られる情報(マイク
と音声認識装置により得られる音声認識情報)である
「新しいホテル」という条件と合致せず、このオブジェ
クト集合の解析は失敗することになる。
【0106】入力統合部11は、各モダリティの認識部
103から非同期にMM入力要素を受け取り、統合して
解釈すべきひとかたまりのMM入力要素集合(MM入
力)を決定し、統合入力解釈部12に渡すという処理を
逐次、実施している。そして、統合入力解釈部12は、
MM入力要素それぞれについて候補を一つずつ選択した
MM入力候補の集合を生成する。そして、統合入力解釈
部12は、それぞれのMM入力候補について、知識ベー
ス中のドメイン知識を参照してMM入力の解析を行い、
利用者のMM入力内容を同定しようとする。
【0107】ここでの想定は、ペン入力による丸で囲ん
だ領域と、音声入力による「この辺の新しいホテル」と
いう条件で、それ以後にまだ次の新たな内容の入力は無
いから、まだ検証していない第2候補の検証に移ること
になる。
【0108】すなわち、上述のようにして、順にMM入
力候補の解析を行ううちに、ジェスチャ認識部103の
第2位の候補[パレスホテル]と音声認識部の第1位の
候補「この辺の新しいホテル」を統合したMM入力候補
が、解析対象となる。
【0109】このMM入力候補は、ジェスチャ認識候補
から得られるオブジェクト集合と音声認識結果候補から
のオブジェクト集合が一致する。これにより、MM入力
候補の解析が成功し、その解は情報処理装置104に送
られ、情報処理装置104は例えば、文字及び色による
強調で画面上に表示させるように画像情報を作成してデ
ィスプレイに表示させる。
【0110】このような動作は具体的には、次のような
処理により実現されている。
【0111】入力統合部11によるMM入力統合処理で
は、まずMM入力要素全集合と呼ばれる集合Sの初期値
を空とする(集合Sの初期値をクリアする)。そして、
(1)MM入力解折処理の成功、(2)十分長い間、ど
のモダリティの認識結果も到着しない(タイムアウト)
状態、の何れかになるまで、次の操作を繰り返す。
【0112】1. 何れかのモダリティの認識結果が新
たに伝達されると、そのIDを集合Sに追加する。
【0113】2. 集合Sの任意のサブセットSsの解
析処理を未だ行っていなければ、SsをMM入力として
仮定しMM解析処理を行う。
【0114】3. タイムアウトすると集合Sを空にす
る。
【0115】MM入力解析処理が成功すると、Ssを出
力すると共にSsを集合Sから除去する。
【0116】MM入力統合処理において生成される仮定
は、以下の[I],[II]の2種類のうちの何れかに属
する。
【0117】[I] integrate(list of MMI element,
MMI ID): これまでに得られている入力要素集合のう
ち、list of MMI element(第1引
数)をまとまりとして統合することを仮定する。この近
辺のMM入力統合についてMMI ID(第2引数)が
割り当てられる。
【0118】[II] no_omission(modality, list of
MMI element, MMI ID): MMIID(第3引数)のM
M入力統合に、modality(第1引数)の入力要
素がlist of MMI element(第2引
数)のみ含まれることを仮定する。システムに接続して
いる各入力モダリティ毎に仮定される。
【0119】例えば、音声入力とジェスチャ入力のみを
扱うMMIFにおいて音声入力で文節ラティスV#1が
得られ、それを統合してMM入力とした場合、図3の最
上面左側に示すように integrate([V#1]MM#1) no_omission(vIn,[V#1],MMI
#1) no_omission(gIn,[]MMI#1) の3つの仮定が生成されて現在の環境に追加される。
【0120】更に、MM入力を表す導出データが integrate([V#1],MMI#1 & no_omission(vIn,[V#1],MMI#1) & no_omission(gIn,[],MMI#1) → integrated_input([V#1,[MMI#1]) というjustificationにより導かれ、MM
入力解析処理に制御が引き渡される。但し、実際には入
力時刻情報も付加されるが、ここでは簡単化のため、記
述はしない。
【0121】MM入力解析では、MM入力侯捕集合から
順にMM入力侯補を選択して解析するが、その際に入力
要素中の各要素について仮定が生成され、更にこれらの
仮定から導出がなされるという形で解釈が進行し、その
過程が逐一、一貫性管理部13に蓄積される。
【0122】ひとつのMM入力候補の解析が終了し、次
のMM入力候補が選択されると、環境管理部15は、新
たなMM入力候補の解析処理に必要な環境を設定する。
このとき、以前のMM入力候捕の解釈過程でこれらのデ
ータから導かれていたデータが、参照可能になる。すな
わち、本発明では一貫性管理部13を設けてここに以前
のMM入力候捕の解釈過程でのデータおよびこれらデー
タから導かれたデータを全て蓄積して保存してあること
から、これらの蓄積情報を後の処理において参照可能に
なる。
【0123】このようにして過去の問題解決の途中過程
を逐一保存して、後の処理において参照できるように
し、これによって、過去の問題解決の途中過程を最大限
に生かしながら、適切な解を導ける候補の集合を探索す
ることができる。
【0124】MM入力解析処理中にあるモダリティ、例
えばジェスチャモダリティgInから統合すべき遅着入
力G#1が届くと、 integrate([V#1,G#1],MMI#1) & no_omission(gIn,[],MM#1) → integrate([V#1],MM#1) & integrate([V#1,G#1],MM#1) → の2つの矛盾が導かれる。この矛盾を解消するために環
境管理部15は、「no_omission(gIn,
[],MMI#1)とintegrate([V#
1],MMI#1)を含まず、integrate
([V#1、G#1],MM#1)を含む」環境を決定
し、遷移を指示する。この環境遷移により、図3の網掛
け表示されたデータが自動的にコンテクストから除去さ
れると共に、新たなコンテクストに含まれるデータ
(i.e. no_omission(vIn,[V#
1],MMI#1)のみから導出されているデータ等)
については再計算することなく利用できる。このように
進行中の処理の再利用可能な推論データの状態を保存し
ながら、遅着データを取り込み、MM解析を再開でき
る。
【0125】MM入力解析処理では、与えられたMM入
力からMM入力候補を生成し、モダリティ毎に仮定を立
てる。但し、このMM入力解析処理において生成される
仮定及び仮定からの導出は、入力モダリティによって異
なる。
【0126】例えば、文節ラダーV#1の内容が、 [(この:VW#1,このへんの:VW#2),(大き
な:VW#3,新しい:VW#4),(ホテル:VW#
5,本屋:VW#6)で、直接指示対象候補集合G#1
を[Location#1,Location#2] であったとする。
【0127】MM入力解析では、MM入力候補集合から
順にMM入力候補を選択して解析処理を行うが、その際
に入力要素中の各要素について仮定が生成される。例え
ば、MM入力候補として [このへんの:VW#2、大きな:VW#3,ホテル:
VW#5,Location#1] の解析を行う場合、 vIn_phrase([VW#2,VW#3,VW#
5],V#1) gesture_location(Location
#1,G#1) gesture_word(G#1,VW#2) の仮定が立てられ、更に仮定vIn_phrase
([VW#2,VW#3,VW#5],から vIn_word(VW#2,V#1) vIn_word(VW#3,V#1) vIn_word(VW#5,V#1) modify(VW#2,VW#5) modify(VW#3、VW#5) の各々への導出がなされる、というようにMM入力統合
処理、およびMM入力解釈処理が進行し、その過程が逐
一、一貫性管理部13に蓄積される。
【0128】そして、このようなMM入力候補の解析が
終了し、次のMM入力候補として例えば、 [このへんの:VW#2、新しい:VW#4、ホテル:
VW#5,Location#1]] が選択されたとする。このとき、環境管理部15は仮定
vIn_phrase([VW#2,VW#4,VW#
5],V#1)を含み、仮定vIn_phrase
([VW#2,VW#3,VW#5],V#1)を含ま
ない環境を新しい環境として設定する。この際、仮定v
In_phrase([VW#2,VW#3,VW#
5],V#1)から導出されていた vIn_word(VW#2,V#1) vIn_word(VW#3,V#1) vIn_word(VW#5、V#1) modify(VW#2,VW#5) modify(VW#3,VW#5) は、一旦、コンテクストから除外されるが、すぐに仮定
vIn_phrase([VW#2,VW#4,VW#
5],V#1)から、 vIn_word(VW#2,V#1) vIn_word(VW#4,V#1) vIn_word(VW#5,V#1) modify(VW#2,VW#5) modify(VW#4,VW#5) の各々へが導出される。この操作により、データ vIn_word(VW#2,V#1) vIn_word(VW#5,V#1) modify(VW#2,VW#5) は、再び、コンテクストに含まれるようになる。このた
め、以前のMM入力侯補の解釈過程で、これらのデータ
から導かれていたデータが参照できるようになる。この
ようにして過去の問題解決の途中過程を、後での処理
に、可能な限り活かしながら、適切な解を導ける候補の
集合を探索することができるようになる。
【0129】<本システムにおけるデータや時間の取扱
い>ところで、利用者とやりとりをしながら、タスクを
遂行してゆくシステムでは、そのタスクに関連するデー
タは刻々更新されることになる。しかし、後の問題解決
で過去のデータを参照する場合もあり、時間の経過に従
って単純にデータを消去したり無効にするわけにはゆか
ない。本装置では、時間変化するデータを次のように扱
い、時間の取り扱いの課題に対処している。
【0130】1. 入力統合部11、および統合入力解
釈部12から知識管理部16への問い合わせは環境管理
部15を通して行う。
【0131】2. タイムスタンプ付与部14は、知識
管理部16から環境管理部15への通信を監視し、知識
管理部16から環境管理部15に知識問い合わせの回答
が行われると、その回答情報に時刻情報を付与する。
【0132】3. 環境管理部15は、時刻情報が付与
された知識管理部16の回答に対応する一貫性管理部1
3の仮定を生成し、そのIDを内部の履歴に記憶する。
【0133】4. 知識ベースが更新されると、知識管
理部16はその更新により影響を受ける過去の問い合わ
せを検索し、その問い合わせに対する回答が無効である
旨を環境管理部15に伝達する。環境管理部15は、内
部に記憶してある履歴のうち、伝達された当該回答無効
に対応する履歴レコードに、無効フラグを付与する。こ
の無効フラグの付与により、履歴レコードそのものは、
保存することができる。
【0134】5. 環境管理部15は、入力統合部1
1、および統合入力解釈部12からの問い合わせに対
し、まず内部履歴を検索する。有効な同じ問い合わせが
履歴中にあれば、対応するATMSノードのIDを返答
する。履歴中に有効なものがない場合に、はじめて、知
識管理部16に問い合わせる。
【0135】以上のような、いわば知識ベースのキャッ
シュ機能を環境管理部16が持つことにより、更新前の
知識ベースに基づく推論結果を参照しながら、最新の知
識ベースに基づく問題解決ができるようになる。また、
各時点の問題解決のスナップショットを再現できるよう
になる。
【0136】このような処理を施すことにより、例え
ば、上述の例において選択されたホテルについての情報
が、知識管理部16の管理する知識ベースから削除され
たとしても、利用者が「さっきのホテル」と発声した場
合に、「さっき」という言葉の意味が、条件を元に戻す
という意味合いとなることから、無効フラグが付された
履歴レコードを参照するという処理に移ることができ、
「さっきのホテル」という入力を正しく解釈して対応す
ることができるようになる。
【0137】かくしてこのような本発明のマルチモーダ
ル入力解釈装置及びそのその入力統合・解釈、方法によ
れば、各モダリティの認識処理において発生する結果の
曖味性に起因するマルチモーダル統合解釈時の入力要素
の曖昧性を持ったマルチモーダル入力の解析処理におい
て、過去の問題解決の途中過程を再利用できるようにな
り、この過去の問題解決の途中過程の再利用により、効
率の良いマルチモーダル入力解釈が可能となる。
【0138】また、本発明によれば、過去の問題解決の
途中過程を再利用できるようにしたことから、マルチモ
ーダル入力の解析中に、解析中のデータよりも入力時刻
が過去のデータが遅れて到着する遅着データがあって
も、その処理について、過去の問題解決の途中過程を再
利用した効率の良いマルチモーダル入力解釈が可能とな
る。
【0139】また、本発明によれば、知識の更新に対応
し、かつ、重複問い合わせを行わない効率的な知識の参
照が可能となる。
【0140】また、本発明によれば、与えられた時刻に
おける問題解決過程を再現することで、過去の問題解決
状況を参照することが可能となる。
【0141】また、以下では、本マルチモーダル入力解
釈装置をソフトウェアを使って実現する場合の装置構成
について、図4を参照しながら説明する。
【0142】この場合、ハードウェアとしては本マルチ
モーダル入力解釈装置は、CPU21、プログラムや必
要なデータを格納するためのRAM 22、入出力装置
24、及びハードディスク装置などの記憶装置25を用
いて構成する。
【0143】また、図1の入力統合部11、統合入力解
釈部12、一貫性管理部13、タイムスタンプ付与部1
4、環境管理部15、知識管理部16は、既に述べたよ
うなそれぞれの処理手順を記述したプログラムにより構
成される。そして、本マルチモーダル入力解釈装置の処
理手順を記述したプログラムは、図4のコンピュータシ
ステムを制御するためのプログラムとしてRAM 22
に格納され、CPU21により実行させる。
【0144】CPU 21はRAM 22に格納された
プログラムの手順に従い演算や、入出力装置24あるい
は記憶装置25の制御などを行って、所望の機能を実現
してゆく。
【0145】プログラムをRAM 21にインストール
するには種々の方法を用いることができる。例えば、上
記プログラム(入力統合部11、統合入力解釈部12、
一貫性管理部13、タイムスタンプ付与部14、環境管
理部15、知識管理部16の処理手順を記述したプログ
ラムであって、コンピュータシステムを制御するための
プログラム)を、コンピュータ読み取り可能な記億媒体
(例えば、フロッピーディスク、あるいはCD−ROM
等のリムーバブル記憶媒体)に記憶させておく。そし
て、図4に示すように記憶媒体に応じたディスクドライ
ブ装置26を用いて該プログラムを読み取り、RAM
22に格納する。あるいは、一旦、ハードディスク装置
等にインストールしておき、実行時にハードディスク装
置等からRAM 22に格納する。
【0146】また、プログラムを格納した記憶媒体がI
Cカードである場合は、ICカードリーダーを用いて該
プログラムを読み取ることができる。あるいは、ネット
ワークを介して所定のインタフェイス装置からプログラ
ムを受け取ることができる。尚、上述の例では、音声認
識結果としてラダーが得られるという前提で、実現して
いるように記述しているが、ラティスが得られても同様
の枠組で扱うことができ、これらの各単一モード認識部
の出力形式については上述の実現形態に限定されるもの
ではない。
【0147】また、MM統合処理においてMM入力とし
て仮定する候補の生成について、あり得る候補を適当な
順に生成するように記述しているが、本発明の実現形態
はこれに限定されるものではなく、例えば、時間的に近
い入力要素を優先的に統合する等のヒューリスティック
スを用いることで、MM入力Ssの生成・テストを効率
化することも可能であり、そのような実現形態も本発明
の技術思想の範囲内である。また、MM入力要素全集合
と呼ばれる集合Sの処理においてタイムアウト時、およ
びMM入力解析処理の成功時について、単にMM入力S
sを集合Sから除去すると説明しているが、本発明の実
現形態はこれに限定されるものではなく、例えば、解析
に使われなかった入力要素(一般にノイズであることが
多い)が集合Sに堆積されるのを防ぐため、一定時間以
上離れた入力要素も集合Sから除去するようにすること
も可能であり、そのような実現形態も本発明の技術思想
の範囲内である。
【0148】以上のように、本発明の実現形態には上述
の例に対して種々の変形が可能であり、それらも趣旨に
反しない限り、本発明の実施形態の範囲内である。
【0149】以上、詳述したように、本発明は、曖昧性
を持ったマルチモーダル入力及び遅着データを含むマル
チモーダル入力の解釈処理において、処理中に得られる
途中過程を逐一保存しておき、後の参照に供することを
可能にする構成をとることにより、過去の問題解決の途
中過程を再利用した効率の良いマルチモーダル入力解釈
を行う機能を持ち、また、解釈処理に用いる知識ベース
は状況対応に更新可能であり、かつ、重複問い合わせは
行わないようにして効率的な知識の参照を行う機能を持
ち、また、与えられた時刻における問題解決過程を再現
することで、過去の問題解決状況を参照することを可能
にする機能を持つようにした。
【0150】これにより、途中過程を再利用した効率の
良いマルチモーダル入力解釈ができ、マルチモーダル入
力の解析中に解析中のデータよりも入力時刻が過去のデ
ータが遅れて到着する遅着データの処理において、過去
の問題解決の途中過程を再利用した効率の良いマルチモ
ーダル入力解釈が可能となり、また、知識の更新に対応
し、かつ重複問い合わせを行わない効率的な知識の参照
ができるようになり、与えられた時刻における問題解決
過程を再現することで、過去の問題解決状況を参照する
ことが可能となる等の効果が得られる。
【0151】
【発明の効果】以上説明したように、本発明によれば、
各モダリティの認識処理において発生する結果の曖昧性
に起因するマルチモーダル統合解釈時の入力要素の曖昧
性を持ったマルチモーダル入力の解析処理において、 1.過去の問題解決の途中過程を再利用した効率のよい
マルチモーダル入力解釈ができる、 2.マルチモーダル入力の解析中に解析中のデータより
も入力時刻が過去のデータが遅れて到着する遅着データ
の処理において、過去の問題解決の途中過程を再利用し
た効率のよいマルチモーダル入力解釈が可能となる、 3.知識の更新に対応しかつ重複問い合わせを行わない
効率的な知識の参照ができる、 4.与えられた時刻における問題解決過程を再現するこ
とで、過去の問題解決状況を参照することが可能とな
る、等の実用上多大な効果が得られるようになる。
【図面の簡単な説明】
【図1】本発明を説明するための図であって、本発明に
よるマルチモーダル入力解釈装置の概略構成を示すブロ
ック図。
【図2】本発明を説明するための図であって、本発明に
よるマルチモーダル入力解釈装置の操作途中段階での画
面例を示す図。
【図3】本発明を説明するための図であって、本発明に
よるマルチモーダル入力解釈装置におけるMM入力統合
導析処理の過程を示す図。
【図4】本発明を説明するための図であって、本発明に
よるマルチモーダル入力解釈装置のハードウェア構成例
を示す図。
【符号の説明】
11…入力統合部 12…統合入力解釈部 13…一貫性管理部 14…タイムスタンプ付与部 15…環境管理部 16…知識管理部 21…CPU、 22…RAM 24…入出力装置 25…記憶装置 102a〜102c…入力デバイス 103a〜103c…認識装置 104…情報処理装置。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 知野 哲朗 大阪府大阪市北区大淀中1丁目1番30号 株式会社東芝関西支社内

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】使用者の指示を入力するための各種入力デ
    バイスを備え、これら入力デバイス毎に、対応の入力デ
    バイスからの入力信号について認識処理し、その入力信
    号の認識結果情報は当該入力信号の入力時刻を示す信号
    入力時刻情報を含めた情報である単一モード入力対応情
    報として得ると共に、得られた一つ以上の単一モード入
    力対応情報を統合して解釈し、少なくとも一つ以上の入
    力デバイスを介して与えられた各種の指示に対応する解
    を、マルチモーダル入力対応情報として生成するマルチ
    モーダル入力解釈装置において、 各単一モード入力対応情報に含まれる信号入力時刻情報
    を用い、入力された一つ以上の単一モード入力対応情報
    のうち統合して解釈する一つ以上の単一モード入力情報
    を選択し、統合して入力統合情報を生成する入力統合手
    段と、 前記入力統合手段から得られた入力統合情報について、
    知識管理手段から得られる情報を参照して所定の解釈処
    理を行い、マルチモーダル入力対応情報を生成するもの
    であって、一貫性管理手段に保存された情報中に、再利
    用可能な処理結果があれば解釈処理を省略して再利用
    し、マルチモーダル入力対応情報とする統合入力解釈手
    段と、 前記入力統合手段と前記統合入力解釈手段のうち、少な
    くとも一方から通知される問題解決の処理の過程を記憶
    する一貫性管理手段と、 前記入力統合手段と前記統合入力解釈手段の解釈処理で
    ある問題解決の処理時に利用する情報を貯える知識管理
    手段と、を具備したことを特徴とするマルチモーダル入
    力解釈装置。
  2. 【請求項2】使用者の指示を入力するための各種入力デ
    バイスを備え、これら入力デバイス毎に、対応の入力デ
    バイスからの入力信号について認識処理し、その入力信
    号の認識結果情報は当該入力信号の入力時刻を示す信号
    入力時刻情報を含めた情報である単一モード入力対応情
    報として得ると共に、得られた一つ以上の単一モード入
    力対応情報を統合して解釈し、少なくとも一つ以上の入
    力デバイスを介して与えられた各種の指示に対応する解
    を、マルチモーダル入力対応情報として生成するマルチ
    モーダル入力解釈装置において、 各単一モード入力対応情報に含まれる信号入力時刻情報
    を用い、入力された一つ以上の単一モード入力対応情報
    のうち統合して解釈する一つ以上の単一モード入力情報
    を選択し、統合して入力統合情報を生成する手段を備え
    る入力統合手段と、 前記入力統合手段から得られた入力統合情報について、
    知識管理手段から得られる情報を参照して所定の解釈処
    理を行い、マルチモーダル入力対応情報を生成するもの
    であって、一貫性管理手段に保存された情報中に、再利
    用可能な処理結果があれば解釈処理を省略して再利用
    し、マルチモーダル入力対応情報とする統合入力解釈手
    段と、 前記入力統合手段と前記統合入力解釈手段のうち、少な
    くとも一方から通知される問題解決の処理の過程を全て
    記憶して、前記統合入力解釈手段での参照に供すること
    により、問題解決の過程の一貫性を維持する一貫性管理
    手段と、 前記入力統合手段と前記統合入力解釈手段の解釈処理で
    ある問題解決の処理時に利用する情報を貯え、管理手段
    から受ける指示に応じて、当該貯えられている情報に対
    して参照、もしくは変更の少なくともいずれかの操作を
    施す知識管理手段と、 マルチモーダル入力対応情報の解釈処理の状態に応じて
    前記知識管理手段に所要の指示を与える管理手段と、を
    具備したことを特徴とするマルチモーダル入力解釈装
    置。
  3. 【請求項3】請求項2記載のマルチモーダル入力解釈装
    置において、 前記一貫性管理手段は、他の情報に依存せずに成立され
    ると仮定された仮定ノードと、他のノードから導出され
    た導出ノードの少なくとも2種類の情報を含み、前記問
    題解決の過程はノードとノード間の依存関係として通知
    され、問題解決の各時点において成立する仮定の集合が
    指定されると、管理下にある各ノードがその時点で成立
    しているか否かの状態検証する手段を備えると共に、他
    の手段からの問い合わせに応じてその検証結果を提供す
    る手段を備える構成とし、 前記管理手段は、入力統合手段と統合入力解釈手段の少
    なくとも一方の処理状況が所定の状態になるか、もしく
    は一貫性管理手段が管理するデータノードが所定の状態
    になると、次の問題解決状況となる仮定の集合を計算
    し、一貫性管理手段に通知する手段を備えることを特徴
    とするマルチモーダル入力解釈装置。
  4. 【請求項4】前記入力統合手段は接続する単一モード入
    力装置から与えられた単一モード入力対応情報の集合で
    ある単一モード入力対応情報集合を保持し、前記一貫性
    管理手段に通知する仮定には、単一モード入力対応情報
    集合のどの部分集合を選択し統合するかを示す仮定と、
    前記選択した部分集合の要素である単一モード入力対応
    情報個々についての仮定、及び少なくとも前記選択した
    単一モード入力対応情報を出力した単一モード個々につ
    いて他に統合すべき単一モード入力対応情報がないこと
    を示す仮定、を含むことを特徴とする請求項3記載のマ
    ルチモーダル入力解釈装置。
  5. 【請求項5】前記単一モード入力対応情報には入力信号
    の入力時刻である信号入力時刻情報、もしくは単一入力
    対応情報が生成された時刻である単一入力対応情報生成
    時刻情報のうち、少なくとも一方を含み、前記入力統合
    手段には各単一モード入力対応情報に含まれる信号入力
    時刻情報もしくは単一入力対応情報生成時刻情報を用い
    ることにより、与えられた一つ以上の単一モード入力対
    応情報から統合して解釈処理に供する一つ以上の単一モ
    ード入力情報を選択する手段を備えることを特徴とする
    請求項3又は4記載のマルチモーダル入力解釈装置。
  6. 【請求項6】請求項2記載のマルチモーダル入力解釈装
    置において、 タイムスタンプ付与手段を設け、 前記一貫性管理手段は、他の情報に依存せずに成立され
    ると仮定された仮定ノードと、他のノードから導出され
    た導出ノードの少なくとも2種類の情報を含み、前記問
    題解決の過程はノードとノード間の依存関係として通知
    され、問題解決の各時点において成立する仮定の集合が
    指定されると、管理下にある各ノードがその時点で成立
    しているか否かの状態検証する手段を備えると共に、他
    の手段からの問い合わせに応じてその検証結果を提供す
    る手段を備える構成とし、 前記管理手段は、入力統合手段と統合入力解釈手段の少
    なくとも一方の処理状況が所定の状態になるか、もしく
    は一貫性管理手段が管理するデータノードが所定の状態
    になると、次の問題解決状況となる仮定の集合を計算
    し、一貫性管理手段に通知する手段を備えると共に、 前記タイムスタンプ付与手段は、前記入力統合手段と前
    記統合入力解釈手段の少なくともいずれか一方が一貫性
    管理手段に通知するノード及び問題解決の過程の依存関
    係を監視し、予め定められた特徴を有するノードに対し
    て通知された時点の時刻情報を付与する手段を備える構
    成とすることを特徴とするマルチモーダル入力解釈装
    置。
  7. 【請求項7】前記タイムスタンプ付与手段は、前記知識
    管理手段への指示を監視し、知識管理手段に貯えられた
    情報を参照して得た情報に時刻情報を付与する手段であ
    り、 前記知識管理手段は、知識参照の問い合わせを記憶し、
    与えられた知識変更の指示により成立しなくなった過去
    の知識参照を同定してキャンセル情報を問い合わせ元に
    伝達する手段であり、 前記管理手段は、入力統合手段と統合入力解釈手段の少
    なくとも一方から知識管理手段への参照操作を含む操作
    の指示を取りつぎ、その操作指示に対する知識管理手段
    からの回答を取りついで伝達すると共にその回答を表現
    した仮定を生成し、前記一貫性管理手段に伝達する知識
    操作代行手段を備えると共に、知識管理手段への参照操
    作によって得られた情報とその情報に付与された時刻情
    報とを含む知識参照情報を記憶し、他の手段から同一の
    参照要求が与えられた際、知識参照情報に記憶している
    情報にキャンセル情報が伝達されていなければ知識参照
    情報に記億している情報を利用してその参照要求への回
    答を生成して伝達する知識参照キャッシュ手段を備え、
    かつ、与えられた時刻における問題解決の過程を再現す
    る手段を備える構成とすることを特徴とする請求項6記
    載のマルチモーダル入力解釈装置。
  8. 【請求項8】使用者の指示を入力するための各種入力デ
    バイスを用い、これら入力デバイス毎に、対応の入力デ
    バイスからの入力信号について認識処理し、その入力信
    号の認識結果情報は当該入力信号の入力時刻を示す信号
    入力時刻情報を含めた情報である単一モード入力対応情
    報として得ると共に、得られた一つ以上の単一モード入
    力対応情報を統合して解釈し、少なくとも一つ以上の入
    力デバイスを介して与えられた各種の指示に対応する解
    を、マルチモーダル入力対応情報として生成するマルチ
    モーダル入力解釈方法において、 各単一モード入力対応情報に含まれる信号入力時刻情報
    を用い、入力された一つ以上の単一モード入力対応情報
    のうち統合して解釈する一つ以上の単一モード入力情報
    を選択し、統合して入力統合情報を生成する入力統合ス
    テップと、 前記入力統合ステップと前記統合入力解釈ステップの少
    なくとも一方から通知される問題解決の過程を記億する
    一貫性管理ステップと、 入力統合ステップにて得られた入力統合情報を元に、知
    識管理ステップで得られる情報とを参照して所定の解釈
    処理を行い、マルチモーダル入力対応情報を生成する処
    理を行うものであって、前記一貫性管理ステップにて保
    存される情報中に、再利用可能な処理結果があれば解釈
    処理を省略して再利用し、マルチモーダル入力対応情報
    とする統合入力解釈ステップと、 前記入力統合ステップと前記統合入力解釈ステップのう
    ち、少なくとも一方が自己での与えられた解釈処理であ
    る問題解決の処理時に利用する情報を貯え、受けた指示
    に応じて、当該貯えられている情報に対して参照、もし
    くは変更の少なくとも一つの操作を施す知識管理ステッ
    プと、 前記入力統合ステップと前記統合入力解釈ステップの少
    なくとも一方における処理状況が所定の状態になるか、
    もしくは前記一貫性管理ステップが管理するデータノー
    ドが所定の状態になると、次の問題解決状況となる仮定
    の集合を計算し、前記一貫性管理ステップに通知する環
    境管理ステップと、 前記入力統合ステップと前記統合入力解釈ステップの少
    なくとも一方において、前記一貫性管理ステップに通知
    するノード及び問題解決過程の依存関係を監視し、予め
    定められた特徴を有するノードに対して通知された時点
    の時刻情報を付与するタイムスタンプ付与ステップと、
    を含むことを特徴とするマルチモーダル入力解釈方法。
JP9002373A 1997-01-09 1997-01-09 マルチモーダル入力解釈装置及びその入力統合・解釈方法 Pending JPH10198544A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9002373A JPH10198544A (ja) 1997-01-09 1997-01-09 マルチモーダル入力解釈装置及びその入力統合・解釈方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9002373A JPH10198544A (ja) 1997-01-09 1997-01-09 マルチモーダル入力解釈装置及びその入力統合・解釈方法

Publications (1)

Publication Number Publication Date
JPH10198544A true JPH10198544A (ja) 1998-07-31

Family

ID=11527455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9002373A Pending JPH10198544A (ja) 1997-01-09 1997-01-09 マルチモーダル入力解釈装置及びその入力統合・解釈方法

Country Status (1)

Country Link
JP (1) JPH10198544A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000008547A1 (en) * 1998-08-05 2000-02-17 British Telecommunications Public Limited Company Multimodal user interface
US7630901B2 (en) 2004-06-29 2009-12-08 Canon Kabushiki Kaisha Multimodal input method
JP2014146090A (ja) * 2013-01-28 2014-08-14 Fujitsu Ten Ltd 情報提供装置、及び、情報提供方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000008547A1 (en) * 1998-08-05 2000-02-17 British Telecommunications Public Limited Company Multimodal user interface
US6779060B1 (en) 1998-08-05 2004-08-17 British Telecommunications Public Limited Company Multimodal user interface
US7630901B2 (en) 2004-06-29 2009-12-08 Canon Kabushiki Kaisha Multimodal input method
JP2014146090A (ja) * 2013-01-28 2014-08-14 Fujitsu Ten Ltd 情報提供装置、及び、情報提供方法

Similar Documents

Publication Publication Date Title
US10762892B2 (en) Rapid deployment of dialogue system
JP7191987B2 (ja) 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション
US5884249A (en) Input device, inputting method, information processing system, and input information managing method
US6779060B1 (en) Multimodal user interface
US9548051B2 (en) System and method of spoken language understanding in human computer dialogs
US7983997B2 (en) Interactive complex task teaching system that allows for natural language input, recognizes a user's intent, and automatically performs tasks in document object model (DOM) nodes
Oviatt et al. Designing the user interface for multimodal speech and pen-based gesture applications: State-of-the-art systems and future research directions
US9805718B2 (en) Clarifying natural language input using targeted questions
EP1126436B1 (en) Speech recognition from multimodal inputs
JP2021120911A (ja) 画像および/または他のセンサデータに基づいている自動アシスタント要求の解決
US11010284B1 (en) System for understanding navigational semantics via hypothesis generation and contextual analysis
JP2000268042A (ja) 自然言語対話装置及び自然言語対話方法
US10977155B1 (en) System for providing autonomous discovery of field or navigation constraints
CN110268472B (zh) 用于自动化对话系统的检测机构
CN111098312A (zh) 窗口政务服务机器人
WO2023278052A1 (en) Automated troubleshooter
Giachos et al. Inquiring natural language processing capabilities on robotic systems through virtual assistants: A systemic approach
Branting et al. Dialogue management for conversational case-based reasoning
JP2022076439A (ja) 対話管理
JPH10198544A (ja) マルチモーダル入力解釈装置及びその入力統合・解釈方法
JP2003271389A (ja) 自然言語によるソフトウェア・オブジェクトの操作方法及びそのためのプログラム
JPH07261793A (ja) 対話処理装置
JP7216627B2 (ja) 入力支援方法、入力支援システム、及びプログラム
Kono et al. Animated interface agent applying ATMS-based multimodal input interpretation
CN112242139B (zh) 语音交互方法、装置、设备和介质