JPH09218770A - 対話処理装置および対話処理方法 - Google Patents

対話処理装置および対話処理方法

Info

Publication number
JPH09218770A
JPH09218770A JP8026723A JP2672396A JPH09218770A JP H09218770 A JPH09218770 A JP H09218770A JP 8026723 A JP8026723 A JP 8026723A JP 2672396 A JP2672396 A JP 2672396A JP H09218770 A JPH09218770 A JP H09218770A
Authority
JP
Japan
Prior art keywords
information
user
expression
input
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8026723A
Other languages
English (en)
Inventor
Tetsuro Chino
哲朗 知野
Tomoo Ikeda
朋男 池田
Yasuyuki Kono
恭之 河野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP8026723A priority Critical patent/JPH09218770A/ja
Publication of JPH09218770A publication Critical patent/JPH09218770A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 利用者と自然なインタラクションが可能な対
話装置を提供すること。 【解決手段】 利用者の入力から、特定の言語表現ある
いは韻律特徴を持つ音声言語入力や、うなずき、目配せ
など非言語メッセージの抽出によって利用者からの相槌
表現を抽出し、これに応じて対話を制御する。さらに、
特定の言語表現、韻律特徴、あるいは視線一致を求める
CG顔画像等の提示によって、利用者へ相槌を要求する
表現を提示し、これに対する反応に応じて対話を制御す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自然言語入力、音
声情報入力、視覚情報入力、操作入力のうち少なくとも
一つの入力あるいは出力を通じて利用者と対話する対話
処理装置および対話処理方法に関する。
【0002】
【従来の技術】近年、パーソナルコンピュータを含む計
算機システムにおいて、従来のキーボードやマウスなど
による入力と、ディスプレイなどによる文字や画像情報
の出力に加えて、音声情報や画像情報などマルチメディ
ア情報を入出力することが可能になって来ている。
【0003】また、自然言語解析や自然言語生成、ある
いは音声認識や音声合成技術あるいは対話処理技術の進
歩などによって、利用者と音声入出力を対話する音声対
話システムへの要求が高まっており、自由発話による音
声入力によって利用可能な対話システムである“TOS
BURG−II”(信学論、VolJ77−D−II、
No.8,pp1417−1428,1994)など、
様々な音声対話システムの開発がなされている。
【0004】このような音声入出力に加え、例えばカメ
ラを使った視覚情報入力を利用したり、あるいは、タッ
チパネルや、ペンや、タブレットや、データグローブ
や、フットスイッチや、対人センサや、ヘッドマウント
ディスプレイやフォースディスプレイ(提力装置)な
ど、様々な入出力デバイスを通じて利用者と授受できる
情報を利用して、利用者とインタラクションを行なうマ
ルチモーダル対話システムへの要求が高まっている。
【0005】このマルチモーダルインタフェースは、人
間同士の対話においても、例えば音声など一つのメディ
ア(チャネル)のみを用いてコミュニケーションを行な
っている訳ではなく、身振りや手ぶりあるいは表情とい
った様々なメディアを通じて授受される非言語メッセー
ジを駆使して対話することによって、自然で円滑なイン
タラクションを行なっている(“Intelligen
t Multimedia Interfaces”,
Maybury M.T,Eds.,TheAAAI
Press/The MIT Press,199
3)ことから考えても、自然で使いやすいヒューマンイ
ンタフェースを実現するための一つの有力な方法として
期待が高まっている。
【0006】従来、音声対話システムは、利用者から、
例えばマイクなどを通じて入力される音声入力を取り込
み、例えば信号強度などによって音声分析単位の候補を
推定し、分析単位項の例えばFFT(高速フーリエ変
換)などを用いた分析によって特徴パターンなどを抽出
し、あらかじめ用意した標準パターンと抽出パターンと
を、例えば、複合類似度法、DP(ダイナミックプログ
ラミング)法、あるいはHMM(隠れマルコフモデル)
などを用いた照合を行ない、入力された音声の認識を行
い、音声認識結果に対して、構文解析、意味解析、など
を行なうことで利用者からの入力の意味内容や発話意図
を抽出する。次に、データベース検索などの問題解決手
段によって利用者の要求への応答の意味内容や発話意図
を生成し、これを文法規則や辞書を用いた自然言語生成
処理によって発話文を生成する。そして、波形編集方式
やフォルマント合成方式などの音声合成処理によって、
応答の音声を生成し、これを利用者に提示することによ
って、利用者との音声による対話を行なうようにしてい
る。
【0007】また、従来のマルチモーダル対話システム
では、上記の音声対話システムでの音声入出力に加え
て、例えばカメラを使った視覚情報入力を利用したり、
あるいは、タッチパネルや、ペンや、タブレットや、デ
ータグローブや、フットスイッチや、対人センサや、ヘ
ッドマウントディスプレイや、フォースディスプレイ#
(提力装置)など、様々な入出力デバイスを通じて利用
者と授受できる情報を利用して、利用者とインタラクシ
ョンを行なう様にしている。
【0008】従来、こういった音声対話システムあるい
はマルチモーダル対話システムにおいて利用者へなんら
かの応答を提示する際には、あらかじめ用意していた発
話文を提示したり、あるいは定型パターンに対して必要
情報を追加して生成した発話文を、例えば音声合成処理
して音声出力として利用者に提示するようにしていた。
しかし、この方法では、利用者に提示される発話文は、
定型的であったり、単純な文に限られ、複雑な内容を提
示することは出来なかった。
【0009】あるいは、例えば、自然言語を生成するた
めの規則である文法規則と、例えば単語の統誤的あるい
は意味的情報などを含む辞書情報の少なくとも一方を利
用する文生成処理によって、発話文を生成し出力する音
声対話システムあるいはモーダル対話システムにおいて
も、かりに複雑な内容を持つ発話文を生成したとして
も、それを合成音声として利用者に提示する場合には、
複雑な内容を利用者が理解することが困難であるため、
複雑な情報を利用者へ確実に伝達することが困難であっ
た。
【0010】また、人間同士の対話においては、例えば
複雑な内容を含む発話を受け取る場合に、聞き手が適宜
相槌を行なうことによって、話し手の発話に能動的に働
きかけ、聞き手にとって適切な情報を量ごとに段階的に
受けとったり、発話速度を制御させたり、例えば聞き誤
りや聞き漏らしあるいは話し手の誤解などが発見された
場合など、何らかの問題が生じた場合に、即座に割り込
みを行ない、その解消のための対話を行なうことが出来
るなど、対話において相槌が重要な役割を果たしてい
る。
【0011】しかし、従来の対話システムにおいては、
相槌は音声認識処理における不要語として排除された
り、仮に認識を行なったとしても、その適切な利用方法
が開発されていなかったため、認識された相槌を利用し
て、対話を適切に制御することが出来なかった。
【0012】そして、上述の様な人間同士の対話におい
て見られた相槌による能動的な働きかけを、利用者と対
話システムの間で行なうことが不可能であるため、例え
ば複雑な内容を対話によって授受しようとする場合に、
複数の単純な文で伝達したい情報を表現し、個々の文を
提示するたびに、その内容が正しく伝達できたかどうか
について、逐次確認のための質問を行なうなどの処理を
行なう必要があった。
【0013】しかし、この様な対話を行ない、逐次確認
を行なうことは、非常に繁雑であり対話システムの利用
者の負担を増加させると言う問題があった。
【0014】と同時に、この様な逐次確認を行なわない
場合は、伝達したい情報を確実に伝えることが困難とな
り、利用者と対話システムの間のコミュニケーションの
確実性が得られないという問題があった。
【0015】さらに、人間同士の対話では、相槌などの
非言語メッセージは、例えば音声メディアだけを利用し
て提示される訳ではなく、例えば、うなずきや視線一致
あるいは表情変化など、他の様々なメディアを利用して
提示されている。
【0016】しかし従来の音声対話システムでは、入力
として音声のみを対象としているため、このような音声
メディア以外を利用して提示される相槌など非言語メッ
セージを扱うことが出来なかった。
【0017】また、従来のマルチモーダル対話システム
において、仮に非言語メッセージを抽出出来た場合で
も、相槌を適切に利用して対話を制御する方法がなかっ
たため、相槌を利用した利用者との円滑なコミュニケー
ションを行なうことが不可能であった。
【0018】また、従来の対話システムにおいては、相
槌を利用した対話制御を行なうことが出来なかったた
め、利用者へ何らかの情報を提示する際に、対話システ
ムは現在提示中の情報を利用者が確かに受けとっている
かどうかを確認することが出来なかった。
【0019】また、利用者へ何らかの情報を提示する際
に、対話システムは現在提示中の情報を利用者が理解し
ていることを確認することが出来なかった。
【0020】また、利用者へ何らかの情報を提示した際
に、例えば利用者からの要求によって、あるいは対話シ
ステムの判断によって、伝達しようとして利用者に提示
した情報内容が、利用者に伝達されているかどうかにつ
いて確認の質問を行なう際に、従来の対話システムで
は、最初の情報の提示中に、利用者が発した相槌を処理
することが出来ないため、提示した情報の内、現在利用
者が理解していると推測出来る部分を判断することが不
可能であった。したがって、確認質問を行なう情報内容
を適切に限定して利用者に質問することが出来ず、利用
者は不要な質問にも解答する必要が出るため、その負担
が増加するという問題があった。
【0021】一方、人間同士の対話では、例えば確実に
伝達したい情報や複雑な情報を、聞き手に対して提示す
る場合、その情報が確実に聞き手に伝達されたかどうか
を確認するために、話し手は、例えば、文末あるいはフ
レーズの最後に、「連用形語尾+てぇ」といった特別の
言語表現を用いたり、イントネーションの上げ下げ(ラ
イズアンドフォール)などの特定のイントネーション変
化などの韻律的特徴を付与したり、あるいは、聞き手に
視線一致(アイコンタクト)を要求するために聞き手の
顔に視線を向けるといった特定の新対動作など視覚的な
非言語メッセージを付加することによって、聞き手に対
して、話し手への相槌を要求するための表現を提示し、
能動的に聞き手とのインタラクションを図り、対話を制
御し、円滑で確実な対話を実現している。
【0022】ところが、従来の音声対話システムおよび
マルチモーダル対話システムでは、上述のような相槌を
要求する表現による、聞き手である利用者への能動的な
働きかけを行なうことが出来なかったため、利用者と対
話システムの間で、円滑で確実な対話を行なうことが出
来なかった。
【0023】また、人間同士の対話では、上述のような
相槌を要求する表現の提示による、話し手から聞き手へ
の能動的な働きかけに加えて、この働きかけに対する、
例えば相槌の提示や、非提示といった聞き手の反応に応
じて、進行中の情報の提示や対話の進行について、聞き
手が話し手の話しを聞いているかどうか、あるいは提示
している情報を理解しているかどうかを話し手が確認す
る埋め込み対話を行なうなど、場面場面に応じた制御す
ることによって、聞き手と話し手の間で、円滑で確実な
コミュニケーションを実現している。
【0024】しかし、従来の音声対話システムでは、マ
ルチモーダル対話システムでは、相槌を要求する表現の
提示による話し手の聞き手に対する能動的な働きかけ
が、不可能であるため、上述のような働きかけへの聞き
手の反応に応じた対話の制御を行なうことが出来ず、結
果として、聞き手と話し手の間での円滑で確実なコミュ
ニケーションを実現することができなかった。
【0025】さらに、マルチモーダル対話システムは、
複数の入出力メディアが利用可能であるが、伝達すべき
情報の意味内容および発話意図を表す情報や非言語メッ
セージを、どのメデイアを用いて利用者に提示すべきか
を決定する手段を持っていないため、上述のような相槌
を要求する表現を利用者に提示しようとする場合に、ど
のメディアを通じて提示すれば良いかを決定することが
出来なかった。
【0026】
【発明が解決しようとする課題】上記したように、従来
技術においては、あらかじめ用意していた発話文を提示
したり、定型パターンに必要情報を追加して生成した発
話文を、例えば音声合成処理して音声出力として利用者
に提示する音声対話システムあるいはマルチモーダル対
話システムでは、複雑な内容を提示することは出来ない
という問題点があった。
【0027】また、自然言語を生成するための規則であ
る文法規則に応じた文生成処理によって、発話文を生成
し出力する音声対話システムあるいはモーダル対話シス
テムにおいても、かりに複雑な内容を持つ発話文を生成
したとしても、複雑な情報を利用者へ確実に伝達するこ
とが困難であるという問題点があった。
【0028】また、従来の音声対話システムおよびマル
チモーダル対話システムにおいては、仮に相槌の認識を
行なったとしても、認識された相槌を利用して、対話を
適切に制御することが出来ないという問題点があった。
【0029】また、従来の音声対話システムおよびマル
チモーダル対話システムにおいては、複雑な内容を対話
によって授受しようとする場合に、逐次確認のための質
問を行なうなどの処理を行なう必要があるが、この場
合、利用者の負担が増加してしまう。同時に、逐次確認
を行なわない場合は、利用者と対話システムの間のコミ
ュニケーションの確実性が得られないという問題があっ
た。
【0030】また、従来の音声対話システムでは、入力
として音声のみを対象としているため、このような音声
メディア以外を利用して提示される相槌など非言語メッ
セージを扱うことが出来ないという問題点があった。
【0031】また、従来のマルチモーダル対話システム
では、相槌を利用した利用者との円滑なコミュニケーシ
ョンを行なうことが不可能であるという問題点があっ
た。
【0032】また、従来の対話システムにおいては、対
話システムは現在提示中の情報を利用者が確かに受けと
っているかどうかを確認することが出来ないという問題
があった。
【0033】また、対話システムは現在提示中の情報を
利用者が理解していることを確認することが出来ないと
いう問題があった。
【0034】また、従来の対話システムでは、利用者に
提示した情報内容が、利用者に伝達されているかどうか
について確認の質問を行なう際に、現在利用者が理解し
ていると推測出来る部分を判断することが不可能である
ため、確認質問を行なう情報内容を適切に限定して利用
者に質問することが出来ず、利用者が不要な質問に解答
する必要が出て負担が増加するという問題があった。
【0035】また、従来の音声対話システムおよびマル
チモーダル対話システムは、相槌を要求する表現によ
る、利用者への能動的な働きかけを行なうことが出来な
いという問題があった。
【0036】また、従来の音声対話システムおよびマル
チモーダル対話システムでは、相槌を要求する表現に対
する聞き手の反応に応じた対話の制御を行なうことが出
来ないという問題があった。
【0037】さらに、従来のマルチモーダル対話システ
ムは、相槌を要求する表現を利用者に提示しようとする
場合に、どのメディアを通じて提示すれば良いかを決定
することが出来ないという問題があった。
【0038】以上示したように、従来の音声対話システ
ムおよびマルチモーダル対話システムでは、対話におい
て重要な役割を果たす相槌を適切に扱うことが出来ない
ため利用者と対話システムの間での円滑な対話を実現す
ることが出来ず、対話システムとの間で不自然な対話を
強いられ利用者の負担が増加したり、確実な情報の授受
が出来なくなると言う問題があった。
【0039】本発明はこのような課題に着目してなされ
たものであり、音声対話システムあるいはマルチモーダ
ル対話システムにおいて、利用者に対して、複雑な内容
を確実に伝達することを目的とする。
【0040】また、相槌を利用して、対話を適切に制御
することを目的とする。
【0041】また、複雑な内容を対話によって授受しよ
うとする場合に、利用者に対して逐次確認のための質問
を行なうことによる利用者の負担を回避し、かつ、同時
に、利用者と対話システムの間のコミュニケーションの
確実性を得ることを目的とする。
【0042】また、音声メディア以外を利用して提示さ
れる相槌など非言語メッセージを扱うことを目的とす
る。
【0043】また、利用者が対話システムが現在提示中
の情報を確かに受けとっているかどうかを確認すること
を可能にするものである。
【0044】また、対話システムが現在提示中の情報を
利用者が理解していることを確認することを目的とす
る。
【0045】また、利用者に提示した情報内容が、利用
者に伝達されているかどうかについて確認の質問を行な
う際に、現在利用者が理解していると推測出来る部分を
判断し、確認質問を行なう情報内容を適切に限定して利
用者に質問し、不要な質問に解答することによる利用者
の負担の増加を回避することを目的とする。
【0046】また、相槌を要求する表現を用いて、対話
において利用者への能動的な働きかけを行なうことを目
的とする。
【0047】また、相槌を要求する表現に対する聞き手
の反応に応じた対話の制御を行なうことを目的とする。
【0048】さらに、相槌を要求する表現を利用者に提
示しようとする場合に、適切なメディアを選択すること
を目的とする。
【0049】以上示したように、本発明の目的は、対話
において重要な役割を果たす相槌を利用して、または、
利用者に相槌を要求する表現を利用することによって利
用者に能動的に働きかけ、利用者と対話システムの間で
の円滑で確実な対話を実現し、利用者の負担を軽減する
ことを可能にする対話処理装置および対話処理方法を提
供することにある。
【0050】
【課題を解決するための手段】上記の目的を達成するた
めに、第1の発明に係る対話処理装置は、利用者によっ
て、キーボードなどを通じて入力される自然言語入力
と、マイクなどを通じて入力される音声情報入力と、カ
メラなどを通じて入力される視覚情報入力と、マウスな
どを通じて入力される操作入力のうち、少なくとも一つ
の入力を取り込んで所定の解析を行ない、該入力の一部
あるいは全部を表現する記述と、前記入力の意味内容
と、利用者の意図のうち、少なくとも一つを含む入力メ
ッセージ情報を生成する入力手段と、この入力手段から
の入力メッセージ情報に応じた問題解決を行ない、利用
者からの要求に対する応答のための情報の提示や利用者
との協調による問題解決に必要な質問など、利用者へ伝
達すべきメッセージの内容と、利用者への提示の仕方や
意図のうち、少なくとも一つを表す問題解決情報を出力
する問題解決手段と、この問題解決手段からの問題解決
情報に基づいて、自然言語による発話文の生成と、合成
音声の生成と、コンピュータグラフィックスなどによる
顔表情や身体動作の生成のうち少なくとも一つを行い、
これを出力メッセージとして利用者へ出力する出力生成
手段と、前記入力手段からの入力メッセージ情報に対し
て、所定の言語解析と、音声信号の解析と、視覚情報の
解析と、操作入力の解析のうち、少なくとも一つを行な
うことによって、相槌を表す表現を認識し、利用者から
提示される相槌表現の種類と、対話機能と、入力された
時刻などの時間情報のうち、少なくとも一つを含む相槌
表現認識情報を出力する相槌表現認識手段とを具備す
る。
【0051】また、第2の発明に係る対話処理装置は、
第1の発明において、前記相槌表現認識情報に基づい
て、前記入力手段と、問題解決手段と、出力生成手段の
うち、少なくとも一つを制御する対話通信制御手段をさ
らに具備する。
【0052】また、第3の発明に係る対話処理装置は、
第2の発明において、前記対話通信制御手段は、利用者
から提示される相槌表現の種類と、対話機能と、入力さ
れた時刻などの時間情報とを含む相槌表現認識情報に基
づいて、前記問題解決情報の提示方法に関する制御信号
としての出力制御情報を出力し、前記出力生成手段はこ
の出力制御情報に応じて、利用者へ出力する出力メッセ
ージの統語構造、表層表現、提示タイミング、提示速
度、フレージングの少なくとも一つを調整する。
【0053】また、第4の発明に係る対話処理装置は、
第2の発明において、前記出力生成手段は、前記問題解
決情報に基づいて利用者からの相槌が期待される相槌期
待位置を検出し、これを相槌期待情報として利用者へ出
力する時刻に関する情報とともに出力し、前記対話通信
制御手段は、前記相槌表現認識情報と前記相槌期待情報
とを比較し、利用者からの相槌の不提示が、あらかじめ
設定した条件以上に発生した場合には、利用者との通信
路が適切に保たれているかどうかに関する質問を前記出
力生成手段を通じて行ない、かつ、前記質問に対する利
用者からの応答を前記入力手段を通じて受け取り、この
応答に応じて利用者との対話の制御を行なう。
【0054】また、第5の発明に係る対話処理装置は、
第2の発明において、前記出力生成手段は、前記問題解
決情報に基づいて利用者からの相槌が期待される相槌期
待位置を検出し、これを相槌期待情報として利用者へ出
力する時刻に関する情報とともに出力し、前記対話通信
制御手段は、前記相槌表現認識情報と前記相槌期待情報
とを比較し、利用者からの相槌の不提示が、あらかじめ
設定した条件を満たした場合には、利用者へ出力した情
報が正しく伝達されているかどうかに関する確認の質問
を前記出力生成手段を通じて行ない、かつ、前記確認の
質問に対する利用者からの応答を前記入力手段を通じて
受け取り、この応答に応じて利用者との対話の制御を行
なう。
【0055】また、第6の発明に係る対話処理装置は、
第5の発明において、前記入力メッセージ情報と、前記
問題解決情報と、前記相槌期待情報と、前記相槌表現認
識情報とを適宜保存する対話情報記録手段をさらに具備
し、前記対話通信制御手段は、利用者への質問を行なう
際に、前記対話情報記録手段の内容を参照し、了承のな
い項目が存在する場合は、それを優先して利用者に確認
するとともに、利用者から了承の意図を表す相槌が得ら
れている場合には、その部分を確認質問から省いて利用
者に対して確認の質問を行なうよう制御する。
【0056】また、第7の発明に係る対話処理装置は、
第2の発明において、前記問題解決手段からの問題解決
情報を受け取り、自然言語表現の文あるいはフレーズ末
の表現の変更、構文構造の変更、音声合成における韻律
制御による文あるいはフレーズ末のイントネーションの
変更、コンピュータグラフィックスによる顔表情の生成
などに基づいて、あらかじめ定めた所定の規則を用い
て、利用者からの相槌を要求する表現である相槌要求表
現を生成する相槌要求表現生成手段をさらに具備し、こ
の相槌要求表現生成手段は、前記対話通信制御手段の制
御の基に、前記相槌要求表現を、これを提示する時刻に
関する情報とともに相槌要求提示情報として出力する。
【0057】また、第8の発明に係る対話処理装置は、
第7の発明において、前記対話通信制御手段は、前記相
槌表現認識情報と、前記相槌要求提示情報とを比較し、
利用者からの相槌の不提示があらかじめ設定した条件を
満たした場合には、利用者へ出力した情報が正しく伝達
されているかどうかに関する確認の質問を前記出力生成
手段を通じて行ない、かつ、前記確認の質問に対する利
用者からの応答を前記入力手段を通じて受け取り、この
応答に応じて利用者との対話の制御を行なう。
【0058】また、第9の発明に係る対話処理装置は、
第3または第7の発明において、前記対話通信制御手段
は、前記相槌表現認識情報と、前記相槌要求提示情報と
を比較し、利用者からの相槌の不提示があらかじめ設定
した条件を満たした場合には、利用者の確認を得た上
で、対話を中断あるいは停止あるいは初期状態に戻すよ
うに制御する。
【0059】また、第10の発明に係る対話処理装置
は、第7の発明において、前記対話通信制御手段は、前
記相槌表現認識情報に含まれる相槌表現の種類に応じ
て、あらかじめ設定した所定の規則を用いて、利用者に
提示する相槌要求表現の種類を決定する。
【0060】また、第11の発明に係る対話処理装置
は、第7の発明において、前記出力生成手段は、前記問
題解決情報に基づいて利用者からの相槌が期待される相
槌期待位置を検出し、これを相槌期待情報として利用者
へ出力する時刻に関する情報とともに出力し、前記対話
通信制御手段は、前記相槌表現認識情報と前記相槌期待
情報とを比較し、利用者からの相槌の不提示が、あらか
じめ設定した条件以上に発生した場合には、利用者との
通信路が適切に保たれているかどうかに関する質問を前
記出力生成手段を通じて行ない、かつ、前記質問に対す
る利用者からの応答を前記入力手段を通じて受け取り、
この応答に応じて利用者との対話の制御を行なう。
【0061】また、第12の発明に係る対話処理装置
は、第7の発明において、前記入力メッセージ情報と、
前記問題解決情報と、前記相槌期待情報と、前記相槌表
現認識情報とを適宜保存する対話情報記録手段をさらに
具備し、前記対話通信制御手段は、利用者への質問を行
なう際に、前記対話情報記録手段の内容を参照し、了承
のない項目が存在する場合は、それを優先して利用者に
確認するとともに、利用者から了承の意図を表す相槌が
得られている場合には、その部分を確認質問から省いて
利用者に対して確認の質問を行なうよう制御する。
【0062】また、第13の発明に係る対話処理方法
は、利用者によって、キーボードなどを通じて入力され
る自然言語入力と、マイクなどを通じて入力される音声
情報入力と、カメラなどを通じて入力される視覚情報入
力と、マウスなどを通じて入力される操作入力のうち、
少なくとも一つの入力を取り込んで所定の解析を行な
い、該入力の一部あるいは全部を表現する記述と、前記
入力の意味内容と、利用者の意図のうち、少なくとも一
つを含む入力メッセージ情報を生成する入力工程と、こ
の入力メッセージ情報に応じた問題解決を行ない、利用
者からの要求に対する応答のための情報の提示や利用者
との協調による問題解決に必要な質問など、利用者へ伝
達すべきメッセージの内容と、利用者への提示の仕方や
意図のうち、少なくとも一つを表す問題解決情報を出力
する問題解決工程と、この問題解決情報に基づいて、自
然言語による発話文の生成と、合成音声の生成と、コン
ピュータグラフィックスなどによる顔表情や身体動作の
生成のうち少なくとも一つを行ない、これを出力メッセ
ージとして利用者へ出力する出力生成工程と、前記入力
メッセージ情報に対して、所定の言語解析と、音声信号
の解析と、視覚情報の解析と、操作入力の解析のうち、
少なくとも一つを行なうことによって、相槌を表す表現
を認識し、利用者から提示される相槌表現の種類と、対
話機能と、入力された時刻などの時間情報のうち、少な
くとも一つを含む相槌表現認識情報を出力する相槌表現
認識工程とを具備する。
【0063】また、第14の発明に係る対話処理方法
は、第13の発明において、前記相槌表現認識情報に基
づいて、前記入力解析工程と、前記問題解決工程と、前
記出力生成工程のうち、少なくとも一つを制御する対話
通信制御工程をさらに具備する。
【0064】また、第15の発明に係る対話処理方法
は、第14の発明において、前記問題解決情報を受け取
り、自然言語表現の文あるいはフレーズ末の表現の変
更、構文構造の変更、音声合成における韻律制御による
文あるいはフレーズ末のイントネーションの変更、コン
ピュータグラフィックスによる顔表情の生成などに基づ
いて、あらかじめ定めた所定の規則を用いて、利用者か
らの相槌を要求する表現である相槌要求表現を生成する
相槌要求表現生成工程をさらに具備し、この相槌要求表
現生成工程は、前記対話通信制御工程の制御の基に、前
記相槌要求表現を、これを提示する時刻に関する情報と
ともに相槌要求提示情報として出力する。
【0065】
【発明の実施の形態】以下、図面を参照して本発明の一
実施例に係る対話処理装置および対話処理方法について
説明する。
【0066】図1は、本発明の一実施例に係る対話処理
装置の構成を示す図であり、本対話処理装置10は、入
力部1と相槌表現認識部4からなる入力解析部7と、相
槌要求表現生成部6と出力部3とからなる出力生成部8
と、対話通信制御部5と対話管理問題解決部2とからな
る対話部9とから構成されている。
【0067】図1において、入力部1は、例えばマイ
ク、カメラ、キーボード、マウス、ペン、タブレット、
データグローブ、フットスイッチ、対人センサなどの少
なくとも一つの入力デバイスを通じて利用者および環境
からの入力メッセージを受け取り、例えば音声認識処理
(発話内容理解、イントネーションやアクセント等の韻
律認識、話者認識など)、言語解析処理(統語解析、照
応解決、省略補完処理など)、画像認識処理(視線検出
処理、顔向き検出処理、身体動作ジェスチャ認識、表情
認識処理など)、動作解析処理(データグローブ出力デ
ータの理解、フットスイッチなど)、操作入力データの
解釈処理(ウインドウシステムのイベントの理解、ボタ
ン操作の理解など)、照応解決処理、および意味解析処
理などの処理のうち、少なくとも一つの解析処理を施す
ことによって、入力メッセージの元信号の一部あるいは
全部を表現する記述、および該入力の意味内容、および
利用者の意図のうち、少なくとも一つを含む入力メッセ
ージ情報を生成して、対話管理問題解決部2に出力す
る。
【0068】図2は、入力部1によって生成される入力
メッセージ情報の例を表しており、本実施形態の入力メ
ッセージ情報は、メッセージID、入力音声信号情報
A、入力画像情報B、入力操作情報C、発話意図情報
D、命題内容情報E、時間情報F、入力メディア情報
G、統語構造情報H、フレーズ未表現情報(韻律特徴情
報)I、およびジェスチャ表現情報Jなどから構成され
ている。
【0069】図2に示した入力メッセージ情報では、メ
ッセージIDの欄には対応する入力メッセージの識別記
号が記録されている。また、入力音声信号情報A、およ
び入力画像信号情報B、および入力操作信号情報Cの欄
には、対応する入力メッセージの、例えばマイクなどか
ら得られた音声信号と、例えばカメラなどから得られた
画像信号と、例えばマウスやペンなどから得られた操作
入力信号が、例えばディジタル化されたり、あるいはウ
インドウシステム等のイベントとして記号化され、それ
ぞれ記録される。なお、図2において記号「−」は該当
する内容が空であることを表している。また、記号
「<」と記号「>」で囲まれた部分は、記述の都合で、
記録されている内容に対応する内容の説明文を記載して
いる。
【0070】また、発話意図情報Dの欄には、入力部1
によって行なわれた解析によって得られた入力メッセー
ジにこめられた利用者の発話意図が記載されるようにし
ており、例えば、図2のメッセージID=#1の例で
は、「何らかの動作(X)を行なう方法を尋ねる」とい
う意図を表現する記号「Ask_How_to_do_
X」が記載されている。
【0071】また、命題内容情報Eの欄には、同様に入
力部1によって行なわれた解析によって得られた入力メ
ッセージの利用者の発話意図以外の意味内容が記載され
るようにしており、例えば、図2のメッセージID=I
#1の例では、「利用者(U)があるカバー(Cove
r#1)を外す方法」を表す記述「Mean(U,Re
move(Cover#1)=X)」が記載されてい
る。なお、これら2つの欄に現れている記号「X」など
の文字は変数を表しており、発話意図情報Dおよび命題
内容情報Eの双方で、本入力メッセージが、「利用者
(U)があるカバー(Cover#1)を外す方法を、
利用者が尋ねている」ものであると解析されたことを表
現している。
【0072】また、図2に示す入力メッセージ情報にお
いて、時間情報Fの欄には、対応する入力メッセージの
入力された時間が記録されるようにしており、図2のメ
ッセージID=M#1の例では、開始時刻がt1で、終
了時刻がt2であったことが記載されている。
【0073】また、図2に示す入力メッセージ情報にお
いて、入力メディア情報Gの欄には、対応する入力メッ
セージにおいて利用されたメディアの種類を表す記号が
記録され、例えば、図2のメッセージID=I#1の例
では、音声入力とポインティングジェスチャ(指さしに
よる指し示し動作)によってこのメッセージが入力され
たことを表していることになる。
【0074】また、図2に示す入力メッセージ情報にお
いて、統語構造情報Hの欄には、入力メッセージの統語
解析結果が記録される。なおここで、記号「…」は、本
実施形態の説明に不要な部分を省略したことを表してい
る。
【0075】また、韻律特徴情報Iの欄には、対応する
入力メッセージの音声入力のフレーズ末の韻律的特徴の
分析結果が記録される。なおここで記号「↑」はフレー
ズ末において、例えば疑問などを表すピッチの上昇(ラ
イズ)が検出されたことを表現している。
【0076】また、ジェスチャ表現情報Jの欄には、対
応する入力メッセージのジェスチャ解析結果が記録さ
れ、例えば図2のメッセージID=I#1の例では、あ
るカバー(Cover#1)に対する指さし指示(ポイ
ンティング動作)が検出されたことを表している。
【0077】図1において、対話管理問題解決部2は、
入力部1からの入力メッセージ情報を受けとり、対応す
る入力メッセージでの利用者の要求を表す、発話意図情
報Dおよび命題内容情報Eを参照して、例えばあらかじ
め用意したデータベースの検索処理や、あらかじめ用意
した推論規則を用いた推論エンジンの動作や、数値演算
処理などのうち、少なくとも一つの問題解決処理を行な
うことによって、利用者からの要求を解決する応答を行
なうための出力メッセージ情報を出力する。
【0078】あるいは、利用者からの要求を解決するた
めに、例えば不足情報や追加条件を利用者から聞き出す
ためや、あるいは、利用者が犯していると考えられる誤
解部分を推測しその誤解の解消するための質問を行なっ
たり、あるいは、入力部1においてなされる利用者から
の入力メッセージの解釈処理結果の誤りを解消するため
の利用者への問い合わせや確認を行なうための、出力メ
ッセージ情報の生成と、問い合わせなどのための埋め込
み対話を行なうための例えば階層プランナや状態遷移線
図による対話モデルなどを利用した対話管理などを行な
うようにしている。
【0079】図3は、対話管理問題解決部2によって生
成される問題解決情報としての出力メッセージ情報の内
容の一例を表しており、本実施形態の出力メッセージ情
報は、メッセージID、発話意図情報A、命題内容情報
B、および提示メディア情報Cなどから構成されてい
る。
【0080】図3に示す出力メッセージ情報では、メッ
セージIDの欄には対応する出力メッセージに対して付
与した識別記号が記録されている。また、発話意図情報
Aの欄には、本装置から利用者へ提示すべき出力メッセ
ージに含まれている発話意図に関する情報が示されてお
り、例えば、図3のメッセージID=O#1の出力メッ
セージでは、「利用者(U)に、命題内容情報Bの欄の
変数P、Q、R、ST、およびVに対応する動作を行な
うことを知らせる(Informする)」という意図を
表す記述「Inform(U、(P<Q<R<S<T<
V))」が記載されている。なお、ここで、記号「<」
は、提示する意味内容の時間的関係に関する制約情報を
表現しており、左から右への時間的な前後(先行後続)
関係を表している。つまり、メッセージID=O#1の
例では、まず最初に記号Pに対応する内容を知らせ、次
に記号Qの対応する内容を、そして記号Vに対応する内
容を最後に伝達することを表現していることになる。
【0081】そして、命題内容情報Bの欄には、対応す
る出力メッセージで利用者に提示すべき情報の意味内容
が記述されている(ただし、この例では複数の意味内容
記述が含まれている)。ここでも図2に示した入力メッ
セージの命題内容情報Bの欄と同様の記述法が使われて
おり、例えば、図3のメッセージID=O#1の例の、
命題内容情報Bの欄の「Detatch(Cable#
2)=R」の部分は、あるケーブル(Cable#2)
を取り外すことを表現しているとともに、この意味内容
を、変数「R」で参照することを表していることにな
る。
【0082】また、出力メッセージ情報の提示メディア
情報Cの欄には、対応するメッセージを利用者に提示す
る場合に利用すべきメディアを記録する用にしており、
例ええば図3のメッセージID=O#1の場合は、その
内容が「Speech」であることから、本メッセージ
を音声メディアを使って利用者に提示することになる。
【0083】以上説明した通り、出力メッセージ情報は
利用者に提示すべきメッセージの意味内容、発話意図、
および利用メディアなどを記述したものであり、例え
ば、図3のメッセージID=O#1の例全体では、「利
用者(U)に、まず、あるケーブル(Cable#1)
を外し、次にあるアース線(Earth#1)を外し、
次にあるケーブル(Cable#2)を外し、次にある
ねじ(Screw#1)を外し、次にあるねじ(Scr
ew#2)を外し、最後にカバー(Cover#1)を
外すことを、音声メディアを使って、伝える」という内
容を表していることになる。
【0084】図1に於いて、出力部3は、対話管理問題
解決部2から供給される出力メッセージ情報に基づき、
自然言語生成処理(発話文生成、構文構造生成、語彙選
定、代名詞化処理、パラフレーズ処理、省略表現導入な
ど)、音響信号生成(警告音生成など)、音声合成処理
(意味表現からの生成、自然言語文章からの合成な
ど)、韻律制御処理(アクセント、イントネーション、
フレーズ制御、ポーズ制御など)、コンピュータグラフ
ィックス(CG)などによる画像情報生成(顔画像、表
情、身振り合成、図表情報や文字情報の生成など)、あ
るいはフィードバックなどのために提示すべき力の生成
処理などの少なくとも一つを行なって、利用者へ提示す
べき出力メッセージを生成し、例えばディスプレイ(C
RT)、スピーカ、ヘッドマウントディスプレイ(HM
D)、フォースディスプレイ(提力装置)などのうち、
少なくとも1つの出力デバイスを通じて、利用者への出
力メッセージを提示するようにしている。
【0085】また出力部3は、出力メッセージ情報から
出力メッセージの構造情報である出力構造情報を生成し
て相槌要求生成部6の内部に記録するとともに、相槌要
求表現生成部6の内部処理によって修正される出力構造
情報に応じて、利用者へ提示する出力メッセージを生成
するようにしている。
【0086】図1に於いて、相槌表現認識部4は、入力
部1から出力される入力メッセージ情報を受けとり、利
用者からの入力メッセージに含まれる相槌表現を抽出
し、相槌入力情報として出力する。
【0087】図4は、相槌表現認識部4の内部構成の一
例を表しており、受けとった入力メッセージ情報を保持
する入力メッセージ情報記憶部4aと、入力メッセージ
情報記憶部4aの内容に対して、相槌表現抽出規則記憶
部4cの内容を参照した照合処理を行なうことによって
相槌表現を抽出し、相槌表現認識情報としての相槌入力
情報を生成して出力する相槌表現抽出処理部4bと、入
力メッセージ情報から相槌表現を抽出するための規則を
保持する相槌表現抽出規則記憶部4cとから構成されて
いる。
【0088】図5は、入力メッセージ情報記憶部4aの
内容の一例を表しており、入力部1から出力され、相槌
表現認識部4へ渡された入力メッセージ情報の内で、相
槌表現認識部4で利用される情報が、メッセージID情
報、時間情報A、メディア情報B、統語構造情報C、韻
律特徴情報D、およびジェスチャ表現情報Eなどに分類
されて記録される。
【0089】図6は、相槌表現抽出規則記憶部4cの内
容の例を表しており、入力メッセージから相槌表現を抽
出するとともに、抽出した相槌表現の対話機能を判定す
るための規則が、統語特徴情報A、韻律特徴B、ジェス
チャ特徴情報C、および対話通信機能情報Dなどと分類
されて記録される。
【0090】相槌表現抽出規則記憶部4cの各エントリ
において、統語特徴情報Aの欄には対応する相槌表現の
統語構造における特徴が記録されており、例えば図6の
格納アドレスQ1のエントリでは、その内容が「S(I
TJ(はい)」であることから、間投詞(ITJ=In
terjection)「はい」のみから構成される発
話文(S)であるという特徴を表現している。また、格
納アドレスQ6のエントリでは、統語特徴情報Aの内容
が記号「{*}」となっているが、これは記号「*」に
よって任意の表現について条件が満たされることと、記
号「{」および「}」によって表現が存在しなくても条
件が満たされるということを表現しているものである。
【0091】相槌表現抽出規則記憶部4cの各エントリ
において、韻律特徴情報Bの欄には対応する相槌表現の
韻律的特徴を記載するが、記号「↑」は有標の(=マー
クされた:標準的な表現でなく何らかのコミュニケーシ
ョン上の意図の下に意識的に付与された)発話末イント
ネーションの上昇(ライズ)があるということを表現し
ており、記号「↓」は有標の発話末イントネーションの
下降(フォール)があるということを表現している。ま
た、記号「↑↓」は有標の発話末イントネーションの上
昇+下降(ライズアンドフォール)があることを表して
いる。なおここでも、記号「*」は任意の特徴が条件を
満たすことを表しており、また記号「{」および記
号「}」で囲まれた表現は必ずしも満足する必要のない
選択的な条件であることを表している。
【0092】相槌表現抽出規則記憶部4cの各エントリ
において、ジェスチャ特徴情報Cの欄には、対応する相
槌表現のジェスチャにおける特徴が記載されており、入
力部1による処理によって抽出され分類されたジェスチ
ャの種類に関する条件が記載される。なお、アイコンタ
クトとは話し手と聞き手の間で視線を一致させる動作を
表す。
【0093】また、相槌表現抽出規則記憶部4cの各エ
ントリにおいて、対話通信機能情報Dの欄には、統語特
徴情報A、韻律特徴情報B、およびジェスチャ特徴情報
Cに記載された条件を満たす相槌表現が持つ、対話機能
が記載されるここで、記号「成功」は、対話システムが
提示した情報が、聞き手である利用者に無事に伝達され
たことを確認する対話機能を持つものであることを表し
ており、記号「失敗」は、提示した情報が利用者に無事
に伝達されなかったことを表す対話機能を持つ相槌表現
であることを表す。なお記号「保留」は、対話システム
が提示した情報が、利用者に完全には伝達できなかった
が、その問題の解消を今すぐには行わず、現在提示中の
話を先に進めて欲しいという意味を表す対話機能を持つ
相槌表現であることを表す記号である。
【0094】つまり、具体的には、例えば図6の格納ア
ドレスQ4のエントリは、発話末にイントネーション下
降の韻律特徴を持つ、「えぇ」という間投詞のみで構成
される発話とともに、アイコンタクトが見られた場合に
は、話し手から聞き手へ提示した情報が正しく伝達され
たことを表す相槌が存在することを表す規則である。な
お、ここで、ジェスチャ特徴情報Cの内容が「{アイコ
ンタクト}」であり、記号「{」および記号「}」がつ
いていることから、ここではアイコンタクトというジェ
スチャ特徴が存在しない場合にも同様の相槌が存在する
ことも同時に表現していることになる。
【0095】また、例えば、格納アドレス=Q6のエン
トリでは、ジェスチャ特徴として、うなづきが存在する
場合には、特定の統語的特徴および韻律的特徴が存在し
なくても、つまり極端な例としては発声がなされなかっ
た場合でも、提示した情報の伝達が正しくなされたこと
を表す相槌表現が存在することを表現する規則となって
いる。
【0096】以上説明した入力メッセージ情報記憶部4
a、および相槌表現抽出規則記憶部4cの内容を参照し
て、相槌表現抽出処理部4bによって相槌表現の抽出処
理が行なわれる。
【0097】相槌表現抽出処理部4bでは、以下に示す
相槌表現抽出手順Aに従った処理が行なわれる。
【0098】[相槌表現抽出手順A] a1 新しい入力メッセージ情報Iiが、入力部1から
相槌表現認識部4へ渡され、入力メッセージ情報記憶部
4aに新しいエントリPiが生成され、Iiの中の情報
の種類に応じて、エントリPiの各欄に情報が記録され
る。
【0099】a2 エントリPiの内容と相槌表現抽出
規則記憶部4cの各エントリQjとを順次比較すること
で、条件を満たすエントリを検索する。
【0100】a3 条件を満たすエントリQjiが存在
した場合には、エントリQjiとエントリPiの内容を
参照して、対応する情報を複写することによって、相槌
入力情報を生成し、相槌表現認識部4から本実施形態に
係る対話処理装置の他の構成要素へ出力する。
【0101】a4 a1へ進む。
【0102】図7は、相槌入力情報の内容の一例を表し
ており、これが、メッセージID、統語特徴情報A、韻
律特徴情報B、ジェスチャ特徴情報C、対話通信機能情
報D、時間情報E、および利用メディア情報Fなどから
構成されている。例えば、この図7の例では、メッセー
ジID=I#2の入力メッセージが、発話末のイントネ
ーションの下降をともなった、間投詞「えぇ」との表現
とうなづきによる相槌表現が認識され、同時にその対話
通話機能が「成功」であることが判明したことを表して
いる。
【0103】図1に於いて、対話通信制御部5は、入力
部1から得られる入力メッセージ情報、および相槌表現
認識部4から得られる相槌入力情報、および相槌要求表
現生成部6から得られる相槌期待情報のうち、少なくと
も一つに基づいて、入力部1、出力部2、対話管理問題
解決部3、相槌表現認識部4、および相槌要求表現生成
部6のうち、少なくとも一つの動作を制御する。
【0104】なお、この対話通信制御部5が本実施形態
において中心的な役割を担う部分であるため、対話通信
制御部5の処理のながれなど詳細な説明については、後
ほど詳しく説明を行なうこととする。
【0105】図1に於いて、相槌要求表現生成部6は、
対話管理問題解決部2から得られる出力メッセージ情報
から利用者に提示する出力メッセージを生成する出力部
3に新たな機能を付与するものであり、対話通信制御部
5の制御に従って、利用者へ提示する出力メッセージ
に、利用者からの相槌を要求する表現(以後、「相槌要
求表現」と呼ぶ)を追加するための出力メッセージ情報
への変更を行なう。また、利用者へ提出する出力メッセ
ージから利用者の相槌が期待される位置(以後、「相槌
期待位置」と呼ぶ)を検出し、これらに関する情報を、
相槌期待情報として生成し、対話通信制御部5へ適宜送
るようにしている。
【0106】図8は、相槌要求表現生成部6の内部構成
の一例を表しており、出力構造情報記憶部6aと、相槌
要求表現生成処理部6bと、相槌要求表現生成規則記憶
部6cと、相槌期待位置検出処理部6dと、相槌期待位
置検出規則記憶部6eとから構成されている。
【0107】出力構造情報記憶部6aは、対話管理問題
解決部2で生成された出力メッセージ情報から出力部3
によって生成される出力メッセージの構造情報を記憶す
るものである。出力構造情報記憶部6aの内容は、相槌
要求表現生成処理部6b、相槌期待位置検出処理部6
c、および出力部3などから参照され、また、相槌要求
表現生成処理部6bでの処理によって適宜、内容の追加
および変更がなされるようにしている。さらに、出力構
造情報記憶部6aの内容は出力部3からも参照され、利
用者に提示する出力メッセージの生成に利用される。
【0108】図9は、出力構造情報記憶部6aの内容の
一例を示しており、出力構造情報は、メッセージID情
報、サブID情報A、メディア情報B、メッセージ構造
情報C、確認フラグ情報D、及び時間情報Eなどといっ
た様に分類されて記録される。
【0109】出力構造情報記憶部6aの各エントリに於
いて、メッセージID情報の欄には、対応する出力メッ
セージの識別記号が記録される。また、サブID情報A
の欄には、あるメッセージIDに対応する出力メッセー
ジ情報が複数の命題内容を含む場合の、命題内容の識別
記号を記録する。よって、例えば、図9の格納アドレス
=R1およびR2のエントリは、メッセージID情報の
内容が同一「1」であることから、同一の出力メッセー
ジを構成する部分同士であることが分かる。また、サブ
ID情報Aの内容が同一の「1」であることから、両者
が同一の命題内容を表現する構成部分であることが分か
る。
【0110】また、出力構造情報記憶部6aの各エント
リに於いて、メディア情報Bの欄には、対応する出力メ
ッセージの構成部分を利用者に提示する場合に用いるメ
ディアに関する制約情報が記録される。また、メッセー
ジ構造情報Cの欄には、対応する出力メッセージの構成
部分の統語構造や意味表現あるいは品詞情報など、出力
部3での出力メッセージの生成処理のための情報が、例
えば節や句といった構造的な単位ごとに記録される。
【0111】例えば、図9の格納アドレス=R1のエン
トリにおいて、メッセージ構造情報Cの欄には、あるケ
ーブル(Cable#1)を表す名詞「ケーブル1」を
対象格としてもつ、文の一部を構成する名詞句構造を表
す記述「S(NP(N:ケーブル1,Ref:Cabl
e#1,Case:対象格)」が記録されており、メデ
ィア情報Bの欄には、音声メディアを利用してこの情報
を利用者に提示することを意味する記述「音声」が記録
されている。なお、ここでは、例えば、図9の格納アド
レス=R1およびR2のエントリの様に、サブID情報
Aが同一のエントリのメッセージ構造情報を記録されて
いる順番に連結した全体で、対応する命題内容を表現す
る構造情報が記録される。
【0112】なお、このメッセージ構造情報Cの欄に
は、例えば、図9の格納アドレス=R20のエントリの
メッセージ構造情報Cの欄に現れる記述「韻律:
[↑]」の様に、出力部3で行なわれる出力メッセージ
の生成における韻律上の制約条件も記録出来る。また、
例えば、格納アドレス=R30のエントリのメッセージ
構造情報Cの欄に現れる記述「Gesture:[No
dding])の様に、うなずきなどの非言語メッセー
ジの提示を指定する構造情報も記録できる。
【0113】また、出力構造情報記憶部6aの各エント
リに於いて、確認フラグ情報Dの欄には、利用者に提示
した対応する出力メッセージ情報の構成部分が、利用者
に正しく伝達されたかどうかに関する確認がなされたか
どうかについての情報が、対話通信制御部5の制御に従
って記録される。
【0114】ここで、記号「T」は、例えば利用者から
「はい」などといった対話における通信の成功を意味す
る相槌が入力されたことなどにより、対応する情報の利
用者への伝達が正しくなされたことへの確認がなされた
ことを表す。
【0115】また、記号「F」は、例えば利用者から
「えっ」などといった対話における通信が失敗したこと
を表す相槌が入力されることなどにより、対応する情報
の利用者への伝達が正しくなされなかったことが確認さ
れたことを表す。
【0116】また、記号「H」は、利用者から、対応す
る情報の利用者への伝達が正しくなされなかったが、し
ばらく情報の提示を継続して欲しいとの対話機能をも
つ。例えば「はぁ」などといった相槌がなされたことな
どにより、対話における伝達失敗部分に関する保留がな
されていることを表す。
【0117】また、記号「−」は対応する情報が利用者
に対してまだ提示されていないことを表し、記号「U」
は対応する情報の利用者への伝達が正しくなされたかど
うかについての確認がまだなされていないことを表して
いる。
【0118】また、出力構造情報記憶部6aの各エント
リに於いて、時間情報Eの欄には、対応する出力メッセ
ージが実際に利用者に提示された開始時間および終了が
記録される。なお、未提示の出力メッセージ情報に対応
するエントリでは、時間情報Eの欄に記号「−」を記録
する。
【0119】図10は、相槌要求表現生成規則記憶部6
cの内容の例を示しており、相槌要求表現生成処理部6
bから参照される相槌要求表現生成規則が、メディア情
報A、書換え選定情報B、および構造置換規則Cなどと
分類されて記録される。
【0120】相槌要求表現生成規則記憶部6cの各エン
トリに於いて、メディア情報Aの欄には、対応する規則
を適用する対象となる出力構造情報記憶部6aのエント
リのメディア情報Bの欄に対する制約が記録されてい
る。また、書換前提情報Bの欄には、出力構造情報記憶
部6aのエントリのメッセージ構造情報Cの内容に対す
る制約が記載されている。また、構造置換規則情報Cの
欄には、出力構造情報記憶部6aのエントリのメッセー
ジ構造情報Cの内容の変更方法に関する規則が記載され
ている。なお、書換前提情報Bおよび構造置換規則情報
Cの欄において記号Xなどは変数を表しており、書換前
提情報Bの欄の対応する位置に存在する記述を、構造書
換規則の対応する位置に挿入することを表している。
【0121】またここで、記号「(P)」は発声におけ
るポーズ(例えば100〜200ms程度の無音区間)
の提示を意味しており、記号「↑」、「↓」、および
「↑↓」は、それぞれイントネーションのライズ(上
昇)、フォール(下降)、およびライズアンドフォール
を表している。
【0122】例えば、図10の相槌要求表現生成規則記
憶部6cの内容の例の格納アドレスS1のエントリで
は、音声メディアを利用してある動詞Xの終止形を使っ
た動詞句を提示するための出力構造情報は、その動詞X
を連用中止形変更し、ランズアンドフォールの韻律(イ
ントネーション)変化とポーズを追加することによっ
て、利用者に対して相槌を要求する相槌要求表現を生成
することが出来ることを表している。
【0123】また、例えば、格納アドレス=S3のエン
トリでは、音声によって何らかの発話文を構成するある
名詞句Xを利用者に提示するための出力構造情報は、そ
の名詞句Xの後に、ライズアンドフォールの韻律変化
と、ポーズを追加し、さらに利用者からのアイコンタク
ト(視線一致)を要求するために利用者の顔に視線を向
ける動作による非言語メッセージを、例えばコンピュー
タグラフィックスによる顔画像で表現することで、相槌
要求表現を提示出来ることを表している。
【0124】相槌要求表現生成処理部6bは以下の相槌
要求表現生成手順Bに従った処理によって動作する。
【0125】[相槌要求表現生成手順B] b1 対話通信制御部5から、ある出力メッセージ情報
に対応するメッセージID:Xoへの相槌要求表現の追
加が指示された場合には、b2へ進む。
【0126】b2 出力構造情報記憶部6aを検索し、
メッセージID情報の内容がXoであり、かつ確認フラ
グ情報Dの内容が「−」であるエントリの組Y(Ri,
Rj,…Rn)を検索する。
【0127】b3 エントリの組Yに含まれる各エント
リRiに対し順に、b4〜b5の処理を行なう。
【0128】b4 相槌要求表現生成規則記憶部6cを
参照し、エントリRiのメディア情報B、およびメッセ
ージ構造情報Cの内容を適合する相槌要求表現生成規則
記憶部6cのエントリSiを検索する。
【0129】b5 該当するエントリSiが見つかった
場合は、エントリRiのメッセージ構造情報Cの内容
に、エントリSiの書換え前提情報Bと、構造置換規則
情報Cの内容を利用した書換え処理を行ない、b6へ進
む。
【0130】b6 b1へ進む。
【0131】以上の処理によって、対話通信制御部5の
指示に応じて、ある出力メッセージを通じて、利用者へ
の相槌要求表現を提示する場合に、相槌要求表現生成規
則によって相槌要求表現を生成可能であれば、最も早く
提示される出力メッセージ情報の構成部分に対して相槌
要求表現が付与されることとなる。
【0132】続いて、相槌要求表現生成部6の残りの構
成要素について説明を行なう。
【0133】図11は、相槌期待位置検出規則記憶部6
eの内容の一例を示しており、相槌期待位置検出処理部
6cで行なわれる利用者からの相槌が期待される位置の
検出処理で参照される規則が、メディア情報A、および
期待位置情報Bなどと分類され記録される。
【0134】相槌期待位置検出規則記憶部6eの各エン
トリにおいて、メディア情報Aの欄には、対応する規則
を適応する対象となる、出力構造情報記憶部6aの各エ
ントリのメディア情報Bへの制約情報が記載されてい
る。
【0135】また、相槌期待位置検出規則記憶部6eの
各エントリにおいて、期待位置情報Bの欄には、出力構
造情報記憶部6aの各エントリのメッセージ構造Cへの
制約情報と、検出された期待を表す記号「△」を記録す
るようにしている。
【0136】なお、ここでの処理によって付与される記
号「△」は、上述の相槌要求表現生成処理においては無
視されるものとする。
【0137】相槌期待位置検出処理部6dは、下記の相
槌期待位置検出処理手順Cに従って動作し、出力構造情
報記憶部6aにその構造情報が記録されている利用者へ
の出力メッセージの中から、利用者からの相槌が期待で
きる位置の検出と、出力部3を通じて、各期待位置を利
用者に提示した時間に関する情報を相槌期待情報として
生成し、適宜対話通信制御部5へ送るようにしている。
【0138】[相槌期待位置検出処理手順C] c1 対話管理問題解決部2から出力メッセージ情報O
xが、相槌要求表現生成部6へ渡され、出力構造情報6
aに新しいエントリの組Z(Ri〜Rj)が生成され、
Oxの情報が格納された場合には、エントリの組Zに含
まれる各エントリ(Ri〜Rj)に対してc3〜c7の
処理を施す。 c2 相槌要求表現生成処理部6bによって、出力構造
情報6aのあるエントリRkのメッセージ構造情報Cの
内容が変更された場合には、エントリRkに対して、c
3〜c7の処理を行なう。
【0139】c3 処理対象の出力構造情報6aのエン
トリRxに対してc4〜c7の処理を行なう。
【0140】c4 エントリRxの、メディア情報Bお
よびメッセージ構造情報Cの内容と、相槌期待位置検出
規則記憶部6eの全てのエントリの適応を試み、エント
リTiについては、エントリTiの期待位置情報Bの内
容にしたがって、エントリRxのメッセージ構造情報C
の対応する位置に記号「△」を追加する。
【0141】c5 エントリRxのメッセージ構造情報
Cの欄を調べ、同一の位置に複数の記号「△」が連続し
ている場合は、一つの記号「△」を残し、残りの重複し
ている記号「△」を全て削除する。
【0142】c6 検出したエントリRxの各相槌可能
位置(記号「△」のある位置)に対してユニークな期待
位置ID(例えばBx)を付与しRxのメッセージ構造
情報Cの欄の対応する記号「△」の後ろに記録する。
【0143】c7 エントリRxに対して、相槌可能位
置情報を生成し対話通信制御部5へ出力する。
【0144】c8 出力部3を通じて利用者へ出力メッ
セージが実際に提示された場合に、提示された出力メッ
セージに対応する出力情報記憶部6aの各エントリRy
に対してc9の処理を行なう。
【0145】c9 エントリRyのメッセージ構造情報
Cの中に存在する各相槌可能位置(記号「△」部)につ
いて、それらが利用者に提示された時間を記録し、期待
位置IDととにも、相槌期待情報として対話通信管理部
5へ出力する。
【0146】c10 c1へ戻る。
【0147】図12は、 相槌期待位置検出処理部6d
によって生成される相槌期待情報の例を示しており、検
出した相槌期待位置が含まれる出力構造情報記憶部6a
のエントリRbの格納アドレス、メッセージID情報、
サブID情報、および期待位置IDなどが含まれてい
る。あるいは、上記の相槌期待位置検出処理手順Cのス
テップc9では、期待位置IDと、その相槌期待位置が
利用者に提示された時間である提示時間情報が含まれて
いる。
【0148】続いて、対話通信制御部5について説明す
る。
【0149】対話通信制御部5は、下記の対話制御手順
D、および内容確認対話Eおよびチャンネルチェック処
理手順Fにしたがって動作する。
【0150】[対話制御手順D] d0 初期動作として、利用者に対して相槌要求を行な
ったか否かを表現するフラグである相槌要求提示レジス
タに記号「F」を記録する。
【0151】d1 相槌認識部4から相槌入力情報Bi
が得られた場合には、d2〜d5の処理を行なう。
【0152】d2 Biに含まれる時間情報Eの内容
と、出力構造情報記憶部6aの各エントリRiの時間情
報Eの内容を参照し、Biの時間区間と重複する時間区
間を持つエントリRiあるいは、Biに先行しもっと近
い時間区間を持つエントリRiを検索する。
【0153】d3 Biの対話通信機能情報Dの内容が
「成功」の場合は、エントリRiの確認フラグ情報Dの
欄に、記号「T」を記録し、時間情報Eの内容を参照し
て、エントリRiより時間的に先行して利用者に提示さ
れた出力メッセージに対応する、出力構造情報記憶部6
aの全てのエントリの確認フラグ情報Dの内容を「T」
に変更し、要求提示レジスタに記号「F」を記録する。
【0154】d4 Biの対話通信機能情報Dの内容が
「保留」の場合は、エントリRiの確認フラグ情報Dの
欄に、記号「H」を記録する。
【0155】d5 Biの対話通信機能情報Dの内容が
「失敗」の場合は、エントリRiの確認フラグ情報Dの
欄に記号「F」を記録し、要求提示レジスタに記号
「F」を記録して[内容確認対話手順E]に沿った処理
を行なう。
【0156】d6 相槌要求表現生成部6から、相槌期
待情報Ejが得られた場合は、d7〜d10の処理を行
なう。
【0157】d7 出力構造情報記憶部6aの内容を参
照し、確認フラグ情報Dの内容が「U」および「H」で
あるエントリの組Wを検索する。
【0158】d8 エントリの組Wに含まれる各エント
リRkのメッセージ構造情報Cの内容を参照し、そこに
含まれる相槌期待位置の総数Sを計算する。
【0159】d9 Sがあらかじめ設定した閾値Th以
上であり、かつ要求提示レジスタの内容が「F」である
場合は、出力構造情報6aを参照し、時間情報Eの内容
が「−」であるエントリのメッセージID情報Mxを検
索し、メッセージMxについて相槌要求表現を生成する
よう相槌要求表現生成部6に指示を出し、要求提示レジ
スタに記号「T」を記録する。
【0160】d10 Sがあらかじめ設定した閾値Th以
上で、かつ要求提示レジスタの内容が「T」である場合
は、要求提示レジスタに記号「F」を記録し、「チャン
ネルチェック対話手順F」に従った処理を行なう。
【0161】d11 d1へ戻る。
【0162】[内容確認対話手順E] e1 出力構造情報記憶部6aを参照し、エントリRi
の内容を、出力部3を通じて再度利用者に提示する。
【0163】e2 この出力メッセージの提示からあら
かじめ定めたある時間Te以内に相槌認識部4から相槌
入力情報B1が得られた場合は、e3〜e4の処理を行
なう。
【0164】e3 B1の対話通信機能情報Dの内容が
「成功」である場合は、内容確認対話手順Eを終了し、
対話制御手順Dのステップd3へ戻る。
【0165】e4 B1の対話通信機能情報Dの内容が
「保留」である場合は、内容確認対話手順Eを終了し、
対話制御手順Dのステップd4へ戻る。
【0166】e5 B1の対話通信機能情報Dの内容が
「失敗」である場合は、ステップe6へ進む。
【0167】e6 出力構造情報記憶部6aを参照し、
確認フラグ情報Dの内容が「H」であるエントリRmが
存在する場合は、その内容を、出力部3を通じて、再度
利用者に提示する。
【0168】e7 この出力メッセージの提示からあら
かじめ定めたある時間Te以内に相槌認識部4から相槌
入力情報Bnが得られた場合は、e8〜e9の処理を行
なう。
【0169】e8 e3と同様の処理を行なう。
【0170】e9 e4と同様の処理を行なう。
【0171】e10 Bmの対話通信機能情報Dの内容が
「失敗」である場合は、ステップe11へ進む。
【0172】e11 出力構造情報記憶部6aを参照し、
確認フラグ情報Dの内容が「U」であるエントリRmが
存在する場合は、それらの内容を、出力部3を通じて、
再度利用者に提示する。
【0173】e12 この出力メッセージの提示からあら
かじめ定めたある時間Te以内に相槌認識部4から相槌
入力情報Boが得られた場合は、e13〜e15の処理
を行なう。
【0174】e13 e3と同様の処理を行なう。
【0175】e14 e4と同様の処理を行なう。
【0176】e15 Boの対話通信機能情報Dの内容が
「失敗」である場合は、ステップe16へ進む。
【0177】e16 内容確認手順対話手順Eを終了し
て、対話制御手順Dのステップd1へ戻る。
【0178】[チャンネルチェック処理手順F] f1 入力メッセージ情報記憶部4bを参照し、メディ
ア情報Bの欄の内容を参照して、利用者が入力に利用し
ているメディアの種類を得る。
【0179】f2 例えば、特願平02−205202
の「マルチモーダル対話装置」と同様の処理を行なうこ
とによって、利用者への質問を行なう場合に利用すべき
メディアMaを選択する。
【0180】f3 メディアMaを用いて、利用者に対
して、例えば音声メディアであれば、「もしもし」とい
った呼びかけを行なったり、あるいは画像メディアであ
れば、画面に例えば「聞いていますか」といった質問文
などを文字表示するなどして利用者に対するチャンネル
チェックのための出力メッセージを提示する。
【0181】f4 この出力メッセージの提示からあら
かじめ定めたある時間Te以内に相槌認識部4から相槌
入力情報Bpが得られた場合は、f5〜f7の処理を行
なう。
【0182】f5 Bpの対話通信機能情報Dの内容が
「成功」である場合は、チャンネルチェック処理手順F
を終了し、対話制御手順Dのステップd3へ戻る。
【0183】f6 B1の対話通信機能情報Dの内容が
「保留」である場合は、チャンネルチェック処理手順F
を終了し、対話制御手順Dのステップd4へ戻る。
【0184】f7 B1の対話通信機能情報Dの内容が
「失敗」である場合は、ステップf8へ進む。
【0185】f8 内容確認対話手順Eに従った処理を
行なう。
【0186】図13は、上述の対話制御手順D、および
内容確認対話Eおよびチャンネルチェック処理手順Fに
したがって、対話通信制御部5で行なわれる対話制御処
理の処理の流れを表すフローチャートである。図13に
おいて、「d1」あるいは「e5」などといった記号は
それぞれ、対応する処理手順の対応する処理ステップを
表しており、図中の3つの破線で囲まれた矩形領域は、
それぞれが、対話制御手順D、および内容確認対話対応
手順Eおよびチャンネルチェック手順Fの範囲を表して
いる。
【0187】図14は、上記したフローチャートに沿っ
た制御プログラムによって動作し、本発明の効果を実現
する計算機システムの構成を表している。図14に於い
て、本計算機システムは、各種の入力装置101と、各
種の出力装置102と、これら入出力装置101、10
2を動作させるための入出力装置ドライバ103と、中
央演算装置(CPU)104と、プログラム及びデータ
などを記憶するメモリ105と、記憶媒体107にプロ
グラムやデータなどを記憶したり、あるいは記憶媒体1
07からのプログラムやデータの読み込みを行なう記録
装置106とから構成されている。なお、ここでの記憶
媒体107としては、フロッピーディスクや、光磁気デ
ィスクや、磁気テープ、コンパクトディスク、紙テー
プ、フラッシュメモリパックなどが利用可能である 図
13にフローチャートを示したアルゴリズムをプロクラ
ムなどで記述し、これを中央演算装置で実行することに
よっても、本発明を実施することが可能である。
【0188】以上が本装置の構成とその機能である。
【0189】続いて、上述した対話処理装置および対話
処理方法について、図を参照して更に詳しく説明する。
【0190】ここでは、利用者が、マルチモーダル対話
システムに対して、ある装置(コンピュータA)の保守
を行なうために、そのカバーを開く方法について問い合
わせを行ない、それに対して対話装置が利用者へ解答を
示すという場面を想定し、説明を行なう。
【0191】まず、初期動作として、対話制御手段Dの
d0によって、対話通信制御部5の内部レジスタである
相槌要求提示レジスタに記号「F」が記録される。
【0192】そして、利用者が対話システムに対して、
対象であるコンピュータAを指さしながら、「この本体
カバーの外し方は↑」という音声を発生し、入力部1の
解析により、入力メッセージが図2に示す入力メッセー
ジ情報(I#1)から得られる。
【0193】続いて、この入力メッセージ情報は対話管
理問題解決部2へと渡され、問題解決処理が行なわれ、
利用者からの要求への解答となる出力メッセージを生成
するための、図3に示したような、出力メッセージ情報
(O#1)が得られる。
【0194】なお、ここで、入力メッセージ情報(I#
1)は、相槌表現認識部4へも送られ、上述の手順にし
たがって相槌表現の抽出処理が行なわれるが、ここで
は、相槌表現は含まれていないため、相槌表現は抽出さ
れない。
【0195】つづいて、出力メッセージ情報(O#1)
から出力部3における自然言語生成処理、および音声合
成処理などによって、例えば、「まずケーブル1を外
す。続いてアース線1を外す。続いてケーブル2を外
す。続いてねじ1を取り除く。続いてねじ2を取り除
く。最後にカバー1を開く。」などといった出力メッセ
ージが順次生成される。
【0196】この出力部3の処理と同時に、出力メッセ
ージ情報(O#1)が相槌要求表現生成部6に渡される
ことによって、例えば図9に例を示したように出力構造
情報記憶部6aに対応する情報が順次記録される。そし
て、相槌期待位置検出手順Cに沿った相槌期待位置検出
処理部6dの働きによって、相槌化期待位置が順次検索
され、相槌期待位置が発見されるたびに、例えば図12
に示したような相槌期待情報が生成され、対話進行管理
部5へと渡される。
【0197】対話進行管理部5では、相槌期待情報が与
えられるたびに、対話制御手順Dのd6〜d10に従っ
た処理が行なわれ、相槌要求表現の生成を相槌要求表現
生成部6へ指示すべきかどうかの判断がなされていく。
【0198】いま、出力構造情報記憶部6aの各エント
リにおいて、確認フラグ情報Dおよび時間情報Eの欄に
は記号「−」が記録されるようにしてあるため、相槌期
待位置検出処理手順Cに従った相槌期待位置検出処理部
6dの、相槌期待位置検出規則記憶部6dを参照した処
理によって、利用者からの相槌が期待される位置が検出
され、例えば、ある時点taにおいて、図15に示すよ
うな結果が得られたとする。
【0199】この時点taにおいては、図15の各エン
トリの確認フラグ情報Dの内容と時間情報Eの内容とか
ら、今までに、エントリR1〜R5に対応する情報が利
用者に提示されているが、そのどのメッセージに対して
も利用者からの相槌がなされていないことが分かり、そ
の中の相槌可能位置としてB#1〜B#5の5か所が検
出されている。
【0200】この時点taでの対話通信制御部5の対話
制御手順Dのステップd7の処理によって、図15のエ
ントリR1〜R5が検索され、ステップd8の処理によ
って、相槌期待位置の総数S=5が算出される。(ここ
で、d9での閾値Thが5であったと仮定する。)続い
てステップd9の処理によって、S≧Thの条件が満た
されており、かつ要求提示レジスタの内容が「F」であ
ることから、相槌要求表現の生成が決定される。その結
果、確認フラグ情報Dの内容が「−」であるエントリR
6が検出される。さらに、エントリR6のメッセージI
D情報の内容からMx=O#1が決定され、相槌要求表
現生成部6に対して、メッセージ(O#1)に関して相
槌要求表現を生成するように制御がなされる。
【0201】この対話通信管理部5の制御によって、相
槌要求表現生成手順Bに沿った相槌期待位置検出処理部
6dの処理によって、例えば、図15のエントリR6の
メッセージ構造情報Cの内容 「VP(Verb:外す、属性:[終止] ))△(B#
6)」 が、例えば図10の相槌要求表現生成規則記憶部6cの
エントリS1の規則によって、 「VP(Verb:外す、属性:[連用中止]、 韻律:[↑↓(P)] ))△(B#6)」 へと書換えられたとする。この情報に基づき、出力部3
は、図15の出力構造情報記憶部6aのエントリR6の
内容を利用者に提示する際に、 〜次にケーブル2を外しぃ↑↓(P) と、韻律上の特徴(ライズアンドフォールとポーズ)を
付与し語尾を変更した相槌要求表現を示すことが出来
る。
【0202】この相槌要求表現に対して、利用者が例え
ば「えぇ」といった間投詞を発したり、あるいはうなづ
き動作を行なうなどして、対話における通信の成功を意
味する相槌を行なえば、対話通信制御部5は対話制御手
順Dのステップd3に従い、出力構造記憶部6aの該当
エントリの確認フラグ情報Dを「T」に書き換えること
で、それまでに対話システムが提示した情報の内で利用
者から明示的な確認がなされていないものについても確
認がなされたこととできる。
【0203】以上に、説明した処理例による対話の様子
をまとめて表示すると以下の様になる。
【0204】 利用者 「この本体カバーの外し方は↑」 システム「まず、ケーブル1を外す続いてアース線を外
す……続いてケーブル2を外しぃ↑↓(P)」 利用者 「えぇ」 システム「次に、〜」 これは、対話システムからの出力に対してしばらく利用
者からの相槌がないので、対話システムは以上に説明し
た処理によって、利用者からの相槌を要求する表現を生
成して提示し、この例では、利用者が「えぇ」と相槌を
打ったことにより、対話システムからの能動的な働きか
けによって、情報が利用者へ正しく伝達されていること
が確認されている。
【0205】あるいは、この相槌要求表現に対して、例
えば「えっ」という間投詞を発したりするなど対話にお
ける通信の失敗を表す相槌を発した場合や、利用者が相
槌を行なわなかった場合は、内容確認対話手順Eに沿っ
た対話が行なわれ、まず、ステップe1で、現在提示中
の情報を再度提示し、その反応に応じて利用者からの対
話における通信の成功を意味する相槌が得られた場合に
は、内容確認対話を終え通常の対話制御へ戻る。
【0206】この例に関する対話の様子をまとめて表示
すると以下の様になる。
【0207】 利用者 「この本体カバーの外し方は↑」 システム「まず、ケーブル1を外す続いてアース線を外
す… 利用者 「えっ↑」 システム「ケーブル2を外すのです」 利用者 「あそう↓」 システム「次に、〜」 あるいは、この内容確認対話による再度の情報提示に対
して利用者から、対話における通信の成功を意味する相
槌(反応)が得られなかった場合にも、出力構造情報記
憶部6aの確認フラグ情報Dを参照した対話通信制御部
5の内容確認対話手順Eにしたがった処理によって、ま
ず、利用者から対話における通信の成否の保留を意味す
る反応のあった情報について再提示を行ない、それで解
決出来なかった場合に、確認のとれていない情報を再提
示するなど、段階的な情報の再提示が可能となる。
【0208】この例に関する対話の様子をまとめて表示
すると以下の様になる。
【0209】 利用者 「この本体カバーの外し方は↑」 システム「まず、ケーブル1を外す続いてアース線を外
す… 利用者 「はぁ↓」 (保留を意
味する相槌)…続いてケーブル2を外しぃ↑↓(P)」 利用者 「えっ↑」 システム「ケーブル2を外すのです」 利用者 「なに↑」 システム「アース線を外すのです。」 利用者 「あそう↓」 システム「次に、〜」 以上、上記した実施形態によれば、音声対話システムあ
るいはマルチモーダル対話システムにおいて、利用者に
対して、複雑な内容を確実に伝達することが可能にな
る。
【0210】また、相槌を利用して、対話を適切に制御
することが可能になる。
【0211】また、複雑な内容を対話によって授受しよ
うとする場合に、利用者に対して逐次確認のための質問
を行なうことによる利用者の負担を回避し、かつ、同時
に、利用者と対話システムの間のコミュニケーションの
確実性を得ることが可能になる。
【0212】また、音声メディア以外を利用して提示さ
れる相槌など非言語メッセージを扱うことが可能とな
る。
【0213】また、対話システムは現在提示中の情報を
利用者が確かに受けとっているかどうかを確認すること
が可能になる。
【0214】また、対話システムは現在提示中の情報を
利用者が理解していることを確認することが可能にな
る。
【0215】また、利用者に提示した情報内容が、利用
者に伝達されているかどうかについて確認の質問を行な
う際に、現在利用者が理解していると推測できる部分を
判断し、確認質問を行なう情報内容を適切に限定して利
用者に質問し、利用者に不要な質問に解答することによ
る利用者の負担の増加を回避することが可能になる。
【0216】また、相槌を要求する表現を用いて、対話
において利用者への能動的な働きかけを行なうことが可
能になる。
【0217】また、相槌を要求する表現に対する聞き手
の反応に応じた対話の制御が可能になる。
【0218】さらに、相槌を要求する表現を利用者に提
示しようとする場合に、適切なメディアを選択すること
が可能になる。
【0219】以上示したように、本実施形態は、対話に
おいて重要な役割を果たす相槌を利用して、または、利
用者に相槌を要求する表現を利用することによって利用
者に能動的に働きかけ、利用者と対話システムの間での
円滑で確実な対話を実現し、利用者の負担を軽減するこ
とが可能になる。
【0220】なお、本発明に係る対話処理装置および対
話処理方法の構成および効果も上述した例に限定される
ものではない。
【0221】例えば、上述の実施形態の相槌要求表現生
成部6を省いた構成による実現も可能である。その場
合、出力部3は、対話制御問題解決部2から供給される
出力メッセージ情報から直接出力メッセージを生成する
ことになる。また、上述の実施形態では、マルチモーダ
ル対話システムにおける実現例を示したが、音声のみを
利用する音声対話システムにおいても実現が可能であ
る。
【0222】
【発明の効果】以上説明したように、本発明によれば、
音声対話システムあるいはマルチモーダル対話システム
において、利用者に対して、複雑な内容を確実に伝達す
ることが可能になる。
【0223】また、相槌を利用して、対話を適切に制御
することが可能になる。
【0224】また、複雑な内容を対話によって授受しよ
うとする場合に、利用者に対して逐次確認のための質問
を行なうことによる利用者の負担の回避し、かつ、同時
に、利用者と対話システムの間のコミュニケーションの
確実性を得ることが可能になる。
【0225】また、音声メディア以外を利用して提示さ
れる相槌など非言語メッセージを扱うことが可能にな
る。
【0226】また、利用者が対話システムが現在提示中
の情報を確かに受けとっているかどうかを確認すること
が可能になる。
【0227】また、利用者が対話システムが現在提示中
の情報を理解していることを確認することが可能にな
る。
【0228】また、利用者に提示した情報内容が、利用
者に伝達されているかどうかについて確認の質問を行な
う際に、現在利用者が理解していると推測出来る部分を
判断し、確認質問を行なう情報内容を適切に限定して利
用者に質問し、利用者に不要な質問に解答することによ
る利用者の負担の増加を回避することが可能になる。ま
た、相槌を要求する表現を用いて、対話において利用者
への能動的な働きかけを行なうことが可能になる。
【0229】また、相槌を要求する表現に対する聞き手
の反応に応じた対話の制御が可能になる。
【0230】さらに、相槌を要求する表現を利用者に提
示しようとする場合に、適切なメディアを選択すること
が可能になる。
【0231】以上示したように、本発明は、対話におい
て重要な役割を果たす相槌を利用して、または、利用者
に相槌を要求する表現を利用することによって利用者に
能動的に働きかけ、利用者と対話システムの間での円滑
で確実な対話を実現し、利用者の負担を軽減することが
可能になる等の、実用上多大な効果が奏せられる。
【図面の簡単な説明】
【図1】対話処理装置の構成例を示す図である。
【図2】入力メッセージ情報の内容の一例を示す図であ
る。
【図3】出力メッセージ情報の内容の一例を示す図であ
る。
【図4】相槌表現認識部の内部構成の一例を示す図であ
る。
【図5】入力メッセージ情報記憶部の内容の一例を示す
図である。
【図6】相槌表現抽出規則記憶部の内容の一例を示す図
である。
【図7】相槌入力情報の内容の一例を示す図である。
【図8】相槌要求表現生成部の内部構成の一例を示す図
である。
【図9】出力構造情報記憶部の内容の一例を示す図であ
る。
【図10】相槌要求表現生成規則記憶部の内容の一例を
示す図である。
【図11】相槌期待位置検出規則記憶部の内容の一例を
示す図である。
【図12】相槌期待情報の一例を示す図である。
【図13】対話通信処理部の処理のながれを示すフロー
チャートである。
【図14】計算機システムの構成の一例を示す図であ
る。
【図15】時点taにおける出力構造情報記憶部の内容
の一例を示す図である。
【符号の説明】
1…入力部、2…対話管理問題解決部、3…出力部、4
…相槌表現認識部、5…対話通信制御部、6…相槌要求
表現生成部。

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 利用者によって、キーボードなどを通じ
    て入力される自然言語入力と、マイクなどを通じて入力
    される音声情報入力と、カメラなどを通じて入力される
    視覚情報入力と、マウスなどを通じて入力される操作入
    力のうち、少なくとも一つの入力を取り込んで所定の解
    析を行ない、該入力の一部あるいは全部を表現する記述
    と、前記入力の意味内容と、利用者の意図のうち、少な
    くとも一つを含む入力メッセージ情報を生成する入力手
    段と、 この入力手段からの入力メッセージ情報に応じた問題解
    決を行ない、利用者からの要求に対する応答のための情
    報の提示や利用者との協調による問題解決に必要な質問
    など、利用者へ伝達すべきメッセージの内容と、利用者
    への提示の仕方や意図のうち、少なくとも一つを表す問
    題解決情報を出力する問題解決手段と、 この問題解決手段からの問題解決情報に基づいて、自然
    言語による発話文の生成と、合成音声の生成と、コンピ
    ュータグラフィックスなどによる顔表情や身体動作の生
    成のうち少なくとも一つを行い、これを出力メッセージ
    として利用者へ出力する出力生成手段と、 前記入力手段からの入力メッセージ情報に対して、所定
    の言語解析と、音声信号の解析と、視覚情報の解析と、
    操作入力の解析のうち、少なくとも一つを行なうことに
    よって、相槌を表す表現を認識し、利用者から提示され
    る相槌表現の種類と、対話機能と、入力された時刻など
    の時間情報のうち、少なくとも一つを含む相槌表現認識
    情報を出力する相槌表現認識手段と、 を具備したことを特徴とする対話処理装置。
  2. 【請求項2】 前記相槌表現認識情報に基づいて、前記
    入力手段と、問題解決手段と、出力生成手段のうち、少
    なくとも一つを制御する対話通信制御手段を、 さらに具備したことを特徴とする請求項1記載の対話処
    理装置。
  3. 【請求項3】 前記対話通信制御手段は、利用者から提
    示される相槌表現の種類と、対話機能と、入力された時
    刻などの時間情報とを含む相槌表現認識情報に基づい
    て、前記問題解決情報の提示方法に関する制御信号とし
    ての出力制御情報を出力し、 前記出力生成手段はこの出力制御情報に応じて、利用者
    へ出力する出力メッセージの統語構造、表層表現、提示
    タイミング、提示速度、フレージングの少なくとも一つ
    を調整することを特徴とする請求項2記載の対話処理装
    置。
  4. 【請求項4】 前記出力生成手段は、前記問題解決情報
    に基づいて利用者からの相槌が期待される相槌期待位置
    を検出し、これを相槌期待情報として利用者へ出力する
    時刻に関する情報とともに出力し、 前記対話通信制御手段は、前記相槌表現認識情報と前記
    相槌期待情報とを比較し、利用者からの相槌の不提示
    が、あらかじめ設定した条件以上に発生した場合には、
    利用者との通信路が適切に保たれているかどうかに関す
    る質問を前記出力生成手段を通じて行ない、かつ、前記
    質問に対する利用者からの応答を前記入力手段を通じて
    受け取り、この応答に応じて利用者との対話の制御を行
    なうことを特徴とする請求項2記載の対話処理装置。
  5. 【請求項5】 前記出力生成手段は、前記問題解決情報
    に基づいて利用者からの相槌が期待される相槌期待位置
    を検出し、これを相槌期待情報として利用者へ出力する
    時刻に関する情報とともに出力し、 前記対話通信制御手段は、前記相槌表現認識情報と前記
    相槌期待情報とを比較し、利用者からの相槌の不提示
    が、あらかじめ設定した条件を満たした場合には、利用
    者へ出力した情報が正しく伝達されているかどうかに関
    する確認の質問を前記出力生成手段を通じて行ない、か
    つ、前記確認の質問に対する利用者からの応答を前記入
    力手段を通じて受け取り、この応答に応じて利用者との
    対話の制御を行なうことを特徴とする請求項2記載の対
    話処理装置。
  6. 【請求項6】 前記入力メッセージ情報と、前記問題解
    決情報と、前記相槌期待情報と、前記相槌表現認識情報
    とを適宜保存する対話情報記録手段をさらに具備し、 前記対話通信制御手段は、利用者への質問を行なう際
    に、前記対話情報記録手段の内容を参照し、了承のない
    項目が存在する場合は、それを優先して利用者に確認す
    るとともに、利用者から了承の意図を表す相槌が得られ
    ている場合には、その部分を確認質問から省いて利用者
    に対して確認の質問を行なうよう制御することを特徴と
    する請求項5記載の対話処理装置。
  7. 【請求項7】 前記問題解決手段からの問題解決情報を
    受け取り、自然言語表現の文あるいはフレーズ末の表現
    の変更、構文構造の変更、音声合成における韻律制御に
    よる文あるいはフレーズ末のイントネーションの変更、
    コンピュータグラフィックスによる顔表情の生成などに
    基づいて、あらかじめ定めた所定の規則を用いて、利用
    者からの相槌を要求する表現である相槌要求表現を生成
    する相槌要求表現生成手段をさらに具備し、この相槌要
    求表現生成手段は、前記対話通信制御手段の制御の基
    に、前記相槌要求表現を、これを提示する時刻に関する
    情報とともに相槌要求提示情報として出力することを特
    徴とする請求項2記載の対話処理装置。
  8. 【請求項8】 前記対話通信制御手段は、前記相槌表現
    認識情報と、前記相槌要求提示情報とを比較し、利用者
    からの相槌の不提示があらかじめ設定した条件を満たし
    た場合には、利用者へ出力した情報が正しく伝達されて
    いるかどうかに関する確認の質問を前記出力生成手段を
    通じて行ない、かつ、前記確認の質問に対する利用者か
    らの応答を前記入力手段を通じて受け取り、この応答に
    応じて利用者との対話の制御を行なうことを特徴とする
    請求項7記載の対話処理装置。
  9. 【請求項9】 前記対話通信制御手段は、前記相槌表現
    認識情報と、前記相槌要求提示情報とを比較し、利用者
    からの相槌の不提示があらかじめ設定した条件を満たし
    た場合には、利用者の確認を得た上で、対話を中断ある
    いは停止あるいは初期状態に戻すように制御することを
    特徴とする請求項3又は7記載の対話処理装置。
  10. 【請求項10】 前記対話通信制御手段は、前記相槌表
    現認識情報に含まれる相槌表現の種類に応じて、あらか
    じめ設定した所定の規則を用いて、利用者に提示する前
    記相槌要求表現の種類を決定することを特徴とする請求
    項7記載の対話処理装置。
  11. 【請求項11】 前記出力生成手段は、前記問題解決情
    報に基づいて利用者からの相槌が期待される相槌期待位
    置を検出し、これを相槌期待情報として利用者へ出力す
    る時刻に関する情報とともに出力し、 前記対話通信制御手段は、前記相槌表現認識情報と前記
    相槌期待情報とを比較し、利用者からの相槌の不提示
    が、あらかじめ設定した条件以上に発生した場合には、
    利用者との通信路が適切に保たれているかどうかに関す
    る質問を前記出力生成手段を通じて行ない、かつ、前記
    質問に対する利用者からの応答を前記入力手段を通じて
    受け取り、この応答に応じて利用者との対話の制御を行
    なうことを特徴とする請求項7記載の対話処理装置。
  12. 【請求項12】 前記入力メッセージ情報と、前記問題
    解決情報と、前記相槌期待情報と、前記相槌表現認識情
    報とを適宜保存する対話情報記録手段をさらに具備し、 前記対話通信制御手段は、利用者への質問を行なう際
    に、前記対話情報記録手段の内容を参照し、了承のない
    項目が存在する場合は、それを優先して利用者に確認す
    るとともに、利用者から了承の意図を表す相槌が得られ
    ている場合には、その部分を確認質問から省いて利用者
    に対して確認の質問を行なうよう制御することを特徴と
    する請求項7記載の対話処理装置。
  13. 【請求項13】 利用者によって、キーボードなどを通
    じて入力される自然言語入力と、マイクなどを通じて入
    力される音声情報入力と、カメラなどを通じて入力され
    る視覚情報入力と、マウスなどを通じて入力される操作
    入力のうち、少なくとも一つの入力を取り込んで所定の
    解析を行ない、該入力の一部あるいは全部を表現する記
    述と、前記入力の意味内容と、利用者の意図のうち、少
    なくとも一つを含む入力メッセージ情報を生成する入力
    工程と、 この入力メッセージ情報に応じた問題解決を行ない、利
    用者からの要求に対する応答のための情報の提示や利用
    者との協調による問題解決に必要な質問など、利用者へ
    伝達すべきメッセージの内容と、利用者への提示の仕方
    や意図のうち、少なくとも一つを表す問題解決情報を出
    力する問題解決工程と、 この問題解決情報に基づいて、自然言語による発話文の
    生成と、合成音声の生成と、コンピュータグラフィック
    スなどによる顔表情や身体動作の生成のうち少なくとも
    一つを行ない、これを出力メッセージとして利用者へ出
    力する出力生成工程と、 前記入力メッセージ情報に対して、所定の言語解析と、
    音声信号の解析と、視覚情報の解析と、操作入力の解析
    のうち、少なくとも一つを行なうことによって、相槌を
    表す表現を認識し、利用者から提示される相槌表現の種
    類と、対話機能と、入力された時刻などの時間情報のう
    ち、少なくとも一つを含む相槌表現認識情報を出力する
    相槌表現認識工程と、 を具備したことを特徴とする対話処理方法。
  14. 【請求項14】 前記相槌表現認識情報に基づいて、前
    記入力解析工程と、前記問題解決工程と、前記出力生成
    工程のうち、少なくとも一つを制御する対話通信制御工
    程をさらに具備したことを特徴とする請求項13記載の
    対話処理方法。
  15. 【請求項15】 前記問題解決情報を受け取り、自然言
    語表現の文あるいはフレーズ末の表現の変更、構文構造
    の変更、音声合成における韻律制御による文あるいはフ
    レーズ末のイントネーションの変更、コンピュータグラ
    フィックスによる顔表情の生成などに基づいて、あらか
    じめ定めた所定の規則を用いて、利用者からの相槌を要
    求する表現である相槌要求表現を生成する相槌要求表現
    生成工程をさらに具備し、この相槌要求表現生成工程
    は、前記対話通信制御工程の制御の基に、前記相槌要求
    表現を、これを提示する時刻に関する情報とともに相槌
    要求提示情報として出力することを特徴とする請求項1
    4記載の対話処理方法。
JP8026723A 1996-02-14 1996-02-14 対話処理装置および対話処理方法 Pending JPH09218770A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8026723A JPH09218770A (ja) 1996-02-14 1996-02-14 対話処理装置および対話処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8026723A JPH09218770A (ja) 1996-02-14 1996-02-14 対話処理装置および対話処理方法

Publications (1)

Publication Number Publication Date
JPH09218770A true JPH09218770A (ja) 1997-08-19

Family

ID=12201258

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8026723A Pending JPH09218770A (ja) 1996-02-14 1996-02-14 対話処理装置および対話処理方法

Country Status (1)

Country Link
JP (1) JPH09218770A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11249772A (ja) * 1998-02-26 1999-09-17 Dainippon Printing Co Ltd 仮想環境提示装置
JPH11249773A (ja) * 1998-02-27 1999-09-17 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JPH11288342A (ja) * 1998-02-09 1999-10-19 Toshiba Corp マルチモーダル入出力装置のインタフェース装置及びその方法
US6677969B1 (en) 1998-09-25 2004-01-13 Sanyo Electric Co., Ltd. Instruction recognition system having gesture recognition function
JP2005321730A (ja) * 2004-05-11 2005-11-17 Fujitsu Ltd 対話システム、対話システム実行方法、及びコンピュータプログラム
JP2007080242A (ja) * 2005-08-15 2007-03-29 Kobe Steel Ltd 情報処理装置及びそのプログラム
KR20110059248A (ko) * 2009-11-27 2011-06-02 삼성전자주식회사 시스템과 다수 사용자 간의 대화 인터페이스 장치
WO2018180571A1 (ja) * 2017-03-30 2018-10-04 ソニー株式会社 情報処理装置、情報処理方法、プログラム
EP3503091A4 (en) * 2016-08-17 2019-08-07 Sony Corporation DIALOGUE CONTROL DEVICE AND METHOD
JP2020047240A (ja) * 2018-09-20 2020-03-26 未來市股▲ふん▼有限公司 インタラクティブ応答方法及びそれを利用するコンピュータ・システム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6240577A (ja) * 1985-08-16 1987-02-21 Toshiba Corp 音声対話装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6240577A (ja) * 1985-08-16 1987-02-21 Toshiba Corp 音声対話装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11288342A (ja) * 1998-02-09 1999-10-19 Toshiba Corp マルチモーダル入出力装置のインタフェース装置及びその方法
JPH11249772A (ja) * 1998-02-26 1999-09-17 Dainippon Printing Co Ltd 仮想環境提示装置
JPH11249773A (ja) * 1998-02-27 1999-09-17 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
US6677969B1 (en) 1998-09-25 2004-01-13 Sanyo Electric Co., Ltd. Instruction recognition system having gesture recognition function
JP2005321730A (ja) * 2004-05-11 2005-11-17 Fujitsu Ltd 対話システム、対話システム実行方法、及びコンピュータプログラム
JP2007080242A (ja) * 2005-08-15 2007-03-29 Kobe Steel Ltd 情報処理装置及びそのプログラム
KR20110059248A (ko) * 2009-11-27 2011-06-02 삼성전자주식회사 시스템과 다수 사용자 간의 대화 인터페이스 장치
US9799332B2 (en) 2009-11-27 2017-10-24 Samsung Electronics Co., Ltd. Apparatus and method for providing a reliable voice interface between a system and multiple users
EP3503091A4 (en) * 2016-08-17 2019-08-07 Sony Corporation DIALOGUE CONTROL DEVICE AND METHOD
WO2018180571A1 (ja) * 2017-03-30 2018-10-04 ソニー株式会社 情報処理装置、情報処理方法、プログラム
US11289079B2 (en) 2017-03-30 2022-03-29 Sony Corporation Information processing apparatus and information processing method
JP2020047240A (ja) * 2018-09-20 2020-03-26 未來市股▲ふん▼有限公司 インタラクティブ応答方法及びそれを利用するコンピュータ・システム

Similar Documents

Publication Publication Date Title
US6535849B1 (en) Method and system for generating semi-literal transcripts for speech recognition systems
EP3387646B1 (en) Text-to-speech processing system and method
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
US6952665B1 (en) Translating apparatus and method, and recording medium used therewith
JP3224000B2 (ja) テキスト−音声変換システム
US9070363B2 (en) Speech translation with back-channeling cues
US6314397B1 (en) Method and apparatus for propagating corrections in speech recognition software
KR101229034B1 (ko) 디바이스 인터페이싱을 위한 다중모드 조음 통합
US6801897B2 (en) Method of providing concise forms of natural commands
US20020178344A1 (en) Apparatus for managing a multi-modal user interface
EP2645364B1 (en) Spoken dialog system using prominence
JP2001188777A (ja) 音声をテキストに関連付ける方法、音声をテキストに関連付けるコンピュータ、コンピュータで文書を生成し読み上げる方法、文書を生成し読み上げるコンピュータ、コンピュータでテキスト文書の音声再生を行う方法、テキスト文書の音声再生を行うコンピュータ、及び、文書内のテキストを編集し評価する方法
JPWO2009078256A1 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
JP4729902B2 (ja) 音声対話システム
US6591236B2 (en) Method and system for determining available and alternative speech commands
Oviatt et al. Modeling global and focal hyperarticulation during human–computer error resolution
US6456973B1 (en) Task automation user interface with text-to-speech output
Delgado et al. Spoken, multilingual and multimodal dialogue systems: development and assessment
WO2018034169A1 (ja) 対話制御装置および方法
US20150254238A1 (en) System and Methods for Maintaining Speech-To-Speech Translation in the Field
JPH09218770A (ja) 対話処理装置および対話処理方法
Raux Flexible turn-taking for spoken dialog systems
JP2001188779A (ja) 情報処理装置および方法、並びに記録媒体
CN115699166A (zh) 检测热词或短语的近似匹配
Noyes Talking and writing—how natural in human–machine interaction?

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050719

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060829