JP3662780B2

JP3662780B2 - 自然言語を用いた対話システム

Info

Publication number: JP3662780B2
Application number: JP20253899A
Authority: JP
Inventors: 誠也長田; 伸一土井
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1999-07-16
Filing date: 1999-07-16
Publication date: 2005-06-22
Anticipated expiration: 2019-07-16
Also published as: JP2001034289A

Description

【０００１】
【発明の属する技術分野】
本発明は、自然言語を用いた対話システムに関し、特に、ユーザの曖昧な発話を解釈しユーザへの応答を行なうシステム及び装置に関する。
【０００２】
【従来の技術】
タスクに対するユーザの発話は一般的には曖昧なものであり、曖昧な発話を解釈する従来のシステムとして以下のようなものがあげられる。
【０００３】
第１のシステムは、曖昧な発話に対してシステムが確認の応答を行い、それに対してユーザに肯定か否定かを答えさせることでユーザの発話を解釈するものである。例えば特開平9-171394号公報には、システムがユーザの曖昧な発話から生成できるタスクを列挙し、列挙したタスクの中から１つずつユーザの意図に合うかどうか質問し、ユーザが肯定を意味する語を入力すると、システムはそのタスクが正しい解釈であると決定する。
【０００４】
第２のシステムは、ユーザの曖昧な発話をシステムはさまざまな手がかりを用いて一意に解釈して、確認なしにタスクを実行するものである。
【０００５】
【発明が解決しようとする課題】
しかしながら、上記した従来のシステムは下記記載の問題点を有している。
【０００６】
上記第１のシステムの問題点は、ユーザが曖昧な発話するたびにシステムが確認の応答文を出力することから、ユーザはそのたびに応答文に答えなくてはならず、煩雑であり、負担がかかる、ということである。
【０００７】
一方、上記第２のシステムの問題点は、ユーザの曖昧性のある発話を一意に解釈して必ず実行してしまうと、システムの解釈が間違っていた時にユーザはシステムが行ってしまったタスクに対して修正を行わなくてはならず、結果としてユーザに負担がかかる、ということである。
【０００８】
したがって、本発明は、上記問題点に鑑みてなされたものであって、その目的は、ユーザが発話した後、ユーザにできるだけ負荷のかけることなく、タスクの実行と応答文の出力を行なうシステム及び装置を提供することにある。これ以外の本発明の目的、特徴、利点等は以下の説明から、当業者には直ちに明らかとされるであろう。
【０００９】
【課題を解決するための手段】
前記目的を達成する本発明は、入力手段から入力された自然言語を受け取り、語彙辞書を参照して１又は複数のタスクコマンドに変換する自然言語解析手段と、曖昧性解消情報を参照して、複数のタスクコマンドを１つに絞り込むとともに、絞り込みの仕方から、確信度を求める曖昧性解消手段と、絞り込んだタスクコマンドと求められた確信度と語彙辞書を参照して確信度に応じた応答文を生成し、出力手段に出力する応答文生成手段とを備える。より詳細には、本発明は、入力された自然言語を解釈するために必要な語彙と、該自然言語の解釈結果から応答文を生成するために必要な語彙を予め記憶する辞書記憶部と、前記辞書記憶部を参照して、入力された自然言語の解釈を行う自然言語解析手段と、前記自然言語解析手段で求められた解釈結果が複数存在した時に、１つの解釈結果に絞り込むための手がかりとして用いられる情報を記憶する曖昧性解消情報記憶部と、前記自然言語解析手段で求められた解釈結果が複数存在した時に、前記曖昧性解消情報記憶部を参照して、前記複数の解釈結果を１つに絞り込むとともに、前記１つに絞り込んだ解釈結果に対する確信度を求める曖昧性解消手段と、前記曖昧性解消手段で絞り込んだ解釈結果を応答文として出力し、その際、前記曖昧性解消手段で求められた前記確信度に応じて応答文を変化させる応答文生成手段と、を備える。
【００１０】
本発明は、前記曖昧性解消手段で求められた解釈を受けて、該解釈をタスクコマンドに変換し、前記タスクコマンドからタスクを実行するタスク実行手段をさらに備える。
【００１１】
本発明においては、前記応答文生成手段が、前記曖昧性解消手段で求められた確信度に応じて、前記タスク実行手段でタスクを実行した後にタスクの実行を報告する応答文を生成するか、もしくは、前記タスク実行手段でタスクを実行する前にタスクを実行してとよいか否かを確認するための応答文を生成するか、を決定する。
【００１２】
本発明においては、実行を行ったタスクコマンドに対する逆操作のタスクコマンドを記憶するキャンセルコマンド記憶部と、キャンセルの意味を表す入力があったときに、前記タスク実行手段でキャンセルコマンドを実行するとともに、
前記応答文生成手段において、キャンセルコマンドを実行したことを報告する応答文を生成する。
【００１３】
本発明においては、システムがタスクコマンドを実行してようかどうかの確認をとる応答文を出力した後、時間の経過を測定する時間管理手段を備え、前記時間管理手段で計時を開始後、あらかじめ定められた所定の時間が経過しても、ユーザからの応答がない時には、肯定を表す入力が前記入力装置に入力されたものと解釈する。
【００１４】
【発明の実施の形態】
本発明の好ましい実施の形態について以下に説明する。本発明の自然言語を用いた対話システムは、入力された自然言語を解釈する自然言語解析手段（図１の２１）と、解釈結果が複数存在する時に解釈を１つに絞り込むとともに、その絞り込み方を用いて、確信度を求める曖昧性解消手段（図１の２２）と、１つに絞り込まれたタスクコマンドから確信度に応じた応答文を生成する応答文生成手段（図１の２３）と、を有する。
【００１５】
本発明においては、ユーザの曖昧な発話を確信度というパラメータに変換し、確信度に応じた応答文を生成することにより、自然な対話を行うことができる。
【００１６】
本発明はその好ましい第１の実施の形態において、図１を参照すると、入力手段（１）から入力された自然言語に対して辞書記憶部（３１）を参照して解釈を行う自然言語解析手段（２１）と、自然言語解析手段（２１）で求められた解釈結果が複数存在した時に、自然言語解析手段（２１）で求められた解釈結果が複数存在した時に、解釈結果に絞り込むための手がかりとして用いられる情報を記憶する曖昧性解消情報記憶部（３２）の情報を参照して、前記複数の解釈結果を１つに絞り込むとともに、前記１つに絞り込んだ解釈結果に対する確信度を求める曖昧性解消手段（２２）と、曖昧性解消手段（２２）で絞り込んだ解釈結果を応答文として出力手段（４）から出力し、その際、前記曖昧性解消手段で求められた前記確信度に応じて応答文を変化させる応答文生成手段（２３）と、を備える。
【００１７】
自然言語解析手段（２１）で求められた複数の解釈として複数の処理要求（タスクコマンド）がある場合、曖昧性解消手段（２２）は、曖昧性解消情報記憶部（３２）に記憶された情報（例えば処理対象の物理的な条件、入力された自然言語の文脈、ユーザの操作履歴等）に基づき、複数の処理要求のうち妥当な処理要求を一つ選択するとともに確信度を設定する。その際、自然言語解析手段（２１）で求められた解釈が一つの場合、曖昧性がないため、確信度最大とする。
【００１８】
本発明は、その好ましい第２の実施の形態において、図３を参照すると、曖昧性解消手段（２２）で求められた解釈を受けて、該解釈をタスクコマンドに変換し、前記タスクコマンドからタスクを実行するタスク実行手段（２４）をさらに備える。
【００１９】
応答文生成手段（２３）は、前記曖昧性解消手段（２２）で求められた確信度に応じて、前記タスク実行手段（２４）でタスクを実行した後にタスクの実行を報告する応答文を生成するか、もしくは、タスク実行手段（２４）でタスクを実行する前にタスクを実行してよいか否かを確認するための応答文を生成するかを決定する。
【００２０】
すなわち、自然言語解析手段（２１）では、入力された自然言語を解釈し、該入力された自然言語から解釈可能な処理要求（タスクコマンド）が複数ある場合、前記曖昧性解消手段（２２）で複数のタスクコマンドを一つに絞り込み、該一つの絞り込まれた確信度が小の場合、タスクコマンドを直ちに実行せずに、未実行タスクコマンド記憶部（３３）に一旦記憶しておき、タスクを実行する前にタスクを実行してよいか否かを確認するための応答文を出力する。該応答文に対してユーザが肯定を意味する入力を行なった場合、未実行タスクコマンド記憶部（３３）からタスクコマンドを取り出して、タスク実行手段でタスクコマンドを実行し、タスク実行完了の応答文を出力し、一方否定入力の場合、未実行タスク取り消しの応答文を作成して出力する。
【００２１】
応答文生成手段（２３）が、曖昧性解消手段（２２）で求められた確信度に応じて、応答文を生成するかしないかを決定するようにしてもよい。
【００２２】
応答文生成手段（２３）は、曖昧性解消手段（２２）で求められた確信度に応じて、曖昧性解消手段（２２）が解釈した結果を、報告、確認、質問のうちのいずれかを表す応答文に変更する。
【００２３】
本発明は、その好ましい第３の実施の形態において、図５を参照すると、タスク実行手段で実行を行ったタスクコマンドに対する逆操作のタスクコマンドを記憶するキャンセルコマンド記憶部（３４）を備え、ユーザからキャンセルの意味を表す入力があったときに、タスク実行手段でキャンセルコマンドを実行するとともに、応答文生成手段（２２）では、キャンセルコマンドを実行したことを報告する応答文を生成する。
【００２４】
本発明は、その好ましい第４の実施の形態において、図７を参照すると、絞り込まれたタスクコマンドの確信度が低いときに、応答文生成手段（２２）では、タスクコマンドを実行していいかどうかの確認をとる応答文を出力し、該応答文を出力した後、時間の経過を測定するタイマ等の時間管理手段（３５）を備え、計時を開始後、あらかじめ定められた所定の時間が経過しても、ユーザからの応答がない時には、肯定を表す入力が入力手段（１）に入力されたものと解釈する。
【００２５】
時間管理手段（３５）によって前記所定の時間が経過した後に、肯定を表す入力が入力手段（１）に入力されたか否かを、曖昧性解消手段（２２）で求めた確信度に応じて決定するようにしてもよい。
【００２６】
本発明の実施の形態において、自然言語解析手段、曖昧性解消手段、応答文生成手段、及びタスク実行手段はコンピュータ等データ処理装置上で実行されるプログラムにより各々の処理・機能が実現される。この場合、該プログラムを記録した記録媒体又は通信媒体より該プログラムをデータ処理装置に読み出して実行することにより本発明を実施することができる。
【００２７】
【実施例】
本発明の実施例について図面を参照して以下に説明する。
【００２８】
本発明の第１の実施例について説明する。図１は、本発明の第１の実施例の構成を示す図である。図１を参照すると、本発明の第１の実施例は、キーボードや音声認識装置等の入力装置１と、プログラム制御により動作するデータ処理装置２と、情報を記憶する記憶装置３と、ディスプレイ装置や音声合成装置等の出力装置４とを含む。
【００２９】
記憶装置３は、辞書記憶部３１と、曖昧性解消情報記憶部３２とを備えている。辞書記憶部３１には、タスクを実行するためにユーザが使う語彙、及び、ユーザへの応答文を生成するために使う語彙があらかじめ記憶されている。
【００３０】
曖昧性解消情報記憶部３２には、タスクがどのような構成になっているのか、タスク先の現在の状態、ユーザが発話した文脈等、ユーザの発話の曖昧性を解消するために必要な情報が記憶されている。
【００３１】
データ処理装置２は、自然言語解析手段２１と、曖昧性解消手段２２と、応答文生成手段２３と、を備えている。
【００３２】
自然言語解析手段２１は、入力装置１で得た入力文字列を辞書記憶部３１に記憶された語彙を用いて解釈する。
【００３３】
曖昧性解消手段２２は、自然言語解析手段２１で複数の解釈結果が得られた時に、曖昧性解消情報記憶部３２の情報を参照して、解釈を１つに絞る。
【００３４】
また、解釈の絞り方に応じてシステムが曖昧性を解消した結果の確信度も求める。
【００３５】
確信度は、どの手段を用いて曖昧性が解消されたか、また曖昧性解消情報記憶部に記憶されているどの情報を用いて曖昧性が解消されたかを用いて、求められる。
【００３６】
以下、タスクとして、家庭内の機器操作を例に挙げて、確信度の定義の一例について説明する。
【００３７】
（１）．自然言語解析手段２１で解釈が１つに絞られていた時は確信度最大とする。
【００３８】
（２）．タスクを実行の可否によって解釈を１つに絞った時、例えば「つけて」という入力に対して、
・「テレビをつける」というタスクと、
・「ビデオをつける」というタスクと、
・「明かりをつける」というタスクと、
の３つ解釈が自然言語解析手段２１で行われたときに、例えば、曖昧性解消情報記憶部３２の情報から、テレビと明かりの電源はすでについており（電源オンとされており）、ビデオの電源はついていない場合、「ビデオをつける」という解釈に、曖昧性解消手段２２で解釈を１つに絞った時には、確信度大とする。
【００３９】
（３）．文脈によって解釈を１つに絞った時、例えば「１チャンネルにして」という入力に対して、自然言語解析手段２１で、
・「テレビのチャンネルを１にする」というタスクと、
・「ビデオのチャンネルを１にする」というタスクと、
の二つの解釈ができたときに、前回の入力が「テレビをつけて」であったため、「テレビ」が話題になっているものと判断して、「テレビのチャンネルを１にする」と曖昧性解消手段２２で１に絞った時には「確信度中」とする。
【００４０】
（４）．ユーザの操作の頻度によって解釈を１つに絞った時、
例えば「つけて」という入力に対して、自然言語解析手段２１で、
・「テレビをつける」というタスク、
・「ビデオをつける」というタスク、
・「明かりをつける」というタスク
の三つに解釈できた時に、今までの過去の履歴を見ると、「明かりをつける」ことが多いので、「明かりをつける」という解釈に、曖昧性解消手段２２で１つに絞った時には、「確信度小」とする。
【００４１】
（５）．曖昧性を解消する手がかりが何もないため、自然言語解析手段２１で見つけた順番を用いて曖昧性解消手段２２で解釈を１つに絞った時には、「確信度最小」とする。
【００４２】
応答文生成手段２３は、曖昧性解消手段２２で１つに絞った解釈と、その確信度、さらに辞書記憶部３を使って、ユーザにできるだけ負担にならないような応答文を生成する。
【００４３】
例えば、確信度が高い時には、タスクを実行してしまい、実行した結果を伝える応答文を生成する。
【００４４】
一方、確信度が低い時には、タスクを実行せずに、実行していいかどうかの応答文を生成する。
【００４５】
図２は、本発明の一実施例の処理手順を示す流れ図である。図１及び図２を参照して、本発明の一実施例の動作について詳細に説明する。
【００４６】
入力装置１で得た入力文字列は、自然言語解析手段２１に供給される（図２のステップ１０１）。
【００４７】
自然言語解析手段２１は、辞書記憶部３１に記憶されている語彙を参照して、この入力文字列を解釈する（図２のステップ１０２）。
【００４８】
曖昧性解消手段２２は、曖昧性解消情報記憶部３２に記憶されている情報を参照して、解釈が複数存在している時に解釈を１つに絞り込む（図２のステップ１０３）。
【００４９】
また、どのように解釈を１つに絞ったかを用いてシステムが曖昧性を解消した結果の確信度を求める（図２のステップ１０４）。
【００５０】
応答文生成手段２３は、辞書記憶部３１に記憶されている語彙を参照して、確信度の大きさに応じて異なった応答文を生成し、出力装置４に出力する（図２のステップ１０５）。
【００５１】
本発明の第１の実施例について具体例に即して以下に説明する。
【００５２】
入力装置１として、マイクを備え、該マイクから入力された信号をディジタル信号に変換して音声認識を行ない認識結果をテキストコードとして出力する音声認識システムからなるものとする。データ処理装置２はパーソナル・コンピュータよりなり、磁気ディスク記憶装置等よりなる記憶装置３を備える。また出力装置４は、スピーカを備えた音声合成システムよりなり、応答文生成手段２３から出力されたテキスト情報を音声合成して音声出力する。
【００５３】
データ処理装置２（パーソナル・コンピュータ）は、自然言語解析手段２１、曖昧性解消手段２２、応答文生成手段２３を備え、これらの各手段は、ＣＰＵ（中央演算装置）で実行されるプログラムによりその処理・機能が実現される。すなわち、該プログラムを記録した記録媒体、もしくは通信媒体から該プログラムを読み出してデータ処理装置２で実行することにより、本発明を実施することができる。記憶装置３には、辞書３１及び曖昧性解消情報記憶部３２を備える。
【００５４】
以下は本発明を適用したシステムとして、テレビとビデオの電源等の制御を行なう構成を例に説明する。なお、記憶装置１の曖昧性解消情報記憶部３２には、テレビ及びビデオの各機器の電源のオン・オフ状態が記憶管理されるものとする。
【００５５】
ユーザが、テレビとビデオがある家の中で、テレビを操作するために、「電源つけて」と、入力装置１のマイクに向かって話したとする。
【００５６】
入力装置１をなす音声認識システムは、「電源つけて」と音声認識して、テキスト文字に変換する。
【００５７】
このテキスト文字と、辞書記憶部３１を参照して自然言語解析手段３１は、「テレビの電源をつける」と「ビデオの電源をつける」という複数の解釈結果を出力する。
【００５８】
曖昧性解消手段３２は、曖昧性解消情報として、テレビ及びビデオの各機器の現在状態を見ると、「テレビの電源はオフ」、「ビデオの電源はオン」であることから、「テレビの電源をつける」という解釈（タスク）に絞り込む。
【００５９】
また機器の現在状態から、曖昧性を解消することができたことから、確信度での最大〜最小の５段階評価のうち「確信度大」であるとする。
【００６０】
応答文生成手段２３では、確信度大と「テレビの電源をつける」という解釈結果と辞書記憶部３１を参照して、「テレビの電源をつけます」という応答文を生成し、出力装置４をなす音声合成システムでスピーカに出力する。
【００６１】
次に本発明の第２の実施例について図面を参照して詳細に説明する。
【００６２】
図３は、本発明の第２の実施例の構成を示す図である。図３において、図１と同等の要素には同一の参照符号が付されている。図３を参照すると、本発明の第２の実施例は、図１を参照して説明した前記第１の実施例に対して、タスク実行手段２４がデータ処理装置２に追加されており、未実行タスクコマンド記憶部３３が記憶装置３にさらに付加されて構成されている。
【００６３】
タスク実行手段２４は、曖昧性解消手段２２で生成された解釈を、応答文生成手段２３で実行すべきタスクであるか否かを判断し、実行すべきタスクであると判断された時に、タスクを実行する。
【００６４】
未実行タスクコマンド記憶部３３は、応答文生成手段２３で応答文を生成した中で、確信度が低く、応答文が質問型「〜しますか」などになったときに、そのタスクコマンドを記憶している。
【００６５】
図４は、本発明の第２の実施例の動作を説明するための流れ図である。図３及び図４を参照して、本発明の第２の実施例の動作について説明する。入力装置１で得た入力文字列は自然言語解析手段２１に供給され（図４のステップ２０１）、自然言語解析手段２１は、辞書記憶部３１に記憶されている語彙を参照して、この入力文字列を解釈し、解釈可能な複数のタスクコマンドに変換し（図４のステップ２０２）、曖昧性解消手段２２は、曖昧性解消情報記憶部３２に記憶されている情報を参照して、タスクコマンドが複数存在している時に１つに絞り込み（図４のステップ２０３）、また、どのようにタスクコマンドを１つに絞ったかを用いてシステムが曖昧性を解消した結果の確信度を求める（図４のステップ２０４）。
【００６６】
前記第１の実施例では、確信度の大きさにかかわらず、応答文生成手段２３で応答文を生成し、出力装置４で出力していた。
【００６７】
本発明の第２の実施例では、曖昧性解析手段２２で求められた確信度に応じて、システムがタスクコマンドを実行してよいかどうか判断する（図４のステップ２０５）。
【００６８】
ステップ２０５で、確信度が低く、タスクコマンドを実行してはいけないと判断したときには、未実行タスクコマンド記憶部３３に、タスクコマンドが記憶される（図４のステップ２０８）。
【００６９】
そして、タスクコマンドを実行してよいかどうかを表す「〜していいですか？」というような応答文を応答文生成手段２３で生成する（図４のステップ２０９）。
【００７０】
該応答文に対する、ユーザからの返答入力を入力装置１を介してを得ると（ステップ２０１）、自然言語解析手段２１は、入力の自然言語と未実行タスクコマンド記憶部３３で記憶されている未実行タスクコマンドを参照して、解釈可能な複数のタスクコマンドに変換する（図４のステップ２０２）。
【００７１】
図４のステップ２０３では、複数のタスクコマンドの絞り込みを行ない、ステップ２０４では、絞り込まれたタスクコマンドの確信度を求め、確信度によりタスクコマンドを実行してよいかどうかを判断する。
【００７２】
「〜していいですか？」のような応答に対して、図４のステップ２０４で求めた確信度が高いときには、入力が「はい」のような肯定を意味する入力か、「いいえ」のような否定を意味する入力かどうかを判断する（図４のステップ２０６）。
【００７３】
ユーザから入力が、肯定を意味するものである時には、応答文生成手段２３はタスク実行手段２４にタスクコマンドを送り、タスク実行手段２４でタスクを実行する。
【００７４】
また応答文生成手段２３は、タスクの実行完了を表す「〜しました。」のような応答文を生成する（図４のステップ２０７）。
【００７５】
また、否定を意味する入力の時には、タスクコマンドを破棄し、未実行タスクの取り消しを表す「〜を取り消します」のような応答文を生成する（図４のステップ２１０）。
【００７６】
本発明の第２の実施例について具体例に即して説明する。以下の例でも、前記第１の実施例と同様にテレビとビデオがある家の中での状況を想定して説明する。
【００７７】
今、ユーザがテレビの電源をつけるために、「テレビ」とマイクに向かって話したとする。
【００７８】
入力装置１をなす音声認識システムは、「テレビ」と音声認識し、テキスト文字に変換する。
【００７９】
このテキスト文字と辞書記憶部３１とを参照して、自然言語解析手段２１は、
・「テレビの電源をつける」、
・「テレビのチャンネルを１にする」、
・「テレビのチャンネルを２にする」、…
といった複数のタスクコマンドに変換する。
【００８０】
曖昧性解消手段２２は、曖昧性解消情報記憶部３２からテレビの現在状況を見て、入力された「テレビ」に対するタスクとしては、「テレビの電源はオフ」から、「テレビの電源をつける」くらいの操作で大丈夫だろうと判断し、絞り込む。また確信度は前記確信度での最大〜最小の５段階評価で「確信度最小」と求めたとする。
【００８１】
応答文生成手段２３は、確信度最小と「テレビの電源をつける」というタスクコマンドと辞書記憶部３１を参照して、「テレビをつけますか？」という応答文を生成し、出力装置４をなす音声合成システムのスピーカーに出力する。
【００８２】
また「テレビの電源をつける」というタスクコマンドを未実行タスクコマンド記憶部３３に記憶する。
【００８３】
このシステムからの応答後に、ユーザが「はい」と入力すると、自然言語解析手段３１は、辞書記憶部３１を参照して、この発話が肯定を意味する語だと認識し、また未実行タスクコマンド記憶部３３に、「テレビの電源をつける」というコマンドが記憶されているため、「テレビの電源をつける」というタスクコマンドを生成する。
【００８４】
曖昧性解消手段２２では、すでにタスクコマンドが一意に決まっているため、確信度を最大〜最小の５段階評価で、「確信度最大」とする。
【００８５】
応答文生成手段２３では、確信度最大と「テレビの電源をつける」というタスクコマンドと辞書記憶部３１を参照して、「テレビの電源をつけました」という応答文を生成し、音声合成システムでスピーカに出力する。
【００８６】
次に本発明の第３の実施例について図面を参照して詳細に説明する。
【００８７】
図５は、本発明の第３の実施例の構成を示す図である。図５において、図３に示した要素と同等の要素には同一の参照符号が付されている。
【００８８】
図５を参照すると、本発明の第３の実施例は、データ処理装置２は、図３に示した前記第２の実施例と同様に、自然言語解析手段２１、曖昧製解消手段２２、応答文生成手段２３、タスク実行手段２４を備えている。記憶装置３は、辞書記憶部３１、曖昧性解消情報記憶部３２、キャンセルコマンド記憶部３４を備えている。
【００８９】
キャンセルコマンド記憶部３４には、ユーザの意図に反したタスクを実行してしまったときに、元に復旧するためのタスクコマンドが予め記憶されている。
【００９０】
図６は、本発明の第３の実施例の動作を説明するための流れ図である。図５及び図６を参照して、本発明の第３の実施例の動作について詳細に説明する。なお、図６のステップ３０１〜３０４は、図２に示したステップ２０１〜２０４と同様とされる。
【００９１】
前記第１の実施例では、曖昧性解消手段２２で確信度が高く求められてしまうと、ユーザの意図に反したものでも、応答文生成部２３で実行完了の応答文を生成して出力装置４に出力してしまう。
【００９２】
本発明の第３の実施例においては、システムがタスク実行完了の応答文を応答文生成手段２３で生成し、出力装置４に出力した時に、キャンセルや取り消しを意味する入力を受け付けると、図６のステップ３０１−３０４の一連の処理において、図４のステップ２０１−２０４の前記第２の実施例の処理と同様に、タスクコマンドを１つに絞り込む。その際、キャンセルや取り消しを意味する入力を受け付けた時には、キャンセルコマンドが絞り込まれる。
【００９３】
絞り込まれたタスクコマンドがキャンセルコマンドであるか否か判定する（図６のステップ３０５）。
【００９４】
キャンセルコマンドでなければ、前記第１の実施例と同様に、確信度に応じて応答文生成部２３で応答文を生成し、出力装置４に出力する（図６のステップ３０６）。
【００９５】
キャンセルコマンドである場合、キャンセルコマンド記憶部３４を参照して応答文生成部２３で応答文を生成し、出力装置４に出力する（図６のステップ３０７）。
【００９６】
例えば、システムが「テレビをつけました」という応答文を返した時に、ユーザが、キャンセルや取り消しを意味する入力として、「違う」と答えた時に、システムは、「テレビを消しました」という応答文を生成する。
【００９７】
本発明の第３の実施例について具体例に即して説明する。以下でも、前記第１の実施例と同様にテレビとビデオがある家の中での状況を想定する。
【００９８】
今、ユーザがテレビの電源をつけるために、「テレビをつけて」とマイクに向かって話したとする。
【００９９】
入力装置１をなす音声認識システムは、あやまって「ビデオをつけて」と誤認識し、テキスト文字に変換する。このテキスト文字と辞書記憶部３１を参照して自然言語解析手段２１は、「ビデオの電源をつける」というタスクコマンドに変換する。
【０１００】
曖昧性解消手段２２では、すでにタスクコマンドが一意に決まっているので、「確信度最大」とする。
【０１０１】
応答文生成手段２３は、「確信度最大」と、「ビデオの電源をつける」というタスクコマンドと辞書記憶部３１を参照して、「ビデオの電源をつけました」という応答文を生成し、出力装置４をなす音声合成システムでスピーカに出力する。
【０１０２】
また、キャンセルコマンド記憶部３４に、「ビデオの電源をつける」という操作の逆操作である「ビデオの電源を消す」というコマンドが記憶される。
【０１０３】
システムはユーザの意図とは異なる応答をしたために、マイクからユーザは「違う」と入力した場合、自然言語解析手段３１は辞書記憶部３１を参照してこの発話がキャンセルを意味する語だと認識し、またキャンセルコマンド記憶部３４に「ビデオの電源を消す」というタスクコマンドが記憶されていることを認識して、「ビデオの電源を消す」というタスクコマンドを生成する。
【０１０４】
曖昧性解消手段２２では、すでにタスクコマンドが一意に決まっているので、確信度最大とする。
【０１０５】
応答文生成手段２３では、「確信度最大」と「ビデオの電源を消す」というタスクコマンドと辞書記憶部３１を参照して、「ビデオの電源を消しました」という応答文を生成し、該応答文を出力装置４をなす音声合成システムよりスピーカに出力する。
【０１０６】
次に本発明の第４の実施例について説明する。図７は、本発明の第４の実施例の構成を示す図である。図７を参照すると、本発明の第４の実施例は、図３に示した前記第２の実施例に、時間管理部３５を記憶装置３に備えたものである。
【０１０７】
図８は、本発明の第４の実施例の動作を説明するための流れ図である。図７及び図８を参照して、本発明の第４の実施例の動作について説明する。
【０１０８】
図８のステップ４０２−４０５、ステップ４０８−４０９は、その流れ図を図４に示した前記第２の実施例における２０２−２０５、ステップ２０８−２０９と同一とされ、また、図８のステップ４０６、４０７、４１０は、前記第２の実施例におけるステップ２０６、２０７、２１０と同一の処理とされている。前記第２の実施例と同様な手順で、図８のステップ４０９まで処理が終わったとする。前記第２の実施例では、図４に示すように、ステップ２０９で応答文を生成して、入力装置１でユーザからの返答入力を待ち、返答が入力されたときにステップ２０１からの処理を行っている。
【０１０９】
本発明の第４の実施例では、システムがユーザの入力を待つような応答をしたときに、時間管理部３５に現在時刻を設定し、入力装置１では、不図示のタイマ（計時手段）により予め定められた一定時間だけ待つことにする（図８のステップ４０１）。
【０１１０】
一定時間内に、すなわち、タイマでのタイムアウト発生前に、応答文に対するユーザからの入力があれば、以下の処理を前記第２の実施例と同様に行う（図８のステップ４０２以降）。
【０１１１】
一定時間の間にユーザからの入力がなければ、すんわち、タイマでのタイムアウトが発生した際には、ユーザは、応答の内を了解したものとして、入力装置１にユーザが肯定を意味する入力を行なったものとみなす。
【０１１２】
ステップ４０９で生成された「〜していいですか？」のような応答に対して、図８のステップ４０４で求めた確信度が高いときには、入力が「はい」のような肯定を意味する入力か、「いいえ」のような否定を意味する入力かどうかを判断する（図８のステップ４０６）。
【０１１３】
ユーザから入力が、肯定を意味するものである時には、応答文生成手段２３はタスク実行手段２４にタスクコマンドを送り、タスク実行手段２４でタスクを実行する。
【０１１４】
また応答文生成手段２３は、タスクの実行完了を表す「〜しました。」のような応答文を生成する（図８のステップ４０７）。
【０１１５】
また、否定を意味する入力の時には、タスクコマンドを破棄し、未実行タスクの取り消しを表す「〜を取り消します」のような応答文を生成する（図８のステップ４１０）。
【０１１６】
本発明の第４の実施例について具体例に即して以下に説明する。以下でも、前記第２の実施例と同様にテレビとビデオがある家の中での状況を想定して説明する。
【０１１７】
今、ユーザがテレビの電源をつけた後に、テレビのチャンネルを１にするために「１チャンネルにして」とマイクに向かって話したものとする。音声認識システムは「１チャンネルにして」と認識し、テキスト文字に変換する。
【０１１８】
このテキスト文字と辞書を参照して自然言語解析手段３１は、「テレビのチャンネルを１にする」、「ビデオのチャンネルを１にする」という複数のタスクコマンドに変換する。
【０１１９】
曖昧性解消手段２２では、文脈を用いて「テレビの電源をつける」を実行した後であることから、「テレビのチャンネルを１にする」であるものと判断する。また、文脈を用いて曖昧性を解消したので、確信度を中とする。
【０１２０】
応答文生成手段２３では確信度中と「テレビのチャンネルを１にする」というタスクコマンドと辞書記憶部３１を参照して、「テレビのチャンネルを１にしますね」という応答文を生成し、出力装置４をなす音声合成システムでスピーカに出力する。
【０１２１】
また、未実行タスクコマンド記憶部３３に「テレビのチャンネルを１にする」というタスクコマンドを記憶する。
【０１２２】
またスピーカで応答文を出力するのと同時に、時間管理部３５に、現在時刻を記憶させる。
【０１２３】
出力装置４をなすスピーカからの応答文を出力した後、ユーザから一定時間入力がないときには、入力装置１から肯定を表す語が入力されたものとして、前記第２の実施例と同様な処理を行い、応答文生成手段２３において、「テレビのチャンネル１を１にしました」という応答文を生成し、該応答文を、出力装置４をなす音声合成システムよりスピーカに出力する。
【０１２４】
【発明の効果】
以上説明したように、本発明によれば下記記載の効果を奏する。
【０１２５】
本発明の第１の効果は、にユーザはその応答に必ずしも返答する必要がなくなるので、ユーザにかかる負荷を削減する、ということである。
【０１２６】
その理由は次の通りである。本発明においては、システムが求めた確信度を用いて応答文を変化させることで、システムは必ずしも確認を求める応答文を出力するわけではない。このため、ユーザはシステムからの応答に必ずしも返答する必要がないためである。
【０１２７】
本発明の第２の効果は、システムが操作を行う前に、ユーザとシステムとの対話により曖昧性を解消することを可能とし、システムがユーザの本来の意図とは異なった解釈をする可能性を低減し、その結果、ユーザは修正取り消し作業を行う可能性を特段に低減している、ということである。
【０１２８】
その理由は、本発明においては、システムが求めた確信度が低いときには、システムは、システムで解釈したタスクを実行してよいかどうかをユーザに質問する構成とされているためである。
【０１２９】
本発明の第３の効果は、システムがユーザの意図と異なった解釈をしてしまう場合でも、修正取り消し可能とし、ユーザにかかる負荷を削減する、ということである。
【０１３０】
本発明の第４の効果は、システムがユーザに質問をしたときに、ユーザから一定時間応答がないとシステムに肯定を表す語が入力されたときと同様な処理がおこなわれ、このため、ユーザはシステムの確認を表す応答に必ずしも答える必要がないので、ユーザの負荷を削減する、ということである。
【図面の簡単な説明】
【図１】本発明の第１の実施例の構成を示す図である。
【図２】本発明の第１の実施例の動作を説明するための流れ図である。
【図３】本発明の第２の実施例の構成を示すブロック図である。
【図４】本発明の第２の実施例の動作を説明するための流れ図である。
【図５】本発明の第３の実施例の構成を示す図である。
【図６】本発明の第３の実施例の動作を説明するための流れ図である。
【図７】本発明の第４の実施例の構成を示す図である。
【図８】本発明の第４の実施例の動作を説明するための流れ図である。
【符号の説明】
１入力装置
２データ処理装置
３記憶装置
４出力装置
２１自然言語解析手段
２２曖昧性解消手段
２３応答文生成手段
２４タスク実行手段
３１辞書記憶部
３２曖昧性解消情報記憶部
３３未実行タスクコマンド記憶部
３４キャンセルコマンド記憶部
３５時間管理部

Claims

入力された自然言語を解釈するために必要な語彙と、該自然言語の解釈結果から応答文を生成するために必要な語彙とを予め記憶する辞書記憶部と、
前記辞書記憶部を参照して、入力手段から入力された自然言語の解釈を行う自然言語解析手段と、
前記自然言語解析手段で求められた解釈結果が複数存在した場合、１つの解釈結果に絞り込むための手がかりとして用いられる情報を記憶する曖昧性解消情報記憶部と、
前記自然言語解析手段で求められた解釈結果が複数存在した場合に、前記曖昧性解消情報記憶部を参照して、前記複数の解釈結果を１つに絞り込むとともに、前記１つに絞り込んだ解釈結果に対する確信度を求める曖昧性解消手段と、
前記曖昧性解消手段で絞り込んだ解釈結果を応答文として出力し、その際、前記曖昧性解消手段で求められた前記確信度に応じて応答文を変更させる応答文生成手段と、
を備えたことを特徴とする自然言語を用いた対話システム。
前記曖昧性解消手段で１つに絞り込んだ解釈結果および前記曖昧性解消手段で求められた確信度を受けて、該解釈結果に対応するタスクコマンドを実行するタスク実行手段をさらに備えたことを特徴とする請求項１に記載の自然言語を用いた対話システム。
前記応答文生成手段が、前記曖昧性解消手段で求められた確信度に応じて、前記タスク実行手段でタスクを実行した後にタスクの実行を報告する応答文を生成するか、もしくは、前記タスク実行手段でタスクを実行する前にタスクを実行してよいか否かを確認するための応答文を生成するか、を決定する、ことを特徴とする請求項２に記載の自然言語を用いた対話システム。
前記応答文生成手段が、前記曖昧性解消手段で求められた確信度に応じて、応答文を生成するかしないかを決定する、ことを特徴とする請求項２に記載の自然言語を用いた対話システム。
前記応答文生成手段が、前記曖昧性解消手段で求められた確信度に応じて、前記曖昧性解消手段が解釈した結果を、報告、確認、及び質問のうちのいずれかを表す応答文に変更する、ことを特徴とする請求項２、３、４のいずれか一に記載の自然言語を用いた対話システム。
実行を行ったタスクコマンドに対する逆操作のタスクコマンドを記憶するキャンセルコマンド記憶部と、
キャンセルの意味を表す入力がなされたときに、前記タスク実行手段でキャンセルコマンドを実行するとともに、前記応答文生成手段において、キャンセルコマンドを実行したことを報告する応答文を生成する、ことを特徴とする請求項２、３、４、５のいずれか一に記載の自然言語を用いた対話システム。
システムがタスクコマンドを実行してよいかどうかの確認をとる応答文を出力した後、時間の経過を測定する時間管理手段を備え、
前記時間管理手段で計時を開始後、あらかじめ定められた所定の時間が経過しても、ユーザからの応答がない場合には、肯定を表す入力が前記入力手段から入力されたものと解釈する、ことを特徴とする請求項２乃至６のいずれか一に記載の自然言語を用いた対話システム。
前記時間管理手段で計時を開始後、前記所定の時間が経過した後に、肯定を表す入力が前記入力手段から入力されたか否かを、前記曖昧性解消手段で求めた確信度に応じて決定する、ことを特徴とする請求項７に記載の自然言語を用いた対話システム。
入力手段から入力された自然言語を受け取り、語彙辞書を参照して１又は複数のタスクコマンドに変換する自然言語解析手段と、
曖昧性解消情報を参照して、曖昧性を解消するための所定の情報に基づき複数のタスクコマンドを１つに絞り込むとともに、前記所定の情報に基づいた絞り込みの仕方から、前記１つに絞り込んだタスクコマンドに対する確信度を求める曖昧性解消手段と、
前記曖昧性解消手段で１つに絞り込んだタスクコマンドと、前記曖昧性解消手段で求められた前記確信度と語彙辞書とを参照して、前記確信度に応じた応答文を生成し、出力手段に出力する応答文生成手段と、を備えたことを特徴とする自然言語対話処理装置。
入力手段から入力された自然言語を語彙辞書を参照して解釈し、解釈結果として該自然言語に対応した１又は複数のタスクコマンドを候補として出力する自然言語解析手段と、
前記自然言語解析手段で求められたタスクコマンドが複数存在した場合、該解釈された自然言語の文脈情報、タスクの履歴情報、該タスク候補の処理対象物の状況情報のいずれかの情報を含む、曖昧性を解消するための所定の情報に基づき、１つのタスクコマンドに絞り込むとともに、前記所定の情報に基づいた絞り込みの仕方から、前記１つに絞り込んだタスクコマンドに対する確信度を求める曖昧性解消手段と、
前記曖昧性解消手段で１つに絞り込んだタスクコマンド及び前記曖昧性解消手段で求められた前記確信度に応じて応答文を自動作成して出力手段から出力する応答文生成手段と、
前記タスクコマンドを実行するタスク実行手段と
を備えたことを特徴とする自然言語対話処理装置。
前記一つの絞り込まれたタスクコマンドの確信度が小の場合、該タスクコマンドを直ちに実行せずに一旦未実行コマンド記憶手段に記憶しておき、前記応答文生成手段が、前記タスクコマンドを実行してよいか否かを確認するための応答文を生成して前記出力手段に出力し、
該応答文に対してユーザが肯定を意味する入力を前記入力手段から行なった場合、前記未実行コマンド記憶手段からタスクコマンドを取り出して前記タスク実行手段で前記タスクコマンドを実行し、前記応答文生成手段ではタスク実行完了の応答文を出力し、一方、否定を意味する入力が前記入力手段から行われた場合、前記応答文生成手段では未実行タスク取り消しの応答文を作成して出力する、ことを特徴とする請求項１０記載の自然言語対話処理装置。
前記タスク実行手段で実行したタスクコマンドの操作をキャンセルするキャンセルコマンドを記憶するキャンセルコマンド記憶手段をさらに備え、
タスクコマンド実行後該タスクのキャンセルの意味を表す入力が前記入力手段から行われたときに、前記キャンセルコマンド記憶手段から前記キャンセルコマンドを読み出して前記タスク実行手段で前記キャンセルコマンドを実行するとともに、前記応答文生成手段において、前記キャンセルコマンドを実行したことを報告する応答文を生成出力する、ことを特徴とする請求項１０又は１１記載の自然言語対話処理装置。
前記応答文生成手段が、前記タスクコマンドを実行してよいか否かを確認するための応答文を生成して出力した後、時間の経過を測定する時間管理手段を備え、
前記時間管理手段で計時を開始後、あらかじめ定められた所定の時間が経過しても、ユーザからの応答がない場合には、肯定を表す入力が前記入力手段に入力されたものと解釈する、ことを特徴とする請求項１１記載の自然言語対話処理装置。
前記入力手段が入力された音声を認識してテキストに変換出力する音声認識手段よりなり、前記出力手段が、前記応答文生成手段で作成された前記応答文のテキスト情報を入力し音声合成して音声出力手段から出力する音声合成手段よりなる、ことを特徴とする請求項１０乃至１３のいずれか一に記載の自然言語対話処理装置。
請求項１４記載の自然言語対話処理装置において、
一又は複数の機器の所定の操作を、前記所定の操作を指示するユーザからの音声入力により行なうことを特徴とする自然言語対話処理装置。
（ａ）入力手段から入力された自然言語について語彙辞書記憶部を参照して解釈を行う自然言語解析処理と、
（ｂ）前記自然言語解析処理で求められた解釈結果が複数存在した時に、複数の解釈結果を１つの解釈結果に絞り込むための手がかりとして用いられる情報を記憶する曖昧性解消情報記憶部を参照して、前記複数の解釈結果を１つに絞り込むとともに、前記１つに絞り込んだ解釈結果に対する確信度を求める曖昧性解消処理と、
（ｃ）前記曖昧性解消処理で絞り込んだ解釈結果を語彙辞書記憶部を参照して応答文として自動生成し出力手段から出力し、その際、前記曖昧性解消手段で求められた前記確信度に応じて応答文を変化させる応答文生成処理と、
の前記（ａ）乃至（ｃ）の処理をコンピュータで実行させるためのプログラムを記録した記録媒体。
請求項１６記載の記録媒体において、
（ｄ）前記曖昧性解消処理（ｂ）で１つに絞り込んだ解釈結果および前記曖昧性解消手段で求められた確信度を受けて、前記解釈結果に対応するタスクコマンドを実行する処理、
を前記コンピュータで実行させるためのプログラムを記録した記録媒体。
請求項１７記載の記録媒体において、
前記応答文生成処理（ｃ）が、前記曖昧性解消処理（ｂ）で求められた確信度に応じて、タスクを実行した後にタスクの実行を報告する応答文を生成するか、もしくは、タスクを実行する前にタスクを実行してよいか否かを確認するための応答文を生成するかを決定する処理を含み、前記処理を前記コンピュータで実行させるためのプログラムを記録した記録媒体。
請求項１７記載の記録媒体において、
実行を行ったタスクコマンドに対する逆操作のタスクコマンドを記憶するキャンセルコマンド記憶部を備え、
（ｆ）キャンセルの意味を表す入力が前記入力手段から行われたときに、キャンセルコマンドを実行するとともに、前記応答文生成処理（ｃ）において、キャンセルコマンドを実行したことを報告する応答文を生成する処理を、前記コンピュータで実行させるためのプログラムを記録した記録媒体。