JP2006031467A

JP2006031467A - 応答生成プログラム、応答生成方法、および応答生成装置

Info

Publication number: JP2006031467A
Application number: JP2004210396A
Authority: JP
Inventors: Satoko Shiga; 聡子志賀; Aoshi Okamoto; 青史岡本; Takehisa Ando; 剛寿安藤; Hiroya Inakoshi; 宏弥稲越; Akira Sato; 陽佐藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2004-07-16
Filing date: 2004-07-16
Publication date: 2006-02-02
Anticipated expiration: 2024-07-16
Also published as: JP4508757B2

Abstract

【課題】対話システムにおいて簡易な処理で最適な応答を生成すること。
【解決手段】システムからの「おなか減りましたねー。」という発話に対し、ユーザが「お寿司、食べる？」と応答した場合に、この対話に類似する事例として事例Ｎｏ．１０１と１０２との組、および事例Ｎｏ．５２３と５２４との組が検索されたとすると、それぞれの直後の事例、すなわち事例Ｎｏ．１０３および事例Ｎｏ．５２５のいずれかがシステムからの応答候補となる。そして、事例Ｎｏ．１０３の発話に対して予測されるユーザの表情（具体的には事例Ｎｏ．１０４の表情）は望ましい表情であり、事例Ｎｏ．５２５の発話に対して予測されるユーザの表情（事例Ｎｏ．５２６の表情）は望ましくない表情だったとすると、事例Ｎｏ．１０３が最適事例として選出され、ここから「昨日もお寿司でした！」のような応答が生成される。
【選択図】図９

Description

この発明は、応答生成プログラム、応答生成方法、および応答生成装置に関する。

ユーザとの間で、バーバル情報（言語）およびノンバーバル情報（表情や声のピッチなど）を用いて対話を行うシステムにおいては、現在のユーザ入力やそこまでの話の流れから抽出した言語特徴や感情特徴をキーに応答生成ルールを検索し、検索されたルールを用いて上記入力に対する応答を生成している（たとえば下記特許文献１〜６参照）。

特開平８−３３９４４６号公報特開平９−８１６３２号公報特開２０００−２０７２１４号公報特開２００１−２１５９９３号公報特開２００２−１２３２８９号公報特開２００４−２１１２１号公報

しかしながら上記従来技術では、上記ルールの作成・管理のコストが高く、どのようなルールが必要かも明確ではないため、対話可能な話題のドメインや応答のバリエーションが限定されてしまっていた。また、人間同士が対話する場合は相手の今の感情だけでなく、もし今自分がこう言えば相手はどういう感情になるかを予測して、対話が望ましい展開になるような言葉を選択するものであるが、このようなユーザ反応の先読みまでを含むルールを用意することはさらに困難であった。

この発明は上述した従来技術による問題点を解消するため、（ルールにより応答を生成するのではなく）これまでの話の流れ（過去）や、こう答えたときに予測されるユーザの反応（未来）まで考慮して検索された最適な事例を模倣することで、簡易な処理で最適な応答を生成することが可能な応答生成プログラム、応答生成方法、および応答生成装置を提供することを目的とする。

上述した課題を解決し、目的を達成するため、この発明にかかる応答生成プログラム、応答生成方法、および応答生成装置は、データベース中の複数の事例の中からユーザに対する応答の候補を検索し、当該候補が複数あった場合には、当該各候補を応答とした場合に予測されるユーザの表情の望ましさの程度を算出するとともに、当該望ましさの程度から各候補の適切度を算出して、この適切度が最大となる候補からユーザに対する応答を生成することを特徴とする。

この発明によれば、ユーザに対する応答は従来のような応答生成ルールでなく、データベースから検索された事例を模倣して生成されるとともに、検索された事例が複数あったときは、その事例を応答とした場合のユーザの表情が最も望ましいと予測されるものが優先的に採用される。

また、この発明にかかる応答生成プログラムは、あらかじめ望ましいか望ましくないかが定義された表情との類似度を算出することで前記各表情の望ましさの程度を算出することを特徴とする。

この発明によれば、予測されるユーザの表情が、あらかじめ望ましいとされた表情により似ている事例ほど優先的に模倣される。

また、この発明にかかる応答生成プログラムは、対話の現在の状況に応じて望ましいか望ましくないかが動的に定義される表情との類似度を算出することで前記各表情の望ましさの程度を算出することを特徴とする。

この発明によれば、予測されるユーザの表情が、対話の現在の状況から見て望ましいとされる表情により似ている事例ほど優先的に模倣される。

本発明にかかる応答生成プログラム、応答生成方法、および応答生成装置によれば、これまでの話の流れ（過去）や、こう答えたときに予測されるユーザの反応（未来）まで考慮して検索された最適な事例を模倣することで、簡易な処理で最適な応答を生成することが可能な応答生成プログラム、応答生成方法、および応答生成装置を提供することができるという効果を奏する。

以下に添付図面を参照して、この発明にかかる応答生成プログラム、応答生成方法、および応答生成装置の好適な実施の形態を詳細に説明する。

図１は、この発明の実施の形態にかかる応答生成装置のハードウエア構成を示す説明図である。図中、ＣＰＵ１０１は装置全体の制御を司る。ＲＯＭ１０２はブートプログラムなどを記憶している。ＲＡＭ１０３はＣＰＵ１０１のワークエリアとして使用される。

ＨＤＤ１０４は、ＣＰＵ１０１の制御にしたがってＨＤ１０５に対するデータのリード／ライトを制御する。ＨＤ１０５は、ＨＤＤ１０４の制御にしたがって書き込まれたデータを記憶する。ＦＤＤ１０６は、ＣＰＵ１０１の制御にしたがってＦＤ１０７に対するデータのリード／ライトを制御する。ＦＤ１０７は、ＦＤＤ１０６の制御にしたがって書き込まれたデータを記憶する。なお、ＦＤ１０７は着脱可能な記録媒体の一例であり、ＦＤ１０７の代わりにＣＤ−ＲＯＭ（ＣＤ−Ｒ、ＣＤ−ＲＷ）、ＭＯ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、メモリーカードなどであってもよい。

ディスプレイ１０８は、カーソル、ウィンドウ、アイコンなどをはじめ、文書や画像などの各種データを表示する。ネットワークＩ／Ｆ１０９はＬＡＮ／ＷＡＮなどのネットワークに接続され、当該ネットワークと装置内部とのデータの送受信を司る。キーボード１１０は、文字、数値、各種指示などの入力のための複数のキーを備え、押下されたキーに対応するデータを装置内部へ入力する。マウス１１１は本体下部のボールの回転量と回転方向、および本体上部の各ボタンのＯＮ／ＯＦＦを随時装置内部へ入力する。また、バス１００は上記各部を接続する。

次に、図２はこの発明の実施の形態にかかる応答生成装置の機能構成を示す説明図である。図示するように上記装置は、テキスト入力部２００、表情入力部２０１、現対話記憶部２０２、対話事例ＤＢ２０３、適切性基準ＤＢ２０４、適切性基準切り替え部２０５、対話戦略ＤＢ２０６、最適事例検索部２０７、応答生成部２０８および応答出力部２０９を備えている。また、テキスト入力部２００は形態素解析部２００ａ、ＤＡ特定部２００ｂおよびキーワード抽出部２００ｃを、最適事例検索部２０７は類似事例検索部２０７ａおよび適切度算出部２０７ｂを、それぞれ備えている。

まず、テキスト入力部２００はユーザからのテキストの入力を受け付けるとともに、入力されたテキストの解析結果、具体的にはユーザの発話の意図を表すＤＡ（ＤｉａｌｏｇｕｅＡｃｔ）および発話のトピックを表すキーワードを後述する現対話記憶部２０２に出力する機能部である。本実施の形態ではこのテキストは、図１に示したキーボード１１０から入力されるものとするが、あるいはマイクから入力された音声を認識することで、ユーザの発話内容に対応するテキストを取得するようにしてもよい。

入力されたテキストは、テキスト入力部２００の形態素解析部２００ａにより一文ごとに区切られた後、さらに形態素ごとに区切られて、それぞれに品詞情報を付加される。次に、コーパスによりあらかじめ学習されたＤＡ特定部２００ｂ（ＤＡ分類器）で、文ごとに一つのＤＡが特定される。さらにキーワード抽出部２００ｃで、あらかじめ用意された抽出規則により文中のキーワードが抽出される。なお、ここではキーワードとして、具体的には名詞、動詞および形容詞を抜き出すものとする（そのため「はじめまして。」などの挨拶文ではキーワードが存在しないこともあり得る）。また、キーワードの数が多い場合は何らかのルールでキーワードをランク付けし、上位いくつかを選択的に抽出する。

次に、表情入力部２０１はユーザからの表情の入力を受け付けるとともに、入力された表情の解析結果、具体的にはその表情パラメータを後述する現対話記憶部２０２に出力する機能部である。この表情は、たとえばユーザの顔をカメラで撮影し、撮影画像を表情認識して取得するようにしてもよいが、本実施の形態では図３に示すような顔アイコンの操作によりユーザ自身に入力させる。

この顔アイコンでは、図４に示すように特定の箇所が特徴点（図中黒丸で示される）として定義されており、それぞれの特徴点の位置により、その表情を一意に特定することができる。したがって各特徴点の座標を表情パラメータとしてもよいが、ここでは簡易的に、図中両矢印で示される距離（特徴点間の位置関係と言ってもよい）の組み合わせを表情パラメータとする。そして、ディスプレイ１０８に表示された図３の顔アイコンで、ユーザがたとえば左右の眉尻と左右の口角の４カ所をマウス１１１で下へドラッグすると、表情入力部２０１はドラッグ後の顔アイコンの表情パラメータを算出して、その表情を図５のように変化させる。

なお、このように顔の各パーツを逐一操作するのでなく、あらかじめ用意された「笑い顔」「怒り顔」などのテンプレート（基本顔）の中から一つを選択することで、所望の表情を入力できるようにしてもよい。また、たとえば左の眉尻を下にドラッグしたとき、左の眉尻だけが下がる（顔の片方だけが動く）か、左と右の眉尻が同時に下がる（顔の両方が動く）かをユーザが設定できるようにしてもよい。

図２の説明に戻り、次に現対話記憶部２０２は、本装置（以下では「本システム」ともいう）とユーザとの間で交わされている対話（以下では「現対話」という）中の個々の発話のＤＡ、キーワードおよび表情パラメータ（以下ではこれらをまとめて「発話特徴」という）を保持する機能部である。

図６は、現対話記憶部２０２に保持される発話特徴の内容を模式的に示す説明図である。たとえば、システムからの「おなか減りましたねー。」という出力に対し、ユーザが「お寿司、食べる？」と入力してきた場合、現対話記憶部２０２には「おなか減りましたねー。」の発話特徴と、「お寿司、食べる？」の発話特徴とが順次蓄積される。なお、図中「お寿司、食べる？」のＤＡとキーワードとは上述のテキスト入力部２００で、その表情パラメータは上述の表情入力部２０１で、それぞれ求められたものである。

図２の説明に戻り、次に対話事例ＤＢ２０３は、二者間での対話を構成する個々の発話の事例を多数保持するＤＢ（データベース）である。図７は、対話事例ＤＢ２０３の内容を模式的に示す説明図である。図中、たとえば事例Ｎｏ．１の「はじめまして。」は対話者Ａの発話であり、事例Ｎｏ．２の「はじめまして。」は上記に対する対話者Ｂの発話である。以下同様に、事例Ｎｏ．３はＡ、事例Ｎｏ．４はＢというように、ＡとＢとの発話が交互に、時系列順に格納されている。

なお、図中「対話セッションＮｏ．」が同一の事例は一続きの対話を構成しているが、たとえばセッションＮｏ．２１の対話とセッションＮｏ．１４２の対話とはたまたま似たようなやり取りであるにすぎず、文脈的には無関係である。また、図中「発話Ｎｏ．」とは、同一セッション内での各発話の通し番号である。ある発話Ｎｏ．で特定される一回の発話が、複数の文で構成されることもある。なお、対話事例ＤＢ２０３には図示する項目のほか、個々の事例を発話した対話者のユーザプロファイル（たとえばユーザＩＤ、性別、年齢など）を保持するようにしてもよい。

図２の説明に戻り、次に適切性基準ＤＢ２０４は、ユーザの表情として望ましい表情の例と望ましくない表情の例とを多数保持するＤＢである。図８は、適切性基準ＤＢ２０４の内容を模式的に示す説明図である。図中、フラグが１となっている表情（当該フラグに対応する表情パラメータで決定される表情）は望ましい表情の例、フラグが０となっている表情は望ましくない表情の例である。なお、望ましい表情や望ましくない表情はそれぞれ複数指定できる。

もっとも、たとえばその表情だけを見た場合には望ましい表情でも、ある特定の表情やＤＡの次に来るのは望ましくないというように、表情の適切性は対話の現在の状況などによって変化するものである。そこで、たとえばどの表情の後なら適切でどの表情の後なら不適切といった、順序面での制約条件を適切性基準ＤＢ２０４に保持するようにしてもよいが、本実施の形態では適切性基準ＤＢ２０４内の各表情のフラグを、現在の対話の状況に応じてその途中で動的に切り替えるようにする。

図２に示す適切性基準切り替え部２０５は、このフラグの切り替え、すなわち後述する適切度算出部２０７ｂで使用される適切性基準の切り替えを行う機能部である。また、対話戦略ＤＢ２０６はこの切り替えのルール、すなわちたとえば特定の表情やＤＡの直後である、話題が特定のトピックである、対話継続時間が一定値を超えている、ユーザがｎ才未満であるなどの条件と、当該条件が満足された場合に適切性基準ＤＢ２０４に設定されるべき各表情のフラグの値とを保持するデータベースである（具体的には「対話継続時間が１５分を超えた場合は眠そうな表情Ａを望ましくないとする」「ユーザが１０才未満の場合は怒り顔Ｂより泣き顔Ｃのほうが望ましくないとする」など）。

次に、最適事例検索部２０７はユーザの入力に対する本システムからの出力（応答）として最適な事例を対話事例ＤＢ２０３から検索する機能部である。最適事例検索部２０７はその類似事例検索部２０７ａにより、対話事例ＤＢ２０３の中から現在のユーザ入力に類似する事例（厳密には、当該入力に至るまでの一連の発話に類似する一連の事例）を検索して、その直後の事例を応答候補とするが、類似する事例が複数あった場合（上記候補が複数あった場合）は、適切度算出部２０７ｂにより適切性基準ＤＢ２０４を参照して、そのうち最適な一つを絞り込む。

たとえばシステムからの「おなか減りましたねー。」という発話に対し、ユーザが「お寿司、食べる？」と応答した場合、現対話記憶部２０２には図９に模式的に示すように、一つ前のシステム出力である「おなか減りましたねー。」の発話特徴と、現在のユーザ入力である「お寿司、食べる？」の発話特徴とが順次蓄積される。そしてこの状態で次のシステム出力、すなわち「お寿司、食べる？」に対するシステムからの応答としてふさわしいものを対話事例ＤＢ２０３から検索する例を考える。

最も単純には、対話事例ＤＢ２０３中の事例で「お寿司、食べる？」との類似度が最も高いものを特定し、その直後の事例を応答候補とすればよい。ここで、ある発話とある事例との類似度は、たとえばそれぞれのＤＡの類似度、キーワードの類似度、表情パラメータの類似度の３つの和であるものとする（単なる和でなく重み付き和としてもよい）。

なお、ＤＡやキーワードの類似度は従来技術のＤＰマッチングなどにより算出する。このとき、キーワードがない場合はテキスト全体の類似度を算出する。また、シソーラスを用いてキーワード間の意味的な類似度を算出するようにしてもよい。一方、表情パラメータの類似度Ｒはたとえば下記（１）式により算出する。

Ｗｐは顔のパーツ（具体的には眉・目・口）ごとの重みであり、上記式はパーツごとの類似度Ｒｐの重み付き和を求めていることになる。なお、Ｒｐは特徴点間の距離Ｄｊを用いて下記（２）式により算出する。

もっとも、ただ単に現在のユーザ入力に注目するだけではそこまでの話の流れが無視されてしまうので、本実施の形態では上記入力を含む直近Ｍ個の発話に注目する。たとえばＭ＝２のときは、現在のユーザ入力である「お寿司、食べる？」と、一つ前のシステム出力である「おなか減りましたねー。」の２つの発話に注目し、この２つの発話の並び（シーケンス）と類似する事例の並びを対話事例ＤＢ２０３から検索する。その結果、図９に示すように、事例Ｎｏ．１０１と１０２との組、および事例Ｎｏ．５２３と５２４との組が検索されたとする（なお、複数事例間の類似度は、たとえば個々の事例間の類似度の和または重み付き和であるものとする）。

この場合、事例Ｎｏ．１０３の「昨日もトンカツでした！」か、事例Ｎｏ．５２５の「君のラーメンはおいしくないからイヤ。」のいずれかが、現在のユーザ入力「お寿司、食べる？」に対するシステムからの応答候補となる。そして、いずれの候補を最終的に採用するかを、本発明では「その出力に対して予測されるユーザの反応（本実施の形態では表情であるが、このほか声のピッチなどであってもよい）の望ましさの程度」によって決定する。

たとえば事例Ｎｏ．１０３の「昨日もトンカツでした！」を次のシステム出力とした場合、事例Ｎｏ．１０４に示すような表情が次のユーザ入力となる可能性が高い。そしてこの表情は、適切性基準ＤＢ２０４内の複数の表情のうち、望ましい表情として定義されているものに類似している。一方、事例Ｎｏ．５２５の「君のラーメンはおいしくないからイヤ。」を次のシステム出力とした場合、予測されるユーザの表情、すなわち事例Ｎｏ．５２６の表情は、適切性基準ＤＢ２０４で望ましくないと定義された表情に類似している。なお、表情間の類似度は上述の（１）式および（２）式により算出する。

そこで、たとえば予測されるユーザの表情が望ましい表情と類似している場合はその類似度を、望ましくない表情と類似している場合はその類似度の符号を反転したものを、それぞれ適切度とみなして各候補をランク付けし、適切度が最大となる事例、すなわちそう答えた場合のユーザの反応が最も好ましいもの（上記例では「昨日もトンカツでした！」）を最適事例として採用する。

なお、ここでは処理速度の観点から、まず類似事例を絞り込んだ上で各候補の適切性を判断するようにしたが、逆に望ましい表情の事例を絞り込んでその直前のものを応答候補とし、さらにその直前のＭ個の発話と現対話との類似度を計算するようにしてもよい。また、先に類似度で絞り込んでから適切度で絞り込む、あるいは逆に適切度で絞り込んでから類似度で絞り込むことのほか、個々の事例につき類似度と適切度を並行して計算し、これらの和や重み付き和が最大となるものを最適事例として選出することも考えられる。

図２の説明に戻り、次に応答生成部２０８は最適事例検索部２０７で検索された最適事例を適宜加工することで、現在のユーザ入力にふさわしい次のシステム出力を生成する機能部である。具体的には、たとえば最適事例検索部２０７で検索された「昨日もトンカツでした！」中のキーワード「トンカツ」を、現在のユーザ入力である「お寿司、食べる？」中のキーワード「お寿司」で置換することで、「昨日もお寿司でした！」を生成する。なお、表情については特に加工しない。そして、生成されたテキストおよび表情は応答出力部２０９に引き渡されて、たとえば図１０のように画面表示されるとともに、その発話特徴が現対話記憶部２０２中の現対話の末尾に追加される。

次に、図１１はこの発明の実施の形態にかかる応答生成装置における、応答生成処理の手順を示すフローチャートである。図示する処理は本装置のユーザから、テキストおよび表情の入力があったときに開始される。

本装置はまず、そのテキスト入力部２００の形態素解析部２００ａにより、上記テキストを一文ごとかつ一形態素ごとに分割する（ステップＳ１１０１）。次にそのＤＡ特定部２００ｂにより、各文のＤＡを特定するとともに（ステップＳ１１０２）、キーワード抽出部２００ｃにより、文中のキーワードを抽出する（ステップＳ１１０３）。一方、表情入力部２０１では入力された表情の表情パラメータを算出する（ステップＳ１１０４）。なお、ステップＳ１１０１〜Ｓ１１０３とステップＳ１１０４とは順序が逆であってもよく、あるいは同時に並行して処理されるのでもよい。

そして、上記処理で得られたユーザ入力の発話特徴は現対話記憶部２０２に保存され（ステップＳ１１０５）、次に本装置はその最適事例検索部２０７により、上記入力に対する応答として最適な事例を対話事例ＤＢ２０３から検索する（ステップＳ１１０６〜Ｓ１１１１）。

すなわち、最適事例検索部２０７はまずその類似事例検索部２０７ａにより、上記入力に至る一連の発話（ここでは現在のユーザ入力および一つ前のシステム出力の２個の発話）に類似する一連の事例を対話事例ＤＢ２０３から検索し（ステップＳ１１０６）、検索されたそれぞれの事例の直後の事例を応答候補とする。

そして類似する一連の事例が複数あった場合、すなわち応答候補が複数あった場合（ステップＳ１１０７：Ｙｅｓ）は、次に適切性基準切り替え部２０５に指示して、適切性基準ＤＢ２０４内のフラグを切り替える必要があるかどうか判断させる。そして、現対話記憶部２０２に蓄積された現対話が、対話戦略ＤＢ２０６に保持された切り替えルールのいずれかの条件を満足する場合（ステップＳ１１０８：Ｙｅｓ）、適切性基準切り替え部２０５は適切性基準ＤＢ２０４内の上記フラグを上記ルールにしたがって書き換える（ステップＳ１１０９）。現対話記憶部２０２に蓄積された現対話が、対話戦略ＤＢ２０６に保持された切り替えルールのいずれの条件も満足しない場合（ステップＳ１１０８：Ｎｏ）は、何もせずに、ステップＳ１１１０へ移行する。

その後、最適事例検索部２０７はその適切度算出部２０７ｂにより、各応答候補について予測されるユーザ入力の望ましさの程度（適切性基準ＤＢ２０４で定義されている望ましい表情との類似度）、すなわち各候補の適切度を算出する（ステップＳ１１１０）。次に、この適切度が最も高い候補一つを絞り込み（ステップＳ１１１１）、この絞り込まれた候補を最適事例とする。なお、応答候補が一つのみであった場合は（ステップＳ１１０７：Ｎｏ）ステップＳ１１０８〜Ｓ１１１１は省略され、当該候補が最適事例となる。

その後、応答生成部２０８が上記処理で得られた最適事例から次のシステム出力を生成し（ステップＳ１１１２）、これを応答出力部２０９に引き渡して画面表示させる（応答出力する）とともに（ステップＳ１１１３）、その発話特徴を現対話記憶部２０２に保存する（ステップＳ１１１４）。この時点で図示するフローチャートによる処理は一旦終了し、ステップＳ１１１３で出力した応答に対するユーザ入力が再びあったときに、同一の処理が繰り返される。

以上説明した実施の形態によれば、システムからの応答を対話事例の模倣により生成するので、従来のような複雑な生成ルールを用意しなくとも、単に大量の対話事例を収集・蓄積しておくだけで、様々なドメインにおけるバリエーション豊かな対話が可能となる。話題が変化すると受け答えができなくなるようなこともなく、いつでも何らかの応答が可能なロバストな対話システムが実現できる。また、事例の検索にあたって、これまでの話の流れ（過去）やシステムがこう答えたときに予測されるユーザの反応（未来）も考慮するので、現在のユーザ入力のみに注目するのに比べて、より自然で適切な応答を行い得る。

なお、対話事例ＤＢ２０３内の対話事例は、たとえばシステムのふりをしたオペレータとユーザとを対話させることで収集してもよいし（ＷｉｚａｒｄｏｆＯＺ法。たとえば図１２に示すようなＵＩ画面を有する専用プログラムにより、オペレータとユーザとを対話させる）、あるいはユーザ間のチャットや掲示板などのデータを収集するようにしてもよい。また対話の終了後、現対話記憶部２０２に蓄積された現対話を対話事例ＤＢ２０３に追加したり、あるいは入出力の都度、入力あるいは出力された発話を逐一追加したりすれば、システムは対話を経験するごとに新たな事例を獲得・学習するので、事例のメンテナンスの手間がかからない。

なお、上述した実施の形態では表情の類似度＝感情の類似度であることを前提としたが、実際には、表情としては似ているがその背景にある感情は大きく異なるものやその逆のものなどがある。そこで、あらかじめコーパスで学習された感情分類器を用いて、ある表情パラメータで決定される表情から喜び度○％、怒り度○％といった感情値を算出し（表情をいったん感情値に落とし込むと言ってもよい）、この感情値の類似度により類似事例の検索や適切度の算出を行うようにしてもよい。

なお、上述した実施の形態では、対話戦略ＤＢ２０６内にあらかじめ適切性基準の切り替えルールを保持するようにしたが、ユーザ自身がどんな対話をしたいかによって、表情の適切性を対話の途中で動的に指定できる（上述のテキストや表情とともに、適切性の基準を入力として与える）ようにしてもよい。たとえばもっとシステムに元気づけてもらいたいユーザは、笑顔を望ましい表情、泣き顔を望ましくない表情として指定することで、自分がより笑顔になれるような肯定的な応答をシステムから期待できるようになる。なお、対話の途中でなく、対話の最初に上記基準を入力することももちろん可能である。

なお、本発明の適用シーンとしては具体的には、たとえば、
（１）ペットロボット
子供や一人暮らしのお年寄りなどの話し相手になるロボット。ユーザの表情を取り込んで認識するためのカメラや、認識した表情・各種設定などを表示するためのディスプレイ、音声認識・合成機能などを搭載してもよい。

（２）Ｗｅｂポータルサービス
図１３のようなチャットサービス（ポータルページにチャットキャラがいて全ユーザと会話するサービスや、ユーザのマイＨＰにそれぞれ別のチャットキャラを置けるサービスなど）、ｂｌｏｇコメントサービス（記事に対し自動的にコメントをつけるサービス）、図１４のような掲示板自動発言サービス（掲示板を監視し、適宜自動発言を行うサービス。既出の質問への自動回答や、反応してあげることによるユーザ入力の動機付けなど）

（３）ｅ−ｌｅａｒｎｉｎｇ
図１５のように、先生やアシスタントなどとしてユーザの学習をサポートするエージェント

（４）会議
会議に参加し、適宜関連情報を提供して、話題を展開させる／話題をまとめるきっかけ発言をするエージェント
などが考えられる。

なお、本実施の形態で説明した応答生成方法は、あらかじめ用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク１０５、フレキシブルディスク１０７、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。

（付記１）データベース中の複数の事例の中からユーザに対する応答の候補を検索する検索工程と、
前記検索工程で検索された候補が複数あった場合に、当該各候補を応答とした場合に予測される前記ユーザの表情の望ましさの程度を算出する第１の算出工程と、
前記第１の算出工程で算出された望ましさの程度から前記各候補の適切度を算出する第２の算出工程と、
前記第２の算出工程で算出された適切度が最大となる候補から前記ユーザに対する応答を生成する生成工程と、
をコンピュータに実行させることを特徴とする応答生成プログラム。

（付記２）前記第１の算出工程では、あらかじめ望ましいか望ましくないかが定義された表情との類似度を算出することで前記各表情の望ましさの程度を算出することを特徴とする前記付記１に記載の応答生成プログラム。

（付記３）前記第１の算出工程では、対話の現在の状況に応じて望ましいか望ましくないかが動的に定義される表情との類似度を算出することで前記各表情の望ましさの程度を算出することを特徴とする前記付記１に記載の応答生成プログラム。

（付記４）前記第１の算出工程では、前記ユーザからの指定に応じて望ましいか望ましくないかが動的に定義される表情との類似度を算出することで前記各表情の望ましさの程度を算出することを特徴とする前記付記１に記載の応答生成プログラム。

（付記５）データベース中の複数の事例の中からユーザに対する応答の候補を検索する検索工程と、
前記検索工程で検索された候補が複数あった場合に、当該各候補を応答とした場合に予測される前記ユーザの表情の望ましさの程度を算出する第１の算出工程と、
前記第１の算出工程で算出された望ましさの程度から前記各候補の適切度を算出する第２の算出工程と、
前記第２の算出工程で算出された適切度が最大となる候補から前記ユーザに対する応答を生成する生成工程と、
を含むことを特徴とする応答生成方法。

（付記６）前記第１の算出工程では、あらかじめ望ましいか望ましくないかが定義された表情との類似度を算出することで前記各表情の望ましさの程度を算出することを特徴とする前記付記５に記載の応答生成方法。

（付記７）前記第１の算出工程では、対話の現在の状況に応じて望ましいか望ましくないかが動的に定義される表情との類似度を算出することで前記各表情の望ましさの程度を算出することを特徴とする前記付記５に記載の応答生成方法。

（付記８）前記第１の算出工程では、前記ユーザからの指定に応じて望ましいか望ましくないかが動的に定義される表情との類似度を算出することで前記各表情の望ましさの程度を算出することを特徴とする前記付記５に記載の応答生成方法。

（付記９）データベース中の複数の事例の中からユーザに対する応答の候補を検索する検索手段と、
前記検索手段により検索された候補が複数あった場合に、当該各候補を応答とした場合に予測される前記ユーザの表情の望ましさの程度を算出する第１の算出手段と、
前記第１の算出手段により算出された望ましさの程度から前記各候補の適切度を算出する第２の算出手段と、
前記第２の算出手段により算出された適切度が最大となる候補から前記ユーザに対する応答を生成する生成手段と、
を備えることを特徴とする応答生成装置。

（付記１０）前記第１の算出手段は、あらかじめ望ましいか望ましくないかが定義された表情との類似度を算出することで前記各表情の望ましさの程度を算出することを特徴とする前記付記９に記載の応答生成装置。

（付記１１）前記第１の算出手段は、対話の現在の状況に応じて望ましいか望ましくないかが動的に定義される表情との類似度を算出することで前記各表情の望ましさの程度を算出することを特徴とする前記付記９に記載の応答生成装置。

（付記１２）前記第１の算出手段は、前記ユーザからの指定に応じて望ましいか望ましくないかが動的に定義される表情との類似度を算出することで前記各表情の望ましさの程度を算出することを特徴とする前記付記９に記載の応答生成装置。

以上のように、本発明にかかる応答生成プログラム、応答生成方法、および応答生成装置は、ユーザからの入力に対してシステムが自動応答する用途に有用であり、特に対話のドメインが多岐にわたるために、従来技術では応答生成ルールの作成・管理に多大なコストがかかってしまう場合に適している。

この発明の実施の形態にかかる応答生成装置のハードウエア構成を示す説明図である。この発明の実施の形態にかかる応答生成装置の機能構成を示す説明図である。顔アイコンの一例を示す説明図である。顔アイコン上の特徴点の配置を示す説明図である。顔アイコンの他の一例を示す説明図である。現対話記憶部２０２に保持される発話特徴の内容を模式的に示す説明図である。対話事例ＤＢ２０３の内容を模式的に示す説明図である。適切性基準ＤＢ２０４の内容を模式的に示す説明図である。最適事例検索部２０７による最適事例の検索の様子を模式的に示す説明図である。ユーザ入力に対するシステムからの出力の一例を示す説明図である。この発明の実施の形態にかかる応答生成装置における、応答生成処理の手順を示すフローチャートである。対話事例を収集する専用プログラムのＵＩ画面の一例を示す説明図である。本発明のチャットサービスへの適用例を示す説明図である。本発明の掲示板サービスへの適用例を示す説明図である。本発明のｅ−ｌｅａｒｎｉｎｇへの適用例を示す説明図である。

符号の説明

２００テキスト入力部
２００ａ形態素解析部
２００ｂＤＡ特定部
２００ｃキーワード抽出部
２０１表情入力部
２０２現対話記憶部
２０３対話事例ＤＢ
２０４適切性基準ＤＢ
２０５適切性基準切り替え部
２０６対話戦略ＤＢ
２０７最適事例検索部
２０７ａ類似事例検索部
２０７ｂ適切度算出部
２０８応答生成部
２０９応答出力部

Claims

データベース中の複数の事例の中からユーザに対する応答の候補を検索する検索工程と、
前記検索工程で検索された候補が複数あった場合に、当該各候補を応答とした場合に予測される前記ユーザの表情の望ましさの程度を算出する第１の算出工程と、
前記第１の算出工程で算出された望ましさの程度から前記各候補の適切度を算出する第２の算出工程と、
前記第２の算出工程で算出された適切度が最大となる候補から前記ユーザに対する応答を生成する生成工程と、
をコンピュータに実行させることを特徴とする応答生成プログラム。
前記第１の算出工程では、あらかじめ望ましいか望ましくないかが定義された表情との類似度を算出することで前記各表情の望ましさの程度を算出することを特徴とする前記請求項１に記載の応答生成プログラム。
前記第１の算出工程では、対話の現在の状況に応じて望ましいか望ましくないかが動的に定義される表情との類似度を算出することで前記各表情の望ましさの程度を算出することを特徴とする前記請求項１に記載の応答生成プログラム。
データベース中の複数の事例の中からユーザに対する応答の候補を検索する検索工程と、
前記検索工程で検索された候補が複数あった場合に、当該各候補を応答とした場合に予測される前記ユーザの表情の望ましさの程度を算出する第１の算出工程と、
前記第１の算出工程で算出された望ましさの程度から前記各候補の適切度を算出する第２の算出工程と、
前記第２の算出工程で算出された適切度が最大となる候補から前記ユーザに対する応答を生成する生成工程と、
を含むことを特徴とする応答生成方法。
データベース中の複数の事例の中からユーザに対する応答の候補を検索する検索手段と、
前記検索手段により検索された候補が複数あった場合に、当該各候補を応答とした場合に予測される前記ユーザの表情の望ましさの程度を算出する第１の算出手段と、
前記第１の算出手段により算出された望ましさの程度から前記各候補の適切度を算出する第２の算出手段と、
前記第２の算出手段により算出された適切度が最大となる候補から前記ユーザに対する応答を生成する生成手段と、
を備えることを特徴とする応答生成装置。