JP2005157494A

JP2005157494A - 会話制御装置及び会話制御方法

Info

Publication number: JP2005157494A
Application number: JP2003391305A
Authority: JP
Inventors: Atsushi Fujimoto; 淳富士本; Seiyo Ko; 声揚黄; Yutaka Katsukura; 裕勝倉
Original assignee: P to PA Inc; Aruze Corp
Current assignee: Universal Entertainment Corp; P to PA Inc
Priority date: 2003-11-20
Filing date: 2003-11-20
Publication date: 2005-06-16
Also published as: AU2004229094A1; ZA200409338B; EP1533788A1; US7676369B2; CN1637740B; CN1637740A; US20050144013A1

Abstract

【課題】会話内容や会話の状態と外部から得られた情報との双方に基づいて会話制御を行い、より自然な回答を行うことができる会話制御技術を提供する。
【解決手段】この会話制御装置は、複数の話題特定情報を記憶する会話データベースと、従前の会話及び従前の回答により定まる談話履歴を記憶し、この談話履歴により定まる話題特定情報と発話情報とを用いて回答文を選択する会話制御部と、環境認知情報を取得する環境認知部とを有しており、環境認知部は、取得した環境認知情報に基づきイベント情報を生成し、会話制御部は、イベント情報に基づいて回答文を選択する。
【選択図】図１

Description

本発明は、会話制御装置及び会話制御方法に関し、より詳しくは話者の顔認識、位置、性別、声紋認識などの環境認知情報を用いて、話者の発話に対する回答をなす会話制御を行う会話制御装置及び会話制御方法に関する。

近年、コンピュータを中心とした情報処理の手段として開発され進展してきたディジタル信号処理、高集積度ＬＳＩ製造技術、ＤＶＤなどディスクメディアの微細精密加工製造技術の高度化を背景にして、機械が自然な音声を話すようになったり、人の発する言葉を理解して適切な回答を返すことができる会話制御技術が提供されるようになってきている（例えば、特許文献１）。

このような会話制御技術においては、ユーザ（話者）の発話をキーボードなどを介して得て、発話の内容のみに基づいて会話制御を行っていた。

一方、ユーザの音声や画像など、発話内容以外の情報に基づいて、自律的に行動制御を行う技術も提案されている（例えば、特許文献２）。
特開２００２−３５８３０４号公報特開２００３−１１１９８１号公報（段落［００３８］）

上記のような従来の会話制御技術では、発話内容以外の要因、例えば話者の表情、性別、年齢などを加味して回答を行うことは行われていなかった。

また、発話内容以外の情報に基づいて自律的に行動制御を行う技術においては、外部から得た認識結果のみに基づいて行動制御するものであるが、かかる技術においては過去における会話内容を考慮していないため、不自然な行動制御となるおそれがある。例えば、外部から得た認識結果が「怒った顔」という情報であった場合、それまでの会話が良好な関係であっても「怒った顔」のみに基づいた行動制御となってしまう。

本発明の目的は、会話内容や会話の状態と外部から得られた情報との双方に基づいて会話制御を行い、より自然な回答を行うことができる会話制御技術を提供することにある。

上記課題を解決するための手段として、本発明は以下のような特徴を有している。
本発明の第１の態様は、ユーザからの発話に応答する回答を出力する会話制御装置として提案される。

この会話制御装置は、複数の話題特定情報を記憶する会話データベース手段（会話データベース）と、従前の会話及び従前の回答により定まる談話履歴を記憶し、この談話履歴により定まる話題特定情報と発話情報とを用いて回答文を選択する会話制御手段（会話制御部）と、環境認知情報を取得する環境認知手段（環境認知部）とを有しており、環境認知手段は、取得した環境認知情報に基づきイベント情報を生成し、会話制御手段は、イベント情報に基づいて回答文を選択する。

ここにいう「環境認知情報」は話者及び／又は話者周辺の領域から得られる情報をいい、たとえば会話制御装置に取り付けられたＣＣＤカメラ、赤外線センサ、マイクなどが出力する情報を言う。「イベント情報」は環境認知情報を解釈することにより得られる、会話制御装置外部の状況を示す情報であって、例えば話者の感情、性別、年代、話者の特定、話者の接近などを示す情報を言う。

この会話制御装置によれば、ユーザの発話の内容だけでなく、環境認知手段から得られる情報（例えば、顔認識、感情推定、性別認識、年代認識、声紋認識、話者位置認識、など）に基づいて会話制御を行うので、会話がなされている状況に応じた回答を出力することが可能となる。

本発明の第２の態様は、ユーザからの発話に応答する回答を出力する会話制御装置として提案される。
この会話制御装置は、複数の話題特定情報を記憶する会話データベース手段（会話データベース）と、従前の会話及び従前の回答により定まる談話履歴を記憶し、この談話履歴により定まる話題特定情報と発話情報とを用いて回答文を選択する会話制御手段（会話制御部）と、環境認知情報を取得する環境認知手段（環境認知部）と、会話制御装置の演ずるキャラクタ及び話者の少なくとも一方の感情を示す感情状態情報を記憶し、更新する感情状態情報管理手段（感情状態情報管理部）とを有しており、環境認知手段は取得した環境認知情報に基づきイベント情報を生成し、感情状態情報管理手段はイベント情報に応じて感情状態情報を更新し、会話制御手段は、感情状態情報に基づいて回答文を選択する。

ここにいう「感情状態情報」は、キャラクタ及び／又は話者の感情を示す情報をいう。「環境認知情報」「イベント情報」の意味するところは、第１の態様における意味と同様である。

本態様にかかる会話制御装置によれば、ユーザの発話の内容だけでなく、環境認知手段から得られる情報（例えば、顔認識、感情推定、性別認識、年代認識、声紋認識、話者位置認識、など）に基づいて会話制御を行うので、会話がなされている状況に応じた回答を出力することが可能となるとともに、キャラクタの感情変化を反映させつつ、会話がなされている状況に即した適切な回答を出力することが可能となる。

本発明の第３の態様は、ユーザからの発話に応答する回答を出力する会話制御方法として提案される。
この会話制御方法は、複数の話題特定情報と、各話題特定情報について定められた１又は複数の話題タイトルと、各話題タイトルについて定められた一又は複数の回答文と、回答文に対応して定められたイベント情報フラグとを予め記憶させるステップと、会話制御装置外部の環境から環境認知情報を取得し、環境認知情報からイベント情報を生成するステップと、従前の会話及び従前の回答文により定まる談話履歴により定まる話題特定情報と発話情報とを照合して、当該話題特定情報のいずれかについて定められた話題タイトルのいずれかを取得し、その話題タイトルに対応する複数の回答文から前記イベント情報に応じたイベント情報フラグに対応する回答文を選択するステップとを有している。

ここにいう「環境認知情報」は話者及び／又は話者周辺の領域から得られる情報をいい、たとえば会話制御装置に取り付けられたＣＣＤカメラ、赤外線センサ、マイクなどが出力する情報を言う。「イベント情報」は環境認知情報を解釈することにより得られる、会話制御装置外部の状況を示す情報であって、例えば話者の感情、性別、年代、話者の特定、話者の接近などを示す情報をいう。

この会話制御方法によれば、ユーザの発話の内容だけでなく、環境認知手段から得られる情報（例えば、顔認識、感情推定、性別認識、年代認識、声紋認識、話者位置認識、など）に基づいて会話制御を行うので、会話がなされている状況に応じた回答を出力することが可能となる。

本発明の第４の態様は、ユーザからの発話に応答する回答を出力する会話制御方法として提案される。
この会話制御方法は、複数の話題特定情報と、各話題特定情報について定められた１又は複数の話題タイトルと、各話題タイトルについて定められた一又は複数の回答文とを予め記憶させるステップと、外部の環境から環境認知情報を取得し、環境認知情報からイベント情報を生成するステップと、キャラクタ及び話者の少なくとも一方の感情を示す感情状態情報を前記イベント情報に応じて更新するステップと、従前の会話及び従前の回答文により定まる談話履歴により定まる話題特定情報と発話情報とを照合して、当該話題特定情報のいずれかについて定められた話題タイトルのいずれかを取得し、その話題タイトルに対応する複数の回答文から前記イベント情報及び感情状態情報に応じた回答文を選択するステップとを有することを特徴とする。

ここにいう「感情状態情報」は、キャラクタ及び／又は話者の感情を示す情報をいう。「環境認知情報」「イベント情報」の意味するところは、第３の態様における意味と同様である。

本態様にかかる会話制御方法によれば、ユーザの発話の内容だけでなく、外部から得られる情報（例えば、顔認識、感情推定、性別認識、年代認識、声紋認識、話者位置認識、など）に基づいて会話制御を行うので、会話がなされている状況に応じた回答を出力することが可能となるとともに、キャラクタの感情変化を反映させつつ、会話がなされている状況に即した適切な回答を出力することが可能となる。

本発明によれば、会話内容や会話の状態と外部から得られた情報との双方に基づいて会話制御を行い、より自然な回答を行うことが可能となる。

以下に図面を参照しながら本発明の第１の実施の形態を説明する。
図１に、本実施の形態にかかる会話制御装置の外観を示す斜視図である。
図示の会話制御装置１は、レストランなどのテーブル上に設置され、客（ユーザ）の質問や注文などに応答しつつ、客からのオーダーを取るレストラン向けテーブルオーダー端末装置である。

会話制御装置１は、ユーザインターフェイスを表示する液晶表示部１１と、話者の発話を取得する入力手段として機能するとともに声紋や話者位置を特定することにより話者特定を行うためのセンサとして機能する３Ｄ指向マイク１２Ａ、１２Ｂ，１２Ｃ、１２Ｄと、主に話者の映像を撮影するためのＣＣＤカメラ１３と，話者の接近等を検知するための赤外線センサ１４と、会話制御装置１が回答するために発する音声などを出力するためのスピーカ１５Ｌ，１５Ｒとを有している。

会話制御装置１は、話者の発話を３Ｄ指向マイク１２Ａ、１２Ｂ，１２Ｃ、１２Ｄにて取得する。また、３Ｄ指向マイク１２Ａ、１２Ｂ，１２Ｃ、１２Ｄ、ＣＣＤカメラ１３，赤外線センサ１４により外部を認識して、環境認知情報を得る。会話制御装置１は、話者の発話及び環境認知情報に基づいて回答を出力する。回答はスピーカ１５Ｌ，１５Ｒによって音声情報として出力されてもよいし、液晶表示部１１に文字・画像データとして出力されてもよい。

また、会話制御装置１は、液晶表示部１１にユーザ（客）のオーダー選択を助けるためのユーザインターフェイスを表示するようにしてもよく、さらにオーダー決定後料理が出されるまでの時間に、ユーザに遊んで貰うための娯楽用コンテンツ、たとえば心理診断コンテンツなどを表示するようにしてもよい。

［１．会話制御装置の構成例］
次に、会話制御装置１の内部構成について説明する。
［全体構成］
図２は、本実施の形態に係る会話制御装置１の構成例を示す機能ブロック図である。

会話制御装置１は、その筐体内部に、たとえばコンピュータ、ワークステーションなどの情報処理装置若しくは情報処理装置に相当するハードウエアを搭載している。会話制御装置１が有する情報処理装置は、演算処理装置（ＣＰＵ）、主メモリ（ＲＡＭ）、読出し専用メモリ（ＲＯＭ）、入出力装置（Ｉ／Ｏ）、ハードディスク装置等の外部記憶装置を具備している装置で構成されている。前記ＲＯＭ、もしくは外部記憶装置などに情報処理装置を会話制御装置１として機能させるためのプログラム、もしくは会話制御方法をコンピュータに実行させるためのプログラムが記憶されており、該プログラムを主メモリ上に載せ、ＣＰＵがこれを実行することにより会話制御装置１又は会話処理方法が実現される。また、上記プログラムは必ずしも当該装置内の記憶装置に記憶されていなくともよく、磁気ディスク、光ディスク、光磁気ディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Video Disc）などのコンピュータ読み取り可能なプログラム記録媒体や、外部の装置（例えば、ＡＳＰ（アプリケーション・サービス・プロバイダ）のサーバなど）から提供され、これを主メモリに乗せる構成であっても良い。

図２に示すように、会話制御装置１は、入力部１００と、音声認識部２００と、会話制御部３００と、文解析部４００と、会話データベース５００と、出力部６００と、音声認識辞書記憶部７００と、環境認知部８００と、ユーザインタフェース制御部９００とを備えている。

［入力部］
入力部１００は、３Ｄ指向マイク１２Ａ〜１２Ｄに相当し、利用者から入力された入力情報を取得するものである。入力部１００は、取得した発話内容に対応する音声を音声信号として音声認識部２００に出力する。なお、入力部１００が３Ｄ指向マイク１２Ａ〜１２Ｄである場合には、入力部１００は環境認知部８００としても機能する。

［音声認識部］
音声認識部２００は、入力部１００で取得した発話内容に基づいて、発話内容に対応する文字列を特定するものである。具体的には、入力部１００から音声信号が入力された音声認識部２００は、入力された音声信号に基づいて、この音声信号を、音声認識辞書記憶部７００に格納されている辞書および会話データベース５００と照合して、音声信号から推測される音声認識結果を出力する。なお、図３に示す構成例では、音声認識部２００は、会話制御部３００に会話データベース５００の記憶内容の取得を要求し、会話制御部３００が要求に応じて取得した会話データベース５００の記憶内容を受け取るようになっているが、音声認識部２００が直接会話データベース５００の記憶内容を取得して音声信号との比較を行う構成であってもかまわない。

［音声認識部の構成例］
図３に、音声認識部２００の構成例を示す機能ブロック図を示す。音声認識部２００は、特徴抽出部２００Ａと、バッファメモリ（ＢＭ）２００Ｂと、単語照合部２００Ｃと、バッファメモリ（ＢＭ）２００Ｄと、候補決定部２００Ｅと、単語仮説絞込部２００Ｆを有している。単語照合部２００Ｃ及び単語仮説絞込部２００Ｆは音声認識辞書記憶部７００に接続されており、候補決定部２００Ｅは会話データベース５００に接続されている。

単語照合部２００Ｃに接続された音声認識辞書記憶部７００は、音素隠れマルコフモデル（以下、隠れマルコフモデルをＨＭＭという。）を記憶している。音素ＨＭＭは、各状態を含んで表され、各状態はそれぞれ以下の情報を有する。（ａ）状態番号、（ｂ）受理可能なコンテキストクラス、（ｃ）先行状態、及び後続状態のリスト、（ｄ）出力確率密度分布のパラメータ、及び（ｅ）自己遷移確率及び後続状態への遷移確率から構成されている。なお、本実施形態において用いる音素ＨＭＭは、各分布がどの話者に由来するかを特定する必要があるため、所定の話者混合ＨＭＭを変換して生成する。ここで、出力確率密度関数は３４次元の対角共分散行列をもつ混合ガウス分布である。また、単語照合部２００Ｃに接続された音声認識辞書記憶部７００は単語辞書を記憶している。単語辞書は、音素ＨＭＭの各単語毎にシンボルで表した読みを示すシンボル列を格納する。

話者の発声音声はマイクロホンなどに入力されて音声信号に変換された後、特徴抽出部２００Ａに入力される。特徴抽出部２００Ａは、入力された音声信号をＡ／Ｄ変換した後、特徴パラメータを抽出し、これを出力する。特徴パラメータを抽出し、これを出力する方法としては様々なものが考えられるが、例えば一例としては、ＬＰＣ分析を実行し、対数パワー、１６次ケプストラム係数、Δ対数パワー及び１６次Δケプストラム係数を含む３４次元の特徴パラメータを抽出する方法などが挙げられる。抽出された特徴パラメータの時系列はバッファメモリ（ＢＭ）２００Ｂを介して単語照合部２００Ｃに入力される。

単語照合部２００Ｃは、ワン−パス・ビタビ復号化法を用いて、バッファメモリ２００Ｂを介して入力される特徴パラメータのデータに基づいて、音声認識辞書記憶部７００に記憶された音素ＨＭＭと単語辞書とを用いて単語仮説を検出し、尤度を計算して出力する。ここで、単語照合部２００Ｃは、各時刻の各ＨＭＭの状態毎に、単語内の尤度と発声開始からの尤度を計算する。尤度は、単語の識別番号、単語の開始時刻、先行単語の違い毎に個別にもつ。また、計算処理量の削減のために、音素ＨＭＭ及び単語辞書とに基づいて計算される総尤度のうちの低い尤度のグリッド仮説を削減するようにしてもよい。単語照合部２００Ｃは、検出した単語仮説とその尤度の情報を発声開始時刻からの時間情報（具体的には、例えばフレーム番号）とともにバッファメモリ２００Ｄを介して候補決定部２００Ｅ及び単語仮説絞込部２００Ｆに出力する。

候補決定部２００Ｅは、会話制御部３００を参照して、検出した単語仮説と所定の談話空間内の話題特定情報とを比較し、検出した単語仮説の内、所定の談話空間内の話題特定情報と一致するものがあるか否かを判定し、一致するものがある場合は、その一致する単語仮説を認識結果として出力し、一方一致するものがない場合は、単語仮説絞込部２００Ｆに単語仮説の絞込を行うよう要求する。

候補決定部２００Ｅの動作例を説明する。今、単語照合部２００Ｃが複数の単語仮説「カンタク」「カタク」「カントク」およびその尤度（認識率）を出力し、所定の談話空間は「映画」に関するものでありその話題特定情報には「カントク（監督）」は含まれているが、「カンタク（干拓）」及び「カタク（仮託）」は含まれていないとする。また「カンタク」「カタク」「カントク」の尤度（認識率）は「カンタク」が最も高く「カントク」は最も低く、「カタク」は両者の中間であったとする。

上記の状況において、候補決定部２００Ｅは、検出した単語仮説と所定の談話空間内の話題特定情報とを比較して、単語仮説「カントク」が、所定の談話空間内の話題特定情報と一致するものであると判定し、単語仮説「カントク」を認識結果として出力し、会話制御部に渡す。このように処理することにより、現在扱われている話題「映画」に関連した「カントク（監督）」が、より上位の尤度（認識率）を有する単語仮説「カンタク」「カタク」に優先されて選択され、その結果会話の文脈に即した音声認識結果を出力することが可能となる。

一方、一致するものがない場合は、候補決定部２００Ｅからの単語仮説の絞込を行う要求に応じて単語仮説絞込部２００Ｆが認識結果を出力するよう動作する。単語仮説絞込部２００Ｆは、単語照合部２００Ｃからバッファメモリ２００Ｄを介して出力される複数個の単語仮説に基づいて、音声認識辞書記憶部７００に記憶された統計的言語モデルを参照して、終了時刻が等しく開始時刻が異なる同一の単語の単語仮説に対して、当該単語の先頭音素環境毎に、発声開始時刻から当該単語の終了時刻に至る計算された総尤度のうちの最も高い尤度を有する１つの単語仮説で代表させるように単語仮説の絞り込みを行った後、絞り込み後のすべての単語仮説の単語列のうち、最大の総尤度を有する仮説の単語列を認識結果として出力する。本実施形態においては、好ましくは、処理すべき当該単語の先頭音素環境とは、当該単語より先行する単語仮説の最終音素と、当該単語の単語仮説の最初の２つの音素とを含む３つの音素並びをいう。

単語仮説絞込部２００Ｆによる単語絞込処理の例を図３を参照しながら説明する。図４は、単語仮説絞込部２００Ｆの処理の一例を示すタイミングチャートである。
例えば（ｉ−１）番目の単語Ｗi-１の次に、音素列ａ１，ａ２，…，ａnからなるｉ番目の単語Ｗiがくるときに、単語Ｗi-１の単語仮説として６つの仮説Ｗａ，Ｗｂ，Ｗｃ，Ｗｄ，Ｗｅ，Ｗｆが存在しているとする。ここで、前者３つの単語仮説Ｗａ，Ｗｂ，Ｗｃの最終音素は／ｘ／であるとし、後者３つの単語仮説Ｗｄ，Ｗｅ，Ｗｆの最終音素は／ｙ／であるとする。終了時刻ｔeにおいて単語仮説Ｗａ，Ｗｂ，Ｗｃを前提とする３つの仮説と、単語仮説Ｗｄ，Ｗｅ，Ｗｆを前提とする１の仮説が残っているものとすると、先頭音素環境が等しい前者３つ仮説のうち、総尤度が最も高い仮説一つを残し、その他を削除する。

なお、単語仮説Ｗｄ，Ｗｅ，Ｗｆを前提とする仮説は先頭音素環境が他の３つの仮説と違うため、すなわち、先行する単語仮説の最終音素がｘではなくｙであるため、この単語仮説Ｗｄ，Ｗｅ，Ｗｆを前提とする仮説は削除しない。すなわち、先行する単語仮説の最終音素毎に１つのみ仮説を残す。

以上の実施形態においては、当該単語の先頭音素環境とは、当該単語より先行する単語仮説の最終音素と、当該単語の単語仮説の最初の２つの音素とを含む３つの音素並びとして定義されているが、本発明はこれに限らず、先行する単語仮説の最終音素と、最終音素と連続する先行する単語仮説の少なくとも１つの音素とを含む先行単語仮説の音素列と、当該単語の単語仮説の最初の音素を含む音素列とを含む音素並びとしてもよい。
以上の実施の形態において、特徴抽出部２００Ａと、単語照合部２００Ｃと、候補決定部２００Ｅと、単語仮説絞込部２００Ｆとは、例えば、デジタル電子計算機などのコンピュータで構成され、バッファメモリ２００Ｂ，２００Ｄと、音声認識辞書記憶部７００とは、例えばハードデイスクメモリなどの記憶装置で構成される。

以上実施形態においては、単語照合部２００Ｃ、単語仮説絞込部２００Ｆとを用いて音声認識を行っているが、本発明はこれに限らず、例えば、音素ＨＭＭを参照する音素照合部と、例えばＯｎｅ
ＰａｓｓＤＰアルゴリズムを用いて統計的言語モデルを参照して単語の音声認識を行う音声認識部とで構成してもよい。
また、本実施の形態では、音声認識部２００は会話制御装置１の一部分として説明するが、音声認識部２００、音声認識辞書記憶部７００、及び会話データベース５００より構成される、独立した音声認識装置とすることも可能である。

［音声認識部の動作例］
つぎに図５を参照しながら音声認識部２００の動作について説明する。図５は、音声認識部２００の動作例を示すフロー図である。入力部１００より音声信号を受け取ると、音声認識部２００は入力された音声の特徴分析を行い、特徴パラメータを生成する（ステップＳ５０１）。次に、この特徴パラメータと音声認識辞書記憶部７００に記憶された音素ＨＭＭ及び言語モデルとを比較して、所定個数の単語仮説及びその尤度を取得する（ステップＳ５０２）。次に、音声認識部２００は、取得した所定個数の単語仮説と検出した単語仮説と所定の談話空間内の話題特定情報とを比較し、検出した単語仮説の内、所定の談話空間内の話題特定情報と一致するものがあるか否かを判定する（ステップＳ５０３、Ｓ５０４）。一致するものがある場合は、音声認識部２００はその一致する単語仮説を認識結果として出力する（ステップＳ５０５）。一方、一致するものがない場合は、音声認識部２００は取得した単語仮説の尤度に従って、最大尤度を有する単語仮説を認識結果として出力する（ステップＳ５０６）。

［音声認識辞書記憶部］
再び、図２に戻って、会話制御装置１の構成例の説明を続ける。
音声認識辞書記憶部７００は、標準的な音声信号に対応する文字列を格納するものである。この照合をした音声認識部２００は、その音声信号に対応する単語仮説に対応する文字列を特定し、その特定した文字列を文字列信号として会話制御部３００に出力する。

［文解析部］
次に、図６を参照しながら文解析部４００の構成例について説明する。図６は、会話制御装置１の部分拡大ブロック図であって、会話制御部３００及び文解析部４００の具体的構成例を示すブロック図である。なお、図６においては、会話制御部３００、文解析部４００、および会話データベース５００のみ図示しており、その他の構成要素は表示を省略している。

前記文解析部４００は、入力部１００又は音声認識部２００で特定された文字列を解析するものである。この文解析部４００は、本実施の形態では、図６に示すように、文字列特定部４１０と、形態素抽出部４２０と、形態素データベース４３０と、入力種類判定部４４０と、発話種類データベース４５０とを有している。文字列特定部４１０は、入力部１００及び音声認識部２００で特定された一連の文字列を一文節毎に区切るものである。この一文節とは、文法の意味を崩さない程度に文字列をできるだけ細かく区切った一区切り文を意味する。具体的に、文字列特定部４１０は、一連の文字列の中に、ある一定以上の時間間隔があるときは、その部分で文字列を区切る。文字列特定部４１０は、その区切った各文字列を形態素抽出部４２０及び入力種類判定部４４０に出力する。尚、以下で説明する「文字列」は、一文節毎の文字列を意味するものとする。

［形態素抽出部］
形態素抽出部４２０は、文字列特定部４１０で区切られた一文節の文字列に基づいて、その一文節の文字列の中から、文字列の最小単位を構成する各形態素を第一形態素情報として抽出するものである。ここで、形態素とは、本実施の形態では、文字列に現された語構成の最小単位を意味するものとする。この語構成の最小単位としては、例えば、名詞、形容詞、動詞などの品詞が挙げられる。

各形態素は、図７に示すように、本実施の形態ではm１、m２、m３…、と表現することができる。図７は、文字列とこの文字列から抽出される形態素との関係を示す図である。図７に示すように、文字列特定部４１０から文字列が入力された形態素抽出部４２０は、入力された文字列と、形態素データベース４３０に予め格納されている形態素群（この形態素群は、それぞれの品詞分類に属する各形態素についてその形態素の見出し語・読み・品詞・活用形などを記述した形態素辞書として用意されている）とを照合する。その照合をした形態素抽出部４２０は、その文字列の中から、予め記憶された形態素群のいずれかと一致する各形態素（m１、m２、…）を抽出する。この抽出された各形態素を除いた要素（n１、n２、n３…）は、例えば助動詞等が挙げられる。

この形態素抽出部４２０は、抽出した各形態素を第一形態素情報として話題特定情報検索蔀３２０に出力する。なお、第一形態素情報は構造化されている必要はない。ここで「構造化」とは、文字列の中に含まれる形態素を品詞等に基づいて分類し配列することをいい、たとえば発話文である文字列を、「主語＋目的語＋述語」などの様に、所定の順番で形態素を配列してなるデータに変換することを言う。もちろん、構造化した第一形態素情報を用いたとしても、それが本実施の形態を実現をさまたげることはない。

［入力種類判定部］
入力種類判定部４４０は、文字列特定部４１０で特定された文字列に基づいて、発話内容の種類（発話種類）を判定するものである。この発話種類は、発話内容の種類を特定する情報であって、本実施の形態では、例えば図８に示す「発話文のタイプ」を意味する。図８は、「発話文のタイプ」と、その発話文のタイプを表す二文字のアルファベット、及びその発話文のタイプに該当する発話文の例を示す図である。

ここで、「発話文のタイプ」は、本実施の形態では、図８に示すように、陳述文（D ; Declaration）、時間文（T ; Time）、場所文（L ; Location）、反発文（N ; Negation）などから構成される。この各タイプから構成される文は、肯定文又は質問文で構成される。「陳述文」とは、利用者の意見又は考えを示す文を意味するものである。この陳述文は本実施の形態では、図８に示すように、例えば"私は佐藤が好きです"などの文が挙げられる。「場所文」とは、場所的な概念を伴う文を意味するものである。「時間文」とは、時間的な概念を伴う文を意味するものである。「反発文」とは、陳述文を否定するときの文を意味する。「発話文のタイプ」についての例文は図７に示す通りである。

入力種類判定部４４０が「発話文のタイプ」を判定するには、入力種類判定部４４０は、本実施の形態では、図９に示すように、陳述文であることを判定するための定義表現辞書、反発文であることを判定するための反発表現辞書等を用いる。具体的に、文字列特定部４１０から文字列が入力された入力種類判定部４４０は、入力された文字列に基づいて、その文字列と発話種類データベース４５０に格納されている各辞書とを照合する。その照合をした入力種類判定部４４０は、その文字列の中から、各辞書に関係する要素を抽出する。

この入力種類判定部４４０は、抽出した要素に基づいて、「発話文のタイプ」を判定する。例えば、入力種類判定部４４０は、ある事象について陳述している要素が文字列の中に含まれる場合には、その要素が含まれている文字列を陳述文として判定する。入力種類判定部４４０は、判定した「発話文のタイプ」を回答取得部３５０に出力する。

［会話データベース］
次に、会話データベース５００が記憶するデータのデータ構成例について図１０を参照しながら説明する。図１０は、会話データベース５００が記憶するデータの構成例を示す概念図である。

前記会話データベース５００は、図１０に示すように、話題を特定するための話題特定情報８１０を予め複数記憶する。又、それぞれの話題特定情報８１０は、他の話題特定情報８１０と関連づけられていてもよく、例えば、図１０に示す例では、話題特定情報Ｃ（８１０）が特定されると、この話題特定情報Ｃ（８１０）に関連づけられている他の話題特定情報Ａ（８１０）、話題特定情報Ｂ（８１０），話題特定情報Ｄ（８１０）が定まるように記憶されている。

具体的には、話題特定情報８１０は、本実施の形態では、利用者から入力されると予想される入力内容又は利用者への回答文に関連性のある「キーワード」を意味する。

話題特定情報８１０には、一又は複数の話題タイトル８２０が対応付けられて記憶されている。話題タイトル８２０は、一つの文字、複数の文字列又はこれらの組み合わせからなる形態素により構成されている。各話題タイトル８２０には、利用者への回答文８３０が対応付けられて記憶されている。また、回答文８３０の種類を示す複数の回答種類は、回答文８３０に対応付けられている。

さらに、回答文８３０にはイベント情報フラグ８４０が対応付けて記憶されている。イベント情報フラグ８４０は、会話制御装置１が外部を認識して得た環境認知情報に基づいて生成される情報であって、例えば話者の感情を推定した情報、話者の性別を推定した情報、話者の年齢、年代を推定した情報、話者の接近を検知した情報、現在発話している話者を識別する情報などで構成される。

回答文８３０はイベント情報フラグ８４０ごとに用意されており、例えば「怒って」いる「男性」「３０代」を示すイベント情報フラグ８４０に対応する回答文８３０と、「笑って」いる「女性」「２０代」を示すイベント情報フラグ８４０に対応する回答文８３０とは、それぞれ異なる文が用意されるようになっている。

次に、ある話題特定情報８１０と他の話題特定情報８１０との関連づけについて説明する。図１１は、ある話題特定情報８１０Ａと他の話題特定情報８１０Ｂ、８１０Ｃ_１〜８１０Ｃ_４、８１０Ｄ_１〜８１０Ｄ_３…との関連付けを示す図である。なお、以下の説明において「関連づけされて記憶される」とは、ある情報Ｘを読み取るとその情報Ｘに関連づけられている情報Ｙを読み取りできることをいい、例えば、情報Ｘのデータの中に情報Ｙを読み出すための情報（例えば、情報Ｙの格納先アドレスを示すポインタ、情報Ｙの格納先物理メモリアドレス、論理アドレスなど）が格納されている状態を、「情報Ｙが情報Ｘに『関連づけされて記憶され』ている」というものとする。

図１１に示す例では、話題特定情報は他の話題特定情報との間で上位概念、下位概念、同義語、対義語（本図の例では省略）が関連づけされて記憶させることができる。本図に示す例では、話題特定情報８１０Ａ（＝「映画」）に対する上位概念の話題特定情報として話題特定情報８１０Ｂ（＝「娯楽」）が話題特定情報８１０Ａに関連づけされて記憶されており、たとえば話題特定情報（「映画」）に対して上の階層に記憶される。

また、話題特定情報８１０Ａ（＝「映画」）に対する下位概念の話題特定情報８１０Ｃ_１（＝「監督」）、話題特定情報８１０Ｃ_２（＝「主演」）、話題特定情報８１０Ｃ_３（＝「配給会社」）、話題特定情報８１０Ｃ_４（＝「上映時間」）、および話題特定情報８１０Ｄ_１（＝「七人の侍」）、話題特定情報８１０Ｄ_２（＝「乱」）、話題特定情報８１０Ｄ_３（＝「用心棒」）、…、が話題特定情報８１０Ａに関連づけされて記憶されている。

又、話題特定情報８１０Ａには、同義語９００が関連付けられている。この例では、話題特定情報８１０Ａであるキーワード「映画」の同義語として「作品」、「内容」、「シネマ」が記憶されている様子を示している。このような同意語を定めることにより、発話にはキーワード「映画」は含まれていないが「作品」、「内容」、「シネマ」が発話文等に含まれている場合に、話題特定情報８１０Ａが発話文等に含まれているものとして取り扱うことを可能とする。

本実施の形態にかかる会話制御装置１は、会話データベース５００の記憶内容を参照することにより、ある話題特定情報８１０を特定するとその話題特定情報８１０に関連づけられて記憶されている他の話題特定情報８１０及びその話題特定情報８１０の話題タイトル８２０、回答文８３０などを高速で検索・抽出することが可能となる。

次に、話題タイトル８２０（「第二形態素情報」ともいう）のデータ構成例について、図１２を参照しながら説明する。図１２は、話題タイトル８２０のデータ構成例を示す図である。

話題特定情報８１０Ｄ_１、８１０Ｄ_２、８１０Ｄ_３、…はそれぞれ複数の異なる話題タイトル８２０_１、８２０_２、…、話題タイトル８２０_３、８２０_４、…、話題タイトル８２０_５、８２０_６、…を有している。本実施の形態では、図１２に示すように、それぞれの話題タイトル８２０は、第一特定情報１００１と、第二特定情報１００２と、第三特定情報１００３によって構成される情報である。ここで、第一特定情報１００１は、本実施の形態では、話題を構成する主要な形態素を意味するものである。第一特定情報１００１の例としては、例えば文を構成する主語が挙げられる。また、第二特定情報１００２は、本実施の形態では、第一特定情報１００１と密接な関連性を有する形態素を意味するものである。この第二特定情報１００２は、例えば目的語が挙げられる。更に、第三特定情報１００３は、本実施の形態では、ある対象についての動きを示す形態素、又は名詞等を修飾する形態素を意味するものである。この第三特定情報１００３は、例えば動詞、副詞又は形容詞が挙げられる。なお、第一特定情報１００１、第二特定情報１００２、第三特定情報１００３それぞれの意味は上述の内容に限定される必要はなく、別の意味（別の品詞）を第一特定情報１００１、第二特定情報１００２、第三特定情報１００３に与えても、これらから文の内容を把握可能な限り、本実施の形態は成立する。

例えば、主語が「七人の侍」、形容詞が「面白い」である場合には、図１２に示すように、話題タイトル（第二形態素情報）８２０_２は、第一特定情報１００１である形態素「七人の侍」と、第三特定情報１００３である形態素「面白い」とから構成されることになる。なお、この話題タイトル８２０_２には第二特定情報１００２に該当する形態素は含まれておらず、該当する形態素がないことを示すための記号「＊」が第二特定情報１００２として格納されている。

なお、この話題タイトル８２０_２（七人の侍；＊；面白い）は、「七人の侍は面白い」の意味を有する。この話題タイトル８２０を構成する括弧内は、以下では左から第一特定情報１００１、第二特定情報１００２、第三特定情報１００３の順番となっている。また、話題タイトル８２０のうち、第一から第三特定情報に含まれる形態素がない場合には、その部分については、「＊」を示すことにする。

なお、上記話題タイトル８２０を構成する特定情報は、上記のような第一から第三特定情報のように三つに限定されるものではなく、例えば更に他の特定情報（第四特定情報、およびそれ以上）を有するようにしてもよい。

次に、回答文８３０について説明する。回答文８３０は、図１３に示すように、本実施の形態では、利用者から発話された発話文のタイプに対応した回答をするために、陳述（D ; Declaration）、時間（T ; Time）、場所（L ; Location）、否定（N ; Negation）などのタイプ（回答種類）に分類されて、各タイプごとに用意されている。また肯定文は「Ａ」とし、質問文は「Ｑ」とする。

図１４に、ある話題特定情報８１０「和食」に対応付けされた話題タイトル８２０，回答文８３０、イベント情報フラグ８４０の具体例を示す。
話題特定情報８１０「和食」には、複数の話題タイトル（８２０）１−１、１−２、…が対応付けされている。それぞれの話題タイトル（８２０）１−１，１−２，…には回答文（８３０）１−１，１−２、…が対応付けされて記憶されている。各回答文８３０は、回答種類、イベント情報フラグ８４０ごとに用意された複数の文で構成されている。

例えば、話題タイトル（８２０）１−１が（和食；＊；好き）{これは、「和食が好きです」に含まれる形態素を抽出したもの}である場合には、その話題タイトル（８２０）１-１に対応する回答文（８３０）１−１には、回答種類がＤＡ（陳述肯定文）の場合について、「おいしい和食をいろいろ用意しています。」（イベント情報フラグ８４０が話者推定感情が「幸福」、話者推定性別が「男」を示している場合の回答）、「とてもヘルシーな和食を用意してますよ。」（イベント情報フラグ８４０が話者推定感情が「幸福」、話者推定性別が「女」を示している場合の回答）、…などが用意されており、また、回答種類がＴＡ（時間肯定文）の場合について「すぐにお出しできる和食も用意しています。」（イベント情報フラグ８４０が話者推定感情が「幸福」、話者推定性別が「男」を示している場合の回答）、「すぐにお出しできるとてもヘルシーな和食を用意してますよ。」（イベント情報フラグ８４０が話者推定感情が「幸福」、話者推定性別が「女」を示している場合の回答）、…などが用意されている。さらに、他の会話種類についてもイベント情報フラグ８４０に応じて複数の回答が用意されている。後述する回答取得部３５０は、回答種類、イベント情報フラグ８４０に応じて、その話題タイトル８２０に対応付けられた一の回答文８３０を取得する。

［会話制御部］
ここで図６に戻り、会話制御部３００の構成例を説明する。
会話制御部３００は、会話制御装置１内の各構成要素（音声認識部２００，文解析部４００、会話データベース５００，出力部６００，音声認識辞書記憶部７００、環境認知部８００、ユーザインタフェース制御部９００）間のデータの受け渡しを制御するとともに、発話に応答する回答文の決定、出力を行う機能を有する。

前記会話制御部３００は、本実施の形態では、図６に示すように、管理部３１０と、話題特定情報検索部３２０と、省略文補完部３３０と、話題検索部３４０と、回答取得部３５０とを有している。前記管理部３１０は、会話制御部３００の全体を制御するものである。また、管理部３１０は談話履歴を記憶し、且つ必要に応じて更新する機能を有する。管理部３１０は話題特定情報検索部３２０と、省略文補完部３３０と、話題検索部３４０と、回答取得部３５０からの要求に応じて、記憶している談話履歴の全部又は一部をこれら各部に渡す機能を有する。

「談話履歴」とは、ユーザと会話制御装置１間の会話の話題や主題を特定する情報であって、談話履歴は後述する「着目話題特定情報」「着目話題タイトル」「利用者入力文話題特定情報」「回答文話題特定情報」の少なくともいずれか一つを含む情報である。また、談話履歴に含まれる「着目話題特定情報」「着目話題タイトル」「回答文話題特定情報」は直前の会話によって定められたものに限定されず、過去の所定期間の間に着目話題特定情報」「着目話題タイトル」「回答文話題特定情報」となったもの、若しくはそれらの累積的記録であってもよい。

以下、会話制御部３００を構成するこれら各部について説明する。
［話題特定情報検索部］
話題特定情報検索部３２０は、形態素抽出部４２０で抽出された第一形態素情報と各話題特定情報とを照合し、各話題特定情報の中から、第一形態素情報を構成する形態素と一致する話題特定情報８１０を検索するものである。具体的に、話題特定情報検索部３２０は、形態素抽出部４２０から入力された第一形態素情報が「和食」及び「好き」の二つの形態素で構成される場合には、入力された第一形態素情報と話題特定情報群とを照合する。

この照合をした話題特定情報検索部３２０は、着目話題タイトル８２０focus（前回までに検索された話題タイトル）に第一形態素情報を構成する形態素（例えば「和食」）が含まれているときは、その着目話題タイトル８２０focusを回答取得部３５０に出力する。一方、着目話題タイトル８２０focusに第一形態素情報を構成する形態素が含まれていないときは、話題特定情報検索部３２０は、第一形態素情報に基づいて利用者入力文話題特定情報を決定し、入力された第一形態素情報及び利用者入力文話題特定情報を省略文補完部３３０に出力する。なお、「利用者入力文話題特定情報」は、第一形態素情報に含まれる形態素の内、利用者が話題としている内容に該当する形態素に相当する話題特定情報８１０、若しくは第一形態素情報に含まれる形態素の内、利用者が話題としている内容に該当する可能性がある形態素に相当する話題特定情報８１０をいう。

［省略文補完部］
省略文補完部３３０は、前記第一形態素情報を、前回までに検索された話題特定情報８１０（以下、「着目話題特定情報」）及び前回の回答文に含まれる話題特定情報８１０（以下、「回答文話題特定情報」という）を利用して、補完することにより複数種類の補完された第一形態素情報を生成する。例えば発話文が「好きだ」という文であった場合、省略文補完部３３０は、着目話題特定情報「和食」を、第一形態素情報「好き」に含めて、補完された第一形態素情報「和食、好き」を生成する。

すなわち、第一形態素情報を「Ｗ」、着目話題特定情報や回答文話題特定情報の集合を「Ｄ」とすると、省略文補完部３３０は、第一形態素情報「Ｗ」に集合「Ｄ」の要素を含めて、補完された第一形態素情報を生成する。

これにより、第一形態素情報を用いて構成される文が、省略文であって日本語として明解でない場合などにおいて、省略文補完部３３０は、集合「Ｄ」を用いて、その集合「Ｄ」の要素（例えば、"和食"）を第一形態素情報「Ｗ」に含めることができる。この結果、省略文補完部３３０は、第一形態素情報「好き」を補完された第一形態素情報「和食、好き」にすることができる。なお、補完された第一形態素情報「和食、好き」は、「和食が好きだ」という発話内容に対応する。

すなわち、省略文補完部３３０は、利用者の発話内容が省略文である場合などであっても、集合「Ｄ」を用いて省略文を補完することができる。この結果、省略文補完部３３０は、第一形態素情報から構成される文が省略文であっても、その文が適正な日本語となるようにすることができる。

また、省略文補完部３３０が、前記集合「Ｄ」に基づいて、補完後の第一形態素情報に一致する話題タイトル８２０を検索する。補完後の第一形態素情報に一致する話題タイトル８２０を発見した場合は、省略文補完部３３０はこの話題タイトル８２０を回答取得部３５０に出力する。回答取得部３５０は、省略文補完部３３０で検索された適切な話題タイトル８２０に基づいて、利用者の発話内容に最も適した回答文８３０を出力することができる。

尚、省略文補完部３３０は、集合「Ｄ」の要素を第一形態素情報に含めるだけに限定されるものではない。この省略文補完部３３０は、着目話題タイトルに基づいて、その話題タイトルを構成する第一特定情報、第二特定情報又は第三特定情報のいずれかに含まれる形態素を、抽出された第一形態素情報に含めても良い。

［話題検索部］
話題検索部３４０は、省略文補完部３３０で話題タイトル８２０が決まらなかったとき、第一形態素情報と、利用者入力文話題特定情報に対応する各話題タイトル８２０とを照合し、各話題タイトル８２０の中から、第一形態素情報に最も適する話題タイトル８１０を検索するものである。

具体的に、省略文補完部３３０から検索命令信号が入力された話題検索部３４０は、入力された検索命令信号に含まれる利用者入力文話題特定情報及び第一形態素情報に基づいて、その利用者入力文話題特定情報に対応付けられた各話題タイトルの中から、その第一形態素情報に最も適した話題タイトル８２０を検索する。話題検索部３４０は、その検索した話題タイトル８２０を検索結果信号として回答取得部３５０に出力する。

図１４は、ある話題特定情報８１０（＝「佐藤」）に対応付けされた話題タイトル８２０，回答文８３０、イベント情報フラグ８４０の具体例を示す図である。図１４に示すように、例えば、話題検索部３４０は、入力された第一形態素情報「和食、好き」に話題特定情報８１０（＝「和食」）が含まれるので、その話題特定情報８１０（＝「和食」）を特定し、次に、その話題特定情報８１０（＝「和食」）に対応付けられた各話題タイトル（８２０）１-１、１-２、…と入力された第一形態素情報「和食、好き」とを照合する。

話題検索部３４０は、その照合結果に基づいて、各話題タイトル（８２０）１-１〜１-２の中から、入力された第一形態素情報「和食、好き」と一致する話題タイトル（８２０）１-１（和食；＊；好き）を特定する。話題検索部３４０は、検索した話題タイトル（８２０）１-１（和食；＊；好き）を検索結果信号として回答取得部３５０に出力する。

［回答取得部］
回答取得部３５０は、話題検索部３４０で検索された話題タイトル８２０に基づいて、その話題タイトル８２０に対応付けられた回答文８３０を取得する。また、回答取得部３５０は、話題検索部３４０で検索された話題タイトル８２０に基づいて、その話題タイトル８２０に対応付けられた各回答種類と入力種類判定部４４０で判定された発話種類とを照合し、かつ環境認知部８００が出力したイベント情報と回答文８３０に対応付けられたイベント情報フラグ８４０とを照合して、発話種類及びイベント情報に合致する回答種類及びイベント情報フラグ８４０に対応する回答文の一つを選択する。

図１４に示すように、例えば、回答取得部３５０は、話題検索部３４０で検索された話題タイトル８２０が話題タイトル１-１（話題；＊；好き）である場合には、その話題タイトル１-１に対応付けられている回答文１-１（DA、TAなど）の中から、入力種類判定部４４０で判定された「発話文のタイプ」（例えばDA）と一致する回答種類（DA）を特定し、かつ環境認知部８００が出力したイベント情報と一致するイベント情報フラグ８４０（例えば、「幸福」、男）を特定する。この回答種類（DA）、イベント情報フラグ８４０を特定した回答取得部３５０は、特定した回答種類（DA）、イベントフラグ情報８５０（例えば、「幸福」、男）に基づいて、その回答種類（DA）、イベント情報フラグ８４０（例えば、「幸福」、男）に対応付けられた回答文１-１（「おいしい和食をいろいろ用意しています。」）を取得する。
ここで、上記"DA"、"TA"等のうち、"A"は、肯定形式を意味する。従って、発話種類及び回答種類に"A"が含まれているときは、ある事柄について肯定することを示している。また、発話種類及び回答種類には、"DQ"、"TQ"等の種類を含めることもできる。この"DQ"、"TQ"等のうち"Q"は、ある事柄についての質問を意味する。

回答種類が上記質問形式（Q）からなるときは、この回答種類に対応付けられる回答文は、肯定形式（A）で構成される。この肯定形式（A）で作成された回答文としては、質問事項に対して回答する文等が挙げられる。例えば、発話文が「何かお勧めの料理はありますか？」である場合には、この発話文についての発話種類は、質問形式（Q）となる。この質問形式（Q）に対応付けられる回答文は、例えば「ハイ！お勧めの肉料理がございます」（肯定形式（A））が挙げられる。

一方、発話種類が肯定形式（A）からなるときは、この回答種類に対応付けられる回答文は、質問形式（Q）で構成される。この質問形式（Q）で作成された回答文としては、発話内容に対して聞き返す質問文、又は特定の事柄を聞き出す質問文等が挙げられる。例えば、発話文が「私は魚料理が好みです」である場合には、この発話文についての発話種類は、肯定形式（A）となる。この肯定形式（A）に対応付けられる回答文は、例えば「お魚はどのような料理方法がよいですか？」（特定の事柄を聞き出す質問文（Q））が挙げられる。

回答取得部３５０は、取得した回答文８３０を回答文信号として管理部３１０に出力する。回答取得部３５０から回答文信号が入力された管理部３１０は、入力された回答文信号を出力部６００に出力する。
出力部６００は、回答取得部３５０で取得された回答文を出力するものである。この出力部６００は、例えば、スピーカ１５Ｌ，１５Ｒである。具体的に、管理部３１０から回答文が入力された出力部６００は、入力された回答文に基づいて、音声をもってその回答文、例えば、「おいしい和食をいろいろ用意しています」を出力する。

［イベント情報フラグ］
図１５に、図１４に示すイベント情報フラグ８４０とは別の、イベント情報フラグ８４０の構成例を示す。図示のイベント情報フラグ８４０は、感情推定情報１５０１と、性別推定情報１５０２と、年齢（年代）推定情報１５０３と、話者推定情報１５０４とを有している。感情推定情報１５０１は、話者の顔の画像データ、音声データなどから推定により得られる話者の勘定を示す情報であり、性別推定情報１５０２は、話者の画像データ、音声データなどから推定により得られる話者の性別を示す情報であり、年齢（年代）推定情報１５０３は話者の画像データ、音声データなどから推定により得られる話者の年齢（年代）を示すデータで得あり、話者推定情報１５０４は、複数の話者がいる場合に、現在話している話者を特定する情報である。

［環境認知部］
図２に戻り、会話制御装置１の構成例の説明を続ける。
会話制御装置１は、環境認知部８００を有している。図１６に、環境認知部８００の構成例を示す。図示の環境認知部８００は、外部の情報である環境認知情報を取得するセンス部１６０１と、センス部１６０１から環境認知情報受け取り、これを分析・解析・解釈などの所定処理をすることによりイベント情報を生成し、出力するイベント管理部１６０２とを有している。

センス部１６０１は、ＣＣＤカメラ１６０３と、赤外線センサ１６０４と、マイク１６０５とを有している。ＣＣＤカメラ１６０３は、会話制御装置１外部から可視光を取り込んで、環境認知情報の一つである画像データに変換し出力する。赤外線センサ１６０４は、会話制御装置１外部から赤外光を取り込んで、赤外光の検出結果を環境認知情報の一つとして出力する。マイク１６０５は、会話制御装置１外部から音波（音声）を取り込んで音声信号を環境認知情報の一つとして出力する。また、マイク１６０５は、環境認知情報の一つとして、その指向性を利用して音源の位置若しくは方向を特定できるものであってもよい。

イベント管理部１６０２は、センス部１６０１が出力する環境認知情報に基づいて、イベント情報を出力する機能を有する。イベント情報は、前述のイベント情報フラグ８４０に対応する情報であって、例えば、感情推定情報、性別推定情報、年齢（年代）推定情報、話者推定情報１５０４などである。

イベント管理部１６０２は、感情推定モジュール１６０６，性別推定モジュール１６０７，声紋認識モジュール１６０８、話者位置認識モジュール１６０９、話者近接認識モジュール１６１０を有している。

感情推定モジュール１６０６は、センス部１６０１が出力する話者の画像から話者の感情を推定し、推定した感情をイベント情報として出力するように機能する。図１７は、感情推定モジュール１６０１が行う感情推定処理の例を示すフローチャートである。
センス部１６０１から出力された話者の画像データを受け取ると、感情推定モジュール１６０６は、話者の画像データに基づいて、話者の顔器官（目、眉、口など）上に設定した特徴点から算出できる特徴量を抽出する特徴量抽出処理を行う（ステップＳ１７０１）。「特徴点」は、表情変化を十分に表せ、基本的な表情（怒り、嫌悪、恐怖、幸福、悲しみ、驚き、など）を識別できる、顔器官上に設定された点であって、例えば、眉の両端点及び中央点、左右の目の両端点、上下端点、唇の両端点、上下端点などである。「特徴量」はこれら特徴点から算出される量（たとえば距離）であって、眉の端点と目の端点の距離、唇の端点と目の高さとの距離などである。

次に、感情推定モジュール１６０６は、抽出した特徴量に基づいて、話者の表情を認識する表情認識処理を行う（ステップＳ１７０２）。表情認識処理は、たとえば以下のように行われる。まず、顔の上部（左右の眉を含む領域）、中央部（左右の目を含む領域）、下部（鼻及び口を含む領域）について、基本的な表情（怒り、嫌悪、恐怖、幸福、、悲しみ、驚き、など）及び中立の表情における特徴的な表情動作を特徴量の変化として予め記憶しておく。例えば、「驚き」の表情では、顔の上部に特徴的な表情動作として、眉が引き上げられ、湾曲し盛り上がるという表情動作が現れる。この表情動作を特徴量の変化として捉えると、眉間の距離である特徴量Ａは変化しないが、目の高さと眉の端点、中心点との距離である特徴量Ｂ，Ｃ，Ｄは増加するという特徴量の変化となる。同様に各表情について表情変化を特徴量の変化として記憶しておく。

感情推定モジュール１６０６は、ステップＳ１７０１で抽出した特徴量から特徴量の変化を算出して、上記予め記憶した特徴量の変化と表情変化との関係から、特徴量の変化に対応した表情変化を特定して、現在（最新）の話者の表情を推定し、推定結果を出力する感情推定処理（ステップＳ１７０３）を行う。推定結果は、イベント情報として出力されることとなる。

次に、性別推定モジュール１６０７について説明する。性別推定モジュール１６０７は、センス部１６０１が出力する話者の画像から話者の性別を推定し、推定した性別をイベント情報として出力するように機能する。話者の画像から性別を推定する処理は、たとえば以下のように行う。話者の顔画像データから、特徴点を自動抽出し特徴量を算出する。次に、予め学習させておいたクラス（例えば、男性、女性）の特徴量と算出した特徴量とを比較しいずれのクラスに近似するかを判定して性別を判定する。性別推定モジュール１６０７は上記のような性別推定処理の推定結果をイベント情報として出力する。

次に、声紋認識モジュール１６０８について説明する。声紋認識モジュール１６０８はマイク１６０５から出力される音声信号から声紋情報を取得し、この声紋情報により話者の特定を行う機能を有する。話者の特定は、過去の利用者の中から今現在の話者を特定し、過去の話題特定情報などを得るようにしてもよいし、或いは複数の話者が同時に会話制御装置１を利用する場合（例えば、グループで来店したユーザがテーブル上に配置された一つの会話制御装置を利用する場合）に、それぞれの話者を特定するように、声紋情報を取得し、比較を行う。声紋認識モジュール１６０８はこの話者を特定する情報をイベント情報として出力する。

次に、話者位置認識モジュール１６０９について説明する。話者位置認識モジュール１６０９は、センス部１６０１のマイク１６０５の指向性を利用して、発話者の位置（或いは会話制御装置に対しての角度など）を求め、これにより話者を特定する機能を有する。話者位置認識モジュール１６０９は、複数の話者が同時に会話制御装置１を利用する場合（例えば、グループで来店したユーザがテーブル上に配置された一つの会話制御装置を利用する場合）に、それぞれの話者を特定し、話者を特定する情報をイベント情報として出力する。これにより、会話制御部３００は、発話１（話者A）、発話２（話者B），発話３（話者A），発話４（話者C）がなされた場合、それぞれの話者（話者A，B，C）について談話履歴を管理し、それぞれの談話履歴に基づいて回答文の出力を行う。
次に、話者近接認識モジュール１６１０について説明する。話者近接認識モジュール１６１０は、センス部１６０１の赤外線センサ１６０４の検知可能領域を利用して、ある発話者が会話制御装置１に対して会話可能な距離に近づいたか否かを判定し、、これにより話者が会話を行うとしていることを推定する機能を有する。話者が赤外線センサ１６０４の検知可能領域にはいると、赤外線センサ１６０４（センス部１６０１）は、近接検知信号を環境認知情報として出力する。この環境認知情報である近接認知情報を受け取った話者近接認識モジュール１６１０は、イベント情報として話者近接通知情報を出力する。話者近接通知情報を受け取った会話制御部３００は、話者との会話のきっかけとなるよう、例えば「いらっしゃいませ。」とか「ご注文はお決まりですか？」などの回答文の出力を行う。

［２．会話制御方法］
上記構成を有する会話制御装置１は、以下のように動作することにより会話制御方法を実行する。図１８は、本実施の形態に係る会話制御方法の手順を示すフロー図である。
先ず、入力部１００が、利用者からの発話内容を取得するステップを行う（ステップＳ１８０１）。具体的には、入力部１００は、利用者の発話内容を構成する音声を取得する。入力部１００は、取得した音声を音声信号として音声認識部２００に出力する。なお、入力部１００は、利用者からの音声ではなく、利用者から入力された文字列（例えば、テキスト形式で入力された文字データ）を取得してもよい。この場合、入力部１００はマイクではなく、キーボードやタッチパネルなどの文字入力装置となる。

次いで、音声認識部２００が、入力部１００で取得した発話内容に基づいて、発話内容に対応する文字列を特定するステップを行う（ステップＳ１８０２）。具体的には、入力部１００から音声信号が入力された音声認識部２００は、入力された音声信号に基づいて、その音声信号に対応する単語仮説（候補）を特定する。音声認識部２００は、特定した単語仮説（候補）に対応付けられた文字列を取得し、取得した文字列を文字列信号として会話制御部３００に出力する。

そして、文字列特定部４１０が、音声認識部２００で特定された一連の文字列を一文毎に区切るステップを行う（ステップＳ１８０３）。具体的には、管理部３１０から文字列信号（あるいは形態素信号）が入力された文字列特定部４１０は、その入力された一連の文字列の中に、ある一定以上の時間間隔があるときは、その部分で文字列を区切る。文字列特定部４１０は、その区切った各文字列を形態素抽出部４２０及び入力種類判定部４４０に出力する。なお、文字列特定部４１０は、入力された文字列がキーボードから入力された文字列である場合には、句読点又はスペース等のある部分で文字列を区切るのが好ましい。

その後、形態素抽出部４２０が、文字列特定部４１０で特定された文字列に基づいて、文字列の最小単位を構成する各形態素を第一形態素情報として抽出するステップを行う（ステップＳ１８０４）。具体的に、文字列特定部４１０から文字列が入力された形態素抽出部４２０は、入力された文字列と、形態素データベース４３０に予め格納されている形態素群とを照合する。なお、その形態素群は、本実施の形態では、それぞれの品詞分類に属する各形態素について、その形態素の見出し語・読み・品詞・活用形などを記述した形態素辞書として準備されている。
この照合をした形態素抽出部４２０は、入力された文字列の中から、予め記憶された形態素群に含まれる各形態素と一致する各形態素（m１、m２、…）を抽出する。形態素抽出部４２０は、抽出した各形態素を第一形態素情報として話題特定情報検索部３２０に出力する。

次いで、入力種類判定部４４０が、文字列特定部４１０で特定された一文を構成する各形態素に基づいて、「発話文のタイプ」を判定するステップを行う（ステップＳ１８０５）。具体的には、文字列特定部４１０から文字列が入力された入力種類判定部４４０は、入力された文字列に基づいて、その文字列と発話種類データベース４５０に格納されている各辞書とを照合し、その文字列の中から、各辞書に関係する要素を抽出する。この要素を抽出した入力種類判定部４４０は、抽出した要素に基づいて、その要素がどの「発話文のタイプ」に属するのかを判定する。入力種類判定部４４０は、判定した「発話文のタイプ」（発話種類）を回答取得部３５０に出力する。

そして、話題特定情報検索部３２０が、形態素抽出部４２０で抽出された第一形態素情報と着目話題タイトル８２０focusとを比較するステップを行う（ステップＳ１８０６）。
第一形態素情報を構成する形態素と着目話題タイトル８２０focusとが一致する場合、話題特定情報検索部３２０は、その話題タイトル８２０を回答取得部３５０に出力する。一方、話題特定情報検索部３２０は、第一形態素情報を構成する形態素と話題タイトル８２０とが一致しなかった場合には、入力された第一形態素情報及び利用者入力文話題特定情報を検索命令信号として省略文補完部３３０に出力する。

その後、省略文補完部３３０が、話題特定情報検索部３２０から入力された第一形態素情報に基づいて、着目話題特定情報及び回答文話題特定情報を、入力された第一形態素情報に含めるステップを行う（ステップＳ１８０７）。具体的には、第一形態素情報を「Ｗ」、着目話題特定情報及び回答文話題特定情報の集合を「Ｄ」とすると、省略文補完部３３０は、第一形態素情報「Ｗ」に話題特定情報「Ｄ」の要素を含めて、補完された第一形態素情報を生成し、この補完された第一形態素情報と集合「Ｄ」に関連づけされたすべての話題タイトル８２０とを照合し、補完された第一形態素情報と一致する話題タイトル８２０があるか検索する。補完された第一形態素情報と一致する話題タイトル８２０がある場合は、省略文補完部３３０は、その話題タイトル８２０を回答取得部３５０に出力する。一方、補完された第一形態素情報と一致する話題タイトル８２０を発見しなかった場合は、省略文補完部３３０は、第一形態素情報と利用者入力文話題特定情報とを話題検索部３４０に渡す。

次いで、話題検索部３４０は、第一形態素情報と、利用者入力文話題特定情報とを照合し、各話題タイトル８２０の中から、第一形態素情報に適した話題タイトル８２０を検索するステップを行う（ステップＳ１８０８）。具体的には、省略文補完部３３０から検索命令信号が入力された話題検索部３４０は、入力された検索命令信号に含まれる利用者入力文話題特定情報及び第一形態素情報に基づいて、その利用者入力文話題特定情報に対応付けられた各話題タイトル８２０の中から、その第一形態素情報に適した話題タイトル８２０を検索する。話題検索部３４０は、その検索の結果得られた話題タイトル８２０を検索結果信号として回答取得部３５０に出力する。

次いで、回答取得部３５０が、話題特定情報検索部３２０、省略文補完部３３０，あるいは話題検索部３４０で検索された話題タイトル８２０に基づいて、文解析部４００により判定された利用者の発話種類と、話題タイトル８２０に対応付けられた各回答種類とを照合し、回答文の選択の準備をする（ステップＳ１８０９）。

具体的に、話題検索部３４０から検索結果信号と、入力種類判定部４４０から「発話文のタイプ」とが入力された回答取得部３５０は、入力された検索結果信号に対応する「話題タイトル」と、入力された「発話文のタイプ」とに基づいて、その「話題タイトル」に対応付けられている回答種類群の中から、「発話文のタイプ」（DAなど）と一致する回答種類を特定する。

一方、回答取得部３５０は、環境認知部８００から出力されたイベント情報を参照し（ステップＳ１８１０）、回答文８３０の取得に備える。
次に、回答取得部３５０は、会話データベース５００から、ステップＳ１８０９で特定した回答種類に対応する回答文８３０であって、かつステップＳ１８１０において参照したイベント情報と合致するイベント情報フラグ８４０に対応付けられた回答文８３０を取得する（ステップＳ１８１１）。

続いて、回答取得部３５０は、管理部３１０を介して、ステップＳ１８１１において取得した回答文８３０を出力部６００に出力する。管理部３１０から回答文を受け取った出力部６００は、入力された回答文８３０を出力する（ステップＳ１８１２）。

上記のような会話制御処理により、会話内容に合致しているとともに環境認知情報が反映された回答文を出力することが可能となる。

［３．利点］
本実施の形態にかかる会話制御装置１及び会話制御方法は、ユーザの発話の内容だけでなく、環境認知部８００から得られる情報（例えば、顔認識、感情推定、性別認識、年代認識、声紋認識、話者位置認識、など）に基づいて会話制御を行うので、会話がなされている状況に応じた回答を出力することが可能となり、また会話内容に幅が出来る。

［４．第２の実施の形態］
次に、本発明の第２の実施の形態にかかる会話制御装置および会話制御方法について述べる。
第２の実施の形態にかかる会話制御装置および会話制御方法は、第２の実施の形態の特徴に加えて、会話制御装置が演じるキャラクタの感情及び／又は話者の感情を回答文に反映させることを特徴とする。

図１９は、第２の実施の形態にかかる会話制御装置の構成例を示す機能ブロック図である。
第２の実施の形態にかかる会話制御装置１’は、第１の実施の形態にかかる会話制御装置１と以下の点を除いて同様であるので、異なる点のみ説明し、同様な点については説明を省略する。

会話制御装置１’は、会話制御装置が演じるキャラクタの感情及び／又は話者の感情を示す感情状態情報を管理する感情状態情報管理部１９００をさらに有している。

感情状態情報管理部１９００は、会話制御部３００から出力される、感情フラグを受け取り、感情フラグをキャラクタの感情を示す感情状態情報（「キャラクタ感情状態情報」という）に反映させる処理を行うとともに、会話制御部３００に現状のキャラクタ感情状態情報を返し、キャラクタ感情状態情報に応じた回答文８３０の出力をさせる。また、感情状態情報管理部１９００は、環境認知部８００から話者の感情に関するイベント情報を受け取り、これに基づいて話者の感情を示す感情状態情報（「話者感情状態情報」という）を生成し、記憶し、更新し、この話者感情状態情報を会話制御部３００に返し、話者感情状態情報に応じた回答文８３０の出力をさせる。

キャラクタの感情は、キャラクタ感情状態情報によって記述されている。キャラクタ感情状態情報は、感情を示す情報を累積的に記憶できる情報であればどのようなものでもよく、たとえば感情フラグの累積値をキャラクタ感情状態情報として用いることができる。

感情フラグは感情を区別できる情報であればどのようなデータを用いてもよく、例えば、「平常」の感情を示す感情フラグとして文字データ「Ａ」を割り当て、「激怒」の感情を示す感情フラグとして文字データ「Ｂ」を割り当て、「怒り」の感情を示す感情フラグとして文字データ「Ｃ」を割り当て、「喜び」の感情を示す感情フラグとして文字データ「Ｄ」を割り当てるなどのようにする。本実施の形態にかかる会話制御部３００は、この感情フラグに基づいて記憶されるキャラクタ感情状態情報を参照して、会話制御装置１’が提供するキャラクタ（疑似人格、仮想人格）の感情を制御することとなる。

図２０（Ａ）に、感情状態情報管理部１９００が記憶するキャラクタ感情状態情報のデータ構成例を示し、図２０（Ｂ）に感情状態情報管理部１９００が記憶する話者感情状態情報のデータ構成例を示す。
キャラクタ感情状態情報２０００は、感情フラグ種類２００１ごとに、累積値２００２を有している。累積値２００２は、各感情フラグごとに増減が可能である。例えば、感情状態情報管理部１９００が「喜び」を示す感情フラグを受け取るごとに、感情フラグ種類「喜び」に対応する累積値２００２の値がインクリメントされる。

話者感情状態情報２００３は、複数の話者のそれぞれについて感情を記述できるよう、話者ごとに一つのレコード２００５Ａ、２００５Ｂ、２００５Ｃ、…を有しており、レコード２００５Ａ、２００５Ｂ、２００５Ｃ、…のそれぞれは、話者の６種類の基本感情に対応するよう、「怒り」フィールド２００４Ａ，「嫌悪」フィールド２００４Ｂ，「恐怖」フィールド２００４Ｃ，「幸福」フィールド２００４Ｄ，「悲しみ」フィールド２００４Ｅ，「驚き」フィールド２００４Ｆを有している。各フィールド２００４Ａ〜２００４Ｆには「０」又は「１」のデータが格納され、「０」は話者に対応する基本感情がないことを示し、「１」は話者に対応する基本感情があることを示している。例えば、環境認知部８００より話者の推定感情を示すイベント情報であって、「幸福」「驚き」を示すイベント情報が出力された場合、感情状態情報管理部１９００は、その話者のレコードの「幸福」フィールド２００４Ｄ及び「驚き」フィールド２００４Ｆに「１」を格納し、他のフィールド２００４Ａ，２００４Ｂ、２００４Ｃ、２００４Ｅに「０」を格納する。

このようにイベント情報に従って話者感情状態情報を更新することにより、話者の（推定により）感情を逐次記憶することが可能となる。なお、図２０（Ｂ）において、話者３におけるフィールド２００４Ａ〜２００４Ｆに「９」が格納されているがこれは話者３が存在しておらず、このレコードは未利用であることを示す。

また、感情状態情報管理部１９００は、感情状態情報をユーザインターフェイス制御部９００に渡し、ユーザインターフェイス制御部９００は感情状態情報に基づいて、液晶表示部１１にキャラクタの表情、動作などを表示する。これにより回答文８３０の内容に合致したキャラクタの表情、動作などが表示されるので、会話制御装置１’の利用者は、会話制御装置１’が演じるキャラクタ（疑似人格）が実際の人間に近い自然な反応を示しているように感ずる。

次に、本実施の形態における会話データベース５００’の記憶内容について説明する。図２１は、本実施の形態における会話データベース５００’の記憶内容の例を示す図である。本実施の形態における会話データベース５００’の記憶内容は、図１０に示す記憶内容とほぼ同じであるが、話題タイトル８２０に対応付けされた感情条件パラメータ８５０および感情フラグ８６０をさらに有している点で異なっている。

各回答文８３０には、感情条件パラメータ８５０が対応付けられている。感情条件パラメータ８５０は、感情状態情報の条件を示す情報である。例えば、感情状態情報が「怒り」の感情フラグの累積値「１０」を示しているとき、ある回答文Ａの感情条件パラメータ８５０が「怒り」の感情フラグの累積値５以下であることを記述しており、一方別の回答文Ｂの感情条件パラメータ８５０が「怒り」の感情フラグの累積値８以上であることを記述している場合は、回答文Ａは選択されず、回答文Ｂが会話制御装置１’がユーザへの回答として選択されることとなる。

更に、回答文８３０には会話制御装置１’が提供するキャラクタ（疑似人格）の感情を示すデータである感情フラグ８６０が対応付けされて記憶されている。感情フラグ８６０は感情を区別できる情報であればどのようなデータを用いてもよく、例えば、「平常」の感情を示す感情フラグとして文字データ「Ａ」を割り当て、「激怒」の感情を示す感情フラグとして文字データ「Ｂ」を割り当て、「怒り」の感情を示す感情フラグとして文字データ「Ｃ」を割り当て、「喜び」の感情を示す感情フラグとして文字データ「Ｄ」を割り当てるなどのようにする。本実施の形態にかかる会話制御装置１’は、感情状態情報管理部１９００に記憶されている感情状態情報とこの感情フラグ８６０とを比較して、記憶されている感情状態情報に一致する感情フラグ８６０を有する回答文を選択して、会話制御装置１’が提供するキャラクタ（疑似人格）の感情を制御することとなる。

なお、本実施の形態では、イベント情報フラグ８４０，感情条件パラメータ８５０、感情フラグ８６０は回答文８３０に対応付けられているが、話題タイトル８２０、話題特定情報８１０に対応付けられていても、本発明は成立する。

図２２に、本実施の形態におけるある話題特定情報８１０「和食」に対応付けされた話題タイトル８２０，回答文８３０、イベント情報フラグ８４０、イベント情報フラグ８４０、感情フラグ８６０の具体例を示す。
話題特定情報８１０「和食」には、複数の話題タイトル（８２０）１−１、１−２、…が対応付けされている。それぞれの話題タイトル（８２０）１−１，１−２，…には回答文（８３０）１−１，１−２、…が対応付けされて記憶されている。各回答文８３０は、回答種類、イベント情報フラグ８４０、感情条件パラメータ８５０、感情フラグ８６０ごとに用意された複数の文で構成されている。

例えば、話題タイトル（８２０）１−１が（和食；＊；好き）{これは、「和食が好きです」に含まれる形態素を抽出したもの}である場合には、その話題タイトル（８２０）１-１に対応する回答文（８３０）１−１には、回答種類がＤＡ（陳述肯定文）の場合について、「おいしい和食をいろいろ用意しています。」（イベント情報フラグ８４０が示す話者推定感情が「幸福」、話者推定性別が「男」を示し、感情条件パラメータ８５０が「すべて２以下」、感情フラグ８５０が「Ａ」である場合の回答）、「とてもヘルシーな和食を用意してますよ。」（イベント情報フラグ８４０が話者推定感情が「幸福」、話者推定性別が「女」を示し、感情条件パラメータ８５０が「すべて２以下」、感情フラグ８６０が「Ａ」である場合の回答）、…などが用意されており、また、回答種類がＴＡ（時間肯定文）の場合について「すぐにお出しできる和食も用意しています。」（イベント情報フラグ８４０が話者推定感情が「幸福」、話者推定性別が「男」を示し、感情条件パラメータ８５０が「すべて２以下」、感情フラグ８６０が「Ａ」である場合の回答）、「すぐにお出しできるとてもヘルシーな和食を用意してますよ。」（イベント情報フラグ８４０が話者推定感情が「幸福」、話者推定性別が「女」を示し、感情条件パラメータ８５０が「すべて２以下」、感情フラグ８６０が「Ａ」である場合の回答）、…などが用意されている。さらに、他の会話種類についてもイベント情報フラグ８４０に応じて複数の回答が用意されている。後述する回答取得部３５０は、回答種類、イベント情報フラグ８４０、感情条件パラメータ８５０、感情フラグ８６０に応じて、その話題タイトル８２０に対応付けられた一の回答文８３０を取得する。

［５．会話制御装置の動作（会話制御方法）］
次に、本実施の形態にかかる会話制御装置１’の動作例を図２３を参照しながら説明する。図２３は、会話制御装置１’の動作によって行われる会話制御方法のフローチャートである。

図２３に示す動作において、発話内容を取得する処理（ステップＳ２３０１）からイベント情報フラグを参照する処理（ステップＳ２３０９）までは、第１の実施の形態の動作例（図１８；ステップＳ１８０１からステップＳ１８０９）と同様の処理である。上記ステップＳ２３０１からステップＳ２３０９までの各ステップの説明は省略する。

イベント情報フラグを参照する処理（ステップＳ２３０９）の終了後、会話制御装置１’は、感情状態情報の更新を行う（ステップＳ２３１０）。ここでは、主にイベント情報（話者の推定感情を示すイベント情報）に基づいて話者感情状態情報２００３を更新する処理が行われる。更新された感情状態情報は感情状態情報管理部１９００に記憶される。

続いて、会話制御装置１’は、環境認知部８００から出力された最新のイベント情報及び感情状態情報管理部１９００に記憶されている感情状態情報、並びにステップＳ２３０８において検索された話題タイトルに基づいて、これらに合致する回答文８３０を会話データベース５００より取得する（ステップＳ２３１１）。

次に、会話制御装置１’は取得した回答文８３０を出力する（ステップＳ２３１２）。回答文８３０は、スピーカ１５Ｌ、１５Ｒから音声として出力されてもよいし、液晶表示部１１に文字情報として表示されてもよい。回答文８３０の内容は、会話制御装置１’周辺の環境により生成されたイベント情報並びにキャラクタ及び／又は話者の感情に対応した内容となっているため、会話がなされている状況に即した適切な回答を出力することが可能となる。

次に、会話制御装置１’はステップＳ２３１２において取得した回答に応じてキャラクタの表示制御を含むユーザインターフェイス制御を行う（ステップＳ２３１３）。この実施の形態では回答文８３０に対応する感情フラグ８６０を参照して、その感情フラグ８６０に対応するキャラクタデータ（キャラクタの表情や動作などキャラクタの感情を表現するための画像／音声データ）を選択し、液晶表示部１１に表示させることにより、ユーザインターフェイス制御を行うが、感情状態情報管理部１９００に記憶されたキャラクタ感情状態情報を参照してユーザインターフェイス制御を行うようにしても、本実施の形態は成立する。

以上で、ユーザ（利用者）の発話から会話制御装置１’の回答の出力までの一連の処理が終了する。会話制御装置１’はユーザの発話を受けるごとに上記ステップＳ２３０１からステップＳ２３１３を実行し、ユーザと会話制御装置１’間の会話（情報のやり取り）を行う。

［６．利点］
本実施の形態にかかる会話制御装置１’および会話制御方法は、キャラクタの感情変化を反映させつつ、会話がなされている状況に即した適切な回答を出力することを可能とする、という利点を有する。

［７．その他］
（１）会話制御装置１、会話制御装置１’の音声認識部２００、会話制御部３００、文解析部４００の構成及び動作は、第１の実施の形態において説明したものに限られず、会話データベース手段を利用して利用者の発話内容に応じた回答を返すものであれば、第１の実施の形態において説明したもの以外のどのような音声認識部２００、会話制御部３００、文解析部４００であっても、本発明に係る会話制御装置１、会話制御装置１’の構成要素として使用可能である。

（２）上記実施の形態の説明では、会話制御装置１、会話制御装置１’への発話の入力は音声によるものとして説明したが、会話制御装置１, 会話制御装置１’への発話の入力は音声に限られるものではなく、キーボード、タッチパネル、ポインティングデバイスなどの文字入力手段による文字列データとして会話制御装置１、会話制御装置１’へ発話を入力し、会話制御装置１、会話制御装置１’がこの文字列データとして入力された発話に対して会話データベース５００を用いて回答文を出力する構成としても本発明は成立する。

会話制御装置の一例を示す外観斜視図会話制御装置の構成例を示す機能ブロック図音声認識部の構成例を示す機能ブロック図単語仮説絞込部の処理を示すタイミングチャート音声認識部の動作例を示すフロー図会話制御装置の部分拡大ブロック図文字列とこの文字列から抽出される形態素との関係を示す図「発話文のタイプ」と、その発話文のタイプを表す二文字のアルファベット、及びその発話文のタイプに該当する発話文の例を示す図文のタイプとそのタイプを判定するための辞書の関係を示す図会話データベースが記憶するデータのデータ構成の一例を示す概念図ある話題特定情報と他の話題特定情報との関連付けを示す図話題タイトルのデータ構成例を示す図回答文のタイプと内容例を説明するための図ある話題特定情報に対応付けされた話題タイトル，回答文、イベント情報フラグの具体例を示す図イベント情報フラグの別のデータ構成例を示す図環境認知部の構成例を示す機能ブロック図感情推定モジュールの動作例を示すフロー図会話制御方法の手順を示すフロー図第２の実施の形態にかかる会話制御装置の構成例を示す機能ブロック図感情状態情報管理部の記憶内容例を示す図第２の実施の形態にかかる会話データベースの記憶内容の例を示す図ある話題特定情報に対応付けされた話題タイトル，回答文、イベント情報フラグ、感情条件パラメータ、感情フラグの具体例を示す図第２の実施の形態にかかる会話制御方法の手順を示すフロー図

符号の説明

１、１’ … 会話制御装置
１１ … 液晶表示部
１２Ａ〜Ｄ … ３Ｄ指向マイク
１３ … ＣＣＤカメラ
１４ … 赤外線センサ
１５Ｌ，Ｒ … スピーカ
１００ … 入力部
２００ … 音声認識部
３００ … 会話制御部
４００ … 文解析部
５００ … 会話データベース
６００ … 出力部
７００ … 音声認識辞書記憶部
８００ … 環境認知部
９００ … ユーザインターフェイス制御部
１９００ … 感情状態情報管理部

Claims

ユーザからの発話に応答する回答を出力する会話制御装置において、
複数の話題特定情報を記憶する会話データベース手段と、従前の会話及び従前の回答により定まる談話履歴を記憶し、この談話履歴により定まる話題特定情報と発話情報とを用いて回答文を選択する会話制御手段と、環境認知情報を取得する環境認知手段とを有し、
前記環境認知手段は、取得した環境認知情報に基づきイベント情報を生成し、
前記会話制御手段は、イベント情報に基づいて回答文を選択する
ことを特徴とする会話制御装置。
ユーザからの発話に応答する回答を出力する会話制御装置において、
複数の話題特定情報を記憶する会話データベース手段と、
従前の会話及び従前の回答により定まる談話履歴を記憶し、この談話履歴により定まる話題特定情報と発話情報とを用いて回答文を選択する会話制御手段と、
環境認知情報を取得する環境認知手段と、
会話制御装置の演ずるキャラクタ及び話者の少なくとも一方の感情を示す感情状態情報を記憶し、更新する感情状態情報管理手段と
を有し、
前記環境認知手段は、取得した環境認知情報に基づきイベント情報を生成し、
前記感情状態情報管理手段は、イベント情報に応じて感情状態情報を更新し、
前記会話制御手段は、感情状態情報に基づいて回答文を選択する
ことを特徴とする会話制御装置。
ユーザからの発話に応答する回答を出力する会話制御方法において、
複数の話題特定情報と、各話題特定情報について定められた１又は複数の話題タイトルと、各話題タイトルについて定められた一又は複数の回答文と、回答文に対応して定められたイベント情報フラグとを予め記憶させるステップと、
外部の環境から環境認知情報を取得し、環境認知情報からイベント情報を生成するステップと
従前の会話及び従前の回答文により定まる談話履歴により定まる話題特定情報と発話情報とを照合して、当該話題特定情報のいずれかについて定められた話題タイトルのいずれかを取得し、その話題タイトルに対応する複数の回答文から前記イベント情報に応じたイベント情報フラグに対応する回答文を選択するステップと
を有することを特徴とする会話制御方法。
ユーザからの発話に応答する回答を出力する会話制御方法において、
複数の話題特定情報と、各話題特定情報について定められた１又は複数の話題タイトルと、各話題タイトルについて定められた一又は複数の回答文とを予め記憶させるステップと、
外部の環境から環境認知情報を取得し、環境認知情報からイベント情報を生成するステップと、
キャラクタ及び話者の少なくとも一方の感情を示す感情状態情報を前記イベント情報に応じて更新するステップと、
従前の会話及び従前の回答文により定まる談話履歴により定まる話題特定情報と発話情報とを照合して、当該話題特定情報のいずれかについて定められた話題タイトルのいずれかを取得し、その話題タイトルに対応する複数の回答文から前記イベント情報及び感情状態情報に応じた回答文を選択するステップと
を有することを特徴とする会話制御方法。