JP2004310034A

JP2004310034A - 対話エージェントシステム

Info

Publication number: JP2004310034A
Application number: JP2003394663A
Authority: JP
Inventors: Fumiaki Obayashi; 史明大林; Takashi Nishiyama; 高史西山; Akira Baba; 朗馬場
Original assignee: Matsushita Electric Works Ltd
Current assignee: Panasonic Electric Works Co Ltd
Priority date: 2003-03-24
Filing date: 2003-11-25
Publication date: 2004-11-04

Abstract

【課題】話者の自我状態とエージェントとの自我状態に着目しエージェントの応答を変化させ、話者に受け入れやすくかつ違和感のない自然な対話を行う。
【解決手段】音声認識処理部１１は話者の音声からテキストを抽出し、口調認識処理部１２は話者の音声から韻律的特徴を抽出する。自我状態推定部１４は、テキストと韻律的特徴とを用いて、話者の自我状態、刺激されたエージェントの自我状態を推定する。対話制御部１０は、自我状態推定部１４の出力と話者からのテキストとをシナリオデータベース１６に照合して得られる対話シナリオに従ってエージェントの自我状態、刺激する話者の自我状態を自動的に決定し、エージェントの発話するテキストを自動的に決定する。音声合成処理部１７は、対話制御部１０で得られたテキストを用いて合成音声を生成しスピーカ２３から出力する。
【選択図】図１

Description

本発明は、音声によって話者と対話する対話エージェントシステムに関するものである。

従来から、コンピュータを用いて音声による話者との対話を可能とする対話システムが種々提案されており、この種の対話システムでは、人間同士の対話と同様な自然な対話を行うことが要望されている。たとえば、話者の音声による認識情報を静的な情報と動的な情報とに分けて保持し、動的な情報を認識対象の項目別に管理する構成によって、対話に用いる内容の絞り込みを迅速に行えるようにする技術が提案されている（たとえば、特許文献１参照）。
特開平６−２０８３８９号公報（第００２３−００４６段落、図３）

上述した特許文献１に記載された技術では、対話における応答時間を短縮することによって応答の遅れによる違和感を抑制する技術であって、話者の発話内容が同じであれば同じ応答になるから、画一的な応答しかできないものである。たとえば、話者が大人か子供かにかかわらず、いかにも機械が応答しているという対話しか行えないという問題がある。

本発明は上記事由に鑑みて為されたものであり、その目的は、話者の自我状態とエージェントにおいて刺激されている自我状態を推定するとともに、エージェントの持つ自我状態とエージェントが刺激する話者の自我状態を設定して応答を変化させることにより、話者にとって受け入れやすくかつ違和感のない自然な対話を行うことができる対話エージェントシステムを提供することにある。

請求項１の発明は、話者の音声が入力される音声入力手段と、音声入力手段から入力された話者の音声からテキストを抽出する音声認識処理部と、音声入力手段から入力された話者の音声から韻律的特徴を抽出する口調認識処理部と、少なくとも音声認識処理部により抽出したテキストと口調認識処理部により抽出した韻律的特徴とを用いて話者の自我状態を推定するとともに話者に応対するエージェントにおいて刺激された自我状態を推定する自我状態推定部と、話者の自我状態と刺激された自我状態と話者からのテキストとをエージェントの対話戦略である対話シナリオに対応付けたシナリオデータベースと、自我状態推定部により推定した話者の自我状態と刺激された自我状態と音声認識処理部により抽出したテキストとをシナリオデータベースに照合して得られる対話シナリオに従ってエージェントの自我状態および刺激する話者の自我状態を決定するとともにエージェントの発話するテキストを自動的に決定する対話制御部とを備え、エージェントは、対話制御部において決定したテキストに対話制御部において決定した自我状態から得られる韻律制御用の韻律パラメータを適用した合成音声を生成する音声合成処理部と、音声合成処理部で生成した合成音声を出力する音声出力手段とを備えることを特徴とする。

この構成によれば、話者の音声に含まれるテキストと韻律的特徴とを用いて話者の自我状態を推定するとともに、エージェントにおいて刺激された自我状態を推定し、これらの情報をシナリオデータベースに照合することによって抽出される対話シナリオに従ってエージェントの自我状態およびエージェントの発話するテキストを自動的に決定するのであって、さらにエージェントでは対話シナリオにより決定したエージェントの自我状態および刺激する話者の自我状態から得られる韻律パラメータを発話用のテキストに適用した合成音声を生成するから、エージェントは、話者の自我状態と話者の音声に含まれるテキストとに応じて、話者に応対する際の内容が同じであってもテキストおよび韻律パラメータを変化させることができ、話者に応じて変化する自然な対話が可能になる。また、話者の自我状態とエージェントにおいて刺激される自我状態とを知ることによって、違和感のない対話が可能な対話シナリオを選択することが可能になる。

請求項２の発明では、請求項１の発明において、話者の顔を撮像する画像入力手段と、画像入力手段により撮像した話者の顔の各部位の時間変化と前記音声入力手段から入力された話者の音声における韻律的特徴とから話者の感情を分類する感情認識部とが付加され、前記自我状態推定部は、感情認識部で分類された話者の感情を、話者の発話から抽出したテキストおよび韻律的特徴とに加味して話者の自我状態および刺激された自我状態の推定に用いることを特徴とする。

この構成によれば、話者の顔の表情および話者の音声における韻律的特徴とから話者の感情を分類する感情認識部とが付加され、話者の自我状態およびエージェントが刺激された自我状態を推定するにあたって、感情認識部により得られる感情も利用するから、適正な対話シナリオを選択することができる。しかも、話者の自我状態を音声および表情によって決めるから、自我状態を決定する精度が高くなる。

請求項３の発明では、請求項２の発明において、前記感情認識部は、音声の韻律的特徴を複数種類の感情に対応付けた韻律データベースと、前記音声入力手段から入力される話者の音声の韻律的特徴を韻律データベースに照合して感情の候補を抽出する音声感情認識処理部と、顔の各部位の時間変化のパターンを複数種類の表情に対応付けた表情データベースと、前記画像入力手段により撮像される話者の顔の各部位の時間変化を表情データベースに照合して表情の候補を抽出する表情推定処理部と、音声感情認識処理部で抽出した感情の候補と表情推定処理部で抽出した表情の候補とを用いて話者の感情を決定する感情判断部とから構成されることを特徴とする。

この構成によれば、話者の音声の韻律的特徴を韻律データベースに照合して話者の感情の候補を抽出するとともに、話者の顔の各部位の時間変化のパターンを表情データベースに照合して話者の表情の候補を抽出し、感情の候補と表情の候補とを用いて話者の感情を決定するから、韻律と表情とに関してパターンマッチングを行って比較的簡単な方法で話者の感情を決定することができる。

請求項４の発明では、請求項３の発明において、前記表情データベースにおける表情は、「無表情」、「驚き」、「恐怖」、「嫌悪」、「怒り」、「幸福」、「悲しみ」の７種類であることを特徴とする。

この構成によれば、表情データベースにおける表情として、「無表情」、「驚き」、「恐怖」、「嫌悪」、「怒り」、「幸福」、「悲しみ」の７種類を用いるのであって、これらの７種類の表情を用いれば自我状態との対応付けは比較的容易である。

請求項５の発明は、請求項２ないし請求項４の発明において、話者の音声および話者の顔の特徴とを話者に対応付けて登録したユーザデータベースを含み、前記音声入力手段から入力される話者の音声の特徴量と前記画像入力手段により撮像される話者の顔の画像の特徴量とをユーザデータベースに照合して話者を特定するユーザ認識部を備え、前記シナリオデータベースは、話者の自我状態と刺激された自我状態と話者からのテキストとのほかに話者が併せて対話シナリオに対応付けられ、前記対話制御部は、自我状態推定部により推定した話者の自我状態と刺激された自我状態と音声認識処理部により抽出したテキストとのほかにユーザ認識部で特定された話者を併せてシナリオデータベースに照合して得られる対話シナリオに従ってエージェントの自我状態およびエージェントの発話するテキストを自動的に決定することを特徴とする。

この構成によれば、あらかじめユーザデータベースに登録されている特定多数の話者について自我状態を決定するから、対話シナリオを決定する際に話者について既知の情報を利用することが可能になり、不特定多数の話者について自我状態を決定する場合に比較すると、違和感を生じさせない対話シナリオを決定できる可能性が一層高くなる。また、エージェントが対話する話者を特定することによって許可されていない話者との対話を禁止することも可能である。

請求項６の発明では、請求項５の発明において、前記ユーザ認識部は、前記音声入力手段から入力される話者の音声の特徴量を前記ユーザデータベースに照合して話者の候補を抽出する話者認識処理部と、前記画像入力手段により撮像される話者の顔の画像の特徴量を前記ユーザデータベースに照合して話者の候補を抽出する顔画像認識処理部と、話者認識処理部で抽出した話者の候補と顔画像認識処理部で抽出した話者の候補とを用いて話者を決定する話者判断部とから構成されることを特徴とする。

この構成によれば、話者の音声の特徴量と話者の顔の画像の特徴量とをユーザデータベースに照合して話者の候補を抽出するとともに、抽出した話者の候補を用いて話者を決定するから、話者の認識率が高くなる。

請求項７の発明では、請求項５または請求項６の発明において、前記ユーザ認識部により特定された話者に対応付けて前記自我状態推定部が推定した話者の自我状態を蓄積して記録する自我状態履歴記憶部と、自我状態履歴記憶部に蓄積された話者の自我状態の出現頻度の分布パターンにより話者の性格を推定する自我状態特徴抽出部と、自我状態特徴抽出部により推定された性格を話者に対応付けて記憶する自我状態特徴記憶部とが付加され、前記対話制御部は前記自我状態特徴記憶部に格納された話者の性格を用いて前記シナリオデータベースから対話シナリオを選択することを特徴とする。

この構成によれば、話者の自我状態の出現頻度の履歴によって話者の性格を推定することができるから、カウンセラーの診断や自己診断テストなどを行うことなく、話者の性格推定が可能になる。性格の推定結果は自我状態特徴記憶部に格納され、話者の性格の推定結果を用いて対話シナリオを選択するから、話者に応じたスムーズな対話が可能になる。なお、話者の自我状態の履歴を記憶しまた性格の推定結果を記憶しているから、話者のカウンセリングのためにカウンセラが利用することも可能である。

請求項８の発明では、請求項６の発明において、前記ユーザ認識部には、前記画像入力手段により撮像された画像から前記顔画像認識処理部が複数人を認識したときに、前記話者認識処理部は前記音声入力手段から入力される話者の音声により発話した話者を特定する機能が付加され、さらに前記画像入力手段により撮像された画像内の人物の視線の向きを用いて対話相手を認識する対話相手認識部と、対話における発話者、発話時、対話相手、発話のテキスト、発話者と対話相手との自我状態からなる対話データを蓄積する対話記録部とが付加され、前記対話制御部は前記シナリオデータベースの対話シナリオと対話記録部の対話データとを参照することにより発話のタイミングおよびテキストを決定することを特徴とする。

この構成によれば、話者が複数人存在する場合でも対話が可能になり、たとえば看護ロボットに対話エージェントを設けている場合に、被看護人と来訪者（あるいは見舞客）と看護ロボットとの３者での対話が可能になる。ここに、対話制御部において対話記録部の対話データを参照しているのは、対話エージェントの応答が要求されているか否かを判断するためであって、対話相手が対話エージェントを含む場合にのみ対話エージェントによる発話を行うことになる。

請求項９の発明では、請求項８の発明において、前記対話制御部は、話者の発話によって刺激されるエージェントの自我状態を応答時のエージェントの自我状態とし、エージェントの応答時に刺激する話者の自我状態を話者の発話時の自我状態とすることを特徴とする。

この構成によれば、話者とエージェントとにおいて発話の際の自我状態と刺激される自我状態とが一致する結果、違和感のないスムーズな対話が可能になる。

請求項１０の発明では、請求項１ないし請求項９の発明において、前記自我状態推定部は、前記音声認識処理部により抽出したテキストに話者の自我状態に対応付けた特定の付帯語が含まれているときには、当該付帯語から推定される自我状態を話者の自我状態とすることを特徴とする。

この構成によれば、話者の自我状態を音声認識処理部により抽出したテキストの中の特定の付帯語によって推定するのであって、自我状態を推定する条件としてこの種の付帯語を用いると信頼性の高い推定が可能であることが知られているから、この種の付帯語がテキストに含まれるときには、これを利用することによって話者の自我状態を高い精度で推定することが可能になる。しかも、話者の発話したテキスト中に特定の付帯語が含まれているか否かを判断するだけであるから、比較的簡単な処理ながら話者の自我状態を精度よく推定することが可能になる。

請求項１１の発明では、請求項１ないし請求項１０の発明において、話者の覚醒度を判断する覚醒度判断部が付加され、対話制御部は、覚醒度判断部において判断される話者の覚醒度が低いほど音声出力手段から出力する合成音声の速度を低下させることを特徴とする。

この構成によれば、話者の覚醒度に応じて合成音声の速度が調節され、話者の覚醒度が低ければ遅いテンポで応答することにより応答内容を話者に聞き取りやすくし、逆に話者の覚醒度が高ければ速いテンポで応答することにより話者を待たせることなく応答することが可能になる。

請求項１２の発明では、請求項１ないし請求項１１の発明において、話者の感情により変化する生体情報を計測する生体情報計測手段と、前記自我状態推定部で推定した自我状態の適否を生体情報計測手段で計測された生体情報を用いて判断する適否判断部とが付加されたことを特徴とする。

この構成によれば、自我状態推定部で推定した自我状態が話者の感情を害していないか否かを適否判断部において判断することができる。したがって、適否判断部の判断結果を自我状態の推定結果にフィードバックすれば、話者の感情を害することのない適正な自我状態の推定が可能になる。

請求項１３の発明では、請求項１ないし請求項１２の発明において、前記エージェントは、身体動作を伴う表現を行う身体モデルと、前記対話制御部で決定されたテキストおよびエージェントの自我状態を身体モデルの身体動作に変換する身体表現制御部とを備えることを特徴とする。

この構成によれば、身体モデルを備えるエージェントについて、対話制御部で決定されたテキストおよびエージェントの自我状態を身体モデルの身体動作に反映させるから、対話の際にエージェントの身振りや手まねを付与することができ、エージェントから話者へのメッセージの伝達がスムーズになる。

請求項１４の発明では、請求項１ないし請求項１３の発明において、前記自我状態は、交流分析に基づく心のモデルである「批判的な親」、「保護的な親」、「大人」、「自由な子供」、「順応する子供」の５種類に分類されることを特徴とする。

この構成によれば、自我状態として、交流分析に基づく心のモデルである「批判的な親」、「保護的な親」、「大人」、「自由な子供」、「順応する子供」を用いるから、交流分析に従って対話シナリオを比較的容易に設定することができる。

本発明の構成によれば、話者の音声に含まれるテキストと韻律的特徴とを用いて話者の自我状態を推定するとともに、エージェントにおいて刺激された自我状態を推定し、これらの情報をシナリオデータベースに照合することによって抽出される対話シナリオに従ってエージェントの自我状態およびエージェントの発話するテキストを自動的に決定するのであって、さらにエージェントでは対話シナリオにより決定したエージェントの自我状態および刺激する話者の自我状態から得られる韻律パラメータを発話用のテキストに適用した合成音声を生成するから、エージェントは、話者の自我状態と話者の音声に含まれるテキストとに応じて、話者に応対する際の内容が同じであってもテキストおよび韻律パラメータを変化させることができ、話者に応じて変化する自然な対話が可能になるという利点がある。また、話者の自我状態とエージェントにおいて刺激される自我状態とを知ることによって、違和感のない対話が可能な対話シナリオを選択することが可能になるという利点がある。

（実施形態１）
本実施形態は、コンピュータ装置を用いて実現されるエージェントシステムが話者との間で自然な対話を行うために、交流分析（たとえば、杉田峰泰：「交流分析」，日本文化科学社，１９８５）に基づく心のモデルである自我状態に着目するものである。自我状態は、親（Ｐ）、大人（Ａ）、子供（Ｃ）の３状態に大きく分類され、さらに親は批判的な親（ＣＰ）と保護的な親（ＮＰ）に分類され、子供は自由な子供（ＦＣ）と順応する子供（ＡＣ）とに分類されている。以下において自我状態を説明する際には、ＣＰ、ＮＰ、Ａ、ＦＣ、ＡＣの符号を用いる。

上述のように、交流分析において自我状態は５種類に分類されており、対話する両者の自我状態が適正な関係であるとスムーズな対話が可能になることが知られている。すなわち、発話者と応答者との関係においては、発話者の自我状態と発話者の発話によって応答者の中で刺激される自我状態との関係が適正な関係であれば、応答者の応答は発話者にとって違和感を生じることがなく、応答内容が効率よく伝達され、あるいは発話者に暖かい印象を与える応答が可能になる。一方、発話者の自我状態と応答者の自我状態との関係が適正でないときには、発話者は応答者に対して、なれなれしさを感じて不快感を生じたり、あるいは発話者に冷たい印象を受ける応答になる。要するに、発話者と応答者との自我状態の関係が適正でなければ、スムーズな対話が行えないことが知られている。また、対話によって相手に要求するような場合には、対話戦略に従って自我状態を制御することにより、相手を得心させて要求を受け入れやすくすることも可能になる。このように対話をスムーズに行ったり要求を受け入れさせたりするための自他状態の制御手順を、以下では対話シナリオと呼ぶ。

本実施形態においては、コンピュータ装置を用いて実現されるエージェントシステムと話者である人との間で対話を行うこととし、原則として話者が発話するものとする。なお、エージェントシステムが人に対して行動を促すような場合には、エージェントシステムから発話する場合もあり、この種の対話においても以下に説明する対話シナリオに従って自我状態を制御することが可能である。また、本実施形態では仮想的な身体を備えるエージェントを想定するが、実体的な身体を備えるロボットのようなエージェントに本発明の対話エージェントシステムを適用することも可能である。

対話エージェントシステムの基本的な構成を図１に示す。図示する対話エージェントシステムは、話者の音声が入力される音声入力手段としてマイクロホン２１を備えるとともに、話者の顔を撮像する画像入力手段としてＴＶカメラからなるカメラ２２を備える。カメラ２２は話者の顔付近を撮像するように視野が設定される。また、対話エージェントシステムは、後述する合成音声を出力する音声出力手段としてスピーカ２３を備えるとともに、文字情報を出力したりエージェントの身体表現（身振り・手振りなど）を行うためのディスプレイ２４とを備える。つまり、ディスプレイ２４には、人や動物などにより表現された仮想的な身体を備えるエージェントが表示され、スピーカ２３からの音声出力に合うようにエージェントが身体表現を行う構成を採用している。

マイクロホン２１から入力される音声は、音声認識処理部１１と口調認識処理部１２と感情認識部１３とユーザ認識処理部１５とに入力される。音声認識処理部１１は、マイクロホン２１から入力された話者の音声から話者が話したテキスト（音列）を抽出する。音声認識処理部１１における音声の認識には隠れマルコフモデルを用いた周知の技術を採用することができる。口調認識処理部１２は、マイクロホン２１から入力された話者の音声から韻律的特徴を口調として抽出する。つまり、口調認識処理部１２では、話者の音声のパワー、ピッチ、抑揚、速度などの韻律情報を抽出することによって、上述した自我状態の区分に用いる。ちなみに、自我状態と声の調子との関係は、ＣＰでは「やさしい」「安心感を与える」、ＮＰでは「断定的」「疑いがこもる」「非難めく」「押し付け調」、Ａでは「落ち着いた低い声で」「単調」「一定の音調」「冷静」「相手に合わせる」、ＦＣでは「開放的」「大声で」「興奮調」「明るい」「無邪気」「楽しそう」、ＡＣでは「自身がない」「くどい」「遠慮がち」「かみつく」「恨みがましい」などの特徴を有することが知られており、この種の情報を韻律的特徴から抽出することによって、話者の自我状態の推定に用いることができる。

ところで、感情認識部１３にはマイクロホン２１から入力された話者の音声だけではなく、カメラ２２により撮像した話者の顔の画像も入力される。図２に示すように、感情認識部１３には、話者の音声における韻律的特徴から話者の感情を推定する音声感情認識処理部１３ａと、話者の顔の各部位の時間変化から話者の感情を推定する表情推定処理部１３ｂとが設けられる。

音声感情認識処理部１３ａはマイクロホン２１から入力された話者の音声の韻律的特徴を抽出し、抽出した韻律的特徴を韻律データベース１３ｄと照合する機能を有する。韻律データベース１３ｄには、音声の韻律的特徴が複数種類の感情に対応付けて格納されており、音声感情認識処理部１３ａは、韻律的特徴を韻律データベース１３ｄと照合することによって、韻律データベース１３ｄから感情を分類する。ここにおいて、音声感情認識処理部１３ａにおいて韻律的特徴を抽出する技術としては、隠れマルコフモデルを用いたり感情による基本周波数の変化を用いる。また、上述した音声認識処理部１１とともに音声感情認識処理部１３ａにおいても認識精度を高めるために、種々の音声サンプルを収集するとともに各音声サンプルをテキストや感情に対応付けて格納した音声データベースを作成し、音声データベースに収集した音声サンプルを分析することによって得られる情報を、音声感情認識処理部１３ａでのテキストの抽出および音声感情認識処理部１３ａでの感情の候補の抽出の際の学習情報として用いるようにすれば、テキストおよび感情の候補の分類精度を高めることができる。感情の分類にあたっては１種類の候補を抽出するだけではなく複数種類の候補を尤度に対応付けて抽出するのが望ましい。

表情推定処理部１３ｂは、カメラ２２で撮像した話者の顔の画像（たとえば、３０フレーム／秒で画像を取り込む）のうち、眉、目、口などの各部位について時系列的な変化から表情を分類する。表情の種類としては、エクマン：「表情分析入門」などに記述されているように、「無表情」、「驚き」、「恐怖」、「嫌悪」、「怒り」、「幸福」、「悲しみ」の７種類を用いる。すなわち、表情推定処理部１３ｂでは顔の各部位の時間変化のパターンを抽出するとともに、抽出した時間変化のパターンを表情データベース１３ｅと照合する機能を有する。表情データベース１３ｅには、顔の各部位の時間変化のパターンが複数種類の表情に対応付けて格納されており、表情推定処理部１３ｂは、顔の各部位の時間変化のパターンを表情データベース１３ｅと照合することによって、表情データベース１３ｅからパターンマッチングの技術によって表情を分類する。表情データベース１３ｅの作成にあたっては、種々の表情の画像サンプルを収集するとともに各画像サンプルを感情に対応付けて格納した画像データベースを作成し、画像データベースに収集した画像サンプルを分析することによって得られる情報を、表情推定処理部１３ｂでの感情の候補の抽出の際の学習情報として用いるようにすれば、感情の候補の抽出精度を高めることができる。表情推定処理部１３ｂにおいても音声感情認識処理部１３ａと同様に、表情の分類にあたっては１種類の候補を抽出するだけではなく複数種類の候補を尤度に対応付けて抽出するのが望ましい。

音声感情認識処理部１３ａで抽出した感情の候補と表情推定処理部１３ｂにおいて抽出した表情の候補とは感情判断部１３ｃに入力される。感情判断部１３ｃでは、音声感情認識処理部１３ａで抽出した感情の候補と表情推定処理部１３ｂから入力された表情の候補とをファジー論理などによって組み合わせることにより話者の感情を決定する。

上述のようにして、音声認識処理部１１で得られたテキストＤ１と、口調認識処理部１２で得られた韻律的特徴Ｄ２と、感情認識部１３で得られた感情Ｄ３とは自我状態推定部１４に入力される。すなわち、自我状態推定部１４は、話者の発話から抽出したテキストＤ１および韻律的特徴Ｄ２とに、感情認識部１３で分類された話者の感情を加味して、話者の自我状態を推定するとともに、話者がエージェントのどの自我状態を刺激しているかを推定する。テキストＤ１に含まれるキーワード以外の付帯語は、話者の自我状態と刺激を与える相手の自我状態とに深く関係するから、自我状態推定部１４での自我状態の推定には、テキストＤ１の内容（とくに、キーワード以外の付帯語）を主として採用する。また、上述したように韻律的特徴Ｄ２も自我状態と関係し、感情Ｄ３も自我状態に関連するから、韻律的特徴Ｄ２や感情Ｄ３をテキストＤ１に組み合わせることにより自我状態の推定を行う。組合せ方については後述する。

自我状態推定部１４では、話者の自我状態と、刺激を受けたエージェントの自我状態と、話者の感情Ｄ３とを対話制御部１０に与える。また、対話制御部１０には音声認識処理部１１で得られたテキストＤ１も入力される。対話制御部１０では、話者の自我状態と刺激されたエージェントの自我状態とテキストＤ１とをシナリオデータベース１６に照合することによって、シナリオデータベース１６から対話戦略としての対話シナリオを抽出する。つまり、シナリオデータベース１６には、話者の自我状態と刺激されたエージェントの自我状態とテキストＤ１との組が、対話シナリオに対応付けて格納してある。対話制御部１０ではシナリオデータベース１６から対話シナリオを抽出すると、テキストＤ１に対して適切な応答が可能となるように、抽出した対話シナリオに従ってエージェントの自我状態と刺激する話者の自我状態を自動的に決定し、さらに話者からのテキストＤ１と対話制御部１０において決定した自我状態とに基づいて、エージェントの発話するテキストを自動的に決定する。エージェントの発話するテキストは、話者の発話によるテキストＤ１の中のキーワードに対応して応答用のキーワードが決められており（シナリオデータベース１６に対話シナリオの一部として格納されている）、対話正よ部１０において、自我状態に応じて決まる付帯語を応答用のキーワードに付加してテキストを組み立てることにより、エージェントが応答するテキストを生成することができる。

また、対話シナリオによってエージェントの自我状態と刺激する話者の自我状態と応答用のテキストとが決まれば応答用の韻律が決まるから、対話制御部１０において生成した韻律制御用の韻律パラメータを応答用のテキストに適用するように、音声合成処理部１７を制御することによって、音声合成処理部１７において応答用の合成音声を生成することができる。音声合成処理部１７で生成した合成音声はスピーカ２３を通して話者に対する応答音声として出力される。

ところで、自我状態推定部１４では、上述のように基本的にはテキストＤ１と韻律的特徴Ｄ２と感情Ｄ３との３種類の情報を用いて話者の自我状態と刺激されたエージェントの自我状態との推定を行っているが、必ずしも３種類の情報のすべてが揃わない場合もある。そこで、本実施形態では、図３に示すように、自我状態推定部１４に入力される情報に優先順位を設定し、少なくとも音声認識処理部１１からテキストＤ１が入力されれば、自我状態が推定可能になるようにしてある。図３は上段が感情認識部１３での感情Ｄ３の取得の有無、中段が口調認識処理部１２での韻律的特徴Ｄ２の取得の有無、下段が音声認識処理部１１でのテキストＤ１の取得の有無を示しており、テキストＤ１が取得できれば他の情報がなくとも自我状態を推定することができるように処理手順が設定されている。また、テキストＤ１の次に必要な情報は韻律的特徴Ｄ２であって、テキストＤ１と感情Ｄ３との組合せでは、テキストＤ１のみが用いられることになる。

図３に示している「自我状態推定表」とは図４の表のことであって、自我状態推定表では、感情Ｄ３を「喜」「怒」「哀」「恐」「無」の５種類の分類してあり、図４に示す例では、感情Ｄ３が「怒」であるときに韻律的特徴Ｄ２（図４では示していない）を加味し（韻律的特徴Ｄ２は重み付けなどによって組み合わせる）、さらにテキストＤ１にキーワードとは別に含まれる付帯語が「〜すべき」であるときに、話者の自我状態がＣＰであり、刺激されたエージェントの自我状態がＡＣであることを示している。自我状態推定部１４ではこの種の対応付けによって話者の自我状態と刺激されたエージェントの自我状態とを推定する。

上述のように、自我状態推定部１４ではテキストＤ１があれば自我状態を推定することができ、とくに音声認識処理部１１により抽出したテキストＤ１の中に、表１に示す特定の付帯語が含まれているときには、この付帯語から推定される自我状態を話者の自我状態に用いる。つまり、自我状態推定部１４には付帯語を自我状態に対応付けた付帯語データベースが設けられ、テキストＤ１の中に付帯語が含まれているか否かを付帯語データベースと照合し、付帯語が含まれていれば対応する自我状態を抽出する。また、テキストＤ１には必ずしも付帯語が含まれているわけではないから、付帯語が含まれていなければ他の情報を用いて話者の自我状態を推定する。

対話制御部１０では、自我状態推定部１４から話者の感情Ｄ３と話者の自我状態および刺激されたエージェントの自我状態とが入力され、音声認識処理部１１からはテキストＤ１が入力される。対話制御部１０ではこれらの４種類の情報を用いて対話シナリオを決定しているが（本実施形態では、ユーザ認識部１５から話者の識別情報Ｄ４も対話制御部１０に入力されるが、識別情報Ｄ４については後述する）、必ずしも４種類の情報のすべてが揃わない場合もある。そこで、自我状態推定部１４と同様に、対話制御部１０においても入力される情報に図５に示すような優先順位を設定し、少なくとも音声認識処理部１１からテキストＤ１が入力されれば、対話シナリオを決定できるようにしてある。図５は最上段がユーザ認識部１５から入力される識別情報Ｄ４の取得の有無、２段目が自我状態推定部１４からの感情Ｄ３の取得の有無、３段目が自我状態推定部１４からの話者の自我状態および刺激されたエージェントの自我状態の取得の有無、最下段がテキストＤ１の取得の有無を示しており、テキストＤ１が取得できれば他の情報がなくとも対話シナリオを決定することができるように処理手順が設定されている。テキストＤ１の次に重要な情報は、話者の自我状態および刺激されたエージェントの自我状態であり、感情Ｄ３と話者の識別情報Ｄ４とは付加的な情報になっている。

図５に示している「エージェント応答パターン表」とは図６の表のことであって、図６では話者の自我状態および刺激されたエージェントの自我状態の組合せを、応答におけるエージェントの自我状態と刺激する話者の自我状態との組合せに対応付けている（図示する対応関係は自我状態の基本的な組合わせを示しているが、これ以外の組合せも可能である）。図６に示すエージェント応答パターン表はシナリオデータベース１６に格納されたデータの一部であって、実際には感情Ｄ３や話者の識別情報Ｄ４も加味される。また、シナリオデータベース１６では話者から得たテキストＤ１に応答するテキストの対応付けも行われる。

本実施形態が目指している対話シナリオの一例を図７ないし図９に示す。図７ないし図９に示す例は、対話エージェントシステムが駅の案内を行う場合を想定したものである。ここでは、対話がスムーズに進行するように、対話シナリオとして交流分析において知られている相補的交流を採用している。また、説明を簡単にするために、話者の発話によって話者の自我状態とエージェントの自我状態とが決まるものとする。つまり、話者の発話によって刺激されるエージェントの自我状態が、応答時のエージェントの自我状態になり、また話者の発話時の自我状態がエージェントからの応答時に刺激する話者の自我状態になるものとする。

図７は話者とエージェントとの自我状態がともにＡの場合であって、自我状態をＡとする話者が「駅はどちらですか」という発話を行うことによって、エージェントはＡの自我状態が刺激される。ここで、エージェントは対話シナリオによって、エージェントの自我状態をＡとし、話者のＡの自我状態を刺激するような応答を行うために、「次の信号を右に曲がってまっすぐです」という応答を行うことになる。

一方、図８は話者の自我状態がＦＣであり、エージェントの自我状態がＮＰになる場合の例であって、自我状態をＦＣとする話者が「駅に行きたいの」という発話を行うことによって、エージェントはＮＰの自我状態が刺激される。エージェントは対話シナリオによって、エージェントの自我状態をＮＰとし、話者のＦＣの自我状態を刺激するような応答を行うために、「次の信号を右に曲がってごらん」という応答を行う。

話者の自我状態がＦＣであっても発話の仕方によっては、刺激されるエージェントの自我状態がＮＰではなく他の自我状態になる場合もある。図９はこの種の例であって、話者の自我状態がＦＣであり、エージェントの自我状態もＦＣになっている。つまり、自我状態をＦＣとする話者が「駅に行きたーいなー」という発話を行うことによって、エージェントではＦＣの自我状態が刺激される。対話シナリオによって、エージェントは自我状態をＦＣとし、話者のＦＣの自我状態を刺激するような応答を行うために、「次の信号を右に曲がってごらんよ」という応答を行う。

図７ないし図９は対話シナリオを例示したものであるが、対話エージェントシステムの使用目的によって対話シナリオは変化し、また応答内容も変化するのは言うまでもない。いずれにせよ、話者の自我状態と話者が刺激するエージェントの自我状態との組合せによって、エージェントが応答に用いるテキストや韻律情報に変化が生じるから、話者にとって受け入れやすく、かつ違和感のない自然な対話が可能になるのである。ここに、話者の発話により刺激されるエージェントの自我状態とは異なる自我状態でエージェントが応答したり、エージェントの応答時に刺激する話者の自我状態を話者の発話時の自我状態とは異ならせたりすると、話者にとっては違和感を生じることが多く、話者が感情を害する場合もあることが知られている。これに対して、本実施形態では、上述のような相補的交流を行うからスムーズな対話が可能になる。

ところで、上述したユーザ認識部１５は、話者があらかじめ登録されているか否かを認識することによって、特定の話者の特徴を利用して認識率を高めたり、話者の認証を行ったりするために設けられている。ユーザ認識部１５は、図２に示すように、マイクロホン２１から入力される話者の音声の特徴量を話者データベース１５ｄに照合して話者の候補を抽出する話者認識処理部１５ａと、カメラ２２により撮像される話者の顔の画像の特徴量を顔画像データベース１５ｅに照合して話者の候補を抽出する顔画像認識処理部１５ｂとを備える。ここに、図では便宜上、話者データベース１５ｄと顔画像データベース１５ｅとを別に分けて記述しているが、両者を一括してユーザデータベースとするのが望ましい。話者認識処理部１５ａで抽出した話者の候補と顔画像認識処理部１５ｂで抽出した話者の候補とは話者判断部１５ｃに入力され、話者判断部１５ｃではファジー論理などを用いて話者の候補を組み合わせることにより、話者を決定するとともに話者ごとに付与した識別情報Ｄ４を出力する。

ユーザ認識部１５から出力される識別情報Ｄ４を対話制御部１０で採用するために、シナリオデータベース１６には、対話における話者の好みや話者の性格などの情報が識別情報Ｄ４に対応付けて格納されており、対話制御部１０では、ユーザ認識部１５から識別情報Ｄ４が得られるときには、話者の好みや性格などを加味して対話シナリオを決定する。また、話者の識別情報Ｄ４が得られることによって、エージェントが話者の名前を呼びかけに用いることも可能になる。

上述のようにして対話制御部１０で対話シナリオが決定されることによって、エージェントの自我状態が決定されるとともに、刺激する話者の自我状態が決定され、さらにテキストＤ１に対応して応答するテキストの内容が決定されると、上述したように音声合成処理部１７により合成音声を生成し、スピーカ２３を通して応答音声を出力する。ここで、エージェントはディスプレイ２４に表示された仮想的な身体を用いて身体動作を伴う表現が可能になっており、身体表現を行うことによって親近感のある応答が可能になる。

このような仮想的な身体による身体表現を行うために、本実施形態の対話エージェントシステムには、仮想的な身体を表現するためのデータ群を記憶装置に格納した身体モデル１９と、対話制御部１０で決定した応答内容（テキスト、エージェントの自我状態、刺激する話者の自我状態）を身体モデル１９の身体動作に変換する身体表現制御部１８とを設けてある。ここに、身体モデル１９の身体動作に変換するとは、身体モデル１９に格納されている身体表現のデータ群から、表現に必要なデータ群を抽出するとともに、抽出したデータ群をディスプレイ２４に表示された仮想的な身体に適用することを意味する。この処理によって、ディスプレイ２４に表示されたエージェントの身振り・手振り（手を挙げる、手を伸ばす、首を振る、頷くなど）を対話エージェントシステムの応答内容に応じて制御することが可能になる。

なお、上述した実施形態では、話者の音声と顔の画像とを入力とし、エージェントは音声と身体表現との出力を行うように構成しているが、話者とエージェントとは少なくとも音声による対話が可能であれば、話者の画像やエージェントの身体表現は必須ではない。

ところで、上述した例では自我状態の推定に際して話者の感情も用いており、感情の推定にはカメラ２２で撮像した話者の顔の画像に関する情報を話者の音声から得られる情報と併せて用いている。つまり、カメラ２２から得られる非言語的な情報は、自我状態の推定に用いることを目的として５種類に分類した感情を推定するために用いている。一方、カメラ２２から得られる画像を用いて目の動きなどを監視すれば、上述のような５種類の感情だけではなく、話者の内面状態を推定することが可能である。そこで、感情認識部１３とは別にカメラ２２により撮像される顔画像から話者の内面状態を推定する内面状態推定部３０を設け、話者の特定の内面状態を検出してもよい。

たとえば、内面状態として「焦り」の状態では視線の移動が激しくなるから、カメラ２２で撮像した話者の顔の画像における瞳の位置変化（移動量および移動頻度）を監視することにより、話者に「焦り」があるか否かを判断することが可能になる。つまり、内面状態推定部３０ではカメラ２２により撮像した顔の画像から画像処理の技術によって両目と瞳との位置を検出し、目の位置に対する瞳の位置の相対的な変化を監視して、移動量が規定値以上である状態が単位時間内に規定頻度以上生じるときには、内面状態が「焦り」であると判断する。

内面状態推定部３０において特定の内面状態（「焦り」のような内面状態）が検出されたときには、自我状態に優先して内面状態を用いるように対話制御部１０に指示する。対話制御部１０では内面状態を自我状態に優先させる指示があると、シナリオデータベース１６から特定の内面状態に対応した対話シナリオを抽出する。内面状態に対応する対話シナリオとしては一般にＡ→ＡあるいはＡＣ→ＣＰを選択し、自我状態によってＦＣ→ＦＣという応答が望ましいと判断されても、内面状態による判断を優先して用いる。

いま、話者に対して料理の献立や調理方法のアドバイスを行う目的で対話エージェントを用いる場合を想定する。ここで、「焦り」がない場合には〔１〕のように対話を行い、内面状態として「焦り」が検出されたときには〔２〕のように対話を行う。
〔１〕
話者：簡単にお客様に出せる料理を教えてほしいの、助けて！
対話エージェント：はーい、わかりました。まずどんな材料を使いますか？
〔２〕
話者：簡単にお客様に出せる料理を教えてほしいの、助けて！
対話エージェント：はい、とりあえず次のようなメニューはいかがですか？
また、上述した構成において、マイクロホン２１により得られる音声およびカメラ２２により撮像される画像に基づいて年齢層や性別を判断する機能をユーザ認識部１５に持たせてもよい。話者の年齢層や性別を推定すれば、対話制御部１０において年齢層や性別に合わせた対話シナリオを選択することが可能になる。たとえば、低年齢層の子供の場合に、対話エージェントから話者に対してＣＰ→ＡＣという威圧的な応答を行ったとしても、話者から対話エージェントに対してＡＣ→ＣＰという服従的な応答を得ることは難しい。この場合、対話エージェントから話者に対してＡ→Ａという平静、あるいはＮＰ→ＦＣという教育的な応答が望ましい。あるいはまた、子供向けに語尾を変えることも考えられる。一方、話者が高齢者であれば、対話エージェントが応答するテキストをかしこまった文言とするのが望ましい。このように年齢層や性別の情報を取得することによって、より適切な対話シナリオを選択することが可能になる。

さらにまた、話者の性格的傾向は大人と子供とでは異なる場合があるから（大人は自己否定的、子供は自己肯定的な傾向がある）、大人と子供とで応答の内容を変化させるようにしてもよい。たとえば、看護ロボットに対話エージェントを用いるような場合には、大人の話者に対しては励ますように応答することが望ましい。

本実施形態では、対話エージェントの出力手段としてスピーカ２３とディスプレイ２４とを用いているが、香料噴出装置（図示せず）を付加してもよい。一般に香りによる各種の心理的効果が知られており、たとえばジャスミンの香りは、リラックス効果、情緒安定効果などがあり、また抑鬱状態にもよいと言われている。そこで、話者から対話エージェントに対してＣＰ→ＡＣであって話者が怒気を含んだ心理状態であるときや、話者が抑鬱的な状態であるときには、香料噴出装置からジャスミンの香りを噴出することにより、対話エージェントの応答だけではなく、香りの効果によっても話者の心理状態を改善することが可能になる。この機能は看護ロボットや介護ロボットに組み込むのに適している。

上述した説明では、話者の発話に対して対話エージェントが応答する例を示したが、話者の発話がない場合でも対話エージェントから発話する機能を設けることによって、対話エージェントの擬人性を高めることができるから、対話エージェントに話者の存在を検出する機能を付加するのが望ましい。この機能を実現するには、カメラ２２の視野内の人の存否を検知することができる人感センサ（図示せず）を付加する。人感センサには、人体から放射される熱線を検知する焦電型赤外線センサなどを用いた周知のものを用いる。対話エージェントでは、人感センサが人を検知すると、カメラ２２で撮像されている画像内の人を顔画像データベース１５ｅに照合することによって登録されている人物か否かを判断する。ここで、ユーザ認識部１５において登録されている人物か否かを判断する際に、音声を利用することができないから、顔画像データベース１５ｅのみを用いて人物を判断することになる。カメラ２２で撮像された画像からユーザ認識部１５に登録された人物と判断されると、対話制御部１０では当該人物の名前を呼びかけて挨拶を行い、人物が非登録であると挨拶のみを行う。また、呼びかけに応答して人物が発した音声から人物の誤認に気付いたときには、名前を訂正する応答を行えばよい。なお、カメラ２２の画像で人物を認識したときに対話エージェントが挨拶の発話を行うのは一例であって、たとえば、許可者以外は侵入禁止であるような場所であれば、登録された人物には侵入許可を通知し、登録されていない人物には侵入禁止を通知するように発話するなど、発話内容は目的に応じて適宜に設定される。

（実施形態２）
本実施形態は、ユーザ認識部１５により話者を特定できることを利用して話者ごとに自我状態の履歴を記録し、話者の自我状態の履歴を用いて話者の性格を推定することにより話者の性格に合わせた応答を可能とするものである。

本実施形態では、図１０に示すように、自我状態推定部１４が推定した話者の自我状態をユーザ認識部１５において特定した話者に対応付けて蓄積して記憶する自我状態履歴記憶部３１と、自我状態履歴記憶部３１に記憶した話者の自我状態の出現頻度の分布パターンから話者の性格を推定する自我状態特徴抽出部３２と、自我状態特徴抽出部３２により推定した性格を話者に対応付けて記憶する自我状態特徴記憶部３３とを付加している。自我状態履歴記憶部３１では話者の自我状態を時系列で履歴として記憶するとともに各自我状態の出現頻度を記憶している。自我状態特徴抽出部３２では、自我状態の出現頻度の分布パターンと性格とを対応付けて登録してある自我状態特徴データベース３４とを照合し、一致度の高い性格を話者の性格として推定する。すなわち、自我状態特徴データベース３４には、交流分析における５種類の自我状態の出現頻度の分布パターン（出現頻度を正規化した分布パターン）が性格に対応付けて登録してあり、自我状態履歴記憶部３１に記憶した話者ごとの自我状態の出現頻度の分布パターンが、自我状態特徴データベース３４に登録されている分布パターンと照合される。この照合はパターンマッチングであって類似度の高いものが選択され、選択された性格が話者の性格と推定される。自我状態特徴データベース３４では、たとえば、自我状態としてＮＰ，ＦＣが低く、ＣＰ，ＡＣが高い場合には、「自分を表現することができにくく、鬱になりやすい性格」「不登校タイプの性格」「責任感、現実検討能力、協調性は十分持っているが、思いやりに欠ける性格」などの性格が対応付けられる。自我状態特徴抽出部３２での性格の推定結果は話者と対応付けて自我状態特徴記憶部３３に記憶される。

ところで、自我状態特徴記憶部３３に話者の性格が記憶されているときには、当該話者との対話を行う際に、対話制御部１０では自我状態特徴記憶部３３から話者の性格を取得する。シナリオデータベース１６には話者の性格に対応付けて対話シナリオが登録されているから、対話制御部１０においてシナリオデータベース１６から話者の性格に応じた対話シナリオを選択することができ、結果的に話者の性格に応じたスムーズな対話が可能になる。

また、本実施形態の対話エージェントを看護ロボットなどに用いる場合に、話者の性格を推定することによって、対話エージェントをセラピストのように機能させることが可能になる。たとえば、話者の性格が悲観的あるいは自虐的な傾向であるときに、話者の心理状態を向上させるような応答を行うことが可能になる。いま、自我状態の出現頻度のうちＮＰ，ＦＣが低く、ＣＰ，ＡＣが高い場合には上述したように、鬱傾向があることが知られている。そこで、一般の話者では対話エージェントと話者との間で以下に〔１〕で示す対話を行うとすれば、自我状態の出現頻度のうちＮＰ，ＦＣが低く、ＣＰ，ＡＣが高い話者では以下に〔２〕で示すように肯定的な表現を用いて話者を励まし、話者の心理状態を向上させる対話が可能になる。
〔１〕
対話エージェント：お薬の時間ですよ。
話者：もうわかったよ。
対話エージェント：では、よろしくお願いしますね。
〔２〕
対話エージェント：お薬の時間ですよ。
話者：もうわかったよ。
対話エージェント：これで良くなりますから、元気を出してください。もう少しですから。

なお、上述のように、自我状態履歴記憶部３１には話者ごとの自我状態の履歴（自我状態の出現頻度を含む）が記憶されており、また自我状態特徴記憶部３３には話者ごとの性格の推定結果が記憶されているから、話者がカウンセリングを受ける際にはカウンセラにこれらのデータを提供することによって、カウンセリングの参考に用いることが可能になる。他の構成および機能は実施形態１と同様である。

（実施形態３）
上述した各実施形態では話者が１人である場合を例示したが、本実施形態は２人の話者が存在し対話エージェントを含めて３者での対話を行うことを可能とする構成について説明する。本実施形態では、図１１に示すように、カメラ２２により撮像された画像に含まれる人物の視線の向きを監視し、視線の向きによって対話相手を認識する対話相手認識部３５と、対話における発話者、発話時、対話相手、発話のテキスト、発話者と対話相手との自我状態からなる対話データを蓄積する対話記録部３６とを付加している。発話者および発話時はユーザ認識部３５により取得でき、対話相手は対話相手認識部３５から取得でき、発話のテキストおよび発話者と対話相手との自我状態は対話制御部１０から取得することができる。なお、本実施形態では、カメラ２２として話者の目の位置および瞳の位置を監視できる程度の解像度のものを用いることが必要である。

また、ユーザ認識部１５では、カメラ２２で撮像された画像から顔画像認識処理部１５ｂが２人の話者を認識したときに、対話制御部１０、感情認識部１３、自我状態推定部１４、対話相手認識部３５に通知することによって、２人の話者が存在する対話を行う動作に切り換える。その後、ユーザ認識部１５では、マイクロホン２１から入力される話者の音声を用いて話者認識処理部１５ａにおいて発話した話者を特定し、対話制御部１０、感情認識部１３、自我状態推定部１４、対話相手認識部３５に対して認識した話者を通知する。要するに、本実施形態ではカメラ２２で撮像された画像を、話者の人数と話者の対話相手との特定に用い、マイクロホン２１から入力される音声により発話した話者の感情を推定し、発話した話者と対話相手との自我状態を推定する。推定された自我状態と、音声認識処理部１１で得られたテキストとは、対話制御部１０に与えられ、対話制御部１０では上述した対話データを対話記録部３６に記録する。

本実施形態におけるシナリオデータベース１６には３者間の対話シナリオが上述した各実施形態のような２者間での対話シナリオとは別に格納されており、対話相手認識部３５から２人の話者が存在することが対話制御部１０に通知されると、対話制御部１０ではシナリオデータベース１６から３者間の対話シナリオを選択する。３者間の対話シナリオでは、対話相手が対話エージェントを含むときにのみ対話エージェントが発話するように設定され、話者同士の対話では対話エージェントから発話しないように設定される。つまり、対話制御部１０は、音声認識処理部１１が抽出した発話のテキストと、対話相手認識部３５が認識した対話相手と、自我状態推定部１４が推定した自我状態とを用い（対話記録部３６に対話データとして記録されている）、対話エージェントが発話すべきか否かを判断する。対話エージェントが発話しないときにはカメラ２２で撮像した画像から話者の人数を確認する処理に戻り、対話エージェントが発話するときには上述した各実施形態と同様に音声合成処理部１７および身体表現制御部１８を通して身体表現を伴う発話を行う。

本実施形態を用いた対話シナリオの一例を以下に示す。以下に示す例は、対話エージェントが看護ロボットに設けられており、被看護人と来訪者との２人の話者が存在する場合を例示している。また、〔１〕は対話エージェントが発話しない場合であり、〔２〕は対話エージェントが発話する場合である。
〔１〕
被看護人→来訪者（ＦＣ→ＦＣ）：学校では変わったことはない？
来訪者→被看護人（ＦＣ→ＦＣ）：いつも通りだよ。
〔２〕
被看護人→来訪者（ＦＣ→ＮＰ）：しんどいよ。
来訪者→被看護人（ＮＰ→ＦＣ）：もうすぐ良くなるよ。
看護ロボット→被看護人（ＮＰ→ＦＣ）：そうですよ、がんばってください。

なお、本実施形態では２人の話者と対話エージェントとの３者による対話を例示したが、本実施形態の技術を３人以上の話者に拡張することによって、さらに多人数での対話も可能である。他の構成および動作は実施形態１と同様である。

（実施形態４）
本実施形態は話者の覚醒度を判断することによって、対話エージェントが応答する際の合成音声の速度を調節するものである。つまり、話者の覚醒度が低いときには、速いテンポで応答すると応答内容を話者が聞き取れない場合があり、逆に話者の覚醒度が高いときには、遅いテンポで応答すると話者がいらだつ場合があるから、話者の覚醒度を判断するとともに、話者の覚醒度に応じてスピーカ２３から出力する合成音声の速度を調節している。

本実施形態では、話者の覚醒度の判断に皮膚電位水準（ＳＰＬ）を用いる。皮膚電位水準を求めるために、図１２に示すように、話者の手のひらや足の裏のように精神状態による発汗量の変化が生じやすい部位に接触可能な電極２５（電極２５は一対ある）を設けてあり、電極２５は電位計測部３７に接続され電位計測部３７では一対の電極２５の電位差を計測する。電極２５が話者に装着されていると話者は煩わしく感じる可能性があるから、たとえば対話エージェントを看護ロボットに組み込むような場合には、話者との握手などの行為によって話者が電極２５に触れるようにするのが望ましい。電位計測部３７により計測された電位差は覚醒度判断部３８に入力され、覚醒度判断部３８では電位差を覚醒度に変換する。一般に、電位差（ＳＰＬ）が大きいほど覚醒度が高いから、適宜に設定した閾値に対して電位差が大きければ覚醒度判断部３８において話者の覚醒度が高いと判断する。なお、本実施形態では話者の覚醒度を高低２段階で判断しているが、覚醒度を多段階で判断してもよい。ところで、電位計測部３７で計測される電位差は話者によって個人差があるから、ユーザ認識部１５により認識した話者に対応付けて電位計測部３７での検出結果を記憶して蓄積しておき、話者別の蓄積結果の平均値を上述の閾値に用いるようにすればよい。

上述のようにして覚醒度判断部３８において求めた話者の覚醒度は対話制御部１０に与えられ、対話制御部１０では話者の覚醒度が低い（ＳＰＬが閾値より低い）ときには、合成音声による応答の速度が比較的遅いテンポになるように、音声合成処理部１７で生成する合成音声の出力速度を調節する。このように覚醒度の低い話者に対して遅いテンポで応答することにより、テキストの内容を聞き取りやすくすることができる。一方、話者の覚醒度が高い（ＳＰＬが閾値より高い）ときには、やや速いテンポで応答することで話者の覚醒度を保ち、話者が応答の遅さにいらだつことがないようにする。他の構成および動作は実施形態１と同様である。

（実施形態５）
本実施形態は、話者の生体情報を検出することによって対話エージェントが推定した自我状態が対話に適切であったか否かを判断するものである。すなわち、話者と対話エージェントとが対話する際には自我状態推定部１４において話者の発話に基づいて話者の自我状態と対話エージェントにおいて刺激される自我状態とを推定している。一般的には、推定した自我状態を用いて相補的交流を行えばスムーズな対話が可能になる。ここでスムーズな対話とは、話者が感情を害することなく対話することを意味する。一方、相補的交流ではなく自我状態の交差が生じるような交流では、話者は感情を害して対話がスムーズに進行しなくなる可能性がある。

そこで、本実施形態では、話者の感情を判断するために、話者の瞬時心拍率（１分間の心拍数）を用いている。一般に瞬時心拍率は、怒り、ストレス、恐怖などの防衛的あるいは攻撃的な感情が生じると上昇し、落ち着いているときには低下することが知られている。本実施形態では、このような生理現象を利用して対話中の話者の瞬時心拍率を求め、瞬時心拍率の変動を監視することによって、話者に防衛的ないし攻撃的な感情が生じていないか否かを判断している。瞬時心拍率の検出にはＥＣＧを用いており、実施形態４と同様に電極２６（電極２６は一対ある）を設けている。電極２６は話者の胸部あるいは四肢に装着される。

図１３に示すように、電極２６はＥＣＧ計測部４１に接続され、一対の電極２６により検出される電位差がＥＣＧ計測部４１において検出される。ＥＣＧ計測部４１では、たとえば図１４に示すような電位変化が検出される。この電位変化は、心臓における心房の興奮を示すＰ波と、心室の脱分極を示すＱＲＳと、心室の細分極を示すＴ波とを含む。ここで、Ｒ−Ｒの間隔は心臓交換神経と心臓副交感神経との拮抗支配を受けており、Ｒ−Ｒ間隔を１分当たりの心拍数に換算することで瞬時心拍率を求めることができる。そこで、図１４に示すようなＥＣＧ計測部４１の出力を瞬時心拍率検出部４２に入力し、Ｒ−Ｒ間隔を求めることによって瞬時心拍率を求める。すなわち、電極２６とＥＣＧ計測部４１と瞬時心拍率検出部４２とにより生体情報計測手段が構成される。話者が防衛的ないし攻撃的な感情を持つと、瞬時心拍率が常時よりも上昇するから、適否判断部４３では瞬時心拍率検出部４２で求めた瞬時心拍率を適宜の閾値と比較することにより、話者の感情が防衛的ないし攻撃的であるか否かを判断する。つまり、適否判断部４３は自我状態推定部１４が推定した自我状態が適切であったか否かを判断することになる。適否判断部４３では、瞬時心拍率が閾値よりも低いときには自我状態推定部１４で推定した話者の自我状態および対話エージェントの刺激された自我状態が適切であったと判断し、瞬時心拍率が閾値以上であるときには自我状態推定部１４の推定結果が適切でなかったと判断する。

なお、図１３に破線で示すように、適否判断部４３による判断結果を自我状態推定部１４にフィードバックして自我状態推定部１４の学習に用いれば、推定した自我状態の信頼度を高めることができ、結果的に対話エージェントの応答によって話者の感情を害する可能性が低減されスムーズな対話が可能になる。また、瞬時心拍率の検出には電極２６に変えて血流を監視する光学式のセンサを用いてもよい（この種のセンサは種々運動機械における心拍計に用いられている）。他の構成および動作は実施形態１と同様である。

実施形態１を示すブロック図である。同上の要部のブロック図である。同上に用いる自我状態推定部の動作説明図である。同上に用いる自我状態推定表の一例を示す図である。同上に用いる対話制御部の動作説明図である。同上に用いるエージェント対応パターン表を示す図である。同上を用いた対話例を示す図である。同上を用いた対話例を示す図である。同上を用いた対話例を示す図である。実施形態２を示すブロック図である。実施形態３を示すブロック図である。実施形態４を示すブロック図である。実施形態５を示すブロック図である。同上に用いるＥＣＧの一例を示す図である。

符号の説明

１０対話制御部
１１音声認識処理部
１２口調認識処理部
１３感情認識部
１３ａ音声感情認識処理部
１３ｂ表情推定処理部
１３ｃ感情判断部
１３ｄ韻律データベース
１３ｅ表情データベース
１４自我状態推定部
１５ユーザ認識部
１５ａ話者認識処理部
１５ｂ顔画像認識処理部
１５ｃ話者判断部
１５ｄ話者データベース
１５ｅ顔画像データベース
１６シナリオデータベース
１７音声合成処理部
１８身体表現制御部
１９身体モデル
２１マイクロホン
２２カメラ
２３スピーカ
２４ディスプレイ
２５電極
２６電極
３１自我状態履歴記憶部
３２自我状態特徴抽出部
３３自我状態特徴記憶部
３５対話相手認識部
３６対話記録部
３７電位計測手段
３８覚醒度判断部
４１ＥＣＧ計測部
４２瞬時心拍率検出部
４３適否判断部

Claims

話者の音声が入力される音声入力手段と、音声入力手段から入力された話者の音声からテキストを抽出する音声認識処理部と、音声入力手段から入力された話者の音声から韻律的特徴を抽出する口調認識処理部と、少なくとも音声認識処理部により抽出したテキストと口調認識処理部により抽出した韻律的特徴とを用いて話者の自我状態を推定するとともに話者に応対するエージェントにおいて刺激された自我状態を推定する自我状態推定部と、話者の自我状態と刺激された自我状態と話者からのテキストとをエージェントの対話戦略である対話シナリオに対応付けたシナリオデータベースと、自我状態推定部により推定した話者の自我状態と刺激された自我状態と音声認識処理部により抽出したテキストとをシナリオデータベースに照合して得られる対話シナリオに従ってエージェントの自我状態および刺激する話者の自我状態を決定するとともにエージェントの発話するテキストを自動的に決定する対話制御部とを備え、エージェントは、対話制御部において決定したテキストに対話制御部において決定した自我状態から得られる韻律制御用の韻律パラメータを適用した合成音声を生成する音声合成処理部と、音声合成処理部で生成した合成音声を出力する音声出力手段とを備えることを特徴とする対話エージェントシステム。
話者の顔を撮像する画像入力手段と、画像入力手段により撮像した話者の顔の各部位の時間変化と前記音声入力手段から入力された話者の音声における韻律的特徴とから話者の感情を分類する感情認識部とが付加され、前記自我状態推定部は、感情認識部で分類された話者の感情を、話者の発話から抽出したテキストおよび韻律的特徴とに加味して話者の自我状態および刺激された自我状態の推定に用いることを特徴とする請求項１記載の対話エージェントシステム。
前記感情認識部は、音声の韻律的特徴を複数種類の感情に対応付けた韻律データベースと、前記音声入力手段から入力される話者の音声の韻律的特徴を韻律データベースに照合して感情の候補を抽出する音声感情認識処理部と、顔の各部位の時間変化のパターンを複数種類の表情に対応付けた表情データベースと、前記画像入力手段により撮像される話者の顔の各部位の時間変化を表情データベースに照合して表情の候補を抽出する表情推定処理部と、音声感情認識処理部で抽出した感情の候補と表情推定処理部で抽出した表情の候補とを用いて話者の感情を決定する感情判断部とから構成されることを特徴とする請求項２記載の対話エージェントシステム。
前記表情データベースにおける表情は、「無表情」、「驚き」、「恐怖」、「嫌悪」、「怒り」、「幸福」、「悲しみ」の７種類であることを特徴とする請求項３記載の対話エージェントシステム。
話者の音声および話者の顔の特徴とを話者に対応付けて登録したユーザデータベースを含み、前記音声入力手段から入力される話者の音声の特徴量と前記画像入力手段により撮像される話者の顔の画像の特徴量とをユーザデータベースに照合して話者を特定するユーザ認識部を備え、前記シナリオデータベースは、話者の自我状態と刺激された自我状態と話者からのテキストとのほかに話者が併せて対話シナリオに対応付けられ、前記対話制御部は、自我状態推定部により推定した話者の自我状態と刺激された自我状態と音声認識処理部により抽出したテキストとのほかにユーザ認識部で特定された話者を併せてシナリオデータベースに照合して得られる対話シナリオに従ってエージェントの自我状態およびエージェントの発話するテキストを自動的に決定することを特徴とする請求項２ないし請求項４のいずれか１項に記載の対話エージェントシステム。
前記ユーザ認識部は、前記音声入力手段から入力される話者の音声の特徴量を前記ユーザデータベースに照合して話者の候補を抽出する話者認識処理部と、前記画像入力手段により撮像される話者の顔の画像の特徴量を前記ユーザデータベースに照合して話者の候補を抽出する顔画像認識処理部と、話者認識処理部で抽出した話者の候補と顔画像認識処理部で抽出した話者の候補とを用いて話者を決定する話者判断部とから構成されることを特徴とする請求項５記載の対話エージェントシステム。
前記ユーザ認識部により特定された話者に対応付けて前記自我状態推定部が推定した話者の自我状態を蓄積して記憶する自我状態履歴記憶部と、自我状態履歴記憶部に蓄積された話者の自我状態の出現頻度の分布パターンにより話者の性格を推定する自我状態特徴抽出部と、自我状態特徴抽出部により推定された性格を話者に対応付けて記憶する自我状態特徴記憶部とが付加され、前記対話制御部は前記自我状態特徴記憶部に格納された話者の性格を用いて前記シナリオデータベースから対話シナリオを選択することを特徴とする請求項５または請求項６記載の対話エージェントシステム。
前記ユーザ認識部には、前記画像入力手段により撮像された画像から前記顔画像認識処理部が複数人を認識したときに、前記話者認識処理部は前記音声入力手段から入力される話者の音声により発話した話者を特定する機能が付加され、さらに前記画像入力手段により撮像された画像内の人物の視線の向きを用いて対話相手を認識する対話相手認識部と、対話における発話者、発話時、対話相手、発話のテキスト、発話者と対話相手との自我状態からなる対話データを蓄積する対話記録部とが付加され、前記対話制御部は前記シナリオデータベースの対話シナリオと対話記録部の対話データとを参照することにより発話のタイミングおよびテキストを決定することを特徴とする請求項６記載の対話エージェントシステム。
前記対話制御部は、話者の発話によって刺激されるエージェントの自我状態を応答時のエージェントの自我状態とし、エージェントの応答時に刺激する話者の自我状態を話者の発話時の自我状態とすることを特徴とする請求項８記載の対話エージェントシステム。
前記自我状態推定部は、前記音声認識処理部により抽出したテキストに話者の自我状態に対応付けた特定の付帯語が含まれているときには、当該付帯語から推定される自我状態を話者の自我状態とすることを特徴とする請求項１ないし請求項９のいずれか１項に記載の対話エージェントシステム。
話者の覚醒度を判断する覚醒度判断部が付加され、対話制御部は、覚醒度判断部において判断される話者の覚醒度が低いほど音声出力手段から出力する合成音声の速度を低下させることを特徴とする請求項１ないし請求項１０のいずれか１項に記載の対話エージェントシステム。
話者の感情により変化する生体情報を計測する生体情報計測手段と、前記自我状態推定部で推定した自我状態の適否を生体情報計測手段で計測された生体情報を用いて判断する適否判断部とが付加されたことを特徴とする請求項１ないし請求項１１のいずれか１項に記載の対話エージェントシステム。
前記エージェントは、身体動作を伴う表現を行う身体モデルと、前記対話制御部で決定されたテキストおよびエージェントの自我状態を身体モデルの身体動作に変換する身体表現制御部とを備えることを特徴とする請求項１ないし請求項１２のいずれか１項に記載の対話エージェントシステム。
前記自我状態は、交流分析に基づく心のモデルである「批判的な親」、「保護的な親」、「大人」、「自由な子供」、「順応する子供」の５種類に分類されることを特徴とする請求項１ないし請求項１３のいずれか１項に記載の対話エージェントシステム。