JP2006071936A - 対話エージェント - Google Patents

対話エージェント Download PDF

Info

Publication number
JP2006071936A
JP2006071936A JP2004254794A JP2004254794A JP2006071936A JP 2006071936 A JP2006071936 A JP 2006071936A JP 2004254794 A JP2004254794 A JP 2004254794A JP 2004254794 A JP2004254794 A JP 2004254794A JP 2006071936 A JP2006071936 A JP 2006071936A
Authority
JP
Japan
Prior art keywords
user
ego state
ego
text
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004254794A
Other languages
English (en)
Inventor
Takashi Nishiyama
高史 西山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Works Ltd filed Critical Matsushita Electric Works Ltd
Priority to JP2004254794A priority Critical patent/JP2006071936A/ja
Publication of JP2006071936A publication Critical patent/JP2006071936A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】利用者への応答を自我状態に応じて変化させ、利用者に違和感や不快感の生じない自然な対話を行うことを可能とした対話エージェントを提供する。
【解決手段】顔感情推定部13はカメラ41で撮像した利用者の表情から感情を推定する。マイクロホン42から入力された利用者の音声は、音声感情推定部14で感情が推定され、口調推定部15で口調が推定され、テキスト抽出部16でテキストが抽出される。自我状態推定部20では、利用者の表情から得た感情と音声から得た感情と口調とテキストとの4種類の情報を組み合わせることにより利用者の発話に対する自我状態ベクトルを推定する。対話制御部30は、利用者の発話により推定された自我状態ベクトルから応答用の自我状態ベクトルおよびテキストを決定し、スピーカ43を通して合成音声で応答する。
【選択図】 図1

Description

本発明は、利用者の音声に応答して利用者と対話する対話エージェントに関するものである。
従来から、利用者の音声に応答して利用者と対話する対話システムが種々提案されている。この種の対話システムでは、コンピュータを用いて実現されるものであるが、人間同士の対話と同様な自然な対話を行うことが要望されている。たとえば、利用者の音声による認識情報を静的な情報と動的な情報とに分けて保持し、動的な情報を認識対象の項目別に管理する構成によって、対話に用いる内容の絞り込みを迅速に行えるようにする技術が提案されている(たとえば、特許文献1参照)。
特開平6−208389号公報(第0023−0046段落、図3)
上述した特許文献1に記載された技術では、対話における応答時間を短縮することによって応答の遅れによる違和感を抑制する技術であって、利用者の発話内容が同じであれば同じ応答になるから、画一的な応答しかできないものである。たとえば、利用者が大人か子供かにかかわらず、いかにも機械が応答しているという対話しか行えないという問題がある。
本発明は上記事由に鑑みて為されたものであり、その目的は、利用者との対話の際に自我状態を認識することによって、状況に応じた自我状態で対話することを可能とし、利用者への応答を自我状態に応じて適宜に変化させることにより、利用者にとって受け入れやすくかつ違和感のない自然な対話を行うことを可能とした対話エージェントを提供することにある。
請求項1の発明は、利用者の音声が入力される音声入力手段と、音声入力手段から入力された音声の内容に応答するテキストを生成する対話処理手段と、対話処理手段により生成されたテキストを利用者に対して出力するテキスト出力手段とを有し、対話処理手段は、音声入力手段から入力された音声の韻律的特徴を用いて利用者の感情を複数種類に分類し音声感情データとして出力する音声感情推定部と、音声入力手段から入力された音声の韻律的特徴を用いて利用者の口調を複数種類に分類し口調データとして出力する口調推定部と、音声入力手段から入力された音声から音列を抽出しテキストデータとして出力するテキスト抽出部と、利用者の顔を撮像する画像入力手段と、画像入力手段により撮像した利用者の顔の各部位に設定した特徴点の時間経過に伴う位置の変化から表情を分類する表情推定部と、表情推定部で抽出された表情が入力され時間変化に伴う表情の変化パターンを用いて利用者の感情を複数種類に分類し感情サマリデータとして出力する顔感情推定部と、対話する両者の心のモデルである自我状態の組合せを話し手から聞き手への向きも含めた自我状態ベクトルとし感情サマリデータと音声感情データと口調データとテキストデータとの組から利用者の発話による自我状態ベクトルを推定する自我状態推定部と、自我状態推定部で推定された自我状態ベクトルからあらかじめ設定されている対応ルールに従って利用者に応答する際の自我状態ベクトルを決定しかつテキストデータの内容から利用者に応答するテキストを自動的に決定する対話制御部とを備えることを特徴とする。
この構成によれば、利用者の表情から得られる感情と、利用者の音声から得られる感情、口調、テキストとの4種類の情報を用いることにより、利用者の自我状態と刺激された対話エージェントの自我状態との組合せを刺激の向きとともに自我状態ベクトルとして推定し、この自我状態ベクトルを用いて利用者に応答する際の自我状態ベクトルを決定するとともに応答用のテキストを決定するから、利用者の発話により推定される自我状態ベクトルに応じて利用者への応答を変化させることになり、利用者にとって受け入れやすく違和感や不快感を生じさせない自然な対話が可能になる。
請求項2の発明では、請求項1の発明において、前記自我状態推定部は、前記感情サマリデータと前記音声感情データとの組合せから推定される自我状態ベクトルの候補ごとに尤度を示す感情自我状態スコアを求める感情スコア割当部と、前記音声感情データと前記口調データとの組合せから推定される自我状態ベクトルの候補ごとに尤度を示す口調自我状態スコアを求める口調スコア割当部と、前記テキストデータの内容から推定される自我状態ベクトルの候補ごとに尤度を示すテキスト自我状態スコアを求めるテキストスコア割当部と、感情スコア割当部と口調スコア割当部とテキストスコア割当部とで得られた自我状態ベクトルの候補に含まれている自我状態を対話する各者ごとに分類し、各者の各自我状態ごとに当該候補の感情自我状態スコアと口調自我状態スコアとテキスト自我状態スコアとにそれぞれ重み係数を乗じて加算した加重和を尤度の評価値である統合スコアとして求め、自我状態ベクトルの候補に含まれている各者の各自我状態ごとの統合スコアのうち尤度が最大になる自我状態を利用者の発話による自我状態ベクトルにおける各者の自我状態と推定するスコア統合演算部とを備えることを特徴とする。
この構成によれば、表情および音声から得られる感情と、音声から得られる口調と、音声から得られるテキストとによりそれぞれ自我状態ベクトルを推定し、各自我状態ベクトルの尤度を統合することによって、妥当と考えられる自我状態ベクトルを求めるから、利用者の発話に対する自我状態ベクトルの決定精度が高くなる。なお、尤度の用語は、もっともらしさの程度という意味で用いている。
請求項3の発明では、請求項2の発明において、前記感情自我状態スコアは、前記感情サマリデータと前記音声感情データとが示す感情が一致する場合に自我状態ベクトルの候補に対して満点を与え、感情が一致しない場合に得られる自我状態ベクトルの候補に対して同点に配分される数値であり、前記口調自我状態スコアは、前記音声感情データと前記口調データとに矛盾がない場合に自我状態ベクトルの候補に対して満点を与え、矛盾がある場合に自我状態ベクトルの候補に対して同点に配分される数値であり、前記テキスト自我状態スコアは、前記テキストデータに特定の付帯語句が含まれるときに当該付帯語句に対応する自我状態ベクトルの候補に対して尤度の高い順に大きい値が充てられる数値であり、1つの付帯語句に対応する自我状態ベクトルの候補に充てたテキスト自我状態スコアの合計が満点になることを特徴とする。
この構成によれば、感情自我状態スコアと口調自我状態スコアとテキスト自我状態スコアとを比較的簡単かつ適切に設定することができる。
請求項4の発明では、請求項2または請求項3の発明において、前記統合スコアを求める重み係数は、感情自我状態スコアに対する重み係数と口調自我状態スコアに対する重み係数との和がテキスト自我状態スコアに対する重み係数よりも大きく、かつテキスト自我状態スコアに対する重み係数は利用者の自我状態に対する重み係数よりも刺激された自我状態に対する重み係数のほうが大きいことを特徴とする。
この構成によれば、利用者の発話に対する自我状態ベクトルの決定の際には、非言語情報を言語情報よりも重視して感情自我状態スコアおよび口調自我状態スコアをテキスト自我状態スコアに対して優勢に用いるから、感情自我状態スコアおよび口調自我状態スコアを主に用いるとともにテキスト自我状態スコアを補助的に用いて自我状態を推定することになり、利用者の発話に対する自我状態を適切に決定することができる。また、言語情報については、話し手の自我状態よりもむしろ聞き手のどの自我状態に対する刺激を意図したものであるかが表出されていると考え、上述のようにテキスト自我状態スコアの重み係数を設定している。
請求項5の発明では、請求項1ないし請求項4の発明において、前記対話制御部は、決定した応答用の自我状態ベクトルと決定した応答用のテキストとから音声の韻律パラメータを生成する機能を有し、前記テキスト出力手段は、対話制御部で決定した応答用のテキストに韻律パラメータを適用した合成音声を生成する音声合成処理部と、音声合成処理部で生成された合成音声を出力する音声出力手段とを備えることを特徴とする。
この構成によれば、利用者に対して音声による応答が可能であり、利用者が他の作業をしながらでも対話することが可能になる。また、視覚障害者との対話が可能になる。
請求項6の発明では、請求項1ないし請求項5の発明において、前記表情推定部は、「無表情」、「驚き」、「恐怖」、「嫌悪」、「怒り」、「幸福」、「悲しみ」の7種類の表情を分類することを特徴とする。
この構成によれば、表情推定部で分類する表情として、「無表情」、「驚き」、「恐怖」、「嫌悪」、「怒り」、「幸福」、「悲しみ」の7種類を用いるのであって、これらの7種類の表情を用いれば自我状態との対応付けは比較的容易である。
請求項7の発明では、請求項1ないし請求項6の発明において、利用者の音声の特徴および利用者の顔の特徴を利用者に対応付けて登録したユーザデータベースを有し、前記音声入力手段から入力される利用者の音声の特徴と前記画像入力手段により撮像される利用者の顔の画像の特徴とをユーザデータベースに照合して利用者を特定するユーザ認識部を備え、前記対話制御部は、ユーザ認識部で特定される利用者の属性があらかじめ登録されており、利用者に応答する際の自我状態ベクトルおよびテキストを決定する際に前記自我状態推定部で推定された自我状態ベクトルと前記テキストデータとのほかに、利用者の属性も用いることを特徴とする。
この構成によれば、あらかじめユーザデータベースに登録されている特定多数の利用者について自我状態を決定するから、応答時の自我状態ベクトルを決定する際に利用者について既知の情報を利用することが可能になり、不特定多数の利用者について自我状態を決定する場合に比較すると、違和感や不快感を生じさせない応答ができる可能性を高めることができる。また、対話エージェントが対話する利用者を特定することによって許可されていない利用者との対話を禁止することも可能である。
請求項8の発明では、請求項7の発明において、前記自我状態推定部が推定した自我状態ベクトルを前記ユーザ認識部により特定された利用者に対応付けて蓄積記憶する自我状態履歴記憶部と、自我状態履歴記憶部に蓄積された利用者の自我状態ベクトルの出現頻度の分布パターンにより利用者の性格を推定する自我状態特徴抽出部と、自我状態特徴抽出部により推定された性格を利用者に対応付けて記憶する自我状態特徴記憶部とが付加され、前記対話制御部は自我状態特徴記憶部に格納された利用者の性格を用いて利用者に応答する際の自我状態ベクトルおよびテキストを決定することを特徴とする。
この構成によれば、利用者の自我状態の出現頻度の履歴によって利用者の性格を推定することができるから、カウンセラの診断や自己診断テストなどを行うことなく、利用者の性格推定が可能になる。性格の推定結果は自我状態特徴記憶部に格納され、利用者の性格の推定結果を用いて利用者に応答する際の自我状態ベクトルおよびテキストを決定するから、利用者に応じたスムーズな応答が可能になる。なお、利用者の自我状態の履歴と性格の推定結果とを記憶しているから、利用者のカウンセリングのためにカウンセラが利用することも可能である。
請求項9の発明は、請求項1ないし請求項8の発明において、前記対話制御部の対応ルールでは、利用者の発話によって刺激される自我状態を応答時の自我状態とし、応答時に刺激する利用者の自我状態を利用者の先の発話時の自我状態とすることを特徴とする。
この構成によれば、利用者が発話する際の自我状態ベクトルと対話エージェントが応答する際の自我状態ベクトルとが一致するから、利用者に違和感や不快感を生じさせないスムーズな対話が可能になる。また、利用者が発話する際の自我状態ベクトルが決まれば対話エージェントが応答する際の自我状態ベクトルを一意に決定できるから、対応ルールが簡単になる。
請求項10の発明では、請求項1ないし請求項9の発明において、身体動作を伴う表現を行う身体モデル表現部と、前記対話制御部で決定された自我状態ベクトルおよびテキストを身体モデル表現部の身体動作に変換する身体表現制御部とが付加されていることを特徴とする。
この構成によれば、対話制御部で決定されたテキストおよび自我状態ベクトルを身体モデル表現部の身体動作に反映させるから、対話の際に利用者に対して身振りや手まねを付与して応答することができ、利用者へのメッセージの伝達がスムーズになる。
請求項11の発明では、請求項1ないし請求項10の発明において、前記自我状態は、交流分析に基づく心のモデルである「批判的な親」、「保護的な親」、「大人」、「自由な子供」、「順応する子供」の5種類に分類されることを特徴とする。
この構成によれば、自我状態として、交流分析に基づく心のモデルである「批判的な親」、「保護的な親」、「大人」、「自由な子供」、「順応する子供」を用いるから、交流分析に従って応答時の自我状態ベクトルを比較的容易に設定することができる。
本発明の構成によれば、利用者の表情から得られる感情と、利用者の音声から得られる感情、口調、テキストとの4種類の情報を用いることにより、利用者の自我状態と刺激された自我状態との組合せである自我状態ベクトルを推定し、この自我状態ベクトルを用いて利用者に応答する際の自我状態ベクトルを決定するとともに応答用のテキストを決定するから、利用者の発話により推定される自我状態ベクトルに応じて利用者への応答を変化させることになり、利用者にとって受け入れやすく違和感や不快感を生じさせない自然な対話が可能になるという利点がある。
(基本動作)
以下に説明する対話エージェントは、コンピュータを用いて構成され、利用者との間で自然な対話を実現するために自我状態に着目して応答用の音声を生成するものである。自我状態は、交流分析(たとえば、杉田峰泰:「交流分析」,日本文化科学社,1985)に基づく心のモデルであり、親(P)、大人(A)、子供(C)の3状態に分類され、さらに親は批判的な親(CP)と保護的な親(NP)に分類され、子供は自由な子供(FC)と順応する子供(AC)とに分類される。つまり、自我状態は5種類に分類される。以下では自我状態を説明する際に、CP、NP、A、FC、ACの符号を用いる。また、以下に説明する実施形態では「利用者」として人間を想定して「利用者」と呼び、原則として利用者が先に発話するものとする。
交流分析においては、対話する両者の自我状態が適切な関係であるときにスムーズな対話が成立する。すなわち、対話する際の発話者と応答者との関係においては、発話者がある自我状態で発話すると、発話者の発話を受けて応答者の自我状態が刺激されるのであって、発話者の自我状態と応答者の刺激された自我状態との関係が適正な関係であれば、応答者の応答が発話者に違和感や不快感を与えることがなく、応答の内容を効率よく伝達することが可能になる。一方、発話者の自我状態と応答者の刺激された自我状態との関係が適正でないときには、応答者の応答が発話者に違和感や不快感を与え、馴れ馴れしい印象や素っ気ない印象を与えることになる。つまり、スムーズな対話を成立させるには、発話者と応答者との自我状態の関係を適正にすることが必要であることが知られている。
対話の際に自我状態を考慮するために、対話エージェントは、基本的には図3に示す手順で動作する。まず利用者の音声がマイクロホンから入力されると(S1)、利用者の音声および利用者の表情をマイクロホンおよびTVカメラを用いて取得し(S2)、利用者の自我状態と利用者により刺激される対話エージェントの自我状態との組合せを推定する(S3)。ここに、利用者と対話エージェントとの自我状態の組合せを話し手から聞き手への向きを含めて「自我状態ベクトル」と呼び、また、利用者が対話エージェントの自我状態を刺激する場合には被刺激の自我状態ベクトルと呼び、対話エージェントが利用者の自我状態を刺激する場合には加刺激の自我状態ベクトルと呼ぶことにする。被刺激の自我状態ベクトルが推定されると、対話エージェントの自我状態と対話エージェントが刺激する利用者の自我状態との組合せである加刺激の自我状態ベクトルを決定した後(S4)、加刺激の自我状態ベクトルに適合した応答用のテキストを生成し(S5)、利用者に対してテキストを出力するのである(S6)。また、本発明では、被刺激の自我状態ベクトルの推定に際して、利用者から取得した情報の組合せを評価値であるスコアに置き換え、スコアを用いて加刺激の自我状態ベクトルを決定する構成を採用している。スコアには0〜100の整数値を用いる。
自我状態ベクトルは、丸括弧内に利用者の自我状態と対話エージェントの自我状態とを左側が利用者の自我状態になるように左右に並べて記述し、被刺激の場合は利用者から対話エージェントに向かうように両者間を右向き矢印で結合し、加刺激の場合は両者間を左向き矢印で結合する。たとえば、利用者の自我状態がCP、対話エージェントの自我状態がACである被刺激の場合には(CP→AC)と記述し、加刺激の場合には(CP←AC)と記述する。また、自我状態に対応するスコアは、丸括弧内に利用者のスコアと対話エージェントのスコアとを左側が利用者のスコアになるように左右に並べて記述し、両者間をコンマで区切る。たとえば、利用者のスコアが50であり、対話エージェントのスコアが50であれば、(50,50)と記述する。被刺激の自我状態ベクトルが(CP→AC)であり、その自我状態ベクトルのスコアが(50,50)であるときには、(CP→AC)=(50,50)と記述する。
(実施形態1)
本実施形態の対話エージェントの構成を図1に示す。対話エージェントは、利用者の顔の表情を取得するための画像入力手段としてTVカメラからなるカメラ41を備え、また利用者の音声を取得するための音声入力手段としてマイクロホン42を備える。カメラ41は利用者の顔付近を撮像するように視野が設定される。また、対話エージェントは、利用者の発話に応答してテキストを出力するものであり、本実施形態では、テキストを音声と文字とにより出力する例を示す。したがって、テキストを出力するテキスト出力手段として、テキストに応じて音声合成処理部17で生成した合成音声を出力するための音声出力手段であるスピーカ43と、テキストを画面に表示する画像出力手段であるCRTあるいは液晶表示器のようなディスプレイ44とを備える。カメラ41、マイクロホン42、スピーカ43、ディスプレイ44は、適宜のプログラムを実行するコンピュータにより実現される対話処理手段10に接続され、対話処理手段10では、以下に説明する処理によって、マイクロホン42から入力された利用者の音声に応答するテキストを生成する。
対話処理手段10は、基本的にはカメラ41で撮像された画像とマイクロホン42から入力された音声とにより被刺激の自我状態ベクトルを推定する手段と、被刺激の自我状態ベクトルから加刺激の自我状態ベクトルを決定する手段と、マイクロホン42から入力された音声に含まれるテキストと加刺激の自我状態ベクトルとから応答用のテキストを生成するとともに、スピーカ43とディスプレイ44との少なくとも一方を通して応答用のテキストを利用者に提示する手段とを備える。
本実施形態では、被刺激の自我状態ベクトルを推定する手段は、表情推定部11、表情データベース12、顔感情推定部13、音声感情推定部14、口調推定部15、テキスト抽出部16、自我状態推定部20により構成してあり、加刺激の自我状態ベクトルを決定する手段および応答用のテキストを利用者に提示する手段は、対話制御部30、音声合成処理部17により構成してある。
カメラ41で撮像される画像は動画像であって、カメラ41で取得した動画像は表情推定部11に入力される。表情推定部11は、カメラ41で撮像した利用者の顔の画像(たとえば、30フレーム/秒で画像を取り込む)のうち眉、目、口などの各部位について特徴点を設定し、特徴点の位置の時間経過に伴う変化から表情を分類する。表情の種類としては、エクマン:「表情分析入門」などに記述されているように、「無表情」、「驚き」、「恐怖」、「嫌悪」、「怒り」、「幸福」、「悲しみ」の7種類を用いる。
表情推定部11では、顔の各部位の時間変化のパターンを抽出するとともに、抽出した時間変化のパターンを表情データベース12と照合する。表情データベース12には、特徴点の時間変化のパターンが上述した7種類の表情に対応付けて格納してあり、表情推定部11は、顔の各部位の時間変化のパターンを表情データベース12と照合することによって、表情データベース12からパターンマッチングの技術によって表情を分類する。
なお、表情推定部11で扱う画像はデジタル画像であるものとする。デジタル画像はカメラ41から出力することができるが、カメラ41から出力されるアナログ信号の映像信号に対して表情推定部11においてアナログ−デジタル変換を行ってもよい。
表情推定部11で抽出された表情は顔感情推定部13に入力される。顔感情推定部13は、時間経過に伴うフレーム毎の表情の変化パターンを用いて利用者の感情を推定する。表情から感情を推定する際には、利用者の発話の開始時点と終了時点とを検出し、開始から終了までの区間と終了後の区間とにおける表情の整合性を評価し、両区間で推定した感情に明らかな矛盾が発生していなければ、その結果を採用する。顔の画像に基づいて利用者の感情を分類する際には、リアルタイムでの分類が可能となるように、顔感情推定部13が出力する感情の種類は「平静または怒り」「喜び」「推定不能」の3種類に制限してある。
一方、マイクロホン42から出力される音声信号は、音声感情推定部14と口調推定部15とテキスト抽出部16とに入力される。音声感情推定部14と口調推定部15とテキスト抽出部16とにおいては、音声信号のセグメンテーションを行い、FFTなどの技術を用いて周波数成分を特徴量として抽出する。特徴量を抽出する処理は、音声感情推定部14と口調推定部15とテキスト抽出部16とで同様の処理になるから、特徴量を抽出する処理を行う処理部を設けて、音声感情推定部14と口調推定部15とテキスト抽出部16とで共用し、音声感情推定部14と口調推定部15とテキスト抽出部16とにおいては特徴量を抽出する処理を省略してもよい。
音声感情推定部14では、利用者が発話した音声の韻律的特徴によって感情を分類するものであり、韻律的特徴の分類にはガウス混合モデル(GMM)を用いる。分類する感情は3種類であって、「怒り」「喜び」「平静」とする。
また、口調推定部15は、ガウス混合モデルを用いて、利用者が発話した音声の口調を分類する。5種類の自我状態に対する口調は、上述した文献では1つの自我状態について16口調ずつ示されているが、本実施形態では表1のように、1つの自我状態について4口調ずつ対応させ、利用者の音声を20種類の口調に分類する。口調を分類するために用いるGMMにおける混合ガウス分布数は64とする。また、音声信号からの特徴量抽出条件を表2に示す。音声感情推定部14および口調推定部15の学習方法については後述する。
Figure 2006071936
Figure 2006071936
テキスト抽出部16は、利用者の音声からテキスト(音列)を抽出する。テキスト抽出部16における音声の認識にはGMMや隠れマルコフモデル(HMM)を用いた周知の技術を採用することができる。
上述のように、顔感情推定部13ではカメラ41で撮像した利用者の画像から3種類の感情が抽出される。また、音声感情推定部14では利用者の音声から「怒り」「喜び」「平静」の3種類の感情が抽出され、口調推定部15では利用者の音声が表1に示した20種類の口調に分類され、テキスト抽出部16では利用者の音声からテキストが抽出される。以下では、顔感情推定部13の出力を表情サマリデータd1、音声感情推定部14の出力を音声感情データd2、口調推定部15の出力を口調データd3、テキスト抽出部16の出力をテキストデータd4、と呼ぶことにする。表情サマリデータd1、音声感情データd2、口調データd3、テキストデータd4は、被刺激の自我状態ベクトルを推定する機能を有した自我状態推定部20に入力される。
自我状態推定部20は、表情サマリデータd1と音声感情データd2との組合せを感情自我状態スコアS1に置き換える感情スコア割当部21と、音声感情データd2と口調データd3との組合せを口調自我状態スコアSbに置き換える口調スコア割当部22と、テキストデータd4の内容からテキスト自我状態スコアScを求めるテキストスコア割当部23とを備える。感情自我状態スコアSa、口調自我状態スコアSb、テキスト自我状態スコアScは、被刺激の自我状態ベクトルについて、利用者と対話エージェントとのそれぞれの自我状態に0〜100点の点数を与えたものであって、100点に近いほどその自我状態である可能性が高いことを示す。
ところで、自我状態には5状態があるから、自我状態ベクトルは25種類が考えられる。もっとも、料理のレシピを提示する対話エージェントのように、利用者が対話エージェントに対して要求や質問を行い、対話エージェントが利用者に対して違和感や不快感をもたらさないように応答する場合を想定すると、利用者の発話時の自我状態としてNPやACはあり得ず、対話エージェントの応答時の自我状態としてCPはあり得ない。つまり、利用者の自我状態としては、CP、A、FCの3種類が選択可能であり、対話エージェントの自我状態としては、NP、A、FC、ACの4種類が選択可能である。さらに、相補的交流パターン(対話する両者の自我状態が同じである交流パターン)が成立する自我状態ベクトルと、上述した文献に記載されている一般に起こりやすい交流パターンが成立する自我状態ベクトルとを考慮すれば、被刺激の自我状態ベクトルは、(A→A)、(CP→AC)、(FC→FC)、(FC→NP)の4種類になる。
利用者が対話エージェントと対話するには、まず利用者の自我状態がCP、A,FCのどれであるかを対話エージェントが推定しなければならない。一方、自我状態がFCであるときには、「本能的」「自由な感情表現」「興奮」などの特徴があり、自我状態がCPであるときには、「高圧的」「避難」「叱責」「怒りっぽい頑固おやじ」などの特徴があることが知られている。また、感情自我状態スコアSaと口調自我状態スコアSbとは、音声感情データd2から求める利用者の感情を含んでおり、FCという自我状態を音声感情データd2の3種類の感情である「怒り」「喜び」「平静」の特徴を持つか否かの観点で見れば、FCという自我状態では、「喜び」あるいは「喜び」に類した特徴を持つ場合と、「怒り」の特徴と持つ場合との2種類の場合がある。
そこで、感情自我状態スコアSaと口調自我状態スコアSbとを求める際には、FCを、「喜び」の特徴を持つFCaと、「怒り」の特徴を持つFCbとに分けて考えることにする。つまり、被刺激の自我状態ベクトルとして、(A→A)、(CP→AC)、(FCa→FCa)、(FCa→NP)、(FCb→FCb)の5種類を考える。また、音声感情データd2から求める利用者の感情が、「平静」の場合は自我状態をA、「喜び」の場合は自我状態をFCa、「怒り」の場合は自我状態をCPまたはFCbとする。
表情サマリデータd1と音声感情データd2との組合せに対する感情自我状態スコアSaは、表情サマリデータd1が「平静または怒り」「喜び」「推定不能」の3種類であり、音声感情データd2が「怒り」「喜び」「平静」の3種類であるから、表3のように、組合せは9種類になる。つまり、表情サマリデータd1と音声感情データd2との9種類の組合せに対して自我状態ベクトルを対応付け、各自我状態ベクトルごとに感情自我状態スコアSaを規定する。表3においては、表情サマリデータd1と音声感情データd2とが示す感情が一致する場合には、感情自我状態スコアSaを満点(本実施形態では100)とし、表情サマリデータd1と音声感情データd2とが示す感情が一致しない場合には、表情サマリデータd1と音声感情データd2との内容に応じて、自我状態ベクトルの可能性の順に感情自我状態スコアSaを設定している。
表情サマリデータd1と音声感情データd2との1つの組合せに対して複数種類の自我状態ベクトルを推定できる場合には、表情サマリデータd1と音声感情データd2との1つの組合せにおける感情自我状態スコアSaの合計が満点になるように、感情自我状態スコアSaを割り振る。なお、上述した5種類の自我状態ベクトルのいずれにも該当しないと考えられる場合には、自我状態ベクトルを「不明」とし、不明の自我状態ベクトルに感情自我状態スコアSaを規定している。すなわち、表情サマリデータd1が「推定不能」であるときに、音声感情データd2の内容にかかわらず、自我状態ベクトルが「不明」である場合を規定し、感情自我状態スコアSaを(20,20)とし、残りの(80,80)を可能性がある他の自我状態ベクトルで配分する。また、表情サマリデータd1が「喜び」であり音声感情データd2が「怒り」である場合には感情が矛盾しているから、自我状態ベクトルを「不明」として感情自我状態スコアSaは(100,100)とする。
Figure 2006071936
口調自我状態スコアSbを求める際に用いる口調データd3は、本実施形態では、5種類の自我状態について4種類ずつの口調を対応付けているものであるから、20種類の口調に分類することが可能であるが、上述したように、利用者の発話時の自我状態をA、CP、FC(FCa、FCb)の3種類に制限しているから、口調の種類は表4に示すように合計12種類になる。さらに、本実施形態では口調自我状態スコアSbを求めるための口調について、表4のように、自我状態がCPに対応するものと、Aに対応するものと、FC1、FC3に対応するものと、FC2に対応するものと、FC4に対応するものとの5種類にまとめている。したがって、音声感情データd2と口調データd3との組合せに対する口調自我状態スコアSbは、表4のように、15種類の組合せになる。ここに、表4におけるアルファベットと数字との組合せは表1における縦行のアルファベットと横列の数字との組合せであり、アルファベットと数字との交差する升目が口調の種類になる。また、表4におけるNは「口調なし」を示す。音声感情データd2と口調データd3との15種類の組合せに対して自我状態ベクトルを対応付け、各自我状態ベクトルごとに感情自我状態スコアSaを規定する。口調自我状態スコアSbに対応する自我状態ベクトルの推定においても、5種類の自我状態ベクトルのいずれにも該当しないと考えられる場合には、自我状態ベクトルを「不明」とし、適宜の口調自我状態スコアSbを与える。
Figure 2006071936
本実施形態では、利用者が対話エージェントに対して要求や質問を行う場合を想定しているから、テキスト自我状態スコアScを求めるには、テキストデータd4から要求あるいは質問を表す語句を付帯語句として抽出し、付帯語句に自我状態ベクトルを対応付け、各自我状態ベクトルごとにテキスト自我状態スコアScを規定する。テキストデータd4から抽出する付帯語句としては表5のように14種類を想定する。テキストデータd4から抽出する付帯語句によって得られる自我状態ベクトルには、(FCb→FCb)も考えられるが、表5の例では自我状態としてFCbは含まれていない。
Figure 2006071936
表3〜5は、感情スコア割当部21と口調スコア割当部22テキストスコア割当部23とにそれぞれ登録される。なお、表3〜5は実験結果に基づいて決定したものであるが、表情サマリデータd1、音声感情データd2、口調データd3、テキストデータd4を抽出する構成や対話エージェントの使用目的などによって適宜に変更される。
自我状態推定部20は、感情スコア割当部21で求めた感情自我状態スコアSaと口調スコア割当部22で求めた口調自我状態スコアSbとテキストスコア割当部23で求めたテキスト自我状態スコアScとにそれぞれ重み係数を乗じて加算した加重和を求めるスコア統合演算部24を備える。つまり、スコア統合演算部24では、次式の演算により統合スコアSIを求める。
SI=w1・Sa+w2・Sb+w3・Sc
ただし、w1,w2,w3は重み係数である。表3〜表5に示すように、感情自我状態スコアSaと口調自我状態スコアSbとテキスト自我状態スコアScとは、利用者と対話エージェントとの両方について点数が与えられているから、統合スコアSIは利用者と対話エージェントとの双方について求める。つまり、感情自我状態スコアSaと口調自我状態スコアSbとテキスト自我状態スコアScとは、いずれも利用者のスコアと対話エージェントのスコアとの組であるが、統合スコアSIを求める際には、上式の演算を利用者のスコアと対話エージェントのスコアとについてそれぞれ個別に行い、演算結果を統合スコアSIにおける利用者のスコアと対話エージェントのスコアとに用いる。統合スコアSIは、被刺激の自我状態ベクトルの評価値であって、統合スコアSIにより被刺激の自我状態ベクトルを推定することができる。
表3〜表5では、感情自我状態スコアSaと口調自我状態スコアSbとテキスト自我状態スコアScについて、どの自我状態ベクトルについても利用者のスコアと対話エージェントのスコアとが同じ値になっているが、重み係数w1,w2,w3について以下の条件を設定することで、統合スコアSIでは利用者と対話エージェントとの値が異なる値になることがある。ここでは、統合スコアSIおよび重み係数w1,w2,w3について利用者については(u)を付加して記述し、対話エージェントについては(a)を付加して記述する。つまり、統合スコアSIは(SI(u),SI(a))と表すことができる。また、重み係数w1(u),w2(u),w3(u),w1(a),w2(a),w3(a)の条件は、以下の3条件を満たすことである。
w1(u)+w2(u)>w3(u)
w1(a)+w2(a)>w3(a)
w3(u)<w3(a)
上記条件を満たす重み係数w1(u),w2(u),w3(u),w1(a),w2(a),w3(a)としては、たとえばw1(u)=w2(u)=w2(a)=w3(a)=0.4、w3(u)=w1(a)=0.2と設定することができる。すなわち、下記関係になる。
w1(u)+w2(u)=0.8>0.2=w3(u)
w1(a)+w2(a)=0.6>0.4=w3(a)
上例において、w3(u)を比較的小さくしているのは、テキストデータd4から抽出される付帯語句は、利用者の自我状態を反映しているものの感情に比較すると自我状態を反映する程度が小さいからであり、対話エージェントにおいてw1(a)を比較的小さくしているのは、対話エージェントにおいて利用者に刺激される自我状態は、口調データd3とテキストデータd4との反映の程度が大きいからである。
ところで、表3〜表5のようなデータを用いることによって、表情サマリデータd1と音声感情データd2と口調データd3とテキストデータd4との1つの組合せに対して、1種類以上の自我状態ベクトルが抽出される。また、表情サマリデータd1と音声感情データd2と口調データd3とテキストデータd4との1つの組合せに対して、感情自我状態スコアSaと口調自我状態スコアSbとテキスト自我状態スコアScとの少なくとも1つが複数規定されている場合もある。このように、複数種類の自我状態ベクトルが得られるときには、自我状態ベクトルに含まれる自我状態を利用者と対話エージェントとについてそれぞれ分類し、分類した自我状態ごとに、重み係数w1(u),w2(u),w3(u),w1(a),w2(a),w3(a)を乗じて加算した加重和を求め、得られた加重和を利用者および対話エージェントにおける各自我状態の統合スコアSIとする。統合スコアSIは、利用者の自我状態と対話エージェントにおいて刺激された自我状態とのそれぞれについて自我状態の種類別に求められるから、利用者の各自我状態について求めた統合スコアSI(u)のうち最大値が得られる自我状態を利用者の自我状態と推定し、対話エージェントの各自我状態について求めた統合スコアSI(a)のうち最大値が得られる自我状態を対話エージェントの自我状態と推定する。
以下に、利用者の発話による被刺激の自我状態ベクトルを推定する手順の一例を示す。ここでは、表情サマリデータd1が「平静」、音声感情データd2が「平静」、口調データd3が「口調なし」、テキストデータd4の付帯語句が「〜して」であるものとする。表3によれば、表情サマリデータd1が「平静」で音声感情データd2が「平静」である組合せでは、(A→A)=(100,100)になる。また、表4によれば、口調データd3が「口調なし」で音声感情データd2が「平静」である組合せでは、(A→A)=(100,100)になる。さらに、表5によりテキストデータd4から抽出した付帯語句が「〜して」であるときには、自我状態ベクトルが複数種類得られ、(A→A)=(50,50)、(CP→AC)=(30,30)、(FCa→FCa)=(10,10)、(FCa→NP)=(10,10)になる。
ところで、自我状態は、CP、NP、A、FC、ACの5種類であり、さらに本実施形態ではFCをFCa,FCbに分けているから合計6種類の自我状態がある。各重み係数を、それぞれw1(u)=0.4,w2(u)=0.4,w3(u)=0.2,w1(a)=0.2,w2(a)=0.4,w3(a)=0.4とし、自我状態を区別するために各統合スコアSI(u),SI(a)、感情自我状態スコアSa、口調自我状態スコアSb、テキスト自我状態スコアScにそれぞれ<X>を付加し、Xを自我状態とすれば、利用者および対話エージェントの各自我状態ごとの統合スコアSI(u)<X>,SI(a)<X>は次式のようになる。
SI(u)<X>=0.4×Sa<X>+0.4×Sb<X>+0.2×Sc<X>
SI(a)<X>=0.2×Sa<X>+0.4×Sb<X>+0.4×Sc<X>
また、上述の例では利用者については、Sa<A>=100、Sb<A>=100、Sc<A>=50、Sc<CP>=30、Sc<FCa>=10+10(自我状態がFCaである自我状態ベクトルが2個あることを意味する)であり、対話エージェントについては、Sa<A>=100、Sb<A>=100、Sc<A>=50、Sc<AC>=30、Sc<FCa>=10、Sc<NP>=10であり、感情自我状態スコアSa、口調自我状態スコアSb、テキスト自我状態スコアScの他の値は0になる。
これらの値を用い、利用者と対話エージェントとに分類して6種類の各自我状態ごとの総合スコアSI(u),SI(a)を求めると、以下のようになる。
SI(u)<CP>=0.4×0+0.4×0+0.2×30=6
SI(u)<NP>=0
SI(u)<A>=0.4×100+0.4×100+0.2×50=90
SI(u)<FCa>=0.4×0+0.4×0+0.2×(10+10)=4
SI(u)<AC>=0
SI(u)<FCb>=0
SI(a)<CP>=0
SI(a)<NP>=0.2×0+0.4×0+0.4×10=4
SI(a)<A>=0.2×100+0.4×100+0.4×50=80
SI(a)<FCa>=0.2×0+0.4×0+0.4×10=4
SI(a)<AC>=0.2×0+0.4×0+0.4×30=12
SI(a)<FCb>=0
利用者と対話エージェントとについて、それぞれ統合スコアSI(u),SI(a)の最大値を求めると、SI(u)<A>=90、SI(a)<A>=80であるから、利用者の自我状態をA、対話エージェントの自我状態をAとし、被刺激の自我状態ベクトルを(A→A)=(90,80)と推定することができる。
自我状態推定部20において利用者の自我状態と刺激された対話エージェントの自我状態との推定により自我状態ベクトルが決まると、自我状態ベクトルは、テキストデータd4とともに対話制御部30に与えられる。対話制御部30では、自我状態推定部20で推定された被刺激の自我状態ベクトルから加刺激の自我状態ベクトルを決定する。対話エージェントから利用者に応答する際の加刺激の自我状態ベクトルは、応答戦略決定部31において被刺激の自我状態ベクトルに対応付けてあらかじめ設定してある対応ルールを用いて決定する。対話制御部30には、応答戦略決定部31により決定された自我状態ベクトルとテキストデータd4とを用いて利用者に応答するテキストを決定する応答テキスト決定部32も設けられる。
対話制御部30は、表6に示すように、被刺激の自我状態ベクトルと加刺激の自我状態ベクトルとの対応ルールを集めて登録したシナリオデータベース33を備え、応答戦略決定部31は、被刺激の自我状態ベクトルが自我状態推定部20から与えられると、シナリオデータベース33に格納された表6の対応関係を用いて加刺激の自我状態ベクトルを抽出する。なお、表6において、自我状態ベクトル間を結ぶ矢印は、因果関係を示している。つまり、矢印の左側の括弧の(被刺激の自我状態ベクトル)が与えられると、矢印の右側の括弧の(加刺激の自我状態ベクトル)を用いることを意味している。
Figure 2006071936
料理のレシピを提案する対話エージェントでは、利用者の自我状態としてNP、ACはないから、表6のうちNo6、No7は使用しない。また、自我状態ベクトルには「不明」の場合があるから、No1〜No5に当てはまらない場合には、No8を用いる。No3は利用者が「甘える」場合に相当し、No5は利用者が「怒る」場合に相当する。
応答テキスト決定部32では、応答戦略決定部31で得られた加刺激の自我状態ベクトルとテキストデータd4に含まれるキーワードとを用いて対話エージェントによる応答用のテキストを自動的に決定する。対話エージェントが利用者に応答するテキストは、利用者の発話によるテキストデータd4の中のキーワードに対応するように応答用のキーワードが決められており、対話エージェントと利用者との自我状態に応じて決まる付帯語句を応答用のキーワードに付加してテキストを組み立てることにより、対話エージェントが応答するテキストを生成する。応答用のキーワードおよび自我状態ベクトルに応じて決定される付帯語句はシナリオデータベース33に格納しておく。つまり、シナリオデータベース33では、被刺激の自我状態ベクトルに加刺激の自我状態ベクトルが対応付けて登録され、加刺激の自我状態ベクトルに付帯語句が対応付けて登録され、テキストデータd4に含まれることが予測されるキーワードに付加して応答用のキーワードが登録されている。さらに、テキストデータd4に含まれるキーワードのうち利用者からの命令語として解釈されるキーワードには、レシピの検索などの他の作業を行うためのコマンドが対応付けられる。また、応答用のテキストと自我状態ベクトルとから応答用の韻律が決まるから、応答テキスト決定部32では韻律制御用の韻律パラメータも生成する。
応答テキスト決定部32で決定された応答用のテキストと韻律パラメータとは、テキスト合成を行う音声合成処理部17に与えられる。音声合成処理部17では、テキストと韻律パラメータとを用いて応答用の合成音声を生成し、スピーカ43を通して利用者に対する応答音声として出力する。
以下では、対話エージェントに料理のレシピを検索させる場合を例として具体的に説明する。本例では利用者が材料を口頭で対話エージェントに伝えると、その材料で作ることができる料理名の候補を検索して複数提示し、提示された候補から利用者が所望の料理名を選択すると、対話エージェントがその料理のレシピを提示するように対話システムを構築しているものとする。料理名およびレシピはディスプレイ44に提示する。また、利用者から対話エージェントに対する指示には、スイッチのような操作部を併用する構成としてもよいが、ここでは利用者からの指示は音声のみによるものとする。対話エージェントが検索するレシピのデータは、対話エージェントに登録しておくか、対話エージェントにウェブ検索の機能を設けておきウェブ検索によって入手させる。あるいはまた、対話エージェントに登録したものを優先的に提示し、登録されているレシピ以外のレシピを利用者が求めるときにウェブ検索でレシピを入手するようにしてもよい。
料理のレシピの検索を対話エージェントに要求する場合の具体例を表7に示す。表7において「自我状態(利)」は利用者の自我状態、「自我状態(エ)」は対話エージェントの自我状態を表す。上述した構成例では、表情サマリデータd1と音声感情データd2と口調データd3とテキストデータd4とを用いて、被刺激の自我状態ベクトルを決定しているが、表7では自我状態推定部20において、表情サマリデータd1と音声感情データd2と口調データd3とを用いて利用者の感情が「平静」「怒り」「喜び」「不明」のいずれかであることがわかり、テキストデータd4によりキーワードおよび付帯語句が得られている場合を想定している。感情と付帯語句とを用いることにより、自我状態推定部20において被刺激の自我状態ベクトルが決まるから、対話制御部30では応答戦略決定部31の対応ルールを用いて加刺激の自我状態ベクトルを決める。加刺激の自我状態ベクトルが決まれば、応答テキスト決定部32において、テキストデータd4のキーワードとあらかじめ登録してある付帯語句とを用いて利用者に応答するテキストおよび応答用の韻律を決めるのである。
Figure 2006071936
ところで、対話エージェントには、利用者があらかじめ登録されているか否かを認識することによって、特定の利用者の特徴を利用して認識率を高めたり、利用者の認証を行ったりすることができるユーザ認識部50を設けている。ユーザ認識部50は、図2に示すように、マイクロホン42から入力される利用者の音声の特徴量を利用者データベース51に照合して利用者の候補を抽出する利用者認識処理部52と、カメラ41により撮像される利用者の顔の画像の特徴量を顔画像データベース53に照合して利用者の候補を抽出する顔画像認識処理部54とを備える。ここに、図では便宜上、利用者データベース51と顔画像データベース53とを別に分けて記述しているが、両者を一括してユーザデータベースとすることができる。利用者認識処理部52で抽出した利用者の候補と顔画像認識処理部54で抽出した利用者の候補とは利用者判断部55に入力され、利用者判断部55ではファジー論理などを用いて利用者の候補を組み合わせることにより、利用者を決定するとともに利用者ごとに付与した識別情報を出力する。このように、利用者の音声の特徴量と利用者の顔の画像の特徴量とをユーザデータベースに照合して利用者の候補を抽出するとともに、抽出した利用者の候補を用いて利用者を決定するから、利用者の認識率が高くなる。
ユーザ認識部50から出力される識別情報を対話制御部30で採用するために、シナリオデータベース33には、対話における利用者の好みや利用者の性格などの情報が識別情報に対応付けて格納されており、対話制御部30では、ユーザ認識部50から識別情報が得られるときには、利用者に応じた対応ルールを決定し、その対応ルールを用いて自我状態ベクトルを決定する。この動作を可能とするために、シナリオデータベース33では、利用者の好みや性格に応じた対応ルールを識別情報に対応付けてあり、対話制御部30では、ユーザ認識部50で識別情報が得られるときには識別情報に対応付けた対応ルールを用い、識別情報が得られないときにはデフォルトの対応ルールを用いる。また、利用者の識別情報が得られることによって、対話エージェントが利用者の名前を呼びかけに用いることも可能になる。
対話エージェントはディスプレイ44に表示された仮想的な身体を用いて身体動作を伴う表現が可能になっており、身体表現を行うことによって親近感のある応答が可能になる。このような仮想的な身体による身体表現を行うために、本実施形態の対話エージェントには、仮想的な身体を表現するためのデータ群を記憶装置に格納した身体モデル表現部18と、対話制御部30で決定した応答内容(テキスト、エージェントの自我状態、刺激する利用者の自我状態)を身体モデル表現部18の身体動作に変換する身体表現制御部19とを設けてある。ここに、身体モデル表現部18の身体動作に変換するとは、身体モデル表現部18に格納されている身体表現のデータ群から、表現に必要なデータ群を抽出するとともに、抽出したデータ群をディスプレイ44に表示された仮想的な身体に適用することを意味する。この処理によって、ディスプレイ44に表示されたエージェントの身振り・手振り(手を挙げる、手を伸ばす、首を振る、頷くなど)を対話エージェントの応答内容に応じて制御することが可能になる。
ところで、音声感情推定部14および口調推定部15は、ガウス混合モデルを用いるからあらかじめ学習させる必要がある。以下では、まず口調推定部15の学習方法について説明し、次に音声感情推定部14の学習方法について説明する。口調推定部15の学習にあたっては、表1に示した20種類の口調の音声をデータとして収集する必要がある。そこで、本発明者らは、まずサーチエンジンを用いWebからテキストを収集した。テキストの収集には、〔」〕と活用形とを組み合わせた検索文を用いた。たとえば、「命令」口調であれば、検索文として〔」と命令した〕を用いると、〔「前へ出ろ」と命令した〕というようなテキストが抽出される。この場合、「前へ出ろ」を「命令」口調のテキストとして利用することができる。このようにして抽出されたテキストを自動整形し、不適切な表現が含まれる文は手作業で取り除いた。また、口調によってはWebでは十分な数の文例を収集できない場合があったから、50文以上収集できた口調について学習に用いた。表1の口調は50文以上収集できた口調である。なお、各口調を識別するために口調データd3は表1における自我状態と数値との組合せを用いた(表4参照)。たとえば、「命令」口調は口調データd3を「CP1」とし、「慰める」口調は口調データd3を「NP2」とした。
各口調のテキストの収集後に、簡易防音室において、俳優にテキストを読み上げてもらい、その際に顔の表情についても演技してもらった。俳優は父親役(男性2名)、母親役(女性2名)、子供役(女性2名)の合計6名で、表1の20種類の口調について30文ずつのテキストを読み上げてもらった。また、口調付きの30文とは異なる5文ずつのテキストを口調をつけずに読み上げてもらった。音響分析時のパラメータは表2に示した通りである。
上述の方法で口調推定部15の学習を行った後に、評価用音声により口調を識別する能力を実験した。6名の俳優にそれぞれ5文を発生してもらい、口調推定部15で口調が正しく識別された割合を全俳優について平均した。実験結果では、口調付きの音声に対して口調を正しく認識できた割合は49.5%であり、口調なしの音声について口調がないと認識できた割合は90%であった。なお、口調データd3がCP2、FC1、AC1、AC3、AC4である口調は高い割合で識別でき、CP4、NP3である口調は識別できた割合がやや低かった。
音声感情推定部14の学習には、口調推定部15の学習と同様に、6人の俳優にテキストを読み上げてもらった。上述したように、音声感情推定部14において識別する利用者の感情は「喜び」「怒り」「平静」の3種類であり、「喜び」は表1における「FC1」、「怒り」は表1における「FC2」、「平静」は表1におけるA1〜A4に相当すると考え、口調推定部15と同じテキストを用いて音声感情推定部14の学習を行った。
学習後の音声感情推定部14について、評価用音声により感情を識別する能力を実験した。「平静」を識別する評価用音声には、「喜び」に対応するテキストを口調なしで読み上げた音声と、「怒り」に対応するテキストを口調なしで読み上げた音声とを用いた。評価したテキストの数は、「喜び」と「怒り」については6人の俳優それぞれで5文ずつとし、合計30文を用い、また、「平静」については6人の俳優それぞれで10文ずつとし、合計60文を用いた。音声感情推定部14による識別結果を表8に示す。いずれの場合も高い確度で識別することができ、平均では85.6%の識別性能が得られた。
Figure 2006071936
(実施形態2)
本実施形態は、ユーザ認識部50により利用者を特定できることを利用して利用者ごとに自我状態の履歴を記録し、利用者の自我状態の履歴を用いて利用者の性格を推定することにより利用者の性格に合わせた応答を可能とするものである。
本実施形態では、図4に示すように、自我状態推定部20が推定した利用者の自我状態をユーザ認識部50において特定した利用者に対応付けて蓄積して記憶する自我状態履歴記憶部61と、自我状態履歴記憶部61に記憶した利用者の自我状態の出現頻度の分布パターンから利用者の性格を推定する自我状態特徴抽出部62と、自我状態特徴抽出部62により推定した性格を利用者に対応付けて記憶する自我状態特徴記憶部63とを付加している。自我状態履歴記憶部61では利用者の自我状態を時系列で履歴として記憶するとともに各自我状態の出現頻度を記憶している。
自我状態特徴抽出部62では、自我状態の出現頻度の分布パターンと性格とを対応付けて登録してある自我状態特徴データベース64とを照合し、一致度の高い性格を利用者の性格として推定する。すなわち、自我状態特徴データベース64には、交流分析における5種類の自我状態の出現頻度の分布パターン(出現頻度を正規化した分布パターン)が性格に対応付けて登録してあり、自我状態履歴記憶部61に記憶した利用者ごとの自我状態の出現頻度の分布パターンが、自我状態特徴データベース64に登録されている分布パターンと照合される。この照合はパターンマッチングであって類似度の高いものが選択され、選択された性格が利用者の性格と推定される。
自我状態特徴データベース64では、たとえば、自我状態としてNP,FCが低く、CP,ACが高い場合には、「自分を表現することができにくく、鬱になりやすい性格」「不登校タイプの性格」「責任感、現実検討能力、協調性は十分持っているが、思いやりに欠ける性格」などの性格が対応付けられる。自我状態特徴抽出部62での性格の推定結果は利用者と対応付けて自我状態特徴記憶部63に記憶される。
ところで、自我状態特徴記憶部63に利用者の性格が記憶されているときには、当該利用者との対話を行う際に、対話制御部30では自我状態特徴記憶部63から利用者の性格を取得する。シナリオデータベース33には利用者の識別情報に対応付けて対応ルールが登録されているから、対話制御部30においてシナリオデータベース33から利用者の性格に応じた対応ルールを選択することができ、結果的に利用者の性格に応じたスムーズな対話が可能になる。
また、本実施形態の対話エージェントを看護ロボットなどに用いる場合に、利用者の性格を推定することによって、対話エージェントをセラピストのように機能させることが可能になる。たとえば、利用者の性格が悲観的あるいは自虐的な傾向であるときに、利用者の心理状態を向上させるような応答を行うことが可能になる。いま、自我状態の出現頻度のうちNP,FCが低く、CP,ACが高い場合には上述したように、鬱傾向があることが知られている。そこで、一般の利用者では対話エージェントと利用者との間で以下に〔1〕で示す対話を行うとすれば、自我状態の出現頻度のうちNP,FCが低く、CP,ACが高い利用者では以下に〔2〕で示すように肯定的な表現を用いて利用者を励まし、利用者の心理状態を向上させる対話が可能になる。
〔1〕
対話エージェント:お薬の時間ですよ。
利用者:もうわかったよ。
対話エージェント:では、よろしくお願いしますね。
〔2〕
対話エージェント:お薬の時間ですよ。
利用者:もうわかったよ。
対話エージェント:これで良くなりますから、元気を出してください。もう少しですから。
なお、上述のように、自我状態履歴記憶部61には利用者ごとの自我状態の履歴(自我状態の出現頻度を含む)が記憶されており、また自我状態特徴記憶部63には利用者ごとの性格の推定結果が記憶されているから、利用者がカウンセリングを受ける際にはカウンセラにこれらのデータを提供することによって、カウンセリングの参考に用いることが可能になる。他の構成および機能は実施形態1と同様である。
(実施形態3)
上述した各実施形態では利用者が1人である場合を例示したが、本実施形態は2人の利用者が存在し対話エージェントを含めて3者での対話を行うことを可能とする構成について説明する。本実施形態では、図5に示すように、カメラ41により撮像された画像に含まれる人物の視線の向きを監視し、視線の向きによって対話相手を認識する対話相手認識部65と、利用者、対話の時間、対話相手、テキスト、自我状態ベクトルからなる対話データを蓄積する対話記録部66とを付加している。利用者および発話時はユーザ認識部50により取得でき、対話相手は対話相手認識部65から取得でき、発話のテキストおよび利用者と対話相手との自我状態は対話制御部30から取得することができる。なお、本実施形態では、カメラ41として利用者の目の位置および瞳の位置を監視できる程度の解像度のものを用いることが必要である。
また、ユーザ認識部50では、カメラ41で撮像された画像から顔画像認識処理部54が2人の利用者を認識したときに、対話制御部30、感情認識部13、自我状態推定部20、対話相手認識部65に通知することによって、2人の利用者が存在する対話を行う動作に切り換える。その後、ユーザ認識部50では、マイクロホン42から入力される利用者の音声を用いて利用者認識処理部52において発話した利用者を特定し、対話制御部30、感情認識部13、自我状態推定部20、対話相手認識部65に対して認識した利用者を通知する。要するに、本実施形態ではカメラ41で撮像された画像を、利用者の人数と利用者の対話相手との特定に用い、マイクロホン42から入力される音声により発話した利用者の感情を推定し、発話した利用者と対話相手との自我状態ベクトルを推定する。自我状態推定部20で推定された自我状態ベクトルと、テキスト抽出部16で得られたテキストデータd4とは、対話制御部30に与えられ、対話制御部30では上述した対話データを対話記録部66に記録する。
本実施形態におけるシナリオデータベース33には3者間の対話シナリオが上述した各実施形態のような2者間での対話シナリオとは別に格納されており、対話相手認識部65から2人の利用者が存在することが対話制御部30に通知されると、対話制御部30ではシナリオデータベース33から3者間の対話シナリオを選択する。3者間の対話シナリオでは、対話相手が対話エージェントを含むときにのみ対話エージェントが発話するように設定され、利用者同士の対話では対話エージェントから発話しないように設定される。つまり、対話制御部30は、テキスト抽出部16が抽出した発話のテキストと、対話相手認識部65が認識した対話相手と、自我状態推定部20が推定した自我状態とを用い(対話記録部66に対話データとして記録されている)、対話エージェントが発話すべきか否かを判断する。対話エージェントが発話しないときにはカメラ41で撮像した画像から利用者の人数を確認する処理に戻り、対話エージェントが発話するときには上述した各実施形態と同様に音声合成処理部17および身体表現制御部19を通して身体表現を伴う発話を行う。
本実施形態を用いた対話シナリオの一例を以下に示す。以下に示す例は、対話エージェントが看護ロボットに設けられており、被看護人と来訪者との2人の利用者が存在する場合を例示している。また、〔1〕は対話エージェントが発話しない場合であり、〔2〕は対話エージェントが発話する場合である。
〔1〕
被看護人→来訪者(FCa→FCa):学校では変わったことはない?
来訪者→被看護人(FCa→FCa):いつも通りだよ。
〔2〕
被看護人→来訪者(FCa→NP):しんどいよ。
来訪者→被看護人(NP→FCa):もうすぐ良くなるよ。
看護ロボット→被看護人(NP→FCa):そうですよ、がんばってください。
上述したように、本実施形態の構成によれば、利用者が複数人存在する場合でも対話が可能になり、たとえば看護ロボットに対話エージェントを設けている場合に、被看護人と来訪者や見舞客と看護ロボットとの3者での対話が可能になる。ここに、対話制御部30において対話記録部66の対話データを参照しているのは、対話エージェントの応答が要求されているか否かを判断するためであって、対話相手が対話エージェントを含む場合にのみ対話エージェントによる発話を行うことになる。
なお、本実施形態では2人の利用者と対話エージェントとの3者による対話を例示したが、本実施形態の技術を3人以上の利用者に拡張することによって、さらに多人数での対話も可能である。他の構成および動作は実施形態1と同様である。
(実施形態4)
本実施形態は利用者の覚醒度を判断することによって、対話エージェントが応答する際の合成音声の速度を調節するものである。つまり、利用者の覚醒度が低いときには、速いテンポで応答すると応答内容を利用者が聞き取れない場合があり、逆に利用者の覚醒度が高いときには、遅いテンポで応答すると利用者がいらだつ場合があるから、利用者の覚醒度を判断するとともに、利用者の覚醒度に応じてスピーカ43から出力する合成音声の速度を調節している。
本実施形態では、利用者の覚醒度の判断に皮膚電位水準(SPL)を用いる。皮膚電位水準を求めるために、図6に示すように、利用者の手のひらや足の裏のように精神状態による発汗量の変化が生じやすい部位に接触可能な電極71(電極71は一対ある)を設けてあり、電極71は電位計測部72に接続され電位計測部72では一対の電極71の電位差を計測する。電極71が利用者に装着されていると利用者は煩わしく感じる可能性があるから、たとえば対話エージェントを看護ロボットに組み込むような場合には、利用者との握手などの行為によって利用者が電極71に触れるようにするのが望ましい。電位計測部72により計測された電位差は覚醒度判断部70に入力され、覚醒度判断部70では電位差を覚醒度に変換する。一般に、電位差(SPL)が大きいほど覚醒度が高いから、適宜に設定した閾値に対して電位差が大きければ覚醒度判断部70において利用者の覚醒度が高いと判断する。なお、本実施形態では利用者の覚醒度を高低2段階で判断しているが、覚醒度を多段階で判断してもよい。ところで、電位計測部72で計測される電位差は利用者によって個人差があるから、ユーザ認識部50により認識した利用者に対応付けて電位計測部72での検出結果を記憶して蓄積しておき、利用者別の蓄積結果の平均値を上述の閾値に用いるようにすればよい。
上述のようにして覚醒度判断部70において求めた利用者の覚醒度は対話制御部30に与えられ、対話制御部30では利用者の覚醒度が低い(SPLが閾値より低い)ときには、合成音声による応答の速度が比較的遅いテンポになるように、音声合成処理部17で生成する合成音声の出力速度を調節する。このように覚醒度の低い利用者に対して遅いテンポで応答することにより、テキストの内容を聞き取りやすくすることができる。一方、利用者の覚醒度が高い(SPLが閾値より高い)ときには、やや速いテンポで応答することで利用者の覚醒度を保ち、利用者が応答の遅さにいらだつことがないようにする。すなわち、利用者の覚醒度に応じて合成音声の速度を調節し、利用者の覚醒度が低ければ遅いテンポで応答することにより応答内容を利用者に聞き取りやすくし、逆に利用者の覚醒度が高ければ速いテンポで応答することにより利用者を待たせることなく応答することが可能になる。他の構成および動作は実施形態1と同様である。
(実施形態5)
本実施形態は、利用者の生体情報を検出することによって対話エージェントが推定した自我状態が対話に適切であったか否かを判断するものである。すなわち、利用者と対話エージェントとが対話する際には自我状態推定部20において利用者の発話に基づいて利用者の自我状態と対話エージェントにおいて刺激される自我状態とを推定している。一般的には、推定した自我状態を用いて相補的交流を行えばスムーズな対話が可能になる。ここでスムーズな対話とは、利用者が感情を害することなく対話することを意味する。一方、相補的交流ではなく自我状態の交差が生じるような交流では、利用者は感情を害して対話がスムーズに進行しなくなる可能性がある。
そこで、本実施形態では、利用者の感情を判断するために、利用者の瞬時心拍率(1分間の心拍数)を用いている。一般に瞬時心拍率は、怒り、ストレス、恐怖などの防衛的あるいは攻撃的な感情が生じると上昇し、落ち着いているときには低下することが知られている。本実施形態では、このような生理現象を利用して対話中の利用者の瞬時心拍率を求め、瞬時心拍率の変動を監視することによって、利用者に防衛的ないし攻撃的な感情が生じていないか否かを判断している。瞬時心拍率の検出にはECGを用いており、実施形態4と同様に電極73(電極73は一対ある)を設けている。電極73は利用者の胸部あるいは四肢に装着される。
図7に示すように、電極73はECG計測部74に接続され、一対の電極73により検出される電位差がECG計測部74において検出される。ECG計測部74では、たとえば図8に示すような電位変化が検出される。この電位変化は、心臓における心房の興奮を示すP波と、心室の脱分極を示すQRSと、心室の細分極を示すT波とを含む。ここで、R−Rの間隔は心臓交換神経と心臓副交感神経との拮抗支配を受けており、R−R間隔を1分当たりの心拍数に換算することで瞬時心拍率を求めることができる。そこで、図8に示すようなECG計測部74の出力を瞬時心拍率検出部75に入力し、R−R間隔を求めることによって瞬時心拍率を求める。すなわち、電極73とECG計測部74と瞬時心拍率検出部75とにより生体情報計測手段が構成される。利用者が防衛的ないし攻撃的な感情を持つと、瞬時心拍率が常時よりも上昇するから、適否判断部76では瞬時心拍率検出部75で求めた瞬時心拍率を適宜の閾値と比較することにより、利用者の感情が防衛的ないし攻撃的であるか否かを判断する。つまり、適否判断部76は自我状態推定部20が推定した自我状態が適切であったか否かを判断することになる。適否判断部76では、瞬時心拍率が閾値よりも低いときには自我状態推定部20で推定した利用者の自我状態および対話エージェントの刺激された自我状態が適切であったと判断し、瞬時心拍率が閾値以上であるときには自我状態推定部20の推定結果が適切でなかったと判断する。
なお、図7に破線で示すように、適否判断部76による判断結果を自我状態推定部20にフィードバックして自我状態推定部20の学習に用いれば、推定した自我状態の尤度を高めることができ、結果的に対話エージェントの応答によって利用者の感情を害する可能性が低減されスムーズな対話が可能になる。すなわち、自我状態推定部20で推定した自我状態ベクトルが利用者の感情を害していないか否かを適否判断部76において判断することができるから、適否判断部76の判断結果を自我状態ベクトルの推定結果にフィードバックすることにより、利用者の感情を害することのない適正な自我状態ベクトルの推定が可能になる。瞬時心拍率の検出には電極73に変えて血流を監視する光学式のセンサを用いてもよい(この種のセンサは種々運動機械における心拍計に用いられている)。他の構成および動作は実施形態1と同様である。
実施形態1を示すブロック図である。 同上の要部のブロック図である。 基本構成の動作説明図である 実施形態2を示すブロック図である。 実施形態3を示すブロック図である。 実施形態4を示すブロック図である。 実施形態5を示すブロック図である。 同上に用いるECGの一例を示す図である。
符号の説明
10 対話処理手段
11 表情推定部
13 顔感情推定部
14 音声感情推定部
15 口調推定部
16 テキスト抽出部
17 音声合成処理部
18 身体モデル表現部
19 身体表現制御部
20 自我状態推定部
21 感情スコア割当部
22 口調スコア割当部
23 テキストスコア割当部
24 スコア統合演算部
30 対話制御部
41 カメラ(画像入力手段)
42 マイクロホン(音声入力手段)
43 スピーカ(音声出力手段)
44 ディスプレイ(画像出力手段)
50 ユーザ認識部
51 利用者データベース
52 利用者認識処理部
53 顔画像データベース
54 顔画像認識処理部
55 利用者判断部
61 自我状態履歴記憶部
62 自我状態特徴抽出部
63 自我状態特徴記憶部
65 対話相手認識部
66 対話記録部
70 覚醒度判断部
73 電極
74 ECG計測部
75 瞬時心拍率検出部
76 適否判断部

Claims (11)

  1. 利用者の音声が入力される音声入力手段と、音声入力手段から入力された音声の内容に応答するテキストを生成する対話処理手段と、対話処理手段により生成されたテキストを利用者に対して出力するテキスト出力手段とを有し、対話処理手段は、音声入力手段から入力された音声の韻律的特徴を用いて利用者の感情を複数種類に分類し音声感情データとして出力する音声感情推定部と、音声入力手段から入力された音声の韻律的特徴を用いて利用者の口調を複数種類に分類し口調データとして出力する口調推定部と、音声入力手段から入力された音声から音列を抽出しテキストデータとして出力するテキスト抽出部と、利用者の顔を撮像する画像入力手段と、画像入力手段により撮像した利用者の顔の各部位に設定した特徴点の時間経過に伴う位置の変化から表情を分類する表情推定部と、表情推定部で抽出された表情が入力され時間変化に伴う表情の変化パターンを用いて利用者の感情を複数種類に分類し感情サマリデータとして出力する顔感情推定部と、対話する両者の心のモデルである自我状態の組合せを話し手から聞き手への向きも含めた自我状態ベクトルとし感情サマリデータと音声感情データと口調データとテキストデータとの組から利用者の発話による自我状態ベクトルを推定する自我状態推定部と、自我状態推定部で推定された自我状態ベクトルからあらかじめ設定されている対応ルールに従って利用者に応答する際の自我状態ベクトルを決定しかつテキストデータの内容から利用者に応答するテキストを自動的に決定する対話制御部とを備えることを特徴とする対話エージェント。
  2. 前記自我状態推定部は、前記感情サマリデータと前記音声感情データとの組合せから推定される自我状態ベクトルの候補ごとに尤度を示す感情自我状態スコアを求める感情スコア割当部と、前記音声感情データと前記口調データとの組合せから推定される自我状態ベクトルの候補ごとに尤度を示す口調自我状態スコアを求める口調スコア割当部と、前記テキストデータの内容から推定される自我状態ベクトルの候補ごとに尤度を示すテキスト自我状態スコアを求めるテキストスコア割当部と、感情スコア割当部と口調スコア割当部とテキストスコア割当部とで得られた自我状態ベクトルの候補に含まれている自我状態を対話する各者ごとに分類し、各者の各自我状態ごとに当該候補の感情自我状態スコアと口調自我状態スコアとテキスト自我状態スコアとにそれぞれ重み係数を乗じて加算した加重和を尤度の評価値である統合スコアとして求め、自我状態ベクトルの候補に含まれている各者の各自我状態ごとの統合スコアのうち尤度が最大になる自我状態を利用者の発話による自我状態ベクトルにおける各者の自我状態と推定するスコア統合演算部とを備えることを特徴とする請求項1記載の対話エージェント。
  3. 前記感情自我状態スコアは、前記感情サマリデータと前記音声感情データとが示す感情が一致する場合に自我状態ベクトルの候補に対して満点を与え、感情が一致しない場合に得られる自我状態ベクトルの候補に対して同点に配分される数値であり、前記口調自我状態スコアは、前記音声感情データと前記口調データとに矛盾がない場合に自我状態ベクトルの候補に対して満点を与え、矛盾がある場合に自我状態ベクトルの候補に対して同点に配分される数値であり、前記テキスト自我状態スコアは、前記テキストデータに特定の付帯語句が含まれるときに当該付帯語句に対応する自我状態ベクトルの候補に対して尤度の高い順に大きい値が充てられる数値であり、1つの付帯語句に対応する自我状態ベクトルの候補に充てたテキスト自我状態スコアの合計が満点になることを特徴とする請求項2記載の対話エージェント。
  4. 前記統合スコアを求める重み係数は、感情自我状態スコアに対する重み係数と口調自我状態スコアに対する重み係数との和がテキスト自我状態スコアに対する重み係数よりも大きく、かつテキスト自我状態スコアに対する重み係数は利用者の自我状態に対する重み係数よりも刺激された自我状態に対する重み係数のほうが大きいことを特徴とする請求項2または請求項3記載の対話エージェント。
  5. 前記対話制御部は、決定した応答用の自我状態ベクトルと決定した応答用のテキストとから音声の韻律パラメータを生成する機能を有し、前記テキスト出力手段は、対話制御部で決定した応答用のテキストに韻律パラメータを適用した合成音声を生成する音声合成処理部と、音声合成処理部で生成された合成音声を出力する音声出力手段とを備えることを特徴とする請求項1ないし請求項4のいずれか1項に記載の対話エージェント。
  6. 前記表情推定部は、「無表情」、「驚き」、「恐怖」、「嫌悪」、「怒り」、「幸福」、「悲しみ」の7種類の表情を分類することを特徴とする請求項1ないし請求項5記載の対話エージェント。
  7. 利用者の音声の特徴および利用者の顔の特徴を利用者に対応付けて登録したユーザデータベースを有し、前記音声入力手段から入力される利用者の音声の特徴と前記画像入力手段により撮像される利用者の顔の画像の特徴とをユーザデータベースに照合して利用者を特定するユーザ認識部を備え、前記対話制御部は、ユーザ認識部で特定される利用者の属性があらかじめ登録されており、利用者に応答する際の自我状態ベクトルおよびテキストを決定する際に前記自我状態推定部で推定された自我状態ベクトルと前記テキストデータとのほかに、利用者の属性も用いることを特徴とする請求項1ないし請求項6のいずれか1項に記載の対話エージェント。
  8. 前記自我状態推定部が推定した自我状態ベクトルを前記ユーザ認識部により特定された利用者に対応付けて蓄積記憶する自我状態履歴記憶部と、自我状態履歴記憶部に蓄積された利用者の自我状態ベクトルの出現頻度の分布パターンにより利用者の性格を推定する自我状態特徴抽出部と、自我状態特徴抽出部により推定された性格を利用者に対応付けて記憶する自我状態特徴記憶部とが付加され、前記対話制御部は自我状態特徴記憶部に格納された利用者の性格を用いて利用者に応答する際の自我状態ベクトルおよびテキストを決定することを特徴とする請求項7記載の対話エージェント。
  9. 前記対話制御部の対応ルールでは、利用者の発話によって刺激される自我状態を応答時の自我状態とし、応答時に刺激する利用者の自我状態を利用者の先の発話時の自我状態とすることを特徴とする請求項1ないし請求項8のいずれか1項に記載の対話エージェント。
  10. 身体動作を伴う表現を行う身体モデル表現部と、前記対話制御部で決定された自我状態ベクトルおよびテキストを身体モデル表現部の身体動作に変換する身体表現制御部とが付加されていることを特徴とする請求項1ないし請求項9のいずれか1項に記載の対話エージェント。
  11. 前記自我状態は、交流分析に基づく心のモデルである「批判的な親」、「保護的な親」、「大人」、「自由な子供」、「順応する子供」の5種類に分類されることを特徴とする請求項1ないし請求項10のいずれか1項に記載の対話エージェント。
JP2004254794A 2004-09-01 2004-09-01 対話エージェント Withdrawn JP2006071936A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004254794A JP2006071936A (ja) 2004-09-01 2004-09-01 対話エージェント

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004254794A JP2006071936A (ja) 2004-09-01 2004-09-01 対話エージェント

Publications (1)

Publication Number Publication Date
JP2006071936A true JP2006071936A (ja) 2006-03-16

Family

ID=36152661

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004254794A Withdrawn JP2006071936A (ja) 2004-09-01 2004-09-01 対話エージェント

Country Status (1)

Country Link
JP (1) JP2006071936A (ja)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007286377A (ja) * 2006-04-18 2007-11-01 Nippon Telegr & Teleph Corp <Ntt> 応対評価装置、その方法、プログラムおよびその記録媒体
WO2007148493A1 (ja) * 2006-06-23 2007-12-27 Panasonic Corporation 感情認識装置
JP2009025658A (ja) * 2007-07-20 2009-02-05 Oki Electric Ind Co Ltd 音声合成装置、音声合成システム
JP2010129033A (ja) * 2008-12-01 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> 対話心理学習装置とその方法、対話制御装置とその方法、プログラムと記録媒体
JP2010186237A (ja) * 2009-02-10 2010-08-26 Nippon Telegr & Teleph Corp <Ntt> 多人数思考喚起型対話装置、多人数思考喚起型対話方法、多人数思考喚起型対話プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2011037221A1 (ja) * 2009-09-28 2011-03-31 シャープ株式会社 献立決定支援装置、献立決定支援プログラムおよび献立決定支援プログラムを記憶した記憶媒体
KR101317047B1 (ko) * 2012-07-23 2013-10-11 충남대학교산학협력단 얼굴표정을 이용한 감정인식 장치 및 그 제어방법
WO2014073612A1 (ja) * 2012-11-08 2014-05-15 日本電気株式会社 会話文生成装置、会話文生成方法及び会話文生成プログラム
WO2014073613A1 (ja) * 2012-11-08 2014-05-15 日本電気株式会社 会話文生成装置、会話文生成方法及び会話文生成プログラム
US8983843B2 (en) 2012-01-12 2015-03-17 Fuji Xerox Co., Ltd. Motion analyzer having voice acquisition unit, voice acquisition apparatus, motion analysis system having voice acquisition unit, and motion analysis method with voice acquisition
US9129611B2 (en) 2011-12-28 2015-09-08 Fuji Xerox Co., Ltd. Voice analyzer and voice analysis system
JP2015176058A (ja) * 2014-03-17 2015-10-05 株式会社東芝 電子機器、方法及びプログラム
US9153244B2 (en) 2011-12-26 2015-10-06 Fuji Xerox Co., Ltd. Voice analyzer
JP2015230455A (ja) * 2014-06-06 2015-12-21 日本電信電話株式会社 音声分類装置、音声分類方法、プログラム
JP2016149063A (ja) * 2015-02-13 2016-08-18 オムロン株式会社 感情推定装置及び感情推定方法
JP2017121680A (ja) * 2016-01-06 2017-07-13 日本電信電話株式会社 発話制御システム、発話制御装置及び発話制御プログラム
JP6243072B1 (ja) * 2017-04-06 2017-12-06 株式会社 ディー・エヌ・エー 入出力システム、入出力プログラム、情報処理装置、チャットシステム
CN108154381A (zh) * 2016-12-06 2018-06-12 松下知识产权经营株式会社 提案候选提示装置以及提案候选提示方法
JPWO2018016432A1 (ja) * 2016-07-21 2018-07-19 パナソニックIpマネジメント株式会社 音響再生装置および音響再生システム
WO2018169000A1 (ja) * 2017-03-16 2018-09-20 国立研究開発法人情報通信研究機構 対話システム及びそのためのコンピュータプログラム
KR101925440B1 (ko) * 2018-04-23 2018-12-05 이정도 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법
JP2019101064A (ja) * 2017-11-28 2019-06-24 トヨタ自動車株式会社 応答文生成装置、方法及びプログラム並びに音声対話システム
US10452982B2 (en) 2016-10-24 2019-10-22 Fuji Xerox Co., Ltd. Emotion estimating system
WO2020049687A1 (ja) * 2018-09-06 2020-03-12 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム記録媒体
JP2020126392A (ja) * 2019-02-04 2020-08-20 ヤフー株式会社 選択装置、選択方法および選択プログラム
WO2020174680A1 (ja) 2019-02-28 2020-09-03 日本電気株式会社 感情推定装置、感情推定方法、及びコンピュータ読み取り可能な記録媒体
JP2020187262A (ja) * 2019-05-15 2020-11-19 株式会社Nttドコモ 感情推定装置、感情推定システム、及び感情推定方法
JP2020197945A (ja) * 2019-06-03 2020-12-10 東芝テック株式会社 検索装置及びプログラム
WO2021131065A1 (ja) * 2019-12-27 2021-07-01 Umee Technologies株式会社 推薦アイテム決定及び性格モデル生成のためのシステム、方法、プログラム、及びプログラムを記録した記録媒体
US11107464B2 (en) * 2018-12-03 2021-08-31 Honda Motor Co., Ltd. Feeling estimation device, feeling estimation method, and storage medium
WO2021192991A1 (ja) * 2020-03-23 2021-09-30 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
WO2022169289A3 (ko) * 2021-02-05 2022-10-06 옥재윤 인공지능 기반 가상현실 서비스 시스템 및 방법

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007286377A (ja) * 2006-04-18 2007-11-01 Nippon Telegr & Teleph Corp <Ntt> 応対評価装置、その方法、プログラムおよびその記録媒体
JP4728868B2 (ja) * 2006-04-18 2011-07-20 日本電信電話株式会社 応対評価装置、その方法、プログラムおよびその記録媒体
WO2007148493A1 (ja) * 2006-06-23 2007-12-27 Panasonic Corporation 感情認識装置
US8204747B2 (en) 2006-06-23 2012-06-19 Panasonic Corporation Emotion recognition apparatus
JP2009025658A (ja) * 2007-07-20 2009-02-05 Oki Electric Ind Co Ltd 音声合成装置、音声合成システム
JP2010129033A (ja) * 2008-12-01 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> 対話心理学習装置とその方法、対話制御装置とその方法、プログラムと記録媒体
JP2010186237A (ja) * 2009-02-10 2010-08-26 Nippon Telegr & Teleph Corp <Ntt> 多人数思考喚起型対話装置、多人数思考喚起型対話方法、多人数思考喚起型対話プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2011037221A1 (ja) * 2009-09-28 2011-03-31 シャープ株式会社 献立決定支援装置、献立決定支援プログラムおよび献立決定支援プログラムを記憶した記憶媒体
US9153244B2 (en) 2011-12-26 2015-10-06 Fuji Xerox Co., Ltd. Voice analyzer
US9129611B2 (en) 2011-12-28 2015-09-08 Fuji Xerox Co., Ltd. Voice analyzer and voice analysis system
US8983843B2 (en) 2012-01-12 2015-03-17 Fuji Xerox Co., Ltd. Motion analyzer having voice acquisition unit, voice acquisition apparatus, motion analysis system having voice acquisition unit, and motion analysis method with voice acquisition
KR101317047B1 (ko) * 2012-07-23 2013-10-11 충남대학교산학협력단 얼굴표정을 이용한 감정인식 장치 및 그 제어방법
US9570064B2 (en) 2012-11-08 2017-02-14 Nec Corporation Conversation-sentence generation device, conversation-sentence generation method, and conversation-sentence generation program
WO2014073612A1 (ja) * 2012-11-08 2014-05-15 日本電気株式会社 会話文生成装置、会話文生成方法及び会話文生成プログラム
WO2014073613A1 (ja) * 2012-11-08 2014-05-15 日本電気株式会社 会話文生成装置、会話文生成方法及び会話文生成プログラム
US9679553B2 (en) 2012-11-08 2017-06-13 Nec Corporation Conversation-sentence generation device, conversation-sentence generation method, and conversation-sentence generation program
JP2015176058A (ja) * 2014-03-17 2015-10-05 株式会社東芝 電子機器、方法及びプログラム
JP2015230455A (ja) * 2014-06-06 2015-12-21 日本電信電話株式会社 音声分類装置、音声分類方法、プログラム
JP2016149063A (ja) * 2015-02-13 2016-08-18 オムロン株式会社 感情推定装置及び感情推定方法
WO2016129192A1 (ja) * 2015-02-13 2016-08-18 オムロン株式会社 感情推定装置及び感情推定方法
US20170311863A1 (en) * 2015-02-13 2017-11-02 Omron Corporation Emotion estimation device and emotion estimation method
JP2017121680A (ja) * 2016-01-06 2017-07-13 日本電信電話株式会社 発話制御システム、発話制御装置及び発話制御プログラム
JP2018198062A (ja) * 2016-07-21 2018-12-13 パナソニックIpマネジメント株式会社 音響再生装置および音響再生システム
JPWO2018016432A1 (ja) * 2016-07-21 2018-07-19 パナソニックIpマネジメント株式会社 音響再生装置および音響再生システム
US10452982B2 (en) 2016-10-24 2019-10-22 Fuji Xerox Co., Ltd. Emotion estimating system
CN108154381A (zh) * 2016-12-06 2018-06-12 松下知识产权经营株式会社 提案候选提示装置以及提案候选提示方法
WO2018169000A1 (ja) * 2017-03-16 2018-09-20 国立研究開発法人情報通信研究機構 対話システム及びそのためのコンピュータプログラム
JP2018156273A (ja) * 2017-03-16 2018-10-04 国立研究開発法人情報通信研究機構 対話システム及びそのためのコンピュータプログラム
US11113335B2 (en) 2017-03-16 2021-09-07 National Institute Of Information And Communications Technology Dialogue system and computer program therefor
JP6243072B1 (ja) * 2017-04-06 2017-12-06 株式会社 ディー・エヌ・エー 入出力システム、入出力プログラム、情報処理装置、チャットシステム
JP2018180720A (ja) * 2017-04-06 2018-11-15 株式会社 ディー・エヌ・エー 入出力システム、入出力プログラム、情報処理装置、チャットシステム
JP2019101064A (ja) * 2017-11-28 2019-06-24 トヨタ自動車株式会社 応答文生成装置、方法及びプログラム並びに音声対話システム
KR101925440B1 (ko) * 2018-04-23 2018-12-05 이정도 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법
WO2020049687A1 (ja) * 2018-09-06 2020-03-12 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム記録媒体
JPWO2020049687A1 (ja) * 2018-09-06 2021-08-12 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム
US11107464B2 (en) * 2018-12-03 2021-08-31 Honda Motor Co., Ltd. Feeling estimation device, feeling estimation method, and storage medium
JP7041639B2 (ja) 2019-02-04 2022-03-24 ヤフー株式会社 選択装置、選択方法および選択プログラム
JP2020126392A (ja) * 2019-02-04 2020-08-20 ヤフー株式会社 選択装置、選択方法および選択プログラム
WO2020174680A1 (ja) 2019-02-28 2020-09-03 日本電気株式会社 感情推定装置、感情推定方法、及びコンピュータ読み取り可能な記録媒体
US11984136B2 (en) 2019-02-28 2024-05-14 Nec Corporation Emotion estimation apparatus, emotion estimation method, and computer readable recording medium
JP2020187262A (ja) * 2019-05-15 2020-11-19 株式会社Nttドコモ 感情推定装置、感情推定システム、及び感情推定方法
JP2020197945A (ja) * 2019-06-03 2020-12-10 東芝テック株式会社 検索装置及びプログラム
JPWO2021131065A1 (ja) * 2019-12-27 2021-07-01
JP7072967B2 (ja) 2019-12-27 2022-05-23 Umee Technologies株式会社 推薦アイテム決定及び性格モデル生成のためのシステム、方法、プログラム、及びプログラムを記録した記録媒体
WO2021131065A1 (ja) * 2019-12-27 2021-07-01 Umee Technologies株式会社 推薦アイテム決定及び性格モデル生成のためのシステム、方法、プログラム、及びプログラムを記録した記録媒体
WO2021192991A1 (ja) * 2020-03-23 2021-09-30 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
WO2022169289A3 (ko) * 2021-02-05 2022-10-06 옥재윤 인공지능 기반 가상현실 서비스 시스템 및 방법

Similar Documents

Publication Publication Date Title
JP2006071936A (ja) 対話エージェント
JP2004310034A (ja) 対話エージェントシステム
US20200365275A1 (en) System and method for assessing physiological state
Narayanan et al. Behavioral signal processing: Deriving human behavioral informatics from speech and language
US9031293B2 (en) Multi-modal sensor based emotion recognition and emotional interface
Kim Bimodal emotion recognition using speech and physiological changes
KR100714535B1 (ko) 감정검출방법, 감성발생방법 및 그 장치 및 소프트웨어를 저장한 컴퓨터로 읽을 수 있는 기록매체
Van Santen et al. Computational prosodic markers for autism
Drahota et al. The vocal communication of different kinds of smile
Cosentino et al. Quantitative laughter detection, measurement, and classification—A critical survey
US9934426B2 (en) System and method for inspecting emotion recognition capability using multisensory information, and system and method for training emotion recognition using multisensory information
Kim et al. Emotion recognition using physiological and speech signal in short-term observation
WO2014045257A1 (en) System and method for determining a person&#39;s breathing
JP5294315B2 (ja) 対話活性化ロボット
CN116807476B (zh) 基于界面式情感交互的多模态心理健康评估系统及方法
JP2021058573A (ja) 認知機能予測装置、認知機能予測方法、プログラム及びシステム
Smith et al. Analysis and prediction of heart rate using speech features from natural speech
Patel et al. Vocal behavior
Vojtech et al. Surface electromyography–based recognition, synthesis, and perception of prosodic subvocal speech
Cowie et al. Piecing together the emotion jigsaw
WO2020175969A1 (ko) 감정 인식 장치 및 감정 인식 방법
JP7021488B2 (ja) 情報処理装置、及びプログラム
JP6712028B1 (ja) 認知機能判定装置、認知機能判定システム及びコンピュータプログラム
Altmann et al. Analysis of nonverbal involvement in dyadic interactions
KR102610266B1 (ko) 사용자의 감정 데이터에 대응되는 생각 데이터를 유도하기 위한 컨텐츠를 제공하는 방법 및 이를 이용한 컴퓨팅 장치

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20071106