JP2004310034A - 対話エージェントシステム - Google Patents

対話エージェントシステム Download PDF

Info

Publication number
JP2004310034A
JP2004310034A JP2003394663A JP2003394663A JP2004310034A JP 2004310034 A JP2004310034 A JP 2004310034A JP 2003394663 A JP2003394663 A JP 2003394663A JP 2003394663 A JP2003394663 A JP 2003394663A JP 2004310034 A JP2004310034 A JP 2004310034A
Authority
JP
Japan
Prior art keywords
speaker
unit
ego state
dialogue
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003394663A
Other languages
English (en)
Inventor
Fumiaki Obayashi
史明 大林
Takashi Nishiyama
高史 西山
Akira Baba
朗 馬場
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Works Ltd filed Critical Matsushita Electric Works Ltd
Priority to JP2003394663A priority Critical patent/JP2004310034A/ja
Publication of JP2004310034A publication Critical patent/JP2004310034A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

【課題】話者の自我状態とエージェントとの自我状態に着目しエージェントの応答を変化させ、話者に受け入れやすくかつ違和感のない自然な対話を行う。
【解決手段】音声認識処理部11は話者の音声からテキストを抽出し、口調認識処理部12は話者の音声から韻律的特徴を抽出する。自我状態推定部14は、テキストと韻律的特徴とを用いて、話者の自我状態、刺激されたエージェントの自我状態を推定する。対話制御部10は、自我状態推定部14の出力と話者からのテキストとをシナリオデータベース16に照合して得られる対話シナリオに従ってエージェントの自我状態、刺激する話者の自我状態を自動的に決定し、エージェントの発話するテキストを自動的に決定する。音声合成処理部17は、対話制御部10で得られたテキストを用いて合成音声を生成しスピーカ23から出力する。
【選択図】 図1

Description

本発明は、音声によって話者と対話する対話エージェントシステムに関するものである。
従来から、コンピュータを用いて音声による話者との対話を可能とする対話システムが種々提案されており、この種の対話システムでは、人間同士の対話と同様な自然な対話を行うことが要望されている。たとえば、話者の音声による認識情報を静的な情報と動的な情報とに分けて保持し、動的な情報を認識対象の項目別に管理する構成によって、対話に用いる内容の絞り込みを迅速に行えるようにする技術が提案されている(たとえば、特許文献1参照)。
特開平6−208389号公報(第0023−0046段落、図3)
上述した特許文献1に記載された技術では、対話における応答時間を短縮することによって応答の遅れによる違和感を抑制する技術であって、話者の発話内容が同じであれば同じ応答になるから、画一的な応答しかできないものである。たとえば、話者が大人か子供かにかかわらず、いかにも機械が応答しているという対話しか行えないという問題がある。
本発明は上記事由に鑑みて為されたものであり、その目的は、話者の自我状態とエージェントにおいて刺激されている自我状態を推定するとともに、エージェントの持つ自我状態とエージェントが刺激する話者の自我状態を設定して応答を変化させることにより、話者にとって受け入れやすくかつ違和感のない自然な対話を行うことができる対話エージェントシステムを提供することにある。
請求項1の発明は、話者の音声が入力される音声入力手段と、音声入力手段から入力された話者の音声からテキストを抽出する音声認識処理部と、音声入力手段から入力された話者の音声から韻律的特徴を抽出する口調認識処理部と、少なくとも音声認識処理部により抽出したテキストと口調認識処理部により抽出した韻律的特徴とを用いて話者の自我状態を推定するとともに話者に応対するエージェントにおいて刺激された自我状態を推定する自我状態推定部と、話者の自我状態と刺激された自我状態と話者からのテキストとをエージェントの対話戦略である対話シナリオに対応付けたシナリオデータベースと、自我状態推定部により推定した話者の自我状態と刺激された自我状態と音声認識処理部により抽出したテキストとをシナリオデータベースに照合して得られる対話シナリオに従ってエージェントの自我状態および刺激する話者の自我状態を決定するとともにエージェントの発話するテキストを自動的に決定する対話制御部とを備え、エージェントは、対話制御部において決定したテキストに対話制御部において決定した自我状態から得られる韻律制御用の韻律パラメータを適用した合成音声を生成する音声合成処理部と、音声合成処理部で生成した合成音声を出力する音声出力手段とを備えることを特徴とする。
この構成によれば、話者の音声に含まれるテキストと韻律的特徴とを用いて話者の自我状態を推定するとともに、エージェントにおいて刺激された自我状態を推定し、これらの情報をシナリオデータベースに照合することによって抽出される対話シナリオに従ってエージェントの自我状態およびエージェントの発話するテキストを自動的に決定するのであって、さらにエージェントでは対話シナリオにより決定したエージェントの自我状態および刺激する話者の自我状態から得られる韻律パラメータを発話用のテキストに適用した合成音声を生成するから、エージェントは、話者の自我状態と話者の音声に含まれるテキストとに応じて、話者に応対する際の内容が同じであってもテキストおよび韻律パラメータを変化させることができ、話者に応じて変化する自然な対話が可能になる。また、話者の自我状態とエージェントにおいて刺激される自我状態とを知ることによって、違和感のない対話が可能な対話シナリオを選択することが可能になる。
請求項2の発明では、請求項1の発明において、話者の顔を撮像する画像入力手段と、画像入力手段により撮像した話者の顔の各部位の時間変化と前記音声入力手段から入力された話者の音声における韻律的特徴とから話者の感情を分類する感情認識部とが付加され、前記自我状態推定部は、感情認識部で分類された話者の感情を、話者の発話から抽出したテキストおよび韻律的特徴とに加味して話者の自我状態および刺激された自我状態の推定に用いることを特徴とする。
この構成によれば、話者の顔の表情および話者の音声における韻律的特徴とから話者の感情を分類する感情認識部とが付加され、話者の自我状態およびエージェントが刺激された自我状態を推定するにあたって、感情認識部により得られる感情も利用するから、適正な対話シナリオを選択することができる。しかも、話者の自我状態を音声および表情によって決めるから、自我状態を決定する精度が高くなる。
請求項3の発明では、請求項2の発明において、前記感情認識部は、音声の韻律的特徴を複数種類の感情に対応付けた韻律データベースと、前記音声入力手段から入力される話者の音声の韻律的特徴を韻律データベースに照合して感情の候補を抽出する音声感情認識処理部と、顔の各部位の時間変化のパターンを複数種類の表情に対応付けた表情データベースと、前記画像入力手段により撮像される話者の顔の各部位の時間変化を表情データベースに照合して表情の候補を抽出する表情推定処理部と、音声感情認識処理部で抽出した感情の候補と表情推定処理部で抽出した表情の候補とを用いて話者の感情を決定する感情判断部とから構成されることを特徴とする。
この構成によれば、話者の音声の韻律的特徴を韻律データベースに照合して話者の感情の候補を抽出するとともに、話者の顔の各部位の時間変化のパターンを表情データベースに照合して話者の表情の候補を抽出し、感情の候補と表情の候補とを用いて話者の感情を決定するから、韻律と表情とに関してパターンマッチングを行って比較的簡単な方法で話者の感情を決定することができる。
請求項4の発明では、請求項3の発明において、前記表情データベースにおける表情は、「無表情」、「驚き」、「恐怖」、「嫌悪」、「怒り」、「幸福」、「悲しみ」の7種類であることを特徴とする。
この構成によれば、表情データベースにおける表情として、「無表情」、「驚き」、「恐怖」、「嫌悪」、「怒り」、「幸福」、「悲しみ」の7種類を用いるのであって、これらの7種類の表情を用いれば自我状態との対応付けは比較的容易である。
請求項5の発明は、請求項2ないし請求項4の発明において、話者の音声および話者の顔の特徴とを話者に対応付けて登録したユーザデータベースを含み、前記音声入力手段から入力される話者の音声の特徴量と前記画像入力手段により撮像される話者の顔の画像の特徴量とをユーザデータベースに照合して話者を特定するユーザ認識部を備え、前記シナリオデータベースは、話者の自我状態と刺激された自我状態と話者からのテキストとのほかに話者が併せて対話シナリオに対応付けられ、前記対話制御部は、自我状態推定部により推定した話者の自我状態と刺激された自我状態と音声認識処理部により抽出したテキストとのほかにユーザ認識部で特定された話者を併せてシナリオデータベースに照合して得られる対話シナリオに従ってエージェントの自我状態およびエージェントの発話するテキストを自動的に決定することを特徴とする。
この構成によれば、あらかじめユーザデータベースに登録されている特定多数の話者について自我状態を決定するから、対話シナリオを決定する際に話者について既知の情報を利用することが可能になり、不特定多数の話者について自我状態を決定する場合に比較すると、違和感を生じさせない対話シナリオを決定できる可能性が一層高くなる。また、エージェントが対話する話者を特定することによって許可されていない話者との対話を禁止することも可能である。
請求項6の発明では、請求項5の発明において、前記ユーザ認識部は、前記音声入力手段から入力される話者の音声の特徴量を前記ユーザデータベースに照合して話者の候補を抽出する話者認識処理部と、前記画像入力手段により撮像される話者の顔の画像の特徴量を前記ユーザデータベースに照合して話者の候補を抽出する顔画像認識処理部と、話者認識処理部で抽出した話者の候補と顔画像認識処理部で抽出した話者の候補とを用いて話者を決定する話者判断部とから構成されることを特徴とする。
この構成によれば、話者の音声の特徴量と話者の顔の画像の特徴量とをユーザデータベースに照合して話者の候補を抽出するとともに、抽出した話者の候補を用いて話者を決定するから、話者の認識率が高くなる。
請求項7の発明では、請求項5または請求項6の発明において、前記ユーザ認識部により特定された話者に対応付けて前記自我状態推定部が推定した話者の自我状態を蓄積して記録する自我状態履歴記憶部と、自我状態履歴記憶部に蓄積された話者の自我状態の出現頻度の分布パターンにより話者の性格を推定する自我状態特徴抽出部と、自我状態特徴抽出部により推定された性格を話者に対応付けて記憶する自我状態特徴記憶部とが付加され、前記対話制御部は前記自我状態特徴記憶部に格納された話者の性格を用いて前記シナリオデータベースから対話シナリオを選択することを特徴とする。
この構成によれば、話者の自我状態の出現頻度の履歴によって話者の性格を推定することができるから、カウンセラーの診断や自己診断テストなどを行うことなく、話者の性格推定が可能になる。性格の推定結果は自我状態特徴記憶部に格納され、話者の性格の推定結果を用いて対話シナリオを選択するから、話者に応じたスムーズな対話が可能になる。なお、話者の自我状態の履歴を記憶しまた性格の推定結果を記憶しているから、話者のカウンセリングのためにカウンセラが利用することも可能である。
請求項8の発明では、請求項6の発明において、前記ユーザ認識部には、前記画像入力手段により撮像された画像から前記顔画像認識処理部が複数人を認識したときに、前記話者認識処理部は前記音声入力手段から入力される話者の音声により発話した話者を特定する機能が付加され、さらに前記画像入力手段により撮像された画像内の人物の視線の向きを用いて対話相手を認識する対話相手認識部と、対話における発話者、発話時、対話相手、発話のテキスト、発話者と対話相手との自我状態からなる対話データを蓄積する対話記録部とが付加され、前記対話制御部は前記シナリオデータベースの対話シナリオと対話記録部の対話データとを参照することにより発話のタイミングおよびテキストを決定することを特徴とする。
この構成によれば、話者が複数人存在する場合でも対話が可能になり、たとえば看護ロボットに対話エージェントを設けている場合に、被看護人と来訪者(あるいは見舞客)と看護ロボットとの3者での対話が可能になる。ここに、対話制御部において対話記録部の対話データを参照しているのは、対話エージェントの応答が要求されているか否かを判断するためであって、対話相手が対話エージェントを含む場合にのみ対話エージェントによる発話を行うことになる。
請求項9の発明では、請求項8の発明において、前記対話制御部は、話者の発話によって刺激されるエージェントの自我状態を応答時のエージェントの自我状態とし、エージェントの応答時に刺激する話者の自我状態を話者の発話時の自我状態とすることを特徴とする。
この構成によれば、話者とエージェントとにおいて発話の際の自我状態と刺激される自我状態とが一致する結果、違和感のないスムーズな対話が可能になる。
請求項10の発明では、請求項1ないし請求項9の発明において、前記自我状態推定部は、前記音声認識処理部により抽出したテキストに話者の自我状態に対応付けた特定の付帯語が含まれているときには、当該付帯語から推定される自我状態を話者の自我状態とすることを特徴とする。
この構成によれば、話者の自我状態を音声認識処理部により抽出したテキストの中の特定の付帯語によって推定するのであって、自我状態を推定する条件としてこの種の付帯語を用いると信頼性の高い推定が可能であることが知られているから、この種の付帯語がテキストに含まれるときには、これを利用することによって話者の自我状態を高い精度で推定することが可能になる。しかも、話者の発話したテキスト中に特定の付帯語が含まれているか否かを判断するだけであるから、比較的簡単な処理ながら話者の自我状態を精度よく推定することが可能になる。
請求項11の発明では、請求項1ないし請求項10の発明において、話者の覚醒度を判断する覚醒度判断部が付加され、対話制御部は、覚醒度判断部において判断される話者の覚醒度が低いほど音声出力手段から出力する合成音声の速度を低下させることを特徴とする。
この構成によれば、話者の覚醒度に応じて合成音声の速度が調節され、話者の覚醒度が低ければ遅いテンポで応答することにより応答内容を話者に聞き取りやすくし、逆に話者の覚醒度が高ければ速いテンポで応答することにより話者を待たせることなく応答することが可能になる。
請求項12の発明では、請求項1ないし請求項11の発明において、話者の感情により変化する生体情報を計測する生体情報計測手段と、前記自我状態推定部で推定した自我状態の適否を生体情報計測手段で計測された生体情報を用いて判断する適否判断部とが付加されたことを特徴とする。
この構成によれば、自我状態推定部で推定した自我状態が話者の感情を害していないか否かを適否判断部において判断することができる。したがって、適否判断部の判断結果を自我状態の推定結果にフィードバックすれば、話者の感情を害することのない適正な自我状態の推定が可能になる。
請求項13の発明では、請求項1ないし請求項12の発明において、前記エージェントは、身体動作を伴う表現を行う身体モデルと、前記対話制御部で決定されたテキストおよびエージェントの自我状態を身体モデルの身体動作に変換する身体表現制御部とを備えることを特徴とする。
この構成によれば、身体モデルを備えるエージェントについて、対話制御部で決定されたテキストおよびエージェントの自我状態を身体モデルの身体動作に反映させるから、対話の際にエージェントの身振りや手まねを付与することができ、エージェントから話者へのメッセージの伝達がスムーズになる。
請求項14の発明では、請求項1ないし請求項13の発明において、前記自我状態は、交流分析に基づく心のモデルである「批判的な親」、「保護的な親」、「大人」、「自由な子供」、「順応する子供」の5種類に分類されることを特徴とする。
この構成によれば、自我状態として、交流分析に基づく心のモデルである「批判的な親」、「保護的な親」、「大人」、「自由な子供」、「順応する子供」を用いるから、交流分析に従って対話シナリオを比較的容易に設定することができる。
本発明の構成によれば、話者の音声に含まれるテキストと韻律的特徴とを用いて話者の自我状態を推定するとともに、エージェントにおいて刺激された自我状態を推定し、これらの情報をシナリオデータベースに照合することによって抽出される対話シナリオに従ってエージェントの自我状態およびエージェントの発話するテキストを自動的に決定するのであって、さらにエージェントでは対話シナリオにより決定したエージェントの自我状態および刺激する話者の自我状態から得られる韻律パラメータを発話用のテキストに適用した合成音声を生成するから、エージェントは、話者の自我状態と話者の音声に含まれるテキストとに応じて、話者に応対する際の内容が同じであってもテキストおよび韻律パラメータを変化させることができ、話者に応じて変化する自然な対話が可能になるという利点がある。また、話者の自我状態とエージェントにおいて刺激される自我状態とを知ることによって、違和感のない対話が可能な対話シナリオを選択することが可能になるという利点がある。
(実施形態1)
本実施形態は、コンピュータ装置を用いて実現されるエージェントシステムが話者との間で自然な対話を行うために、交流分析(たとえば、杉田峰泰:「交流分析」,日本文化科学社,1985)に基づく心のモデルである自我状態に着目するものである。自我状態は、親(P)、大人(A)、子供(C)の3状態に大きく分類され、さらに親は批判的な親(CP)と保護的な親(NP)に分類され、子供は自由な子供(FC)と順応する子供(AC)とに分類されている。以下において自我状態を説明する際には、CP、NP、A、FC、ACの符号を用いる。
上述のように、交流分析において自我状態は5種類に分類されており、対話する両者の自我状態が適正な関係であるとスムーズな対話が可能になることが知られている。すなわち、発話者と応答者との関係においては、発話者の自我状態と発話者の発話によって応答者の中で刺激される自我状態との関係が適正な関係であれば、応答者の応答は発話者にとって違和感を生じることがなく、応答内容が効率よく伝達され、あるいは発話者に暖かい印象を与える応答が可能になる。一方、発話者の自我状態と応答者の自我状態との関係が適正でないときには、発話者は応答者に対して、なれなれしさを感じて不快感を生じたり、あるいは発話者に冷たい印象を受ける応答になる。要するに、発話者と応答者との自我状態の関係が適正でなければ、スムーズな対話が行えないことが知られている。また、対話によって相手に要求するような場合には、対話戦略に従って自我状態を制御することにより、相手を得心させて要求を受け入れやすくすることも可能になる。このように対話をスムーズに行ったり要求を受け入れさせたりするための自他状態の制御手順を、以下では対話シナリオと呼ぶ。
本実施形態においては、コンピュータ装置を用いて実現されるエージェントシステムと話者である人との間で対話を行うこととし、原則として話者が発話するものとする。なお、エージェントシステムが人に対して行動を促すような場合には、エージェントシステムから発話する場合もあり、この種の対話においても以下に説明する対話シナリオに従って自我状態を制御することが可能である。また、本実施形態では仮想的な身体を備えるエージェントを想定するが、実体的な身体を備えるロボットのようなエージェントに本発明の対話エージェントシステムを適用することも可能である。
対話エージェントシステムの基本的な構成を図1に示す。図示する対話エージェントシステムは、話者の音声が入力される音声入力手段としてマイクロホン21を備えるとともに、話者の顔を撮像する画像入力手段としてTVカメラからなるカメラ22を備える。カメラ22は話者の顔付近を撮像するように視野が設定される。また、対話エージェントシステムは、後述する合成音声を出力する音声出力手段としてスピーカ23を備えるとともに、文字情報を出力したりエージェントの身体表現(身振り・手振りなど)を行うためのディスプレイ24とを備える。つまり、ディスプレイ24には、人や動物などにより表現された仮想的な身体を備えるエージェントが表示され、スピーカ23からの音声出力に合うようにエージェントが身体表現を行う構成を採用している。
マイクロホン21から入力される音声は、音声認識処理部11と口調認識処理部12と感情認識部13とユーザ認識処理部15とに入力される。音声認識処理部11は、マイクロホン21から入力された話者の音声から話者が話したテキスト(音列)を抽出する。音声認識処理部11における音声の認識には隠れマルコフモデルを用いた周知の技術を採用することができる。口調認識処理部12は、マイクロホン21から入力された話者の音声から韻律的特徴を口調として抽出する。つまり、口調認識処理部12では、話者の音声のパワー、ピッチ、抑揚、速度などの韻律情報を抽出することによって、上述した自我状態の区分に用いる。ちなみに、自我状態と声の調子との関係は、CPでは「やさしい」「安心感を与える」、NPでは「断定的」「疑いがこもる」「非難めく」「押し付け調」、Aでは「落ち着いた低い声で」「単調」「一定の音調」「冷静」「相手に合わせる」、FCでは「開放的」「大声で」「興奮調」「明るい」「無邪気」「楽しそう」、ACでは「自身がない」「くどい」「遠慮がち」「かみつく」「恨みがましい」などの特徴を有することが知られており、この種の情報を韻律的特徴から抽出することによって、話者の自我状態の推定に用いることができる。
ところで、感情認識部13にはマイクロホン21から入力された話者の音声だけではなく、カメラ22により撮像した話者の顔の画像も入力される。図2に示すように、感情認識部13には、話者の音声における韻律的特徴から話者の感情を推定する音声感情認識処理部13aと、話者の顔の各部位の時間変化から話者の感情を推定する表情推定処理部13bとが設けられる。
音声感情認識処理部13aはマイクロホン21から入力された話者の音声の韻律的特徴を抽出し、抽出した韻律的特徴を韻律データベース13dと照合する機能を有する。韻律データベース13dには、音声の韻律的特徴が複数種類の感情に対応付けて格納されており、音声感情認識処理部13aは、韻律的特徴を韻律データベース13dと照合することによって、韻律データベース13dから感情を分類する。ここにおいて、音声感情認識処理部13aにおいて韻律的特徴を抽出する技術としては、隠れマルコフモデルを用いたり感情による基本周波数の変化を用いる。また、上述した音声認識処理部11とともに音声感情認識処理部13aにおいても認識精度を高めるために、種々の音声サンプルを収集するとともに各音声サンプルをテキストや感情に対応付けて格納した音声データベースを作成し、音声データベースに収集した音声サンプルを分析することによって得られる情報を、音声感情認識処理部13aでのテキストの抽出および音声感情認識処理部13aでの感情の候補の抽出の際の学習情報として用いるようにすれば、テキストおよび感情の候補の分類精度を高めることができる。感情の分類にあたっては1種類の候補を抽出するだけではなく複数種類の候補を尤度に対応付けて抽出するのが望ましい。
表情推定処理部13bは、カメラ22で撮像した話者の顔の画像(たとえば、30フレーム/秒で画像を取り込む)のうち、眉、目、口などの各部位について時系列的な変化から表情を分類する。表情の種類としては、エクマン:「表情分析入門」などに記述されているように、「無表情」、「驚き」、「恐怖」、「嫌悪」、「怒り」、「幸福」、「悲しみ」の7種類を用いる。すなわち、表情推定処理部13bでは顔の各部位の時間変化のパターンを抽出するとともに、抽出した時間変化のパターンを表情データベース13eと照合する機能を有する。表情データベース13eには、顔の各部位の時間変化のパターンが複数種類の表情に対応付けて格納されており、表情推定処理部13bは、顔の各部位の時間変化のパターンを表情データベース13eと照合することによって、表情データベース13eからパターンマッチングの技術によって表情を分類する。表情データベース13eの作成にあたっては、種々の表情の画像サンプルを収集するとともに各画像サンプルを感情に対応付けて格納した画像データベースを作成し、画像データベースに収集した画像サンプルを分析することによって得られる情報を、表情推定処理部13bでの感情の候補の抽出の際の学習情報として用いるようにすれば、感情の候補の抽出精度を高めることができる。表情推定処理部13bにおいても音声感情認識処理部13aと同様に、表情の分類にあたっては1種類の候補を抽出するだけではなく複数種類の候補を尤度に対応付けて抽出するのが望ましい。
音声感情認識処理部13aで抽出した感情の候補と表情推定処理部13bにおいて抽出した表情の候補とは感情判断部13cに入力される。感情判断部13cでは、音声感情認識処理部13aで抽出した感情の候補と表情推定処理部13bから入力された表情の候補とをファジー論理などによって組み合わせることにより話者の感情を決定する。
上述のようにして、音声認識処理部11で得られたテキストD1と、口調認識処理部12で得られた韻律的特徴D2と、感情認識部13で得られた感情D3とは自我状態推定部14に入力される。すなわち、自我状態推定部14は、話者の発話から抽出したテキストD1および韻律的特徴D2とに、感情認識部13で分類された話者の感情を加味して、話者の自我状態を推定するとともに、話者がエージェントのどの自我状態を刺激しているかを推定する。テキストD1に含まれるキーワード以外の付帯語は、話者の自我状態と刺激を与える相手の自我状態とに深く関係するから、自我状態推定部14での自我状態の推定には、テキストD1の内容(とくに、キーワード以外の付帯語)を主として採用する。また、上述したように韻律的特徴D2も自我状態と関係し、感情D3も自我状態に関連するから、韻律的特徴D2や感情D3をテキストD1に組み合わせることにより自我状態の推定を行う。組合せ方については後述する。
自我状態推定部14では、話者の自我状態と、刺激を受けたエージェントの自我状態と、話者の感情D3とを対話制御部10に与える。また、対話制御部10には音声認識処理部11で得られたテキストD1も入力される。対話制御部10では、話者の自我状態と刺激されたエージェントの自我状態とテキストD1とをシナリオデータベース16に照合することによって、シナリオデータベース16から対話戦略としての対話シナリオを抽出する。つまり、シナリオデータベース16には、話者の自我状態と刺激されたエージェントの自我状態とテキストD1との組が、対話シナリオに対応付けて格納してある。対話制御部10ではシナリオデータベース16から対話シナリオを抽出すると、テキストD1に対して適切な応答が可能となるように、抽出した対話シナリオに従ってエージェントの自我状態と刺激する話者の自我状態を自動的に決定し、さらに話者からのテキストD1と対話制御部10において決定した自我状態とに基づいて、エージェントの発話するテキストを自動的に決定する。エージェントの発話するテキストは、話者の発話によるテキストD1の中のキーワードに対応して応答用のキーワードが決められており(シナリオデータベース16に対話シナリオの一部として格納されている)、対話正よ部10において、自我状態に応じて決まる付帯語を応答用のキーワードに付加してテキストを組み立てることにより、エージェントが応答するテキストを生成することができる。
また、対話シナリオによってエージェントの自我状態と刺激する話者の自我状態と応答用のテキストとが決まれば応答用の韻律が決まるから、対話制御部10において生成した韻律制御用の韻律パラメータを応答用のテキストに適用するように、音声合成処理部17を制御することによって、音声合成処理部17において応答用の合成音声を生成することができる。音声合成処理部17で生成した合成音声はスピーカ23を通して話者に対する応答音声として出力される。
ところで、自我状態推定部14では、上述のように基本的にはテキストD1と韻律的特徴D2と感情D3との3種類の情報を用いて話者の自我状態と刺激されたエージェントの自我状態との推定を行っているが、必ずしも3種類の情報のすべてが揃わない場合もある。そこで、本実施形態では、図3に示すように、自我状態推定部14に入力される情報に優先順位を設定し、少なくとも音声認識処理部11からテキストD1が入力されれば、自我状態が推定可能になるようにしてある。図3は上段が感情認識部13での感情D3の取得の有無、中段が口調認識処理部12での韻律的特徴D2の取得の有無、下段が音声認識処理部11でのテキストD1の取得の有無を示しており、テキストD1が取得できれば他の情報がなくとも自我状態を推定することができるように処理手順が設定されている。また、テキストD1の次に必要な情報は韻律的特徴D2であって、テキストD1と感情D3との組合せでは、テキストD1のみが用いられることになる。
図3に示している「自我状態推定表」とは図4の表のことであって、自我状態推定表では、感情D3を「喜」「怒」「哀」「恐」「無」の5種類の分類してあり、図4に示す例では、感情D3が「怒」であるときに韻律的特徴D2(図4では示していない)を加味し(韻律的特徴D2は重み付けなどによって組み合わせる)、さらにテキストD1にキーワードとは別に含まれる付帯語が「〜すべき」であるときに、話者の自我状態がCPであり、刺激されたエージェントの自我状態がACであることを示している。自我状態推定部14ではこの種の対応付けによって話者の自我状態と刺激されたエージェントの自我状態とを推定する。
上述のように、自我状態推定部14ではテキストD1があれば自我状態を推定することができ、とくに音声認識処理部11により抽出したテキストD1の中に、表1に示す特定の付帯語が含まれているときには、この付帯語から推定される自我状態を話者の自我状態に用いる。つまり、自我状態推定部14には付帯語を自我状態に対応付けた付帯語データベースが設けられ、テキストD1の中に付帯語が含まれているか否かを付帯語データベースと照合し、付帯語が含まれていれば対応する自我状態を抽出する。また、テキストD1には必ずしも付帯語が含まれているわけではないから、付帯語が含まれていなければ他の情報を用いて話者の自我状態を推定する。
対話制御部10では、自我状態推定部14から話者の感情D3と話者の自我状態および刺激されたエージェントの自我状態とが入力され、音声認識処理部11からはテキストD1が入力される。対話制御部10ではこれらの4種類の情報を用いて対話シナリオを決定しているが(本実施形態では、ユーザ認識部15から話者の識別情報D4も対話制御部10に入力されるが、識別情報D4については後述する)、必ずしも4種類の情報のすべてが揃わない場合もある。そこで、自我状態推定部14と同様に、対話制御部10においても入力される情報に図5に示すような優先順位を設定し、少なくとも音声認識処理部11からテキストD1が入力されれば、対話シナリオを決定できるようにしてある。図5は最上段がユーザ認識部15から入力される識別情報D4の取得の有無、2段目が自我状態推定部14からの感情D3の取得の有無、3段目が自我状態推定部14からの話者の自我状態および刺激されたエージェントの自我状態の取得の有無、最下段がテキストD1の取得の有無を示しており、テキストD1が取得できれば他の情報がなくとも対話シナリオを決定することができるように処理手順が設定されている。テキストD1の次に重要な情報は、話者の自我状態および刺激されたエージェントの自我状態であり、感情D3と話者の識別情報D4とは付加的な情報になっている。
図5に示している「エージェント応答パターン表」とは図6の表のことであって、図6では話者の自我状態および刺激されたエージェントの自我状態の組合せを、応答におけるエージェントの自我状態と刺激する話者の自我状態との組合せに対応付けている(図示する対応関係は自我状態の基本的な組合わせを示しているが、これ以外の組合せも可能である)。図6に示すエージェント応答パターン表はシナリオデータベース16に格納されたデータの一部であって、実際には感情D3や話者の識別情報D4も加味される。また、シナリオデータベース16では話者から得たテキストD1に応答するテキストの対応付けも行われる。
本実施形態が目指している対話シナリオの一例を図7ないし図9に示す。図7ないし図9に示す例は、対話エージェントシステムが駅の案内を行う場合を想定したものである。ここでは、対話がスムーズに進行するように、対話シナリオとして交流分析において知られている相補的交流を採用している。また、説明を簡単にするために、話者の発話によって話者の自我状態とエージェントの自我状態とが決まるものとする。つまり、話者の発話によって刺激されるエージェントの自我状態が、応答時のエージェントの自我状態になり、また話者の発話時の自我状態がエージェントからの応答時に刺激する話者の自我状態になるものとする。
図7は話者とエージェントとの自我状態がともにAの場合であって、自我状態をAとする話者が「駅はどちらですか」という発話を行うことによって、エージェントはAの自我状態が刺激される。ここで、エージェントは対話シナリオによって、エージェントの自我状態をAとし、話者のAの自我状態を刺激するような応答を行うために、「次の信号を右に曲がってまっすぐです」という応答を行うことになる。
一方、図8は話者の自我状態がFCであり、エージェントの自我状態がNPになる場合の例であって、自我状態をFCとする話者が「駅に行きたいの」という発話を行うことによって、エージェントはNPの自我状態が刺激される。エージェントは対話シナリオによって、エージェントの自我状態をNPとし、話者のFCの自我状態を刺激するような応答を行うために、「次の信号を右に曲がってごらん」という応答を行う。
話者の自我状態がFCであっても発話の仕方によっては、刺激されるエージェントの自我状態がNPではなく他の自我状態になる場合もある。図9はこの種の例であって、話者の自我状態がFCであり、エージェントの自我状態もFCになっている。つまり、自我状態をFCとする話者が「駅に行きたーいなー」という発話を行うことによって、エージェントではFCの自我状態が刺激される。対話シナリオによって、エージェントは自我状態をFCとし、話者のFCの自我状態を刺激するような応答を行うために、「次の信号を右に曲がってごらんよ」という応答を行う。
図7ないし図9は対話シナリオを例示したものであるが、対話エージェントシステムの使用目的によって対話シナリオは変化し、また応答内容も変化するのは言うまでもない。いずれにせよ、話者の自我状態と話者が刺激するエージェントの自我状態との組合せによって、エージェントが応答に用いるテキストや韻律情報に変化が生じるから、話者にとって受け入れやすく、かつ違和感のない自然な対話が可能になるのである。ここに、話者の発話により刺激されるエージェントの自我状態とは異なる自我状態でエージェントが応答したり、エージェントの応答時に刺激する話者の自我状態を話者の発話時の自我状態とは異ならせたりすると、話者にとっては違和感を生じることが多く、話者が感情を害する場合もあることが知られている。これに対して、本実施形態では、上述のような相補的交流を行うからスムーズな対話が可能になる。
ところで、上述したユーザ認識部15は、話者があらかじめ登録されているか否かを認識することによって、特定の話者の特徴を利用して認識率を高めたり、話者の認証を行ったりするために設けられている。ユーザ認識部15は、図2に示すように、マイクロホン21から入力される話者の音声の特徴量を話者データベース15dに照合して話者の候補を抽出する話者認識処理部15aと、カメラ22により撮像される話者の顔の画像の特徴量を顔画像データベース15eに照合して話者の候補を抽出する顔画像認識処理部15bとを備える。ここに、図では便宜上、話者データベース15dと顔画像データベース15eとを別に分けて記述しているが、両者を一括してユーザデータベースとするのが望ましい。話者認識処理部15aで抽出した話者の候補と顔画像認識処理部15bで抽出した話者の候補とは話者判断部15cに入力され、話者判断部15cではファジー論理などを用いて話者の候補を組み合わせることにより、話者を決定するとともに話者ごとに付与した識別情報D4を出力する。
ユーザ認識部15から出力される識別情報D4を対話制御部10で採用するために、シナリオデータベース16には、対話における話者の好みや話者の性格などの情報が識別情報D4に対応付けて格納されており、対話制御部10では、ユーザ認識部15から識別情報D4が得られるときには、話者の好みや性格などを加味して対話シナリオを決定する。また、話者の識別情報D4が得られることによって、エージェントが話者の名前を呼びかけに用いることも可能になる。
上述のようにして対話制御部10で対話シナリオが決定されることによって、エージェントの自我状態が決定されるとともに、刺激する話者の自我状態が決定され、さらにテキストD1に対応して応答するテキストの内容が決定されると、上述したように音声合成処理部17により合成音声を生成し、スピーカ23を通して応答音声を出力する。ここで、エージェントはディスプレイ24に表示された仮想的な身体を用いて身体動作を伴う表現が可能になっており、身体表現を行うことによって親近感のある応答が可能になる。
このような仮想的な身体による身体表現を行うために、本実施形態の対話エージェントシステムには、仮想的な身体を表現するためのデータ群を記憶装置に格納した身体モデル19と、対話制御部10で決定した応答内容(テキスト、エージェントの自我状態、刺激する話者の自我状態)を身体モデル19の身体動作に変換する身体表現制御部18とを設けてある。ここに、身体モデル19の身体動作に変換するとは、身体モデル19に格納されている身体表現のデータ群から、表現に必要なデータ群を抽出するとともに、抽出したデータ群をディスプレイ24に表示された仮想的な身体に適用することを意味する。この処理によって、ディスプレイ24に表示されたエージェントの身振り・手振り(手を挙げる、手を伸ばす、首を振る、頷くなど)を対話エージェントシステムの応答内容に応じて制御することが可能になる。
なお、上述した実施形態では、話者の音声と顔の画像とを入力とし、エージェントは音声と身体表現との出力を行うように構成しているが、話者とエージェントとは少なくとも音声による対話が可能であれば、話者の画像やエージェントの身体表現は必須ではない。
ところで、上述した例では自我状態の推定に際して話者の感情も用いており、感情の推定にはカメラ22で撮像した話者の顔の画像に関する情報を話者の音声から得られる情報と併せて用いている。つまり、カメラ22から得られる非言語的な情報は、自我状態の推定に用いることを目的として5種類に分類した感情を推定するために用いている。一方、カメラ22から得られる画像を用いて目の動きなどを監視すれば、上述のような5種類の感情だけではなく、話者の内面状態を推定することが可能である。そこで、感情認識部13とは別にカメラ22により撮像される顔画像から話者の内面状態を推定する内面状態推定部30を設け、話者の特定の内面状態を検出してもよい。
たとえば、内面状態として「焦り」の状態では視線の移動が激しくなるから、カメラ22で撮像した話者の顔の画像における瞳の位置変化(移動量および移動頻度)を監視することにより、話者に「焦り」があるか否かを判断することが可能になる。つまり、内面状態推定部30ではカメラ22により撮像した顔の画像から画像処理の技術によって両目と瞳との位置を検出し、目の位置に対する瞳の位置の相対的な変化を監視して、移動量が規定値以上である状態が単位時間内に規定頻度以上生じるときには、内面状態が「焦り」であると判断する。
内面状態推定部30において特定の内面状態(「焦り」のような内面状態)が検出されたときには、自我状態に優先して内面状態を用いるように対話制御部10に指示する。対話制御部10では内面状態を自我状態に優先させる指示があると、シナリオデータベース16から特定の内面状態に対応した対話シナリオを抽出する。内面状態に対応する対話シナリオとしては一般にA→AあるいはAC→CPを選択し、自我状態によってFC→FCという応答が望ましいと判断されても、内面状態による判断を優先して用いる。
いま、話者に対して料理の献立や調理方法のアドバイスを行う目的で対話エージェントを用いる場合を想定する。ここで、「焦り」がない場合には〔1〕のように対話を行い、内面状態として「焦り」が検出されたときには〔2〕のように対話を行う。
〔1〕
話者:簡単にお客様に出せる料理を教えてほしいの、助けて!
対話エージェント:はーい、わかりました。まずどんな材料を使いますか?
〔2〕
話者:簡単にお客様に出せる料理を教えてほしいの、助けて!
対話エージェント:はい、とりあえず次のようなメニューはいかがですか?
また、上述した構成において、マイクロホン21により得られる音声およびカメラ22により撮像される画像に基づいて年齢層や性別を判断する機能をユーザ認識部15に持たせてもよい。話者の年齢層や性別を推定すれば、対話制御部10において年齢層や性別に合わせた対話シナリオを選択することが可能になる。たとえば、低年齢層の子供の場合に、対話エージェントから話者に対してCP→ACという威圧的な応答を行ったとしても、話者から対話エージェントに対してAC→CPという服従的な応答を得ることは難しい。この場合、対話エージェントから話者に対してA→Aという平静、あるいはNP→FCという教育的な応答が望ましい。あるいはまた、子供向けに語尾を変えることも考えられる。一方、話者が高齢者であれば、対話エージェントが応答するテキストをかしこまった文言とするのが望ましい。このように年齢層や性別の情報を取得することによって、より適切な対話シナリオを選択することが可能になる。
さらにまた、話者の性格的傾向は大人と子供とでは異なる場合があるから(大人は自己否定的、子供は自己肯定的な傾向がある)、大人と子供とで応答の内容を変化させるようにしてもよい。たとえば、看護ロボットに対話エージェントを用いるような場合には、大人の話者に対しては励ますように応答することが望ましい。
本実施形態では、対話エージェントの出力手段としてスピーカ23とディスプレイ24とを用いているが、香料噴出装置(図示せず)を付加してもよい。一般に香りによる各種の心理的効果が知られており、たとえばジャスミンの香りは、リラックス効果、情緒安定効果などがあり、また抑鬱状態にもよいと言われている。そこで、話者から対話エージェントに対してCP→ACであって話者が怒気を含んだ心理状態であるときや、話者が抑鬱的な状態であるときには、香料噴出装置からジャスミンの香りを噴出することにより、対話エージェントの応答だけではなく、香りの効果によっても話者の心理状態を改善することが可能になる。この機能は看護ロボットや介護ロボットに組み込むのに適している。
上述した説明では、話者の発話に対して対話エージェントが応答する例を示したが、話者の発話がない場合でも対話エージェントから発話する機能を設けることによって、対話エージェントの擬人性を高めることができるから、対話エージェントに話者の存在を検出する機能を付加するのが望ましい。この機能を実現するには、カメラ22の視野内の人の存否を検知することができる人感センサ(図示せず)を付加する。人感センサには、人体から放射される熱線を検知する焦電型赤外線センサなどを用いた周知のものを用いる。対話エージェントでは、人感センサが人を検知すると、カメラ22で撮像されている画像内の人を顔画像データベース15eに照合することによって登録されている人物か否かを判断する。ここで、ユーザ認識部15において登録されている人物か否かを判断する際に、音声を利用することができないから、顔画像データベース15eのみを用いて人物を判断することになる。カメラ22で撮像された画像からユーザ認識部15に登録された人物と判断されると、対話制御部10では当該人物の名前を呼びかけて挨拶を行い、人物が非登録であると挨拶のみを行う。また、呼びかけに応答して人物が発した音声から人物の誤認に気付いたときには、名前を訂正する応答を行えばよい。なお、カメラ22の画像で人物を認識したときに対話エージェントが挨拶の発話を行うのは一例であって、たとえば、許可者以外は侵入禁止であるような場所であれば、登録された人物には侵入許可を通知し、登録されていない人物には侵入禁止を通知するように発話するなど、発話内容は目的に応じて適宜に設定される。
(実施形態2)
本実施形態は、ユーザ認識部15により話者を特定できることを利用して話者ごとに自我状態の履歴を記録し、話者の自我状態の履歴を用いて話者の性格を推定することにより話者の性格に合わせた応答を可能とするものである。
本実施形態では、図10に示すように、自我状態推定部14が推定した話者の自我状態をユーザ認識部15において特定した話者に対応付けて蓄積して記憶する自我状態履歴記憶部31と、自我状態履歴記憶部31に記憶した話者の自我状態の出現頻度の分布パターンから話者の性格を推定する自我状態特徴抽出部32と、自我状態特徴抽出部32により推定した性格を話者に対応付けて記憶する自我状態特徴記憶部33とを付加している。自我状態履歴記憶部31では話者の自我状態を時系列で履歴として記憶するとともに各自我状態の出現頻度を記憶している。自我状態特徴抽出部32では、自我状態の出現頻度の分布パターンと性格とを対応付けて登録してある自我状態特徴データベース34とを照合し、一致度の高い性格を話者の性格として推定する。すなわち、自我状態特徴データベース34には、交流分析における5種類の自我状態の出現頻度の分布パターン(出現頻度を正規化した分布パターン)が性格に対応付けて登録してあり、自我状態履歴記憶部31に記憶した話者ごとの自我状態の出現頻度の分布パターンが、自我状態特徴データベース34に登録されている分布パターンと照合される。この照合はパターンマッチングであって類似度の高いものが選択され、選択された性格が話者の性格と推定される。自我状態特徴データベース34では、たとえば、自我状態としてNP,FCが低く、CP,ACが高い場合には、「自分を表現することができにくく、鬱になりやすい性格」「不登校タイプの性格」「責任感、現実検討能力、協調性は十分持っているが、思いやりに欠ける性格」などの性格が対応付けられる。自我状態特徴抽出部32での性格の推定結果は話者と対応付けて自我状態特徴記憶部33に記憶される。
ところで、自我状態特徴記憶部33に話者の性格が記憶されているときには、当該話者との対話を行う際に、対話制御部10では自我状態特徴記憶部33から話者の性格を取得する。シナリオデータベース16には話者の性格に対応付けて対話シナリオが登録されているから、対話制御部10においてシナリオデータベース16から話者の性格に応じた対話シナリオを選択することができ、結果的に話者の性格に応じたスムーズな対話が可能になる。
また、本実施形態の対話エージェントを看護ロボットなどに用いる場合に、話者の性格を推定することによって、対話エージェントをセラピストのように機能させることが可能になる。たとえば、話者の性格が悲観的あるいは自虐的な傾向であるときに、話者の心理状態を向上させるような応答を行うことが可能になる。いま、自我状態の出現頻度のうちNP,FCが低く、CP,ACが高い場合には上述したように、鬱傾向があることが知られている。そこで、一般の話者では対話エージェントと話者との間で以下に〔1〕で示す対話を行うとすれば、自我状態の出現頻度のうちNP,FCが低く、CP,ACが高い話者では以下に〔2〕で示すように肯定的な表現を用いて話者を励まし、話者の心理状態を向上させる対話が可能になる。
〔1〕
対話エージェント:お薬の時間ですよ。
話者:もうわかったよ。
対話エージェント:では、よろしくお願いしますね。
〔2〕
対話エージェント:お薬の時間ですよ。
話者:もうわかったよ。
対話エージェント:これで良くなりますから、元気を出してください。もう少しですから。
なお、上述のように、自我状態履歴記憶部31には話者ごとの自我状態の履歴(自我状態の出現頻度を含む)が記憶されており、また自我状態特徴記憶部33には話者ごとの性格の推定結果が記憶されているから、話者がカウンセリングを受ける際にはカウンセラにこれらのデータを提供することによって、カウンセリングの参考に用いることが可能になる。他の構成および機能は実施形態1と同様である。
(実施形態3)
上述した各実施形態では話者が1人である場合を例示したが、本実施形態は2人の話者が存在し対話エージェントを含めて3者での対話を行うことを可能とする構成について説明する。本実施形態では、図11に示すように、カメラ22により撮像された画像に含まれる人物の視線の向きを監視し、視線の向きによって対話相手を認識する対話相手認識部35と、対話における発話者、発話時、対話相手、発話のテキスト、発話者と対話相手との自我状態からなる対話データを蓄積する対話記録部36とを付加している。発話者および発話時はユーザ認識部35により取得でき、対話相手は対話相手認識部35から取得でき、発話のテキストおよび発話者と対話相手との自我状態は対話制御部10から取得することができる。なお、本実施形態では、カメラ22として話者の目の位置および瞳の位置を監視できる程度の解像度のものを用いることが必要である。
また、ユーザ認識部15では、カメラ22で撮像された画像から顔画像認識処理部15bが2人の話者を認識したときに、対話制御部10、感情認識部13、自我状態推定部14、対話相手認識部35に通知することによって、2人の話者が存在する対話を行う動作に切り換える。その後、ユーザ認識部15では、マイクロホン21から入力される話者の音声を用いて話者認識処理部15aにおいて発話した話者を特定し、対話制御部10、感情認識部13、自我状態推定部14、対話相手認識部35に対して認識した話者を通知する。要するに、本実施形態ではカメラ22で撮像された画像を、話者の人数と話者の対話相手との特定に用い、マイクロホン21から入力される音声により発話した話者の感情を推定し、発話した話者と対話相手との自我状態を推定する。推定された自我状態と、音声認識処理部11で得られたテキストとは、対話制御部10に与えられ、対話制御部10では上述した対話データを対話記録部36に記録する。
本実施形態におけるシナリオデータベース16には3者間の対話シナリオが上述した各実施形態のような2者間での対話シナリオとは別に格納されており、対話相手認識部35から2人の話者が存在することが対話制御部10に通知されると、対話制御部10ではシナリオデータベース16から3者間の対話シナリオを選択する。3者間の対話シナリオでは、対話相手が対話エージェントを含むときにのみ対話エージェントが発話するように設定され、話者同士の対話では対話エージェントから発話しないように設定される。つまり、対話制御部10は、音声認識処理部11が抽出した発話のテキストと、対話相手認識部35が認識した対話相手と、自我状態推定部14が推定した自我状態とを用い(対話記録部36に対話データとして記録されている)、対話エージェントが発話すべきか否かを判断する。対話エージェントが発話しないときにはカメラ22で撮像した画像から話者の人数を確認する処理に戻り、対話エージェントが発話するときには上述した各実施形態と同様に音声合成処理部17および身体表現制御部18を通して身体表現を伴う発話を行う。
本実施形態を用いた対話シナリオの一例を以下に示す。以下に示す例は、対話エージェントが看護ロボットに設けられており、被看護人と来訪者との2人の話者が存在する場合を例示している。また、〔1〕は対話エージェントが発話しない場合であり、〔2〕は対話エージェントが発話する場合である。
〔1〕
被看護人→来訪者(FC→FC):学校では変わったことはない?
来訪者→被看護人(FC→FC):いつも通りだよ。
〔2〕
被看護人→来訪者(FC→NP):しんどいよ。
来訪者→被看護人(NP→FC):もうすぐ良くなるよ。
看護ロボット→被看護人(NP→FC):そうですよ、がんばってください。
なお、本実施形態では2人の話者と対話エージェントとの3者による対話を例示したが、本実施形態の技術を3人以上の話者に拡張することによって、さらに多人数での対話も可能である。他の構成および動作は実施形態1と同様である。
(実施形態4)
本実施形態は話者の覚醒度を判断することによって、対話エージェントが応答する際の合成音声の速度を調節するものである。つまり、話者の覚醒度が低いときには、速いテンポで応答すると応答内容を話者が聞き取れない場合があり、逆に話者の覚醒度が高いときには、遅いテンポで応答すると話者がいらだつ場合があるから、話者の覚醒度を判断するとともに、話者の覚醒度に応じてスピーカ23から出力する合成音声の速度を調節している。
本実施形態では、話者の覚醒度の判断に皮膚電位水準(SPL)を用いる。皮膚電位水準を求めるために、図12に示すように、話者の手のひらや足の裏のように精神状態による発汗量の変化が生じやすい部位に接触可能な電極25(電極25は一対ある)を設けてあり、電極25は電位計測部37に接続され電位計測部37では一対の電極25の電位差を計測する。電極25が話者に装着されていると話者は煩わしく感じる可能性があるから、たとえば対話エージェントを看護ロボットに組み込むような場合には、話者との握手などの行為によって話者が電極25に触れるようにするのが望ましい。電位計測部37により計測された電位差は覚醒度判断部38に入力され、覚醒度判断部38では電位差を覚醒度に変換する。一般に、電位差(SPL)が大きいほど覚醒度が高いから、適宜に設定した閾値に対して電位差が大きければ覚醒度判断部38において話者の覚醒度が高いと判断する。なお、本実施形態では話者の覚醒度を高低2段階で判断しているが、覚醒度を多段階で判断してもよい。ところで、電位計測部37で計測される電位差は話者によって個人差があるから、ユーザ認識部15により認識した話者に対応付けて電位計測部37での検出結果を記憶して蓄積しておき、話者別の蓄積結果の平均値を上述の閾値に用いるようにすればよい。
上述のようにして覚醒度判断部38において求めた話者の覚醒度は対話制御部10に与えられ、対話制御部10では話者の覚醒度が低い(SPLが閾値より低い)ときには、合成音声による応答の速度が比較的遅いテンポになるように、音声合成処理部17で生成する合成音声の出力速度を調節する。このように覚醒度の低い話者に対して遅いテンポで応答することにより、テキストの内容を聞き取りやすくすることができる。一方、話者の覚醒度が高い(SPLが閾値より高い)ときには、やや速いテンポで応答することで話者の覚醒度を保ち、話者が応答の遅さにいらだつことがないようにする。他の構成および動作は実施形態1と同様である。
(実施形態5)
本実施形態は、話者の生体情報を検出することによって対話エージェントが推定した自我状態が対話に適切であったか否かを判断するものである。すなわち、話者と対話エージェントとが対話する際には自我状態推定部14において話者の発話に基づいて話者の自我状態と対話エージェントにおいて刺激される自我状態とを推定している。一般的には、推定した自我状態を用いて相補的交流を行えばスムーズな対話が可能になる。ここでスムーズな対話とは、話者が感情を害することなく対話することを意味する。一方、相補的交流ではなく自我状態の交差が生じるような交流では、話者は感情を害して対話がスムーズに進行しなくなる可能性がある。
そこで、本実施形態では、話者の感情を判断するために、話者の瞬時心拍率(1分間の心拍数)を用いている。一般に瞬時心拍率は、怒り、ストレス、恐怖などの防衛的あるいは攻撃的な感情が生じると上昇し、落ち着いているときには低下することが知られている。本実施形態では、このような生理現象を利用して対話中の話者の瞬時心拍率を求め、瞬時心拍率の変動を監視することによって、話者に防衛的ないし攻撃的な感情が生じていないか否かを判断している。瞬時心拍率の検出にはECGを用いており、実施形態4と同様に電極26(電極26は一対ある)を設けている。電極26は話者の胸部あるいは四肢に装着される。
図13に示すように、電極26はECG計測部41に接続され、一対の電極26により検出される電位差がECG計測部41において検出される。ECG計測部41では、たとえば図14に示すような電位変化が検出される。この電位変化は、心臓における心房の興奮を示すP波と、心室の脱分極を示すQRSと、心室の細分極を示すT波とを含む。ここで、R−Rの間隔は心臓交換神経と心臓副交感神経との拮抗支配を受けており、R−R間隔を1分当たりの心拍数に換算することで瞬時心拍率を求めることができる。そこで、図14に示すようなECG計測部41の出力を瞬時心拍率検出部42に入力し、R−R間隔を求めることによって瞬時心拍率を求める。すなわち、電極26とECG計測部41と瞬時心拍率検出部42とにより生体情報計測手段が構成される。話者が防衛的ないし攻撃的な感情を持つと、瞬時心拍率が常時よりも上昇するから、適否判断部43では瞬時心拍率検出部42で求めた瞬時心拍率を適宜の閾値と比較することにより、話者の感情が防衛的ないし攻撃的であるか否かを判断する。つまり、適否判断部43は自我状態推定部14が推定した自我状態が適切であったか否かを判断することになる。適否判断部43では、瞬時心拍率が閾値よりも低いときには自我状態推定部14で推定した話者の自我状態および対話エージェントの刺激された自我状態が適切であったと判断し、瞬時心拍率が閾値以上であるときには自我状態推定部14の推定結果が適切でなかったと判断する。
なお、図13に破線で示すように、適否判断部43による判断結果を自我状態推定部14にフィードバックして自我状態推定部14の学習に用いれば、推定した自我状態の信頼度を高めることができ、結果的に対話エージェントの応答によって話者の感情を害する可能性が低減されスムーズな対話が可能になる。また、瞬時心拍率の検出には電極26に変えて血流を監視する光学式のセンサを用いてもよい(この種のセンサは種々運動機械における心拍計に用いられている)。他の構成および動作は実施形態1と同様である。
実施形態1を示すブロック図である。 同上の要部のブロック図である。 同上に用いる自我状態推定部の動作説明図である。 同上に用いる自我状態推定表の一例を示す図である。 同上に用いる対話制御部の動作説明図である。 同上に用いるエージェント対応パターン表を示す図である。 同上を用いた対話例を示す図である。 同上を用いた対話例を示す図である。 同上を用いた対話例を示す図である。 実施形態2を示すブロック図である。 実施形態3を示すブロック図である。 実施形態4を示すブロック図である。 実施形態5を示すブロック図である。 同上に用いるECGの一例を示す図である。
符号の説明
10 対話制御部
11 音声認識処理部
12 口調認識処理部
13 感情認識部
13a 音声感情認識処理部
13b 表情推定処理部
13c 感情判断部
13d 韻律データベース
13e 表情データベース
14 自我状態推定部
15 ユーザ認識部
15a 話者認識処理部
15b 顔画像認識処理部
15c 話者判断部
15d 話者データベース
15e 顔画像データベース
16 シナリオデータベース
17 音声合成処理部
18 身体表現制御部
19 身体モデル
21 マイクロホン
22 カメラ
23 スピーカ
24 ディスプレイ
25 電極
26 電極
31 自我状態履歴記憶部
32 自我状態特徴抽出部
33 自我状態特徴記憶部
35 対話相手認識部
36 対話記録部
37 電位計測手段
38 覚醒度判断部
41 ECG計測部
42 瞬時心拍率検出部
43 適否判断部

Claims (14)

  1. 話者の音声が入力される音声入力手段と、音声入力手段から入力された話者の音声からテキストを抽出する音声認識処理部と、音声入力手段から入力された話者の音声から韻律的特徴を抽出する口調認識処理部と、少なくとも音声認識処理部により抽出したテキストと口調認識処理部により抽出した韻律的特徴とを用いて話者の自我状態を推定するとともに話者に応対するエージェントにおいて刺激された自我状態を推定する自我状態推定部と、話者の自我状態と刺激された自我状態と話者からのテキストとをエージェントの対話戦略である対話シナリオに対応付けたシナリオデータベースと、自我状態推定部により推定した話者の自我状態と刺激された自我状態と音声認識処理部により抽出したテキストとをシナリオデータベースに照合して得られる対話シナリオに従ってエージェントの自我状態および刺激する話者の自我状態を決定するとともにエージェントの発話するテキストを自動的に決定する対話制御部とを備え、エージェントは、対話制御部において決定したテキストに対話制御部において決定した自我状態から得られる韻律制御用の韻律パラメータを適用した合成音声を生成する音声合成処理部と、音声合成処理部で生成した合成音声を出力する音声出力手段とを備えることを特徴とする対話エージェントシステム。
  2. 話者の顔を撮像する画像入力手段と、画像入力手段により撮像した話者の顔の各部位の時間変化と前記音声入力手段から入力された話者の音声における韻律的特徴とから話者の感情を分類する感情認識部とが付加され、前記自我状態推定部は、感情認識部で分類された話者の感情を、話者の発話から抽出したテキストおよび韻律的特徴とに加味して話者の自我状態および刺激された自我状態の推定に用いることを特徴とする請求項1記載の対話エージェントシステム。
  3. 前記感情認識部は、音声の韻律的特徴を複数種類の感情に対応付けた韻律データベースと、前記音声入力手段から入力される話者の音声の韻律的特徴を韻律データベースに照合して感情の候補を抽出する音声感情認識処理部と、顔の各部位の時間変化のパターンを複数種類の表情に対応付けた表情データベースと、前記画像入力手段により撮像される話者の顔の各部位の時間変化を表情データベースに照合して表情の候補を抽出する表情推定処理部と、音声感情認識処理部で抽出した感情の候補と表情推定処理部で抽出した表情の候補とを用いて話者の感情を決定する感情判断部とから構成されることを特徴とする請求項2記載の対話エージェントシステム。
  4. 前記表情データベースにおける表情は、「無表情」、「驚き」、「恐怖」、「嫌悪」、「怒り」、「幸福」、「悲しみ」の7種類であることを特徴とする請求項3記載の対話エージェントシステム。
  5. 話者の音声および話者の顔の特徴とを話者に対応付けて登録したユーザデータベースを含み、前記音声入力手段から入力される話者の音声の特徴量と前記画像入力手段により撮像される話者の顔の画像の特徴量とをユーザデータベースに照合して話者を特定するユーザ認識部を備え、前記シナリオデータベースは、話者の自我状態と刺激された自我状態と話者からのテキストとのほかに話者が併せて対話シナリオに対応付けられ、前記対話制御部は、自我状態推定部により推定した話者の自我状態と刺激された自我状態と音声認識処理部により抽出したテキストとのほかにユーザ認識部で特定された話者を併せてシナリオデータベースに照合して得られる対話シナリオに従ってエージェントの自我状態およびエージェントの発話するテキストを自動的に決定することを特徴とする請求項2ないし請求項4のいずれか1項に記載の対話エージェントシステム。
  6. 前記ユーザ認識部は、前記音声入力手段から入力される話者の音声の特徴量を前記ユーザデータベースに照合して話者の候補を抽出する話者認識処理部と、前記画像入力手段により撮像される話者の顔の画像の特徴量を前記ユーザデータベースに照合して話者の候補を抽出する顔画像認識処理部と、話者認識処理部で抽出した話者の候補と顔画像認識処理部で抽出した話者の候補とを用いて話者を決定する話者判断部とから構成されることを特徴とする請求項5記載の対話エージェントシステム。
  7. 前記ユーザ認識部により特定された話者に対応付けて前記自我状態推定部が推定した話者の自我状態を蓄積して記憶する自我状態履歴記憶部と、自我状態履歴記憶部に蓄積された話者の自我状態の出現頻度の分布パターンにより話者の性格を推定する自我状態特徴抽出部と、自我状態特徴抽出部により推定された性格を話者に対応付けて記憶する自我状態特徴記憶部とが付加され、前記対話制御部は前記自我状態特徴記憶部に格納された話者の性格を用いて前記シナリオデータベースから対話シナリオを選択することを特徴とする請求項5または請求項6記載の対話エージェントシステム。
  8. 前記ユーザ認識部には、前記画像入力手段により撮像された画像から前記顔画像認識処理部が複数人を認識したときに、前記話者認識処理部は前記音声入力手段から入力される話者の音声により発話した話者を特定する機能が付加され、さらに前記画像入力手段により撮像された画像内の人物の視線の向きを用いて対話相手を認識する対話相手認識部と、対話における発話者、発話時、対話相手、発話のテキスト、発話者と対話相手との自我状態からなる対話データを蓄積する対話記録部とが付加され、前記対話制御部は前記シナリオデータベースの対話シナリオと対話記録部の対話データとを参照することにより発話のタイミングおよびテキストを決定することを特徴とする請求項6記載の対話エージェントシステム。
  9. 前記対話制御部は、話者の発話によって刺激されるエージェントの自我状態を応答時のエージェントの自我状態とし、エージェントの応答時に刺激する話者の自我状態を話者の発話時の自我状態とすることを特徴とする請求項8記載の対話エージェントシステム。
  10. 前記自我状態推定部は、前記音声認識処理部により抽出したテキストに話者の自我状態に対応付けた特定の付帯語が含まれているときには、当該付帯語から推定される自我状態を話者の自我状態とすることを特徴とする請求項1ないし請求項9のいずれか1項に記載の対話エージェントシステム。
  11. 話者の覚醒度を判断する覚醒度判断部が付加され、対話制御部は、覚醒度判断部において判断される話者の覚醒度が低いほど音声出力手段から出力する合成音声の速度を低下させることを特徴とする請求項1ないし請求項10のいずれか1項に記載の対話エージェントシステム。
  12. 話者の感情により変化する生体情報を計測する生体情報計測手段と、前記自我状態推定部で推定した自我状態の適否を生体情報計測手段で計測された生体情報を用いて判断する適否判断部とが付加されたことを特徴とする請求項1ないし請求項11のいずれか1項に記載の対話エージェントシステム。
  13. 前記エージェントは、身体動作を伴う表現を行う身体モデルと、前記対話制御部で決定されたテキストおよびエージェントの自我状態を身体モデルの身体動作に変換する身体表現制御部とを備えることを特徴とする請求項1ないし請求項12のいずれか1項に記載の対話エージェントシステム。
  14. 前記自我状態は、交流分析に基づく心のモデルである「批判的な親」、「保護的な親」、「大人」、「自由な子供」、「順応する子供」の5種類に分類されることを特徴とする請求項1ないし請求項13のいずれか1項に記載の対話エージェントシステム。
JP2003394663A 2003-03-24 2003-11-25 対話エージェントシステム Withdrawn JP2004310034A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003394663A JP2004310034A (ja) 2003-03-24 2003-11-25 対話エージェントシステム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003081463 2003-03-24
JP2003394663A JP2004310034A (ja) 2003-03-24 2003-11-25 対話エージェントシステム

Publications (1)

Publication Number Publication Date
JP2004310034A true JP2004310034A (ja) 2004-11-04

Family

ID=33478146

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003394663A Withdrawn JP2004310034A (ja) 2003-03-24 2003-11-25 対話エージェントシステム

Country Status (1)

Country Link
JP (1) JP2004310034A (ja)

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007088791A1 (ja) 2006-01-31 2007-08-09 Matsushita Electric Industrial Co., Ltd. アドバイス装置、アドバイス方法、アドバイスプログラム及びアドバイスプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2007148493A1 (ja) * 2006-06-23 2007-12-27 Panasonic Corporation 感情認識装置
JP2008532587A (ja) * 2005-02-22 2008-08-21 ヘルス−スマート リミテッド 生理学的及び心理学的/生理学的モニタリングのための方法及びシステム並びにその使用
JP2009025658A (ja) * 2007-07-20 2009-02-05 Oki Electric Ind Co Ltd 音声合成装置、音声合成システム
JP2009522845A (ja) * 2005-12-30 2009-06-11 タンベルグ テレコム エーエス サーチ可能なマルチメディア・ストリーム
JP2009182432A (ja) * 2008-01-29 2009-08-13 Seiko Epson Corp コールセンターの情報提供システム、情報提供装置、情報提供方法及び情報提供プログラム
JP2010129033A (ja) * 2008-12-01 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> 対話心理学習装置とその方法、対話制御装置とその方法、プログラムと記録媒体
JP2010186237A (ja) * 2009-02-10 2010-08-26 Nippon Telegr & Teleph Corp <Ntt> 多人数思考喚起型対話装置、多人数思考喚起型対話方法、多人数思考喚起型対話プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2011065403A (ja) * 2009-09-17 2011-03-31 Nippon Telegr & Teleph Corp <Ntt> 対話型性格特徴判定装置とその方法と、プログラム
JP2011150390A (ja) * 2010-01-19 2011-08-04 Kddi Corp 性格推定装置及びプログラム
US8199018B2 (en) 2005-10-31 2012-06-12 Toyota Jidosha Kabushiki Kaisha Detector for state of person
WO2014087714A1 (ja) 2012-12-04 2014-06-12 株式会社エヌ・ティ・ティ・ドコモ 情報処理装置、サーバ装置、対話システムおよびプログラム
JP2014153715A (ja) * 2013-02-07 2014-08-25 Samsung Electronics Co Ltd 音声対話機能を備えた携帯端末機及びその音声対話方法
JP2015176058A (ja) * 2014-03-17 2015-10-05 株式会社東芝 電子機器、方法及びプログラム
JP2016024631A (ja) * 2014-07-18 2016-02-08 ヤフー株式会社 提示装置、提示方法及び提示プログラム
JP2016508007A (ja) * 2013-02-07 2016-03-10 アップル インコーポレイテッド デジタルアシスタントのためのボイストリガ
JP2017151517A (ja) * 2016-02-22 2017-08-31 富士ゼロックス株式会社 ロボット制御システム
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
JP2018041231A (ja) * 2016-09-06 2018-03-15 富士通株式会社 接客支援プログラム、接客支援方法、接客支援システムおよび情報処理装置
JP2018055155A (ja) * 2016-09-26 2018-04-05 トヨタ自動車株式会社 音声対話装置および音声対話方法
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
JP2018085120A (ja) * 2017-12-14 2018-05-31 ヤフー株式会社 装置、方法及びプログラム
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10049675B2 (en) 2010-02-25 2018-08-14 Apple Inc. User profiling for voice input processing
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
JP2018142357A (ja) * 2018-04-27 2018-09-13 ヤフー株式会社 装置、方法及びプログラム
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
JP2018159777A (ja) * 2017-03-22 2018-10-11 ヤマハ株式会社 音声再生装置、および音声再生プログラム
JP2018159788A (ja) * 2017-03-22 2018-10-11 カシオ計算機株式会社 情報処理装置、方法及びプログラム
KR20180118182A (ko) * 2016-03-31 2018-10-30 선전 쾅-츠 허종 테크놀로지 엘티디. 클라우드를 기반으로 한 설비 및 그 조작방법
JP2019012506A (ja) * 2017-06-29 2019-01-24 ネイバー コーポレーションNAVER Corporation 機械の自動活性のための方法及びシステム
JP2019076596A (ja) * 2017-10-26 2019-05-23 富士ゼロックス株式会社 情報処理装置、情報処理システム及びプログラム
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
WO2019123775A1 (ja) * 2017-12-22 2019-06-27 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
JP2020027548A (ja) * 2018-08-16 2020-02-20 Kddi株式会社 キャラクタ属性に応じた対話シナリオを作成するプログラム、装置及び方法
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
WO2020066019A1 (ja) 2018-09-28 2020-04-02 富士通株式会社 対話装置、対話方法及び対話プログラム
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
JP2020126392A (ja) * 2019-02-04 2020-08-20 ヤフー株式会社 選択装置、選択方法および選択プログラム
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10795541B2 (en) 2009-06-05 2020-10-06 Apple Inc. Intelligent organization of tasks items
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10904611B2 (en) 2014-06-30 2021-01-26 Apple Inc. Intelligent automated assistant for TV user interactions
JP2021092727A (ja) * 2019-12-12 2021-06-17 一般社団法人It&診断支援センター・北九州 独り暮らし支援ロボット
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
JP2021139921A (ja) * 2020-02-28 2021-09-16 Kddi株式会社 ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
JP7432556B2 (ja) 2020-12-30 2024-02-16 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド マンマシンインタラクションのための方法、装置、機器および媒体

Cited By (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008532587A (ja) * 2005-02-22 2008-08-21 ヘルス−スマート リミテッド 生理学的及び心理学的/生理学的モニタリングのための方法及びシステム並びにその使用
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8199018B2 (en) 2005-10-31 2012-06-12 Toyota Jidosha Kabushiki Kaisha Detector for state of person
JP2009522845A (ja) * 2005-12-30 2009-06-11 タンベルグ テレコム エーエス サーチ可能なマルチメディア・ストリーム
WO2007088791A1 (ja) 2006-01-31 2007-08-09 Matsushita Electric Industrial Co., Ltd. アドバイス装置、アドバイス方法、アドバイスプログラム及びアドバイスプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4898712B2 (ja) * 2006-01-31 2012-03-21 パナソニック株式会社 アドバイス装置、アドバイス方法、アドバイスプログラム及びアドバイスプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2007148493A1 (ja) * 2006-06-23 2007-12-27 Panasonic Corporation 感情認識装置
US8204747B2 (en) 2006-06-23 2012-06-19 Panasonic Corporation Emotion recognition apparatus
JP2009025658A (ja) * 2007-07-20 2009-02-05 Oki Electric Ind Co Ltd 音声合成装置、音声合成システム
JP2009182432A (ja) * 2008-01-29 2009-08-13 Seiko Epson Corp コールセンターの情報提供システム、情報提供装置、情報提供方法及び情報提供プログラム
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
JP2010129033A (ja) * 2008-12-01 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> 対話心理学習装置とその方法、対話制御装置とその方法、プログラムと記録媒体
JP2010186237A (ja) * 2009-02-10 2010-08-26 Nippon Telegr & Teleph Corp <Ntt> 多人数思考喚起型対話装置、多人数思考喚起型対話方法、多人数思考喚起型対話プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
US10795541B2 (en) 2009-06-05 2020-10-06 Apple Inc. Intelligent organization of tasks items
JP2011065403A (ja) * 2009-09-17 2011-03-31 Nippon Telegr & Teleph Corp <Ntt> 対話型性格特徴判定装置とその方法と、プログラム
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
JP2011150390A (ja) * 2010-01-19 2011-08-04 Kddi Corp 性格推定装置及びプログラム
US10049675B2 (en) 2010-02-25 2018-08-14 Apple Inc. User profiling for voice input processing
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US10176252B2 (en) 2012-12-04 2019-01-08 Ntt Docomo, Inc. Information-processing device, server device, interaction system, and program
WO2014087714A1 (ja) 2012-12-04 2014-06-12 株式会社エヌ・ティ・ティ・ドコモ 情報処理装置、サーバ装置、対話システムおよびプログラム
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
JP2018109980A (ja) * 2013-02-07 2018-07-12 アップル インコーポレイテッド デジタルアシスタントのためのボイストリガ
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
JP2016508007A (ja) * 2013-02-07 2016-03-10 アップル インコーポレイテッド デジタルアシスタントのためのボイストリガ
US11636869B2 (en) 2013-02-07 2023-04-25 Apple Inc. Voice trigger for a digital assistant
US11862186B2 (en) 2013-02-07 2024-01-02 Apple Inc. Voice trigger for a digital assistant
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US10714117B2 (en) 2013-02-07 2020-07-14 Apple Inc. Voice trigger for a digital assistant
JP2014153715A (ja) * 2013-02-07 2014-08-25 Samsung Electronics Co Ltd 音声対話機能を備えた携帯端末機及びその音声対話方法
JP2023025032A (ja) * 2013-02-07 2023-02-21 アップル インコーポレイテッド デジタルアシスタントのためのボイストリガ
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
JP2015176058A (ja) * 2014-03-17 2015-10-05 株式会社東芝 電子機器、方法及びプログラム
US10904611B2 (en) 2014-06-30 2021-01-26 Apple Inc. Intelligent automated assistant for TV user interactions
JP2016024631A (ja) * 2014-07-18 2016-02-08 ヤフー株式会社 提示装置、提示方法及び提示プログラム
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
JP2017151517A (ja) * 2016-02-22 2017-08-31 富士ゼロックス株式会社 ロボット制御システム
JP2019518247A (ja) * 2016-03-31 2019-06-27 シェン ツェン クアン−チ ヘチョン テクノロジー リミティッド クラウドに基づく設備及びその操作方法
KR102156296B1 (ko) 2016-03-31 2020-09-15 선전 쾅-츠 허종 테크놀로지 엘티디. 클라우드에 기반을 둔 설비 및 그 조작방법
KR20180118182A (ko) * 2016-03-31 2018-10-30 선전 쾅-츠 허종 테크놀로지 엘티디. 클라우드를 기반으로 한 설비 및 그 조작방법
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
JP2018041231A (ja) * 2016-09-06 2018-03-15 富士通株式会社 接客支援プログラム、接客支援方法、接客支援システムおよび情報処理装置
US10553215B2 (en) 2016-09-23 2020-02-04 Apple Inc. Intelligent automated assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
JP2018055155A (ja) * 2016-09-26 2018-04-05 トヨタ自動車株式会社 音声対話装置および音声対話方法
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
JP7143916B2 (ja) 2017-03-22 2022-09-29 カシオ計算機株式会社 情報処理装置、情報処理方法、及び、プログラム
JP2018159788A (ja) * 2017-03-22 2018-10-11 カシオ計算機株式会社 情報処理装置、方法及びプログラム
JP2018159777A (ja) * 2017-03-22 2018-10-11 ヤマハ株式会社 音声再生装置、および音声再生プログラム
JP2021105736A (ja) * 2017-03-22 2021-07-26 カシオ計算機株式会社 情報処理装置、方法及びプログラム
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
JP2019012506A (ja) * 2017-06-29 2019-01-24 ネイバー コーポレーションNAVER Corporation 機械の自動活性のための方法及びシステム
JP2019076596A (ja) * 2017-10-26 2019-05-23 富士ゼロックス株式会社 情報処理装置、情報処理システム及びプログラム
JP7033776B2 (ja) 2017-10-26 2022-03-11 株式会社Agama-X 情報処理装置、情報処理システム及びプログラム
JP2018085120A (ja) * 2017-12-14 2018-05-31 ヤフー株式会社 装置、方法及びプログラム
JP7276129B2 (ja) 2017-12-22 2023-05-18 ソニーグループ株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JPWO2019123775A1 (ja) * 2017-12-22 2020-10-22 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2019123775A1 (ja) * 2017-12-22 2019-06-27 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2018142357A (ja) * 2018-04-27 2018-09-13 ヤフー株式会社 装置、方法及びプログラム
JP6994289B2 (ja) 2018-08-16 2022-01-14 Kddi株式会社 キャラクタ属性に応じた対話シナリオを作成するプログラム、装置及び方法
JP2020027548A (ja) * 2018-08-16 2020-02-20 Kddi株式会社 キャラクタ属性に応じた対話シナリオを作成するプログラム、装置及び方法
WO2020066019A1 (ja) 2018-09-28 2020-04-02 富士通株式会社 対話装置、対話方法及び対話プログラム
JP2020126392A (ja) * 2019-02-04 2020-08-20 ヤフー株式会社 選択装置、選択方法および選択プログラム
JP7041639B2 (ja) 2019-02-04 2022-03-24 ヤフー株式会社 選択装置、選択方法および選択プログラム
JP7210024B2 (ja) 2019-12-12 2023-01-23 一般社団法人It&診断支援センター・北九州 独り暮らし支援ロボット
JP2021092727A (ja) * 2019-12-12 2021-06-17 一般社団法人It&診断支援センター・北九州 独り暮らし支援ロボット
JP2021139921A (ja) * 2020-02-28 2021-09-16 Kddi株式会社 ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法
JP7352491B2 (ja) 2020-02-28 2023-09-28 Kddi株式会社 ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法
JP7432556B2 (ja) 2020-12-30 2024-02-16 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド マンマシンインタラクションのための方法、装置、機器および媒体

Similar Documents

Publication Publication Date Title
JP2004310034A (ja) 対話エージェントシステム
JP2006071936A (ja) 対話エージェント
CN106992013B (zh) 语音情感修改
CN107053186B (zh) 对话装置、机器人、对话方法以及存储介质
US9031293B2 (en) Multi-modal sensor based emotion recognition and emotional interface
JP4481682B2 (ja) 情報処理装置及びその制御方法
Sebe et al. Multimodal emotion recognition
Munhall et al. Visual prosody and speech intelligibility: Head movement improves auditory speech perception
Vinola et al. A survey on human emotion recognition approaches, databases and applications
CN108573695B (zh) 语音处理装置及其方法、机器人及计算机可读取记录介质
EP3701529A1 (en) System and method for assessing physiological state
Schuller et al. Automatic recognition of physiological parameters in the human voice: Heart rate and skin conductance
JP5958825B2 (ja) 感性評価システム、感性評価方法、およびプログラム
Cosentino et al. Quantitative laughter detection, measurement, and classification—A critical survey
KR20060052837A (ko) 정보처리단말 및 통신시스템
KR102351008B1 (ko) 감정 인식 장치 및 감정 인식 방법
JP7390268B2 (ja) 認知機能予測装置、認知機能予測方法、プログラム及びシステム
Guthier et al. Affective computing in games
JP7120060B2 (ja) 音声対話装置、音声対話装置の制御装置及び制御プログラム
WO2020175969A1 (ko) 감정 인식 장치 및 감정 인식 방법
JP7021488B2 (ja) 情報処理装置、及びプログラム
Samarasekara et al. Non invasive continuous detection of mental stress via readily available mobile-based help parameters
Acosta-Mitjans et al. Affective embodied agents and their effect on decision making
JP7322374B2 (ja) ロボットの制御装置、ロボット、ロボットの制御方法およびプログラム
KR20200057810A (ko) 차량 및 그 제어방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041014

A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070206