JP2006178063A

JP2006178063A - 対話処理装置

Info

Publication number: JP2006178063A
Application number: JP2004369375A
Authority: JP
Inventors: Ryoko Tokuhisa; 良子徳久; Ryuta Terajima; 立太寺嶌; Hiroyuki Hoshino; 博之星野
Original assignee: Toyota Central R&D Labs Inc
Current assignee: Toyota Central R&D Labs Inc
Priority date: 2004-12-21
Filing date: 2004-12-21
Publication date: 2006-07-06

Abstract

【課題】システムがユーザ自身に共感しているとユーザが感じ、ユーザとシステムとの間に信頼感を生じさせる対話が行なわれるようにする。
【解決手段】入力されたユーザの発話を認識し、ユーザの発話が意味する感情をポジティブ、ネガティブ、及びニュートラルのいずれか１つの感情かを推定し、推定したポジティブ、ネガティブ、及びニュートラルのいずれか１つの感情に対応する１つの発話を応答として生成し、生成した応答を出力する。
【選択図】図１

Description

本発明は、対話処理装置にかかり、特に、音声を用いてユーザと対話する場合にユーザの感情に合わせた応答を音声によって行なうことができる対話処理装置に関する。

従来より、複雑な処理を必要とせずに、自然な会話、特に単なる相槌ではなく、相手の真意を問うような、または再考を促すような発話をしながら会話を円滑的に進めることができる会話システムが提案されている（特許文献１）。この会話システムでは、ユーザが「今日は暑苦しかった」と発話した場合には、システム（音声対話装置）は、「あなたは暑苦しいと感じましたね。」というように、ユーザが発話した形容詞や形容動詞をそのまま使用した応答を生成している。

また、従来の会話システムでは、ユーザの発話中に一定以上の無音区間が生じたタイミングで応答を生成している。したがって、例えば、ユーザが「今日は暑苦しかったけど（無音区間１）、学校の中は涼しかったよ（無音区間２）」と発話した場合、従来の会話システムでは、無音区間１が発生した時点（ユーザが「今日は暑苦しかったけど」と発話した直後）で、「あなたは暑苦しいと感じましたね。」と応答され、ユーザが更に「学校の中は涼しかったよ」と発話するつもりでいるのにシステムから応答が発せられる。
特開２００４−１９１４０７号公報

しかしながら、上記従来の技術では、システムはユーザ自身の発話を単に鸚鵡返しするだけであり、真の意味でシステムがユーザの発話の内容を理解したかどうかはユーザには伝達されないので、ユーザはシステムに対して「共感」することはできない、という問題がある。ここで、共感とは、「他人の体験する感情を自分のもののように感じること」（大辞林第二版）であり、「共感」は「信頼感」と強い関係があり、カウンセラとクライアントの例について「共感」により両者の間に信頼関係が確立されることが説明されている（「感情の心理学」福井康之著、川島書店ｐ２３４〜ｐ２３５）。従来の会話システムでは、ユーザの感情を推定したり、推定した感情を対話に生かしたりする機能は設けられていないので、ユーザとシステムとの間に信頼感は発生しない。

また、従来の技術では、ユーザが発話を継続しようとしているにも拘わらず、システムが応答することから、対話がちぐはぐになってしまう、という問題がある。

本発明は、上記従来の問題点を解決するためになされたもので、システムがユーザの感情を推定して応答することにより、システムがユーザ自身に共感しているとユーザが感じ、ユーザとシステムとの間に信頼感を生じさせる会話が行なわれるようにした対話処理装置を提供することを第１の目的とする。

また、本発明は、無音区間の直後ではなく、述語の判定を行なった後に応答を生成することによって、適切なタイミングで応答を生成することができる、対話装置を提供することを第２の目的とする。

上記目的を達成するために本発明は、入力されたユーザの発話を認識するユーザ発話認識手段と、前記ユーザ発話認識手段で認識されたユーザの発話が意味する感情を推定する感情推定手段と、推定した感情と同一の感情を表す応答用の発話を生成する発話生成手段と、前記発話生成手段で生成された発話を合成して出力する音声合成手段と、を含んで構成されている。

本発明は、例えば、ユーザが「今日は暑苦しかった」と発話した場合にはシステム（対話処理装置）はその感情的意味が好ましくない感情状態を表すネガティブであるというように、ユーザの発話が意味する感情を推定し、例えばネガティブの応答用の発話である「大変だったね、大丈夫？」等の推定した感情と同一の感情を表す応答を返答する。これにより、システムがユーザ発話の感情的意味を適切に理解したことがユーザに伝達され、その結果ユーザとシステムとの間に共感が生まれ、ユーザとシステムとの間に信頼感を生じさせることができる。

本発明によれば、システムがユーザの感情を推定して応答しているので、システムがユーザ自身に共感しているとユーザが感じ、ユーザとシステムとの間に信頼感を生じさせるようにすることができる。

また、本発明においては、ユーザの動作及び表情の少なくとも１つを更に認識し、認識されたユーザの発話、及び認識されたユーザの動作及び表情の少なくとも１つを用いて、ユーザの発話が意味する感情を推定し、推定した感情と同一の感情を表す応答用の発話を生成して出力すると共に、推定した感情と同一の感情を表す動作及び表情の少なくとも１つを生成して提示するようにしてもよい。

また、ユーザの発話の述語部分を判定し、判定された述語部分を区切りとして、ユーザの発話が意味する感情を推定するようにしてもよくい。これにより、適切なタイミングで応答用の発話を生成することができる。

以上説明したように本発明によれば、システムがユーザの感情を推定して応答しているので、システムがユーザ自身に共感しているとユーザが感じ、ユーザとシステムとの間に信頼感を生じさせるようにすることができる、という効果が得られる。

また、本発明においては、ユーザの発話の述語部分を判定し、判定された述語部分を区切りとして、ユーザの発話が意味する感情を推定すれば、適切なタイミングで応答を生成することができる、という効果が得られる。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

第１の実施の形態には、図１に示すように、ユーザの発話を集音して入力するためのマイクロホン１０が設けられている。マイクロホン１０は、データベース１２に登録された音声認識用辞書に基づいて、マイクロホン１０から入力されたユーザの発話を認識する発話認識部１４に接続されている。

発話認識部１４は、データベース１６に登録された感情語辞書に基づいて、ユーザの発話の感情的な意味が、ポジティブ、ネガティブ、及びポジティブでもネガティブでもない（ニュートラル）の３つの状態のいずれかに分類して、ユーザの発話が意味する感情を推定する感情推定部１８に接続されている。感情語辞書は、ポジティブ、ネガティブ、及びニュートラルのいずれか１つに分類された感情と感情語とを対応させた複数個の組から構成されている。

ここで、ポジティブやネガティブの感情状態は、形容詞、形容動詞、及び動詞等、本来の意味として感情を含む感情語によって表現される。具体的には、「楽しい」、「笑う」、「喜ぶ」等はポジティブの感情的意味を表し、一方、「退屈だ」、「つまらない」、「残念だ」等はネガティブの感情的意味を表している。本実施例においても同様であり、ポジティブは、例えば「嬉しい」とか「楽しい」等の単語（感情語）のように、好ましい感情状態、すなわち出来事が望ましい感情状態を意味し、ネガティブは、例えば「悲しい」や「寂しい」等の単語のように、ポジティブとは逆に好ましくない感情状態、すなわち出来事が望ましくない感情状態を意味する。

なお、「対人行動学研究シリーズ(4) 感情と行動・認知・生理」（土田昭司他）に、因子分析や多次元尺度解析の結果、多くの場合感情次元構造は「快−不快」（ポジティブ−ネガティブ）の次元と、「覚醒−睡眠」（活動性）の次元とで表される、と記載されているが、本実施の形態のポジティブ及びネガティブも従来の心理学の定義に順ずるものである。

データベース１６には、「嬉しい＝ポジティブ」、「楽しい＝ポジティブ」、「悲しい＝ネガティブ」、「寂しい＝ネガティブ」、「退屈だ＝ネガティブ」等のように感情語と３つの感情のいずれか１つの感情とを対応させて構成した感情語辞書を予め登録しておき、感情推定部１８において感情語辞書を用いて発話文の感情推定を行い、例えば、ユーザが「この前の週末は楽しかったよ。」と発話した場合には、「楽しい＝ポジティブ」という辞書の登録からこのユーザの発話はポジティブの意味を持つと推定する。

しかしながら、「おかしい」等のように文脈によってポジティブの意味もネガティブの意味も持つ単語も存在する。例えば、「昨日、先生が学生時代の失敗談をしてくれて、とてもおかしかったよ。」のように「面白い」の意味で「おかしい」を用いる場合には、「おかしい」はポジティブの感情を表すが、「合計金額が合わないのはおかしい」のように「快訝だ」の意味で「おかしい」を用いる場合には「おかしい」はネガティブの感情を表す。したがって、本実施の形態では、このような語は、感情語辞書には登録しない。

さらに、「見る」、「聞く」、「行く」等のように単語単独ではポジティブかネガティブかが区別できない場合がある。この場合には、感情語辞書には「見る＝ニュートラル」と登録し、感情語推定部では、ポジティブでもネガティブでもない感情を表す単語として扱う。

形容詞及び形容動詞（例えば、「楽しい」、「美しい」、「綺麗だ」、及び「嫌だ」）には、その性質から感情的な意味を表現する単語が多く存在する。また、人間の動作を表す動詞の中にも、例えば、「笑う」及び「泣く」等のように感情的な意味を持つ単語が存在する。さらに、名詞にも、例えば、「合格」、「優勝」、「敗北」、及び「失格」等のように感情的な意味を持つ単語が存在する。

従って、感情辞書は、名詞、形容詞、形容動詞、及び動詞の全て、または名詞、形容詞、形容動詞、及び動詞の一部から構成される複数の感情語と、各感情語に対応するポジティブ、ネガティブ、及びニュートラルの感情のいずれか１つとを対応させて構成するのが好ましい。

上記の感情推定部１８は、データベース２０に登録されたポジティブ、ネガティブ、及びニュートラルの感情の各々に応じて登録された複数の応答用の単語で構成された発話用辞書に基づいて、感情推定部１８で推定された感情と同一の感情を表すいずれか１つの応答用の単語を選択し、選択した単語による発話を応答として生成する発話生成部２２に接続されている。発話生成部２２は、応答を音声で出力するスピーカ２４に接続されている。

データベース２０には、「へーすごい」及び「へーいいなぁ」等のポジティブな感情に対応した応答用の単語、「それは最悪だね」及び「げー最低」等のポジティブな感情に対応した応答用の単語、「それでそれで？」等のポジティブでもネガティブでもないニュートラルな感情に対応した応答用の単語を、感情に対応させた発話用辞書が登録されている。

次に本実施の形態のシステム（対話処理装置）のユーザとの対話の処理手順について図２のフローチャートを参照して説明する。このフローチャートは、発話認識部１４、感情推定部１８、及び発話生成部２２の処理をまとめて記載したものであり、本実施の形態では、発話認識部１４、感情推定部１８、及び発話生成部２２を各々別々のコンピュータで構成することもできるが、別々のコンピュータに代えて、図２の処理を実行する１つのコンピュータで構成することもできる。

以下では、次の対話例１の対話を行なう場合を例にして説明する。
対話例１
ユーザ「週末に家族で温泉に行ったよ。」
システム「よかったね。」
ユーザ「混雑していたけど紅葉も見頃で素敵だったよ。」
システム「うわぁすごい」
また、感情語辞書の上記の対話例１に関連する部分を図５に示し、発話用辞書の上記の対話例に関連する部分を図６に示す。図５に示すように、感情語辞書には、「週末」、「家族」、「温泉」、「紅葉」、「見頃」、及び「素敵」の各単語が、ポジティブの感情を示す単語として登録され、「混雑」及び「渋滞」の各単語がネガティブの感情を示す単語として登録され、単語「行く」がニュートラルの感情を示す単語として登録されている。なお、感情語辞書の各単語は、検索がし易いように品詞毎に登録されている。

また、図６に示すように、発話用辞書には、ポジティブな感情を示す応答語として「よかったね。」、「ヘーすごい。」、「うわぁすごい」、及び「へーいいなぁ」の単語が登録され、ネガティブな感情を示す応答語として「大変だったね。」、「大丈夫？」、及び「げー最悪だね。」の単語が登録され、ニュートラルな感情を示す応答語として「それでそれで？」及び「ほぉ」の単語が登録されている。

まず、ポジティブの単語の個数をカウントするカウント値Ｐ、ネガティブの単語の個数をカウントするカウント値Ｎ、及びポジティブでもネガティブでもないニュートラルの単語の個数をカウントするカウント値Ｎｅ等のデータの初期化を行なう（ステップ１００）。

ユーザが発話するとユーザの発話はマイクロホン１２から入力され、マイクロホン１２から入力されたユーザの発話は、発話認識部１４により認識用辞書を用いて音声認識される（ステップ１０２）。音声認識の方法は従来と同様であり、ユーザが、対話例１に示すように、「週末に家族で温泉に行ったよ。」と発話した場合には、図４に示すように、「週末」「に」「家族」「で」「温泉」「に」「行っ」「た」「よ」の形態素列が認識されると共に、各形態素に対応する品詞が認識される。

音声認識の結果は感情推定部１８に入力され、感情推定部で感情語辞書を用いて発話の感情が認識される（ステップ１０４）。

感情推定部での感情推定ルーチンについて図３を参照して説明する、ステップ１１０では、発話認識部で認識された各形態素列から自立語及び自立語の原形を抽出する。対話例１では「週末」「に」「家族」「で」「温泉」「に」「行っ」「た」「よ」の形態素列に対して、「週末」、「家族」、及び「温泉」の自立語、及び「行く」という自立語の原形が抽出される。

次のステップ１１２及びステップ１１６では、感情語辞書の認識された品詞に対応する部分を検索して、各自立語及び自立語の原形がポジティブ、ネガティブ、及びニュートラルのいずれであるかが判断され、ステップ１１４、ステップ１１８、及びステップ１２０の各々において、自立語及び自立語の原形がポジティブと判断されたときにはカウント値Ｐ、自立語及び自立語の原形がネガティブと判断されたときにはカウント値Ｎ、自立語及び自立語の原形がポジティブでもネガティブでもないニュートラルと判断されたときにはカウント値Ｎｅを各々１ずつインクリメントする。これにより、ポジティブの認識単語（抽出された自立語及び自立語の原形）の個数、ネガティブの認識単語の個数、及びニュートラル認識単語の個数が各々カウントされる。

ステップ１２２では、認識単語全てについて感情を判断し、カウントが終了したか否かを判断する。カウントが終了していないと判断された場合は、ステップ１１２に戻って、上記の処理を繰り返し、カウントが終了したと判断された場合には、ステップ１２４においてカウント値が最も大きい値に対応する感情がユーザ発話の感情であると推定し、推定した感情を示す情報を出力し、発話生成部２２に入力する。

上記の対話例１では、各認識語の感情は「週末＝ポジティブ」、「家族＝ポジティブ」、「温泉＝ポジティブ」、及び「行く＝ニュートラル」であるので、カウント値Ｐ＝３、カウント値Ｎ＝０、カウント値Ｎｅ＝１とカウントされ、最大値３を示すカウント値に対応するポジティブの感情がユーザの感情であると推定され、推定された感情を示す情報が出力される。

発話生成部２２では、応答用の複数の単語の中から、発話用辞書に基づいて感情推定部１８で推定された感情に対応する単語をランダムに１つ選択し、次の発話を促すような応答ようの発話、例えば「よかったね。」を生成して、スピーカ２４から出力する。

システムの応答に対する次のユーザ発話に対しても上記と同様に音声認識を行い、音声認識の結果から自立語及び自立語の原形を抽出すると、「混雑」、「紅葉」、「見頃」、「素敵」の自立語が抽出され、カウント値Ｐ＝３、カウント値Ｎ＝１、カウント値Ｎｅ＝０とカウントされるので、感情推定結果はポジティブになる。そして、発話生成部で発話用辞書からランダムに発話が選択され、スピーカから「うわぁすごい」の発話が応答としてが出力される。

一方、上記の対話例１とは異なり、感情推定結果がネガティブの場合には、「大変だったね」または「大丈夫？」等の応答用の発話がランダムに１つ選択されて出力され、感情推定結果がニュートラルの場合には「それでそれで？」または「ほぉ」がユーザの発話の続きを促す応答用の発話として選択されてスピーカから出力される。

ここで、応答用の発話「それでそれで？」は、陽に対話の続きを促す応答であるが、「ほぉ」という応答も暗に発話を促す効力を持っている。「ほぉ」は、一般的には感心した場合に用いる相槌であるが、システムが「ほぉ」と発話することで、ユーザの発話内容にシステムが興味を持ったと感じ、ユーザは次の発話を継続する。このようにして、ユーザから多くの会話を引出すことができる。

次に、第２の実施の形態について説明する。第２の実施の形態は、上記の第１の実施の形態の感情推定部において、感情語の個数をカウントすることなく、発話中の最終感情語に基づいて感情を推定するようにしたものであるので、第１の実施の形態と同一部分については説明を省略する。

日本語では、発話末に近い部分で発話を支配する意味を表現することが多い。したがって、この変形例では、１つの発話中に複数の感情語が含まれている場合には、上記のように感情語の個数をカウントすることなく、より後に現れる感情語を優先し、最後に現れる感情語に基づいて、ユーザの発話の感情を推定する。

例えば、「温泉は気持ち良かったけど、人が多くて大変だった。」というユーザの発話があり、感情語辞書に、「温泉＝ポジティブ」、「気持ち良い＝ポジティブ」、及び「大変だ＝ネガティブ」の感情語と感情との対応が登録されていた場合について説明すると、ユーザの発話末に近い感情語である「大変だった」を優先し、発話全体の感情を「ネガティブ」と推定する。

また、「週末温泉行って楽しかったよ。」、「温泉が気持ち良かったよ。」、「ピアノの演奏聞きに行ったんだけど素敵だったよ」の発話に対しては、「楽しい」、「気持ち良い」、及び「素敵」の感情語が発話末に近い位置に存在しているので、いずれの発話もポジティブの感情と推定される。

また、「一人ぼっちで心細かったよ。」、「久々に友達に会ったら、冷たくされて悲しかったよ。」、「講演会聴けなくて残念だったよ。」の発話に対しては、「心細い」、「悲しい」、及び「残念」の感情語が発話末に近い位置に存在しているので、いずれの発話もネガティブの感情と推定される。

そして、「温泉にいったよ。」、「友達に会ったよ。」、及び「講演会聞けなかったよ。」の発話に対しては、発話末に近い位置に存在する語がポジティブかネガティブかが区別できないので、ニュートラルの感情と推定される。

次に、本発明の第３の実施の形態について説明する。本実施の形態は、第１の実施の形態に、ユーザの動作及び表情を認識し、認識した感情に応じた動作及び表情で応答する部分を付加したものであるので、第３の実施の形態において第１の実施の形態と対応する部分については同一の符号を付して説明を省略する。

図７に示すように、本実施の形態では、ユーザの発話を入力するマイクロホン１０に加えて、ユーザを撮影するカメラ３０が設けられている。カメラ３０は、データベース３２に記憶された動作認識モデルに基づいて画像認識を行なう画像認識部３４に接続されている。画像認識部３４は、データベース３６に登録された感情辞書に基づいてユーザの感情を推定する感情推定部３８に接続されている。

感情辞書は、第１の実施の形態で説明した感情語と感情語に対応した感情とを対応させた組を複数個備えた感情語辞書、ユーザの動作とポジティブ、ネガティブ、及びニュートラルの感情のいずれか１つとを対応させた組を複数個備えた動作辞書、及びユーザの表情とポジティブ、ネガティブ、及びニュートラルの感情のいずれか１つとを対応させた組を複数個備えた表情辞書から構成されている。

ポジティブの動作としては、例えば、ユーザが笑ったり胸を張ったりする動作を用いることができ、ネガティブの動作としては、例えば、ユーザが悲しんだり肩を落としたりする動作を用いることができる。また、どちらでもない動作としては、ユーザの感情を表さない動作が用いられる。

感情推定部３８には、第１の実施の形態で説明した発話認識部１４が接続されている。また、感情推定部３８は、第１の実施の形態で説明した発話生成部２２に接続されると共に、動作生成モデルを記憶したデータベース４０が接続された動作生成部４２に接続されている。この動作生成部４２は、動作提示部４４に接続されている。

本実施の形態では、マイクロホン１０で集音されたユーザの発話が発話認識部１４に入力されると共に、カメラ３０撮影されたユーザの画像データが画像認識部３４に入力される。発話認識部１４では、上記の第１の実施の形態で説明したのと同様に、マイクロホン１０からの入力とデータベース１２に記憶された認識用辞書とを用いてユーザの発話を認識し、感情推定部３８に出力する。

一方、画像認識部３４では、データベース３２に記憶された動作認識モデルを用いてユーザが発話しているときの動作及び表情を認識し、認識した動作及び表情を感情推定部３８に出力する。

感情推定部３８では、認識されたユーザの発話、認識されたユーザの動作及び表情、及びデータベースに登録されている感情辞書を用いて、ユーザの発話、及びユーザの動作及び表情が、ポジティブ、ネガティブ、及びニュートラルのいずれかの感情であるかを推定する。感情辞書には、感情語と感情との対応、動作と感情との対応、及び表情と感情との対応の各組が複数個登録されているので、発話、動作、及び表情のいずれも同じ感情を表している場合に、ユーザの感情はこの同じ感情であると推定する。ユーザ発話の感情は、第１及び第２の実施の形態と同様に推定することができ、動作及び表情による感情は、感情辞書に登録されている動作及び表情に対応する各々の感情を読み出すことにより推定することができる。なお、発話、動作、及び表情のいずれか２つが同じ感情を表している場合に、この同じ感情がユーザの感情であると推定するようにしてもよい。

感情推定部３８で推定されたユーザの感情は、発話生成部２２及び動作生成部４２の各々に入力される。動作生成部４２では、上記と同様に、推定された感情に対応する応答用の発話をデータベース２０の応答用辞書から選択することにより発話を生成し、スピーカ２４から出力する。

また、動作生成部４２では、データベース４０に登録された動作生成モデルから、推定された感情に対応する動作を生成する。すなわち、推定された感情がポジティブであればポジティブの動作を生成し、推定された感情がネガティブであればネガティブの動作を生成し、ニュートラルであればどちらでもない動作を生成する。

動作生成部４２で生成された動作を示すデータは、少なくとも頭部、胸部、及び腕を供えたロボット、またはアニメーションのキャラクタを表示するＬＣＤ等のディスプレイで構成された動作提示部４４に入力され、動作提示部４４において推定された動作が提示される。

ポジティブの動作としては、例えば、ロボットやアニメーションのキャラクタが笑ったり胸を張ったりする動作を用いることができ、ネガティブの動作としては、例えば、ロボットやアニメーションのキャラクタが悲しんだり肩を落としたりする動作を用いることができる。どちらでもない動作としては、ロボットやアニメーションのキャラクタが、感情を表さない動作が用いられる。

なお、上記では、動作及び表情を推定し、動作を提示する例について説明したが、表情、または動作及び表情を提示してもよく、動作または表情を推定し、動作及び表情の少なくとも一方を提示するようにしてもよい。

次に本発明の第４の実施の形態について説明する。本実施の形態は、図８に示すように、第１の実施の形態の発話認識部と感情推定部との間に、述語判定部５２を接続したものであるので、第４の実施の形態において第１の実施の形態と対応する部分については同一の符号を付して説明を省略する。

この述語判定部５２には、述語判定モデルが登録されたデータベース５０が接続されている。この述語判定モデルは、動詞及び形容詞等の品詞情報、連用形等の活用形情報、単語の位置情報、及び単語間の係りうけ情報等を用いて作成されている。

述語判定部５２では、発話認識部１４で認識された形態素列と述語判定モデルとに基づいて、ユーザの発話の述語部分を判定し、述語部分が判定された時点で、発話認識部１４で認識された述語部分までの形態素列を感情推定部１８に入力し、第１の実施の形態と同様にして感情を推定し、推定した感情に対応する応答をスピーカから出力する。

第１の実施の形態では、ユーザの発話が終了していない状態で感情が推定され、スピーカから応答が発話される現象が発生する可能性があるが、本実施の形態では、対話処理システムが、述語で区切られた単位で発話の感情を推定し応答するので、ユーザとシステムとの発話のやり取りを自然な状態で行なうことができる。

以下、述語として「行ってきたよ。」が含まれる発話に対して述語部分を判定してポジティブの発話を応答した場合の対話例２と、述語が含まれずにどちらでもない発話を応答した場合の対話例３におけるユーザとシステムとのやり取りの例を示す。
対話例２
ユーザ「この前の週末、家族で、岐阜の、えっと、ほら、飛騨高山に行ってきたよ。」
システム「へー、いいなぁ。」
対話例３
ユーザ「この前の週末、家族で、岐阜の、えっと、」
システム「おっしゃる意味が良く分かりません。」
対話例２では、ユーザとシステムとの発話のやり取りが自然な状態で行なわれているが、対話例３ではユーザの発話が終了していない状態でシステムから応答が出力され、ユーザとシステムとの発話のやり取りが不自然な状態になっている。

次に本発明の第５の実施の形態について図９を参照して説明する。本実施の形態は、第１の実施の形態の感情推定部１８に、対話の履歴を記憶して管理する対話履歴管理部５４を接続し、対話履歴に合わせて感情語に対する応答を変更するようにしたものであるので、第５の実施の形態において第１の実施の形態と対応する部分については同一の符号を付して説明を省略する。

感情推定部１８では、ユーザの発話がポジティブまたはネガティブと推定された場合でも推定された感情をそのまま発話生成部２２に出力することなく、対話履歴管理部５４に記憶されている前回の対話の履歴を参照し、推定された感情と共に感情の度合いを表す情報を発話生成部２２に出力する。推定された感情及び感情の度合いを示す情報は、対話履歴として対話履歴管理部５４にも記憶され、対話履歴が更新される。

発話生成部２２では、推定された感情と感情の度合いを表す情報とに基づいて、ポジティブの感情の度合いまたはネガティブの感情の度合いが徐々に強くなる発話を生成し、スピーカから出力する。

本実施の形態では、感情の度合いが徐々に変化するように応答することができるので、ユーザが一度ポジティブの発話をしただけで、感情が過剰な応答が出力さるのを防止することができると共に、対話の進行に連れてより強い感情の応答を出力することができる。

以下、ポジティブの感情の度合いが徐々に強くなる応答を行なった対話例４を示す。この対話例４では、※１の応答より※２の応答で強い感情を表現し、※２の応答より※３の応答で更に強い感情を表現している。
対話例４
ユーザ「この前の週末、家族で、岐阜の、えっと、ほら、飛騨高山に行ってきたよ。」
システム「よかったね。」※１
ユーザ「温泉があってね、すごく気持ちよかったよ。」
システム「ヘー、すごーい。」※２
ユーザ「ちょうど紅葉も見頃だったしね。」
システム「わあー、すごい、よかったねぇ。」※３
なお、上記では対話履歴管理部５４を感情推定部１８に接続する例について説明したが、対話履歴管理部５４は、感情推定部１８に接続することなく、発話生成部に接続し、発話生成部２２において、対話履歴管理部５４に記憶された対話履歴に基づいて、ポジティブの感情の度合いまたはネガティブの感情の度合いが徐々に強くなる発話を生成するようにしてもよい。

上記第４及び第５各実施の形態では、第３の実施の形態のように感情及び表情のいずれか１つを推定し、感情及び表情のいずれか１つを提示する部分を付加するようにしてもよい。

以上説明した各実施の形態によれば、システムがユーザの感情を推定して応答しているので、システムが推定した感情に基づいてユーザの感情に同調することにより、ユーザはシステム自身がユーザに共感していると感じる。したがって、ユーザはシステムがユーザ自身に共感していると感じる結果、ユーザとシステムとの間に信頼感が生じ、機械的なやり取りだけではない感情的な対話を実現することができる。

第１の実施の形態を示すブロック図である。第１の実施の形態対話処理ルーチンを示すのフローチャートである図２の感情推定処理の詳細を示すフローチャートである。音声認識結果の例を示す図である。認識用辞書の例を示す図である。発話用辞書の例を示す図である。第３の実施の形態を示すブロック図である。第４の実施の形態を示すブロック図である。第５の実施の形態を示すブロック図である。

符号の説明

１０マイクロホン
１２、１６、２０、３２、３６、４０、５０データベース
１２マイクロホン
１４発話認識部
１８感情推定部
２２発話生成部
２４スピーカ
３０カメラ
３４画像認識部
３８感情推定部
４２動作生成部
４４動作提示部
５２述語判定部
５４対話履歴管理部

Claims

入力されたユーザの発話を認識するユーザ発話認識手段と、
前記ユーザ発話認識手段で認識されたユーザの発話が意味する感情を推定する感情推定手段と、
推定した感情と同一の感情を表す応答用の発話を生成する発話生成手段と、
前記発話生成手段で生成された発話を合成して出力する音声合成手段と、
を含む対話処理装置。
入力されたユーザの発話を認識するユーザ発話認識手段と、
前記ユーザの動作及び表情の少なくとも１つを認識する動作認識手段と、
前記ユーザ発話認識手段で認識されたユーザの発話、及び前記動作認識手段で認識されたユーザの動作及び表情の少なくとも１つを用いて、ユーザの発話が意味する感情を推定する感情推定手段と、
推定した感情と同一の感情を表す応答用の発話を生成する発話生成手段と、
推定した感情と同一の感情を表す応答用の動作及び表情の少なくとも１つを生成する動作生成手段と、
前記発話生成手段で生成された発話を合成して出力する音声合成手段と、
前記動作生成手段で生成された動作及び表情の少なくとも１つを提示する動作提示手段手段と、
を含む対話処理装置。
前記感情推定手段は、好ましい感情状態を表すポジティブ、好ましくない感情状態を表すネガティブ、及びポジティブでもネガティブでもない感情状態を表すニュートラルの３つの状態に分類して、ユーザの発話が意味する感情を推定する請求項１または請求項２記載の対話処理装置。
前記感情推定手段は、好ましい感情状態を表すポジティブ、好ましくない感情状態を表すネガティブ、及びポジティブでもネガティブでもない感情状態を表すニュートラルのいずれか１つと感情語とを対応させて複数組記憶した感情語辞書を用いて、ユーザの発話が意味する感情をポジティブ、ネガティブ、及びニュートラルのいずれか１つで推定し、
前記発話生成手段は、ポジティブ、ネガティブ、及びニュートラルのいずれか１つに対応させて複数の発話語を記憶した発話辞書を用いて、前記感情推定手段で推定されたポジティブ、ネガティブ、及びニュートラルのいずれか１つに対応する１つの応答用の発話を生成する請求項１〜請求項３のいずれか１項記載の対話処理装置。
前記ユーザ発話認識手段で認識されたユーザの発話の述語部分を判定する述語判定手段を更に含み、
前記感情推定手段は、前記述語判定手段で判定された述語部分を区切りとして、前記ユーザ発話認識手段で認識されたユーザの発話が意味する感情を推定する請求項１〜請求項４のいずれか１項記載の対話処理装置。
前記ユーザとの間の対話履歴を記憶する対話履歴記憶手段を更に含み、
前記発話生成手段は、前記発話履歴に基づいて、推定した感情と同一の感情を意味し、かつ感情の度合いが徐々に変化する応答用の発話を生成する請求項１〜請求項５のいずれか１項記載の対話処理装置。
感情推定手段は、１つの発話中に感情語が複数含まれる場合には、該発話中の最終感情語に基づいて感情を推定するか、または同じ感情を示す感情語の個数に基づいて、ユーザの発話が意味する感情を推定する請求項１〜請求項６のいずれか１項記載の対話処理装置。