JP2016090775A

JP2016090775A - 応答生成装置、応答生成方法およびプログラム

Info

Publication number: JP2016090775A
Application number: JP2014224167A
Authority: JP
Inventors: 佐和樋口; Sawa Higuchi; 生聖渡部; Seisho Watabe
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2014-11-04
Filing date: 2014-11-04
Publication date: 2016-05-23

Abstract

【課題】ユーザの発話内容から推定される感情を考慮して親密度を算出し、親密度に応じた応答を生成する応答生成装置、応答生成方法およびプログラムを提供する。
【解決手段】応答生成装置１００において、まず音声認識部１０１がユーザの発話内容を認識する。感情推定部１０２が発話内容からユーザの感情の出現の有無を推定する。親密度データベース１０４は、発話の回数と感情の出現回数とを累積的に記録する。親密度算出部１０３が発話の回数と感情の出現回数との割合に応じて前記ユーザとの親密度を算出する。応答生成部１０５は、親密度が所定の閾値を上回る場合と、閾値以下である場合とで、異なる応答文を生成する。
【選択図】図１

Description

本発明は応答生成装置、応答生成方法およびプログラムに関し、特に音声対話ロボット等において親密度を考慮した応答を生成する技術に関する。

特許文献１には、感情をこめて対話を行うロボット装置が開示されている。ロボット装置は、親密度データベースを保持しており、ユーザのインタラクションに応じて、ユーザとロボット装置間の親密度を更新する。インタラクションとは、ユーザのロボット装置に対する接し方のことであり、なでる、たたく、食事を提供する、話しかける、ボール遊びをする、等の動作をいう。ロボット装置は、これらのインタラクションが行われた回数や時間に基づいて親密度を更新する。

また、ロボット装置は、ユーザの発話を認識し、対話データベースに定義された応答文一覧表から、親密度に応じた応答文を選択する。そして、ユーザの発話内容から推定される感情に応じて、応答文の語尾や抑揚を変化させた応答を行う。

特開２００４−０９０１０９号公報

特許文献１記載のロボット装置は、インタラクションの回数や時間に基づいて親密度を算出する。しかしながら、親密度の算出に際し、ユーザの発話内容を使用しない。そのため、発話から推定されるユーザの感情を考慮した親密度の算出ができない。

そのため、特許文献１記載のロボット装置における親密度の算出手法は、ユーザの発話内容が定型である場合（タスクが決まっているような場合）など限られた状況においては有効であったが、ユーザとロボット装置とが雑談をするような状況においては、親密度を効果的に算出することができなかった。

本発明にかかる応答生成装置は、ユーザの発話内容を認識する音声認識部と、前記発話内容から前記ユーザの感情の出現の有無を推定する感情推定部と、前記発話の回数と前記感情の出現回数とを累積的に記録する親密度データベースと、前記発話の回数と前記感情の出現回数との割合に応じて前記ユーザとの親密度を算出する親密度算出部と、前記親密度の違いに応じて異なる応答文を生成する応答生成部と、を有する。

すなわち、本発明の応答生成装置は、ユーザの発話内容から感情を推定する。そして、発話中の感情出現率に応じて親密度を算出する。

本発明により、ユーザの発話内容から推定される感情を考慮して親密度を算出し、親密度に応じた応答を生成する応答生成装置、応答生成方法およびプログラムを提供することができる。

実施の形態にかかる応答生成装置１００の構成を示す図である。実施の形態にかかる応答生成装置１００の動作を示す図である。

以下、図面を参照して本発明の実施の形態について説明する。
はじめに、図１のブロック図を用いて、本発明の実施の形態にかかる応答生成装置１００の構成について説明する。

応答生成装置１００は、ユーザの発話を認識して応答を返す装置であり、典型的には音声対話ロボット装置である。応答生成装置１００は、例えば中央処理装置（ＣＰＵ）、揮発性又は不揮発性のメモリ、及び音声入出力装置（マイク、スピーカ、Ａ／Ｄ及びＤ／Ａ変換装置等）等を含み、ＣＰＵがメモリに格納されたプログラムに従って情報処理を実行することにより、目的とする種々の機能を実現することができる。

応答生成装置１００は、少なくとも音声認識部１０１、感情推定部１０２、親密度算出部１０３、親密度データベース１０４、応答生成部１０５を含む。さらに音声合成部１０６を含んでも良い。

音声認識部１０１は、ユーザの発話内容を認識する処理を行う。すなわち、音声認識部１０１は、ユーザの発話を音声データとして入力し、音声データからテキストデータを生成する処理を行う。なお、典型的には、マイクがユーザの発話をアナログ音声信号として取得し、Ａ／Ｄ変換装置がアナログ音声信号を音声データに変換して、音声認識部１０１に入力する。音声データからのテキストデータの生成は、公知の種々の音声認識技術等により実現可能である。

感情推定部１０２は、音声認識部１０１が生成したテキストデータを利用してユーザの発話内容を解析し、ユーザの感情を推定する処理を行う。

親密度算出部１０３は、感情推定部１０２による感情推定結果を含む、ユーザとの対話に関する情報を用いて、ユーザとの親密度を算出する処理を行う。親密度算出部１０３は、ユーザとの対話に関する情報や親密度を後述の親密度データベース１０４に記録する。

親密度データベース１０４は、ユーザとの対話に関する情報や親密度を記録する記憶手段である。

応答生成部１０５は、親密度算出部１０３が算出したユーザとの親密度に応じ、当該ユーザに対する応答文を生成する処理を行う。応答文は、典型的にはテキストデータである。

音声合成部１０６は、応答生成部１０５が生成した応答文を音声データに変換する。テキストデータからの音声データの生成は、公知の種々の音声合成技術等により実現可能である。その後、典型的にはＤ／Ａ変換装置が音声データをアナログ音声信号に変換し、スピーカがアナログ音声信号を音声として出力する。

つぎに、図２のフローチャートを用いて、本発明の実施の形態にかかる応答生成装置１００の動作について説明する。

Ｓ１０１：音声認識
ユーザが、応答生成装置１００に対して発話を行う。音声認識部１０１は、ユーザの発話内容を入力、認識し、テキストデータを生成する。

具体的には、マイクがユーザの発話をアナログ音声信号として取得し、Ａ／Ｄ変換装置がアナログ音声信号を音声データに変換する。音声認識部１０１は、この音声データを入力し、公知の種々の音声認識技術等を利用して音声データをテキストデータに変換する。例えば、ユーザが「昨日、友達にプレゼントをもらったんだ」と発話すると、音声認識部１０１は「昨日、友達にプレゼントをもらったんだ」という内容のテキストデータを生成する。

Ｓ１０２：感情推定
感情推定部１０２が、Ｓ１０１で生成されたテキストデータを解析し、ユーザの感情の推定を試みる。ユーザの発話内容のテキストデータを解析し、ユーザの感情を推定する手法としては種々の方法が公知であり、本発明はいずれかの感情推定手法に限定されるものではない。上記感情推定方法のひとつとして、「Ｗｅｂから獲得した感情生起要因コーパスに基づく感情推定」（徳久良子ほか，言語処理学会第１４回年次大会論文集，２００８年３月）がある。

感情推定部１０２は、上記感情推定処理により、ユーザの感情の種類を推定する。例えば、「昨日、友達にプレゼントをもらったんだ」というテキストデータからは、「嬉しい」という種類の感情が推定される。この他、テキストデータの内容に応じ、「楽しい」、「嫌」等の様々な種類の感情が推定され得る。

Ｓ１０３：親密度算出
親密度算出部１０３が、親密度データベース１０４に既に記録されている情報と、Ｓ１０２で推定されたユーザの感情に基づいて、親密度を算出する。

ここで、親密度データベース１０４は、現在までの、ユーザの発話回数及び感情の種類毎の推定回数（感情出現回数）を累積的に記録している。また、親密度データベース１０４は、過去に算出されたユーザとの親密度を記録していても良い。なお、発話するユーザが複数存在する場合は、親密度データベース１０４は、上記情報をユーザ毎にそれぞれ記録することができる。

親密度算出部１０３は、親密度データベース１０４から、現在までのユーザの発話回数、及び、各感情の種類の出現回数を取得する。ここで、Ｓ１０２において何らかの感情が推定されたならば、当該感情の種類の出現回数を更新（＋１）する。さらに、発話数を更新（＋１）する。そして、親密度算出部１０３は、更新された発話数及び感情出現回数を用いて、例えば以下の算出式により親密度を算出する。
親密度＝感情出現回数／発話回数
例えば、これまでの発話回数が２０回であり、感情の種類として「嬉しい」が１２回、「楽しい」が３回、「嫌」が２回それぞれ推定されている場合、親密度は
（１２＋３＋２）／２０＝０．８５
となる。

この算出式によれば、親密度は０乃至１．０の数値で表される。親密度が１．０に近いほど、ユーザとの親密度が高いことを意味する。

本実施の形態における親密度の算出手法は、発話回数と感情出現回数との割合に応じて決定されることに特徴がある。すなわち、たとえネガティブな感情表現（例えば「嫌」）であっても、感情出現回数が多くなるほど親密度はより高いものと判定される。なお、本発明は上に例示した算出式に限定されるものでなく、発話回数と感情出現回数との割合に応じて親密度を算出するものであれば、他の算出式を採用しても良い。

親密度算出部１０３は、Ｓ１０３において更新された発話回数、感情出現回数を親密度データベース１０４に記録する。Ｓ１０３において算出した親密度を併せて記録しても良い。

Ｓ１０４：親密度はしきい値より高いかを判定
応答生成部１０５は、Ｓ１０３において算出された親密度が、予め定められた閾値を上回っているか否かを判定する。応答生成部１０５は、この判定結果に応じ、ユーザに対する応答内容を変化させる。

Ｓ１０５：応答生成（１）
親密度が閾値を上回る場合、応答生成部１０５は、好ましくは感情表現を織り込んだ応答内容を含む応答文生成する。例えば、推定されたユーザの感情に共感する内容（共感応答）を含む応答文を生成しても良い。さらには、ユーザの話を深堀りするための問い返しを含む応答文を生成しても良い。例えば、ユーザの発話内容から「嬉しい」という感情が推定された場合は、「それは嬉しかったね。」「何を貰ったの？」という応答文を生成することができる。

Ｓ１０６：応答生成（２）
一方、親密度が閾値以下である場合、応答生成部１０５は、Ｓ１０５とは異なる応答内容、好ましくはユーザの感情には関連しない応答内容を含む応答文を生成する。すなわち、推定されたユーザの感情を用いることなく、応答文を生成する。例えば、ユーザの感情に関連しない「へーそうなんだ。」等の応答文、あいづち、又はユーザの発話内容をオウム返しする応答文等を生成することができる。

Ｓ１０５及びＳ１０６のいずれにおいても、応答生成部１０５は、典型的には、図示しない記憶手段が保持する応答文テーブルを参照し、応答文テーブルから適切な応答文を選択することにより、応答文の生成を行うことができる。応答文テーブルは、感情の種類に対応付けられた応答文と、感情の種類に関わらず利用可能な応答文と、をそれぞれ含んでいることが望ましい。応答生成部１０５は、親密度が閾値を上回る場合には、応答文テーブルの中から、ユーザの感情の種類に予め対応付けられた応答文を選択する。例えば、「嬉しい」という感情に対応付けられている、「それは嬉しかったね。」という応答文を選択する。親密度が閾値以下である場合には、応答文テーブルの中から、感情の種類に関わらず利用可能な応答文、例えば「へーそうなんだ。」という文を選択する。

Ｓ１０７：音声合成
音声合成部１０６は、Ｓ１０６で生成された応答文を、公知の音声合成技術等を用いて音声データに変換する。その後、典型的にはスピーカが、Ｄ／Ａ変換された応答文の音声データを音声として出力する。

本実施の形態によれば、応答生成装置１００は、感情推定部１０２によりユーザの発話内容から感情を推定する。そして、親密度算出部１０３により発話中の感情出現率に応じた親密度を算出する。

一般に、ユーザとロボット装置との親密度が高くなるほど、ユーザの発話には感情表現が多く含まれるようになる。この性質を用いることにより、ユーザの発話内容のみを用いて、非接触すなわち自然な形で的確に相手との親密度を測ることができる。また、ユーザとロボット装置との間において、人と人との間のようなより円滑なコミュニケーションを実現することができる。

また、本実施の形態では、応答生成部１０５が、ユーザとの親密度に応じて応答を変化させる。具体的には、親密度が所定の閾値より高ければ応答生成装置１００側による感情表現を増やし、閾値より低ければ親密度が低い場合はオウム返しなど、ユーザの感情に関連しない応答をする。これにより、ユーザの気持ちや親密度に沿った適切な応答をすることができる。

１００応答生成装置
１０１音声認識部
１０２感情推定部
１０３親密度算出部
１０４親密度データベース
１０５応答生成部
１０６音声合成部

Claims

ユーザの発話内容を認識する音声認識部と、
前記発話内容から前記ユーザの感情の出現の有無を推定する感情推定部と、
前記発話の回数と前記感情の出現回数とを累積的に記録する親密度データベースと、
前記発話の回数と前記感情の出現回数との割合に応じて前記ユーザとの親密度を算出する親密度算出部と、
前記親密度の違いに応じて異なる応答文を生成する応答生成部と、を有する
応答生成装置。
前記感情推定部は、前記感情の出現の有無に加えて、前記感情の種類を推定する
請求項１記載の応答生成装置。
前記応答生成部は、前記親密度が所定の閾値を上回る場合、推定された前記感情の種類に対応する応答文を生成する
請求項２記載の応答生成装置。
前記応答生成部は、前記親密度が所定の閾値以下である場合、推定された前記感情の種類に関連しない応答文を生成する
請求項２又は３記載の応答生成装置。
ユーザの発話内容を認識する音声認識ステップと、
前記発話内容から前記ユーザの感情の出現の有無を推定する感情推定ステップと、
前記発話の回数と前記感情の出現回数とを累積的に記録する記録ステップと、
前記発話の回数と前記感情の出現回数との割合に応じて前記ユーザとの親密度を算出する親密度更新ステップと、
前記親密度の違いに応じて異なる応答文を生成する応答生成ステップと、を有する
応答生成方法。
コンピュータに、請求項５記載の方法を実行させるためのプログラム。