JP6709558B2

JP6709558B2 - 会話処理装置

Info

Publication number: JP6709558B2
Application number: JP2016093766A
Authority: JP
Inventors: 生聖渡部; 加来　航; 航加来; 和泉近藤; 阿れ初鹿野; 惠司原田
Original assignee: National Center for Geriatrics and Gerontology; Toyota Motor Corp
Current assignee: National Center for Geriatrics and Gerontology; Toyota Motor Corp
Priority date: 2016-05-09
Filing date: 2016-05-09
Publication date: 2020-06-17
Anticipated expiration: 2036-05-09
Also published as: JP2017204023A

Description

本発明は、ユーザと音声会話をするための会話処理装置に関する。

ユーザとロボットが音声で対話する音声対話システムが研究されている。対話システムにおいて、正確な対話知識が大量のデータから学習可能という観点から、常識的な汎用知識に基づいて応答生成する事が行われている。この応答生成方法によると、同じ発話からは全てのユーザに同一の返答が返されることとなり、タスク遂行型の対話（例えば道案内）には、相性がよく、雑談型（ノンタスク）の対話には物足りない場合がある。より自然な対話を実現するために、ユーザを特定してユーザに合わせた応答内容を決定する方法がある。特許文献１には、ユーザとの会話の話題を記憶し、会話の中からユーザのプライベートな情報を取得してユーザと会話するための応答文を作成する会話処理装置が記載されている。この会話処理装置は、更に、他の装置と通信してユーザのプライベートな情報を取得し、プライベートな情報を基に選択した話題に関する情報を記憶し、この情報に基づいて応答文を作成することができる。

特開２００１−１８８７８７号公報

特許文献１に記載された会話処理装置によると、応答文の作成の際にプライベートな情報を基に話題を選択しているが、ユーザの発話内容との関連性を評価していないため、ユーザの過去の発話内容に応じたユーザ固有の応答文の生成が行えないという課題がある。
本発明は、ユーザの発話内容とユーザの過去の発話内容との関連性を評価し、ユーザに対する固有の応答文を生成することができる会話処理装置を提供することを目的とする。

本発明は、ユーザと会話を行う会話処理装置であって、
前記ユーザを特定するユーザ特定手段と、
前記ユーザの発話をテキストデータとして認識する発話認識手段と、
前記発話を前記ユーザ毎に記録する発話記録手段と、
認識された前記発話の前記テキストデータからキーワードを抽出するキーワード抽出手段と、
抽出された前記キーワードと前記記録手段に記録されている特定された前記ユーザの単語との関連度を前記キーワードの前後に連続する会話文に出現するそれぞれの単語が共起する関係に基づいて評価し、前記関連度が所定値以上に高い関連単語を抽出する関連単語抽出手段と、
抽出された前記関連単語を用いて応答文を生成する応答文生成手段と、を有する、
会話処理装置である。

本発明にかかる会話処理装置によると、ユーザの発話内容とユーザの過去の発話内容との関連性を評価し、ユーザに対する固有の応答文を生成することができる。

本発明の実施形態にかかる会話処理装置の構成を示すブロック図である。会話処理装置においてユーザを特定し、ユーザの発話からキーワードを抽出する処理を示した図である。キーワードと発話ログとから関連単語を抽出する処理を示した図である。抽出された関連単語から応答文を生成する処理を示した図である。会話処理装置の変形例の構成を示すブロック図である。

以下、図面を参照しつつ、本発明にかかる会話処理装置の実施形態について説明する。

図１に示されるように、会話処理装置１は、ユーザからの発話音声Ｍを収集してユーザに対する固有の応答文Ａを生成する装置である。ユーザが発話すると、ユーザ特定手段２は、発話音声Ｍを発しているユーザを特定する。ユーザの特定方法は、音声による発話音声特徴を用いるものや、顔認証等のマルチモーダルの特徴を用いたものであっても良い。発話認識手段３は、ユーザの発話音声を入力し、発話をテキストデータに変換する。

ここで、発話認識手段３は、入力された発話に含まれる全て又は一部の単語をテキストデータとして抽出する。一部の単語を抽出する場合には、発話認識手段３は、予め定められた基準に基づいて重要性の高い単語を抽出してもよい。発話認識手段３は、テキストデータを発話記録手段４に出力し、テキストデータは発話記録手段４に記憶される。発話記録手段４は、特定されたユーザの発話履歴を特定の発話単位で記録する。

図２に示されるように、例えば、ロボットより「明日は休日ですね」と問いかけられて、ユーザＡが「ちょうど晴れらしいね」と発話が返ってきた場合を考える。発話記録手段４は、音声認識結果をユーザ毎に、かつユーザの発話単位毎に記録する。つまり、ユーザ発話ログには、過去のユーザ発話履歴に今回の発話が追加記録される。ユーザＡの発話の音声認識結果より、キーワードとして名詞（この例では「晴れ」）を抽出する。キーワードの設定方法として、品詞（名詞、動詞等）予め設定する既知の単語等が考えられる。

発話認識手段３は、テキストデータを発話記録手段４に出力する際、テキストデータをキーワード抽出手段５にも出力する。キーワード抽出手段５は、テキストデータに基づいて対話内容に関連する特定のキーワードを抽出する。ここで、キーワード抽出手段５は、対話内容に含まれる単語のうち、一連の対話の話題に関した重要性が高い特定の単語をキーワードとして抽出する。キーワード抽出手段５は、抽出されたキーワードを関連単語抽出手段６に出力する。

関連単語抽出手段６は、キーワード抽出手段５から入力されたキーワードと、発話記録手段４に記憶されているユーザの発話の単語との関連性を評価するための関連度を評価する。関連度は、抽出されたキーワードを用いて、ユーザ発話ログ中の単語共起スコアＳを計算することにより評価する。単語共起スコアＳは、連続する会話文に出現するそれぞれの単語が共起する関係に基づいて計算される。単語共起スコアＳは、例えば、探索範囲を３個の連続文として設定した場合、以下の式によって求められる。

ここで、Ｃは頻度、ｗは単語、ｋは探索範囲の最大値を示している。
関連単語抽出手段６は、単語共起スコアＳに基づいて関連度が所定値以上に高い関連単語を抽出する。

図３に示されるように、例えば、ユーザＡが
（１）今月はずっと晴れ続きだった。
（２）新しくルアーを買って、釣りに行った。
（３）ルアーは１万円もしたよ。
という３個の連続した文を発話した場合、発話中のそれぞれの単語について単語共起スコアＳが計算される。例えば、今月：０．０１、ルアー：０．０５、釣り：０．１２、１万円：０．０１というスコアが与えられる。ここで、閾値を０．０５とした場合「釣り」と「ルアー」と２個の単語が選択される。その後、関連単語抽出手段６は、抽出された関連単語を応答文生成手段７に出力する。

図４に示されるように、応答文生成手段７は、関連単語を発話向けに整形する。即ち、応答文生成手段７は、関連単語を用いて自然な応答文を生成する。応答文生成手段７は、関連単語を用いて予め用意されている応答テンプレートに当てはめる。応答テンプレートは、語尾に発話文らしくなる特定語を付加することなどが考えられる。この例では、動詞性の名詞「釣り」に「〜ができますね」を挿入することとする。この語尾は、カテゴリ（固有名詞、時間名詞など）に応じて変更することができる。

応答文生成手段７は、生成された応答文を発話手段８に出力する。発話手段８は、応答文を発話音声Ａに音声合成して再生する。発話手段８は、このように生成した応答文を音声合成、再生することで「釣りができますね」と応答することができる。

上述したように会話処理装置１によると、ユーザが発話した場合、ユーザの発話ログはユーザ毎に異なっているため、例えば、ユーザＡでは、「釣りができますね」と応答文を生成することができ、他のユーザＢに対しては「洗濯ができますね」というように個人に関係が深く、異なる応答生成をすることができる。即ち、会話処理装置１によると、ユーザの過去の発話内容に応じたユーザ固有の応答文の生成を行うことができる。

尚、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、ユーザの発話内容を更に分類して個人に特有な応答生成を行ってもよい。以下の説明では、上記実施形態と同一の構成については同一の名称及び符号を用い、重複する説明については適宜省略する。

図５に示されるように、会話処理装置２０は、ユーザの発話履歴から話題領域を推定する話題分類処理手段２１と、ユーザの発話履歴を話題領域毎に分類し、話題領域毎に頻出単語を記録する話題領域別頻出単語データベース２２とを更に有する。関連単語抽出手段６では、抽出されたキーワードと話題領域別頻出単語データベースから関連単語を抽出する。関連単語の抽出において、キーワード抽出処理の自立語ベクトルｖ１と、話題領域の単語（自立語）ベクトルｖ２とを算出し、ｖ１とｖ２との類似度（コサイン類似度）が高くなる話題領域を決定する。その後、話題領域内の関連単語を抽出する。その後、応答文生成手段７で関連単語を発話向けに整形する。

上述したように会話処理装置２０によると、ユーザ自身の発話ログが応答生成のための知識データベースとなっているため、誰でも同じ応答とならずにユーザに特有な応答生成をすることができる。例えば、「明日は晴れだね」というユーザの発話に対して会話処理装置２０は、ユーザＡに対して「洗濯ができるね」と応答し、他のユーザＢに対しては、「釣りに行けるね」というようにユーザ毎に異なる応答生成をすることができる。

上述の実施形態では、本発明をハードウェアの構成として説明したが、本発明は、これに限定されるものではない。本発明は、任意の処理を、ＣＰＵ（Central Processing Unit）にコンピュータプログラムを実行させることにより実現することも可能である。

上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ（Read Only Memory）、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、ＤＶＤ（Digital Versatile Disc）、ＢＤ(Blu-ray(登録商標) Disc)、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

１会話処理装置
２ユーザ特定手段
３発話認識手段
４発話記録手段
５キーワード抽出手段
６関連単語抽出手段
７応答文生成手段
８発話手段
２０会話処理装置
２１話題分類処理手段
２２話題領域別頻出単語データベース
Ａ応答文発話音声
Ｍ発話音声

Claims

ユーザと会話を行う会話処理装置であって、
前記ユーザを特定するユーザ特定手段と、
前記ユーザの発話をテキストデータとして認識する発話認識手段と、
認識された前記発話の前記テキストデータを前記ユーザ毎に記録する発話記録手段と、
認識された前記発話の前記テキストデータからキーワードを抽出するキーワード抽出手段と、
抽出された前記キーワードと前記発話記録手段に記録されている特定された前記ユーザの単語との関連度を前記キーワードと前記キーワードの前後に連続する会話文に出現するそれぞれの単語との共起度に基づいて評価し、前記関連度が所定値以上に高い関連単語を抽出する関連単語抽出手段と、
抽出された前記関連単語を用いて応答文を生成する応答文生成手段と、を有する、
会話処理装置。