JP6295869B2

JP6295869B2 - 応答生成装置、応答生成方法及びプログラム

Info

Publication number: JP6295869B2
Application number: JP2014149365A
Authority: JP
Inventors: 生聖渡部
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2014-07-23
Filing date: 2014-07-23
Publication date: 2018-03-20
Anticipated expiration: 2034-07-23
Also published as: JP2016024384A

Description

本発明は、ユーザに対して応答を行う応答生成装置、応答生成方法及びプログラムに関するものである。

ユーザの音声を認識する音声認識手段と、音声認識手段により認識された音声の構造を解析する構造解析手段と、構造解析手段により解析された音声の構造に基づいて、ユーザの音声に対する応答文を生成し、該生成した応答文を出力する応答出力手段と、を備える応答生成装置が知られている（例えば、特許文献１参照）。

特開２０１０−１５７０８１号公報

しかしながら、上記のような応答生成装置は、音声の構造解析及びその応答文の生成に時間を要し、応答待ちが生じる。このため、対話に違和感が生じる虞がある。

本発明は、このような問題点を解決するためになされたものであり、応答待ちによる対話の違和感を緩和することができる応答生成装置、応答生成方法及びプログラムを提供することを主たる目的とする。

上記目的を達成するための本発明の一態様は、ユーザの音声を認識する音声認識手段と、前記音声認識手段により認識された音声の構造を解析する構造解析手段と、前記構造解析手段により解析された音声の構造に基づいて、前記ユーザの音声に対する応答文を生成し、該生成した応答文を出力する応答出力手段と、を備える応答生成装置であって、複数のキーワードと、該各キーワードの品詞と、付加語尾と、を夫々対応付けた付加情報を記憶する記憶手段と、前記音声認識手段により認識されたユーザの音声から前記キーワード及び該キーワードの品詞を抽出し、前記記憶手段の付加情報に基づいて前記抽出したキーワード及び品詞に対応した前記付加語尾を選択し、前記抽出したキーワードに対して前記選択した付加語尾を付加することで、繰返しの応答文を生成する繰返生成手段と、を備え、前記応答出力手段は、前記音声の構造に基づいた応答文を出力する前に、前記繰返生成手段により生成された繰返しの応答文を出力する、ことを特徴とする応答生成装置である。

本発明によれば、応答待ちによる対話の違和感を緩和することができる応答生成装置、応答生成方法及びプログラムを提供することができる。

本発明の実施形態１に係る応答生成装置の概略的なシステム構成を示すブロック図である。メモリに記憶された付加情報の一例である。本発明の実施形態１に係る応答生成方法の処理フローを示すフローチャートである。本発明の実施形態２に係る応答生成装置の概略的なシステム構成を示すブロック図である。本発明の実施形態２に係る応答生成方法の処理フローを示すフローチャートである。

実施形態１
以下、図面を参照して本発明の実施の形態について説明する。図１は、本発明の実施形態１に係る応答生成装置の概略的なシステム構成を示すブロック図である。本実施形態１に係る応答生成装置１は、ユーザの音声を認識する音声認識部２と、音声の構造を解析する構造解析部と３、ユーザの音声に対する応答文を生成し、出力する応答出力部４と、繰返しの応答文を生成する繰返生成部５と、を備えている。

なお、応答生成装置１は、例えば、演算処理等と行うＣＰＵ（Central Processing Unit）、ＣＰＵによって実行される演算プログラム、制御プログラム等が記憶されたＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）からなるメモリ、外部と信号の入出力を行うインターフェイス部（Ｉ／Ｆ）、などからなるマイクロコンピュータを中心にして、ハードウェア構成されている。ＣＰＵ、メモリ、及びインターフェイス部は、データバスなどを介して相互に接続されている。

音声認識部２は、音声認識手段の一具体例であり、マイク６により取得されたユーザの音声情報に基づいて音声認識処理を行い、ユーザの音声情報をテキスト化し文字列情報として認識する。音声認識部２は、マイク６から出力されるユーザの音声情報から発話区間を検出し、検出した発話区間の音声情報に対して、例えば、統計言語モデルを参照してパターンマッチングを行うことで音声認識を行う。ここで、統計言語モデルは、例えば、単語の出現分布やある単語の次に出現する単語の分布等、言語表現の出現確率を計算するための確率モデルであり、形態素単位で連結確率を学習したものである。統計言語モデルは、上記メモリなどに予め記憶されている。音声認識部２は、認識したユーザの音声情報を構造解析部３及び繰返生成部５に出力する。

構造解析部３は、構造解析手段の一具体例であり、音声認識部２により認識された音声情報の構造を解析する。構造解析部３は、例えば、一般的な形態素解析器を用いて音声認識されたユーザの音声情報を示す文字列情報に対して形態素解析などを行い、文字列情報の意味解釈を行う。構造解析部３は、文字列情報の解析結果を応答出力部４に出力する。

応答出力部４は、応答出力手段の一具体例であり、構造解析部３により解析された音声情報の構造に基づいて、ユーザの音声情報に対する応答文（以下、随意応答文と称す）を生成し、該生成した随意応答文を出力する。応答出力部４は、例えば、構造解析部３から出力される文字列情報の解析結果に基づいて、ユーザの音声情報に対する随意応答文を生成する。そして、応答出力部４は、生成した応答文をスピーカ７を用いて出力する。

より、具体的には、構造解析部３は、文字列情報「トンカツを食べる」において、述語項構造を抽出し、述語「食べる」と格助詞「を」を特定する。そして、応答出力部４は、構造解析部３により特定された述語「食べる」に係り得る格助詞の種類を、述語と格助詞との対応関係が記憶された不足格辞書データベース８の中から抽出する。なお、不足格辞書データベース８は、例えば、上記メモリに構築されている。

応答出力部４は、例えば、「何を食べる」、「どこで食べる」、「いつに食べる」、「誰と食べる」とういう述語項構造を、随意応答文として生成する。さらに、応答出力部４は、上記生成した述語項構造の中で、ユーザの音声と一致しない表層格「を」を除いた、他の述語項構造の中からランダムに選択し、選択した述語項構造を随意応答文とする。応答出力部４は、例えば、「誰と食べたの？」という述語項構造を選択し、随意応答文として出力する。なお、上述した随意応答文の生成方法は一例であり、これに限定されず、任意の生成方法を用いることができる。

ところで、上述したような、音声情報の構造解析、及びその応答文の生成には時間を要し（例えば、３秒程度）、処理コストが高い。このため、応答待ちが生じ、対話に違和感が生じる虞がある。

これに対し、本実施の形態１に係る応答生成装置１において、繰返生成部５は、音声認識部２により認識されたユーザの音声から、繰返しの応答文（以下、繰返応答文と称す）を生成する。そして、応答出力部４は、音声の構造に基づいた随意応答文を出力する前に、繰返生成部５により生成された繰返応答文を出力する。

これにより、繰返応答文は、認識されたユーザの音声をオウム返しで繰り返すだけなので生成時間を要せず（例えば、１秒程度）、処理コストが低い。したがって、上記処理コストが高い随意応答文を出力するまでの応答待ちの間に、処理コストが低い繰返応答文を出力することができる。したがって、応答待ちによって生じる対話の間が大きいことによる対話の違和感を緩和することができる。

繰返生成部５は、音声認識部２により認識された音声情報を、オウム返しを行うための繰返応答文として生成する。ここで、ユーザの音声を全く変えずにそのままオウム返しするよりも、ユーザの音声情報に特定の付加語尾を付加してオウム返しをした方が、より対話の自然性が向上する。例えば、ユーザの発話「海に行ったよ」に対して、応答生成装置１が単にそのまま「海に行ったよ」と応答するよりも、「海かぁ」と応答した方がより対話の自然性が向上する。

したがって、本実施の形態１に係る繰返生成部５は、音声認識部２により認識されたユーザの音声情報からキーワードを抽出し、抽出したキーワードに対して特定の付加語尾を付加することで、繰返応答文を生成する。

例えば、複数のキーワードと、各キーワードの品詞と、付加語尾と、を夫々対応付けた付加情報がメモリに記憶されている。繰返生成部５は、音声認識部により認識されたユーザの音声情報からキーワード及び該キーワードの品詞を抽出する。繰返生成部５は、メモリに記憶された付加情報に基づいて抽出したキーワード及び品詞に対応した付加語尾を選択する。繰返生成部５は、抽出したキーワードに対して選択した付加語尾を付加することで、繰返応答文を生成する。

より具体的には、繰返生成部５は、音声認識部２により認識された音声の文字列情報「トンカツを食べたよ」から、キーワード「トンカツ」及び該キーワードの品詞「名詞」、キーワード「を」及び該キーワードの品詞「助詞」、キーワード「食べた」及び該キーワードの品詞「動詞」、キーワード「よ」及び該キーワードの品詞「助詞」、を抽出する。さらに、繰返生成部５は、抽出したこれらキーワード及び品詞の中から、キーワード「トンカツ」及び品詞「名詞」を選択し、メモリの付加情報に基づいて、抽出したキーワード「トンカツ」及び品詞「名詞」に対応した付加語尾「かぁ」を選択する。ここで、繰返生成部５は、音声認識部２により認識された音声の文字列情報から、上述のように、名詞又は形容詞のキーワードを任意に抽出し、対応した付加語尾を選択する。

図２は、メモリに記憶された付加情報の一例である。図２に示す付加情報において、キーワードがワイルドカード「＊」になっている場合、全てのキーワードが対象となる。したがって、繰返生成部５は、キーワード「トンカツ」及び品詞「名詞」を抽出した場合、付加情報を参照して、付加語尾「かぁ」及び「なんだ」のうちの一方をランダムに選択する。

繰返生成部５は、抽出したキーワード及び品詞に対応する付加語尾が複数存在する場合、予め設定された優先順位に従って選択してもよい。同様に、繰返生成部５は、音声認識部２により認識された音声の文字列情報から、例えば、キーワード「やった」及び品詞「感動詞」を選択した場合、付加情報に基づいて、キーワード「やった」及び品詞「感動詞」に対応する付加語尾「ね」を選択する。なお、キーワードだけでなく、品詞も同時に抽出することで、上記のような「やった」を感動詞の「やった」と動詞「やった」とで区別することができる。

音声認識部２は、例えば、認識したユーザの音声の文字列情報「美味しかった」に、その活用前の原型「美味しい」を付加して、繰返生成部５に出力してもよい。この場合、繰返生成部５は、キーワード「美味しい」及び品詞「形容詞」を抽出する。繰返生成部５は、付加情報に基づいて、キーワード「美味しい」及び品詞「形容詞」に対応する付加語尾「のか」を選択する。

繰返生成部５は、上述のように、キーワード「トンカツ」及び品詞「名詞」を抽出する。そして、繰返生成部５は、付加情報を参照して、キーワード「トンカツ」及び品詞「名詞」に対応する付加語尾「かぁ」をランダムに選択する。最後に、繰返生成部５は、抽出したキーワード「トンカツ」に対して選択した付加語尾「かぁ」を付加することで、繰返応答文「トンカツかぁ」を生成する。ここで、繰返生成部５は、例えば、抽出したキーワードを２回繰返したもの「トンカツ、トンカツ」に付加語尾「かぁ」を付加して繰返応答文「トンカツ、トンカツかぁ」を生成してもよい。これにより、対話のテンポ感が高まり、対話の自然性がより向上する。

上述のように、繰返生成部５は、ユーザの音声情報からキーワード及び品詞を抽出し、付加情報に基づいてキーワード及び品詞に対応した付加語尾を選択し、キーワードに付加語尾を付加するだけの処理で繰返応答文を生成する。したがって、簡易な処理で繰返応答文を生成できるため、処理コストを低く抑えることができる。さらに、ユーザの音声を単にオウム返しするだけでなく、ユーザの音声情報に応じて、適切に付加語尾を付加して多様なオウム返しができるため、対話の自然性をより向上させることができる。

繰返生成部５は、生成した繰返応答文を応答出力部４に出力する。そして、応答出力部４は、構造解析部３から出力される文字列情報の解析結果に基づいて生成した随意応答文の前に、繰返生成部５から出力された繰返応答文をスピーカ７から出力する。このように、処理コストの異なる複数の応答文を並列で生成し、その生成順に応答文を出力する。これにより、対話の連続性を維持してそのテンポを損なわない対話を実現できる。

図３は、本実施形態１に係る応答生成方法の処理フローを示すフローチャートである。
音声認識部２は、マイク６により取得されたユーザの音声情報の音声認識を行い（ステップＳ１０１）、認識したユーザの音声情報を構造解析部３及び繰返生成部５に出力する。

繰返生成部５は、音声認識部２により認識されたユーザの音声情報からキーワード及び該キーワードの品詞を抽出する。繰返生成部５は、メモリに記憶された付加情報に基づいて抽出したキーワード及び品詞に対応した付加語尾を選択する。繰返生成部５は、抽出したキーワードに対して選択した付加語尾を付加することで、繰返応答文を生成する（ステップＳ１０２）。繰返生成部５は、生成した繰返応答文を応答出力部４に出力する。
応答出力部４は、繰返生成部５から出力された繰返応答文をスピーカ７から出力する（ステップＳ１０３）。

上記（ステップ１０２）及び（ステップ１０３）と平行して、構造解析部３は、音声認識部２により認識された音声情報の構造を解析し（ステップＳ１０４）、その文字列情報の解析結果を応答出力部４に出力する。

応答出力部４は、構造解析部３から出力される文字列情報の解析結果に基づいて随意応答文を生成し（ステップＳ１０５）、生成した随意応答文をスピーカ７から出力する（ステップＳ１０６）。

以上、本実施形態１に係る応答生成装置１において、認識されたユーザの音声から繰返応答文を生成し、音声の構造に基づいた随意応答文を出力する前に、繰返応答文を出力する。これにより、処理コストが高い随意応答文を出力するまでの応答待ちの間に、処理コストが低い繰返応答文を出力することができる。したがって、応答待ちによって生じる対話の間が大きいことによる対話の違和感を緩和することができる。

さらに、本実施の形態１に係る応答生成装置１においては、ユーザの音声情報からキーワード及び品詞を抽出し、付加情報に基づいてキーワード及び品詞に対応した付加語尾を選択し、キーワードに付加語尾を付加するだけで繰返応答文を生成する。これにより、簡易な処理で繰返応答文を生成でき、処理コストを低く抑えることができる。したがって、上述のように随意応答文を出力するまでの応答待ちの間に、その繰返応答文を出力することができ、対話の違和感を緩和することができる。さらに、ユーザの音声を単にオウム返しするだけでなく、ユーザの音声情報に応じて、適切に付加語尾を付加して多様なオウム返しができるため、対話の自然性をより向上させることができる。

実施形態２．
図４は、本発明の実施形態２に係る応答生成装置の概略的なシステム構成を示すブロック図である。本実施形態２に係る応答生成装置２０は、上記実施形態１に係る応答生成装置１の構成に加えて、ユーザの音声情報の音韻を分析する音韻分析部２１と、ユーザの音声情報に対する相槌の応答を生成する相槌生成部２２と、を更に備える点を特徴とする。

音韻分析部２１は、音韻分析手段の一具体例であり、マイク６により取得されたユーザの音声情報に基づいてユーザの音声情報の音韻を分析する。例えば、音韻分析部２１は、音声情報の音量レベル変化や周波数変化（基本周波数等）を検出することで、ユーザの音声の切れ目を推定する。音韻分析部２１は、音韻の分析結果を相槌生成部２２に出力する。

相槌生成部２２は、相槌生成手段の一具体例であり、音韻分析部２１から出力される音韻の分析結果に基づいてユーザの音声に対する相槌の応答（以下、相槌応答と称す）を生成する。例えば、相槌生成部２２は、音声情報の音量レベルが閾値以下となったとき、相槌のパターンが記憶された定型応答データベース２３を検索し、ランダムに相槌を選択する。定型応答データベース２３は、「うん。うん。」、「なるほど。」、「ふーん。」などの相槌に用いられる複数のパターンが記憶されている。定型応答データベース２３は、上記メモリなどに構築されている。相槌生成部２２は、生成した相槌応答を応答出力部４に出力する。

応答出力部４は、繰返生成部５により生成された繰返応答文の前に、相槌生成部２２により生成された相槌応答をスピーカ７から出力させる。

例えば、音韻分析部２１は音量レベル変化をリアルタイムに検出できる。また、音韻分析部２１が周波数変化を検出する際の周波数計算量は、パターンパターンマッチングよりも少なく、処理遅延が少ない。このように音韻分析部２１は、処理コストの低い特徴量を用いて音韻分析を行っている。このため、その相槌応答の生成時間は、上記繰返応答文の生成時間より短く（例えば、３００ｍｓｅｃ程度）、処理コストがより低い。

したがって、上記繰返応答文を出力するまでの間に、より処理コストが低い相槌応答を出力することができる。これにより、対話間の繋がりがよりスムーズになり、対話の違和感をより緩和することができる。さらに、処理コストの異なるより多くの応答及び応答文を並列で生成し、その生成順に出力する。すなわち、ユーザの発話に対し、相槌応答、繰返応答文、および随意応答文を連続的に出力する。これにより、対話の連続性をより滑らかに維持しそのテンポ感を損なわないより自然な対話を実現できる。

なお、本実施形態２に係る応答生成装置２０において、上記実施形態１に係る応答生成装置１と同一部分に同一符号を付して詳細な説明は省略する。

以下、応答生成装置２０とユーザとの対話の一例を示す。下記一例において、Ｍは、応答生成装置２０の応答文及び応答であり、Ｕはユーザの発話である。
Ｍ（話題提供）：お昼何を食べたの？
Ｕ：トンカツを食べたよ。
Ｍ（相槌応答）：うん。うん。
Ｍ（繰返応答文）：トンカツ、トンカツかぁ。
Ｍ（随意応答文）：誰と食べたのかな？
Ｕ：友達と食べたよ。
Ｍ（相槌応答）：そうなんだ。
Ｍ（繰返応答文）：友達なんだぁ。
Ｍ（随意応答文）：どこで食べたのかな？
Ｕ：矢場とんで食べたよ。
Ｍ（相槌応答）：なるほど。
Ｍ（繰返応答文）：矢場とんね。
Ｍ（随意応答文）：食べたね。
Ｕ：美味しかったよ。
Ｍ（相槌応答）：ふーん。
Ｍ（繰返応答文）：美味しかったのか。
Ｍ（随意応答文）：それはいいね。○○さん。

上記対話の一例が示すように、ユーザが発話すると、この発話に対して、応答生成装置２０の相槌応答、繰返応答文、及び随意応答文がテンポよく連続し、対話間の繋がりがよりスムーズになることが分かる。また、繰返応答文に付加した付加語尾に多様性を持たせることで、対話の自然性がより向上していることが分かる。

図５は、本実施形態２に係る応答生成方法の処理フローを示すフローチャートである。
音韻分析部２１は、マイク６により取得されたユーザの音声情報に基づいてユーザの音声情報の音韻を分析し（ステップＳ２０１）、その音韻の分析結果を相槌生成部２２に出力する。

相槌生成部２２は、音韻分析部２１から出力される音韻の分析結果に基づいてユーザの音声に対する相槌応答を生成し（ステップＳ２０２）、生成した相槌応答を応答出力部４に出力する。
応答出力部４は、相槌生成部２２から出力された相槌の応答をスピーカ７から出力する（ステップＳ２０３）。

上記（ステップＳ２０１）乃至（ステップ２０３）の処理と平行して、音声認識部２は、マイク６により取得されたユーザの音声情報の音声認識を行い（ステップＳ２０４）、認識したユーザの音声情報を構造解析部３及び繰返生成部５に出力する。

繰返生成部５は、音声認識部２により認識されたユーザの音声情報からキーワード及び該キーワードの品詞を抽出する。繰返生成部５は、メモリに記憶された付加情報に基づいて抽出したキーワード及び品詞に対応した付加語尾を選択する。繰返生成部５は、抽出したキーワードに対して選択した付加語尾を付加することで、繰返応答文を生成する（ステップＳ２０５）。繰返生成部５は、生成した繰返応答文を応答出力部４に出力する。
応答出力部４は、繰返生成部５から出力された繰返応答文をスピーカ７から出力する（ステップＳ２０６）。

上記（ステップ２０５）及び（ステップＳ２０６）の処理と平行して、構造解析部３は、音声認識部２により認識された音声情報の構造を解析し（ステップＳ２０７）、その文字列情報の解析結果を応答出力部４に出力する。

応答出力部４は、構造解析部３から出力される文字列情報の解析結果に基づいて随意応答文を生成し（ステップＳ２０８）、生成した随意応答文をスピーカ７から出力する（ステップＳ２０９）。

以上、本実施形態２において、ユーザの音声情報の音韻を分析し、その分析結果に基づいて、ユーザの音声情報に対する相槌応答を生成し、繰返応答文を出力する前に生成した相槌応答を出力する。これにより、繰返応答文を出力するまでの間に、より処理コストが低い相槌応答を出力することができる。これにより、対話間の繋がりがよりスムーズになり、対話の違和感をより緩和することができる。

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
上記実施形態において、応答出力部４は相槌生成部２２により生成された相槌応答をスピーカ７から出力させているが、これに限られない。応答出力部４は、相槌生成部２２により生成された相槌応答に基づいて、処理負荷の低い任意の応答を行っても良い。例えば、応答出力部４は、振動装置の振動、ライト装置の点灯／点滅、表示装置の表示、ロボットの手足、頭部、胴体など各部の動作などをおこなってもよい。

また、本発明は、例えば、図３及び図５に示す処理を、ＣＰＵにコンピュータプログラムを実行させることにより実現することも可能である。

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ（Read Only Memory）、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory））を含む。

また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

１応答生成装置、２音声認識部、３構造解析部、４応答出力部、５繰返生成部、６マイク、７スピーカ、８不足格辞書データベース、２１音韻分析部、２２相槌生成部、２３定型応答データベース

Claims

ユーザの音声を認識する音声認識手段と、
前記音声認識手段により認識された音声の構造を解析する構造解析手段と、
前記構造解析手段により解析された音声の構造に基づいて、前記ユーザの音声に対する応答文を生成し、該生成した応答文を出力する応答出力手段と、を備える応答生成装置であって、
複数のキーワードと、該各キーワードの品詞と、付加語尾と、を夫々対応付けた付加情報を記憶する記憶手段と、
前記音声認識手段により認識されたユーザの音声から前記キーワード及び該キーワードの品詞を抽出し、前記記憶手段の付加情報に基づいて前記抽出したキーワード及び品詞に対応した前記付加語尾を選択し、前記抽出したキーワードに対して前記選択した付加語尾を付加することで、繰返しの応答文を生成する繰返生成手段と、
を備え、
前記応答出力手段は、前記音声の構造に基づいた応答文を出力する前に、前記繰返生成手段により生成された繰返しの応答文を出力する、ことを特徴とする応答生成装置。