JP4893655B2

JP4893655B2 - 応答生成装置およびプログラム

Info

Publication number: JP4893655B2
Application number: JP2008038814A
Authority: JP
Inventors: 良子堀田; 貴克吉村; 和也下岡; 雄介中野
Original assignee: Toyota Central R&D Labs Inc
Current assignee: Toyota Central R&D Labs Inc
Priority date: 2008-02-20
Filing date: 2008-02-20
Publication date: 2012-03-07
Anticipated expiration: 2028-02-20
Also published as: JP2009198686A

Description

本発明は、ユーザの発話に対する応答を生成する応答生成装置およびプログラムに関する。

ユーザの発話に対してシステムが応答する技術として、例えば、下記特許文献１に記載のように、これまでに認識した音声認識文脈を踏まえて音声認識結果を修正したり、音声認識結果の構文情報から音声認識結果を修正する装置が知られている。

また、下記非特許文献１の論文には、複数の認識候補を用いて応答を検索し、応答を生成する技術が記載されている。例えば、音声認識結果の候補が「トイレはどこですか」と「トイレはありますか」と「食堂はありますか」だった場合には、これらの認識候補に含まれる形態素をすべて用いて（この場合は「トイレ／は／どこ／です／か／あり／ます／食堂」という８形態素）応答を検索する。
特開２００３−２２３１８５号公報「実環境研究プラットホームとしての音声情報案内システムの運用」，電子情報通信学会論文誌

しかしながら、上記特許文献１に記載の技術では、これまで認識された文脈や構文情報を用いたとしても誤認識の修正の精度は十分でなく、適切に誤認識を修正できるとは限らないため、誤認識のまま応答生成して間違った応答を生成する可能性がある。また、誤認識を修正するために処理時間を要してしまうという問題点もある。

また、上記非特許文献１に記載の技術では、複数の認識結果を統合して応答を検索するため、必ずしも適切な応答が生成できるとは限らない。具体的には、上記の例では「トイレ／は／どこ／です／か／あり／ます／食堂」という８形態素を用いて適切な応答を検索しているが、「トイレ」や「食堂」など、本来どちらかしか発話されていないと考えられる認識結果が含まれていると、これらをまとめて認識結果として応答を検索した場合には、「トイレはどこですか？」に対して「食堂の場所は８階です」のような応答を生成してしまう可能性がある。

本発明は上述した問題を解決するためになされたものであり、音声認識結果に対して適切な応答を生成して、誤応答を低減することができる応答生成装置およびプログラムを提供することを目的とする。

上記目的を達成するために、本発明の応答生成装置は、ユーザの発話を認識し、複数の認識候補を生成する認識手段と、前記認識手段で生成された認識候補毎に、該認識候補に含まれる用語を含む応答候補を生成する第１の生成処理、及び前記第１の生成処理で生成した応答候補に、集約が可能な複数の応答候補が存在する場合に、該複数の応答候補を、該複数の応答候補の内容が集約された同一内容の応答候補に生成し直す第２の生成処理を行う生成手段と、前記生成手段で生成された集約後の応答候補から、該集約後の応答候補を生成する基となった認識候補が最も多い応答候補を選択する選択手段と、前記選択手段で選択された応答候補を出力する応答出力手段と、を含んで構成されている。

このような構成によれば、音声認識結果に対して適切な応答を生成して、誤応答を低減することができる。例えば、ユーザ発話の音声認識結果に誤認識が起きた場合でも、本発明では多くの認識候補に対応した応答候補が出力されるため、破綻することなく対話を進行でき、また、音声認識誤りの修正をすることなく、各音声認識候補に対して矛盾の少ない応答を生成することができる。また、複数の応答候補を集約することができ、多くの認識候補に対応可能な応答候補を生成することができる。従って、該応答候補から出力すべき応答候補を選択することで、誤応答を低減することができる。

また、本発明の他の態様の応答生成装置は、ユーザの発話を認識し、複数の認識候補を生成する認識手段と、前記認識手段で生成された認識候補毎に、該認識候補に含まれる用語を含む応答候補を生成する第１の生成処理、及び前記第１の生成処理で生成した応答候補に、集約が可能な複数の応答候補が存在する場合に、該複数の応答候補を、該複数の応答候補の内容が集約された同一内容の応答候補に生成し直す第２の生成処理を行う生成手段と、前記生成手段で生成された集約後の応答候補毎に、該集約後の応答候補を生成する基となった認識候補の認識の信頼度に基づいて前記ユーザ発話に対する応答の適切さを示す数値を算出し、該算出した数値が示す適切さが最も高い応答候補を前記生成された応答候補から選択する選択手段と、前記選択手段で選択された応答候補を出力する応答出力手段と、を含んで構成されている。

このような構成によれば、音声認識結果に対して適切な応答を生成して、誤応答を低減することができる。例えば、ユーザ発話の音声認識結果に誤認識が起きた場合でも、本発明では認識候補の信頼度から算出された数値が示す適切さが最も高い応答候補が選択されて出力されるため、破綻することなく対話を進行でき、また、音声認識誤りの修正をすることなく、各音声認識候補に対して矛盾の少ない応答を生成することができる。また、複数の応答候補を集約することができ、多くの認識候補に対応可能な応答候補を生成することができる。従って、該応答候補から出力すべき応答候補を選択することで、誤応答を低減することができる。

なお、前記生成手段は、前記第２の生成処理において、前記第１生成処理で生成した応答候補に含まれる用語をその上位概念に相当する用語に置き換えて応答候補を生成し直すように構成してもよい。

このように、上位概念に相当する用語に置き換えることで、結果として複数の応答候補が集約され、多くの認識候補に対応可能な応答候補が生成される。従って、該応答候補から出力すべき応答候補を選択することで、誤応答を低減することができる。

また、前記生成手段は、前記第２の生成処理において、シソーラスを用いて前記第１生成処理で生成した応答候補に含まれる用語をその上位概念に相当する用語に置き換えて応答候補を生成し直すようにしてもよい。

このような構成によれば、容易に上位概念に相当する用語を見つけ出して置き換えることができる。

なお、前記集約が可能な複数の応答候補とは、一部分が同一の複数の応答候補であって、前記生成手段は、前記第２生成処理において、前記第１生成処理で生成した応答候補に、一部分が同一の複数の応答候補が存在する場合に、該複数の応答候補を、同一の部分以外の部分を削除した同一内容の応答候補に生成し直すようにしてもよい。

また、前記集約が可能な複数の応答候補とは、前記集約が可能な複数の応答候補とは、一部分が同一の複数の応答候補であって、前記生成手段は、前記第２生成処理において、前記第１生成処理で生成した応答候補に、一部分が同一の複数の応答候補が存在する場合に、該複数の応答候補を、該同一の部分から類推される概念を表す同一内容の応答候補に生成し直すようにしてもよい。

また、前記集約が可能な複数の応答候補とは、応答候補に含まれる用語又は応答候補全体の少なくとも一方から推論される概念が同一の複数の応答候補であって、前記生成手段は、前記第２生成処理において、前記第１生成処理で生成した応答候補に、応答候補に含まれる用語又は応答候補全体の少なくとも一方から推論される概念が同一の複数の応答候補が存在する場合に、該複数の応答候補を、該推論された概念が表現された同一内容の応答候補に生成し直すようにしてもよい。さらにまた、前記応答候補に含まれる用語又は応答候補全体の少なくとも一方から推論される概念は、感情又は上位概念とすることもできる。

なお、本発明は、上記応答生成装置の機能をコンピュータで実現するためのプログラムにも適用可能である。

以上説明したように、本発明によれば、音声認識結果に対して適切な応答を生成して、誤応答を低減することができる、という優れた効果を奏する。

以下、図面を参照して、本発明の実施の形態について詳細に説明する。

［第１の実施の形態］

図１は、第１の実施の形態に係る応答生成装置１０の概略的な構成を示すブロック図である。応答生成装置１０は、入力部１２、応答生成部１４、応答選択部１６、および出力部１８を備えている。

入力部１２は、音声認識辞書を備え、入力されたユーザの発話を示す音声波形を、該音声認識辞書を用いて音声認識し、考えられる複数の音声認識候補を出力する。入力部１２は、音声認識の際、音響的な情報や言語情報を用いる一般的な手法（例えば、李晃伸，河原達也，鹿野清宏、「２パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法」情報処理学会研究報告, 2003-SLP-49-48, 2003-12．等を参照。）により、音声認識の信頼度も計算する。

応答生成部１４は、音声認識されたすべての候補に対して個別にユーザの発話に対する応答候補を生成する。本実施の形態では、所定の記憶手段に、音声認識候補と質問タイプとが対応付けられた質問情報を記憶しておくと共に、応答用のテンプレートも記憶しておき、該質問情報とテンプレートとを記憶手段から読みだして個別に応答候補を生成する。質問情報およびテンプレートについては後述する。

応答選択部１６は、応答生成部１４で生成された応答候補からより多くの認識候補に対応できる応答候補を選択したり、さらに、音声認識の信頼度を考慮した上で応答候補を選択する。

出力部１８は、スピーカやディスプレイ等を含んで構成され、応答選択部１６で選択された応答候補を表す文字画像をディスプレイに表示したり、選択された応答候補を音声合成した後、スピーカで音声出力する。

なお、上記説明した応答生成装置１０を構成する各構成要素（出力部１８に含まれるスピーカやディスプレイ等を除く）は、ＣＰＵ、ＲＡＭ、ＲＯＭを含んで構成されたコンピュータによって実現される。すなわちＣＰＵが、ＲＯＭや所定の記憶装置に記憶されたプログラムを実行することにより上記各構成部の機能を実現し、以下に説明する処理が行なわれる。また、各構成部を別々のコンピュータで構成してもよいし、１つのコンピュータで構成してもよい。

以上のように構成された応答生成装置１０は、ユーザとの間で例えば次のような対話例１を実現することができる。以下、ユーザ発話に対する本装置の発話を「システム発話」という。

（対話例１）
ユーザ発話１：聞いてよ、お母さんが勝手に開けたんだよ
システム発話２：何を？
ユーザ発話３：引き出しにしまっといた箱。友達にもらって大事にしまっといたのに
システム発話４：そうなんだ

以下、この応答生成装置１０における応答生成の流れを説明する。

まず、応答生成装置１０の入力部１２は、例えば上記対話例１のユーザ発話１などのユーザ発話を音声認識して、複数の音声認識候補を応答生成部１４に入力する。入力部１２は、例えば図２に示すように、実際のユーザ発話の認識結果である「見出し」と、該見出しの「原形」を音声認識結果として応答生成部１４に入力する。また、前述したように、各音声認識候補の信頼度も応答生成部１４に入力する。

図３は、応答生成部１４が行なう応答候補生成処理ルーチンの流れを示すフローチャートである。

ステップ１００では、応答生成部１４は、入力部１２で認識された音声認識候補の１つに対して応答候補を生成する。ここでは、前述したように、予め記憶しておいた質問情報とテンプレートとに基づいて応答候補を生成する。

図４に質問情報の具体例を示す。図４では「開ける」という音声認識候補（原形）に対して、「誰が」「何を」「どうして」という３種類の質問タイプが対応付けられている。

また、図５に応答用のテンプレートの具体例を示す。図５（Ａ）は、述語の認識候補に対する応答テンプレートを示しており、質問タイプ＋音声認識候補（述語）（※）＋時制終助詞（※）＋疑問終助詞（※）とから構成される。※印の部分は、省略可能な部分であり、本実施の形態では、この※印のうち音声認識候補（述語）と時制終助詞とを常に省略するものとする。図５（Ｂ）は、名詞に対する応答テンプレートを示しており、質問タイプ＋音声認識候補（名詞）（※）＋疑問終助詞（※）とから構成される。本実施の形態では、この※印のうち音声認識候補（名詞）を常に省略するものとする。

なお、時制終助詞と疑問終助詞には様々なものがあるが、この時制終助詞と疑問終助詞については、テンプレートと同様に、予め記憶手段に記憶しておく。例えば、図６に示すようなテーブルに予め登録しておく。そして、応答生成部１４は、適宜記憶手段から必要な情報を読みだして用いて応答候補を生成する。

例えば、「開ける」という音声認識候補に対しては、通常では、図７に示すように、「誰が開けたの？」、「何を開けたの？」、「どうして開けたの？」という応答候補が生成されるが、本実施の形態では、これら応答候補に含まれる「開けたの」の部分は省略して生成される。

ステップ１０２では、応答生成部１４は、全ての音声認識候補に対する応答候補の生成処理が終了したか否かを判断し、終了していないと判断した場合には、ステップ１００に戻って、未処理の音声認識候補について、上記と同様に応答候補を生成する。また、ステップ１０２で、全ての音声認識候補に対する応答候補の生成処理が終了したと判断した場合には、本ルーチンを終了する。

これにより、図８に示すように、各音声認識候補に対して応答候補が生成される。例えば、音声認識候補「開けたよ」については、述語の原形「開ける」から「誰が？」「何を？」「どうして？」が生成される。また、音声認識候補「蹴ったよ」については、述語の原形「蹴る」から「誰が？」「何を？」が生成される。

応答選択部１６は、応答生成部１４で生成された応答候補から適切な応答候補を選択する。

図９は、応答選択部１６が行なう応答候補選択処理ルーチンの流れを示すフローチャートである。

ステップ１２０では、応答選択部１６は、全ての応答候補について生成数をカウントする。ここでいう生成数とは、各応答候補が対応している音声認識候補の数をいう。本実施の形態では、図８に示す通り、５種類の音声認識候補に対して「誰が？」「何が？」「何を？」「何に？」「どうして？」「いつ？」という６種類の応答候補が生成されている。各応答候補が対応している認識候補の数は、以下の通りである。

「誰が？」＝音声認識候補３個
「何か？」＝音声認識候補２個
「何を？」＝音声認識候補４個
「何に？」＝音声認識候補１個
「いつ？」＝音声認識候補２個

ステップ１２２では、応答選択部１６は、最も生成数が多い応答候補（ここでは、「何を？」となる。）を選択する。

ステップ１２４では、応答選択部１６は、最も生成数が多い応答候補が複数存在するか否かを判断する。ここで、複数存在すると判断した場合には、ステップ１２６で、該複数の応答候補の中からランダムに１つを選択して最終的な選択結果として出力する。また、複数存在しないと判断した場合には、ステップ１２２で選択した応答候補をそのまま最終的な選択結果として出力する（上記対話例１のシステム発話２も参照。）。

なお、ここでは、認識候補の数をカウントしてその結果から多くの認識候補に共通する応答候補を選択するようにしたが、音声認識の信頼度を用いて応答候補を選択するようにしてもよい。図１０は、音声認識の信頼度を考慮して応答候補を選択する場合の応答候補選択処理ルーチンの流れを示すフローチャートである。

ステップ１４０では、応答選択部１６は、すべての応答候補に対してユーザ発話に対する応答の適切さを計算する。応答の適切さは、認識候補の信頼度を用いて以下の式１により算出する。

［式１］
応答候補Ｘの応答の適切さ=Σ｛応答候補Ｘに対応する認識候補の認識の信頼度｝

図２に示す音声認識候補および信頼度を用いて、各応答候補の適切さを式１により算出すると、以下のようになる。

「誰が？」＝「開けるの信頼度０．１」＋「蹴るの信頼度０．２」
＋「掛けるの信頼度０．１５」＝０．３５
「何が？」＝「避けるの信頼度０．１」＋「炊けるの信頼度０．９」＝１．０
「何を？」＝「開けるの信頼度０．１」＋「蹴るの信頼度０．２」
＋「掛けるの信頼度０．１５」＋「避けるの信頼度０．１」＝０．４５
「何に？」＝「掛けるの信頼度０．１５」＝０．１５
「いつ？」＝「掛けるの信頼度０．１５」＋「炊けるの信頼度０．９」＝１．０５

ステップ１４２では、応答選択部１６は、適切さのスコアが最も高い応答候補（ここでは、「いつ？」）を選択する。

ステップ１４４では、応答選択部１６は、適切さのスコアが最も高い応答候補が複数存在するか否かを判断する。ここで、複数存在すると判断した場合には、ステップ１４６で、該複数の応答候補の中からランダムに１つを選択して最終的な選択結果として出力する。また、複数存在しないと判断した場合には、ステップ１４２で選択した応答候補をそのまま最終的な選択結果として出力する。

出力部１８は、このように選択された応答候補を表す文字画像をディスプレイに表示したり、選択された応答候補を音声合成した後、スピーカで音声出力する。

なお、応答生成部１４で生成されたすべての応答候補についての生成数或いは適切さのスコアが同一である場合には、該応答候補から選択せずに、単なる相づち（例えば「そうだね」など）を出力するなどの処理を行なうようにしてもよい。

以上説明したように、複数の音声認識候補から各音声認識候補それぞれに対する応答候補を生成し、該生成した応答候補から多くの認識候補に共通する応答候補を選択、或いは認識候補の信頼度から算出された数値が示す適切さが最も高い応答候補を選択して出力するようにしたため、音声認識候補の中に仮に誤認識を含んでいたとしても、破綻することなく対話を進行することができる。

また、従来は、音声認識誤りが生じた場合は、誤認識を修正した上で応答生成していたが、誤認識の修正の精度が十分でないため、適切に誤認識を修正できるとは限らず、また、誤認識を修正するための処理時間を要するという問題があった。しかし、上記のように応答を生成することにより、音声認識候補の中に仮に誤認識を含んでいたとしても、音声認識誤りを修正することなく、適切な応答を出力することができる。

また、従来は、複数の音声認識候補を用いて応答を生成していたため、音声認識候補に対して矛盾する応答が選択される場合もあった。しかしながら、上記説明したように、多くの音声認識結果に対して共通する応答候補或いは適切さのスコアが高い応答候補を選択して出力するため、各音声認識候補に対して矛盾の少ない応答を生成することができる。

なお、応答生成部１４の応答生成方法は一例であって、本実施の形態で説明した方法に限定されない。例えば、例えば、特開２００７−２０６８８８号公報に記載の技術や特開２００６−２０１８７０号公報に記載の技術等を用いて行なうようにしてもよい。

具体的には、特開２００７−２０６８８８号公報に記載の技術では、解析された述語及びそれに対応する格要素を抽出して、この述語及び格要素を確認するための応答を生成する。特開２００６−２０１８７０号公報に記載の技術では、応答用の発話情報を事象と事象、事象と評価、評価と評価の各組み合わせからなるルールに従って記憶しておき、音声認識結果と該記憶したルールとに基づいて応答用の発話を生成する。ここで、事象と事象の組み合わせや、事象と評価の組み合わせは、例えば、因果関係や時間的な関係によって構成される。また、評価は、例えばユーザ発話が意味する感情等によって構成される。

これにより、様々なタイプの応答候補、例えば、ユーザ発話から認識された語を確認するための応答候補や、ユーザ発話に含まれる事象を感情語を含む表現で評価した応答候補や、ユーザ発話に含まれる事象に起因する事象を表す応答候補などが生成される。

［第２の実施の形態］

図１１は、第２の実施の形態に係る応答生成装置２０の概略的な構成を示すブロック図である。応答生成装置２０は、入力部１２、応答生成部１４、応答候補集約部１５、応答選択部１６、および出力部１８を備えている。ここで、図１１において、図１と同一もしくは同等の部分には同じ記号を付し、その説明を省略する。

応答候補集約部１５は、シソーラスを備え、応答生成部１４が生成した複数の応答候補それぞれについて、シソーラスを用いて応答候補に含まれる用語をその上位概念に相当する他の用語に置き換えて生成し直す。なお、シソーラスとは、図１２に示すように、用語を同義語や意味上の類似関係、或いは包含関係などにより階層的に分類した辞書をいう。なお、用語の置き換えて応答候補を生成し直すにより、結果として複数の応答候補が同一内容の応答候補に集約されることから、以下では、応答候補の生成後に用語の置き換え等により応答候補を生成し直すことを「集約」と表現する。

応答選択部１６は、応答候補集約部１５で集約した後の応答候補からより多くの認識候補に対応できる応答を選択したり、さらに、音声認識の信頼度を考慮した上で応答を選択する。

以上のように構成された応答生成装置２０は、ユーザとの間で例えば次のような対話例２を実現することができる。

（対話例２）
ユーザ発話１：遠足の途中、小学校で休憩したよ
システム発話２：どんな学校なの？
ユーザ発話３：大きい学校だったよ、トイレもきれいだった
システム発話４：そうなんだ

以下、この応答生成装置２０における応答生成の流れを説明する。

まず、応答生成装置２０の入力部１２は、例えば上記対話例２のユーザ発話１などのユーザ発話を音声認識して、複数の音声認識候補を応答生成部１４に入力する。以下では、図１３に示すように、「小学校」「中学校」「駐車場」の３つの音声認識結果とその信頼度が応答生成部１４に入力された場合を例に挙げて、これ以降の処理についてより具体的に説明する。

応答生成部１４は、第１の実施の形態において説明したように、図１３の音声認識候補のそれぞれに対して応答候補を生成する。その結果、図１４（Ａ）（Ｂ）に示す通り、「小学校」という認識候補からは「どんな小学校なの？」、「中学校」という認識候補からは「どんな中学校なの？」、「駐車場」という認識候補からは「どこの駐車場なの？」という応答候補が生成される。

応答候補集約部１５は、図１２に示すようなシソーラスを用いて、応答生成部１４が生成した応答候補に含まれる語をシソーラスの上位概念に相当する語に置き換える。図１２において、図１３に示す音声認識候補「小学校」や「中学校」の上位概念に相当する語は「学校」であり、音声認識候補「駐車場」の上位概念に相当する語は「保管場所」である。従って、図１４（Ｃ）に示す通り、「どんな小学校なの？」は「どんな学校なの？」に言い換えられ、「どんな中学佼なの？」は「どんな学校なの？」に言い換えられ、「どこの駐車場なの？」は「どこの保管場所なの？」に言い換えられる。なお、どの程度上位概念化するかは、特に限定されないが、例えば音声認識候補の階層レベルや、音声認識された用語の種類等に応じて上位概念化すればよい。

応答選択部１６は、応答候補集約部１５での集約後の応答候補から適切な応答候補を選択する。応答候補の選択の方法は第１の実施の形態と同様である。例えば、図９の処理ルーチンを実行して図１４（Ｃ）に示す応答候補から応答候補を選択する場合には、「どんな学校なの？」が選択され、応答が確定する（上記対話例２のシステム発話２も参照。）。

以上説明した例では、応答候補集約部１５は、応答生成部１４が生成した応答候補のそれぞれについて、シソーラスを用いてその応答候補に含まれる語を上位概念に相当する語に置き換えた応答候補を生成し、該集約後の応答候補から適切な応答候補を選択する例について説明したが、これに限定されず、例えば、応答候補に含まれる用語から複数の応答候補間で共通する部分のみを残して集約し、集約後の応答候補から適切な応答候補を選択するようにしてもよい。

例えば、応答生成部１４は、図１５（Ａ）（Ｂ）に示すように、「小学校」という認識候補からは「どんな小学校なの？」、「中学校」という認識候補からは「どんな中学校なの？」、「駐車場」という認識候補からは「どこの駐車場なの？」という応答候補を生成する。

応答候補集約部１５は、応答生成部１４で生成されたすべての応答候補を比較し、各応答候補に含まれる用語のうち複数の応答候補に共通する部分だけを残し、共通部分以外を削除することで、図１５（Ｃ）に示すように応答候補を集約する。ここでは、２つの応答候補において、「学校」という単語が共通であるため、「小」および「中」という部分を削除し、「どんな学校なの？」という応答候補を生成する。また、「どこの駐車場なの？」という応答候補については、他の応答候補と共通な部分が存在しないため、言い換えは行われない。なお、ここで、終助詞など、テンプレートによって共通に生成された部分は、共通箇所とはみなさない。

応答選択部１６は、集約後の応答候補から適切な応答を選択する。例えば、図９の処理ルーチンを実行して図１５（Ｃ）に示す応答候補から応答候補を選択する場合には、「どんな学校なの？」が選択される。

また、応答候補を各応答候補に含まれる共通の単語から推論される概念を表す応答候補に生成し直しても良い。

例えば、図１６（Ａ）に示す「１００ｍ」「２００ｍ」が音声認識候補である場合に、応答生成部１４で、図１６（Ｂ）に示すように、「１００ｍなの？」および「２００ｍなの？」という応答候補が生成されたとする。ここで、各応答候補に共通する部分は「ｍ（メートル）」である。

予め図１６（Ｄ）に示すような推論ルールがデータベース化されていた場合には、応答候補集約部１５は、該データベースを参照して、２つの音声認識結果に共通する「ｍ（メートル）」から「長さ」という概念が推論される。従って、応答候補集約部１５は、図１６（Ｃ）に示すように、推論された概念を表す「そんなに長く？」という応答候補を生成できる。

また、各応答候補を感情を表す応答候補に生成し直してもよい。

例えば、応答生成部１４が、図１７（Ａ）（Ｂ）に示すように、「小学校」という認識候補からは「小学校に行くの？」、「中学校」という認識候補からは「中学校に行くの？」、「進学校」という認識候補からは「進学校に行くの？」という応答候補を生成する。

応答候補集約部１５は、応答生成部１４で生成された各応答候補を、各応答候補が表す感情を表現した応答候補に生成し直す。例えば、予め定められたルールに従って、各応答候補に含まれる名詞や述語等からポジティブ（望ましい）な感情に該当するか、ネガティブ（望ましくない）な感情に該当するかを判断する。そして、ポジティブな感情に該当すると判断された応答候補については、ポジティブな感情を表現した共通の応答候補に言い換える。ネガティブな感情に該当すると判断された応答候補については、ネガティブな感情を表現した共通の応答候補に変換する。

なお、ポジティブな感情語（楽しい、美しい、笑う、など）とネガティブな感情語（イヤだ、泣く、大変、など）は予め所定の記憶手段に登録されており、応答候補集約部１５は、この記憶手段からポジティブな感情を表す感情語を選択して用いて感情を表現した応答候補を生成する。図１７（Ｃ）に各応答候補を感情を表現した応答候補に言い換えた変換例を示す。

応答選択部１６は、集約後の応答候補から適切な応答を選択する。例えば、図９の処理ルーチンを実行して図１７（Ｃ）に示す応答候補から応答候補を選択する場合には、「大変だね？」が選択される。

このように、生成された応答候補を集約し、該集約結果から適切な応答候補を選択するようにしたため、第１の実施の形態と同様の効果を奏するとともに、個々の認識候補に対してさらに矛盾の少ない応答を出力することができ、誤応答が低減する。

第１の実施の形態に係る応答生成装置の概略的な構成を示すブロック図である。入力部の音声認識結果の一例を示す図である。応答生成部が行なう応答候補生成処理ルーチンの流れを示すフローチャートである。質問情報の具体例を示す図である。応答用のテンプレートの具体例を示す図である。時制終助詞および疑問終助詞を登録したテーブルの一例を示す図である。応答生成部で生成される応答候補の具体例を示す図である。第１の実施の形態の応答生成部で、図２に示す各音声認識候補に対して応答候補が生成された場合の生成結果を示す表である。応答選択部が行なう応答候補選択処理ルーチンの流れを示すフローチャートである。音声認識の信頼度を考慮して応答候補を選択する場合の応答候補選択処理ルーチンの流れを示すフローチャートである。第２の実施の形態に係る応答生成装置の概略的な構成を示すブロック図である。シソーラスの具体例を示す図である。入力部の音声認識結果の一例を示す図である。応答候補を、シソーラスを用いて集約する場合の具体例を説明する説明図である。応答候補を、応答候補に含まれる用語から複数の応答候補に共通する部分以外を削除して集約する場合の具体例を説明する説明図である。応答候補を、複数の応答候補に共通する語から推論される概念を表現する応答候補に言い換える場合の具体例を説明する説明図である。応答候補を、応答候補が表す感情を表現する応答候補に言い換える場合の具体例を説明する説明図である。

符号の説明

１０応答生成装置
１２入力部
１４応答生成部
１５応答候補集約部
１６応答選択部
１８出力部
２０応答生成装置

Claims

ユーザの発話を認識し、複数の認識候補を生成する認識手段と、
前記認識手段で生成された認識候補毎に、該認識候補に含まれる用語を含む応答候補を生成する第１の生成処理、及び前記第１の生成処理で生成した応答候補に、集約が可能な複数の応答候補が存在する場合に、該複数の応答候補を、該複数の応答候補の内容が集約された同一内容の応答候補に生成し直す第２の生成処理を行う生成手段と、
前記生成手段で生成された集約後の応答候補から、該集約後の応答候補を生成する基となった認識候補が最も多い応答候補を選択する選択手段と、
前記選択手段で選択された応答候補を出力する応答出力手段と、
を含む応答生成装置。
ユーザの発話を認識し、複数の認識候補を生成する認識手段と、
前記認識手段で生成された認識候補毎に、該認識候補に含まれる用語を含む応答候補を生成する第１の生成処理、及び前記第１の生成処理で生成した応答候補に、集約が可能な複数の応答候補が存在する場合に、該複数の応答候補を、該複数の応答候補の内容が集約された同一内容の応答候補に生成し直す第２の生成処理を行う生成手段と、
前記生成手段で生成された集約後の応答候補毎に、該集約後の応答候補を生成する基となった認識候補の認識の信頼度に基づいて前記ユーザ発話に対する応答の適切さを示す数値を算出し、該算出した数値が示す適切さが最も高い応答候補を前記生成された応答候補から選択する選択手段と、
前記選択手段で選択された応答候補を出力する応答出力手段と、
を含む応答生成装置。
前記生成手段は、前記第２の生成処理において、前記第１生成処理で生成した応答候補に含まれる用語をその上位概念に相当する用語に置き換えて応答候補を生成し直す、
請求項１又は請求項２に記載の応答生成装置。
前記生成手段は、前記第２の生成処理において、シソーラスを用いて前記第１生成処理で生成した応答候補に含まれる用語をその上位概念に相当する用語に置き換えて応答候補を生成し直す、
請求項３に記載の応答生成装置。
前記集約が可能な複数の応答候補とは、一部分が同一の複数の応答候補であって、
前記生成手段は、前記第２生成処理において、前記第１生成処理で生成した応答候補に、一部分が同一の複数の応答候補が存在する場合に、該複数の応答候補を、同一の部分以外の部分を削除した同一内容の応答候補に生成し直す、
請求項１又は請求項２記載の応答生成装置。
前記集約が可能な複数の応答候補とは、一部分が同一の複数の応答候補であって、
前記生成手段は、前記第２生成処理において、前記第１生成処理で生成した応答候補に、一部分が同一の複数の応答候補が存在する場合に、該複数の応答候補を、該同一の部分から類推される概念を表す同一内容の応答候補に生成し直す、
請求項１又は請求項２記載の応答生成装置。
前記集約が可能な複数の応答候補とは、応答候補に含まれる用語又は応答候補全体の少なくとも一方から推論される概念が同一の複数の応答候補であって、
前記生成手段は、前記第２生成処理において、前記第１生成処理で生成した応答候補に、応答候補に含まれる用語又は応答候補全体の少なくとも一方から推論される概念が同一の複数の応答候補が存在する場合に、該複数の応答候補を、該推論された概念が表現された同一内容の応答候補に生成し直す、
請求項１又は請求項２記載の応答生成装置。
前記応答候補に含まれる用語又は応答候補全体の少なくとも一方から推論される概念は、感情又は上位概念である、
請求項７に記載の応答生成装置。
コンピュータを、
ユーザの発話を認識し、複数の認識候補を生成する認識手段、
前記認識手段で生成された認識候補毎に、該認識候補に含まれる用語を含む応答候補を生成する第１の生成処理、及び前記第１の生成処理で生成した応答候補に、集約が可能な複数の応答候補が存在する場合に、該複数の応答候補を、該複数の応答候補の内容が集約された同一内容の応答候補に生成し直す第２の生成処理を行う生成手段、
前記生成手段で生成された集約後の応答候補から、該集約後の応答候補を生成する基となった認識候補が最も多い応答候補を選択する選択手段、および
前記選択手段で選択された応答候補を出力する応答出力手段、
として機能させるためのプログラム。
コンピュータを、
ユーザの発話を認識し、複数の認識候補を生成する認識手段、
前記認識手段で生成された認識候補毎に、該認識候補に含まれる用語を含む応答候補を生成する第１の生成処理、及び前記第１の生成処理で生成した応答候補に、集約が可能な複数の応答候補が存在する場合に、該複数の応答候補を、該複数の応答候補の内容が集約された同一内容の応答候補に生成し直す第２の生成処理を行う生成手段、
前記生成手段で生成された集約後の応答候補毎に、該集約後の応答候補を生成する基となった認識候補の認識の信頼度に基づいて前記ユーザ発話に対する応答の適切さを示す数値を算出し、該算出した数値が示す適切さが最も高い応答候補を前記生成された応答候補から選択する選択手段、および
前記選択手段で選択された応答候補を出力する応答出力手段、
として機能させるためのプログラム。