JP4893655B2 - 応答生成装置およびプログラム - Google Patents

応答生成装置およびプログラム Download PDF

Info

Publication number
JP4893655B2
JP4893655B2 JP2008038814A JP2008038814A JP4893655B2 JP 4893655 B2 JP4893655 B2 JP 4893655B2 JP 2008038814 A JP2008038814 A JP 2008038814A JP 2008038814 A JP2008038814 A JP 2008038814A JP 4893655 B2 JP4893655 B2 JP 4893655B2
Authority
JP
Japan
Prior art keywords
response
candidates
candidate
recognition
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008038814A
Other languages
English (en)
Other versions
JP2009198686A (ja
Inventor
良子 堀田
貴克 吉村
和也 下岡
雄介 中野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Central R&D Labs Inc
Original Assignee
Toyota Central R&D Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Central R&D Labs Inc filed Critical Toyota Central R&D Labs Inc
Priority to JP2008038814A priority Critical patent/JP4893655B2/ja
Publication of JP2009198686A publication Critical patent/JP2009198686A/ja
Application granted granted Critical
Publication of JP4893655B2 publication Critical patent/JP4893655B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、ユーザの発話に対する応答を生成する応答生成装置およびプログラムに関する。
ユーザの発話に対してシステムが応答する技術として、例えば、下記特許文献1に記載のように、これまでに認識した音声認識文脈を踏まえて音声認識結果を修正したり、音声認識結果の構文情報から音声認識結果を修正する装置が知られている。
また、下記非特許文献1の論文には、複数の認識候補を用いて応答を検索し、応答を生成する技術が記載されている。例えば、音声認識結果の候補が「トイレはどこですか」と「トイレはありますか」と「食堂はありますか」だった場合には、これらの認識候補に含まれる形態素をすべて用いて(この場合は「トイレ/は/どこ/です/か/あり/ます/食堂」という8形態素)応答を検索する。
特開2003−223185号公報 「実環境研究プラットホームとしての音声情報案内システムの運用」,電子情報通信学会論文誌
しかしながら、上記特許文献1に記載の技術では、これまで認識された文脈や構文情報を用いたとしても誤認識の修正の精度は十分でなく、適切に誤認識を修正できるとは限らないため、誤認識のまま応答生成して間違った応答を生成する可能性がある。また、誤認識を修正するために処理時間を要してしまうという問題点もある。
また、上記非特許文献1に記載の技術では、複数の認識結果を統合して応答を検索するため、必ずしも適切な応答が生成できるとは限らない。具体的には、上記の例では「トイレ/は/どこ/です/か/あり/ます/食堂」という8形態素を用いて適切な応答を検索しているが、「トイレ」や「食堂」など、本来どちらかしか発話されていないと考えられる認識結果が含まれていると、これらをまとめて認識結果として応答を検索した場合には、「トイレはどこですか?」に対して「食堂の場所は8階です」のような応答を生成してしまう可能性がある。
本発明は上述した問題を解決するためになされたものであり、音声認識結果に対して適切な応答を生成して、誤応答を低減することができる応答生成装置およびプログラムを提供することを目的とする。
上記目的を達成するために、本発明の応答生成装置は、ユーザの発話を認識し、複数の認識候補を生成する認識手段と、前記認識手段で生成された認識候補毎に、該認識候補に含まれる用語を含む応答候補を生成する第1の生成処理、及び前記第1の生成処理で生成した応答候補に、集約が可能な複数の応答候補が存在する場合に、該複数の応答候補を、該複数の応答候補の内容が集約された同一内容の応答候補に生成し直す第2の生成処理を行う生成手段と、前記生成手段で生成された集約後の応答候補から、該集約後の応答候補を生成する基となった認識候補が最も多い応答候補を選択する選択手段と、前記選択手段で選択された応答候補を出力する応答出力手段と、を含んで構成されている。
このような構成によれば、音声認識結果に対して適切な応答を生成して、誤応答を低減することができる。例えば、ユーザ発話の音声認識結果に誤認識が起きた場合でも、本発明では多くの認識候補に対応した応答候補が出力されるため、破綻することなく対話を進行でき、また、音声認識誤りの修正をすることなく、各音声認識候補に対して矛盾の少ない応答を生成することができる。また、複数の応答候補を集約することができ、多くの認識候補に対応可能な応答候補を生成することができる。従って、該応答候補から出力すべき応答候補を選択することで、誤応答を低減することができる。
また、本発明の他の態様の応答生成装置は、ユーザの発話を認識し、複数の認識候補を生成する認識手段と、前記認識手段で生成された認識候補毎に、該認識候補に含まれる用語を含む応答候補を生成する第1の生成処理、及び前記第1の生成処理で生成した応答候補に、集約が可能な複数の応答候補が存在する場合に、該複数の応答候補を、該複数の応答候補の内容が集約された同一内容の応答候補に生成し直す第2の生成処理を行う生成手段と、前記生成手段で生成された集約後の応答候補毎に、該集約後の応答候補を生成する基となった認識候補の認識の信頼度に基づいて前記ユーザ発話に対する応答の適切さを示す数値を算出し、該算出した数値が示す適切さが最も高い応答候補を前記生成された応答候補から選択する選択手段と、前記選択手段で選択された応答候補を出力する応答出力手段と、を含んで構成されている。
このような構成によれば、音声認識結果に対して適切な応答を生成して、誤応答を低減することができる。例えば、ユーザ発話の音声認識結果に誤認識が起きた場合でも、本発明では認識候補の信頼度から算出された数値が示す適切さが最も高い応答候補が選択されて出力されるため、破綻することなく対話を進行でき、また、音声認識誤りの修正をすることなく、各音声認識候補に対して矛盾の少ない応答を生成することができる。また、複数の応答候補を集約することができ、多くの認識候補に対応可能な応答候補を生成することができる。従って、該応答候補から出力すべき応答候補を選択することで、誤応答を低減することができる。
なお、前記生成手段は、前記第2の生成処理において、前記第1生成処理で生成した応答候補に含まれる用語をその上位概念に相当する用語に置き換えて応答候補を生成し直すように構成してもよい。
このように、上位概念に相当する用語に置き換えることで、結果として複数の応答候補が集約され、多くの認識候補に対応可能な応答候補が生成される。従って、該応答候補から出力すべき応答候補を選択することで、誤応答を低減することができる。
また、前記生成手段は、前記第2の生成処理において、シソーラスを用いて前記第1生成処理で生成した応答候補に含まれる用語をその上位概念に相当する用語に置き換えて応答候補を生成し直すようにしてもよい。
このような構成によれば、容易に上位概念に相当する用語を見つけ出して置き換えることができる。
なお、前記集約が可能な複数の応答候補とは、一部分が同一の複数の応答候補であって、前記生成手段は、前記第2生成処理において、前記第1生成処理で生成した応答候補に、一部分が同一の複数の応答候補が存在する場合に、該複数の応答候補を、同一の部分以外の部分を削除した同一内容の応答候補に生成し直すようにしてもよい。
また、前記集約が可能な複数の応答候補とは、前記集約が可能な複数の応答候補とは、一部分が同一の複数の応答候補であって、前記生成手段は、前記第2生成処理において、前記第1生成処理で生成した応答候補に、一部分が同一の複数の応答候補が存在する場合に、該複数の応答候補を、該同一の部分から類推される概念を表す同一内容の応答候補に生成し直すようにしてもよい。
また、前記集約が可能な複数の応答候補とは、応答候補に含まれる用語又は応答候補全体の少なくとも一方から推論される概念が同一の複数の応答候補であって、前記生成手段は、前記第2生成処理において、前記第1生成処理で生成した応答候補に、応答候補に含まれる用語又は応答候補全体の少なくとも一方から推論される概念が同一の複数の応答候補が存在する場合に、該複数の応答候補を、該推論された概念が表現された同一内容の応答候補に生成し直すようにしてもよい。さらにまた、前記応答候補に含まれる用語又は応答候補全体の少なくとも一方から推論される概念は、感情又は上位概念とすることもできる。
なお、本発明は、上記応答生成装置の機能をコンピュータで実現するためのプログラムにも適用可能である。
以上説明したように、本発明によれば、音声認識結果に対して適切な応答を生成して、誤応答を低減することができる、という優れた効果を奏する。
以下、図面を参照して、本発明の実施の形態について詳細に説明する。
[第1の実施の形態]
図1は、第1の実施の形態に係る応答生成装置10の概略的な構成を示すブロック図である。応答生成装置10は、入力部12、応答生成部14、応答選択部16、および出力部18を備えている。
入力部12は、音声認識辞書を備え、入力されたユーザの発話を示す音声波形を、該音声認識辞書を用いて音声認識し、考えられる複数の音声認識候補を出力する。入力部12は、音声認識の際、音響的な情報や言語情報を用いる一般的な手法(例えば、李晃伸,河原達也,鹿野清宏、「2パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法」情報処理学会研究報告, 2003-SLP-49-48, 2003-12.等を参照。)により、音声認識の信頼度も計算する。
応答生成部14は、音声認識されたすべての候補に対して個別にユーザの発話に対する応答候補を生成する。本実施の形態では、所定の記憶手段に、音声認識候補と質問タイプとが対応付けられた質問情報を記憶しておくと共に、応答用のテンプレートも記憶しておき、該質問情報とテンプレートとを記憶手段から読みだして個別に応答候補を生成する。質問情報およびテンプレートについては後述する。
応答選択部16は、応答生成部14で生成された応答候補からより多くの認識候補に対応できる応答候補を選択したり、さらに、音声認識の信頼度を考慮した上で応答候補を選択する。
出力部18は、スピーカやディスプレイ等を含んで構成され、応答選択部16で選択された応答候補を表す文字画像をディスプレイに表示したり、選択された応答候補を音声合成した後、スピーカで音声出力する。
なお、上記説明した応答生成装置10を構成する各構成要素(出力部18に含まれるスピーカやディスプレイ等を除く)は、CPU、RAM、ROMを含んで構成されたコンピュータによって実現される。すなわちCPUが、ROMや所定の記憶装置に記憶されたプログラムを実行することにより上記各構成部の機能を実現し、以下に説明する処理が行なわれる。また、各構成部を別々のコンピュータで構成してもよいし、1つのコンピュータで構成してもよい。
以上のように構成された応答生成装置10は、ユーザとの間で例えば次のような対話例1を実現することができる。以下、ユーザ発話に対する本装置の発話を「システム発話」という。
(対話例1)
ユーザ発話1:聞いてよ、お母さんが勝手に開けたんだよ
システム発話2:何を?
ユーザ発話3:引き出しにしまっといた箱。友達にもらって大事にしまっといたのに
システム発話4:そうなんだ
以下、この応答生成装置10における応答生成の流れを説明する。
まず、応答生成装置10の入力部12は、例えば上記対話例1のユーザ発話1などのユーザ発話を音声認識して、複数の音声認識候補を応答生成部14に入力する。入力部12は、例えば図2に示すように、実際のユーザ発話の認識結果である「見出し」と、該見出しの「原形」を音声認識結果として応答生成部14に入力する。また、前述したように、各音声認識候補の信頼度も応答生成部14に入力する。
図3は、応答生成部14が行なう応答候補生成処理ルーチンの流れを示すフローチャートである。
ステップ100では、応答生成部14は、入力部12で認識された音声認識候補の1つに対して応答候補を生成する。ここでは、前述したように、予め記憶しておいた質問情報とテンプレートとに基づいて応答候補を生成する。
図4に質問情報の具体例を示す。図4では「開ける」という音声認識候補(原形)に対して、「誰が」「何を」「どうして」という3種類の質問タイプが対応付けられている。
また、図5に応答用のテンプレートの具体例を示す。図5(A)は、述語の認識候補に対する応答テンプレートを示しており、質問タイプ+音声認識候補(述語)(※)+時制終助詞(※)+疑問終助詞(※)とから構成される。※印の部分は、省略可能な部分であり、本実施の形態では、この※印のうち音声認識候補(述語)と時制終助詞とを常に省略するものとする。図5(B)は、名詞に対する応答テンプレートを示しており、質問タイプ+音声認識候補(名詞)(※)+疑問終助詞(※)とから構成される。本実施の形態では、この※印のうち音声認識候補(名詞)を常に省略するものとする。
なお、時制終助詞と疑問終助詞には様々なものがあるが、この時制終助詞と疑問終助詞については、テンプレートと同様に、予め記憶手段に記憶しておく。例えば、図6に示すようなテーブルに予め登録しておく。そして、応答生成部14は、適宜記憶手段から必要な情報を読みだして用いて応答候補を生成する。
例えば、「開ける」という音声認識候補に対しては、通常では、図7に示すように、「誰が開けたの?」、「何を開けたの?」、「どうして開けたの?」という応答候補が生成されるが、本実施の形態では、これら応答候補に含まれる「開けたの」の部分は省略して生成される。
ステップ102では、応答生成部14は、全ての音声認識候補に対する応答候補の生成処理が終了したか否かを判断し、終了していないと判断した場合には、ステップ100に戻って、未処理の音声認識候補について、上記と同様に応答候補を生成する。また、ステップ102で、全ての音声認識候補に対する応答候補の生成処理が終了したと判断した場合には、本ルーチンを終了する。
これにより、図8に示すように、各音声認識候補に対して応答候補が生成される。例えば、音声認識候補「開けたよ」については、述語の原形「開ける」から「誰が?」「何を?」「どうして?」が生成される。また、音声認識候補「蹴ったよ」については、述語の原形「蹴る」から「誰が?」「何を?」が生成される。
応答選択部16は、応答生成部14で生成された応答候補から適切な応答候補を選択する。
図9は、応答選択部16が行なう応答候補選択処理ルーチンの流れを示すフローチャートである。
ステップ120では、応答選択部16は、全ての応答候補について生成数をカウントする。ここでいう生成数とは、各応答候補が対応している音声認識候補の数をいう。本実施の形態では、図8に示す通り、5種類の音声認識候補に対して「誰が?」「何が?」「何を?」「何に?」「どうして?」「いつ?」という6種類の応答候補が生成されている。各応答候補が対応している認識候補の数は、以下の通りである。
「誰が?」=音声認識候補3個
「何か?」=音声認識候補2個
「何を?」=音声認識候補4個
「何に?」=音声認識候補1個
「いつ?」=音声認識候補2個
ステップ122では、応答選択部16は、最も生成数が多い応答候補(ここでは、「何を?」となる。)を選択する。
ステップ124では、応答選択部16は、最も生成数が多い応答候補が複数存在するか否かを判断する。ここで、複数存在すると判断した場合には、ステップ126で、該複数の応答候補の中からランダムに1つを選択して最終的な選択結果として出力する。また、複数存在しないと判断した場合には、ステップ122で選択した応答候補をそのまま最終的な選択結果として出力する(上記対話例1のシステム発話2も参照。)。
なお、ここでは、認識候補の数をカウントしてその結果から多くの認識候補に共通する応答候補を選択するようにしたが、音声認識の信頼度を用いて応答候補を選択するようにしてもよい。図10は、音声認識の信頼度を考慮して応答候補を選択する場合の応答候補選択処理ルーチンの流れを示すフローチャートである。
ステップ140では、応答選択部16は、すべての応答候補に対してユーザ発話に対する応答の適切さを計算する。応答の適切さは、認識候補の信頼度を用いて以下の式1により算出する。
[式1]
応答候補Xの応答の適切さ=Σ{応答候補Xに対応する認識候補の認識の信頼度}
図2に示す音声認識候補および信頼度を用いて、各応答候補の適切さを式1により算出すると、以下のようになる。
「誰が?」=「開けるの信頼度0.1」+「蹴るの信頼度0.2」
+「掛けるの信頼度0.15」=0.35
「何が?」=「避けるの信頼度0.1」+「炊けるの信頼度0.9」=1.0
「何を?」=「開けるの信頼度0.1」+「蹴るの信頼度0.2」
+「掛けるの信頼度0.15」+「避けるの信頼度0.1」=0.45
「何に?」=「掛けるの信頼度0.15」=0.15
「いつ?」=「掛けるの信頼度0.15」+「炊けるの信頼度0.9」=1.05
ステップ142では、応答選択部16は、適切さのスコアが最も高い応答候補(ここでは、「いつ?」)を選択する。
ステップ144では、応答選択部16は、適切さのスコアが最も高い応答候補が複数存在するか否かを判断する。ここで、複数存在すると判断した場合には、ステップ146で、該複数の応答候補の中からランダムに1つを選択して最終的な選択結果として出力する。また、複数存在しないと判断した場合には、ステップ142で選択した応答候補をそのまま最終的な選択結果として出力する。
出力部18は、このように選択された応答候補を表す文字画像をディスプレイに表示したり、選択された応答候補を音声合成した後、スピーカで音声出力する。
なお、応答生成部14で生成されたすべての応答候補についての生成数或いは適切さのスコアが同一である場合には、該応答候補から選択せずに、単なる相づち(例えば「そうだね」など)を出力するなどの処理を行なうようにしてもよい。
以上説明したように、複数の音声認識候補から各音声認識候補それぞれに対する応答候補を生成し、該生成した応答候補から多くの認識候補に共通する応答候補を選択、或いは認識候補の信頼度から算出された数値が示す適切さが最も高い応答候補を選択して出力するようにしたため、音声認識候補の中に仮に誤認識を含んでいたとしても、破綻することなく対話を進行することができる。
また、従来は、音声認識誤りが生じた場合は、誤認識を修正した上で応答生成していたが、誤認識の修正の精度が十分でないため、適切に誤認識を修正できるとは限らず、また、誤認識を修正するための処理時間を要するという問題があった。しかし、上記のように応答を生成することにより、音声認識候補の中に仮に誤認識を含んでいたとしても、音声認識誤りを修正することなく、適切な応答を出力することができる。
また、従来は、複数の音声認識候補を用いて応答を生成していたため、音声認識候補に対して矛盾する応答が選択される場合もあった。しかしながら、上記説明したように、多くの音声認識結果に対して共通する応答候補或いは適切さのスコアが高い応答候補を選択して出力するため、各音声認識候補に対して矛盾の少ない応答を生成することができる。
なお、応答生成部14の応答生成方法は一例であって、本実施の形態で説明した方法に限定されない。例えば、例えば、特開2007−206888号公報に記載の技術や特開2006−201870号公報に記載の技術等を用いて行なうようにしてもよい。
具体的には、特開2007−206888号公報に記載の技術では、解析された述語及びそれに対応する格要素を抽出して、この述語及び格要素を確認するための応答を生成する。特開2006−201870号公報に記載の技術では、応答用の発話情報を事象と事象、事象と評価、評価と評価の各組み合わせからなるルールに従って記憶しておき、音声認識結果と該記憶したルールとに基づいて応答用の発話を生成する。ここで、事象と事象の組み合わせや、事象と評価の組み合わせは、例えば、因果関係や時間的な関係によって構成される。また、評価は、例えばユーザ発話が意味する感情等によって構成される。
これにより、様々なタイプの応答候補、例えば、ユーザ発話から認識された語を確認するための応答候補や、ユーザ発話に含まれる事象を感情語を含む表現で評価した応答候補や、ユーザ発話に含まれる事象に起因する事象を表す応答候補などが生成される。
[第2の実施の形態]
図11は、第2の実施の形態に係る応答生成装置20の概略的な構成を示すブロック図である。応答生成装置20は、入力部12、応答生成部14、応答候補集約部15、応答選択部16、および出力部18を備えている。ここで、図11において、図1と同一もしくは同等の部分には同じ記号を付し、その説明を省略する。
応答候補集約部15は、シソーラスを備え、応答生成部14が生成した複数の応答候補それぞれについて、シソーラスを用いて応答候補に含まれる用語をその上位概念に相当する他の用語に置き換えて生成し直す。なお、シソーラスとは、図12に示すように、用語を同義語や意味上の類似関係、或いは包含関係などにより階層的に分類した辞書をいう。なお、用語の置き換えて応答候補を生成し直すにより、結果として複数の応答候補が同一内容の応答候補に集約されることから、以下では、応答候補の生成後に用語の置き換え等により応答候補を生成し直すことを「集約」と表現する。
応答選択部16は、応答候補集約部15で集約した後の応答候補からより多くの認識候補に対応できる応答を選択したり、さらに、音声認識の信頼度を考慮した上で応答を選択する。
以上のように構成された応答生成装置20は、ユーザとの間で例えば次のような対話例2を実現することができる。
(対話例2)
ユーザ発話1:遠足の途中、小学校で休憩したよ
システム発話2:どんな学校なの?
ユーザ発話3:大きい学校だったよ、トイレもきれいだった
システム発話4:そうなんだ
以下、この応答生成装置20における応答生成の流れを説明する。
まず、応答生成装置20の入力部12は、例えば上記対話例2のユーザ発話1などのユーザ発話を音声認識して、複数の音声認識候補を応答生成部14に入力する。以下では、図13に示すように、「小学校」「中学校」「駐車場」の3つの音声認識結果とその信頼度が応答生成部14に入力された場合を例に挙げて、これ以降の処理についてより具体的に説明する。
応答生成部14は、第1の実施の形態において説明したように、図13の音声認識候補のそれぞれに対して応答候補を生成する。その結果、図14(A)(B)に示す通り、「小学校」という認識候補からは「どんな小学校なの?」、「中学校」という認識候補からは「どんな中学校なの?」、「駐車場」という認識候補からは「どこの駐車場なの?」という応答候補が生成される。
応答候補集約部15は、図12に示すようなシソーラスを用いて、応答生成部14が生成した応答候補に含まれる語をシソーラスの上位概念に相当する語に置き換える。図12において、図13に示す音声認識候補「小学校」や「中学校」の上位概念に相当する語は「学校」であり、音声認識候補「駐車場」の上位概念に相当する語は「保管場所」である。従って、図14(C)に示す通り、「どんな小学校なの?」は「どんな学校なの?」に言い換えられ、「どんな中学佼なの?」は「どんな学校なの?」に言い換えられ、「どこの駐車場なの?」は「どこの保管場所なの?」に言い換えられる。なお、どの程度上位概念化するかは、特に限定されないが、例えば音声認識候補の階層レベルや、音声認識された用語の種類等に応じて上位概念化すればよい。
応答選択部16は、応答候補集約部15での集約後の応答候補から適切な応答候補を選択する。応答候補の選択の方法は第1の実施の形態と同様である。例えば、図9の処理ルーチンを実行して図14(C)に示す応答候補から応答候補を選択する場合には、「どんな学校なの?」が選択され、応答が確定する(上記対話例2のシステム発話2も参照。)。
以上説明した例では、応答候補集約部15は、応答生成部14が生成した応答候補のそれぞれについて、シソーラスを用いてその応答候補に含まれる語を上位概念に相当する語に置き換えた応答候補を生成し、該集約後の応答候補から適切な応答候補を選択する例について説明したが、これに限定されず、例えば、応答候補に含まれる用語から複数の応答候補間で共通する部分のみを残して集約し、集約後の応答候補から適切な応答候補を選択するようにしてもよい。
例えば、応答生成部14は、図15(A)(B)に示すように、「小学校」という認識候補からは「どんな小学校なの?」、「中学校」という認識候補からは「どんな中学校なの?」、「駐車場」という認識候補からは「どこの駐車場なの?」という応答候補を生成する。
応答候補集約部15は、応答生成部14で生成されたすべての応答候補を比較し、各応答候補に含まれる用語のうち複数の応答候補に共通する部分だけを残し、共通部分以外を削除することで、図15(C)に示すように応答候補を集約する。ここでは、2つの応答候補において、「学校」という単語が共通であるため、「小」および「中」という部分を削除し、「どんな学校なの?」という応答候補を生成する。また、「どこの駐車場なの?」という応答候補については、他の応答候補と共通な部分が存在しないため、言い換えは行われない。なお、ここで、終助詞など、テンプレートによって共通に生成された部分は、共通箇所とはみなさない。
応答選択部16は、集約後の応答候補から適切な応答を選択する。例えば、図9の処理ルーチンを実行して図15(C)に示す応答候補から応答候補を選択する場合には、「どんな学校なの?」が選択される。
また、応答候補を各応答候補に含まれる共通の単語から推論される概念を表す応答候補に生成し直しても良い。
例えば、図16(A)に示す「100m」「200m」が音声認識候補である場合に、応答生成部14で、図16(B)に示すように、「100mなの?」および「200mなの?」という応答候補が生成されたとする。ここで、各応答候補に共通する部分は「m(メートル)」である。
予め図16(D)に示すような推論ルールがデータベース化されていた場合には、応答候補集約部15は、該データベースを参照して、2つの音声認識結果に共通する「m(メートル)」から「長さ」という概念が推論される。従って、応答候補集約部15は、図16(C)に示すように、推論された概念を表す「そんなに長く?」という応答候補を生成できる。
また、各応答候補を感情を表す応答候補に生成し直してもよい。
例えば、応答生成部14が、図17(A)(B)に示すように、「小学校」という認識候補からは「小学校に行くの?」、「中学校」という認識候補からは「中学校に行くの?」、「進学校」という認識候補からは「進学校に行くの?」という応答候補を生成する。
応答候補集約部15は、応答生成部14で生成された各応答候補を、各応答候補が表す感情を表現した応答候補に生成し直す。例えば、予め定められたルールに従って、各応答候補に含まれる名詞や述語等からポジティブ(望ましい)な感情に該当するか、ネガティブ(望ましくない)な感情に該当するかを判断する。そして、ポジティブな感情に該当すると判断された応答候補については、ポジティブな感情を表現した共通の応答候補に言い換える。ネガティブな感情に該当すると判断された応答候補については、ネガティブな感情を表現した共通の応答候補に変換する。
なお、ポジティブな感情語(楽しい、美しい、笑う、など)とネガティブな感情語(イヤだ、泣く、大変、など)は予め所定の記憶手段に登録されており、応答候補集約部15は、この記憶手段からポジティブな感情を表す感情語を選択して用いて感情を表現した応答候補を生成する。図17(C)に各応答候補を感情を表現した応答候補に言い換えた変換例を示す。
応答選択部16は、集約後の応答候補から適切な応答を選択する。例えば、図9の処理ルーチンを実行して図17(C)に示す応答候補から応答候補を選択する場合には、「大変だね?」が選択される。
このように、生成された応答候補を集約し、該集約結果から適切な応答候補を選択するようにしたため、第1の実施の形態と同様の効果を奏するとともに、個々の認識候補に対してさらに矛盾の少ない応答を出力することができ、誤応答が低減する。
第1の実施の形態に係る応答生成装置の概略的な構成を示すブロック図である。 入力部の音声認識結果の一例を示す図である。 応答生成部が行なう応答候補生成処理ルーチンの流れを示すフローチャートである。 質問情報の具体例を示す図である。 応答用のテンプレートの具体例を示す図である。 時制終助詞および疑問終助詞を登録したテーブルの一例を示す図である。 応答生成部で生成される応答候補の具体例を示す図である。 第1の実施の形態の応答生成部で、図2に示す各音声認識候補に対して応答候補が生成された場合の生成結果を示す表である。 応答選択部が行なう応答候補選択処理ルーチンの流れを示すフローチャートである。 音声認識の信頼度を考慮して応答候補を選択する場合の応答候補選択処理ルーチンの流れを示すフローチャートである。 第2の実施の形態に係る応答生成装置の概略的な構成を示すブロック図である。 シソーラスの具体例を示す図である。 入力部の音声認識結果の一例を示す図である。 応答候補を、シソーラスを用いて集約する場合の具体例を説明する説明図である。 応答候補を、応答候補に含まれる用語から複数の応答候補に共通する部分以外を削除して集約する場合の具体例を説明する説明図である。 応答候補を、複数の応答候補に共通する語から推論される概念を表現する応答候補に言い換える場合の具体例を説明する説明図である。 応答候補を、応答候補が表す感情を表現する応答候補に言い換える場合の具体例を説明する説明図である。
符号の説明
10 応答生成装置
12 入力部
14 応答生成部
15 応答候補集約部
16 応答選択部
18 出力部
20 応答生成装置

Claims (10)

  1. ユーザの発話を認識し、複数の認識候補を生成する認識手段と、
    前記認識手段で生成された認識候補毎に、該認識候補に含まれる用語を含む応答候補を生成する第1の生成処理、及び前記第1の生成処理で生成した応答候補に、集約が可能な複数の応答候補が存在する場合に、該複数の応答候補を、該複数の応答候補の内容が集約された同一内容の応答候補に生成し直す第2の生成処理を行う生成手段と、
    前記生成手段で生成された集約後の応答候補から、該集約後の応答候補を生成する基となった認識候補が最も多い応答候補を選択する選択手段と、
    前記選択手段で選択された応答候補を出力する応答出力手段と、
    を含む応答生成装置。
  2. ユーザの発話を認識し、複数の認識候補を生成する認識手段と、
    前記認識手段で生成された認識候補毎に、該認識候補に含まれる用語を含む応答候補を生成する第1の生成処理、及び前記第1の生成処理で生成した応答候補に、集約が可能な複数の応答候補が存在する場合に、該複数の応答候補を、該複数の応答候補の内容が集約された同一内容の応答候補に生成し直す第2の生成処理を行う生成手段と、
    前記生成手段で生成された集約後の応答候補毎に、該集約後の応答候補を生成する基となった認識候補の認識の信頼度に基づいて前記ユーザ発話に対する応答の適切さを示す数値を算出し、該算出した数値が示す適切さが最も高い応答候補を前記生成された応答候補から選択する選択手段と、
    前記選択手段で選択された応答候補を出力する応答出力手段と、
    を含む応答生成装置。
  3. 前記生成手段は、前記第2の生成処理において、前記第1生成処理で生成した応答候補に含まれる用語をその上位概念に相当する用語に置き換えて応答候補を生成し直す
    請求項1又は請求項2に記載の応答生成装置。
  4. 前記生成手段は、前記第2の生成処理において、シソーラスを用いて前記第1生成処理で生成した応答候補に含まれる用語をその上位概念に相当する用語に置き換えて応答候補を生成し直す
    請求項3に記載の応答生成装置。
  5. 前記集約が可能な複数の応答候補とは、一部分が同一の複数の応答候補であって、
    前記生成手段は、前記第2生成処理において、前記第1生成処理で生成した応答候補に、一部分が同一の複数の応答候補が存在する場合に、該複数の応答候補を、同一の部分以外の部分を削除した同一内容の応答候補に生成し直す、
    請求項1又は請求項2記載の応答生成装置。
  6. 前記集約が可能な複数の応答候補とは、一部分が同一の複数の応答候補であって、
    前記生成手段は、前記第2生成処理において、前記第1生成処理で生成した応答候補に、一部分が同一の複数の応答候補が存在する場合に、該複数の応答候補を、該同一の部分から類推される概念を表す同一内容の応答候補に生成し直す、
    請求項1又は請求項2記載の応答生成装置。
  7. 前記集約が可能な複数の応答候補とは、応答候補に含まれる用語又は応答候補全体の少なくとも一方から推論される概念が同一の複数の応答候補であって、
    前記生成手段は、前記第2生成処理において、前記第1生成処理で生成した応答候補に、応答候補に含まれる用語又は応答候補全体の少なくとも一方から推論される概念が同一の複数の応答候補が存在する場合に、該複数の応答候補を、該推論された概念が表現された同一内容の応答候補に生成し直す、
    請求項1又は請求項2記載の応答生成装置。
  8. 前記応答候補に含まれる用語又は応答候補全体の少なくとも一方から推論される概念は、感情又は上位概念である、
    請求項に記載の応答生成装置。
  9. コンピュータを、
    ユーザの発話を認識し、複数の認識候補を生成する認識手段、
    前記認識手段で生成された認識候補毎に、該認識候補に含まれる用語を含む応答候補を生成する第1の生成処理、及び前記第1の生成処理で生成した応答候補に、集約が可能な複数の応答候補が存在する場合に、該複数の応答候補を、該複数の応答候補の内容が集約された同一内容の応答候補に生成し直す第2の生成処理を行う生成手段、
    前記生成手段で生成された集約後の応答候補から、該集約後の応答候補を生成する基となった認識候補が最も多い応答候補を選択する選択手段、および
    前記選択手段で選択された応答候補を出力する応答出力手段、
    として機能させるためのプログラム。
  10. コンピュータを、
    ユーザの発話を認識し、複数の認識候補を生成する認識手段、
    前記認識手段で生成された認識候補毎に、該認識候補に含まれる用語を含む応答候補を生成する第1の生成処理、及び前記第1の生成処理で生成した応答候補に、集約が可能な複数の応答候補が存在する場合に、該複数の応答候補を、該複数の応答候補の内容が集約された同一内容の応答候補に生成し直す第2の生成処理を行う生成手段、
    前記生成手段で生成された集約後の応答候補毎に、該集約後の応答候補を生成する基となった認識候補の認識の信頼度に基づいて前記ユーザ発話に対する応答の適切さを示す数値を算出し、該算出した数値が示す適切さが最も高い応答候補を前記生成された応答候補から選択する選択手段、および
    前記選択手段で選択された応答候補を出力する応答出力手段、
    として機能させるためのプログラム。
JP2008038814A 2008-02-20 2008-02-20 応答生成装置およびプログラム Expired - Fee Related JP4893655B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008038814A JP4893655B2 (ja) 2008-02-20 2008-02-20 応答生成装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008038814A JP4893655B2 (ja) 2008-02-20 2008-02-20 応答生成装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2009198686A JP2009198686A (ja) 2009-09-03
JP4893655B2 true JP4893655B2 (ja) 2012-03-07

Family

ID=41142255

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008038814A Expired - Fee Related JP4893655B2 (ja) 2008-02-20 2008-02-20 応答生成装置およびプログラム

Country Status (1)

Country Link
JP (1) JP4893655B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015127758A (ja) * 2013-12-27 2015-07-09 シャープ株式会社 応答制御装置、制御プログラム
JP6097776B2 (ja) * 2015-02-25 2017-03-15 日本電信電話株式会社 単語選択装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2009198686A (ja) 2009-09-03

Similar Documents

Publication Publication Date Title
US10936664B2 (en) Dialogue system and computer program therefor
Adel et al. Recurrent neural network language modeling for code switching conversational speech
JP6815899B2 (ja) 出力文生成装置、出力文生成方法および出力文生成プログラム
KR101534413B1 (ko) 상담 정보를 이용하여 상담 대화를 제공하는 방법 및 장치
JP2010140282A (ja) 対話装置、対話方法、対話プログラムおよび記録媒体
CN110245349B (zh) 一种句法依存分析方法、装置及一种电子设备
JP6810580B2 (ja) 言語モデル学習装置およびそのプログラム
WO2018109806A1 (ja) モデル学習装置及びモデル学習方法
KR20180022156A (ko) 대화 관리 장치 및 방법
JP5158022B2 (ja) 対話処理装置、対話処理方法、及び対話処理プログラム
JP2008276543A (ja) 対話処理装置、応答文生成方法、及び応答文生成処理プログラム
JP4893655B2 (ja) 応答生成装置およびプログラム
JP6605997B2 (ja) 学習装置、学習方法及びプログラム
Sileo et al. Discourse-based evaluation of language understanding
Ghadiri et al. Integration of text and graph-based features for detecting mental health disorders from voice
del-Hoyo et al. Hybrid text affect sensing system for emotional language analysis
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
JP6375367B2 (ja) 反論生成方法,反論生成システム
JP2017167378A (ja) 単語スコア計算装置、単語スコア計算方法及びプログラム
JP5381211B2 (ja) 音声対話装置及びプログラム
JP5344396B2 (ja) 言語学習装置、言語学習プログラム及び言語学習方法
JP5251132B2 (ja) 応答生成装置、及び応答生成プログラム
JP6287754B2 (ja) 応答生成装置、応答生成方法及び応答生成プログラム
WO2022249946A1 (ja) 対話装置及びその訓練装置
JP5744150B2 (ja) 発話生成装置、方法、及びプログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20091118

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20091118

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100617

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110913

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111205

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150106

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150106

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150106

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees