JP6334815B2

JP6334815B2 - 学習装置、方法、プログラムおよび音声対話システム

Info

Publication number: JP6334815B2
Application number: JP2017507165A
Authority: JP
Inventors: 藤井　寛子; 寛子藤井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2015-03-20
Filing date: 2015-03-20
Publication date: 2018-05-30
Anticipated expiration: 2035-03-20
Also published as: WO2016151699A1; US10446146B2; JPWO2016151699A1; US20170148441A1

Description

本発明の実施形態は、学習装置、方法およびプログラムに関する。

近年、スマートフォンなどの小型携帯端末の普及に伴い、自由発話入力の対話システムが普及している。しかし、対話システムに対してユーザがどのような発話を行うかはあらかじめ予測することができないため、システム側がユーザの発話（ユーザ発話）の意図を正しく解釈できないケースも発生する。このような場合、システム側はユーザ発話の意図を誤り、誤った意図をもとに応答を返すか、ユーザ発話の意図推定ができずにユーザに言い直しを求めることになる。ユーザにとっては、システム側が正しくユーザ発話の意図を解釈するまで言い直しや訂正の発話を行う必要があるため、このようなケースは少ないのが望ましい。しかし、システムが正しく意図推定できない発話を把握し、ルールを追加したり正解意図を付与して学習し直すたりするのは、非常にコストがかかる。

上述の問題に対し、ユーザ発話に対する複数の認識結果候補と、音声認識結果の認識スコアとを利用して、同じ誤りを低減するための手法がある。

特開２００９−２５５３８号公報

しかし、認識スコアが高い場合には、ユーザ発話への確認が行われないため、認識スコアは高いがユーザ発話の意図推定が誤っている場合は、ユーザが言い直す必要がある。また、同じ発話でも意図が常に同じとは限らないため、認識スコアが高くても、意図推定が誤る可能性がある。

本開示は、上述の課題を解決するためになされたものであり、意図推定のためのデータ作成コストを低減することができる学習装置、方法およびプログラムを提供することを目的とする。

本実施形態に係る学習装置は、第１格納部、検出部および修正部を含む。学習装置は、ユーザの発話を音声認識した結果である第１テキストから推定された該ユーザの発話意図を用いる。第１格納部は、対話履歴の中で類似する一連の発話を示す類似発話を音声認識した結果である第２テキストと、該類似発話の中で対話が成功したと判定された発話から推定される意図候補と、該意図候補が該第２テキストの意図となる度合いを示す確信度とを少なくとも含む類似情報を格納する。検出部は、前記類似情報から、前記第１テキストと一致する前記第２テキストを含む対応類似情報を検出する。修正部は、前記対応類似情報に含まれる確信度が閾値以上である場合、前記発話意図を、該対応類似情報に含まれる意図候補に修正する。

前提となる対話システムの一例を示す概念図。第１の実施形態に係る学習装置のブロック図。学習装置の類似情報更新処理を示すフローチャート。対話履歴格納部に格納される対話履歴の第１例を示す図。類似情報格納部に格納される類似情報の第１例を示す図。対話履歴の第２例を示す図。類似情報の第２例を示す図。対話履歴の第３例を示す図。類似情報の第３例を示す図。第１の実施形態に係る学習装置の発話登録処理を示すフローチャート。発話意図情報格納部に格納される発話意図情報の一例を示す図。第２の実施形態に係る学習装置のブロック図。第２の実施形態に係る学習装置の発話登録処理を示すフローチャート。第２の実施形態に係る類似情報格納部に格納される類似情報の一例を示す図。第３の実施形態に係る学習装置を示すブロック図。第４の実施形態に係る学習装置を示すブロック図。第４の実施形態に係る対話履歴の一部を抽出した第１例を示す図。図１７の対話履歴に対応する類似情報を示す図。第４の実施形態に係る対話履歴の一部を抽出した第２例である。図１９の対話履歴に対応する類似情報を示す図。第４の実施形態に係る学習装置の類似情報更新処理を示すフローチャート。

以下、図面を参照しながら本実施形態に係る学習装置、方法およびプログラム、および端末について詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。

（第１の実施形態）
本実施形態で前提となる対話システムの一例について図１の概念図を参照して説明する。
図１に示す対話システム１００は、端末１０１と対話処理サーバ１０２とを含む。端末１０１は、ここでは、例えば、ユーザ１０３が使用するタブレット端末、スマートフォンなどの携帯電話であることを想定する。本実施形態では、ユーザ１０３が端末１０１に搭載されるクライアントアプリに対して音声入力を行なうことを前提とするが、テキスト入力するような場合でも同様に処理することができる。
対話処理サーバ１０２は、ネットワーク１０４を介して端末１０１に接続され、端末１０１に音声入力された音声信号を受信して、音声信号に対して音声認識を行い、音声認識結果を得る。対話処理サーバ１０２は、音声認識結果からユーザの意図を推定し、意図に応じた処理を行う対話システムとして動作し、処理結果に基づいて音声認識結果に対する応答処理を行う。応答処理としては、例えば音声認識結果に対する応答である応答テキストを音声合成して合成音声を生成し、合成音声を端末１０１に送信すればよい。なお、上記では対話処理サーバ１０２が音声認識処理および音声合成処理も行うとしているが、別途音声認識サーバおよび音声合成サーバを用意し、音声認識サーバが音声認識処理を行い、音声合成サーバが音声合成処理を行なってもよい。

次に、第１の実施形態に係る学習装置について図２のブロック図を参照して説明する。
第１の実施形態に係る学習装置２００は、発話受理部２０１、意図解析部２０２、類似情報検出部２０３、意図修正部２０４、発話登録部２０５、対話制御部２０６、応答生成部２０７、対話履歴格納部２０８（第２格納部ともいう）、類似発話抽出部２０９、類似情報更新部２１０（第１更新部ともいう）、意図解析情報格納部２１１、類似情報格納部２１２（第１格納部ともいう）および発話意図情報格納部２１３を含む。

なお、発話受理部２０１、意図解析部２０２、対話制御部２０６および応答生成部２０７は、一般的な対話処理装置に含まれる構成であり、本実施形態に係る学習装置２００は、対話処理装置を含む。

発話受理部２０１は、例えば、図１に示す端末１０１のマイクを通じてユーザが発話した音声を受理し、音声を音声認識する。発話受理部２０１は、音声認識されたテキストを発話テキストとして取得する。本実施形態では、ユーザの音声を外部の音声認識サーバに送信することで音声認識を行い、音声認識結果であるテキストを音声認識サーバから受け取ることを想定する。

意図解析部２０２は、発話受理部２０１から発話テキストを受け取り、後述の意図解析情報格納部２１１を参照して発話テキストに対して意図解析を行い、ユーザの発話意図を推定する。
類似情報検出部２０３は、意図解析部２０２から発話テキストおよび発話意図を受け取り、発話テキストが後述の類似情報格納部２１２に格納されている類似情報に含まれるテキストと一致するか否かを判定する。発話テキストと一致するテキストを含む類似情報が類似情報格納部２１２に格納される場合は、該当する類似情報（対応類似情報ともいう）を検出する。類似情報検出部２０３は、発話テキストと一致するテキストを含む類似情報が類似情報格納部２１２に格納されていない場合は、そのまま発話テキストおよび発話意図を対話制御部２０６に送る。

意図修正部２０４は、類似情報検出部２０３から、発話テキスト、発話意図および対応類似情報を受け取り、後述の類似情報の確信度が閾値以上である場合に、ユーザの発話意図を類似情報に含まれる意図候補に修正する。

発話登録部２０５は、意図修正部２０４から発話テキストと修正された発話意図とを受け取り、発話テキストと発話意図との組を、後述の発話意図情報格納部２１３に登録する。なお、発話登録部２０５は、発話テキストを発話受理部２０１から受け取ってもよい。

対話制御部２０６は、発話意図の修正がない場合は、類似情報検出部２０３から発話テキストと発話意図とを受け取り、対話処理を行なって対話処理結果を生成する。発話意図の修正がある場合は、対話制御部２０６は、意図修正部２０４から発話テキストと修正された発話意図とを受け取り、対話処理を行なって対話処理結果を生成する。

応答生成部２０７は、対話制御部２０６から対話処理結果を受け取り、対話処理結果に基づいて、応答テキストを生成し、外部(クライアント)に送信またはユーザに提示する。

対話履歴格納部２０８は、意図解析部２０２から発話テキストを、応答生成部２０７から応答テキストを受け取り、対話履歴として格納する。対話履歴については、図５を参照して後述する。

類似発話抽出部２０９は、対話履歴格納部２０８から未処理の対話履歴を抽出し、同一のユーザＩＤの発話テキストのみを時系列に並べた場合に、対話が成功したと判定された発話に類似する一連の発話を含む類似発話を抽出し、類似発話をグループ化した類似発話グループを生成する。なお、ユーザＩＤは、対話処理サーバ１０２が複数のクライアントからの要求を処理する際に、どの対話に対するユーザ発話であるかを特定するのに利用される識別子である。なお、ユーザＩＤは、必ずしもユーザ固有の識別子でなくてもよく、例えば、ユーザが利用するクライアント端末単位、あるいはセッション単位（ユーザ発話が、進行中の対話に対する発話か、または新規に対話を開始するのかを判別できる粒度）で一意であればよい。

類似情報更新部２１０は、類似発話抽出部２０９から類似発話グループを受け取り、類似発話グループの情報に基づいて、後述の類似情報格納部２１２に格納される類似情報を更新する。また、意図修正部２０４から修正された発話意図および発話テキストを受け取る場合は、修正された発話意図および発話テキストの内容で類似情報格納部２１２に格納される類似情報を更新する。なお、類似情報更新部２１０は、発話登録部２０５から、登録に関するフラグを受け取る場合は、類似情報格納部２１２にフラグを登録する。

意図解析情報格納部２１１は、音声対話処理の意図推定処理に一般的に用いられる統計データである。意図解析情報格納部２１１は、例えば、予め定義した発話意図の種類を示す発話意図ＩＤと、この発話意図ＩＤに対応する発話テキストとを対応付けた組を学習データとして機械学習し、発話意図ＩＤと発話テキストとに関する統計データを格納する。

類似情報格納部２１２は、対話履歴の中で類似する一連の発話を示す類似発話を音声認識した結果の発話テキストと、類似発話の中で対話が成功したと判定された発話から推定される意図候補と、意図候補が発話テキストの意図となる度合いを示す確信度とを含む類似情報を格納する。類似情報格納部２１２の詳細については、例えば、図５を参照して後述する。

発話意図情報格納部２１３は、発話テキストと発話意図（修正がある場合は、修正された発話意図）との組を対応付けて格納する。発話意図情報格納部２１３の詳細については、図１１を参照して後述する。

次に、学習装置２００の類似情報更新処理について図３のフローチャートを参照して説明する。
ステップＳ３０１では、類似発話抽出部２０９が、対話履歴格納部２０８に格納される対話履歴から未処理の対話履歴の一部を抽出し、抽出した対話履歴中の発話テキストをユーザＩＤごとに時刻でソートする。対話履歴が未処理であるか否かは、例えば、処理が完了した発話テキストに処理完了を示すフラグを付与しておき、類似発話抽出部２０９が、フラグを確認することにより未処理であるか否かを判定すればよい。なお、フラグに限らず、未処理の対話履歴について類似情報更新処理が行われるような仕組みであればよい。
ステップＳ３０２では、類似発話抽出部２０９が、同一のユーザＩＤの発話の中で、類似発話が存在するか否かを判定する。類似発話が存在するか否かは、例えば、ユーザの発話のうち、処理対象の発話に関する発話テキストと、同一ユーザの１つ前の発話に関する発話テキストとの、２文間の単語の編集距離による類似度を算出すればよい。なお、同一ユーザの１つ前の発話に限らず、１つ後の発話でもよいし、前後の発話であればよい。または、単語ベクトルのコサイン距離に関する類似度を算出してもよいし、フレーズの意味的類似を考慮してもよい。すなわち、文章間の類似度を算出するための一般的な方法を用いればよい。類似発話抽出部２０９は、類似度が閾値以上であれば類似発話が存在すると判定すればよい。類似発話が存在する場合は、ステップＳ３０３に進み、類似発話が存在しない場合は、処理を終了する。

ステップＳ３０３では、類似発話抽出部２０９が、類似発話をグループ化し、類似発話グループを生成する。
ステップＳ３０４では、類似情報更新部２１０が、類似発話グループごとに、類似発話グループ内のユーザ発話に対して対話が成功したと判定された発話、つまり、正しい発話意図が付与されたと推定される発話を抽出する。一般に、ユーザ発話に対するシステム応答が適切でない場合、ユーザは対話システムがユーザ発話の意図の解釈を誤ったと考え、表現を少しだけ変えて言いなおすことが多い。そして、言い直したユーザ発話が対話システムに正しく解釈された場合は、次の対話に進む。すなわち、ある類似発話グループ内で、最新のユーザ発話（時系列で最後に出現するユーザ発話）に対する発話意図は、ユーザの発話意図と一致している可能性が高いと考えられる。

よって、本実施形態では、類似発話グループ内で、最新の発話テキストを代表類似発話とし、代表類似発話に対応する推定発話意図を意図候補として、代表類似発話、意図候補および、類似発話グループ内の代表類似発話以外の各発話テキストとを対応付けて類似情報格納部２１２に格納されるデータを更新する。以上で、学習装置２００の類似情報更新処理を終了する。

次に、対話履歴格納部２０８に格納される対話履歴の第１例について図４を参照して説明する。
図４に示す対話履歴４００は、ある同一のユーザＩＤの発話に関する発話テキスト（「Ｕ：」で始まるテキスト）と、ユーザの発話に対するシステム応答である応答テキスト（「Ｓ：」で始まるテキスト）との対を、時系列に並べたものである。

次に、類似情報格納部２１２に格納される類似情報の第１例について図５を参照して説明する。
図５に示すテーブル５００は、類似情報５０１を１つのエントリとして含むテーブルである。類似情報５０１は、発話テキスト５０２、代表類似発話５０３、意図候補５０４および確信度として出現頻度５０５を含み、それぞれ対応付けられる。

発話テキスト５０２は、ユーザの発話を音声認識した結果のテキストである。代表類似発話５０３は、類似発話グループのうちの最新の発話テキストである。意図候補５０４は、代表類似発話５０３に対する推定された発話意図である。出現頻度５０５は、類似発話グループのうちの代表類似発話以外の発話テキスト５０２と、発話テキスト５０２の属する類似発話グループの意図候補５０４との組が、対話履歴内に出現した回数である。なお、ここでは確信度として出現頻度を用いる例を説明するが、これに限らず、重み付けなど、意図候補が発話テキストの意図であるという度合いを評価できれば、どのような値を用いてもよい。

具体的には、発話テキスト５０２「太ももの裏側がピリピリする」、意図候補５０４「痛い（太もも）」、代表類似発話５０３「太ももの後ろ側が痛い」および出現頻度５０５「２０」が対応付けられ、類似情報５０１の１つのエントリとなる。
なお、本実施形態では、意図候補５０４は、ユーザの発話意図を表す意図タグと付加情報とを含む。具体的には、意図候補５０４「痛い（太もも）」のうち、意図タグは「痛い」、付加情報は「太もも」であり、ここでは、意図タグが症状、付加情報が症状が出ている部位を示す。

次に、学習装置２００の具体的な類似情報更新処理の第１例について図４および図５を参照して説明する。
ここでは、図４に示す対話履歴４００を未処理の対話履歴として類似情報更新処理を行い、図３に示すステップＳ３０２の処理として、対象の発話テキストと、対象の発話テキストの直前、すなわち１つ前の発話に関する発話テキストとの類似度を単語ベクトルのコサイン距離を用いて類似度を判定する場合を想定する。対象の発話テキストと１つ前の発話テキストとを比較するのは、発話間の時間が空いている場合、システムにおける発話意図の推定誤りに対するユーザの言い直しであるという可能性が低いと考えられるからである。よって、発話意図の推定精度を向上させるためには、できるだけ直近の発話同士を比較するのが望ましい。

類似発話抽出部２０９は、ユーザ発話の発話テキスト４１１「太ももの裏側がピリピリする。」について類似度の判定を行う場合、発話テキスト４１１と１つ前の発話テキスト４１０「いいえ。」とを比較する。まず、類似発話抽出部２０９は、類似度の判定の対象となる２つの発話テキストをそれぞれ形態素解析し、名詞、動詞、形容詞など、発話の特徴となり得る形態素を抽出し、単語ベクトルを生成する。例えば、発話テキスト４１０「いいえ。」の場合、単語ベクトルは（いいえ）、発話テキスト４１１「太ももの裏側がピリピリする。」の場合、単語ベクトルは（太もも，裏側，ピリピリ，する）となる。

続いて、類似発話抽出部２０９は、２文の単語ベクトルの要素を全て含むベクトル（いいえ，太もも，裏側，ピリピリ，する）を生成する。発話テキストごとに、このベクトルを用いて単語ベクトルの要素を出現回数で表現すると、それぞれ次のようになる。
発話テキスト４１０：（１，０，０，０，０）
発話テキスト４１１：（０，１，１，１，１）
類似発話抽出部２０９は、２つのベクトルのコサイン距離を求める。ベクトルＶ_１とＶ_２とのコサイン距離は、以下の式により算出できる。
コサイン距離ｃｏｓ（Ｖ_１，Ｖ_２）＝Ｖ_１・Ｖ_２／｜Ｖ_１｜｜Ｖ_２｜・・・（１）
（１）式を用いて上記発話テキストのコサイン距離を求めると、０／（１＊２）＝０となる。同様に、発話テキスト４１２「太ももの後ろ側がい。」と発話テキスト４１１「太ももの裏側がピリピリする。」とのコサイン距離、発話テキスト４１３「太ももの後ろ側が痛い」と発話テキスト４１２「太ももの後ろ側がい。」とのコサイン距離は、表１のように表現できる。なお、発話テキスト４１２「太ももの後ろ側がい。」は、音声認識結果が誤っている場合の例である。

なお、単語同士が意味的に類似する類義語が２つの単語ベクトル間で存在する場合は、類義語は同じ要素としてまとめられる。例えば、発話テキスト４１２と発話テキスト４１１とのコサイン距離を計算する場合は、「後ろ側」と「裏側」とは類義語であるので、同じ要素としてまとめる。類義語は、一般的な類義語辞書を使って判定すればよい。
対象の２文が類似しているか否かの判定は、算出したコサイン距離の値が予め定めた閾値以上であるか否かにより判定すればよい。例えば、閾値を「０．５」とすると、発話テキスト４１０「いいえ」と発話テキスト４１１「太ももの裏側が痛い」とは、類似発話ではない。一方、発話テキスト４１１、４１２および４１３は一連の発話を含む類似発話であると判定できる。よって、この例の場合、発話テキスト４１１、４１２および４１３が１つの類似発話グループとして生成される。

図４の場合、発話テキスト（４１１，４１２，４１３）の時系列で最後に出現する発話テキスト４１３「太ももの後ろ側が痛い」に対し、システム応答「太ももの後ろ側が痛いということですね。他に症状はありますか。」がなされる。その後、システム側の意図推定が正しく行われたとユーザが判断したため、次の発話「特にないです。」に移行する。したがって、類似情報更新部２１０は、発話テキスト４１３「太ももの後ろが痛い」を代表類似発話として決定し、発話テキスト４１３に対して推定された発話意図「痛い（太もも）」を、この発話を含む類似発話グループ内の発話に対する発話意図、すなわち意図候補として決定する。

類似情報更新部２１０は、生成した全ての類似発話グループについて、代表類似発話を決定した後、類似情報格納部２１２を参照して、類似情報の更新を行う。具体的には、類似発話グループごとに、類似発話グループ内の代表類似発話以外の発話テキストと一致する発話テキスト５０２を有し、かつ代表類似発話に対して推定された発話意図と一致する意図候補５０４を有するエントリが類似情報格納部２１２にあるか否かを判定する。

このようなエントリがあれば、出現頻度５０５の値を１つ増やす。このようなエントリがなければ新たなエントリを類似情報格納部２１２内に追加し、追加したエントリに含まれる出現頻度５０５を「１」とする。
図４の対話履歴４００の例の場合、類似発話グループは、発話テキスト４１１、４１２、および４１３からなるグループのみである。また、この類似発話グループ内の代表類似発話は、前述した通り発話テキスト４１３となる。従って、類似情報更新部２１０は、発話テキスト４１１、４１２について類似情報内に対応するエントリがあるか否かを判定する。類似情報更新部２１０は、発話テキスト４１１「太ももの裏側がピリピリする。」と、発話テキスト４１３に対応する発話意図（「痛い（太もも）」）とに適合するエントリがあり、その出現頻度が「１９」であったとすると、このエントリの出現頻度５０５を「２０」に変更する。また、類似情報更新部２１０は、発話テキスト４１２「太ももの後ろ側がい。」と発話テキスト４１３に対応する発話意図に適合するエントリがない場合、図５のエントリ５０６のように新たにエントリを追加する。

次に、対話履歴の具体的な類似情報更新処理の第２例について、図６および図７を参照して説明する。
図６は、対話履歴の第２例であり、対話履歴６００は、金融機関での手続きに通帳と印鑑が必要であり、ユーザの手元にこれらがあるか否かを確認する対話の例である。それぞれの発話テキストについて類似度を算出する。具体的に、発話テキスト６０２「ハンコの所在はわかりません」と発話テキスト６０１「ｘｘｘの手続きがしたい」との類似度、発話テキスト６０３「ハンコはな」と発話テキスト６０２「ハンコの所在はわかりません」との類似度、発話テキスト６０４「銀行印が見つかりません」と発話テキスト６０３「ハンコはな」との類似度は、それぞれ表２のようになる。

図４の例と同じく、類似度判定の閾値を「０．５」とすると、発話テキスト６０２と発話テキスト６０３、発話テキスト６０３と発話テキスト６０４はそれぞれ類似していると判定され、発話テキスト６０２、６０３および６０４が、類似発話グループして生成される。
図７は、図６に対応する類似情報の第２例であり、類似情報更新部２１０は、図５の場合と同様に更新すればよい。

次に、学習装置２００の具体的な類似情報更新処理の第３例について図８および図９を参照して説明する。
図８は、対話履歴の第３例であり、金融機関等での相談サービスに対して、相続税の計算シミュレーションを希望している対話履歴の一部である。この例では、発話テキスト８０１「相続するとどのくらい税金がかかるの」、発話テキスト８０２「相続にかかる税額が知りたい」、および発話テキスト８０３「相続税の金額が知りたい」の類似度は、表３のように表すことができる。

図４の例と同じく、類似度の閾値を「０．５」とすると、発話テキスト８０１と発話テキスト８０２、発話テキスト８０２と発話テキスト８０３はそれぞれ類似していると判定され、発話テキスト８０１、８０２および８０３は、類似発話グループとして生成される。
図９は、図８に対応する類似情報の第３例である。類似情報更新部２１０は、図５の場合と同様に更新すればよい。

次に、第１の実施形態に係る学習装置２００の発話登録処理について図１０のフローチャートを参照して説明する。
ステップＳ１００１では、発話受理部２０１が、音声認識結果となる発話テキスト（第１テキストともいう）を受理する。
ステップＳ１００２では、意図解析部２０２が、第１テキストに対して意図解析を行い、ユーザ発話の発話意図を判定する。

ステップＳ１００３では、類似情報検出部２０３が、類似情報格納部２１２を参照して、第１テキストと一致する発話テキストを含む類似情報のエントリが存在するか否かを判定する。該当するエントリが存在する場合は、ステップＳ１００４に進み、該当するエントリが存在しない場合は、ユーザ発話の発話意図はステップＳ１００２で推定した発話意図であるとして、ステップＳ１００９に進む。
ステップＳ１００４では、類似情報検出部２０３が、第１テキストと発話テキストとが一致するエントリを抽出する。

ステップＳ１００５では、意図修正部２０４が、抽出されたエントリが条件を満たすか否かを判定する。ここでは、エントリに含まれる出現頻度が、予め定義した閾値以上であるか否かを判定する。出現頻度が閾値以上である場合、ステップＳ１００６に進み、出現頻度が閾値未満である場合、ユーザ発話の発話意図はステップＳ１００２で推定した発話意図であるとして、ステップＳ１００９に進む。
ステップＳ１００６では、意図修正部２０４が、発話意図を、抽出されたエントリに含まれる意図候補に修正する。

ステップＳ１００７では、発話登録部２０５が、発話テキストと修正された発話意図との組を発話意図情報格納部２１３に登録する。
ステップＳ１００８では、類似情報更新部２１０が、発話登録部２０５から発話意図情報が格納されたことを示すフラグを受け取り、エントリに含まれる発話テキストと意図候補が発話意図情報に格納されたことを示す情報を、類似情報格納部２１２に登録する。これは、例えば、類似情報格納部２１２に格納されるエントリに、発話意図情報が格納されたことを示すフラグを対応付ければよい。

ステップＳ１００９では、対話制御部２０６が、第１テキストと修正後の発話意図、修正がない場合はステップＳ１００２で推定した発話意図とを用いて対話処理を行う。
ステップＳ１０１０では、応答生成部２０７が、対話処理結果を応答メッセージに変換し、ユーザに対して出力する。以上で学習装置２００の発話登録処理を終了する。

発話意図情報格納部２１３に格納される発話意図情報の一例について図１１を参照して説明する。
図１１の発話意図情報１１０１は、発話意図識別情報１１０２および発話テキスト１１０３を含む。発話意図識別情報１１０２は、意図タグと付加情報とを含む。具体的には、例えば、発話意図情報１１０１として、発話意図識別情報１１０２「腫れ（瞼）」と発話テキスト１１０３「瞼が腫れちゃった」とが対応付けられる。

ここで、類似情報の内容が図５の類似情報のようなエントリを含んでおり、図１０のステップＳ１００５で利用する閾値（出現頻度の値）が「２０」である場合に、システムに対してユーザが「太ももの裏側がピリピリする」と発話した場合を考える。

この時、類似情報検出部２０３は、図１０に示すステップＳ１００３で、ユーザ発話の発話テキストに対応する類似情報５０１のエントリを検出し、意図修正部２０４がステップＳ１００５で、類似情報５０１の出現頻度と閾値とを比較する。類似情報５０１の出現頻度は「２０」であり、条件を満たすので、意図修正部２０４は発話意図を修正する。ステップＳ１００６において、発話登録部２０５は、ユーザ発話の発話テキスト「太ももの裏側がピリピリする」と、類似情報５０１の意図候補５０４のうちの意図候補「痛み（太もも）」との対を、発話意図情報のエントリ１１０４のように登録する。なお、発話登録部２０５は、類似情報５０１の意図候補５０４のうちの意図タグ「痛み」と発話テキストとの組を登録するようにしてもよい。
なお、エントリを登録する前に、発話登録部２０５が、類似情報のエントリに対応するデータが発話意図情報に反映されているか否かを示すフラグを確認し、フラグが立っていない場合に登録するようにしてもよい。

また、類似情報更新部２１０は、発話登録部２０５により発話意図情報に発話テキストと発話意図識別情報が登録された場合、発話登録部２０５から受け取った発話テキストと発話意図識別情報とに基づいて、類似情報格納部２１２から、対応する発話テキストを含む類似情報のエントリを削除してもよい。これによって、データ量を削減することができる。

さらに、類似情報格納部２１２に格納される類似情報に、類似情報のエントリが生成された日付を示す日時情報が含まれてもよい。類似情報更新部２１０は、類似情報に日時情報が含まれる場合、日時情報が示す日時から第１期間を経過した類似情報を削除してもよい。これによって、発話事例が少ないデータを削除できるので、データ量を削減することができる。

以上に示した第１の実施形態によれば、類似情報に含まれる代表類似発話の意図候補を参照して、ユーザの発話に対して推定された発話意図を修正することで、ユーザが言い直しや訂正をすること無しに、意図を推定できない発話に対しても適切な発話意図を付与することができる。よって、意図推定のためのデータ作成コストを低減することができ、発話の意図推定に関するデータを増加させることができる。

（第２の実施形態）
第２の実施形態では、意図修正部２０４で修正した意図が正しいか否かをユーザに確認する点が異なる。

第２の実施形態に係る学習装置を図１２のブロック図を参照して説明する。
第２の実施形態に係る学習装置１２００は、発話受理部２０１、類似情報検出部２０３、意図修正部２０４、発話登録部２０５、対話制御部２０６、応答生成部２０７、類似情報更新部２１０、類似発話抽出部２０９、意図解析情報格納部２１１、対話履歴格納部２０８、類似情報格納部２１２、発話意図情報格納部２１３、意図解析部１２０１および意図確認部１２０２を含む。

意図解析部１２０１および意図確認部１２０２以外は、第１の実施形態と同様の動作を行うので、ここでの説明は省略する。
意図解析部１２０１は、第１の実施形態に係る意図解析部２０２とほぼ同様の動作を行うが、意図確認に関する対話処理であるか否かをフラグに従って判定し、意図確認に関する対話処理であれば、意図確認部１２０２にユーザ発話を送り、意図確認に関する対話処理でなければ、類似情報検出部２０３にユーザ発話および発話意図を送る。

意図確認部１２０２は、意図修正部２０４から発話テキストおよび修正された発話意図を受け取り、修正された発話意図を承諾するか否かをユーザに確認する。意図確認部１２０２は、ユーザから修正された発話意図を承諾したという旨のユーザ発話を意図解析部１２０１から受け取る場合、発話テキストおよび修正された発話意図を発話登録部２０５に送る。

次に、第２の実施形態に係る学習装置１２００の発話登録処理について図１３のフローチャートを参照して説明する。
ステップＳ１３０１からステップＳ１３０５までの処理以外は、図１０と同様であるのでここでの説明を省略する。

ステップＳ１３０１では、意図解析部１２０１が、発話意図をユーザに確認中であるか否かを判定する。確認中であるか否かは、後述するフラグの有無により判定できる。発話意図を確認中であればステップＳ１３０２に進み、発話意図を確認中でなければステップＳ１００３に進む。
ステップＳ１３０２では、意図確認部１２０２が、発話意図が正しいか否か、すなわちユーザ発話が「肯定」を表すものであるか否かを判定する。これは、ステップＳ１００２で推定したユーザ発話に対する発話意図が、「肯定」を表すものであるか否かにより判定すればよい。ユーザ発話が「肯定」を表す場合、ステップＳ１００７に進み、ユーザに確認中であるユーザ発話と意図候補とが発話意図情報格納部２１３に格納される。格納後、確認のためバッファなどに保持していたユーザ発話と意図候補、およびフラグなどを削除する。ユーザ発話が「肯定」を表さない場合、ステップＳ１３０３に進む。

ステップＳ１３０３では、意図確認部１２０２が、ユーザ発話が「訂正」を表すか否かを判定する。例えば、ユーザが「そうじゃなくて、しびれるんだよ」などと発話していた場合、ユーザ発話が「訂正」を表すと判定される。ユーザ発話が「訂正」を表すと判定される場合、ステップＳ１００８に進み、ユーザ発話と、ユーザが訂正した発話意図（例えば、「しびれ」に対応する発話意図）とが類似情報格納部２１２に格納される。なお、後段のステップＳ１００９では、対話制御部２０６が、ユーザ発話と訂正した発話意図とを受け取る。格納後、確認のためバッファなどに保持していたユーザ発話と意図候補、およびフラグなどを削除する。ユーザ発話が「訂正」を表すと判定されない場合、ステップＳ１３０４に進む。

ステップＳ１３０４では、意図確認部１２０２が、ユーザが発話意図を「否定」しているか否かを判定する。ユーザ発話により「否定」が表される場合ステップＳ１００９に進み、ユーザ発話の発話テキストと、確認のためにバッファなどに保持していた、ユーザ発話に対して推定された発話意図とを対話制御部２０６に渡し、確認のためバッファなどに保持していたユーザ発話と意図候補、およびフラグなどを削除する。ユーザ発話が「否定」を表さない場合、ユーザ発話の発話意図の確認に失敗したとみなし、確認のために保持していたユーザ発話と意図候補、フラグなどを保持したまま、ステップＳ１３０５に進む。なお、「肯定」、「訂正」、「否定」のいずれでもない発話が予め定義した回数以上連続した場合、ユーザは「否定」の意図を示したものとして扱うようにしてもよい。

ステップＳ１３０５では、意図確認部１２０２が、ユーザ発話の意図が、抽出した類似情報のエントリに記録されている意図候補で問題ないか否かをユーザに確認する。これは、例えば、ユーザの発話意図を確認するための発話意図を定義しておき、この発話意図と、付加情報としてユーザ発話テキストおよび意図候補とをもとに、ステップＳ１０１０で対話処理を行うようにすればよい。このとき、発話意図確認の対話を開始したことを表すフラグを、ユーザ発話の発話テキストと推定された発話意図、類似情報のエントリとともに学習装置１２００内に記録しておけばよい。

次に、第２の実施形態に係る類似情報格納部２１２に格納される類似情報の一例について図１４を参照して説明する。
図１４の類似情報は、図５の類似情報５０１に、ユーザが意図を訂正した情報を追加した例を示す。具体的には、類似情報１４０２として、発話テキスト５０２「太ももの裏側がピリピリする」に対する意図候補「しびれ（太もも）」が追加される。また、この場合、対話制御部２０６には、発話テキスト５０２「太ももの裏側がピリピリする」と、ユーザが訂正した発話意図（「しびれ（太もも）」）が渡される。

以上に示した第２の実施形態によれば、修正しようとする発話意図についてユーザに確認を求めることで、以降の処理において、より精度良く発話意図を推定することができ、データ作成コストを低減することができる。

（第３の実施形態）
第３の実施形態では、発話意図情報格納部に格納されるデータを、意図解析情報格納部にフィードバックする点が上述の実施形態とは異なる。

第３の実施形態に係る学習装置について図１５のブロック図を参照して説明する。
図１５に示す学習装置１５００は、発話受理部２０１、意図解析部２０２、類似情報検出部２０３、意図修正部２０４、発話登録部２０５、対話制御部２０６、応答生成部２０７、対話履歴格納部２０８、類似発話抽出部２０９、類似情報更新部２１０、意図解析情報格納部２１１、類似情報格納部２１２、発話意図情報格納部２１３および意図解析情報更新部１５０１（第２更新部ともいう）を含む。

意図解析情報更新部１５０１以外は、第１の実施形態と同様の動作を行うので、ここでの説明は省略する。
意図解析情報更新部１５０１は、現在利用している意図解析情報格納部２１１のデータに発話意図情報格納部２１３に格納されるデータを追加および更新する。これにより、新たな意図解析情報が生成されて、現行の意図解析情報が更新される。更新の頻度は、予め定義された頻度で行えばよい。

以上に示した第３の実施形態によれば、意図解析情報更新部１５０１が、予め定めた間隔で発話テキストと発話意図とを用いて意図解析情報格納部２１１のデータを更新することで、自動的にシステムが正しく発話意図を推定できる発話を増やすことができる。

（第４の実施形態）
第４の実施形態では、ユーザ発話の曖昧性を検出して対話システムのシステム管理者にメッセージを送信する点が異なる。

第４の実施形態に係る学習装置について図１６のブロック図を参照して説明する。
第４の実施形態に係る学習装置１６００は、発話受理部２０１、意図解析部２０２、意図修正部２０４、発話登録部２０５、対話制御部２０６、応答生成部２０７、対話履歴格納部２０８、類似発話抽出部２０９、類似情報検出部２０３、意図解析情報格納部２１１、類似情報格納部２１２、発話意図情報格納部２１３、類似情報更新部１６０１および通知部１６０２を含む。

類似情報更新部１６０１および通知部１６０２以外は、第１の実施形態と同様の動作を行うので、ここでの説明は省略する。
類似情報更新部１６０１は、類似情報更新部２１０とほぼ同様であるが、更新した各類似情報エントリが、管理者に通知する条件を満たすか否かを判定する点が異なる。

通知部１６０２は、類似情報更新部１６０１において管理者に通知する条件を満たす類似情報のエントリが存在すると判定された場合、発話テキストの発話意図には曖昧性がある旨のメッセージをシステム管理者に通知する。

次に、ユーザ発話の曖昧性に関する管理者通知条件の第１例について図１７および図１８を参照して説明する。
図１７は、第４の実施形態に係る対話履歴の一部を抽出した第１例である。対話履歴１７０１および対話履歴１７０２は、対話履歴格納部２０８から、それぞれ別のユーザＩＤを持つユーザ発話の発話テキストと、その発話に対するシステム応答の応答テキストとの対を、時系列に並べたものである。

対話履歴１７０１では、ユーザＵ１は「太ももの裏側がピリピリする」という発話を、「太ももの裏側が痛い」という意図で使っている。一方、対話履歴１７０２では、ユーザＵ２は、「太ももの裏側がピリピリする」という発話を、「太ももの裏側が痺れる」という意図で使っている。

図１８に示す類似情報１８０１および１８０２は、対話履歴１７０１および１７０２に対応する類似情報のエントリの例を表している。管理者に通知する条件は、「ユーザ発話の発話テキストが同一で、異なる意図候補を有する類似情報エントリが存在し（言い換えると、対応類似情報が複数存在し）、かつそれぞれのエントリの確信度（出現頻度）が予め定めた閾値以上」であるとする。図１７および図１８に示した例では、「太ももの裏側がピリピリする」という発話テキストに対し、「痛み（太もも）」および「痺れ(太もも)」という２つの意図候補を有するエントリがある。ここで、閾値が「１１」である場合、それぞれの出現頻度は閾値を超えている。

よって、システム管理者に「太ももの裏側がピリピリする」という発話は、「痛み」と「痺れ」という２種類の意図で使われる可能性があることを通知する。システム管理者への通知は、メール送信や、管理者へ通知する内容を蓄積する管理者通知情報へ追加するなど、さまざまな方法が考えられる。また、管理者への通知が行われた類似情報のエントリには、通知済みのフラグを立てるなどすれば、同じ情報を何度も通知しないようにできる。

ユーザ発話の曖昧性に関する管理者通知条件の第２例について図１９および図２０を参照して説明する。
図１９は、第４の実施形態に係る対話履歴の一部を抽出した第２例である。図１９に示す対話履歴１９０１は、対話履歴格納部２０８から、同一のユーザＩＤを有するユーザ発話の発話テキストと、その発話に対するシステム応答の応答テキストとの対を、時系列に並べたものである。

対話履歴１９０１では、ユーザ発話の発話テキスト１９０２「太ももの裏側がピリピリする。」に対し、応答テキスト１９０３「太ももの後ろ側に痛みがあるということですね。」という応答が返っている。この例では、システム側が発話テキスト１９０２の発話意図を「痛み」と推定したため、推定された発話意図に従って対話が進んでいる。

しかし、次の発話テキスト１９０４「違う。太ももの裏側が痺れるんだ。」で、ユーザは「痛み」ではなく「痺れ」があると言い直している。発話テキスト１９０４のように、システムが推定した意図に従って対話を進めている場合、発話テキスト１９０４が発話テキスト１９０２に対する類似発話か否かの判定には、発話の類似性のみでなく、例えば発話テキスト１９０４が「違う、太ももの裏側が痺れるんだよ」のように、否定の表現を含むか否かを見るようにしてもよい。

図２０の類似情報２００１は、対話履歴１９０１に対応する類似情報のエントリの例を示す。類似情報２００１には、ユーザ発話推定意図２００２が追加される。
図１９および図２０の例のように、ユーザ発話に対して推定される発話意図と、実際の意図とが異なる場合も、ユーザ発話に複数の意図候補がある場合と同様、ユーザ発話が複数の意図で使われている可能性がある。この場合、システム管理者に通知される条件は、「ユーザ発話推定意図と意図候補とが異なり、かつユーザ発話推定意図と意図候補との組み合わせの確信度（出現頻度）が予め定めた閾値以上」である。ここで、閾値を「３０」とすると、図２０の類似情報２００１に示したエントリの例の場合、この管理者通知条件を満たすため、「太ももの裏側がピリピリする」という発話は、「痛み」と「痺れ」という２種類の意図で使われる可能性があることを示すメッセージがシステム管理者に通知される。

次に、第４の実施形態に係る学習装置１６００の類似情報更新処理について図２１のフローチャートを参照して説明する。
ステップＳ２１０１およびステップＳ２１０２以外は、図３に示すフローチャートと同様であるのでここでの説明は省略する。

ステップＳ２１０１では、類似情報更新部１６０１が、更新した類似情報エントリを対象として、管理者に通知する条件を満たす類似情報のエントリが存在するか否かを判定する。管理者に通知する条件は、ここでは、上述のように、異なるユーザＩＤについては、「ユーザ発話の発話テキストが同一で、異なる意図候補を有する類似情報エントリが存在し、かつそれぞれのエントリの出現頻度が予め定めた閾値以上」である。また、同一のユーザＩＤについては、「ユーザ発話推定意図と意図候補とが異なり、かつユーザ発話推定意図と意図候補との組み合わせの確信度（出現頻度）予め定めた閾値以上」とする。このような条件を満たすエントリが存在する場合は、ステップＳ２１０２に進み、エントリが存在しない場合は、処理を終了する。
ステップＳ２１０２では、通知部１６０２が、システム管理者にメッセージを通知する。

以上に示した第４の実施形態によれば、類似情報に複数の意図候補を有する同一発話テキストのエントリがあり、かつ出現頻度が閾値を超えているといった場合、システム管理者に、該当する発話テキストが曖昧性を含む発話であると通知する。これによって、例えばシステム管理者側で意図解析情報格納部２１１のデータを精査することができ、意図解析の精度を高めることができ、データ量も削減することができる。

なお、上述した第１から第４の実施形態において、図１に示す端末１０１に、音声認識サーバ、音声合成サーバおよび対話処理サーバ１０２が提供する機能が搭載されていてもよい。

また、本実施形態に係る学習装置２００は、図１において、対話処理サーバ１０２に含まれてもよいし、対話処理サーバ１０２とは別のサーバに含まれてもよい。対話処理サーバ１０２または別のサーバに学習装置２００が含まれる場合は、端末１０１は、マイクなどの音声取得部、インタフェース画面を表示する表示部およびデータ通信を行う通信部を含めばよい。さらに、対話処理サーバ１０２が対話システム処理のみを行う場合は、学習装置２００は、端末１０１に含まれてもよい。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した学習装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の学習装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００…対話システム、１０１…端末、１０２…対話処理サーバ、１０３…ユーザ、１０４…ネットワーク、２００，１２００，１５００，１６００…学習装置、２０１…発話受理部、２０２，１２０１…意図解析部、２０３…類似情報検出部、２０４…意図修正部、２０５…発話登録部、２０６…対話制御部、２０７…応答生成部、２０８…対話履歴格納部、２０９…類似発話抽出部、２１０，１６０１…類似情報更新部、２１１…意図解析情報格納部、２１２…類似情報格納部、２１３…発話意図情報格納部、４００，６００，１７０１，１７０２，１９０１…対話履歴、４１０，４１１，４１２，４１３，５０２，６０１，６０２，６０３，６０４，８０１，８０２，８０３，１１０３，１９０２，１９０４…発話テキスト、５００…テーブル、５０１，１４０２，１８０１，１８０２，２００１…類似情報、５０３…代表類似発話、５０４…意図候補、５０５…出現頻度、５０６，１１０４…エントリ、１１０１…発話意図情報、１１０２…発話意図識別情報、１２０２…意図確認部、１５０１…意図解析情報更新部、１６０２…通知部、１７０１…対話履歴、１９０３…応答テキスト。

Claims

ユーザの発話を音声認識した結果である第１テキストから推定される該ユーザの発話意図を用いる学習装置であって、該学習装置は、
対話履歴の中で類似する一連の発話を示す類似発話を音声認識した結果である第２テキストと、該類似発話の中で対話が成功したと判定された発話から推定される意図候補と、該意図候補が該第２テキストの意図となる度合いを示す確信度とを少なくとも含む類似情報を格納する第１格納部と、
前記類似情報から、前記第１テキストと一致する前記第２テキストを含む対応類似情報を検出する検出部と、
前記対応類似情報に含まれる確信度が閾値以上である場合、前記発話意図を、該対応類似情報に含まれる意図候補に修正する修正部と、を具備することを特徴とする学習装置。
前記第１テキストと修正された発話意図とを発話意図情報として登録する登録部をさらに具備することを特徴とする請求項１に記載の学習装置。
前記対話履歴を格納する第２格納部と、
前記第２格納部から、同一のユーザの発話に関する前記第２テキストと、前記意図候補と、前記対話が成功したと判定された発話を音声認識した結果である第３テキストと、前記確信度とを少なくとも抽出する抽出部と、
前記抽出部で抽出される情報により、前記第１格納部に格納される前記類似情報を更新する第１更新部と、をさらに具備することを特徴とする請求項１または請求項２に記載の学習装置。
前記抽出部は、前記ユーザの第１発話と該ユーザの前後に発話された第２発話とが類似している場合に、該第１発話と該第２発話とを前記類似発話として抽出し、１つ以上の類似発話を含む類似発話グループを生成することを特徴とする請求項３に記載の学習装置。
前記第１更新部は、前記対話が成功したと判定された発話として前記類似発話グループのうち最新の発話を選択し、該最新の発話に関する発話意図を前記意図候補として決定することを特徴とする請求項４に記載の学習装置。
前記第１テキストと修正された発話意図との組を前記ユーザに確認する確認部をさらに具備する請求項１から請求項５のいずれか１項に記載の学習装置。
前記第１更新部は、前記ユーザが前記第１テキストの意図として修正された発話意図を承諾する場合、前記第１格納部に該第１テキストと該修正された発話意図とを登録することを特徴とする請求項３に記載の学習装置。
前記類似情報は、該類似情報が生成された日時情報をさらに含み、
前記第１更新部は、前記日時情報が示す日時から第１期間を経過した類似情報を前記第１格納部から削除することを特徴とする請求項３のいずれか１項に記載の学習装置。
前記確信度は、前記対話が成功したと判定された発話から推定される意図候補と、前記第２テキストのうち該対話が成功したと判定された発話以外の第２テキストとの組が出現した回数を示す出現頻度であることを特徴とする請求項１から請求項８のいずれか１項に記載の学習装置。
前記対応類似情報が複数存在し、かつそれぞれの確信度が前記閾値以上である場合、前記第１テキストに関する発話が曖昧な発話であることに関するメッセージを管理者に通知する通知部をさらに具備することを特徴とする請求項１から請求項９のいずれか１項に記載の学習装置。
前記発話意図と前記意図候補とが異なり、かつ該発話意図と該意図候補との組み合わせの確信度が閾値以上である場合、前記第１テキストに関する発話が曖昧な発話であることに関するメッセージを管理者に通知する通知部をさらに具備することを特徴とする請求項１から請求項９のいずれか１項に記載の学習装置。
前記発話意図を推定する処理に用いられる意図解析情報を、前記第１テキストと修正された発話意図とを用いて更新する第２更新部をさらに具備する請求項３に記載の学習装置。
前記第１更新部は、前記修正部により修正が行われ、かつ前記修正部による修正が前記意図解析情報に反映される場合、前記第１格納部から前記対応類似情報を削除することを特徴とする請求項１２に記載の学習装置。
ユーザの発話を音声認識した結果である第１テキストから推定される該ユーザの発話意図を用いる学習方法であって、該学習方法は、
対話履歴の中で類似する一連の発話を示す類似発話を音声認識した結果である第２テキストと、該類似発話の中で対話が成功したと判定された発話から推定される意図候補と、該意図候補が該第２テキストの意図となる度合いを示す確信度とを少なくとも含む類似情報を第１格納部に格納し、
前記類似情報から、前記第１テキストと一致する前記第２テキストを含む対応類似情報を検出し、
前記対応類似情報に含まれる確信度が閾値以上である場合、前記発話意図を、該対応類似情報に含まれる意図候補に修正することを特徴とする学習方法。
ユーザの発話を音声認識した結果である第１テキストから推定される該ユーザの発話意図を用いる学習プログラムであって、該学習プログラムは、
コンピュータを、
ユーザの発話を音声認識した結果である第１テキストから、該ユーザの発話意図を推定する解析手段と、
対話履歴の中で類似する一連の発話を示す類似発話を音声認識した結果である第２テキストと、該類似発話の中で対話が成功したと判定された発話から推定される意図候補と、該意図候補が該第２テキストの意図となる度合いを示す確信度とを少なくとも含む類似情報を格納する第１格納手段と、
前記類似情報から、前記第１テキストと一致する前記第２テキストを含む対応類似情報を検出する検出手段と、
前記対応類似情報に含まれる確信度が閾値以上である場合、前記発話意図を、該対応類似情報に含まれる意図候補に修正する修正手段として機能させるための学習プログラム。
ユーザが発話することによって音声入力を行う端末と、
ネットワークを介して前記端末に接続され、前記ユーザの発話を音声認識した結果である第１テキストから推定される該ユーザの発話意図を用いる対話処理サーバと
を具備する音声対話システムであって、
前記対話処理サーバは、
対話履歴の中で類似する一連の発話を示す類似発話を音声認識した結果である第２テキストと、該類似発話の中で対話が成功したと判定された発話から推定される意図候補と、該意図候補が該第２テキストの意図となる度合いを示す確信度とを少なくとも含む類似情報を格納する第１格納部と、
前記類似情報から、前記第１テキストと一致する前記第２テキストを含む対応類似情報を検出する検出部と、
前記対応類似情報に含まれる確信度が閾値以上である場合、前記発話意図を、該対応類似情報に含まれる意図候補に修正する修正部と
を具備することを特徴とする音声対話システム。