JP4128342B2 - 対話処理装置及び対話処理方法並びにプログラム - Google Patents
対話処理装置及び対話処理方法並びにプログラム Download PDFInfo
- Publication number
- JP4128342B2 JP4128342B2 JP2001220135A JP2001220135A JP4128342B2 JP 4128342 B2 JP4128342 B2 JP 4128342B2 JP 2001220135 A JP2001220135 A JP 2001220135A JP 2001220135 A JP2001220135 A JP 2001220135A JP 4128342 B2 JP4128342 B2 JP 4128342B2
- Authority
- JP
- Japan
- Prior art keywords
- hypothesis
- semantic
- reliability
- item
- semantic item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Complex Calculations (AREA)
Description
【発明の属する技術分野】
この発明はマン・マシン・インタフェースとして音声認識や文字認識を利用する対話処理装置に係り、特に入力情報に対する誤りを意味項目間の関連度や既知の誤りに基づいた信頼度補正値を用いて高精度に検出する対話処理装置及び対話処理方法並びに該対話処理をコンピュータに実行させるプログラムに関するものである。
【0002】
【従来の技術】
利用者が発声した音声(以下、発話と称する)を入力とする対話処理装置では、その動作を決定するために、発話内容を解釈する音声理解処理を必要とする。
図10は上述した音声理解処理の一例を示す図である。通常、音声理解処理は、音声認識処理と言語理解処理とを組み合わせることで実施される。例えば、入力された発話「東急イン横浜関内でそれ一泊お願いします」に音声認識処理を適用することで、単語系列「あと/九人/横浜/が/無い/で/それ/一泊/お/願い/し/ます」を得る。次に、この単語系列に言語理解処理を適用することで、予め規定された形式による意味内容の表記として、同図に示すような意味項目「人数=9」「場所=横浜市」「泊数=1」「意図=値指定」の組み合わせを得る。
【0003】
ところで、このような音声理解処理により得られる意味項目の組み合わせ(以下、理解結果と称する)には、しばしば誤りが含まれる。図10では「東急イン横浜関内」と発声されている区間を、誤って「あと/九人/横浜/が/無い」と認識したために、本来生成すべき意味項目「ホテル=東急イン横浜関内」の代わりに、誤った意味項目「人数=9」と「場所=横浜市」とを生成している。
【0004】
対話処理装置は、こうした誤り意味項目をそのまま受理してしまうと、適切な動作を行うことができない。かといって、理解結果が得られた全ての意味項目に対して、利用者に正誤を逐一確認した場合、本来正しい意味項目に対しても確認を行うことになるから、対話が冗長となり、利便性の悪い装置になってしまう。
【0005】
このような不具合を解消するものとして、音声認識スコアから計算される信頼度を各意味項目に付与し、その信頼度に基づいて意味項目の確認を行う対話処理方式が、下記文献1で提案されている。
文献1:"Incorporating confidence measures in the Dutch train timetable information system developed in ARISE project"(G.Bouwman,J.Sturm,and L.Boves,Proc.ICASSP99,pp.493−496,1999).
【0006】
図11は上述したような従来の対話処理方式を適用した対話処理装置の構成を示すブロック図であり、音声対話によってホテルの検索や予約を行う例について示している。図において、100は不図示の音声入力手段と接続する音声理解部で、該音声入力手段を介して利用者から入力された発話に対して音声認識・理解処理を施して意味項目の組み合わせからなる尤度付きの仮説群を生成すると共に、これらの中から尤度が最大となる仮説を理解結果として選択する。101は意味項目の信頼度を算出する信頼度計算部であって、音声理解部100から入力した理解結果と尤度付きの仮説群とに基づいて理解結果に含まれる各意味項目の信頼度を算出する。102は対話管理部103と接続する対話状況記憶部で、対話管理部103から入力した対話状況を保持する。103は利用者に提示する応答を生成する対話管理部であって、音声理解部100からの理解結果、信頼度計算部101からの信頼度、対話状況記憶部102が保持する対話状況、及びホテルデータベース105が保持するホテル情報とを参照して利用者に提示する応答を生成する。104は対話管理部103から入力した応答を利用者に提示する応答出力部で、例えば対話管理部103からの応答を文字列として不図示のディスプレイ上に表示する。105はホテル情報を保持するホテルデータベースであって、ホテル名、所在地、交通経路、宿泊料金や空き部屋状況をホテル情報として管理している。
【0007】
図12は図11中の対話処理装置による対話処理で得られる情報を示す図であり、この図に沿って対話処理の概要を説明する。
先ず、音声理解部100は、入力された発話1「東急イン横浜関内でそれ一泊お願いします」に対して音声理解処理を行って、最終的に意味項目「人数=9」「場所=横浜市」「泊数=1」「意図=値指定」からなる理解結果を得る。図示の例において、理解結果として選択された意味項目のうち、「人数=9」及び「場所=横浜市」が誤って生成された意味項目である。また、該理解結果からは、本来生成すべき「ホテル=東急イン横浜関内」が欠落している。
【0008】
次に、信頼度計算部101が上記理解結果中の各意味項目に対して、後述する方法で信頼度を計算する。その結果、信頼度が予め設定した閾値0.50より高い意味項目を正しい可能性が高いとして受理する。一方、信頼度が閾値より低い場合は、誤りの可能性が高いとして、利用者に確認を求める(あるいは、直ちに棄却する)。確認の結果、該意味項目が誤りであることがわかれば棄却し、逆に正しいことがわかれば受理する。
【0009】
図12においては、信頼度が閾値0.50より低い意味項目は「場所=横浜市」であるから、該意味項目の正誤を利用者に確認するため、「場所は横浜市でよろしいですか」を出力する(応答1)。これに対し利用者が「いいえ」を入力した場合(発話2)、該誤りである意味項目「場所=横浜市」が棄却される。
しかしながら、この方法では、信頼度が閾値0.50より高い誤り意味項目「人数=9」に対しては何ら確認が行われないため、該誤り意味項目を保持したまま対話が進行することになる。
【0010】
さらに、この方法では、確認対象となり得る意味項目が音声理解部100の理解結果に含まれる意味項目に限定される。即ち、図12では本来あるべき正しい意味項目である「ホテル=東急イン横浜関内」が理解結果から脱落しているが、従来の対話処理装置では、この脱落を検出する手段を持たず、利用者への確認もなされない。そのため、利用者は、入力したはずの意味項目が受理されなかったことに気付かないまま対話が進行することになる。
【0011】
次に図11に示した対話処理装置の動作について各構成要素ごとに説明する。
先ず、音声理解部100は、入力された発話に対して音声認識・理解処理を行うことで、意味項目の組み合わせからなる尤度付きの仮説群を生成する。以下、仮説を単に仮説と称する。さらに、仮説群の中で尤度が最大の仮説を理解結果として選択する。これら尤度付き仮説群及び理解結果は、信頼度計算部101に送られる。
【0012】
図13は図11中の音声理解部の構成を示すブロック図である。図に示すように、音声理解部100は、音響分析部100a、音声認識部100b及び言語理解部100cから構成される。先ず、利用者からの発話は、不図示の音声入力手段を介して音響分析部100aに入力される。音響分析部100aでは、入力した発話の音響分析を行って上記発話に係る入力音声の特徴ベクトルの時系列を抽出し、音声認識部100bに出力する。
【0013】
音声認識部100bでは、この特徴ベクトルの時系列に対して認識処理を施すことで、尤度の高い単語系列を5種類生成する(尤度の上位5位までの単語系列を生成する)。これら5種類の単語系列は、その尤度と共に言語理解部100cに送出される。ここで、単語系列の尤度とは、特徴ベクトルの時系列に対する単語系列の確率的な尤もらしさを評価したスコアであり、例えば下記文献2の第7章「連続単語モデルに基づく音声認識」に記載される認識処理によって求められる。
文献2:"音声認識の基礎(下)"L.Rabiner,B.H.Juang共著,古井 監訳、NTTアドバンステクノロジ株式会社編集・発行,1995.
【0014】
最後に、言語理解部100cでは、入力した5種類の各単語系列に対して意味解析を行うことで意味項目の組み合わせを生成する。この結果として得られる意味項目の組み合わせを以下では仮説と称することとし、これら仮説の集まりを仮説群と称する。このあと、言語理解部100cは、上記仮説群の中で尤度が最大のものを理解結果として選択し、この理解結果に加えて各仮説の尤度と共に仮説群(尤度付き仮説群)を信頼度計算部101や対話管理部103に出力する。
【0015】
図14は図13中の言語理解部が使用する意味項目の生成ルールの一例を示す図である。言語理解部100cによる意味解析は、例えば図14に示すようなルールを適用して行っても良い。図示の例は、「人数」「意図」「泊数」「場所」の意味項目を生成するためのルールである。各ルールの左辺は意味項目のカテゴリ(「人数」、「意図」、「泊数」、「場所」など)を表している。右辺は「|」で区切られた複数のパタン(意味項目のカテゴリが「人数」の場合では、「一人」など)と、値(パタン「一人」の場合で「@」に後続する「1」など)とを定義したものである。
言語理解部100cでは、これらのパタンと単語系列とを照合して合致するパタンに対応する値を用いて意味項目を生成する。例えば、単語系列「あと/九人/横浜/が/無い/・・・」に対し人数のルールを適用すると、パタン「九人」に合致することから、意味項目「人数=9」が生成される。
【0016】
音声理解部100による音声処理の例は、前述した図12に見ることができる。発話に対して音声認識処理を行うことで、尤度の大きさが1位から5位までの5種類の単語系列が生成される。さらに、言語理解処理を施すことで、各単語系列より意味項目の組み合わせ仮説が生成される。これら仮説の中で、尤度が最大(0.38)の意味項目の組み合わせである(人数=9、場所=横浜市、泊数=1、意図=値設定)を理解結果として出力する。
【0017】
信頼度計算部101は、音声理解部100から理解結果及び尤度付き仮説群を入力すると、これらに基づいて各意味項目の信頼度を計算する。これら信頼度は、後述する対話管理部103に送出される。
ここで、前述の図12を用いて信頼度の計算方法について説明する。
先ず、信頼度計算部101は、入力した尤度付き仮説群に対して尤度の正規化を行う。具体的には、第i位の単語系列の仮説に対して認識時に付与された尤度をLiとして、下記式(1)から正規化後の尤度(事後確率)Piを算出する。式(1)中のZは、N個の仮説に対してPiの総和が1となるように導入した正規化係数であり、下記式(2)から求められる。また、αは予め定めた重み係数(定数)であり、Nは仮説数を表している。ここで、仮説数Nは5である。図12に示した各仮説の尤度は、この正規化処理後に得られる尤度Piである。なお、下記式(2)におけるΣ_{j=1,2,・・・,N}は、j=1,2,・・・,Nまでのexp(α・Lj)の各値の総和を示している。
【0018】
Pi≡exp(α・Li)/Z(i=1,・・・,N) ・・・(1)
【0019】
Z≡Σ_{j=1,2,・・・,N}exp(α・Lj) ・・・(2)
【0020】
信頼度計算部101は、尤度付き仮説群に対する尤度の正規化処理が完了すると、下記式(3)を用いて理解結果に含まれる各意味項目vの信頼度R(v)を求める。ここで、式(3)中のViは、第i位の仮説となる意味項目の組み合わせを表している。即ち、意味項目vの信頼度R(v)は、意味項目vを含む仮説の尤度和により与えられる。例えば、図12で意味項目「場所=横浜市」の信頼度は、該意味項目を含む第1位の仮説と第4位の仮説との尤度和により、0.38+0.09≒0.46と求めたものである。
【0021】
R(v)=Σ_{is.t.Vi∋v}Pi ・・・(3)
【0022】
ここで、対話状況記憶部102及びホテルデータベース105について説明する。
対話状況記憶部102は、後述する対話管理部103より書き込まれた対話状況を保持する。図15は図11中の対話状況記憶部が保持する対話状況の一例を示す図であり、同図を用いて該対話状況の保持方法を説明する。
図15における枠付きのボックスは、変数(スロット)であって対話管理部103により書き込まれた値を保持する。このうち上段の9スロットは、理解結果として得られた意味項目が書き込まれる。例えば、「場所」スロットは、対話中に利用者から「横浜市」が指定されたことを示している。空のスロットは、これに対応する値が利用者から入力されていないことを示している。スロット名に*印が付いているものは必須スロットであり、ホテルを予約するためには該スロットの値が必須であることを表している。
【0023】
一方、最下段のスロット「予約状況」は意味項目とは対応していない。該スロットは、対話開始時点から空になっているが、ホテルの予約が行われると、値「完了」が書き込まれる。「予約状況」スロットは、対話管理部103による対話の終了判定に用いられる。
【0024】
ホテルデータベース105は、後述する対話管理部103が検索するホテル情報を保持する。図16は図11中のホテルデータベースが保持するホテル情報の一例を示す図である。図示の例では、ホテル情報として、ホテルの名称、所在地(住所)、交通経路(最寄駅)、宿泊料金(料金)及び空室状況がホテルごとに登録されている。
【0025】
次に、対話管理部103の動作について説明する。
対話管理部103は、音声理解部100から受け取る理解結果と、信頼度計算部101から受け取る信頼度と、対話状況記憶部102が保持する対話状況と、ホテルデータベース105が保持するホテル情報とを参照して、利用者に出力する応答を生成する。
図17は図11中の対話管理部の動作を示すフロー図であり、同図を用いて該対話管理部103の動作について詳細に説明する。
先ず、対話管理部103は、音声理解部100から発話1に対する理解結果(意味項目の組み合わせ)を受け取る(ステップST100)。続いて、対話管理部103は、信頼度計算部101からステップST100で入力した理解結果の各意味項目に関する信頼度を受け取る(ステップST101)。
【0026】
ステップST102において、対話管理部103は、ステップST100で受け取った理解結果の意味項目に基づいて対話状況記憶部102の内容を更新する。具体的には、図15に示した対話状況記憶部102が保持する対話状況の各スロットに、「意図」以外の意味項目を書き込む。
【0027】
次に、ステップST101で受け取った理解結果の各意味項目に関する信頼度に対して、対話管理部103は、予め設定しておいた閾値0.50による信頼度の閾値判定を行う(ステップST103)。これによって低信頼度の意味項目を検出する。このとき、理解結果の各意味項目に関する信頼度の中に閾値に達しない低信頼度の意味項目がない場合、対話管理部103は、ステップST104の処理に移行する。一方、低信頼度の意味項目がある場合は、ステップST106の処理に移行する。
【0028】
ステップST104において、対話管理部103は、下記のようにして発話1に対する応答を生成し、応答出力部104に送出する。
図18は対話管理部による応答生成処理の一例を示すフロー図であり、同図を用いて該ステップST104における動作を詳細に説明する。
先ず、対話管理部103は、理解結果中の意味項目「意図」による分岐を行う(ステップST110)。このとき、「意図=予約要求」であればステップST112の処理に移行し、「意図=値指定」であればステップST111の処理に移行し、「意図=検索要求」であればステップST115の処理に移行する。
【0029】
ステップST111において、対話管理部103は、対話状況の必須スロットの内容を調べる。このとき、予約に必要な全ての必須スロットが充足されている場合はステップST113に処理を移す。全ての必須スロットが充足されていない場合は、ステップST115の処理に移行する。
【0030】
また、ステップST112においても、対話管理部103は、対話状況の必須スロットの内容を調べる。このとき、予約に必要な全ての必須スロットが充足されている場合はステップST113に処理を移す。全ての必須スロットが充足されていない場合は、ステップST117の処理に移行する。
【0031】
ステップST113では、対話管理部103が対話状況の必須スロットの値とホテルデータベース105のホテル情報とを比較して実際に予約可能であるか否かを調べる。
このとき、空室が見つかり予約可能であると、対話管理部103は、利用者に予約要求が受理されたことを通知する「ご予約承りました」という応答を生成して応答出力部104に送出する(ステップST118)。
【0032】
一方、空室がない場合、対話管理部103は、利用者に予約要求が受理されなかったことを通知する「あいにく全室ふさがっております」という応答を生成して応答出力部104に送出する(ステップST119)。
【0033】
また、対話状況の必須スロットが充足されていない場合、対話管理部103は利用者に必須スロットの充足を求める応答文を生成して応答出力部104に送出する(ステップST117)。例えば、必須スロット「部屋タイプ」が未充足であった場合は、「部屋タイプはどうしますか」という応答を生成する。
【0034】
ステップST118にて、利用者に予約要求が受理されたことを通知すると、対話管理部103は、対話状況の「予約状況」スロットに値「完了」を書き込む(ステップST122)。
【0035】
ステップST115において、対話管理部103は、対話状況のスロットに充足されている値を条件としてホテルデータベース105のホテル情報を検索し、該条件に合致するホテルを探す。このとき、上記条件に合致するホテルが1件以上見つからない、即ち、条件に合致するホテルがないと、対話管理部103は、「条件に合うホテルは見つかりませんでした」という応答を生成して応答出力部104に送出する(ステップST120)。
【0036】
一方、上記条件に合致するホテルが1件以上見つかると、対話管理部103は、利用者に検索結果を示す応答を生成して応答出力部104に送出する(ステップST121)。例えば、条件に合致するホテルが横浜ベイシェラトンの1件であった場合、「1件見つかりました。ホテル名は横浜ベイシェラトンです。」という応答を生成する。
以上の処理が図17におけるステップST104に相当する。
【0037】
ここで、図17に戻って対話管理部103の動作についての説明を続ける。
ステップST104にて応答出力部104に応答が送出されると、対話管理部103は、対話状況記憶部102の内容に基づいて対話の終了判定を行う(ステップST105)。このとき、対話状況の「予約状況」スロットに値「完了」が書き込まれていれば、対話管理部103は対話を終了する。対話状況の「予約状況」スロットに値「完了」が書き込まれていない場合は、ステップST100に戻って対話を継続する。
【0038】
一方、ステップST103で低信頼度の意味項目が検出されると、対話管理部103は、この意味項目に関する正誤を利用者に確認するための応答を生成して応答出力部104に送出する(ステップST106)。例えば、図12に示すように、低信頼度の意味項目として「場所=横浜市」が検出されると、対話管理部103は、応答として「場所は横浜市でよろしいですか」を生成する。
【0039】
続いて、上述した意味項目に関する正誤確認に対する返答として、対話管理部103は、利用者から音声理解部100を介して新たに入力された発話2に対する理解結果を受け取る(ステップST107)。
【0040】
このあと、発話2に対する理解結果に基づいて、対話管理部103は、ステップST106で確認を行った意味項目の誤り判定を行う(ステップST108)。例えば、ステップST107において、発話2が「いいえ」であって、その理解結果として「意図=否定」が得られた場合、対話管理部103は、ステップST106で確認を行った意味項目「場所=横浜市」を誤り意味項目として確定する。
このように、誤り意味項目が確定されると、対話管理部103は、確定した誤り意味項目を対話状況記憶部102内の対話状況スロットから削除する(ステップST109)。
一方、誤り意味項目として確定されない場合、対話管理部103は、ステップST104の処理に移行して、上述した処理を行う。
【0041】
応答出力部104は、対話管理部103から受け取る応答を、例えば不図示のディスプレイなどに文字列として表示して、利用者に提示する。
【0042】
【発明が解決しようとする課題】
従来の対話処理装置は以上のように構成されているので、信頼度に関する単純な閾値判定によって利用者に意味項目の正誤確認を行うか否かを決定することから、誤り意味項目の検出精度が悪いという課題があった。
【0043】
また、このような閾値判定では、誤り検出率を上げようとして閾値を高く設定すると、正しい意味項目に対しても頻繁に確認を行うことになって、対話処理装置の利便性が損なわれてしまう。逆に、閾値を低く設定すると、確認漏れにより誤り意味項目をそのまま受理してしまうケースが生じ、対話処理装置に誤動作を生じていた。
【0044】
さらに、従来の対話処理装置における誤り意味項目の検出及びその確認は、誤り意味項目の棄却のみを目的とするものであることから、理解結果に意味項目の脱落誤りが生じても、その誤りを検出及び確認することができないという課題があった。この場合、入力したはずの意味項目が受理されなかったことに利用者が気付かないまま対話が進行してしまう。これによって、対話処理装置は利用者の期待に反した動作を行うことになり、利用者にとって利便性が悪い装置になってしまう。
【0045】
この発明は上記のような課題を解決するためになされたもので、意味項目間の関連度や既知の誤りに基づいた信頼度補正値を用いることで、入力情報の理解誤りによる影響を低減し、利用者が確実且つ快適にタスクを達成することができる対話処理装置及び対話処理方法並びに該対話処理をコンピュータに実行させるプログラムを得ることを目的とする。
【0046】
【課題を解決するための手段】
この発明に係る対話処理装置は、入力した発話に対して音声理解処理を施すことにより、上記発話の意味内容を表す意味項目の組み合わせからなる仮説を生成するとともに、上記仮説の尤もらしさを示す尤度が最大となる仮説を理解結果仮説として選択する仮説生成手段と、上記理解結果仮説の各意味項目に対して、該意味項目を有する仮説間の尤度和である信頼度を算出する信頼度計算手段と、上記理解結果仮説の意味項目に対して、上記仮説生成手段により生成された仮説において意味項目同士が共起する割合である関連度を算出する関連度計算手段と、上記理解結果仮説の意味項目の信頼度を所定の規定値と比較して信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成するとともに、この意味項目との関連度を所定の規定値と比較して関連度が高いと判定された上記理解結果仮説内の他の意味項目についても正誤の確認対象として追加した利用者への応答情報を生成し、上記正誤の確認により誤りが確定した意味項目を棄却する対話管理手段とを備えるものである。
【0047】
この発明に係る対話処理装置は、対話管理手段が、理解結果仮説において信頼度が規定値以下の第1の意味項目が存在すると、上記第1の意味項目を正誤の確認対象として選択するとともに、上記理解結果仮説において上記第1の意味項目との関連度が規定値以上である第2の意味項目が存在すると、上記第2の意味項目を正誤の確認対象に追加した利用者への応答情報を生成し、この応答情報に対する返答で上記正誤の確認対象とした意味項目の誤りが確定した場合、この意味項目を棄却するものである。
【0048】
この発明に係る対話処理装置は、正誤の確認で誤りが確定した意味項目以外の理解結果仮説における他の意味項目に対して、仮説生成手段により生成された仮説から上記誤りが確定した意味項目を含む仮説を除いた仮説間での尤度和を補正信頼度として算出する補正信頼度計算手段を備え、対話管理手段が、上記理解結果仮説の意味項目の信頼度と所定の規定値を比較して信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報と生成するとともに、上記正誤の確認により誤りが確定した意味項目以外の上記理解結果仮説における他の意味項目の補正信頼度を所定の規定値と比較して信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成し、上記正誤の確認により誤りが確定した意味項目を棄却するものである。
【0049】
この発明に係る対話処理装置は、仮説生成手段により生成された仮説から、正誤の確認で誤りが確定した意味項目を含む仮説を除いた仮説のうち尤度が最大となる仮説を新たな理解結果仮説として選択する補正仮説生成手段と、正誤の確認で誤りが確定した意味項目以外の理解結果仮説における他の意味項目に対して、仮説生成手段により生成された仮説から上記誤りが確定した意味項目を含む仮説を除いた仮説間での尤度和を補正信頼度として算出する補正信頼度計算手段とを備え、対話管理手段が、上記理解結果仮説の意味項目の信頼度を所定の規定値と比較して信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成するとともに、上記正誤の確認により誤りが確定した意味項目を含む仮説を除いた仮説から上記補正仮説生成手段よって選択された新たな理解結果仮説の意味項目の補正信頼度を所定の規定値と比較して信頼度が高いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成し、上記正誤の確認により誤りが確定した意味項目を棄却するものである。
【0050】
この発明に係る対話処理装置は、対話管理手段に信頼度の規定値を予め設定しておき、理解結果仮説内に信頼度が規定値以下である意味項目が存在すると、該意味項目を認識の正誤についての確認対象として選択した応答情報を生成するものである。
【0051】
この発明に係る対話処理方法は、応答情報を利用者へ提示する応答出力部を備えた上記対話処理装置の対話処理方法において、仮説生成手段が、入力した発話に対して音声理解処理を施すことにより、上記発話の意味内容を表す意味項目の組み合わせからなる仮説を生成するとともに、上記仮説の尤もらしさを示す尤度が最大となる仮説を理解結果仮説として選択する仮説生成ステップと、信頼度計算手段が、上記理解結果仮説の各意味項目に対して、該意味項目を有する仮説間の尤度和である信頼度を算出する信頼度計算ステップと、関連度計算手段が、上記理解結果仮説の意味項目に対して、上記仮説生成ステップで生成された仮説において意味項目同士が共起する割合である関連度を算出する関連度計算ステップと、対話処理手段が、上記理解結果仮説の意味項目の信頼度と所定の規定値との比較結果から信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成するとともに、この意味項目との関連度と所定の規定値との比較結果から関連度が高いと判定された上記理解結果仮説内の他の意味項目についても正誤の確認対象として追加した利用者への応答情報を生成する対話管理ステップと、上記応答出力部が、該対話管理ステップにて生成された応答情報を提示する応答提示ステップとを備えるものである。
【0052】
この発明に係る対話処理方法は、対話管理ステップにて、対対話処理手段が、理解結果仮説において信頼度が規定値以下の第1の意味項目が存在すると、上記第1の意味項目を正誤の確認対象として選択するとともに、上記理解結果仮説において上記第1の意味項目との関連度が規定値以上である第2の意味項目が存在すると、上記第2の意味項目を正誤の確認対象に追加した利用者への応答情報を生成し、この応答情報に対する返答で上記正誤の確認対象とした意味項目の誤りが確定した場合、この意味項目を棄却するものである。
【0053】
この発明に係る対話処理方法は、対話処理装置が、補正信頼度計算手段を有し、上記補正信頼度計算手段が、正誤の確認で誤りが確定した意味項目以外の上記理解結果仮説における他の意味項目に対して、仮説生成ステップで生成された仮説から上記誤りが確定した意味項目を含む仮説を除いた仮説間での尤度和を補正信頼度として算出する補正信頼度計算ステップを備え、対話管理ステップにおいて、対話処理手段が、上記理解結果仮説の意味項目の信頼度と所定の規定値を比較して信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報と生成するとともに、上記正誤の確認により誤りが確定した意味項目以外の上記理解結果仮説における他の意味項目の補正信頼度を所定の規定値と比較して信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成し、上記正誤の確認により誤りが確定した意味項目を棄却するものである。
【0054】
この発明に係る対話処理方法は、対話処理装置が、補正仮説生成手段及び補正信頼度計算手段を有し、上記補正仮説生成手段が、仮説生成ステップで生成された仮説から正誤の確認で誤りが確定した意味項目を含む仮説を除いた仮説のうち、尤度が最大となる仮説を新たな理解結果仮説として選択する補正仮説生成ステップと、上記補正信頼度計算手段が、正誤の確認で誤りが確定した意味項目以外の理解結果仮説における他の意味項目に対して、上記仮説生成ステップで生成された仮説から上記誤りが確定した意味項目を含む仮説を除いた仮説間での尤度和を補正信頼度として算出する補正信頼度計算ステップとを備え、対話管理ステップにおいて、対話処理手段が、上記理解結果仮説の意味項目の信頼度と所定の規定値との比較結果から信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成し、上記補正仮説生成ステップで選択された新たな理解結果仮説の意味項目の補正信頼度と所定の規定値との比較結果から信頼度が高いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成するとともに、正誤の確認で誤りが確定した意味項目を含む理解結果仮説において上記補正仮説生成ステップで選択された新たな理解結果仮説に含まれない意味項目がある場合、この意味項目を正誤の確認対象として追加した利用者への応答情報を生成するものである。
【0055】
この発明に係る対話処理方法は、対話管理ステップにて、対話処理手段が、理解結果仮説内に信頼度が予め設定した規定値以下である意味項目が存在すると、該意味項目を認識の正誤についての確認対象として選択した応答情報を生成するものである。
【0056】
この発明に係るプログラムは、入力した発話に対して音声理解処理を施すことにより、上記発話の意味内容を表す意味項目の組み合わせからなる仮説を生成するとともに、上記仮説の尤もらしさを示す尤度が最大となる仮説を理解結果仮説として選択する仮説生成手段、上記理解結果仮説の各意味項目に対して、該意味項目を有する仮説間の尤度和である信頼度を算出する信頼度計算手段、上記理解結果仮説の意味項目に対して、上記仮説生成手段により生成された仮説において意味項目同士が共起する割合である関連度を算出する関連度計算手段、上記理解結果仮説の意味項目の信頼度を所定の規定値と比較して信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成するとともに、この意味項目との関連度を所定の規定値と比較して関連度が高いと判定された上記理解結果仮説内の他の意味項目についても正誤の確認対象として追加した利用者への応答情報を生成し、上記正誤の確認により誤りが確定した意味項目を棄却する対話管理手段としてコンピュータを機能させるものである。
【0057】
この発明に係るプログラムは、コンピュータを、正誤の確認で誤りが確定した意味項目以外の理解結果仮説における他の意味項目に対して、仮説生成手段により生成された仮説から上記誤りが確定した意味項目を含む仮説を除いた仮説間での尤度和を補正信頼度として算出する補正信頼度計算手段、上記理解結果仮説の意味項目の信頼度と所定の規定値を比較して信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報と生成するとともに、上記正誤の確認により誤りが確定した意味項目以外の上記理解結果仮説における他の意味項目の補正信頼度を所定の規定値と比較して信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成し、上記正誤の確認により誤りが確定した意味項目を棄却する対話管理手段として機能させるものである。
【0058】
この発明に係るプログラムは、コンピュータを、仮説生成手段により生成された仮説から、正誤の確認で誤りが確定した意味項目を含む仮説を除いた仮説のうち尤度が最大となる仮説を新たな理解結果仮説として選択する補正仮説生成手段、正誤の確認で誤りが確定した意味項目以外の理解結果仮説における他の意味項目に対して、上記仮説生成手段により生成された仮説から上記誤りが確定した意味項目を含む仮説を除いた仮説間での尤度和を補正信頼度として算出する補正信頼度計算手段、上記理解結果仮説の意味項目の信頼度を所定の規定値と比較して信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成するとともに、上記正誤の確認により誤りが確定した意味項目を含む仮説を除いた仮説から上記補正仮説生成種谷よって選択された新たな理解結果仮説の意味項目の補正信頼度を所定の規定値と比較して信頼度が高いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成し、上記正誤の確認により誤りが確定した意味項目を棄却する対話管理手段として機能させるものである。
【0059】
【発明の実施の形態】
以下、この発明の実施の一形態を説明するものである。
実施の形態1.
図1はこの発明の実施の形態1による対話処理装置の構成を示すブロック図であり、対話処理によってホテルの検索や予約を行う例について示している。図において、1は不図示の音声入力手段と接続する音声理解部(仮説生成手段)で、該音声入力手段を介して利用者から入力された発話に対して音声認識・理解処理を施して意味項目の組み合わせからなる尤度付きの仮説群(複数の仮説)を生成すると共に、これらの中から尤度が最大となる仮説を理解結果(理解結果仮説)として選択する。2は意味項目の信頼度を算出する信頼度計算部(信頼度計算手段)であって、音声理解部1から入力した理解結果と尤度付きの仮説群とに基づいて理解結果に含まれる各意味項目の信頼度を算出する。3は意味項目の関連度を算出する関連度計算部(関連度計算手段)で、音声理解部1から理解結果を入力して、該理解結果内の意味項目に関する関連度を算出する。4は利用者に提示する応答を生成する対話管理部(対話管理手段)であって、音声理解部1からの理解結果、信頼度計算部2からの信頼度、関連度計算部3からの関連度、対話状況記憶部5が保持する対話状況、及びホテルデータベース6が保持するホテル情報とを参照して利用者に提示する応答を生成する。
【0060】
5は対話管理部4と接続する対話状況記憶部で、対話管理部4から入力した対話状況を保持する。6はホテル情報を保持するホテルデータベースであって、ホテル名、所在地、交通経路、宿泊料金や空き部屋状況をホテル情報として管理している。7は対話管理部4から入力した応答を利用者に提示する応答出力部で、例えば対話管理部4からの応答を文字列として不図示のディスプレイ上に表示する。ここで、音声理解部1、信頼度計算部2、関連度計算部3、対話管理部4、及び応答出力部7の一部の機能は、コンピュータ装置のプロセッサ(CPU)に実行させるプログラムによって実現することができる。また、対話状況記憶部5やホテルデータベース6は、上記プロセッサによって適宜データの読み出し・書き込みが可能なコンピュータ装置が具備する記憶装置によって実現することができる。
【0061】
次に動作について説明する。
図2は図1中の対話処理装置による対話処理で得られる情報を示す図であり、この図に沿って対話処理の概要を説明する。
先ず、音声理解部1は、入力された発話1「東急イン横浜関内でそれ一泊お願いします」に対して音声理解処理を行って、意味項目「人数=9」「場所=横浜市」「泊数=1」「意図=値指定」からなる理解結果を得る。図示の例において、理解結果として選択された意味項目のうち、「人数=9」及び「場所=横浜市」が誤って生成された意味項目である(仮説生成ステップ)。
【0062】
次に、信頼度計算部2が、上記理解結果中の各意味項目に対して上記従来の技術で示した方法で信頼度を計算し、対話管理部4に出力する(信頼度計算ステップ)。その結果、対話管理部4は、信頼度が予め設定された閾値(規定値)0.50より低い意味項目「場所=横浜市」に関して、認識の誤りがある可能性が高いと判断し、これらを正誤の確認対象として抽出する(対話管理ステップ)。
【0063】
さらに、関連度計算部3は、上記信頼度の低い意味項目「場所=横浜市」と、その他の意味項目との間の関連度を計算し、対話管理部4に出力する(関連度計算ステップ)。このとき、対話管理部4は、関連度が予め設定した閾値(規定値)0.30より高い意味項目「人数=9」に関して、認識の誤りがある可能性が高いと判断し、これを正誤の確認対象として抽出する(対話管理ステップ)。
【0064】
こうして、対話管理部4は、抽出した意味項目の正誤を利用者に確認するための「場所は横浜市、人数は9人でよろしいですか」という応答情報を生成し、応答出力部7に出力する(応答1)。応答出力部7では、例えば不図示のディスプレイなどに文字列として上記応答情報を表示して、利用者に提示する(応答提示ステップ)。これに対して、利用者が「いいえ」を入力した場合(発話2)、該意味項目「場所=横浜市」と「人数=9」を棄却する。
【0065】
次に図1に示した対話処理装置の動作について各構成要素ごとに説明する。
先ず、音声理解部1は、入力された発話に対して音声認識・理解処理を行うことで、意味項目の組み合わせからなる尤度付きの仮説群を生成する(仮説生成ステップ)。このとき、従来と同様にして、音声理解部1は仮説群の中で尤度が最大の仮説を理解結果として選択する。これら尤度付き仮説群及び理解結果は、信頼度計算部2、関連度計算部3及び対話管理部4に送られる。
【0066】
信頼度計算部2では、音声理解部1から理解結果及び尤度付き仮説群を入力すると、これらに基づいて各意味項目の信頼度を計算する(信頼度計算ステップ)。具体的には、上記従来の技術と同様に動作する。即ち、信頼度計算部2は、入力した尤度付き仮説群に対して尤度の正規化を行い、第i位の単語系列の仮説に対して認識時に付与された尤度をLiとして、上記式(1)から正規化後の尤度(事後確率)Piを算出する。
次に、信頼度計算部2は、尤度付き仮説群に対する尤度の正規化処理が完了すると、上記式(3)を用いて理解結果に含まれる各意味項目vの信頼度R(v)を求める。このようにして求められた信頼度は、対話管理部4に送出される。
【0067】
関連度計算部3では、音声理解部1から入力した尤度付き仮説群に基づいて意味項目間の関連度を計算する(関連度計算ステップ)。ここで、関連度とは、或る2つの意味項目が仮説群中でどの程度偏って共起するかを表す尺度である。この関連度としては、例えば下記式(4)に示すような、意味項目vaの意味項目vbに対する相互情報量を用いることができる。式中、^vaや^vbは、vaやvbが生起しないことを示している。また、式中、全ての確率Pは、上記式(1)により正規化を行った仮説の尤度Pi(i=1,・・・,N、Nは仮説数)に基づいて求める。さらに、P(vb)、P(vb,va)、P(vb|va)は、それぞれ下記式(5)、式(6)、式(7)により求める。
【0068】
I(vb;va)=−P(vb)logP(vb)−P(^vb)logP(^vb)+P(vb,va)logP(vb|va)+P(^vb,va)logP(^vb|va)+P(vb,^va)logP(vb|^va)+P(^vb,^va)logP(^vb|^va) ・・・(4)
【0069】
P(vb)=Σ_{is.t.Vi∋vb}Pi ・・・(5)
【0070】
P(vb,va)=Σ_{is.t.Vi⊇{vb,va}}Pi・・・(6)
【0071】
P(vb|va)=P(vb,va)/P(va) ・・・(7)
【0072】
図2では、信頼度が閾値0.50より低い意味項目「場所=横浜市」と、理解結果におけるその他の意味項目との関連度を示している。関連度計算部2によって、上述の方法で関連度を計算すると、それぞれ「人数=9」で0.363、「泊数=1」で0.005、「意図=値指定」0.000と求まる。これらのうち、関連度が大きい意味項目「人数=9」は、出現する仮説がほぼ「場所=横浜市」と一致していることを意味する。従って「人数=9」の正誤は、「場所=横浜市」の正誤と強い相関を持つ。
このようにして求められた信頼度が閾値0.50より低い意味項目「場所=横浜市」と、理解結果におけるその他の意味項目との関連度は、対話管理部4に送出される。
【0073】
対話管理部4では、音声理解部1から受け取る理解結果と、信頼度計算部2から受け取る信頼度と、関連度計算部3から受け取る関連度と、対話状況記憶部5が保持する対話状況と、ホテルデータベース6が保持するホテルの情報とを参照して、利用者に出力する応答を生成する(対話管理ステップ)。
図3は図1中の対話管理部による動作を示すフロー図であり、同図を用いて該対話管理部の動作について詳細に説明する。
先ず、対話管理部4は、音声理解部1から発話1に対する理解結果(意味項目の組み合わせ)を受け取る(ステップST1)。続いて、対話管理部4は、信頼度計算部2からステップST1で入力した理解結果の各意味項目に関する信頼度を受け取る(ステップST2)。
ステップST3において、対話管理部4は、ステップST1で受け取った理解結果の意味項目に基づいて対話状況記憶部5の内容を更新する。具体的には、図15に示すような対話状況記憶部5が保持する対話状況の各スロットに、「意図」以外の意味項目を書き込む。
【0074】
次に、ステップST2で受け取った理解結果の各意味項目に関する信頼度に対して、対話管理部4は、予め設定しておいた閾値0.50による信頼度の閾値判定を行う(ステップST4)。これによって低信頼度の意味項目を検出する。このとき、理解結果の各意味項目に関する信頼度の中に閾値に達しない低信頼度の意味項目がない場合、対話管理部4は、ステップST5の処理に移行する。一方、低信頼度の意味項目がある場合は、ステップST7の処理に移行する。
ステップST5において、対話管理部4は、下記のようにして発話1に対する応答を生成し、応答出力部7に送出する。
【0075】
応答出力部7に応答が送出されると、対話管理部4は、対話状況記憶部5の内容に基づいて対話の終了判定を行う(ステップST6)。このとき、対話状況の「予約状況」スロットに値「完了」が書き込まれていれば、対話管理部4は対話を終了する。対話状況の「予約状況」スロットに値「完了」が書き込まれていない場合は、ステップST1に戻って対話を継続する。
【0076】
一方、ステップST4で低信頼度の意味項目が検出されると、関連度計算部3は、音声理解部1から入力した尤度付き仮説群に基づいて、上記低信頼度の意味項目と理解結果内の他の意味項目との間における関連度を計算し、対話管理部4に送出する(ステップST7)。
【0077】
対話管理部4では、ステップST4で検出した低信頼度の意味項目と、ステップST1で得られた理解結果に含まれるその他の意味項目との関連度に関し、予め定めた閾値0.30による閾値判定を行い、高関連度の意味項目を検出する。
このあと、対話管理部4は、ステップST4で検出した低信頼度の意味項目、及びステップST7で検出した高関連度の意味項目に関し、その正誤を利用者に確認するための応答を生成し、応答出力部7に送出する(ステップST8)。例えば、図2に示すように、低信頼度の意味項目として「場所=横浜市」が検出され、高関連度の意味項目として「人数=9」が検出されている場合、対話管理部4は「場所は横浜市、人数は九人でよろしいですか」という応答を生成する。
【0078】
続いて、上述した意味項目に関する正誤確認に対する返答として、対話管理部4は、利用者から音声理解部1を介して新たに入力された発話2に対する理解結果を受け取る(ステップST9)。
【0079】
このあと、発話2に対する理解結果に基づいて、対話管理部4は、ステップST8で確認を行った意味項目の誤り判定を行う(ステップST10)。例えば、ステップST9において、発話2「いいえ」より理解結果「意図=否定」が得られた場合、対話管理部4は、ステップST8で確認を行った意味項目「場所=横浜市」及び「人数=9」を誤り意味項目として確定する。このように、誤り意味項目が確定されると、対話管理部4は、確定した誤り意味項目を対話状況記憶部5内の対話状況スロットから削除する(ステップST11)。
一方、誤り意味項目として確定されない場合、対話管理部4は、ステップST5の処理に移行して、上述した処理を行う。
【0080】
応答出力部7は、対話管理部4から受け取る応答を、例えば不図示のディスプレイなどに文字列として表示して、利用者に提示する(応答提示ステップ)。
【0081】
以上のように、この実施の形態1によれば、信頼度が低い意味項目に加え、該意味項目に関連度の高い意味項目(即ち、信頼度の低い意味項目が出現する仮説に生起がほぼ限定される意味項目)を検出し、正誤を利用者に確認するので、該信頼度の低い意味項目が誤りである場合、これに対して高い関連度を示す意味項目はその生起確率が極めて小さくなることから同様に誤りである可能性が高い。これにより、信頼度に対する閾値判定では検出できない誤り意味項目を、高精度に検出することが可能であり、誤り意味項目の確認漏れに起因する対話処理装置の誤動作の問題を解決することができる。
【0082】
実施の形態2.
図4はこの発明の実施の形態2による対話処理装置の構成を示すブロック図であり、対話処理によってホテルの検索や予約を行う例について示している。図において、4aは利用者に提示する応答を生成する対話管理部(対話管理手段)であって、音声理解部1からの理解結果、信頼度計算部2からの信頼度、補正信頼度計算部8からの補正信頼度、対話状況記憶部5が保持する対話状況、及びホテルデータベース6が保持するホテル情報とを参照して利用者に提示する応答を生成する。8は意味項目の補正信頼度を算出する補正信頼度計算部(補正信頼度計算手段)であって、対話管理部4aから入力した誤りが確定した意味項目と尤度付きの仮説群とに基づいて理解結果に含まれる各意味項目の信頼度を補正する。ここで、対話管理部4a、及び補正信頼度計算部8の機能は、コンピュータ装置のプロセッサ(CPU)に実行させるプログラムによって実現することができる。なお、図1と同一構成要素には同一符号を付して重複する説明を省略する。
【0083】
次に動作について説明する。
図5は図4中の対話処理装置による対話処理で得られる情報を示す図であり、この図に沿って対話処理の概要を説明する。
先ず、音声理解部1は、入力された発話1「東急イン横浜関内でそれ一泊お願いします」に対して音声理解処理を行って、意味項目「人数=9」「場所=横浜市」「泊数=1」「意図=値指定」からなる理解結果を得る。図示の例において、理解結果として選択された意味項目のうち、「人数=9」及び「場所=横浜市」が誤って生成された意味項目である(仮説生成ステップ)。
【0084】
次に、信頼度計算部2が上記理解結果中の各意味項目に対して上記従来の技術で示した方法で信頼度を計算し、対話管理部4aに出力する(信頼度計算ステップ)。その結果、対話管理部4aは、信頼度が予め設定された閾値(規定値)0.50より低い意味項目「場所=横浜市」に関して、認識の誤りがある可能性が高いと判断し、これらを正誤の確認対象として抽出する(対話管理ステップ)。
【0085】
対話管理部4aは、抽出した意味項目の正誤を利用者に確認するための「場所は横浜市でよろしいですか」という応答情報を生成し、応答出力部7に出力する(応答1)。応答出力部7では、例えば不図示のディスプレイなどに文字列として上記応答情報を表示して、利用者に提示する(応答提示ステップ)。これに対して、利用者が「いいえ」を入力したため(発話2)、該意味項目「場所=横浜市」を誤りとして確定し、棄却する。
【0086】
然る後、該意味項目「場所=横浜市」が誤りであることに基づいて、補正信頼度計算部8は、その他の意味項目「人数=9」「泊数=1」の補正信頼度を計算する(補正信頼度計算ステップ)。該補正信頼度が予め設定した閾値0.30より低い意味項目「人数=9」は、誤りである可能性が高い。そこで、対話管理部4aは、該意味項目の正誤を利用者に確認するための「人数は九人でよろしいですか」という応答情報を生成し、応答出力部7に出力する(応答2)。応答出力部7では、例えば不図示のディスプレイなどに文字列として上記応答情報を表示して、利用者に提示する(応答提示ステップ)。これに対して、利用者が「いいえ」を入力したため(発話3)、該意味項目「人数=9」を誤りと確定し、棄却する。
【0087】
次に図4に示した対話処理装置の動作について各構成要素ごとに説明する。
なお、図4において、図1と同一符号を付した構成要素は、同一乃至これに相当する処理を行うため説明を省略する。以下、図4中の対話管理部4a及び補正信頼度計算部8の動作について説明する。
先ず、補正信頼度計算部8は、対話管理部4aから受け取る誤り意味項目のリスト及び尤度付き仮説群に基づいて、理解結果の意味項目の補正信頼度を計算する(補正信頼度計算ステップ)。
ここで、図5を用いて該補正信頼度計算部8の動作について詳細に説明する。
対話管理部4aから受け取る誤り意味項目のリストとは、既に利用者に確認を行った結果から、誤りであることが確定している意味項目のリストである。例えば、誤り意味項目のリストとして、「場所=横浜市」の1要素からなるリストを受け取ったとする。このとき、図5に示す5個の仮説のうち、1位と4位の仮説は該誤り意味項目「場所=横浜市」を含むことから、誤った仮説であることが確定する。
【0088】
そこで、補正信頼度計算部8は、上記仮説群から該誤った仮説を取り除くとともに、残った仮説群だけで尤度和が1となるように、下記式(7)で尤度を正規化する。式中、Liは第i位の単語系列仮説に対して認識時に付与された尤度である。Z'は5個の仮説に対してP’iの総和が1となるように導入した正規化係数であり、下記式(9)により与える。また、α'は予め定めた重み係数(定数)である。Nは仮説数であり、図示の例では5である。
【0089】
P'i≡exp(α'・Li)/Z'(i=1,・・・,NかつViが誤り意味項目を含まない) ・・・(8)
【0090】
Z'≡Σ_{j=1,2,・・・,NかつVjが誤り意味項目を含まない}exp(α'・Lj) ・・・(9)
【0091】
補正信頼度計算部8は、該尤度を正規化した仮説群を用いて補正信頼度を計算する。或る意味項目vの補正信頼度R'(v)は、該意味項目を含み、誤り意味項目を含まない仮説の尤度和により下記式(10)で与える。
【0092】
R'(v)=Σ_{is.t.Vi∋vかつViが誤り意味項目を含まない}P'i ・・・(10)
【0093】
図5では、「場所=横浜市」が誤り意味項目であることに基づいて、その他の意味項目「人数=9」「泊数=1」「意図=値指定」の補正信頼度を計算した例であり、それぞれ0.26,0.89,1.00と求まる。このように、既知の誤り「場所=横浜市」を含む仮説を除くことで、発話中の「東急イン横浜関内」の区間を誤認識した仮説が減少する。このとき、該誤認識に起因するその他の誤り意味項目「人数=9」も、これを支持する仮説を失うことになるから、信頼度が下がる。
【0094】
対話管理部4aでは、音声理解部1から受け取る理解結果及び尤度付き仮説群と、信頼度計算部2から受け取る信頼度と、補正信頼度計算部8から受け取る補正信頼度と、前記対話状況記憶部5が保持する対話状況と、ホテルデータベース6が保持するホテルの情報とを参照して、利用者に出力する応答を生成する。
図6は図4中の対話管理部による動作を示すフロー図であり、同図を用いて該対話管理部の動作について詳細に説明する。
先ず、対話管理部4aは、音声理解部1から発話1に対する理解結果(意味項目の組み合わせ)と、尤度付き仮説群とを受け取る(ステップST1a)。続いて、対話管理部4aは、信頼度計算部2からステップST1aで入力した理解結果の各意味項目に関する信頼度を受け取る(ステップST2a)。
【0095】
ステップST3aにおいて、対話管理部4aは、ステップST1aで受け取った理解結果の意味項目に基づいて対話状況記憶部5の内容を更新する。具体的には、図15に示すような対話状況記憶部5が保持する対話状況の各スロットに、「意図」以外の意味項目を書き込む。
【0096】
次に、ステップST2aで受け取った理解結果の各意味項目に関する信頼度に対して、対話管理部4aは、予め設定しておいた閾値0.50による信頼度の閾値判定を行う(ステップST4a)。これによって低信頼度の意味項目を検出する。このとき、理解結果の各意味項目に関する信頼度の中に閾値に達しない低信頼度の意味項目がない場合、対話管理部4aは、ステップST5aの処理に移行する。一方、低信頼度の意味項目がある場合は、ステップST7aの処理に移行する。
ステップST5aにおいて、対話管理部4aは、下記のようにして発話1に対する応答を生成し、応答出力部7に送出する。
【0097】
応答出力部7に応答が送出されると、対話管理部4aは、対話状況記憶部5の内容に基づいて対話の終了判定を行う(ステップST6a)。このとき、対話状況の「予約状況」スロットに値「完了」が書き込まれていれば、対話管理部4aは対話を終了する。対話状況の「予約状況」スロットに値「完了」が書き込まれていない場合は、ステップST1aに戻って対話を継続する。
【0098】
対話管理部4aは、ステップST4aで検出した低信頼度の意味項目に関し、その正誤を利用者に確認するための応答を生成し、応答出力部7に送出する(ステップST7a)。例えば、図5に示すように、低信頼度の意味項目として「場所=横浜市」が検出されている場合、対話管理部4aは「場所は横浜市でよろしいですか」という応答を生成する。
【0099】
続いて、上述した意味項目に関する正誤確認に対する返答として、対話管理部4aは、利用者から音声理解部1を介して新たに入力された発話2に対する理解結果を受け取る(ステップST8a)。
【0100】
このあと、発話2に対する理解結果に基づいて、対話管理部4aは、ステップST7aで確認を行った意味項目の誤り判定を行う(ステップST9a)。例えば、ステップST8aにおいて、発話2「いいえ」より理解結果「意図=否定」が得られた場合、対話管理部4aは、ステップST8aで確認を行った意味項目「場所=横浜市」を誤り意味項目として確定する。このように、誤り意味項目が確定されると、対話管理部4aは、確定した誤り意味項目を対話状況記憶部5内の対話状況スロットから削除する(ステップST10a)。
一方、誤り意味項目として確定されない場合、対話管理部4aは、ステップST5aの処理に移行して、上述した処理を行う。
【0101】
このあと、対話管理部4aは、ステップST9aで確定した誤り意味項目とステップST1aで得られた尤度付き仮説群とを補正信頼度計算部8に送出する。その結果、対話管理部4aは、意味項目の補正信頼度を得ることとなる(ステップST11a)。
【0102】
意味項目の補正信頼度を受けると、対話管理部4aは、ステップST11aで得られた意味項目の補正信頼度に対し、予め設定した閾値0.30による閾値判定を行って(ステップST12a)、ステップST1aで得られた理解結果に含まれる閾値より低い補正信頼度の意味項目を検出する。ただし、誤り意味項目は検出対象に含まない。
このとき、閾値より低い補正信頼度の意味項目がないと、対話管理部4aはステップST5aの処理に移行し、閾値より低い補正信頼度の意味項目があると、ステップST13aの処理に移行する。
【0103】
ステップST13aにおいて、対話管理部4aは、ステップST4aで検出した閾値より低い補正信頼度の意味項目に関して、その正誤を利用者に確認するための応答内容を生成し、応答出力部7に送出する。例えば、図5に示すように、閾値より低い補正信頼度の意味項目として「人数=9」が検出された場合、対話管理部4aは、「人数は9人でよろしいですか」という応答情報を生成する。
【0104】
続いて、上述した意味項目に関する正誤確認に対する返答として、対話管理部4aは、利用者から音声理解部1を介して新たに入力された発話3に対する理解結果を受け取る(ステップST14a)。
【0105】
ステップST15aでは、ステップST14aで得られた理解結果に基づいて、ステップST14aで確認した意味項目の誤り判定を行う。例えば、ステップST16aにおいて、発話3「いいえ」より理解結果「意図=否定」が得られた場合、ステップST13aで確認を行った意味項目「人数=9」を誤り意味項目として確定する。このように、誤り意味項目が確定された場合は、ステップST16aに処理を移す。検出されない場合は、ステップST5aに処理を移す。
このあと、発話3に対する理解結果に基づいて、対話管理部4aは、ステップST14aで確認を行った意味項目の誤り判定を行う(ステップST15a)。例えば、ステップST14aにおいて、発話3「いいえ」より理解結果「意図=否定」が得られた場合、対話管理部4aは、ステップST13aで確認を行った意味項目「人数=9」を誤り意味項目として確定する。このように、誤り意味項目が確定されると、対話管理部4aは、確定した誤り意味項目を対話状況記憶部5内の対話状況スロットから削除する(ステップST16a)。
一方、誤り意味項目として確定されない場合、対話管理部4aは、ステップST5aの処理に移行して、上述した処理を行う。
【0106】
以上のように、この実施の形態2によれば、信頼度が低い意味項目の正誤を利用者に確認した結果、該意味項目が誤りであることが確定すると、さらに再検証処理として、その他の意味項目の信頼度を補正するので、信頼度に対する閾値判定では検出できない誤り意味項目を、高精度に検出することが可能であり、誤り意味項目の確認漏れに起因する対話処理装置の誤動作の問題を解決することができる。
【0107】
実施の形態3.
図7はこの発明の実施の形態3による対話処理装置の構成を示すブロック図であり、対話処理によってホテルの検索や予約を行う例について示している。図において、4bは利用者に提示する応答を生成する対話管理部(対話管理手段)であって、音声理解部1からの理解結果、信頼度計算部2からの信頼度、補正信頼度計算部8からの補正信頼度、補正音声理解部9からの補正理解結果、対話状況記憶部5が保持する対話状況、及びホテルデータベース6が保持するホテル情報とを参照して利用者に提示する応答を生成する。9は音声理解部1の理解結果から補正理解結果を求める補正音声理解部(補正仮説生成手段)であって、対話管理部4bから入力した誤りが確定した意味項目と尤度付きの仮説群とに基づいて理解結果を補正する。ここで、対話管理部4b、及び補正音声理解部9の機能は、コンピュータ装置のプロセッサ(CPU)に実行させるプログラムによって実現することができる。なお、図1及び図4と同一構成要素には同一符号を付して重複する説明を省略する。
【0108】
次に動作について説明する。
図8は図7中の対話処理装置による対話処理で得られる情報を示す図であり、この図に沿って対話処理の概要を説明する。
先ず、音声理解部1は、入力された発話1「東急イン横浜関内でそれ一泊お願いします」に対して音声理解処理を行って、意味項目「人数=9」「場所=横浜市」「泊数=1」「意図=値指定」からなる理解結果を得る。図示の例において、理解結果として選択された意味項目のうち、「人数=9」及び「場所=横浜市」が誤って生成された意味項目である(仮説生成ステップ)。また、該理解結果からは、本来生成すべき「ホテル=東急イン横浜関内」が欠落している。
【0109】
次に、信頼度計算部2が上記理解結果中の各意味項目に対して上記従来の技術で示した方法で信頼度を計算し、対話管理部4bに出力する(信頼度計算ステップ)。その結果、対話管理部4bは、信頼度が予め設定された閾値(規定値)0.50より低い意味項目「場所=横浜市」に関して、認識の誤りがある可能性が高いと判断し、これらを正誤の確認対象として抽出する(対話管理ステップ)。
【0110】
対話管理部4bは、抽出した意味項目の正誤を利用者に確認するための「場所は横浜市でよろしいですか」という応答情報を生成し、応答出力部7に出力する(応答1)。応答出力部7では、例えば不図示のディスプレイなどに文字列として上記応答情報を表示して、利用者に提示する(応答提示ステップ)。これに対して、利用者が「いいえ」を入力したため(発話2)、該意味項目「場所=横浜市」を誤りとして確定し、棄却する。
【0111】
然る後、該意味項目「場所=横浜市」が誤りであることに基づいて、補正音声理解部9は、誤り意味項目「場所=横浜市」を含む仮説を削除した発話1に関する仮説群から、補正理解結果を求める(補正仮説生成ステップ)。この結果、当初の理解結果に含まれていた意味項目「人数=9」が消失し、新たな意味項目「ホテル=東急イン横浜関内」を含む理解結果が得られる。
【0112】
さらに、補正信頼度計算部8は、該補正理解結果中の意味項目に対して補正信頼度を求める(補正信頼度計算ステップ)。この結果、該意味項目「ホテル=東急イン横浜関内」の補正信頼度として、0.73が得られる。該補正信頼度が閾値0.60より高い場合、正しい意味項目である可能性が高い。同時に、消失した意味項目「人数=9」は、誤りであった可能性が高い。そこで、対話管理部4bは、該意味項目の正誤を利用者に確認するために「人数は九人ではなく、ホテルは東急イン横浜関内でよろしいですか」という応答情報を生成し、応答出力部7に送出する(応答2)。応答出力部7では、例えば不図示のディスプレイなどに文字列として上記応答情報を表示して、利用者に提示する(応答提示ステップ)。これに対して、利用者が「はい」を入力したため(発話3)、「人数=9」を誤りと確定して棄却すると共に、「ホテル=東急イン横浜関内」を正解と確定して受理する。
【0113】
次に図7に示した対話処理装置の動作について各構成要素ごとに説明する。
なお、図7において、図1及び図4と同一符号を付した構成要素は、同一乃至これに相当する処理を行うため説明を省略する。以下、図7中の対話管理部4b及び補正音声理解部9の動作について説明する。
先ず、補正音声理解部9は、対話管理部4bから受け取る誤り意味項目のリストと、尤度付き仮説群とに基づいて補正理解結果を生成する(補正仮説生成ステップ)。
ここで、図8を用いて該補正音声理解部9の動作について詳細に説明する。
対話管理部4bから受け取る誤り意味項目のリストとは、既に利用者に確認を行った結果から、誤りであることが確定している意味項目のリストである。例えば、該リストとして、誤り意味項目「場所=横浜市」の1要素からなるリストを受け取ったとする。このとき、図8に示す仮説群のうち、1位と4位の仮説は該誤り意味項目を含むことから、誤った仮説であることが確定する。そこで、上記仮説群から誤った仮説を取り除くとともに、残った仮説群だけで尤度和が1となるように、上記式(8)による尤度の正規化を行う。
【0114】
この結果、補正音声理解部9は、尤度が最大の意味項目の組み合わせ「ホテル=東急イン横浜関内、泊数=1、意図=値指定」を補正理解結果として選択する。このように、既知の誤り「場所=横浜市」を含む仮説を除くことで、初めの理解結果に含まれていた意味項目「人数=9」が消失し、脱落誤りを起こしていた意味項目「ホテル=東急イン横浜関内」が新たに得られる。
【0115】
対話管理部4bでは、音声理解部1から受け取る理解結果及び尤度付き仮説群と、信頼度計算部2から受け取る信頼度と、補正音声理解部9から受け取る補正理解結果と、補正信頼度計算部8から受け取る補正信頼度と、対話状況記憶部5が保持する対話状況と、ホテルデータベース6が保持するホテル情報とを参照して、利用者に出力する応答を生成する。
図9は図7中の対話管理部による動作を示すフロー図であり、同図を用いて該対話管理部の動作について詳細に説明する。
先ず、対話管理部4bは、音声理解部1から発話1に対する理解結果(意味項目の組み合わせ)と、尤度付き仮説群とを受け取る(ステップST1b)。続いて、対話管理部4bは、信頼度計算部2からステップST1bで入力した理解結果の各意味項目に関する信頼度を受け取る(ステップST2b)。
【0116】
ステップST3bにおいて、対話管理部4bは、ステップST1bで受け取った理解結果の意味項目に基づいて対話状況記憶部5の内容を更新する。具体的には、図15に示すような対話状況記憶部5が保持する対話状況の各スロットに、「意図」以外の意味項目を書き込む。
【0117】
次に、ステップST2bで受け取った理解結果の各意味項目に関する信頼度に対して、対話管理部4bは、予め設定しておいた閾値0.50による信頼度の閾値判定を行う(ステップST4b)。これによって低信頼度の意味項目を検出する。このとき、理解結果の各意味項目に関する信頼度の中に閾値に達しない低信頼度の意味項目がない場合、対話管理部4bは、ステップST5bの処理に移行する。一方、低信頼度の意味項目がある場合は、ステップST7bの処理に移行する。
ステップST5bにおいて、対話管理部4bは、下記のようにして発話1に対する応答を生成し、応答出力部7に送出する。
【0118】
応答出力部7に応答が送出されると、対話管理部4bは、対話状況記憶部5の内容に基づいて対話の終了判定を行う(ステップST6b)。このとき、対話状況の「予約状況」スロットに値「完了」が書き込まれていれば、対話管理部4bは対話を終了する。対話状況の「予約状況」スロットに値「完了」が書き込まれていない場合は、ステップST1bに戻って対話を継続する。
【0119】
対話管理部4bは、ステップST4bで検出した低信頼度の意味項目に関し、その正誤を利用者に確認するための応答を生成し、応答出力部7に送出する(ステップST7b)。例えば、図8に示すように、低信頼度の意味項目として「場所=横浜市」が検出されている場合、対話管理部4bは「場所は横浜市でよろしいですか」という応答を生成する。
【0120】
続いて、上述した意味項目に関する正誤確認に対する返答として、対話管理部4bは、利用者から音声理解部1を介して新たに入力された発話2に対する理解結果を受け取る(ステップST8b)。
【0121】
このあと、発話2に対する理解結果に基づいて、対話管理部4bは、ステップST7bで確認を行った意味項目の誤り判定を行う(ステップST9b)。例えば、ステップST8bにおいて、発話2「いいえ」より理解結果「意図=否定」が得られた場合、対話管理部4bは、ステップST8bで確認を行った意味項目「場所=横浜市」を誤り意味項目として確定する。このように、誤り意味項目が確定されると、対話管理部4bは、確定した誤り意味項目を対話状況記憶部5内の対話状況スロットから削除する(ステップST10b)。
一方、誤り意味項目として確定されない場合、対話管理部4bは、ステップST5bの処理に移行して、上述した処理を行う。
【0122】
対話管理部4bは、ステップST9bで確定した誤り意味項目とステップST1bで受け取った尤度付き仮説群とを補正音声理解部9に送出する。この結果、対話管理部4bは発話1に対する補正理解結果(意味項目の組み合わせ)を得る(ステップST11b)。
【0123】
ステップST12bにおいて、対話管理部4bは、ステップST9bで確定した誤り意味項目と、ステップST1bで受け取った尤度付き仮説群とを補正信頼度計算部8に送出する。補正信頼度計算部8は、補正理解結果の各意味項目の補正信頼度を算出すると、これを対話管理部4bに返信する。
【0124】
このあと、対話管理部4bは、ステップST12bで得られた意味項目の補正信頼度に対して、予め設定した閾値0.60による閾値判定を行う(ステップST13b)。ここで、対話管理部4bは、補正理解結果から閾値より高い補正信頼度を有する新規意味項目を検出する。この新規意味項目とは、ステップST1bの理解結果には存在しなかった補正理解結果中の意味項目である。併せて、対話管理部4bは、消失した意味項目を検出する。この消失した意味項目とは、ステップST1bの理解結果に存在する補正理解結果に存在しない意味項目である。ただし、消失した意味項目には、誤りが確定している意味項目を含まないものとする。このようにして、閾値より高い補正信頼度の新規意味項目が検出されると、対話管理部4bは、ステップST14bの処理に移行し、閾値より高い補正信頼度の新規意味項目が検出されないと、ステップST5bの処理に移行する。
【0125】
ステップST14bにおいて、対話管理部4bは、ステップST13bで検出した閾値より高い補正信頼度の新規意味項目と消失した意味項目とに関して、その正誤を利用者に確認するための応答情報を生成し、応答出力部7に送出する。図8の例では「ホテル=東急イン横浜関内」と「人数=9」との正誤を確認するため、対話管理部4bは、応答「人数は九人ではなく、ホテルは東急イン横浜関内でよろしいですか」という応答情報を生成する。
【0126】
続いて、上述した意味項目に関する正誤確認に対する返答として、対話管理部4bは、利用者から音声理解部1を介して新たに入力された発話3に対する理解結果を受け取る(ステップST15b)。
【0127】
このあと、ステップST15bで得られた理解結果に基づいて、対話管理部4bは、ステップST14bで確認した意味項目の正誤判定を行う(ステップST16b)。例えば、ステップST15bにおいて、発話3「はい」より理解結果「意図=肯定」が得られた場合、対話管理部4bは、ステップST14bで確認を行った意味項目「ホテル=東急イン横浜関内」を正しい新規意味項目として確定するとともに、「人数=9」を誤り意味項目として確定する。このように、正誤が確定すると、対話管理部4bは、ステップST17bの処理に移行し、確定しない場合は、ステップST5bの処理に移行する。
【0128】
ステップST17bにおいて、対話管理部4bは、ステップST16bで確定した正しい新規意味項目を、対話状況記憶部5のスロットに書き込む。また、誤りが確定した意味項目を対話状況記憶部5のスロットから削除する。
【0129】
以上のように、この実施の形態3によれば、信頼度が低い意味項目の正誤を利用者に確認した結果、該意味項目が誤りであることが分かると、さらに再理解処理として該誤り意味項目を含まない補正理解結果を求めると共に、その信頼度を計算して、補正理解結果中に新たな意味項目が高い信頼度で見つかった場合、その正誤を利用者に確認するので、従来の信頼度に基づく確認と棄却では対処できなかった意味項目の脱落誤りを救済することができる。これにより、入力情報の欠落に起因する対話処理装置の誤動作の問題を解決することができる。
【0130】
なお、上記実施の形態1から3において、音声を入力する代わりに、手書きの文字列や印刷された文字列を入力とし、音声認識手段の代わりに、文字認識手段を用いても良い。
【0131】
また、上記実施の形態1から3において、単語系列から意味項目の組み合わせを一意に生成する言語理解部を用いる代わりに、単語系列から意味項目の組み合わせを確率的に複数生成する言語理解部を用いても良い。
【0132】
【発明の効果】
以上のように、この発明によれば、入力情報の内容を意味項目ごとに認識した仮説を、該入力情報に関する尤度に応じて複数生成するとともに、これらのうち所定の尤度を有する仮説を理解結果仮説として選択し、理解結果仮説の各意味項目に対して該意味項目を有する仮説間の尤度和である信頼度を算出し、加えて、理解結果仮説の意味項目に対して仮説において意味項目同士が共起する割合である関連度を算出して、理解結果仮説の意味項目の信頼度と該意味項目についての関連度とに基づいて該理解結果仮説に関する利用者への応答情報を生成するので、信頼度に対する閾値判定では検出できない誤り意味項目を高精度に検出することができるという効果がある。また、誤り意味項目の確認漏れに起因する対話処理装置の誤動作の問題を解決することができるという効果がある。
【0133】
この発明によれば、理解結果仮説内に信頼度が予め設定した規定値以下である意味項目が存在すると、該意味項目を認識の正誤についての確認対象として選択するとともに、該意味項目との関連度が予め設定した規定値以上である意味項目が理解結果仮説内に存在すると、該意味項目も認識の正誤についての確認対象に追加した応答情報を生成するので、信頼度に対する閾値判定では検出できない誤り意味項目を高精度に検出することができるという効果がある。
【0134】
この発明によれば、入力情報の内容を意味項目ごとに認識した仮説を、該入力情報に関する尤度に応じて複数生成するとともに、これらのうち所定の尤度を有する仮説を理解結果仮説として選択し、理解結果仮説の各意味項目に対して、該意味項目を有する仮説間の尤度和である信頼度を算出し、加えて、複数の仮説から認識に誤りがある意味項目を含む仮説を削除し、これら仮説に基づいて理解結果仮説の各意味項目に対する信頼度を算出して、理解結果仮説の意味項目の補正信頼度に基づいて該理解結果仮説に関する利用者への応答情報を生成するので、信頼度に対する閾値判定では検出できない誤り意味項目を高精度に検出することができるという効果がある。また、誤り意味項目の確認漏れに起因する対話処理装置の誤動作の問題を解決することができるという効果がある。
【0135】
この発明によれば、入力情報の内容を意味項目ごとに認識した仮説を、該入力情報に関する尤度に応じて複数生成するとともに、これらのうち所定の尤度を有する仮説を理解結果仮説として選択し、理解結果仮説の各意味項目に対して該意味項目を有する仮説間の尤度和である信頼度を算出し、認識に誤りがある意味項目を含む仮説を削除した複数の仮説から、所定の尤度を有する仮説を新たな理解結果仮説として選択して、複数の仮説から認識に誤りがある意味項目を含む仮説を削除し、これら仮説に基づいて新たな理解結果仮説の各意味項目に対する信頼度を算出して、新たな理解結果仮説の各意味項目の信頼度に基づいて該理解結果仮説に関する利用者への応答情報を生成するので、信頼度に対する閾値判定では検出できない誤り意味項目を高精度に検出することができるとともに、意味項目の脱落誤りを救済することができるという効果がある。これにより、入力情報の欠落に起因する対話処理装置の誤動作の問題を解決することができるという効果がある。
【0136】
この発明によれば、理解結果仮説内に信頼度が予め設定した規定値以下である意味項目が存在すると、該意味項目を認識の正誤についての確認対象として選択した応答情報を生成するので、信頼度に対する閾値判定では検出できない誤り意味項目を、高精度に検出することができるという効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による対話処理装置の構成を示すブロック図である。
【図2】 図1中の対話処理装置による対話処理で得られる情報を示す図である。
【図3】 図1中の対話管理部による動作を示すフロー図である。
【図4】 この発明の実施の形態2による対話処理装置の構成を示すブロック図である。
【図5】 図4中の対話処理装置による対話処理で得られる情報を示す図である。
【図6】 図4中の対話管理部による動作を示すフロー図である。
【図7】 この発明の実施の形態3による対話処理装置の構成を示すブロック図である。
【図8】 図7中の対話処理装置による対話処理で得られる情報を示す図である。
【図9】 図7中の対話管理部による動作を示すフロー図である。
【図10】 音声理解処理の一例を示す図である。
【図11】 従来の対話処理方式を適用した対話処理装置の構成を示すブロック図である。
【図12】 図11中の対話処理装置による対話処理で得られる情報を示す図である。
【図13】 図11中の音声理解部の構成を示すブロック図である。
【図14】 図13中の言語理解部が使用する意味項目の生成ルールの一例を示す図である。
【図15】 図11中の対話状況記憶部が保持する対話状況の一例を示す図である。
【図16】 図11中のホテルデータベースが保持するホテル情報の一例を示す図である。
【図17】 図11中の対話管理部の動作を示すフロー図である。
【図18】 対話管理部による応答生成処理の一例を示すフロー図である。
【符号の説明】
1 音声理解部(仮説生成手段)、2 信頼度計算部(信頼度計算手段)、3関連度計算部(関連度計算手段)、4,4a,4b 対話管理部(対話管理手段)、5 対話状況記憶部、6 ホテルデータベース、7 応答出力部、8 補正信頼度計算部(補正信頼度計算手段)、9 補正音声理解部(補正仮説生成手段)、100 音声理解部、100a 音響分析部、100b 音声認識部、100c 言語理解部、101 信頼度計算部、102 対話状況記憶部、103対話管理部、104 応答出力部、105 ホテルデータベース。
Claims (13)
- 入力した発話に対して音声理解処理を施すことにより、上記発話の意味内容を表す意味項目の組み合わせからなる仮説を生成するとともに、上記仮説の尤もらしさを示す尤度が最大となる仮説を理解結果仮説として選択する仮説生成手段と、
上記理解結果仮説の各意味項目に対して、該意味項目を有する仮説間の尤度和である信頼度を算出する信頼度計算手段と、
上記理解結果仮説の意味項目に対して、上記仮説生成手段により生成された仮説において意味項目同士が共起する割合である関連度を算出する関連度計算手段と、
上記理解結果仮説の意味項目の信頼度を所定の規定値と比較して信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成するとともに、この意味項目との関連度を所定の規定値と比較して関連度が高いと判定された上記理解結果仮説内の他の意味項目についても正誤の確認対象として追加した利用者への応答情報を生成し、上記正誤の確認により誤りが確定した意味項目を棄却する対話管理手段とを備えた対話処理装置。 - 対話管理手段は、理解結果仮説において信頼度が規定値以下の第1の意味項目が存在すると、上記第1の意味項目を正誤の確認対象として選択するとともに、上記理解結果仮説において上記第1の意味項目との関連度が規定値以上である第2の意味項目が存在すると、上記第2の意味項目を正誤の確認対象に追加した利用者への応答情報を生成し、この応答情報に対する返答で上記正誤の確認対象とした意味項目の誤りが確定した場合、この意味項目を棄却することを特徴とする請求項1記載の対話処理装置。
- 正誤の確認で誤りが確定した意味項目以外の理解結果仮説における他の意味項目に対して、仮説生成手段により生成された仮説から上記誤りが確定した意味項目を含む仮説を除いた仮説間での尤度和を補正信頼度として算出する補正信頼度計算手段を備え、
対話管理手段は、上記理解結果仮説の意味項目の信頼度と所定の規定値を比較して信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報と生成するとともに、上記正誤の確認により誤りが確定した意味項目以外の上記理解結果仮説における他の意味項目の補正信頼度を所定の規定値と比較して信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成し、上記正誤の確認により誤りが確定した意味項目を棄却することを特徴とする請求項1記載の対話処理装置。 - 仮説生成手段により生成された仮説から、正誤の確認で誤りが確定した意味項目を含む仮説を除いた仮説のうち尤度が最大となる仮説を新たな理解結果仮説として選択する補正仮説生成手段と、
正誤の確認で誤りが確定した意味項目以外の理解結果仮説における他の意味項目に対して、仮説生成手段により生成された仮説から上記誤りが確定した意味項目を含む仮説を除いた仮説間での尤度和を補正信頼度として算出する補正信頼度計算手段とを備え、
対話管理手段は、上記理解結果仮説の意味項目の信頼度を所定の規定値と比較して信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成するとともに、上記正誤の確認により誤りが確定した意味項目を含む仮説を除いた仮説から上記補正仮説生成手段よって選択された新たな理解結果仮説の意味項目の補正信頼度を所定の規定値と比較して信頼度が高いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成し、上記正誤の確認により誤りが確定した意味項目を棄却することを特徴とする請求項1記載の対話処理装置。 - 対話管理手段は、信頼度の規定値が予め設定されており、理解結果仮説内に信頼度が上記規定値以下である意味項目が存在すると、該意味項目を認識の正誤についての確認対象として選択した応答情報を生成することを特徴とする請求項3又は請求項4記載の対話処理装置。
- 応答情報を利用者へ提示する応答出力部を備えた請求項1記載の対話処理装置の対話処理方法において、
仮説生成手段が、入力した発話に対して音声理解処理を施すことにより、上記発話の意味内容を表す意味項目の組み合わせからなる仮説を生成するとともに、上記仮説の尤もらしさを示す尤度が最大となる仮説を理解結果仮説として選択する仮説生成ステップと、
信頼度計算手段が、上記理解結果仮説の各意味項目に対して、該意味項目を有する仮説間の尤度和である信頼度を算出する信頼度計算ステップと、
関連度計算手段が、上記理解結果仮説の意味項目に対して、上記仮説生成ステップで生成された仮説において意味項目同士が共起する割合である関連度を算出する関連度計算ステップと、
対話処理手段が、上記理解結果仮説の意味項目の信頼度と所定の規定値との比較結果から信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成するとともに、この意味項目との関連度と所定の規定値との比較結果から関連度が高いと判定された上記理解結果仮説内の他の意味項目についても正誤の確認対象として追加した利用者への応答情報を生成する対話管理ステップと、
上記応答出力部が、該対話管理ステップにて生成された応答情報を提示する応答提示ステップとを備えた対話処理方法。 - 対話管理ステップにて、対話処理手段が、理解結果仮説において信頼度が規定値以下の第1の意味項目が存在すると、上記第1の意味項目を正誤の確認対象として選択するとともに、上記理解結果仮説において上記第1の意味項目との関連度が規定値以上である第2の意味項目が存在すると、上記第2の意味項目を正誤の確認対象に追加した利用者への応答情報を生成し、この応答情報に対する返答で上記正誤の確認対象とした意味項目の誤りが確定した場合、この意味項目を棄却することを特徴とする請求項6記載の対話処理方法。
- 対話処理装置が、補正信頼度計算手段を有し、
上記補正信頼度計算手段が、正誤の確認で誤りが確定した意味項目以外の上記理解結果仮説における他の意味項目に対して、仮説生成ステップで生成された仮説から上記誤りが確定した意味項目を含む仮説を除いた仮説間での尤度和を補正信頼度として算出する補正信頼度計算ステップを備え、
対話管理ステップにおいて、対話処理手段が、上記理解結果仮説の意味項目の信頼度と所定の規定値を比較して信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報と生成するとともに、上記正誤の確認により誤りが確定した意味項目以外の上記理解結果仮説における他の意味項目の補正信頼度を所定の規定値と比較して信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成し、上記正誤の確認により誤りが確定した意味項目を棄却することを特徴とする請求項6記載の対話処理方法。 - 対話処理装置が、補正仮説生成手段及び補正信頼度計算手段を有し、
上記補正仮説生成手段が、仮説生成ステップで生成された仮説から正誤の確認で誤りが確定した意味項目を含む仮説を除いた仮説のうち、尤度が最大となる仮説を新たな理解結果仮説として選択する補正仮説生成ステップと、
上記補正信頼度計算手段が、正誤の確認で誤りが確定した意味項目以外の理解結果仮説における他の意味項目に対して、上記仮説生成ステップで生成された仮説から上記誤りが確定した意味項目を含む仮説を除いた仮説間での尤度和を補正信頼度として算出する補正信頼度計算ステップとを備え、
対話管理ステップにおいて、対話処理手段が、上記理解結果仮説の意味項目の信頼度と所定の規定値との比較結果から信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成し、上記補正仮説生成ステップで選択された新たな理解結果仮説の意味項目の補正信頼度と所定の規定値との比較結果から信頼度が高いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成するとともに、正誤の確認で誤りが確定した意味項目を含む理解結果仮説において上記補正仮説生成ステップで選択された新たな理解結果仮説に含まれない意味項目がある場合、この意味項目を正誤の確認対象として追加した利用者への応答情報を生成することを特徴とする請求項6記載の対話処理方法。 - 対話管理ステップにて、対話処理手段が、理解結果仮説内に信頼度が予め設定した規定値以下である意味項目が存在すると、該意味項目を認識の正誤についての確認対象として選択した応答情報を生成することを特徴とする請求項8又は請求項9記載の対話処理方法。
- 入力した発話に対して音声理解処理を施すことにより、上記発話の意味内容を表す意味項目の組み合わせからなる仮説を生成するとともに、上記仮説の尤もらしさを示す尤度が最大となる仮説を理解結果仮説として選択する仮説生成手段、
上記理解結果仮説の各意味項目に対して、該意味項目を有する仮説間の尤度和である信頼度を算出する信頼度計算手段、
上記理解結果仮説の意味項目に対して、上記仮説生成手段により生成された仮説において意味項目同士が共起する割合である関連度を算出する関連度計算手段、
上記理解結果仮説の意味項目の信頼度を所定の規定値と比較して信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成するとともに、この意味項目との関連度を所定の規定値と比較して関連度が高いと判定された上記理解結果仮説内の他の意味項目についても正誤の確認対象として追加した利用者への応答情報を生成し、上記正誤の確認により誤りが確定した意味項目を棄却する対話管理手段としてコンピュータを機能させるためのプログラム。 - コンピュータを、
正誤の確認で誤りが確定した意味項目以外の理解結果仮説における他の意味項目に対して、仮説生成手段により生成された仮説から上記誤りが確定した意味項目を含む仮説を除いた仮説間での尤度和を補正信頼度として算出する補正信頼度計算手段、
上記理解結果仮説の意味項目の信頼度と所定の規定値を比較して信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報と生成するとともに、上記正誤の確認により誤りが確定した意味項目以外の上記理解結果仮説における他の意味項目の補正信頼度を所定の規定値と比較して信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成し、上記正誤の確認により誤りが確定した意味項目を棄却する対話管理手段として機能させる請求項11記載のプログラム。 - コンピュータを、
仮説生成手段により生成された仮説から、正誤の確認で誤りが確定した意味項目を含む仮説を除いた仮説のうち尤度が最大となる仮説を新たな理解結果仮説として選択する補正仮説生成手段、
正誤の確認で誤りが確定した意味項目以外の理解結果仮説における他の意味項目に対して、上記仮説生成手段により生成された仮説から上記誤りが確定した意味項目を含む仮説を除いた仮説間での尤度和を補正信頼度として算出する補正信頼度計算手段、
上記理解結果仮説の意味項目の信頼度を所定の規定値と比較して信頼度が低いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成するとともに、上記正誤の確認により誤りが確定した意味項目を含む仮説を除いた仮説から上記補正仮説 生成種谷よって選択された新たな理解結果仮説の意味項目の補正信頼度を所定の規定値と比較して信頼度が高いと判定された意味項目を正誤の確認対象として追加した利用者への応答情報を生成し、上記正誤の確認により誤りが確定した意味項目を棄却する対話管理手段として機能させる請求項11記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001220135A JP4128342B2 (ja) | 2001-07-19 | 2001-07-19 | 対話処理装置及び対話処理方法並びにプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001220135A JP4128342B2 (ja) | 2001-07-19 | 2001-07-19 | 対話処理装置及び対話処理方法並びにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003029782A JP2003029782A (ja) | 2003-01-31 |
JP4128342B2 true JP4128342B2 (ja) | 2008-07-30 |
Family
ID=19053997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001220135A Expired - Fee Related JP4128342B2 (ja) | 2001-07-19 | 2001-07-19 | 対話処理装置及び対話処理方法並びにプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4128342B2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005181386A (ja) * | 2003-12-16 | 2005-07-07 | Mitsubishi Electric Corp | 音声対話処理装置及び音声対話処理方法並びにプログラム |
JP2005275348A (ja) * | 2004-02-23 | 2005-10-06 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
US7844464B2 (en) * | 2005-07-22 | 2010-11-30 | Multimodal Technologies, Inc. | Content-based audio playback emphasis |
JP2006139133A (ja) * | 2004-11-12 | 2006-06-01 | Pioneer Electronic Corp | 音声情報生成装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、音声情報のデータ構造、音声情報を記録した記録媒体、音声出力制御装置、および、そのシステム |
JP2006139134A (ja) * | 2004-11-12 | 2006-06-01 | Pioneer Electronic Corp | 音声出力制御装置、音声出力制御システム、それらの方法、それらのプログラム、および、それらのプログラムを記録した記録媒体 |
JP4661239B2 (ja) * | 2005-01-31 | 2011-03-30 | 日産自動車株式会社 | 音声対話装置及び音声対話方法 |
CN101111885A (zh) * | 2005-02-04 | 2008-01-23 | 株式会社查纳位资讯情报 | 使用抽出的声音数据生成应答声音的声音识别系统 |
US20080091426A1 (en) * | 2006-10-12 | 2008-04-17 | Rod Rempel | Adaptive context for automatic speech recognition systems |
WO2009008115A1 (ja) * | 2007-07-09 | 2009-01-15 | Mitsubishi Electric Corporation | 音声認識装置およびナビゲーションシステム |
JP5325176B2 (ja) * | 2010-07-20 | 2013-10-23 | 日本電信電話株式会社 | 2チャネル音声の音声認識方法とその装置とプログラム |
JP6448765B2 (ja) * | 2015-03-20 | 2019-01-09 | 株式会社東芝 | 対話装置、方法及びプログラム |
JP6334815B2 (ja) * | 2015-03-20 | 2018-05-30 | 株式会社東芝 | 学習装置、方法、プログラムおよび音声対話システム |
CN111858894B (zh) * | 2020-07-29 | 2024-06-04 | 网易(杭州)网络有限公司 | 语义缺失的识别方法及装置、电子设备、存储介质 |
-
2001
- 2001-07-19 JP JP2001220135A patent/JP4128342B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003029782A (ja) | 2003-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4128342B2 (ja) | 対話処理装置及び対話処理方法並びにプログラム | |
US7603279B2 (en) | Grammar update system and method for speech recognition | |
US9037462B2 (en) | User intention based on N-best list of recognition hypotheses for utterances in a dialog | |
US7219050B2 (en) | Automatic interpreting system including a system for recognizing errors | |
US7680661B2 (en) | Method and system for improved speech recognition | |
EP3267369A1 (en) | Decision tree generating apparatus, decision tree generating method, non-transitory computer-readable recording medium, and inquiry system | |
US20080201135A1 (en) | Spoken Dialog System and Method | |
JP5089955B2 (ja) | 音声対話装置 | |
JP4680691B2 (ja) | 対話システム | |
US20030115060A1 (en) | System and interactive form filling with fusion of data from multiple unreliable information sources | |
US20090037174A1 (en) | Understanding spoken location information based on intersections | |
CN113851120A (zh) | 开发者语音动作系统 | |
US6763331B2 (en) | Sentence recognition apparatus, sentence recognition method, program, and medium | |
EP2863385B1 (en) | Function execution instruction system, function execution instruction method, and function execution instruction program | |
KR20190032498A (ko) | 수정된 용어들을 사용하는 음향 모델 트레이닝 | |
US11636853B2 (en) | Natural language grammar improvement | |
Higashinaka et al. | Incorporating discourse features into confidence scoring of intention recognition results in spoken dialogue systems | |
CN107170447B (zh) | 声音处理系统以及声音处理方法 | |
JP2013257418A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
JP4756499B2 (ja) | 音声認識結果の検査装置及びコンピュータプログラム | |
JP3945187B2 (ja) | 対話管理装置 | |
JP2000089786A (ja) | 音声認識結果の修正方法および装置 | |
KR20200036419A (ko) | 음성을 이용한 키워드 추출 방법 및 서버 | |
JP6325770B2 (ja) | 音声認識誤り修正装置及びそのプログラム | |
CN108597503B (zh) | 测试语料生成方法、装置、设备及可读写存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050708 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20071106 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071106 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071106 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080415 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080514 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110523 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110523 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120523 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120523 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130523 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140523 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |