JP4156273B2 - 対話理解評価装置、対話理解評価プログラム、記録媒体 - Google Patents
対話理解評価装置、対話理解評価プログラム、記録媒体 Download PDFInfo
- Publication number
- JP4156273B2 JP4156273B2 JP2002147765A JP2002147765A JP4156273B2 JP 4156273 B2 JP4156273 B2 JP 4156273B2 JP 2002147765 A JP2002147765 A JP 2002147765A JP 2002147765 A JP2002147765 A JP 2002147765A JP 4156273 B2 JP4156273 B2 JP 4156273B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- information request
- dialogue
- understanding
- dialogue understanding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
この発明は文字列又は音声を用いて人と対話する情報提供装置の対話理解評価装置、プログラム、記録媒体に関するものである。
【0002】
【従来の技術】
ユーザが文字列又は音声を用いシステムの情報要求を入力し、
ユーザの情報要求を計算機が利用できる形式に変換し、ユーザの情報要求が入力される毎に、ユーザとシステムのやり取りの履歴を参照して、ユーザの情報要求を解釈し、
解釈の結果であるユーザの情報要求内容を逐次更新し、
ユーザの情報要求についての質問又はユーザの情報要求についての応答を文字列又は音声によりユーザに出力し、
ユーザの情報要求内容が確定された場合は、
ユーザの情報要求を満たす内容を文字列又は音声によりユーザに出力する情報提供装置において、
ユーザの文字列又は音声を用いた情報要求を解釈する、いわゆる理解部の評価に関する従来技術にCER(Concept Error Rate)がある。文献[“Data Collection and Performance Evaluation of Spoken Dialogue Systems: The MIT Experience”, James Glass and Joseph Polifroni and Stephanie Seneff and Victor Zue,icslp2000]
【0003】
CERとは対話システムが属性−値対でユーザの文字列又は音声による情報要求入力を解釈するとした場合、ユーザの情報要求によって、どのくらい正確に属性に値が入力されたかを示す尺度で、
会議室予約システムを例にとれば、日にち、開始時間、終了時間、会議室という4つの属性を用い、ユーザの文字列又は音声による情報要求を解釈する場合、「3時から4時まで第3会議室を予約したい」というユーザの情報要求が正しくシステムに解釈されれば、
((日にち なし)(開始時間3時)(終了時間4時)(会議室 第3会議室))
という結果が得られ、この属性−値対をどれだけ正確に取得できたかでユーザ入力の解釈のよさを計るものである。
【0004】
【発明が解決しようとする課題】
従来技術であるCERではユーザの文字列又は音声による情報要求を入力がどれだけ正確にシステムによって解釈されたかを評価することができるが、ユーザとシステムのやり取りの各時点における、システムが保持する、各時点までのユーザの情報要求を解釈した結果である、ユーザの情報要求内容を(A)、システムが(A)を保持する時の、ユーザの新たな情報要求の入力(B)を解釈することによって得られる、システムが保持する新たなユーザの情報要求内容を(C)とするとき、システムが保持するユーザの情報要求内容を(A)から(C)に変更する過程である、ユーザ入力直前のユーザの情報要求内容をもとにしたユーザ入力の解釈については評価できない。
【0005】
例えば、対話システムが理解状態を属性値の対(以下、スロットと呼ぶ)で構成されるデータ構造(以下、フレームと呼ぶ)を用い保持するとする。
理解状態とはユーザの文字列又は音声による情報要求の入力の後、ユーザとシステムのやり取りの履歴を参照して、ユーザの情報要求を解釈する時、その解釈の結果である、システムが保持するユーザの情報要求内容のことを指す。
【0006】
以下に説明する理解状態の例では、日にち、開始時間、終了時間、会議室のスロットで構成した場合を示す。
会議室予約システムの場合、フレームのスロット全てにユーザが望む値が正しく入力された場合、予約が実行される。複数のユーザ入力を連続的に処理し、その度ごとに理解状態を変更するようなシステムでは、対話開始時の理解状態はユーザの入力ごとに次の理解状態に更新されていく。
【0007】
CERでは「3時から」や「4時まで」というユーザの入力が正しくシステムによって解釈されたかを評価できるが、
理解状態1をシステムが保持しているときに、ユーザ入力1をシステムが解釈し、理解状態2に変更するその解釈のよさや、理解状態2をシステムが保持しているときに、ユーザ入力2をシステムが解釈し、理解状態3に変更するその解釈のよさについては評価できない。
【0008】
理解状態変更の例2:
理解状態変更の例2では「3時から」というユーザ入力が「2時から」と誤って解釈されている。また、ユーザ入力2「4時まで」の解釈の結果得られる理解状態3は理解状態2の誤った個所(開始時間2時)を継承している。
理解状態3はその時点でシステムが保持すべき理解状態としては間違っているかもしれないが、理解状態2からの理解状態の更新の仕方としては間違っていない。
【0009】
以上に示すような過去の理解状態を考慮したユーザ入力の解釈については、その時点までの一連の人とシステムのやり取りが関係してくるため、どのように評価すればよいか明らかでなく、現状では評価尺度が存在しない。
この発明の目的は対話における理解状態に関する指標とユーザとシステムのやり取りの良好さを示す指標との関連を求めることによってシステムの、ユーザの文字列又は音声による以前の理解状態に基づいた、情報の解釈の良好さを示す評価尺度を作成することができる対話理解評価方法及びこの方法を利用した装置、対話理解評価プログラム、このプログラムを記録した記録媒体を提案しようとするものである。
【0010】
【課題を解決するための手段】
この発明では、ユーザが文字列又は音声を用いシステムに情報要求を入力し、ユーザの情報要求を満たす内容を文字列又は音声によりユーザに出力するために、ユーザの情報要求をシステムが利用できる形式に変換し、
ユーザの情報要求が入力される毎に、ユーザとシステムのやり取りの履歴を参照して、ユーザの情報要求を解釈し、
解釈の結果であるシステムが保持するユーザの情報要求内容を逐次更新して、ユーザの情報要求についての質問又はユーザの情報要求についての応答を文字列又は音声によりユーザに出力し、ユーザの情報要求内容が確定された場合は、
ユーザの情報要求を満たす内容を文字列又は音声によりユーザに出力する情報提供装置の対話理解評価方法において、
ユーザとシステムのやり取りの各時点における、システムが保持する、各時点までのユーザの情報要求を解釈した結果である、ユーザの情報要求内容を(A)、
システムが(A)を保持する時のユーザの新たな情報要求の入力を(B)、
システムが(A)を保持する時の、ユーザの新たな情報要求の入力(B)を解釈することによって得られる、システムが保持する新たなユーザの情報要求内容を(C)とする場合、
ユーザとシステムのやり取りに現れる(A)(B)(C)の組に関して、
システムが(A)を保持する時の、ユーザの新たな情報要求の入力(B)によって得られる、システムが保持する新たなユーザの情報要求内容(C)に対応する、システムが保持するユーザの情報要求内容の正解を(C)’とし、
システムが保持するユーザの情報要求内容(C)と(C)’の比較によって得られる指標とシステムが保持するユーザの情報要求内容(A)から(C)への更新と(A)から(C)’への更新の比較によって得られる複数の指標を作成し、これらの値を求め、
これら複数の指標の値と、ユーザとシステムのやり取りの良好さを示す指標との関連を求めることによってシステムの、ユーザの文字列又は音声による情報要求の解釈の良好さを示す評価尺度を作成する対話理解評価方法を提案する。
【0011】
この発明では更に、前記の対話理解評価方法において、
システムが保持するユーザの情報要求内容(C)と(C)’の比較によって得られる指標とシステムが保持するユーザの情報要求内容(A)から(C)への更新と(A)から(C)’への更新の比較によって得られる複数の指標を作成し、これらの値を求め、
これら複数の指標の値と、ユーザとシステムのやり取りの良好さを示す指標との関連を求める手段として、重回帰分析を適用する対話理解評価方法を提案する。
【0012】
この発明では更に、ユーザが文字列又は音声を用いシステムに情報要求を入力する入力手段と、
ユーザの情報要求を満たす内容を文字列又は音声によりユーザに出力する出力手段と、
ユーザの情報要求をシステムが利用できる形式に変換する情報変換手段と、
ユーザの情報要求が入力される毎に、ユーザとシステムのやり取りの履歴を参照して、ユーザの情報要求を解釈する情報解釈手段と、
解釈の結果であるシステムが保持するユーザの情報要求内容を逐次更新する情報要求内容更新手段と、
ユーザの情報要求についての質問又はユーザの情報要求についての応答を文字列又は音声により出力手段に出力し、ユーザの情報要求内容が確定された場合は、ユーザの情報要求を満たす内容を文字列又は音声によりユーザに出力する情報提供装置の対話理解評価装置において、
ユーザとシステムのやり取りの各時点において、システムが保持する、各時点までのユーザの情報要求を解釈した結果である、ユーザの情報要求内容を(A)、
システムが(A)を保持する時のユーザの新たな情報要求の入力を(B)、
システムが(A)を保持する時の、ユーザの新たな情報要求の入力(B)を解釈することによって得られる、システムが保持する新たなユーザの情報要求内容を(C)とする場合、
ユーザとシステムのやり取りに現れる(A)(B)(C)の組に関して、
システムが(A)を保持する時の、ユーザの新たな情報要求の入力(B)によって得られる、システムが保持する新たなユーザの情報要求内容(C)に対応する、システムが保持するユーザの情報要求内容の正解を(C)’とし、
システムが保持するユーザの情報要求内容(C)と(C)’の比較によって得られる指標とシステムが保持するユーザの情報要求内容(A)から(C)への更新と(A)から(C)’への更新の比較によって得られる複数の指標を作成する指標作成手段と、
この指標作成手段で作成した複数の指標の値を算出する指標値計算手段と、
この指標値計算手段が計算した複数の指標の値と、ユーザとシステムのやり取りの良好さを示す指標との関連を求めることによってシステムの、ユーザの文字列又は音声による情報要求の解釈の良好さを示す評価尺度を作成する評価尺度作成手段とを付加した構成とした対話理解評価装置を提案する。
【0013】
作用
この発明による対話理解評価装置によれば、指標作成手段はシステムが保持する、各時点までのユーザの情報要求を解釈した結果である、ユーザの情報要求内容を(A)、システムが(A)を保持する時の、ユーザの新たな情報要求の入力を(B)、システムが(A)を保持する時の、ユーザの新たな情報要求の入力(B)を解釈することによって得られる、システムが保持する新たなユーザの情報要求内容を(C)とする場合、ユーザとシステムのやり取りに現れる(A)(B)(C)の組に関して、システムが(A)を保持する時の、ユーザの新たな情報要求の入力(B)によって得られる、システムが保持する新たなユーザの情報要求内容(C)に対応する、人手で作成されるシステムが保持するユーザの情報要求内容の正解を(C)’とし、システムが保持するユーザの情報要求内容(C)と(C)’の比較によって得られる指標と、システムが保持するユーザの情報要求内容(A)から(C)への更新と(A)から(C)’への更新の比較によって得られる指標を作成する。
【0014】
指標値計算手段は実際に行われた対話記録それぞれについて、指標作成手段で作成された指標の値を計算する。
評価尺度作成手段は指標値計算手段で算出される、実際に行われた対話記録それぞれについての指標の値と、対話それぞれの良好さを示す指標の関連を求めることにより評価尺度を作成する。
ここで、(A)はその時点までの人とシステムのやり取りを反映しているため、ユーザ入力直前までの人とシステムのやり取りを考慮した、システムによるユーザ入力解釈を評価することができる。
【0015】
従って、この発明によれば理解状態がユーザ発話によって逐次的に更新されていくシステムで、そのユーザ入力の解釈の良好さが評価可能になれば、よりよい逐次的に理解状態を更新するシステムの構築や、自動的なユーザ入力解釈ルールの学習及び、学習により生成されたルールの良さを比較的コストのかかる対話実験等をせずに、シミュレーション実験等によって評価することが可能となる。
【0016】
【発明の実施の形態】
この実施例では、この発明を音声対話による会議室予約システムに適用した例を説明する。図1にこの発明の原理構成図、図2はこの発明による対話理解評価方法を説明するためのフローチャートを示す。
図2に示すフローチャートにおいて、ステップSP1〜SP8までの処理は従来の情報提供装置で行われているユーザが情報要求を入力する処理と同じである。この発明で特徴とする処理ステップはステップSP9〜SP13である。
ステップSP9は対話記録の対話における(A),(B),(C)の認識結果などを出力する。
【0017】
ステップSP10は対話記録に基づき(A),(B),(C)それぞれに対する(C)’を作成。
ステップSP11は図1に示す指標作成手段10の処理ステップ。
ステップSP12は図1に示す指標計算手段20の処理ステップ。
ステップSP13は図1に示す評価尺度作成手段30の処理ステップを示す。この発明に用いる指標作成手段10と、指標値計算手段20と、評価尺度作成手段30の詳細は以下のようになる。
【0018】
指標作成手段
対話システムが、ある時点における理解状態をユーザ発話により次の理解状態に変更する、この一連の理解状態変更の流れを理解単位と呼ぶ。また、理解単位におけるユーザ入力前の理解状態を初期理解状態、ユーザ発話後の理解状態を最終理解状態と呼ぶ。例えば、次の対話を例に取ると、正解理解状態は以下のように作成される。この場合、請求項1の表現を用いれば、理解状態1が(A)、ユーザ入力1が(B)、理解状態2が(C)で正解理解状態1が(C)’となる。また理解状態2が(A)、ユーザ入力2が(B)、理解状態3が(C)で、正解理解状態2が(C)’に対応する。
【0019】
対話単位における、システムのユーザ入力の解釈の良さはこれら正解フレームと仮説フレームを比較することによって得られる。
【0020】
比較には2つの方法がある。
一つは、時点時点での理解状態の値の直接比較で、フレーム内のそれぞれのスロットが値を持つか、値が違うか、同じか等を比較する。
この比較により、仮説フレームのそれぞれのスロットについて、図3に示す4種類のラベルC,I,D,Sを付与することができる。各ラベルの比較の対応を図4に示す。
もう1つの比較は、仮説フレーム、正解フレームの初期フレームからの変化同士を比較するもので、この比較により、仮説フレームのそれぞれのスロットについて、図5に示す5種類のラベルCU,CL,UD,UI,USを付与することができる。各ラベルの比較の対応を図6に示す。
【0021】
これら9種類の理解状態に関するラベルを用い、理解単位に対し図7に示す指標を得る。導出は[数1]、[数2]の式による。
式におけるC,I,D,S,CU,CL,UI,UD,USはそれぞれ各ラベルを付与されたスロット数を指す。1〜9の指標で理解単位におけるシステムの理解の仕方又は解釈の仕方を表現している。対話全体の理解状態に関する指標は複数(1つ以上)の理解単位を含むことから、それぞれの値の理解単位数による相加平均とする。また10番目の指標として、スロット正解率が100%であった理解単位の全理解単位数における割合も用いる。今回以下の指標は文献[“n-best 音声認識と逐次理解法によるロバストな音声理解”、宮崎昇・中野幹生・相川清明、情報処理学会研究報告 2002-SLP-40]をもとに作成したが、指標はその時点までの人とシステムのやり取りを反映したユーザ入力直前のシステムの理解状態と、ユーザ入力直後の理解状態を比較するものであれば良い。
【数1】
【数2】
【0022】
システムの良好さに関する指標
会議室予約の対話はタスク達成型のものであるため、タスク達成に要した時間(会議室を予約するために要した時間)をシステムの良好さの尺度として用いる。タスク達成時間とユーザ満足度の間に関連が高いことも指摘されており[文献:M.Walker,C.Kamm,and D.Litman,“Towards developing general models of usability with paradise,”Natural Language Engineering:Special Issue on Best Practice in Spoken Dialogue Systems.,2000.]、タスク達成時間をパフォーマンスの尺度として用いることは妥当である。タスクの達成時間なので、短ければ短い程よい。また、タスク達成時間はタスクと対話戦略によって正規化する必要がある。理由は、タスク達成時間はシステム応答の仕方(対話戦略)とタスクの内容(会議室予約の場合は、日時や会議室名など)に影響を受けるためである。
【0023】
指標値計算手段
対話記録からシステムが保持する、各地点までのユーザの情報要求を解釈した結果である、ユーザの情報要求内容を(A)、システムが(A)を保持する時の、ユーザの新たな情報要求の人力を(B)、システムが(A)を保持する時の、ユーザの新たな情報要求の入力(B)を解釈することによって得られる、システムが保持する新たなユーザの情報要求内容を(C)とする場合、ユーザとシステムのやり取りに現れる(A)(B)(C)の組を抜き出し、それぞれの対話に関して、指標作成部により作成された指標の値を求める。
【0024】
評価尺度作成手段
対話記録のそれぞれの対話に関して、指標値計算部で算出された値と対話の良好さを示す指標の関連を重回帰分析を用い、指標の値から対話の良好さを予測できるような予測式を作成し、この予測式を、評価尺度とする。
【0025】
実際の処理の流れ
対話システムを用いデータ収集を行い、以下のような対話記録(以下は抜粋)を作成する。対話記録には各時点でのシステムの理解状態、音声認識結果、システムの応答内容などが時系列に記録されている。
対話記録はシステムが観測し得る入力や出力、内部状態の変化を時系列に書き出したものである。例えば、ユーザ音声の音声認識結果、システム発話記録、音声認識開始時間、音声認識終了時間、システムの理解状態などである。
【0026】
システムは記録すべき事象を観測した場合、その事象を表わすラベル、その事象の開始時間、終了時間、その事象に関するデータの4つ組で対話記録に書き出す。そのフォーマットは以下のようになる。
(ラベル
(開始時刻(秒)開始時刻(ミリ秒))
(終了時刻(秒)終了時刻(ミリ秒))
データ)
以下、対話記録例(抜粋)の一行一行について、説明する。
【0027】
(FFLUET_PERSISTENT_UTTER(1007086095 566)(1007086098 275)(どの様なご用件でしょうか))
システムが音声によりユーザに発話を行った場合に記録される。FFLUET_PERSISTENT_UTTERというラベルはFFLUETというシステムの構成要素である音声合成器の名称であり、その合成器がPERSISTENT_UTTER(発話している内はユーザ入力を受け付けない発話)を行ったという記録で、データとしては発話文字列である(どのようなご用件でしょうか)が記録されている。
【0028】
(FRAME(1007086098500)(10070860985500)((TOPIC)(SYSTEM-STATE)(USER-ACTION)(ROOM2)(ROOM1)(END)(START)(DATE2)(DATE1)))
ユーザ発話直後のシステムの保持する理解状態(FRAMEと呼ばれる)である。現段階では対話の最初であることから、データにある理解状態(話題)はまだ全ての要素が空である。簡単に説明しておくと、TOPICは対話の焦点に関する情報を保持し、SYSTEM-STATEは直前のシステムの動作を保持、USER-ACTIONは直前のユーザ動作に関する情報を保持する。その他DATE1,DATE2,START,END,ROOM1,ROOM2にはユーザ要求により適宜、会議室、日にち、開始時間、終了時間などの値が入ることになる。
【0029】
(ASR(1007086098 802)(1007086098 802) speech_start)
ラベルのASRとは音声認識器の出力であることを指し、音声認識器が認識を開始したことを示す。
(ASR(1007086106 929)(1007086106 929) speech_end)
ラベルのASRとは音声認識器の出力であることを指し、音声認識器が認識を終了したことを示す。
【0030】
(RECG_RESULT(1007086108 422)(1007086108 422)はい(-1837.603638)です(-2692.345459)7月(-4116.753906)8日(-5048.298828)と(-5713.125488)7月(-7052.240723)19日(-8751.459961)の(-9386.039062)9時(-10249.157227)から(-10858.566406)10時(-11736.385742)まで(-13011.083984)プレゼンテーションルーム(-16650.167969)も(-17149.892578)予約(-18333.126953)したいんですけど(-20943.794922)-22408.910156)
ラベルのRECG_RESULTとは音声認識器の認識結果のことで、データには音声認識結果である文字列が、それぞれ文字列に対する音響尤度(文字列の音響的特徴からのもっともらしさを示す数値)と共に記録される。
【0031】
(ISTAR_SUBTOKEN_ANALYZE(1007086108 365)(1007086108 365)(WORDSEQ はいです7月8日と7月19日の9時から10時までプレゼンテーションルームも予約したいんですけど))
ラベルのISTAR_SUBTOKEN_ANALYZEとはシステム内における言語解析部での処理であるということを指し、データにはWORDSEQ、つまり文字列(word sequence)の“はいです7月8日と7月19日の9時から10時までプレゼンテーションルームも予約したいんですけど”という処理される文字列が示されている。
【0032】
(RECOGNITION-RESULT-NETWORK(1007086108 373)(1007086108 373)(はい です 感動詞文節 7月 月文節 8日 と 日文節 7月 月文節 19日 の 日文節 9時 から 時間文節 10時 まで 時間文節 プレゼンテーションルーム も 会議室文節 予約 したいんですけど 予約の要求を表わす文節))
ラベルのRECOGNITION-RESULT-NETWORKは先の言語解析部で文字列を処理(主に構文解析処理)した結果ということを示す。構文解析によって得られる構文解析結果付き文字列がデータがデータに書かれる。具体的には各文字列がどういった文節であるかという情報が付加される。
【0033】
(FRAME(1007086109 579)(1007086109 579)((TOPIC)(SYSTEM-STATE)(USER-ACTION REQUEST)(ROOM2)(ROOM1.プレゼンテーションルーム)(END100)(START90)(DATE27 19)(DATE1 7 8)))
ラベルのFRAMEは理解状態に関する記録ということを示し、システムが構文解析結果付き文字列を処理した直後の理解状態が記録されている。理解状態はユーザ入力の内容を反映して、例えば“9時から”とユーザが言っていたため、(START 9 0)というようになっている。また“予約したいんですけど”というユーザ入力を反映して(USER-ACTION.REQUEST)となっている。
【0034】
対話記録から、時系列的に理解単位に対応する個所を抽出する。次に抽出した理解単位の初期理解状態とユーザ発話をもとに、人手で、その時々の理解状態がどのようであればよいかを書き出し、それを正解フレームとして先程の対話システムの理解状態、ユーザ発話、ユーザ発話後の理解状態正解である理解状態と共に記録する。その結果、理解単位と正解理解状態の組が理解単位の個数分連接したファイル1が作成される。
人手で正解フレームを作成するのはコストがかかるので、初期理解状態と書き起こされたユーザ発話を用いて、正解理解状態を推定するシミュレーションシステムを用い、正解フレームを作成する際にはシミュレーションシステムの出力の間違いを正す形で行う。
【0035】
以下作成されたファイル1の例である。初期理解状態(START-FRAME,理解状態が空の場合は(START-FRAME)とだけ書かれる)に続いてユーザ発話に関する情報(TRANSは書き起こされたユーザ発話、LOGは対話記録に記録されているユーザ発話認識結果)、ユーザ発話後の理解状態(END-FRAME)、書き起こし情報を用いて作成されたシステムが推定する理解状態(SIMUL, Simulated frameのこと)、最後にシステムの推定した理解状態を変更することで作成された正解理解状態(CORRECT)である。ファイル1には以下のデータを1組としたデータが理解単位の数だけある。
【0036】
(UNIT
(START-FRAME)
(ASR(TRANS“5月15日と5月9日15時30分から22時30分まで第3会議室の予約をお願いします”)(LOG“5月15日と10日5月9日は15時30分からです22時30分までです第3会議室予約をお願いします”)(RECG“5月15日と9日は15時30分から9時12時30分まであと第3会議室も予約をお願いします”))
(END-FRAME(TOPIC)(SYSTEM-STATE)(USER-ACTION.REQUEST)(ROOM2)
(ROOM1.第3会議室)(END)(START 22 30)(DATE2)(DATE1 5 15))
(SIMUL(TOPIC)(SYSTEM-STATE)(USER-ACTION.REQUEST)(ROOM2)(ROOM1
.第3会議室)(END 22 30)(START 15 30)(DATE2 5 9)(DATE1 5 15))
(CORRECT(TOPIC)(SYSTEM-STATE)(USER-ACTION.REQUEST)(ROOM2)
(ROOM1.第3会議室)(END 22 30)(START 15 30)(DATE2 5 9)(DATE1 5 15)))
【0037】
次に先程作成したファイル1から理解状態に関する10の指標の値を各対話に関して求める。そのために、対話の各理解単位における理解状態の正しさに関するラベリングと対話の各理解単位における理解状態の更新の正しさに関するラベリングを行い、その結果を記した中間ファイル(ファイル2)を作成する。それらは以下のようになる。
((SLOT , 6) (D , 2) (I , 0) (S , 1) (C , 3))
((SLOT , 6) (D , 0) (I , 0) (S , 0) (C , 6))
((SLOT , 6) (D , 1) (I , 0) (S , 0) (C , 5))
((SLOT , 6) (D , 0) (I , 0) (S , 0) (C , 6))
((SLOT , 6) (D , 0) (I , 0) (S , 0) (C , 6))
((SLOT , 6) (D , 0) (I , 0) (S , 0) (C , 6))
((SLOT , 6) (D , 0) (I , 0) (S , 0) (C , 6))
((SLOT , 6) (UD , 2) (UI , 0) (US , 1) (CU , 2)(CL , 1))
((SLOT , 6) (UD , 0) (UI , 0) (US , 0) (CU , 1)(CL , 5))
((SLOT , 6) (UD , 0) (UI , 1) (US , 0) (CU , 1)(CL , 4))
((SLOT , 6) (UD , 0) (UI , 0) (US , 0) (CU , 1)(CL , 5))
((SLOT , 6) (UD , 0) (UI , 0) (US , 0) (CU , 1)(CL , 5))
((SLOT , 6) (UD , 0) (UI , 0) (US , 0) (CU , 0)(CL , 6))
((SLOT , 6) (UD , 0) (UI , 0) (US , 0) (CU , 0)(CL , 6))
ファイル2をもとに対話に関する10の指標の値を計算し、ファイル3に書き出す。ファイル3にはタスクの達成可否やタスク達成時間、理解単位数も同時に書かれている。
0.8 0.0 0.5 0.1 0.5 T 53.82 4
(スロット更新精度,更新挿入誤り率,更新削除誤り率,更新置換誤り率,音声理解率,タスク成否(成功:Tか失敗:NIL),タスク達成時間(秒),発話単位数の順)
0.9166667 0.0 0.0 0.083333336 0.083333336 T 53.82 4
(スロット正解率,挿入誤り率,削除誤り率,置換誤り率,スロット誤り率,タスク成否(成功:Tか失敗:NIL)、タスク達成時間(秒),発話単位数の順)
【0038】
ファイル3は行われた対話の回数分だけ作成される。それぞれのタスク達成時間はそのタスクの内容とその対話で用いられた対話戦略によって正規化される。または全ての対話それぞれに関する10の指標と正規化されたタスク達成時間をファイル4に書き出す。最初に書かれるexp_から始まる項目は、対話の開始された時間を用いて決定される、それぞれの対話につけられた名前である。
【0039】
exp_2001_11_30_11_10_40,0.9166667,0.8,0.0,0.5,0.1,0.5,0.9166667,0.0,0.0,0.083333336,0.083333336,-1.6517191123182
exp_2001_11_30_11_13_02,0.8541667,0.5833333,0.022916667,0.5208333,0.0625,0.5625,0.8541667,0.010416667,0.104166664,0.03125,0.14583333,-0.132508548233085
exp_2001_11_30_11_35_54,0.8854167,0.8333333,0.0,0.44444445,0.055555556,0.6875,0.8854167,0.0,0.104166664,0.010416667,0.114583336,0.975139363103753
exp_2001_11_30_11_46_40,0.9166667,0.76666665,0.05,0.0,0.06666667,0.5,0.9166667,0.0,0.041666668,0.041666668,0.083333336,-1.8905314971624
各対話に関する10の指標を説明変数、タスク達成時間を被説明変数として重回帰分析を行い、10の指標からタスク達成時間を導けるような予測式を作成し、予測式が統計的に有効性を示す時、この予測式を対話におけるユーザ入力の解釈の評価尺度とする。
【0040】
その結果、例えば以下のような予測式が得られる。
【数3】
Yは対話の良好さ(タスク達成の予測時間)を示す。対話記録が複数個あったとして、それらを対象としYを求めれば、複数個の対話それぞれに対しYが求められ、求められたYの中で、最もYが小さかった対話が一番よい対話であると言える。
【0041】
【発明の効果】
以上説明したように、この発明によれば理解状態がユーザ発話によって逐次に更新されていくシステムにおいて、以前の理解状態に基づいたユーザ入力の解釈の良好さが評価可能となる。従って、逐次的に理解状態を更新するシステム、或は自動的にユーザ入力解釈ルールの学習及び学習により生成されたルールの良さを比較的コストのかかる対話実験等をせずに、シミュレーション実験等によって評価することができる。
上述した、この発明による対話理解評価方法はコンピュータが読み取り可能な記号によって記述されたプログラムによって実行される。プログラムはコンピュータが読み取り可能な例えば磁気ディスク、或はCD−ROM等の記録媒体に記憶され、これらの記録媒体からコンピュータにインストールされてコンピュータにより実行される。
【0042】
また、他の方法としては通信回線を通じてコンピュータにインストールして実行させることもできる。
【図面の簡単な説明】
【図1】この発明の対話理解評価装置の原理構成図。
【図2】この発明による対話理解評価方法を説明するためのフローチャート。
【図3】対話の各理解単位における理解状態の正しさに関するラベルの名前と各ラベルを説明するための図。
【図4】図3に示したラベルの仮説フレームと正解フレームとの関係を説明するための図。
【図5】対話の各理解単位における理解状態の更新の正しさに関するラベルの名前と各ラベルを説明するための図。
【図6】図5に示したラベルの仮説フレームと正解フレームとの関係を説明するための図。
【図7】この発明の特徴とする仮説フレームへのラベリングから理解状態に関する指標の取得方法を説明するための図。
【符号の説明】
10 指標作成手段
20 指標値計算手段
30 評価尺度作成手段
Claims (4)
- ユーザの情報要求を対話型で処理する情報提供システムの対話理解評価装置であって、
ユーザとシステムのやり取りの各時点において、システムが保持する、各時点までのユーザの情報要求を解釈した結果である、ユーザの情報要求内容を(A)、
システムが(A)を保持する時の、ユーザの新たな情報要求の入力であり、ユーザ発話の言語解析結果を(B)、
システムが(A)を保持する時の、ユーザの新たな情報要求の入力(B)によって得られる、システムが保持する新たなユーザの情報要求内容を(C)とする場合、
前記(A)(C)を属性と値を対とするスロットで構成されるフレームで表現し、前記(A)(B)(C)を記録する対話記録手段と、
ユーザとシステムのやり取りに現れる(A)(B)(C)の組に関して、当該(C)に対応する、あらかじめ作成されたシステムが保持するフレーム表現の正解を(C)’とし、
各スロットにおける前記(C)の属性値と前記(C)’の属性値の比較により、前記(C)の各スロットに事前に定義されたラベルを付与し、
各スロットにおける、前記(A)から前記(C)への属性値の変化と前記(A)から前記(C)’の属性値の変化の比較により、前記(C)の各スロットに事前に定義されたラベルを付与し、
ラベル数を入力値とする、あらかじめ決められた計算式によって複数の指標の値を算出し、算出された指標値を記憶手段に記録する指標値計算手段と、
この指標値計算手段が計算した指標の値を説明変数、ユーザとシステムのやり取りの良好さを示す指標を被説明変数として重回帰分析を行い、説明変数から被説明変数を導く予測式を作成する評価尺度作成手段と、
を有することを特徴とする対話理解評価装置。 - 請求項1記載の対話理解評価装置において、
上記ユーザとシステムのやり取りの良好さを示す指標はタスク達成時間である
ことを特徴とする対話理解評価装置。 - 請求項1または2に記載の対話理解評価装置を構成する各手段としてコンピュータを機能させる対話理解評価プログラム。
- 請求項3記載の対話理解評価プログラムを記録したコンピュータが読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002147765A JP4156273B2 (ja) | 2002-05-22 | 2002-05-22 | 対話理解評価装置、対話理解評価プログラム、記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002147765A JP4156273B2 (ja) | 2002-05-22 | 2002-05-22 | 対話理解評価装置、対話理解評価プログラム、記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003345816A JP2003345816A (ja) | 2003-12-05 |
JP4156273B2 true JP4156273B2 (ja) | 2008-09-24 |
Family
ID=29766672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002147765A Expired - Fee Related JP4156273B2 (ja) | 2002-05-22 | 2002-05-22 | 対話理解評価装置、対話理解評価プログラム、記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4156273B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5783793B2 (ja) * | 2011-05-18 | 2015-09-24 | 日本電信電話株式会社 | 対話評価装置、方法及びプログラム |
-
2002
- 2002-05-22 JP JP2002147765A patent/JP4156273B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003345816A (ja) | 2003-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200090660A1 (en) | System and method of text zoning | |
US9159318B2 (en) | Unsupervised and active learning in automatic speech recognition for call classification | |
US11430430B2 (en) | System and method for determining the compliance of agent scripts | |
JP4510953B2 (ja) | 音声認識におけるノンインタラクティブ方式のエンロールメント | |
US7260534B2 (en) | Graphical user interface for determining speech recognition accuracy | |
US20170098445A1 (en) | System and Method of Automated Language Model Adaptation | |
JP2012037619A (ja) | 話者適応化装置、話者適応化方法および話者適応化用プログラム | |
KR20030076686A (ko) | 계층적 언어 모델 | |
US11538466B2 (en) | Development of voice and other interaction applications | |
US20230072519A1 (en) | Development of Voice and Other Interaction Applications | |
CN107808674A (zh) | 一种测评语音的方法、介质、装置及电子设备 | |
US11349989B2 (en) | Systems and methods for sensing emotion in voice signals and dynamically changing suggestions in a call center | |
US11749256B2 (en) | Development of voice and other interaction applications | |
CN108962228A (zh) | 模型训练方法和装置 | |
Higashinaka et al. | Incorporating discourse features into confidence scoring of intention recognition results in spoken dialogue systems | |
Tomko et al. | Towards efficient human machine speech communication: The speech graffiti project | |
JP4156273B2 (ja) | 対話理解評価装置、対話理解評価プログラム、記録媒体 | |
Glass et al. | Data collection and performance evaluation of spoken dialogue systems: the MIT experience. | |
Hardy et al. | The Amitiés system: Data-driven techniques for automated dialogue | |
López-Cózar et al. | Combining language models in the input interface of a spoken dialogue system | |
Lamel | Spoken language dialog system development and evaluation at LIMSI | |
JP4220151B2 (ja) | 音声対話装置 | |
Jackson | Automatic speech recognition: Human computer interface for kinyarwanda language | |
JP2005258235A (ja) | 感情発話検知による対話修正機能を備えた対話制御装置 | |
KR102306053B1 (ko) | 음성 인식 모델을 이용한 노년층 대상의 언어 훈련 방법 및 그 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040803 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20061004 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080212 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080410 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080701 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080709 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110718 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120718 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |