JP4156273B2

JP4156273B2 - 対話理解評価装置、対話理解評価プログラム、記録媒体

Info

Publication number: JP4156273B2
Application number: JP2002147765A
Authority: JP
Inventors: 竜一郎東中; 昇宮崎; 清明相川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-05-22
Filing date: 2002-05-22
Publication date: 2008-09-24
Anticipated expiration: 2022-05-22
Also published as: JP2003345816A

Description

【０００１】
【発明の属する技術分野】
この発明は文字列又は音声を用いて人と対話する情報提供装置の対話理解評価装置、プログラム、記録媒体に関するものである。
【０００２】
【従来の技術】
ユーザが文字列又は音声を用いシステムの情報要求を入力し、
ユーザの情報要求を計算機が利用できる形式に変換し、ユーザの情報要求が入力される毎に、ユーザとシステムのやり取りの履歴を参照して、ユーザの情報要求を解釈し、
解釈の結果であるユーザの情報要求内容を逐次更新し、
ユーザの情報要求についての質問又はユーザの情報要求についての応答を文字列又は音声によりユーザに出力し、
ユーザの情報要求内容が確定された場合は、
ユーザの情報要求を満たす内容を文字列又は音声によりユーザに出力する情報提供装置において、
ユーザの文字列又は音声を用いた情報要求を解釈する、いわゆる理解部の評価に関する従来技術にCER(Concept Error Rate)がある。文献［“Data Collection and Performance Evaluation of Spoken Dialogue Systems: The MIT Experience”, James Glass and Joseph Polifroni and Stephanie Seneff and Victor Zue,icslp2000］
【０００３】
CERとは対話システムが属性−値対でユーザの文字列又は音声による情報要求入力を解釈するとした場合、ユーザの情報要求によって、どのくらい正確に属性に値が入力されたかを示す尺度で、
会議室予約システムを例にとれば、日にち、開始時間、終了時間、会議室という４つの属性を用い、ユーザの文字列又は音声による情報要求を解釈する場合、「３時から４時まで第３会議室を予約したい」というユーザの情報要求が正しくシステムに解釈されれば、
((日にちなし)(開始時間３時)(終了時間４時)(会議室第３会議室))
という結果が得られ、この属性−値対をどれだけ正確に取得できたかでユーザ入力の解釈のよさを計るものである。
【０００４】
【発明が解決しようとする課題】
従来技術であるCERではユーザの文字列又は音声による情報要求を入力がどれだけ正確にシステムによって解釈されたかを評価することができるが、ユーザとシステムのやり取りの各時点における、システムが保持する、各時点までのユーザの情報要求を解釈した結果である、ユーザの情報要求内容を（Ａ）、システムが（Ａ）を保持する時の、ユーザの新たな情報要求の入力（Ｂ）を解釈することによって得られる、システムが保持する新たなユーザの情報要求内容を（Ｃ）とするとき、システムが保持するユーザの情報要求内容を（Ａ）から（Ｃ）に変更する過程である、ユーザ入力直前のユーザの情報要求内容をもとにしたユーザ入力の解釈については評価できない。
【０００５】
例えば、対話システムが理解状態を属性値の対（以下、スロットと呼ぶ）で構成されるデータ構造（以下、フレームと呼ぶ）を用い保持するとする。
理解状態とはユーザの文字列又は音声による情報要求の入力の後、ユーザとシステムのやり取りの履歴を参照して、ユーザの情報要求を解釈する時、その解釈の結果である、システムが保持するユーザの情報要求内容のことを指す。
【０００６】
以下に説明する理解状態の例では、日にち、開始時間、終了時間、会議室のスロットで構成した場合を示す。
会議室予約システムの場合、フレームのスロット全てにユーザが望む値が正しく入力された場合、予約が実行される。複数のユーザ入力を連続的に処理し、その度ごとに理解状態を変更するようなシステムでは、対話開始時の理解状態はユーザの入力ごとに次の理解状態に更新されていく。
【０００７】

CERでは「３時から」や「４時まで」というユーザの入力が正しくシステムによって解釈されたかを評価できるが、
理解状態１をシステムが保持しているときに、ユーザ入力１をシステムが解釈し、理解状態２に変更するその解釈のよさや、理解状態２をシステムが保持しているときに、ユーザ入力２をシステムが解釈し、理解状態３に変更するその解釈のよさについては評価できない。
【０００８】
理解状態変更の例２：

理解状態変更の例２では「３時から」というユーザ入力が「２時から」と誤って解釈されている。また、ユーザ入力２「４時まで」の解釈の結果得られる理解状態３は理解状態２の誤った個所（開始時間２時）を継承している。
理解状態３はその時点でシステムが保持すべき理解状態としては間違っているかもしれないが、理解状態２からの理解状態の更新の仕方としては間違っていない。
【０００９】
以上に示すような過去の理解状態を考慮したユーザ入力の解釈については、その時点までの一連の人とシステムのやり取りが関係してくるため、どのように評価すればよいか明らかでなく、現状では評価尺度が存在しない。
この発明の目的は対話における理解状態に関する指標とユーザとシステムのやり取りの良好さを示す指標との関連を求めることによってシステムの、ユーザの文字列又は音声による以前の理解状態に基づいた、情報の解釈の良好さを示す評価尺度を作成することができる対話理解評価方法及びこの方法を利用した装置、対話理解評価プログラム、このプログラムを記録した記録媒体を提案しようとするものである。
【００１０】
【課題を解決するための手段】
この発明では、ユーザが文字列又は音声を用いシステムに情報要求を入力し、ユーザの情報要求を満たす内容を文字列又は音声によりユーザに出力するために、ユーザの情報要求をシステムが利用できる形式に変換し、
ユーザの情報要求が入力される毎に、ユーザとシステムのやり取りの履歴を参照して、ユーザの情報要求を解釈し、
解釈の結果であるシステムが保持するユーザの情報要求内容を逐次更新して、ユーザの情報要求についての質問又はユーザの情報要求についての応答を文字列又は音声によりユーザに出力し、ユーザの情報要求内容が確定された場合は、
ユーザの情報要求を満たす内容を文字列又は音声によりユーザに出力する情報提供装置の対話理解評価方法において、
ユーザとシステムのやり取りの各時点における、システムが保持する、各時点までのユーザの情報要求を解釈した結果である、ユーザの情報要求内容を（Ａ）、
システムが（Ａ）を保持する時のユーザの新たな情報要求の入力を（Ｂ）、
システムが（Ａ）を保持する時の、ユーザの新たな情報要求の入力（Ｂ）を解釈することによって得られる、システムが保持する新たなユーザの情報要求内容を（Ｃ）とする場合、
ユーザとシステムのやり取りに現れる（Ａ）（Ｂ）（Ｃ）の組に関して、
システムが（Ａ）を保持する時の、ユーザの新たな情報要求の入力（Ｂ）によって得られる、システムが保持する新たなユーザの情報要求内容（Ｃ）に対応する、システムが保持するユーザの情報要求内容の正解を（Ｃ）’とし、
システムが保持するユーザの情報要求内容（Ｃ）と（Ｃ）’の比較によって得られる指標とシステムが保持するユーザの情報要求内容（Ａ）から（Ｃ）への更新と（Ａ）から（Ｃ）’への更新の比較によって得られる複数の指標を作成し、これらの値を求め、
これら複数の指標の値と、ユーザとシステムのやり取りの良好さを示す指標との関連を求めることによってシステムの、ユーザの文字列又は音声による情報要求の解釈の良好さを示す評価尺度を作成する対話理解評価方法を提案する。
【００１１】
この発明では更に、前記の対話理解評価方法において、
システムが保持するユーザの情報要求内容（Ｃ）と（Ｃ）’の比較によって得られる指標とシステムが保持するユーザの情報要求内容（Ａ）から（Ｃ）への更新と（Ａ）から（Ｃ）’への更新の比較によって得られる複数の指標を作成し、これらの値を求め、
これら複数の指標の値と、ユーザとシステムのやり取りの良好さを示す指標との関連を求める手段として、重回帰分析を適用する対話理解評価方法を提案する。
【００１２】
この発明では更に、ユーザが文字列又は音声を用いシステムに情報要求を入力する入力手段と、
ユーザの情報要求を満たす内容を文字列又は音声によりユーザに出力する出力手段と、
ユーザの情報要求をシステムが利用できる形式に変換する情報変換手段と、
ユーザの情報要求が入力される毎に、ユーザとシステムのやり取りの履歴を参照して、ユーザの情報要求を解釈する情報解釈手段と、
解釈の結果であるシステムが保持するユーザの情報要求内容を逐次更新する情報要求内容更新手段と、
ユーザの情報要求についての質問又はユーザの情報要求についての応答を文字列又は音声により出力手段に出力し、ユーザの情報要求内容が確定された場合は、ユーザの情報要求を満たす内容を文字列又は音声によりユーザに出力する情報提供装置の対話理解評価装置において、
ユーザとシステムのやり取りの各時点において、システムが保持する、各時点までのユーザの情報要求を解釈した結果である、ユーザの情報要求内容を（Ａ）、
システムが（Ａ）を保持する時のユーザの新たな情報要求の入力を（Ｂ）、
システムが（Ａ）を保持する時の、ユーザの新たな情報要求の入力（Ｂ）を解釈することによって得られる、システムが保持する新たなユーザの情報要求内容を（Ｃ）とする場合、
ユーザとシステムのやり取りに現れる（Ａ）（Ｂ）（Ｃ）の組に関して、
システムが（Ａ）を保持する時の、ユーザの新たな情報要求の入力（Ｂ）によって得られる、システムが保持する新たなユーザの情報要求内容（Ｃ）に対応する、システムが保持するユーザの情報要求内容の正解を（Ｃ）’とし、
システムが保持するユーザの情報要求内容（Ｃ）と（Ｃ）’の比較によって得られる指標とシステムが保持するユーザの情報要求内容（Ａ）から（Ｃ）への更新と（Ａ）から（Ｃ）’への更新の比較によって得られる複数の指標を作成する指標作成手段と、
この指標作成手段で作成した複数の指標の値を算出する指標値計算手段と、
この指標値計算手段が計算した複数の指標の値と、ユーザとシステムのやり取りの良好さを示す指標との関連を求めることによってシステムの、ユーザの文字列又は音声による情報要求の解釈の良好さを示す評価尺度を作成する評価尺度作成手段とを付加した構成とした対話理解評価装置を提案する。
【００１３】
作用
この発明による対話理解評価装置によれば、指標作成手段はシステムが保持する、各時点までのユーザの情報要求を解釈した結果である、ユーザの情報要求内容を（Ａ）、システムが（Ａ）を保持する時の、ユーザの新たな情報要求の入力を（Ｂ）、システムが（Ａ）を保持する時の、ユーザの新たな情報要求の入力（Ｂ）を解釈することによって得られる、システムが保持する新たなユーザの情報要求内容を（Ｃ）とする場合、ユーザとシステムのやり取りに現れる（Ａ）（Ｂ）（Ｃ）の組に関して、システムが（Ａ）を保持する時の、ユーザの新たな情報要求の入力（Ｂ）によって得られる、システムが保持する新たなユーザの情報要求内容（Ｃ）に対応する、人手で作成されるシステムが保持するユーザの情報要求内容の正解を（Ｃ）’とし、システムが保持するユーザの情報要求内容（Ｃ）と（Ｃ）’の比較によって得られる指標と、システムが保持するユーザの情報要求内容（Ａ）から（Ｃ）への更新と（Ａ）から（Ｃ）’への更新の比較によって得られる指標を作成する。
【００１４】
指標値計算手段は実際に行われた対話記録それぞれについて、指標作成手段で作成された指標の値を計算する。
評価尺度作成手段は指標値計算手段で算出される、実際に行われた対話記録それぞれについての指標の値と、対話それぞれの良好さを示す指標の関連を求めることにより評価尺度を作成する。
ここで、（Ａ）はその時点までの人とシステムのやり取りを反映しているため、ユーザ入力直前までの人とシステムのやり取りを考慮した、システムによるユーザ入力解釈を評価することができる。
【００１５】
従って、この発明によれば理解状態がユーザ発話によって逐次的に更新されていくシステムで、そのユーザ入力の解釈の良好さが評価可能になれば、よりよい逐次的に理解状態を更新するシステムの構築や、自動的なユーザ入力解釈ルールの学習及び、学習により生成されたルールの良さを比較的コストのかかる対話実験等をせずに、シミュレーション実験等によって評価することが可能となる。
【００１６】
【発明の実施の形態】
この実施例では、この発明を音声対話による会議室予約システムに適用した例を説明する。図１にこの発明の原理構成図、図２はこの発明による対話理解評価方法を説明するためのフローチャートを示す。
図２に示すフローチャートにおいて、ステップＳＰ１〜ＳＰ８までの処理は従来の情報提供装置で行われているユーザが情報要求を入力する処理と同じである。この発明で特徴とする処理ステップはステップＳＰ９〜ＳＰ１３である。
ステップＳＰ９は対話記録の対話における（Ａ），（Ｂ），（Ｃ）の認識結果などを出力する。
【００１７】
ステップＳＰ１０は対話記録に基づき（Ａ），（Ｂ），（Ｃ）それぞれに対する（Ｃ）’を作成。
ステップＳＰ１１は図１に示す指標作成手段１０の処理ステップ。
ステップＳＰ１２は図１に示す指標計算手段２０の処理ステップ。
ステップＳＰ１３は図１に示す評価尺度作成手段３０の処理ステップを示す。この発明に用いる指標作成手段１０と、指標値計算手段２０と、評価尺度作成手段３０の詳細は以下のようになる。
【００１８】
指標作成手段
対話システムが、ある時点における理解状態をユーザ発話により次の理解状態に変更する、この一連の理解状態変更の流れを理解単位と呼ぶ。また、理解単位におけるユーザ入力前の理解状態を初期理解状態、ユーザ発話後の理解状態を最終理解状態と呼ぶ。例えば、次の対話を例に取ると、正解理解状態は以下のように作成される。この場合、請求項１の表現を用いれば、理解状態１が（Ａ）、ユーザ入力１が（Ｂ）、理解状態２が（Ｃ）で正解理解状態１が（Ｃ）’となる。また理解状態２が（Ａ）、ユーザ入力２が（Ｂ）、理解状態３が（Ｃ）で、正解理解状態２が（Ｃ）’に対応する。
【００１９】

対話単位における、システムのユーザ入力の解釈の良さはこれら正解フレームと仮説フレームを比較することによって得られる。
【００２０】
比較には２つの方法がある。
一つは、時点時点での理解状態の値の直接比較で、フレーム内のそれぞれのスロットが値を持つか、値が違うか、同じか等を比較する。
この比較により、仮説フレームのそれぞれのスロットについて、図３に示す４種類のラベルC,I,D,Sを付与することができる。各ラベルの比較の対応を図４に示す。
もう１つの比較は、仮説フレーム、正解フレームの初期フレームからの変化同士を比較するもので、この比較により、仮説フレームのそれぞれのスロットについて、図５に示す５種類のラベルCU,CL,UD,UI,USを付与することができる。各ラベルの比較の対応を図６に示す。
【００２１】
これら９種類の理解状態に関するラベルを用い、理解単位に対し図７に示す指標を得る。導出は［数１］、［数２］の式による。
式におけるC,I,D,S,CU,CL,UI,UD,USはそれぞれ各ラベルを付与されたスロット数を指す。１〜９の指標で理解単位におけるシステムの理解の仕方又は解釈の仕方を表現している。対話全体の理解状態に関する指標は複数（１つ以上）の理解単位を含むことから、それぞれの値の理解単位数による相加平均とする。また１０番目の指標として、スロット正解率が１００％であった理解単位の全理解単位数における割合も用いる。今回以下の指標は文献［“n-best 音声認識と逐次理解法によるロバストな音声理解”、宮崎昇・中野幹生・相川清明、情報処理学会研究報告 2002-SLP-40］をもとに作成したが、指標はその時点までの人とシステムのやり取りを反映したユーザ入力直前のシステムの理解状態と、ユーザ入力直後の理解状態を比較するものであれば良い。
【数１】

【数２】

【００２２】
システムの良好さに関する指標
会議室予約の対話はタスク達成型のものであるため、タスク達成に要した時間（会議室を予約するために要した時間）をシステムの良好さの尺度として用いる。タスク達成時間とユーザ満足度の間に関連が高いことも指摘されており［文献：M.Walker,C.Kamm,and D.Litman,“Towards developing general models of usability with paradise,”Natural Language Engineering：Special Issue on Best Practice in Spoken Dialogue Systems.,2000.］、タスク達成時間をパフォーマンスの尺度として用いることは妥当である。タスクの達成時間なので、短ければ短い程よい。また、タスク達成時間はタスクと対話戦略によって正規化する必要がある。理由は、タスク達成時間はシステム応答の仕方（対話戦略）とタスクの内容（会議室予約の場合は、日時や会議室名など）に影響を受けるためである。
【００２３】
指標値計算手段
対話記録からシステムが保持する、各地点までのユーザの情報要求を解釈した結果である、ユーザの情報要求内容を（Ａ）、システムが（Ａ）を保持する時の、ユーザの新たな情報要求の人力を（Ｂ）、システムが（Ａ）を保持する時の、ユーザの新たな情報要求の入力（Ｂ）を解釈することによって得られる、システムが保持する新たなユーザの情報要求内容を（Ｃ）とする場合、ユーザとシステムのやり取りに現れる（Ａ）（Ｂ）（Ｃ）の組を抜き出し、それぞれの対話に関して、指標作成部により作成された指標の値を求める。
【００２４】
評価尺度作成手段
対話記録のそれぞれの対話に関して、指標値計算部で算出された値と対話の良好さを示す指標の関連を重回帰分析を用い、指標の値から対話の良好さを予測できるような予測式を作成し、この予測式を、評価尺度とする。
【００２５】
実際の処理の流れ
対話システムを用いデータ収集を行い、以下のような対話記録（以下は抜粋）を作成する。対話記録には各時点でのシステムの理解状態、音声認識結果、システムの応答内容などが時系列に記録されている。

対話記録はシステムが観測し得る入力や出力、内部状態の変化を時系列に書き出したものである。例えば、ユーザ音声の音声認識結果、システム発話記録、音声認識開始時間、音声認識終了時間、システムの理解状態などである。
【００２６】
システムは記録すべき事象を観測した場合、その事象を表わすラベル、その事象の開始時間、終了時間、その事象に関するデータの４つ組で対話記録に書き出す。そのフォーマットは以下のようになる。
（ラベル
（開始時刻(秒)開始時刻(ミリ秒))
（終了時刻(秒)終了時刻(ミリ秒))
データ）
以下、対話記録例（抜粋）の一行一行について、説明する。
【００２７】
(FFLUET＿PERSISTENT＿UTTER(1007086095 566)(1007086098 275)(どの様なご用件でしょうか))
システムが音声によりユーザに発話を行った場合に記録される。FFLUET＿PERSISTENT＿UTTERというラベルはFFLUETというシステムの構成要素である音声合成器の名称であり、その合成器がPERSISTENT＿UTTER（発話している内はユーザ入力を受け付けない発話）を行ったという記録で、データとしては発話文字列である（どのようなご用件でしょうか）が記録されている。
【００２８】
(FRAME(1007086098500)(10070860985500)((TOPIC)(SYSTEM-STATE)(USER-ACTION)(ROOM2)(ROOM1)(END)(START)(DATE2)(DATE1)))
ユーザ発話直後のシステムの保持する理解状態（FRAMEと呼ばれる）である。現段階では対話の最初であることから、データにある理解状態（話題）はまだ全ての要素が空である。簡単に説明しておくと、TOPICは対話の焦点に関する情報を保持し、SYSTEM-STATEは直前のシステムの動作を保持、USER-ACTIONは直前のユーザ動作に関する情報を保持する。その他DATE1,DATE2,START,END,ROOM1,ROOM2にはユーザ要求により適宜、会議室、日にち、開始時間、終了時間などの値が入ることになる。
【００２９】
(ASR(1007086098 802)(1007086098 802) speech＿start)
ラベルのASRとは音声認識器の出力であることを指し、音声認識器が認識を開始したことを示す。
(ASR(1007086106 929)(1007086106 929) speech＿end)
ラベルのASRとは音声認識器の出力であることを指し、音声認識器が認識を終了したことを示す。
【００３０】
(RECG＿RESULT(1007086108 422)(1007086108 422)はい(-1837.603638)です(-2692.345459)７月(-4116.753906)８日(-5048.298828)と(-5713.125488)７月(-7052.240723)１９日(-8751.459961)の(-9386.039062)９時(-10249.157227)から(-10858.566406)１０時(-11736.385742)まで(-13011.083984)プレゼンテーションルーム(-16650.167969)も(-17149.892578)予約(-18333.126953)したいんですけど(-20943.794922)-22408.910156)
ラベルのRECG＿RESULTとは音声認識器の認識結果のことで、データには音声認識結果である文字列が、それぞれ文字列に対する音響尤度（文字列の音響的特徴からのもっともらしさを示す数値）と共に記録される。
【００３１】
(ISTAR＿SUBTOKEN＿ANALYZE(1007086108 365)(1007086108 365)(WORDSEQ はいです７月８日と７月１９日の９時から１０時までプレゼンテーションルームも予約したいんですけど))
ラベルのISTAR＿SUBTOKEN＿ANALYZEとはシステム内における言語解析部での処理であるということを指し、データにはWORDSEQ、つまり文字列(word sequence)の“はいです７月８日と７月１９日の９時から１０時までプレゼンテーションルームも予約したいんですけど”という処理される文字列が示されている。
【００３２】
(RECOGNITION-RESULT-NETWORK(1007086108 373)(1007086108 373)(はいです感動詞文節７月月文節８日と日文節７月月文節１９日の日文節９時から時間文節１０時まで時間文節プレゼンテーションルームも会議室文節予約したいんですけど予約の要求を表わす文節))
ラベルのRECOGNITION-RESULT-NETWORKは先の言語解析部で文字列を処理（主に構文解析処理）した結果ということを示す。構文解析によって得られる構文解析結果付き文字列がデータがデータに書かれる。具体的には各文字列がどういった文節であるかという情報が付加される。
【００３３】
(FRAME(1007086109 579)(1007086109 579)((TOPIC)(SYSTEM-STATE)(USER-ACTION REQUEST)(ROOM2)(ROOM1.プレゼンテーションルーム)(END100)(START90)(DATE27 19)(DATE1 7 8)))
ラベルのFRAMEは理解状態に関する記録ということを示し、システムが構文解析結果付き文字列を処理した直後の理解状態が記録されている。理解状態はユーザ入力の内容を反映して、例えば“９時から”とユーザが言っていたため、（START 9 0）というようになっている。また“予約したいんですけど”というユーザ入力を反映して（USER-ACTION.REQUEST）となっている。
【００３４】
対話記録から、時系列的に理解単位に対応する個所を抽出する。次に抽出した理解単位の初期理解状態とユーザ発話をもとに、人手で、その時々の理解状態がどのようであればよいかを書き出し、それを正解フレームとして先程の対話システムの理解状態、ユーザ発話、ユーザ発話後の理解状態正解である理解状態と共に記録する。その結果、理解単位と正解理解状態の組が理解単位の個数分連接したファイル１が作成される。
人手で正解フレームを作成するのはコストがかかるので、初期理解状態と書き起こされたユーザ発話を用いて、正解理解状態を推定するシミュレーションシステムを用い、正解フレームを作成する際にはシミュレーションシステムの出力の間違いを正す形で行う。
【００３５】
以下作成されたファイル１の例である。初期理解状態（START-FRAME,理解状態が空の場合は（START-FRAME）とだけ書かれる）に続いてユーザ発話に関する情報（TRANSは書き起こされたユーザ発話、LOGは対話記録に記録されているユーザ発話認識結果）、ユーザ発話後の理解状態（END-FRAME）、書き起こし情報を用いて作成されたシステムが推定する理解状態（SIMUL, Simulated frameのこと）、最後にシステムの推定した理解状態を変更することで作成された正解理解状態（CORRECT）である。ファイル１には以下のデータを１組としたデータが理解単位の数だけある。
【００３６】
(UNIT
(START-FRAME)
(ASR(TRANS“５月１５日と５月９日１５時３０分から２２時３０分まで第３会議室の予約をお願いします”)(LOG“５月１５日と１０日５月９日は１５時３０分からです２２時３０分までです第３会議室予約をお願いします”)(RECG“５月１５日と９日は１５時３０分から９時１２時３０分まであと第３会議室も予約をお願いします”))
(END-FRAME(TOPIC)(SYSTEM-STATE)(USER-ACTION.REQUEST)(ROOM2)
(ROOM1.第3会議室)(END)(START 22 30)(DATE2)(DATE1 5 15))
(SIMUL(TOPIC)(SYSTEM-STATE)(USER-ACTION.REQUEST)(ROOM2)(ROOM1
.第3会議室)(END 22 30)(START 15 30)(DATE2 5 9)(DATE1 5 15))
(CORRECT(TOPIC)(SYSTEM-STATE)(USER-ACTION.REQUEST)(ROOM2)
(ROOM1.第3会議室)(END 22 30)(START 15 30)(DATE2 5 9)(DATE1 5 15)))
【００３７】
次に先程作成したファイル１から理解状態に関する１０の指標の値を各対話に関して求める。そのために、対話の各理解単位における理解状態の正しさに関するラベリングと対話の各理解単位における理解状態の更新の正しさに関するラベリングを行い、その結果を記した中間ファイル（ファイル２）を作成する。それらは以下のようになる。
((SLOT , 6) (D , 2) (I , 0) (S , 1) (C , 3))
((SLOT , 6) (D , 0) (I , 0) (S , 0) (C , 6))
((SLOT , 6) (D , 1) (I , 0) (S , 0) (C , 5))
((SLOT , 6) (D , 0) (I , 0) (S , 0) (C , 6))
((SLOT , 6) (D , 0) (I , 0) (S , 0) (C , 6))
((SLOT , 6) (D , 0) (I , 0) (S , 0) (C , 6))
((SLOT , 6) (D , 0) (I , 0) (S , 0) (C , 6))
((SLOT , 6) (UD , 2) (UI , 0) (US , 1) (CU , 2)(CL , 1))
((SLOT , 6) (UD , 0) (UI , 0) (US , 0) (CU , 1)(CL , 5))
((SLOT , 6) (UD , 0) (UI , 1) (US , 0) (CU , 1)(CL , 4))
((SLOT , 6) (UD , 0) (UI , 0) (US , 0) (CU , 1)(CL , 5))
((SLOT , 6) (UD , 0) (UI , 0) (US , 0) (CU , 1)(CL , 5))
((SLOT , 6) (UD , 0) (UI , 0) (US , 0) (CU , 0)(CL , 6))
((SLOT , 6) (UD , 0) (UI , 0) (US , 0) (CU , 0)(CL , 6))
ファイル２をもとに対話に関する１０の指標の値を計算し、ファイル３に書き出す。ファイル３にはタスクの達成可否やタスク達成時間、理解単位数も同時に書かれている。
0.8 0.0 0.5 0.1 0.5 T 53.82 4
(スロット更新精度，更新挿入誤り率，更新削除誤り率，更新置換誤り率，音声理解率，タスク成否（成功：Tか失敗：NIL），タスク達成時間(秒)，発話単位数の順)
0.9166667 0.0 0.0 0.083333336 0.083333336 T 53.82 4
(スロット正解率，挿入誤り率，削除誤り率，置換誤り率，スロット誤り率，タスク成否（成功：Tか失敗：NIL）、タスク達成時間(秒)，発話単位数の順)
【００３８】
ファイル３は行われた対話の回数分だけ作成される。それぞれのタスク達成時間はそのタスクの内容とその対話で用いられた対話戦略によって正規化される。または全ての対話それぞれに関する１０の指標と正規化されたタスク達成時間をファイル４に書き出す。最初に書かれるexp＿から始まる項目は、対話の開始された時間を用いて決定される、それぞれの対話につけられた名前である。
【００３９】
exp＿2001＿11＿30＿11＿10＿40,0.9166667,0.8,0.0,0.5,0.1,0.5,0.9166667,0.0,0.0,0.083333336,0.083333336,-1.6517191123182
exp＿2001＿11＿30＿11＿13＿02,0.8541667,0.5833333,0.022916667,0.5208333,0.0625,0.5625,0.8541667,0.010416667,0.104166664,0.03125,0.14583333,-0.132508548233085
exp＿2001＿11＿30＿11＿35＿54,0.8854167,0.8333333,0.0,0.44444445,0.055555556,0.6875,0.8854167,0.0,0.104166664,0.010416667,0.114583336,0.975139363103753
exp＿2001＿11＿30＿11＿46＿40,0.9166667,0.76666665,0.05,0.0,0.06666667,0.5,0.9166667,0.0,0.041666668,0.041666668,0.083333336,-1.8905314971624
各対話に関する１０の指標を説明変数、タスク達成時間を被説明変数として重回帰分析を行い、１０の指標からタスク達成時間を導けるような予測式を作成し、予測式が統計的に有効性を示す時、この予測式を対話におけるユーザ入力の解釈の評価尺度とする。
【００４０】
その結果、例えば以下のような予測式が得られる。
【数３】

Ｙは対話の良好さ（タスク達成の予測時間）を示す。対話記録が複数個あったとして、それらを対象としＹを求めれば、複数個の対話それぞれに対しＹが求められ、求められたＹの中で、最もＹが小さかった対話が一番よい対話であると言える。
【００４１】
【発明の効果】
以上説明したように、この発明によれば理解状態がユーザ発話によって逐次に更新されていくシステムにおいて、以前の理解状態に基づいたユーザ入力の解釈の良好さが評価可能となる。従って、逐次的に理解状態を更新するシステム、或は自動的にユーザ入力解釈ルールの学習及び学習により生成されたルールの良さを比較的コストのかかる対話実験等をせずに、シミュレーション実験等によって評価することができる。
上述した、この発明による対話理解評価方法はコンピュータが読み取り可能な記号によって記述されたプログラムによって実行される。プログラムはコンピュータが読み取り可能な例えば磁気ディスク、或はＣＤ−ＲＯＭ等の記録媒体に記憶され、これらの記録媒体からコンピュータにインストールされてコンピュータにより実行される。
【００４２】
また、他の方法としては通信回線を通じてコンピュータにインストールして実行させることもできる。
【図面の簡単な説明】
【図１】この発明の対話理解評価装置の原理構成図。
【図２】この発明による対話理解評価方法を説明するためのフローチャート。
【図３】対話の各理解単位における理解状態の正しさに関するラベルの名前と各ラベルを説明するための図。
【図４】図３に示したラベルの仮説フレームと正解フレームとの関係を説明するための図。
【図５】対話の各理解単位における理解状態の更新の正しさに関するラベルの名前と各ラベルを説明するための図。
【図６】図５に示したラベルの仮説フレームと正解フレームとの関係を説明するための図。
【図７】この発明の特徴とする仮説フレームへのラベリングから理解状態に関する指標の取得方法を説明するための図。
【符号の説明】
１０指標作成手段
２０指標値計算手段
３０評価尺度作成手段

Claims

ユーザの情報要求を対話型で処理する情報提供システムの対話理解評価装置であって、
ユーザとシステムのやり取りの各時点において、システムが保持する、各時点までのユーザの情報要求を解釈した結果である、ユーザの情報要求内容を（Ａ）、
システムが（Ａ）を保持する時の、ユーザの新たな情報要求の入力であり、ユーザ発話の言語解析結果を（Ｂ）、
システムが（Ａ）を保持する時の、ユーザの新たな情報要求の入力（Ｂ）によって得られる、システムが保持する新たなユーザの情報要求内容を（Ｃ）とする場合、
前記（Ａ）（Ｃ）を属性と値を対とするスロットで構成されるフレームで表現し、前記（Ａ）（Ｂ）（Ｃ）を記録する対話記録手段と、
ユーザとシステムのやり取りに現れる（Ａ）（Ｂ）（Ｃ）の組に関して、当該（Ｃ）に対応する、あらかじめ作成されたシステムが保持するフレーム表現の正解を（Ｃ）’とし、
各スロットにおける前記（Ｃ）の属性値と前記（Ｃ）’の属性値の比較により、前記（Ｃ）の各スロットに事前に定義されたラベルを付与し、
各スロットにおける、前記（Ａ）から前記（Ｃ）への属性値の変化と前記（Ａ）から前記（Ｃ）’の属性値の変化の比較により、前記（Ｃ）の各スロットに事前に定義されたラベルを付与し、
ラベル数を入力値とする、あらかじめ決められた計算式によって複数の指標の値を算出し、算出された指標値を記憶手段に記録する指標値計算手段と、
この指標値計算手段が計算した指標の値を説明変数、ユーザとシステムのやり取りの良好さを示す指標を被説明変数として重回帰分析を行い、説明変数から被説明変数を導く予測式を作成する評価尺度作成手段と、
を有することを特徴とする対話理解評価装置。
請求項１記載の対話理解評価装置において、
上記ユーザとシステムのやり取りの良好さを示す指標はタスク達成時間である
ことを特徴とする対話理解評価装置。
請求項１または２に記載の対話理解評価装置を構成する各手段としてコンピュータを機能させる対話理解評価プログラム。
請求項３記載の対話理解評価プログラムを記録したコンピュータが読み取り可能な記録媒体。