JP2016045769A - 対話システム評価方法、対話システム評価装置及びプログラム - Google Patents

対話システム評価方法、対話システム評価装置及びプログラム Download PDF

Info

Publication number
JP2016045769A
JP2016045769A JP2014170516A JP2014170516A JP2016045769A JP 2016045769 A JP2016045769 A JP 2016045769A JP 2014170516 A JP2014170516 A JP 2014170516A JP 2014170516 A JP2014170516 A JP 2014170516A JP 2016045769 A JP2016045769 A JP 2016045769A
Authority
JP
Japan
Prior art keywords
sentence
evaluation value
evaluation
input
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014170516A
Other languages
English (en)
Other versions
JP6259377B2 (ja
Inventor
弘晃 杉山
Hiroaki Sugiyama
弘晃 杉山
豊美 目黒
Toyomi Meguro
豊美 目黒
竜一郎 東中
Ryuichiro Higashinaka
竜一郎 東中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014170516A priority Critical patent/JP6259377B2/ja
Publication of JP2016045769A publication Critical patent/JP2016045769A/ja
Application granted granted Critical
Publication of JP6259377B2 publication Critical patent/JP6259377B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】タスクをもたない雑談対話システムを人手を介さずに自動的に評価する。【解決手段】リファレンス文データベース10には、入力文と入力文に対して予め定めた複数のリファレンス文とが記憶されている。出力文取得部11は、特定のタスクをもたない対話システム9へ入力文を入力し、対話システム9からのシステム出力文を得る。文間類似度計算部13は、システム出力文とリファレンス文それぞれとの間で文間の類似度を計算する。評価値計算部12は、複数のリファレンス文に基づいてシステム出力文を評価するシステム評価値を計算する。【選択図】図1

Description

この発明は、ユーザと自然言語を用いて対話するシステム(以下、対話システムという)において、対話システムが生成する発話文を自動的に評価する技術に関する。
近年、特定のタスクを持たないオープンドメインな雑談を行う雑談対話システムへのニーズが高まっている。雑談対話システムを改善する上での課題の一つが、構築したシステムの評価である。タスクを遂行するための対話システムでは、タスクの達成率や達成にかかる時間などの明確な評価指標があるため、システムの評価は比較的容易である。しかし、雑談対話システムでは、システムが出力すべき正解が必ずしも自明ではない。そのため従来は、システムの出力文に対し人手でLikert尺度などの順序尺度の評価値を付与し、平均値をとる方法が主流であった。
しかし、順序尺度で付与される値は相対値であるため、順序関係は一貫性があるものの、評価毎に平均値は異なる可能性がある。すなわち、従来システムと提案システムを付与された評価値の平均値で比較するには、比較対象となる従来システムを再実装し、提案システムと同時に実験を行う必要がある。このように、既存研究との比較は容易ではないため、再現可能な形で自動的に評価値を付与できる仕組みが必要である。
タスク対話システムを自動的に評価する試みとして、非特許文献1で提案されたPARADISEという方法がある。これは、既に行われた対話に対し、対話から得られる発話文の長さや発言数などの特徴量に基づいて、その対話の質を評価する方法である。また、システムが出力する文の自動評価という枠組みとして、非特許文献2に記載の技術が挙げられる。
Marilyn Walker, Candace Kamm, Diane Litman, "Towards developing general models of usability with PARADISE", Natural Language Engineering, vol. 6, no. 3-4, pp. 363-377, 2000. Alan Ritter, Colin Cherry, Bill Dolan, "Data-Driven Response Generation in Social Media", In proceedings of EMNLP, 2011.
しかしながら、非特許文献1に記載の方法では、対話システムを評価するために、その都度対話を行う必要がある。そのためには対話システムと対話を行う相手が必要となる。対話相手を人間とすると、人手による評価値付与と同様に、実験の都度評価値がばらつくという問題が生じる。対話相手を別の対話システムとすると、現時点で人間と同様に応答できる対話システムが存在しないことから、対話の質が対話相手となる対話システムに依存して悪化するおそれがある。このような観点から、実際の対話を介さない形式で評価を行う方法が望ましい。
システムが出力する文の自動評価という枠組みは、機械翻訳の分野において盛んに研究が行われている。例えば、入力文に対してシステムが文を出力し、そのシステム出力文と一文のリファレンス文との距離を、例えばBLEUスコアやROUGEスコアなどの特殊な関数に基づいて計算し、評価値として出力する自動評価尺度が開発されている。これを雑談対話に用いる場合、雑談対話では機械翻訳と比較して正解とすべき文の範囲が広いため、一文のリファレンス文ではカバーしきれない。このように、雑談対話においてはリファレンス文との距離に基づく自動評価は困難である。
この発明の目的は、このような技術的背景に鑑みて、タスクをもたない雑談対話システムを、人手を介さずに自動的に評価する対話システム評価技術を提供することである。
上記の課題を解決するために、この発明の対話システム評価方法は、出力文取得部が、特定のタスクをもたない対話システムへ入力文を入力し、対話システムからのシステム出力文を得る出力文取得ステップと、評価値計算部が、入力文に対して予め定めたリファレンス文に基づいてシステム出力文を評価するシステム評価値を計算する評価値計算ステップと、を含む。
この発明の対話システム評価技術によれば、タスクを持たない雑談対話システムにおいて、人手を介さずに自動的に対話システムを評価することができる。これにより、高速かつ安価に対話システムを評価することができるため、対話システムを効率よく改善することが可能になる。
図1は、第一実施形態の対話システム評価装置の機能構成を例示する図である。 図2は、第一実施形態の対話システム評価方法の処理フローを例示する図である。 図3は、第二実施形態及び第三実施形態の対話システム評価装置の機能構成を例示する図である。 図4は、第二実施形態及び第三実施形態の対話システム評価方法の処理フローを例示する図である。 図5は、第四実施形態の対話システム評価装置の機能構成を例示する図である。 図6は、第四実施形態の対話システム評価方法の処理フローを例示する図である。 図7は、第五実施形態の対話システム評価装置の機能構成を例示する図である。 図8は、第五実施形態の対話システム評価方法の処理フローを例示する図である。
この発明は、対話システムへ文を入力し、その対話システムが出力した文をリファレンス文と比較することで評価値を計算する対話システム評価装置及び方法である。この発明では、従来技術の課題を、リファレンス文を数十〜数百文程度に大規模化し、正解となる発話の範囲をカバーすることで解決する。また、リファレンス文に予め評価値を付与し、これをシステム出力文の評価値(以下、システム評価値という)の推定に用いてもよい。リファレンス文に付与する評価値は、人手で直接値を付与する方法、リファレンス文のペアごとにどちらがよいかを比較し、その勝率を評価値とする方法などで得られる。
以下では、リファレンス文は、人手で正解となるよう作成した文などの正例に加え、不正解となるように作成した文や、コーパスから自動的に抽出した文などの負例を含むものと想定し、説明する。ただし、そのどちらかを除外して正例のみや負例のみとして構成しても、この発明の対話システム評価装置及び方法は動作する。
以下では、用いるデータの種類に基づいて、五つの実施形態に分けて説明する。
第一実施形態は、最もシンプルな形態であり、リファレンス文のみを利用する方法である。対話システムの出力文と各リファレンス文との間で、機械翻訳の自動評価で用いられるBLEUスコアやROUGEスコア、tf-idf重み付きコサイン距離、Word Error Rate(WER、単語誤り率)などの文間の類似度を表す尺度を計算し、上位N(Nは1〜7程度の自然数)個の平均値をシステム評価値とする方法である。BLUEスコアについての詳細は、「Kishore Papineni, Salim Roukos, Todd Ward and Wei-Jing Zhu, “BLEU: a method for Automatic Evaluation of Machine Translation”, ACL '02, pp. 311-318, 2002.(参考文献1)」を、ROUGEスコアについての詳細は、「Lin, Chin-Yew, and Eduard Hovy. “Automatic evaluation of summaries using n-gram co-occurrence statistics”, NAACL '03, vol. 1, pp. 71-78, 2003.(参考文献2)」を参照されたい。
第一実施形態の方法では、評価の低いリファレンス文が含まれている場合、本来システム評価値が低くなるべきシステム出力文であっても、システム評価値が高くなってしまう可能性がある。そのため、平均値を取得する際、そのリファレンス文が持つ評価値が閾値を下回った場合、これをシステム評価値への算入から除外してもよい。この方法で得られたシステム評価値は、リファレンス文に付与された評価値とスケールが一致していないため、これらを比較することはできない。
第二〜四実施形態は、リファレンス文に加えて、リファレンス文ごとに付与された評価値を用いる方法である。ここで、リファレンス文に付与する評価値は、人手で値を直接付与する方法や、リファレンス文のペアごとにどちらが適切かを人手で評価し、それらの勝率を評価値として付与する方法が考えられる。この種類のデータを用いてシステム評価値を計算する方法として、以下の3つの方法が考えられる。
第二実施形態は、第一実施形態と同様に文間の類似度を表す尺度を計算し、類似度の平均を取る際に評価値が閾値以上のもののみに限定する方法である。第一実施形態では、評価の低いリファレンス文が含まれている場合、本来システム評価値が低くなるべきシステム出力文であってもシステム評価値が高くなってしまう可能性がある。この方法は、こうしたリファレンス文を除外し、より適切にシステム評価値を計算できると考えられる。
第三実施形態は、得られた類似度で評価値を重み付けて足し合わせる方法である。このとき、全てを足し合わせるのではなく、上位N(Nは1〜7程度の自然数)個のみを足し合わせてもよい。第二実施形態と比べて直接的に評価値を利用するため、特に評価の低いリファレンス文との類似度が大きい場合に、適切に低いシステム評価値を付与できると予想される。また、得られたシステム出力文に対するシステム評価値は、リファレンス文に付与された評価値とスケールが一致しているため、これらを比較することができる。
第四実施形態は、Support Vector Regression(SVR)などの回帰モデルを用いて、システム評価値を直接推定する方法である。SVRについての詳細は、「Smola, Alex J., and Bernhard Scholkopf. “A tutorial on support vector regression”, Statistics and computing, Vol. 14(3), pp 199-222, 2004.(参考文献3)」を参照されたい。回帰モデルとは、あらかじめ入力特徴量と出力値(ここではシステム評価値)のペアを正解として与え、その対応関係をパラメータとして保存しておき、未知の特徴量が入力された場合に対応する出力値を推定する方法である。この回帰モデルの特徴量には、リファレンス文やシステム出力文に含まれる単語や各リファレンス文に対するBLEUスコアなどの類似度などが考えられる。
第五実現形態は、リファレンス文のペアごとの勝ち負けのみを評価値として用いる方法である。これは、付与されているリファレンス文のペアごとの勝ち負けを、Support Vector Machine(SVM)などの分類モデルで推定し、リファレンス文に対する勝率を改めて計算してシステム評価値とする方法である。SVMについての詳細は、「Cortes, Corinna, and Vladimir Vapnik, “Support-vector networks”, Machine learning, vol. 20(3), pp. 273-297, 1995.(参考文献4)」を参照されたい。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[第一実施形態]
第一実施形態の対話システム評価装置1は、図1に示すように、リファレンス文データベース10、出力文取得部11、文間類似度計算部12及び評価値計算部13を例えば含む。
対話システム評価装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。対話システム評価装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。対話システム評価装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。対話システム評価装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
対話システム評価装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。対話システム評価装置が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
対話システム評価装置1は、外部の対話システム9にアクセス可能なように構成されている。対話システム9は、特定のタスクを持たない雑談対話システムである。図1では対話システム評価装置と対話システムとが別々に構成された例を示したが、対話システム評価装置の備えるべき機能と対話システムの備えるべき機能とを兼ね備える一台の装置として構成しても構わない。
リファレンス文データベース10には、入力文と、各入力文に対応する複数のリファレンス文とからなるリファレンス文データベースが記憶されている。
以下、リファレンス文データベースの作成方法を説明する。
まず、任意の入力文を用意する。入力文は、人手で記述して作成してもよいし、実際に行われた対話を書き起こしたものでもよいし、Twitter(登録商標)やブログのようなWebサービスで公開された記事から抽出してもよい。
次に、各入力文に対するリファレンス文を作成する。リファレンス文は人手で記述して作成すればよい。リファレンス文は入力文に対して正解となるよう作成した文(以下、正例という)であるが、リファレンス文のカバー範囲を広げる目的で、入力文の一部を隠すなどして不正解となるように作成した文や、コーパスから自動的に抽出した文のような負例を加えてもよい。ただし、そのどちらかを除外しても対話システム評価装置1は動作する。また、ここでは、リファレンス文に対して正例であるか負例であるかを示すラベルを付与する必要はない。収集した入力文と、各入力文に対応するリファレンス文集合の組はリファレンス文データベース10に記憶される。
図2を参照して、第一実施形態の対話システム評価方法を説明する。
ステップS11において、出力文取得部11は、リファレンス文データベース10から取得した入力文を対話システム9へ入力し、対話システム9からのシステム出力文を得る。対話システム9から得られたシステム出力文と、リファレンス文データベース10から取得した入力文とリファレンス文集合の組は、文間類似度計算部12へ送られる。
ステップS12において、文間類似度計算部12は、入力文に対応するリファレンス文集合に含まれる各リファレンス文とシステム出力文との類似度を計算する。この類似度は、tf-idfで重み付けられたコサイン類似度や単語誤り率(Word Error Rate; WER)のような一般的な類似度であってもよいし、BLEUスコアやROUGEスコアのような単語の組み合わせを考慮した類似度を用いてもよい。また、各文に含まれる単語をそのまま用いる方法であってもよいし、「NTTコミュニケーション科学研究所監修、池原ほか編集、“日本語語彙大系”、岩波書店(参考文献5)」のような辞書を用いて単語概念の抽象化を行い、類似度を計算してもよい。得られた類似度と、システム出力文と、入力文とリファレンス文集合の組は、評価値計算部13へ送られる。
ステップS13において、評価値計算部13は、システム出力文と、入力文とリファレンス文集合の組と、リファレンス文の類似度の全てもしくは一部とに基づいて、システム評価値を計算する。具体的には、システム出力文ごとに類似度が上位N個(Nは1〜7程度の自然数)のリファレンス文を選び、N個の類似度の平均値を計算してシステム評価値とする。
[第二実施形態]
第二実施形態の対話システム評価装置2は、図3に示すように、出力文取得部11及び文間類似度計算部12を第一実施形態と同様に含み、リファレンス文データベース20及び評価値計算部23をさらに含む。
対話システム評価装置2は、第一実施形態と同様に、外部の対話システム9にアクセス可能なように構成されている。
リファレンス文データベース20には、入力文と、各入力文に対応する複数のリファレンス文と、各リファレンス文に対応する評価値とからなるリファレンス文データベースが記憶されている。すなわち、リファレンス文データベース10との違いは、各リファレンス文に対して評価値が付与されていることである。
以下、第二実施形態のリファレンス文データベースの作成方法を説明する。入力文とリファレンス文の作成方法は第一実施形態と同様であるので、ここでは説明を省略する。
評価値の付与方法は、例えば、人手で直接値を付与する方法、リファレンス文のペアごとにどちらがよいかを比較し、その勝率を評価値とする方法などを用いることができる。後者の場合、個々のペアの勝ち負けについては保存しなくともよい。得られた評価値は、入力文とリファレンス文集合と組にしてリファレンス文データベース20へ保存する。
図4を参照して、第二実施形態の対話システム評価方法を説明する。以下では、上述の第一実施形態との相違点を中心に説明する。
ステップS23において、評価値計算部23は、システム出力文と、入力文とリファレンス文集合と評価値集合の組と、リファレンス文の類似度の全てもしくは一部に基づいて、システム評価値を計算する。具体的には、評価値が予め定めた閾値以下のリファレンス文を除外して、システム出力文ごとに、類似度が上位N個(Nは1〜7程度の自然数)のリファレンス文を選び、N個の類似度もしくは評価値の平均値を計算してシステム評価値とする。
[第三実施形態]
第三実施形態の対話システム評価装置3は、図3に示すように、リファレンス文データベース20、出力文取得部11及び文間類似度計算部12を第二実施形態と同様に含み、評価値計算部33をさらに含む。
対話システム評価装置3は、上述の実施形態と同様に、外部の対話システム9にアクセス可能なように構成されている。
図4を参照して、第三実施形態の対話システム評価方法を説明する。以下では、上述の第二実施形態との相違点を中心に説明する。
ステップS33において、評価値計算部33は、システム出力文と、入力文とリファレンス文集合と評価値集合の組と、リファレンス文の類似度の全てもしくは一部に基づいて、システム評価値を計算する。具体的には、評価値が予め定めた閾値以下のリファレンス文を除外して、システム出力文ごとに、類似度が上位N個(Nは1〜7程度の自然数)のリファレンス文を選び、各リファレンス文の評価値を類似度により重み付けした平均値を計算してシステム評価値とする。
[第四実施形態]
第四実施形態の対話システム評価装置4は、図5に示すように、リファレンス文データベース20、出力文取得部11及び文間類似度計算部12を第三実施形態と同様に含み、学習データ記憶部40、回帰モデル学習部41、回帰モデルパラメータ記憶部42、特徴量抽出部43及び評価値計算部44をさらに含む。
対話システム評価装置4は、上述の実施形態と同様に、外部の対話システム9にアクセス可能なように構成されている。
学習データ記憶部40には、リファレンス文データベース20に記憶されている各リファレンス文の特徴量と各リファレンス文に付与された評価値が対応付けて記憶されている。特徴量は、リファレンス文やシステム出力文に含まれる単語や、各リファレンス文に対するBLEUスコアなどの類似度などを用いることができる。
回帰モデルパラメータ記憶部42には、回帰モデルのパラメータが記憶されている。回帰モデルのパラメータは学習データ記憶部40に記憶されている特徴量と評価値の組の集合を回帰モデル学習部41へ入力し、ある特徴量を入力したときには対応する評価値を出力するように調整する。回帰モデルは、例えば、上述のSVRを用いることができる。
図6を参照して、第四実施形態の対話システム評価方法を説明する。以下では、上述の第三実施形態との相違点を中心に説明する。
ステップS43において、特徴量抽出部43は、対話システム9のシステム出力文から特徴量を抽出する。抽出する特徴量は学習データ記憶部40に記憶されたリファレンス文の特徴量と同様のものである。抽出した特徴量は評価値計算部44へ送られる。
ステップS44において、評価値計算部44は、回帰モデルパラメータ記憶部42から取得した回帰モデルのパラメータを用いて、システム出力文の特徴量に対する評価値を予測してシステム評価値とする。
[第五実施形態]
第五実施形態の対話システム評価装置5は、図7に示すように、出力文取得部11、文間類似度計算部12、学習データ記憶部30、特徴量抽出部43を第四実施形態と同様に含み、リファレンス文データベース50、分類モデル学習部51、分類モデルパラメータ記憶部52及び評価値計算部54をさらに含む。
対話システム評価装置5は、上述の実施形態と同様に、外部の対話システム9にアクセス可能なように構成されている。
リファレンス文データベース50には、入力文と、各入力文に対応する複数のリファレンス文と、各リファレンス文に対応する評価値とからなるリファレンス文データベースが記憶されている。ただし、第五実施形態の評価値は計算方法が異なっている。第五実施形態の評価値はリファレンス文のペアに対し、どちらがより適切な応答かを勝ち負けとして人手で判断して付与したものに限定される。
分類モデルパラメータ記憶部52には、分類モデルのパラメータが記憶されている。分類モデルのパラメータはリファレンス文ペアごとの特徴量と評価値(例えば、勝ち:1、負け:0など)を分類モデル学習部51へ入力し、ある2つの特徴量を入力したときに対応する勝ち負けを示す評価値を出力するように調整する。分類モデルは、例えば、上述のSVMを用いることができる。
図8を参照して、第五実施形態の対話システム評価方法を説明する。以下では、上述の第四実施形態との相違点を中心に説明する。
ステップS54において、評価値計算部54は、分類モデルパラメータ記憶部52から取得した分類モデルのパラメータを用いて、システム出力文の特徴量と各リファレンス文の特徴量から勝ち負けを示す評価値を予測し、予測された勝ち負けの勝率を計算してシステム評価値とする。
このように、この発明の対話システム評価装置及び方法によれば、大規模にリファレンス文を用意し、かつ評価値を併用するなど、それらを適切に利用することで、特定のタスクを持たず話題の広い雑談対話システムなどに対しても適切にシステム評価値を付与することができる。高速かつ安価に対話システムを評価することができるため、対話システムを効率よく改善することが可能になる。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1、2、3、4、5 対話システム評価装置
9 対話システム
10、20、50 リファレンス文データベース
11 出力文取得部
12 文間類似度計算部
13、23、33、44、54 評価値計算部
40 学習データ記憶部
41 回帰モデル学習部
42 回帰モデルパラメータ記憶部
43 特徴量抽出部
51 分類モデル学習部
52 分類モデルパラメータ記憶部

Claims (8)

  1. 出力文取得部が、特定のタスクをもたない対話システムへ入力文を入力し、上記対話システムからのシステム出力文を得る出力文取得ステップと、
    評価値計算部が、上記入力文に対して予め定めたリファレンス文に基づいて上記システム出力文を評価するシステム評価値を計算する評価値計算ステップと、
    を含む対話システム評価方法。
  2. 請求項1に記載の対話システム評価方法であって、
    リファレンス文データベースに、上記入力文と上記入力文ごとに予め定めた複数の上記リファレンス文とが記憶されており、
    上記評価値計算ステップは、上記入力文に対応する複数の上記リファレンス文と上記システム出力文とに基づいて、上記システム出力文ごとに上記システム評価値を計算するものである
    対話システム評価方法。
  3. 請求項2に記載の対話システム評価方法であって、
    文間類似度計算部が、上記システム出力文と上記リファレンス文それぞれとの間で文間の類似度を計算する文間類似度計算ステップをさらに含み、
    上記評価値計算ステップは、上記類似度が高い方から所定の数の上記リファレンス文を選択し、選択された上記リファレンス文の上記類似度の平均値を上記システム評価値として計算するものである
    対話システム評価方法。
  4. 請求項2に記載の対話システム評価方法であって、
    上記リファレンス文データベースに、上記リファレンス文ごとに付与された評価値がさらに記憶されており、
    文間類似度計算部が、上記システム出力文と上記リファレンス文それぞれとの間で文間の類似度を計算する文間類似度計算ステップをさらに含み、
    上記評価値計算ステップは、上記評価値と上記類似度に基づいて上記リファレンス文を選択し、選択した上記リファレンス文の類似度もしくは評価値の少なくとも一方を用いて上記システム評価値を計算するものである
    対話システム評価方法。
  5. 請求項2に記載の対話システム評価方法であって、
    上記リファレンス文データベースに、上記リファレンス文ごとに付与された評価値がさらに記憶されており、
    回帰モデルパラメータ記憶部に、上記リファレンス文から抽出した特徴量と上記評価値とを用いて学習した、特徴量を入力すると当該特徴量に対応する評価値を出力する回帰モデルのパラメータが記憶されており、
    上記評価値計算ステップは、上記システム出力文から抽出した特徴量を上記回帰モデルへ入力し、上記回帰モデルから出力される評価値を上記システム評価値とするものである
    対話システム評価方法。
  6. 請求項2に記載の対話システム評価方法であって、
    上記リファレンス文データベースに、上記リファレンス文のペアごとに適切な方を表す勝ち負けが評価値としてさらに記憶されており、
    分類モデルパラメータ記憶部に、上記リファレンス文から抽出した特徴量と上記評価値とを用いて学習した、2つの特徴量を入力すると上記勝ち負けを出力する分類モデルのパラメータが記憶されており、
    上記評価値計算ステップは、上記システム出力文から抽出した特徴量と上記リファレンス文から抽出した特徴量とを上記分類モデルへ入力し、上記分類モデルから出力される勝ち負けから計算した勝率を上記システム評価値とするものである
    対話システム評価方法。
  7. 特定のタスクをもたない対話システムへ入力文を入力し、上記対話システムからのシステム出力文を得る出力文取得部と、
    上記入力文に対して予め定めたリファレンス文に基づいて上記システム出力文を評価するシステム評価値を計算する評価値計算部と、
    を含む対話システム評価装置。
  8. 請求項1から6のいずれかに記載の対話システム評価方法の各ステップをコンピュータに実行させるためのプログラム。
JP2014170516A 2014-08-25 2014-08-25 対話システム評価方法、対話システム評価装置及びプログラム Active JP6259377B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014170516A JP6259377B2 (ja) 2014-08-25 2014-08-25 対話システム評価方法、対話システム評価装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014170516A JP6259377B2 (ja) 2014-08-25 2014-08-25 対話システム評価方法、対話システム評価装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2016045769A true JP2016045769A (ja) 2016-04-04
JP6259377B2 JP6259377B2 (ja) 2018-01-10

Family

ID=55636263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014170516A Active JP6259377B2 (ja) 2014-08-25 2014-08-25 対話システム評価方法、対話システム評価装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6259377B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472030A (zh) * 2018-11-09 2019-03-15 科大讯飞股份有限公司 一种系统回复质量的评价方法及装置
CN110704597A (zh) * 2019-09-29 2020-01-17 北京金山安全软件有限公司 对话系统可靠性校验方法、模型生成方法及装置
CN110941701A (zh) * 2019-11-27 2020-03-31 珠海格力电器股份有限公司 语义分析样本集的优化方法、存储介质和计算设备
CN112036923A (zh) * 2020-07-06 2020-12-04 北京嘀嘀无限科技发展有限公司 一种服务评价方法、系统、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
今井健太 他2名: "複数の対話システムから応答候補文を用いた最適応答文選択手法の性能評価", 情報処理学会研究報告[CD−ROM], vol. 2010 February, JPN6017027894, 15 February 2010 (2010-02-15), JP *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472030A (zh) * 2018-11-09 2019-03-15 科大讯飞股份有限公司 一种系统回复质量的评价方法及装置
CN109472030B (zh) * 2018-11-09 2023-11-24 科大讯飞股份有限公司 一种系统回复质量的评价方法及装置
CN110704597A (zh) * 2019-09-29 2020-01-17 北京金山安全软件有限公司 对话系统可靠性校验方法、模型生成方法及装置
CN110704597B (zh) * 2019-09-29 2022-07-29 北京金山安全软件有限公司 对话系统可靠性校验方法、模型生成方法及装置
CN110941701A (zh) * 2019-11-27 2020-03-31 珠海格力电器股份有限公司 语义分析样本集的优化方法、存储介质和计算设备
CN110941701B (zh) * 2019-11-27 2023-02-28 珠海格力电器股份有限公司 语义分析样本集的优化方法、存储介质和计算设备
CN112036923A (zh) * 2020-07-06 2020-12-04 北京嘀嘀无限科技发展有限公司 一种服务评价方法、系统、装置及存储介质

Also Published As

Publication number Publication date
JP6259377B2 (ja) 2018-01-10

Similar Documents

Publication Publication Date Title
Larson et al. An evaluation dataset for intent classification and out-of-scope prediction
US10311454B2 (en) Customer interaction and experience system using emotional-semantic computing
US20190163691A1 (en) Intent Based Dynamic Generation of Personalized Content from Dynamic Sources
US11645470B2 (en) Automated testing of dialog systems
US9601104B2 (en) Imbuing artificial intelligence systems with idiomatic traits
US9722965B2 (en) Smartphone indicator for conversation nonproductivity
TW201933267A (zh) 機器人客服轉人工客服的方法和裝置
US20200135213A1 (en) Electronic device and control method thereof
US12001465B2 (en) Response selecting apparatus, response selecting method, and response selecting program
WO2017075017A1 (en) Automatic conversation creator for news
US9858923B2 (en) Dynamic adaptation of language models and semantic tracking for automatic speech recognition
US10067935B2 (en) Prediction and optimized prevention of bullying and other counterproductive interactions in live and virtual meeting contexts
US10573311B1 (en) Generating self-support metrics based on paralinguistic information
US11928985B2 (en) Content pre-personalization using biometric data
JP6259377B2 (ja) 対話システム評価方法、対話システム評価装置及びプログラム
US11748393B2 (en) Creating compact example sets for intent classification
US11676044B1 (en) Systems and methods for generating a chatbot
JP6230987B2 (ja) 言語モデル作成装置、言語モデル作成方法、プログラム、および記録媒体
US11797769B1 (en) Artificial intelligence system using hybrid technique for task-oriented dialog management
CN117493830A (zh) 训练数据质量的评估、评估模型的生成方法、装置及设备
CN108733672A (zh) 实现网络信息质量评估的方法和装置
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
Keizer et al. User simulation in the development of statistical spoken dialogue systems
US11397857B2 (en) Methods and systems for managing chatbots with respect to rare entities
JP6486789B2 (ja) 音声認識装置、音声認識方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171208

R150 Certificate of patent or registration of utility model

Ref document number: 6259377

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150