JP2016045769A

JP2016045769A - 対話システム評価方法、対話システム評価装置及びプログラム

Info

Publication number: JP2016045769A
Application number: JP2014170516A
Authority: JP
Inventors: 弘晃杉山; Hiroaki Sugiyama; 豊美目黒; Toyomi Meguro; 竜一郎東中; Ryuichiro Higashinaka
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-08-25
Filing date: 2014-08-25
Publication date: 2016-04-04
Anticipated expiration: 2034-08-25
Also published as: JP6259377B2

Abstract

【課題】タスクをもたない雑談対話システムを人手を介さずに自動的に評価する。【解決手段】リファレンス文データベース１０には、入力文と入力文に対して予め定めた複数のリファレンス文とが記憶されている。出力文取得部１１は、特定のタスクをもたない対話システム９へ入力文を入力し、対話システム９からのシステム出力文を得る。文間類似度計算部１３は、システム出力文とリファレンス文それぞれとの間で文間の類似度を計算する。評価値計算部１２は、複数のリファレンス文に基づいてシステム出力文を評価するシステム評価値を計算する。【選択図】図１

Description

この発明は、ユーザと自然言語を用いて対話するシステム（以下、対話システムという）において、対話システムが生成する発話文を自動的に評価する技術に関する。

近年、特定のタスクを持たないオープンドメインな雑談を行う雑談対話システムへのニーズが高まっている。雑談対話システムを改善する上での課題の一つが、構築したシステムの評価である。タスクを遂行するための対話システムでは、タスクの達成率や達成にかかる時間などの明確な評価指標があるため、システムの評価は比較的容易である。しかし、雑談対話システムでは、システムが出力すべき正解が必ずしも自明ではない。そのため従来は、システムの出力文に対し人手でLikert尺度などの順序尺度の評価値を付与し、平均値をとる方法が主流であった。

しかし、順序尺度で付与される値は相対値であるため、順序関係は一貫性があるものの、評価毎に平均値は異なる可能性がある。すなわち、従来システムと提案システムを付与された評価値の平均値で比較するには、比較対象となる従来システムを再実装し、提案システムと同時に実験を行う必要がある。このように、既存研究との比較は容易ではないため、再現可能な形で自動的に評価値を付与できる仕組みが必要である。

タスク対話システムを自動的に評価する試みとして、非特許文献１で提案されたPARADISEという方法がある。これは、既に行われた対話に対し、対話から得られる発話文の長さや発言数などの特徴量に基づいて、その対話の質を評価する方法である。また、システムが出力する文の自動評価という枠組みとして、非特許文献２に記載の技術が挙げられる。

Marilyn Walker, Candace Kamm, Diane Litman, "Towards developing general models of usability with PARADISE", Natural Language Engineering, vol. 6, no. 3-4, pp. 363-377, 2000. Alan Ritter, Colin Cherry, Bill Dolan, "Data-Driven Response Generation in Social Media", In proceedings of EMNLP, 2011.

しかしながら、非特許文献１に記載の方法では、対話システムを評価するために、その都度対話を行う必要がある。そのためには対話システムと対話を行う相手が必要となる。対話相手を人間とすると、人手による評価値付与と同様に、実験の都度評価値がばらつくという問題が生じる。対話相手を別の対話システムとすると、現時点で人間と同様に応答できる対話システムが存在しないことから、対話の質が対話相手となる対話システムに依存して悪化するおそれがある。このような観点から、実際の対話を介さない形式で評価を行う方法が望ましい。

システムが出力する文の自動評価という枠組みは、機械翻訳の分野において盛んに研究が行われている。例えば、入力文に対してシステムが文を出力し、そのシステム出力文と一文のリファレンス文との距離を、例えばBLEUスコアやROUGEスコアなどの特殊な関数に基づいて計算し、評価値として出力する自動評価尺度が開発されている。これを雑談対話に用いる場合、雑談対話では機械翻訳と比較して正解とすべき文の範囲が広いため、一文のリファレンス文ではカバーしきれない。このように、雑談対話においてはリファレンス文との距離に基づく自動評価は困難である。

この発明の目的は、このような技術的背景に鑑みて、タスクをもたない雑談対話システムを、人手を介さずに自動的に評価する対話システム評価技術を提供することである。

上記の課題を解決するために、この発明の対話システム評価方法は、出力文取得部が、特定のタスクをもたない対話システムへ入力文を入力し、対話システムからのシステム出力文を得る出力文取得ステップと、評価値計算部が、入力文に対して予め定めたリファレンス文に基づいてシステム出力文を評価するシステム評価値を計算する評価値計算ステップと、を含む。

この発明の対話システム評価技術によれば、タスクを持たない雑談対話システムにおいて、人手を介さずに自動的に対話システムを評価することができる。これにより、高速かつ安価に対話システムを評価することができるため、対話システムを効率よく改善することが可能になる。

図１は、第一実施形態の対話システム評価装置の機能構成を例示する図である。図２は、第一実施形態の対話システム評価方法の処理フローを例示する図である。図３は、第二実施形態及び第三実施形態の対話システム評価装置の機能構成を例示する図である。図４は、第二実施形態及び第三実施形態の対話システム評価方法の処理フローを例示する図である。図５は、第四実施形態の対話システム評価装置の機能構成を例示する図である。図６は、第四実施形態の対話システム評価方法の処理フローを例示する図である。図７は、第五実施形態の対話システム評価装置の機能構成を例示する図である。図８は、第五実施形態の対話システム評価方法の処理フローを例示する図である。

この発明は、対話システムへ文を入力し、その対話システムが出力した文をリファレンス文と比較することで評価値を計算する対話システム評価装置及び方法である。この発明では、従来技術の課題を、リファレンス文を数十〜数百文程度に大規模化し、正解となる発話の範囲をカバーすることで解決する。また、リファレンス文に予め評価値を付与し、これをシステム出力文の評価値（以下、システム評価値という）の推定に用いてもよい。リファレンス文に付与する評価値は、人手で直接値を付与する方法、リファレンス文のペアごとにどちらがよいかを比較し、その勝率を評価値とする方法などで得られる。

以下では、リファレンス文は、人手で正解となるよう作成した文などの正例に加え、不正解となるように作成した文や、コーパスから自動的に抽出した文などの負例を含むものと想定し、説明する。ただし、そのどちらかを除外して正例のみや負例のみとして構成しても、この発明の対話システム評価装置及び方法は動作する。

以下では、用いるデータの種類に基づいて、五つの実施形態に分けて説明する。

第一実施形態は、最もシンプルな形態であり、リファレンス文のみを利用する方法である。対話システムの出力文と各リファレンス文との間で、機械翻訳の自動評価で用いられるBLEUスコアやROUGEスコア、tf-idf重み付きコサイン距離、Word Error Rate（WER、単語誤り率）などの文間の類似度を表す尺度を計算し、上位N（Nは1〜7程度の自然数）個の平均値をシステム評価値とする方法である。BLUEスコアについての詳細は、「Kishore Papineni, Salim Roukos, Todd Ward and Wei-Jing Zhu, “BLEU: a method for Automatic Evaluation of Machine Translation”, ACL '02, pp. 311-318, 2002.（参考文献１）」を、ROUGEスコアについての詳細は、「Lin, Chin-Yew, and Eduard Hovy. “Automatic evaluation of summaries using n-gram co-occurrence statistics”, NAACL '03, vol. 1, pp. 71-78, 2003.（参考文献２）」を参照されたい。

第一実施形態の方法では、評価の低いリファレンス文が含まれている場合、本来システム評価値が低くなるべきシステム出力文であっても、システム評価値が高くなってしまう可能性がある。そのため、平均値を取得する際、そのリファレンス文が持つ評価値が閾値を下回った場合、これをシステム評価値への算入から除外してもよい。この方法で得られたシステム評価値は、リファレンス文に付与された評価値とスケールが一致していないため、これらを比較することはできない。

第二〜四実施形態は、リファレンス文に加えて、リファレンス文ごとに付与された評価値を用いる方法である。ここで、リファレンス文に付与する評価値は、人手で値を直接付与する方法や、リファレンス文のペアごとにどちらが適切かを人手で評価し、それらの勝率を評価値として付与する方法が考えられる。この種類のデータを用いてシステム評価値を計算する方法として、以下の３つの方法が考えられる。

第二実施形態は、第一実施形態と同様に文間の類似度を表す尺度を計算し、類似度の平均を取る際に評価値が閾値以上のもののみに限定する方法である。第一実施形態では、評価の低いリファレンス文が含まれている場合、本来システム評価値が低くなるべきシステム出力文であってもシステム評価値が高くなってしまう可能性がある。この方法は、こうしたリファレンス文を除外し、より適切にシステム評価値を計算できると考えられる。

第三実施形態は、得られた類似度で評価値を重み付けて足し合わせる方法である。このとき、全てを足し合わせるのではなく、上位N（Nは1〜7程度の自然数）個のみを足し合わせてもよい。第二実施形態と比べて直接的に評価値を利用するため、特に評価の低いリファレンス文との類似度が大きい場合に、適切に低いシステム評価値を付与できると予想される。また、得られたシステム出力文に対するシステム評価値は、リファレンス文に付与された評価値とスケールが一致しているため、これらを比較することができる。

第四実施形態は、Support Vector Regression（SVR）などの回帰モデルを用いて、システム評価値を直接推定する方法である。SVRについての詳細は、「Smola, Alex J., and Bernhard Scholkopf. “A tutorial on support vector regression”, Statistics and computing, Vol. 14(3), pp 199-222, 2004.（参考文献３）」を参照されたい。回帰モデルとは、あらかじめ入力特徴量と出力値（ここではシステム評価値）のペアを正解として与え、その対応関係をパラメータとして保存しておき、未知の特徴量が入力された場合に対応する出力値を推定する方法である。この回帰モデルの特徴量には、リファレンス文やシステム出力文に含まれる単語や各リファレンス文に対するBLEUスコアなどの類似度などが考えられる。

第五実現形態は、リファレンス文のペアごとの勝ち負けのみを評価値として用いる方法である。これは、付与されているリファレンス文のペアごとの勝ち負けを、Support Vector Machine（SVM）などの分類モデルで推定し、リファレンス文に対する勝率を改めて計算してシステム評価値とする方法である。SVMについての詳細は、「Cortes, Corinna, and Vladimir Vapnik, “Support-vector networks”, Machine learning, vol. 20(3), pp. 273-297, 1995.（参考文献４）」を参照されたい。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

［第一実施形態］
第一実施形態の対話システム評価装置１は、図１に示すように、リファレンス文データベース１０、出力文取得部１１、文間類似度計算部１２及び評価値計算部１３を例えば含む。

対話システム評価装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。対話システム評価装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。対話システム評価装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。対話システム評価装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

対話システム評価装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。対話システム評価装置が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。

対話システム評価装置１は、外部の対話システム９にアクセス可能なように構成されている。対話システム９は、特定のタスクを持たない雑談対話システムである。図１では対話システム評価装置と対話システムとが別々に構成された例を示したが、対話システム評価装置の備えるべき機能と対話システムの備えるべき機能とを兼ね備える一台の装置として構成しても構わない。

リファレンス文データベース１０には、入力文と、各入力文に対応する複数のリファレンス文とからなるリファレンス文データベースが記憶されている。

以下、リファレンス文データベースの作成方法を説明する。

まず、任意の入力文を用意する。入力文は、人手で記述して作成してもよいし、実際に行われた対話を書き起こしたものでもよいし、Twitter（登録商標）やブログのようなWebサービスで公開された記事から抽出してもよい。

次に、各入力文に対するリファレンス文を作成する。リファレンス文は人手で記述して作成すればよい。リファレンス文は入力文に対して正解となるよう作成した文（以下、正例という）であるが、リファレンス文のカバー範囲を広げる目的で、入力文の一部を隠すなどして不正解となるように作成した文や、コーパスから自動的に抽出した文のような負例を加えてもよい。ただし、そのどちらかを除外しても対話システム評価装置１は動作する。また、ここでは、リファレンス文に対して正例であるか負例であるかを示すラベルを付与する必要はない。収集した入力文と、各入力文に対応するリファレンス文集合の組はリファレンス文データベース１０に記憶される。

図２を参照して、第一実施形態の対話システム評価方法を説明する。

ステップＳ１１において、出力文取得部１１は、リファレンス文データベース１０から取得した入力文を対話システム９へ入力し、対話システム９からのシステム出力文を得る。対話システム９から得られたシステム出力文と、リファレンス文データベース１０から取得した入力文とリファレンス文集合の組は、文間類似度計算部１２へ送られる。

ステップＳ１２において、文間類似度計算部１２は、入力文に対応するリファレンス文集合に含まれる各リファレンス文とシステム出力文との類似度を計算する。この類似度は、tf-idfで重み付けられたコサイン類似度や単語誤り率（Word Error Rate; WER）のような一般的な類似度であってもよいし、BLEUスコアやROUGEスコアのような単語の組み合わせを考慮した類似度を用いてもよい。また、各文に含まれる単語をそのまま用いる方法であってもよいし、「NTTコミュニケーション科学研究所監修、池原ほか編集、“日本語語彙大系”、岩波書店（参考文献５）」のような辞書を用いて単語概念の抽象化を行い、類似度を計算してもよい。得られた類似度と、システム出力文と、入力文とリファレンス文集合の組は、評価値計算部１３へ送られる。

ステップＳ１３において、評価値計算部１３は、システム出力文と、入力文とリファレンス文集合の組と、リファレンス文の類似度の全てもしくは一部とに基づいて、システム評価値を計算する。具体的には、システム出力文ごとに類似度が上位N個（Nは１〜７程度の自然数）のリファレンス文を選び、N個の類似度の平均値を計算してシステム評価値とする。

［第二実施形態］
第二実施形態の対話システム評価装置２は、図３に示すように、出力文取得部１１及び文間類似度計算部１２を第一実施形態と同様に含み、リファレンス文データベース２０及び評価値計算部２３をさらに含む。

対話システム評価装置２は、第一実施形態と同様に、外部の対話システム９にアクセス可能なように構成されている。

リファレンス文データベース２０には、入力文と、各入力文に対応する複数のリファレンス文と、各リファレンス文に対応する評価値とからなるリファレンス文データベースが記憶されている。すなわち、リファレンス文データベース１０との違いは、各リファレンス文に対して評価値が付与されていることである。

以下、第二実施形態のリファレンス文データベースの作成方法を説明する。入力文とリファレンス文の作成方法は第一実施形態と同様であるので、ここでは説明を省略する。

評価値の付与方法は、例えば、人手で直接値を付与する方法、リファレンス文のペアごとにどちらがよいかを比較し、その勝率を評価値とする方法などを用いることができる。後者の場合、個々のペアの勝ち負けについては保存しなくともよい。得られた評価値は、入力文とリファレンス文集合と組にしてリファレンス文データベース２０へ保存する。

図４を参照して、第二実施形態の対話システム評価方法を説明する。以下では、上述の第一実施形態との相違点を中心に説明する。

ステップＳ２３において、評価値計算部２３は、システム出力文と、入力文とリファレンス文集合と評価値集合の組と、リファレンス文の類似度の全てもしくは一部に基づいて、システム評価値を計算する。具体的には、評価値が予め定めた閾値以下のリファレンス文を除外して、システム出力文ごとに、類似度が上位N個（Nは１〜７程度の自然数）のリファレンス文を選び、N個の類似度もしくは評価値の平均値を計算してシステム評価値とする。

［第三実施形態］
第三実施形態の対話システム評価装置３は、図３に示すように、リファレンス文データベース２０、出力文取得部１１及び文間類似度計算部１２を第二実施形態と同様に含み、評価値計算部３３をさらに含む。

対話システム評価装置３は、上述の実施形態と同様に、外部の対話システム９にアクセス可能なように構成されている。

図４を参照して、第三実施形態の対話システム評価方法を説明する。以下では、上述の第二実施形態との相違点を中心に説明する。

ステップＳ３３において、評価値計算部３３は、システム出力文と、入力文とリファレンス文集合と評価値集合の組と、リファレンス文の類似度の全てもしくは一部に基づいて、システム評価値を計算する。具体的には、評価値が予め定めた閾値以下のリファレンス文を除外して、システム出力文ごとに、類似度が上位N個（Nは１〜７程度の自然数）のリファレンス文を選び、各リファレンス文の評価値を類似度により重み付けした平均値を計算してシステム評価値とする。

［第四実施形態］
第四実施形態の対話システム評価装置４は、図５に示すように、リファレンス文データベース２０、出力文取得部１１及び文間類似度計算部１２を第三実施形態と同様に含み、学習データ記憶部４０、回帰モデル学習部４１、回帰モデルパラメータ記憶部４２、特徴量抽出部４３及び評価値計算部４４をさらに含む。

対話システム評価装置４は、上述の実施形態と同様に、外部の対話システム９にアクセス可能なように構成されている。

学習データ記憶部４０には、リファレンス文データベース２０に記憶されている各リファレンス文の特徴量と各リファレンス文に付与された評価値が対応付けて記憶されている。特徴量は、リファレンス文やシステム出力文に含まれる単語や、各リファレンス文に対するBLEUスコアなどの類似度などを用いることができる。

回帰モデルパラメータ記憶部４２には、回帰モデルのパラメータが記憶されている。回帰モデルのパラメータは学習データ記憶部４０に記憶されている特徴量と評価値の組の集合を回帰モデル学習部４１へ入力し、ある特徴量を入力したときには対応する評価値を出力するように調整する。回帰モデルは、例えば、上述のSVRを用いることができる。

図６を参照して、第四実施形態の対話システム評価方法を説明する。以下では、上述の第三実施形態との相違点を中心に説明する。

ステップＳ４３において、特徴量抽出部４３は、対話システム９のシステム出力文から特徴量を抽出する。抽出する特徴量は学習データ記憶部４０に記憶されたリファレンス文の特徴量と同様のものである。抽出した特徴量は評価値計算部４４へ送られる。

ステップＳ４４において、評価値計算部４４は、回帰モデルパラメータ記憶部４２から取得した回帰モデルのパラメータを用いて、システム出力文の特徴量に対する評価値を予測してシステム評価値とする。

［第五実施形態］
第五実施形態の対話システム評価装置５は、図７に示すように、出力文取得部１１、文間類似度計算部１２、学習データ記憶部３０、特徴量抽出部４３を第四実施形態と同様に含み、リファレンス文データベース５０、分類モデル学習部５１、分類モデルパラメータ記憶部５２及び評価値計算部５４をさらに含む。

対話システム評価装置５は、上述の実施形態と同様に、外部の対話システム９にアクセス可能なように構成されている。

リファレンス文データベース５０には、入力文と、各入力文に対応する複数のリファレンス文と、各リファレンス文に対応する評価値とからなるリファレンス文データベースが記憶されている。ただし、第五実施形態の評価値は計算方法が異なっている。第五実施形態の評価値はリファレンス文のペアに対し、どちらがより適切な応答かを勝ち負けとして人手で判断して付与したものに限定される。

分類モデルパラメータ記憶部５２には、分類モデルのパラメータが記憶されている。分類モデルのパラメータはリファレンス文ペアごとの特徴量と評価値（例えば、勝ち：１、負け：０など）を分類モデル学習部５１へ入力し、ある２つの特徴量を入力したときに対応する勝ち負けを示す評価値を出力するように調整する。分類モデルは、例えば、上述のSVMを用いることができる。

図８を参照して、第五実施形態の対話システム評価方法を説明する。以下では、上述の第四実施形態との相違点を中心に説明する。

ステップＳ５４において、評価値計算部５４は、分類モデルパラメータ記憶部５２から取得した分類モデルのパラメータを用いて、システム出力文の特徴量と各リファレンス文の特徴量から勝ち負けを示す評価値を予測し、予測された勝ち負けの勝率を計算してシステム評価値とする。

このように、この発明の対話システム評価装置及び方法によれば、大規模にリファレンス文を用意し、かつ評価値を併用するなど、それらを適切に利用することで、特定のタスクを持たず話題の広い雑談対話システムなどに対しても適切にシステム評価値を付与することができる。高速かつ安価に対話システムを評価することができるため、対話システムを効率よく改善することが可能になる。

この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１、２、３、４、５対話システム評価装置
９対話システム
１０、２０、５０リファレンス文データベース
１１出力文取得部
１２文間類似度計算部
１３、２３、３３、４４、５４評価値計算部
４０学習データ記憶部
４１回帰モデル学習部
４２回帰モデルパラメータ記憶部
４３特徴量抽出部
５１分類モデル学習部
５２分類モデルパラメータ記憶部

Claims

出力文取得部が、特定のタスクをもたない対話システムへ入力文を入力し、上記対話システムからのシステム出力文を得る出力文取得ステップと、
評価値計算部が、上記入力文に対して予め定めたリファレンス文に基づいて上記システム出力文を評価するシステム評価値を計算する評価値計算ステップと、
を含む対話システム評価方法。
請求項１に記載の対話システム評価方法であって、
リファレンス文データベースに、上記入力文と上記入力文ごとに予め定めた複数の上記リファレンス文とが記憶されており、
上記評価値計算ステップは、上記入力文に対応する複数の上記リファレンス文と上記システム出力文とに基づいて、上記システム出力文ごとに上記システム評価値を計算するものである
対話システム評価方法。
請求項２に記載の対話システム評価方法であって、
文間類似度計算部が、上記システム出力文と上記リファレンス文それぞれとの間で文間の類似度を計算する文間類似度計算ステップをさらに含み、
上記評価値計算ステップは、上記類似度が高い方から所定の数の上記リファレンス文を選択し、選択された上記リファレンス文の上記類似度の平均値を上記システム評価値として計算するものである
対話システム評価方法。
請求項２に記載の対話システム評価方法であって、
上記リファレンス文データベースに、上記リファレンス文ごとに付与された評価値がさらに記憶されており、
文間類似度計算部が、上記システム出力文と上記リファレンス文それぞれとの間で文間の類似度を計算する文間類似度計算ステップをさらに含み、
上記評価値計算ステップは、上記評価値と上記類似度に基づいて上記リファレンス文を選択し、選択した上記リファレンス文の類似度もしくは評価値の少なくとも一方を用いて上記システム評価値を計算するものである
対話システム評価方法。
請求項２に記載の対話システム評価方法であって、
上記リファレンス文データベースに、上記リファレンス文ごとに付与された評価値がさらに記憶されており、
回帰モデルパラメータ記憶部に、上記リファレンス文から抽出した特徴量と上記評価値とを用いて学習した、特徴量を入力すると当該特徴量に対応する評価値を出力する回帰モデルのパラメータが記憶されており、
上記評価値計算ステップは、上記システム出力文から抽出した特徴量を上記回帰モデルへ入力し、上記回帰モデルから出力される評価値を上記システム評価値とするものである
対話システム評価方法。
請求項２に記載の対話システム評価方法であって、
上記リファレンス文データベースに、上記リファレンス文のペアごとに適切な方を表す勝ち負けが評価値としてさらに記憶されており、
分類モデルパラメータ記憶部に、上記リファレンス文から抽出した特徴量と上記評価値とを用いて学習した、２つの特徴量を入力すると上記勝ち負けを出力する分類モデルのパラメータが記憶されており、
上記評価値計算ステップは、上記システム出力文から抽出した特徴量と上記リファレンス文から抽出した特徴量とを上記分類モデルへ入力し、上記分類モデルから出力される勝ち負けから計算した勝率を上記システム評価値とするものである
対話システム評価方法。
特定のタスクをもたない対話システムへ入力文を入力し、上記対話システムからのシステム出力文を得る出力文取得部と、
上記入力文に対して予め定めたリファレンス文に基づいて上記システム出力文を評価するシステム評価値を計算する評価値計算部と、
を含む対話システム評価装置。
請求項１から６のいずれかに記載の対話システム評価方法の各ステップをコンピュータに実行させるためのプログラム。