JP2012242528A

JP2012242528A - 対話評価装置、方法及びプログラム

Info

Publication number: JP2012242528A
Application number: JP2011110989A
Authority: JP
Inventors: Koji Dosaka; 浩二堂坂; Yasuhiro Minami; 泰浩南; Ryuichiro Higashinaka; 竜一郎東中; Eisaku Maeda; 英作前田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2011-05-18
Filing date: 2011-05-18
Publication date: 2012-12-10
Anticipated expiration: 2031-05-18
Also published as: JP5783793B2

Abstract

【課題】従来よりも性能の高い評価関数を導出する対話評価技術を提供する。
【解決手段】対話データ記憶部１には、複数のユーザのそれぞれについての各対話の対話データが記憶されている。統計量抽出部２は、対話データから各複数のユーザの対話の所定の発言の数の平均値及び対話の長さの平均値を計算し、また、対話データから評価関数の説明変数となる統計量を抽出する。クラスタリング部３は、計算された対話の所定の発言の数の平均値及び対話の長さの平均値に基づいて複数のユーザをクラスタリングする。評価関数導出部４は、各クラスタに対応する評価関数を、その各クラスタに含まれるユーザについての統計量を説明変数としユーザ評定値を応答変数とする重回帰分析により導出する。
【選択図】図１

Description

この発明は、ユーザである人間とテキスト又は音声等により自然言語で対話を行う対話システムの対話の質を評価する対話評価装置に関する。

対話システムとは、テキスト又は音声等の入出力手段を用いて、人間と自然言語を使って自律的にコミュニケーションを行うコンピュータプログラムである。擬人化された表現を持つ対話エージェントや対話ロボットも対話システムの一種である。対話システムと対話を行う人間をユーザと呼ぶ。

ユーザと対話システムの間の対話の質を評価するための対話評価技術を開発することは、対話システムの開発にとって重要な研究課題である。対話評価技術に関する従来の技術として、Walker等は非特許文献１においてPARADISE（PARAdigm for DIalogue System Evaluation）と呼ばれる方法を提案している。このPARADISEと呼ばれる対話評価技術は、対話システムの技術分野で広く利用されている方法である。対話評価方法PRADISEにおいては、まず、ユーザと対話システムの間でやり取りされた対話を収集する。加えて、ユーザに各対話の質を複数段階により評定させ、対話の質のユーザ評定値として収集する。対話の評定は、ユーザ自身の満足度やユーザの対話意欲の程度などを評定することにより実施される。こうして収集したユーザと対話システムの間でやり取りされた対話に関するデータと、各対話の質のユーザ評定値を合わせて、対話データとして記録する。次に、対話データにおいて記録されたユーザの様々な対話行動の統計量を抽出する。そのように抽出されたユーザの様々な対話行動の統計量に基づいて、各対話の質のユーザ評定値を予測する評価関数を導出する。評価関数の導出には線形又は非線形の重回帰分析が用いられる。評価関数の性能は重回帰分析における決定係数によって示される。決定係数が大きいほど評価関数の性能は良いと考えられる。

このようにして評価関数をいったん導出すると、それ以後は、導出済みの評価関数を利用することにより、ユーザと対話システムの間の対話の質を自動的に評価することが可能となる。非特許文献２が示すように、こうして導出された評価関数を利用することによって、できるだけ対話の質が高くなるように対話システムの振る舞いを制御することができる。評価関数の性能が良ければ良いほど、より適切に対話システムを制御することができ、ユーザにとって質の高い対話を実現することにつながる。

対話評価技術PARADISEを適用した従来の事例として、タスク指向型対話システムにおける適用事例がある（例えば、非特許文献１及び非特許文献３参照。）。タスク指向型対話システムとは、ユーザの問い合せに従って、チケット予約などの各種の予約や情報検索等の決められたタスクをできるだけ効率的に遂行することを目的とする対話システムのことを言う。タスク指向型対話システムにおいては、タスクが成功したかどうかに明確な基準が存在することが多い。そういったタスク指向型対話システムに対話評価技術PARAQDIASEを適用した事例においては、おおよそ0.40から0.70までの間の決定係数をもつ評価関数が得られたことが報告されている。例えば、非特許文献１では0.39から0.56、非特許文献３では0.71の決定係数をもつ評価関数が導出されたことが報告されている。

タスク指向型対話システムに対して、効率的なタスク遂行とは別の観点からの対話システムについても研究が進められている。そういった対話システムとして、ユーザに高く満足してもらえるような情報を推薦する情報推薦型対話システムや、対話を通してユーザに教示を行う情報教示型対話システムや、対話を通してユーザの思考を喚起することでユーザの高い満足度や対話継続意欲をできるだけ長く維持する思考喚起型対話システムがある。例えば、ユーザの嗜好に合ったレストランを推薦する情報推薦型対話システム（例えば、非特許文献２参照。）や、ユーザに教示しながらユーザと協同でおもちゃを組み立てる対話システム（例えば、非特許文献４参照。）や、人名当てクイズを使って広範囲の対話トピックで対話を行いながら、ユーザの対話継続意欲をできるだけ長く維持する思考喚起型対話システム（例えば、非特許文献５及び非特許文献６参照。）がある。このような対話システムは，効率的なタスク遂行が重視されないという特徴や、タスクの成功・不成功の区別を明瞭に定義できないという特徴を持ち、短い対話で効率的にタスクを遂行することよりも、できるだけ長くユーザの満足度や対話継続意欲を維持することが重視される。例えば、情報推薦型対話では、提示した情報がどれほどユーザを満足させるかを前もって定義することは難しく、ユーザが満足するまで対話を続けてもらう必要がある。情報教示型対話システムでは、ユーザがシステムからの教示を学習するという良く意欲を長く維持する必要がある。思考喚起型対話システムは、ユーザの思考を喚起することで、ユーザの対話継続意欲をできるだけ長く維持することが目的である。

Marilyn Walker, Candace Kamm, Diane Litman, "Towards developing general models of usability with PARADISE", Natural Language Engeneering, vol.6, no.3-4, pp.363-377, 2000 Verena Rieser, Oliver Lemon, Xingkun Liu, "Optimising information presentation for spoken dialogue systems", Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL 2010), pp.1009-1018, 2010 Diane J.Litman, Shimei Pan, "Designing and Evaluating an Adaptive Spoken Dialogue System", User Modeling and User-Adapted Interaction, vol.12, no.2-3, pp.111-137, 2002 Mary Ellen Foster, Manuel Giuliani, Alois Knoll, "Comparing objective and subjective measures of usability in a human-robot dialogue system", Proceedings of the Joint Conference of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing (ACL/AFNLP 2009), pp.879-887, 2009 Ryuichiro Higashinaka, Kohji Dohsaka, Shigeaki Amano, Hideki Isozaki, "Effects of quiz-style information presentation on user understanding", Proceedings of the 8th Annual Conference of the International Speech Communication Association (Interspeech 2007), pp.2725-2728, 2007 Yasuhiro Minami, Minako Sawaki, Kohji Dohsaka, Ryuichiro Higashinaka, Kentaro Ishizuka, Hideki Isozaki, Tatsushi Matsubayashi, Masato Miyoshi, Atsushi Nakamura, Takanobu Oba, Hiroshi Sawada, Takeshi Yamada, Eisaku Maeda, "The World of Mushrooms: human-computer interaction prototype systems for Ambient Intelligence", Proceedings of the 9th International Conference on Multimodal Interfaces (ICMI 2007), pp.366-373, 2007

このような情報推薦型、情報教示型、思考喚起型など、効率的なタスク遂行を重視しない対話システムに対して対話評価技術PARADISEを適用した従来の事例においては、比較的低い決定係数をもつ評価関数しか得ることができず、精度の良い評価関数を得ることが困難であることが報告されている（例えば、非特許文献２及び非特許文献４参照。）。例えば、非特許文献２では0.26の決定係数をもつ評価関数が、非特許文献４では0.20の決定係数をもつ評価関数が報告されている。

この理由として以下の理由が考えられる。こうした対話システムにおいては、ユーザはできるだけ短い対話でタスクを遂行するという明確な共通の目的に向かって行動する傾向が弱まるため、ユーザの対話行動の傾向のばらつきが大きくなる。その結果、ユーザの集合全体に関して、ユーザの対話行動から対話の質のユーザ評定値を予測する評価関数を導出しようとしても、性能の高い評価関数を導出することが難しくなるということが考えられる。

この発明の課題は、従来よりも性能の高い評価関数を導出する対話評価装置、方法及びプログラムを提供することである。

この発明の一態様による、ユーザである人間と対話を行う対話システムの対話の質を評価する対話評価装置は、対話に関するデータ及びその対話のユーザ評定値をその対話の対話データとして、複数のユーザのそれぞれについての各対話の対話データを記憶する対話データ記憶部と、対話データから各複数のユーザの対話の所定の発言の数の平均値及び対話の長さの平均値を計算し、また、対話データから評価関数の説明変数となる統計量を抽出する統計量抽出部と、計算された対話の所定の発言の数の平均値及び対話の長さの平均値に基づいて複数のユーザをクラスタリングするクラスタリング部と、各クラスタに対応する評価関数を、その各クラスタに含まれるユーザについての統計量を説明変数としユーザ評定値を応答変数とする重回帰分析により導出する評価関数導出部と、を含む。

クラスタごとに評価関数を計算することにより、人間と対話システムの間で実行される対話の質を評価する評価関数の精度を高めることができる。その評価関数に基づいて対話システムの振る舞いを制御することによって、人間と対話システムの間でやり取りされる対話を人間にとってより質の高いものにすることができる。このことにより、対話システムと対話する人間の対話継続意欲を向上や、満足度の向上につながる。

実施形態の対話評価装置の構成を説明するためのブロック図。実施形態の対話評価装置の処理を説明するためのフローチャート。エージェントとユーザの間のクイズ音声対話の例を示す図。ユーザの発言の分類の例を示す図。「評価の対象となる対話」「評価の対象となる対話より前に実行された対話」等を説明するための図。統計量の分類の例を示す図。クラスタリングの結果の例を示す図。実験結果の例を示す図。実験結果の例を示す図。

以下、図面を参照してこの発明の一実施形態を説明する。

この実施形態では、対話システムとして、クイズ形式の思考喚起型音声対話システムを用いる。もちろん、これは対話システムの一例であり、クイズ形式の思考喚起型音声対話システム以外の対話システムにもこの発明を適用することができる。

まず、クイズ形式の思考喚起型音声対話システム（クイズ音声対話システムとも言う。）について説明する。クイズ音声対話システムは、広い対話トピックに下でユーザの思考を喚起し、コミュニケーションを活性化する思考喚起型対話システムの一例である。クイズ音声対話システムでは、対話エージェントがユーザに対して人名当てクイズを出題し、正解に辿りつくように、対話を進めていく。

対話エージェントとは、擬人化された身体表現を持ち、音声や身振りなどの自然なコミュケーション手段で、人間とコミュニケーションを行うコンピュータプログラム又はロボットのことを言う。この実施形態で利用するクイズ対話システムでは、対話エージェントとして、参考文献１に記載された、物理的なロボットとして実現されたエージェントを用いる。

〔参考文献１〕Kohji Dohsaka, Atsushi Kanemoto, Ryuichiro Higashinaka, Yasuhiro Minami, Eisaku Maeda, “User-adaptive coordination of agent communicative behavior in spoken dialogue”, Proceedings of Proceedings of the 11th Annual SIGDIAL Meeting on Discourse and Dialogue (SIGDIAL 2010), pp.314-321, 2010

人名当てクイズのヒントは、ユーザが容易には正解に辿り着かないように、難しいヒントから易しいヒントの順に自動的に並び替えられ、このことによりユーザの思考が喚起され、ユーザの対話意欲が向上することが分かっている（例えば、非特許文献５参照。）。

クイズ音声対話システムでは、音声認識技術によりユーザの音声を自動認識し、認識された音声の内容と、それまでの対話の文脈によって、次にエージェント発言を自動的に決定し、音声合成技術によりエージェント音声を出力する。このように、クイズ音声対話システムは自動的に動作するコンピュータシステムであるが、この実施形態においては、システムを全く自動的に動作させるのではなく、人間がエージェントの行動を操作するWizard of Oz (WoZ)方式を採用した。エージェントを操作する人間をオペレータと呼ぶ。WoZ方式については、後述する。

エージェントとユーザの間のクイズ音声対話の例を図３に示す。エージェントは、クイズ開始（発言１）、ヒント提示（発言２，８）、ユーザ回答の評価（発言４，１２，１４，１５）、ユーザへの呼びかけ（発言５）、クイズの困難さの表出（発言７）のための発言等を行うことができる。この他、エージェントは、クイズの容易さの表出（「易しすぎるかな」等）のための発言を行うことができる。

ユーザの発言は、図４に例示するように、回答の発言（発言３，１１，１３）と、回答以外の非回答の発言に２つの種別に分類される。また、ユーザの非回答の発言は、肯定、否定、中立の３つの種別に分類される。肯定の発言としては、クイズの容易さの表出や肯定的な感情をもつ感想の表明がある（発言１６）。否定の発言としては、クイズの困難さの表出（発言９）、否定的な感情をもつ感想の表明（発言１０）、クイズの放棄がある。中立の発言としては、思考中であることの表出（発言６）とその他の感情的に中立な感想の表明がある。なお、ユーザは、クイズを途中で止めることもできる。

このように、この例においては、クイズ音声対話においてユーザの発言の種別を回答か非回答かの２つの種別に分類し、更に非回答の発言を肯定、否定、中立の３つの種別に分類したが、ユーザ発言の種別の分類は、これに限るものではなく、発言の語彙・統語・音声的な特徴に基づく他の分類も利用することができる。

対話評価装置は、図１に示すように対話データ記憶部１、統計量抽出部２、クラスタリング部３、評価関数導出部４を例えば備える。対話評価装置は、図２に例示した対話評価方法の各ステップを実行する。

対話データ記憶部１には、複数のユーザのそれぞれについての各対話の対話データが記憶されている。対話データとは、対話に関するデータ及びその対話のユーザ評定値のことである。対話に関するデータからは、後述する統計量が計算可能である。ユーザ評定値は、例えば下記のような対話実験から事前に収集される。

例えば、対話システム（エージェント）とユーザの間の対話と対話の質のユーザ評定値を収集するために、Wizard of Oz(WoZ)方式の対話を実施する。すなわち、クイズ音声対話システムを完全に自動で動作させるのではなく、人間（オペレータ）がエージェントの行動を操作するというWoZ方式で行う。

この対話実験では、３０名の日本語話者（男性１５名，女性１５名）がユーザとして参加した。また、オペレータとして２名の日本語話者が参加した。

対話実験を開始する前に、クイズの問題となる有名な人物を５つのカテゴリから選んだ。５つのカテゴリは芸能、スポーツ、文学・芸術、政治、歴史上の人物である。この例では、これらのクイズのカテゴリを対話トピックとする。すなわち、芸能、スポーツ、文学・芸術、政治、歴史上の人物という５つの対話トピックが存在するとする。カテゴリごとに２０名の人物が選ばれた。各カテゴリのクイズの難易度を揃えるため、まず、Wikipedia(http://ja.wikipedia.org/)上のハイパーリンク構造に基づいて、Wikipedia中の人物をPageRank^TMスコアを計算し、それらの人物をPageRankスコアの降順に並べた。次に、カテゴリに属する人物のPageRankスコアの分布が各カテゴリでほぼ等しくなるように、カテゴリごとに２０名の人物を選んだ。

対話実験において、ユーザとオペレータは異なる部屋に入り、対話を行った。ユーザはエージェントがオペレータによって操作されているとは知らされなかった。ユーザは小休憩を挟みながら、２時間程度対話を続けるように指示された。

各対話においてオペレータは５つのカテゴリからクイズの問題となる人物を選択し、クイズを開始した。対話の途中で、オペレータはヘッドフォンでユーザの音声を聞き、ユーザの発言の種別を分類し、その種別をキーボードでシステムに入力した。ユーザ発言の種別が回答の場合は、クイズの回答として発言された人物名も入力した。オペレータが入力した情報とシステムが保持する対話の文脈に基づいて、対話システムは次のエージェント発言の候補を出力する。オペレータはその候補から次のエージェント発言を一つ選んだ。オペレータによって選ばれたエージェント発言が音声によってユーザに対し出力された。オペレータは、ユーザの対話意欲をできるだけ維持するように、クイズの問題となる人物の選択と次のエージェント発言の選択を行うことを指示された。

ユーザは各対話においてクイズに正解できるように対話を行うように前もって指示され、クイズに対する回答以外の発言も行ってよいことが事前に知らされた。一つの対話が終わるたびに、ユーザはその時点での自分自身の対話意欲を評定し、タッチパネルのボタンを押すことによって、対話意欲を４段階で入力した。４が最も対話意欲が高く、１が最も対話意欲が低い。このようにユーザが入力したユーザ自身の対話意欲の評定値を対話意欲のユーザ評定値と呼ぶ。対話意欲のユーザ評定値はオペレータには知らされなかった。

以上に述べたWoZ方式の対話実験によって対話データが収集された。収集された対話データにおいて、各ユーザは、平均３８．８個のクイズ対話を実施し、合計で１，１６３個の対話が収集された。一対話の長さは平均２．９２分であった。対話データ全体で、４３，０２１個の発言が収集された。そのうち、２７，４３９個がエージェントの発言であり、１５，５８２個がユーザの発言であった。ユーザが入力した対話意欲は、平均３．０７（標準偏差０．８４）であった。

このような対話実験により得られたユーザ評定値は、対話データの一部として対話データ記憶部１に記憶される。

統計量抽出部２は、対話データ記憶部１から読み込んだ対話データから評価関数の説明変数となる統計量を抽出する（ステップＳ１）。抽出された統計量は、評価関数導出部４に送信される。また、統計量抽出部２は、クラスタリング部３がクラスタリングする際に用いる、各ユーザの対話の所定の発言の数の平均値、及び、各ユーザの対話の長さの平均値を計算して、クラスタリング部３に送信する。各ユーザの対話の所定の発言の数の平均値、及び、各ユーザの対話の長さの平均値が統計量として抽出されている場合には、その統計量として抽出された各ユーザの対話の所定の発言の数の平均値、及び、各ユーザの対話の長さの平均値がクラスタリング部３に送信される。

以下、統計量抽出部２で抽出する統計量について説明する。図５に示すように、対話データにおいて、各ユーザとエージェント（対話システム）は連続して複数の対話を実施している。この例では、ユーザはＮ個の対話を連続して実施した。Ｎ個の対話を対話１，対話２，…，対話Ｋ，…，対話Ｎと書く。ユーザは各対話の終了時にその時点での対話意欲を４段階で評定した評定値を与えている。それらのユーザ対話意欲の評定値をユーザ対話意欲１，ユーザ対話意欲２，…，ユーザ対話意欲Ｋ，…，ユーザ対話意欲Ｎと書く。

２番目以降の対話に関して、各対話の終了時点でのユーザ対話意欲の評定値を、その各対話を含むそれまでに実行された対話から抽出されるユーザ対話行動の統計量に基づいて予測することを考える。今、Ｋ番目の対話Ｋの終了時点におけるユーザ対話意欲Ｋを予測する場合を想定する。ここで、現在着目している対話である現在の対話を「評価の対象となる対話」と呼び，現在の対話の終了時点までに連続して実行された対話を「それまでに実行された対話」と呼ぶ。さらに、現在の対話の一つ前の対話の終了時点までに連続して実行された対話、すなわち一つ前の対話までに実行された対話を「評価の対象となる対話より前に実行された対話」と呼ぶ。なお、ここでは２番目以降の対話に関して、ユーザ対話意欲の評定値を予測することを考えているので、評価の対象となる対話より前に実行された対話が空集合になることはない。この図５の例の場合、対話Ｋが評価の対象となる対話であり，対話１から対話Ｋまでの対話がそれまでに実行された対話となる。また、対話１から対話Ｋ−１までの対話が評価の対象となる対話より前に実行された対話となる。この実施形態は、ユーザ対話意欲Ｋをそれまでに実行された対話（対話１から対話Ｋまでの対話）に渡るユーザ対話行動の統計量に基づいて予測することを特徴とする。以下では、評価の対象となる対話のユーザ対話行動の統計量と、それまでに実行された対話に渡るユーザ対話行動の統計量を比較し，それまでに実行された対話に渡る対話行動の統計量がより効果的であることを示す。

対話の質のユーザ評定値を予測する際に使う各種のユーザ対話行動の統計量は、対話の効率性に関する統計量、対話の質に関する統計量、タスク成功に関する統計量に分類される（例えば、非特許文献１参照。）。この分類にしたがって、この実施形態で使う各種のユーザ対話行動の統計量について説明する。統計量の分類の例を図６に示す。

第一に、対話の効率性に関する統計量として、統計量抽出部２は次の統計量(E1)から(E3)を抽出する。ただし、このうち、(E1)’は、評価の対象となる対話の統計量の効果とそれまでに実行された対話に渡る統計量の効果を比較する目的のためだけに抽出するもので、抽出しなくてもよい。
(E1) 評価の対象となる対話の長さ
(E1)’ 現在の目標達成対話の長さと、現在の目標不達成対話の長さ
(E2) それまでに実行された対話における目標達成対話の長さの平均値と目標不達成対話の長さの平均値
(E3) (E1)から一つ前の対話までに実行された対話の長さの平均値を引いた値

対話の長さとは、例えば時分秒等の単位で計測される時間長や、対話を構成するユーザの発言の数と対話システムの発言の数とを加算した値である。この実施形態では、各対話の長さは、対話の時間長（分）によって測った。この実施形態で用いるクイズ音声対話においては、対話ごとに特定のクイズに正解するという目標が与えられているものと考えられる。対話がクイズが正解して終了したとき、その対話は目標達成対話と呼ばれ、さもなければ目標不達成対話と呼ばれる。(E1)’において，現在の目標達成対話の長さとは、現在の対話である評価の対象となる対話が、目標達成対話ならばその対話の長さであり、目標不達成対話ならば０であると定義し、現在の目標不達成対話の長さとは、現在の対話である評価の対象となる対話が目標不達成対話ならばその対話の長さであり、目標達成対話ならば０であると定義する。（E2）においては、あるユーザのそれまでに実行された対話において、目標達成対話だけを取り出しその長さの平均値を計算し目標達成対話の長さの平均値と定義し、また、目標不達成対話だけを取り出しその長さの平均値を計算し目標不達成対話の長さの平均値と定義する。

(E1)と(E1)’は評価の対象となる対話のユーザ対話行動の統計量であり、(E2)と(E3)はそれまでに実行された対話に渡るユーザ対話行動の統計量である。この実施形態においては、それまでに実行された対話に渡るユーザ対話行動は、それまでに実行された対話に渡るユーザ対話行動の平均的な振る舞いを表わす統計量（ここでは(E2)に相当するもの）と、現在の対話のユーザ対話行動が、一つ前の対話までのユーザ対話行動の平均的振る舞いからどう変化したかを表わす差の値（ここでは(E3)に相当するもの）とによってモデル化される。

評価の対象となる対話の統計量の効果とそれまでに実行された対話に渡る統計量の効果を比較するため、現在の対話の統計量(E1)’を用いてユーザ対話意欲の評定値を予測した場合の結果も後に示す。比較の目的のため、(E1)を用いず，(E1)’を用いるのは、目標達成対話と目標不達成対話に分けた上で、評価の対象となる対話の統計量と、それまでに実行された対話に渡る統計量とを比較するためである。同様にして（E3）の代わりに、目標達成対話と目標不達成対話とに分けた上で、評価の対象となる対話の長さから一つ前の対話までに実行された対話の長さの平均値を引いた値を用いることもできるが、ここでは簡単のために、それは行わずに(E3)を用いる。

また、（E1）は(E3)を計算するために必要な値であるので、それまでに実行された対話に渡るユーザ対話行動の統計量を用いる場合であっても、前もって計算しておく必要がある。

第二に、対話の質に関する統計量として、統計量抽出部２は次の統計量(Q1)から(Q4)を抽出する。
(Q1) 評価の対象となる対話における所定の発言についての単位時間発言数
(Q2) それまでに実行された対話における所定の発言についての単位時間発言数の平均値
(Q3) (Q1)から一つ前の対話までに実行された対話における所定の発言についての単位時間発言数の平均値を引いた値
(Q4) それまでに実行された対話における対話トピックごとの目標達成対話についての分布エントロピー

(Q4)のそれまでに実行された対話における対話トピックごとの目標達成対話についての分布エントロピーは例えば次のように計算する。この例においては、クイズのカテゴリが対話トピックとなる。すなわち，芸能，スポーツ，文学・芸術，政治，歴史上の人物という５つの対話トピックが存在する。

第一に、図５のそれまでに実行された対話（対話１，…，対話Ｋ）の中で，対話トピック（クイズのカテゴリ）ごとに目標達成対話の生起数を数え、その目標達成対話の生起数に基づいて、対話トピックごとの目標達成対話の生起確率を計算する。

それまでに実行された対話の中で、芸能、スポーツ、文学・芸術、政治、歴史上の人物の各対話トピックの目標達成対話の生起数を次のように定義する。

Ｘ_芸能＝芸能の対話トピックの目標達成対話の生起数
Ｘ_スポーツ＝スポーツの対話トピックの目標達成対話の生起数
Ｘ_{文学・芸術}＝文学・芸術の対話トピックの目標達成対話の生起数
Ｘ_政治＝政治の対話トピックの目標達成対話の生起数
Ｘ_{歴史上の人物}＝歴史上の人物の対話トピックの目標達成対話の生起数

ここで、次のように、それまでに実行された対話の中で、すべての対話トピックの目標達成対話の合計をＸ_合計とする。
Ｘ_合計＝Ｘ_芸能＋Ｘ_スポーツ＋Ｘ_{文学・芸術}＋Ｘ_政治＋Ｘ_{歴史上の人物}

このとき、対話トピックごとの目標達成対話の生起確率Ｐ（対話トピック）は次のように計算できる。
Ｐ（芸能）＝Ｘ_芸能／Ｘ_合計
Ｐ（スポーツ）＝Ｘ_スポーツ／Ｘ_合計
Ｐ（文学・芸術）＝Ｘ_{文学・芸術}／Ｘ_合計
Ｐ（政治）＝Ｘ_政治／Ｘ_合計
Ｐ（歴史上の人物）＝Ｘ_{歴史上の人物}／Ｘ_合計

なお、Ｘ_合計が０のとき、Ｐ（対話トピック）は０と定義する。続いて第二に、対話トピックごとの目標達成対話の生起確率Ｐ(対話トピック)に基づいて、対話トピックごとの目標達成対話についての分布エントロピーを計算する。今、Ｎ個の対話トピックＡ_１，…，Ａ_ｉ，…，Ａ_Ｎが存在する場合を想定する。対話トピックの全体集合をΩとするとき、対話トピックごとの目標達成対話の分布エントロピーH_G(SuccessfulDialog)は次の式で計算される。
H_G(SuccessfulDialog)＝-Σ_Ai∈ΩP(A_i)log₂P(A_i)
ただし、Ω＝｛Ａ_１，…，Ａ_ｉ，…，Ａ_Ｎ｝
なお、Ｐ（Ａ_ｉ）が０のとき、Ｐ（Ａ_ｉ）ｌｏｇ_２Ｐ（Ａ_ｉ）は０と定義する。

例えば、芸能、スポーツ、文学・芸術、政治、歴史上の人物の各対話トピックの目標達成対話の生起確率Ｐ（芸能），Ｐ（スポーツ），Ｐ（文学・芸術），Ｐ（政治），Ｐ（歴史上の人物）が与えられるとき、対話トピックごとの目標達成対話についての分布エントロピーH_G(SuccessfulDialog)は次の式で計算できる。
H_G(SuccessfulDialog)＝-Σ_Ai∈ΩP(A_i)log₂P(A_i)
ただし、Ω＝｛芸能，スポーツ，文学・芸術，政治，歴史上の人物｝

対話トピックごとの目標達成対話についての分布エントロピーは、対話トピックとユーザの関心の適合の度合いに関係する値になっていると考えられる。したがって、この分布エントロピーを統計量とすることにより、導出される評価関数の精度が高まる。

クイズ対話は思考喚起型対話の一種であり、対話を活性化することが目的の一つであり、活性化した対話ほど質の高い対話となる。ユーザの発言数は対話の活性度と密接に関係していると考えられるので、この実施形態ではユーザの発言数を対話の質に関する統計量として使った。

「所定の発言」とは、ある分類に属する発言のことである。例えば、クイズ対話においては、図４のように、発言は、回答の発言、非回答の発言、肯定発言、否定発言、中立発言に分類することができる。所定の発言とは、これらの少なくとも１つの分類に属する発言のことである。例えば、回答の発言を所定の発言としても良いし、非回答の発言、すなわち肯定発言、否定発言、中立発言の３つの分類に属する発言を所定の発言としても良い。単位時間発言数とは、発言数を対話の時間長さで正規化したものであり、単位時間あたりの発言数のことを言う。

(Q1)は、評価の対象となる対話のユーザ対話行動の統計量であり、(Q2)と(Q3)はそれまでに実行された対話に渡るユーザ対話行動の統計量である。(Q2)は、それまでに実行された対話に渡るユーザ対話行動の平均的な振る舞いを表わす統計量であり、(Q3)は、現在の対話のユーザ対話行動が、一つ前の対話までのユーザ対話行動の平均的振る舞いからどう変化したかを表わす差の値を表わす統計量である。

評価の対象となる対話の統計量の効果とそれまでに実行された対話に渡る統計量の効果を比較するため、評価の対象となる対話の統計量(Q1)を用いてユーザ対話意欲の評定値を予測した場合の結果も後に示す。また、(Q1)は、（Q3）を計算するために必要な値であるので、この実施形態のようにそれまでに実行された対話における統計量を用いる場合であっても、前もって計算しておく必要がある。

(Q4)は、対話トピックごとのユーザ対話行動の分布エントロピーに関する統計量であり、それまでに実行された対話に渡るユーザ対話行動の統計量の一つでもある。この(Q4)に対応するような評価の対象となる対話におけるユーザ対話行動の統計量はここでは考えない。なぜなら、評価の対象となる対話の中だけでは、分布エントロピーを求めることはできないからである。

第三に、タスク成功に関わる統計量として、統計量抽出部は次の統計量(S1)から(S3)を抽出する。
(S1) 評価の対象となる対話が目標達成対話ならば１、さもなければ０となる変数の値
(S2) それまでに実行された対話における目標達成対話の割合
(S3) (S1)から一つ前の対話までに実行された対話における目標達成対話の割合を引いた値

(S1)は、評価の対象となる対話のユーザ対話行動の統計量であり、(S2)と(S3)はそれまでに実行された対話に渡るユーザ対話行動の統計量である。(S2)は、それまでに実行された対話に渡るユーザ対話行動の平均的な振る舞いを表わす統計量であり、(S3)は、現在の対話のユーザ対話行動が、一つ前の対話までのユーザ対話行動の平均的振る舞いからどう変化したかを表わす差の値を表わす統計量である。

評価の対象となる対話の統計量の効果とそれまでに実行された対話に渡る統計量の効果を比較するため、評価の対象となる対話の統計量(S1)を用いてユーザ対話意欲の評定値を予測した場合の結果も後に示す。また、(S1)は（S3）を計算するために必要な値であるので、この実施形態のようにそれまでに実行された対話における統計量を用いる場合であっても、前もって計算しておく必要がある。

対話システムによっては、ある一つの対話の質を評価する際に、その対話だけにおけるユーザの対話行動だけでなく、それまでに連続して実行してきた複数の対話に渡るユーザの対話行動の統計的特徴が対話の質のユーザ評定値に影響を与えることが想定される。このように、統計量として、評価関数による評価の対象となる対話及び当該対話より前に実行された対話の対話データから抽出される統計量を用いることにより、更に精度の高い評価関数を得ることができる。

なお、統計量抽出部２は、図６に例示した(E1)から(E3)，(Q1)から(Q4)，(S1)から(S3)の全てではなく、これらの少なくとも１つを統計量として抽出してもよい。

クラスタリング部３は、対話の所定の発言の数の平均値及び対話の長さの平均値に基づいて複数のユーザをクラスタリングする（ステップＳ２）。クラスタリングの結果は、評価関数導出部４に送信される。

クラスタリングの手法として、分割最適化クラスタリング手法、階層的クラスタリング手法等を用いることができる。この実施形態においては、分割最適化クラスタリングの一種である Partitioning Around Medoids (PAM) アルゴリズムを用い、非回答発言を所定の発言とした。また、対話の長さは対話の時間長（分）により測った。図７は、Partitioning Around Medoids (PAM) アルゴリズムを用いて、対話中の非回答の発言数の平均値及び対話の長さの平均値に基づいて、複数のユーザをクラスタリングした結果の例を示す。また、ユーザの発言種別と分割クラスタ数は、シルエット係数が０．５以上になり、かつ、各クラスタに含まれるユーザ数が２を超える分割を選ぶことによって決めた。

この例では、３つのクラスタが形成され、複数のユーザは３つのグループに分割されている。この例では、非回答の発言の平均値がクラスタを決める主たる要因となっており、対話の長さの平均はシルエット係数を向上させる働きをしている。クラスタ１は１４名のユーザ、クラスタ２は９名のユーザ、クラスタ３は７名のユーザから成る。縦軸と横軸の目盛は見やすさのため調整されている。

評価関数導出部４は、各クラスタに対応する評価関数を、その各クラスタに含まれるユーザについての統計量を説明変数としユーザ評定値を応答変数とする重回帰分析により導出する（ステップＳ３）。重回帰分析として、線形の重回帰分析を用いてもよいし、非線形の重回帰分析を用いてもよい。

以下では、ステップワイズ変数選択による線形重回帰分析を用い、対話の質のユーザ評定値としては対話意欲のユーザ評定値を用いた場合について具体的に説明する。

ユーザをクラスタに分割することが有効に働くことを示すために、ユーザ全体から評価関数を導出した場合と、各ユーザクラスタごとに評価関数を導出した場合の比較例を示す。

この実施形態において扱うクイズ対話は、できるだけ長くユーザ対話意欲を維持することが目的であり、ユーザとエージェントの間の対話が長時間に渡って続く。ユーザ対話行動の傾向が、長時間に渡って続く対話の中で変化していく可能性があるので、各ユーザとエージェントとの間の対話を前半と後半に二分割し、前半の対話と後半の対話のそれぞれにおいて評価関数を導出した。前半の対話はユーザ６番目の対話から２２番目の対話を含み，後半の対話は２３番目の対話から最後の対話までを含む。

また、統計量抽出部２で抽出する統計量として、評価の対象となる対話におけるユーザ対話行動の統計量と、それまでに実行された対話に渡るユーザ対話行動の統計量の効果を比較するため、評価の対象となる対話におけるユーザ対話行動の統計量(E1)’,(Q1),(S1)を使った場合と、それまでに実行された対話に渡るユーザ対話行動の統計量(E2),(E3),(Q2),(Q3),(Q4),(S2),(S3)を使った場合を比較した。

図７において、全ユーザと各ユーザクラスタのそれぞれにおいて、全対話と前半の対話と後半の対話のそれぞれにおいて、導出された評価関数の決定係数を示す。決定係数は10-fold cross validation法による平均値である。表の各セルにおいて、上の数字はそれまでに実行された複数の対話に渡るユーザ対話行動の統計量に基づいて導出した評価関数の決定係数を示し、（）で囲まれた下の数字は評価の対象となる対話におけるユーザ対話行動の統計量に基づいて導出した評価関数の決定係数を示す。

図８に示されたように、ユーザクラスタを使わずに、全ユーザにおいて評価関数を導出した場合、その決定係数は低い。ユーザクラスタごとの評価関数を導出することにより、評価関数の決定係数が向上し、評価関数の性能が向上したことが分かる。このことは、タスクの効率的達成が重視されない例えば思考喚起型対話においては、ユーザがタスク達成に向けて行動する傾向が弱まり、ユーザの行動のばらつきが大きくなることを示している。その結果として、ユーザ全体で評価関数を導出すると評価関数の性能が低くなる一方で、類似した行動傾向をもつユーザをまとめたクラスタごとに評価関数を導出すると評価関数の性能が向上することにつながると考えられる。

また、評価の対象となる対話のユーザ対話行動の統計量を使うよりも、それまでに実行された対話に渡るユーザ対話行動の統計量を使うことで、評価関数の性能が向上することがわかる。このことは、それまでに実行された対話に渡る統計量がユーザ対話意欲を予測するために効果があることを示している。

次に、図９において、各ユーザクラスタと、対話の前半と後半のそれぞれにおいて、それまでに実行された対話に渡るユーザ対話行動に統計量に基づいて導出された評価関数を標準偏回帰係数とともに示す。L(SuccessfulDialog)とL(FailedDialog)は，それぞれ目標達成対話と目標非達成対話の長さの平均(E2)を表わす。Δ_L(Dialog)は差の値（E3）を表わす。N(Answer)，N(Positive)，N(Negative), N(Neutral)は、それぞれ回答のための発言、肯定発言、否定発言、中立発言に関して、それまでに実行された対話における単位時間発言数の平均(Q2)を表わす。Δ_N(Answer)，Δ_N(Positive)，Δ_N(Negative)，Δ_N(Neutral)は、それぞれ回答のための発言、肯定発言、否定発言、中立発言に関して、差の値(Q3)を表わす。

H_G(SuccessfulDialog)はエントロピー(Q4)を表わす。R(SuccessfulDialog)は目標達成対話の割合(S2)を表わす。差の値(S3)は、ステップワイズ変数選択による重回帰分析を適用する過程において消去され、結果として得られた評価関数には現れなかった。

各対話行動の統計量の影響の大きさと働きの正負の向きは、標準偏回帰係数によって示される。図９から分かるように、各対話行動の統計量の大きさと正負の向きは、ユーザクラスタによって異なる。例えば、目標達成対話の長さの平均値は、ユーザ対話意欲に対して、クラスタ１においては正の方向に働くが、クラスタ３の後半の対話においては負の向きに働いている。また、図７から分かるように、クラスタ３はユーザの非回答発言が多いが、図９から分かるように、クラスタ３では、非回答発言のうち、中立の非回答発言数の平均が、ユーザ対話意欲に対して大きく正の向きに働いていることが分かる。さらに、対話の各時点におけるそれまでに実行された対話における対話トピックごとの目標達成対話の分布エントロピー(Q4)が、ユーザ対話意欲の予測に役立つ場合があり、クラスタによってその働きの方向が異なることが分かる。すなわち、対話トピックごとの目標達成対話の分布エントロピー(Q4)はクラスタ１においてはユーザ対話意欲に対して正の向きに働き、クラスタ２の前半においてはユーザ対話意欲に対して負の向きに働いている。このことは、広い対話トピックを好むユーザと狭い対話トピックユーザが存在することを示している。

［変形例等］
対話評価装置の各部間のデータのやり取りは直接行われてもよいし、図示していない記憶部を介して行われてもよい。

その他、この発明は上述の実施形態に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

１対話データ記憶部
２統計量抽出部
３クラスタリング部
４評価関数導出部

Claims

ユーザである人間と対話を行う対話システムの対話の質を評価する対話評価装置において、
対話に関するデータ及びその対話のユーザ評定値をその対話の対話データとして、複数のユーザのそれぞれについての各対話の対話データを記憶する対話データ記憶部と、
上記対話データから各上記複数のユーザの対話の所定の発言の数の平均値及び対話の長さの平均値を計算し、また、上記対話データから評価関数の説明変数となる統計量を抽出する統計量抽出部と、
上記計算された対話の所定の発言の数の平均値及び対話の長さの平均値に基づいて上記複数のユーザをクラスタリングするクラスタリング部と、
各クラスタに対応する評価関数を、その各クラスタに含まれるユーザについての上記統計量を説明変数とし上記ユーザ評定値を応答変数とする重回帰分析により導出する評価関数導出部と、
を含む対話評価装置。
請求項１の対話評価装置において、
上記統計量は、上記評価関数による評価の対象となる対話及び当該対話より前に実行された対話の対話データから抽出される統計量を含む、
対話評価装置。
請求項１及び２の対話評価装置において、
上記対話は、複数の対話トピックに属するとし、ユーザが所定の目標を達成した対話を目標達成対話として、
上記統計量は、対話トピックごとの目標達成対話についての分布エントロピーを含む、
対話評価装置。
ユーザである人間と対話を行う対話システムの対話の質を評価する対話評価方法において、
対話データ記憶部には、対話に関するデータ及びその対話のユーザ評定値をその対話の対話データとして、複数のユーザのそれぞれについての各対話の対話データが記憶されており、
統計量抽出部が、上記対話データから各上記複数のユーザの対話の所定の発言の数の平均値及び対話の長さの平均値を計算し、また、上記対話データから評価関数の説明変数となる統計量を抽出する統計量抽出ステップと、
クラスタリング部が、上記計算された対話の所定の発言の数の平均値及び対話の長さの平均値に基づいて上記複数のユーザをクラスタリングするクラスタリングステップと、
評価関数導出部が、各クラスタに対応する評価関数を、その各クラスタに含まれるユーザについての上記統計量を説明変数とし上記ユーザ評定値を応答変数とする重回帰分析により導出する評価関数導出ステップと、
を含む対話評価方法。
請求項１から３の何れかの対話評価装置の各部としてコンピュータを機能させるためのプログラム。