JP5860861B2

JP5860861B2 - 焦点推定装置、モデル学習装置、方法、及びプログラム

Info

Publication number: JP5860861B2
Application number: JP2013213885A
Authority: JP
Inventors: 東中　竜一郎; 竜一郎東中; 牧野　俊朗; 俊朗牧野; 松尾　義博; 義博松尾; 今村　賢治; 賢治今村; のぞみ小林; 平野　徹; 徹平野; 千明宮崎
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-10-11
Filing date: 2013-10-11
Publication date: 2016-02-16
Anticipated expiration: 2033-10-11
Also published as: JP2015076054A

Description

本発明は、焦点推定装置、モデル学習装置、方法、及びプログラムに係り、特に、ユーザの発話の焦点を推定する焦点更新装置、モデル学習装置、方法、及びプログラムに関する。

雑多な話題についてユーザと対話を行う雑談対話システムにおいて、現在の対話における話題を把握することは重要である。話題を適切に把握できないと、進行中の話題と関係のない発話を行う可能性があり、また、話題が変わったことを認識できずに過去の話題についての発話を行う可能性もあり、ユーザとの対話を不適切なものにする。

話題を表す単語を焦点と定義した場合、対話システムは焦点に基づいて発話を行うものとする。例えば、「動物」に関連する対話をユーザとシステムが行っているのであれば、「動物」が焦点である。また、対話の中で「犬」や「猫」についての話が展開されていれば、「犬」や「猫」が焦点となる。対話において、焦点は刻々と切り替わり、対話が展開されていく。このような話の流れに対話システムが追随するためには焦点を正しく認識する機構が必要である。

従来技術として、焦点の把握については、センタリング理論がある（非特許文献１）。センタリング理論とは、発話には焦点となる要素が存在すると仮定し、それらが発話にどのように現れ、どのように移り変わるかということについての理論である。

日本語では、提題助詞の「は」で示される名詞や、ガ格・ヲ格で定時される名詞が焦点になりやすい単語とされる（非特許文献２、非特許文献３）。

Barbara J. Grosz and Candace L. Sidner, Attention, intentions, and the structure of discourse Computational Linguistics, Volume 12 Issue 3, 1986, Pages 175-204, MIT Press. 吉田悦子，人文論叢: 三重大学人文学部文化学科研究紀要20, pp.193-202, 2003, 三重大学．竹井光子，藤原美保，相沢輝昭，センタリング理論とゼロ代名詞：日本語コーパス分析と母語話者調査の結果から．言語処理学会第12 回年次大会発表論文集，pp. 292-295，2006.

上記の従来技術においては、名詞句が文内に複数ある場合、どのような格助詞を伴うかによって焦点としてのふさわしさに序列を付けている。しかしながら、実際の発話では単語の使われ方なども考慮する必要があり、格助詞だけの情報で序列を決めることは難しいという問題がある。また、対話では格助詞が頻繁に脱落するため，格助詞の情報だけに頼ることはできないという問題がある。加えて、対話においては、発話に省略が生じることが多いため、省略を考慮しないと高精度で焦点を把握することができないという問題がある。

本発明では、上記問題点を解決するために成されたものであり、ユーザ発話の焦点を高精度に推定することができる焦点推定装置、方法、及びプログラムを提供することを目的とする。

また、ユーザ発話の焦点を高精度に推定するための焦点推定モデルを学習することができるモデル学習装置を提供することを目的とする。

上記目的を達成するために、第１の発明に係る焦点推定装置は、ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定する焦点推定装置において、入力された前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果の少なくとも一方に基づいて、前記ユーザの発話から少なくとも１つの単語からなる名詞句及び固有表現の少なくとも一方を前記発話の焦点候補として抽出する焦点候補抽出部と、前記焦点候補抽出部により抽出された焦点候補の各々について、前記ユーザの発話に対する形態素解析処理の結果に基づいて、前記焦点候補の特徴量を抽出する特徴量抽出部と、前記焦点候補の各々について、前記特徴量抽出部により抽出された前記焦点候補の特徴量と、焦点らしさを表すスコアを推定するための予め学習された焦点推定モデルとに基づいて、前記焦点候補の焦点らしさを表すスコアを算出するスコア算出部と、前記スコア算出部により算出された前記焦点候補の各々の前記スコアと、予め定められた閾値とに基づいて、前記焦点候補の各々から、前記ユーザの発話の焦点を選択する焦点候補選択部と、前記焦点候補選択部により選択された前記ユーザの発話の焦点を用いて、前記ユーザの発話の焦点が格納される焦点リストを更新する焦点更新部と、を含んで構成されている。

第２の発明に係る焦点推定方法は、焦点候補抽出部と、特徴量抽出部と、スコア算出部と、焦点候補選択部と、焦点更新部と、を含む、ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定する焦点推定装置における焦点推定方法であって、前記焦点候補抽出部は、入力された前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果の少なくとも一方に基づいて、前記ユーザの発話から少なくとも１つの単語からなる名詞句及び固有表現の少なくとも一方を前記発話の焦点候補として抽出し、前記特徴量抽出部は、前記焦点候補抽出部により抽出された焦点候補の各々について、前記ユーザの発話に対する形態素解析処理の結果に基づいて、前記焦点候補の特徴量を抽出し、前記スコア算出部は、前記焦点候補の各々について、前記特徴量抽出部により抽出された前記焦点候補の特徴量と、焦点らしさを表すスコアを推定するための予め学習された焦点推定モデルとに基づいて、前記焦点候補の焦点らしさを表すスコアを算出し、前記焦点候補選択部は、前記スコア算出部により算出された前記焦点候補の各々の前記スコアと、予め定められた閾値とに基づいて、前記焦点候補の各々から、前記ユーザの発話の焦点を選択し、前記焦点更新部は、前記焦点候補選択部により選択された前記ユーザの発話の焦点を用いて、前記ユーザの発話の焦点が格納される焦点リストを更新する。

第１の発明及び第２の発明によれば、焦点候補抽出部により、入力されたユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果の少なくとも一方に基づいて、ユーザの発話から少なくとも１つの単語からなる名詞句及び固有表現の少なくとも一方を発話の焦点候補として抽出し、特徴量抽出部により、抽出された焦点候補の各々について、ユーザの発話に対する形態素解析処理の結果に基づいて、焦点候補の特徴量を抽出し、スコア算出部により、焦点候補の各々について、抽出された焦点候補の特徴量と、焦点らしさを表すスコアを推定するための予め学習された焦点推定モデルとに基づいて、焦点候補の焦点らしさを表すスコアを算出し、焦点候補選択部により、算出された焦点候補の各々のスコアと、予め定められた閾値とに基づいて、焦点候補の各々から、ユーザの発話の焦点を選択し、焦点更新部により、選択されたユーザの発話の焦点を用いて、ユーザの発話の焦点が格納される焦点リストを更新する。

このように、第１の発明及び第２の発明によれば、焦点候補の各々のスコアに基づいて選択されたユーザの発話の焦点を用いて、ユーザの発話の焦点を更新することにより、ユーザ発話の焦点を高精度に推定することができる。

第３の発明に係る焦点推定装置は、ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定する焦点推定装置において、入力された前記ユーザの発話に対する係り受け解析処理の結果と、前記ユーザの発話より前における前記発話が格納されている発話履歴、及び前記ユーザの発話より前における前記発話の焦点が格納された焦点リストの少なくとも一方とに基づいて、前記発話履歴に格納されている前記発話に含まれる名詞句、及び前記焦点リストに格納されている焦点の少なくとも一方から、前記ユーザの発話に含まれる参照表現が参照している、又は前記ユーザの発話において省略されている名詞句及び焦点の少なくとも一方を推定する照応解析部と、前記入力された前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果の少なくとも一方に基づいて、前記ユーザの発話から少なくとも１つの単語からなる名詞句及び固有表現の少なくとも一方を前記発話の焦点候補として抽出する焦点候補抽出部と、前記焦点候補抽出部により抽出された焦点候補の各々について、前記ユーザの発話に対する形態素解析処理の結果に基づいて、前記焦点候補の特徴量を抽出する特徴量抽出部と、前記焦点候補の各々について、前記特徴量抽出部により抽出された前記焦点候補の特徴量と、焦点らしさを表すスコアを推定するための予め学習された焦点推定モデルとに基づいて、前記焦点候補の焦点らしさを表すスコアを算出するスコア算出部と、前記スコア算出部により算出された前記焦点候補の各々の前記スコアと、予め定められた閾値とに基づいて、前記焦点候補の各々から、前記ユーザの発話の焦点を選択する焦点候補選択部と、前記焦点候補選択部により選択された前記ユーザの発話の焦点と、前記照応解析部により推定された名詞句及び焦点の少なくとも一方とを用いて、前記焦点リストを更新する焦点更新部と、を含んで構成されている。

第４の発明に係る焦点推定方法は、照応解析部と、焦点候補抽出部と、特徴量抽出部と、スコア算出部と、焦点候補選択部と、焦点更新部と、を含む、ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定する焦点推定装置における焦点推定方法であって、前記照応解析部は、入力された前記ユーザの発話に対する係り受け解析処理の結果と、前記ユーザの発話より前における前記発話が格納されている発話履歴、及び前記ユーザの発話より前における前記発話の焦点が格納された焦点リストの少なくとも一方とに基づいて、前記発話履歴に格納されている前記発話に含まれる名詞句、及び前記焦点リストに格納されている焦点の少なくとも一方から、前記ユーザの発話に含まれる参照表現が参照している、又は前記ユーザの発話において省略されている名詞句及び焦点の少なくとも一方を推定し、前記焦点候補抽出部は、前記入力された前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果の少なくとも一方に基づいて、前記ユーザの発話から少なくとも１つの単語からなる名詞句及び固有表現の少なくとも一方を前記発話の焦点候補として抽出し、前記特徴量抽出部は、前記焦点候補抽出部により抽出された焦点候補の各々について、前記ユーザの発話に対する形態素解析処理の結果に基づいて、前記焦点候補の特徴量を抽出し、前記スコア算出部は、前記焦点候補の各々について、前記特徴量抽出部により抽出された前記焦点候補の特徴量と、焦点らしさを表すスコアを推定するための予め学習された焦点推定モデルとに基づいて、前記焦点候補の焦点らしさを表すスコアを算出し、前記焦点候補選択部は、前記スコア算出部により算出された前記焦点候補の各々の前記スコアと、予め定められた閾値とに基づいて、前記焦点候補の各々から、前記ユーザの発話の焦点を選択し、前記焦点更新部は、前記焦点候補選択部により選択された前記ユーザの発話の焦点と、前記照応解析部により推定された名詞句及び焦点の少なくとも一方とを用いて、前記焦点リストを更新する。

第３の発明及び第４の発明によれば、照応解析部により、入力されたユーザの発話に対する係り受け解析処理の結果と、ユーザの発話より前における発話が格納されている発話履歴、及びユーザの発話より前における発話の焦点が格納された焦点リストの少なくとも一方とに基づいて、発話履歴に格納されている発話に含まれる名詞句、及び焦点リストに格納されている焦点の少なくとも一方から、ユーザの発話に含まれる参照表現が参照している、又はユーザの発話において省略されている名詞句及び焦点の少なくとも一方を推定し、焦点候補抽出部により、ユーザの発話から少なくとも１つの単語からなる名詞句及び固有表現の少なくとも一方を発話の焦点候補として抽出し、特徴量抽出部により、抽出された焦点候補の各々について、特徴量を抽出し、スコア算出部により、焦点候補の各々について、抽出された特徴量と、予め学習された焦点推定モデルとに基づいて、焦点候補の焦点らしさを表すスコアを算出し、焦点候補選択部により、焦点候補の各々のスコアと、予め定められた閾値とにもとづいて、焦点候補の各々から、ユーザの発話の焦点を選択し、焦点更新部により、選択されたユーザの発話の焦点と、推定された名詞句及び焦点の少なくとも一方とを用いて、焦点リストを更新する。

このように、第３の発明及び第４の発明によれば、推定されたユーザの発話に含まれる参照表現が参照している、又はユーザの発話において省略されている名詞句及び焦点の少なくとも一方を用いて焦点を更新することにより、高精度に焦点を推定することができる。

また、第３及び第４の発明では、前記焦点更新部は、前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定された場合に、前記焦点候補選択部により選択された前記ユーザの発話の焦点と、前記照応解析部により推定された名詞句及び焦点の少なくとも一方とを用いて、前記焦点リストを更新し、前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定されなかった場合に、前記焦点候補選択部により選択された前記ユーザの発話の焦点を用いて、前記焦点リストを更新してもよい。また、第３及び第４の発明では、前記焦点候補選択部は、更に前記選択した前記ユーザの発話の焦点を、前記発話の焦点候補を前記スコア順に並べて格納した焦点候補リストに追加し、前記照応解析部は、更に前記推定した前記ユーザの発話に含まれる参照表現が参照している、又は前記ユーザの発話において省略されている名詞句及び焦点の少なくとも一方をゼロ代名詞リストに格納し、前記焦点更新部は、前記焦点候補リストが空であり、かつ、前記ゼロ代名詞リストが空である場合、前記焦点リストを更新せず、前記焦点候補リストが空でない場合、又は、前記ゼロ代名詞リストが空でない場合、前記ゼロ代名詞リストの末尾に、前記焦点候補リストに含まれる要素であって、かつ、前記ゼロ代名詞リストに含まれない要素を、前記焦点候補リストに含まれる順番で結合したリストを、前記焦点リストとして更新し、前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定されず、かつ、前記焦点候補リストが空である場合、前記焦点リストを更新せず、前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定されず、かつ、前記焦点候補リストが空でない場合、前記焦点候補リストを前記焦点リストとして更新してもよい。

また、第３及び第４の発明では、前記照応解析部は、前記発話履歴に格納されている前記発話に含まれる名詞句、及び前記焦点リストに格納されている焦点の少なくとも一方の各々について、前記名詞句及び焦点の少なくとも一方が、テキストコーパスに含まれる述語の各々のゼロ代名詞を伴う格の格要素となる確率を算出することにより、前記推定した前記ユーザの発話に含まれる参照表現が参照している、又は前記ユーザの発話において省略されている名詞句及び焦点の少なくとも一方を推定し、更に、前記推定された名詞句及び焦点の少なくとも一方を、予め定められた格の順位に従って並べ替えてもよい。また、第１〜第４の発明では、前記焦点候補抽出部は、前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果に基づいて、前記ユーザの発話から少なくとも１つの単語からなる名詞句及び固有表現を前記発話の焦点候補として抽出してもよい。

第５の発明に係るモデル学習装置は、ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定するための焦点推定モデルを学習するモデル学習装置において、複数の文と、前記複数の文に含まれる少なくとも１つの単語からなる名詞句及び固有表現の少なくとも一方である焦点候補の各々に対して付与された、前記焦点候補の焦点らしさを表すスコアとを受け付ける入力部と、前記入力部において受け付けた前記スコアが付与された前記焦点候補の各々について、前記焦点候補を含む文に対する形態素解析処理の結果に基づいて、前記焦点候補が文頭にあるか否か、前記焦点候補が文末にあるか否か、前記焦点候補の品詞に固有名詞又は未知語が含まれるか否か、前記焦点候補の品詞に動作性名詞が含まれるか否か、前記焦点候補の品詞に形容動詞が含まれるか否か、前記焦点候補の文字数、前記焦点候補の文字種が全てひらがなである場合におけるひらがなの文字数、前記焦点候補の文字種が全てカタカナである場合におけるカタカナの文字数、前記焦点候補の文字種が全て漢字である場合における漢字の文字数、前記焦点候補の直前の単語のＮ−ｇｒａｍ、前記焦点候補の直前の品詞のＮ−ｇｒａｍ、前記焦点候補の直後の単語のＮ−ｇｒａｍ、及び前記焦点候補の直後の品詞のＮ−ｇｒａｍの少なくとも１つを表す素性からなる特徴量を抽出する特徴量抽出部と、前記特徴量抽出部において抽出された前記焦点候補の各々の特徴量と、前記焦点候補の各々に付与された前記スコアとに基づいて、焦点らしさを表すスコアを推定するための焦点推定モデルを学習するモデル学習部と、を含んで構成されている。また、第６の発明に係るモデル学習方法は、入力部と、特徴量抽出部と、モデル学習部と、を含む、ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定するための焦点推定モデルを学習するモデル学習装置におけるモデル学習方法であって、前記入力部は、複数の文と、前記複数の文に含まれる少なくとも１つの単語からなる名詞句及び固有表現の少なくとも一方である焦点候補の各々に対して付与された、前記焦点候補の焦点らしさを表すスコアとを受け付け、前記特徴量抽出部は、前記入力部において受け付けた前記スコアが付与された前記焦点候補の各々について、前記焦点候補を含む文に対する形態素解析処理の結果に基づいて、前記焦点候補が文頭にあるか否か、前記焦点候補が文末にあるか否か、前記焦点候補の品詞に固有名詞又は未知語が含まれるか否か、前記焦点候補の品詞に動作性名詞が含まれるか否か、前記焦点候補の品詞に形容動詞が含まれるか否か、前記焦点候補の文字数、前記焦点候補の文字種が全てひらがなである場合におけるひらがなの文字数、前記焦点候補の文字種が全てカタカナである場合におけるカタカナの文字数、前記焦点候補の文字種が全て漢字である場合における漢字の文字数、前記焦点候補の直前の単語のＮ−ｇｒａｍ、前記焦点候補の直前の品詞のＮ−ｇｒａｍ、前記焦点候補の直後の単語のＮ−ｇｒａｍ、及び前記焦点候補の直後の品詞のＮ−ｇｒａｍの少なくとも１つを表す素性からなる特徴量を抽出し、前記モデル学習部は、前記特徴量抽出部において抽出された前記焦点候補の各々の特徴量と、前記焦点候補の各々に付与された前記スコアとに基づいて、焦点らしさを表すスコアを推定するための焦点推定モデルを学習する。

第５及び第６の発明によれば、入力部により、複数の文と、前記複数の文に含まれる少なくとも１つの単語からなる焦点候補の各々に対して付与された、前記焦点候補の焦点らしさを表すスコアとを受け付け、特徴量抽出部により、スコアが付与された焦点候補の各々について、焦点候補を含む文に対する形態素解析処理の結果に基づいて、複数の素性からなる特徴量を抽出し、学習部により、抽出された特徴量と、焦点候補の各々に付与されたスコアとに基づいて、焦点らしさを表すスコアを推定するための焦点推定モデルを学習する。

このように、第５の発明によれば、焦点候補の各々の素性からなる特徴量と、焦点候補の各々に付与されたスコアとに基づいて、焦点を高精度に推定するための焦点推定モデルを学習することができる。また、第５及び第６の発明では、前記入力部は、前記複数の文と、前記複数の文に含まれる少なくとも１つの単語からなる名詞句及び固有表現である前記焦点候補の各々に対して付与された、前記焦点候補の焦点らしさを表すスコアとを受け付け、前記特徴量抽出部は、前記入力部において受け付けた前記スコアが付与された前記焦点候補の各々について、前記焦点候補を含む文に対する形態素解析処理の結果及び固有表現抽出処理の結果に基づいて、前記焦点候補が文頭にあるか否か、前記焦点候補が文末にあるか否か、前記焦点候補の品詞に固有名詞又は未知語が含まれるか否か、前記焦点候補の品詞に動作性名詞が含まれるか否か、前記焦点候補の品詞に形容動詞が含まれるか否か、前記焦点候補の文字数、前記焦点候補の文字種が全てひらがなである場合におけるひらがなの文字数、前記焦点候補の文字種が全てカタカナである場合におけるカタカナの文字数、前記焦点候補の文字種が全て漢字である場合における漢字の文字数、前記焦点候補の直前の単語のＮ−ｇｒａｍ、前記焦点候補の直前の品詞のＮ−ｇｒａｍ、前記焦点候補の直後の単語のＮ−ｇｒａｍ、及び前記焦点候補の直後の品詞のＮ−ｇｒａｍの少なくとも１つを表す素性からなる特徴量を抽出してもよい。

また、本発明のプログラムは、コンピュータを、上記の焦点推定装置又はモデル学習装置を構成する各部として機能させるためのプログラムである。

以上説明したように、本発明の焦点推定装置、方法、及びプログラムによれば、ユーザ発話の焦点を高精度に推定することができる。

また、本発明のモデル学習装置によれば、ユーザ発話の焦点を高精度に推定するための焦点推定モデルを学習することができる。

本発明の第１の実施の形態に係る焦点推定装置の機能的構成を示すブロック図である。ＪＴＡＧによる形態素解析処理結果及び固有表現辞書で拡張したＪＴＡＧによる固有表現抽出処理結果の例を示す図である。焦点推定モデルを用いてスコアを算出した例を示す図である。本発明の第１の実施の形態に係る焦点推定モデル学習装置の機能的構成を示すブロック図である。学習データの例を示す図である。本発明の第１の実施の形態に係る焦点推定モデル学習装置における焦点推定モデル学習処理ルーチンを示すフローチャート図である。本発明の第１の実施の形態に係る焦点推定装置における焦点推定処理ルーチンを示す図である。対話例を示す図である。本発明の第２の実施の形態に係る焦点推定装置の機能的構成を示すブロック図である。本発明の第３の実施の形態に係る焦点推定装置の機能的構成を示すブロック図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜発明の原理＞
本実施の形態においては、発話から適切な順番で焦点となる単語を抽出するために機械学習の手法を用いる。具体的には、多くの文の集合を用意し、それぞれの中から名詞句を抽出する。そして、その名詞句について焦点としてふさわしいかという度合いを人手によって付与したデータを作成する。

そして、このデータから、文中の名詞句について、焦点としてふさわしいかを数値化するモデルを作成することができる。このモデルを用いると、未知の文に含まれる名詞句について、このモデルに照らし合わせることで、焦点としてのふさわしさを付与することができ、複数の名詞句がある場合においても、また、格助詞の脱落がある場合であっても、適切に序列をつけることができる。

さらに、省略への対応として、発話について照応解析を行い、省略された名詞句を検出し、焦点推定に用いる。照応解析とは、文中の省略された要素を検出する処理を指す。照応解析を行うことで省略された話題が検出でき、適切に焦点を推定することができる。

＜第１の実施の形態に係る焦点推定装置の構成＞
次に、本発明の第１の実施の形態に係る焦点推定装置の構成について説明する。図１に示すように、本発明の第１の実施の形態に係る焦点推定装置１００は、ＣＰＵとＲＡＭと後述する焦点更新処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この焦点推定装置１００は、機能的には図１に示すように入力部１０と、演算部２０と、出力部５０とを備えている。

入力部１０は、ユーザの発話からなるユーザ発話を受け付ける。

演算部２０は、ユーザ発話解析部２２と、焦点候補抽出部２４と、特徴量抽出部２６と、焦点推定モデル記憶部２８と、スコア算出部３０と、焦点候補選択部３２と、テキストコーパス記憶部３４と、必須格定義記憶部３６と、照応解析部３８と、焦点更新部４０と、焦点リスト記憶部４２とを備えている。

ユーザ発話解析部２２は、入力部１０において受け付けたユーザ発話について、形態素解析及び固有表現抽出を行い、形態素解析処理結果及び固有表現抽出処理結果を焦点候補抽出部２４に出力する。第１の実施の形態においては、形態素解析器としてＪＴＡＧを用いる（非特許文献４：Takeshi Fuchi, Shinichiro Takagi:Japanese morphological analyzer using word co-occurrence:JTAG,Proc of the 36th ACL and 17th COLING, pp.409-413 (1998).）。また、独自の固有表現辞書（非特許文献５：Ryuichiro Higashinaka, Kugatsu Sadamitsu, Kuniko Saito, Toshiro Makino, Yoshihiro Matsuo, Creating an Extended Named Entity Dictionary from Wikipedia, Proc. COLING, pp. 1163-1178, 2012.）で拡張することで固有表現抽出を行えるようにしたＪＴＡＧも併せて用いる。

図２に、「アメリカのオバマ大統領が日本に外遊するんだって」というユーザ発話を形態素解析した結果を示す。図２のＪＴＡＧの解析結果におけるカラムは、単語そのもの、品詞、標準表記、読み、日本語語彙大系に示される意味属性番号である。ＥＯＳは文末を意味する記号である。図２に示すように、固有表現辞書で拡張したＪＴＡＧの出力結果では、ＪＴＡＧの解析結果に加えて最後のカラムに、該当単語が固有表現であれば固有表現ラベルが付与される。上記図２の出力結果においては、「オバマ大統領」に「Ｐｅｒｓｏｎ」という固有表現ラベルが付与されている。

焦点候補抽出部２４は、ユーザ発話解析部２２から入力される形態素解析処理結果及び固有表現抽出処理結果を受け取り、少なくとも１つの単語からなる焦点候補を抽出する。具体的には、形態素解析処理結果から品詞が名詞である単語を連結した名詞句（名詞連続）を、焦点候補として抽出し、固有表現抽出処理結果から固有表現を焦点候補として抽出する。なお、抽出される焦点候補が複数存在する場合には、全ての焦点候補を抽出する。

特徴量抽出部２６は、ユーザ発話解析部２２から入力される形態素解析処理結果と、焦点候補抽出部２４において抽出された当該ユーザ発話の焦点候補の各々とに基づいて、焦点候補の各々について、焦点候補自身に関する素性と、焦点候補の前後に位置する単語系列に関する素性とを含む当該焦点候補の特徴量を抽出する。具体的には、下記（１）〜（１３）に示す素性を抽出し、当該焦点候補の特徴量とする。

（１）焦点候補が文頭にあるか否かを表す二値素性
（２）焦点候補が文末にあるか否かを表す二値素性
（３）焦点候補の品詞に固有名詞もしくは未知語が含まれるか否かを表す二値素性
（４）焦点候補の品詞に動作性名詞（いわゆるサ変接続の名詞）が含まれるか否かを表す二値素性
（５）焦点候補の品詞に形容動詞が含まれるか否かを表す二値素性
（６）焦点候補の文字数の数値の素性
（７）焦点候補の文字種がすべてひらがなの場合、何文字のひらがなかを表す数値の素性
（８）焦点候補の文字種がすべてカタカナの場合、何文字のカタカナかを表す数値の素性
（９）焦点候補の文字種がすべて漢字の場合、何文字の漢字かを表す数値の素性
（１０）焦点候補の直前の単語のN-gramについて、単語のN-gramのそれぞれの存在有無を表す二値素性
（１１）焦点候補の直前の品詞のN-gramについて、品詞のN-gramのそれぞれの存在有無を表す二値素性
（１２）焦点候補の直後の単語のN-gramについて、単語のN-gramのそれぞれの存在有無を表す二値素性
（１３）焦点候補の直後の品詞のN-gramについて、品詞のN-gramのそれぞれの存在有無を表す二値素性

なお、上記（１０）及び（１２）の素性については、学習データにおける焦点の直前又は直後に出現する単語のN-gramを予め求めておき、当該単語のN-gramの各々が存在するか否かを表す素性である。また、上記（１１）及び（１３）の素性については、学習データにおける焦点の直前又は直後に出現する品詞のN-gramを予め求めておき、当該品詞のN-gramの各々が存在するか否かを表す素性である。

焦点推定モデル記憶部２８は、後述する焦点推定モデル学習装置２００において学習された焦点推定モデルが記憶されている。

スコア算出部３０は、特徴量抽出部２６において抽出された焦点候補の各々の特徴量と、焦点推定モデル記憶部２８に記憶されている焦点推定モデルとに基づいて、焦点候補の各々について、当該焦点候補の焦点としてのふさわしさを表すスコアを求め、求められたスコアの数値が高い順に焦点候補を並び替える。具体的には、ロジスティック回帰分析の手法を用いて０〜１のレンジのスコアを求める。例えば、図３に示すような、複数の文、及び当該文の焦点候補とスコアの関係が得られる。上記図３の例の場合、文番号５の文の焦点候補とスコアの関係は、「大島優子：0.807618、ダンス：0.620161」となり、焦点候補である大島優子、焦点候補であるダンスの順で焦点としてふさわしいことを表している。そのため、この場合、大島優子、ダンスの順番を保持する。なお、特徴量からスコアを求めることができれば別の手法を用いてもよい。例えば、サポートベクトルマシンで境界平面からの距離をスコアとして用いてもよい。

焦点候補選択部３２は、焦点候補の各々について、スコア算出部３０により算出された当該焦点候補のスコアに基づいて、焦点候補リストに追加する焦点候補か、棄却する焦点候補かを選択する。そして、追加する焦点候補として選択された焦点候補を、スコア順にまとめて焦点候補リスト（cands）とする。

具体的には、予め閾値（例えば０．１）を定めておき、焦点候補のスコアが閾値よりも低い場合には、当該焦点候補は、焦点としてのふさわしさが低いとして棄却される。一方、焦点候補のスコアが閾値以上である場合には、当該焦点候補は、焦点としてふさわしいとして、焦点候補リストに追加する焦点候補として選択される。そして、焦点候補リストに追加する焦点候補として選択された焦点候補を、スコア順にまとめて焦点候補リスト（cands）とする。また、焦点として用いたくない焦点候補について除外リストを準備しておき、除外リストに含まれる焦点候補であれば、棄却する焦点候補として選択するようにしてもよい。

テキストコーパス記憶部３４は、複数の自然言語の文書から構成されるコーパスを記憶している。例えば、コーパスとして、ネットワークを介して取得される新聞記事の集合やブログデータの集合を用いればよい。

必須格定義記憶部３６は、特定の述語（動詞、形容詞、事態性名詞）の各々に対応する必須格が記憶されている。ここで、必須格とは、述語が格要素として持つべき格のことであり、例えば、「会う」であれば「ガ格」と「ニ格」である。本実施の形態においては、人手で定義した特定の述語に対応する必須格を用いるが、大量のテキストデータを解析し、述語と同時に現れる格の頻度から一定の頻度以上現れるものを選択することで定義された必須格を用いてもよい。

照応解析部３８は、ユーザ発話解析部２２から入力される形態素解析処理の結果について、照応解析を行う。ここで、照応解析とは、ユーザ発話に含まれる参照表現が何を指すか同定したり、省略された名詞句（全体として名詞とみなされる単語列、特に、主辞が名詞である単語列）を補完したりする処理を行う。本実施の形態では、名詞句を補完する処理を行う。当該処理は特に、ゼロ代名詞解消処理という。ゼロ代名詞解消処理は、対象となるユーザ発話に含まれる述語の必須格を調べ、当該必須格が当該ユーザ発話内に存在しない場合に、その必須格を文脈に現れる名詞句から探す。例えば、焦点リスト記憶部４２に記憶されている焦点リストに格納されている単語（名詞連続や固有表現、以降、これらも集合的に名詞句と呼ぶ）を各々抽出し、対象となっているユーザ発話内に含まれる述語について、その名詞句がその必須格を埋める確率を、テキストコーパス記憶部３４に記憶されているテキストコーパスに基づいて計算することで、省略されている必須格を推定する（非特許文献６：関和広，藤井敦，石川徹也，確率モデルを用いた日本語ゼロ代名詞の照応解析，自然言語処理，vol.9, no.3, pp.63-85, 2002．）。

以下に、照応解析部３８の具体的な処理について説明する。照応解析部３８は、まず、ユーザ発話解析部２２から入力された形態素解析処理結果について、係り受け解析を行う。具体的には、ユーザ発話についての形態素解析結果を文節に区切り、文節間の係り受け構造を同定する。係り受け構造を同定することにより、文の述語と格要素を同定する。例えば、「太郎が花子に会う」であれば、「太郎が」「花子に」「会う」がそれぞれ文節であり、「太郎が」が「会う」にそれぞれ係っている。「会う」が述語であり、その係っている文節から、ガ格の要素が「太郎」であり、ニ格の要素が「花子」であるとわかる。

次に、同定された述語の各々について、当該述語に対応する必須格の各々を必須格定義記憶部３６に記憶されている必須格定義から取得し、当該述語に対応する必須格の各々が、当該ユーザ発話内に存在するか否かを判断する。ここで、当該述語に対応する必須格の全てがユーザ発話内に存在する場合には、当該述語についてゼロ代名詞解消処理は行われない。

次に、当該述語に対応する必須格のうち少なくとも１つの必須格が当該ユーザ発話内に存在しない場合、当該存在しない必須格の各々をゼロ代名詞を伴う格として認定する。そして、焦点リスト記憶部４２に記憶されている焦点リストから、名詞句の各々を抽出する。

次に、当該述語に対して認定されたゼロ代名詞を伴う格の各々について、抽出された名詞句毎に、テキストコーパス記憶部３４に記憶されているテキストコーパスに基づいて、名詞句が当該述語のゼロ代名詞を伴う格の格要素となる確率（すなわち、Ｐ（名詞句｜述語、格））を算出し、算出された確率のうち最も確率が高い名詞句を、当該ゼロ代名詞が指す名詞句の探索結果とする。ただし、確率が予め定められた値よりも低い場合には、ゼロ代名詞が指す名詞句が探索されなかったと判断する。

ユーザ発話から同定された述語の各々について、上記のようにゼロ代名詞が指す名詞句が探索されると、ユーザ発話の述語の各々のゼロ代名詞の各々が指す名詞句をまとめて、ゼロ代名詞が指す名詞句のリスト（zeros）を生成し、焦点更新部４０に出力する。

このとき、ユーザ発話の述語の各々のゼロ代名詞が指す名詞句が、同一文内に複数ある場合は、出現順、もしくは、対応する格（格助詞によってあらわされる）に応じて予め設定された順序に従って、ユーザ発話の述語の各々のゼロ代名詞が指す名詞句を並び替えて、ゼロ代名詞が指す名詞句のリスト（zeros）に格納する。例えば、ヲ格、ニ格、ガ格、デ格、ト格、カラ格、マデ格の順で並び替える。

ゼロ代名詞の参照する名詞句は話者にとって発話する必要がないと感じているほど、対話における話題の中心になっている名詞句だと考えられ、焦点を更新するために考慮する必要がある。

そこで、焦点更新部４０は、焦点候補選択部３２から入力される焦点候補リスト（cands）と、照応解析部３８から入力されるゼロ代名詞が指す名詞句のリスト（zeros）と、焦点リスト記憶部４２に記憶されている更新前の焦点リスト（centers）とに基づいて、焦点リスト記憶部４２に記憶されている焦点リストを更新する。具体的には、ゼロ代名詞解消を行わない場合と、ゼロ代名詞解消を行った場合に分けて以下の規則により焦点リストを更新する。なお、ゼロ代名詞解消を行わない場合には、照応解析部３８からゼロ代名詞が指す名詞句のリスト（zeros）は入力されない。

＜ゼロ代名詞解消を行う場合＞
・焦点候補リスト（cands）が空、かつ、ゼロ代名詞が指す名詞句のリスト（zeros）が空の場合、更新前の焦点リスト（centers）を返す（焦点リストを更新しない）。
・焦点候補リスト（cands）が空でない、または、ゼロ代名詞が指す名詞句のリスト（zeros）が空でない場合、ゼロ代名詞が指す名詞句のリスト（zeros）と、焦点候補リスト（cands）とを結合し、結合したリストで、焦点リスト記憶部４２に記憶されている焦点リストを更新する。なお、結合するゼロ代名詞が指す名詞句のリスト（zeros）と、焦点候補リスト（cands）とに重複した要素がある場合、リストの先頭の方のみを残すように結合する。例えば、ゼロ代名詞が指す名詞句のリスト（zeros）が（Ａ，Ｂ）であり、焦点候補リスト（cands）が（Ｂ，Ａ，Ｃ）である場合、結合した結果は、（Ａ，Ｂ，Ｃ）というリストとなる。

＜ゼロ代名詞解消を行わない場合＞
・焦点候補リスト（cands）が空の場合、更新前の焦点リスト（centers）を返す（焦点リストを更新しない）。
・焦点候補リスト（cands）が空でない場合、焦点候補リスト（cands）を新しい焦点リストとして、焦点リスト記憶部４２に記憶されている焦点リストを更新する。

＜第１の実施の形態に係る焦点推定モデル学習装置の構成＞
次に、本発明の第１の実施の形態に係る焦点推定モデル学習装置の構成について説明する。図４に示すように、本発明の第１の実施の形態に係る焦点推定モデル学習装置２００は、ＣＰＵとＲＡＭと後述する焦点推定モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この焦点推定モデル学習装置２００は、機能的には図４に示すように入力部２１０と、演算部２２０と、出力部２５０とを備えている。なお、焦点推定モデル学習装置がモデル学習装置の一例である。

入力部２１０は、文から抽出された焦点候補と、人手で当該焦点候補に与えられた焦点らしさを表すスコアとのペアが付与された複数の文を、学習データとして受け付ける。図５に学習データの例を示す。なお、学習データにおける焦点候補は、焦点推定装置１００と同様に抽出すればよく、本実施の形態では、１文に１つ抽出するものとし、１文から、複数の焦点候補が抽出された場合には、１つの焦点候補を選択する。焦点候補の１つを選択する方法としては、ランダムでもよいし、文中の出現順や焦点候補に後続する格助詞に基づいて選んでもよい。

学習データ記憶部２２２は、入力部２１０において受け付けた学習データを記憶している。

特徴量抽出部２２４は、焦点推定装置１００の特徴量抽出部２６と同様の特徴量を、入力部２１０において受け付けた学習データの焦点候補の各々について抽出する。

モデル学習部２２６は、学習データの焦点候補の各々について抽出された特徴量と、焦点候補の各々に与えられたスコアとに基づいて、焦点推定モデルを学習する。例えば、学習データの焦点候補の各々について、焦点らしさのスコアが３点以上である焦点候補を正例、２点以下の焦点候補を負例として、焦点候補の特徴量から正例、負例を判定する焦点推定モデルを、ロジスティック回帰分析の手法により求める。ロジスティック回帰分析は、特徴量の各素性についての重みを求めることができ、この重みの集合を焦点推定モデルとして学習し、焦点推定モデル記憶部２２８に記憶するとともに、出力部２５０へ出力する。

焦点推定モデル記憶部２２８は、モデル学習部２２６において学習された焦点推定モデルを記憶している。

＜第１の実施の形態に係る焦点推定モデル学習装置の作用＞
次に、本発明の第１の実施の形態に係る焦点推定モデル学習装置２００の作用について説明する。入力部１０により学習データを受け付け、学習データ記憶部２２２に記憶されると、焦点推定モデル学習装置２００は、図６に示す焦点推定モデル学習処理ルーチンを実行する。

まず、ステップＳ１００では、学習データ記憶部２２２に記憶されている学習データを読み込む。

次に、ステップＳ１０２では、ステップＳ１００において取得した学習データの焦点候補の各々について、上記（１）〜（１３）の素性からなる特徴量を抽出する。

次に、ステップＳ１０４では、ステップＳ１００において取得した学習データの焦点候補の各々に与えられたスコアと、ステップＳ１０２において取得した学習データの焦点候補の各々の特徴量とに基づいて、焦点推定モデルを学習する。

次に、ステップＳ１０６では、ステップＳ１０４において取得した焦点推定モデルを出力部２５０に出力するとともに、焦点推定モデル記憶部２２８に記憶し、処理を終了する。

＜第１の実施の形態に係る焦点推定装置の作用＞
次に、本発明の第１の実施の形態に係る焦点推定装置１００の作用について説明する。事前に、焦点推定モデル学習装置２００において学習された焦点推定モデルが焦点推定モデル記憶部２８に記憶されている。そして、入力部１０によりユーザ発話を受け付ける毎に、焦点推定装置１００は、図７に示す焦点推定処理ルーチンを繰り返し実行する。

まず、ステップＳ２００では、入力部１０において受け付けたユーザ発話を読み込む。次に、ステップＳ２０２では、焦点推定モデル記憶部２８に記憶されている焦点推定モデルを読み込む。次に、ステップＳ２０４では、テキストコーパス記憶部３４に記憶されているテキストコーパスを読み込む。次に、ステップＳ２０６では、必須格定義記憶部３６に記憶されている必須格定義を読み込む。次に、ステップＳ２０８では、焦点リスト記憶部４２に記憶されている焦点リストを読み込む。

次に、ステップＳ２１０では、ステップＳ２００において取得したユーザ発話について、形態素解析及び固有表現抽出を行う。

次に、ステップＳ２１２では、ステップＳ２１０において取得した形態素解析処理結果及び固有表現抽出処理結果に基づいて、焦点候補を抽出する。

次に、ステップＳ２１４では、ステップＳ２１０において取得した形態素解析処理結果と、ステップＳ２１２において取得した焦点候補の各々とに基づいて、焦点候補の各々について上記（１）〜（１３）の素性からなる特徴量を抽出する。

次に、ステップＳ２１６では、ステップＳ２１２において取得した焦点候補の各々の特徴量と、ステップＳ２０２において取得した焦点推定モデルとに基づいて、焦点候補の各々について、焦点としてのふさわしさを表すスコアを算出する。

次に、ステップＳ２１８では、ステップＳ２１６において取得した焦点候補の各々の焦点としてのふさわしさを表すスコアと、予め定められた閾値とに基づいて、スコアが閾値以上となる焦点候補を焦点候補リストに追加する焦点候補として選択すると共に、スコアが閾値未満となる焦点候補を棄却し、選択した焦点候補の各々を格納した焦点候補リスト（cands）を作成する。

次に、ステップＳ２２０では、ステップＳ２１０において取得した形態素解析処理済みのユーザ発話について、係り受け解析を行い、ユーザ発話の述語と格要素を同定する。

次に、ステップＳ２２２では、ステップＳ２２０において取得したユーザ発話の述語の各々について、当該述語に対応する必須格をステップＳ２０６において取得した必須格定義から取得する。

次に、ステップＳ２２４では、ステップＳ２２２において取得した処理対象となる述語に対応する必須格の全てが、ステップＳ２００において取得したユーザ発話内に存在するか否かの判定を行う。当該述語に対応する必須格の全てがユーザ発話内に存在する場合には、ステップＳ２３０へ移行し、当該述語に対応する必須格のうち少なくとも１つがユーザ発話内に存在しない場合には、存在しない必須格の各々をゼロ代名詞を伴う格として認定しステップＳ２２６へ移行する。

次に、ステップＳ２２６では、ステップＳ２０８において取得した焦点リストから名詞句の各々を抽出し、ステップＳ２２０において取得した処理対象となる述語と、ステップＳ２２４において認定したゼロ代名詞を伴う格のうちの処理対象となるゼロ代名詞を伴う格と、抽出した名詞句の各々とに基づいて、名詞句が当該述語のゼロ代名詞を伴う格の格要素となる確率（すなわち、Ｐ（名詞句｜述語、格））を算出し、算出された確率のうち最も確率が高い名詞句を当該ゼロ代名詞が指す名詞句として推定する。ただし、確率が予め定められた値より低い場合いは、ゼロ代名詞が指す名詞句が探索されなかったと推定する。

次に、ステップＳ２２８では、処理対象の述語に対して認定された全てのゼロ代名詞を伴う格について、上記ステップＳ２２６の処理を終了したか否かの判定を行う。処理対象の述語に対して認定された全てのゼロ代名詞を伴う格について上記ステップＳ２２６の処理を終了している場合には、ステップＳ２３０へ移行し、処理対象の述語に対して認定された全てのゼロ代名詞を伴う格について上記ステップＳ２２６の処理を終了していない場合には、処理対象となるゼロ代名詞を伴う格を変更し、ステップＳ２２６へ移行する。

次に、ステップＳ２３０では、ステップＳ２２０において取得した全ての述語について上記ステップＳ２２４〜上記ステップＳ２２８の処理を終了したか否かの判定を行う。全ての述語について上記ステップＳ２２４〜上記ステップＳ２２８の処理を終了している場合には、ステップＳ２３２へ移行し、全ての述語について上記ステップＳ２２４〜上記ステップＳ２２８の処理を終了していない場合には、処理対象となる述語を変更しステップＳ２２４へ移行する。

次に、ステップＳ２３２では、ステップＳ２２６において取得したゼロ代名詞が指す名詞句の各々を格納した、ゼロ代名詞が指す名詞句のリスト（zeros）を作成する。

次に、ステップＳ２３４では、ステップＳ２０８において取得した焦点リスト（centers）と、ステップＳ２１８において取得した焦点候補リスト（cands）と、ステップＳ２３２において取得したゼロ代名詞が指す名詞句のリスト（zeros）とに基づいて、又は、ステップＳ２０８において取得した焦点リスト（centers）と、ステップＳ２１８において取得した焦点候補リスト（cands）とに基づいて、焦点リスト記憶部４２に記憶されている焦点リストを更新する。

ステップＳ２３６では、ステップＳ２３４において更新された焦点リストを出力部５０へ出力して処理を終了する。

＜実施例＞
焦点リスト記憶部４２に記憶されている焦点リストに「イタリア、パスタ」が格納されている場合において、「イタリアはパスタですよね」というシステム発話の後に、入力部１０においてユーザ発話「美味しい」を受け付けた場合、照応解析部３８により「パスタ」が省略されていると判定され、「パスタ」が焦点となる。システムが応答した後、入力部１０においてユーザ発話「パスタはアルデンテだよね」を受け付けると、「パスタ」及び「アルデンテ」の焦点としてのふさわしさを学習した焦点推定モデルを用いて、「パスタ」及び「アルデンテ」についてスコアを算出し、当該スコアを比較した結果「アルデンテ」のスコアの方が高いため、焦点リストを「アルデンテ、パスタ」と更新し、図８に示すように「アルデンテ」を用いたユーザ発話を生成している。

以上説明したように、本発明の第１の実施の形態に係る焦点推定装置によれば、ユーザ発話から抽出された発話の焦点候補と、ユーザ発話の省略した名詞句とに基づいて、ユーザの発話の焦点を高精度に推定することができる。

また、本発明の第１の実施の形態に係る焦点推定モデル学習装置によれば、焦点候補の各々の素性からなる特徴量と、焦点候補の各々に付与されたスコアとに基づいて、ユーザの発話の焦点を高精度に推定する焦点推定モデルを学習することができる。

また、焦点を適切にとらえることで、ユーザが話したい内容に沿った対話が可能な対話システムが実現でき、ユーザとシステムの会話をよりスムーズなものにすることができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

第１の実施の形態においては、学習データについての焦点候補を得る方法として、焦点推定モデルの焦点候補抽出部と同様の処理に基づいて焦点候補を抽出している場合について説明したが、これに限定されるものではない。例えば、形態素解析の結果から名詞と判断されたものを焦点候補として抽出してもよい。

また、第１の実施の形態においては、学習データの各文について、当該文に含まれる焦点候補のうち、一つの焦点候補を用いている場合について説明したが、これに限定されるものではい。例えば、学習データの各文について、当該文に含まれる焦点候補を複数抽出して、それぞれにスコアリングを行ってもよい。

また、第１の実施の形態においては、焦点推定モデルを学習する手法について、ロジスティック回帰分析を用いる場合について説明したが、これに限定されるものではない。例えば、サポートベクトルマシンや決定木を用いてもよい。

また、第１の実施の形態においては、照応解析として名詞句を補完する処理について行う場合について説明したが、これに限定されるものではない。例えば、照応解析として、ユーザ発話内の参照表現が何を指すかを同定してもよい。この場合には、ユーザ発話内の参照表現が指す１つ以上の単語からなる名詞句を用いて、焦点リストを更新すればよい。

また、第１の実施の形態においては、必須格を人手で定義した必須格定義を用いる場合について説明したが、これに限定されるものではない。例えば、大量のテキストデータを解析し、述語と同時に現れる格の頻度から一定の頻度以上現れるものを選択することで必須格を定義してもよい。

また、第１の実施の形態においては、焦点リストから抽出した名詞句の全てについて、名詞句が述語のゼロ代名詞を伴う格の格要素となる確率が予め定められた値よりも低い場合には、ゼロ代名詞が指す名詞句が探索されなかったと判断する場合について説明したが、これに限定されるものではない。例えば、焦点リストから抽出した名詞句の各々について上記の確率を算出すると共に、ゼロ代名詞が指す名詞句が存在しない確率を算出し、ゼロ代名詞が指す名詞句が存在しない確率が一番高い場合には、ゼロ代名詞が指す名詞句が存在しないと判断してもよい。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。

次に、第２の実施の形態について説明する。なお、第１の実施の形態と同様の構成及び作用となる部分については、同一符号を付して説明を省略する。

第２の実施の形態では、焦点リストに過去に入力された複数のユーザ発話の焦点も保持する点が第１の実施の形態と異なっている。

＜第２の実施の形態に係る焦点推定装置の構成＞
次に、第２の実施の形態に係る焦点推定装置３００の構成について説明する。

本発明の第２の実施の形態に係る焦点推定装置３００は、図９に示すように、入力部１０と、演算部３２０と、出力部５０とを備えている。

演算部２０は、ユーザ発話解析部２２と、焦点候補抽出部２４と、特徴量抽出部２６と、焦点推定モデル記憶部２８と、スコア算出部３０と、焦点候補選択部３２と、焦点更新部３４０と、テキストコーパス記憶部３４と、必須格定義記憶部３６と、照応解析部３８と、焦点リスト記憶部３４２とを備えている。

焦点リスト記憶部３４２は、過去に入力された複数のユーザ発話の各々について推定された焦点の各々を格納している焦点リストを記憶している。

焦点更新部３４０は、焦点候補選択部３２から入力される焦点候補リスト（cands）と、照応解析部３８から入力されるゼロ代名詞が指す名詞句のリスト（zeros）と、焦点リスト記憶部４２に記憶されている更新前の焦点リスト（centers）とに基づいて、焦点リスト記憶部４２に記憶されている焦点リストを更新する。具体的には、ゼロ代名詞解消を行わない場合と、ゼロ代名詞解消を行った場合に分けて以下の規則により焦点リストを更新する。なお、ゼロ代名詞解消を行わない場合には、照応解析部３８からゼロ代名詞が指す名詞句のリスト（zeros）は入力されない。

＜ゼロ代名詞解消を行う場合＞
・焦点候補リスト（cands）が空、かつ、ゼロ代名詞が指す名詞句のリスト（zeros）が空の場合、更新前の焦点リスト（centers）を返す（焦点リストを更新しない）。
・焦点候補リスト（cands）が空でない、または、ゼロ代名詞が指す名詞句のリスト（zeros）が空でない場合、ゼロ代名詞が指す名詞句のリスト（zeros）と、焦点候補リスト（cands）と、更新前の焦点リスト（centers）とを結合し、結合したリストで、焦点リスト記憶部４２に記憶されている焦点リストを更新する。なお、結合した結果に重複した要素がある場合、リストの先頭の方のみを残すように結合する。

＜ゼロ代名詞解消を行わない場合＞
・焦点候補リスト（cands）が空の場合、更新前の焦点リスト（centers）を返す（焦点リストを更新しない）。
・焦点候補リスト（cands）が空でない場合、焦点候補リスト（cands）と更新前の焦点リスト（centers）とを結合し、結合したリストで、焦点リスト記憶部４２に記憶されている焦点リストを更新する。

なお、第２の実施の形態に係る焦点推定装置の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

以上説明したように、本発明の第２の実施の形態に係る焦点推定装置によれば、ユーザ発話から抽出された発話の焦点候補と、複数の過去のユーザ発話の焦点から抽出した、ユーザ発話の省略した名詞句とに基づいて、ユーザの発話の焦点を高精度に推定することができる。

また、本発明の第２の実施の形態に係る焦点推定モデル学習装置によれば、焦点候補の各々の素性からなる特徴量と、焦点候補の各々に付与されたスコアとに基づいて、ユーザの発話の焦点を高精度に推定する焦点推定モデルを学習することができる。

第２の実施の形態においては、過去の焦点を全て保持する場合について説明したが、これに限定されるものではない。例えば、過去の焦点を保持する場合、更新後の焦点リストの要素数が多すぎると、ゼロ代名詞解消のノイズになるため、焦点リストの先頭から一定数（Ｗ）のみを焦点リストに保持するようにしてもよい。この一定数（Ｗ）を、更新後の焦点リストの上限値として設定してもよいし、一定数（Ｗ）を、過去の焦点として保持すべき上限数として設定してもよい。

次に、第３の実施の形態について説明する。なお、第１の実施の形態と同様の構成及び作用となる部分については、同一符号を付して説明を省略する。

第３の実施の形態では、照応解析を行う際に、発話履歴から名詞句を抽出する点が第１の実施の形態と異なっている。

＜第３の実施の形態に係る焦点推定装置の構成＞
次に、第３の実施の形態に係る焦点推定装置４００の構成について説明する。

本発明の第３の実施の形態に係る焦点推定装置４００は、図１０に示すように、入力部１０と、演算部４２０と、出力部５０とを備えている。

演算部４２０は、ユーザ発話解析部２２と、焦点候補抽出部２４と、特徴量抽出部２６と焦点推定モデル記憶部２８と、焦点候補選択部３２と、発話履歴記憶部４２２と、テキストコーパス記憶部３４と、必須格定義記憶部３６と、照応解析部４２４と、焦点更新部４０と、焦点リスト記憶部４２とを備えている。

発話履歴記憶部４２２は、過去に入力された複数の形態素解析済みのユーザ発話が記憶されている。

照応解析部４２４は、ユーザ発話解析部２２から入力される形態素解析処理の結果について、照応解析を行う。本実施の形態では、照応解析として、ゼロ代名詞解消処理を行う。例えば、発話履歴記憶部４２２に記憶されている過去に入力された複数の形態素解析済みのユーザ発話から名詞句の各々を抽出し、対象となっているユーザ発話内に含まれる述語について、その名詞句がその必須格を埋める確率を、テキストコーパス記憶部３４に記憶されているテキストコーパスに基づいて計算することで、省略されている必須格を推定する（非特許文献６）。

例えば、発話１「イタリアでパスタを食べた」、発話２「美味しかった？」という発話があった場合、「美味しい」という述語の必須格が「ガ格」であるとすると、文脈に現れる名詞句（「イタリア」と「パスタ」）を見比べて、「イタリアが美味しい」よりも「パスタが美味しい」の方がテキストコーパスでの確率が高いため、「パスタ」が、ゼロ代名詞が指すものとしてふさわしいと判定することができる。ただし、「パスタ」の確率が予め定められた値よりも低い場合には、ゼロ代名詞が指す名詞句が探索されなかったと判定する。このようにして、入力発話について省略されている名詞句を求める。

以下に、照応解析部４２４の具体的な処理について説明する。照応解析部４２４は、まず、ユーザ発話解析部２２から入力された形態素解析処理結果について、係り受け解析を行い、文の述語と格要素を同定する。

次に、同定された述語の各々について、当該述語に対応する必須格の各々を必須格定義記憶部３６に記憶されている必須格定義から取得し、当該述語に対応する必須格の各々が、当該ユーザ発話内に存在するか否かを判断する。

次に、当該述語に対応する必須格のうち少なくとも１つの必須格が当該ユーザ発話内に存在しない場合、当該存在しない必須格の各々をゼロ代名詞を伴う格として認定する。そして、発話履歴記憶部４２２に記憶されている過去に入力された複数の形態素解析済みのユーザ発話から名詞句の各々を抽出する。

ユーザ発話から同定された述語の各々について、上記のようにゼロ代名詞が指す名詞句が探索されると、ユーザ発話の述語の各々のゼロ代名詞の各々が指す名詞句をまとめてゼロ代名詞が指す名詞句のリスト（zeros）として焦点更新部４０に出力する。

なお、第３の実施の形態に係る焦点推定装置の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

以上説明したように、本発明の第３の実施の形態に係る焦点推定装置によれば、ユーザ発話から抽出された発話の焦点候補と、過去のユーザ発話から抽出した、ユーザ発話の省略した名詞句とに基づいて、ユーザ発話の焦点を高精度に推定することができる。

第３の実施の形態においては、発話履歴から名詞句を抽出する場合について説明したが、これに限定されるものではない。例えば、発話履歴及び焦点リストの双方から名詞句を抽出し、ユーザ発話内の省略した名詞句を抽出してもよい。

また、上記の第１の実施の形態〜第３の実施の形態において、焦点候補の特徴量として、上記（１）〜（１３）の素性からなる特徴量を抽出する場合を例に説明したが、これに限定されるものではなく、焦点候補の特徴量として、上記（１）〜（１３）のうちの少なくとも１つの素性からなる特徴量を抽出するようにしてもよい。

１０、２１０入力部
２０、２２０、３２０、４２０演算部
２２ユーザ発話解析部
２４焦点候補抽出部
２６特徴量抽出部
２８焦点推定モデル記憶部
３０スコア算出部
３２焦点候補選択部
３４テキストコーパス記憶部
３６必須格定義記憶部
３８、４２４照応解析部
４０、３４０焦点更新部
４２、３４２焦点リスト記憶部
５０出力部
１００、３００、４００焦点推定装置
２００焦点推定モデル学習装置
２２２学習データ記憶部
２２４特徴量抽出部
２２６モデル学習部
２２８焦点推定モデル記憶部
２５０出力部
４２２発話履歴記憶部

Claims

ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定する焦点推定装置において、
入力された前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果の少なくとも一方に基づいて、前記ユーザの発話から少なくとも１つの単語からなる名詞句及び固有表現の少なくとも一方を前記発話の焦点候補として抽出する焦点候補抽出部と、
前記焦点候補抽出部により抽出された焦点候補の各々について、前記ユーザの発話に対する形態素解析処理の結果に基づいて、前記焦点候補の特徴量を抽出する特徴量抽出部と、
前記焦点候補の各々について、前記特徴量抽出部により抽出された前記焦点候補の特徴量と、焦点らしさを表すスコアを推定するための予め学習された焦点推定モデルとに基づいて、前記焦点候補の焦点らしさを表すスコアを算出するスコア算出部と、
前記スコア算出部により算出された前記焦点候補の各々の前記スコアと、予め定められた閾値とに基づいて、前記焦点候補の各々から、前記ユーザの発話の焦点を選択する焦点候補選択部と、
前記焦点候補選択部により選択された前記ユーザの発話の焦点を用いて、前記ユーザの発話の焦点が格納される焦点リストを更新する焦点更新部と、
を含む焦点推定装置。
ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定する焦点推定装置において、
入力された前記ユーザの発話に対する係り受け解析処理の結果と、前記ユーザの発話より前における前記発話が格納されている発話履歴、及び前記ユーザの発話より前における前記発話の焦点が格納された焦点リストの少なくとも一方とに基づいて、前記発話履歴に格納されている前記発話に含まれる名詞句、及び前記焦点リストに格納されている焦点の少なくとも一方から、前記ユーザの発話に含まれる参照表現が参照している、又は前記ユーザの発話において省略されている名詞句及び焦点の少なくとも一方を推定する照応解析部と、
前記入力された前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果の少なくとも一方に基づいて、前記ユーザの発話から少なくとも１つの単語からなる名詞句及び固有表現の少なくとも一方を前記発話の焦点候補として抽出する焦点候補抽出部と、
前記焦点候補抽出部により抽出された焦点候補の各々について、前記ユーザの発話に対する形態素解析処理の結果に基づいて、前記焦点候補の特徴量を抽出する特徴量抽出部と、
前記焦点候補の各々について、前記特徴量抽出部により抽出された前記焦点候補の特徴量と、焦点らしさを表すスコアを推定するための予め学習された焦点推定モデルとに基づいて、前記焦点候補の焦点らしさを表すスコアを算出するスコア算出部と、
前記スコア算出部により算出された前記焦点候補の各々の前記スコアと、予め定められた閾値とに基づいて、前記焦点候補の各々から、前記ユーザの発話の焦点を選択する焦点候補選択部と、
前記焦点候補選択部により選択された前記ユーザの発話の焦点と、前記照応解析部により推定された名詞句及び焦点の少なくとも一方とを用いて、前記焦点リストを更新する焦点更新部と、
を含む焦点推定装置。
前記焦点更新部は、
前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定された場合に、前記焦点候補選択部により選択された前記ユーザの発話の焦点と、前記照応解析部により推定された名詞句及び焦点の少なくとも一方とを用いて、前記焦点リストを更新し、
前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定されなかった場合に、前記焦点候補選択部により選択された前記ユーザの発話の焦点を用いて、前記焦点リストを更新する請求項２記載の焦点推定装置。
前記焦点候補選択部は、更に前記選択した前記ユーザの発話の焦点を、前記発話の焦点候補を前記スコア順に並べて格納した焦点候補リストに追加し、
前記照応解析部は、更に前記推定した前記ユーザの発話に含まれる参照表現が参照している、又は前記ユーザの発話において省略されている名詞句及び焦点の少なくとも一方をゼロ代名詞リストに格納し、
前記焦点更新部は、
前記焦点候補リストが空であり、かつ、前記ゼロ代名詞リストが空である場合、前記焦点リストを更新せず、
前記焦点候補リストが空でない場合、又は、前記ゼロ代名詞リストが空でない場合、前記ゼロ代名詞リストの末尾に、前記焦点候補リストに含まれる要素であって、かつ、前記ゼロ代名詞リストに含まれない要素を、前記焦点候補リストに含まれる順番で結合したリストを、前記焦点リストとして更新し、
前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定されず、かつ、前記焦点候補リストが空である場合、前記焦点リストを更新せず、
前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定されず、かつ、前記焦点候補リストが空でない場合、前記焦点候補リストを前記焦点リストとして更新する請求項３記載の焦点推定装置。
前記照応解析部は、
前記発話履歴に格納されている前記発話に含まれる名詞句、及び前記焦点リストに格納されている焦点の少なくとも一方の各々について、
前記名詞句及び焦点の少なくとも一方が、テキストコーパスに含まれる述語の各々のゼロ代名詞を伴う格の格要素となる確率を算出することにより、前記推定した前記ユーザの発話に含まれる参照表現が参照している、又は前記ユーザの発話において省略されている名詞句及び焦点の少なくとも一方を推定し、更に、前記推定された名詞句及び焦点の少なくとも一方を、予め定められた格の順位に従って並べ替える請求項３又は４記載の焦点推定装置。
前記焦点候補抽出部は、前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果に基づいて、前記ユーザの発話から少なくとも１つの単語からなる名詞句及び固有表現を前記発話の焦点候補として抽出する請求項１〜５の何れか１項記載の焦点推定装置。
ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定するための焦点推定モデルを学習するモデル学習装置において、
複数の文と、前記複数の文に含まれる少なくとも１つの単語からなる名詞句及び固有表現の少なくとも一方である焦点候補の各々に対して付与された、前記焦点候補の焦点らしさを表すスコアとを受け付ける入力部と、
前記入力部において受け付けた前記スコアが付与された前記焦点候補の各々について、前記焦点候補を含む文に対する形態素解析処理の結果に基づいて、前記焦点候補が文頭にあるか否か、前記焦点候補が文末にあるか否か、前記焦点候補の品詞に固有名詞又は未知語が含まれるか否か、前記焦点候補の品詞に動作性名詞が含まれるか否か、前記焦点候補の品詞に形容動詞が含まれるか否か、前記焦点候補の文字数、前記焦点候補の文字種が全てひらがなである場合におけるひらがなの文字数、前記焦点候補の文字種が全てカタカナである場合におけるカタカナの文字数、前記焦点候補の文字種が全て漢字である場合における漢字の文字数、前記焦点候補の直前の単語のＮ−ｇｒａｍ、前記焦点候補の直前の品詞のＮ−ｇｒａｍ、前記焦点候補の直後の単語のＮ−ｇｒａｍ、及び前記焦点候補の直後の品詞のＮ−ｇｒａｍの少なくとも１つを表す素性からなる特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部において抽出された前記焦点候補の各々の特徴量と、前記焦点候補の各々に付与された前記スコアとに基づいて、焦点らしさを表すスコアを推定するための焦点推定モデルを学習するモデル学習部と、
を含むモデル学習装置。
前記入力部は、前記複数の文と、前記複数の文に含まれる少なくとも１つの単語からなる名詞句及び固有表現である前記焦点候補の各々に対して付与された、前記焦点候補の焦点らしさを表すスコアとを受け付け、
前記特徴量抽出部は、前記入力部において受け付けた前記スコアが付与された前記焦点候補の各々について、前記焦点候補を含む文に対する形態素解析処理の結果及び固有表現抽出処理の結果に基づいて、前記焦点候補が文頭にあるか否か、前記焦点候補が文末にあるか否か、前記焦点候補の品詞に固有名詞又は未知語が含まれるか否か、前記焦点候補の品詞に動作性名詞が含まれるか否か、前記焦点候補の品詞に形容動詞が含まれるか否か、前記焦点候補の文字数、前記焦点候補の文字種が全てひらがなである場合におけるひらがなの文字数、前記焦点候補の文字種が全てカタカナである場合におけるカタカナの文字数、前記焦点候補の文字種が全て漢字である場合における漢字の文字数、前記焦点候補の直前の単語のＮ−ｇｒａｍ、前記焦点候補の直前の品詞のＮ−ｇｒａｍ、前記焦点候補の直後の単語のＮ−ｇｒａｍ、及び前記焦点候補の直後の品詞のＮ−ｇｒａｍの少なくとも１つを表す素性からなる特徴量を抽出する請求項７記載のモデル学習装置。
焦点候補抽出部と、特徴量抽出部と、スコア算出部と、焦点候補選択部と、焦点更新部と、を含む、ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定する焦点推定装置における焦点推定方法であって、
前記焦点候補抽出部は、入力された前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果の少なくとも一方に基づいて、前記ユーザの発話から少なくとも１つの単語からなる名詞句及び固有表現の少なくとも一方を前記発話の焦点候補として抽出し、
前記特徴量抽出部は、前記焦点候補抽出部により抽出された焦点候補の各々について、前記ユーザの発話に対する形態素解析処理の結果に基づいて、前記焦点候補の特徴量を抽出し、
前記スコア算出部は、前記焦点候補の各々について、前記特徴量抽出部により抽出された前記焦点候補の特徴量と、焦点らしさを表すスコアを推定するための予め学習された焦点推定モデルとに基づいて、前記焦点候補の焦点らしさを表すスコアを算出し、
前記焦点候補選択部は、前記スコア算出部により算出された前記焦点候補の各々の前記スコアと、予め定められた閾値とに基づいて、前記焦点候補の各々から、前記ユーザの発話の焦点を選択し、
前記焦点更新部は、前記焦点候補選択部により選択された前記ユーザの発話の焦点を用いて、前記ユーザの発話の焦点が格納される焦点リストを更新する、
焦点推定方法。
照応解析部と、焦点候補抽出部と、特徴量抽出部と、スコア算出部と、焦点候補選択部と、焦点更新部と、を含む、ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定する焦点推定装置における焦点推定方法であって、
前記照応解析部は、入力された前記ユーザの発話に対する係り受け解析処理の結果と、前記ユーザの発話より前における前記発話が格納されている発話履歴、及び前記ユーザの発話より前における前記発話の焦点が格納された焦点リストの少なくとも一方とに基づいて、前記発話履歴に格納されている前記発話に含まれる名詞句、及び前記焦点リストに格納されている焦点の少なくとも一方から、前記ユーザの発話に含まれる参照表現が参照している、又は前記ユーザの発話において省略されている名詞句及び焦点の少なくとも一方を推定し、
前記焦点候補抽出部は、前記入力された前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果の少なくとも一方に基づいて、前記ユーザの発話から少なくとも１つの単語からなる名詞句及び固有表現の少なくとも一方を前記発話の焦点候補として抽出し、
前記特徴量抽出部は、前記焦点候補抽出部により抽出された焦点候補の各々について、前記ユーザの発話に対する形態素解析処理の結果に基づいて、前記焦点候補の特徴量を抽出し、
前記スコア算出部は、前記焦点候補の各々について、前記特徴量抽出部により抽出された前記焦点候補の特徴量と、焦点らしさを表すスコアを推定するための予め学習された焦点推定モデルとに基づいて、前記焦点候補の焦点らしさを表すスコアを算出し、
前記焦点候補選択部は、前記スコア算出部により算出された前記焦点候補の各々の前記スコアと、予め定められた閾値とに基づいて、前記焦点候補の各々から、前記ユーザの発話の焦点を選択し、
前記焦点更新部は、前記焦点候補選択部により選択された前記ユーザの発話の焦点と、前記照応解析部により推定された名詞句及び焦点の少なくとも一方とを用いて、前記焦点リストを更新する、
焦点推定方法。
前記焦点更新部により前記焦点リストを更新することは、
前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定された場合に、前記焦点候補選択部により選択された前記ユーザの発話の焦点と、前記照応解析部により推定された名詞句及び焦点の少なくとも一方とを用いて、前記焦点リストを更新し、
前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定されなかった場合に、前記焦点候補選択部により選択された前記ユーザの発話の焦点を用いて、前記焦点リストを更新する請求項１０記載の焦点推定方法。
前記焦点候補選択部は、更に前記選択した前記ユーザの発話の焦点を、前記発話の焦点候補を前記スコア順に並べて格納した焦点候補リストに追加し、
前記照応解析部は、更に前記推定した前記ユーザの発話に含まれる参照表現が参照している、又は前記ユーザの発話において省略されている名詞句及び焦点の少なくとも一方をゼロ代名詞リストに格納し、
前記焦点更新部により前記焦点リストを更新することは、
前記焦点候補リストが空であり、かつ、前記ゼロ代名詞リストが空である場合、前記焦点リストを更新せず、
前記焦点候補リストが空でない場合、又は、前記ゼロ代名詞リストが空でない場合、前記ゼロ代名詞リストの末尾に、前記焦点候補リストに含まれる要素であって、かつ、前記ゼロ代名詞リストに含まれない要素を、前記焦点候補リストに含まれる順番で結合したリストを、前記焦点リストとして更新し、
前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定されず、かつ、前記焦点候補リストが空である場合、前記焦点リストを更新せず、
前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定されず、かつ、前記焦点候補リストが空でない場合、前記焦点候補リストを前記焦点リストとして更新する請求項１１記載の焦点推定方法。
前記照応解析部により名詞句及び焦点の少なくとも一方を推定することは、
前記発話履歴に格納されている前記発話に含まれる名詞句、及び前記焦点リストに格納されている焦点の少なくとも一方の各々について、前記名詞句及び焦点の少なくとも一方が、テキストコーパスに含まれる述語の各々のゼロ代名詞を伴う格の格要素となる確率を算出することにより、前記推定した前記ユーザの発話に含まれる参照表現が参照している、又は前記ユーザの発話において省略されている名詞句及び焦点の少なくとも一方を推定し、
更に、前記推定された名詞句及び焦点の少なくとも一方を、予め定められた格の順位に従って並べ替える請求項１１又は１２記載の焦点推定方法。
前記焦点候補抽出部により前記発話の焦点候補として抽出することは、前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果に基づいて、前記ユーザの発話から少なくとも１つの単語からなる名詞句及び固有表現を前記発話の焦点候補として抽出する請求項９〜１３の何れか１項記載の焦点推定方法。
入力部と、特徴量抽出部と、モデル学習部と、を含む、ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定するための焦点推定モデルを学習するモデル学習装置におけるモデル学習方法であって、
前記入力部は、複数の文と、前記複数の文に含まれる少なくとも１つの単語からなる名詞句及び固有表現の少なくとも一方である焦点候補の各々に対して付与された、前記焦点候補の焦点らしさを表すスコアとを受け付け、
前記特徴量抽出部は、前記入力部において受け付けた前記スコアが付与された前記焦点候補の各々について、前記焦点候補を含む文に対する形態素解析処理の結果に基づいて、前記焦点候補が文頭にあるか否か、前記焦点候補が文末にあるか否か、前記焦点候補の品詞に固有名詞又は未知語が含まれるか否か、前記焦点候補の品詞に動作性名詞が含まれるか否か、前記焦点候補の品詞に形容動詞が含まれるか否か、前記焦点候補の文字数、前記焦点候補の文字種が全てひらがなである場合におけるひらがなの文字数、前記焦点候補の文字種が全てカタカナである場合におけるカタカナの文字数、前記焦点候補の文字種が全て漢字である場合における漢字の文字数、前記焦点候補の直前の単語のＮ−ｇｒａｍ、前記焦点候補の直前の品詞のＮ−ｇｒａｍ、前記焦点候補の直後の単語のＮ−ｇｒａｍ、及び前記焦点候補の直後の品詞のＮ−ｇｒａｍの少なくとも１つを表す素性からなる特徴量を抽出し、
前記モデル学習部は、前記特徴量抽出部において抽出された前記焦点候補の各々の特徴量と、前記焦点候補の各々に付与された前記スコアとに基づいて、焦点らしさを表すスコアを推定するための焦点推定モデルを学習する、
モデル学習方法。
前記特徴量抽出部により特徴量を抽出することは、前記入力部において受け付けた前記スコアが付与された前記焦点候補の各々について、前記焦点候補を含む文に対する形態素解析処理の結果及び固有表現抽出処理の結果に基づいて、前記焦点候補が文頭にあるか否か、前記焦点候補が文末にあるか否か、前記焦点候補の品詞に固有名詞又は未知語が含まれるか否か、前記焦点候補の品詞に動作性名詞が含まれるか否か、前記焦点候補の品詞に形容動詞が含まれるか否か、前記焦点候補の文字数、前記焦点候補の文字種が全てひらがなである場合におけるひらがなの文字数、前記焦点候補の文字種が全てカタカナである場合におけるカタカナの文字数、前記焦点候補の文字種が全て漢字である場合における漢字の文字数、前記焦点候補の直前の単語のＮ−ｇｒａｍ、前記焦点候補の直前の品詞のＮ−ｇｒａｍ、前記焦点候補の直後の単語のＮ−ｇｒａｍ、及び前記焦点候補の直後の品詞のＮ−ｇｒａｍの少なくとも１つを表す素性からなる特徴量を抽出する請求項１５記載のモデル学習方法。
コンピュータを、請求項１〜６の何れか１項記載の焦点推定装置を構成する各部として機能させるためのプログラム。
コンピュータを、請求項７又は８記載のモデル学習装置を構成する各部として機能させるためのプログラム。