JP5860861B2 - 焦点推定装置、モデル学習装置、方法、及びプログラム - Google Patents

焦点推定装置、モデル学習装置、方法、及びプログラム Download PDF

Info

Publication number
JP5860861B2
JP5860861B2 JP2013213885A JP2013213885A JP5860861B2 JP 5860861 B2 JP5860861 B2 JP 5860861B2 JP 2013213885 A JP2013213885 A JP 2013213885A JP 2013213885 A JP2013213885 A JP 2013213885A JP 5860861 B2 JP5860861 B2 JP 5860861B2
Authority
JP
Japan
Prior art keywords
focus
utterance
candidate
user
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013213885A
Other languages
English (en)
Other versions
JP2015076054A (ja
Inventor
東中 竜一郎
竜一郎 東中
牧野 俊朗
俊朗 牧野
松尾 義博
義博 松尾
今村 賢治
賢治 今村
のぞみ 小林
のぞみ 小林
平野 徹
徹 平野
千明 宮崎
千明 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013213885A priority Critical patent/JP5860861B2/ja
Publication of JP2015076054A publication Critical patent/JP2015076054A/ja
Application granted granted Critical
Publication of JP5860861B2 publication Critical patent/JP5860861B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、焦点推定装置、モデル学習装置、方法、及びプログラムに係り、特に、ユーザの発話の焦点を推定する焦点更新装置、モデル学習装置、方法、及びプログラムに関する。
雑多な話題についてユーザと対話を行う雑談対話システムにおいて、現在の対話における話題を把握することは重要である。話題を適切に把握できないと、進行中の話題と関係のない発話を行う可能性があり、また、話題が変わったことを認識できずに過去の話題についての発話を行う可能性もあり、ユーザとの対話を不適切なものにする。
話題を表す単語を焦点と定義した場合、対話システムは焦点に基づいて発話を行うものとする。例えば、「動物」に関連する対話をユーザとシステムが行っているのであれば、「動物」が焦点である。また、対話の中で「犬」や「猫」についての話が展開されていれば、「犬」や「猫」が焦点となる。対話において、焦点は刻々と切り替わり、対話が展開されていく。このような話の流れに対話システムが追随するためには焦点を正しく認識する機構が必要である。
従来技術として、焦点の把握については、センタリング理論がある(非特許文献1)。センタリング理論とは、発話には焦点となる要素が存在すると仮定し、それらが発話にどのように現れ、どのように移り変わるかということについての理論である。
日本語では、提題助詞の「は」で示される名詞や、ガ格・ヲ格で定時される名詞が焦点になりやすい単語とされる(非特許文献2、非特許文献3)。
Barbara J. Grosz and Candace L. Sidner, Attention, intentions, and the structure of discourse Computational Linguistics, Volume 12 Issue 3, 1986, Pages 175-204, MIT Press. 吉田悦子,人文論叢: 三重大学人文学部文化学科研究紀要20, pp.193-202, 2003, 三重大学. 竹井光子,藤原美保,相沢輝昭,センタリング理論とゼロ代名詞:日本語コーパス分析と母語話者調査の結果から.言語処理学会第12 回年次大会発表論文集,pp. 292-295,2006.
上記の従来技術においては、名詞句が文内に複数ある場合、どのような格助詞を伴うかによって焦点としてのふさわしさに序列を付けている。しかしながら、実際の発話では単語の使われ方なども考慮する必要があり、格助詞だけの情報で序列を決めることは難しいという問題がある。また、対話では格助詞が頻繁に脱落するため,格助詞の情報だけに頼ることはできないという問題がある。加えて、対話においては、発話に省略が生じることが多いため、省略を考慮しないと高精度で焦点を把握することができないという問題がある。
本発明では、上記問題点を解決するために成されたものであり、ユーザ発話の焦点を高精度に推定することができる焦点推定装置、方法、及びプログラムを提供することを目的とする。
また、ユーザ発話の焦点を高精度に推定するための焦点推定モデルを学習することができるモデル学習装置を提供することを目的とする。
上記目的を達成するために、第1の発明に係る焦点推定装置は、ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定する焦点推定装置において、入力された前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果の少なくとも一方に基づいて、前記ユーザの発話から少なくとも1つの単語からなる名詞句及び固有表現の少なくとも一方を前記発話の焦点候補として抽出する焦点候補抽出部と、前記焦点候補抽出部により抽出された焦点候補の各々について、前記ユーザの発話に対する形態素解析処理の結果に基づいて、前記焦点候補の特徴量を抽出する特徴量抽出部と、前記焦点候補の各々について、前記特徴量抽出部により抽出された前記焦点候補の特徴量と、焦点らしさを表すスコアを推定するための予め学習された焦点推定モデルとに基づいて、前記焦点候補の焦点らしさを表すスコアを算出するスコア算出部と、前記スコア算出部により算出された前記焦点候補の各々の前記スコアと、予め定められた閾値とに基づいて、前記焦点候補の各々から、前記ユーザの発話の焦点を選択する焦点候補選択部と、前記焦点候補選択部により選択された前記ユーザの発話の焦点を用いて、前記ユーザの発話の焦点が格納される焦点リストを更新する焦点更新部と、を含んで構成されている。
第2の発明に係る焦点推定方法は、焦点候補抽出部と、特徴量抽出部と、スコア算出部と、焦点候補選択部と、焦点更新部と、を含む、ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定する焦点推定装置における焦点推定方法であって、前記焦点候補抽出部は、入力された前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果の少なくとも一方に基づいて、前記ユーザの発話から少なくとも1つの単語からなる名詞句及び固有表現の少なくとも一方を前記発話の焦点候補として抽出し、前記特徴量抽出部は、前記焦点候補抽出部により抽出された焦点候補の各々について、前記ユーザの発話に対する形態素解析処理の結果に基づいて、前記焦点候補の特徴量を抽出し、前記スコア算出部は、前記焦点候補の各々について、前記特徴量抽出部により抽出された前記焦点候補の特徴量と、焦点らしさを表すスコアを推定するための予め学習された焦点推定モデルとに基づいて、前記焦点候補の焦点らしさを表すスコアを算出し、前記焦点候補選択部は、前記スコア算出部により算出された前記焦点候補の各々の前記スコアと、予め定められた閾値とに基づいて、前記焦点候補の各々から、前記ユーザの発話の焦点を選択し、前記焦点更新部は、前記焦点候補選択部により選択された前記ユーザの発話の焦点を用いて、前記ユーザの発話の焦点が格納される焦点リストを更新する。
第1の発明及び第2の発明によれば、焦点候補抽出部により、入力されたユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果の少なくとも一方に基づいて、ユーザの発話から少なくとも1つの単語からなる名詞句及び固有表現の少なくとも一方を発話の焦点候補として抽出し、特徴量抽出部により、抽出された焦点候補の各々について、ユーザの発話に対する形態素解析処理の結果に基づいて、焦点候補の特徴量を抽出し、スコア算出部により、焦点候補の各々について、抽出された焦点候補の特徴量と、焦点らしさを表すスコアを推定するための予め学習された焦点推定モデルとに基づいて、焦点候補の焦点らしさを表すスコアを算出し、焦点候補選択部により、算出された焦点候補の各々のスコアと、予め定められた閾値とに基づいて、焦点候補の各々から、ユーザの発話の焦点を選択し、焦点更新部により、選択されたユーザの発話の焦点を用いて、ユーザの発話の焦点が格納される焦点リストを更新する。
このように、第1の発明及び第2の発明によれば、焦点候補の各々のスコアに基づいて選択されたユーザの発話の焦点を用いて、ユーザの発話の焦点を更新することにより、ユーザ発話の焦点を高精度に推定することができる。
第3の発明に係る焦点推定装置は、ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定する焦点推定装置において、入力された前記ユーザの発話に対する係り受け解析処理の結果と、前記ユーザの発話より前における前記発話が格納されている発話履歴、及び前記ユーザの発話より前における前記発話の焦点が格納された焦点リストの少なくとも一方とに基づいて、前記発話履歴に格納されている前記発話に含まれる名詞句、及び前記焦点リストに格納されている焦点の少なくとも一方から、前記ユーザの発話に含まれる参照表現が参照している、又は前記ユーザの発話において省略されている名詞句及び焦点の少なくとも一方を推定する照応解析部と、前記入力された前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果の少なくとも一方に基づいて、前記ユーザの発話から少なくとも1つの単語からなる名詞句及び固有表現の少なくとも一方を前記発話の焦点候補として抽出する焦点候補抽出部と、前記焦点候補抽出部により抽出された焦点候補の各々について、前記ユーザの発話に対する形態素解析処理の結果に基づいて、前記焦点候補の特徴量を抽出する特徴量抽出部と、前記焦点候補の各々について、前記特徴量抽出部により抽出された前記焦点候補の特徴量と、焦点らしさを表すスコアを推定するための予め学習された焦点推定モデルとに基づいて、前記焦点候補の焦点らしさを表すスコアを算出するスコア算出部と、前記スコア算出部により算出された前記焦点候補の各々の前記スコアと、予め定められた閾値とに基づいて、前記焦点候補の各々から、前記ユーザの発話の焦点を選択する焦点候補選択部と、前記焦点候補選択部により選択された前記ユーザの発話の焦点と、前記照応解析部により推定された名詞句及び焦点の少なくとも一方とを用いて、前記焦点リストを更新する焦点更新部と、を含んで構成されている。
第4の発明に係る焦点推定方法は、照応解析部と、焦点候補抽出部と、特徴量抽出部と、スコア算出部と、焦点候補選択部と、焦点更新部と、を含む、ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定する焦点推定装置における焦点推定方法であって、前記照応解析部は、入力された前記ユーザの発話に対する係り受け解析処理の結果と、前記ユーザの発話より前における前記発話が格納されている発話履歴、及び前記ユーザの発話より前における前記発話の焦点が格納された焦点リストの少なくとも一方とに基づいて、前記発話履歴に格納されている前記発話に含まれる名詞句、及び前記焦点リストに格納されている焦点の少なくとも一方から、前記ユーザの発話に含まれる参照表現が参照している、又は前記ユーザの発話において省略されている名詞句及び焦点の少なくとも一方を推定し、前記焦点候補抽出部は、前記入力された前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果の少なくとも一方に基づいて、前記ユーザの発話から少なくとも1つの単語からなる名詞句及び固有表現の少なくとも一方を前記発話の焦点候補として抽出し、前記特徴量抽出部は、前記焦点候補抽出部により抽出された焦点候補の各々について、前記ユーザの発話に対する形態素解析処理の結果に基づいて、前記焦点候補の特徴量を抽出し、前記スコア算出部は、前記焦点候補の各々について、前記特徴量抽出部により抽出された前記焦点候補の特徴量と、焦点らしさを表すスコアを推定するための予め学習された焦点推定モデルとに基づいて、前記焦点候補の焦点らしさを表すスコアを算出し、前記焦点候補選択部は、前記スコア算出部により算出された前記焦点候補の各々の前記スコアと、予め定められた閾値とに基づいて、前記焦点候補の各々から、前記ユーザの発話の焦点を選択し、前記焦点更新部は、前記焦点候補選択部により選択された前記ユーザの発話の焦点と、前記照応解析部により推定された名詞句及び焦点の少なくとも一方とを用いて、前記焦点リストを更新する
第3の発明及び第4の発明によれば、照応解析部により、入力されたユーザの発話に対する係り受け解析処理の結果と、ユーザの発話より前における発話が格納されている発話履歴、及びユーザの発話より前における発話の焦点が格納された焦点リストの少なくとも一方とに基づいて、発話履歴に格納されている発話に含まれる名詞句、及び焦点リストに格納されている焦点の少なくとも一方から、ユーザの発話に含まれる参照表現が参照している、又はユーザの発話において省略されている名詞句及び焦点の少なくとも一方を推定し、焦点候補抽出部により、ユーザの発話から少なくとも1つの単語からなる名詞句及び固有表現の少なくとも一方を発話の焦点候補として抽出し、特徴量抽出部により、抽出された焦点候補の各々について、特徴量を抽出し、スコア算出部により、焦点候補の各々について、抽出された特徴量と、予め学習された焦点推定モデルとに基づいて、焦点候補の焦点らしさを表すスコアを算出し、焦点候補選択部により、焦点候補の各々のスコアと、予め定められた閾値とにもとづいて、焦点候補の各々から、ユーザの発話の焦点を選択し、焦点更新部により、選択されたユーザの発話の焦点と、推定された名詞句及び焦点の少なくとも一方とを用いて、焦点リストを更新する。
このように、第3の発明及び第4の発明によれば、推定されたユーザの発話に含まれる参照表現が参照している、又はユーザの発話において省略されている名詞句及び焦点の少なくとも一方を用いて焦点を更新することにより、高精度に焦点を推定することができる。
また、第3及び第4の発明は、前記焦点更新部は、前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定された場合に、前記焦点候補選択部により選択された前記ユーザの発話の焦点と、前記照応解析部により推定された名詞句及び焦点の少なくとも一方とを用いて、前記焦点リストを更新し、前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定されなかった場合に、前記焦点候補選択部により選択された前記ユーザの発話の焦点を用いて、前記焦点リストを更新してもよい。また、第3及び第4の発明では、前記焦点候補選択部は、更に前記選択した前記ユーザの発話の焦点を、前記発話の焦点候補を前記スコア順に並べて格納した焦点候補リストに追加し、前記照応解析部は、更に前記推定した前記ユーザの発話に含まれる参照表現が参照している、又は前記ユーザの発話において省略されている名詞句及び焦点の少なくとも一方をゼロ代名詞リストに格納し、前記焦点更新部は、前記焦点候補リストが空であり、かつ、前記ゼロ代名詞リストが空である場合、前記焦点リストを更新せず、前記焦点候補リストが空でない場合、又は、前記ゼロ代名詞リストが空でない場合、前記ゼロ代名詞リストの末尾に、前記焦点候補リストに含まれる要素であって、かつ、前記ゼロ代名詞リストに含まれない要素を、前記焦点候補リストに含まれる順番で結合したリストを、前記焦点リストとして更新し、前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定されず、かつ、前記焦点候補リストが空である場合、前記焦点リストを更新せず、前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定されず、かつ、前記焦点候補リストが空でない場合、前記焦点候補リストを前記焦点リストとして更新してもよい。
また、第3及び第4の発明は、前記照応解析部は、前記発話履歴に格納されている前記発話に含まれる名詞句、及び前記焦点リストに格納されている焦点の少なくとも一方の各々について、前記名詞句及び焦点の少なくとも一方が、テキストコーパスに含まれる述語の各々のゼロ代名詞を伴う格の格要素となる確率を算出することにより、前記推定した前記ユーザの発話に含まれる参照表現が参照している、又は前記ユーザの発話において省略されている名詞句及び焦点の少なくとも一方を推定し、更に、前記推定された名詞句及び焦点の少なくとも一方を、予め定められた格の順位に従って並べ替えてもよい。また、第1〜第4の発明では、前記焦点候補抽出部は、前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果に基づいて、前記ユーザの発話から少なくとも1つの単語からなる名詞句及び固有表現を前記発話の焦点候補として抽出してもよい。
第5の発明に係るモデル学習装置は、ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定するための焦点推定モデルを学習するモデル学習装置において、複数の文と、前記複数の文に含まれる少なくとも1つの単語からなる名詞句及び固有表現の少なくとも一方である焦点候補の各々に対して付与された、前記焦点候補の焦点らしさを表すスコアとを受け付ける入力部と、前記入力部において受け付けた前記スコアが付与された前記焦点候補の各々について、前記焦点候補を含む文に対する形態素解析処理の結果に基づいて、前記焦点候補が文頭にあるか否か、前記焦点候補が文末にあるか否か、前記焦点候補の品詞に固有名詞又は未知語が含まれるか否か、前記焦点候補の品詞に動作性名詞が含まれるか否か、前記焦点候補の品詞に形容動詞が含まれるか否か、前記焦点候補の文字数、前記焦点候補の文字種が全てひらがなである場合におけるひらがなの文字数、前記焦点候補の文字種が全てカタカナである場合におけるカタカナの文字数、前記焦点候補の文字種が全て漢字である場合における漢字の文字数、前記焦点候補の直前の単語のN−gram、前記焦点候補の直前の品詞のN−gram、前記焦点候補の直後の単語のN−gram、及び前記焦点候補の直後の品詞のN−gramの少なくとも1つを表す素性からなる特徴量を抽出する特徴量抽出部と、前記特徴量抽出部において抽出された前記焦点候補の各々の特徴量と、前記焦点候補の各々に付与された前記スコアとに基づいて、焦点らしさを表すスコアを推定するための焦点推定モデルを学習するモデル学習部と、を含んで構成されている。また、第6の発明に係るモデル学習方法は、入力部と、特徴量抽出部と、モデル学習部と、を含む、ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定するための焦点推定モデルを学習するモデル学習装置におけるモデル学習方法であって、前記入力部は、複数の文と、前記複数の文に含まれる少なくとも1つの単語からなる名詞句及び固有表現の少なくとも一方である焦点候補の各々に対して付与された、前記焦点候補の焦点らしさを表すスコアとを受け付け、前記特徴量抽出部は、前記入力部において受け付けた前記スコアが付与された前記焦点候補の各々について、前記焦点候補を含む文に対する形態素解析処理の結果に基づいて、前記焦点候補が文頭にあるか否か、前記焦点候補が文末にあるか否か、前記焦点候補の品詞に固有名詞又は未知語が含まれるか否か、前記焦点候補の品詞に動作性名詞が含まれるか否か、前記焦点候補の品詞に形容動詞が含まれるか否か、前記焦点候補の文字数、前記焦点候補の文字種が全てひらがなである場合におけるひらがなの文字数、前記焦点候補の文字種が全てカタカナである場合におけるカタカナの文字数、前記焦点候補の文字種が全て漢字である場合における漢字の文字数、前記焦点候補の直前の単語のN−gram、前記焦点候補の直前の品詞のN−gram、前記焦点候補の直後の単語のN−gram、及び前記焦点候補の直後の品詞のN−gramの少なくとも1つを表す素性からなる特徴量を抽出し、前記モデル学習部は、前記特徴量抽出部において抽出された前記焦点候補の各々の特徴量と、前記焦点候補の各々に付与された前記スコアとに基づいて、焦点らしさを表すスコアを推定するための焦点推定モデルを学習する。
第5及び第6の発明によれば、入力部により、複数の文と、前記複数の文に含まれる少なくとも1つの単語からなる焦点候補の各々に対して付与された、前記焦点候補の焦点らしさを表すスコアとを受け付け、特徴量抽出部により、スコアが付与された焦点候補の各々について、焦点候補を含む文に対する形態素解析処理の結果に基づいて、複数の素性からなる特徴量を抽出し、学習部により、抽出された特徴量と、焦点候補の各々に付与されたスコアとに基づいて、焦点らしさを表すスコアを推定するための焦点推定モデルを学習する。
このように、第5の発明によれば、焦点候補の各々の素性からなる特徴量と、焦点候補の各々に付与されたスコアとに基づいて、焦点を高精度に推定するための焦点推定モデルを学習することができる。また、第5及び第6の発明では、前記入力部は、前記複数の文と、前記複数の文に含まれる少なくとも1つの単語からなる名詞句及び固有表現である前記焦点候補の各々に対して付与された、前記焦点候補の焦点らしさを表すスコアとを受け付け、前記特徴量抽出部は、前記入力部において受け付けた前記スコアが付与された前記焦点候補の各々について、前記焦点候補を含む文に対する形態素解析処理の結果及び固有表現抽出処理の結果に基づいて、前記焦点候補が文頭にあるか否か、前記焦点候補が文末にあるか否か、前記焦点候補の品詞に固有名詞又は未知語が含まれるか否か、前記焦点候補の品詞に動作性名詞が含まれるか否か、前記焦点候補の品詞に形容動詞が含まれるか否か、前記焦点候補の文字数、前記焦点候補の文字種が全てひらがなである場合におけるひらがなの文字数、前記焦点候補の文字種が全てカタカナである場合におけるカタカナの文字数、前記焦点候補の文字種が全て漢字である場合における漢字の文字数、前記焦点候補の直前の単語のN−gram、前記焦点候補の直前の品詞のN−gram、前記焦点候補の直後の単語のN−gram、及び前記焦点候補の直後の品詞のN−gramの少なくとも1つを表す素性からなる特徴量を抽出してもよい。
また、本発明のプログラムは、コンピュータを、上記の焦点推定装置又はモデル学習装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の焦点推定装置、方法、及びプログラムによれば、ユーザ発話の焦点を高精度に推定することができる。
また、本発明のモデル学習装置によれば、ユーザ発話の焦点を高精度に推定するための焦点推定モデルを学習することができる。
本発明の第1の実施の形態に係る焦点推定装置の機能的構成を示すブロック図である。 JTAGによる形態素解析処理結果及び固有表現辞書で拡張したJTAGによる固有表現抽出処理結果の例を示す図である。 焦点推定モデルを用いてスコアを算出した例を示す図である。 本発明の第1の実施の形態に係る焦点推定モデル学習装置の機能的構成を示すブロック図である。 学習データの例を示す図である。 本発明の第1の実施の形態に係る焦点推定モデル学習装置における焦点推定モデル学習処理ルーチンを示すフローチャート図である。 本発明の第1の実施の形態に係る焦点推定装置における焦点推定処理ルーチンを示す図である。 対話例を示す図である。 本発明の第2の実施の形態に係る焦点推定装置の機能的構成を示すブロック図である。 本発明の第3の実施の形態に係る焦点推定装置の機能的構成を示すブロック図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<発明の原理>
本実施の形態においては、発話から適切な順番で焦点となる単語を抽出するために機械学習の手法を用いる。具体的には、多くの文の集合を用意し、それぞれの中から名詞句を抽出する。そして、その名詞句について焦点としてふさわしいかという度合いを人手によって付与したデータを作成する。
そして、このデータから、文中の名詞句について、焦点としてふさわしいかを数値化するモデルを作成することができる。このモデルを用いると、未知の文に含まれる名詞句について、このモデルに照らし合わせることで、焦点としてのふさわしさを付与することができ、複数の名詞句がある場合においても、また、格助詞の脱落がある場合であっても、適切に序列をつけることができる。
さらに、省略への対応として、発話について照応解析を行い、省略された名詞句を検出し、焦点推定に用いる。照応解析とは、文中の省略された要素を検出する処理を指す。照応解析を行うことで省略された話題が検出でき、適切に焦点を推定することができる。
<第1の実施の形態に係る焦点推定装置の構成>
次に、本発明の第1の実施の形態に係る焦点推定装置の構成について説明する。図1に示すように、本発明の第1の実施の形態に係る焦点推定装置100は、CPUとRAMと後述する焦点更新処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この焦点推定装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、ユーザの発話からなるユーザ発話を受け付ける。
演算部20は、ユーザ発話解析部22と、焦点候補抽出部24と、特徴量抽出部26と、焦点推定モデル記憶部28と、スコア算出部30と、焦点候補選択部32と、テキストコーパス記憶部34と、必須格定義記憶部36と、照応解析部38と、焦点更新部40と、焦点リスト記憶部42とを備えている。
ユーザ発話解析部22は、入力部10において受け付けたユーザ発話について、形態素解析及び固有表現抽出を行い、形態素解析処理結果及び固有表現抽出処理結果を焦点候補抽出部24に出力する。第1の実施の形態においては、形態素解析器としてJTAGを用いる(非特許文献4:Takeshi Fuchi, Shinichiro Takagi:Japanese morphological analyzer using word co-occurrence:JTAG,Proc of the 36th ACL and 17th COLING, pp.409-413 (1998).)。また、独自の固有表現辞書(非特許文献5:Ryuichiro Higashinaka, Kugatsu Sadamitsu, Kuniko Saito, Toshiro Makino, Yoshihiro Matsuo, Creating an Extended Named Entity Dictionary from Wikipedia, Proc. COLING, pp. 1163-1178, 2012.)で拡張することで固有表現抽出を行えるようにしたJTAGも併せて用いる。
図2に、「アメリカのオバマ大統領が日本に外遊するんだって」というユーザ発話を形態素解析した結果を示す。図2のJTAGの解析結果におけるカラムは、単語そのもの、品詞、標準表記、読み、日本語語彙大系に示される意味属性番号である。EOSは文末を意味する記号である。図2に示すように、固有表現辞書で拡張したJTAGの出力結果では、JTAGの解析結果に加えて最後のカラムに、該当単語が固有表現であれば固有表現ラベルが付与される。上記図2の出力結果においては、「オバマ大統領」に「Person」という固有表現ラベルが付与されている。
焦点候補抽出部24は、ユーザ発話解析部22から入力される形態素解析処理結果及び固有表現抽出処理結果を受け取り、少なくとも1つの単語からなる焦点候補を抽出する。具体的には、形態素解析処理結果から品詞が名詞である単語を連結した名詞句(名詞連続)を、焦点候補として抽出し、固有表現抽出処理結果から固有表現を焦点候補として抽出する。なお、抽出される焦点候補が複数存在する場合には、全ての焦点候補を抽出する。
特徴量抽出部26は、ユーザ発話解析部22から入力される形態素解析処理結果と、焦点候補抽出部24において抽出された当該ユーザ発話の焦点候補の各々とに基づいて、焦点候補の各々について、焦点候補自身に関する素性と、焦点候補の前後に位置する単語系列に関する素性とを含む当該焦点候補の特徴量を抽出する。具体的には、下記(1)〜(13)に示す素性を抽出し、当該焦点候補の特徴量とする。
(1)焦点候補が文頭にあるか否かを表す二値素性
(2)焦点候補が文末にあるか否かを表す二値素性
(3)焦点候補の品詞に固有名詞もしくは未知語が含まれるか否かを表す二値素性
(4)焦点候補の品詞に動作性名詞(いわゆるサ変接続の名詞)が含まれるか否かを表す二値素性
(5)焦点候補の品詞に形容動詞が含まれるか否かを表す二値素性
(6)焦点候補の文字数の数値の素性
(7)焦点候補の文字種がすべてひらがなの場合、何文字のひらがなかを表す数値の素性
(8)焦点候補の文字種がすべてカタカナの場合、何文字のカタカナかを表す数値の素性
(9)焦点候補の文字種がすべて漢字の場合、何文字の漢字かを表す数値の素性
(10)焦点候補の直前の単語のN-gramについて、単語のN-gramのそれぞれの存在有無を表す二値素性
(11)焦点候補の直前の品詞のN-gramについて、品詞のN-gramのそれぞれの存在有無を表す二値素性
(12)焦点候補の直後の単語のN-gramについて、単語のN-gramのそれぞれの存在有無を表す二値素性
(13)焦点候補の直後の品詞のN-gramについて、品詞のN-gramのそれぞれの存在有無を表す二値素性
なお、上記(10)及び(12)の素性については、学習データにおける焦点の直前又は直後に出現する単語のN-gramを予め求めておき、当該単語のN-gramの各々が存在するか否かを表す素性である。また、上記(11)及び(13)の素性については、学習データにおける焦点の直前又は直後に出現する品詞のN-gramを予め求めておき、当該品詞のN-gramの各々が存在するか否かを表す素性である。
焦点推定モデル記憶部28は、後述する焦点推定モデル学習装置200において学習された焦点推定モデルが記憶されている。
スコア算出部30は、特徴量抽出部26において抽出された焦点候補の各々の特徴量と、焦点推定モデル記憶部28に記憶されている焦点推定モデルとに基づいて、焦点候補の各々について、当該焦点候補の焦点としてのふさわしさを表すスコアを求め、求められたスコアの数値が高い順に焦点候補を並び替える。具体的には、ロジスティック回帰分析の手法を用いて0〜1のレンジのスコアを求める。例えば、図3に示すような、複数の文、及び当該文の焦点候補とスコアの関係が得られる。上記図3の例の場合、文番号5の文の焦点候補とスコアの関係は、「大島優子:0.807618、ダンス:0.620161」となり、焦点候補である大島優子、焦点候補であるダンスの順で焦点としてふさわしいことを表している。そのため、この場合、大島優子、ダンスの順番を保持する。なお、特徴量からスコアを求めることができれば別の手法を用いてもよい。例えば、サポートベクトルマシンで境界平面からの距離をスコアとして用いてもよい。
焦点候補選択部32は、焦点候補の各々について、スコア算出部30により算出された当該焦点候補のスコアに基づいて、焦点候補リストに追加する焦点候補か、棄却する焦点候補かを選択する。そして、追加する焦点候補として選択された焦点候補を、スコア順にまとめて焦点候補リスト(cands)とする。
具体的には、予め閾値(例えば0.1)を定めておき、焦点候補のスコアが閾値よりも低い場合には、当該焦点候補は、焦点としてのふさわしさが低いとして棄却される。一方、焦点候補のスコアが閾値以上である場合には、当該焦点候補は、焦点としてふさわしいとして、焦点候補リストに追加する焦点候補として選択される。そして、焦点候補リストに追加する焦点候補として選択された焦点候補を、スコア順にまとめて焦点候補リスト(cands)とする。また、焦点として用いたくない焦点候補について除外リストを準備しておき、除外リストに含まれる焦点候補であれば、棄却する焦点候補として選択するようにしてもよい。
テキストコーパス記憶部34は、複数の自然言語の文書から構成されるコーパスを記憶している。例えば、コーパスとして、ネットワークを介して取得される新聞記事の集合やブログデータの集合を用いればよい。
必須格定義記憶部36は、特定の述語(動詞、形容詞、事態性名詞)の各々に対応する必須格が記憶されている。ここで、必須格とは、述語が格要素として持つべき格のことであり、例えば、「会う」であれば「ガ格」と「ニ格」である。本実施の形態においては、人手で定義した特定の述語に対応する必須格を用いるが、大量のテキストデータを解析し、述語と同時に現れる格の頻度から一定の頻度以上現れるものを選択することで定義された必須格を用いてもよい。
照応解析部38は、ユーザ発話解析部22から入力される形態素解析処理の結果について、照応解析を行う。ここで、照応解析とは、ユーザ発話に含まれる参照表現が何を指すか同定したり、省略された名詞句(全体として名詞とみなされる単語列、特に、主辞が名詞である単語列)を補完したりする処理を行う。本実施の形態では、名詞句を補完する処理を行う。当該処理は特に、ゼロ代名詞解消処理という。ゼロ代名詞解消処理は、対象となるユーザ発話に含まれる述語の必須格を調べ、当該必須格が当該ユーザ発話内に存在しない場合に、その必須格を文脈に現れる名詞句から探す。例えば、焦点リスト記憶部42に記憶されている焦点リストに格納されている単語(名詞連続や固有表現、以降、これらも集合的に名詞句と呼ぶ)を各々抽出し、対象となっているユーザ発話内に含まれる述語について、その名詞句がその必須格を埋める確率を、テキストコーパス記憶部34に記憶されているテキストコーパスに基づいて計算することで、省略されている必須格を推定する(非特許文献6:関和広,藤井敦,石川徹也,確率モデルを用いた日本語ゼロ代名詞の照応解析,自然言語処理,vol.9, no.3, pp.63-85, 2002.)。
以下に、照応解析部38の具体的な処理について説明する。照応解析部38は、まず、ユーザ発話解析部22から入力された形態素解析処理結果について、係り受け解析を行う。具体的には、ユーザ発話についての形態素解析結果を文節に区切り、文節間の係り受け構造を同定する。係り受け構造を同定することにより、文の述語と格要素を同定する。例えば、「太郎が花子に会う」であれば、「太郎が」「花子に」「会う」がそれぞれ文節であり、「太郎が」が「会う」にそれぞれ係っている。「会う」が述語であり、その係っている文節から、ガ格の要素が「太郎」であり、ニ格の要素が「花子」であるとわかる。
次に、同定された述語の各々について、当該述語に対応する必須格の各々を必須格定義記憶部36に記憶されている必須格定義から取得し、当該述語に対応する必須格の各々が、当該ユーザ発話内に存在するか否かを判断する。ここで、当該述語に対応する必須格の全てがユーザ発話内に存在する場合には、当該述語についてゼロ代名詞解消処理は行われない。
次に、当該述語に対応する必須格のうち少なくとも1つの必須格が当該ユーザ発話内に存在しない場合、当該存在しない必須格の各々をゼロ代名詞を伴う格として認定する。そして、焦点リスト記憶部42に記憶されている焦点リストから、名詞句の各々を抽出する。
次に、当該述語に対して認定されたゼロ代名詞を伴う格の各々について、抽出された名詞句毎に、テキストコーパス記憶部34に記憶されているテキストコーパスに基づいて、名詞句が当該述語のゼロ代名詞を伴う格の格要素となる確率(すなわち、P(名詞句|述語、格))を算出し、算出された確率のうち最も確率が高い名詞句を、当該ゼロ代名詞が指す名詞句の探索結果とする。ただし、確率が予め定められた値よりも低い場合には、ゼロ代名詞が指す名詞句が探索されなかったと判断する。
ユーザ発話から同定された述語の各々について、上記のようにゼロ代名詞が指す名詞句が探索されると、ユーザ発話の述語の各々のゼロ代名詞の各々が指す名詞句をまとめて、ゼロ代名詞が指す名詞句のリスト(zeros)を生成し、焦点更新部40に出力する。
このとき、ユーザ発話の述語の各々のゼロ代名詞が指す名詞句が、同一文内に複数ある場合は、出現順、もしくは、対応する格(格助詞によってあらわされる)に応じて予め設定された順序に従って、ユーザ発話の述語の各々のゼロ代名詞が指す名詞句を並び替えて、ゼロ代名詞が指す名詞句のリスト(zeros)に格納する。例えば、ヲ格、ニ格、ガ格、デ格、ト格、カラ格、マデ格の順で並び替える。
ゼロ代名詞の参照する名詞句は話者にとって発話する必要がないと感じているほど、対話における話題の中心になっている名詞句だと考えられ、焦点を更新するために考慮する必要がある。
そこで、焦点更新部40は、焦点候補選択部32から入力される焦点候補リスト(cands)と、照応解析部38から入力されるゼロ代名詞が指す名詞句のリスト(zeros)と、焦点リスト記憶部42に記憶されている更新前の焦点リスト(centers)とに基づいて、焦点リスト記憶部42に記憶されている焦点リストを更新する。具体的には、ゼロ代名詞解消を行わない場合と、ゼロ代名詞解消を行った場合に分けて以下の規則により焦点リストを更新する。なお、ゼロ代名詞解消を行わない場合には、照応解析部38からゼロ代名詞が指す名詞句のリスト(zeros)は入力されない。
<ゼロ代名詞解消を行う場合>
・焦点候補リスト(cands)が空、かつ、ゼロ代名詞が指す名詞句のリスト(zeros)が空の場合、更新前の焦点リスト(centers)を返す(焦点リストを更新しない)。
・焦点候補リスト(cands)が空でない、または、ゼロ代名詞が指す名詞句のリスト(zeros)が空でない場合、ゼロ代名詞が指す名詞句のリスト(zeros)と、焦点候補リスト(cands)とを結合し、結合したリストで、焦点リスト記憶部42に記憶されている焦点リストを更新する。なお、結合するゼロ代名詞が指す名詞句のリスト(zeros)と、焦点候補リスト(cands)とに重複した要素がある場合、リストの先頭の方のみを残すように結合する。例えば、ゼロ代名詞が指す名詞句のリスト(zeros)が(A,B)であり、焦点候補リスト(cands)が(B,A,C)である場合、結合した結果は、(A,B,C)というリストとなる。
<ゼロ代名詞解消を行わない場合>
・焦点候補リスト(cands)が空の場合、更新前の焦点リスト(centers)を返す(焦点リストを更新しない)。
・焦点候補リスト(cands)が空でない場合、焦点候補リスト(cands)を新しい焦点リストとして、焦点リスト記憶部42に記憶されている焦点リストを更新する。
<第1の実施の形態に係る焦点推定モデル学習装置の構成>
次に、本発明の第1の実施の形態に係る焦点推定モデル学習装置の構成について説明する。図4に示すように、本発明の第1の実施の形態に係る焦点推定モデル学習装置200は、CPUとRAMと後述する焦点推定モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この焦点推定モデル学習装置200は、機能的には図4に示すように入力部210と、演算部220と、出力部250とを備えている。なお、焦点推定モデル学習装置がモデル学習装置の一例である。
入力部210は、文から抽出された焦点候補と、人手で当該焦点候補に与えられた焦点らしさを表すスコアとのペアが付与された複数の文を、学習データとして受け付ける。図5に学習データの例を示す。なお、学習データにおける焦点候補は、焦点推定装置100と同様に抽出すればよく、本実施の形態では、1文に1つ抽出するものとし、1文から、複数の焦点候補が抽出された場合には、1つの焦点候補を選択する。焦点候補の1つを選択する方法としては、ランダムでもよいし、文中の出現順や焦点候補に後続する格助詞に基づいて選んでもよい。
学習データ記憶部222は、入力部210において受け付けた学習データを記憶している。
特徴量抽出部224は、焦点推定装置100の特徴量抽出部26と同様の特徴量を、入力部210において受け付けた学習データの焦点候補の各々について抽出する。
モデル学習部226は、学習データの焦点候補の各々について抽出された特徴量と、焦点候補の各々に与えられたスコアとに基づいて、焦点推定モデルを学習する。例えば、学習データの焦点候補の各々について、焦点らしさのスコアが3点以上である焦点候補を正例、2点以下の焦点候補を負例として、焦点候補の特徴量から正例、負例を判定する焦点推定モデルを、ロジスティック回帰分析の手法により求める。ロジスティック回帰分析は、特徴量の各素性についての重みを求めることができ、この重みの集合を焦点推定モデルとして学習し、焦点推定モデル記憶部228に記憶するとともに、出力部250へ出力する。
焦点推定モデル記憶部228は、モデル学習部226において学習された焦点推定モデルを記憶している。
<第1の実施の形態に係る焦点推定モデル学習装置の作用>
次に、本発明の第1の実施の形態に係る焦点推定モデル学習装置200の作用について説明する。入力部10により学習データを受け付け、学習データ記憶部222に記憶されると、焦点推定モデル学習装置200は、図6に示す焦点推定モデル学習処理ルーチンを実行する。
まず、ステップS100では、学習データ記憶部222に記憶されている学習データを読み込む。
次に、ステップS102では、ステップS100において取得した学習データの焦点候補の各々について、上記(1)〜(13)の素性からなる特徴量を抽出する。
次に、ステップS104では、ステップS100において取得した学習データの焦点候補の各々に与えられたスコアと、ステップS102において取得した学習データの焦点候補の各々の特徴量とに基づいて、焦点推定モデルを学習する。
次に、ステップS106では、ステップS104において取得した焦点推定モデルを出力部250に出力するとともに、焦点推定モデル記憶部228に記憶し、処理を終了する。
<第1の実施の形態に係る焦点推定装置の作用>
次に、本発明の第1の実施の形態に係る焦点推定装置100の作用について説明する。事前に、焦点推定モデル学習装置200において学習された焦点推定モデルが焦点推定モデル記憶部28に記憶されている。そして、入力部10によりユーザ発話を受け付ける毎に、焦点推定装置100は、図7に示す焦点推定処理ルーチンを繰り返し実行する。
まず、ステップS200では、入力部10において受け付けたユーザ発話を読み込む。次に、ステップS202では、焦点推定モデル記憶部28に記憶されている焦点推定モデルを読み込む。次に、ステップS204では、テキストコーパス記憶部34に記憶されているテキストコーパスを読み込む。次に、ステップS206では、必須格定義記憶部36に記憶されている必須格定義を読み込む。次に、ステップS208では、焦点リスト記憶部42に記憶されている焦点リストを読み込む。
次に、ステップS210では、ステップS200において取得したユーザ発話について、形態素解析及び固有表現抽出を行う。
次に、ステップS212では、ステップS210において取得した形態素解析処理結果及び固有表現抽出処理結果に基づいて、焦点候補を抽出する。
次に、ステップS214では、ステップS210において取得した形態素解析処理結果と、ステップS212において取得した焦点候補の各々とに基づいて、焦点候補の各々について上記(1)〜(13)の素性からなる特徴量を抽出する。
次に、ステップS216では、ステップS212において取得した焦点候補の各々の特徴量と、ステップS202において取得した焦点推定モデルとに基づいて、焦点候補の各々について、焦点としてのふさわしさを表すスコアを算出する。
次に、ステップS218では、ステップS216において取得した焦点候補の各々の焦点としてのふさわしさを表すスコアと、予め定められた閾値とに基づいて、スコアが閾値以上となる焦点候補を焦点候補リストに追加する焦点候補として選択すると共に、スコアが閾値未満となる焦点候補を棄却し、選択した焦点候補の各々を格納した焦点候補リスト(cands)を作成する。
次に、ステップS220では、ステップS210において取得した形態素解析処理済みのユーザ発話について、係り受け解析を行い、ユーザ発話の述語と格要素を同定する。
次に、ステップS222では、ステップS220において取得したユーザ発話の述語の各々について、当該述語に対応する必須格をステップS206において取得した必須格定義から取得する。
次に、ステップS224では、ステップS222において取得した処理対象となる述語に対応する必須格の全てが、ステップS200において取得したユーザ発話内に存在するか否かの判定を行う。当該述語に対応する必須格の全てがユーザ発話内に存在する場合には、ステップS230へ移行し、当該述語に対応する必須格のうち少なくとも1つがユーザ発話内に存在しない場合には、存在しない必須格の各々をゼロ代名詞を伴う格として認定しステップS226へ移行する。
次に、ステップS226では、ステップS208において取得した焦点リストから名詞句の各々を抽出し、ステップS220において取得した処理対象となる述語と、ステップS224において認定したゼロ代名詞を伴う格のうちの処理対象となるゼロ代名詞を伴う格と、抽出した名詞句の各々とに基づいて、名詞句が当該述語のゼロ代名詞を伴う格の格要素となる確率(すなわち、P(名詞句|述語、格))を算出し、算出された確率のうち最も確率が高い名詞句を当該ゼロ代名詞が指す名詞句として推定する。ただし、確率が予め定められた値より低い場合いは、ゼロ代名詞が指す名詞句が探索されなかったと推定する。
次に、ステップS228では、処理対象の述語に対して認定された全てのゼロ代名詞を伴う格について、上記ステップS226の処理を終了したか否かの判定を行う。処理対象の述語に対して認定された全てのゼロ代名詞を伴う格について上記ステップS226の処理を終了している場合には、ステップS230へ移行し、処理対象の述語に対して認定された全てのゼロ代名詞を伴う格について上記ステップS226の処理を終了していない場合には、処理対象となるゼロ代名詞を伴う格を変更し、ステップS226へ移行する。
次に、ステップS230では、ステップS220において取得した全ての述語について上記ステップS224〜上記ステップS228の処理を終了したか否かの判定を行う。全ての述語について上記ステップS224〜上記ステップS228の処理を終了している場合には、ステップS232へ移行し、全ての述語について上記ステップS224〜上記ステップS228の処理を終了していない場合には、処理対象となる述語を変更しステップS224へ移行する。
次に、ステップS232では、ステップS226において取得したゼロ代名詞が指す名詞句の各々を格納した、ゼロ代名詞が指す名詞句のリスト(zeros)を作成する。
次に、ステップS234では、ステップS208において取得した焦点リスト(centers)と、ステップS218において取得した焦点候補リスト(cands)と、ステップS232において取得したゼロ代名詞が指す名詞句のリスト(zeros)とに基づいて、又は、ステップS208において取得した焦点リスト(centers)と、ステップS218において取得した焦点候補リスト(cands)とに基づいて、焦点リスト記憶部42に記憶されている焦点リストを更新する。
ステップS236では、ステップS234において更新された焦点リストを出力部50へ出力して処理を終了する。
<実施例>
焦点リスト記憶部42に記憶されている焦点リストに「イタリア、パスタ」が格納されている場合において、「イタリアはパスタですよね」というシステム発話の後に、入力部10においてユーザ発話「美味しい」を受け付けた場合、照応解析部38により「パスタ」が省略されていると判定され、「パスタ」が焦点となる。システムが応答した後、入力部10においてユーザ発話「パスタはアルデンテだよね」を受け付けると、「パスタ」及び「アルデンテ」の焦点としてのふさわしさを学習した焦点推定モデルを用いて、「パスタ」及び「アルデンテ」についてスコアを算出し、当該スコアを比較した結果「アルデンテ」のスコアの方が高いため、焦点リストを「アルデンテ、パスタ」と更新し、図8に示すように「アルデンテ」を用いたユーザ発話を生成している。
以上説明したように、本発明の第1の実施の形態に係る焦点推定装置によれば、ユーザ発話から抽出された発話の焦点候補と、ユーザ発話の省略した名詞句とに基づいて、ユーザの発話の焦点を高精度に推定することができる。
また、本発明の第1の実施の形態に係る焦点推定モデル学習装置によれば、焦点候補の各々の素性からなる特徴量と、焦点候補の各々に付与されたスコアとに基づいて、ユーザの発話の焦点を高精度に推定する焦点推定モデルを学習することができる。
また、焦点を適切にとらえることで、ユーザが話したい内容に沿った対話が可能な対話システムが実現でき、ユーザとシステムの会話をよりスムーズなものにすることができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
第1の実施の形態においては、学習データについての焦点候補を得る方法として、焦点推定モデルの焦点候補抽出部と同様の処理に基づいて焦点候補を抽出している場合について説明したが、これに限定されるものではない。例えば、形態素解析の結果から名詞と判断されたものを焦点候補として抽出してもよい。
また、第1の実施の形態においては、学習データの各文について、当該文に含まれる焦点候補のうち、一つの焦点候補を用いている場合について説明したが、これに限定されるものではい。例えば、学習データの各文について、当該文に含まれる焦点候補を複数抽出して、それぞれにスコアリングを行ってもよい。
また、第1の実施の形態においては、焦点推定モデルを学習する手法について、ロジスティック回帰分析を用いる場合について説明したが、これに限定されるものではない。例えば、サポートベクトルマシンや決定木を用いてもよい。
また、第1の実施の形態においては、照応解析として名詞句を補完する処理について行う場合について説明したが、これに限定されるものではない。例えば、照応解析として、ユーザ発話内の参照表現が何を指すかを同定してもよい。この場合には、ユーザ発話内の参照表現が指す1つ以上の単語からなる名詞句を用いて、焦点リストを更新すればよい。
また、第1の実施の形態においては、必須格を人手で定義した必須格定義を用いる場合について説明したが、これに限定されるものではない。例えば、大量のテキストデータを解析し、述語と同時に現れる格の頻度から一定の頻度以上現れるものを選択することで必須格を定義してもよい。
また、第1の実施の形態においては、焦点リストから抽出した名詞句の全てについて、名詞句が述語のゼロ代名詞を伴う格の格要素となる確率が予め定められた値よりも低い場合には、ゼロ代名詞が指す名詞句が探索されなかったと判断する場合について説明したが、これに限定されるものではない。例えば、焦点リストから抽出した名詞句の各々について上記の確率を算出すると共に、ゼロ代名詞が指す名詞句が存在しない確率を算出し、ゼロ代名詞が指す名詞句が存在しない確率が一番高い場合には、ゼロ代名詞が指す名詞句が存在しないと判断してもよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
次に、第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成及び作用となる部分については、同一符号を付して説明を省略する。
第2の実施の形態では、焦点リストに過去に入力された複数のユーザ発話の焦点も保持する点が第1の実施の形態と異なっている。
<第2の実施の形態に係る焦点推定装置の構成>
次に、第2の実施の形態に係る焦点推定装置300の構成について説明する。
本発明の第2の実施の形態に係る焦点推定装置300は、図9に示すように、入力部10と、演算部320と、出力部50とを備えている。
演算部20は、ユーザ発話解析部22と、焦点候補抽出部24と、特徴量抽出部26と、焦点推定モデル記憶部28と、スコア算出部30と、焦点候補選択部32と、焦点更新部340と、テキストコーパス記憶部34と、必須格定義記憶部36と、照応解析部38と、焦点リスト記憶部342とを備えている。
焦点リスト記憶部342は、過去に入力された複数のユーザ発話の各々について推定された焦点の各々を格納している焦点リストを記憶している。
焦点更新部340は、焦点候補選択部32から入力される焦点候補リスト(cands)と、照応解析部38から入力されるゼロ代名詞が指す名詞句のリスト(zeros)と、焦点リスト記憶部42に記憶されている更新前の焦点リスト(centers)とに基づいて、焦点リスト記憶部42に記憶されている焦点リストを更新する。具体的には、ゼロ代名詞解消を行わない場合と、ゼロ代名詞解消を行った場合に分けて以下の規則により焦点リストを更新する。なお、ゼロ代名詞解消を行わない場合には、照応解析部38からゼロ代名詞が指す名詞句のリスト(zeros)は入力されない。
<ゼロ代名詞解消を行う場合>
・焦点候補リスト(cands)が空、かつ、ゼロ代名詞が指す名詞句のリスト(zeros)が空の場合、更新前の焦点リスト(centers)を返す(焦点リストを更新しない)。
・焦点候補リスト(cands)が空でない、または、ゼロ代名詞が指す名詞句のリスト(zeros)が空でない場合、ゼロ代名詞が指す名詞句のリスト(zeros)と、焦点候補リスト(cands)と、更新前の焦点リスト(centers)とを結合し、結合したリストで、焦点リスト記憶部42に記憶されている焦点リストを更新する。なお、結合した結果に重複した要素がある場合、リストの先頭の方のみを残すように結合する。
<ゼロ代名詞解消を行わない場合>
・焦点候補リスト(cands)が空の場合、更新前の焦点リスト(centers)を返す(焦点リストを更新しない)。
・焦点候補リスト(cands)が空でない場合、焦点候補リスト(cands)と更新前の焦点リスト(centers)とを結合し、結合したリストで、焦点リスト記憶部42に記憶されている焦点リストを更新する。
なお、第2の実施の形態に係る焦点推定装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
以上説明したように、本発明の第2の実施の形態に係る焦点推定装置によれば、ユーザ発話から抽出された発話の焦点候補と、複数の過去のユーザ発話の焦点から抽出した、ユーザ発話の省略した名詞句とに基づいて、ユーザの発話の焦点を高精度に推定することができる。
また、本発明の第2の実施の形態に係る焦点推定モデル学習装置によれば、焦点候補の各々の素性からなる特徴量と、焦点候補の各々に付与されたスコアとに基づいて、ユーザの発話の焦点を高精度に推定する焦点推定モデルを学習することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
第2の実施の形態においては、過去の焦点を全て保持する場合について説明したが、これに限定されるものではない。例えば、過去の焦点を保持する場合、更新後の焦点リストの要素数が多すぎると、ゼロ代名詞解消のノイズになるため、焦点リストの先頭から一定数(W)のみを焦点リストに保持するようにしてもよい。この一定数(W)を、更新後の焦点リストの上限値として設定してもよいし、一定数(W)を、過去の焦点として保持すべき上限数として設定してもよい。
次に、第3の実施の形態について説明する。なお、第1の実施の形態と同様の構成及び作用となる部分については、同一符号を付して説明を省略する。
第3の実施の形態では、照応解析を行う際に、発話履歴から名詞句を抽出する点が第1の実施の形態と異なっている。
<第3の実施の形態に係る焦点推定装置の構成>
次に、第3の実施の形態に係る焦点推定装置400の構成について説明する。
本発明の第3の実施の形態に係る焦点推定装置400は、図10に示すように、入力部10と、演算部420と、出力部50とを備えている。
演算部420は、ユーザ発話解析部22と、焦点候補抽出部24と、特徴量抽出部26と焦点推定モデル記憶部28と、焦点候補選択部32と、発話履歴記憶部422と、テキストコーパス記憶部34と、必須格定義記憶部36と、照応解析部424と、焦点更新部40と、焦点リスト記憶部42とを備えている。
発話履歴記憶部422は、過去に入力された複数の形態素解析済みのユーザ発話が記憶されている。
照応解析部424は、ユーザ発話解析部22から入力される形態素解析処理の結果について、照応解析を行う。本実施の形態では、照応解析として、ゼロ代名詞解消処理を行う。例えば、発話履歴記憶部422に記憶されている過去に入力された複数の形態素解析済みのユーザ発話から名詞句の各々を抽出し、対象となっているユーザ発話内に含まれる述語について、その名詞句がその必須格を埋める確率を、テキストコーパス記憶部34に記憶されているテキストコーパスに基づいて計算することで、省略されている必須格を推定する(非特許文献6)。
例えば、発話1「イタリアでパスタを食べた」、発話2「美味しかった?」という発話があった場合、「美味しい」という述語の必須格が「ガ格」であるとすると、文脈に現れる名詞句(「イタリア」と「パスタ」)を見比べて、「イタリアが美味しい」よりも「パスタが美味しい」の方がテキストコーパスでの確率が高いため、「パスタ」が、ゼロ代名詞が指すものとしてふさわしいと判定することができる。ただし、「パスタ」の確率が予め定められた値よりも低い場合には、ゼロ代名詞が指す名詞句が探索されなかったと判定する。このようにして、入力発話について省略されている名詞句を求める。
以下に、照応解析部424の具体的な処理について説明する。照応解析部424は、まず、ユーザ発話解析部22から入力された形態素解析処理結果について、係り受け解析を行い、文の述語と格要素を同定する。
次に、同定された述語の各々について、当該述語に対応する必須格の各々を必須格定義記憶部36に記憶されている必須格定義から取得し、当該述語に対応する必須格の各々が、当該ユーザ発話内に存在するか否かを判断する。
次に、当該述語に対応する必須格のうち少なくとも1つの必須格が当該ユーザ発話内に存在しない場合、当該存在しない必須格の各々をゼロ代名詞を伴う格として認定する。そして、発話履歴記憶部422に記憶されている過去に入力された複数の形態素解析済みのユーザ発話から名詞句の各々を抽出する。
次に、当該述語に対して認定されたゼロ代名詞を伴う格の各々について、抽出された名詞句毎に、テキストコーパス記憶部34に記憶されているテキストコーパスに基づいて、名詞句が当該述語のゼロ代名詞を伴う格の格要素となる確率(すなわち、P(名詞句|述語、格))を算出し、算出された確率のうち最も確率が高い名詞句を、当該ゼロ代名詞が指す名詞句の探索結果とする。ただし、確率が予め定められた値よりも低い場合には、ゼロ代名詞が指す名詞句が探索されなかったと判断する。
ユーザ発話から同定された述語の各々について、上記のようにゼロ代名詞が指す名詞句が探索されると、ユーザ発話の述語の各々のゼロ代名詞の各々が指す名詞句をまとめてゼロ代名詞が指す名詞句のリスト(zeros)として焦点更新部40に出力する。
なお、第3の実施の形態に係る焦点推定装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
以上説明したように、本発明の第3の実施の形態に係る焦点推定装置によれば、ユーザ発話から抽出された発話の焦点候補と、過去のユーザ発話から抽出した、ユーザ発話の省略した名詞句とに基づいて、ユーザ発話の焦点を高精度に推定することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
第3の実施の形態においては、発話履歴から名詞句を抽出する場合について説明したが、これに限定されるものではない。例えば、発話履歴及び焦点リストの双方から名詞句を抽出し、ユーザ発話内の省略した名詞句を抽出してもよい。
また、上記の第1の実施の形態〜第3の実施の形態において、焦点候補の特徴量として、上記(1)〜(13)の素性からなる特徴量を抽出する場合を例に説明したが、これに限定されるものではなく、焦点候補の特徴量として、上記(1)〜(13)のうちの少なくとも1つの素性からなる特徴量を抽出するようにしてもよい。
10、210 入力部
20、220、320、420 演算部
22 ユーザ発話解析部
24 焦点候補抽出部
26 特徴量抽出部
28 焦点推定モデル記憶部
30 スコア算出部
32 焦点候補選択部
34 テキストコーパス記憶部
36 必須格定義記憶部
38、424 照応解析部
40、340 焦点更新部
42、342 焦点リスト記憶部
50 出力部
100、300、400 焦点推定装置
200 焦点推定モデル学習装置
222 学習データ記憶部
224 特徴量抽出部
226 モデル学習部
228 焦点推定モデル記憶部
250 出力部
422 発話履歴記憶部

Claims (18)

  1. ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定する焦点推定装置において、
    入力された前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果の少なくとも一方に基づいて、前記ユーザの発話から少なくとも1つの単語からなる名詞句及び固有表現の少なくとも一方を前記発話の焦点候補として抽出する焦点候補抽出部と、
    前記焦点候補抽出部により抽出された焦点候補の各々について、前記ユーザの発話に対する形態素解析処理の結果に基づいて、前記焦点候補の特徴量を抽出する特徴量抽出部と、
    前記焦点候補の各々について、前記特徴量抽出部により抽出された前記焦点候補の特徴量と、焦点らしさを表すスコアを推定するための予め学習された焦点推定モデルとに基づいて、前記焦点候補の焦点らしさを表すスコアを算出するスコア算出部と、
    前記スコア算出部により算出された前記焦点候補の各々の前記スコアと、予め定められた閾値とに基づいて、前記焦点候補の各々から、前記ユーザの発話の焦点を選択する焦点候補選択部と、
    前記焦点候補選択部により選択された前記ユーザの発話の焦点を用いて、前記ユーザの発話の焦点が格納される焦点リストを更新する焦点更新部と、
    を含む焦点推定装置。
  2. ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定する焦点推定装置において、
    入力された前記ユーザの発話に対する係り受け解析処理の結果と、前記ユーザの発話より前における前記発話が格納されている発話履歴、及び前記ユーザの発話より前における前記発話の焦点が格納された焦点リストの少なくとも一方とに基づいて、前記発話履歴に格納されている前記発話に含まれる名詞句、及び前記焦点リストに格納されている焦点の少なくとも一方から、前記ユーザの発話に含まれる参照表現が参照している、又は前記ユーザの発話において省略されている名詞句及び焦点の少なくとも一方を推定する照応解析部と、
    前記入力された前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果の少なくとも一方に基づいて、前記ユーザの発話から少なくとも1つの単語からなる名詞句及び固有表現の少なくとも一方を前記発話の焦点候補として抽出する焦点候補抽出部と、
    前記焦点候補抽出部により抽出された焦点候補の各々について、前記ユーザの発話に対する形態素解析処理の結果に基づいて、前記焦点候補の特徴量を抽出する特徴量抽出部と、
    前記焦点候補の各々について、前記特徴量抽出部により抽出された前記焦点候補の特徴量と、焦点らしさを表すスコアを推定するための予め学習された焦点推定モデルとに基づいて、前記焦点候補の焦点らしさを表すスコアを算出するスコア算出部と、
    前記スコア算出部により算出された前記焦点候補の各々の前記スコアと、予め定められた閾値とに基づいて、前記焦点候補の各々から、前記ユーザの発話の焦点を選択する焦点候補選択部と、
    前記焦点候補選択部により選択された前記ユーザの発話の焦点と、前記照応解析部により推定された名詞句及び焦点の少なくとも一方とを用いて、前記焦点リストを更新する焦点更新部と、
    を含む焦点推定装置。
  3. 前記焦点更新部は、
    前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定された場合に、前記焦点候補選択部により選択された前記ユーザの発話の焦点と、前記照応解析部により推定された名詞句及び焦点の少なくとも一方とを用いて、前記焦点リストを更新し、
    前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定されなかった場合に、前記焦点候補選択部により選択された前記ユーザの発話の焦点を用いて、前記焦点リストを更新する請求項2記載の焦点推定装置。
  4. 前記焦点候補選択部は、更に前記選択した前記ユーザの発話の焦点を、前記発話の焦点候補を前記スコア順に並べて格納した焦点候補リストに追加し、
    前記照応解析部は、更に前記推定した前記ユーザの発話に含まれる参照表現が参照している、又は前記ユーザの発話において省略されている名詞句及び焦点の少なくとも一方をゼロ代名詞リストに格納し、
    前記焦点更新部は、
    前記焦点候補リストが空であり、かつ、前記ゼロ代名詞リストが空である場合、前記焦点リストを更新せず、
    前記焦点候補リストが空でない場合、又は、前記ゼロ代名詞リストが空でない場合、前記ゼロ代名詞リストの末尾に、前記焦点候補リストに含まれる要素であって、かつ、前記ゼロ代名詞リストに含まれない要素を、前記焦点候補リストに含まれる順番で結合したリストを、前記焦点リストとして更新し、
    前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定されず、かつ、前記焦点候補リストが空である場合、前記焦点リストを更新せず、
    前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定されず、かつ、前記焦点候補リストが空でない場合、前記焦点候補リストを前記焦点リストとして更新する請求項3記載の焦点推定装置。
  5. 前記照応解析部は、
    前記発話履歴に格納されている前記発話に含まれる名詞句、及び前記焦点リストに格納されている焦点の少なくとも一方の各々について、
    前記名詞句及び焦点の少なくとも一方が、テキストコーパスに含まれる述語の各々のゼロ代名詞を伴う格の格要素となる確率を算出することにより、前記推定した前記ユーザの発話に含まれる参照表現が参照している、又は前記ユーザの発話において省略されている名詞句及び焦点の少なくとも一方を推定し、更に、前記推定された名詞句及び焦点の少なくとも一方を、予め定められた格の順位に従って並べ替える請求項3又は4記載の焦点推定装置。
  6. 前記焦点候補抽出部は、前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果に基づいて、前記ユーザの発話から少なくとも1つの単語からなる名詞句及び固有表現を前記発話の焦点候補として抽出する請求項1〜5の何れか1項記載の焦点推定装置。
  7. ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定するための焦点推定モデルを学習するモデル学習装置において、
    複数の文と、前記複数の文に含まれる少なくとも1つの単語からなる名詞句及び固有表現の少なくとも一方である焦点候補の各々に対して付与された、前記焦点候補の焦点らしさを表すスコアとを受け付ける入力部と、
    前記入力部において受け付けた前記スコアが付与された前記焦点候補の各々について、前記焦点候補を含む文に対する形態素解析処理の結果に基づいて、前記焦点候補が文頭にあるか否か、前記焦点候補が文末にあるか否か、前記焦点候補の品詞に固有名詞又は未知語が含まれるか否か、前記焦点候補の品詞に動作性名詞が含まれるか否か、前記焦点候補の品詞に形容動詞が含まれるか否か、前記焦点候補の文字数、前記焦点候補の文字種が全てひらがなである場合におけるひらがなの文字数、前記焦点候補の文字種が全てカタカナである場合におけるカタカナの文字数、前記焦点候補の文字種が全て漢字である場合における漢字の文字数、前記焦点候補の直前の単語のN−gram、前記焦点候補の直前の品詞のN−gram、前記焦点候補の直後の単語のN−gram、及び前記焦点候補の直後の品詞のN−gramの少なくとも1つを表す素性からなる特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部において抽出された前記焦点候補の各々の特徴量と、前記焦点候補の各々に付与された前記スコアとに基づいて、焦点らしさを表すスコアを推定するための焦点推定モデルを学習するモデル学習部と、
    を含むモデル学習装置。
  8. 前記入力部は、前記複数の文と、前記複数の文に含まれる少なくとも1つの単語からなる名詞句及び固有表現である前記焦点候補の各々に対して付与された、前記焦点候補の焦点らしさを表すスコアとを受け付け、
    前記特徴量抽出部は、前記入力部において受け付けた前記スコアが付与された前記焦点候補の各々について、前記焦点候補を含む文に対する形態素解析処理の結果及び固有表現抽出処理の結果に基づいて、前記焦点候補が文頭にあるか否か、前記焦点候補が文末にあるか否か、前記焦点候補の品詞に固有名詞又は未知語が含まれるか否か、前記焦点候補の品詞に動作性名詞が含まれるか否か、前記焦点候補の品詞に形容動詞が含まれるか否か、前記焦点候補の文字数、前記焦点候補の文字種が全てひらがなである場合におけるひらがなの文字数、前記焦点候補の文字種が全てカタカナである場合におけるカタカナの文字数、前記焦点候補の文字種が全て漢字である場合における漢字の文字数、前記焦点候補の直前の単語のN−gram、前記焦点候補の直前の品詞のN−gram、前記焦点候補の直後の単語のN−gram、及び前記焦点候補の直後の品詞のN−gramの少なくとも1つを表す素性からなる特徴量を抽出する請求項7記載のモデル学習装置。
  9. 焦点候補抽出部と、特徴量抽出部と、スコア算出部と、焦点候補選択部と、焦点更新部と、を含む、ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定する焦点推定装置における焦点推定方法であって、
    前記焦点候補抽出部は、入力された前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果の少なくとも一方に基づいて、前記ユーザの発話から少なくとも1つの単語からなる名詞句及び固有表現の少なくとも一方を前記発話の焦点候補として抽出し、
    前記特徴量抽出部は、前記焦点候補抽出部により抽出された焦点候補の各々について、前記ユーザの発話に対する形態素解析処理の結果に基づいて、前記焦点候補の特徴量を抽出し、
    前記スコア算出部は、前記焦点候補の各々について、前記特徴量抽出部により抽出された前記焦点候補の特徴量と、焦点らしさを表すスコアを推定するための予め学習された焦点推定モデルとに基づいて、前記焦点候補の焦点らしさを表すスコアを算出し、
    前記焦点候補選択部は、前記スコア算出部により算出された前記焦点候補の各々の前記スコアと、予め定められた閾値とに基づいて、前記焦点候補の各々から、前記ユーザの発話の焦点を選択し、
    前記焦点更新部は、前記焦点候補選択部により選択された前記ユーザの発話の焦点を用いて、前記ユーザの発話の焦点が格納される焦点リストを更新する、
    焦点推定方法。
  10. 照応解析部と、焦点候補抽出部と、特徴量抽出部と、スコア算出部と、焦点候補選択部と、焦点更新部と、を含む、ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定する焦点推定装置における焦点推定方法であって、
    前記照応解析部は、入力された前記ユーザの発話に対する係り受け解析処理の結果と、前記ユーザの発話より前における前記発話が格納されている発話履歴、及び前記ユーザの発話より前における前記発話の焦点が格納された焦点リストの少なくとも一方とに基づいて、前記発話履歴に格納されている前記発話に含まれる名詞句、及び前記焦点リストに格納されている焦点の少なくとも一方から、前記ユーザの発話に含まれる参照表現が参照している、又は前記ユーザの発話において省略されている名詞句及び焦点の少なくとも一方を推定し、
    前記焦点候補抽出部は、前記入力された前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果の少なくとも一方に基づいて、前記ユーザの発話から少なくとも1つの単語からなる名詞句及び固有表現の少なくとも一方を前記発話の焦点候補として抽出し、
    前記特徴量抽出部は、前記焦点候補抽出部により抽出された焦点候補の各々について、前記ユーザの発話に対する形態素解析処理の結果に基づいて、前記焦点候補の特徴量を抽出し、
    前記スコア算出部は、前記焦点候補の各々について、前記特徴量抽出部により抽出された前記焦点候補の特徴量と、焦点らしさを表すスコアを推定するための予め学習された焦点推定モデルとに基づいて、前記焦点候補の焦点らしさを表すスコアを算出し、
    前記焦点候補選択部は、前記スコア算出部により算出された前記焦点候補の各々の前記スコアと、予め定められた閾値とに基づいて、前記焦点候補の各々から、前記ユーザの発話の焦点を選択し、
    前記焦点更新部は、前記焦点候補選択部により選択された前記ユーザの発話の焦点と、前記照応解析部により推定された名詞句及び焦点の少なくとも一方とを用いて、前記焦点リストを更新する、
    焦点推定方法。
  11. 前記焦点更新部により前記焦点リストを更新することは、
    前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定された場合に、前記焦点候補選択部により選択された前記ユーザの発話の焦点と、前記照応解析部により推定された名詞句及び焦点の少なくとも一方とを用いて、前記焦点リストを更新し、
    前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定されなかった場合に、前記焦点候補選択部により選択された前記ユーザの発話の焦点を用いて、前記焦点リストを更新する請求項10記載の焦点推定方法。
  12. 前記焦点候補選択部は、更に前記選択した前記ユーザの発話の焦点を、前記発話の焦点候補を前記スコア順に並べて格納した焦点候補リストに追加し、
    前記照応解析部は、更に前記推定した前記ユーザの発話に含まれる参照表現が参照している、又は前記ユーザの発話において省略されている名詞句及び焦点の少なくとも一方をゼロ代名詞リストに格納し、
    前記焦点更新部により前記焦点リストを更新することは、
    前記焦点候補リストが空であり、かつ、前記ゼロ代名詞リストが空である場合、前記焦点リストを更新せず、
    前記焦点候補リストが空でない場合、又は、前記ゼロ代名詞リストが空でない場合、前記ゼロ代名詞リストの末尾に、前記焦点候補リストに含まれる要素であって、かつ、前記ゼロ代名詞リストに含まれない要素を、前記焦点候補リストに含まれる順番で結合したリストを、前記焦点リストとして更新し、
    前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定されず、かつ、前記焦点候補リストが空である場合、前記焦点リストを更新せず、
    前記照応解析部により前記名詞句及び焦点の少なくとも一方が推定されず、かつ、前記焦点候補リストが空でない場合、前記焦点候補リストを前記焦点リストとして更新する請求項11記載の焦点推定方法。
  13. 前記照応解析部により名詞句及び焦点の少なくとも一方を推定することは、
    前記発話履歴に格納されている前記発話に含まれる名詞句、及び前記焦点リストに格納されている焦点の少なくとも一方の各々について、前記名詞句及び焦点の少なくとも一方が、テキストコーパスに含まれる述語の各々のゼロ代名詞を伴う格の格要素となる確率を算出することにより、前記推定した前記ユーザの発話に含まれる参照表現が参照している、又は前記ユーザの発話において省略されている名詞句及び焦点の少なくとも一方を推定し、
    更に、前記推定された名詞句及び焦点の少なくとも一方を、予め定められた格の順位に従って並べ替える請求項11又は12記載の焦点推定方法。
  14. 前記焦点候補抽出部により前記発話の焦点候補として抽出することは、前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果に基づいて、前記ユーザの発話から少なくとも1つの単語からなる名詞句及び固有表現を前記発話の焦点候補として抽出する請求項9〜13の何れか1項記載の焦点推定方法。
  15. 入力部と、特徴量抽出部と、モデル学習部と、を含む、ユーザと対話を行う対話システムが、前記ユーザの発話の次に発話するときの発話の話題として使うための、前記ユーザの発話の話題を表す焦点を推定するための焦点推定モデルを学習するモデル学習装置におけるモデル学習方法であって、
    前記入力部は、複数の文と、前記複数の文に含まれる少なくとも1つの単語からなる名詞句及び固有表現の少なくとも一方である焦点候補の各々に対して付与された、前記焦点候補の焦点らしさを表すスコアとを受け付け、
    前記特徴量抽出部は、前記入力部において受け付けた前記スコアが付与された前記焦点候補の各々について、前記焦点候補を含む文に対する形態素解析処理の結果に基づいて、前記焦点候補が文頭にあるか否か、前記焦点候補が文末にあるか否か、前記焦点候補の品詞に固有名詞又は未知語が含まれるか否か、前記焦点候補の品詞に動作性名詞が含まれるか否か、前記焦点候補の品詞に形容動詞が含まれるか否か、前記焦点候補の文字数、前記焦点候補の文字種が全てひらがなである場合におけるひらがなの文字数、前記焦点候補の文字種が全てカタカナである場合におけるカタカナの文字数、前記焦点候補の文字種が全て漢字である場合における漢字の文字数、前記焦点候補の直前の単語のN−gram、前記焦点候補の直前の品詞のN−gram、前記焦点候補の直後の単語のN−gram、及び前記焦点候補の直後の品詞のN−gramの少なくとも1つを表す素性からなる特徴量を抽出し、
    前記モデル学習部は、前記特徴量抽出部において抽出された前記焦点候補の各々の特徴量と、前記焦点候補の各々に付与された前記スコアとに基づいて、焦点らしさを表すスコアを推定するための焦点推定モデルを学習する、
    モデル学習方法。
  16. 前記特徴量抽出部により特徴量を抽出することは、前記入力部において受け付けた前記スコアが付与された前記焦点候補の各々について、前記焦点候補を含む文に対する形態素解析処理の結果及び固有表現抽出処理の結果に基づいて、前記焦点候補が文頭にあるか否か、前記焦点候補が文末にあるか否か、前記焦点候補の品詞に固有名詞又は未知語が含まれるか否か、前記焦点候補の品詞に動作性名詞が含まれるか否か、前記焦点候補の品詞に形容動詞が含まれるか否か、前記焦点候補の文字数、前記焦点候補の文字種が全てひらがなである場合におけるひらがなの文字数、前記焦点候補の文字種が全てカタカナである場合におけるカタカナの文字数、前記焦点候補の文字種が全て漢字である場合における漢字の文字数、前記焦点候補の直前の単語のN−gram、前記焦点候補の直前の品詞のN−gram、前記焦点候補の直後の単語のN−gram、及び前記焦点候補の直後の品詞のN−gramの少なくとも1つを表す素性からなる特徴量を抽出する請求項15記載のモデル学習方法。
  17. コンピュータを、請求項1〜6の何れか1項記載の焦点推定装置を構成する各部として機能させるためのプログラム。
  18. コンピュータを、請求項7又は8記載のモデル学習装置を構成する各部として機能させるためのプログラム。
JP2013213885A 2013-10-11 2013-10-11 焦点推定装置、モデル学習装置、方法、及びプログラム Active JP5860861B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013213885A JP5860861B2 (ja) 2013-10-11 2013-10-11 焦点推定装置、モデル学習装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013213885A JP5860861B2 (ja) 2013-10-11 2013-10-11 焦点推定装置、モデル学習装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015076054A JP2015076054A (ja) 2015-04-20
JP5860861B2 true JP5860861B2 (ja) 2016-02-16

Family

ID=53000825

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013213885A Active JP5860861B2 (ja) 2013-10-11 2013-10-11 焦点推定装置、モデル学習装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5860861B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11354601B2 (en) 2018-03-16 2022-06-07 Ricoh Company, Ltd. Learning classification device and learning classification method

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000200273A (ja) * 1998-11-04 2000-07-18 Atr Interpreting Telecommunications Res Lab 発話意図認識装置
JP5190415B2 (ja) * 2009-06-04 2013-04-24 パナソニック株式会社 半導体装置
JP5653709B2 (ja) * 2010-10-19 2015-01-14 国立大学法人京都大学 質問応答システム

Also Published As

Publication number Publication date
JP2015076054A (ja) 2015-04-20

Similar Documents

Publication Publication Date Title
US10496928B2 (en) Non-factoid question-answering system and method
Ramisch et al. mwetoolkit: A framework for multiword expression identification.
Oudah et al. NERA 2.0: Improving coverage and performance of rule-based named entity recognition for Arabic
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
KR101508070B1 (ko) 어휘지도를 이용한 용언의 다의어 의미 분석 방법
Atia et al. Increasing the accuracy of opinion mining in Arabic
US20160275074A1 (en) Anaphora resolution based on linguistic technologies
Castro et al. Authorship verification, average similarity analysis
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
Huang et al. An approach on Chinese microblog entity linking combining baidu encyclopaedia and word2vec
JP6126965B2 (ja) 発話生成装置、方法、及びプログラム
Sunitha A hybrid Parts Of Speech tagger for Malayalam language
JP5860861B2 (ja) 焦点推定装置、モデル学習装置、方法、及びプログラム
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
Akhundova Named entity recognition for the azerbaijani language
Ismail et al. Developing an automated Bangla parts of speech tagged dictionary
Gholami-Dastgerdi et al. Part of speech tagging using part of speech sequence graph
Deka et al. A study of t’nt and crf based approach for pos tagging in assamese language
Malandrakis et al. Affective language model adaptation via corpus selection
Nahar et al. SAP: Standard Arabic profiling toolset for textual analysis
JP2005025659A (ja) ゼロ代名詞解消方法、解消装置、解消プログラムおよびプログラムを記録した記録媒体
JP5698306B2 (ja) 焦点推定装置、方法、及びプログラム
Argaw et al. Dictionary-based Amharic-French information retrieval
JP6058563B2 (ja) モデル学習装置、フィルタ装置、方法、及びプログラム
Farzindar et al. Linguistic Pre-processing of Social Media Texts

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150407

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151221

R150 Certificate of patent or registration of utility model

Ref document number: 5860861

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150