JP5698306B2 - 焦点推定装置、方法、及びプログラム - Google Patents

焦点推定装置、方法、及びプログラム Download PDF

Info

Publication number
JP5698306B2
JP5698306B2 JP2013101379A JP2013101379A JP5698306B2 JP 5698306 B2 JP5698306 B2 JP 5698306B2 JP 2013101379 A JP2013101379 A JP 2013101379A JP 2013101379 A JP2013101379 A JP 2013101379A JP 5698306 B2 JP5698306 B2 JP 5698306B2
Authority
JP
Japan
Prior art keywords
focus
word
utterance
relevance
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013101379A
Other languages
English (en)
Other versions
JP2014222399A (ja
Inventor
東中 竜一郎
竜一郎 東中
豊美 目黒
豊美 目黒
のぞみ 小林
のぞみ 小林
平野 徹
徹 平野
千明 宮崎
千明 宮崎
牧野 俊朗
俊朗 牧野
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013101379A priority Critical patent/JP5698306B2/ja
Publication of JP2014222399A publication Critical patent/JP2014222399A/ja
Application granted granted Critical
Publication of JP5698306B2 publication Critical patent/JP5698306B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、焦点推定装置、方法、及びプログラムに係り、特に、ユーザの発話の焦点を推定する焦点推定装置、方法、及びプログラムに関する。
雑多な話題についてユーザと対話を行う雑談対話システムにおいて、現在の対話における話題を把握することは重要である。話題を適切に把握できないと、進行中の話題と関係のない発話を行う可能性があり、また、話題が変わったことを認識できずに過去の話題についての発話を行う可能性もあり、ユーザとの対話を不適切なものにする。
話題を表す単語を焦点と定義した場合、対話システムは焦点に基づいて発話を行うものとする。例えば、「動物」に関連する対話をユーザとシステムが行っているのであれば、「動物」が焦点である。また、対話の中で「犬」や「猫」についての話が展開されていれば、「犬」や「猫」が焦点となる。対話において、焦点は刻々と切り替わり、対話が展開されていく。このような話の流れに対話システムが追随するためには焦点を正しく認識する機構が必要である。
従来技術として、焦点の把握については、センタリング理論がある(非特許文献1)。センタリング理論とは、発話には焦点となる要素が存在すると仮定し、それらが発話にどのように現れ、どのように移り変わるかということについての理論である。
日本語では、提題助詞の「は」で示される名詞や、ガ格・ヲ格で定時される名詞が焦点になりやすい単語とされる(非特許文献2、非特許文献3)。
Barbara J. Grosz and Candace L. Sidner, Attention, intentions, and the structure of discourse Computational Linguistics, Volume 12 Issue 3, 1986, Pages 175-204, MIT Press. 吉田悦子,人文論叢: 三重大学人文学部文化学科研究紀要20, pp.193-202, 2003, 三重大学. 竹井光子,藤原美保,相沢輝昭,センタリング理論とゼロ代名詞:日本語コーパス分析と母語話者調査の結果から.言語処理学会第12 回年次大会発表論文集,pp. 292-295,2006.
上記の従来技術に基づいてユーザ発話から焦点となる単語を抽出するとすると、ユーザ発話において、提題助詞や、ガ格・ヲ格で示される名詞が出現した場合に、当該名詞を用いて焦点を次々に切り替えることになり、焦点の切り替えが頻発する。それにより、話題の切り替えが多くなり、一つの話題についてまとまりをもった議論を行う対話システムを実現することができないという問題がある。
本発明では、上記問題点を解決するために成されたものであり、ユーザの発話の焦点の切り替えが頻発することを回避して、ユーザ発話の焦点を推定することができる焦点推定装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る焦点推定装置は、ユーザの発話の話題を表す焦点を推定する焦点推定装置において、入力された前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果の少なくとも一方に基づいて、前記ユーザの発話から前記発話の焦点候補となる単語を抽出する焦点候補抽出部と、前記ユーザの発話より前における前記発話の焦点となる単語を取得する焦点取得部と、前記焦点候補抽出部により抽出された焦点候補となる単語と前記焦点取得部によって取得された前記焦点となる単語との関連度を評価する関連度評価部と、前記関連度評価部により評価された前記関連度が閾値以下の場合に、前記焦点候補となる単語を出力し、前記関連度評価部により評価された前記関連度が前記閾値より高い場合に、前記焦点取得部によって取得された前記焦点となる単語を出力する出力部と、前記関連度評価部により評価された関連度が前記閾値以下の場合に、前記焦点となる単語を前記焦点候補となる単語に更新する更新処理部と、を含んで構成されている。
第2の発明に係る焦点更新方法は、焦点候補抽出部と、焦点取得部と、関連度評価部と、出力部と、更新処理部と、を含むユーザの発話の話題を表す焦点を推定する焦点推定装置における焦点推定方法について、前記焦点候補抽出部は、入力された前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果の少なくとも一方に基づいて、前記ユーザの発話から前記発話の焦点候補となる単語を抽出し、前記焦点取得部は、前記ユーザの発話より前における前記発話の焦点となる単語を取得し、前記関連度評価部は、前記焦点候補抽出部により抽出された焦点候補となる単語と前記焦点取得部によって取得された前記焦点となる単語との関連度を評価し、前記出力部は、前記関連度評価部により評価された前記関連度が閾値以下の場合に、前記焦点候補となる単語を出力し、前記関連度評価部により評価された前記関連度が前記閾値より高い場合に、前記焦点取得部によって取得された前記焦点となる単語を出力し、前記更新処理部は、前記関連度評価部により評価された関連度が前記閾値以下の場合に、前記焦点となる単語を前記焦点候補となる単語に更新する
第1の発明及び第2の発明によれば、焦点候補抽出部により、入力されたユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果の少なくとも一方に基づいて、ユーザの発話から発話の焦点候補となる単語を抽出し、焦点取得部により、ユーザの発話より前における発話の焦点となる単語を取得し、関連度評価部により、焦点候補となる単語と焦点となる単語との関連度を評価する。
そして、出力部により、評価された関連度に応じて、焦点候補となる単語を出力する。
このように、第1の発明及び第2の発明によれば、ユーザの発話から抽出された発話の焦点候補となる単語と、ユーザの発話より前における発話の焦点となる単語との関連度に応じて、焦点候補となる単語を出力することにより、ユーザの発話の焦点の切り替えが頻発することを回避して、ユーザ発話の焦点を推定することができる。
第1及び第2の発明において、前記焦点候補抽出部は、名詞である単語及び固有表現である単語の少なくとも一方を前記焦点候補となる単語として抽出するようにしてもよい。
また、前記関連度評価部は、予め記憶されているコーパスにおいて、前記焦点候補となる単語及び前記焦点取得部によって取得された前記焦点となる単語が共起する度合いを、前記関連度として評価してもよい。
また、前記関連度評価部は、前記焦点候補となる単語及び前記焦点取得部によって取得された前記焦点となる単語が共起する度合いとして、前記焦点候補となる単語が出現する頻度と、前記焦点取得部によって取得された前記焦点となる単語が出現する頻度と、前記焦点候補となる単語及び前記焦点取得部によって取得された前記焦点となる単語が共起する頻度とに基づく対数尤度比を算出し、前記予め記憶されているコーパスを、ネットワークを介して取得した新聞記事の集合若しくはブログデータの集合から構成するようにしてもよい。
また、前記関連度評価部は、前記焦点候補となる単語及び前記焦点取得部によって取得された前記焦点となる単語が共起する度合いとして、前記焦点候補となる単語が出現する頻度と、前記焦点取得部によって取得された前記焦点となる単語が出現する頻度と、前記焦点候補となる単語及び前記焦点取得部によって取得された前記焦点となる単語が共起する頻度とに基づく対数尤度比を算出し、前記予め記憶されているコーパスを、対話データの集合から構成するようにしてもよい。
また、前記関連度評価部は、複数の単語の各々について前記単語と前記単語に関連する単語との組み合わせの各々を予め記憶した関連語辞書において、前記焦点取得部によって取得された前記焦点となる単語と前記焦点候補となる単語とが関連する単語の組み合わせとして含まれているか否かに基づいて、関連度を評してもよい。
また、本発明のプログラムは、コンピュータを、上記の焦点推定装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の焦点推定装置、方法、及びプログラムによれば、ユーザの発話から抽出された発話の焦点候補となる単語と、ユーザの発話より前における発話の焦点となる単語との関連度に応じて、焦点候補となる単語を出力することにより、ユーザの発話の焦点の切り替えが頻発することを回避して、ユーザ発話の焦点を推定することができる。
本発明の第1の実施の形態に係る焦点推定装置の機能的構成を示すブロック図である。 JTAGによる形態素解析処理結果の例を示す図である。 固有表現辞書で拡張したJTAGによる固有表現抽出処理結果の例を示す図である。 格に応じて焦点となりやすい焦点候補の優先順位の例を示す図である。 対数尤度比を算出する際に作成するテーブルの例を示す図である。 本発明の第1の実施の形態に係る焦点推定装置における焦点推定処理ルーチンを示すフローチャート図である。 対数尤度比を算出する際に作成するテーブルの例を示す図である。 本発明の第2の実施の形態に係る焦点推定装置の機能的構成を示すブロック図である。 関連語辞書の例を示す図である。 本発明の第2の実施の形態に係る焦点推定装置における焦点推定処理ルーチンを示すフローチャート図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<第1の実施の形態に係る焦点推定装置の構成>
次に、本発明の第1の実施の形態に係る焦点推定装置の構成ついて説明する。図1に示すように、本発明の第1の実施の形態に係る焦点推定装置100は、CPUとRAMと後述する焦点更新処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この焦点推定装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、ユーザの発話のからなるユーザ発話を受け付ける。また、複数の自然言語の文書から構成されるコーパスを受け付け、コーパス記憶部28に記憶する。例えば、コーパスとして、ネットワークを介して取得される新聞記事の集合やブログデータの集合を用いればよい。
演算部20は、ユーザ発話解析部22と、焦点候補抽出部24と、焦点取得部25と、関連度評価部26と、コーパス記憶部28と、焦点記憶部30と、更新処理部32とを備えている。
ユーザ発話解析部22は、入力部10において受け付けたユーザ発話について、形態素解析及び固有表現抽出を行い、形態素解析処理結果及び固有表現抽出処理結果を焦点候補抽出部24に出力する。第1の実施の形態においては、形態素解析器としてJTAGを用いる(非特許文献4:Takeshi Fuchi, Shinichiro Takagi:Japanese morphological analyzer using word co-occurrence:JTAG,Proc of the 36th ACL and 17th COLING, pp.409-413 (1998).)。また、独自の固有表現辞書(非特許文献5:Ryuichiro Higashinaka, Kugatsu Sadamitsu, Kuniko Saito, Toshiro Makino, Yoshihiro Matsuo, Creating an Extended Named Entity Dictionary from Wikipedia, Proc. COLING, pp. 1163-1178, 2012.)で拡張することで固有表現抽出を行えるようにしたJTAGも併せて用いる。
図2に、「アメリカのオバマ大統領が日本に外遊するんだって」というユーザ発話を形態素解析した結果を示す。以後、当該ユーザ発話が入力されたものとして説明する。JTAGの解析結果におけるカラムは、単語そのもの、品詞、標準表記、読み、日本語語彙大系に示される意味属性番号である。EOSは文末を意味する記号である。図3に示すように、固有表現辞書で拡張したJTAGの出力結果では、JTAGの解析結果に加えて最後のカラムに、該当単語が固有表現であれば固有表現ラベルが付与される。上記図3の出力結果においては、「オバマ大統領」に「Person」という固有表現ラベルが付与されている。
焦点候補抽出部24は、ユーザ発話解析部22から入力される形態素解析処理結果及び固有表現抽出処理結果を受け取り、焦点候補となる単語を抽出する。具体的には、形態素解析処理結果から名詞である単語を抽出し、固有表現抽出処理結果から固有表現である単語を抽出する。抽出された単語が複数ある場合には、先行研究に従い、図4に示す、焦点となりやすい格の優先順位の順に、抽出された単語の各々を並べ、最も優先順位の高い単語を焦点候補となる単語として抽出する。また、最も優先順位の高い単語が複数存在する場合には、所定の順序で並べたときの最初の単語を、焦点候補となる単語として抽出する。なお、所定の順序については、例えば、焦点更新処理ルーチンを実現するためのプログラムのプログラム言語のソート関数の実装に従う。
上記図4に示す優先順位においては、主格の単語は提題助詞の「は」、格助詞「が」、「って」でマークされたものとする。目的格の単語は「を」でマークされたものとし、与格の単語は「に」でマークされたものとする。「その他」の単語は「は」、「が」、「って」、「を」、及び「に」の何れにもマークされていない単語を示す。
焦点候補抽出部24は、「アメリカのオバマ大統領が日本に外遊するんだって」というユーザ発話が入力された場合、形態素解析処理結果から名詞である「アメリカ」、「オバマ」、及び「日本」を抽出し、固有表現抽出処理結果から固有表現である人名(Person)の「オバマ大統領」が抽出される。上記図4の優先順位を適用すると、「オバマ大統領」>「日本」>「アメリカ」>「オバマ」の順となる。第1の実施の形態においては、抽出された単語のうち優先順位が最も高い単語「オバマ大統領」を焦点候補となる単語として抽出する。
焦点取得部25は、焦点記憶部30に記憶されている焦点となる単語を、直前の発話の焦点となる単語として取得する。なお、焦点記憶部30に記憶されている焦点となる単語は、入力部10において入力されたユーザの発話より前におけるユーザの発話の焦点となる単語である。
関連度評価部26は、コーパス記憶部28に記憶されたコーパスに基づいて、焦点候補抽出部24において抽出された焦点候補となる単語と、焦点取得部25において取得した直前の発話の焦点となる単語との単語間の関連度を算出し、更新処理部32に出力する。具体的には、w1を焦点候補となる単語とし、w2を直前の発話の焦点となる単語とした場合、w1の単語とw2の単語が、コーパス記憶部28に記憶されている複数の自然言語からなる文書中において共起する度合いを関連度として算出する。第1の実施の形態においては、共起尺度として対数尤度比を用いる。
関連度評価部26は、対数尤度比を算出するために、図5に示すテーブルを作成する。図5中のNはコーパス記憶部28に記憶されている文書の総文書数である。c12は、w1とw2が同一の文書内において同時に出現する文書数である。c1はw2が出現する文書数、c2はw1が出現する文書数である。対数尤度比は下記(1)式において算出する。
Figure 0005698306
ここで、Oは、図5中のテーブルの各セルの値である。すなわち{c12,c1−c12,c2−c12,N−c2−c1+c12}のことである。Eは、Oの期待値である。例えば、c12の期待値はc1×(c2/N)のように求め、(c1−c12)の期待値はc1×{(N−c2)/N}のように求めることができる。上記(1)式に従って算出した対数尤度比を焦点候補となる単語と直前の発話の焦点となる単語との関連度とする。
コーパス記憶部28は、入力部10から入力された複数の自然言語の文書で構成されるコーパスを記憶している。
焦点記憶部30は、更新処理部32から入力される焦点となる単語を記憶する。なお、初期においては、焦点となる単語は焦点記憶部30に記憶されていない。
更新処理部32は、焦点となる単語の更新を行う必要がある場合には、焦点となる単語の更新を行う。具体的には、焦点記憶部30に焦点となる単語が記憶されていない場合には、抽出された焦点候補となる単語を焦点となる単語として焦点記憶部30に記憶する。
また、焦点候補となる単語と直前の発話の焦点となる単語とが意味的に近い場合には、ユーザは、直前の発話の焦点に関連した発話を行っていると推測されるため、焦点となる単語の更新を行わない。ここで、意味的な近さは、関連度評価部26から入力される焦点候補となる単語と直前の発話の焦点となる単語との関連度に基づいて判定する。具体的には、関連度が統計的に有意に関連していると考えられる値である10.83(p<0.001)を超えているかどうかで更新を行うか判定する。意味的に近い場合、即ち、関連度が10.83を超える場合には、単語間の関連度は高いとし、焦点となる単語の更新を行わない。
また、関連度が10.83以下の場合には、焦点候補となる単語と焦点となる単語との単語間の関連度は低いとし、ユーザは現在の対話の焦点に関連した発話を行っていないと判定され、焦点記憶部30に記憶されている焦点となる単語を、抽出された焦点候補となる単語に更新すると共に、抽出された焦点候補となる単語を出力部50により出力する。なお、焦点記憶部30に記憶されている焦点となる単語は1つであり、既存の焦点となる単語が存在する場合には、上書きして記憶する。
<第1の実施の形態に係る焦点推定装置の作用>
次に、本発明の第1の実施の形態に係る焦点推定装置100の作用について説明する。図6に示す焦点更新処理ルーチンを実行する前に、複数の自然言語の文書から構成されるコーパスを受け付け、コーパスがコーパス記憶部28に記憶される。そして、入力部10によりユーザ発話を受け付けると、焦点推定装置100は、図6に示す焦点推定処理ルーチンを実行する。
まず、ステップS100では、入力部10において受け付けたユーザ発話を読み込む。
次に、ステップS102では、コーパス記憶部28に記憶されているコーパスを読み込む。
次に、ステップS104では、ステップS100において取得したユーザ発話について、形態素解析及び固有表現抽出を行う。
次に、ステップS106では、ステップS104において取得した形態素解析処理結果に基づいて、名詞である単語を抽出し、ステップS104において取得した固有表現抽出処理結果に基づいて、固有表現である単語を抽出し、抽出した単語のうち優先順位が最も高い単語を焦点候補となる単語として抽出する。
次に、ステップS108では、焦点記憶部30に焦点となる単語が記憶されているか否かの判定を行う。焦点となる単語が記憶されている場合には、ステップS110へ移行し、焦点となる単語が記憶されていない場合には、ステップS116へ移行する。
ステップS110では、焦点記憶部30に記憶されている焦点となる単語を、直前の発話の焦点となる単語として取得する。
次に、ステップS112では、ステップS106で取得した焦点候補となる単語と、ステップS110において取得した直前の話題の焦点となる単語との単語間の対数尤度比を関連度として、上記(1)式に従って算出する。
次に、ステップS114では、ステップS112において取得した焦点候補となる単語と直前の発話の焦点となる単語との単語間の関連度が高いか否かの判定を行う。具体的には、ステップS112において取得した関連度が閾値である10.83よりも大きいか否かについて判定を行う。関連度が10.83よりも大きい場合には関連度が高く、関連度が10.83以下の場合には関連度が低いとする。関連度が高い場合には、ステップS118へ移行し、関連度が低い場合には、ステップS116へ移行する。
ステップS116では、焦点記憶部30に記憶されている焦点となる単語を、ステップS106で取得した焦点候補となる単語に更新する。
ステップS118では、ステップS110において取得した直前の発話の焦点となる単語を現在の焦点となる単語とする。
次に、ステップS120では、ステップS116又はステップS118において認定した焦点となる単語を結果として出力部50に出力して処理を終了する。
以上説明したように、本発明の第1の実施の形態に係る焦点推定装置によれば、ユーザの発話から抽出された発話の焦点候補となる単語と、直前の発話の焦点となる単語との関連度に応じて、焦点候補となる単語を出力することにより、ユーザの発話の焦点の切り替えが頻発することを回避して、ユーザ発話の焦点を推定することができる。
また、焦点の切り替えを頻発することなく、一つの話題についてまとまりを持った議論が可能な対話システムを実現でき、ユーザとシステムの雑談をよりスムーズなものにすることができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
第1の実施の形態においては、関連度を対数尤度比を用いて算出する場合について説明しているがこの限りでない。例えば、Tスコア、カイ二乗値、相互情報量(PMI:Pointwise Mutual Information)等を用いて関連度を算出してもよい。
また、第1の実施の形態においては、形態素解析処理結果及び固有表現抽出処理結果から焦点候補となる単語を抽出する場合について説明したがこの限りでない。形態素解析処理結果及び固有表現抽出処理結果のうち少なくとも1つから焦点候補となる単語を抽出してもよい。例えば、形態素解析処理結果に基づいて、名詞である単語のみを抽出してもよいし、固有表現抽出処理結果に基づいて、固有表現である単語のみを抽出してもよい。
また、第1の実施の形態においては、固有表現抽出器として固有表現抽出を行えるようにしたJTAGを用いる場合について説明したがこの限りでない。例えば、固有表現抽出器としてフリーソフトのCaboChaを用いてもよいし、CRFなどの系列ラベリングの手法を用いて独自に学習した固有表現抽出器、形態素解析器の辞書を固有表現の辞書で拡張することで、発話中の固有表現を抽出するようにした固有表現抽出器を用いてもよい。
また、第1の実施の形態においては、焦点候補である単語が複数ある場合に、同順位の序列については、実装したプログラム言語のソートに従う場合について説明したがこの限りでない。例えば、所定の規則により、先に出現した焦点候補である単語に高い優先順位をつける等、任意に優先順位を決定してもよい。
また、第1の実施の形態においては、関連度が高いか否かの判定において、関連度が統計的に有意に関連していると考えられる値である10.83(p<0.001)を超えているか否かにより判定する場合について説明したがこの限りでない。例えば、予め関連度の閾値を手動で設定して、関連度が閾値を超えているか否かにより判定してもよい。
また、第1の実施の形態においては、関連度を焦点候補となる単語と、直前の発話の焦点となる単語が新聞記事の集合やブログデータの集合から構成される自然言語の文書における共起の度合いとして算出する場合について説明しているがこの限りでない。例えば、対話システムに適した関連度として、対話データにおける焦点候補となる単語と直前の発話の焦点となる単語との単語間の共起の度合いを求めてもよい。また、対話データを用いる場合には、コーパスとしてマイクロブログサービスであるツイッター(登録商標)のデータを用い、返信関係にあるツイートをペアとして収集し、データベース化し、このデータベースから共起の度合いを対数尤度比によって算出する。
この場合、ある発話に単語w1が出現し、後続する発話に単語w2が出現しやすい傾向にあればw1とw2は関連が強いとすることができる。そのため、関連度を図7に示す表に基づいて、上記(1)式に従って対数尤度比を算出し、単語間の関連度を求めることができる。
ここで、Mは対話データにおける発話の隣接ペアの総数である。c12はw1が発話ペアの前発話に現れ、w2が発話ペアの後続発話に出現するペアの総数である。c1はw2が発話ペアの後続発話に現れるペアの総数、c2はw1が発話ペアの前発話に現れるペアの総数である。また、Oは図7のテーブル中の各セルの値で、{c12,c1−c12,c2−c12,M−c2−c1+c12}である。また、EはOの期待値である。例えば、c12の期待値はc1×(c2/M)のように求め、(c1−c12)の期待値はc1×{(M−c2)/M}のように求めることができる。
次に、第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成及び作用となる部分については、同一符号を付して説明を省略する。
第2の実施の形態では、推定の判断の高速化のため、単語の各々について十分関連度が高い単語を予め関連語辞書に格納しておき、直前の発話の焦点となる単語の関連語に焦点候補となる単語が含まれるか否かによって、焦点となる単語を更新するか否かを判断する点が第1の実施の形態と異なっている。
<第2の実施の形態に係る焦点推定装置の構成>
次に、第2の実施の形態に係る焦点推定装置200の構成について説明する。
本発明の第2の実施の形態に係る焦点推定装置200は、図8に示すように、入力部10と、演算部20と、出力部50とを備えている。
演算部20は、ユーザ発話解析部22と、焦点候補抽出部24と、焦点取得部25と、関連度評価部26と、コーパス記憶部28と、焦点記憶部30と、更新処理部32と、関連度算出部33と、関連語辞書記憶部34とを備えている。
関連度算出部33は、コーパス記憶部28に記憶されているコーパスに対して、コーパスに含まれる単語の各々について、同文書に出現する単語を関連語の候補として取得、若しくは、特定の言語パターンを用いて、コーパスに含まれる単語の各々と一定の関係で現れる単語を取得する。例えば、ある単語Aがある場合、「AのB」という記述で出現する単語Bを取得する。このようなパターンを用いることで、ある単語「ラーメン」がある場合においては、「麺」、「スープ」、「お店」、「味」など「ラーメン」と何らかの関係を持つ単語を取得することができる。このような関連語の候補の単語について、対象となる単語との関連性を対数尤度比によって求め、関連性が10.83より大きい値を持つ単語のみを対象となる単語の関連語とする。この処理をコーパス記憶部28に記憶されているコーパスに含まれる全ての単語について行うことで、関連語辞書を構築し、関連語辞書記憶部34に記憶する。図9に関連語辞書の「ラーメン」の項の例を示す。太字が見出しであり、以降のカンマ区切りが関連語である。
関連語辞書記憶部34は、関連度算出部33において作成した関連語辞書を記憶している。
関連度評価部26は、関連語辞書記憶部34に記憶されている関連語辞書において、焦点取得部25において取得した直前の発話の焦点となる単語の項を検索し、焦点候補抽出部24において抽出した焦点候補となる単語か存在するか否かの判定を行う。
更新処理部32は、関連度評価部26において取得した判定の結果に基づいて、焦点となる単語の更新を行う。具体的には、焦点候補となる単語が関連語辞書の直前の発話の焦点となる単語の項に存在する場合には、ユーザは直前の発話の焦点に関連した発話を行っていると推測されるため、焦点の更新を行わず、直前の焦点となる単語を出力部50に出力する。また、焦点候補となる単語が関連語辞書の直前の発話の焦点となる単語の項に存在しない場合には、ユーザは直前の発話の焦点に関連した発話を行っていないと推測され、焦点記憶部30に記憶されている焦点となる単語を、抽出された焦点候補となる単語に更新するとともに、抽出された焦点候補となる単語を出力部50により出力する。
<第2の実施の形態に係る焦点推定装置の作用>
次に、本発明の第2の実施の形態に係る焦点推定装置200の作用について説明する。図10に示す焦点更新処理ルーチンを実行する前に、入力部10によりユーザ発話と、予め作成された関連語辞書とを受け付け、関連語辞書を関連語辞書記憶部34に記憶する。そして、焦点推定装置200は、図10に示す焦点更新処理ルーチンを実行する。
ステップS200では、関連語辞書記憶部34に記憶されている関連語辞書を読み込む。
次に、ステップS202では、ステップS200において読み込んだ関連語辞書の、ステップS110において取得した直前の焦点となる単語の項に、ステップS106において取得した焦点候補となる単語が関連語として存在するか否かを判定する。焦点候補となる単語が関連語として存在する場合には、ステップS118へ移行し、焦点候補となる単語が関連語として存在しない場合には、ステップS116へ移行する。
以上、説明したように、第2の実施の形態における焦点推定装置200によれば、ユーザの発話から抽出された発話の焦点候補となる単語と、直前の発話の焦点となる単語との関連度に応じて、焦点候補となる単語を出力することにより、ユーザの発話の焦点の切り替えが頻発することを回避して、ユーザ発話の焦点を高速に推定することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
第2の実施の形態においては、コーパスに含まれる全ての単語を対象として関連語辞書を構築する場合について説明したがこの限りでない。例えば、コーパスに一定の頻度以上出現する単語のみを対象とし、関連語辞書を構築してもよい。
また、第2の実施の形態においては、関連語辞書を焦点推定装置200において構築している場合について説明したがこの限りでない。例えば、焦点推定装置200とは別の装置において事前に関連語辞書を作成し、焦点推定装置200の関連語辞書記憶部34に記憶しておいてもよい。
また、第2の実施の形態においては、関連語辞書を構築する際に、関連語の候補について、焦点となる単語とどの程度関連するかを対数尤度比によって求め、10.83より大きい値を持つ単語のみを焦点となる単語の関連語とする場合について説明したがこの限りでない。例えば、予め閾値を手動で設定して、対数尤度比が閾値を超えている単語のみを焦点となる単語の関連語としてもよい。
10 入力部
20 演算部
22 ユーザ発話解析部
24 焦点候補抽出部
25 焦点取得部
26 関連度評価部
28 コーパス記憶部
30 焦点記憶部
32 更新処理部
33 関連度算出部
34 関連語辞書記憶部
50 出力部
100 焦点推定装置
200 焦点推定装置

Claims (8)

  1. ユーザの発話の話題を表す焦点を推定する焦点推定装置において、
    入力された前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果の少なくとも一方に基づいて、前記ユーザの発話から前記発話の焦点候補となる単語を抽出する焦点候補抽出部と、
    前記ユーザの発話より前における前記発話の焦点となる単語を取得する焦点取得部と、
    前記焦点候補抽出部により抽出された焦点候補となる単語と前記焦点取得部によって取得された前記焦点となる単語との関連度を評価する関連度評価部と、
    前記関連度評価部により評価された前記関連度が閾値以下の場合に、前記焦点候補となる単語を出力し、前記関連度評価部により評価された前記関連度が前記閾値より高い場合に、前記焦点取得部によって取得された前記焦点となる単語を出力する出力部と、
    前記関連度評価部により評価された関連度が前記閾値以下の場合に、前記焦点となる単語を前記焦点候補となる単語に更新する更新処理部と、
    を含む焦点推定装置。
  2. 前記焦点候補抽出部は、名詞である単語及び固有表現である単語の少なくとも一方を前記焦点候補となる単語として抽出する請求項1記載の焦点推定装置。
  3. 前記関連度評価部は、予め記憶されているコーパスにおいて、前記焦点候補となる単語及び前記焦点取得部によって取得された前記焦点となる単語が共起する度合いを、前記関連度として評価する請求項1又は2記載の焦点推定装置。
  4. 前記関連度評価部は、前記焦点候補となる単語及び前記焦点取得部によって取得された前記焦点となる単語が共起する度合いとして、前記焦点候補となる単語が出現する頻度と、前記焦点取得部によって取得された前記焦点となる単語が出現する頻度と、前記焦点候補となる単語及び前記焦点取得部によって取得された前記焦点となる単語が共起する頻度とに基づく対数尤度比を算出し、
    前記予め記憶されているコーパスを、ネットワークを介して取得した新聞記事の集合若しくはブログデータの集合とした請求項3記載の焦点推定装置。
  5. 前記関連度評価部は、前記焦点候補となる単語及び前記焦点取得部によって取得された前記焦点となる単語が共起する度合いとして、前記焦点候補となる単語が出現する頻度と、前記焦点取得部によって取得された前記焦点となる単語が出現する頻度と、前記焦点候補となる単語及び前記焦点取得部によって取得された前記焦点となる単語が共起する頻度とに基づく対数尤度比を算出し、
    前記予め記憶されているコーパスを、対話データの集合とした請求項3記載の焦点推定装置。
  6. 前記関連度評価部は、複数の単語の各々について前記単語と前記単語に関連する単語との組み合わせの各々を予め記憶した関連語辞書において、前記焦点取得部によって取得された前記焦点となる単語と前記焦点候補となる単語とが関連する単語の組み合わせとして含まれているか否かに基づいて、関連度を評価する請求項1〜5の何れか1項記載の焦点推定装置。
  7. 焦点候補抽出部と、焦点取得部と、関連度評価部と、出力部と、更新処理部と、を含むユーザの発話の話題を表す焦点を推定する焦点推定装置における焦点推定方法について、
    前記焦点候補抽出部は、入力された前記ユーザの発話に対する形態素解析処理の結果及び固有表現抽出処理の結果の少なくとも一方に基づいて、前記ユーザの発話から前記発話の焦点候補となる単語を抽出し、
    前記焦点取得部は、前記ユーザの発話より前における前記発話の焦点となる単語を取得し、
    前記関連度評価部は、前記焦点候補抽出部により抽出された焦点候補となる単語と前記焦点取得部によって取得された前記焦点となる単語との関連度を評価し、
    前記出力部は、前記関連度評価部により評価された前記関連度が閾値以下の場合に、前記焦点候補となる単語を出力し、前記関連度評価部により評価された前記関連度が前記閾値より高い場合に、前記焦点取得部によって取得された前記焦点となる単語を出力し、
    前記更新処理部は、前記関連度評価部により評価された関連度が前記閾値以下の場合に、前記焦点となる単語を前記焦点候補となる単語に更新する
    焦点推定方法。
  8. コンピュータを、請求項1〜6の何れか1項記載の焦点推定装置を構成する各部として機能させるためのプログラム。
JP2013101379A 2013-05-13 2013-05-13 焦点推定装置、方法、及びプログラム Active JP5698306B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013101379A JP5698306B2 (ja) 2013-05-13 2013-05-13 焦点推定装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013101379A JP5698306B2 (ja) 2013-05-13 2013-05-13 焦点推定装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014222399A JP2014222399A (ja) 2014-11-27
JP5698306B2 true JP5698306B2 (ja) 2015-04-08

Family

ID=52121901

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013101379A Active JP5698306B2 (ja) 2013-05-13 2013-05-13 焦点推定装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5698306B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6682149B2 (ja) * 2017-03-03 2020-04-15 日本電信電話株式会社 対話システム、方法、及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000041080A1 (fr) * 1999-01-04 2000-07-13 Fujitsu Limited Procede et dispositif d'assistance vocale
JP2003108589A (ja) * 2001-09-28 2003-04-11 P To Pa:Kk ホームページナビゲータ

Also Published As

Publication number Publication date
JP2014222399A (ja) 2014-11-27

Similar Documents

Publication Publication Date Title
Abdulla et al. Arabic sentiment analysis: Lexicon-based and corpus-based
Zainuddin et al. Sentiment analysis using support vector machine
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
Shoukry et al. Sentence-level Arabic sentiment analysis
El-Masri et al. A web-based tool for Arabic sentiment analysis
El-Beltagy et al. Combining lexical features and a supervised learning approach for Arabic sentiment analysis
Shoukry et al. A hybrid approach for sentiment classification of Egyptian dialect tweets
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
García et al. A lexicon based sentiment analysis retrieval system for tourism domain
Ghosh et al. Sentiment identification in code-mixed social media text
Abu-Errub Arabic text classification algorithm using TFIDF and chi square measurements
Jha et al. Homs: Hindi opinion mining system
El-Makky et al. Sentiment analysis of colloquial Arabic tweets
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
Lalji et al. Twitter sentiment analysis using hybrid approach
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
Dalmia et al. IIIT-H at SemEval 2015: Twitter sentiment analysis–the good, the bad and the neutral!
Imane et al. A set of parameters for automatically annotating a Sentiment Arabic Corpus
JP5698306B2 (ja) 焦点推定装置、方法、及びプログラム
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
JP6126965B2 (ja) 発話生成装置、方法、及びプログラム
Simeon et al. Word segmentation algorithms with lexical resources for hashtag classification
CN115577109A (zh) 文本分类方法、装置、电子设备及存储介质
Das et al. Sentiment Analysis on Comments in Bengali Language Using Text Mining & Machine Learning Approach
Shinde et al. Sentiment analysis using hybrid approach

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141009

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150212

R150 Certificate of patent or registration of utility model

Ref document number: 5698306

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150