JP2014096105A - バーストワード抽出装置、方法、及びプログラム - Google Patents

バーストワード抽出装置、方法、及びプログラム Download PDF

Info

Publication number
JP2014096105A
JP2014096105A JP2012248574A JP2012248574A JP2014096105A JP 2014096105 A JP2014096105 A JP 2014096105A JP 2012248574 A JP2012248574 A JP 2012248574A JP 2012248574 A JP2012248574 A JP 2012248574A JP 2014096105 A JP2014096105 A JP 2014096105A
Authority
JP
Japan
Prior art keywords
burst
burst word
word
words
daily
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012248574A
Other languages
English (en)
Other versions
JP5631956B2 (ja
Inventor
Kugatsu Sadamitsu
九月 貞光
Ryuichiro Higashinaka
竜一郎 東中
Kuniko Saito
邦子 齋藤
Toshiaki Makino
俊朗 牧野
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012248574A priority Critical patent/JP5631956B2/ja
Publication of JP2014096105A publication Critical patent/JP2014096105A/ja
Application granted granted Critical
Publication of JP5631956B2 publication Critical patent/JP5631956B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】高精度にバーストワードを抽出する。
【解決手段】入力部1により、抽出対象期間内に発信された複数の文書を受け付け、形態素解析部12により、受け付けた複数の文書の各々について形態素解析を行い、共起計数部16により、複数の形態素解析済みの文書に基づいて、初期バーストワードリスト記憶部3に記憶されている複数のバーストワード候補の各々について、バーストワード候補が文内においてデイリーワードリスト記憶部5に記憶されている複数のデイリーワードのうちの少なくとも1つと共起する文の数をカウントし、バーストワード抽出部18により、複数のバーストワード候補から、カウントされた文の数が予め定められた閾値以上のバーストワード候補を、バーストワードとして抽出する。
【選択図】図1

Description

本発明は、バーストワード抽出装置、方法、プログラムに係り、特に、入力文書中に出現するバーストワードの抽出を行うバーストワード抽出装置、方法、プログラムに関する。
バーストワードとは、ある瞬間において、世の中で頻繁に使われる単語のことであり、時間とともに変遷する集合である。
従来技術として、バーストワードを検出する際に、頻度情報を用いて、記事の出現数からバーストワードを検出する手法がある(非特許文献1)。
また、バーストする分野(トピック)を推定するバーストトピック検出技術を用いて、トピックモデルとHMMによってバーストする箇所とそのトピックを検出し、そのトピックモデルからバーストワードを検出する方法も知られている(非特許文献2)。
「マイクロブログ上の話題抽出とユーザの態度の分類に基づく流言検出支援システム」藤川,鍜治,吉永,喜連川 (DEIM2012) http://www.tkl.iis.u-tokyo.ac.jp/top/modules/newdb/extract/1176/data/DEIM2012.pdf "Finding Bursty Topics from Microblogs"Qiming Diao, Jing Jiang, Feida Zhu, Ee-Peng Lim, ACL 2012 http://www.mysmu.edu/faculty/jingjiang/papers/ACL'12.pdf
しかしながら、非特許文献1の手法においては、例えば、地震が発生した際、「宮城県で震度5の地震が発生。震源の深さはYメートル」のような文書が生成されるが、単純に頻度情報を用いた場合、「深さ」がバーストワードとして抽出される可能性があり、真にバーストの意味のある情報がとれるとは限らない。
また、非特許文献2の手法においても、同様の例について考えると、文書を通じて1つのトピックをなしており、「深さ」であってもバーストワードとして検出される可能性が残される。
本発明では、上記問題点を解決するために成されたものであり、高精度にバーストワードを抽出するバーストワード抽出装置、方法、プログラムを提供することを目的とする。
上記目的を達成するために、本発明のバーストワード抽出装置は、短期間内に発信された文書中に頻繁に出現する単語であるバーストワードを抽出するバーストワード抽出装置であって、抽出対象期間内に発信された文書であって、かつ、形態素解析済みの複数の文書と、イベントを表す文字列である予め定められた複数のデイリーワードと、予め定められた複数のバーストワード候補とを記憶した記憶手段と、前記複数の形態素解析済みの文書に基づいて、前記複数のバーストワード候補の各々について、前記バーストワード候補が文内において前記複数のデイリーワードのうちの少なくとも1つと共起する文の数をカウントする計数手段と、前記複数のバーストワード候補から、前記計数手段によってカウントされた前記文の数が、予め定められた閾値以上の前記バーストワード候補を、バーストワードとして抽出する抽出手段と、を含んで構成されている。
本発明のバーストワード抽出方法は、抽出対象期間内に発信された文書であって、かつ、形態素解析済みの複数の文書と、イベントを表す文字列である予め定められた複数のデイリーワードと、予め定められた複数のバーストワード候補とを記憶する記憶手段と、計数手段と、抽出手段とを含み、短期間内に発信された文書中に頻繁に出現する単語であるバーストワードを抽出するバーストワード抽出装置におけるバーストワード抽出方法であって、計数手段により、前記複数の形態素解析済みの文書に基づいて、前記複数のバーストワード候補の各々について、前記バーストワード候補が文内において前記複数のデイリーワードのうちの少なくとも1つと共起する文の数をカウントし、抽出手段により、前記複数のバーストワード候補から、前記計数手段によってカウントされた前記文の数が、予め定められた閾値以上の前記バーストワード候補を、バーストワードとして抽出する。
本発明のプログラムは、短期間内に発信された文書中に頻繁に出現する単語であるバーストワードを抽出するためのプログラムであって、抽出対象期間内に発信された文書であって、かつ、形態素解析済みの複数の文書と、イベントを表す文字列である予め定められた複数のデイリーワードと、予め定められた複数のバーストワード候補とを記憶する記憶手段を含むコンピュータを、前記複数の形態素解析済みの文書に基づいて、前記複数のバーストワード候補の各々について、前記バーストワード候補が文内において前記複数のデイリーワードのうちの少なくとも1つと共起する文の数をカウントする計数手段、及び 前記複数のバーストワード候補から、前記計数手段によってカウントされた前記文の数が、予め定められた閾値以上の前記バーストワード候補を、バーストワードとして抽出する抽出手段として機能させるためのプログラムである。
本発明によれば、複数の形態素解析済みの文書に基づいて、複数のバーストワード候補の各々について、バーストワード候補が文内において複数のデイリーワードのうちの少なくとも1つと共起する文の数をカウントする。
そして、複数のバーストワード候補から、計数手段によってカウントされた文の数が、予め定められた閾値以上のバーストワード候補を、バーストワードとして抽出する。
以上説明したように、本発明のバーストワード抽出装置、方法、及びプログラムによれば、複数のバーストワード候補から、デイリーワードと文内で共起するバーストワード候補を、バーストワードとして抽出することにより、高精度にバーストワードを抽出することができる。
本実施の形態のバーストワード抽出装置の機能的構成を示すブロック図である。 本実施の形態のバーストワード抽出装置におけるバーストワード抽出処理ルーチンの内容を示すフローチャートである。 バーストワードとデイリーワードの位置づけを示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<システム構成>
図1に示すように、本発明の実施の形態に係るバーストワード抽出装置100は、入力部1と、後述するバーストワード抽出処理ルーチンを実行するコンピュータ10と、出力部20と、を備えている。
入力部1は、キーボードなどの入力装置から、抽出対象期間内に発信された複数の文書と、初期バーストワードリストと、デイリーワードリストとを受け付ける。なお、入力部1は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。
コンピュータ10は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述するバーストワード抽出処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成されている。このコンピュータは、機能的には、図1に示すように、初期バーストワードリスト記憶部3と、デイリーワードリスト記憶部5と、形態素解析部12と、形態素解析済み文書集合記憶部14と、共起計数部16と、バーストワード抽出部18とを含んだ構成で表すことができる。
初期バーストワードリスト記憶部3は、入力部1において受け付けた初期バーストワードリストを記憶している。なお、初期バーストワードリストには、既知の手法により抽出された複数のバーストワード候補を格納すればよく、あるいは、人手により与えられた複数のバーストワード候補を格納しておいてもよい。
デイリーワードリスト記憶部5は、入力部1において受け付けたデイリーワードリストを記憶している。なお、デイリーワードリストは、既知の手法により抽出されたデイリーワードを格納しておけばよい。
ここで、デイリーワードとは、(1)ある短い期間において起こる事象(イベント)を表す文字列であり、かつ(2)公な情報となりやすい事象を表す文字列である。例えば、「発表」、「結婚」、「ランチ」、「バイト」、「来てる」は上記(1)の要件を満たしているため、デイリーワードの候補となる。なお、「結婚」は継続する事象だが、継続中においては「Xの夫は誰?」のような質問になりやすいと本発明においては仮定しており、「結婚」は「結婚[発表/発覚]」の場合に使われやすいため、デイリーワードの候補となる。
また、「発表」、「結婚」は公的な情報となるため、上記(2)の条件も満たしていることにより、デイリーワードとなる。しかし、「ランチ」、「バイト」、「来てる」は私的な情報となるため、上記(2)の条件を満たさないため、デイリーワードとはならない。なお、バーストワードとデイリーワードの位置づけを図3に示す。
形態素解析部12は、入力部1において受け付けた複数の文書の各々について既存の技術を用いて形態素解析を行い、その結果を形態素解析済み文書集合記憶部14に出力する。
形態素解析済み文書集合記憶部14は、形態素解析部12において形態素解析された複数の文書の各々についての形態素解析結果を記憶する。
共起計数部16は、初期バーストワードリスト記憶部3に記憶されている初期バーストワードリストと、デイリーワードリスト記憶部5に記憶されているデイリーワードリストと、形態素解析済み文書集合記憶部14に記憶されている複数の形態素解析済み文書を取得し、複数の形態素解析済み文書に基づいて、複数のバーストワード候補の各々について、当該バーストワード候補が文内において複数のデイリーワードのうちの少なくとも1つと共起する文の数をカウントし、バーストワード抽出部18に出力する。
バーストワード抽出部18は、共起計数部16から入力されたカウント結果に基づいて、予め定められた共起頻度の閾値(本実施例では5とする)以上であるか否かを判定し、共起頻度が閾値以上のバーストワード候補のみをバーストワードとして抽出し、抽出されたすべてのバーストワードからなるバーストワードリストを、出力部20に出力する。
例えば、複数の形態素解析済み文書において、初期バーストワードリストに含まれる「宮城」というバーストワード候補とデイリーワードリストに含まれるデイリーワードとが共起する文の数が10個であり、複数の形態素解析済み文書において、初期バーストワードリストに含まれる「Yメール」というバーストワード候補とデイリーワードリストに含まれるデイリーワードとが共起する文の数が1個である場合、閾値は5であることから「Yメール」はバーストワードとして除外され、「宮城」のみをバーストワードとしてバーストワードリストに加えて出力することになる。
<バーストワード抽出装置の作用>
次に、本発明の実施の形態に係るバーストワード抽出装置100の作用について説明する。まず、抽出対象期間内に発信された複数の文書がバーストワード抽出装置100に入力されメモリ(図示省略)に記憶される。そして、本実施の形態のコンピュータ10のROMに記憶されたプログラムを、CPUが実行することにより、図2に示すバーストワード抽出処理ルーチンが実行される。
まず、ステップS100において、入力部1において受け付けた複数の文書を取得する。
次に、ステップS102において、ステップS100において取得した複数の文書の各々について既存の技術を用いて形態素解析を行い、形態素解析済み文書集合記憶部14に記憶する。
次に、ステップS104において、初期バーストワードリスト記憶部3に記憶されている初期バーストワードリストを取得する。
次に、ステップS106において、デイリーワードリスト記憶部5に記憶されているデイリーワードリストを取得する。
次に、ステップS108において、ステップS106において取得したデイリーワードリストと、ステップS102において形態素解析が行われた複数の形態素解析済み文書とに基づいて、ステップS104において取得した初期バーストワードリストに含まれるバーストワード候補について、当該バーストワード候補が文内においてデイリーワードリストの複数のデイリーワードのうちの少なくとも1つと共起する文の数をカウントする。
次に、ステップS110において、初期バーストワードリストに含まれる全てのバーストワード候補について、上記のステップS108の処理を実行したか判定する。全てのバーストワード候補について上記ステップS108の処理を実行している場合には、ステップS112に移行し、上記ステップS108の処理を実行していないバーストワード候補が存在する場合には、上記ステップS108に戻り、当該バーストワード候補を対象に処理を繰り返す。
次に、ステップS112において、ステップS110においてカウントされた、デイリーワードと共起した文の数が閾値以上であるバーストワード候補のみをバーストワードとして抽出する。
次に、ステップS114において、ステップS112において抽出された全てのバーストワードをバーストワードリストとして出力し、処理を終了する。
以上、説明したように、本発明の実施の形態に係るバーストワード抽出装置によれば、文書中に出現するバーストワードについて、デイリーワードと文内で共起する単語のみを採用することで、高精度にバーストワードを抽出することができる。
また、本発明において、デイリーワードと共起する単語は、よりバーストワードである可能性が高いと仮定していることから、例えば、「宮城県で震度5の地震が発生。震源の深さはYメートル」という文書において、「発生」がデイリーワードに含まれていれば、それと文内で共起する「宮城県」や「地震」はバーストワードとならないように処理をすることが可能である。
また、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
なお、上記の実施の形態では、抽出対象期間内に発信された複数の文書を入力としたが、これに限定されるものではなく、抽出対象期間内に発信された複数の文書について形態素解析を行った結果である形態素解析済みの文書が入力されるようにしてもよい。
また、上述のバーストワード抽出装置100は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。また、本実施の形態のバーストワード抽出装置100の各部をハードウエアにより構成してもよい。また、バーストワードリスト、データワードリスト、形態素解析済み文書集合が記憶されるデータベースとしては、ハードディスク装置やファイルサーバ等に例示される記憶手段によって実現可能であり、バーストワード抽出装置100内部にデータベースを設けても良いし、外部装置に設けてもよい。
1 入力部
3 初期バーストワードリスト記憶部
5 デイリーワードリスト記憶部
10 コンピュータ
12 形態素解析部
14 形態素解析済み文書集合記憶部
16 共起計数部
18 バーストワード抽出部
20 出力部
100 バーストワード抽出装置

Claims (3)

  1. 短期間内に発信された文書中に頻繁に出現する単語であるバーストワードを抽出するバーストワード抽出装置であって、
    抽出対象期間内に発信された文書であって、かつ、形態素解析済みの複数の文書と、イベントを表す文字列である予め定められた複数のデイリーワードと、予め定められた複数のバーストワード候補とを記憶した記憶手段と、
    前記複数の形態素解析済みの文書に基づいて、前記複数のバーストワード候補の各々について、前記バーストワード候補が文内において前記複数のデイリーワードのうちの少なくとも1つと共起する文の数をカウントする計数手段と、
    前記複数のバーストワード候補から、前記計数手段によってカウントされた前記文の数が、予め定められた閾値以上の前記バーストワード候補を、バーストワードとして抽出する抽出手段と、
    を含むバーストワード抽出装置。
  2. 抽出対象期間内に発信された文書であって、かつ、形態素解析済みの複数の文書と、イベントを表す文字列である予め定められた複数のデイリーワードと、予め定められた複数のバーストワード候補とを記憶する記憶手段と、計数手段と、抽出手段とを含み、短期間内に発信された文書中に頻繁に出現する単語であるバーストワードを抽出するバーストワード抽出装置におけるバーストワード抽出方法であって、
    前記計数手段により、前記複数の形態素解析済みの文書に基づいて、前記複数のバーストワード候補の各々について、前記バーストワード候補が文内において前記複数のデイリーワードのうちの少なくとも1つと共起する文の数をカウントし、
    前記抽出手段により、前記複数のバーストワード候補から、前記計数手段によってカウントされた前記文の数が、予め定められた閾値以上の前記バーストワード候補を、バーストワードとして抽出する
    バーストワード抽出方法。
  3. 短期間内に発信された文書中に頻繁に出現する単語であるバーストワードを抽出するためのプログラムであって、
    抽出対象期間内に発信された文書であって、かつ、形態素解析済みの複数の文書と、イベントを表す文字列である予め定められた複数のデイリーワードと、予め定められた複数のバーストワード候補とを記憶する記憶手段を含むコンピュータを、
    前記複数の形態素解析済みの文書に基づいて、前記複数のバーストワード候補の各々について、前記バーストワード候補が文内において前記複数のデイリーワードのうちの少なくとも1つと共起する文の数をカウントする計数手段、及び
    前記複数のバーストワード候補から、前記計数手段によってカウントされた前記文の数が、予め定められた閾値以上の前記バーストワード候補を、バーストワードとして抽出する抽出手段
    として機能させるためのプログラム。
JP2012248574A 2012-11-12 2012-11-12 バーストワード抽出装置、方法、及びプログラム Active JP5631956B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012248574A JP5631956B2 (ja) 2012-11-12 2012-11-12 バーストワード抽出装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012248574A JP5631956B2 (ja) 2012-11-12 2012-11-12 バーストワード抽出装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014096105A true JP2014096105A (ja) 2014-05-22
JP5631956B2 JP5631956B2 (ja) 2014-11-26

Family

ID=50939107

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012248574A Active JP5631956B2 (ja) 2012-11-12 2012-11-12 バーストワード抽出装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5631956B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006048998A1 (ja) * 2004-11-05 2006-05-11 Intellectual Property Bank Corp. キーワード抽出装置
JP2008152634A (ja) * 2006-12-19 2008-07-03 Nippon Telegr & Teleph Corp <Ntt> 潜在話題抽出装置、潜在話題抽出方法、プログラムおよび記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006048998A1 (ja) * 2004-11-05 2006-05-11 Intellectual Property Bank Corp. キーワード抽出装置
JP2008152634A (ja) * 2006-12-19 2008-07-03 Nippon Telegr & Teleph Corp <Ntt> 潜在話題抽出装置、潜在話題抽出方法、プログラムおよび記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200900269048; 数原 良彦、戸田 浩之、楼井 彰人: 'ブログにおけるイベントマイニングのための適切なキーワード抽出' 電子情報通信学会 第18回データ工学ワークショップ論文集 , 20090709, 電子情報通信学会データ工学研究専門委員会 *
JPN6014038509; 数原 良彦、戸田 浩之、楼井 彰人: 'ブログにおけるイベントマイニングのための適切なキーワード抽出' 電子情報通信学会 第18回データ工学ワークショップ論文集 , 20090709, 電子情報通信学会データ工学研究専門委員会 *

Also Published As

Publication number Publication date
JP5631956B2 (ja) 2014-11-26

Similar Documents

Publication Publication Date Title
US9424524B2 (en) Extracting facts from unstructured text
CN106886567B (zh) 基于语义扩展的微博突发事件检测方法及装置
US20150295942A1 (en) Method and server for performing cloud detection for malicious information
US9607039B2 (en) Subject-matter analysis of tabular data
JP7120350B2 (ja) セキュリティ情報分析方法、セキュリティ情報分析システム、及び、プログラム
CN106294396A (zh) 关键词扩展方法和关键词扩展系统
CN110413864A (zh) 一种网络安全情报采集方法、装置、设备及存储介质
US10394868B2 (en) Generating important values from a variety of server log files
KR101541306B1 (ko) 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
Chang et al. Sutime: Evaluation in tempeval-3
CN109600382B (zh) webshell检测方法及装置、HMM模型训练方法及装置
CN109492118A (zh) 一种数据检测方法及检测装置
KR101470547B1 (ko) 독음데이터를 이용한 문서 표절률 산출 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 저장매체
JP5631956B2 (ja) バーストワード抽出装置、方法、及びプログラム
JP5361090B2 (ja) 話題語獲得装置、方法、及びプログラム
Comber et al. Semantic analysis of citizen sensing, crowdsourcing and VGI
Barth et al. A reporting tool for relational visualization and analysis of character mentions in literature
Qasem et al. Leveraging contextual features to enhanced machine learning models in detecting COVID-19 fake news
WO2021144895A1 (ja) 情報分析装置、情報分析方法、及びコンピュータ読み取り可能な記録媒体
JPWO2015016133A1 (ja) 情報管理装置及び情報管理方法
JP5718304B2 (ja) デイリーワード学習装置、デイリーワード抽出装置、方法、及びプログラム
JP5676552B2 (ja) デイリーワード抽出装置、方法、及びプログラム
TWI457767B (zh) 一種分辨垃圾郵件之方法
Benko Language Code Switching in Web Corpora.
Rustagi et al. DiNer-on building multilingual disease-news profiler

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140909

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141008

R150 Certificate of patent or registration of utility model

Ref document number: 5631956

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150