JP2014096105A

JP2014096105A - バーストワード抽出装置、方法、及びプログラム

Info

Publication number: JP2014096105A
Application number: JP2012248574A
Authority: JP
Inventors: Kugatsu Sadamitsu; 九月貞光; Ryuichiro Higashinaka; 竜一郎東中; Kuniko Saito; 邦子齋藤; Toshiaki Makino; 俊朗牧野; Yoshihiro Matsuo; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-11-12
Filing date: 2012-11-12
Publication date: 2014-05-22
Anticipated expiration: 2032-11-12
Also published as: JP5631956B2

Abstract

【課題】高精度にバーストワードを抽出する。
【解決手段】入力部１により、抽出対象期間内に発信された複数の文書を受け付け、形態素解析部１２により、受け付けた複数の文書の各々について形態素解析を行い、共起計数部１６により、複数の形態素解析済みの文書に基づいて、初期バーストワードリスト記憶部３に記憶されている複数のバーストワード候補の各々について、バーストワード候補が文内においてデイリーワードリスト記憶部５に記憶されている複数のデイリーワードのうちの少なくとも１つと共起する文の数をカウントし、バーストワード抽出部１８により、複数のバーストワード候補から、カウントされた文の数が予め定められた閾値以上のバーストワード候補を、バーストワードとして抽出する。
【選択図】図１

Description

本発明は、バーストワード抽出装置、方法、プログラムに係り、特に、入力文書中に出現するバーストワードの抽出を行うバーストワード抽出装置、方法、プログラムに関する。

バーストワードとは、ある瞬間において、世の中で頻繁に使われる単語のことであり、時間とともに変遷する集合である。

従来技術として、バーストワードを検出する際に、頻度情報を用いて、記事の出現数からバーストワードを検出する手法がある（非特許文献１）。

また、バーストする分野（トピック）を推定するバーストトピック検出技術を用いて、トピックモデルとＨＭＭによってバーストする箇所とそのトピックを検出し、そのトピックモデルからバーストワードを検出する方法も知られている（非特許文献２）。

「マイクロブログ上の話題抽出とユーザの態度の分類に基づく流言検出支援システム」藤川,鍜治,吉永,喜連川（DEIM2012) http://www.tkl.iis.u-tokyo.ac.jp/top/modules/newdb/extract/1176/data/DEIM2012.pdf "Finding Bursty Topics from Microblogs"Qiming Diao, Jing Jiang, Feida Zhu, Ee-Peng Lim, ACL 2012 http://www.mysmu.edu/faculty/jingjiang/papers/ACL'12.pdf

しかしながら、非特許文献１の手法においては、例えば、地震が発生した際、「宮城県で震度５の地震が発生。震源の深さはＹメートル」のような文書が生成されるが、単純に頻度情報を用いた場合、「深さ」がバーストワードとして抽出される可能性があり、真にバーストの意味のある情報がとれるとは限らない。

また、非特許文献２の手法においても、同様の例について考えると、文書を通じて１つのトピックをなしており、「深さ」であってもバーストワードとして検出される可能性が残される。

本発明では、上記問題点を解決するために成されたものであり、高精度にバーストワードを抽出するバーストワード抽出装置、方法、プログラムを提供することを目的とする。

上記目的を達成するために、本発明のバーストワード抽出装置は、短期間内に発信された文書中に頻繁に出現する単語であるバーストワードを抽出するバーストワード抽出装置であって、抽出対象期間内に発信された文書であって、かつ、形態素解析済みの複数の文書と、イベントを表す文字列である予め定められた複数のデイリーワードと、予め定められた複数のバーストワード候補とを記憶した記憶手段と、前記複数の形態素解析済みの文書に基づいて、前記複数のバーストワード候補の各々について、前記バーストワード候補が文内において前記複数のデイリーワードのうちの少なくとも１つと共起する文の数をカウントする計数手段と、前記複数のバーストワード候補から、前記計数手段によってカウントされた前記文の数が、予め定められた閾値以上の前記バーストワード候補を、バーストワードとして抽出する抽出手段と、を含んで構成されている。

本発明のバーストワード抽出方法は、抽出対象期間内に発信された文書であって、かつ、形態素解析済みの複数の文書と、イベントを表す文字列である予め定められた複数のデイリーワードと、予め定められた複数のバーストワード候補とを記憶する記憶手段と、計数手段と、抽出手段とを含み、短期間内に発信された文書中に頻繁に出現する単語であるバーストワードを抽出するバーストワード抽出装置におけるバーストワード抽出方法であって、計数手段により、前記複数の形態素解析済みの文書に基づいて、前記複数のバーストワード候補の各々について、前記バーストワード候補が文内において前記複数のデイリーワードのうちの少なくとも１つと共起する文の数をカウントし、抽出手段により、前記複数のバーストワード候補から、前記計数手段によってカウントされた前記文の数が、予め定められた閾値以上の前記バーストワード候補を、バーストワードとして抽出する。

本発明のプログラムは、短期間内に発信された文書中に頻繁に出現する単語であるバーストワードを抽出するためのプログラムであって、抽出対象期間内に発信された文書であって、かつ、形態素解析済みの複数の文書と、イベントを表す文字列である予め定められた複数のデイリーワードと、予め定められた複数のバーストワード候補とを記憶する記憶手段を含むコンピュータを、前記複数の形態素解析済みの文書に基づいて、前記複数のバーストワード候補の各々について、前記バーストワード候補が文内において前記複数のデイリーワードのうちの少なくとも１つと共起する文の数をカウントする計数手段、及び前記複数のバーストワード候補から、前記計数手段によってカウントされた前記文の数が、予め定められた閾値以上の前記バーストワード候補を、バーストワードとして抽出する抽出手段として機能させるためのプログラムである。

本発明によれば、複数の形態素解析済みの文書に基づいて、複数のバーストワード候補の各々について、バーストワード候補が文内において複数のデイリーワードのうちの少なくとも１つと共起する文の数をカウントする。

そして、複数のバーストワード候補から、計数手段によってカウントされた文の数が、予め定められた閾値以上のバーストワード候補を、バーストワードとして抽出する。

以上説明したように、本発明のバーストワード抽出装置、方法、及びプログラムによれば、複数のバーストワード候補から、デイリーワードと文内で共起するバーストワード候補を、バーストワードとして抽出することにより、高精度にバーストワードを抽出することができる。

本実施の形態のバーストワード抽出装置の機能的構成を示すブロック図である。本実施の形態のバーストワード抽出装置におけるバーストワード抽出処理ルーチンの内容を示すフローチャートである。バーストワードとデイリーワードの位置づけを示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜システム構成＞

図１に示すように、本発明の実施の形態に係るバーストワード抽出装置１００は、入力部１と、後述するバーストワード抽出処理ルーチンを実行するコンピュータ１０と、出力部２０と、を備えている。

入力部１は、キーボードなどの入力装置から、抽出対象期間内に発信された複数の文書と、初期バーストワードリストと、デイリーワードリストとを受け付ける。なお、入力部１は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。

コンピュータ１０は、ＣＰＵ（Central Processing Unit）と、ＲＡＭ（Random Access Memory）と、後述するバーストワード抽出処理ルーチンを実行するためのプログラムを記憶したＲＯＭ（Read Only Memory）とを備えたコンピュータで構成されている。このコンピュータは、機能的には、図１に示すように、初期バーストワードリスト記憶部３と、デイリーワードリスト記憶部５と、形態素解析部１２と、形態素解析済み文書集合記憶部１４と、共起計数部１６と、バーストワード抽出部１８とを含んだ構成で表すことができる。

初期バーストワードリスト記憶部３は、入力部１において受け付けた初期バーストワードリストを記憶している。なお、初期バーストワードリストには、既知の手法により抽出された複数のバーストワード候補を格納すればよく、あるいは、人手により与えられた複数のバーストワード候補を格納しておいてもよい。

デイリーワードリスト記憶部５は、入力部１において受け付けたデイリーワードリストを記憶している。なお、デイリーワードリストは、既知の手法により抽出されたデイリーワードを格納しておけばよい。

ここで、デイリーワードとは、（１）ある短い期間において起こる事象（イベント）を表す文字列であり、かつ（２）公な情報となりやすい事象を表す文字列である。例えば、「発表」、「結婚」、「ランチ」、「バイト」、「来てる」は上記（１）の要件を満たしているため、デイリーワードの候補となる。なお、「結婚」は継続する事象だが、継続中においては「Ｘの夫は誰？」のような質問になりやすいと本発明においては仮定しており、「結婚」は「結婚[発表／発覚]」の場合に使われやすいため、デイリーワードの候補となる。

また、「発表」、「結婚」は公的な情報となるため、上記（２）の条件も満たしていることにより、デイリーワードとなる。しかし、「ランチ」、「バイト」、「来てる」は私的な情報となるため、上記（２）の条件を満たさないため、デイリーワードとはならない。なお、バーストワードとデイリーワードの位置づけを図３に示す。

形態素解析部１２は、入力部１において受け付けた複数の文書の各々について既存の技術を用いて形態素解析を行い、その結果を形態素解析済み文書集合記憶部１４に出力する。

形態素解析済み文書集合記憶部１４は、形態素解析部１２において形態素解析された複数の文書の各々についての形態素解析結果を記憶する。

共起計数部１６は、初期バーストワードリスト記憶部３に記憶されている初期バーストワードリストと、デイリーワードリスト記憶部５に記憶されているデイリーワードリストと、形態素解析済み文書集合記憶部１４に記憶されている複数の形態素解析済み文書を取得し、複数の形態素解析済み文書に基づいて、複数のバーストワード候補の各々について、当該バーストワード候補が文内において複数のデイリーワードのうちの少なくとも１つと共起する文の数をカウントし、バーストワード抽出部１８に出力する。

バーストワード抽出部１８は、共起計数部１６から入力されたカウント結果に基づいて、予め定められた共起頻度の閾値（本実施例では５とする）以上であるか否かを判定し、共起頻度が閾値以上のバーストワード候補のみをバーストワードとして抽出し、抽出されたすべてのバーストワードからなるバーストワードリストを、出力部２０に出力する。

例えば、複数の形態素解析済み文書において、初期バーストワードリストに含まれる「宮城」というバーストワード候補とデイリーワードリストに含まれるデイリーワードとが共起する文の数が１０個であり、複数の形態素解析済み文書において、初期バーストワードリストに含まれる「Ｙメール」というバーストワード候補とデイリーワードリストに含まれるデイリーワードとが共起する文の数が１個である場合、閾値は５であることから「Ｙメール」はバーストワードとして除外され、「宮城」のみをバーストワードとしてバーストワードリストに加えて出力することになる。

＜バーストワード抽出装置の作用＞
次に、本発明の実施の形態に係るバーストワード抽出装置１００の作用について説明する。まず、抽出対象期間内に発信された複数の文書がバーストワード抽出装置１００に入力されメモリ（図示省略）に記憶される。そして、本実施の形態のコンピュータ１０のＲＯＭに記憶されたプログラムを、ＣＰＵが実行することにより、図２に示すバーストワード抽出処理ルーチンが実行される。

まず、ステップＳ１００において、入力部１において受け付けた複数の文書を取得する。

次に、ステップＳ１０２において、ステップＳ１００において取得した複数の文書の各々について既存の技術を用いて形態素解析を行い、形態素解析済み文書集合記憶部１４に記憶する。

次に、ステップＳ１０４において、初期バーストワードリスト記憶部３に記憶されている初期バーストワードリストを取得する。

次に、ステップＳ１０６において、デイリーワードリスト記憶部５に記憶されているデイリーワードリストを取得する。

次に、ステップＳ１０８において、ステップＳ１０６において取得したデイリーワードリストと、ステップＳ１０２において形態素解析が行われた複数の形態素解析済み文書とに基づいて、ステップＳ１０４において取得した初期バーストワードリストに含まれるバーストワード候補について、当該バーストワード候補が文内においてデイリーワードリストの複数のデイリーワードのうちの少なくとも１つと共起する文の数をカウントする。

次に、ステップＳ１１０において、初期バーストワードリストに含まれる全てのバーストワード候補について、上記のステップＳ１０８の処理を実行したか判定する。全てのバーストワード候補について上記ステップＳ１０８の処理を実行している場合には、ステップＳ１１２に移行し、上記ステップＳ１０８の処理を実行していないバーストワード候補が存在する場合には、上記ステップＳ１０８に戻り、当該バーストワード候補を対象に処理を繰り返す。

次に、ステップＳ１１２において、ステップＳ１１０においてカウントされた、デイリーワードと共起した文の数が閾値以上であるバーストワード候補のみをバーストワードとして抽出する。

次に、ステップＳ１１４において、ステップＳ１１２において抽出された全てのバーストワードをバーストワードリストとして出力し、処理を終了する。

以上、説明したように、本発明の実施の形態に係るバーストワード抽出装置によれば、文書中に出現するバーストワードについて、デイリーワードと文内で共起する単語のみを採用することで、高精度にバーストワードを抽出することができる。

また、本発明において、デイリーワードと共起する単語は、よりバーストワードである可能性が高いと仮定していることから、例えば、「宮城県で震度５の地震が発生。震源の深さはＹメートル」という文書において、「発生」がデイリーワードに含まれていれば、それと文内で共起する「宮城県」や「地震」はバーストワードとならないように処理をすることが可能である。

また、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

なお、上記の実施の形態では、抽出対象期間内に発信された複数の文書を入力としたが、これに限定されるものではなく、抽出対象期間内に発信された複数の文書について形態素解析を行った結果である形態素解析済みの文書が入力されるようにしてもよい。

また、上述のバーストワード抽出装置１００は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。また、本実施の形態のバーストワード抽出装置１００の各部をハードウエアにより構成してもよい。また、バーストワードリスト、データワードリスト、形態素解析済み文書集合が記憶されるデータベースとしては、ハードディスク装置やファイルサーバ等に例示される記憶手段によって実現可能であり、バーストワード抽出装置１００内部にデータベースを設けても良いし、外部装置に設けてもよい。

１入力部
３初期バーストワードリスト記憶部
５デイリーワードリスト記憶部
１０コンピュータ
１２形態素解析部
１４形態素解析済み文書集合記憶部
１６共起計数部
１８バーストワード抽出部
２０出力部
１００バーストワード抽出装置

Claims

短期間内に発信された文書中に頻繁に出現する単語であるバーストワードを抽出するバーストワード抽出装置であって、
抽出対象期間内に発信された文書であって、かつ、形態素解析済みの複数の文書と、イベントを表す文字列である予め定められた複数のデイリーワードと、予め定められた複数のバーストワード候補とを記憶した記憶手段と、
前記複数の形態素解析済みの文書に基づいて、前記複数のバーストワード候補の各々について、前記バーストワード候補が文内において前記複数のデイリーワードのうちの少なくとも１つと共起する文の数をカウントする計数手段と、
前記複数のバーストワード候補から、前記計数手段によってカウントされた前記文の数が、予め定められた閾値以上の前記バーストワード候補を、バーストワードとして抽出する抽出手段と、
を含むバーストワード抽出装置。
抽出対象期間内に発信された文書であって、かつ、形態素解析済みの複数の文書と、イベントを表す文字列である予め定められた複数のデイリーワードと、予め定められた複数のバーストワード候補とを記憶する記憶手段と、計数手段と、抽出手段とを含み、短期間内に発信された文書中に頻繁に出現する単語であるバーストワードを抽出するバーストワード抽出装置におけるバーストワード抽出方法であって、
前記計数手段により、前記複数の形態素解析済みの文書に基づいて、前記複数のバーストワード候補の各々について、前記バーストワード候補が文内において前記複数のデイリーワードのうちの少なくとも１つと共起する文の数をカウントし、
前記抽出手段により、前記複数のバーストワード候補から、前記計数手段によってカウントされた前記文の数が、予め定められた閾値以上の前記バーストワード候補を、バーストワードとして抽出する
バーストワード抽出方法。
短期間内に発信された文書中に頻繁に出現する単語であるバーストワードを抽出するためのプログラムであって、
抽出対象期間内に発信された文書であって、かつ、形態素解析済みの複数の文書と、イベントを表す文字列である予め定められた複数のデイリーワードと、予め定められた複数のバーストワード候補とを記憶する記憶手段を含むコンピュータを、
前記複数の形態素解析済みの文書に基づいて、前記複数のバーストワード候補の各々について、前記バーストワード候補が文内において前記複数のデイリーワードのうちの少なくとも１つと共起する文の数をカウントする計数手段、及び
前記複数のバーストワード候補から、前記計数手段によってカウントされた前記文の数が、予め定められた閾値以上の前記バーストワード候補を、バーストワードとして抽出する抽出手段
として機能させるためのプログラム。