JP2006139717A

JP2006139717A - 話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体

Info

Publication number: JP2006139717A
Application number: JP2004331066A
Authority: JP
Inventors: Yuki Yoshida; 由紀吉田; Shinji Abe; 伸治安部; Masakatsu Okubo; 雅且大久保
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-11-15
Filing date: 2004-11-15
Publication date: 2006-06-01

Abstract

【課題】電子掲示板に参加するユーザが、議論されているカテゴリの話題を容易に把握することを可能にする。
【解決手段】本発明は、カテゴリ毎に設定されているトピックについて、該トピック毎にトピックタイトル、該トピックの投稿数、投稿日時からなる情報を蓄積するトピック情報データベース（ＤＢ）からカテゴリ内にあるトピックタイトルを読み出して、該トピックタイトルを形態素解析し、形態素解析の結果の語句毎に、トピック情報ＤＢのトピック内の投稿記事数を取得して、スコアを時系列に算出し、スコア記憶手段に該語句毎にスコアを格納し、スコア記憶手段から語句毎のスコアを取得して、時系列に従ってスコアが大きくなっている（伸びている）語句を前記カテゴリの話題語として抽出する。
【選択図】図１

Description

本発明は、話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体に係り、特に、インターネット上にＷｅｂサイト形態で提供されており、不特定多数のユーが自由に投稿でき、時系列に従って記事が掲載される電子掲示板において、投稿記事の投稿数とトピックのタイトルから、カテゴリ内の話題となっている語句を抽出するための話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体に関する。

従来より、新聞記事やニュース原稿、投稿記事といったタイトルと本文が含まれた文章の内容から話題を抽出する方法は、多数報告されている。

例えば、第１の従来技術として、文献を検索する際に、所与のキーワードが検索記事に出現する時間（文献が登録された時間）と出現頻度を抽出し、想定したモデルに閾値を設定してその値との関係からキーワードとして選択する情報検索方法がある（例えば、特許文献１参照）。

また、第２の従来技術として、電子掲示板に投稿された記事を、記事間の参照関係を使って話題語毎に分割して表示、検索する電子掲示板ブラウザがある（例えば、特許文献２参照）。

また、第３の従来技術として、後接単語である話題マーカと文頭の接続詞をキーにした話題手がかり句を抽出して、話題文を抽出する話題要約生成方法がある（例えば、特許文献３参照）。

また、第４の従来技術として、ニュース原稿を学習データとして、原稿に含まれる単語の出現頻度に基づき話題の単語特徴量を算出し、会話文の話題を判定する話題推定方法がある（例えば、特許文献４参照）。

また、第５の従来技術として、電子掲示板の記事を対象として、ある記事から名詞句・固有名詞を抽出し、後続記事にもその語句が表れた場合に、割合を利用してスコアを付け、スコアの高い順に話題として抽出する方法がある（例えば、非特許文献１参照）。
特許第２７２９３５６号公報特開平９−１０６３３１号公報特開２００１−５８２１号公報特開２００３−３２３４２４号公報「名詞句と単語の勢いを用いた話題抽出手法の提案」石井他、情報処理学会研究報告2004-NL-160

しかしながら、上記従来の技術では、電子掲示板において、活発に議論されている投稿記事の内容を一つ一つ全て分析して話題を抽出する必要があり、莫大な計算量を要してしまうという問題がある。

本発明は、上記の点に鑑みなされたもので、電子掲示板に参加するユーザが、議論されているカテゴリの話題を容易に把握することを可能にする話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体を提供することを目的とする。

図１は、本発明の原理説明図である。

本発明（請求項１）は、インターネット上の時系列に従って記事が掲載される電子掲示板の内容から話題語を抽出する話題語抽出方法において、
投稿記事を格納する記事データベースから、カテゴリ毎に設定されているトピックについて、該トピック毎にトピックタイトル、該トピックに対する記事の投稿数、最新投稿日時からなる情報を抽出してトピック情報データベース（ＤＢ）に蓄積するトピック情報データベース作成ステップ（ステップ１）と、
トピック情報データベース（ＤＢ）からカテゴリ内にあるトピックタイトルを読み出して、該トピックタイトルを形態素解析する形態素解析ステップ（ステップ２）と、
トピック情報ＤＢのトピック内の投稿記事数を取得して、スコアを時系列に算出し、形態素解析の結果の語句毎に、スコア記憶手段に該語句毎にスコアを格納するスコア算出ステップ（ステップ３）と、
スコア記憶手段から語句毎のスコアを取得して、時系列に従ってスコアが大きくなっている（伸びている）語句をカテゴリの話題語として抽出する話題語抽出ステップ（ステップ４）と、を行う。

また、本発明（請求項２）は、請求項１の話題語抽出ステップにおいて、
出現頻度が時系列に従って大きくなっている（伸びている）語句を決定する際に、伸びの計算方法として、ある語句について、前後２区間の時間の出現頻度の差分を伸びとする。

また、本発明（請求項３）は、請求項１の話題語抽出ステップにおいて、
語句の出現時間内の単位時間出現頻度に微分フィルタを乗じる微分フィルタ乗算ステップと、
微分フィルタ乗算ステップにより現れたピーク及びピーク時の時間を記録し、該ピーク時の時間に記録された語句を話題語とする話題語決定ステップと、
を行う。

図２は、本発明の原理構成図である。

インターネット上の時系列に従って記事が掲載される電子掲示板の内容から話題語を抽出する話題語抽出装置であって、
投稿記事を格納する記事データベース４０と、
記事データベース４０から、カテゴリ毎に設定されているトピックについて、該トピック毎にトピックタイトル、該トピックに対する記事の投稿数、最新投稿日時からなる情報を抽出してトピック情報データベース（ＤＢ）１０に蓄積するトピック情報データベース作成手段と、
トピック情報ＤＢ１０からカテゴリ内にあるトピックタイトルを読み出して、該トピックタイトルを形態素解析する形態素解析手段１００と、
トピック情報ＤＢのトピック内の投稿記事数を取得して、スコアを時系列に算出し、形態素解析の結果の語句毎に、スコア記憶手段２０に該語句毎にスコアを格納するスコア算出手段２００と、
スコア記憶手段２００から語句毎のスコアを取得して、時系列に従ってスコアが大きくなっている（伸びている）語句をカテゴリの話題語として抽出する話題語抽出手段３００と、を有する。

また、本発明（請求項５）は、請求項４の話題語抽出手段３００において、
出現頻度が時系列に従って大きくなっている（伸びている）語句を決定する際に、伸びの計算方法として、ある語句について、前後２区間の時間の出現頻度の差分を伸びとする手段を含む。

また、本発明（請求項６）は、請求項４の話題語抽出手段３００において、
語句の出現時間内の単位時間出現頻度に微分フィルタを乗じる微分フィルタ乗算手段と、
微分フィルタ乗算手段により現れたピーク及びピーク時の時間を記録し、該ピーク時の時間に記録された語句を話題語とする話題語決定手段と、
を含む。

本発明（請求項７）は、インターネット上の時系列に従って記事が掲載される電子掲示板の内容から話題語を抽出する話題語抽出プログラムであって、請求項１乃至３記載の話題語抽出方法を実現するための処理をコンピュータに実行させるプログラムである。

本発明（請求項８）は、インターネット上の時系列に従って記事が掲載される電子掲示板の内容から話題語を抽出する話題語抽出プログラムを格納した記憶媒体であって、請求項１乃至３記載の話題語抽出方法を実現するための処理をコンピュータに実行させるプログラムを格納した記憶媒体である。

上記のように、本発明では、逐次更新されていくインターネット上の電子掲示板において、記事一つ一つから話題を抽出する場合の莫大な計算を回避し、各トピックにおける投稿記事数を話題抽出に反映させることにより、関心の高さを把握することができる。

以下、図面と共に本発明の実施の形態を説明する。

最初に、カテゴリとトピックについて説明する。

図３は、カテゴリとトピックの例を示す。

カテゴリとは、掲示板を話題やテーマによって分類したものを指し、トピックとは、カテゴリ毎に作成された掲示板のことで、ユーザは適切なテーマを選択してカテゴリのテーマにあったトピックを作成する。

図３に示すこれらのカテゴリの中から１つを選択し、階層を辿っていくと、図４に示すようなトピックの画面に行き着く。図４は、“スポーツ”のカテゴリを選択し、その後、“ゴルフ”、“全般”とカテゴリを選択していった結果表れたトピックの例である。本発明では、トピックのタイトルから当該カテゴリで話題となっている語句（話題語）を抽出する。

図５は、本発明の一実施の形態における話題語抽出装置の構成を示す。

同図に示す話題語抽出装置は、記事データベース（ＤＢ）４０、トピック情報データベース（ＤＢ）作成部４００、形態素解析部１００、スコア算出部２００、話題語抽出部３００、トピック情報データベース（ＤＢ）１０、スコア記憶部２０、及び出力装置３０から構成される。

記事ＤＢ４０は、ユーザによってカテゴリ内のトピックに投稿された記事を格納する。

トピック情報ＤＢ作成部４００は、記事ＤＢ４０を読み込み、カテゴリ毎のトピックタイトル、トピックタイトル毎に投稿された記事数をカウントした値、最終的に記事が投稿された日時からなるデータを１レコードとしてトピック情報ＤＢ１０に追加書き込みしていく。なお、トピック情報ＤＢ１０の作成のタイミングは、所定の時間周期で行ってもよいし、リアルタイムで行ってもよい。トピック情報ＤＢ１０の例を図６に示す。

トピック情報ＤＢ１０は、カテゴリ毎のトピックタイトル及び、トピックに対する記事の投稿記事数、投稿日時が格納されている。

形態素解析部１００は、トピック情報ＤＢ１０からデータを読み出して、トピックタイトルについて形態素解析し、名詞を抽出する。なお、本実施の形態では、名詞を抽出して用いるが、この例に限定されることなく、名詞以外の形態素解析結果や語句を用いてもよい。

スコア算出部２００は、トピック情報ＤＢ１０からトピック毎に投稿数を取得し、所定の単位時間内においてトピックに対して投稿された記事数を算出し、形態素解析された名詞毎に、投稿記事数を利用してスコアを算出し、スコア記憶部２０に格納する。このとき、トピックが異なるが、同じ名詞の場合、当該トピック全部のスコアの合計をスコアとする。

なお、スコアの算出方法は、単純に投稿記事数とする方法、重み付け等を行う方法など種々考えられる。

話題語抽出部３００は、全てのスコア算出処理が終了したら、スコア記憶部２０からスコアを時系列に並べ、ある時間Ｔ_Ｎ＋１時のスコアとＴ_Ｎ時のスコアからスコアの伸びを求め、その伸びが大きい名詞の順にＴ_Ｎ＋１時の当該カテゴリの話題として出力装置３０に出力する。

出力装置３０は、ディスプレイやプリンタ等で構成され、話題語決定部３００で決定された話題語を出力する。また、決定された話題語を記憶手段に格納するようにしてもよい。

次に、上記の構成における動作を説明する。

図７は、本発明の一実施の形態における処理手順を示す図である。

以下の処理では、予め、トピック情報ＤＢ作成部４００によって、トピック情報ＤＢ１０が任意のタイミングで作成（更新）されているものとする。

まず、形態素解析部１００は、トピック情報ＤＢ１０からある１つのカテゴリ内のトピックタイトルを読み出して、当該トピックタイトルについて形態素解析し（ステップ１０１）、名詞を抽出する（ステップ１０２）。

次に、スコア算出部２００は、トピック情報ＤＢ１０からトピック毎の投稿数を取得し、所定の単位時間内のトピック毎に投稿された記事数を算出し（ステップ１０３）、ステップ１０２で抽出された名詞毎に投稿記事数を利用してスコアを算出し、名詞とスコアを組にしてスコア記憶部２０に格納する（ステップ１０４）。このとき、トピックタイトルが形態素解析された結果、複数の異なるトピックに対し同一の名詞が抽出されている場合には、それらのトピック全てのスコアを合計し、これをスコアとするものとする。

トピック情報ＤＢ１０の当該カテゴリ内に未処理のトピックがあるかを判定し、ある場合には、ステップ１０１に移行し（ステップ１０５、Ｙｅｓ）、ない場合には（ステップ１０５、Ｎｏ）、話題語抽出部３００は、スコア記憶部２０から名詞毎のスコアを読み出して、時系列に並べる。具体的にはメモリ上で時間順にソートする等の方法がある（ステップ１０６）。

話題語抽出部３００は、時刻Ｔ_Ｎ＋１のときのスコアと時刻Ｔ_Ｎのスコアの差を求め、これをスコアの伸びとする（ステップ１０７）。当該スコアの伸びが大きい名詞の順に時刻Ｔ_Ｎ＋１の当該カテゴリの話題として出力装置３０に出力する（ステップ１０８）。

なお、ステップ１０７におけるスコアの伸びの算出方法については、上記のように単純に差分を取り、それをスコアの伸びとするものの他に、微分フィルタを利用して傾きから算出する方法がある。

スコアの差分から求める方法は、時刻Ｔ_Ｎ＋１のスコアから時刻Ｔ_Ｎのスコアを引いた際に、プラスとなった場合に伸びがあるするものである。

一方、微分フィルタＷ（ｔ）は以下の式（１）で表される。

Ｗ（ｔ）＝Ａexp（ａｔ）−Ｂexp（ｂｔ）式（１）
ここで、Ａ，Ｂ，ａ，ｂは、Ａ＞Ｂ，ａ＞０＞ｂ，Ｗ（ｔ）の全区間における積分値は０となるように決定される。この微分フィルタを各時刻におけるスコアに乗じて重み付けを行い、指定時間内で重み付けした値を加算する（式（２））。

ｆ（ｗ，ｔ）＝Σ_ｔ（ｗ，ｔ）Ｗ（ｔ）式（２）
ここで、ｆ（ｗ，ｔ）は、語句ｗの時刻ｔにおけるスコアＳ（ｗ，ｔ）の重み付け加算値である。この関数は、スコアの伸びが大きい時刻にピークとして現われ、常時出現している時刻においては減衰することから、ピークがある語句をその時間における話題語とする方法をとることができる。

なお、上記では、名詞を話題語して抽出する方法を示したが、名詞以外の形態素解析結果や語句でもよい。

なお、上記の形態素解析部１００、スコア算出部２００、話題語決定部３００の処理をプログラムとして構築し、話題語抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることも可能である。

また、構築されたプログラムを話題語抽出装置として利用されるコンピュータに接続されるディスク装置や、フレキシブルディスクやＣＤ−ＲＯＭ等の可搬記憶媒体に格納しておき、本発明を実施する際に、コンピュータにインストールすることも可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、インターネット上の電子掲示板の投稿記事から話題語を抽出する技術に適用可能である。

本発明の原理説明図である。本発明の原理構成図である。掲示板におけるカテゴリの例である。掲示板におけるトピックの例である。本発明の一実施の形態における話題語抽出装置の構成図である。本発明の一実施の形態におけるトピック情報データベース（ＤＢ）の例である。本発明の一実施の形態における処理手順を示す図である。

符号の説明

１０トピック情報データベース（ＤＢ）
２０スコア記憶手段、スコア記憶部
３０出力装置
１００形態素解析手段、形態素解析部
２００スコア算出手段、スコア算出部
３００話題語抽出手段、話題語決定部

Claims

インターネット上の時系列に従って記事が掲載される電子掲示板の内容から話題語を抽出する話題語抽出方法において、
投稿記事を格納する記事データベースから、カテゴリ毎に設定されているトピックについて、該トピック毎にトピックタイトル、該トピックに対する記事の投稿数、最新投稿日時からなる情報を抽出してトピック情報データベース（ＤＢ）に蓄積するトピック情報データベース作成ステップと、
前記トピック情報データベースからカテゴリ内にあるトピックタイトルを読み出して、該トピックタイトルを形態素解析する形態素解析ステップと、
前記トピック情報ＤＢの前記トピック内の投稿記事数を取得して、前記形態素解析の結果の語句毎に、スコアを時系列に算出し、スコア記憶手段に該語句毎にスコアを格納するスコア算出ステップと、
前記スコア記憶手段から語句毎のスコアを取得して、時系列に従ってスコアが大きくなっている（伸びている）語句を前記カテゴリの話題語として抽出する話題語抽出ステップと、
を行うことを特徴とする話題語抽出方法。
前記話題語抽出ステップにおいて、
前記スコアが時系列に従って大きくなっている（伸びている）語句を決定する際に、伸びの計算方法として、ある語句について、前後２区間の時間の出現頻度の差分を伸びとする請求項１記載の話題語抽出方法。
前記話題語抽出ステップにおいて、
前記語句の出現時間内の単位時間出現頻度に微分フィルタを乗じる微分フィルタ乗算ステップと、
前記微分フィルタ乗算ステップにより現れたピーク及びピーク時の時間を記録し、該ピーク時の時間に記録された語句を話題語とする話題語決定ステップと、
を行う請求項１記載の話題語抽出方法。
インターネット上の時系列に従って記事が掲載される電子掲示板の内容から話題語を抽出する話題語抽出装置であって、
投稿記事を格納する記事データベースと、
前記記事データベースから、カテゴリ毎に設定されているトピックについて、該トピック毎にトピックタイトル、該トピックに対する記事の投稿数、最新投稿日時からなる情報をトピック情報データベース（ＤＢ）に蓄積するトピック情報データベース作成手段と、
前記トピック情報ＤＢからカテゴリ内にあるトピックタイトルを読み出して、該トピックタイトルを形態素解析する形態素解析手段と、
前記トピック情報ＤＢの前記トピック内の投稿記事数を取得して、前記形態素解析の結果の語句毎に、スコアを時系列に算出し、スコア記憶手段に該語句毎にスコアを格納するスコア算出手段と、
前記スコア記憶手段から語句毎のスコアを取得して、時系列に従ってスコアが大きくなっている（伸びている）語句を前記カテゴリの話題語として抽出する話題語抽出手段と、
を有することを特徴とする話題語抽出装置。
前記話題語抽出手段は、
前記出現頻度が時系列に従って大きくなっている（伸びている）語句を決定する際に、伸びの計算方法として、ある語句について、前後２区間の時間の出現頻度の差分を伸びとする手段を含む請求項４記載の話題語抽出装置。
前記話題語抽出手段は、
前記語句の出現時間内の単位時間出現頻度に微分フィルタを乗じる微分フィルタ乗算手段と、
前記微分フィルタ乗算手段により現れたピーク及びピーク時の時間を記録し、該ピーク時の時間に記録された語句を話題語とする話題語決定手段と、
を含む請求項４記載の話題語抽出装置。
インターネット上の時系列に従って記事が掲載される電子掲示板の内容から話題語を抽出する話題語抽出プログラムであって、
前記請求項１乃至３記載の話題語抽出方法を実現するための処理をコンピュータに実行させることを特徴とする話題語抽出プログラム。
インターネット上の時系列に従って記事が掲載される電子掲示板の内容から話題語を抽出する話題語抽出プログラムを格納した記憶媒体であって、
前記請求項１乃至３記載の話題語抽出方法を実現するための処理をコンピュータに実行させるプログラムを格納したことを特徴とする話題語抽出プログラムを格納した記憶媒体。