JP2006139716A

JP2006139716A - 話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体

Info

Publication number: JP2006139716A
Application number: JP2004331065A
Authority: JP
Inventors: Yuki Yoshida; 由紀吉田; Shinji Abe; 伸治安部; Masakatsu Okubo; 雅且大久保
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-11-15
Filing date: 2004-11-15
Publication date: 2006-06-01

Abstract

【課題】電子掲示板に途中から参加するユーザが、議論されている話題が何であるかを容易に把握することを可能にする。
【解決手段】本発明は、電子掲示板の投稿記事を蓄積する記事データベースから、該当投稿記事のタイトルと本文を読み出して、形態素解析し、形態素解析された語句の単位時間における出現頻度を算出し、語句毎に、語句別出現頻度記憶手段に格納し、語句別出現頻度記憶手段から、語句毎の出現頻度を読み出して、該出現頻度が時系列に従って大きくなっている（伸びている）語句を話題語として抽出する。
【選択図】図１

Description

本発明は、話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体に係り、特に、インターネット上にＷｅｂサイト形態で提供されており、不特定多数のユーが自由に投稿でき、時系列に従って記事が掲載される電子掲示板において、投稿記事の内容から話題となっている語句を抽出するための話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体に関する。

従来より、新聞記事やニュース原稿、投稿記事といったタイトルと本文が含まれた文章の内容から話題を抽出する方法は、多数報告されている。

例えば、第１の従来技術として、文献を検索する際に、所与のキーワードが検索記事に出現する時間（文献が登録された時間）と出現頻度を抽出し、想定したモデルに閾値を設定してその値との関係からキーワードとして選択する情報検索方法がある（例えば、特許文献１参照）。

また、第２の従来技術として、電子掲示板に投稿された記事を、記事間の参照関係を使って話題語毎に分割して表示、検索する電子掲示板ブラウザがある（例えば、特許文献２参照）。

また、第３の従来技術として、後接単語である話題マーカと文頭の接続詞をキーにした話題手がかり句を抽出して、話題文を抽出する話題要約生成方法がある（例えば、特許文献３参照）。

また、第４の従来技術として、ニュース原稿を学習データとして、原稿に含まれる単語の出現頻度に基づき話題の単語特徴量を算出し、会話文の話題を判定する話題推定方法がある（例えば、特許文献４参照）。

また、第５の従来技術として、電子掲示板の記事を対象として、ある記事から名詞句・固有名詞を抽出し、後続記事にもその語句が表れた場合に、割合を利用してスコアを付け、スコアの高い順に話題として抽出する方法がある（例えば、非特許文献１参照）。
特許第２７２９３５６号公報特開平９−１０６３３１号公報特開２００１−５８２１号公報特開２００３−３２３４２４号公報「名詞句と単語の勢いを用いた話題抽出手法の提案」石井他、情報処理学会研究報告2004-NL-160

しかしながら、上記従来の技術では、電子掲示板において、活発に議論されているトピックほど情報量が多く、途中から参加しようとするユーザには何が話題になっているのか、何について議論されているのか分かりにくいという問題がある。

本発明は、上記の点に鑑みなされたもので、電子掲示板に途中から参加するユーザが、議論されている話題が何であるかを容易に把握することを可能にする話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体を提供することを目的とする。

図１は、本発明の原理説明図である。

本発明（請求項１）は、インターネット上の電子掲示板の投稿記事の内容から話題語を抽出する話題語抽出方法において、
電子掲示板の投稿記事を蓄積する記事データベースから、該当投稿記事のタイトルと本文を読み出して、形態素解析する形態素解析ステップと、
形態素解析ステップで形態素解析された語句の単位時間における出現頻度を算出し、語句毎に、語句別出現頻度記憶手段に格納する出現頻度算出ステップと、
語句別出現頻度記憶手段から、語句毎の出現頻度を読み出して、該出現頻度が時系列に従って大きくなっている（伸びている）語句を話題語として抽出する話題語抽出ステップと、を行う。

また、本発明（請求項２）は、請求項１の話題語抽出ステップにおいて、
出現頻度が時系列に従って大きくなっている（伸びている）語句を決定する際に、伸びの計算方法として、ある語句について、前後２区間の時間の出現頻度の差分を伸びとする。

また、本発明（請求項３）は、請求項１の話題語抽出ステップにおいて、
語句の出現時間内の単位時間出現頻度に微分フィルタを乗じる微分フィルタ乗算ステップと、
微分フィルタ乗算ステップにより現れたピーク及びピーク時の時間を記録し、該ピーク時の時間に記録された語句を話題語とする話題語決定ステップと、
を行う。

図２は、本発明の原理構成図である。

本発明（請求項４）は、インターネット上の電子掲示板の投稿記事の内容から話題語を抽出する話題語抽出装置であって、
電子掲示板の投稿記事を蓄積する記事データベース（ＤＢ）３０と、
記事ＤＢ３０から、該当投稿記事のタイトルと本文を読み出して、形態素解析する形態素解析手段１００と、
形態素解析手段１００で形態素解析された語句の単位時間における出現頻度を算出し、語句毎に、語句別出現頻度記憶手段５０に格納する出現頻度算出手段２００と、
語句別出現頻度記憶手段５０から、語句毎の出現頻度を読み出して、該出現頻度が時系列に従って大きくなっている（伸びている）語句を話題語として抽出する話題語抽出手段３００と、を有する。

また、本発明（請求項５）は、請求項４の話題語抽出手段３００において、
出現頻度が時系列に従って大きくなっている（伸びている）語句を決定する際に、伸びの計算方法として、ある語句について、前後２区間の時間の出現頻度の差分を伸びとする手段を含む。

また、本発明（請求項６）は、請求項４の話題語抽出手段３００において、
語句の出現時間内の単位時間出現頻度に微分フィルタを乗じる微分フィルタ乗算手段と、
微分フィルタ乗算手段により現れたピーク及びピーク時の時間を記録し、該ピーク時の時間に記録された語句を話題語とする話題語決定手段と、
を含む。

本発明（請求項７）は、インターネット上の電子掲示板の投稿記事の内容から話題語を抽出する話題語抽出プログラムであって、請求項１乃至３記載の話題語抽出方法を実現するための処理をコンピュータに実行させるプログラムである。

本発明（請求項８）は、インターネット上の電子掲示板の投稿記事の内容から話題語を抽出する話題語抽出プログラムを格納した記憶媒体であって、
請求項１乃至３記載の話題語抽出方法を実現するための処理をコンピュータに実行させるプログラムを格納した記憶媒体である。

上記のように、本発明では、逐次更新されていくインターネット上の電子掲示板において、現在話題となっている語句は何か、ということが本文を次々読まなくとも把握することができる。

以下、図面と共に本発明の実施の形態を説明する。

図３は、本発明の一実施の形態における話題抽出装置の構成を示す。

同図に示す話題抽出装置は、出現頻度算出部２００、話題語決定部３００、入力装置１０、出力装置２０、記事データベース（ＤＢ）３０、同義語辞書４０、語句別出現頻度ＤＢ５０から構成される。

入力装置１０は、キーボードやマウス等で構成され、本実施の形態では、出現頻度算出部２００における処理対象となる開始時刻の入力を行うものとする。

出力装置２０は、ディスプレイやプリンタ等で構成され、話題語決定部３００で決定された話題語を出力する。また、決定された話題語を記憶手段に格納するようにしてもよい。

記事ＤＢ３０は、電子掲示板に投稿された記事が蓄積されている。記事ＤＢ３０の構成例を図４に示す。

同義語辞書４０は、出現頻度算出部２００で行われる形態素解析の標準化のために利用される、記憶手段に格納される辞書である。

語句別出現頻度ＤＢ５０は、出現頻度算出部２００で算出された出現頻度を語句毎に格納する。

形態素解析部１００は、入力装置１０から入力された処理対象となる開始時刻に基づいて、記事ＤＢ３０からある単位時間内に投稿された記事のタイトル、及び本文を読み出して形態素解析する。

出現頻度算出部２００は、形態素解析された語句（名詞、動詞、名詞句等）毎に出現頻度を算出し、語句別出現頻度ＤＢ５０に格納する。このとき、同義語辞書４０を参照することにより形態素の標準化を行う。

上記の形態素解析では、開始時間を所定の時間後にずらし、ずらした開始時間から所定の単位時間内に投稿された記事の形態素解析及び出現頻度の算出処理を繰り返す。

話題語決定部３００は、語句別出現頻度ＤＢ５０から語区別出現頻度を読み出して、語句毎に出現頻度の伸びＸを算出する。ここで伸びＸとは、出現頻度が時系列に従って大きくなっている（伸びている）ことを示すものであり、２つの区間を対象として伸びＸを比較し、伸びＸが大きい方を話題語とする。また、微分フィルタを各語句の出現頻度に応じて重み付けを行い、指定時間内で重み付けした値を加算し、出現頻度の伸びが大きい時刻（ピーク）がある語句をその時間における話題語とする方法もある。

次に、上記の構成における動作を説明する。

図５は、本発明の一実施の形態における処理手順を説明するための図である。

電子掲示板に投稿された記事は、記事ＤＢ３０に蓄積されている。

ユーザは、開始時間を任意に決定し、入力装置１０から当該開始時刻を入力する。出現頻度算出部２００は、入力装置１０から入力された開始時刻に基づいて、記事ＤＢ３０から記事を読み込み、当該記事のタイトル、及び本文を形態素解析する（ステップ１０１）。同じ形態素（あるいは形態素を繋げた語句）が出現するので、語句毎に出現頻度を算出する（ステップ１０２）。次に、出現頻度算出部２００は、同義語辞書４０を参照し、形態素の標準化を行い、語句別出現頻度ＤＢ５０に格納する（ステップ１０３）。

そして、開始時間を一定時間後ろにずらし（ステップ１０４）、上記と同様に、ずらした開始時間から単位時間内に投稿された記事の形態素解析処理を行う処理に戻る（ステップ１０１）。

記事ＤＢ３０に蓄積されている全ての記事について、上記の処理が終了したら、話題語決定部３００は、語句別出現頻度ＤＢ５０に格納されている語句別出現頻度を読み出して、出現頻度の伸びＸを算出する（ステップ１０４）。ここで、伸びＸが０より大きければ話題語として出力装置２０に出力する（ステップ１０５）。

以下に、話題語決定部３００における、出現頻度の伸び及び話題語決定方法について具体的に説明する。

図６は、本発明の一実施の形態における語句別出現頻度と話題語の決定方法の一例を示す図である。

図６のグラフは、１０：００〜１１：００と１１：００〜１２：００に投稿された記事から抽出した語句の一部とその出現頻度を表したものである。“金メダル”という語句は、どちらの時間も同じ回数だけ出現しており、“マラソン”と“ハンマー投げ”は、１１：００〜１２：００の時間の方が出現頻度が高い。一方、“体操”と“柔道”は、１１：００〜１２：００になると出現頻度が低くなっている。つまり、“マラソン”と“ハンマー投げ”は、出現頻度のプラスの伸びが認められる。そこで、プラスの伸びのある語句を話題語とする。

あるいは、プラスの伸びのある名詞で、一定の閾値を超えたものを話題語としてあげる方法もある。ここで、図６において、形態素解析の結果が名詞のものを例としてあげたが、これが他の形態素や形態素同士を連結させたものであってもかまわない。

また、伸びの計算方法も、上記の方式に限定されるものではなく、例えば、図７に示すような微分フィルタＷ（ｔ）を利用することも可能である。Ｗ（ｔ）は式（１）で表される。

Ｗ（ｔ）＝Ａexp（ａｔ）−Ｂexp（ｂｔ）式（１）
ここで、Ａ，Ｂ，ａ，ｂは、Ａ＞Ｂ、ａ＞０＞ｂ、Ｗ（ｔ）の全区間における積分値は０となるように決定される。

この微分フィルタを各語句の出現頻度に乗じて重み付けを行い、指定時間内で重み付けした値を加算する（式（２））。

ｆ（ｗ，ｔ）＝Σ_ｔＤ（ｗ，ｔ）Ｗ（ｔ）式（２）
ここで、ｆ（ｗ，ｔ）は、語句ｗの時刻ｔにおける出現頻度Ｄ（ｗ，ｔ）の重み付け加算値である。この関数は、出現頻度の伸びが大きい時刻にピークとして表れ、常時出現している時刻においては減衰することから、ピークがある語句をその時間における話題語とする方法をとることができる。具体的には、上記のピークが表れた語句のピーク時の時間をメモリに記録し、当該ピーク時の時間に記録された語句を話題語とする。

なお、上記の形態素解析部１００、出現頻度算出部２００、話題語決定部３００の処理をプログラムとして構築し、話題語抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることも可能である。

また、構築されたプログラムを話題語抽出装置として利用されるコンピュータに接続されるディスク装置や、フレキシブルディスクやＣＤ−ＲＯＭ等の可搬記憶媒体に格納しておき、本発明を実施する際に、コンピュータにインストールすることも可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、インターネット上の電子掲示板の投稿記事から話題語を抽出する技術に適用可能である。

本発明の原理説明図である。本発明の原理構成図である。本発明の一実施の形態における話題語抽出装置の構成図である。本発明の一実施の形態における記事データベースの例である。本発明の一実施の形態における処理手順を説明するための図である。本発明の一実施の形態における語句抽出頻度と話題語決定方法の一例を示す図である。本発明の一実施の形態における微分フィルタの一例である。

符号の説明

１０入力装置
２０出力装置
３０記事データベース（ＤＢ）
４０同義語辞書
５０語句別出現頻度記憶手段、語句別出現頻度記憶部
１００形態素解析手段、形態素解析部
２００出現頻度算出手段、出現頻度算出部
３００話題語抽出手段、話題語決定部

Claims

インターネット上の電子掲示板の投稿記事の内容から話題語を抽出する話題語抽出方法において、
前記電子掲示板の投稿記事を蓄積する記事データベースから、該当投稿記事のタイトルと本文を読み出して、形態素解析する形態素解析ステップと、
前記形態素解析ステップで形態素解析された語句の単位時間における出現頻度を算出し、語句毎に、語句別出現頻度記憶手段に格納する出現頻度算出ステップと、
前記語句別出現頻度記憶手段から、語句毎の出現頻度を読み出して、該出現頻度が時系列に従って大きくなっている（伸びている）語句を話題語として抽出する話題語抽出ステップと、
を行うことを特徴とする話題語抽出方法。
前記話題語抽出ステップにおいて、
前記出現頻度が時系列に従って大きくなっている（伸びている）語句を決定する際に、伸びの計算方法として、ある語句について、前後２区間の時間の出現頻度の差分を伸びとする請求項１記載の話題語抽出方法。
前記話題語抽出ステップにおいて、
前記語句の出現時間内の単位時間出現頻度に微分フィルタを乗じる微分フィルタ乗算ステップと、
前記微分フィルタ乗算ステップにより現れたピーク及びピーク時の時間を記録し、該ピーク時の時間に記録された語句を話題語とする話題語決定ステップと、
を行う請求項１記載の話題語抽出方法。
インターネット上の電子掲示板の投稿記事の内容から話題語を抽出する話題語抽出装置であって、
前記電子掲示板の投稿記事を蓄積する記事データベースと、
前記記事データベースから、該当投稿記事のタイトルと本文を読み出して、形態素解析する形態素解析手段と、
前記形態素解析手段で形態素解析された語句の単位時間における出現頻度を算出し、語句毎に、語句別出現頻度記憶手段に格納する出現頻度算出手段と、
前記語句別出現頻度記憶手段から、語句毎の出現頻度を読み出して、該出現頻度が時系列に従って大きくなっている（伸びている）語句を話題語として抽出する話題語抽出手段と、
を有することを特徴とする話題語抽出装置。
前記話題語抽出手段は、
前記出現頻度が時系列に従って大きくなっている（伸びている）語句を決定する際に、伸びの計算方法として、ある語句について、前後２区間の時間の出現頻度の差分を伸びとする手段を含む請求項４記載の話題語抽出装置。
前記話題語抽出手段は、
前記語句の出現時間内の単位時間出現頻度に微分フィルタを乗じる微分フィルタ乗算手段と、
前記微分フィルタ乗算手段により現れたピーク及びピーク時の時間を記録し、該ピーク時の時間に記録された語句を話題語とする話題語決定手段と、
を含む請求項４記載の話題語抽出装置。
インターネット上の電子掲示板の投稿記事の内容から話題語を抽出する話題語抽出プログラムであって、
前記請求項１乃至３記載の話題語抽出方法を実現するための処理をコンピュータに実行させることを特徴とする話題語抽出プログラム。
インターネット上の電子掲示板の投稿記事の内容から話題語を抽出する話題語抽出プログラムを格納した記憶媒体であって、
前記請求項１乃至３記載の話題語抽出方法を実現するための処理をコンピュータに実行させるプログラムを格納したことを特徴とする話題語抽出プログラムを格納した記憶媒体。