JP2006139716A - 話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体 - Google Patents

話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体 Download PDF

Info

Publication number
JP2006139716A
JP2006139716A JP2004331065A JP2004331065A JP2006139716A JP 2006139716 A JP2006139716 A JP 2006139716A JP 2004331065 A JP2004331065 A JP 2004331065A JP 2004331065 A JP2004331065 A JP 2004331065A JP 2006139716 A JP2006139716 A JP 2006139716A
Authority
JP
Japan
Prior art keywords
word
appearance frequency
topic word
topic
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004331065A
Other languages
English (en)
Inventor
Yuki Yoshida
由紀 吉田
Shinji Abe
伸治 安部
Masakatsu Okubo
雅且 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004331065A priority Critical patent/JP2006139716A/ja
Publication of JP2006139716A publication Critical patent/JP2006139716A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 電子掲示板に途中から参加するユーザが、議論されている話題が何であるかを容易に把握することを可能にする。
【解決手段】 本発明は、電子掲示板の投稿記事を蓄積する記事データベースから、該当投稿記事のタイトルと本文を読み出して、形態素解析し、形態素解析された語句の単位時間における出現頻度を算出し、語句毎に、語句別出現頻度記憶手段に格納し、語句別出現頻度記憶手段から、語句毎の出現頻度を読み出して、該出現頻度が時系列に従って大きくなっている(伸びている)語句を話題語として抽出する。
【選択図】 図1

Description

本発明は、話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体に係り、特に、インターネット上にWebサイト形態で提供されており、不特定多数のユーが自由に投稿でき、時系列に従って記事が掲載される電子掲示板において、投稿記事の内容から話題となっている語句を抽出するための話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体に関する。
従来より、新聞記事やニュース原稿、投稿記事といったタイトルと本文が含まれた文章の内容から話題を抽出する方法は、多数報告されている。
例えば、第1の従来技術として、文献を検索する際に、所与のキーワードが検索記事に出現する時間(文献が登録された時間)と出現頻度を抽出し、想定したモデルに閾値を設定してその値との関係からキーワードとして選択する情報検索方法がある(例えば、特許文献1参照)。
また、第2の従来技術として、電子掲示板に投稿された記事を、記事間の参照関係を使って話題語毎に分割して表示、検索する電子掲示板ブラウザがある(例えば、特許文献2参照)。
また、第3の従来技術として、後接単語である話題マーカと文頭の接続詞をキーにした話題手がかり句を抽出して、話題文を抽出する話題要約生成方法がある(例えば、特許文献3参照)。
また、第4の従来技術として、ニュース原稿を学習データとして、原稿に含まれる単語の出現頻度に基づき話題の単語特徴量を算出し、会話文の話題を判定する話題推定方法がある(例えば、特許文献4参照)。
また、第5の従来技術として、電子掲示板の記事を対象として、ある記事から名詞句・固有名詞を抽出し、後続記事にもその語句が表れた場合に、割合を利用してスコアを付け、スコアの高い順に話題として抽出する方法がある(例えば、非特許文献1参照)。
特許第2729356号公報 特開平9−106331号公報 特開2001−5821号公報 特開2003−323424号公報 「名詞句と単語の勢いを用いた話題抽出手法の提案」石井他、情報処理学会研究報告2004-NL-160
しかしながら、上記従来の技術では、電子掲示板において、活発に議論されているトピックほど情報量が多く、途中から参加しようとするユーザには何が話題になっているのか、何について議論されているのか分かりにくいという問題がある。
本発明は、上記の点に鑑みなされたもので、電子掲示板に途中から参加するユーザが、議論されている話題が何であるかを容易に把握することを可能にする話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体を提供することを目的とする。
図1は、本発明の原理説明図である。
本発明(請求項1)は、インターネット上の電子掲示板の投稿記事の内容から話題語を抽出する話題語抽出方法において、
電子掲示板の投稿記事を蓄積する記事データベースから、該当投稿記事のタイトルと本文を読み出して、形態素解析する形態素解析ステップと、
形態素解析ステップで形態素解析された語句の単位時間における出現頻度を算出し、語句毎に、語句別出現頻度記憶手段に格納する出現頻度算出ステップと、
語句別出現頻度記憶手段から、語句毎の出現頻度を読み出して、該出現頻度が時系列に従って大きくなっている(伸びている)語句を話題語として抽出する話題語抽出ステップと、を行う。
また、本発明(請求項2)は、請求項1の話題語抽出ステップにおいて、
出現頻度が時系列に従って大きくなっている(伸びている)語句を決定する際に、伸びの計算方法として、ある語句について、前後2区間の時間の出現頻度の差分を伸びとする。
また、本発明(請求項3)は、請求項1の話題語抽出ステップにおいて、
語句の出現時間内の単位時間出現頻度に微分フィルタを乗じる微分フィルタ乗算ステップと、
微分フィルタ乗算ステップにより現れたピーク及びピーク時の時間を記録し、該ピーク時の時間に記録された語句を話題語とする話題語決定ステップと、
を行う。
図2は、本発明の原理構成図である。
本発明(請求項4)は、インターネット上の電子掲示板の投稿記事の内容から話題語を抽出する話題語抽出装置であって、
電子掲示板の投稿記事を蓄積する記事データベース(DB)30と、
記事DB30から、該当投稿記事のタイトルと本文を読み出して、形態素解析する形態素解析手段100と、
形態素解析手段100で形態素解析された語句の単位時間における出現頻度を算出し、語句毎に、語句別出現頻度記憶手段50に格納する出現頻度算出手段200と、
語句別出現頻度記憶手段50から、語句毎の出現頻度を読み出して、該出現頻度が時系列に従って大きくなっている(伸びている)語句を話題語として抽出する話題語抽出手段300と、を有する。
また、本発明(請求項5)は、請求項4の話題語抽出手段300において、
出現頻度が時系列に従って大きくなっている(伸びている)語句を決定する際に、伸びの計算方法として、ある語句について、前後2区間の時間の出現頻度の差分を伸びとする手段を含む。
また、本発明(請求項6)は、請求項4の話題語抽出手段300において、
語句の出現時間内の単位時間出現頻度に微分フィルタを乗じる微分フィルタ乗算手段と、
微分フィルタ乗算手段により現れたピーク及びピーク時の時間を記録し、該ピーク時の時間に記録された語句を話題語とする話題語決定手段と、
を含む。
本発明(請求項7)は、インターネット上の電子掲示板の投稿記事の内容から話題語を抽出する話題語抽出プログラムであって、請求項1乃至3記載の話題語抽出方法を実現するための処理をコンピュータに実行させるプログラムである。
本発明(請求項8)は、インターネット上の電子掲示板の投稿記事の内容から話題語を抽出する話題語抽出プログラムを格納した記憶媒体であって、
請求項1乃至3記載の話題語抽出方法を実現するための処理をコンピュータに実行させるプログラムを格納した記憶媒体である。
上記のように、本発明では、逐次更新されていくインターネット上の電子掲示板において、現在話題となっている語句は何か、ということが本文を次々読まなくとも把握することができる。
以下、図面と共に本発明の実施の形態を説明する。
図3は、本発明の一実施の形態における話題抽出装置の構成を示す。
同図に示す話題抽出装置は、出現頻度算出部200、話題語決定部300、入力装置10、出力装置20、記事データベース(DB)30、同義語辞書40、語句別出現頻度DB50から構成される。
入力装置10は、キーボードやマウス等で構成され、本実施の形態では、出現頻度算出部200における処理対象となる開始時刻の入力を行うものとする。
出力装置20は、ディスプレイやプリンタ等で構成され、話題語決定部300で決定された話題語を出力する。また、決定された話題語を記憶手段に格納するようにしてもよい。
記事DB30は、電子掲示板に投稿された記事が蓄積されている。記事DB30の構成例を図4に示す。
同義語辞書40は、出現頻度算出部200で行われる形態素解析の標準化のために利用される、記憶手段に格納される辞書である。
語句別出現頻度DB50は、出現頻度算出部200で算出された出現頻度を語句毎に格納する。
形態素解析部100は、入力装置10から入力された処理対象となる開始時刻に基づいて、記事DB30からある単位時間内に投稿された記事のタイトル、及び本文を読み出して形態素解析する。
出現頻度算出部200は、形態素解析された語句(名詞、動詞、名詞句等)毎に出現頻度を算出し、語句別出現頻度DB50に格納する。このとき、同義語辞書40を参照することにより形態素の標準化を行う。
上記の形態素解析では、開始時間を所定の時間後にずらし、ずらした開始時間から所定の単位時間内に投稿された記事の形態素解析及び出現頻度の算出処理を繰り返す。
話題語決定部300は、語句別出現頻度DB50から語区別出現頻度を読み出して、語句毎に出現頻度の伸びXを算出する。ここで伸びXとは、出現頻度が時系列に従って大きくなっている(伸びている)ことを示すものであり、2つの区間を対象として伸びXを比較し、伸びXが大きい方を話題語とする。また、微分フィルタを各語句の出現頻度に応じて重み付けを行い、指定時間内で重み付けした値を加算し、出現頻度の伸びが大きい時刻(ピーク)がある語句をその時間における話題語とする方法もある。
次に、上記の構成における動作を説明する。
図5は、本発明の一実施の形態における処理手順を説明するための図である。
電子掲示板に投稿された記事は、記事DB30に蓄積されている。
ユーザは、開始時間を任意に決定し、入力装置10から当該開始時刻を入力する。出現頻度算出部200は、入力装置10から入力された開始時刻に基づいて、記事DB30から記事を読み込み、当該記事のタイトル、及び本文を形態素解析する(ステップ101)。同じ形態素(あるいは形態素を繋げた語句)が出現するので、語句毎に出現頻度を算出する(ステップ102)。次に、出現頻度算出部200は、同義語辞書40を参照し、形態素の標準化を行い、語句別出現頻度DB50に格納する(ステップ103)。
そして、開始時間を一定時間後ろにずらし(ステップ104)、上記と同様に、ずらした開始時間から単位時間内に投稿された記事の形態素解析処理を行う処理に戻る(ステップ101)。
記事DB30に蓄積されている全ての記事について、上記の処理が終了したら、話題語決定部300は、語句別出現頻度DB50に格納されている語句別出現頻度を読み出して、出現頻度の伸びXを算出する(ステップ104)。ここで、伸びXが0より大きければ話題語として出力装置20に出力する(ステップ105)。
以下に、話題語決定部300における、出現頻度の伸び及び話題語決定方法について具体的に説明する。
図6は、本発明の一実施の形態における語句別出現頻度と話題語の決定方法の一例を示す図である。
図6のグラフは、10:00〜11:00と11:00〜12:00に投稿された記事から抽出した語句の一部とその出現頻度を表したものである。“金メダル”という語句は、どちらの時間も同じ回数だけ出現しており、“マラソン”と“ハンマー投げ”は、11:00〜12:00の時間の方が出現頻度が高い。一方、“体操”と“柔道”は、11:00〜12:00になると出現頻度が低くなっている。つまり、“マラソン”と“ハンマー投げ”は、出現頻度のプラスの伸びが認められる。そこで、プラスの伸びのある語句を話題語とする。
あるいは、プラスの伸びのある名詞で、一定の閾値を超えたものを話題語としてあげる方法もある。ここで、図6において、形態素解析の結果が名詞のものを例としてあげたが、これが他の形態素や形態素同士を連結させたものであってもかまわない。
また、伸びの計算方法も、上記の方式に限定されるものではなく、例えば、図7に示すような微分フィルタW(t)を利用することも可能である。W(t)は式(1)で表される。
W(t)=Aexp(at)−Bexp(bt) 式(1)
ここで、A,B,a,bは、A>B、a>0>b、W(t)の全区間における積分値は0となるように決定される。
この微分フィルタを各語句の出現頻度に乗じて重み付けを行い、指定時間内で重み付けした値を加算する(式(2))。
f(w,t)=Σ D(w,t)W(t) 式(2)
ここで、f(w,t)は、語句wの時刻tにおける出現頻度D(w,t)の重み付け加算値である。この関数は、出現頻度の伸びが大きい時刻にピークとして表れ、常時出現している時刻においては減衰することから、ピークがある語句をその時間における話題語とする方法をとることができる。具体的には、上記のピークが表れた語句のピーク時の時間をメモリに記録し、当該ピーク時の時間に記録された語句を話題語とする。
なお、上記の形態素解析部100、出現頻度算出部200、話題語決定部300の処理をプログラムとして構築し、話題語抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることも可能である。
また、構築されたプログラムを話題語抽出装置として利用されるコンピュータに接続されるディスク装置や、フレキシブルディスクやCD−ROM等の可搬記憶媒体に格納しておき、本発明を実施する際に、コンピュータにインストールすることも可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、インターネット上の電子掲示板の投稿記事から話題語を抽出する技術に適用可能である。
本発明の原理説明図である。 本発明の原理構成図である。 本発明の一実施の形態における話題語抽出装置の構成図である。 本発明の一実施の形態における記事データベースの例である。 本発明の一実施の形態における処理手順を説明するための図である。 本発明の一実施の形態における語句抽出頻度と話題語決定方法の一例を示す図である。 本発明の一実施の形態における微分フィルタの一例である。
符号の説明
10 入力装置
20 出力装置
30 記事データベース(DB)
40 同義語辞書
50 語句別出現頻度記憶手段、語句別出現頻度記憶部
100 形態素解析手段、形態素解析部
200 出現頻度算出手段、出現頻度算出部
300 話題語抽出手段、話題語決定部

Claims (8)

  1. インターネット上の電子掲示板の投稿記事の内容から話題語を抽出する話題語抽出方法において、
    前記電子掲示板の投稿記事を蓄積する記事データベースから、該当投稿記事のタイトルと本文を読み出して、形態素解析する形態素解析ステップと、
    前記形態素解析ステップで形態素解析された語句の単位時間における出現頻度を算出し、語句毎に、語句別出現頻度記憶手段に格納する出現頻度算出ステップと、
    前記語句別出現頻度記憶手段から、語句毎の出現頻度を読み出して、該出現頻度が時系列に従って大きくなっている(伸びている)語句を話題語として抽出する話題語抽出ステップと、
    を行うことを特徴とする話題語抽出方法。
  2. 前記話題語抽出ステップにおいて、
    前記出現頻度が時系列に従って大きくなっている(伸びている)語句を決定する際に、伸びの計算方法として、ある語句について、前後2区間の時間の出現頻度の差分を伸びとする請求項1記載の話題語抽出方法。
  3. 前記話題語抽出ステップにおいて、
    前記語句の出現時間内の単位時間出現頻度に微分フィルタを乗じる微分フィルタ乗算ステップと、
    前記微分フィルタ乗算ステップにより現れたピーク及びピーク時の時間を記録し、該ピーク時の時間に記録された語句を話題語とする話題語決定ステップと、
    を行う請求項1記載の話題語抽出方法。
  4. インターネット上の電子掲示板の投稿記事の内容から話題語を抽出する話題語抽出装置であって、
    前記電子掲示板の投稿記事を蓄積する記事データベースと、
    前記記事データベースから、該当投稿記事のタイトルと本文を読み出して、形態素解析する形態素解析手段と、
    前記形態素解析手段で形態素解析された語句の単位時間における出現頻度を算出し、語句毎に、語句別出現頻度記憶手段に格納する出現頻度算出手段と、
    前記語句別出現頻度記憶手段から、語句毎の出現頻度を読み出して、該出現頻度が時系列に従って大きくなっている(伸びている)語句を話題語として抽出する話題語抽出手段と、
    を有することを特徴とする話題語抽出装置。
  5. 前記話題語抽出手段は、
    前記出現頻度が時系列に従って大きくなっている(伸びている)語句を決定する際に、伸びの計算方法として、ある語句について、前後2区間の時間の出現頻度の差分を伸びとする手段を含む請求項4記載の話題語抽出装置。
  6. 前記話題語抽出手段は、
    前記語句の出現時間内の単位時間出現頻度に微分フィルタを乗じる微分フィルタ乗算手段と、
    前記微分フィルタ乗算手段により現れたピーク及びピーク時の時間を記録し、該ピーク時の時間に記録された語句を話題語とする話題語決定手段と、
    を含む請求項4記載の話題語抽出装置。
  7. インターネット上の電子掲示板の投稿記事の内容から話題語を抽出する話題語抽出プログラムであって、
    前記請求項1乃至3記載の話題語抽出方法を実現するための処理をコンピュータに実行させることを特徴とする話題語抽出プログラム。
  8. インターネット上の電子掲示板の投稿記事の内容から話題語を抽出する話題語抽出プログラムを格納した記憶媒体であって、
    前記請求項1乃至3記載の話題語抽出方法を実現するための処理をコンピュータに実行させるプログラムを格納したことを特徴とする話題語抽出プログラムを格納した記憶媒体。
JP2004331065A 2004-11-15 2004-11-15 話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体 Pending JP2006139716A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004331065A JP2006139716A (ja) 2004-11-15 2004-11-15 話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004331065A JP2006139716A (ja) 2004-11-15 2004-11-15 話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体

Publications (1)

Publication Number Publication Date
JP2006139716A true JP2006139716A (ja) 2006-06-01

Family

ID=36620489

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004331065A Pending JP2006139716A (ja) 2004-11-15 2004-11-15 話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP2006139716A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009064435A (ja) * 2007-09-06 2009-03-26 Nhn Corp 最新情報提供方法及びそのシステム
JP2012014643A (ja) * 2010-07-05 2012-01-19 Nippon Telegr & Teleph Corp <Ntt> 期間別主題語句抽出装置及び方法及びプログラム
JP2013069175A (ja) * 2011-09-22 2013-04-18 Nec Corp キーワード抽出システム、キーワード抽出方法及びプログラム
KR20190091011A (ko) * 2018-01-26 2019-08-05 (주) 에스알포스트 민원 이슈어 분석 추출 시스템 및 민원 이슈어 분석 추출 방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009064435A (ja) * 2007-09-06 2009-03-26 Nhn Corp 最新情報提供方法及びそのシステム
JP2011118946A (ja) * 2007-09-06 2011-06-16 Nhn Corp 最新情報提供方法
JP2012014643A (ja) * 2010-07-05 2012-01-19 Nippon Telegr & Teleph Corp <Ntt> 期間別主題語句抽出装置及び方法及びプログラム
JP2013069175A (ja) * 2011-09-22 2013-04-18 Nec Corp キーワード抽出システム、キーワード抽出方法及びプログラム
KR20190091011A (ko) * 2018-01-26 2019-08-05 (주) 에스알포스트 민원 이슈어 분석 추출 시스템 및 민원 이슈어 분석 추출 방법
KR102123687B1 (ko) * 2018-01-26 2020-06-16 (주) 에스알포스트 민원 이슈어 분석 추출 시스템 및 민원 이슈어 분석 추출 방법

Similar Documents

Publication Publication Date Title
Ashok et al. Success with style: Using writing style to predict the success of novels
Burchardt et al. Machine translation quality in an audiovisual context
Kanan et al. Extracting named entities using named entity recognizer and generating topics using latent dirichlet allocation algorithm for arabic news articles
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
Tantuğ Document categorization with modified statistical language models for agglutinative languages
Kumar et al. Sarc-M: Sarcasm detection in typo-graphic memes
Reddy et al. N-gram approach for gender prediction
Song et al. Improving embedding-based unsupervised keyphrase extraction by incorporating structural information
Humayoun et al. CORPURES: Benchmark corpus for urdu extractive summaries and experiments using supervised learning
Jha et al. Hsas: Hindi subjectivity analysis system
Gupta et al. Text analysis and information retrieval of text data
JP5362651B2 (ja) 重要語句抽出装置及び方法及びプログラム
Aydın Oktay et al. Automatic assessment of dimensional affective content in Turkish multi-party chat messages
Harrag et al. Comparative study of topic segmentation Algorithms based on lexical cohesion: Experimental results on Arabic language
JP2006139716A (ja) 話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体
Kuppan et al. An Approach to Text Summarization.
JP6735711B2 (ja) 学習装置、映像検索装置、方法、及びプログラム
Ren Automatic abstracting important sentences
JP5364529B2 (ja) 辞書登録装置、文書ラベル判定システムおよび辞書登録プログラム
JP2007172179A (ja) 意見抽出装置、意見抽出方法、および意見抽出プログラム
JP2006139717A (ja) 話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP5698306B2 (ja) 焦点推定装置、方法、及びプログラム
JP2009140411A (ja) 文章要約装置および文章要約方法
JP4934115B2 (ja) キーワード抽出装置、方法及びプログラム
JP2009176148A (ja) 未知語判定システム、方法及びプログラム