JP2008152634A - 潜在話題抽出装置、潜在話題抽出方法、プログラムおよび記録媒体 - Google Patents

潜在話題抽出装置、潜在話題抽出方法、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP2008152634A
JP2008152634A JP2006341501A JP2006341501A JP2008152634A JP 2008152634 A JP2008152634 A JP 2008152634A JP 2006341501 A JP2006341501 A JP 2006341501A JP 2006341501 A JP2006341501 A JP 2006341501A JP 2008152634 A JP2008152634 A JP 2008152634A
Authority
JP
Japan
Prior art keywords
word
topic
time
document
latent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006341501A
Other languages
English (en)
Other versions
JP4807881B2 (ja
Inventor
Yoshihide Sato
吉秀 佐藤
Hidenori Okuda
英範 奥田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006341501A priority Critical patent/JP4807881B2/ja
Publication of JP2008152634A publication Critical patent/JP2008152634A/ja
Application granted granted Critical
Publication of JP4807881B2 publication Critical patent/JP4807881B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】規模の大きな話題の影響を排除し、普段は大きな話題の影響で隠れがちな小規模の話題を効率的に発見することができる潜在話題抽出装置、潜在話題抽出方法、プログラムおよび記録媒体を提供することを目的とする。
【解決手段】複数の文書集合に出現する単語の時間的な出現頻度変化を集計することによって、各単語の時系列頻度ベクトルを生成し、上記生成された単語の時系列頻度ベクトルを分析し、頻度が一時的に急増する単語を、潜在的話題の候補である候補語として抽出し、上記文書集合中に含まれている話題のうちで、文書数が、所定の閾値よりも多い話題について、時間毎に取得した文書数を数値化することによって主話題時系列頻度ベクトルを生成し、各候補語の時系列頻度ベクトルと上記主話題時系列頻度ベクトルとのベクトル間距離を算出し、該距離が大きい単語を潜在話題語として抽出する潜在話題抽出装置である。
【選択図】図1

Description

本発明は、文書集合に含まれている数多くの話題を発見するために文書を整理する際、規模の大きな話題の存在に埋もれて隠れがちな小さな話題を容易に発見するための技術に関する。
文書等の大量のデータを自動的に分類することによって類似データを集約し、データ全体の概要を、効率的に把握する方法として、クラスタリング技術が知られている。文書を対象としてクラスタリングする場合、文書内の各単語の出現回数等に基づいて、文書の非類似性を示す文書間距離を計算し、文書間距離が近い文書同士を結合し、遠い文書同士を分離するように分類する。
よく用いられるクラスタリング手法として、最短距離法、最長距離法、群平均法、ウォード法、k−means法等があり、これらを大きく分けると、階層的手法と分割最適化手法とに分けることができる。
上記「階層的手法」は、初期状態として、データ1個1個をそれぞれクラスタとみなし、最も距離的に近いクラスタ同士を結合しながら集約するボトムアップ手法、または、逆に、全データを含む1クラスタから開始し、クラスタを分割しながら細分化するトップダウン手法がある。いずれの方法も、生成されたクラスタ群は、デンドログラムと呼ぶ樹状の階層的構造を持ち、最下層では、個々のデータがクラスタを構成する最も細分化した状態であり、最上層では、全データが1クラスタに収まった最も集約された状態である。任意の階層を指定すれば、任意のクラスタ数へ分割することができる。
一方、上記「分割最適化手法」は、分割するクラスタ数を予め指定し、分割のよさを表わす評価関数が最適になるように、個々のデータの所属するクラスタを変える手法である。
クラスタリング処理を行う場合、たとえば「文書集合を3個のクラスタに分割する」等、分類数の指定や、「文書間距離が0.9以下のクラスタのみ結合する」等、距離の閾値の指定を事前に行うことによって、粗い分類や細かい分類等、利用者が望む粒度での分類を行う。
また、文書の集合から話題を抽出する発明が知られている(たとえば、特許文献1参照)。特許文献1記載の発明は、文書集合における最近の主要な話題を抽出することができる発明であり、文書集合に含まれている単語毎に、出現頻度の時間推移を求め、最近の時刻には正の値を重みとして与え、過去の時刻には、負の値を重みとして与えることによって「話題度」を計算する。
特開2005−316899号公報
上記従来技術によって、文書の内容に基づいて文書を分類するときに、特定の話題に関する文書の数が多い場合には大きなクラスタが生成され、同時に、相対的に小さなクラスタも生成される。この結果、大きさの異なる様々なクラスタが生成される。大きなクラスタは、互いに類似する文書が数多く存在するクラスタであり、大きなクラスタを優先的に選択して文書を閲覧すれば、数多くの文書に記述されるような注目度の高い話題を素早く把握することができる。
しかし、小さなクラスタの中に紛れている話題であって、意外性のある話題を発見したい場合には、従来技術による分類は不向きである。つまり、大きなクラスタは数が少なく、クラスタが小さくなる程、数が増加する傾向があるので、小さなクラスタの中に紛れている話題であって、意外性のある話題を発見することが困難である。
小さなクラスタは、重要度の低い話題である場合が圧倒的に多いので、これらを慎重に閲覧しようとすれば、膨大な時間を要し、逆に、短時間で閲覧しようとすると、重要な話題を見落とす可能性が高くなるという問題がある。
本発明は、規模の大きな話題の影響を排除し、普段は大きな話題の影響で隠れがちな小規模の話題を効率的に発見することができる潜在話題抽出装置、潜在話題抽出方法、プログラムおよび記録媒体を提供することを目的とする。
本発明は、複数の文書集合に出現する単語の時間的な出現頻度変化を集計することによって、各単語の時系列頻度ベクトルを生成する時系列頻度ベクトル生成手段と、上記生成された単語の時系列頻度ベクトルを分析し、頻度の増加率が一定値以上である単語を、潜在的話題の候補である候補語として抽出する候補語抽出手段と、上記文書集合中の各文書に付随する時間情報に基づいて一定時間毎の文書数を集計することによって、主話題時系列頻度ベクトルを生成する主話題時系列頻度ベクトル生成手段と、各候補語の時系列頻度ベクトルと上記主話題時系列頻度ベクトルとのベクトル間距離を算出し、この算出されたベクトル間距離が大きい単語を潜在話題語として抽出する潜在話題語抽出手段とを有する潜在話題抽出装置である。
本発明によれば、頻度の増加率が一定値以上である単語を選択した後に、文書集合中の中心的な話題とは異なる盛り上がりパターンを持つ単語のみを選別するので、一時的な話題性はあるものの、規模が小さいために通常は埋もれてしまう話題を効果的に抽出することができるという効果を奏する。
発明を実施するための最良の形態は、以下の実施例である。
図1は、本発明の実施例1である潜在話題抽出装置100を示すブロック図である。
潜在話題抽出装置100は、文書集合中に出現する各単語の出現頻度の時間推移を集計して、盛り上がりパターンを獲得し、これら獲得した盛り上がりパターンを、文書集合中の中心的な話題である「主話題」の盛り上がりパターンと比較する。そして、主話題の盛り上がりパターンとは異なる盛り上がりパターンを持つ話題を、潜在話題として抽出する装置である。
潜在話題抽出装置100は、文書記録部11と、文書解析部12と、文書情報管理部13と、候補語抽出部14と、候補語記録部15と、潜在話題語抽出部16と、主話題抽出部17と、主話題記録部18と、潜在話題語集約部19と、潜在話題語集合記録部20と、潜在話題語記録部21とを有する。
図2は、本発明の原理を説明するフローチャートである。
まず、入力文書集合に含まれている各単語の出現頻度を集計し、各単語の盛り上がりのパターンを表わす時系列頻度ベクトルを生成する(S1)。これらの単語のうちで、出現頻度が急上昇する単語を、話題を構成する単語の候補語として抽出する(S2)。また、入力文書集合における主話題の盛り上がりパターンを表わす主話題時系列頻度ベクトルを生成する(S3)。続いて、複数の話題候補語のそれぞれの時系列頻度ベクトルを、主話題時系列頻度ベクトルと比較し、ベクトル間の距離が大きい候補語を、潜在話題語として抽出する(S4)。S4で抽出した潜在話題語を対象に、同一の文書中に出現する確率(共起確率)が高い潜在話題語を集約してもよい(S5)。
図3は、文書記録部11に記録されているデータ例(文書ID、出現時刻、本文)を示す図である。
なお、図3に示すデータ例は、日によって文書数が異なる文書集合から抽出された文書に基づいて生成されたデータ例である。また、上記文書集合は、ブログ、電子掲示板の書込記事、各新聞社等によるホームページに掲載されている文書等である。
文書記録部11は、分析対象の文書の本文を、図3に示すように記録する。各文書には「0001」、「0002」等、一意な文書IDを付与する。また、文書の作成時刻を取得することができれば、作成時刻、また、収集時刻を取得できれば、収集時刻等、文書に付随する時刻情報をも併せて、文書記録部11が記録する。
文書解析部12は、文書IDと、時刻情報と、本文との組を、文書記録部11から、1文書ずつ取得し、本文を解析して本文中に出現する単語とその出現回数とを集計する。
文書情報管理部13は、本文中に出現する単語と、この単語の出現回数と、文書IDと、時刻情報とを記録する。
図4は、文書情報管理部13に記録されているデータ例(文書ID、出現時刻、単語、出現回数)を示す図である。
文章は、名詞、動詞、助詞、感嘆詞、さらに記号等の様々な要素で構成されるが、図4に示すデータ例は、本文中から「政府」、「消費税」等の名詞のみを取得した例である。
本文データから名詞を取得する場合、形態素解析等の文章解析手法を用いる。形態素解析を行うと、日本語文書を構成する最小単位である形態素への分かち書きを行うことができ、各形態素に、「名詞」、「動詞」、「助詞」、「記号」等のタイプを付与することができる。文書解析部12は、タイプが「名詞」である形態素のみを取得する。
候補語抽出部14は、文書情報管理部13に蓄積されている各単語の時刻毎の出現頻度を集計し、期間中のいずれかの箇所で大きく出現頻度が増加する単語のみを、潜在話題の候補語として抽出する。つまり、候補語抽出部14は、複数の文書集合に出現する単語の時間的な出現頻度変化を集計することによって、各単語の時系列頻度ベクトルを生成する時系列頻度ベクトル生成手段の例である。また、候補語抽出部14は、生成された単語の時系列頻度ベクトルを分析し、頻度の増加率が一定値以上である単語を、潜在的話題の候補である候補語として抽出する候補語抽出手段の例である。
候補語記録部15は、候補語抽出部14が抽出した候補語を記録する。
次に、実施例1において、候補語抽出部14が潜在話題の候補語を抽出する動作について説明する。
図5は、候補語抽出部14が潜在話題の候補語を抽出する動作を示すフローチャートである。
S101で、文書情報管理部13に文書を記録した時刻情報と、この文書中の単語を順に取得し、単語が出現する文書の文書IDと、出現時刻との組の一覧を、単語別に作成する。図4に示す例によれば、ID0001の文書に「政府」という単語が出現し、この文書の時刻情報が「2006/8/13 09:30」であるので、文書ID「0001」と時刻情報「2006/8/13 09:30」とを「政府」に対する文書一覧として記録する。単語「政府」がID0003の文書にも出現すれば、文書ID「0003」と、時刻情報「2006/8/14 17:30」とを、ともに追加記録する。このようにして、全ての単語について、それぞれの出現文書の文書ID、時刻情報一覧を作成する。
ステップS102で、1単語の出現時刻一覧を取得し、ステップS103で、取得した出現時刻一覧を用い、バースト判定を行う。
この「バースト判定」は、たとえば、非特許文献「Jon Kleinburg, “Bursty and hierarchical Structure in Streams”, Data Mining and Knowledge Discovery 8(4), pp.373-397. 2003」に記載されている。
図6は、バーストを説明する図である。
上記「バースト」は、単語や文書が等間隔で出現する理想的な定常状態に対し、異常に短い時間間隔で、単語や文書が出現する状態である。ある単語の出現時刻が、図6に示すように、時刻t1〜t9であるとする(時刻t1〜t9の時間間隔で並んでいるとする)。
上記従来技術では、これら9点が等しい時間間隔で出現する状態を定常状態とみなし、この定常状態と比べて異常に短い時間間隔で出現する点が、バーストであると判定される。バーストか非バーストかは、各点に対して判定される。図6に示す例では、時刻t3〜t7の5点が、バーストであり、それ以外の点が、非バーストであると判定された例である。密集して出現する期間が存在しなければ、全て非バーストであると判定される。
ステップS103では、所定の単語の出現時刻一覧について実施するバースト判定の結果にバーストが含まれている場合(S103 YES)、この所定の単語はピークを持つとみなし、潜在話題の候補語として選別する。ステップS104で、選別された候補単語と、出現文書の文書IDと、時刻情報とが、候補語記録部14に記録される。この場合、バースト/非バーストの判定結果に関わらず、この候補語を含む全ての文書についての文書IDと、時刻情報とを記録する。一方、バーストが含まれていない場合(S103 NO)、ステップS104を飛ばし、ステップS105に移る。
ステップS102〜S104を、出現時刻一覧を作成した全ての単語について実施する(S105)。
図7は、候補語記録部15に記録されているデータ例(単語、文書ID、時刻情報)を示す図である。
上記動作の結果、候補語記録部15には、図7に示すように、候補語として選択された単語が、文書ID、時刻情報とともに記録される。単語「今日」や「他人」のように、特定の話題を連想し得ない一般的な単語は、ストップワード辞書と呼ばれる禁止語の一覧を構築しておいて、候補語として選択されないようにしてもよい。
潜在話題語抽出部16は、候補語記録部15に記録されている候補語のそれぞれを、入力文書集合中の中心的な話題と比較し、以下で説明する条件に合致する候補語のみを、潜在話題語と判定する。
潜在話題語記録部21は、潜在話題語抽出部16が判定(抽出)した潜在話題語を記録する。
次に、潜在話題語抽出部16を説明する前に、主話題抽出部17の処理ついて説明する。
図8は、主話題記録部18に記録されているデータ例(日付、文書数、主話題時系列頻度ベクトル)を示す図である。
本明細書において、「主話題」は、入力文書集合中に含まれている大小さまざまな話題のうちで、大多数の人々の注目に値するような共通的、中心的な話題である。主話題抽出部17は、文書記録部11に記録されている各文書の時刻情報を参照し、日別の文書数を集計したデータである「主話題時系列頻度ベクトル」を、図8に示すように、主話題記録部18に記録する。
つまり、主話題抽出部17は、文書集合中の各文書に付随する時間情報に基づいて一定時間毎の文書数を集計することによって、主話題時系列頻度ベクトルを生成する主話題時系列頻度ベクトル生成手段の例である。
また、潜在話題語抽出部16は、各候補語の時系列頻度ベクトルと上記主話題時系列頻度ベクトルとのベクトル間距離を算出し、この算出されたベクトル間距離が大きい単語を潜在話題語として抽出する潜在話題語抽出手段の例である。
図3に示す例において、2006年8月13日の時刻情報を持つ文書が2文書、8月14日が1文書、8月15日が1文書あるので、これらを集計して得られる日付と文書数の組み合わせが、主話題記録部18に記録されている。
図9は、図3に示す例について、グラフで表した日別の時系列頻度ベクトルを示す図である。
図9において、8月20日前後の頻度が特に高い。図3、図9に示す内容では、8月20日のピークの内容が、どの話題であるかが、不明であるが、以下では、この8月20日前後のピークが、主に「消費税率の議論」に関する話題によって形成されるピークであるものとして説明する。
つまり、上記「主話題時系列頻度ベクトル」は、入力文書集合全体の日別頻度に基づいて生成したベクトルである。これは、入力文書集合全体の日別頻度の推移を支配的に決定付けているのは、規模の大きい中心的な話題(「消費税率の議論」等の話題)を構成する文書であり、それ以外の小さな話題は、無視し得る話題であるとみなしているためである。
なお、このようにする代わりに、入力文書集合全体をクラスタリングし、類似文書からなるクラスタを複数生成し、文書数が最大であるクラスタに含まれている文書数の日別頻度に基づいて生成したベクトルが、主話題時系列頻度ベクトルであるとしてもよい。つまり、文書数が最大であるクラスタに含まれている文書のみを対象として、主話題時系列頻度ベクトルを生成するようにしてもよい。この場合はさらに、文書数が最大のクラスタについて、日別の文書数を集計し、この集計された日別の文書数を、入力文書集合全体における同日の文書数でそれぞれ割ったものを、主話題時系列頻度ベクトルとしてもよい。つまり、1日間の文書のうちで、文書数が最大であるクラスタ中の文書数が占める割合を算出し、この算出された割合を主話題時系列頻度ベクトルとする。このようにすれば、精度が向上する。
次に、潜在話題語抽出部16の処理について説明する。
図10は、潜在話題語抽出部16の処理を示すフローチャートである。
ステップS201で、候補語記録部15に記録されている候補語のうちの1語について、候補語と、この候補語が出現した文書の文書IDと、出現した時刻情報との組を取得し、この時刻情報を用いて、日別の文書数を集計し、時系列頻度ベクトルを生成する。
上記取得された「候補語の時系列頻度ベクトル」は、主話題記録部18に記録されている主話題時系列頻度ベクトルと同一形式であり、日付と頻度(文書数)とを組とする列である。
図11は、候補語「消費税」と「○○氏」とについての日別の時系列頻度ベクトルをグラフで示す図である。
単語「消費税」は、それを含む文書数が、8月20日付近に急増し、単語「○○氏」は、それを含む文書数が、8月23日付近に急増しているので、両単語が、候補語として抽出されている。
ステップS202では、ステップS201で生成した時系列頻度ベクトルと、主話題記録部18に記録されている主話題時系列頻度ベクトルとの間のベクトル間距離を算出する。ベクトル間距離として、ベクトル間のコサイン類似度を1から引いた値を用いる。コサイン類似度は、ベクトルの類似性を表わす一般的な評価尺度であり、ベクトルとベクトルとのなす角度の余弦である。ベクトルが同一の向きである場合、最大値1であり、直交している場合、0であり、反対向きである場合、最小値−1であり、類似度として用いることができる。ただし、ベクトルの各属性値は、文書数であり、負値を取ることがないので、異なる2ベクトルが90度よりも大きな角度をなすことはない。したがって、実施例1において、コサイン類似度は、0以上であり、つまり0〜1の値である。ベクトル間距離は、この1からコサイン類似度を減じた値であるので、ベクトルが同一の向きである場合、ベクトル間距離は、最小値0であり、最もベクトルが離れた場合に、最大値1である。
図9に示す主話題のピーク位置は、8月20日頃であり、図11に示す候補語「消費税」のピーク位置も、同日付近であるので、候補語「消費税」についての時系列頻度ベクトルと主話題時系列頻度ベクトルとは互いに類似し、したがって、候補語「消費税」についての時系列頻度ベクトルと主話題時系列頻度ベクトルとのベクトル間距離は小さい。一方、候補語「○○氏」のピーク位置は、8月23日頃であり、主話題のピーク位置とずれているので、候補語「○○氏」についての時系列頻度ベクトルと 主話題時系列頻度ベクトルとのベクトル間距離は大きい。
ステップS202で求めたベクトル間距離が、所定の閾値以上であれば(S203 YES)、その候補語が潜在話題語であると判定し、出現文書の文書ID一覧とともに、判定された潜在話題語を、潜在話題語記録部18に記録する。つまり、ある話題と主話題との距離が離れていると、その話題は主話題との類似性が低く、検出する価値があるので、距離が離れている話題を検出する。
図12は、潜在話題語記録部21に記録されているデータ例(潜在話題語、それが含まれている文書の文書ID)を示す図である。
文書IDが0002、0011、0014、0015等である文書に出現した「○○氏」や、文書IDが0002、0011、0015、0018等である文書に出現した「次期」や、文書IDが0007、0009、0031、0033等である文書に出現した「優勝」等が記録されている。これらの単語は、全て、時系列頻度ベクトルのグラフ形状(見た目の形状)が、図9に示すグラフ形状とは類似しない単語である。逆に、主話題と関連の深い「消費税」等の候補語は、時系列頻度ベクトルのグラフ形状が互いに類似しているので、潜在話題語とは判定しない。
ステップS201〜S204を、全ての候補語について実施し終われば(S205 YES)、潜在話題語抽出部16は処理を終了する。
潜在話題語集約部19は、潜在話題語記録部18に記録されている潜在話題語と、その出現文書のIDとの一覧を用い、同一文書中に出現する確率(共起確率)が高い潜在話題語同士は、互いに関連性が高いとみなし、これらを集約する。同一文書中に出現する確率が高い潜在話題語同士を集約する場合、既存のクラスタリング技術を用いる。クラスタリング手法として、最長距離法、最短距離法、群平均法、k−means法等のうちのいずれの手法を用いるようにしてもよい。
クラスタリング処理に用いる個々の潜在話題語のベクトルは、潜在話題語とともに、記録されている文書ID一覧を使用する。図12に示す例において、「○○氏」が出現する文書の文書IDは、0002、0011、0014、0015、………であるので、これらの文書IDに対応する属性値を1とするベクトルが生成できる。0001や0003等、「○○氏」が出現しない文書に対応する属性値は0とみなす。他の潜在話題についても、これと同様に、ベクトルを生成し、クラスタリング処理を行う。
生成された各クラスタを、潜在話題語集合記録部20に記録する。
図13は、潜在話題語集合記録部20に記録されているデータ例(潜在話題語クラスタ、文書ID)を示す図である。
図13に示すように、各クラスタに含まれている潜在話題語の一覧だけを潜在話題語集合記録部20に出力するのではなく、各クラスタから元の入力文書を参照するリンク情報として、クラスタ内の全ての潜在話題語が出現する文書の文書IDをも、潜在話題語集合記録部20に出力するようにしてもよい。図12に示す例では、潜在話題語「○○氏」、「次期」、「総裁」が、いずれも、文書ID0002、0015の文書に出現するので、図13の1番目に記載されているクラスタ(「○○氏」、「次期」、「総裁」を構成要素とするクラスタ)に対応するリンク情報として、文書ID0002、0015が記録されている。図13の2番目に記載されているクラスタ(「優勝」、「プレーオフ」を構成要素とするクラスタ)、図13の2番目に記載されているクラスタ(「元外相」、「引退」、「政界」を構成要素とするクラスタ)も、上記と同様である。
これらのクラスタの規模は、いずれも、主話題(消費税率の議論に関する話題)の規模よりも小さいが、主話題の盛り上がりパターンとは異なる盛り上がりパターンを持つので得られたクラスタである。
上記実施例を方法の発明として把握することができる。つまり、上記実施例は、複数の文書集合に出現する単語の時間的な出現頻度変化を集計することによって、各単語の時系列頻度ベクトルを生成し、記憶装置に記憶する時系列頻度ベクトル生成工程と、上記生成された単語の時系列頻度ベクトルを分析し、頻度の増加率が一定値以上である単語を、潜在的話題の候補である候補語として抽出し、記憶装置に記憶する候補語抽出工程と、上記文書集合中の各文書に付随する時間情報に基づいて一定時間毎の文書数を集計することによって、主話題時系列頻度ベクトルを生成し、記憶装置に記憶する主話題時系列頻度ベクトル生成工程と、各候補語の時系列頻度ベクトルと上記主話題時系列頻度ベクトルとのベクトル間距離を算出し、この算出されたベクトル間距離が大きい単語を潜在話題語として抽出し、記憶装置に記憶する潜在話題語抽出工程とを有する潜在話題抽出方法の例である。
この場合、上記候補語抽出工程は、定常状態よりも、短い時間間隔で、出現した単語を、上記候補語として抽出する工程である。また、上記主話題時系列頻度ベクトル生成工程は、文書集合をクラスタリングし、得られたクラスタのうちで、文書数最大のクラスタに含まれている各文書に付随する時間情報に基づいて、一定時間毎の文書数を集計することによって、上記主話題時系列頻度ベクトルを生成する工程である。また、複数の単語が同一文書中に出現する確率である共起確率が高い潜在話題語同士を集約する潜在話題語集約工程を有するようにしてもよい。
また、上記実施例をプログラムの発明として把握することができる。つまり、上記実施例は、上記方法をコンピュータに実行させるプログラムの例である。
さらに、上記実施例を、記録媒体の例として把握することができる。つまり、上記実施例は、上記方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体の例である。この場合、上記記録媒体の例として、CD、DVD、ハードディスク、光ディスク、光磁気ディスク、半導体メモリ等が考えられる。
本発明の実施例1である潜在話題抽出装置100を示すブロック図である。 本発明の原理を説明するフローチャートである。 文書記録部11に記録されているデータ例(文書ID、出現時刻、本文)を示す図である。 文書情報管理部13に記録されているデータ例(文書ID、出現時刻、単語、出現回数)を示す図である。 候補語抽出部14が潜在話題の候補語を抽出する動作を示すフローチャートである。 バーストを説明する図である。 候補語記録部15に記録されているデータ例(単語、文書ID、時刻情報)を示す図である。 主話題記録部18に記録されているデータ例(日付、文書数、主話題時系列頻度ベクトル)を示す図である。 図3に示す例について、グラフで表した日別の時系列頻度ベクトルを示す図である。 潜在話題語抽出部16の処理を示すフローチャートである。 候補語「消費税」と「○○氏」とについての日別の時系列頻度ベクトルをグラフで示す図である。 潜在話題語記録部21に記録されているデータ例(潜在話題語、それが含まれている文書の文書ID)を示す図である。 潜在話題語集合記録部20に記録されているデータ例(潜在話題語クラスタ、文書ID)を示す図である。
符号の説明
100…潜在話題抽出装置、
11…文書記録部、
12…文書解析部、
13…文書情報管理部、
14…候補語抽出部、
15…候補語記録部、
16…潜在話題語抽出部、
17…主話題抽出部、
18…主話題記録部、
19…潜在話題語集約部、
20…潜在話題語集合記録部、
21…潜在話題語記録部。

Claims (10)

  1. 複数の文書集合に出現する単語の時間的な出現頻度変化を集計することによって、各単語の時系列頻度ベクトルを生成する時系列頻度ベクトル生成手段と;
    上記生成された単語の時系列頻度ベクトルを分析し、頻度の増加率が一定値以上である単語を、潜在的話題の候補である候補語として抽出する候補語抽出手段と;
    上記文書集合中の各文書に付随する時間情報に基づいて一定時間毎の文書数を集計することによって、主話題時系列頻度ベクトルを生成する主話題時系列頻度ベクトル生成手段と;
    各候補語の時系列頻度ベクトルと上記主話題時系列頻度ベクトルとのベクトル間距離を算出し、この算出されたベクトル間距離が大きい単語を潜在話題語として抽出する潜在話題語抽出手段と;
    を有することを特徴とする潜在話題抽出装置。
  2. 請求項1において、
    上記候補語抽出手段は、定常状態よりも、短い時間間隔で、出現した単語を、上記候補語として抽出する手段であることを特徴とする潜在話題抽出装置。
  3. 請求項1において、
    上記主話題時系列頻度ベクトル生成手段は、文書集合をクラスタリングし、得られたクラスタのうちで、文書数最大のクラスタに含まれている各文書に付随する時間情報に基づいて、一定時間毎の文書数を集計することによって、上記主話題時系列頻度ベクトルを生成する手段であることを特徴とする潜在話題抽出装置。
  4. 請求項1において、
    複数の単語が同一文書中に出現する確率である共起確率が高い潜在話題語同士を集約する潜在話題語集約手段を有することを特徴とする潜在話題抽出装置。
  5. 複数の文書集合に出現する単語の時間的な出現頻度変化を集計することによって、各単語の時系列頻度ベクトルを生成し、記憶装置に記憶する時系列頻度ベクトル生成工程と;
    上記生成された単語の時系列頻度ベクトルを分析し、頻度の増加率が一定値以上である単語を、潜在的話題の候補である候補語として抽出し、記憶装置に記憶する候補語抽出工程と;
    上記文書集合中の各文書に付随する時間情報に基づいて一定時間毎の文書数を集計することによって、主話題時系列頻度ベクトルを生成し、記憶装置に記憶する主話題時系列頻度ベクトル生成工程と;
    各候補語の時系列頻度ベクトルと上記主話題時系列頻度ベクトルとのベクトル間距離を算出し、この算出されたベクトル間距離が大きい単語を潜在話題語として抽出し、記憶装置に記憶する潜在話題語抽出工程と;
    を有することを特徴とする潜在話題抽出方法。
  6. 請求項5において、
    上記候補語抽出工程は、定常状態よりも、短い時間間隔で、出現した単語を、上記候補語として抽出する工程であることを特徴とする潜在話題抽出方法。
  7. 請求項5において、
    上記主話題時系列頻度ベクトル生成工程は、文書集合をクラスタリングし、得られたクラスタのうちで、文書数最大のクラスタに含まれている各文書に付随する時間情報に基づいて、一定時間毎の文書数を集計することによって、上記主話題時系列頻度ベクトルを生成する工程であることを特徴とする潜在話題抽出方法。
  8. 請求項5において、
    複数の単語が同一文書中に出現する確率である共起確率が高い潜在話題語同士を集約する潜在話題語集約工程を有することを特徴とする潜在話題抽出方法。
  9. 上記請求項5〜請求項8のいずれか1項に記載の方法をコンピュータに実行させるプログラム。
  10. 上記請求項5〜請求項8のいずれか1項に記載の方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2006341501A 2006-12-19 2006-12-19 潜在話題語抽出装置、潜在話題語抽出方法、プログラムおよび記録媒体 Expired - Fee Related JP4807881B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006341501A JP4807881B2 (ja) 2006-12-19 2006-12-19 潜在話題語抽出装置、潜在話題語抽出方法、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006341501A JP4807881B2 (ja) 2006-12-19 2006-12-19 潜在話題語抽出装置、潜在話題語抽出方法、プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2008152634A true JP2008152634A (ja) 2008-07-03
JP4807881B2 JP4807881B2 (ja) 2011-11-02

Family

ID=39654724

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006341501A Expired - Fee Related JP4807881B2 (ja) 2006-12-19 2006-12-19 潜在話題語抽出装置、潜在話題語抽出方法、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP4807881B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010035412A1 (ja) * 2008-09-25 2010-04-01 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
JP2012150539A (ja) * 2011-01-17 2012-08-09 Nippon Telegr & Teleph Corp <Ntt> クエリ提供装置、クエリ提供方法及びクエリ提供プログラム
WO2013047512A1 (ja) * 2011-09-26 2013-04-04 日本電気株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
US8452760B2 (en) 2009-07-27 2013-05-28 Kabushiki Kaisha Toshiba Relevancy presentation apparatus, method, and program
KR101318843B1 (ko) 2011-08-30 2013-10-17 성균관대학교산학협력단 시간 정보를 활용한 블로그 카테고리 분류 방법 및 장치
JP2014096105A (ja) * 2012-11-12 2014-05-22 Nippon Telegr & Teleph Corp <Ntt> バーストワード抽出装置、方法、及びプログラム
JP2015064650A (ja) * 2013-09-24 2015-04-09 ビッグローブ株式会社 情報処理装置、記事情報生成方法およびプログラム
US20150193425A1 (en) * 2012-07-31 2015-07-09 Nec Corporation Word latent topic estimation device and word latent topic estimation method
JP2020098454A (ja) * 2018-12-18 2020-06-25 日本放送協会 テキスト情報判定装置及びそのプログラム
JP2021034048A (ja) * 2019-08-21 2021-03-01 ネイバー コーポレーションNAVER Corporation 長期間に関連のあるイシュー単位のクラスタを利用した文書タイムラインを提供する方法およびシステム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07325832A (ja) * 1994-05-31 1995-12-12 Fujitsu Ltd 単語使用パターンの時間的変化を利用した検索方法および情報検索装置
JP2000172701A (ja) * 1998-12-04 2000-06-23 Fujitsu Ltd 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体
JP2005092491A (ja) * 2003-09-17 2005-04-07 Fujitsu Ltd サーバ、及び関連語提案方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07325832A (ja) * 1994-05-31 1995-12-12 Fujitsu Ltd 単語使用パターンの時間的変化を利用した検索方法および情報検索装置
JP2000172701A (ja) * 1998-12-04 2000-06-23 Fujitsu Ltd 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体
JP2005092491A (ja) * 2003-09-17 2005-04-07 Fujitsu Ltd サーバ、及び関連語提案方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010035412A1 (ja) * 2008-09-25 2010-04-01 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
JP5387577B2 (ja) * 2008-09-25 2014-01-15 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
US8612202B2 (en) 2008-09-25 2013-12-17 Nec Corporation Correlation of linguistic expressions in electronic documents with time information
US8452760B2 (en) 2009-07-27 2013-05-28 Kabushiki Kaisha Toshiba Relevancy presentation apparatus, method, and program
JP2012150539A (ja) * 2011-01-17 2012-08-09 Nippon Telegr & Teleph Corp <Ntt> クエリ提供装置、クエリ提供方法及びクエリ提供プログラム
KR101318843B1 (ko) 2011-08-30 2013-10-17 성균관대학교산학협력단 시간 정보를 활용한 블로그 카테고리 분류 방법 및 장치
WO2013047512A1 (ja) * 2011-09-26 2013-04-04 日本電気株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
US20150193425A1 (en) * 2012-07-31 2015-07-09 Nec Corporation Word latent topic estimation device and word latent topic estimation method
US9519633B2 (en) * 2012-07-31 2016-12-13 Nec Corporation Word latent topic estimation device and word latent topic estimation method
JP2014096105A (ja) * 2012-11-12 2014-05-22 Nippon Telegr & Teleph Corp <Ntt> バーストワード抽出装置、方法、及びプログラム
JP2015064650A (ja) * 2013-09-24 2015-04-09 ビッグローブ株式会社 情報処理装置、記事情報生成方法およびプログラム
JP2020098454A (ja) * 2018-12-18 2020-06-25 日本放送協会 テキスト情報判定装置及びそのプログラム
JP7186080B2 (ja) 2018-12-18 2022-12-08 日本放送協会 テキスト情報判定装置及びそのプログラム
JP2021034048A (ja) * 2019-08-21 2021-03-01 ネイバー コーポレーションNAVER Corporation 長期間に関連のあるイシュー単位のクラスタを利用した文書タイムラインを提供する方法およびシステム
JP7068404B2 (ja) 2019-08-21 2022-05-16 ネイバー コーポレーション 長期間に関連のあるイシュー単位のクラスタを利用した文書タイムラインを提供する方法およびシステム

Also Published As

Publication number Publication date
JP4807881B2 (ja) 2011-11-02

Similar Documents

Publication Publication Date Title
JP4807881B2 (ja) 潜在話題語抽出装置、潜在話題語抽出方法、プログラムおよび記録媒体
Li et al. Filtering out the noise in short text topic modeling
Qian et al. Social event classification via boosted multimodal supervised latent dirichlet allocation
Lin et al. Generating event storylines from microblogs
Cai et al. What are popular: exploring twitter features for event detection, tracking and visualization
Tsai et al. Concept-based analysis of scientific literature
Liu et al. Story forest: Extracting events and telling stories from breaking news
Huang et al. Topic detection from large scale of microblog stream with high utility pattern clustering
US8412650B2 (en) Device and method and program of text analysis based on change points of time-series signals
Pervin et al. Fast, scalable, and context-sensitive detection of trending topics in microblog post streams
JP2012027845A (ja) 情報処理装置、関連文提供方法、及びプログラム
Liu et al. Heterogeneous features and model selection for event-based media classification
Lee Unsupervised and supervised learning to evaluate event relatedness based on content mining from social-media streams
CN111090731A (zh) 基于主题聚类的电力舆情摘要提取优化方法及系统
Schulz et al. Small-scale incident detection based on microposts
Liu et al. Topical word trigger model for keyphrase extraction
JP4714710B2 (ja) 自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体
Mazarura et al. A Gamma-Poisson mixture topic model for short text
Sabbah et al. Hybrid support vector machine based feature selection method for text classification.
JP4807880B2 (ja) 蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体
JP2005122510A (ja) 話題構造抽出方法及び装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体
JP4795856B2 (ja) クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP6042790B2 (ja) トレンド分析装置、トレンド分析方法およびトレンド分析プログラム
Khan et al. Stress detection from Twitter posts using LDA
Bai et al. Text-based Person Search without Parallel Image-Text Data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110304

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110812

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110815

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140826

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees