JP2008152634A

JP2008152634A - 潜在話題抽出装置、潜在話題抽出方法、プログラムおよび記録媒体

Info

Publication number: JP2008152634A
Application number: JP2006341501A
Authority: JP
Inventors: Yoshihide Sato; 吉秀佐藤; Hidenori Okuda; 英範奥田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-12-19
Filing date: 2006-12-19
Publication date: 2008-07-03
Anticipated expiration: 2026-12-19
Also published as: JP4807881B2

Abstract

【課題】規模の大きな話題の影響を排除し、普段は大きな話題の影響で隠れがちな小規模の話題を効率的に発見することができる潜在話題抽出装置、潜在話題抽出方法、プログラムおよび記録媒体を提供することを目的とする。
【解決手段】複数の文書集合に出現する単語の時間的な出現頻度変化を集計することによって、各単語の時系列頻度ベクトルを生成し、上記生成された単語の時系列頻度ベクトルを分析し、頻度が一時的に急増する単語を、潜在的話題の候補である候補語として抽出し、上記文書集合中に含まれている話題のうちで、文書数が、所定の閾値よりも多い話題について、時間毎に取得した文書数を数値化することによって主話題時系列頻度ベクトルを生成し、各候補語の時系列頻度ベクトルと上記主話題時系列頻度ベクトルとのベクトル間距離を算出し、該距離が大きい単語を潜在話題語として抽出する潜在話題抽出装置である。
【選択図】図１

Description

本発明は、文書集合に含まれている数多くの話題を発見するために文書を整理する際、規模の大きな話題の存在に埋もれて隠れがちな小さな話題を容易に発見するための技術に関する。

文書等の大量のデータを自動的に分類することによって類似データを集約し、データ全体の概要を、効率的に把握する方法として、クラスタリング技術が知られている。文書を対象としてクラスタリングする場合、文書内の各単語の出現回数等に基づいて、文書の非類似性を示す文書間距離を計算し、文書間距離が近い文書同士を結合し、遠い文書同士を分離するように分類する。

よく用いられるクラスタリング手法として、最短距離法、最長距離法、群平均法、ウォード法、ｋ−ｍｅａｎｓ法等があり、これらを大きく分けると、階層的手法と分割最適化手法とに分けることができる。

上記「階層的手法」は、初期状態として、データ１個１個をそれぞれクラスタとみなし、最も距離的に近いクラスタ同士を結合しながら集約するボトムアップ手法、または、逆に、全データを含む１クラスタから開始し、クラスタを分割しながら細分化するトップダウン手法がある。いずれの方法も、生成されたクラスタ群は、デンドログラムと呼ぶ樹状の階層的構造を持ち、最下層では、個々のデータがクラスタを構成する最も細分化した状態であり、最上層では、全データが１クラスタに収まった最も集約された状態である。任意の階層を指定すれば、任意のクラスタ数へ分割することができる。

一方、上記「分割最適化手法」は、分割するクラスタ数を予め指定し、分割のよさを表わす評価関数が最適になるように、個々のデータの所属するクラスタを変える手法である。

クラスタリング処理を行う場合、たとえば「文書集合を３個のクラスタに分割する」等、分類数の指定や、「文書間距離が０．９以下のクラスタのみ結合する」等、距離の閾値の指定を事前に行うことによって、粗い分類や細かい分類等、利用者が望む粒度での分類を行う。

また、文書の集合から話題を抽出する発明が知られている（たとえば、特許文献１参照）。特許文献１記載の発明は、文書集合における最近の主要な話題を抽出することができる発明であり、文書集合に含まれている単語毎に、出現頻度の時間推移を求め、最近の時刻には正の値を重みとして与え、過去の時刻には、負の値を重みとして与えることによって「話題度」を計算する。
特開２００５−３１６８９９号公報

上記従来技術によって、文書の内容に基づいて文書を分類するときに、特定の話題に関する文書の数が多い場合には大きなクラスタが生成され、同時に、相対的に小さなクラスタも生成される。この結果、大きさの異なる様々なクラスタが生成される。大きなクラスタは、互いに類似する文書が数多く存在するクラスタであり、大きなクラスタを優先的に選択して文書を閲覧すれば、数多くの文書に記述されるような注目度の高い話題を素早く把握することができる。

しかし、小さなクラスタの中に紛れている話題であって、意外性のある話題を発見したい場合には、従来技術による分類は不向きである。つまり、大きなクラスタは数が少なく、クラスタが小さくなる程、数が増加する傾向があるので、小さなクラスタの中に紛れている話題であって、意外性のある話題を発見することが困難である。

小さなクラスタは、重要度の低い話題である場合が圧倒的に多いので、これらを慎重に閲覧しようとすれば、膨大な時間を要し、逆に、短時間で閲覧しようとすると、重要な話題を見落とす可能性が高くなるという問題がある。

本発明は、規模の大きな話題の影響を排除し、普段は大きな話題の影響で隠れがちな小規模の話題を効率的に発見することができる潜在話題抽出装置、潜在話題抽出方法、プログラムおよび記録媒体を提供することを目的とする。

本発明は、複数の文書集合に出現する単語の時間的な出現頻度変化を集計することによって、各単語の時系列頻度ベクトルを生成する時系列頻度ベクトル生成手段と、上記生成された単語の時系列頻度ベクトルを分析し、頻度の増加率が一定値以上である単語を、潜在的話題の候補である候補語として抽出する候補語抽出手段と、上記文書集合中の各文書に付随する時間情報に基づいて一定時間毎の文書数を集計することによって、主話題時系列頻度ベクトルを生成する主話題時系列頻度ベクトル生成手段と、各候補語の時系列頻度ベクトルと上記主話題時系列頻度ベクトルとのベクトル間距離を算出し、この算出されたベクトル間距離が大きい単語を潜在話題語として抽出する潜在話題語抽出手段とを有する潜在話題抽出装置である。

本発明によれば、頻度の増加率が一定値以上である単語を選択した後に、文書集合中の中心的な話題とは異なる盛り上がりパターンを持つ単語のみを選別するので、一時的な話題性はあるものの、規模が小さいために通常は埋もれてしまう話題を効果的に抽出することができるという効果を奏する。

発明を実施するための最良の形態は、以下の実施例である。

図１は、本発明の実施例１である潜在話題抽出装置１００を示すブロック図である。

潜在話題抽出装置１００は、文書集合中に出現する各単語の出現頻度の時間推移を集計して、盛り上がりパターンを獲得し、これら獲得した盛り上がりパターンを、文書集合中の中心的な話題である「主話題」の盛り上がりパターンと比較する。そして、主話題の盛り上がりパターンとは異なる盛り上がりパターンを持つ話題を、潜在話題として抽出する装置である。

潜在話題抽出装置１００は、文書記録部１１と、文書解析部１２と、文書情報管理部１３と、候補語抽出部１４と、候補語記録部１５と、潜在話題語抽出部１６と、主話題抽出部１７と、主話題記録部１８と、潜在話題語集約部１９と、潜在話題語集合記録部２０と、潜在話題語記録部２１とを有する。

図２は、本発明の原理を説明するフローチャートである。

まず、入力文書集合に含まれている各単語の出現頻度を集計し、各単語の盛り上がりのパターンを表わす時系列頻度ベクトルを生成する（Ｓ１）。これらの単語のうちで、出現頻度が急上昇する単語を、話題を構成する単語の候補語として抽出する（Ｓ２）。また、入力文書集合における主話題の盛り上がりパターンを表わす主話題時系列頻度ベクトルを生成する（Ｓ３）。続いて、複数の話題候補語のそれぞれの時系列頻度ベクトルを、主話題時系列頻度ベクトルと比較し、ベクトル間の距離が大きい候補語を、潜在話題語として抽出する（Ｓ４）。Ｓ４で抽出した潜在話題語を対象に、同一の文書中に出現する確率（共起確率）が高い潜在話題語を集約してもよい（Ｓ５）。

図３は、文書記録部１１に記録されているデータ例（文書ＩＤ、出現時刻、本文）を示す図である。

なお、図３に示すデータ例は、日によって文書数が異なる文書集合から抽出された文書に基づいて生成されたデータ例である。また、上記文書集合は、ブログ、電子掲示板の書込記事、各新聞社等によるホームページに掲載されている文書等である。

文書記録部１１は、分析対象の文書の本文を、図３に示すように記録する。各文書には「０００１」、「０００２」等、一意な文書ＩＤを付与する。また、文書の作成時刻を取得することができれば、作成時刻、また、収集時刻を取得できれば、収集時刻等、文書に付随する時刻情報をも併せて、文書記録部１１が記録する。

文書解析部１２は、文書ＩＤと、時刻情報と、本文との組を、文書記録部１１から、１文書ずつ取得し、本文を解析して本文中に出現する単語とその出現回数とを集計する。

文書情報管理部１３は、本文中に出現する単語と、この単語の出現回数と、文書ＩＤと、時刻情報とを記録する。

図４は、文書情報管理部１３に記録されているデータ例（文書ＩＤ、出現時刻、単語、出現回数）を示す図である。

文章は、名詞、動詞、助詞、感嘆詞、さらに記号等の様々な要素で構成されるが、図４に示すデータ例は、本文中から「政府」、「消費税」等の名詞のみを取得した例である。

本文データから名詞を取得する場合、形態素解析等の文章解析手法を用いる。形態素解析を行うと、日本語文書を構成する最小単位である形態素への分かち書きを行うことができ、各形態素に、「名詞」、「動詞」、「助詞」、「記号」等のタイプを付与することができる。文書解析部１２は、タイプが「名詞」である形態素のみを取得する。

候補語抽出部１４は、文書情報管理部１３に蓄積されている各単語の時刻毎の出現頻度を集計し、期間中のいずれかの箇所で大きく出現頻度が増加する単語のみを、潜在話題の候補語として抽出する。つまり、候補語抽出部１４は、複数の文書集合に出現する単語の時間的な出現頻度変化を集計することによって、各単語の時系列頻度ベクトルを生成する時系列頻度ベクトル生成手段の例である。また、候補語抽出部１４は、生成された単語の時系列頻度ベクトルを分析し、頻度の増加率が一定値以上である単語を、潜在的話題の候補である候補語として抽出する候補語抽出手段の例である。

候補語記録部１５は、候補語抽出部１４が抽出した候補語を記録する。

次に、実施例１において、候補語抽出部１４が潜在話題の候補語を抽出する動作について説明する。

図５は、候補語抽出部１４が潜在話題の候補語を抽出する動作を示すフローチャートである。

Ｓ１０１で、文書情報管理部１３に文書を記録した時刻情報と、この文書中の単語を順に取得し、単語が出現する文書の文書ＩＤと、出現時刻との組の一覧を、単語別に作成する。図４に示す例によれば、ＩＤ０００１の文書に「政府」という単語が出現し、この文書の時刻情報が「２００６／８／１３０９：３０」であるので、文書ＩＤ「０００１」と時刻情報「２００６／８／１３０９：３０」とを「政府」に対する文書一覧として記録する。単語「政府」がＩＤ０００３の文書にも出現すれば、文書ＩＤ「０００３」と、時刻情報「２００６／８／１４１７：３０」とを、ともに追加記録する。このようにして、全ての単語について、それぞれの出現文書の文書ＩＤ、時刻情報一覧を作成する。

ステップＳ１０２で、１単語の出現時刻一覧を取得し、ステップＳ１０３で、取得した出現時刻一覧を用い、バースト判定を行う。

この「バースト判定」は、たとえば、非特許文献「Jon Kleinburg, “Bursty and hierarchical Structure in Streams”, Data Mining and Knowledge Discovery 8(4), pp.373-397. 2003」に記載されている。

図６は、バーストを説明する図である。

上記「バースト」は、単語や文書が等間隔で出現する理想的な定常状態に対し、異常に短い時間間隔で、単語や文書が出現する状態である。ある単語の出現時刻が、図６に示すように、時刻ｔ１〜ｔ９であるとする（時刻ｔ１〜ｔ９の時間間隔で並んでいるとする）。

上記従来技術では、これら９点が等しい時間間隔で出現する状態を定常状態とみなし、この定常状態と比べて異常に短い時間間隔で出現する点が、バーストであると判定される。バーストか非バーストかは、各点に対して判定される。図６に示す例では、時刻ｔ３〜ｔ７の５点が、バーストであり、それ以外の点が、非バーストであると判定された例である。密集して出現する期間が存在しなければ、全て非バーストであると判定される。

ステップＳ１０３では、所定の単語の出現時刻一覧について実施するバースト判定の結果にバーストが含まれている場合（Ｓ１０３ＹＥＳ）、この所定の単語はピークを持つとみなし、潜在話題の候補語として選別する。ステップＳ１０４で、選別された候補単語と、出現文書の文書ＩＤと、時刻情報とが、候補語記録部１４に記録される。この場合、バースト／非バーストの判定結果に関わらず、この候補語を含む全ての文書についての文書ＩＤと、時刻情報とを記録する。一方、バーストが含まれていない場合（Ｓ１０３ＮＯ）、ステップＳ１０４を飛ばし、ステップＳ１０５に移る。

ステップＳ１０２〜Ｓ１０４を、出現時刻一覧を作成した全ての単語について実施する（Ｓ１０５）。

図７は、候補語記録部１５に記録されているデータ例（単語、文書ＩＤ、時刻情報）を示す図である。

上記動作の結果、候補語記録部１５には、図７に示すように、候補語として選択された単語が、文書ＩＤ、時刻情報とともに記録される。単語「今日」や「他人」のように、特定の話題を連想し得ない一般的な単語は、ストップワード辞書と呼ばれる禁止語の一覧を構築しておいて、候補語として選択されないようにしてもよい。

潜在話題語抽出部１６は、候補語記録部１５に記録されている候補語のそれぞれを、入力文書集合中の中心的な話題と比較し、以下で説明する条件に合致する候補語のみを、潜在話題語と判定する。

潜在話題語記録部２１は、潜在話題語抽出部１６が判定（抽出）した潜在話題語を記録する。

次に、潜在話題語抽出部１６を説明する前に、主話題抽出部１７の処理ついて説明する。

図８は、主話題記録部１８に記録されているデータ例（日付、文書数、主話題時系列頻度ベクトル）を示す図である。

本明細書において、「主話題」は、入力文書集合中に含まれている大小さまざまな話題のうちで、大多数の人々の注目に値するような共通的、中心的な話題である。主話題抽出部１７は、文書記録部１１に記録されている各文書の時刻情報を参照し、日別の文書数を集計したデータである「主話題時系列頻度ベクトル」を、図８に示すように、主話題記録部１８に記録する。

つまり、主話題抽出部１７は、文書集合中の各文書に付随する時間情報に基づいて一定時間毎の文書数を集計することによって、主話題時系列頻度ベクトルを生成する主話題時系列頻度ベクトル生成手段の例である。

また、潜在話題語抽出部１６は、各候補語の時系列頻度ベクトルと上記主話題時系列頻度ベクトルとのベクトル間距離を算出し、この算出されたベクトル間距離が大きい単語を潜在話題語として抽出する潜在話題語抽出手段の例である。

図３に示す例において、２００６年８月１３日の時刻情報を持つ文書が２文書、８月１４日が１文書、８月１５日が１文書あるので、これらを集計して得られる日付と文書数の組み合わせが、主話題記録部１８に記録されている。

図９は、図３に示す例について、グラフで表した日別の時系列頻度ベクトルを示す図である。

図９において、８月２０日前後の頻度が特に高い。図３、図９に示す内容では、８月２０日のピークの内容が、どの話題であるかが、不明であるが、以下では、この８月２０日前後のピークが、主に「消費税率の議論」に関する話題によって形成されるピークであるものとして説明する。

つまり、上記「主話題時系列頻度ベクトル」は、入力文書集合全体の日別頻度に基づいて生成したベクトルである。これは、入力文書集合全体の日別頻度の推移を支配的に決定付けているのは、規模の大きい中心的な話題（「消費税率の議論」等の話題）を構成する文書であり、それ以外の小さな話題は、無視し得る話題であるとみなしているためである。

なお、このようにする代わりに、入力文書集合全体をクラスタリングし、類似文書からなるクラスタを複数生成し、文書数が最大であるクラスタに含まれている文書数の日別頻度に基づいて生成したベクトルが、主話題時系列頻度ベクトルであるとしてもよい。つまり、文書数が最大であるクラスタに含まれている文書のみを対象として、主話題時系列頻度ベクトルを生成するようにしてもよい。この場合はさらに、文書数が最大のクラスタについて、日別の文書数を集計し、この集計された日別の文書数を、入力文書集合全体における同日の文書数でそれぞれ割ったものを、主話題時系列頻度ベクトルとしてもよい。つまり、１日間の文書のうちで、文書数が最大であるクラスタ中の文書数が占める割合を算出し、この算出された割合を主話題時系列頻度ベクトルとする。このようにすれば、精度が向上する。

次に、潜在話題語抽出部１６の処理について説明する。

図１０は、潜在話題語抽出部１６の処理を示すフローチャートである。

ステップＳ２０１で、候補語記録部１５に記録されている候補語のうちの１語について、候補語と、この候補語が出現した文書の文書ＩＤと、出現した時刻情報との組を取得し、この時刻情報を用いて、日別の文書数を集計し、時系列頻度ベクトルを生成する。

上記取得された「候補語の時系列頻度ベクトル」は、主話題記録部１８に記録されている主話題時系列頻度ベクトルと同一形式であり、日付と頻度（文書数）とを組とする列である。

図１１は、候補語「消費税」と「○○氏」とについての日別の時系列頻度ベクトルをグラフで示す図である。

単語「消費税」は、それを含む文書数が、８月２０日付近に急増し、単語「○○氏」は、それを含む文書数が、８月２３日付近に急増しているので、両単語が、候補語として抽出されている。

ステップＳ２０２では、ステップＳ２０１で生成した時系列頻度ベクトルと、主話題記録部１８に記録されている主話題時系列頻度ベクトルとの間のベクトル間距離を算出する。ベクトル間距離として、ベクトル間のコサイン類似度を１から引いた値を用いる。コサイン類似度は、ベクトルの類似性を表わす一般的な評価尺度であり、ベクトルとベクトルとのなす角度の余弦である。ベクトルが同一の向きである場合、最大値１であり、直交している場合、０であり、反対向きである場合、最小値−１であり、類似度として用いることができる。ただし、ベクトルの各属性値は、文書数であり、負値を取ることがないので、異なる２ベクトルが９０度よりも大きな角度をなすことはない。したがって、実施例１において、コサイン類似度は、０以上であり、つまり０〜１の値である。ベクトル間距離は、この１からコサイン類似度を減じた値であるので、ベクトルが同一の向きである場合、ベクトル間距離は、最小値０であり、最もベクトルが離れた場合に、最大値１である。

図９に示す主話題のピーク位置は、８月２０日頃であり、図１１に示す候補語「消費税」のピーク位置も、同日付近であるので、候補語「消費税」についての時系列頻度ベクトルと主話題時系列頻度ベクトルとは互いに類似し、したがって、候補語「消費税」についての時系列頻度ベクトルと主話題時系列頻度ベクトルとのベクトル間距離は小さい。一方、候補語「○○氏」のピーク位置は、８月２３日頃であり、主話題のピーク位置とずれているので、候補語「○○氏」についての時系列頻度ベクトルと主話題時系列頻度ベクトルとのベクトル間距離は大きい。

ステップＳ２０２で求めたベクトル間距離が、所定の閾値以上であれば（Ｓ２０３ＹＥＳ）、その候補語が潜在話題語であると判定し、出現文書の文書ＩＤ一覧とともに、判定された潜在話題語を、潜在話題語記録部１８に記録する。つまり、ある話題と主話題との距離が離れていると、その話題は主話題との類似性が低く、検出する価値があるので、距離が離れている話題を検出する。

図１２は、潜在話題語記録部２１に記録されているデータ例（潜在話題語、それが含まれている文書の文書ＩＤ）を示す図である。

文書ＩＤが０００２、００１１、００１４、００１５等である文書に出現した「○○氏」や、文書ＩＤが０００２、００１１、００１５、００１８等である文書に出現した「次期」や、文書ＩＤが０００７、０００９、００３１、００３３等である文書に出現した「優勝」等が記録されている。これらの単語は、全て、時系列頻度ベクトルのグラフ形状（見た目の形状）が、図９に示すグラフ形状とは類似しない単語である。逆に、主話題と関連の深い「消費税」等の候補語は、時系列頻度ベクトルのグラフ形状が互いに類似しているので、潜在話題語とは判定しない。

ステップＳ２０１〜Ｓ２０４を、全ての候補語について実施し終われば（Ｓ２０５ＹＥＳ）、潜在話題語抽出部１６は処理を終了する。

潜在話題語集約部１９は、潜在話題語記録部１８に記録されている潜在話題語と、その出現文書のＩＤとの一覧を用い、同一文書中に出現する確率（共起確率）が高い潜在話題語同士は、互いに関連性が高いとみなし、これらを集約する。同一文書中に出現する確率が高い潜在話題語同士を集約する場合、既存のクラスタリング技術を用いる。クラスタリング手法として、最長距離法、最短距離法、群平均法、ｋ−ｍｅａｎｓ法等のうちのいずれの手法を用いるようにしてもよい。

クラスタリング処理に用いる個々の潜在話題語のベクトルは、潜在話題語とともに、記録されている文書ＩＤ一覧を使用する。図１２に示す例において、「○○氏」が出現する文書の文書ＩＤは、０００２、００１１、００１４、００１５、………であるので、これらの文書ＩＤに対応する属性値を１とするベクトルが生成できる。０００１や０００３等、「○○氏」が出現しない文書に対応する属性値は０とみなす。他の潜在話題についても、これと同様に、ベクトルを生成し、クラスタリング処理を行う。

生成された各クラスタを、潜在話題語集合記録部２０に記録する。

図１３は、潜在話題語集合記録部２０に記録されているデータ例（潜在話題語クラスタ、文書ＩＤ）を示す図である。

図１３に示すように、各クラスタに含まれている潜在話題語の一覧だけを潜在話題語集合記録部２０に出力するのではなく、各クラスタから元の入力文書を参照するリンク情報として、クラスタ内の全ての潜在話題語が出現する文書の文書ＩＤをも、潜在話題語集合記録部２０に出力するようにしてもよい。図１２に示す例では、潜在話題語「○○氏」、「次期」、「総裁」が、いずれも、文書ＩＤ０００２、００１５の文書に出現するので、図１３の１番目に記載されているクラスタ（「○○氏」、「次期」、「総裁」を構成要素とするクラスタ）に対応するリンク情報として、文書ＩＤ０００２、００１５が記録されている。図１３の２番目に記載されているクラスタ（「優勝」、「プレーオフ」を構成要素とするクラスタ）、図１３の２番目に記載されているクラスタ（「元外相」、「引退」、「政界」を構成要素とするクラスタ）も、上記と同様である。

これらのクラスタの規模は、いずれも、主話題（消費税率の議論に関する話題）の規模よりも小さいが、主話題の盛り上がりパターンとは異なる盛り上がりパターンを持つので得られたクラスタである。

上記実施例を方法の発明として把握することができる。つまり、上記実施例は、複数の文書集合に出現する単語の時間的な出現頻度変化を集計することによって、各単語の時系列頻度ベクトルを生成し、記憶装置に記憶する時系列頻度ベクトル生成工程と、上記生成された単語の時系列頻度ベクトルを分析し、頻度の増加率が一定値以上である単語を、潜在的話題の候補である候補語として抽出し、記憶装置に記憶する候補語抽出工程と、上記文書集合中の各文書に付随する時間情報に基づいて一定時間毎の文書数を集計することによって、主話題時系列頻度ベクトルを生成し、記憶装置に記憶する主話題時系列頻度ベクトル生成工程と、各候補語の時系列頻度ベクトルと上記主話題時系列頻度ベクトルとのベクトル間距離を算出し、この算出されたベクトル間距離が大きい単語を潜在話題語として抽出し、記憶装置に記憶する潜在話題語抽出工程とを有する潜在話題抽出方法の例である。

この場合、上記候補語抽出工程は、定常状態よりも、短い時間間隔で、出現した単語を、上記候補語として抽出する工程である。また、上記主話題時系列頻度ベクトル生成工程は、文書集合をクラスタリングし、得られたクラスタのうちで、文書数最大のクラスタに含まれている各文書に付随する時間情報に基づいて、一定時間毎の文書数を集計することによって、上記主話題時系列頻度ベクトルを生成する工程である。また、複数の単語が同一文書中に出現する確率である共起確率が高い潜在話題語同士を集約する潜在話題語集約工程を有するようにしてもよい。

また、上記実施例をプログラムの発明として把握することができる。つまり、上記実施例は、上記方法をコンピュータに実行させるプログラムの例である。

さらに、上記実施例を、記録媒体の例として把握することができる。つまり、上記実施例は、上記方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体の例である。この場合、上記記録媒体の例として、ＣＤ、ＤＶＤ、ハードディスク、光ディスク、光磁気ディスク、半導体メモリ等が考えられる。

本発明の実施例１である潜在話題抽出装置１００を示すブロック図である。本発明の原理を説明するフローチャートである。文書記録部１１に記録されているデータ例（文書ＩＤ、出現時刻、本文）を示す図である。文書情報管理部１３に記録されているデータ例（文書ＩＤ、出現時刻、単語、出現回数）を示す図である。候補語抽出部１４が潜在話題の候補語を抽出する動作を示すフローチャートである。バーストを説明する図である。候補語記録部１５に記録されているデータ例（単語、文書ＩＤ、時刻情報）を示す図である。主話題記録部１８に記録されているデータ例（日付、文書数、主話題時系列頻度ベクトル）を示す図である。図３に示す例について、グラフで表した日別の時系列頻度ベクトルを示す図である。潜在話題語抽出部１６の処理を示すフローチャートである。候補語「消費税」と「○○氏」とについての日別の時系列頻度ベクトルをグラフで示す図である。潜在話題語記録部２１に記録されているデータ例（潜在話題語、それが含まれている文書の文書ＩＤ）を示す図である。潜在話題語集合記録部２０に記録されているデータ例（潜在話題語クラスタ、文書ＩＤ）を示す図である。

符号の説明

１００…潜在話題抽出装置、
１１…文書記録部、
１２…文書解析部、
１３…文書情報管理部、
１４…候補語抽出部、
１５…候補語記録部、
１６…潜在話題語抽出部、
１７…主話題抽出部、
１８…主話題記録部、
１９…潜在話題語集約部、
２０…潜在話題語集合記録部、
２１…潜在話題語記録部。

Claims

複数の文書集合に出現する単語の時間的な出現頻度変化を集計することによって、各単語の時系列頻度ベクトルを生成する時系列頻度ベクトル生成手段と；
上記生成された単語の時系列頻度ベクトルを分析し、頻度の増加率が一定値以上である単語を、潜在的話題の候補である候補語として抽出する候補語抽出手段と；
上記文書集合中の各文書に付随する時間情報に基づいて一定時間毎の文書数を集計することによって、主話題時系列頻度ベクトルを生成する主話題時系列頻度ベクトル生成手段と；
各候補語の時系列頻度ベクトルと上記主話題時系列頻度ベクトルとのベクトル間距離を算出し、この算出されたベクトル間距離が大きい単語を潜在話題語として抽出する潜在話題語抽出手段と；
を有することを特徴とする潜在話題抽出装置。
請求項１において、
上記候補語抽出手段は、定常状態よりも、短い時間間隔で、出現した単語を、上記候補語として抽出する手段であることを特徴とする潜在話題抽出装置。
請求項１において、
上記主話題時系列頻度ベクトル生成手段は、文書集合をクラスタリングし、得られたクラスタのうちで、文書数最大のクラスタに含まれている各文書に付随する時間情報に基づいて、一定時間毎の文書数を集計することによって、上記主話題時系列頻度ベクトルを生成する手段であることを特徴とする潜在話題抽出装置。
請求項１において、
複数の単語が同一文書中に出現する確率である共起確率が高い潜在話題語同士を集約する潜在話題語集約手段を有することを特徴とする潜在話題抽出装置。
複数の文書集合に出現する単語の時間的な出現頻度変化を集計することによって、各単語の時系列頻度ベクトルを生成し、記憶装置に記憶する時系列頻度ベクトル生成工程と；
上記生成された単語の時系列頻度ベクトルを分析し、頻度の増加率が一定値以上である単語を、潜在的話題の候補である候補語として抽出し、記憶装置に記憶する候補語抽出工程と；
上記文書集合中の各文書に付随する時間情報に基づいて一定時間毎の文書数を集計することによって、主話題時系列頻度ベクトルを生成し、記憶装置に記憶する主話題時系列頻度ベクトル生成工程と；
各候補語の時系列頻度ベクトルと上記主話題時系列頻度ベクトルとのベクトル間距離を算出し、この算出されたベクトル間距離が大きい単語を潜在話題語として抽出し、記憶装置に記憶する潜在話題語抽出工程と；
を有することを特徴とする潜在話題抽出方法。
請求項５において、
上記候補語抽出工程は、定常状態よりも、短い時間間隔で、出現した単語を、上記候補語として抽出する工程であることを特徴とする潜在話題抽出方法。
請求項５において、
上記主話題時系列頻度ベクトル生成工程は、文書集合をクラスタリングし、得られたクラスタのうちで、文書数最大のクラスタに含まれている各文書に付随する時間情報に基づいて、一定時間毎の文書数を集計することによって、上記主話題時系列頻度ベクトルを生成する工程であることを特徴とする潜在話題抽出方法。
請求項５において、
複数の単語が同一文書中に出現する確率である共起確率が高い潜在話題語同士を集約する潜在話題語集約工程を有することを特徴とする潜在話題抽出方法。
上記請求項５〜請求項８のいずれか１項に記載の方法をコンピュータに実行させるプログラム。
上記請求項５〜請求項８のいずれか１項に記載の方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。