JP2006120069A

JP2006120069A - 話題文書提示方法及び装置及びプログラム

Info

Publication number: JP2006120069A
Application number: JP2004309576A
Authority: JP
Inventors: Yoshihide Sato; 吉秀佐藤; Tsutomu Sasaki; 努佐々木; Harumi Kawashima; 晴美川島; Masakatsu Okubo; 雅且大久保
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-10-25
Filing date: 2004-10-25
Publication date: 2006-05-11
Anticipated expiration: 2024-10-25
Also published as: JP4134975B2

Abstract

【課題】最新の話題情報を取得したい利用者にとって効率的な情報取得環境を提供する。
【解決手段】本発明は、類似する文書が多いほど注目度が高いと見做す暫定話題度を求め、これに文書の作成時刻と現在時刻との差と予め設定した忘却曲線より求まる鮮度係数を乗算して話題度を求める。この為に、文書間の類似度を用いて、文書群をクラスタリングする。また、文書話題度算出に当たっては、注目文書に対し、他の文書との類似度を全て加算して暫定話題度とする。
【選択図】図１

Description

本発明は、話題文書提示方法及び装置及びプログラムに係り、特に、作成時刻が特定可能な多数の文書データを効率的に利用者に閲覧させるため、同一のテーマに沿った文書を一まとまりの集合にし、かつ、文書の作成時刻を考慮して各文書の持つ話題性の大きさを表すスコアを計算して、類似性と話題性の双方の観点で文書を整理して提示する話題文書提示方法及び装置及びプログラムに関する。

インターネットの普及により、ネットワーク上には膨大な文書が溢れている。特にニュースを代表するような、１日に何度も更新・追加される性質の文書の場合、１つ１つ閲覧して情報を把握しようとすると多大な労力を要する。

また、情報の発信源が分散しているのがインターネットの特徴である反面、同一のテーマに沿って様々な観点から書かれた文書が複数の発信源から公開されるため、仮にそれらを取捨選択して必要な情報だけ目を通したいと思っても、流通する全文書量の増加と共に閲覧操作は困難を極める。さらに、文書量の増加は興味のある文書を紛れさせてしまい、必要な情報を入手しにくい現状がある。

こういった状況の中、数多くの文書を効率的に閲覧するために、文書集合を整理して利用者に提示する技術がある（例えば、特許文献１参照）。

上記の技術は、利用者の操作によって提示する候補を絞り込みながら文書検索を行なう方法である。利用者の情報要求に基づいて基本検索を行なった結果得られる文書群を互いに類似した文書の集合に分割し、各集合を代表する単語リストを提示し、利用者が選択した集合に対し、再度類似文書の分類と単語リストの提示を行う処理を繰り返しながら対話的に検索を行なう方法である。
特開平１１−２１３０００号公報

しかしながら、上記の技術は、どちらかと言えば能動的に文書検索を行なう利用者を意識した技術であり、また時間という観点を考慮した提示技術ではないため、続々と新しい文書が増加する状況において監視的に情報を把握する用途に使用することが困難である。

本発明は、上記の点に鑑みなされたもので、膨大な文書が流通する状況において、受動的な利用者が日々刻々と変化する情報の話題性を把握する作業を補助するために、膨大な文書を文書間の類似性と話題の時間的な盛り上がりという２つの観点に基づいて整理、提示することで受動的な立場で最新の話題情報を取得したい利用者にとって効率的な情報取得環境を提供することが可能な話題文書提示方法及び装置及びプログラムを提供することを目的とする。

図１は、本発明の原理を説明するための図である。

本発明（請求項１）は、作成時刻情報付きの膨大な文書群から、話題性の高い文書を自動的に選択して提示する話題文書提示装置における話題文書提示方法において、
入力文書中に含まれる単語に対して属性値を決定し、各入力文書を属性値列のベクトルに変換した文書ベクトルを用いて各文書間の類似度を算出し、類似度記録手段に記録する類似度算出ステップ（ステップ１）と、
類似度記録手段に記録されている文書間の類似度を用いて、入力文書群を、類似文書から少なくとも１つの部分集合に分割し、各部分集合に属する文書をクラスタ記録手段に保存するクラスタリングステップ（ステップ２）と、
類似度記録手段に記録されている文書間の類似度及び各文書の作成時刻情報を用いて、各文書に対して、類似する文書が多く、かつ、作成時刻が新しいほど大きな文書話題度を与え、文書話題度記録手段に保存する文書話題度算出ステップ（ステップ３）と、
クラスタ記録手段に保存されている各部分集合に属する文書及び、文書話題度記録手段に保存されている文書話題度を利用して、部分集合のそれぞれについて、該部分集合に含まれる文書群を、文書話題度の高い順に並べたデータを作成する提示データ作成ステップ（ステップ４）と、を行い、
文書話題度算出ステップ（ステップ３）において、
注目文書に対し、他の文書との間の類似度を全て加算して暫定話題度を算出する暫定話題度算出ステップと、
注目文書の作成時刻情報が現在時刻に近いほど値が大きく、現在から遠いほど値が小さくなる関数によって該注目文書の新鮮度を決定する新鮮度決定ステップと、
と、を行う。

また、本発明（請求項２）は、文書話題度算出ステップ（ステップ３）の暫定話題度算出ステップにおいて、
注目文書と他の文書との間の類似度を加算する際に、クラスタリングステップにおいて分割した各部分集合内に属する文書との類似度に限定して加算を行うステップを含む。

また、本発明（請求項３）は、文書話題度算出ステップの新鮮度決定ステップにおいて、
新鮮度を決定する関数として、指数関数で表される関数を用いる。

また、本発明（請求項４）は、入力文書を内容に応じて複数のカテゴリのいずれか1以上に分類するカテゴリ分類ステップを更に行い、
類似度算出ステップ（ステップ１）、クラスタリングステップ（ステップ２）、文書話題度算出ステップ（ステップ３）、提示データ作成ステップ（ステップ４）のそれぞれを、分類したカテゴリ別に行う。

図２は、本発明の原理構成図である。

本発明（請求項５）は、作成時刻情報付きの膨大な文書群から、話題性の高い文書を自動的に選択して提示する話題文書提示装置であって、
入力文書中に含まれる単語に対して属性値を決定し、各入力文書を属性値列のベクトルに変換した文書ベクトルを用いて各文書間の類似度を算出し、類似度記録手段２０７に記録する類似度算出手段２０６と、
類似度記録手段２０７に記録されている文書間の類似度を用いて、入力文書群を、類似文書から少なくとも１つの部分集合に分割し、各部分集合に属する文書をクラスタ記録手段２０９に保存するクラスタリング手段２０８と、
類似度記録手段２０７に記録されている文書間の類似度及び各文書の作成時刻情報を用いて、各文書に対して、類似する文書が多く、かつ、作成時刻が新しいほど大きな文書話題度を与え、文書話題度記録手段２１１に保存する文書話題度算出手段２１０と、
クラスタ記録手段２０９に保存されている各部分集合に属する文書及び、文書話題度記録手段２１１に保存されている文書話題度を利用して、部分集合のそれぞれについて、該部分集合に含まれる文書群を、文書話題度の高い順に並べたデータを作成する提示データ作成手段２１２と、を有し、
文書話題度算出手段２１０は、
注目文書に対し、他の文書との間の類似度を全て加算して暫定話題度を算出する暫定話題度算出手段と、
注目文書の作成時刻情報が現在時刻に近いほど値が大きく、現在から遠いほど値が小さくなる関数によって該注目文書の新鮮度を決定する新鮮度決定手段と、
と、を有する。

また、本発明（請求項６）は、文書話題度算出手段２１０の暫定話題度算出手段において、
注目文書と他の文書との間の類似度を加算する際に、クラスタリング手段２０８において分割した各部分集合内に属する文書との類似度に限定して加算を行う手段を含む。

また、本発明（請求項７）は、文書話題度算出手段２１０の新鮮度決定手段において、
新鮮度を決定する関数として、指数関数で表される関数を用いる。

また、本発明（請求項８）は、入力文書を内容に応じて複数のカテゴリのいずれか1以上に分類するカテゴリ分類手段を更に有し、
類似度算出手段２０６、クラスタリング手段２０８、文書話題度算出手段２１０、提示データ作成手段２１２のそれぞれの処理を、分類したカテゴリ別に行う。

本発明（請求項９）は、作成時刻情報付きの膨大な文書群から、話題性の高い文書を自動的に選択して提示する話題文書提示装置における話題文書提示プログラムであって、
請求項１乃至４記載の話題文書提示方法を実現するための処理をコンピュータに実行させるプログラムである。

上記のように、本発明によれば、各文書間の類似度を算出して類似文書を集約し、かつ各文書の持つ話題性の大きさを話題度として文書に付与することにより、利用者は同一内容を扱った文書に複数目を通す煩わしさから解放され、類似文書群（クラスタ）のそれぞれについて特に話題性の高い文書のみを優先的に閲覧することが可能となり、効果的な情報取得環境が提供される。

以下、図面と共に本発明の実施の形態を説明する。

［第１の実施の形態］
図３は、本発明の第１の実施の形態における話題文書提示装置の構成を示す。

同図に示す話題文書提示装置２０は、話題文書情報を出力するため話題出力装置２１が接続される。

話題文書提示装置２０は、文書収集部２０１、文書データ記録部２０２、文書解析部２０３、単語集計部２０４、文書ベクトル記録部２０５、類似度算出部２０６、類似度記録部２０７、クラスタリング部２０８、クラスタ記録部２０９、文書話題度算出部２１０、文書話題度記録部２１１、提示データ作成部２１２から構成される。

文書話題度算出部２１０は、時刻情報取得部２１０１、類似度取得部２１０２、類似度加算部２１０３、鮮度係数算出部２１０４、積算部２１０５から構成される。

以下、話題文書提示装置２０を構成する各処理部の機能を説明する。

文書収集部２０１は、外部の情報源から文書データを収集する。例えば、インターネット上の新聞社サイトで公開されているニュース記事データを取得し、各文書に一意な識別子（文書ＩＤ）を付与し、文書データ記録部２０２に保存する。その際、各文書の作成時刻情報も取得し、合わせて記録しておく。

文書データ記録部２０２には、図４のように、文書の作成時刻と本文、及び文書収集部２０２が各文書に対して一意に付与した文書ＩＤが記録される。

文書解析部２０３は、文書データ記録部２０２に保存された文書データを取得し、形態素解析処理によって本文を単語毎に分割して、得られる単語のリストを文書ベクトル記録部２０５に一旦出力する。文書解析部２０３は、同時に単語のリストを単語集計部２０４にも送出し、単語集計部２０４において、各単語が現れる文書数を集計する。

文書解析部２０３における形態素解析処理は、文章を動詞や助詞などの品詞や「、（句点）」「。（読点）」などの記号などの構成要素（形態素）に切り分ける処理である。本発明の話題文書提示方法が行う処理において文書をベクトルで表現するのは文書間の類似度算出を行うことが目的であり、文書を特徴付けるのに適さない形態素は扱う必要がない。従って、形態素解析処理の結果から句読点、さらには必要に応じて助詞、助動詞などの形態素を除き、名詞や動詞、形容詞などを対象にし、文書ベクトル記録部２０５ならびに単語集計部２０４に送出すればよい。

単語集計部２０４は、文書解析部２０３から送出された各単語（本実施の形態では句読点や助詞などを除いた形態素）が出現する文書数を集計し、その結果を用いて単語毎の重みを決定する。例えば、文書解析部２０３が文書ＩＤ「ＤＯＣ−０１２３４５」の文書を単語毎に分割した結果、Ｗ１〜Ｗｎまでのｎ種類の単語が得られたとする。単語の重みの決定方法は、後述するが、単語集計部２０４が全ての文書中でのこれらの単語の出現回数を考慮した結果、各単語に対応するＶ１〜Ｖｎという重みが得られたとすると、文書ＩＤ「ＤＯＣ−０１２３４５」の文書は、単語Ｗ１に対応する属性値がＶ１，単語Ｗ２に対応する属性値がＶ２，…のように、文書内に出現する単語の重みを列挙したベクトル形式で表現することができる。

単語集計部２０４が、各単語の重みを決定する処理の流れを図５を用いて詳しく説明する。

まず、文書解析部２０４が文書を単語へ分割した結果得られる単語リストを１文書分取得し、各単語が１度でも現れる文書の数（以後、「出現文書数」と呼ぶ）を集計する。同時に、処理を行った文書数をカウントしておく（ステップ２０１）。

文書解析部２０３が処理した全ての文書について、ステップ２０１のステップを繰り返すと（ステップ２０２）、単語Ｗ１の出現文書数は「５」、単語Ｗ２の文書出現数は「８」，…といったように各単語の出現文書数が集計される。

続いて、各単語の重みを決定する（ステップ２０３）。

通常、文書中に現れる単語の重要性を表す重みを決定する場合には、ＴＦ−ＩＤＦ法を用いることが多い。ＴＦ−ＩＤＦ法は、単語のＴＦ(Term Frequency:文書内での出現回数)と、ＤＦ(Document Frequency：出現文書数)を用い、文書ｄにおける単語ｗの重みＴＦ−ＩＤＦ（ｄ，ｗ）を式（１）で与えるものである。ＴＦ（ｄ，ｗ）は、文書ｄにおける単語ｗの出現回数であり、Ｎは全文書数、ＤＦ（ｗ）は全Ｎ文書中での単語ｗの出現文書数である。ＴＦ−ＩＤＦ法は、文書内で現れる頻度が高い単語ほど、また、全文書中で少数の文書に現れる単語ほど重要であるとみなす評価法である。

他にも単語の重み付けに使用可能な方法はあるが、本実施の形態では、特にニュース記事を収集して話題文書提示方法を適用する場合を想定し、上記の式（１）のＴＦ−ＩＤＦ（ｄ，ｗ）ではなく、式（２）のWeight(w)で単語ｗの重み付けを行う。ニュース記事では主題となる人名や団体名などの名詞の１文書内における出現回数が必ずしも高いわけではなく、出現回数と単語の重要度が直結しないことに基づくものであり、ＴＦ−ＩＤＦ法から文書内出現回数（ＴＦ）の効果を省いたものである。

単語集計部２０４は全単語の重みWeight(w)が決定すると（ステップ２０３）、文書ベクトル記録部２０５に保存されている各文書の単語リストを参照し、各文書に現れた単語に対して属性値を重みWeight(w)で与え、文書ベクトルを決定し、文書ベクトル記録部２０５に保存する（ステップ２０４）。

図６は、本発明の第１の実施の形態における文書ベクトル記録部に保存された文書ベクトルの例である。文書ＩＤ「ＤＯＣ−０１２３４５」は、「今朝」に対する属性値が「0.0053」、「○×」に対する属性値が「2.38」、選手に対する属性値が「1.02」…というベクトルで表現される。なお、上記の式（２）からもわかるように、単語集計部２０４が決定する各単語の重みは全文書数Ｎと各単語の出現文書数ＤＦ（ｗ）のみで決定される値であり、例えば「ＤＯＣ−０１２３４５」と「ＤＯＣ−０１２３４６」に含まれる「今朝」という単語の属性値は、ステップ２０３で決定された単語「今朝」の重み「0.0053」がいずれにも用いられる。

類似度算出部２０６は、文書ベクトル記録部２０５に保存された各文書ベクトルを参照し、各文書間の類似度を算出する。図７は、本発明の第１の実施の形態における類似度算出部の処理のフローチャートである。

まず、最初に、文書ベクトル記録部２０５を参照し、異なる２文書の文書ベクトルを取得する（ステップ３０１）。

続いて、取得した２文書間の類似度を算出する（ステップ３０２）。２つの文書ベクトルを用いた最も単純な類似度の算出方法は、コサイン類似度を利用する方法である。これは２ベクトルのなす角の余弦（コサイン）を２文書間を類似度とする方法であり、２文書に共通に出現する単語が多いほど２文書ベクトルのなす角が小さくなり、従って余弦が大きくなる。本実施の形態では、２文書ｄ_ｉ，ｄ_ｊ間の類似度を式（３）のコサイン類似度Ｓ（ｄ_ｉ，ｄ_ｊ）で定義されるものを用いる。ｄ_ｉ→，ｄ_ｊ→は各文書のベクトル、│ｄ_ｉ→│、│ｄ_ｊ→│は、各文書ベクトルの大きさ、θ_ｉｊは、各文書のベクトルのなす角である。

このようにして算出した類似度を類似度記録部２０７に保存し（ステップ３０３）、上記のステップ３０１〜３０３の処理を文書ベクトル記録部２０５に保存された文書ベクトルの全組み合わせについて行う（ステップ３０４）。

図８は、本発明の第１の実施の形態における類似度記録部に保存された文書間類似度データの例である。文書「ＤＯＣ−０１２３４５」「ＤＯＣ−０１２３４６」間の類似度が「0.021」であったことを示す。ある２文書に共通して出現する単語が１個も存在しない場合は、式（３）におけるベクトルの内積（ｄ_ｉ→，ｄ_ｊ→）の値が「０」になるため、図８の「ＤＯＣ−０１２３４５」と「ＤＯＣ−０１２３４７」の組み合わせのように類似度「０」となる。

クラスタリング部２０８は、類似度記録部２０７に保存された文書間の類似度を用い、類似文書をひとまとめにする処理を行う。この処理は、互いに類似する文書は同じ主題に沿って書かれた文書である可能性が高いと見做して１つに纏め上げる処理である。以後当該処理によって一まとめとなった文書群を「クラスタ」と呼び、全文書群を複数のクラスタに分割する当該処理を「クラスタリング」と呼ぶ。

クラスタリングには、種々の既存手法が利用可能であり、本発明において利用するクラスタリング手法はいずれかの手法に限定するものではないが、本実施の形態では、分割すべきクラスタ数が事前に推定できない場合にも利用可能な手法の１つである最大距離法を用いるものとして説明する。最大距離法の実現手段は、例えば、「岩波書店マルチメディア情報学２「情報の組織化」pp.192〜193」を用いるものとする。

まず、クラスタリングを行うにあたり、１から文書間類似度を引いたものを文書間の距離として定義する。文書間類似度は上記の式（３）により、０から１の値を持ち、文書が類似しているほど１に近い大きな値をとる。従って、１から文書間類似度を減ずれば、２文書が類似しているほど１に近い大きな値を取り、類似度が下がるにつれて０に近付く「非類似度」を定めることができる。この非類似度を文書間の距離として扱う。

以下、最大距離法に基づくクラスタリング処理について説明する。最長距離法は、既存のクラスタから十分遠くにある文書を中心に新しいクラスタを形成させ、次々とクラスタ数を増加させながら進める手法である。

図９は、本発明の第１の実施の形態におけるクラスタリング処理のフローチャートである。

ステップ４０１）まず、いずれか１文書を中心とする第１のクラスタを形成する。この第１のクラスタに属する文書は、この時点では１文書のみである。

ステップ４０２）各文書から最も距離が近いクラスタを探索する。ここで文書ｄからクラスタｃまでの距離とは、クラスタｃの中心の文書と文書ｄとの距離をいう。なお、最初にステップ４０２を行う際は、クラスタが１つしか存在しないため、最も距離が近いクラスタは探索するまでもなく決まる。

ステップ４０３）ステップ４０２で各文書から最も近いクラスタまでの距離（最短距離）が求まるが、これらの最短距離が最大になるような文書を調べる。つまり、既存クラスタの中心から最も遠くにある文書ｄ_ｋを求める。

ステップ４０４）ステップ４０３で求めた最短距離の最大値をｍとし、既存クラスタの中心間の距離の最大値をＭＡＸとしたとき、ｒを定数として条件式「ｍ／ＭＡＸ＞ｒ」を満たすかを判断する。なお、定数ｒのみ事前に定めておく必要がある。満たす場合には、ステップ４０５に移行し、満たさない場合には処理を終了する。

ステップ４０５）上記の条件式を満たす場合には、文書ｄ_ｋを中心とする新しいクラスタを形成し、上記の条件式を満たさなくなるまで、ステップ４０２以降の処理を繰り返す。

クラスタリング処理部２０８は、以上の処理を終えると、処理結果をクラスタ記録部２０９に転送し、保存する。図１０は、本発明の一実施の形態におけるクラスタ記録部におけるクラスタリング結果データの例である。Ｃ１，Ｃ２，Ｃ３，Ｃ４，…は、クラスタ識別子（クラスタＩＤ）であり、各クラスタに属する文書のＩＤが記録されている。最長距離法によるクラスタリングの結果では、クラスタ「Ｃ２」のように１文書のみで形成されるクラスタも存在するが、全ての文書はいずれか１クラスタに必ず属する結果となる。

文書話題度算出部２１０は、類似度記録部２０７に保存された各文書間の類似度データを利用し、各文書の話題性の大きさを数値化して文書話題度記録部２１１に出力する。以下、話題度算出部２１０が行う処理の流れを図１１を用いて説明する。

図１１は、本発明の第１の実施の形態における話題度算出部が行う処理のフローチャートである。

まず、時刻情報取得部２１０１が文書データ記録部２０２から文書ＩＤと作成時刻の組を１組、例えば、文書データ記録部２０２に記録された図４に示すデータから、文書「ＤＯＣ−０１２３４５」とその作成時刻「2004/9/11 23:00」を取得する（ステップ５０１）。

時刻情報取得部２１０１が取得した文書ＩＤ「ＤＯＣ−０１２３４５」を類似度取得部２０１２に送出すると、類似度取得部２０１２は、該文書ＩＤと他の文書との間の類似度を類似度記録部２０７より取得し、メモリに格納する（ステップ５０２）。図８に示す例では、「ＤＯＣ−０１２３４５」と他の文書との類似度「0.021」，「0」，「0.300」，…が次々と取得される。

続いて、類似度加算部２１０３が、類似度取得部２１０２が取得した類似度を次々加算し、メモリに格納する（ステップ５０３）。文書「ＤＯＣ−０１２３４５」については、「0.021」，「0」，「0.300」が次々加算され、合計値が最終的に「1.28」になったものと仮定する。以上のようにして、ある文書「ＤＯＣ−０１２３３４５」と他の各文書との類似度を全て加算した値「1.28」を文書「ＤＯＣ−０１２３４５」の暫定話題度と呼ぶ。暫定話題度は、ある１文書に注目したとき、それと類似した文書の数が多いほど注目度が高いとみなす話題性評価法である。新聞記事などを対象とする場合には、話題性の高い事柄については複数の新聞社が次々と関連記事を掲載して類似文書数が増えることから、特に有効な評価方法であると言える。

鮮度係数算出部２１０４は、時刻情報取得部２１０１から受け取った時刻情報「2004/9/11 23:00」と現在時刻との差を比較し、取得した文書「ＤＯＣ−０１２３４５」の鮮度係数を決定し、メモリに保持する（ステップ５０４）。

鮮度係数は、文書の作成時刻が現在時刻に近いほど値が大きく、古いほど値が小さくなりながら０に近付くような時間の関数で決定される値である。この性質を持つ関数は、予めメモリに記憶されており、例えば、人間が過去に入手した情報の記憶が時間と共に薄れる様子を示した図１２の忘却曲線を利用するのがよい。これは、最近（現在に近い時刻）に入手した情報ほど現在でも大きな記憶量を保ち、過去（現在から遠い時刻）に入手した情報は現在では記憶の量が少なくなっている様子を表しており、縦軸は記憶量である現在時刻よりｔだけ遡った過去（現在時刻を０とする時刻−ｔ）における記憶量Ｆ（ｔ）が式（４）で表される。式（４）は、ｔ＝０（現在）で値がＦ_０となり、過去に遡るほど値が０に近付く。

Ｆ（ｔ）＝Ｆ_０×exp（−ｔ／Ｔ_０）（４）
式（４）のＴ_０は、時間を遡るにつれて鮮度係数が減衰する速度（忘却の速度）を決定付けるパラメータである。値を大きくすれば緩やかな減衰になり、作成時刻が古い文書であるもある程度大きな鮮度係数が与えられ、話題文書であると判断されやすくなる。逆に，Ｔ_０を小さくすれば減衰が急な曲線になり、極めて新しい作成時刻を持つ文書が話題文書とみなされ、古い文書は話題とみなされにくくなる傾向になる。Ｔ_０は、収集する文書の性質や利用場面に応じて種々に設定可能な定数である。

以下では、ステップ５０４で「ＤＯＣ−０１２３４５」の時刻情報「2004/9/11 23:00」と現在時刻の差を求めて式（４）に適用した結果、「0.7」という鮮度係数が得られたものとして説明を続ける。

積算部２１０５が文書「ＤＯＣ−０１２３４５」の暫定話題度「1.28」と「0.7」を積算し、「ＤＯＣ−０１２３４５」の話題度「0.896」を得る（ステップ４０５）。なお、積算を終えると類似度加算部２１０３で保持していた暫定話題度「1.28」は、次の文書の文書話題度算出のために「０」にクリアしておく。

算出された文書「ＤＯＣ−０１２３４５」の文書話題度は、文書ＩＤと共に文書話題度記録部２１１に保存する（ステップ５０６）。

以上ステップ５０１〜ステップ５０６の処理を、時刻情報取得部２１０１が取得した全文書について繰り返し（ステップ５０７）、処理を終える。

図１３は、本発明の第1の実施の形態における文書話題度記録部に記録された文書話題度データの例である。同図に示す文書話題度記録部２１１には、文書ＩＤ「ＤＯＣ−０１２３４５」と文書話題度「1.28」の組が記録されている。他の文書についても同様に文書話題度が記録されている。

提示データ作成部２１２は、クラスタ記録部２０９及び文書話題度記録部２１１に記録された各データを参照し、本発明の話題提出装置20の出力となるデータを作成する。クラスタ記録部２０９からは各クラスタに属する文書ＩＤの一覧を取得し、文書話題度記録部２１１からは各文書ＩＤに対応する文書話題度を取得する。さらに、文書データ記録部２０２から各文書ＩＤに対応する作成時刻と本文を取得し、クラスタ毎の文書一覧データを作成する。各クラスタ内の文書は、文書話題度によって降順に並び替える。こうして作成したデータは話題出力装置２１に出力され、利用者に提示される。

話題出力装置２１の画面上に出力された話題文書の表示例を図１４に示す。画面上の横方向には左から順にクラスタ１、クラスタ２、…と、クラスタが並び、各クラスタに属する文書が縦方向に並んで表示されている。同図のａは、このうち、クラスタＩＤ「Ｃ１」のクラスタに属する文書が表示された領域であり、クラスタに属する文書が文書話題度の高い順から上から並んでいる。同図のｂは、このうちクラスタ内の文書話題度が第3位の文書の作成時刻情報、同図のｃは文書話題度、同図のｄは、本文である。

図１４の例では、あるスポーツ選手の引退にかかわる4文書が「クラスタ１」としてひとまとまりになっており、「クラスタ２」は、博物館のイベントに関する1文書のみからなるクラスタ、「クラスタ３」は、野球チームの合併に関わる多数の文書が集まったクラスタになっている。「クラスタ２」内の文書で取り扱われている博物館のイベントは、他の文書で取り扱われることがなかったため、ただ1文書のみで構成されるクラスタになっている。逆に「クラスタ３」は、野球チームの合併という1つの話題に関連し、ファンの署名活動を扱った文書やストライキを扱った文書、合併の影響を扱った文書など、関連する文書が連鎖的に集まった大きなクラスタになっている。

文書話題度は、類似文書が多ければ多いほど大きく、文書の作成時刻が新しければ新しいほど大きな値をとる。このため、「クラスタ２」に属する文書のように話題性の低い文書は、文書話題度が小さい。さらに、「クラスタ３」に属する文書に注目すると、作成時刻が新しい文書の文書話題度が比較的大きく、上位に表示される傾向がある。

利用者は、各クラスタ上位の文書を流し読みすれば短時間で話題情報を把握することができ、興味を持ったクラスタについて各文書を詳細に読むことで、効率的な文書閲覧が可能になる。

［第２の実施の形態］
図１５は、本発明の第２の実施の形態における話題文書提示装置の構成を示す。

話題文書提示装置１３０は、話題文書情報を出力するための話題出力装置１３１４、及び、利用者からの操作を受け付ける入力装置１３１５が接続される。

話題文書提示装置１３０は、文書収集部１３１、文書データ記録部１３２、文書解析部１３３、文書分類部１３４、単語集計部１３５、文書ベクトル記録部１３６、類似度算出部１３７、類似度記録部１３８、クラスタリング部１３９、クラスタ記録部１３１０、文書話題度算出部１３１１、文書話題度記録部１３１２、提示データ作成部１３１３で構成され、文書話題度算出部１３１１は、さらに、時刻情報取得部１３１１１、類似度取得部１３１１２、類似度加算部１３１１３、鮮度係数算出部１３１１４、積算部１３１１５から構成される。

以下、話題文書提示装置１３０を構成する各処理部の機能を説明する。

文書収集部１３１は、外部の情報源から文書データを収集するものであり、第１の実施
の形態における文書収集部２０１と同様の機能を有する。収集した文書には一意な識別子（文書ＩＤ）を付与し、文書データ記録部１３２に保存する。その際、各文書の作成時刻情報も取得し、合わせて記録しておく。文書収集部１３１は、さらに、収集した文書を文書解析部１３３にも送出する。

文書解析部１３３は、文書収集部１３１から受け取った文書を形態素解析処理によって単語毎に分割して、得られる単語のリストを文書ベクトル記録部１３６に一旦出力する。また、文書解析部１３３は、同時に単語のリストを単語集計部１３５にも送出し、単語集計部１３５が各単語が現れる文書数を集計する。

単語集計部１３５は、前述の第１の実施の形態における単語集計部２０４と同様に、各単語の集計文書数を用いて式（２）から重みを決定し、各文書の文書ベクトルを構成して文書ベクトル記録部１３６に保存する。文書ベクトル記録部１３６には、第１の実施の形態と同様に、図６のように文書ＩＤと文書ベクトルが保存される。

文書解析部１３３は、さらに、文書の単語リストを文書分類部１３４にも送出する。文書分類部１３４は、この単語リストを利用して、文書を予め定めておく複数のカテゴリのうちいずれか１以上のカテゴリに分類する。文書をカテゴリに分類する際には、既存の文書分類技術として、例えば、『上田修功、斉藤和巳、「多重トピックテキストの確率モデル−パラメトリック混合モデル−」、電気情報通信学会論文誌 D-II Vol. J87-D-II No.3 pp.872-883, 2004年３月』を利用する。

上記の既存技術の概要を簡単に説明する。

まず、カテゴリが既知の文書集合を機械に学習させ、学習させた機械を用いて未知の文書がどのカテゴリに属するかを予測する。この予測処理が文書分類に相当する。

文書解析部１３３は、文書分類部１３４に対して各文書の単語リストを送出するが、この時、各単語には文書内での出現回数を付加して送出する。単語Ｗｎの文書ｄ_ｍ中での出現回数をＸ_ｍｎとすると、文書ｄ_ｍの単語頻度ベクトルは、Ｘ_ｍ→は、Ｘ_ｍ→＝（Ｘ_ｍ１，Ｘ_ｍ２，…，Ｘ_ｍｖ）で表される。

カテゴリの総数をＬとし、文書ｄ_ｍが属するカテゴリを示すカテゴリベクトルを、
Ｙ_ｍ→＝（Ｙ_ｍ１，Ｙ_ｍ２，…，Ｙ_ｍＬ）
で表すこととする。ここで、Ｙ_ｍ，ｋは、文書ｄ_ｍが第ｋカテゴリに属するとき「１」、属さないとき「０」の値をとる。複数のカテゴリに属することも許されるが、少なくとも１つのカテゴリには属するものとする。

まず、カテゴリが既知の文書集合Ｄ＝｛（Ｘ_ｍ，Ｙ_ｍ）｝（ｍ＝１〜Ｎ）〜Ｘ_ｍのカテゴリＹｍとなるように機械に学習させる。次にこの機械を用いて、カテゴリが未知の文書ｄ_＊の単語頻度ベクトルＸ_＊を入力としてＹ_＊を推定する。予測で計算されるカテゴリベクトルＹｍｋ＝（Ｙ_＊１，Ｙ_＊２，…，Ｙ_＊Ｌ）のＹ_＊ｋが、文書ｄ_＊が第ｋカテゴリに属するかどうかの一致度（属する確率）を示す。

上記の既存の文書分類技術は、カテゴリが未知の入力文書の単語頻度ベクトルに対する出力は、各カテゴリへの一致度を羅列したベクトルであるため、入力文書を一致度の高い順に数カテゴリに分類する。一致度がある閾値を越えたカテゴリに分類する、などの利用方法が考えられるが、本実施例では、一致度最大の１カテゴリのみに分類するものとして説明を続ける。

文書分類部１３４が上記の既存の文書分類技術を用いて文書を分類したカテゴリ情報は、文書データ記録部１３２に保存される。

図１６は、本発明の第２の実施の形態における文書データ記録部に保存されたデータの例である。前述の第１の実施の形態の文書データ記録部２０２に保存されたデータの例（図４）に加え、所属カテゴリ名が記録されている。

類似度算出部１３７は、文書ベクトル記録部１３６に保存された各文書ベクトルを参照して各文書間の類似度を算出するが、このとき、文書データ記録部１３２に保存されているカテゴリ情報を参照し、同一カテゴリに属する文書間の類似度を算出する。

類似度算出の方法は、前述の第１の実施の形態と同様である。図１７は、本発明の第２の実施の形態における類似度記録部に保存された文書間類似度データの例である。図１６でいずれもカテゴリ名「スポーツ」が記録されている文書「ＤＯＣ−０１２３４５」「ＤＯＣ−０１２３４７」の間の類似度「0.021」が、図１７の「スポーツ」の欄に記録されている。他のカテゴリ、他の文書についても同様にして、カテゴリ別に文書間類似度が記録されている。

クラスタリング部１３９は、類似度記録部１３８に記録された文書間類似度を用い、文書のクラスタリング処理を行う。クラスタリング処理をカテゴリ毎にそれぞれ行う以外は第１の実施の形態におけるクラスタリング部２０８と同じ処理を行う。

図１８は、本発明の第２の実施の形態におけるクラスタ記録部に保存されたクラスタリング結果データの例である。クラスタリング結果は、「スポーツ」「社会」「映画」…と、カテゴリ別に記録されており、例えば、「スポーツ」のカテゴリの第１のクラスタ「Ｃ１１」には、文書ＩＤ「ＤＯＣ−０１２３４５」「ＤＯＣ−０１２３４９」「ＤＯＣ−０１２３５５」の３文書が含まれている。「スポーツ」カテゴリでは、この他「Ｃ１２」「Ｃ１３」…と複数のクラスタが含まれ、「社会」カテゴリでは、「Ｃ２１」「Ｃ２２」「Ｃ２３」…、「映画」カテゴリでは、「Ｃ３１」「Ｃ３２」「Ｃ３３」…といったようにクラスタリング結果が格納される。

文書話題度算出部１３１１は、類似度記録部１３８に保存された各文書間の類似度データを利用し、各文書の話題性の大きさを数値化して文書話題度記録部１３１２に出力する。

話題度算出部１３１１が行う処理は、前述の第１の実施の形態における文書話題度算出部２１０が行う処理と同様であるが、処理をカテゴリ別に行う点のみが異なる。処理の流れを図１９を用いて説明する。

図１９は、本発明の第２の実施の形態における話題度算出部が行う処理のフローチャートである。

まず、時刻情報取得部１３１１１が文書データ記録部１３２から文書ＩＤ、作成時刻、カテゴリ名の組を１組、例えば、文書データ記録部１３２に記録された図１６のデータから、文書「ＤＯＣ−０１２３４５」とその作成時刻「2004/9/11 23:00」、及びカテゴリ名「スポーツ」を取得する（ステップ６０１）。

時刻情報取得部１３１１１が取得した文書ＩＤ「ＤＯＣ−０１２３４５」とカテゴリ名「スポーツ」を類似度取得部１３１１２に送出すると、類似度取得部１３１１２は「スポーツ」カテゴリに分類された文書と該文書ＩＤ「ＤＯＣ−０１２３４５」との間の類似度を類似度記録部１３８より取得する（ステップ６０２）。図１７に示す類似度記録部１３８の例では、「スポーツ」カテゴリの項に記録された「ＤＯＣ−０１２３４５」と他の文書との類似度「0.021」「0」、…が次々と取得される。

類似度加算部１３１１３がこれらの類似度を加算して文書「ＤＯＣ−０１２３４５」の暫定話題度を算出するステップ（ステップ６０３）、鮮度係数算出部１３１１４が各文書の作成時刻と現在時刻との差から鮮度係数を決定するステップ（ステップ６０４）、積算部１３１１５が暫定話題度に鮮度係数を乗じて文書話題度を算出するステップ（ステップ６０５）のそれぞれは、第１の実施の形態における各ステップと同一である。

積算部１３１１５が算出した各文書の文書話題度は、各文書の所属するカテゴリ情報、文書ＩＤと共に文書話題度記録部１３１２に保存する（ステップ６０６）。

以上ステップ６０１〜６０６の処理を、時刻情報取得部１３１１１が取得した全文書について繰り返し（ステップ６０７）、処理を終える。

図２０は、本発明の第２の実施の形態における文書話題度記録部に保存された文書話題度データの例である。同図に示す文書話題度記録部１３１２には、文書ＩＤ「ＤＯＣ−０１２３４５」と文書話題度「1.28」の組が「スポーツ」カテゴリの項に記録されており、他のカテゴリに分類された文書についても同様にそれぞれ文書話題度が記録されている。

提示データ作成部１３１３は、クラスタ記録部１３１０及び文書話題度記録部１３１２に記録された各データを参照し、本発明の話題文書提示装置１３０の出力となるデータを作成する。クラスタ記録部１３１０からは各カテゴリの各クラスタに属する文書の文書ＩＤの一覧を取得し、文書話題度記録部１３１２からは各文書ＩＤに対応する文書話題度を取得する。さらに文書データ記録部１３２から各文書ＩＤに対応する作成時刻と本文を取得し、クラスタ毎の文書一覧データをカテゴリ別に作成する。各クラスタ内の文書は、文書話題度によって降順に並び替える。こうして作成したデータは話題出力装置１３１４に出力され、利用者に提示される。

利用者は、本発明の話題文書提示装置１３０に接続されたマウスやキーボード、タッチパネル操作などの入力装置１３１５を用い、画面上に表示されたボタンを選択しながら対話的に表示画面を切替えて文書を閲覧することができる。

話題出力装置１３１４の画面上に出力された話題文書の表示例を図２１に示す。カテゴリ毎に画面が表示されるが、図２１は「スポーツ」カテゴリを表示した状態の例である。

図２１（ａ）は、カテゴリ「社会」の話題文書を表示する画面へ表示を切替えるためのボタンであり、他にも「映画」…「経済」「芸能」など、文書分類部１３４が分類したカテゴリそれぞれの話題文書を表示することができる。

図２１において、画面の下部には、表示したカテゴリに含まれる文書のうち、各クラスタ毎に文書話題度が最大の文書のみが表示される。左から順に話題度（ｂ）、作成時刻（ｃ）、本文（ｄ）が並んでいる。一番上に表示されている文書は図１６からもわかるように、文書ＩＤ「ＤＯＣ−０１２３４７」の文書であり、文書話題度算出部１３１１が算出した話題度「3.51」（図２０参照）が表示されている。

ここに表示されている文書は、図１８で「スポーツ」の項に記録された文書のうち、「Ｃ１１」「Ｃ１２」「Ｃ１３」…のぞれぞれのカテゴリにおいて文書話題度が最大の文書であり、「Ｃ１１」から１文書、「Ｃ１２」から１文書、…といったように選択されたものである。文書「ＤＯＣ−０１２３４７」は、クラスタ「Ｃ１３」から選択された文書である。

従って、図２１には「スポーツ」カテゴリに含まれるクラスタの数に等しい文書が表示されることになる。選択された文書は、更に文書話題度によって降順に並べ替えられ、各クラスタの代表文書として図２１に示すように表示される。図２１（ｅ）は、画面上に表示されている代表文書を含むクラスタの詳細情報を得るためのボタンである。利用者がこのボタンを選択すると、対応するクラスタ（図２１の例では文書「ＤＯＣ−０１２３４７」が属するクラスタ「Ｃ１３」）に含まれる全文書を表示する画面に遷移する。

図２２は、図２１に示す画面上に表示された第１位の文書の「詳細を表示」ボタンｅを利用者が選択した場合の遷移後の画面の表示例である。図２２のｂは、図２１にも表示されていた文書であり、選択したクラスタ「Ｃ１３」内で文書話題度が最大の文書である。以下、「Ｃ１３」に含まれる文書が文書話題度の降順に並んで表示される。

図２２のａは、再び図２１の画面に戻るためのボタンである。

以上説明した画面表示によって、利用者は任意のカテゴリの代表文書を閲覧し、特に、興味を持った文書の「詳細を表示」ボタンを選択することで、該当するクラスタ内の全ての文書を表示し、より詳しい情報を得ることができる。

上記の第１の実施の形態及び第２の実施の形態は、いずれも文書話題度算出の処理をクラスタリングの処理とは独立させ、文書話題度算出部２１０、１３１１が文書間類似度を加算する処理を全ての文書（第２の実施例ではカテゴリ内の全ての文書）を対象に行うものであった。しかし、これに代えて、各クラスタ内の文書間のみの類似度を加算して暫定話題度を算出するようにしてもよい。この場合、加算する類似度の数がクラスタによって異なるため、異なるクラスタに属する２文書の文書話題度を比較して重要性の大小を判断することはできなくなる。しかしながら、１つのクラスタに属する文書間でのみ重要性の大小を判断する場合には使用可能な方法である。また、話題文書提示に要する処理時間の削減も望める。

上記の第１及び第２の実施の形態では、いずれも話題出力装置２１、１３１４としてモニタ装置を想定し、画面上に表示して利用者に閲覧させる形態としたが、話題出力装置２１、１３１４を、上記の実施の形態で画面上に提示した情報を保存する記憶装置として、利用者または別の装置が読み出し可能な状態にしてもよい。

また、上記の実施の形態で説明した処理に基づいて、コンピュータ上で動作するプログラムとして構築し、話題文書提示装置として動作するコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。

また、構築されたプログラムを話題文書提示装置として利用されるコンピュータに接続されるハードディスク装置やフレキシブルディスク、ＣＤ−ＲＯＭ等の可搬記憶媒体に格納することも可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、大量の文書データを話題性に基づいて利用者に閲覧させるための技術に適用可能である。

本発明の原理を説明するための図である。本発明の原理構成図である。本発明の第１の実施の形態における話題文書提示装置の構成図である。本発明の第１の実施の形態における文書データ記録部に保存されたデータの例である。本発明の第１の実施の形態における単語集計部が行う処理のフローチャートである。本発明の第１の実施の形態における文書ベクトル記録部に保存されたデータの例である。本発明の第１の実施の形態における類似度算出部が行う処理のフローチャートである。本発明の第１の実施の形態における類似度記録部に保存された文書間類似度データの例である。本発明の第１の実施の形態におけるクラスタリング部におけるクラスタリング処理のフローチャートである。本発明の第１の実施の形態におけるクラスタ記録部に保存されたクラスタリング結果のデータの例である。本発明の第１の実施の形態における話題度算出部が行う処理のフローチャートである。本発明の第１の実施の形態における鮮度係数を決定する関数の例である。本発明の第１の実施の形態における文書話題度記録部に保存された文書話題度データの例である。本発明の第１の実施の形態の話題出力装置に出力された話題文書データの表示例である。本発明の第２の実施の形態における話題文書提示装置の構成図である。本発明の第２の実施の形態における文書データ記録部に保存されたデータの例である。本発明の第２の実施の形態における類似度記録部に保存された文書間類似度データの例である。本発明の第２の実施の形態におけるクラスタ記録部に保存されたクラスタリング結果データの例である。本発明の第２の実施の形態における話題度算出部が行う処理のフローチャートである。本発明の第２の実施の形態における文書話題記録部に保存された文書話題度データの例である。本発明の第２の実施の形態における話題出力装置に出力された話題文書データの表示例である。本発明の第２の実施の形態における話題出力装置に出力された話題文書データの画面遷移後の表示例である。

符号の説明

２０，１３０話題文書提示装置
２１，１３１４話題出力装置
２０１，１３１文書収集部
２０２，１３２文書データ記録部
２０３，１３３文書解析部
１３４文書分類部
２０４，１３５単語集計部
２０５，１３６文書ベクトル記録部
２０６，１３７類似度算出部
２０７，１３８類似度記録部
２０８，１３９クラスタリング部
２０９，１３１０クラスタ記録部
２１０，１３１１文書話題度算出部
２１１，１３１２文書話題度記録部
２１２，１３１３提示データ作成部
２１０１，１３１１１時刻情報取得部
２１０２，１３１１２類似度取得部
２１０３，１３１１３類似度加算部
２１０４，１３１１４鮮度係数算出部
２１０５，１３１１５積算部
１３１５入力装置

Claims

作成時刻情報付きの膨大な文書群から、話題性の高い文書を自動的に選択して提示する話題文書提示装置における話題文書提示方法において、
入力文書中に含まれる単語に対して属性値を決定し、各入力文書を属性値列のベクトルに変換した文書ベクトルを用いて各文書間の類似度を算出し、類似度記録手段に記録する類似度算出ステップと、
前記類似度記録手段に記録されている前記文書間の類似度を用いて、入力文書群を、類似文書から少なくとも１つの部分集合に分割し、各部分集合に属する文書をクラスタ記録手段に保存するクラスタリングステップと、
前記類似度記録手段に記録されている前記文書間の類似度及び各文書の作成時刻情報を用いて、各文書に対して、類似する文書が多く、かつ、作成時刻が新しいほど大きな文書話題度を与え、文書話題度記録手段に保存する文書話題度算出ステップと、
前記クラスタ記録手段に保存されている前記各部分集合に属する文書及び、前記文書話題度記録手段に保存されている前記文書話題度を利用して、前記部分集合のそれぞれについて、該部分集合に含まれる文書群を、文書話題度の高い順に並べたデータを作成し、出力する提示データ作成ステップと、を行い、
前記文書話題度算出ステップにおいて、
注目文書に対し、他の文書との間の類似度を全て加算して暫定話題度を算出する暫定話題度算出ステップと、
前記注目文書の作成時刻情報が現在時刻に近いほど値が大きく、現在から遠いほど値が小さくなる関数によって該注目文書の新鮮度を決定する新鮮度決定ステップと、
と、を行うことを特徴とする話題文書提示方法。
前記文書話題度算出ステップの前記暫定話題度算出ステップにおいて、
前記注目文書と他の文書との間の類似度を加算する際に、前記クラスタリングステップにおいて分割した各部分集合内に属する文書との類似度に限定して加算を行うステップを含む請求項1記載の話題文書提示方法。
前記文書話題度算出ステップの前記新鮮度決定ステップにおいて、
前記新鮮度を決定する関数として、指数関数で表される関数を用いる請求項１または、２記載の話題文書提示方法。
前記入力文書を内容に応じて複数のカテゴリのいずれか1以上に分類するカテゴリ分類ステップを更に行い、
前記類似度算出ステップ、前記クラスタリングステップ、前記文書話題度算出ステップ、前記提示データ作成ステップのそれぞれを、分類したカテゴリ別に行う請求項1乃至3記載の話題文書提示方法。
作成時刻情報付きの膨大な文書群から、話題性の高い文書を自動的に選択して提示する話題文書提示装置であって、
入力文書中に含まれる単語に対して属性値を決定し、各入力文書を属性値列のベクトルに変換した文書ベクトルを用いて各文書間の類似度を算出し、類似度記録手段に記録する類似度算出手段と、
前記類似度記録手段に記録されている前記文書間の類似度を用いて、入力文書群を、類似文書から少なくとも１つの部分集合に分割し、各部分集合に属する文書をクラスタ記録手段に保存するクラスタリング手段と、
前記類似度記録手段に記録されている前記文書間の類似度及び各文書の作成時刻情報を用いて、各文書に対して、類似する文書が多く、かつ、作成時刻が新しいほど大きな文書話題度を与え、文書話題度記録手段に保存する文書話題度算出手段と、
前記クラスタ記録手段に保存されている前記各部分集合に属する文書及び、前記文書話題度記録手段に保存されている前記文書話題度を利用して、前記部分集合のそれぞれについて、該部分集合に含まれる文書群を、文書話題度の高い順に並べたデータを作成し、出力する提示データ作成手段と、を有し、
前記文書話題度算出手段は、
注目文書に対し、他の文書との間の類似度を全て加算して暫定話題度を算出する暫定話題度算出手段と、
前記注目文書の作成時刻情報が現在時刻に近いほど値が大きく、現在から遠いほど値が小さくなる関数によって該注目文書の新鮮度を決定する新鮮度決定手段と、
と、を有することを特徴とする話題文書提示装置。
前記文書話題度算出手段の前記暫定話題度算出手段は、
前記注目文書と他の文書との間の類似度を加算する際に、前記クラスタリング手段において分割した各部分集合内に属する文書との類似度に限定して加算を行う手段を含む請求項５記載の話題文書提示装置。
前記文書話題度算出手段の前記新鮮度決定手段において、
前記新鮮度を決定する関数として、指数関数で表される関数を用いる請求項５または、６記載の話題文書提示装置。
前記入力文書を内容に応じて複数のカテゴリのいずれか1以上に分類するカテゴリ分類手段を更に有し、
前記類似度算出手段、前記クラスタリング手段、前記文書話題度算出手段、前記提示データ作成手段のそれぞれの処理を、分類したカテゴリ別に行う請求項５乃至７記載の話題文書提示装置。
作成時刻情報付きの膨大な文書群から、話題性の高い文書を自動的に選択して提示する話題文書提示装置における話題文書提示プログラムであって、
前記請求項１乃至４記載の話題文書提示方法を実現するための処理をコンピュータに実行させることを特徴とする話題文書提示プログラム。