JP2006120069A - 話題文書提示方法及び装置及びプログラム - Google Patents

話題文書提示方法及び装置及びプログラム Download PDF

Info

Publication number
JP2006120069A
JP2006120069A JP2004309576A JP2004309576A JP2006120069A JP 2006120069 A JP2006120069 A JP 2006120069A JP 2004309576 A JP2004309576 A JP 2004309576A JP 2004309576 A JP2004309576 A JP 2004309576A JP 2006120069 A JP2006120069 A JP 2006120069A
Authority
JP
Japan
Prior art keywords
document
topic
similarity
documents
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004309576A
Other languages
English (en)
Other versions
JP4134975B2 (ja
Inventor
Yoshihide Sato
吉秀 佐藤
Tsutomu Sasaki
努 佐々木
Harumi Kawashima
晴美 川島
Masakatsu Okubo
雅且 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004309576A priority Critical patent/JP4134975B2/ja
Publication of JP2006120069A publication Critical patent/JP2006120069A/ja
Application granted granted Critical
Publication of JP4134975B2 publication Critical patent/JP4134975B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 最新の話題情報を取得したい利用者にとって効率的な情報取得環境を提供する。
【解決手段】 本発明は、類似する文書が多いほど注目度が高いと見做す暫定話題度を求め、これに文書の作成時刻と現在時刻との差と予め設定した忘却曲線より求まる鮮度係数を乗算して話題度を求める。この為に、文書間の類似度を用いて、文書群をクラスタリングする。また、文書話題度算出に当たっては、注目文書に対し、他の文書との類似度を全て加算して暫定話題度とする。
【選択図】 図1

Description

本発明は、話題文書提示方法及び装置及びプログラムに係り、特に、作成時刻が特定可能な多数の文書データを効率的に利用者に閲覧させるため、同一のテーマに沿った文書を一まとまりの集合にし、かつ、文書の作成時刻を考慮して各文書の持つ話題性の大きさを表すスコアを計算して、類似性と話題性の双方の観点で文書を整理して提示する話題文書提示方法及び装置及びプログラムに関する。
インターネットの普及により、ネットワーク上には膨大な文書が溢れている。特にニュースを代表するような、1日に何度も更新・追加される性質の文書の場合、1つ1つ閲覧して情報を把握しようとすると多大な労力を要する。
また、情報の発信源が分散しているのがインターネットの特徴である反面、同一のテーマに沿って様々な観点から書かれた文書が複数の発信源から公開されるため、仮にそれらを取捨選択して必要な情報だけ目を通したいと思っても、流通する全文書量の増加と共に閲覧操作は困難を極める。さらに、文書量の増加は興味のある文書を紛れさせてしまい、必要な情報を入手しにくい現状がある。
こういった状況の中、数多くの文書を効率的に閲覧するために、文書集合を整理して利用者に提示する技術がある(例えば、特許文献1参照)。
上記の技術は、利用者の操作によって提示する候補を絞り込みながら文書検索を行なう方法である。利用者の情報要求に基づいて基本検索を行なった結果得られる文書群を互いに類似した文書の集合に分割し、各集合を代表する単語リストを提示し、利用者が選択した集合に対し、再度類似文書の分類と単語リストの提示を行う処理を繰り返しながら対話的に検索を行なう方法である。
特開平11−213000号公報
しかしながら、上記の技術は、どちらかと言えば能動的に文書検索を行なう利用者を意識した技術であり、また時間という観点を考慮した提示技術ではないため、続々と新しい文書が増加する状況において監視的に情報を把握する用途に使用することが困難である。
本発明は、上記の点に鑑みなされたもので、膨大な文書が流通する状況において、受動的な利用者が日々刻々と変化する情報の話題性を把握する作業を補助するために、膨大な文書を文書間の類似性と話題の時間的な盛り上がりという2つの観点に基づいて整理、提示することで受動的な立場で最新の話題情報を取得したい利用者にとって効率的な情報取得環境を提供することが可能な話題文書提示方法及び装置及びプログラムを提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、作成時刻情報付きの膨大な文書群から、話題性の高い文書を自動的に選択して提示する話題文書提示装置における話題文書提示方法において、
入力文書中に含まれる単語に対して属性値を決定し、各入力文書を属性値列のベクトルに変換した文書ベクトルを用いて各文書間の類似度を算出し、類似度記録手段に記録する類似度算出ステップ(ステップ1)と、
類似度記録手段に記録されている文書間の類似度を用いて、入力文書群を、類似文書から少なくとも1つの部分集合に分割し、各部分集合に属する文書をクラスタ記録手段に保存するクラスタリングステップ(ステップ2)と、
類似度記録手段に記録されている文書間の類似度及び各文書の作成時刻情報を用いて、各文書に対して、類似する文書が多く、かつ、作成時刻が新しいほど大きな文書話題度を与え、文書話題度記録手段に保存する文書話題度算出ステップ(ステップ3)と、
クラスタ記録手段に保存されている各部分集合に属する文書及び、文書話題度記録手段に保存されている文書話題度を利用して、部分集合のそれぞれについて、該部分集合に含まれる文書群を、文書話題度の高い順に並べたデータを作成する提示データ作成ステップ(ステップ4)と、を行い、
文書話題度算出ステップ(ステップ3)において、
注目文書に対し、他の文書との間の類似度を全て加算して暫定話題度を算出する暫定話題度算出ステップと、
注目文書の作成時刻情報が現在時刻に近いほど値が大きく、現在から遠いほど値が小さくなる関数によって該注目文書の新鮮度を決定する新鮮度決定ステップと、
と、を行う。
また、本発明(請求項2)は、文書話題度算出ステップ(ステップ3)の暫定話題度算出ステップにおいて、
注目文書と他の文書との間の類似度を加算する際に、クラスタリングステップにおいて分割した各部分集合内に属する文書との類似度に限定して加算を行うステップを含む。
また、本発明(請求項3)は、文書話題度算出ステップの新鮮度決定ステップにおいて、
新鮮度を決定する関数として、指数関数で表される関数を用いる。
また、本発明(請求項4)は、入力文書を内容に応じて複数のカテゴリのいずれか1以上に分類するカテゴリ分類ステップを更に行い、
類似度算出ステップ(ステップ1)、クラスタリングステップ(ステップ2)、文書話題度算出ステップ(ステップ3)、提示データ作成ステップ(ステップ4)のそれぞれを、分類したカテゴリ別に行う。
図2は、本発明の原理構成図である。
本発明(請求項5)は、作成時刻情報付きの膨大な文書群から、話題性の高い文書を自動的に選択して提示する話題文書提示装置であって、
入力文書中に含まれる単語に対して属性値を決定し、各入力文書を属性値列のベクトルに変換した文書ベクトルを用いて各文書間の類似度を算出し、類似度記録手段207に記録する類似度算出手段206と、
類似度記録手段207に記録されている文書間の類似度を用いて、入力文書群を、類似文書から少なくとも1つの部分集合に分割し、各部分集合に属する文書をクラスタ記録手段209に保存するクラスタリング手段208と、
類似度記録手段207に記録されている文書間の類似度及び各文書の作成時刻情報を用いて、各文書に対して、類似する文書が多く、かつ、作成時刻が新しいほど大きな文書話題度を与え、文書話題度記録手段211に保存する文書話題度算出手段210と、
クラスタ記録手段209に保存されている各部分集合に属する文書及び、文書話題度記録手段211に保存されている文書話題度を利用して、部分集合のそれぞれについて、該部分集合に含まれる文書群を、文書話題度の高い順に並べたデータを作成する提示データ作成手段212と、を有し、
文書話題度算出手段210は、
注目文書に対し、他の文書との間の類似度を全て加算して暫定話題度を算出する暫定話題度算出手段と、
注目文書の作成時刻情報が現在時刻に近いほど値が大きく、現在から遠いほど値が小さくなる関数によって該注目文書の新鮮度を決定する新鮮度決定手段と、
と、を有する。
また、本発明(請求項6)は、文書話題度算出手段210の暫定話題度算出手段において、
注目文書と他の文書との間の類似度を加算する際に、クラスタリング手段208において分割した各部分集合内に属する文書との類似度に限定して加算を行う手段を含む。
また、本発明(請求項7)は、文書話題度算出手段210の新鮮度決定手段において、
新鮮度を決定する関数として、指数関数で表される関数を用いる。
また、本発明(請求項8)は、入力文書を内容に応じて複数のカテゴリのいずれか1以上に分類するカテゴリ分類手段を更に有し、
類似度算出手段206、クラスタリング手段208、文書話題度算出手段210、提示データ作成手段212のそれぞれの処理を、分類したカテゴリ別に行う。
本発明(請求項9)は、作成時刻情報付きの膨大な文書群から、話題性の高い文書を自動的に選択して提示する話題文書提示装置における話題文書提示プログラムであって、
請求項1乃至4記載の話題文書提示方法を実現するための処理をコンピュータに実行させるプログラムである。
上記のように、本発明によれば、各文書間の類似度を算出して類似文書を集約し、かつ各文書の持つ話題性の大きさを話題度として文書に付与することにより、利用者は同一内容を扱った文書に複数目を通す煩わしさから解放され、類似文書群(クラスタ)のそれぞれについて特に話題性の高い文書のみを優先的に閲覧することが可能となり、効果的な情報取得環境が提供される。
以下、図面と共に本発明の実施の形態を説明する。
[第1の実施の形態]
図3は、本発明の第1の実施の形態における話題文書提示装置の構成を示す。
同図に示す話題文書提示装置20は、話題文書情報を出力するため話題出力装置21が接続される。
話題文書提示装置20は、文書収集部201、文書データ記録部202、文書解析部203、単語集計部204、文書ベクトル記録部205、類似度算出部206、類似度記録部207、クラスタリング部208、クラスタ記録部209、文書話題度算出部210、文書話題度記録部211、提示データ作成部212から構成される。
文書話題度算出部210は、時刻情報取得部2101、類似度取得部2102、類似度加算部2103、鮮度係数算出部2104、積算部2105から構成される。
以下、話題文書提示装置20を構成する各処理部の機能を説明する。
文書収集部201は、外部の情報源から文書データを収集する。例えば、インターネット上の新聞社サイトで公開されているニュース記事データを取得し、各文書に一意な識別子(文書ID)を付与し、文書データ記録部202に保存する。その際、各文書の作成時刻情報も取得し、合わせて記録しておく。
文書データ記録部202には、図4のように、文書の作成時刻と本文、及び文書収集部202が各文書に対して一意に付与した文書IDが記録される。
文書解析部203は、文書データ記録部202に保存された文書データを取得し、形態素解析処理によって本文を単語毎に分割して、得られる単語のリストを文書ベクトル記録部205に一旦出力する。文書解析部203は、同時に単語のリストを単語集計部204にも送出し、単語集計部204において、各単語が現れる文書数を集計する。
文書解析部203における形態素解析処理は、文章を動詞や助詞などの品詞や「、(句点)」「。(読点)」などの記号などの構成要素(形態素)に切り分ける処理である。本発明の話題文書提示方法が行う処理において文書をベクトルで表現するのは文書間の類似度算出を行うことが目的であり、文書を特徴付けるのに適さない形態素は扱う必要がない。従って、形態素解析処理の結果から句読点、さらには必要に応じて助詞、助動詞などの形態素を除き、名詞や動詞、形容詞などを対象にし、文書ベクトル記録部205ならびに単語集計部204に送出すればよい。
単語集計部204は、文書解析部203から送出された各単語(本実施の形態では句読点や助詞などを除いた形態素)が出現する文書数を集計し、その結果を用いて単語毎の重みを決定する。例えば、文書解析部203が文書ID「DOC−012345」の文書を単語毎に分割した結果、W1〜Wnまでのn種類の単語が得られたとする。単語の重みの決定方法は、後述するが、単語集計部204が全ての文書中でのこれらの単語の出現回数を考慮した結果、各単語に対応するV1〜Vnという重みが得られたとすると、文書ID「DOC−012345」の文書は、単語W1に対応する属性値がV1,単語W2に対応する属性値がV2,…のように、文書内に出現する単語の重みを列挙したベクトル形式で表現することができる。
単語集計部204が、各単語の重みを決定する処理の流れを図5を用いて詳しく説明する。
まず、文書解析部204が文書を単語へ分割した結果得られる単語リストを1文書分取得し、各単語が1度でも現れる文書の数(以後、「出現文書数」と呼ぶ)を集計する。同時に、処理を行った文書数をカウントしておく(ステップ201)。
文書解析部203が処理した全ての文書について、ステップ201のステップを繰り返すと(ステップ202)、単語W1の出現文書数は「5」、単語W2の文書出現数は「8」,…といったように各単語の出現文書数が集計される。
続いて、各単語の重みを決定する(ステップ203)。
通常、文書中に現れる単語の重要性を表す重みを決定する場合には、TF−IDF法を用いることが多い。TF−IDF法は、単語のTF(Term Frequency:文書内での出現回数)と、DF(Document Frequency:出現文書数)を用い、文書dにおける単語wの重みTF−IDF(d,w)を式(1)で与えるものである。TF(d,w)は、文書dにおける単語wの出現回数であり、Nは全文書数、DF(w)は全N文書中での単語wの出現文書数である。TF−IDF法は、文書内で現れる頻度が高い単語ほど、また、全文書中で少数の文書に現れる単語ほど重要であるとみなす評価法である。
Figure 2006120069
他にも単語の重み付けに使用可能な方法はあるが、本実施の形態では、特にニュース記事を収集して話題文書提示方法を適用する場合を想定し、上記の式(1)のTF−IDF(d,w)ではなく、式(2)のWeight(w)で単語wの重み付けを行う。ニュース記事では主題となる人名や団体名などの名詞の1文書内における出現回数が必ずしも高いわけではなく、出現回数と単語の重要度が直結しないことに基づくものであり、TF−IDF法から文書内出現回数(TF)の効果を省いたものである。
Figure 2006120069
単語集計部204は全単語の重みWeight(w)が決定すると(ステップ203)、文書ベクトル記録部205に保存されている各文書の単語リストを参照し、各文書に現れた単語に対して属性値を重みWeight(w)で与え、文書ベクトルを決定し、文書ベクトル記録部205に保存する(ステップ204)。
図6は、本発明の第1の実施の形態における文書ベクトル記録部に保存された文書ベクトルの例である。文書ID「DOC−012345」は、「今朝」に対する属性値が「0.0053」、「○×」に対する属性値が「2.38」、選手に対する属性値が「1.02」…というベクトルで表現される。なお、上記の式(2)からもわかるように、単語集計部204が決定する各単語の重みは全文書数Nと各単語の出現文書数DF(w)のみで決定される値であり、例えば「DOC−012345」と「DOC−012346」に含まれる「今朝」という単語の属性値は、ステップ203で決定された単語「今朝」の重み「0.0053」がいずれにも用いられる。
類似度算出部206は、文書ベクトル記録部205に保存された各文書ベクトルを参照し、各文書間の類似度を算出する。図7は、本発明の第1の実施の形態における類似度算出部の処理のフローチャートである。
まず、最初に、文書ベクトル記録部205を参照し、異なる2文書の文書ベクトルを取得する(ステップ301)。
続いて、取得した2文書間の類似度を算出する(ステップ302)。2つの文書ベクトルを用いた最も単純な類似度の算出方法は、コサイン類似度を利用する方法である。これは2ベクトルのなす角の余弦(コサイン)を2文書間を類似度とする方法であり、2文書に共通に出現する単語が多いほど2文書ベクトルのなす角が小さくなり、従って余弦が大きくなる。本実施の形態では、2文書d,d間の類似度を式(3)のコサイン類似度S(d,d)で定義されるものを用いる。d→,d→は各文書のベクトル、│d→│、│d→│は、各文書ベクトルの大きさ、θijは、各文書のベクトルのなす角である。
Figure 2006120069
このようにして算出した類似度を類似度記録部207に保存し(ステップ303)、上記のステップ301〜303の処理を文書ベクトル記録部205に保存された文書ベクトルの全組み合わせについて行う(ステップ304)。
図8は、本発明の第1の実施の形態における類似度記録部に保存された文書間類似度データの例である。文書「DOC−012345」「DOC−012346」間の類似度が「0.021」であったことを示す。ある2文書に共通して出現する単語が1個も存在しない場合は、式(3)におけるベクトルの内積(d→,d→)の値が「0」になるため、図8の「DOC−012345」と「DOC−012347」の組み合わせのように類似度「0」となる。
クラスタリング部208は、類似度記録部207に保存された文書間の類似度を用い、類似文書をひとまとめにする処理を行う。この処理は、互いに類似する文書は同じ主題に沿って書かれた文書である可能性が高いと見做して1つに纏め上げる処理である。以後当該処理によって一まとめとなった文書群を「クラスタ」と呼び、全文書群を複数のクラスタに分割する当該処理を「クラスタリング」と呼ぶ。
クラスタリングには、種々の既存手法が利用可能であり、本発明において利用するクラスタリング手法はいずれかの手法に限定するものではないが、本実施の形態では、分割すべきクラスタ数が事前に推定できない場合にも利用可能な手法の1つである最大距離法を用いるものとして説明する。最大距離法の実現手段は、例えば、「岩波書店 マルチメディア情報学2「情報の組織化」pp.192〜193」を用いるものとする。
まず、クラスタリングを行うにあたり、1から文書間類似度を引いたものを文書間の距離として定義する。文書間類似度は上記の式(3)により、0から1の値を持ち、文書が類似しているほど1に近い大きな値をとる。従って、1から文書間類似度を減ずれば、2文書が類似しているほど1に近い大きな値を取り、類似度が下がるにつれて0に近付く「非類似度」を定めることができる。この非類似度を文書間の距離として扱う。
以下、最大距離法に基づくクラスタリング処理について説明する。最長距離法は、既存のクラスタから十分遠くにある文書を中心に新しいクラスタを形成させ、次々とクラスタ数を増加させながら進める手法である。
図9は、本発明の第1の実施の形態におけるクラスタリング処理のフローチャートである。
ステップ401) まず、いずれか1文書を中心とする第1のクラスタを形成する。この第1のクラスタに属する文書は、この時点では1文書のみである。
ステップ402) 各文書から最も距離が近いクラスタを探索する。ここで文書dからクラスタcまでの距離とは、クラスタcの中心の文書と文書dとの距離をいう。なお、最初にステップ402を行う際は、クラスタが1つしか存在しないため、最も距離が近いクラスタは探索するまでもなく決まる。
ステップ403) ステップ402で各文書から最も近いクラスタまでの距離(最短距離)が求まるが、これらの最短距離が最大になるような文書を調べる。つまり、既存クラスタの中心から最も遠くにある文書dを求める。
ステップ404) ステップ403で求めた最短距離の最大値をmとし、既存クラスタの中心間の距離の最大値をMAXとしたとき、rを定数として条件式「m/MAX>r」を満たすかを判断する。なお、定数rのみ事前に定めておく必要がある。満たす場合には、ステップ405に移行し、満たさない場合には処理を終了する。
ステップ405) 上記の条件式を満たす場合には、文書dを中心とする新しいクラスタを形成し、上記の条件式を満たさなくなるまで、ステップ402以降の処理を繰り返す。
クラスタリング処理部208は、以上の処理を終えると、処理結果をクラスタ記録部209に転送し、保存する。図10は、本発明の一実施の形態におけるクラスタ記録部におけるクラスタリング結果データの例である。C1,C2,C3,C4,…は、クラスタ識別子(クラスタID)であり、各クラスタに属する文書のIDが記録されている。最長距離法によるクラスタリングの結果では、クラスタ「C2」のように1文書のみで形成されるクラスタも存在するが、全ての文書はいずれか1クラスタに必ず属する結果となる。
文書話題度算出部210は、類似度記録部207に保存された各文書間の類似度データを利用し、各文書の話題性の大きさを数値化して文書話題度記録部211に出力する。以下、話題度算出部210が行う処理の流れを図11を用いて説明する。
図11は、本発明の第1の実施の形態における話題度算出部が行う処理のフローチャートである。
まず、時刻情報取得部2101が文書データ記録部202から文書IDと作成時刻の組を1組、例えば、文書データ記録部202に記録された図4に示すデータから、文書「DOC−012345」とその作成時刻「2004/9/11 23:00」を取得する(ステップ501)。
時刻情報取得部2101が取得した文書ID「DOC−012345」を類似度取得部2012に送出すると、類似度取得部2012は、該文書IDと他の文書との間の類似度を類似度記録部207より取得し、メモリに格納する(ステップ502)。図8に示す例では、「DOC−012345」と他の文書との類似度「0.021」,「0」,「0.300」,…が次々と取得される。
続いて、類似度加算部2103が、類似度取得部2102が取得した類似度を次々加算し、メモリに格納する(ステップ503)。文書「DOC−012345」については、「0.021」,「0」,「0.300」が次々加算され、合計値が最終的に「1.28」になったものと仮定する。以上のようにして、ある文書「DOC−0123345」と他の各文書との類似度を全て加算した値「1.28」を文書「DOC−012345」の暫定話題度と呼ぶ。暫定話題度は、ある1文書に注目したとき、それと類似した文書の数が多いほど注目度が高いとみなす話題性評価法である。新聞記事などを対象とする場合には、話題性の高い事柄については複数の新聞社が次々と関連記事を掲載して類似文書数が増えることから、特に有効な評価方法であると言える。
鮮度係数算出部2104は、時刻情報取得部2101から受け取った時刻情報「2004/9/11 23:00」と現在時刻との差を比較し、取得した文書「DOC−012345」の鮮度係数を決定し、メモリに保持する(ステップ504)。
鮮度係数は、文書の作成時刻が現在時刻に近いほど値が大きく、古いほど値が小さくなりながら0に近付くような時間の関数で決定される値である。この性質を持つ関数は、予めメモリに記憶されており、例えば、人間が過去に入手した情報の記憶が時間と共に薄れる様子を示した図12の忘却曲線を利用するのがよい。これは、最近(現在に近い時刻)に入手した情報ほど現在でも大きな記憶量を保ち、過去(現在から遠い時刻)に入手した情報は現在では記憶の量が少なくなっている様子を表しており、縦軸は記憶量である現在時刻よりtだけ遡った過去(現在時刻を0とする時刻−t)における記憶量F(t)が式(4)で表される。式(4)は、t=0(現在)で値がFとなり、過去に遡るほど値が0に近付く。
F(t)=F×exp(−t/T) (4)
式(4)のTは、時間を遡るにつれて鮮度係数が減衰する速度(忘却の速度)を決定付けるパラメータである。値を大きくすれば緩やかな減衰になり、作成時刻が古い文書であるもある程度大きな鮮度係数が与えられ、話題文書であると判断されやすくなる。逆に,Tを小さくすれば減衰が急な曲線になり、極めて新しい作成時刻を持つ文書が話題文書とみなされ、古い文書は話題とみなされにくくなる傾向になる。Tは、収集する文書の性質や利用場面に応じて種々に設定可能な定数である。
以下では、ステップ504で「DOC−012345」の時刻情報「2004/9/11 23:00」と現在時刻の差を求めて式(4)に適用した結果、「0.7」という鮮度係数が得られたものとして説明を続ける。
積算部2105が文書「DOC−012345」の暫定話題度「1.28」と「0.7」を積算し、「DOC−012345」の話題度「0.896」を得る(ステップ405)。なお、積算を終えると類似度加算部2103で保持していた暫定話題度「1.28」は、次の文書の文書話題度算出のために「0」にクリアしておく。
算出された文書「DOC−012345」の文書話題度は、文書IDと共に文書話題度記録部211に保存する(ステップ506)。
以上ステップ501〜ステップ506の処理を、時刻情報取得部2101が取得した全文書について繰り返し(ステップ507)、処理を終える。
図13は、本発明の第1の実施の形態における文書話題度記録部に記録された文書話題度データの例である。同図に示す文書話題度記録部211には、文書ID「DOC−012345」と文書話題度「1.28」の組が記録されている。他の文書についても同様に文書話題度が記録されている。
提示データ作成部212は、クラスタ記録部209及び文書話題度記録部211に記録された各データを参照し、本発明の話題提出装置20の出力となるデータを作成する。クラスタ記録部209からは各クラスタに属する文書IDの一覧を取得し、文書話題度記録部211からは各文書IDに対応する文書話題度を取得する。さらに、文書データ記録部202から各文書IDに対応する作成時刻と本文を取得し、クラスタ毎の文書一覧データを作成する。各クラスタ内の文書は、文書話題度によって降順に並び替える。こうして作成したデータは話題出力装置21に出力され、利用者に提示される。
話題出力装置21の画面上に出力された話題文書の表示例を図14に示す。画面上の横方向には左から順にクラスタ1、クラスタ2、…と、クラスタが並び、各クラスタに属する文書が縦方向に並んで表示されている。同図のaは、このうち、クラスタID「C1」のクラスタに属する文書が表示された領域であり、クラスタに属する文書が文書話題度の高い順から上から並んでいる。同図のbは、このうちクラスタ内の文書話題度が第3位の文書の作成時刻情報、同図のcは文書話題度、同図のdは、本文である。
図14の例では、あるスポーツ選手の引退にかかわる4文書が「クラスタ1」としてひとまとまりになっており、「クラスタ2」は、博物館のイベントに関する1文書のみからなるクラスタ、「クラスタ3」は、野球チームの合併に関わる多数の文書が集まったクラスタになっている。「クラスタ2」内の文書で取り扱われている博物館のイベントは、他の文書で取り扱われることがなかったため、ただ1文書のみで構成されるクラスタになっている。逆に「クラスタ3」は、野球チームの合併という1つの話題に関連し、ファンの署名活動を扱った文書やストライキを扱った文書、合併の影響を扱った文書など、関連する文書が連鎖的に集まった大きなクラスタになっている。
文書話題度は、類似文書が多ければ多いほど大きく、文書の作成時刻が新しければ新しいほど大きな値をとる。このため、「クラスタ2」に属する文書のように話題性の低い文書は、文書話題度が小さい。さらに、「クラスタ3」に属する文書に注目すると、作成時刻が新しい文書の文書話題度が比較的大きく、上位に表示される傾向がある。
利用者は、各クラスタ上位の文書を流し読みすれば短時間で話題情報を把握することができ、興味を持ったクラスタについて各文書を詳細に読むことで、効率的な文書閲覧が可能になる。
[第2の実施の形態]
図15は、本発明の第2の実施の形態における話題文書提示装置の構成を示す。
話題文書提示装置130は、話題文書情報を出力するための話題出力装置1314、及び、利用者からの操作を受け付ける入力装置1315が接続される。
話題文書提示装置130は、文書収集部131、文書データ記録部132、文書解析部133、文書分類部134、単語集計部135、文書ベクトル記録部136、類似度算出部137、類似度記録部138、クラスタリング部139、クラスタ記録部1310、文書話題度算出部1311、文書話題度記録部1312、提示データ作成部1313で構成され、文書話題度算出部1311は、さらに、時刻情報取得部13111、類似度取得部13112、類似度加算部13113、鮮度係数算出部13114、積算部13115から構成される。
以下、話題文書提示装置130を構成する各処理部の機能を説明する。
文書収集部131は、外部の情報源から文書データを収集するものであり、第1の実施
の形態における文書収集部201と同様の機能を有する。収集した文書には一意な識別子(文書ID)を付与し、文書データ記録部132に保存する。その際、各文書の作成時刻情報も取得し、合わせて記録しておく。文書収集部131は、さらに、収集した文書を文書解析部133にも送出する。
文書解析部133は、文書収集部131から受け取った文書を形態素解析処理によって単語毎に分割して、得られる単語のリストを文書ベクトル記録部136に一旦出力する。また、文書解析部133は、同時に単語のリストを単語集計部135にも送出し、単語集計部135が各単語が現れる文書数を集計する。
単語集計部135は、前述の第1の実施の形態における単語集計部204と同様に、各単語の集計文書数を用いて式(2)から重みを決定し、各文書の文書ベクトルを構成して文書ベクトル記録部136に保存する。文書ベクトル記録部136には、第1の実施の形態と同様に、図6のように文書IDと文書ベクトルが保存される。
文書解析部133は、さらに、文書の単語リストを文書分類部134にも送出する。文書分類部134は、この単語リストを利用して、文書を予め定めておく複数のカテゴリのうちいずれか1以上のカテゴリに分類する。文書をカテゴリに分類する際には、既存の文書分類技術として、例えば、『上田修功、斉藤和巳、「多重トピックテキストの確率モデル−パラメトリック混合モデル−」、電気情報通信学会論文誌 D-II Vol. J87-D-II No.3 pp.872-883, 2004年3月』を利用する。
上記の既存技術の概要を簡単に説明する。
まず、カテゴリが既知の文書集合を機械に学習させ、学習させた機械を用いて未知の文書がどのカテゴリに属するかを予測する。この予測処理が文書分類に相当する。
文書解析部133は、文書分類部134に対して各文書の単語リストを送出するが、この時、各単語には文書内での出現回数を付加して送出する。単語Wnの文書d中での出現回数をXmnとすると、文書dの単語頻度ベクトルは、X→は、X→=(Xm1,Xm2,…,Xmv)で表される。
カテゴリの総数をLとし、文書dが属するカテゴリを示すカテゴリベクトルを、
→=(Ym1,Ym2,…,YmL
で表すこととする。ここで、Ym,kは、文書dが第kカテゴリに属するとき「1」、属さないとき「0」の値をとる。複数のカテゴリに属することも許されるが、少なくとも1つのカテゴリには属するものとする。
まず、カテゴリが既知の文書集合D={(X,Y)}(m=1〜N)〜XのカテゴリYmとなるように機械に学習させる。次にこの機械を用いて、カテゴリが未知の文書dの単語頻度ベクトルXを入力としてYを推定する。予測で計算されるカテゴリベクトルYmk=(Y*1,Y*2,…,Y*L)のY*kが、文書dが第kカテゴリに属するかどうかの一致度(属する確率)を示す。
上記の既存の文書分類技術は、カテゴリが未知の入力文書の単語頻度ベクトルに対する出力は、各カテゴリへの一致度を羅列したベクトルであるため、入力文書を一致度の高い順に数カテゴリに分類する。一致度がある閾値を越えたカテゴリに分類する、などの利用方法が考えられるが、本実施例では、一致度最大の1カテゴリのみに分類するものとして説明を続ける。
文書分類部134が上記の既存の文書分類技術を用いて文書を分類したカテゴリ情報は、文書データ記録部132に保存される。
図16は、本発明の第2の実施の形態における文書データ記録部に保存されたデータの例である。前述の第1の実施の形態の文書データ記録部202に保存されたデータの例(図4)に加え、所属カテゴリ名が記録されている。
類似度算出部137は、文書ベクトル記録部136に保存された各文書ベクトルを参照して各文書間の類似度を算出するが、このとき、文書データ記録部132に保存されているカテゴリ情報を参照し、同一カテゴリに属する文書間の類似度を算出する。
類似度算出の方法は、前述の第1の実施の形態と同様である。図17は、本発明の第2の実施の形態における類似度記録部に保存された文書間類似度データの例である。図16でいずれもカテゴリ名「スポーツ」が記録されている文書「DOC−012345」「DOC−012347」の間の類似度「0.021」が、図17の「スポーツ」の欄に記録されている。他のカテゴリ、他の文書についても同様にして、カテゴリ別に文書間類似度が記録されている。
クラスタリング部139は、類似度記録部138に記録された文書間類似度を用い、文書のクラスタリング処理を行う。クラスタリング処理をカテゴリ毎にそれぞれ行う以外は第1の実施の形態におけるクラスタリング部208と同じ処理を行う。
図18は、本発明の第2の実施の形態におけるクラスタ記録部に保存されたクラスタリング結果データの例である。クラスタリング結果は、「スポーツ」「社会」「映画」…と、カテゴリ別に記録されており、例えば、「スポーツ」のカテゴリの第1のクラスタ「C11」には、文書ID「DOC−012345」「DOC−012349」「DOC−012355」の3文書が含まれている。「スポーツ」カテゴリでは、この他「C12」「C13」…と複数のクラスタが含まれ、「社会」カテゴリでは、「C21」「C22」「C23」…、「映画」カテゴリでは、「C31」「C32」「C33」…といったようにクラスタリング結果が格納される。
文書話題度算出部1311は、類似度記録部138に保存された各文書間の類似度データを利用し、各文書の話題性の大きさを数値化して文書話題度記録部1312に出力する。
話題度算出部1311が行う処理は、前述の第1の実施の形態における文書話題度算出部210が行う処理と同様であるが、処理をカテゴリ別に行う点のみが異なる。処理の流れを図19を用いて説明する。
図19は、本発明の第2の実施の形態における話題度算出部が行う処理のフローチャートである。
まず、時刻情報取得部13111が文書データ記録部132から文書ID、作成時刻、カテゴリ名の組を1組、例えば、文書データ記録部132に記録された図16のデータから、文書「DOC−012345」とその作成時刻「2004/9/11 23:00」、及びカテゴリ名「スポーツ」を取得する(ステップ601)。
時刻情報取得部13111が取得した文書ID「DOC−012345」とカテゴリ名「スポーツ」を類似度取得部13112に送出すると、類似度取得部13112は「スポーツ」カテゴリに分類された文書と該文書ID「DOC−012345」との間の類似度を類似度記録部138より取得する(ステップ602)。図17に示す類似度記録部138の例では、「スポーツ」カテゴリの項に記録された「DOC−012345」と他の文書との類似度「0.021」「0」、…が次々と取得される。
類似度加算部13113がこれらの類似度を加算して文書「DOC−012345」の暫定話題度を算出するステップ(ステップ603)、鮮度係数算出部13114が各文書の作成時刻と現在時刻との差から鮮度係数を決定するステップ(ステップ604)、積算部13115が暫定話題度に鮮度係数を乗じて文書話題度を算出するステップ(ステップ605)のそれぞれは、第1の実施の形態における各ステップと同一である。
積算部13115が算出した各文書の文書話題度は、各文書の所属するカテゴリ情報、文書IDと共に文書話題度記録部1312に保存する(ステップ606)。
以上ステップ601〜606の処理を、時刻情報取得部13111が取得した全文書について繰り返し(ステップ607)、処理を終える。
図20は、本発明の第2の実施の形態における文書話題度記録部に保存された文書話題度データの例である。同図に示す文書話題度記録部1312には、文書ID「DOC−012345」と文書話題度「1.28」の組が「スポーツ」カテゴリの項に記録されており、他のカテゴリに分類された文書についても同様にそれぞれ文書話題度が記録されている。
提示データ作成部1313は、クラスタ記録部1310及び文書話題度記録部1312に記録された各データを参照し、本発明の話題文書提示装置130の出力となるデータを作成する。クラスタ記録部1310からは各カテゴリの各クラスタに属する文書の文書IDの一覧を取得し、文書話題度記録部1312からは各文書IDに対応する文書話題度を取得する。さらに文書データ記録部132から各文書IDに対応する作成時刻と本文を取得し、クラスタ毎の文書一覧データをカテゴリ別に作成する。各クラスタ内の文書は、文書話題度によって降順に並び替える。こうして作成したデータは話題出力装置1314に出力され、利用者に提示される。
利用者は、本発明の話題文書提示装置130に接続されたマウスやキーボード、タッチパネル操作などの入力装置1315を用い、画面上に表示されたボタンを選択しながら対話的に表示画面を切替えて文書を閲覧することができる。
話題出力装置1314の画面上に出力された話題文書の表示例を図21に示す。カテゴリ毎に画面が表示されるが、図21は「スポーツ」カテゴリを表示した状態の例である。
図21(a)は、カテゴリ「社会」の話題文書を表示する画面へ表示を切替えるためのボタンであり、他にも「映画」…「経済」「芸能」など、文書分類部134が分類したカテゴリそれぞれの話題文書を表示することができる。
図21において、画面の下部には、表示したカテゴリに含まれる文書のうち、各クラスタ毎に文書話題度が最大の文書のみが表示される。左から順に話題度(b)、作成時刻(c)、本文(d)が並んでいる。一番上に表示されている文書は図16からもわかるように、文書ID「DOC−012347」の文書であり、文書話題度算出部1311が算出した話題度「3.51」(図20参照)が表示されている。
ここに表示されている文書は、図18で「スポーツ」の項に記録された文書のうち、「C11」「C12」「C13」…のぞれぞれのカテゴリにおいて文書話題度が最大の文書であり、「C11」から1文書、「C12」から1文書、…といったように選択されたものである。文書「DOC−012347」は、クラスタ「C13」から選択された文書である。
従って、図21には「スポーツ」カテゴリに含まれるクラスタの数に等しい文書が表示されることになる。選択された文書は、更に文書話題度によって降順に並べ替えられ、各クラスタの代表文書として図21に示すように表示される。図21(e)は、画面上に表示されている代表文書を含むクラスタの詳細情報を得るためのボタンである。利用者がこのボタンを選択すると、対応するクラスタ(図21の例では文書「DOC−012347」が属するクラスタ「C13」)に含まれる全文書を表示する画面に遷移する。
図22は、図21に示す画面上に表示された第1位の文書の「詳細を表示」ボタンeを利用者が選択した場合の遷移後の画面の表示例である。図22のbは、図21にも表示されていた文書であり、選択したクラスタ「C13」内で文書話題度が最大の文書である。以下、「C13」に含まれる文書が文書話題度の降順に並んで表示される。
図22のaは、再び図21の画面に戻るためのボタンである。
以上説明した画面表示によって、利用者は任意のカテゴリの代表文書を閲覧し、特に、興味を持った文書の「詳細を表示」ボタンを選択することで、該当するクラスタ内の全ての文書を表示し、より詳しい情報を得ることができる。
上記の第1の実施の形態及び第2の実施の形態は、いずれも文書話題度算出の処理をクラスタリングの処理とは独立させ、文書話題度算出部210、1311が文書間類似度を加算する処理を全ての文書(第2の実施例ではカテゴリ内の全ての文書)を対象に行うものであった。しかし、これに代えて、各クラスタ内の文書間のみの類似度を加算して暫定話題度を算出するようにしてもよい。この場合、加算する類似度の数がクラスタによって異なるため、異なるクラスタに属する2文書の文書話題度を比較して重要性の大小を判断することはできなくなる。しかしながら、1つのクラスタに属する文書間でのみ重要性の大小を判断する場合には使用可能な方法である。また、話題文書提示に要する処理時間の削減も望める。
上記の第1及び第2の実施の形態では、いずれも話題出力装置21、1314としてモニタ装置を想定し、画面上に表示して利用者に閲覧させる形態としたが、話題出力装置21、1314を、上記の実施の形態で画面上に提示した情報を保存する記憶装置として、利用者または別の装置が読み出し可能な状態にしてもよい。
また、上記の実施の形態で説明した処理に基づいて、コンピュータ上で動作するプログラムとして構築し、話題文書提示装置として動作するコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムを話題文書提示装置として利用されるコンピュータに接続されるハードディスク装置やフレキシブルディスク、CD−ROM等の可搬記憶媒体に格納することも可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、大量の文書データを話題性に基づいて利用者に閲覧させるための技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の第1の実施の形態における話題文書提示装置の構成図である。 本発明の第1の実施の形態における文書データ記録部に保存されたデータの例である。 本発明の第1の実施の形態における単語集計部が行う処理のフローチャートである。 本発明の第1の実施の形態における文書ベクトル記録部に保存されたデータの例である。 本発明の第1の実施の形態における類似度算出部が行う処理のフローチャートである。 本発明の第1の実施の形態における類似度記録部に保存された文書間類似度データの例である。 本発明の第1の実施の形態におけるクラスタリング部におけるクラスタリング処理のフローチャートである。 本発明の第1の実施の形態におけるクラスタ記録部に保存されたクラスタリング結果のデータの例である。 本発明の第1の実施の形態における話題度算出部が行う処理のフローチャートである。 本発明の第1の実施の形態における鮮度係数を決定する関数の例である。 本発明の第1の実施の形態における文書話題度記録部に保存された文書話題度データの例である。 本発明の第1の実施の形態の話題出力装置に出力された話題文書データの表示例である。 本発明の第2の実施の形態における話題文書提示装置の構成図である。 本発明の第2の実施の形態における文書データ記録部に保存されたデータの例である。 本発明の第2の実施の形態における類似度記録部に保存された文書間類似度データの例である。 本発明の第2の実施の形態におけるクラスタ記録部に保存されたクラスタリング結果データの例である。 本発明の第2の実施の形態における話題度算出部が行う処理のフローチャートである。 本発明の第2の実施の形態における文書話題記録部に保存された文書話題度データの例である。 本発明の第2の実施の形態における話題出力装置に出力された話題文書データの表示例である。 本発明の第2の実施の形態における話題出力装置に出力された話題文書データの画面遷移後の表示例である。
符号の説明
20,130 話題文書提示装置
21,1314 話題出力装置
201,131 文書収集部
202,132 文書データ記録部
203,133 文書解析部
134 文書分類部
204,135 単語集計部
205,136 文書ベクトル記録部
206,137 類似度算出部
207,138 類似度記録部
208,139 クラスタリング部
209,1310 クラスタ記録部
210,1311 文書話題度算出部
211,1312 文書話題度記録部
212,1313 提示データ作成部
2101,13111 時刻情報取得部
2102,13112 類似度取得部
2103,13113 類似度加算部
2104,13114 鮮度係数算出部
2105,13115 積算部
1315 入力装置

Claims (9)

  1. 作成時刻情報付きの膨大な文書群から、話題性の高い文書を自動的に選択して提示する話題文書提示装置における話題文書提示方法において、
    入力文書中に含まれる単語に対して属性値を決定し、各入力文書を属性値列のベクトルに変換した文書ベクトルを用いて各文書間の類似度を算出し、類似度記録手段に記録する類似度算出ステップと、
    前記類似度記録手段に記録されている前記文書間の類似度を用いて、入力文書群を、類似文書から少なくとも1つの部分集合に分割し、各部分集合に属する文書をクラスタ記録手段に保存するクラスタリングステップと、
    前記類似度記録手段に記録されている前記文書間の類似度及び各文書の作成時刻情報を用いて、各文書に対して、類似する文書が多く、かつ、作成時刻が新しいほど大きな文書話題度を与え、文書話題度記録手段に保存する文書話題度算出ステップと、
    前記クラスタ記録手段に保存されている前記各部分集合に属する文書及び、前記文書話題度記録手段に保存されている前記文書話題度を利用して、前記部分集合のそれぞれについて、該部分集合に含まれる文書群を、文書話題度の高い順に並べたデータを作成し、出力する提示データ作成ステップと、を行い、
    前記文書話題度算出ステップにおいて、
    注目文書に対し、他の文書との間の類似度を全て加算して暫定話題度を算出する暫定話題度算出ステップと、
    前記注目文書の作成時刻情報が現在時刻に近いほど値が大きく、現在から遠いほど値が小さくなる関数によって該注目文書の新鮮度を決定する新鮮度決定ステップと、
    と、を行うことを特徴とする話題文書提示方法。
  2. 前記文書話題度算出ステップの前記暫定話題度算出ステップにおいて、
    前記注目文書と他の文書との間の類似度を加算する際に、前記クラスタリングステップにおいて分割した各部分集合内に属する文書との類似度に限定して加算を行うステップを含む請求項1記載の話題文書提示方法。
  3. 前記文書話題度算出ステップの前記新鮮度決定ステップにおいて、
    前記新鮮度を決定する関数として、指数関数で表される関数を用いる請求項1または、2記載の話題文書提示方法。
  4. 前記入力文書を内容に応じて複数のカテゴリのいずれか1以上に分類するカテゴリ分類ステップを更に行い、
    前記類似度算出ステップ、前記クラスタリングステップ、前記文書話題度算出ステップ、前記提示データ作成ステップのそれぞれを、分類したカテゴリ別に行う請求項1乃至3記載の話題文書提示方法。
  5. 作成時刻情報付きの膨大な文書群から、話題性の高い文書を自動的に選択して提示する話題文書提示装置であって、
    入力文書中に含まれる単語に対して属性値を決定し、各入力文書を属性値列のベクトルに変換した文書ベクトルを用いて各文書間の類似度を算出し、類似度記録手段に記録する類似度算出手段と、
    前記類似度記録手段に記録されている前記文書間の類似度を用いて、入力文書群を、類似文書から少なくとも1つの部分集合に分割し、各部分集合に属する文書をクラスタ記録手段に保存するクラスタリング手段と、
    前記類似度記録手段に記録されている前記文書間の類似度及び各文書の作成時刻情報を用いて、各文書に対して、類似する文書が多く、かつ、作成時刻が新しいほど大きな文書話題度を与え、文書話題度記録手段に保存する文書話題度算出手段と、
    前記クラスタ記録手段に保存されている前記各部分集合に属する文書及び、前記文書話題度記録手段に保存されている前記文書話題度を利用して、前記部分集合のそれぞれについて、該部分集合に含まれる文書群を、文書話題度の高い順に並べたデータを作成し、出力する提示データ作成手段と、を有し、
    前記文書話題度算出手段は、
    注目文書に対し、他の文書との間の類似度を全て加算して暫定話題度を算出する暫定話題度算出手段と、
    前記注目文書の作成時刻情報が現在時刻に近いほど値が大きく、現在から遠いほど値が小さくなる関数によって該注目文書の新鮮度を決定する新鮮度決定手段と、
    と、を有することを特徴とする話題文書提示装置。
  6. 前記文書話題度算出手段の前記暫定話題度算出手段は、
    前記注目文書と他の文書との間の類似度を加算する際に、前記クラスタリング手段において分割した各部分集合内に属する文書との類似度に限定して加算を行う手段を含む請求項5記載の話題文書提示装置。
  7. 前記文書話題度算出手段の前記新鮮度決定手段において、
    前記新鮮度を決定する関数として、指数関数で表される関数を用いる請求項5または、6記載の話題文書提示装置。
  8. 前記入力文書を内容に応じて複数のカテゴリのいずれか1以上に分類するカテゴリ分類手段を更に有し、
    前記類似度算出手段、前記クラスタリング手段、前記文書話題度算出手段、前記提示データ作成手段のそれぞれの処理を、分類したカテゴリ別に行う請求項5乃至7記載の話題文書提示装置。
  9. 作成時刻情報付きの膨大な文書群から、話題性の高い文書を自動的に選択して提示する話題文書提示装置における話題文書提示プログラムであって、
    前記請求項1乃至4記載の話題文書提示方法を実現するための処理をコンピュータに実行させることを特徴とする話題文書提示プログラム。
JP2004309576A 2004-10-25 2004-10-25 話題文書提示方法及び装置及びプログラム Active JP4134975B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004309576A JP4134975B2 (ja) 2004-10-25 2004-10-25 話題文書提示方法及び装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004309576A JP4134975B2 (ja) 2004-10-25 2004-10-25 話題文書提示方法及び装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2006120069A true JP2006120069A (ja) 2006-05-11
JP4134975B2 JP4134975B2 (ja) 2008-08-20

Family

ID=36537872

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004309576A Active JP4134975B2 (ja) 2004-10-25 2004-10-25 話題文書提示方法及び装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4134975B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007323434A (ja) * 2006-06-01 2007-12-13 Nippon Telegr & Teleph Corp <Ntt> 話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2008102737A (ja) * 2006-10-19 2008-05-01 Nippon Telegr & Teleph Corp <Ntt> 蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体
JP2008198104A (ja) * 2007-02-15 2008-08-28 Nec Corp ファイルアクセス頻度計測装置、方法およびプログラム
JP2009116457A (ja) * 2007-11-02 2009-05-28 Intec Systems Institute Inc インターネットサイト情報分析方法と装置
JP2010020461A (ja) * 2008-07-09 2010-01-28 Jetrun Technology Corp 広告配信システム
WO2011004524A1 (ja) * 2009-07-07 2011-01-13 日本電気株式会社 テキストマイニング装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007323434A (ja) * 2006-06-01 2007-12-13 Nippon Telegr & Teleph Corp <Ntt> 話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2008102737A (ja) * 2006-10-19 2008-05-01 Nippon Telegr & Teleph Corp <Ntt> 蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体
JP2008198104A (ja) * 2007-02-15 2008-08-28 Nec Corp ファイルアクセス頻度計測装置、方法およびプログラム
JP2009116457A (ja) * 2007-11-02 2009-05-28 Intec Systems Institute Inc インターネットサイト情報分析方法と装置
JP2010020461A (ja) * 2008-07-09 2010-01-28 Jetrun Technology Corp 広告配信システム
WO2011004524A1 (ja) * 2009-07-07 2011-01-13 日本電気株式会社 テキストマイニング装置
JPWO2011004524A1 (ja) * 2009-07-07 2012-12-13 日本電気株式会社 テキストマイニング装置

Also Published As

Publication number Publication date
JP4134975B2 (ja) 2008-08-20

Similar Documents

Publication Publication Date Title
CN108009293B (zh) 视频标签生成方法、装置、计算机设备和存储介质
US7707162B2 (en) Method and apparatus for classifying multimedia artifacts using ontology selection and semantic classification
Nie et al. Harvesting visual concepts for image search with complex queries
CN109690529B (zh) 按事件将文档编译到时间线中
US8135739B2 (en) Online relevance engine
US8229949B2 (en) Apparatus, method and program product for presenting next search keyword
JP5469046B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
CN105849720A (zh) 视觉语义复合网络以及用于形成该网络的方法
JP5952711B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
Xu et al. Where to go and what to play: Towards summarizing popular information from massive tourism blogs
US9552415B2 (en) Category classification processing device and method
KR101543680B1 (ko) 인터넷을 활용한 개체 검색과 이를 위한 하이브리드 기반의 의견분석 시스템 및 그 방법
Chandramouli et al. Query refinement and user relevance feedback for contextualized image retrieval
Zigkolis et al. Collaborative event annotation in tagged photo collections
JPH11282875A (ja) 情報フィルタリング装置
JP4795856B2 (ja) クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP4134975B2 (ja) 話題文書提示方法及び装置及びプログラム
CN109800429B (zh) 主题挖掘方法、装置及存储介质、计算机设备
JP6639040B2 (ja) 情報検索装置及びプログラム
Wang et al. Automatic content curation of news events
JP2004240887A (ja) 検索情報表示システム及び検索キーワード情報表示方法及び検索キーワード情報表示プログラム
Hopfgartner et al. Simulated evaluation of faceted browsing based on feature selection
JP2005010848A (ja) 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体
Hölbling et al. Content-based tag generation to enable a tag-based collaborative tv-recommendation system.
Aggarwal et al. Insights into Entity Recommendation in Web Search.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080129

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080507

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080520

R150 Certificate of patent or registration of utility model

Ref document number: 4134975

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110613

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120613

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130613

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140613

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350