JP2006120069A - 話題文書提示方法及び装置及びプログラム - Google Patents
話題文書提示方法及び装置及びプログラム Download PDFInfo
- Publication number
- JP2006120069A JP2006120069A JP2004309576A JP2004309576A JP2006120069A JP 2006120069 A JP2006120069 A JP 2006120069A JP 2004309576 A JP2004309576 A JP 2004309576A JP 2004309576 A JP2004309576 A JP 2004309576A JP 2006120069 A JP2006120069 A JP 2006120069A
- Authority
- JP
- Japan
- Prior art keywords
- document
- topic
- similarity
- documents
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 本発明は、類似する文書が多いほど注目度が高いと見做す暫定話題度を求め、これに文書の作成時刻と現在時刻との差と予め設定した忘却曲線より求まる鮮度係数を乗算して話題度を求める。この為に、文書間の類似度を用いて、文書群をクラスタリングする。また、文書話題度算出に当たっては、注目文書に対し、他の文書との類似度を全て加算して暫定話題度とする。
【選択図】 図1
Description
入力文書中に含まれる単語に対して属性値を決定し、各入力文書を属性値列のベクトルに変換した文書ベクトルを用いて各文書間の類似度を算出し、類似度記録手段に記録する類似度算出ステップ(ステップ1)と、
類似度記録手段に記録されている文書間の類似度を用いて、入力文書群を、類似文書から少なくとも1つの部分集合に分割し、各部分集合に属する文書をクラスタ記録手段に保存するクラスタリングステップ(ステップ2)と、
類似度記録手段に記録されている文書間の類似度及び各文書の作成時刻情報を用いて、各文書に対して、類似する文書が多く、かつ、作成時刻が新しいほど大きな文書話題度を与え、文書話題度記録手段に保存する文書話題度算出ステップ(ステップ3)と、
クラスタ記録手段に保存されている各部分集合に属する文書及び、文書話題度記録手段に保存されている文書話題度を利用して、部分集合のそれぞれについて、該部分集合に含まれる文書群を、文書話題度の高い順に並べたデータを作成する提示データ作成ステップ(ステップ4)と、を行い、
文書話題度算出ステップ(ステップ3)において、
注目文書に対し、他の文書との間の類似度を全て加算して暫定話題度を算出する暫定話題度算出ステップと、
注目文書の作成時刻情報が現在時刻に近いほど値が大きく、現在から遠いほど値が小さくなる関数によって該注目文書の新鮮度を決定する新鮮度決定ステップと、
と、を行う。
注目文書と他の文書との間の類似度を加算する際に、クラスタリングステップにおいて分割した各部分集合内に属する文書との類似度に限定して加算を行うステップを含む。
新鮮度を決定する関数として、指数関数で表される関数を用いる。
類似度算出ステップ(ステップ1)、クラスタリングステップ(ステップ2)、文書話題度算出ステップ(ステップ3)、提示データ作成ステップ(ステップ4)のそれぞれを、分類したカテゴリ別に行う。
入力文書中に含まれる単語に対して属性値を決定し、各入力文書を属性値列のベクトルに変換した文書ベクトルを用いて各文書間の類似度を算出し、類似度記録手段207に記録する類似度算出手段206と、
類似度記録手段207に記録されている文書間の類似度を用いて、入力文書群を、類似文書から少なくとも1つの部分集合に分割し、各部分集合に属する文書をクラスタ記録手段209に保存するクラスタリング手段208と、
類似度記録手段207に記録されている文書間の類似度及び各文書の作成時刻情報を用いて、各文書に対して、類似する文書が多く、かつ、作成時刻が新しいほど大きな文書話題度を与え、文書話題度記録手段211に保存する文書話題度算出手段210と、
クラスタ記録手段209に保存されている各部分集合に属する文書及び、文書話題度記録手段211に保存されている文書話題度を利用して、部分集合のそれぞれについて、該部分集合に含まれる文書群を、文書話題度の高い順に並べたデータを作成する提示データ作成手段212と、を有し、
文書話題度算出手段210は、
注目文書に対し、他の文書との間の類似度を全て加算して暫定話題度を算出する暫定話題度算出手段と、
注目文書の作成時刻情報が現在時刻に近いほど値が大きく、現在から遠いほど値が小さくなる関数によって該注目文書の新鮮度を決定する新鮮度決定手段と、
と、を有する。
注目文書と他の文書との間の類似度を加算する際に、クラスタリング手段208において分割した各部分集合内に属する文書との類似度に限定して加算を行う手段を含む。
新鮮度を決定する関数として、指数関数で表される関数を用いる。
類似度算出手段206、クラスタリング手段208、文書話題度算出手段210、提示データ作成手段212のそれぞれの処理を、分類したカテゴリ別に行う。
請求項1乃至4記載の話題文書提示方法を実現するための処理をコンピュータに実行させるプログラムである。
図3は、本発明の第1の実施の形態における話題文書提示装置の構成を示す。
式(4)のT0は、時間を遡るにつれて鮮度係数が減衰する速度(忘却の速度)を決定付けるパラメータである。値を大きくすれば緩やかな減衰になり、作成時刻が古い文書であるもある程度大きな鮮度係数が与えられ、話題文書であると判断されやすくなる。逆に,T0を小さくすれば減衰が急な曲線になり、極めて新しい作成時刻を持つ文書が話題文書とみなされ、古い文書は話題とみなされにくくなる傾向になる。T0は、収集する文書の性質や利用場面に応じて種々に設定可能な定数である。
図15は、本発明の第2の実施の形態における話題文書提示装置の構成を示す。
の形態における文書収集部201と同様の機能を有する。収集した文書には一意な識別子(文書ID)を付与し、文書データ記録部132に保存する。その際、各文書の作成時刻情報も取得し、合わせて記録しておく。文書収集部131は、さらに、収集した文書を文書解析部133にも送出する。
Ym→=(Ym1,Ym2,…,YmL)
で表すこととする。ここで、Ym,kは、文書dmが第kカテゴリに属するとき「1」、属さないとき「0」の値をとる。複数のカテゴリに属することも許されるが、少なくとも1つのカテゴリには属するものとする。
21,1314 話題出力装置
201,131 文書収集部
202,132 文書データ記録部
203,133 文書解析部
134 文書分類部
204,135 単語集計部
205,136 文書ベクトル記録部
206,137 類似度算出部
207,138 類似度記録部
208,139 クラスタリング部
209,1310 クラスタ記録部
210,1311 文書話題度算出部
211,1312 文書話題度記録部
212,1313 提示データ作成部
2101,13111 時刻情報取得部
2102,13112 類似度取得部
2103,13113 類似度加算部
2104,13114 鮮度係数算出部
2105,13115 積算部
1315 入力装置
Claims (9)
- 作成時刻情報付きの膨大な文書群から、話題性の高い文書を自動的に選択して提示する話題文書提示装置における話題文書提示方法において、
入力文書中に含まれる単語に対して属性値を決定し、各入力文書を属性値列のベクトルに変換した文書ベクトルを用いて各文書間の類似度を算出し、類似度記録手段に記録する類似度算出ステップと、
前記類似度記録手段に記録されている前記文書間の類似度を用いて、入力文書群を、類似文書から少なくとも1つの部分集合に分割し、各部分集合に属する文書をクラスタ記録手段に保存するクラスタリングステップと、
前記類似度記録手段に記録されている前記文書間の類似度及び各文書の作成時刻情報を用いて、各文書に対して、類似する文書が多く、かつ、作成時刻が新しいほど大きな文書話題度を与え、文書話題度記録手段に保存する文書話題度算出ステップと、
前記クラスタ記録手段に保存されている前記各部分集合に属する文書及び、前記文書話題度記録手段に保存されている前記文書話題度を利用して、前記部分集合のそれぞれについて、該部分集合に含まれる文書群を、文書話題度の高い順に並べたデータを作成し、出力する提示データ作成ステップと、を行い、
前記文書話題度算出ステップにおいて、
注目文書に対し、他の文書との間の類似度を全て加算して暫定話題度を算出する暫定話題度算出ステップと、
前記注目文書の作成時刻情報が現在時刻に近いほど値が大きく、現在から遠いほど値が小さくなる関数によって該注目文書の新鮮度を決定する新鮮度決定ステップと、
と、を行うことを特徴とする話題文書提示方法。 - 前記文書話題度算出ステップの前記暫定話題度算出ステップにおいて、
前記注目文書と他の文書との間の類似度を加算する際に、前記クラスタリングステップにおいて分割した各部分集合内に属する文書との類似度に限定して加算を行うステップを含む請求項1記載の話題文書提示方法。 - 前記文書話題度算出ステップの前記新鮮度決定ステップにおいて、
前記新鮮度を決定する関数として、指数関数で表される関数を用いる請求項1または、2記載の話題文書提示方法。 - 前記入力文書を内容に応じて複数のカテゴリのいずれか1以上に分類するカテゴリ分類ステップを更に行い、
前記類似度算出ステップ、前記クラスタリングステップ、前記文書話題度算出ステップ、前記提示データ作成ステップのそれぞれを、分類したカテゴリ別に行う請求項1乃至3記載の話題文書提示方法。 - 作成時刻情報付きの膨大な文書群から、話題性の高い文書を自動的に選択して提示する話題文書提示装置であって、
入力文書中に含まれる単語に対して属性値を決定し、各入力文書を属性値列のベクトルに変換した文書ベクトルを用いて各文書間の類似度を算出し、類似度記録手段に記録する類似度算出手段と、
前記類似度記録手段に記録されている前記文書間の類似度を用いて、入力文書群を、類似文書から少なくとも1つの部分集合に分割し、各部分集合に属する文書をクラスタ記録手段に保存するクラスタリング手段と、
前記類似度記録手段に記録されている前記文書間の類似度及び各文書の作成時刻情報を用いて、各文書に対して、類似する文書が多く、かつ、作成時刻が新しいほど大きな文書話題度を与え、文書話題度記録手段に保存する文書話題度算出手段と、
前記クラスタ記録手段に保存されている前記各部分集合に属する文書及び、前記文書話題度記録手段に保存されている前記文書話題度を利用して、前記部分集合のそれぞれについて、該部分集合に含まれる文書群を、文書話題度の高い順に並べたデータを作成し、出力する提示データ作成手段と、を有し、
前記文書話題度算出手段は、
注目文書に対し、他の文書との間の類似度を全て加算して暫定話題度を算出する暫定話題度算出手段と、
前記注目文書の作成時刻情報が現在時刻に近いほど値が大きく、現在から遠いほど値が小さくなる関数によって該注目文書の新鮮度を決定する新鮮度決定手段と、
と、を有することを特徴とする話題文書提示装置。 - 前記文書話題度算出手段の前記暫定話題度算出手段は、
前記注目文書と他の文書との間の類似度を加算する際に、前記クラスタリング手段において分割した各部分集合内に属する文書との類似度に限定して加算を行う手段を含む請求項5記載の話題文書提示装置。 - 前記文書話題度算出手段の前記新鮮度決定手段において、
前記新鮮度を決定する関数として、指数関数で表される関数を用いる請求項5または、6記載の話題文書提示装置。 - 前記入力文書を内容に応じて複数のカテゴリのいずれか1以上に分類するカテゴリ分類手段を更に有し、
前記類似度算出手段、前記クラスタリング手段、前記文書話題度算出手段、前記提示データ作成手段のそれぞれの処理を、分類したカテゴリ別に行う請求項5乃至7記載の話題文書提示装置。 - 作成時刻情報付きの膨大な文書群から、話題性の高い文書を自動的に選択して提示する話題文書提示装置における話題文書提示プログラムであって、
前記請求項1乃至4記載の話題文書提示方法を実現するための処理をコンピュータに実行させることを特徴とする話題文書提示プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004309576A JP4134975B2 (ja) | 2004-10-25 | 2004-10-25 | 話題文書提示方法及び装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004309576A JP4134975B2 (ja) | 2004-10-25 | 2004-10-25 | 話題文書提示方法及び装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006120069A true JP2006120069A (ja) | 2006-05-11 |
JP4134975B2 JP4134975B2 (ja) | 2008-08-20 |
Family
ID=36537872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004309576A Active JP4134975B2 (ja) | 2004-10-25 | 2004-10-25 | 話題文書提示方法及び装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4134975B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007323434A (ja) * | 2006-06-01 | 2007-12-13 | Nippon Telegr & Teleph Corp <Ntt> | 話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
JP2008102737A (ja) * | 2006-10-19 | 2008-05-01 | Nippon Telegr & Teleph Corp <Ntt> | 蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体 |
JP2008198104A (ja) * | 2007-02-15 | 2008-08-28 | Nec Corp | ファイルアクセス頻度計測装置、方法およびプログラム |
JP2009116457A (ja) * | 2007-11-02 | 2009-05-28 | Intec Systems Institute Inc | インターネットサイト情報分析方法と装置 |
JP2010020461A (ja) * | 2008-07-09 | 2010-01-28 | Jetrun Technology Corp | 広告配信システム |
WO2011004524A1 (ja) * | 2009-07-07 | 2011-01-13 | 日本電気株式会社 | テキストマイニング装置 |
-
2004
- 2004-10-25 JP JP2004309576A patent/JP4134975B2/ja active Active
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007323434A (ja) * | 2006-06-01 | 2007-12-13 | Nippon Telegr & Teleph Corp <Ntt> | 話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
JP2008102737A (ja) * | 2006-10-19 | 2008-05-01 | Nippon Telegr & Teleph Corp <Ntt> | 蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体 |
JP2008198104A (ja) * | 2007-02-15 | 2008-08-28 | Nec Corp | ファイルアクセス頻度計測装置、方法およびプログラム |
JP2009116457A (ja) * | 2007-11-02 | 2009-05-28 | Intec Systems Institute Inc | インターネットサイト情報分析方法と装置 |
JP2010020461A (ja) * | 2008-07-09 | 2010-01-28 | Jetrun Technology Corp | 広告配信システム |
WO2011004524A1 (ja) * | 2009-07-07 | 2011-01-13 | 日本電気株式会社 | テキストマイニング装置 |
JPWO2011004524A1 (ja) * | 2009-07-07 | 2012-12-13 | 日本電気株式会社 | テキストマイニング装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4134975B2 (ja) | 2008-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108009293B (zh) | 视频标签生成方法、装置、计算机设备和存储介质 | |
US7707162B2 (en) | Method and apparatus for classifying multimedia artifacts using ontology selection and semantic classification | |
Nie et al. | Harvesting visual concepts for image search with complex queries | |
CN109690529B (zh) | 按事件将文档编译到时间线中 | |
US8135739B2 (en) | Online relevance engine | |
US8229949B2 (en) | Apparatus, method and program product for presenting next search keyword | |
JP5469046B2 (ja) | 情報検索装置、情報検索方法及び情報検索プログラム | |
CN105849720A (zh) | 视觉语义复合网络以及用于形成该网络的方法 | |
JP5952711B2 (ja) | 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 | |
Xu et al. | Where to go and what to play: Towards summarizing popular information from massive tourism blogs | |
US9552415B2 (en) | Category classification processing device and method | |
KR101543680B1 (ko) | 인터넷을 활용한 개체 검색과 이를 위한 하이브리드 기반의 의견분석 시스템 및 그 방법 | |
Chandramouli et al. | Query refinement and user relevance feedback for contextualized image retrieval | |
Zigkolis et al. | Collaborative event annotation in tagged photo collections | |
JPH11282875A (ja) | 情報フィルタリング装置 | |
JP4795856B2 (ja) | クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP4134975B2 (ja) | 話題文書提示方法及び装置及びプログラム | |
CN109800429B (zh) | 主题挖掘方法、装置及存储介质、计算机设备 | |
JP6639040B2 (ja) | 情報検索装置及びプログラム | |
Wang et al. | Automatic content curation of news events | |
JP2004240887A (ja) | 検索情報表示システム及び検索キーワード情報表示方法及び検索キーワード情報表示プログラム | |
Hopfgartner et al. | Simulated evaluation of faceted browsing based on feature selection | |
JP2005010848A (ja) | 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体 | |
Hölbling et al. | Content-based tag generation to enable a tag-based collaborative tv-recommendation system. | |
Aggarwal et al. | Insights into Entity Recommendation in Web Search. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080129 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080328 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080507 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080520 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4134975 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110613 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120613 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130613 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140613 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |