JP2006277767A - 情報潮流検出・提示方法およびその装置ならびに記憶媒体 - Google Patents
情報潮流検出・提示方法およびその装置ならびに記憶媒体 Download PDFInfo
- Publication number
- JP2006277767A JP2006277767A JP2006168921A JP2006168921A JP2006277767A JP 2006277767 A JP2006277767 A JP 2006277767A JP 2006168921 A JP2006168921 A JP 2006168921A JP 2006168921 A JP2006168921 A JP 2006168921A JP 2006277767 A JP2006277767 A JP 2006277767A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- document
- word
- information
- importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 情報検索・閲覧支援装置は、文書データベース30内の情報をデータ処理手段により検索・閲覧処理できる。データ処理手段は、データベース30内の各文書中の単語の頻度情報を抽出・解析する文書解析手段40と、各話題中の各単語の重要度、各文書の重要度を求め、頻度情報と各単語および各文書の重要度とを基に、各文書中・各単語中の各話題の強度を求める独立話題分析手段41と、各話題の強度から、各話題が同一文書中に同時に現れる強度を定めて、その強度と所定しきい値とを比較し話題の関連性判定を行なう話題関連度評価手段44とからなる。
【選択図】 図2
Description
図1ないし図9は本発明の第1の実施に係る情報検索・閲覧支援方法を説明するための図である。ここで、図1は本発明の第1の実施の形態に係る情報検索・閲覧支援方法を実現するハードウエア構成を示すブロック図である。この図1に示すコンピュータ装置1は、主な構成として、コンピュータ本体2と、キーボード3と、マウス4と、ディスプレイ5と、その他の周辺機器(図示せず)とからなる。
話題情報作成手段45は、独立話題強度表33b、主要単語抽出手段42、主要文書抽出手段44、話題関連度評価手段44により得られた各話題の主要文書・主要単語、関連話題から主要話題リスト110を形成するとともに、個別話題情報120も形成する。
<数1>
err =( Σt,d,w A(d,w)(U(d,t)−V(w,t))2 /2)
÷Σd,wA(d,w)
各文書は文中の各単語の近くに、単語は各出現文書の近くに、極力配置することが望ましい。この平均誤差を最小化とするように各話題の各文書重要度と各単語の重要度を定めることがステップS12の主目標である。ただし、重要度が分布する範囲を制約する条件として、任意の話題について各単語出現での単語重要度および文書重要度の平均0、分散1で、かつ、異なる話題間では、各単語出現での単語重要度および文書重要度の共分散が0という正規直交条件を課す。
(1) 単語重要度に関する加重付き4次キュムラントKiiiiの平方和
Σt(Σw Dw(w)・ V(t,w)4 −3)2
(2) 単語重要度に関する加重付き正接型
Σt(Σw Dw(w)・log(cosh(a・V(t、w)) − a0/a))2
ただし、a0 は数式2で定義される。
Σt(Σd Dd(d)・ U(t,d)4 −3)2
(4)(3)と(2)の加重和
α・Σt( Σw Dw(w)・ V(t,w)4 −3)2
+β・ Σt(Σd Dd(d)・ U(t,d)4 −3)2
ただし、Dwは、ΣdA(d,w)を対角成分とする対角行列、Ddは、ΣwA(d,w)を対角成分とする対角行列である。
一般には、話題の独立性指標は、文書の重要度に関する独立性指標Tindd(U;Dd)と単語の重要度に関する独立性指標Tindw(V;Dw)の加重和で表す。
<数3>
旧回転行列Rold =In (単位行列)
<数4>
回転行列Rot(Rott ・Rot=In )
次に、独立話題分析手段41は、(In −Rott ・Rold )の対角成分の絶対値の最大値が所定のしきい値より小さいか否か判定する(S1222)。対角成分の絶対値の最大値が所定のしきい値より大きいと独立話題分析手段41が判断したときには(図5のS1222;NO)、独立話題分析手段41は、話題中の文書重要度、話題中の単語の重要度の更新を行なう(S1223)。このステップS1223では、U=U* ・Rot、V=V* ・Rotの計算をする。
<数5>
Rold =Rot
<数6>
Rot=f(Rot,Dw,Dd)
<数7>
Rot=(Rott ・Rot)-1/2・Rot
ここで、f(X)は、採用した独立性指標により決まる行列関数である。
上記の単語重要度の加重付き4次キュムラントの平方和の場合は、数式8の計算をする。
<数8>
f(X、Dw、Dd)= X.3・Dw・Xt − 3・X
ただし、X.nは行列Xの各要素のn乗である。
この計算が終了したら再びステップS1222に戻る。
<数9>
U=U* ・Rot
<数10>
V=V* ・Rot
<数11>
S=Rott ・S* ・Rot
上述したステップを独立話題分析手段41が処理することにより、話題の独立性指標を最大とするRotを決定することができる。
<数12>
イ)文書中独立話題強度DTは、
DT=U・S
<数13>
ロ)単語中独立話題強度WTは、
WT=V・S
<数14>
ハ)独立話題強度共分散TTは、
TT=S・S
<数15>
ニ)独立話題強度相関RRは、
RR=dT-1/2・TT・dT-1/2
ただし、DT=TTの対角成分を対角成分とする対角行列である。
<数16>
Rel(s,t)=sin-1 (RR(s,t))
この角度が一定値以上の話題の組を関連性が高い話題とする。
図10に情報潮流検出・提示方法の一実施形態を示す。この情報潮流検出・提示方法は、前述したとおり、CPU21が主メモリ23に展開された第2の実施の形態を実現するアプリケーションプログラム29aを実行することにより実現される。この実現された情報検索・閲覧支援装置は、図示しないデータ処理手段と、文書データベース30と、単語リスト32と、その他のデータベースとからなる。
<数17>
Novelity(t)=minS (cos -1(Σw V(w,t)
・Dw (w)・Vold (w,s))
また、この最小値を与えるsを話題tの直前類似話題told と定める。
31 文書中単語頻度表
31A 更新前文書中単語頻度表
31B 更新後文書中単語頻度表
32 単語リスト
33 話題強度表
33a 共通話題強度
33b 独立話題強度
34 話題中単語重要度表
34a 共通話題中単語重要度表
34b 独立話題中単語重要度表
34A 更新前話題中単語重要度
34B 更新後話題中単語重要度表
35 話題中文書重要度
35a 共通話題中文書重要度表
35b 独立話題中文書重要度表
36 文書中話題強度表
36a 文書中共通話題強度表
36b 文書中独立話題強度表
37 単語中話題強度表
37a 単語中共通話題強度表
37b 単語中独立話題強度表
38 話題間関連性データベース
40,40a 文書解析手段
41,41a 独立話題分析手段
42 主要単語抽出手段
42a 話題新規性計測・判定手段
43 主要文書抽出手段
44 話題関連度評価手段
45 話題情報作成手段
45a 話題関連性表示データ作成手段
Claims (3)
- 記憶手段に記憶された文書データベース内の情報が時間経過に伴って変化することをデータ処理手段により追跡できる方法において、前記データ処理手段は、前記文書データベース更新前と更新後の各々に含まれる各文書中での各単語の出現表から、各話題中の各文書・各単語の重要度を求め、内容が互いに独立な決められた個数の話題を抽出する工程と、前記文書データベース更新後の話題の新規性を、更新前の話題との各単語の重要度による角度の最小値により計測し、その最小値を与える更新前の話題を更新前最類似話題とする工程と、前記角度が一定値以上であれば、新規な話題と判定する工程と、前記文書データベース更新後の話題から、更新前最類似話題へのリンクを作成するとともに当該リンク情報を蓄積する工程とを処理することを特徴とする情報潮流検出・提示方法。
- データベースを記憶する記憶手段と、そのデータベース内の情報を検索・閲覧処理できるデータ処理手段とを備えた装置において、前記データ処理手段は、前記文書データベース更新前と更新後の各々に含まれる各文書中での各単語の出現表から、各話題中の各文書・各単語の重要度を求め、内容が互いに独立な決められた個数の話題を抽出する手段と、前記文書データベース更新後の話題の新規性を、更新前の話題との各単語の重要度による角度の最小値により計測し、その最小値を与える更新前の話題を更新前最類似話題とする手段と、前記角度が一定値以上であれば、新規な話題と判定する手段と、前記文書データベース更新後の話題から、更新前最類似話題へのリンクを作成するとともに当該リンク情報を蓄積する手段とを備えたことを特徴とする情報潮流検出・提示装置。
- データベース内の情報を検索・閲覧するに際して検索・閲覧支援できるプログラムが記憶された記憶媒体において、前記文書データベース更新前と更新後の各々に含まれる各文書中での各単語の出現表から、各話題中の各文書・各単語の重要度を求め、内容が互いに独立な決められた個数の話題を抽出する第1のプログラムと、前記文書データベース更新後の話題の新規性を、更新前の話題との各単語の重要度による角度の最小値により計測し、その最小値を与える更新前の話題を更新前最類似話題とする第2のプログラムと、前記角度が一定値以上であれば、新規な話題と判定する第3のプログラムと、前記文書データベース更新後の話題から、更新前最類似話題へのリンクを作成するとともに当該リンク情報を蓄積する第4のプログラムとを記憶し、コンピュータに上記各プログラムを格納することにより、情報潮流検出・提示方法あるいは情報潮流検出・提示装置を実現させることを特徴とする記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006168921A JP4367860B2 (ja) | 2006-06-19 | 2006-06-19 | 情報潮流検出・提示方法およびその装置ならびに記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006168921A JP4367860B2 (ja) | 2006-06-19 | 2006-06-19 | 情報潮流検出・提示方法およびその装置ならびに記憶媒体 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000223775A Division JP3835730B2 (ja) | 2000-07-25 | 2000-07-25 | 情報検索・閲覧支援方法およびその装置ならびに記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006277767A true JP2006277767A (ja) | 2006-10-12 |
JP4367860B2 JP4367860B2 (ja) | 2009-11-18 |
Family
ID=37212392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006168921A Expired - Fee Related JP4367860B2 (ja) | 2006-06-19 | 2006-06-19 | 情報潮流検出・提示方法およびその装置ならびに記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4367860B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019200784A (ja) * | 2018-05-09 | 2019-11-21 | 株式会社アナリティクスデザインラボ | 分析方法、分析装置及び分析プログラム |
-
2006
- 2006-06-19 JP JP2006168921A patent/JP4367860B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019200784A (ja) * | 2018-05-09 | 2019-11-21 | 株式会社アナリティクスデザインラボ | 分析方法、分析装置及び分析プログラム |
JP7221526B2 (ja) | 2018-05-09 | 2023-02-14 | 株式会社アナリティクスデザインラボ | 分析方法、分析装置及び分析プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4367860B2 (ja) | 2009-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6256629B1 (en) | Method and apparatus for measuring the degree of polysemy in polysemous words | |
Kettenring | The practice of cluster analysis | |
US8671069B2 (en) | Rapid image annotation via brain state decoding and visual pattern mining | |
Lagun et al. | Discovering common motifs in cursor movement data for improving web search | |
Song et al. | Identification of ambiguous queries in web search | |
US20100191731A1 (en) | Methods and systems for automatic clustering of defect reports | |
US8803882B2 (en) | Identifying on a graphical depiction candidate points and top-moving queries | |
US20070282809A1 (en) | Method and apparatus for concept-based visual | |
KR20080045659A (ko) | 정보 처리 장치, 방법, 및 프로그램 | |
CN111506727B (zh) | 文本内容类别获取方法、装置、计算机设备和存储介质 | |
CA2886581A1 (en) | Method and system for analysing sentiments | |
Alexandrov et al. | An approach to clustering abstracts | |
Lu et al. | How do author-selected keywords function semantically in scientific manuscripts? | |
Hu | Latent dirichlet allocation for text, images, and music | |
US20060101014A1 (en) | System and method for minimally predictive feature identification | |
US20150199427A1 (en) | Document analysis apparatus and program | |
CN114201598B (zh) | 文本推荐方法及文本推荐装置 | |
Alonso et al. | Duplicate news story detection revisited | |
Huang et al. | Mining physical protein-protein interactions from the literature | |
Kim et al. | Automatic figure classification in bioscience literature | |
Ferro | What does affect the correlation among evaluation measures? | |
JP3835730B2 (ja) | 情報検索・閲覧支援方法およびその装置ならびに記憶媒体 | |
JP3650572B2 (ja) | 時系列データの分類装置 | |
Xie et al. | Fused variable screening for massive imbalanced data | |
JP4367860B2 (ja) | 情報潮流検出・提示方法およびその装置ならびに記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060714 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090603 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090728 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090819 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090821 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120904 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150904 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |