JP2008059442A - 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 - Google Patents
文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 Download PDFInfo
- Publication number
- JP2008059442A JP2008059442A JP2006237663A JP2006237663A JP2008059442A JP 2008059442 A JP2008059442 A JP 2008059442A JP 2006237663 A JP2006237663 A JP 2006237663A JP 2006237663 A JP2006237663 A JP 2006237663A JP 2008059442 A JP2008059442 A JP 2008059442A
- Authority
- JP
- Japan
- Prior art keywords
- document
- documents
- document set
- relationship
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims description 42
- 238000000034 method Methods 0.000 title description 25
- 238000000605 extraction Methods 0.000 claims description 28
- 238000011156 evaluation Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 12
- 238000013523 data management Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 5
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 description 8
- 230000000153 supplemental effect Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000012800 visualization Methods 0.000 description 5
- 238000007418 data mining Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】特定条件に基づいて文書集合を特定する手段10と、前記特定された文書集合に含まれる各文書間の類似性を評価する手段20と、前記評価された類似性に基づいて、文書間の関係性を抽出する手段30と、前記抽出された文書間の関係性に基づき、該文書の中心性を算出する手段40によって、文書間の関係性と文書の中心性を取得する。そして、前記取得した文書間の関係性と、取得した個々の文書の中心性に基づいて、話題語,話題語に関連する文書集合,文書の役割を特定する手段50によって、それら特定し、可視化して出力する。
【選択図】図1
Description
20…類似性評価部
30…関係抽出部
40…中心性判定部
50…情報分析部
51…グラフ構造構築部
52…頂点ノード抽出部
53…山状ノード群特定部
54…ラベル付け部
60…情報出力部
70…文書データ管理手段
a1,a2,a3,a4,a5,a6,a7,a8,b1,b2,b3,b4,c1…ノード
CN,CN1,CN2…コアノード
SN…サプリメンタルノード
Claims (6)
- 文書データ管理手段によって管理される文書集合内の文書間の関連性に基づいて、文書の役割を特定する文書集合分析装置であって、
入力手段から入力された文書集合特定条件に基づいて前記文書集合を特定する文書集合特定手段と、
前記特定された文書集合に含まれる各文書間で話題語に関する類似度を評価する類似性評価手段と、
前記類似性評価手段によって評価された類似度に基づいて、文書間の関係性を抽出する関係抽出手段と、
前記関係抽出手段によって抽出された文書間の関係性に基づき、文書と該文書以外の文書間の関連性の高さを示す指標として、該文書の中心性を算出する中心性判定手段と、
前記関係抽出手段によって得られた文書間の関係性と、中心性判定手段によって得られた個々の文書の中心性に基づいて、文書集合全体から文書集合中に含まれる話題語,話題語に関連する文書集合,その文書集合中における文書の役割を特定する情報分析手段と、
前記特定された文書集合全体から文書集合中に含まれる話題語,話題語に関連する文書集合,その文書集合中における文書の役割に基づいて文書集合を可視化して出力する情報出力手段と、
を備えることを特徴とする文書集合分析装置。 - 請求項1記載の文書集合分析装置であって、
前記情報分析手段が、
前記文書間の関連性と、各文書の中心性に基づいて、文書間の関連性を二次元座標で表現し、その二次元座標に対する三次元目の座標で中心性を表現し、前記文書集合を三次元のグラフ構造で表現するグラフ構造構築手段と、
前記得られたグラフ構造から、エッジで連結している自身以外のノードより高い中心性を持つノードを頂点として抽出する頂点ノード抽出手段と、
前記得られた頂点ノードから、中心性が低くなる方向にグラフ構造をたどり、ノードで構成される山を特定する山状ノード群特定手段と、
前記特定される頂点ノード及び山状ノードに基づいて、ノードに対し役割を示すラベルを付与するラベル付け手段と、
を備えることを特徴とする文書集合分析装置。 - 文書データ管理手段によって管理される文書集合内の文書間の関連性に基づいて、文書の役割を特定する文書集合分析方法であって、
入力手段から入力された文書集合特定条件に基づいて前記文書集合を特定する文書集合特定ステップと、
前記特定された文書集合に含まれる各文書間で話題語に関する類似度を評価する類似性評価ステップと、
前記類似性評価ステップによって評価された類似度に基づいて、文書間の関係性を抽出する関係抽出ステップと、
前記関係抽出ステップによって抽出された文書間の関係性に基づき、文書と該文書以外の文書間の関連性の高さを示す指標として、該文書の中心性を算出する中心性判定ステップと、
前記関係抽出ステップによって得られた文書間の関係性と、中心性判定手段によって得られた個々の文書の中心性に基づいて、文書集合全体から文書集合中に含まれる話題語,話題語に関連する文書集合,その文書集合中における文書の役割を特定する情報分析ステップと、
前記特定された文書集合全体から文書集合中に含まれる話題語,話題語に関連する文書集合,その文書集合中における文書の役割に基づいて文書集合を可視化して出力する情報出力ステップと、
を有することを特徴とする文書集合分析方法。 - 請求項3記載の文書集合分析方法であって、
前記情報分析ステップが、
前記文書間の関連性と、各文書の中心性に基づいて、文書間の関連性を二次元座標で表現し、その二次元座標に対する三次元目の座標で中心性を表現し、前記文書集合を三次元のグラフ構造で表現するグラフ構造構築ステップと、
前記得られたグラフ構造から、エッジで連結している自身以外のノードより高い中心性を持つノードを頂点として抽出する頂点ノード抽出ステップと、
前記得られた頂点ノードから、中心性が低くなる方向にグラフ構造をたどり、ノードで構成される山を特定する山状ノード群特定ステップと、
前記特定される頂点ノード及び山状ノードに基づいて、ノードに対し役割を示すラベルを付与するラベル付けステップと、
を有することを特徴とする文書集合分析方法。 - 請求項3または4に記載の文書集合分析方法を、コンピュータで実行可能なコンピュータプログラムとして記述したことを特徴とする文書集合分析プログラム。
- 請求項3または4に記載の文書集合分析方法を、コンピュータで実行可能なコンピュータプログラムとして記述し、そのコンピュータプログラムを記録したことを特徴とする記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006237663A JP4769151B2 (ja) | 2006-09-01 | 2006-09-01 | 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006237663A JP4769151B2 (ja) | 2006-09-01 | 2006-09-01 | 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008059442A true JP2008059442A (ja) | 2008-03-13 |
JP4769151B2 JP4769151B2 (ja) | 2011-09-07 |
Family
ID=39242070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006237663A Expired - Fee Related JP4769151B2 (ja) | 2006-09-01 | 2006-09-01 | 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4769151B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009288989A (ja) * | 2008-05-28 | 2009-12-10 | Nippon Telegr & Teleph Corp <Ntt> | ネットワーク可視化装置、ネットワーク可視化方法、プログラムおよび記録媒体 |
JP2010044617A (ja) * | 2008-08-13 | 2010-02-25 | Fuji Xerox Co Ltd | 表示情報生成装置、及びプログラム |
JP2010211793A (ja) * | 2009-02-26 | 2010-09-24 | Fujitsu Ltd | 自動オントロジーのためのドメインコーパス及び辞書の生成 |
JP2011003156A (ja) * | 2009-06-22 | 2011-01-06 | Nec Corp | データ分類装置、データ分類方法及びデータ分類プログラム |
JP2015162246A (ja) * | 2014-02-26 | 2015-09-07 | パロ・アルト・リサーチ・センター・インコーポレーテッドPalo Alto Research Center Incorporated | グラフクラスタリングのための効率的なリンク管理 |
JP2015170062A (ja) * | 2014-03-06 | 2015-09-28 | 日本電信電話株式会社 | 文書集合分析装置、文書集合分析方法、文書集合分析プログラム |
JP2018055310A (ja) * | 2016-09-28 | 2018-04-05 | トヨタテクニカルディベロップメント株式会社 | 情報処理装置、文書分類方法、文書分類プログラム |
WO2020235468A1 (ja) * | 2019-05-17 | 2020-11-26 | 株式会社アイエクセス | クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1153387A (ja) * | 1997-08-06 | 1999-02-26 | Ibm Japan Ltd | 文書の関連付け方法及びそのシステム |
JP2002230012A (ja) * | 2000-12-01 | 2002-08-16 | Sumitomo Electric Ind Ltd | ドキュメントクラスタリング装置 |
JP2003345811A (ja) * | 2002-05-27 | 2003-12-05 | Hitachi Ltd | 文書情報表示システム、文書情報表示方法及び文書検索方法 |
-
2006
- 2006-09-01 JP JP2006237663A patent/JP4769151B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1153387A (ja) * | 1997-08-06 | 1999-02-26 | Ibm Japan Ltd | 文書の関連付け方法及びそのシステム |
JP2002230012A (ja) * | 2000-12-01 | 2002-08-16 | Sumitomo Electric Ind Ltd | ドキュメントクラスタリング装置 |
JP2003345811A (ja) * | 2002-05-27 | 2003-12-05 | Hitachi Ltd | 文書情報表示システム、文書情報表示方法及び文書検索方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009288989A (ja) * | 2008-05-28 | 2009-12-10 | Nippon Telegr & Teleph Corp <Ntt> | ネットワーク可視化装置、ネットワーク可視化方法、プログラムおよび記録媒体 |
JP2010044617A (ja) * | 2008-08-13 | 2010-02-25 | Fuji Xerox Co Ltd | 表示情報生成装置、及びプログラム |
JP2010211793A (ja) * | 2009-02-26 | 2010-09-24 | Fujitsu Ltd | 自動オントロジーのためのドメインコーパス及び辞書の生成 |
JP2011003156A (ja) * | 2009-06-22 | 2011-01-06 | Nec Corp | データ分類装置、データ分類方法及びデータ分類プログラム |
JP2015162246A (ja) * | 2014-02-26 | 2015-09-07 | パロ・アルト・リサーチ・センター・インコーポレーテッドPalo Alto Research Center Incorporated | グラフクラスタリングのための効率的なリンク管理 |
JP2015170062A (ja) * | 2014-03-06 | 2015-09-28 | 日本電信電話株式会社 | 文書集合分析装置、文書集合分析方法、文書集合分析プログラム |
JP2018055310A (ja) * | 2016-09-28 | 2018-04-05 | トヨタテクニカルディベロップメント株式会社 | 情報処理装置、文書分類方法、文書分類プログラム |
WO2020235468A1 (ja) * | 2019-05-17 | 2020-11-26 | 株式会社アイエクセス | クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム |
JP6852941B1 (ja) * | 2019-05-17 | 2021-03-31 | 株式会社アイエクセス | クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム |
TWI733453B (zh) * | 2019-05-17 | 2021-07-11 | 日商愛酷賽股份有限公司 | 集群分析方法、集群分析系統、及集群分析程式 |
US11636144B2 (en) | 2019-05-17 | 2023-04-25 | Aixs, Inc. | Cluster analysis method, cluster analysis system, and cluster analysis program |
TWI806069B (zh) * | 2019-05-17 | 2023-06-21 | 日商愛酷賽股份有限公司 | 集群分析方法、集群分析系統、及集群分析程式 |
JP7490241B2 (ja) | 2019-05-17 | 2024-05-27 | 株式会社アイエクセス | クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4769151B2 (ja) | 2011-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nunez‐Mir et al. | Automated content analysis: addressing the big literature challenge in ecology and evolution | |
Carpineto et al. | Exploiting the potential of concept lattices for information retrieval with CREDO. | |
Chakrabarti et al. | A graph-theoretic approach to webpage segmentation | |
US9183436B2 (en) | Matching text to images | |
Crescenzi et al. | Clustering web pages based on their structure | |
JP4769151B2 (ja) | 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 | |
US20090327259A1 (en) | Automatic concept clustering | |
KR100859918B1 (ko) | 사용자 피드백을 이용하여 검색된 컨텐츠를 평가하고 평가결과를 이용하여 검색 결과를 제공하는 방법 및 장치 | |
JP2008210024A (ja) | 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 | |
JP2011154668A (ja) | ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法 | |
Joshi et al. | Web document text and images extraction using DOM analysis and natural language processing | |
KR101543680B1 (ko) | 인터넷을 활용한 개체 검색과 이를 위한 하이브리드 기반의 의견분석 시스템 및 그 방법 | |
JP2007164633A (ja) | コンテンツ検索方法及び装置及びプログラム | |
Wei et al. | DF-Miner: Domain-specific facet mining by leveraging the hyperlink structure of Wikipedia | |
Feng et al. | Web page segmentation and its application for web information crawling | |
JP2004240887A (ja) | 検索情報表示システム及び検索キーワード情報表示方法及び検索キーワード情報表示プログラム | |
CN109213830B (zh) | 专业性技术文档的文档检索系统 | |
JP2014102625A (ja) | 情報検索システム、プログラム、および方法 | |
Moumtzidou et al. | Discovery of environmental nodes in the web | |
Murata | Visualizing the structure of web communities based on data acquired from a search engine | |
JP5368900B2 (ja) | 情報提示装置、情報提示方法およびプログラム | |
Yang et al. | Web site topic‐hierarchy generation based on link structure | |
Rana et al. | Analysis of web mining technology and their impact on semantic web | |
Kim et al. | Formulating representative features with respect to genre classification | |
Lindholm | Extracting content from online news sites |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080908 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20090609 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20100520 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110614 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110617 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4769151 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140624 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |