JP6145064B2 - 文書集合分析装置、文書集合分析方法、文書集合分析プログラム - Google Patents
文書集合分析装置、文書集合分析方法、文書集合分析プログラム Download PDFInfo
- Publication number
- JP6145064B2 JP6145064B2 JP2014043387A JP2014043387A JP6145064B2 JP 6145064 B2 JP6145064 B2 JP 6145064B2 JP 2014043387 A JP2014043387 A JP 2014043387A JP 2014043387 A JP2014043387 A JP 2014043387A JP 6145064 B2 JP6145064 B2 JP 6145064B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- relationship
- documents
- node
- document set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
関係性評価ステップによって評価された関係性と、あらかじめ決められた基準に基づき文書間の関係有無を特定する関係抽出ステップと、ユーザの要求により指定された観点と関係の強い観点文書を特定する観点文書抽出ステップと、関係抽出ステップによって特定された文書間の関係と、観点文書抽出手段によって抽出された観点文書とを利用し、個々の文書における他の文書との関係の高さを示す指標と、個々の文書における観点文書との関係の高さを示す指標とで各文書のスコアを算出するスコア算出ステップと、関係抽出ステップによって得られた文書間の関係と、スコア算出手段によって得られた個々の文書のスコアを利用して、文書集合の全体から文書集合中に含まれる話題や話題に関連する文書の集合と、該集合中での個々の文書の役割を特定する情報分析ステップと、関係抽出ステップとスコア算出ステップと情報分析ステップとによって得られた情報を元に文書集合中に含められる主要な話題のリストやその話題について示す文書を出力する情報出力ステップと、を有する。
図1に基づき前記文書集合分析装置の構成例を説明する。ここでは前記文書集合分析装置1は、ユーザクライアント2とネットワークを通じてデータ通信可能に接続されているものとする。このユーザクライアント2は、ユーザ所有のパーソナルコンピュータ(PC)やスマートフォンなどでよい。
文書集合特定部10は、ユーザクライアント2を通じて入力されたユーザからの要求もしくは予め決められた基準、即ち「文書集合の条件」を元に文書DB100にアクセスし、「文書集合の条件」に合致する複数文書で構成される文書集合を特定する。
関係抽出部30は、関係性評価部20で評価した文書間の関係性を元に、文書間が予め決められた基準を満たす関係を有するか否かを特定する。例えば文書間の関係を行列Aと表現した場合、式(1)のように定義することができる。
観点文書抽出部40は、ユーザクライアント2を通じて入力されたユーザからの観点を元に文書集合特定部10の特定した文書集合の中から観点文書を抽出する。例えば、ユーザから与えられた「分析の観点」が「ニュースになった話題を中心に分析したい」というものであれば、文書のタイプがニュース記事であるものを観点文書として抽出する。
スコア算出部50は、関係抽出部30にて得られた文書間の関係を、文書をノードとみなして文書間の関係を重み付きのエッジとする図2のグラフ構造とみなし、さらに観点文書抽出部40で得られた観点文書をユーザの注目点とみなし、文書群内の文書相互の関連性および観点文書との関連性を考慮したスコアを計算する。なお、前記グラフ構造ではユーザの観点、即ち観点文書は観点ノードとして表現されている。例えば図2のグラフ構造ではノードa1,a2のようにノードの一部が観点ノードとして扱われる。
グラフ構造構築部60では、関係抽出部30から得た文書間の関連性と、スコア算出部50から得た各文書に該当するノードのスコアとを元に図3に示す3次元のグラフ構造を構築する。
頂点ノード抽出部61では、グラフ構造構築部60で構築された3次元のグラフ構造から、ノードとノードとを繋ぐ辺(エッジ)で連結している自身以外のノード(文書と一対一で対応)より高いスコアを持つノードを頂点として抽出する。
山状ノード群特定部62では、頂点ノード抽出部61で抽出された頂点ノードから、スコアが低くなる方向にグラフ構造をたどってノードで構成される山(山型)を特定する。これにより頂点ノードを中心に前記山を構成する山状のノード群が特定される。なお、ノード抽出の詳細はラベル付け部63にて説明する.
(8)ラベル付け部63
ラベル付け部63では、前記各部61,62で抽出した頂点ノードや山状のノード群、それらノード間の関係について三種類のラベル付けをおこなう。このラベル付けの前にグラフ構造とスコアについて考察すると、スコア算出部50で示したスコアの定義によれば、観点ノードとの関係が強く、多くのエッジが存在するエリアのノードは高いスコアを持つ。
(A)最初に特定されるノードは、図3中で山の頂上にある頂点ノード、即ちノードb1,b2であり、山の頂上には必ず1つのノードが存在する。このノードb1,b2は観点ノードa1,a2から近く、周囲のノードから最も高い状態遷移があるノードであり、周囲のノードと最もよく関係するノードであることから、話題を最もよく表現する文書であるといえる。
以上の分析を下に行う三種類のラベル付けについて説明する。
情報出力部70では、前記各部30,50,63によって得られた「ノード間の関係」、「個々のノードのスコア」、「文書集合中での役割」を利用して文書集合の中の話題および該話題に関連する文書の情報を出力する。ここで出力された情報はネットワーク経由でユーザクライアント2の画面に表示され、ユーザに分析結果として提示される。
以下、図4に基づき前記文書集合分析装置1の処理プロセスを説明する。ここではユーザクライアント2から対象とする「文書集合の条件」および「分析の観点」をネットワーク経由で入力する場合の処理プロセスを説明する。
本発明は、上記実施形態に限定されるものではなく、各請求項に記載された範囲内で応用・変形して実施することができる。例えば「文書集合の条件」および「分析の観点」は、前記文書集合分析装置1の入力手段(キーボード,ポインティングデバイスなど)で入力してもよい。
2…ユーザクライアント
10…文書集合特定部(文書集合特定手段)
20…関係性評価部(関係性評価手段)
30…関係抽出部(関係抽出手段)
40…観点文書抽出部(観点文書抽出手段)
50…スコア算出部(スコア算出手段)
60…グラフ構造構築部(グラフ構造構築手段)
61…頂点ノード抽出部(頂点ノード抽出手段)
62…山状ノード群特定部(山状ノード群特定手段)
63…ラベル付け部(ラベル付け手段)
70…情報出力部(情報出力手段)
100…文書DB
Claims (5)
- 複数の電子文書の文書集合を分析し、文書集合からの話題を特定する文書集合分析装置であって、
ユーザの要求又は予め定められた条件に基づき文書集合を特定する文書集合特定手段と、
文書集合特定手段で特定された文書集合に含まれる各文書間の関係性を評価する関係性評価手段と、
関係性評価手段によって評価された関係性と、あらかじめ決められた基準に基づき文書間の関係有無を特定する関係抽出手段と、
ユーザの要求により指定された観点と関係の強い観点文書を特定する観点文書抽出手段と、
関係抽出手段によって特定された文書間の関係と、観点文書抽出手段によって抽出された観点文書とを利用し、個々の文書における他の文書との関係の高さを示す指標と、個々の文書における観点文書との関係の高さを示す指標とで各文書のスコアを算出するスコア算出手段と、
関係抽出手段によって得られた文書間の関係と、スコア算出手段によって得られた個々の文書のスコアを利用して、文書集合の全体から文書集合中に含まれる話題又は話題に関連する文書の集合と、該集合中での個々の文書の役割を特定する情報分析手段と、
関係抽出手段とスコア算出手段と情報分析手段とによって得られた情報を元に文書集合中に含められる主要な話題のリスト又はその話題について示す文書を出力する情報出力手段と、
を備えることを特徴とする文書集合分析装置。 - 情報分析手段は、文書間の関係と各文書のスコアとを元に文書間の関係を2次元で表現し、3次元目に各文書のスコアを配置することで文書集合を3次元のグラフ構造で表現するグラフ構造構築手段と、
グラフ構造構築手段で表現されたグラフ構造において、エッジで連結している自身以外のノードであって文書と一対一で対応するノードよりも高いスコアを持つノードを頂点として抽出する頂点ノード抽出手段と、
頂点ノード抽出手段で抽出された頂点ノードからスコアが低くなる方向にグラフ構造をたどってノードで構成される山を特定する山状ノード群特定手段と、
頂点ノード抽出手段で抽出された頂点ノードと該頂点ノードを中心に前記山を構成する山状のノード群とからノードの示す文書、前記山を構成する文書群、該文書群間の関係にラベル付けを行うラベル付け手段と、
を備えることを特徴とする請求項1記載の文書集合分析装置。 - 複数の電子文書の文書集合を分析し、文書集合からの話題を特定する装置の実行する文書集合分析方法であって、
ユーザの要求又は予め定められた条件に基づき文書集合を特定する文書集合特定ステップと、
文書集合特定ステップで特定された文書集合に含まれる各文書間の関係性を評価する関係性評価ステップと、
関係性評価ステップによって評価された関係性と、あらかじめ決められた基準に基づき文書間の関係有無を特定する関係抽出ステップと、
ユーザの要求により指定された観点と関係の強い観点文書を特定する観点文書抽出ステップと、
関係抽出ステップによって特定された文書間の関係と、観点文書抽出手段によって抽出された観点文書とを利用し、個々の文書における他の文書との関係の高さを示す指標と、個々の文書における観点文書との関係の高さを示す指標とで各文書のスコアを算出するスコア算出ステップと、
関係抽出ステップによって得られた文書間の関係と、スコア算出手段によって得られた個々の文書のスコアを利用して、文書集合の全体から文書集合中に含まれる話題又は話題に関連する文書の集合と、該集合中での個々の文書の役割を特定する情報分析ステップと、
関係抽出ステップとスコア算出ステップと情報分析ステップとによって得られた情報を元に文書集合中に含められる主要な話題のリスト又はその話題について示す文書を出力する情報出力ステップと、
を有することを特徴とする文書集合分析方法。 - 情報分析ステップは、文書間の関係と各文書のスコアとを元に文書間の関係を2次元で表現し、3次元目に各文書のスコアを配置することで文書集合を3次元のグラフ構造で表現するグラフ構造構築ステップと、
グラフ構造構築ステップで表現されたグラフ構造において、エッジで連結している自身以外のノードであって文書と一対一で対応するノードよりも高いスコアを持つノードを頂点として抽出する頂点ノード抽出ステップと、
頂点ノード抽出ステップで抽出された頂点ノードからスコアが低くなる方向にグラフ構造をたどってノードで構成される山を特定する山状ノード群特定ステップと、
頂点ノード抽出ステップで抽出された頂点ノードと該頂点ノードを中心に前記山を構成する山状のノード群とからノードの示す文書、前記山を構成する文書群、該文書群間の関係にラベル付けを行うラベル付けステップと、
を有することを特徴とする請求項3記載の文書集合分析方法。 - 請求項1または2のいずれか1項に記載の文書集合分析装置としてコンピュータを機能させる文書集合分析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014043387A JP6145064B2 (ja) | 2014-03-06 | 2014-03-06 | 文書集合分析装置、文書集合分析方法、文書集合分析プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014043387A JP6145064B2 (ja) | 2014-03-06 | 2014-03-06 | 文書集合分析装置、文書集合分析方法、文書集合分析プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015170062A JP2015170062A (ja) | 2015-09-28 |
JP6145064B2 true JP6145064B2 (ja) | 2017-06-07 |
Family
ID=54202767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014043387A Active JP6145064B2 (ja) | 2014-03-06 | 2014-03-06 | 文書集合分析装置、文書集合分析方法、文書集合分析プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6145064B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6959164B2 (ja) * | 2018-02-19 | 2021-11-02 | ヤフー株式会社 | 生成装置、生成方法、及び生成プログラム |
JP6976202B2 (ja) * | 2018-03-14 | 2021-12-08 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
CN113127572B (zh) * | 2019-12-31 | 2023-03-03 | 深圳云天励飞技术有限公司 | 档案合并方法、装置、设备及计算机可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3964630B2 (ja) * | 2001-03-07 | 2007-08-22 | 日本電信電話株式会社 | 情報検索装置と情報検索プログラムおよび該プログラムを記録した記録媒体 |
JP4769151B2 (ja) * | 2006-09-01 | 2011-09-07 | 日本電信電話株式会社 | 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 |
-
2014
- 2014-03-06 JP JP2014043387A patent/JP6145064B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015170062A (ja) | 2015-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210049198A1 (en) | Methods and Systems for Identifying a Level of Similarity Between a Filtering Criterion and a Data Item within a Set of Streamed Documents | |
US11126647B2 (en) | System and method for hierarchically organizing documents based on document portions | |
JP6646650B2 (ja) | データ項目をスパース分散表現にマッピングする方法およびシステム | |
US10146862B2 (en) | Context-based metadata generation and automatic annotation of electronic media in a computer network | |
WO2017097231A1 (zh) | 话题处理方法及装置 | |
US9817908B2 (en) | Systems and methods for news event organization | |
US20160098433A1 (en) | Method for facet searching and search suggestions | |
US9875301B2 (en) | Learning multimedia semantics from large-scale unstructured data | |
JP2019537128A (ja) | 複数のデータ表現間の類似性を識別するための方法およびシステム | |
US20160034514A1 (en) | Providing search results based on an identified user interest and relevance matching | |
US9720979B2 (en) | Method and system of identifying relevant content snippets that include additional information | |
US20160188633A1 (en) | A method and apparatus for tracking microblog messages for relevancy to an entity identifiable by an associated text and an image | |
Hou et al. | Newsminer: Multifaceted news analysis for event search | |
KR100954842B1 (ko) | 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체 | |
KR20150018880A (ko) | 정보 취합 분류의 디스플레이 방법 및 시스템 | |
KR101607468B1 (ko) | 콘텐츠에 대한 키워드 태깅 방법 및 시스템 | |
Chen et al. | Modeling and exploiting tag relevance for Web service mining | |
Gorrell et al. | Using@ Twitter conventions to improve# LOD-based named entity disambiguation | |
JP2008210024A (ja) | 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 | |
JP2023551418A (ja) | 意味マップの生成におけるデータ項目フィンガープリントの再利用のための方法およびシステム | |
US9552415B2 (en) | Category classification processing device and method | |
JP6145064B2 (ja) | 文書集合分析装置、文書集合分析方法、文書集合分析プログラム | |
KR101931859B1 (ko) | 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템 | |
Avigdor-Elgrabli et al. | Structural clustering of machine-generated mail | |
US9323721B1 (en) | Quotation identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160223 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170110 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170306 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170321 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170421 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170509 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170512 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6145064 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |