JP2011227742A - Contrast display data generation device or contrast display data generation method - Google Patents
Contrast display data generation device or contrast display data generation method Download PDFInfo
- Publication number
- JP2011227742A JP2011227742A JP2010097535A JP2010097535A JP2011227742A JP 2011227742 A JP2011227742 A JP 2011227742A JP 2010097535 A JP2010097535 A JP 2010097535A JP 2010097535 A JP2010097535 A JP 2010097535A JP 2011227742 A JP2011227742 A JP 2011227742A
- Authority
- JP
- Japan
- Prior art keywords
- subject
- group
- specific
- similarity
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
この発明は、対比表示データ生成装置に関し、特に、マクロ分析およびミクロ分析の相互利用に関する。 The present invention relates to a contrast display data generation apparatus, and more particularly to mutual use of macro analysis and micro analysis.
特許文献1には、様々な関係への言及を含む可能性のあるニュース、ブログ、業界レポート、業界紙(誌)等の様々な形態のテキストから、データマイニングによって時系列的な関係やイベントを抽出するためのエンティティ関係マイニング装置が開示されている。
In
かかる装置により、着目する企業と直接関わりのある業界・分野内の他企業動向等のいわゆるミクロ環境を分析することができる。 With such an apparatus, it is possible to analyze a so-called microenvironment such as a trend of other companies in the industry / field directly related to the company of interest.
しかし、上記特許文献1においては、企業の戦略策定に大きな影響を及ぼす、法的規制・金利動向・環境問題など、いわゆるマクロ環境を考慮した分析は困難であるという問題があった。
However, the above-mentioned
この発明は、上記の問題点を解決して、マクロ分析とミクロ分析を関連づけて提示できる対比表示データ生成装置を提供することを目的とする。 An object of the present invention is to provide a contrast display data generation apparatus that solves the above-described problems and can present a macro analysis and a micro analysis in association with each other.
(1)本発明にかかる対比表示データ生成装置は、A)主体を特定するための主体特定ワードを1または2以上記憶する主体特定ワード記憶手段、B)本文および作成時期データが対応づけられた文書データが与えられると、各文書データの本文に前記1または2以上の主体特定ワードが存在するか否か判断し、前記本文に前記1または2以上の主体特定ワードが存在する場合には前記主体特定ワードで特定される主体毎別に主体別微視的観点群に分類し、前記本文に、主体特定ワードが存在しない場合には巨視的観点群に分類する分類手段、C)前記分類結果を記憶する分類結果記憶手段、D)前記巨視的観点群に属する文書の本文におけるワード出現度に基づいて、文書毎に、文書別キーワードを1または2以上決定し、各文書別キーワードが合致する文書を類似度別群に分類するとともに、各類似度別群における類似度別群代表キーワードを1または2以上決定する類似度別群代表キーワード決定手段、E)操作者の指定した、または抽出対象として予め定められた主体特定ワードについて、当該主体特定ワードで特定される主体別微視的観点群に属する文書の本文における出現度に基づいて、当該主体別微視的観点群の主体別微視的観点群代表キーワードを1または2以上決定する主体別微視的観点群代表キーワード決定手段、F)前記各主体別微視的観点群代表キーワードと、前記各類似度別群文書別キーワードとの合致度から主体別微視的観点群と類似度別群との類似度を判断する類似度判断手段、G)前記主体別微視的観点群と類似度別群との類似度が所定の閾値よりも高い組み合わせを抽出し、抽出された主体別微視的観点群に属する文書データの文書特定データおよび類似度別群に属する文書の文書データ特定データを群毎に、同じ時間軸上に前記作成時期の時系列順に並べた関連表示データを生成する生成手段を備えている。 (1) In the comparison display data generating device according to the present invention, A) subject specifying word storage means for storing one or more subject specifying words for specifying the subject, B) text and creation time data are associated with each other. When document data is given, it is determined whether or not the one or more subject specifying words exist in the body of each document data, and if the one or more subject specifying words exist in the body, Classifying means for classifying each subject specified by the subject specifying word into a microscopic viewpoint group for each subject, and when the subject specifying word does not exist, classifying means into a macroscopic viewpoint group, C) A classification result storage means for storing; D) one or more keywords for each document are determined for each document based on the word appearance degree in the body of the document belonging to the macroscopic viewpoint group; Classifying matching documents into groups by similarity, and group representative keywords determining means by similarity for determining one or more groups representative keywords by similarity in each group by similarity, E) designated by the operator, or For subject-specific words predetermined as extraction targets, by subject-specific microscopic viewpoint group based on the degree of appearance in the text of the document belonging to the subject-specific microscopic viewpoint group specified by the subject-specific word A subject-specific microscopic viewpoint group representative keyword determining means for determining one or more microscopic viewpoint group representative keywords; F) each subject-specific microscopic viewpoint group representative keyword and each similarity-specific group document keyword G) similarity determination means for determining the similarity between the subject-specific microscopic viewpoint group and the similarity-specific group; and G) the similarity between the subject-specific microscopic viewpoint group and the similarity-specific group is predetermined. Than the threshold of The document creation data extracted from the subject-specific microscopic viewpoint group and the document data identification data of the document belonging to the similarity-specific group are created on the same time axis for each group. Generating means for generating related display data arranged in chronological order.
したがって、主体別微視的観点群に属する文書特定データと、主体別微視的観点群に属する文書特定データを同じ時間軸に並べた対比データを生成することができる。 Therefore, it is possible to generate comparison data in which document specifying data belonging to the subject-specific microscopic viewpoint group and document specifying data belonging to the subject-specific microscopic viewpoint group are arranged on the same time axis.
(2)本発明にかかる対比表示データ生成装置は、A)主体を特定するための主体特定ワードを記憶する主体特定ワード記憶手段、B)作成時期データが対応づけられた文書データが与えられると、各文書データについて前記主体特定ワードが存在するか否か判断し、前記主体特定ワードが存在する場合には前記主体特定ワードで特定される主体毎に主体別微視的観点群に分類し、前記主体特定ワードが存在しない場合には巨視的観点群に分類する分類手段、C)前記分類結果を記憶する分類結果記憶手段、D)前記巨視的観点群に属する文書について、文書毎に、文書別キーワードを決定し、決定した各文書別キーワードに基づいて類似度別群に分類するとともに、各類似度別群における類似度別群代表キーワードを決定する類似度別群代表キーワード決定手段、E)操作者の指定した、または抽出対象として予め定められた主体特定ワードについて、前記各主体別微視的観点群に属する文書について、主体別微視的観点群別に代表キーワードを決定する主体別微視的観点群代表キーワード決定手段、F)前記主体別微視的観点群代表キーワード決定手段が決定した前記主体別微視的観点群別の代表キーワードと、前記各類似度別群のキーワードとの類似度を判断する類似度判断手段、G)前記類似度判断手段が判断した前記主体別微視的観点群と類似度別群群との類似度が所定の閾値よりも高い組み合わせを抽出し、抽出された主体別微視的観点群に属する文書データの文書特定データおよび類似度別群に属する文書の文書データ特定データを群毎に、同じ時間軸上に前記作成時期の時系列順に並べた関連表示データを生成する生成手段を備えている。 (2) The comparison display data generating apparatus according to the present invention is provided with A) subject specifying word storage means for storing a subject specifying word for specifying the subject, and B) document data associated with creation time data. Determining whether or not the subject specifying word exists for each document data, and if the subject specifying word exists, classify each subject specified by the subject specifying word into a subject-specific microscopic viewpoint group, Classifying means for classifying into a macroscopic viewpoint group when the subject specifying word does not exist, C) Classification result storing means for storing the classification result, and D) Documents belonging to the macroscopic viewpoint group for each document. Another keyword is determined, classified into groups by similarity based on the determined keywords by document, and group representative key by similarity to determine a group representative keyword by similarity in each group by similarity Word determination means, E) For a subject-specific word designated by the operator or predetermined as an extraction target, a representative keyword is assigned to each subject-specific microscopic viewpoint group for each subject-specific microscopic viewpoint group. A subject-specific microscopic viewpoint group representative keyword determining means; F) a representative keyword for each subject-specific microscopic viewpoint group determined by the subject-specific microscopic viewpoint group representative keyword determining means; Similarity determination means for determining the similarity between the group keyword and G) the similarity between the subject-specific microscopic viewpoint group determined by the similarity determination means and the similarity-specific group group is higher than a predetermined threshold A combination is extracted, and the document creation data extracted from the subject-specific microscopic viewpoint group and the document data identification data of the document belonging to the similarity-specific group are created on the same time axis for each group. And a generating means for generating a related display data arranged in time series order.
したがって、主体別微視的観点群に属する文書特定データと、主体別微視的観点群に属する文書特定データを同じ時間軸に並べた対比データを生成することができる。 Therefore, it is possible to generate comparison data in which document specifying data belonging to the subject-specific microscopic viewpoint group and document specifying data belonging to the subject-specific microscopic viewpoint group are arranged on the same time axis.
(3)本発明にかかる対比表示データ生成装置においては、前記主体別微視的観点群代表キーワード決定手段は、操作者の指定した、または抽出対象として予め定められた主体特定ワード以外の主体特定ワードについても、前記各主体別微視的観点群に属する文書について、主体別微視的観点群別に代表キーワードを決定し、前記生成手段は、操作者の指定した、または抽出対象として予め定められた主体特定ワード以外の主体特定ワードで特定される主体別微視的観点群のうち、前記所定の閾値よりも高い組み合わせとなる主体別微視的観点群についても、前記同じ時間軸上に関連表示する。 (3) In the comparison display data generating device according to the present invention, the subject-specific microscopic viewpoint group representative keyword determining means specifies the subject other than the subject-specific word designated by the operator or predetermined as the extraction target. For the word, the representative keyword is determined for each subject-specific microscopic viewpoint group for the documents belonging to each subject-specific microscopic viewpoint group, and the generation means is specified by the operator or predetermined as an extraction target. Among subject-specific microscopic viewpoint groups specified by subject-specific words other than subject-specific words, subject-specific microscopic viewpoint groups that are combinations higher than the predetermined threshold are also related on the same time axis. indicate.
したがって、操作者の指定した、または抽出対象として予め定められた主体特定ワード以外の主体特定ワードで特定される主体別微視的観点群についても、関連表示することができる。これにより、操作者がかかる主体別微視的観点群についても主体別微視的分析を踏まえた巨視的観点分析が可能となる。 Accordingly, the subject-specific microscopic viewpoint group specified by the subject specifying word other than the subject specifying word specified by the operator or predetermined as the extraction target can be displayed in a related manner. As a result, a macroscopic viewpoint analysis based on the subject-specific microscopic analysis can be performed on the subject-specific microscopic viewpoint group.
(4)本発明にかかる対比表示データ生成プログラムは、コンピュータを以下の手段として機能させるための対比表示データ生成プログラムである。A)主体を特定するための主体特定ワードを記憶する主体特定ワード記憶手段、B)作成時期データが対応づけられた文書データが与えられると、各文書データについて前記主体特定ワードが存在するか否か判断し、前記主体特定ワードが存在する場合には前記主体特定ワードで特定される主体毎に主体別微視的観点群に分類し、前記主体特定ワードが存在しない場合には巨視的観点群に分類する分類手段、C)前記分類結果を記憶する分類結果記憶手段、D)前記巨視的観点群に属する文書について、文書毎に、文書別キーワードを決定し、決定した各文書別キーワードに基づいて類似度別群に分類するとともに、各類似度別群における類似度別群代表キーワードを決定する類似度別群代表キーワード決定手段、E)操作者の指定した、または抽出対象として予め定められた主体特定ワードについて、前記各主体別微視的観点群に属する文書について、主体別微視的観点群別に代表キーワードを決定する主体別微視的観点群代表キーワード決定手段、F)前記主体別微視的観点群代表キーワード決定手段が決定した前記主体別微視的観点群別の代表キーワードと、前記各類似度別群のキーワードとの類似度を判断する類似度判断手段、G)前記類似度判断手段が判断した前記主体別微視的観点群と類似度別群群との類似度が所定の閾値よりも高い組み合わせを抽出し、抽出された主体別微視的観点群に属する文書データの文書特定データおよび類似度別群に属する文書の文書データ特定データを群毎に、同じ時間軸上に前記作成時期の時系列順に並べた関連表示データを生成する生成手段。 (4) A comparison display data generation program according to the present invention is a comparison display data generation program for causing a computer to function as the following means. A) Subject specifying word storage means for storing a subject specifying word for specifying the subject, B) If document data associated with creation time data is given, whether or not the subject specifying word exists for each document data If the subject specifying word exists, classify it into a subject-specific microscopic viewpoint group for each subject specified by the subject specifying word, and macroscopic viewpoint group if the subject specifying word does not exist C) Classification result storage means for storing the classification result, D) For each document belonging to the macroscopic viewpoint group, a document-specific keyword is determined for each document, and based on the determined document-specific keywords A group representative keyword deciding means by similarity degree for determining a group representative keyword by similarity degree in each similarity degree group, and E) Is a subject-specific microscopic viewpoint group representative keyword determination that determines a representative keyword for each subject-specific microscopic viewpoint group for a subject belonging to each subject-specific microscopic viewpoint group for a subject-specific word predetermined as an extraction target Means F) a degree of similarity for determining the degree of similarity between the representative keyword for each subject-specific microscopic viewpoint group determined by the subject-specific micro-viewpoint group representative keyword determining means and the keyword for each similarity degree group Determining means, G) extracting a combination in which the similarity between the subject-specific microscopic viewpoint group determined by the similarity determining means and the similarity-specific group group is higher than a predetermined threshold, and extracting the subject-specific microscopic Generation of related display data in which document specific data of document data belonging to a general viewpoint group and document data specific data of a document belonging to a group classified by similarity are arranged for each group in the time series of the creation time on the same time axis Forming means.
したがって、主体別微視的観点群に属する文書特定データと、主体別微視的観点群に属する文書特定データを同じ時間軸に並べた対比データを生成することができる。 Therefore, it is possible to generate comparison data in which document specifying data belonging to the subject-specific microscopic viewpoint group and document specifying data belonging to the subject-specific microscopic viewpoint group are arranged on the same time axis.
(5)本発明にかかる対比表示データ生成方法は、コンピュータに主体を特定するための主体特定ワードを記憶しておき、前記コンピュータが、下記ステップを実行する。A)作成時期データが対応づけられた文書データが与えられると、各文書データについて前記主体特定ワードが存在するか否か判断し、前記主体特定ワードが存在する場合には前記主体特定ワードで特定される主体毎に主体別微視的観点群に分類し、前記主体特定ワードが存在しない場合には巨視的観点群に分類する分類し、分類結果を記憶するステップ、B)前記巨視的観点群に属する文書について、文書毎に、文書別キーワードを決定し、決定した各文書別キーワードに基づいて類似度別群に分類するとともに、各類似度別群における類似度別群代表キーワードを決定するステップ、C)操作者の指定した、または抽出対象として予め定められた主体特定ワードについて、前記各主体別微視的観点群に属する文書について、主体別微視的観点群別に代表キーワードを決定するステップ、D)前記主体別微視的観点群代表キーワード決定手段が決定した前記主体別微視的観点群別の代表キーワードと、前記各類似度別群のキーワードとの類似度を判断するステップ、E)前記類似度判断手段が判断した前記主体別微視的観点群と類似度別群群との類似度が所定の閾値よりも高い組み合わせを抽出し、抽出された主体別微視的観点群に属する文書データの文書特定データおよび類似度別群に属する文書の文書データ特定データを群毎に、同じ時間軸上に前記作成時期の時系列順に並べた関連表示データを生成するステップ。 (5) In the comparison display data generating method according to the present invention, a computer stores a subject specifying word for specifying a subject, and the computer executes the following steps. A) When document data associated with creation time data is given, it is determined whether or not the subject specifying word exists for each document data. If the subject specifying word exists, the subject specifying word is specified. A subject-specific microscopic viewpoint group for each subject to be classified, and when the subject-specific word does not exist, classify into a macroscopic viewpoint group, and store the classification result; B) the macroscopic viewpoint group Determining for each document a document keyword for each document belonging to the document, classifying the keyword into a group by similarity based on the determined document keyword, and determining a group representative keyword by similarity in each similarity group C) Subject-specific words designated by the operator or predetermined as extraction targets, and documents belonging to each subject-specific microscopic viewpoint group, A step of determining a representative keyword for each point group; D) a representative keyword for each subject-specific microscopic viewpoint group determined by the subject-specific microscopic viewpoint group representative keyword determining means; E) extracting a combination having a similarity between the subject-specific microscopic viewpoint group and the similarity group group determined by the similarity determination means being higher than a predetermined threshold Related display in which document specific data of document data belonging to a group of microscopic viewpoints by subject and document data specific data of documents belonging to a group by similarity are arranged for each group in the order of time series of the creation time on the same time axis Generating data.
したがって、主体別微視的観点群に属する文書特定データと、主体別微視的観点群に属する文書特定データを同じ時間軸に並べた対比データを生成することができる。 Therefore, it is possible to generate comparison data in which document specifying data belonging to the subject-specific microscopic viewpoint group and document specifying data belonging to the subject-specific microscopic viewpoint group are arranged on the same time axis.
以下、本発明における実施形態について、図面を参照して説明する。 Embodiments of the present invention will be described below with reference to the drawings.
(1. 機能ブロック図)
図1に、本発明の1実施形態にかかる対比表示データ生成表示装置1の機能ブロック図を示す。
(1. Functional block diagram)
FIG. 1 shows a functional block diagram of a comparison display data generation /
対比表示データ生成表示装置1は、文書記憶手段3、主体特定ワード記憶手段4、分類手段5、分類結果記憶手段6、類似度別群代表キーワード決定手段8、主体別微視的観点群代表キーワード決定手段7、類似度判断手段9、生成手段10、表示手段11を備えている。
The comparison display data generation /
文書記憶手段3は、本文と作成時期データが対応づけられた文書データを複数記憶する。主体特定ワード記憶手段4は、主体を特定するための主体特定ワード1または2以上を記憶する。分類手段5は、文書記憶手段3から、本文と作成時期データが対応づけられた文書データが与えられると、各文書データの本文に前記主体特定ワード記憶手段4に記憶された前記1または2以上の主体特定ワードが存在するか否か判断し、前記主体特定ワードが存在する場合には前記主体特定ワードで特定される主体毎に主体別微視的観点群に分類し、前記主体特定ワードが存在しない場合には巨視的観点群に分類する。分類結果記憶手段6は、前記分類結果を記憶する。
The document storage means 3 stores a plurality of document data in which the text and the creation time data are associated with each other. The subject specifying word storage unit 4 stores the
類似度別群代表キーワード決定手段8は、前記巨視的観点群に属する文書について、各文書の本文におけるワード出現度に基づいて、文書毎に、文書別キーワードを1または2以上決定し、各文書別キーワードが合致する文書を類似度別群に分類するとともに、各類似度別群における類似度別群代表キーワードを1または2以上決定する。主体別微視的観点群代表キーワード決定手段7は、操作者の指定した、または抽出対象として予め定められた主体特定ワードについて、当該主体特定ワードで特定される主体別微視的観点群に属する文書における出現度に基づいて、当該主体別微視的観点群の主体別微視的観点群代表キーワードを1または2以上決定する。類似度判断手段9は、前記各主体別微視的観点群代表キーワードと、前記各類似度別群文書別キーワードとの合致度から主体別微視的観点群と類似度別群との類似度を判断する。生成手段10は、前記主体別微視的観点群と類似度別群との類似度が所定の閾値よりも高い組み合わせを抽出し、抽出された主体別微視的観点群に属する文書データの文書特定データおよび類似度別群に属する文書の文書データ特定データを群毎に、同じ時間軸上に前記作成時期の時系列順に並べた関連表示データを生成する。表示手段11は生成された関連表示データを表示する。 The similarity-specific group representative keyword determining means 8 determines one or more document-specific keywords for each document based on the word appearance degree in the body of each document for the documents belonging to the macroscopic viewpoint group. Documents that match different keywords are classified into groups according to similarities, and one or two or more group representative keywords according to similarities in each similarity degree group are determined. The subject-specific microscopic viewpoint group representative keyword determining means 7 belongs to the subject-specific microscopic viewpoint group specified by the subject specifying word for the subject specifying word designated by the operator or predetermined as the extraction target. Based on the degree of appearance in the document, one or more subject-specific microscopic viewpoint group representative keywords of the subject-specific microscopic viewpoint group are determined. Similarity determination means 9 determines the similarity between the subject-specific microscopic viewpoint group and the similarity-specific group based on the degree of coincidence between the subject-specific microscopic viewpoint group representative keyword and the similarity-specific group-specific keyword. Judging. The generation means 10 extracts a combination of the subject-specific microscopic viewpoint group and the similarity-specific group having a similarity higher than a predetermined threshold, and the document data document belonging to the extracted subject-specific microscopic viewpoint group Related display data in which document data specifying data of documents belonging to specific data and similarity groups is arranged for each group in the time series of the creation time on the same time axis is generated. The display means 11 displays the generated related display data.
このように、本実施形態においては、以下の1)〜5)の処理をしているので、主体別微視的観点群に属する文書と、主体別微視的観点群に属する文書を同じ時間軸に並べた対比データを生成することができる。1)各文書データの本文に前記主体特定ワードが存在するか否か判断し、主体別微視的観点群と巨視的観点群に分類する。2)この巨視的観点群に属する文書について、各文書におけるワード出現度に基づいて、類似度別群に分類するとともに、各類似度別群における類似度別群代表キーワードを決定する。3)主体別微視的観点群に属する文書における出現度に基づいて、当該主体別微視的観点群の主体別微視的観点群代表キーワードを決定する。4)前記各主体別微視的観点群代表キーワードと、前記各類似度別群文書別キーワードとの合致度から主体別微視的観点群と類似度別群との類似度を判断する。5)前記主体別微視的観点群と類似度別群との類似度が所定の閾値よりも高い組み合わせを抽出し、抽出された主体別微視的観点群に属する文書データの文書特定データおよび類似度別群に属する文書の文書データ特定データを群毎に、同じ時間軸上に前記作成時期の時系列順に並べた関連表示データを生成する。 As described above, in the present embodiment, since the following processes 1) to 5) are performed, a document belonging to the subject-specific microscopic viewpoint group and a document belonging to the subject-specific microscopic viewpoint group are processed at the same time. Comparison data arranged on the axis can be generated. 1) It is determined whether or not the subject specifying word exists in the body of each document data, and classified into a subject-specific microscopic viewpoint group and a macroscopic viewpoint group. 2) The documents belonging to this macroscopic viewpoint group are classified into groups by similarity based on the word appearance degree in each document, and a group representative keyword by similarity is determined in each group by similarity. 3) Based on the degree of appearance in the document belonging to the subject-specific microscopic viewpoint group, the subject-specific microscopic viewpoint group representative keyword of the subject-specific microscopic viewpoint group is determined. 4) The similarity between the subject-specific microscopic viewpoint group and the similarity-specific group is determined from the degree of coincidence between the subject-specific microscopic viewpoint group representative keyword and the similarity-specific group-specific keyword. 5) extracting the combination of the subject-specific microscopic viewpoint group and the similarity-specific group having a similarity higher than a predetermined threshold, and specifying the document specifying data of the document data belonging to the extracted subject-specific microscopic viewpoint group; Related display data in which document data specifying data of documents belonging to groups by similarity is arranged for each group in the time series of the creation time on the same time axis is generated.
(2. ハードウェア構成)
図1に示す対比表示データ生成表示装置1のハードウェア構成について、図2を用いて説明する。同図は、対比表示データ生成表示装置1を、CPUを用いて構成したハードウェア構成の一例である。
(2. Hardware configuration)
The hardware configuration of the comparison display data generation /
対比表示データ生成表示装置1は、CPU23、メモリ27、ハードディスク26、モニタ30、光学式ドライブ25、入力デバイス28(マウス28a,キーボード28b)、およびバスライン29を備えている。CPU23は、ハードディスク26に記憶された各プログラムにしたがいバスライン29を介して、各部を制御する。
The comparison display data generation /
ハードディスク26は、オペレーティングシステムプログラム26o(以下OSと略す)、メインプログラム26mが記憶されており、各種のデータが記憶される。本実施形態においては、オペレーティングシステムプログラム(OS)26oとして、LINUX(登録商標または商標)を採用したが、これに限定されるものではない。
The
なお、上記各プログラムは、光学式ドライブ25を介して、プログラムが記憶されたCD−ROM25aから読み出されてハードディスク26にインストールされたものである。なお、CD−ROM以外に、フレキシブルディスク(FD)、ICカード等のプログラムをコンピュータ可読の記録媒体から、ハードディスクにインストールさせるようにしてもよい。さらに、通信回線を用いてダウンロードするようにしてもよい。
Each of the above programs is read from the CD-
本実施形態においては、プログラムをCD−ROMからハードディスク26にインストールさせることにより、CD−ROMに記憶させたプログラムを間接的にコンピュータに実行させるようにしている。しかし、これに限定されることなく、CD−ROMに記憶させたプログラムを光学式ドライブ25から直接的に実行するようにしてもよい。なお、コンピュータによって、実行可能なプログラムとしては、そのままインストールするだけで直接実行可能なものはもちろん、一旦他の形態等に変換が必要なもの(例えば、データ圧縮されているものを、解凍する等)、さらには、他のモジュール部分と組合して実行可能なものも含む。
In the present embodiment, the program stored in the CD-ROM is indirectly executed by the computer by installing the program from the CD-ROM to the
ハードディスク26に記憶される各種データのデータ構造について説明する。文書記憶部26dには、図3に示すような文書が記憶されている。各文書は、文書ID301、日時302、本文303を有する。文書ID301は、文書を一意に特定するための識別子である。日時302は、当該文書の作成日時である。本文303は、当該文書の内容を表すテキストデータである。例えば文書ID「D001」の文書は、作成日時が「2003/03/30 016:43:00」、本文が「X社が携帯向け製品○○を発表…」であることを表している。
The data structure of various data stored in the
企業名抽出辞書26kには、ミクロ分析の対象とする企業名が複数記憶されている。本実施形態においては、企業名として、「X社」「A社」「B社」「C社」「D社」の5つを記憶した。マクロ分類所属決定辞書26mdには、後述するミクロ分析対象とされなかった文書について、各文書の本文の記述されたテキストデータに基づいて、マクロ分析の細分類カテゴリーのいずれに属するかを決定するための分類データが記憶されている。本実施形態においては、各文書について代表キーワードを決定して、この代表キーワードについて、概念辞書を用いて、マクロ環境分析における分類軸である「政治」・「経済」・「社会」・「技術」の4つのカテゴリのいずれに属するかを決定するようにした。概念辞書としては、たとえば、WordNet(商標)(http://wordnet.princeton.edu/)を採用すればよい。
The company
分類結果記憶部26r、群別代表ワード記憶部26g、群間関連記憶部26gkに記憶されるデータのデータ構造については、後述する。
The data structure of data stored in the classification
(3.メインプログラムによる処理)
メインプログラム26mに基づく処理について、図4のフローチャートを用いて説明する。
(3. Processing by the main program)
Processing based on the
CPU23は文書分類処理を行う(図4ステップS1)。文書分類処理の詳細フローチャートを図5に示す。以下、分類対象として図3に示す文書を分類する場合を例として説明する。
The
CPU23は対象文書番号nを初期化する(ステップS11)。CPU23は、対象文書番号n番目の文書が企業名を含むか否か判断する(ステップS13)。この場合、n=1であるので、CPU23は、1番目の文書ID「D001」について、本文に企業名を含むか否かを判断する。この場合、企業名抽出辞書26kには、既に説明したように、企業名として、「X社」「A社」「B社」「C社」「D社」が記憶されている。したがって、CPU23は、文書ID「D001」について、本文に企業名を含むと判断して、文書ID「D001」について、分類軸ラベルを「X社」、種別「企業」とする。
The
CPU23は、ステップS15で決定した文書ID「D001」について、分類軸ラベル「X社」、種別「企業」を分類結果として分類結果記憶部に記憶する(ステップS19)。CPU23は、全て終了したか否か判断する(図5ステップS21)。この場合、終了していないので、対象文書番号nをインクリメントする。
The
CPU23は、対象文書番号n番目の文書が企業名を含むか否か判断する(ステップS13)。この場合、n=2であるので、CPU23は、2番目の文書ID「D002」について、本文に企業名を含むか否かを判断する。この場合、CPU23は、文書ID「D002」について、本文に企業名を含むと判断して、文書ID「D002」について、分類軸ラベルを「X社」、種別「企業」とする。
The
CPU23は、ステップS15で決定した文書ID「D002」について、分類軸ラベル「X社」、種別「企業」を分類結果として分類結果記憶部に記憶する(ステップS19)。
The
以下、ステップS23からステップS13の処理を繰り返す。そして、ステップS23にて、nをインクリメントした結果、n=11となると、ステップS13にて、11番目の文書ID「D011」についての判断がなされる。この場合、本文に企業名を含まないので、ステップS17に進み、文書ID「D011」について、代表キーワードを重要語として抽出すると共に、マクロ分析のカテゴリ決定処理を行う(ステップS17)。代表キーワードの決定処理は、本文のテキストから重要語を抽出すればよい。重要語は、形態素解析エンジン等を用いて、本文のテキストからキーワードを抽出し、最も頻度の大きなキーワードを選択すればよい。また、テキストの構造を解析し、タイトルや本文の一行目のように、重要語が含まれる可能性の高い箇所のキーワードには重みを付けるようにしてもよい。その他、一般的なtf-idf法などを採用してもよい。 Thereafter, the processing from step S23 to step S13 is repeated. If n is incremented as a result of incrementing n in step S23, the eleventh document ID “D011” is determined in step S13. In this case, since the company name is not included in the text, the process proceeds to step S17, where the representative keyword is extracted as an important word for the document ID “D011”, and the macro analysis category determination process is performed (step S17). The representative keyword determination process may be performed by extracting an important word from the body text. For the important word, a keyword is extracted from the text of the body using a morphological analysis engine or the like, and the keyword with the highest frequency may be selected. Also, the structure of the text may be analyzed, and keywords such as the title and the first line of the body that are likely to contain important words may be weighted. In addition, a general tf-idf method or the like may be employed.
ここでは、代表キーワードとして、「携帯サイト規制法」が特定される。なお、かかる代表キーワードは概念辞書により、分類軸「政治」に該当すると判断されたものとする。 Here, the “mobile site regulation law” is specified as a representative keyword. It is assumed that the representative keyword is determined by the concept dictionary to correspond to the classification axis “politics”.
CPU23は、ステップS17で決定した文書ID「D011」について、分類軸ラベル「携帯サイト規制法」、種別「政治」を分類結果として分類結果記憶部に記憶する(ステップS19)。
For the document ID “D011” determined in step S17, the
以下、全ての文書について、ステップS13〜ステップS19の処理を行った場合には、文書分類処理を終了する。 Hereinafter, when the processes of steps S13 to S19 are performed for all documents, the document classification process is terminated.
図6に、分類結果記憶部26rに記憶された分類結果を示す。この実施形態では、CPU23は、分類結果記憶部26rに記憶する際に、分類軸ラベルの値が既に存在する場合には、同じ分類群IDを付与して記憶するようにしている。
FIG. 6 shows the classification results stored in the classification
つぎに、CPU23は、群別代表ワード決定処理を行う(図4ステップS3)。群別代表ワードは、同じ群に属する全ての文書について形態素解析を行い、当該群に属する文書が有する全キーワードから、tf-idf法等により、評価値が閾値を超えたワードを、1または2以上、決定すればよい。本実施形態においては、図7に示すような群別代表ワードが生成されたものとする。
Next, the
つぎに、CPU23は関連度決定処理を行う(図4ステップS5)。関連度決定処理の詳細フローチャートを図8に示す。CPU23は、分類群の一覧を取得する(ステップS31)。CPU23は対象群番号mを初期化する(ステップS33)。CPU23は、対象群番号m番目の群について、類似する他の群を抽出する(ステップS35)。この場合、m=1であるので、CPU23は、1番目の分類群ID「G001」のキーワード「X社」、「携帯」、「製品○○」を読み出して、他の群におけるキーワードとの類似度を判断する。これにより、分類群ID「G001」と「G002」、「G003」・・・・の群間類似度が得られる。
Next, the
CPU23は、結果を、群間関連記憶部26gkに記憶する(ステップS37)。かかる処理を全ての群について行うことにより、群間の関連度が得られる。なお、分類群ID「G001」を軸にして、他の分類群との関連度を演算しているので、既に関連度を求めた場合がある。その場合には計算を省略すればよい。
The
図9に、群間関連記憶部26gkに記憶された結果を示す。この場合、分類群G001が分類群G002と,分類群G001が分類群G003と、分類群G001が分類群G004と類似しており、また、分類群G004が分類群G005と類似しているとの関連結果が得られている。 FIG. 9 shows the results stored in the inter-group relation storage unit 26gk. In this case, the classification group G001 is similar to the classification group G002, the classification group G001 is similar to the classification group G003, the classification group G001 is similar to the classification group G004, and the classification group G004 is similar to the classification group G005. Relevant results have been obtained.
CPU23は、得られた群間関連度を表示する表示データを生成して、モニタ30に表示する(図4ステップS7)。本実施形態においては、図10に示すように、ミクロ分析結果とマクロ分析結果を同じ時間軸上に、群毎に分類して各文書の作成日時が対比できるように、表示する表示データを生成するようにした。具体的には、ミクロ分析結果表示領域510には、分類軸種別「企業」の分類群「G001」,「G002」、「G003」がそれぞれ配置されている。各分類群は、当該分類群に属する文書を特定する文書IDが時系列順に並べてられている。たとえば、分類群「G001」は、文書D001,D002、D003がそれぞれ、2003年、2005年、2007年の文書であることがわかるように表示されている。
CPU23 produces | generates the display data which display the obtained degree of association between groups, and displays it on the monitor 30 (FIG. 4 step S7). In this embodiment, as shown in FIG. 10, the display data to be displayed is generated so that the micro analysis result and the macro analysis result are classified into groups on the same time axis and the creation date and time of each document can be compared. I tried to do it. Specifically, classification groups “G001”, “G002”, and “G003” of the classification axis type “company” are arranged in the micro analysis
また、マクロ分析結果表示領域520には、分類軸種別「政治」G004,G005が表示される。分類群ID「G004」,「G005」の群には、当該分類群に属する文書を特定する文書IDが時系列順に並べてられている。たとえば、分類群「G004」は、文書D011,D012がそれぞれ、2005年、2009年の文書であることがわかるように表示されている。
In the macro analysis
したがって、操作者は、かかる表示を参考に、マクロ経済分析結果を参照したミクロ経済分析が可能となる。これにより、ビジネス環境分析、特に、ニュース記事や業界レポートなどのテキストを元に企業を取り巻く外部環境を分析し、マーケティング活動、あるいは戦略立案・策定を支援するビジネス分析環境装置およびその方法を提供することができる。 Therefore, the operator can perform a microeconomic analysis with reference to the macroeconomic analysis result with reference to the display. This provides a business analysis environment apparatus and method for supporting business environment analysis, particularly the external environment surrounding the company based on texts such as news articles and industry reports, and supporting marketing activities or strategy planning / development. be able to.
なお、この場合、分類群G001と関連する分類群G002、G003、G004だけでなく、かかる分類群G004と類似する分類群G005も表示されている。したがって、操作者が想定していなかった分析が可能となる。 In this case, not only the classification groups G002, G003, and G004 related to the classification group G001 but also the classification group G005 similar to the classification group G004 is displayed. Therefore, an analysis that is not assumed by the operator is possible.
なお、この場合、マクロ分析結果表示領域520の「経済」、「社会」、「技術」には、該当する分類群が存在しないので、これらは空欄である。
In this case, since there is no corresponding classification group in “economy”, “society”, and “technology” in the macro analysis
(4.他の実施形態)
本実施形態においては、対比データ生成表示装置として構成したが、生成装置として把握することもできる。また、文書データについては、別のコンピュータから取得するようにしてもよい。
(4. Other embodiments)
In the present embodiment, the comparison data generation / display apparatus is configured, but the comparison data generation / display apparatus can be grasped. Further, the document data may be acquired from another computer.
本実施形態においては、マクロデータをさらに4つのカテゴリー(政治、経済、社会、技術)に分かる場合について説明したが、カテゴリー数については任意としてもよい。 In the present embodiment, the case has been described in which the macro data is further known in four categories (politics, economy, society, technology), but the number of categories may be arbitrary.
本実施形態においては、企業名抽出辞書26kに記憶された企業について、全て、表示対象とするようにしたが、表示対象についてはさらに操作者から指定させるようにしてもよいし、また、表示対象を予め定めておいてもよい。
In the present embodiment, all companies stored in the company
さらに、対比表示データ生成表示装置が、類似する企業を候補として選択するようにしてもよい。選択手法としては、予め定められた主体について操作者の指定した、または抽出対象として予め定められた主体特定ワード以外の主体特定ワードについても、前記各主体別微視的観点群に属する文書について、主体別微視的観点群別に代表キーワードを決定する。そして、操作者の指定した、または抽出対象として予め定められた主体特定ワード以外の主体特定ワードで特定される主体別微視的観点群のうち、前記所定の閾値よりも高い組み合わせとなる主体別微視的観点群についても、前記同じ時間軸上に関連表示するようにすればよい。これにより、操作者が所望する企業以外についても、ミクロ分析結果表示領域510、マクロ分析結果表示領域520に対応させて表示することができる。
Furthermore, the comparison display data generation display device may select a similar company as a candidate. As a selection method, for a subject belonging to a subject-specific word other than a subject-specific word specified by an operator for a predetermined subject or predetermined as an extraction target, Representative keywords are determined for each group of microscopic viewpoints. Then, among the subject-specific microscopic viewpoint groups specified by the subject specifying word other than the subject specifying word specified by the operator or predetermined as the extraction target, the subject-specific combination that is higher than the predetermined threshold The microscopic viewpoint group may be displayed in association on the same time axis. As a result, companies other than those desired by the operator can be displayed in correspondence with the micro analysis
具体的には、操作者は、「X社」「A社」「B社」についてミクロ分析対象として特定したとして、これらと関係するマクロ分析対象のデータと高い創刊を有するのが、「C社」「D社」である場合に、かかる「C社」「D社」のミクロ分析結果をあわせて表示することができる。 Specifically, assuming that “Company X”, “Company A”, and “Company B” have been specified as micro analysis targets, the operator has data of macro analysis targets related to these and a high publication. In the case of “Company D”, the micro analysis results of “Company C” and “Company D” can be displayed together.
なお、上記実施形態においては、各群に属する全文書から群別代表ワードを決定し、各群別代表ワードの出現頻度に基づいてベクトルを生成し、それらの内積値を文書間の類似度と定義し、類似度の高いものを取得するようにした。しかしこれに限定されず、各群に属する全ての文書の本文テキストを連結したものを群別の種文書として、群別種文書間で類似度を判断するようにしてもよい。 In the above embodiment, the representative word for each group is determined from all the documents belonging to each group, a vector is generated based on the appearance frequency of each representative word for each group, and the inner product value is used as the similarity between documents. Defined and acquired high similarity. However, the present invention is not limited to this, and the degree of similarity between the group-specific types of documents may be determined by combining the body texts of all the documents belonging to each group as group-specific types of documents.
上記実施形態においては、図1に示す機能を実現するために、CPU23を用い、ソフトウェアによってこれを実現している。しかし、その一部もしくは全てを、ロジック回路などのハードウェアによって実現してもよい。なお、プログラムの一部の処理を、オペレーティングシステム(OS)にさせるようにしてもよい。
In the above embodiment, the
Claims (5)
本文および作成時期データが対応づけられた文書データが与えられると、各文書データの本文に前記1または2以上の主体特定ワードが存在するか否か判断し、前記本文に前記1または2以上の主体特定ワードが存在する場合には前記主体特定ワードで特定される主体毎別に主体別微視的観点群に分類し、前記本文に、主体特定ワードが存在しない場合には巨視的観点群に分類する分類手段、
前記分類結果を記憶する分類結果記憶手段、
前記巨視的観点群に属する文書の本文におけるワード出現度に基づいて、文書毎に、文書別キーワードを1または2以上決定し、各文書別キーワードが合致する文書を類似度別群に分類するとともに、各類似度別群における類似度別群代表キーワードを1または2以上決定する類似度別群代表キーワード決定手段、
操作者の指定した、または抽出対象として予め定められた主体特定ワードについて、当該主体特定ワードで特定される主体別微視的観点群に属する文書の本文における出現度に基づいて、当該主体別微視的観点群の主体別微視的観点群代表キーワードを1または2以上決定する主体別微視的観点群代表キーワード決定手段、
前記各主体別微視的観点群代表キーワードと、前記各類似度別群文書別キーワードとの合致度から主体別微視的観点群と類似度別群との類似度を判断する類似度判断手段、
前記主体別微視的観点群と類似度別群との類似度が所定の閾値よりも高い組み合わせを抽出し、抽出された主体別微視的観点群に属する文書データの文書特定データおよび類似度別群に属する文書の文書データ特定データを群毎に、同じ時間軸上に前記作成時期の時系列順に並べた関連表示データを生成する生成手段、
を備えた対比表示データ生成装置。 Subject specifying word storage means for storing one or more subject specifying words for specifying the subject,
When the document data in which the body text and the creation time data are associated with each other is given, it is determined whether or not the one or more subject specifying words exist in the body of each document data, and the one or two or more body identification words are included in the body. If there is a subject-specific word, classify the subject-specific microscopic viewpoint group for each subject specified by the subject-specific word, and if there is no subject-specific word, classify it as a macroscopic viewpoint group Classification means,
Classification result storage means for storing the classification result;
Based on the word appearance degree in the body text of the document belonging to the macroscopic viewpoint group, one or two or more document keywords are determined for each document, and the documents matching each document keyword are classified into the similarity group. , Group representative keyword determination means by similarity for determining one or more group representative keywords by similarity in each group by similarity,
For subject-specific words designated by the operator or predetermined as extraction targets, the subject-specific words are determined based on the appearance level of the document belonging to the subject-specific microscopic viewpoint group specified by the subject-specific words. A subject-specific microscopic viewpoint group representative keyword determining means for determining one or more subject-specific microscopic viewpoint group representative keywords of the visual viewpoint group;
Similarity determination means for determining the similarity between the subject-specific microscopic viewpoint group and the similarity-specific group from the degree of match between the subject-specific microscopic viewpoint group representative keyword and the similarity-specific group-specific keyword ,
The combination of the subject-specific microscopic viewpoint group and the similarity-specific group is extracted with a combination higher than a predetermined threshold, and the document specifying data and similarity of the document data belonging to the extracted subject-specific microscopic viewpoint group Generating means for generating related display data in which document data specifying data of documents belonging to different groups are arranged for each group in time series of the creation time on the same time axis;
A comparison display data generation device.
作成時期データが対応づけられた文書データが与えられると、各文書データについて前記主体特定ワードが存在するか否か判断し、前記主体特定ワードが存在する場合には前記主体特定ワードで特定される主体毎に主体別微視的観点群に分類し、前記主体特定ワードが存在しない場合には巨視的観点群に分類する分類手段、
前記分類結果を記憶する分類結果記憶手段、
前記巨視的観点群に属する文書について、文書毎に、文書別キーワードを決定し、決定した各文書別キーワードに基づいて類似度別群に分類するとともに、各類似度別群における類似度別群代表キーワードを決定する類似度別群代表キーワード決定手段、
操作者の指定した、または抽出対象として予め定められた主体特定ワードについて、前記各主体別微視的観点群に属する文書について、主体別微視的観点群別に代表キーワードを決定する主体別微視的観点群代表キーワード決定手段、
前記主体別微視的観点群代表キーワード決定手段が決定した前記主体別微視的観点群別の代表キーワードと、前記各類似度別群のキーワードとの類似度を判断する類似度判断手段、
前記類似度判断手段が判断した前記主体別微視的観点群と類似度別群群との類似度が所定の閾値よりも高い組み合わせを抽出し、抽出された主体別微視的観点群に属する文書データの文書特定データおよび類似度別群に属する文書の文書データ特定データを群毎に、同じ時間軸上に前記作成時期の時系列順に並べた関連表示データを生成する生成手段、
を備えた対比表示データ生成装置。 A subject specifying word storage means for storing a subject specifying word for specifying the subject,
When document data associated with creation time data is given, it is determined whether or not the subject specifying word exists for each document data. If the subject specifying word exists, the subject specifying word is specified by the subject specifying word. Classifying means for classifying each subject according to a microscopic viewpoint group for each subject, and when there is no subject specific word, classifying into a macroscopic viewpoint group,
Classification result storage means for storing the classification result;
For each document belonging to the macroscopic viewpoint group, a keyword for each document is determined for each document, classified into a group by similarity based on the determined keyword for each document, and a group representative by similarity in each group by similarity Group representative keyword determination means by similarity to determine keywords,
Subject-specific micros to determine representative keywords for each subject-specific microscopic viewpoint group for documents belonging to each subject-specific microscopic viewpoint group for subject-specific words specified by the operator or predetermined as extraction targets Representative viewpoint group representative keyword decision means,
Similarity determination means for determining the similarity between the representative keyword for each subject microscopic viewpoint group determined by the subject-specific microscopic viewpoint group representative keyword determination means and the keyword for each similarity degree group;
A combination in which the similarity between the subject-specific microscopic viewpoint group determined by the similarity determination means and the similarity-specific group group is higher than a predetermined threshold is extracted and belongs to the extracted subject-specific microscopic viewpoint group Generating means for generating related display data in which document specific data of document data and document data specific data of a document belonging to a group classified by similarity are arranged for each group in time series on the same time axis;
A comparison display data generation device.
前記主体別微視的観点群代表キーワード決定手段は、操作者の指定した、または抽出対象として予め定められた主体特定ワード以外の主体特定ワードについても、前記各主体別微視的観点群に属する文書について、主体別微視的観点群別に代表キーワードを1または2以上決定し、
前記生成手段は、操作者の指定した、または抽出対象として予め定められた主体特定ワード以外の主体特定ワードで特定される主体別微視的観点群のうち、前記所定の閾値よりも高い組み合わせとなる主体別微視的観点群についても、前記同じ時間軸上に関連表示すること、
を特徴とする対比表示データ生成装置。 In the comparison display data generation device according to claim 2,
The subject-specific microscopic viewpoint group representative keyword determining means belongs to the subject-specific microscopic viewpoint group even for subject-specific words other than the subject-specific words specified by the operator or predetermined as extraction targets. For a document, determine one or more representative keywords for each group of microscopic viewpoints by subject,
The generation means includes a combination higher than the predetermined threshold among the subject-specific microscopic viewpoint groups specified by the subject specifying word other than the subject specifying word specified by the operator or predetermined as the extraction target. The subject-specific microscopic viewpoint group is related and displayed on the same time axis,
A comparison display data generation device characterized by the above.
主体を特定するための主体特定ワードを記憶する主体特定ワード記憶手段、
作成時期データが対応づけられた文書データが与えられると、各文書データについて前記主体特定ワードが存在するか否か判断し、前記主体特定ワードが存在する場合には前記主体特定ワードで特定される主体毎に主体別微視的観点群に分類し、前記主体特定ワードが存在しない場合には巨視的観点群に分類する分類手段、
前記分類結果を記憶する分類結果記憶手段、
前記巨視的観点群に属する文書について、文書毎に、文書別キーワードを決定し、決定した各文書別キーワードに基づいて類似度別群に分類するとともに、各類似度別群における類似度別群代表キーワードを決定する類似度別群代表キーワード決定手段、
操作者の指定した、または抽出対象として予め定められた主体特定ワードについて、前記各主体別微視的観点群に属する文書について、主体別微視的観点群別に代表キーワードを決定する主体別微視的観点群代表キーワード決定手段、
前記主体別微視的観点群代表キーワード決定手段が決定した前記主体別微視的観点群別の代表キーワードと、前記各類似度別群のキーワードとの類似度を判断する類似度判断手段、
前記類似度判断手段が判断した前記主体別微視的観点群と類似度別群群との類似度が所定の閾値よりも高い組み合わせを抽出し、抽出された主体別微視的観点群に属する文書データの文書特定データおよび類似度別群に属する文書の文書データ特定データを群毎に、同じ時間軸上に前記作成時期の時系列順に並べた関連表示データを生成する生成手段。 A comparison display data generation program for causing a computer to function as the following means.
A subject specifying word storage means for storing a subject specifying word for specifying the subject,
When document data associated with creation time data is given, it is determined whether or not the subject specifying word exists for each document data. If the subject specifying word exists, the subject specifying word is specified by the subject specifying word. Classifying means for classifying each subject according to a microscopic viewpoint group for each subject, and when there is no subject specific word, classifying into a macroscopic viewpoint group,
Classification result storage means for storing the classification result;
For each document belonging to the macroscopic viewpoint group, a keyword for each document is determined for each document, classified into a group by similarity based on the determined keyword for each document, and a group representative by similarity in each group by similarity Group representative keyword determination means by similarity to determine keywords,
Subject-specific micros to determine representative keywords for each subject-specific microscopic viewpoint group for documents belonging to each subject-specific microscopic viewpoint group for subject-specific words specified by the operator or predetermined as extraction targets Representative viewpoint group representative keyword decision means,
Similarity determination means for determining the similarity between the representative keyword for each subject microscopic viewpoint group determined by the subject-specific microscopic viewpoint group representative keyword determination means and the keyword for each similarity degree group;
A combination in which the similarity between the subject-specific microscopic viewpoint group determined by the similarity determination means and the similarity-specific group group is higher than a predetermined threshold is extracted and belongs to the extracted subject-specific microscopic viewpoint group Generating means for generating related display data in which document specific data of document data and document data specific data of a document belonging to a group classified by similarity are arranged for each group in the time series of the creation time on the same time axis;
作成時期データが対応づけられた文書データが与えられると、各文書データについて前記主体特定ワードが存在するか否か判断し、前記主体特定ワードが存在する場合には前記主体特定ワードで特定される主体毎に主体別微視的観点群に分類し、前記主体特定ワードが存在しない場合には巨視的観点群に分類する分類し、分類結果を記憶するステップ、
前記巨視的観点群に属する文書について、文書毎に、文書別キーワードを決定し、決定した各文書別キーワードに基づいて類似度別群に分類するとともに、各類似度別群における類似度別群代表キーワードを決定するステップ、
操作者の指定した、または抽出対象として予め定められた主体特定ワードについて、前記各主体別微視的観点群に属する文書について、主体別微視的観点群別に代表キーワードを決定するステップ、
前記主体別微視的観点群代表キーワード決定手段が決定した前記主体別微視的観点群別の代表キーワードと、前記各類似度別群のキーワードとの類似度を判断するステップ、
前記類似度判断手段が判断した前記主体別微視的観点群と類似度別群群との類似度が所定の閾値よりも高い組み合わせを抽出し、抽出された主体別微視的観点群に属する文書データの文書特定データおよび類似度別群に属する文書の文書データ特定データを群毎に、同じ時間軸上に前記作成時期の時系列順に並べた関連表示データを生成するステップ。 A comparison display data generation method in which a subject specifying word for specifying a subject is stored in a computer, and the computer executes the following steps.
When document data associated with creation time data is given, it is determined whether or not the subject specifying word exists for each document data. If the subject specifying word exists, the subject specifying word is specified by the subject specifying word. Classifying each subject into a microscopic viewpoint group for each subject, classifying into a macroscopic viewpoint group if the subject specific word does not exist, and storing the classification result;
For each document belonging to the macroscopic viewpoint group, a keyword for each document is determined for each document, classified into a group by similarity based on the determined keyword for each document, and a group representative by similarity in each group by similarity Determining keywords,
Determining a representative keyword for each subject-specific microscopic viewpoint group for a document belonging to each subject-specific microscopic viewpoint group for a subject-specific word designated by an operator or predetermined as an extraction target;
Determining a similarity between a representative keyword for each subject microscopic viewpoint group determined by the subject-specific microscopic viewpoint group representative keyword determining means and a keyword for each similarity degree group;
A combination in which the similarity between the subject-specific microscopic viewpoint group determined by the similarity determination means and the similarity-specific group group is higher than a predetermined threshold is extracted and belongs to the extracted subject-specific microscopic viewpoint group Generating related display data in which the document specification data of the document data and the document data specification data of the documents belonging to the groups classified by similarity are arranged for each group in the time series of the creation time on the same time axis.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010097535A JP2011227742A (en) | 2010-04-21 | 2010-04-21 | Contrast display data generation device or contrast display data generation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010097535A JP2011227742A (en) | 2010-04-21 | 2010-04-21 | Contrast display data generation device or contrast display data generation method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011227742A true JP2011227742A (en) | 2011-11-10 |
Family
ID=45043003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010097535A Pending JP2011227742A (en) | 2010-04-21 | 2010-04-21 | Contrast display data generation device or contrast display data generation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011227742A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016071470A (en) * | 2014-09-29 | 2016-05-09 | 京セラドキュメントソリューションズ株式会社 | Document management device, document management system and document management program |
JP2018077727A (en) * | 2016-11-10 | 2018-05-17 | Necパーソナルコンピュータ株式会社 | Information processing device, information processing method, and program |
JPWO2018003115A1 (en) * | 2016-07-01 | 2018-07-05 | 株式会社日立製作所 | Analysis support device, analysis support method, and analysis support program |
-
2010
- 2010-04-21 JP JP2010097535A patent/JP2011227742A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016071470A (en) * | 2014-09-29 | 2016-05-09 | 京セラドキュメントソリューションズ株式会社 | Document management device, document management system and document management program |
JPWO2018003115A1 (en) * | 2016-07-01 | 2018-07-05 | 株式会社日立製作所 | Analysis support device, analysis support method, and analysis support program |
JP2018077727A (en) * | 2016-11-10 | 2018-05-17 | Necパーソナルコンピュータ株式会社 | Information processing device, information processing method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2022201654A1 (en) | System and engine for seeded clustering of news events | |
US7912816B2 (en) | Adaptive archive data management | |
US9195952B2 (en) | Systems and methods for contextual mapping utilized in business process controls | |
US20060200341A1 (en) | Method and apparatus for processing sentiment-bearing text | |
US10970326B2 (en) | Retrieving device, retrieving method, and retrieving program | |
CN104794242B (en) | Searching method | |
CN110968695A (en) | Intelligent labeling method, device and platform based on active learning of weak supervision technology | |
JP4538760B2 (en) | Information processing apparatus and method, program, and recording medium | |
JP2007172051A (en) | Reputation information-processing device, reputation information-processing method, reputation information-processing program, and recording medium | |
US20170154294A1 (en) | Performance evaluation device, control method for performance evaluation device, and control program for performance evaluation device | |
Sara-Meshkizadeh et al. | Webpage classification based on compound of using HTML features & URL features and features of sibling pages | |
CN114297535A (en) | Page display method, device and equipment for query conditions and storage medium | |
JP2006323517A (en) | Text classification device and program | |
WO2014084141A1 (en) | Document management system, document management method, and document management program | |
JP2011227742A (en) | Contrast display data generation device or contrast display data generation method | |
JP2014078082A (en) | Forensic system and forensic method and forensic program | |
CN117592450A (en) | Panoramic archive generation method and system based on employee information integration | |
US20140201193A1 (en) | Intellectual property asset information retrieval system | |
JP5439235B2 (en) | Document classification method, document classification device, and program | |
CN115617980A (en) | Litigation case retrieval report generation method and system | |
Eken et al. | Predicting defects with latent and semantic features from commit logs in an industrial setting | |
CN112115362B (en) | Programming information recommendation method and device based on similar code recognition | |
CN111125345B (en) | Data application method and device | |
CN109213830B (en) | Document retrieval system for professional technical documents | |
JP6496078B2 (en) | Analysis support device, analysis support method, and analysis support program |