JP2005128978A - Apparatus, program and method for automatic preparation of information analysis report - Google Patents

Apparatus, program and method for automatic preparation of information analysis report Download PDF

Info

Publication number
JP2005128978A
JP2005128978A JP2003396361A JP2003396361A JP2005128978A JP 2005128978 A JP2005128978 A JP 2005128978A JP 2003396361 A JP2003396361 A JP 2003396361A JP 2003396361 A JP2003396361 A JP 2003396361A JP 2005128978 A JP2005128978 A JP 2005128978A
Authority
JP
Japan
Prior art keywords
document
target document
information analysis
population
analysis report
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003396361A
Other languages
Japanese (ja)
Inventor
Hiroaki Masuyama
博昭 増山
Noriaki Yoshino
令晃 吉野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IPB KK
Original Assignee
IPB KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IPB KK filed Critical IPB KK
Priority to JP2003396361A priority Critical patent/JP2005128978A/en
Publication of JP2005128978A publication Critical patent/JP2005128978A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To analyze information of a research object document against a comparison object document to prepare a report. <P>SOLUTION: This apparatus is an information analysis report preparation apparatus which automatically analyzes information of a research object document against a document used as a comparison object document, and it is provided with; an input means for inputting a research object document and a comparison object document; an input means for inputting conditions of information analysis; a selection means of a population document consisting of document groups similar to the research object document; an extraction means of an index word; an operation means of significance of the index word; an output means to output the selection result of the population and the operation result of the index word in a display means, a recording means, or a communication means. Thereby, information on the research object documents can be expressed exactly without reading the contents of research object documents and a vast quantity of comparison object documents at all. A program is also provided. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、文書の解析装置に係わり、特に調査対象文書或いは文書群を解析して、その特徴を表す情報解析報告書自動作成装置、プログラム、及び方法に関するものである。  The present invention relates to a document analysis apparatus, and more particularly to an information analysis report automatic creation apparatus, program, and method for analyzing a document or group of documents to be investigated and expressing the characteristics thereof.

特許文書をはじめ技術的文書やその他の文書は年々確実に量が増えている。近年、文書データが電子化されて流通するようになってから、膨大な文書から調査対象の文書に類似した文書だけを自動検索するシステムが実用化されてきた。しかし、それでも検索結果の類似文書の量は多く、調査対象の文書の内容或いは性格を知るためには、熟練した者が検索結果の類似文書を読み込まなければならなかった。  The amount of technical documents and other documents including patent documents has been steadily increasing year by year. In recent years, since document data has been digitized and circulated, a system for automatically searching only a document similar to a document to be investigated from a large number of documents has been put into practical use. However, the amount of similar documents as a search result is still large, and in order to know the content or character of the document to be investigated, a skilled person has to read the similar document as a search result.

例えば、特許文献1の「類似文書検索装置及び類似文書検索方法」においても、調査対象の文書或いは文書群に含まれる索引語を比較対象の文書群に含まれる索引語と比較し、類似する索引語の種類や出現回数などから類似度を算出し、最も類似度の高い文書から順に出力している。図6は特許文献1に示される装置の全体構成図である。従来、入力装置602から入力された調査対象文書は、制御装置601の中の類似度算出システムによりある抽出条件にて外部補助記憶装置603のデータベースの文書群と比較して類似度算出の処理をし、出力装置604にて出力し、出力した文書一覧の結果に基づいて類似度の高い文書の内容を熟練した評価者が読み込んで、調査対象文書の評価としていた。評価者は、類似度の高い文書の内容を知るために、それらの数件乃至数千件程度を読み込まなければならなかった。
特開平11−73415「類似文書検索装置及び類似文書検索方法」
For example, in the “similar document search device and similar document search method” of Patent Document 1, an index word included in a document or group of documents to be searched is compared with an index word included in a group of documents to be compared, and a similar index The similarity is calculated from the word type and the number of appearances, and the documents with the highest similarity are output in order. FIG. 6 is an overall configuration diagram of the apparatus disclosed in Patent Document 1. In FIG. Conventionally, an investigation target document input from the input device 602 is subjected to similarity calculation processing by comparing with a document group in a database in the external auxiliary storage device 603 under a certain extraction condition by a similarity calculation system in the control device 601. Then, the content of the document with high similarity is read based on the result of the output document list that is output by the output device 604, and an expert evaluator reads it to evaluate the document to be investigated. The evaluator had to read several to thousands of documents in order to know the contents of documents with high similarity.
Japanese Patent Laid-Open No. 11-73415 “Similar Document Retrieval Device and Similar Document Retrieval Method”

しかし従来、前述した特許文献1と同様な類似文書自動検索システムは、比較対象文書群の中から、調査対象文書に類似した文書一覧を検索結果として出力し、評価者が、調査対象文書に類似した該文書一覧から類似度の高い文書を数件から数千件程度抽出して読み込み、調査対象の文書に類似している文書を見つけ、更に読み込んで評価し、それらを基準に調査対象文書の性格を位置付けていたので、評価者は、文書を数件から数千件程度抽出て読み込まなければ、調査対象の文書の性格を的確に表す表現を見つけることができない、という不具合が生じていた。  However, conventionally, the similar document automatic search system similar to the above-described Patent Document 1 outputs a list of documents similar to the search target document from the comparison target document group as a search result, and the evaluator is similar to the search target document. From this list of documents, extract several to thousands of documents with high similarity, read them, find documents that are similar to the documents to be investigated, read them further, evaluate them, Since the personality was positioned, the evaluator had to extract several to thousands of documents and read them, so that there was a problem that an expression that accurately represents the character of the document to be investigated could not be found.

そこで、本発明は、人間が調査対象の文書も膨大な比較対象の文書も、それらの内容を一切読むことなく、該調査対象の文書の情報を的確に報告できる、情報解析報告書を自動的に作成することを目的とする。  Therefore, the present invention automatically generates an information analysis report that enables a human to accurately report information on a document to be investigated without reading the contents of any document to be investigated and a large number of documents to be compared. The purpose is to create.

上記課題を解決するために本発明は、調査対象文書及び比較対象文書を指定して入力し、情報解析をする条件を入力する入力手段と、前記調査対象文書と類似な文書群からなる母集団文書を前記比較対象文書から選出する選出手段と、前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出手段と、前記調査対象文書の特徴を表わす、母集団或いは索引語を表示、記録、又は通信に出力する出力手段とを備えたことを特徴とする。  In order to solve the above-mentioned problems, the present invention specifies and inputs a survey target document and a comparison target document, a population comprising a group of documents similar to the survey target document, input means for inputting information analysis conditions Selection means for selecting a document from the comparison target document, extraction means for extracting a characteristic index word for the population document of the search target document, and a population or index word representing the characteristics of the search target document Output means for outputting to recording or communication.

また、上記課題を解決するために本発明は、前記調査対象文書及び前記比較対象文書を指定して入力し、前記情報解析をする条件を入力する入力手段と、前記調査対象文書と類似な文書群からなる母集団文書を比較対象文書から選出する選出手段と、前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出手段と、前記調査対象文書の特徴を表わす、母集団或いは索引語を表示、記録、又は通信に出力する出力手段とを備えたことを特徴とする、調査対象文書の情報解析であって、
前記調査対象文書と類似な文書群からなる母集団文書を比較対象文書から選出する選出手段において、前記選出手段が、比較対象文書に対する類似率を算出する算出手段の結果により選出する選出手段であることを特徴とする。
In order to solve the above problems, the present invention provides an input means for specifying and inputting the investigation target document and the comparison target document, and inputting conditions for performing the information analysis, and a document similar to the investigation target document. A selection means for selecting a group document consisting of groups from the comparison target document, an extraction means for extracting characteristic index words of the survey target document with respect to the population document, and a population or An information analysis of a document to be investigated, comprising an output means for displaying, recording, or outputting an index word for communication,
In the selection means for selecting a population document consisting of a document group similar to the survey target document from the comparison target documents, the selection means is a selection means for selecting based on a result of a calculation means for calculating a similarity ratio for the comparison target document. It is characterized by that.

また、上記課題を解決するために本発明は、前記調査対象文書及び前記比較対象文書を指定して入力し、前記情報解析をする条件を入力する入力手段と、前記調査対象文書と類似な文書群からなる母集団文書を比較対象文書から選出する選出手段と、前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出手段と、前記調査対象文書の特徴を表わす、母集団或いは索引語を表示、記録、又は通信に出力する出力手段とを備えたことを特徴とする、調査対象文書の情報解析であって、
前記選出手段が、比較対象文書に対する類似率を算出する算出手段の結果により選出する選出手段であることにおいて、前記類似率を算出する算出手段が、各文書の索引語毎の出現頻度と文書頻度の関数値による類似率の算出手段であることを特徴とする。
In order to solve the above problems, the present invention provides an input means for specifying and inputting the investigation target document and the comparison target document, and inputting conditions for performing the information analysis, and a document similar to the investigation target document. A selection means for selecting a group document consisting of groups from the comparison target document, an extraction means for extracting characteristic index words of the survey target document with respect to the population document, and a population or An information analysis of a document to be investigated, comprising an output means for displaying, recording, or outputting an index word for communication,
The selection means is a selection means that is selected based on a result of a calculation means for calculating a similarity ratio for a comparison target document, and the calculation means for calculating the similarity ratio includes an appearance frequency and a document frequency for each index word of each document. It is a means for calculating the similarity based on the function value of.

また、上記課題を解決するために本発明は、前記調査対象文書及び前記比較対象文書を指定して入力し、前記情報解析をする条件を入力する入力手段と、前記調査対象文書と類似な文書群からなる母集団文書を比較対象文書から選出する選出手段と、前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出手段と、前記調査対象文書の特徴を表わす、母集団或いは索引語を表示、記録、又は通信に出力する出力手段とを備えたことを特徴とする、調査対象文書の情報解析であって、
前記調査対象文書の特徴を表わす、母集団或いは索引語を表示、記録、又は通信に出力する出力手段において、前記母集団或いは前記索引語を分布させてマップ状にして表示する前記表示手段と、前記母集団或いは前記索引語のデータを一部表示する表示手段と、前記出力手段が、その内容に応じた定形のコメントを自動的に若しくは選択して、或いは自由なコメントを記入若しくは選択して表示する出力手段を含むことを特徴とする。
In order to solve the above problems, the present invention provides an input means for specifying and inputting the investigation target document and the comparison target document, and inputting conditions for performing the information analysis, and a document similar to the investigation target document. A selection means for selecting a group document consisting of groups from the comparison target document, an extraction means for extracting characteristic index words of the survey target document with respect to the population document, and a population or An information analysis of a document to be investigated, comprising an output means for displaying, recording, or outputting an index word for communication,
In the output means for displaying, recording, or outputting the population or index word representing the characteristics of the survey object document, the display means for distributing and displaying the population or the index word in the form of a map; The display means for displaying a part of the data of the population or the index word, and the output means automatically or select a fixed comment according to the contents, or enter or select a free comment Output means for displaying is included.

本発明によれば、調査対象文書及び比較対象文書を指定して入力し、情報解析をする条件を入力する入力手段と、前記調査対象文書と類似な文書群からなる母集団文書を前記比較対象文書から選出する選出手段と、前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出手段と、前記調査対象文書の特徴を表わす、母集団或いは索引語を表示、記録、又は通信に出力する出力手段とを備えたので、調査対象文書の情報解析において、調査対象文書の比較対象文書に対する特徴を的確にそして自動的に作成することができる。  According to the present invention, the comparison target document and the comparison target document are designated and input, the input means for inputting the condition for information analysis, and the population document composed of a document group similar to the survey target document is set as the comparison target. Selection means for selecting from documents, extraction means for extracting characteristic index words for the population document of the survey target document, and displaying, recording, or communicating a population or index word representing the characteristics of the survey target document Therefore, in the information analysis of the survey target document, the characteristics of the survey target document with respect to the comparison target document can be accurately and automatically created.

また、本発明によれば、調査対象文書及び比較対象文書を指定して入力し、情報解析をする条件を入力する入力手段と、前記調査対象文書と類似な文書群からなる母集団文書を前記比較対象文書から選出する選出手段と、前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出手段と、前記調査対象文書の特徴を表わす、母集団或いは索引語を表示、記録、又は通信に出力する出力手段とを備え、前記調査対象文書と類似な文書群からなる母集団文書を比較対象文書から選出する選出手段において、前記選出手段が、比較対象文書に対する類似率を算出する算出手段の結果により選出する選出手段とを備えたので、調査対象文書の情報解析において、調査対象文書の比較対象文書に対する特徴を的確にそして自動的に作成することができる。  Further, according to the present invention, an input unit for specifying and inputting a search target document and a comparison target document and inputting a condition for information analysis, and a population document composed of a document group similar to the search target document Selection means for selecting from comparison target documents; extraction means for extracting characteristic index words for the population document of the search target document; and displaying or recording a population or index word representing the characteristics of the search target documents; Or an output means for outputting to communication, wherein the selecting means calculates a similarity ratio with respect to the comparison target document in a selection means for selecting a population document consisting of a document group similar to the survey target document from the comparison target documents. Since there is a selection means to select based on the result of the calculation means, in the information analysis of the survey target document, the characteristics of the survey target document with respect to the comparison target document are created accurately and automatically Rukoto can.

また、本発明によれば、調査対象文書の情報解析において、調査対象文書の比較対象文書に対する特徴を的確にそして自動的に作成する情報解析報告書自動作成装置であって、前記調査対象文書及び前記比較対象文書を指定して入力し、前記情報解析をする条件を入力する入力手段と、前記調査対象文書と類似な文書群からなる母集団文書を比較対象文書から選出する選出手段と、前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出手段と、前記調査対象文書の特徴を表わす、母集団或いは索引語を表示、記録、又は通信に出力する出力手段とを備え、前記選出手段が、比較対象文書に対する類似率を算出する算出手段の結果により選出する選出手段であることにおいて、前記類似率を算出する算出手段が、各文書の索引語毎の出現頻度と文書頻度の関数値による類似率の算出手段とを備えたので、調査対象文書の情報解析において、調査対象文書の比較対象文書に対する特徴を的確にそして自動的に作成することができる。  Further, according to the present invention, in the information analysis of the survey target document, an information analysis report automatic creation device that accurately and automatically creates the characteristics of the survey target document with respect to the comparison target document, the survey target document and Specifying and inputting the comparison target document, input means for inputting conditions for performing the information analysis, selection means for selecting a population document consisting of a document group similar to the investigation target document from the comparison target document, Extraction means for extracting a characteristic index word for the population document of the survey target document, and output means for displaying, recording, or outputting the population or index word representing the characteristics of the survey target document, The selecting means is a selecting means that selects based on the result of the calculating means for calculating the similarity to the comparison target document, and the calculating means for calculating the similarity is Since it has a means for calculating the similarity based on the appearance frequency for each reference and the function value of the document frequency, it accurately and automatically creates the characteristics of the target document for comparison in the information analysis of the target document be able to.

また、本発明によれば、調査対象文書の情報解析において、調査対象文書の比較対象文書に対する特徴を的確にそして自動的に作成する情報解析報告書自動作成装置であって、前記調査対象文書及び前記比較対象文書を指定して入力し、前記情報解析をする条件を入力する入力手段と、前記調査対象文書と類似な文書群からなる母集団文書を比較対象文書から選出する選出手段と、前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出手段と、前記調査対象文書の特徴を表わす、母集団或いは索引語を表示、記録、又は通信に出力する出力手段とを備え、前記調査対象文書の特徴を表わす、母集団或いは索引語を表示、記録、又は通信に出力する出力手段において、前記母集団或いは前記索引語を分布させてマップ状にして表示する前記表示手段と、前記母集団或いは前記索引語のデータを一部表示する表示手段と、前記出力手段が、その内容に応じた定形のコメントを自動的に若しくは選択して、或いは自由なコメントを記入若しくは選択して表示する出力手段備えたので、調査対象文書の情報解析において、調査対象文書の比較対象文書に対する特徴を的確にそして自動的に作成することができる。  Further, according to the present invention, in the information analysis of the survey target document, an information analysis report automatic creation device that accurately and automatically creates the characteristics of the survey target document with respect to the comparison target document, the survey target document and Specifying and inputting the comparison target document, input means for inputting conditions for performing the information analysis, selection means for selecting a population document consisting of a document group similar to the investigation target document from the comparison target document, Extraction means for extracting a characteristic index word for the population document of the survey target document, and output means for displaying, recording, or outputting the population or index word representing the characteristics of the survey target document, In the output means for displaying, recording, or outputting to the communication a population or index word representing the characteristics of the document to be investigated, the population or the index word is distributed in a map form The display means for displaying the data, the display means for displaying a part of the data of the population or the index word, and the output means automatically or select a fixed comment according to the contents, or freely Therefore, in the information analysis of the survey target document, the characteristics of the survey target document with respect to the comparison target document can be accurately and automatically created.

以下、本発明の実施の形態を図面を参照して詳細に説明する。  Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

本明細書の中で使用した語彙を定義或いは説明する。
調査対象文書d:調査に係る、ある案件。例えば、特許公報第何号などの文書、或いはその集合。
比較対象文書P:調査対象文書を比較する対象の文書、或いはその集合。dを含む。
母集団文書S:比較対象文書Pの中で調査対象文書dに類似な文書の集団。dを含む。
Define or explain the vocabulary used in this specification.
Survey target document d: A certain project related to the survey. For example, a document such as a patent gazette number or a collection thereof.
Comparison target document P: a document to be compared with a survey target document or a set thereof. including d.
Population document S: A group of documents similar to the survey target document d among the comparison target documents P. including d.

図中の構成部品に付してある、d或いは(d)、P或いは(P)、又はS或いは(S)は、それぞれ調査対象文書、比較対象文書、又は母集団文書の意味であり、以降判別しやすいように構成部品や動作にも付する。例えば、索引語(d)とは、調査対象文書dの索引語を意味し、索引語(P)とは、比較対象文書Pの索引語を意味し、索引語(S)とは、母集団文書Sの索引語を意味する。
TF演算とはTerm Frequencyの計算のことであり、ある文書に含まれる索引語の当該文書内の出現頻度(索引語頻度)の計算である。
DF演算のDFとはDocument Frequencyの計算のことであり、ある文書に含まれる索引語で検索対象文書群から検索したときの文書頻度いいかえるとヒット数の計算である。
IDF演算とは、例えばDF演算結果の逆数或いは逆数にPないしSの文書数を乗じたものの対数などである。
“D” or “d”, “P” or “P”, or “S” or “S” attached to the component in the figure means the survey target document, the comparison target document, or the population document, respectively. It is also attached to components and operations so that it can be easily identified. For example, the index word (d) means the index word of the survey target document d, the index word (P) means the index word of the comparison target document P, and the index word (S) means the population. This means an index word of the document S.
The TF calculation is a calculation of Term Frequency, which is a calculation of an appearance frequency (index word frequency) of an index word included in a document in the document.
The DF of the DF operation is a calculation of Document Frequency, which is a calculation of the number of hits when the document frequency is searched from the search target document group using an index word included in a certain document.
The IDF calculation is, for example, the reciprocal of the DF calculation result or the logarithm obtained by multiplying the reciprocal by the number of documents P or S.

以降の説明を簡素にするため、略号を決める。
N :比較対象文書Pの文書数
N’:母集団文書Sの文書の数
TF(d):dの索引語による、dの中での出現頻度
TF(P):Pの索引語による、Pの中での出現頻度
DF(P):Pの索引語による、Pの中での文書頻度
DF(S):Sの索引語による、Sの中での文書頻度
IDF(P):DF(P)の逆数×文書数の対数:ln[N/DF(P)]
IDF(S):DF(S)の逆数×文書数の対数:ln[N’/DF(S)]
TFIDF:TFとIDFとの積。文書の索引語ごとに演算される。
類似率:調査対象文書dと、比較対象文書Pに属する或る文書との類似の程度。
To simplify the following explanation, abbreviations are determined.
N: Number of documents of comparison target document P N ′: Number of documents of population document S TF (d): Frequency of occurrence in index word TF (P): P according to index word of P Appearance frequency DF (P) in P: Document frequency in P DF (S): Document frequency in P DF (S): Document frequency in S according to S index word IDF (P): DF (P ) X logarithm of document number: ln [N / DF (P)]
IDF (S): reciprocal of DF (S) × logarithm of the number of documents: ln [N ′ / DF (S)]
TFIDF: product of TF and IDF. Calculated for each index word in the document.
Similarity: The degree of similarity between the survey target document d and a certain document belonging to the comparison target document P.

ここで、索引語とはいわゆるキーワードであり、文書の全部或いは一部から切り出される単語のことである。単語の切り出し方は従来から知られている方法や市販のソフトを活用して、助詞や接続詞を除き、意味ある名詞を抽出してもよいし、又索引語の辞書(シソーラス)のデータベースを事前に保持し該データベースから得られる索引語を利用してもよい。
尚、調査対象文書が複数ある文書群の場合は、抽出する対象は、前記の通りの索引語でもよいが、IPCの分類や、企業の群や、年毎のブループ例えば特許出願年や特許登録年などでも可能である。以下、本明細書では、代表して索引語とすることが多い。
Here, the index word is a so-called keyword, which is a word cut out from all or part of the document. Words can be extracted using known methods or commercially available software to extract meaningful nouns, excluding particles and conjunctions, and to create a database of index words (thesaurus) in advance. It is also possible to use index words held in the database and obtained from the database.
In the case of a document group having a plurality of documents to be investigated, the extraction target may be the index word as described above, but the IPC classification, the group of companies, the yearly group such as the patent application year and the patent registration It is possible even in years. Hereinafter, in this specification, the index word is often used as a representative.

図1は本発明に係る一実施形態の情報解析報告書自動作成装置のハードウェア構成を示す図である。
同図に示すように、本発明に係る一実施形態の情報解析報告書自動作成装置は、CPU(中央演算子)およびメモリィ(記録装置)などから構成される処理装置1、キーボード(手入力器具)などの入力手段である入力装置2、文書データや条件や処理装置1による作業結果などを格納する記録手段である記録装置3、および特徴索引語の抽出結果などをマップやデータなどで表示などする出力手段である出力装置4から構成される。
FIG. 1 is a diagram showing a hardware configuration of an information analysis report automatic creating apparatus according to an embodiment of the present invention.
As shown in the figure, an information analysis report automatic creation device according to an embodiment of the present invention includes a processing device 1 including a CPU (central operator) and a memory (recording device), and a keyboard (manual input instrument). ) And the like, an input device 2 as a recording means, a recording device 3 as a recording means for storing document data, conditions, work results by the processing device 1, etc., and a feature index word extraction result, etc. are displayed on a map, data, etc. It is comprised from the output device 4 which is an output means to perform.

図2は本発明に係る一実施形態の情報解析報告書自動作成装置、プログラム、及び方法における構成と機能を詳しく説明する図である。  FIG. 2 is a diagram for explaining in detail the configuration and functions of the information analysis report automatic creating apparatus, program, and method according to an embodiment of the present invention.

処理装置1は、調査対象文書d読み出し部110、索引語(d)抽出部120、TF(d)演算部121、比較対象文書P読み出し部130、索引語(P)抽出部140、比較対象文書PのTF(P)演算部141、比較対象文書PのIDF(P)演算部142、類似率演算部150、母集団文書S選出部160、索引語(S)抽出部170、IDF(S)演算部171、特徴索引語TF(d)IDF(S)演算部180などから構成される。  The processing apparatus 1 includes an investigation target document d reading unit 110, an index word (d) extraction unit 120, a TF (d) calculation unit 121, a comparison target document P reading unit 130, an index word (P) extraction unit 140, and a comparison target document. TF (P) calculation unit 141 for P, IDF (P) calculation unit 142 for comparison target document P, similarity calculation unit 150, population document S selection unit 160, index word (S) extraction unit 170, IDF (S) The calculation unit 171 and the feature index word TF (d) IDF (S) calculation unit 180 are included.

入力装置2は、調査対象文書d条件入力部210、比較対象文書P条件入力部220、抽出条件その他入力部230などから構成される。  The input device 2 includes an investigation target document d condition input unit 210, a comparison target document P condition input unit 220, an extraction condition and other input unit 230, and the like.

記録装置3は、条件記録部310、作業結果格納部320、文書格納部330などから構成される。文書格納部330は外部データベースや内部データベースを含んでいる。外部データベースとは、例えば特許庁でサービスしている特許電子図書館のIPDLや、株式会社パトリスでサービスしているPATOLISなどの文書データベースを意味する。又内部データベースとは、販売している例えば特許JP−ROMなどのデータを自前で格納したデータベース、文書を格納したFD(フロッピーディスク)、CDROM(コンパクトディスク)、MO(光磁気ディスク)、DVD(デジタルビデオディスク)などの媒体から読み出す装置、紙などに出力された或いは手書きされた文書を読み込むOCR(光学的情報読み取り装置)などの装置及び読み込んだデータをテキストなどの電子データに変換する装置などを含んでいるものとする。  The recording device 3 includes a condition recording unit 310, a work result storage unit 320, a document storage unit 330, and the like. The document storage unit 330 includes an external database and an internal database. The external database means a document database such as IPDL of a patent electronic library serviced by the Patent Office or PATOLIS serviced by Patrice Co., Ltd. The internal database is a database in which data such as a patent JP-ROM that is sold is stored by itself, an FD (floppy disk), a CDROM (compact disk), an MO (magneto-optical disk), a DVD (which stores documents) A device that reads from a medium such as a digital video disk), a device such as an OCR (optical information reader) that reads a document that has been output on paper or handwritten, and a device that converts the read data into electronic data such as text. Is included.

出力装置4は、マップ作成条件読み出し部410、マップ用データ取り込み部412、マップ(グラフ・表)生成部415、母集団データ出力条件読み出し部420、出力データ取り込み部422、コメント条件読み出し部430、定形コメント取り込み部432、コメント追記部435、マップ・データ・コメント複合整形出力部440などから構成される。  The output device 4 includes a map creation condition reading unit 410, a map data loading unit 412, a map (graph / table) generation unit 415, a population data output condition reading unit 420, an output data loading unit 422, a comment condition reading unit 430, A standard comment capturing unit 432, a comment adding unit 435, a map / data / comment composite shaping output unit 440, and the like are included.

図1及び図2において、処理装置1、入力装置2、記録装置3、および出力装置4の間で信号やデータをやり取りする通信手段としては、USB(ユニバーサルシステムバス)ケーブルなどで直接接続してもよいし,LAN(ローカルエリヤネットワーク)などのネットワークを介して送受信してもよいし、文書を格納したFD、CDROM、MO、DVDなどの媒体を介してもよい。或いはこれらの一部、又はいくつかを組み合わせたものでもよい。  1 and 2, the communication means for exchanging signals and data among the processing device 1, the input device 2, the recording device 3, and the output device 4 is directly connected by a USB (Universal System Bus) cable or the like. Alternatively, transmission / reception may be performed via a network such as a LAN (local area network), or may be performed via a medium such as an FD, CDROM, MO, or DVD storing a document. Alternatively, a part or a combination of these may be used.

図2により本発明に係る一実施形態の情報解析報告書自動作成装置、プログラム、及び方法における機能を詳しく説明する。  The functions of the information analysis report automatic creating apparatus, program, and method according to an embodiment of the present invention will be described in detail with reference to FIG.

図2の入力装置2において、調査対象文書d条件入力部210は、入力画面などによって調査対象文書dの読み出しを行なう条件を設定する。比較対象文書P条件入力部220は、入力画面などによって比較対象文書Pの読み出しを行なう条件を設定する。抽出条件その他入力部230は、入力画面などによって調査対象文書d及び比較対象文書Pの索引語抽出条件、TF演算の条件、IDF演算の条件、類似率演算の条件、類似文書の選出条件、マップ作成条件、データ出力条件、コメント追記条件などを設定する。これら入力された条件は、記録装置3の条件記録部310へ送られ格納される。  In the input device 2 of FIG. 2, the survey target document d condition input unit 210 sets conditions for reading the survey target document d through an input screen or the like. The comparison target document P condition input unit 220 sets conditions for reading the comparison target document P on an input screen or the like. The extraction condition and other input unit 230 displays the index word extraction condition of the investigation target document d and the comparison target document P, the TF calculation condition, the IDF calculation condition, the similarity ratio calculation condition, the similar document selection condition, the map, etc. Set creation conditions, data output conditions, comment addition conditions, etc. These input conditions are sent to and stored in the condition recording unit 310 of the recording device 3.

図2の処理装置1において、調査対象文書d読み出し部110は、調査対象の文書を、条件記録部310の条件に基づいて、文書格納部330より読み出しを行ない、索引語(d)抽出部120に送られる。索引語(d)抽出部120は、条件記録部310の条件に基づいて、調査対象文書d読み出し部110で得られた文書から索引語の抽出を行ない、作業結果格納部320に格納する。  In the processing apparatus 1 of FIG. 2, the survey target document d reading unit 110 reads the survey target document from the document storage unit 330 based on the condition of the condition recording unit 310, and the index word (d) extraction unit 120. Sent to. The index word (d) extraction unit 120 extracts an index word from the document obtained by the investigation target document d reading unit 110 based on the condition of the condition recording unit 310 and stores it in the work result storage unit 320.

比較対象文書P読み出し部130は、母集団の文書を、条件記録部310の条件に基づいて、文書格納部330より読み出しを行ない、索引語(P)抽出部140に送られる。索引語(P)抽出部140は、条件記録部310の条件に基づいて、比較対象文書P読み出し部130で得られた文書から索引語の抽出を行ない、作業結果格納部320に格納する。  The comparison target document P reading unit 130 reads a population document from the document storage unit 330 based on the condition of the condition recording unit 310 and sends the document to the index word (P) extraction unit 140. The index word (P) extraction unit 140 extracts an index word from the document obtained by the comparison target document P reading unit 130 based on the condition of the condition recording unit 310 and stores it in the work result storage unit 320.

前記の、比較対象文書P読み出し部130、及び索引語(P)抽出部140については、通常は、比較対象文書のひとつである特許公開公報などの公報全部という場合が多く、一度索引語を切り出して用意し保存しておけば、わざわざ改めて切り出す必要はないので、省略することができる。  The comparison target document P reading unit 130 and the index word (P) extraction unit 140 are usually all publications such as patent publications, which are one of the comparison target documents. If you prepare and save it, you do not need to cut it out again, so you can omit it.

TF(d)演算部121は,条件記録部310の条件に基づいて、作業結果格納部320に格納された調査対象文書dについての索引語(d)抽出部120の作業結果を、TF演算して、作業結果格納部320に格納或いは直接、類似率演算部150、或いは特徴索引語TF(d)IDF(S)演算部180に送られる。  The TF (d) calculation unit 121 performs TF calculation on the work result of the index word (d) extraction unit 120 for the investigation target document d stored in the work result storage unit 320 based on the condition of the condition recording unit 310. Then, it is stored in the work result storage unit 320 or directly sent to the similarity calculation unit 150 or the feature index word TF (d) IDF (S) calculation unit 180.

TF(P)演算部141は,条件記録部310の条件に基づいて、作業結果格納部320に格納された比較対象文書Pについての索引語(P)抽出部140の作業結果を、TF演算して、作業結果格納部320に格納或いは直接類似率演算部150に送られる。  Based on the condition of the condition recording unit 310, the TF (P) calculation unit 141 performs TF calculation on the work result of the index word (P) extraction unit 140 for the comparison target document P stored in the work result storage unit 320. And stored in the work result storage unit 320 or directly sent to the similarity ratio calculation unit 150.

IDF(P)演算部142は、条件記録部310の条件に基づいて、作業結果格納部320に格納された比較対象文書Pについての索引語(P)抽出部140の作業結果を、IDF演算して、作業結果格納部320に格納、或いは直接類似率演算部150に送られる。  Based on the condition of the condition recording unit 310, the IDF (P) calculation unit 142 performs IDF calculation on the work result of the index word (P) extraction unit 140 for the comparison target document P stored in the work result storage unit 320. And stored in the work result storage unit 320 or directly sent to the similarity calculation unit 150.

類似率演算部150は、条件記録部310の条件に基づいて、TF(d)演算部121、TF(P)演算部141、及びIDF(P)演算部142の演算結果を、それぞれから直接或いは作業結果格納部320から得て、比較対象文書Pの文書それぞれの、調査対象文書dに対する類似率を演算し、比較対象文書Pのそれぞれに類似率データとして付され、作業結果格納部320或いは直接母集団文書S選出部160に送られる。  Based on the conditions of the condition recording unit 310, the similarity ratio calculation unit 150 can directly calculate the calculation results of the TF (d) calculation unit 121, the TF (P) calculation unit 141, and the IDF (P) calculation unit 142 from each of them. Obtained from the work result storage unit 320, the similarity ratio of each of the comparison target documents P with respect to the survey target document d is calculated, and is added to each of the comparison target documents P as similarity ratio data. It is sent to the population document S selection unit 160.

類似率演算部150における、類似率の演算は、各文書が索引語毎に、例えばTFIDF演算などに代表される計算がなされ、比較対象文書Pの文書それぞれの、調査対象文書dに対する類似率が計算される。TFIDF演算とは、TF演算結果とIDF演算結果の積である。類似率の演算方法は後で詳しく述べる。  The similarity ratio calculation unit 150 calculates the similarity ratio for each index word, for example, a calculation represented by a TFIDF calculation, and the like, and the similarity ratio of each document of the comparison target document P to the survey target document d is calculated. Calculated. The TFIDF calculation is a product of the TF calculation result and the IDF calculation result. A method of calculating the similarity rate will be described in detail later.

類似率の演算の方法はいろいろあるので、前記の、TF(d)演算部121、TF(P)演算部141、及びIDF(P)演算部142に基づいた類似率演算部150の場合はこのままでよいが、前記の、TF(d)演算部121、TF(P)演算部141、及びIDF(P)演算部142を必要としないに類似率の演算の方法のときは、総て省略して類似率演算部150だけとしてもよい、ことは言うまでもない。  Since there are various methods for calculating the similarity ratio, the similarity ratio calculation section 150 based on the TF (d) calculation section 121, the TF (P) calculation section 141, and the IDF (P) calculation section 142 is not changed. However, when the method of calculating similarity is not required, the TF (d) calculation unit 121, TF (P) calculation unit 141, and IDF (P) calculation unit 142 are all omitted. Needless to say, only the similarity calculation unit 150 may be used.

母集団文書S選出部160は、条件記録部310の条件に基づいて、作業結果格納部320或いは直接類似率演算部150の結果から、母集団文書Sの類似率演算結果のうち、条件に記された選出方法により選出、例えば類似率の高い順に文書をソートし、条件に記された必要な数だけ選出し、作業結果格納部320或いは直接索引語(S)抽出部170に送られる。  Based on the condition of the condition recording unit 310, the population document S selection unit 160 records the conditions in the similarity calculation result of the population document S from the results of the work result storage unit 320 or the direct similarity calculation unit 150. Selection is performed by the selected selection method, for example, the documents are sorted in descending order of similarity, and the necessary number indicated in the condition is selected and sent to the work result storage unit 320 or the index word (S) extraction unit 170 directly.

また、母集団文書S選出部160の出力から、直接、マップ用データ取り込み部412や出力データ取り込み部422に進むことがあるので、その場合は、以降の構成は不要となることも言うまでもない。  In addition, since the output from the population document S selection unit 160 may proceed directly to the map data capturing unit 412 or the output data capturing unit 422, it goes without saying that the subsequent configuration is unnecessary.

索引語(S)抽出部170は、条件記録部310の条件に基づいて、作業結果格納部320或いは母集団文書S選出部160の結果の母集団文書Sから、索引語(S)を抽出し、作業結果格納部320或いは直接IDF(S)演算部171に送られる。  The index word (S) extraction unit 170 extracts the index word (S) from the population document S as a result of the work result storage unit 320 or the population document S selection unit 160 based on the condition of the condition recording unit 310. The result is sent to the work result storage unit 320 or directly to the IDF (S) calculation unit 171.

IDF(S)演算部171は、条件記録部310の条件に基づいて、作業結果格納部320或いは直接索引語(S)抽出部170の作業結果を、IDF演算して、作業結果格納部320に格納或いは直接、特徴索引語TF(d)IDF(S)演算部180に送られる。  The IDF (S) calculation unit 171 performs IDF calculation on the work result of the work result storage unit 320 or the direct index word (S) extraction unit 170 based on the condition of the condition recording unit 310, and stores the result in the work result storage unit 320. It is stored or directly sent to the feature index word TF (d) IDF (S) calculation unit 180.

特徴索引語TF(d)IDF(S)演算部180は、条件記録部310の条件に基づいて、作業結果格納部320から、或いはTF(d)演算部121の結果、及び直接IDF(S)演算部171の結果から、選出のための条件に記された必要な数だけ、或いは条件に基づいた計算結果により選ばれた数だけ、母集団文書を、例えば類似率の高い順に選出して、作業結果格納部320に送る。  The feature index word TF (d) IDF (S) calculation unit 180 is based on the condition of the condition recording unit 310, or from the work result storage unit 320 or the result of the TF (d) calculation unit 121 and the direct IDF (S). From the result of the calculation unit 171, select a population document, for example, in ascending order of similarity, by the required number written in the selection condition or the number selected by the calculation result based on the condition, The result is sent to the work result storage unit 320.

図2の記録装置3において、条件記録部310は、入力装置2から得られた条件などの情報を記録し、処理装置1或いは出力装置4の要求に基づき、それぞれに必要なデータを送る。作業結果格納部320は、処理装置1における各構成部位の作業結果を格納し、処理装置1或いは出力装置4の要求に基づき、それぞれに必要なデータを送る。  In the recording device 3 of FIG. 2, the condition recording unit 310 records information such as conditions obtained from the input device 2, and sends necessary data to each based on a request from the processing device 1 or the output device 4. The work result storage unit 320 stores the work result of each component in the processing device 1 and sends necessary data to each based on a request from the processing device 1 or the output device 4.

文書格納部330は、入力装置2或いは処理装置1の要求に基づき、外部データベース或いは内部データベースから得た、必要な文書データを格納し、提供する。  The document storage unit 330 stores and provides necessary document data obtained from an external database or an internal database based on a request from the input device 2 or the processing device 1.

図2の出力装置4において、マップ作成条件読出部410は、条件記録部310の条件に基づいて、マップの作成条件を読み出し、マップ用データ取り込み部412に送る。母集団データ出力条件読出部420は、条件記録部310の条件に基づいて、母集団データの出力条件を読み出し、出力データ取り込み部422に送る。コメント条件読出部430は、条件記録部310の条件に基づいて、コメントの出力条件や追記条件を読み出し、コメント追記部432に送る。  In the output device 4 of FIG. 2, the map creation condition reading unit 410 reads map creation conditions based on the conditions of the condition recording unit 310 and sends them to the map data fetching unit 412. The population data output condition reading unit 420 reads out the output condition of the population data based on the condition of the condition recording unit 310 and sends it to the output data capturing unit 422. The comment condition reading unit 430 reads out the comment output condition and the additional writing condition based on the conditions of the condition recording unit 310 and sends them to the comment additional writing unit 432.

マップ用データ取り込み部412は、マップ作成条件読み出し部410の条件に従い、作業結果格納部320に格納された、母集団文書S選出部160の結果や特徴索引語TF(d)IDF(S)演算部180の結果などを、文書格納部330のデータとともに取り込み、作業結果格納部320或いは直接マップ(グラフ・表)生成部415に送られる。  The map data capturing unit 412 calculates the result of the population document S selection unit 160 and the feature index word TF (d) IDF (S) stored in the work result storage unit 320 according to the conditions of the map creation condition reading unit 410. The result of the unit 180 is fetched together with the data of the document storage unit 330 and sent to the work result storage unit 320 or the direct map (graph / table) generation unit 415.

マップ(グラフ・表)生成部415は、マップ用データ取り込み部412からのデータを使って、グラフ、表、タイトル、凡例などを生成し、マップ・データ・コメント複合整形出力部440に送られる。  The map (graph / table) generation unit 415 generates a graph, a table, a title, a legend, and the like using the data from the map data acquisition unit 412, and sends the graph, table, title, legend, etc.

出力データ取り込み部422は、データ出力条件読み出し部420の条件に従い、作業結果格納部320に格納された、母集団文書S選出部160の結果や特徴索引語TF(d)IDF(S)演算部180の結果などを、文書格納部330のデータとともに取り込み、作業結果格納部320或いは直接マップ・データ・コメント複合整形出力部440に送られる。  The output data capturing unit 422 is a result of the population document S selection unit 160 and a feature index word TF (d) IDF (S) calculation unit stored in the work result storage unit 320 according to the conditions of the data output condition reading unit 420. The result of 180 or the like is taken together with the data in the document storage unit 330 and sent to the work result storage unit 320 or directly to the map / data / comment composite shaping output unit 440.

定形コメント取り込み部432は、コメント条件読出部430の条件に従い、作業結果格納部320や文書格納部330のデータを取り込み、コメント追記部435に、或いは直接マップ・データ・コメント複合整形出力部440に送られる。  The fixed comment capturing unit 432 captures the data of the work result storage unit 320 and the document storage unit 330 in accordance with the conditions of the comment condition reading unit 430, and inputs the data to the comment addition unit 435 or the direct map data / comment composite output unit 440. Sent.

コメント追記部435は、コメント条件読出部430の条件に従い、キーボードやOCRなどの外部入力装置から直接、或いは文書格納部330の内部データベースに事前に用意したものを、調査対象文書dの評価者のコメントとして追記するためのデータを用意し、作業結果格納部320或いは直接マップ・データ・コメント複合整形出力部440に送られる。  According to the conditions of the comment condition reading unit 430, the comment adding unit 435 directly prepares an external input device such as a keyboard or an OCR or an internal database of the document storage unit 330 in advance by the evaluator of the survey target document d. Data to be added as a comment is prepared and sent to the work result storage unit 320 or directly to the map / data / comment composite shaping output unit 440.

マップ・データ・コメント複合整形出力部440は、マップ(グラフ・表)生成部415から出力される条件とデータ、出力データ取り込み部422から出力される条件とデータ、定形コメント取り込み部432から出力される条件とデータ及びコメント追記部435から出力される条件とデータをそれぞれ直接或いは作業結果格納部320より得て、マップ・データ・コメントを紙出力として最適な形に整形したあと複合的に出力する用意をし、マップ上に表示し、データ一覧に出力し、及びコメント或いはそれらの一部を表示、印刷、若しくはデータで格納できるように出力する。  The map / data / comment composite shaping output unit 440 outputs the conditions and data output from the map (graph / table) generation unit 415, the conditions and data output from the output data acquisition unit 422, and the standard comment acquisition unit 432. Conditions, data and conditions and data output from the comment adding section 435 are obtained directly or from the work result storage section 320, and map data, comments are formed into an optimal form as paper output, and then output in combination. Prepare, display on map, output to data list, and output comments or part of them so that they can be displayed, printed, or stored as data.

図3、図4、及び図5は本発明に係る一実施形態の情報解析報告書自動作成装置、プログラム、及び方法における典型的な一例の動作を説明する図である。  3, 4, and 5 are diagrams for explaining typical examples of operations in the information analysis report automatic creating apparatus, program, and method according to an embodiment of the present invention.

図3は、入力装置2による各構成の動作を示す条件設定のフローチャートである。まず初期化(ステップS201)のあと、入力する条件を区別する(ステップS202)。このとき、条件が調査対象文書dの条件入力であるとき、調査対象文書d条件入力部210において調査対象文書dの条件を入力する(ステップS210)。次に、入力した条件を表示画面で確認し、よければ設定を選んで条件記録部310で格納し(ステップS310)、悪ければ戻るを選んでステップS210に戻る(ステップS211)。  FIG. 3 is a condition setting flowchart showing the operation of each component by the input device 2. First, after initialization (step S201), input conditions are distinguished (step S202). At this time, when the condition is the condition input of the survey target document d, the condition of the survey target document d is input in the survey target document d condition input unit 210 (step S210). Next, the input condition is confirmed on the display screen. If it is good, the setting is selected and stored in the condition recording unit 310 (step S310). If it is bad, return is selected and the process returns to step S210 (step S211).

一方ステップS202において条件が比較対象文書Pの条件入力であるとき、比較対象文書P条件入力部220において比較対象文書Pの条件を入力する(ステップS220)。次に、入力した条件を表示画面で確認し、よければ設定を選んで条件記録部310で格納し(ステップS310)、悪ければ戻るを選んでステップS220に戻る(ステップS221)。  On the other hand, when the condition is the condition input of the comparison target document P in step S202, the comparison target document P condition input unit 220 inputs the condition of the comparison target document P (step S220). Next, the input condition is confirmed on the display screen. If it is good, the setting is selected and stored in the condition recording unit 310 (step S310). If it is bad, return is selected and the process returns to step S220 (step S221).

又、ステップS202において条件が抽出条件その他であるとき、抽出条件その他入力部230において抽出条件その他を入力する(ステップS230)。次に、入力した条件を表示画面で確認し、よければ設定を選んで条件記録部310で格納し(ステップS310)、悪ければ戻るを選んでステップS230に戻る(ステップS231)。該ステップS230においては、調査対象文書dの抽出条件と、比較対象文書Pからの母集団文書Sの抽出条件の両方を設定する。  When the condition is the extraction condition or the like in step S202, the extraction condition or the like is input in the extraction condition or other input unit 230 (step S230). Next, the input condition is confirmed on the display screen. If it is good, the setting is selected and stored in the condition recording unit 310 (step S310). If it is bad, return is selected and the process returns to step S230 (step S231). In step S230, both the extraction condition for the survey target document d and the extraction condition for the population document S from the comparison target document P are set.

図4は、処理装置1による各構成の動作を示すフローチャートである。まず初期化(ステップS101)のあと、条件記録部310の条件に基づいて、文書格納部330から読み出す文書を、調査対象文書dと比較対象文書Pに区別する(ステップS102)。読み出す文書が調査対象文書dであるとき、調査対象文書d読み出し部110において調査対象文書を文書格納部330より読み出す(ステップS110)。次に、索引語(d)抽出部120において調査対象文書dの索引語抽出を行なう(ステップS120)。引き続き、抽出された索引語の各々について、TF(d)演算部121においてTF演算をする(ステップS121)。  FIG. 4 is a flowchart showing the operation of each component by the processing apparatus 1. First, after initialization (step S101), based on the condition of the condition recording unit 310, a document to be read from the document storage unit 330 is classified into a survey target document d and a comparison target document P (step S102). When the document to be read is the survey target document d, the survey target document d reading unit 110 reads the survey target document from the document storage unit 330 (step S110). Next, the index word (d) extraction unit 120 extracts the index word of the investigation target document d (step S120). Subsequently, the TF (d) calculation unit 121 performs TF calculation for each of the extracted index words (step S121).

一方ステップS102において、読み出す文書が比較対象文書Pであるとき、比較対象文書P読み出し部130において比較対象文書Pを読み出す(ステップS130)。次に、索引語(P)抽出部140において比較対象文書Pの索引語抽出を行なう(ステップS140)。引き続き、抽出された索引語の各々について、TF(P)演算部141においてTF演算をする(ステップS141)とともに、IDF(P)演算部142においてIDF演算をする(ステップS142)。  On the other hand, when the document to be read is the comparison target document P in step S102, the comparison target document P is read by the comparison target document P reading unit 130 (step S130). Next, the index word (P) extraction unit 140 performs index word extraction of the comparison target document P (step S140). Subsequently, for each of the extracted index words, the TF (P) calculation unit 141 performs TF calculation (step S141) and the IDF (P) calculation unit 142 performs IDF calculation (step S142).

次に、TF(d)演算部121の出力のTF(d)演算結果と、TF(P)演算部141の出力のTF(P)演算結果、及びIDF(P)演算部142の出力のIDF(P)演算結果にて、類似率演算部150において、文書の各索引語についての演算結果を出し、例えば索引語の平均値を出して、文書の類似率とする、などして類似率の演算を行なう(ステップS150)。  Next, the TF (d) calculation result output from the TF (d) calculation unit 121, the TF (P) calculation result output from the TF (P) calculation unit 141, and the IDF output from the IDF (P) calculation unit 142 (P) Based on the calculation result, the similarity calculation unit 150 outputs the calculation result for each index word of the document, for example, the average value of the index words is calculated and used as the document similarity, and the similarity ratio is calculated. Calculation is performed (step S150).

類似率の演算の方法がTFIDFなどではない場合は、調査対象文書dの索引語(d)抽出部120と比較対象文書Pの索引語(P)抽出部140から、別の方法により類似率が求められることがある。  When the method of calculating the similarity rate is not TFIDF or the like, the similarity rate is calculated by another method from the index word (d) extraction unit 120 of the investigation target document d and the index word (P) extraction unit 140 of the comparison target document P. Sometimes required.

次に、母集団文書S選出部160により、ステップS150にて演算した文書を類似率の順に並べ替え、抽出条件その他入力部230において設定した条件に沿った数の母集団文書Sを選出する(ステップS160)。  Next, the population document S selection unit 160 rearranges the documents calculated in step S150 in the order of similarity, and selects the number of population documents S according to the extraction conditions and other conditions set in the input unit 230 ( Step S160).

これらのデータは、出力装置4のマップ(グラフ・表)生成部415やマップ・データ・コメント複合整形出力部440で直接利用することがある。  These data may be directly used by the map (graph / table) generation unit 415 or the map / data / comment combined shaping output unit 440 of the output device 4.

次に、母集団文書Sの索引語(S)抽出部170により、ステップS160にて選出した母集団文書Sの索引語(S)を抽出する(ステップS170)。  Next, the index word (S) extraction unit 170 of the population document S extracts the index word (S) of the population document S selected in step S160 (step S170).

次に、索引語(d)の各々について、IDF(S)演算部171により、IDF演算する(ステップS171)。  Next, IDF calculation is performed by the IDF (S) calculation unit 171 for each index word (d) (step S171).

次に、ステップS171による母集団文書Sにおける索引語(d)の各々についてのIDF(S)演算の結果と、S121ステップによる調査対象文書dにおける索引語(d)の各々についてのTF(d)演算の結果とから、特徴索引語演算TF(d)IDF(S)を行なう(ステップS180)。  Next, the result of the IDF (S) calculation for each index word (d) in the population document S in step S171, and the TF (d) for each index word (d) in the survey target document d in step S121. Based on the result of the calculation, a feature index word calculation TF (d) IDF (S) is performed (step S180).

図5は、出力装置4による、マップ、データ、及び或いはコメントの出力のフローチャートである。まず初期化(ステップS401)のあと、条件記録部310から読み出す条件を、マップ作成条件と、データ出力条件と、コメント追記条件に区別する(ステップS402)。  FIG. 5 is a flowchart of outputting maps, data, and / or comments by the output device 4. First, after initialization (step S401), conditions to be read from the condition recording unit 310 are classified into map creation conditions, data output conditions, and comment addition conditions (step S402).

条件記録部310から読み出す条件がマップ作成条件であるとき(ステップS410)、マップを必要とする条件であったら(ステップS411)、作業結果格納部320からマップ用データ取り込み部412によりマップ用データ取り込みを行なう(ステップ412)。マップ作成条件読み出し部410のマップ作成条件に沿って、グラフや表などのマップを生成し(ステップS415)、続いて、マップを表示する準備をし(ステップ419)、マップ・データ・コメント複合整形出力部440に送る。  When the condition read from the condition recording unit 310 is the map creation condition (step S410), if the map requires the condition (step S411), the map data capturing unit 412 captures the map data from the work result storage unit 320. (Step 412). A map such as a graph or a table is generated in accordance with the map creation condition of the map creation condition reading unit 410 (step S415), and then the map is prepared to be displayed (step 419). The data is sent to the output unit 440.

一方、条件記録部310から読み出す条件が母集団データ出力条件であるとき(ステップS420)、データを必要とする条件であったら(ステップS421)、作業結果格納部320から出力データ取り込み部422により出力用データ取り込みを行なう(ステップS422)。次に、データ出力条件読み出し部420のデータ出力条件に沿って、データを出力し(ステップS423)、続いて、データを出力する準備をし(ステップ429)、マップ・データ・コメント複合整形出力部440に送る。  On the other hand, when the condition read from the condition recording unit 310 is a population data output condition (step S420), if the condition requires data (step S421), the data is output from the work result storage unit 320 by the output data capturing unit 422. The data is taken in (step S422). Next, the data is output in accordance with the data output condition of the data output condition reading unit 420 (step S423), and then the data is prepared to be output (step 429). To 440.

また一方、条件記録部310から読み出す条件がコメント条件であるとき(ステップS430)、コメントを必要とする条件であったら(ステップS431)、マップ・データ・コメント複合整形出力部440にて、コメントを追記できる枠を準備し、該枠内に、キーボードから或いはOCRから、手入力するか(ステップS435)、或いは又は、文書格納部330の内部データベースにある、事前に準備されたコメントを使って、コメントを取り込み(ステップS432)、続いて、コメントを出力する準備をし(ステップ439)、マップ・データ・コメント複合整形出力部440に送る。  On the other hand, when the condition read from the condition recording unit 310 is a comment condition (step S430), if the condition requires a comment (step S431), the map data / comment combined output unit 440 Prepare a frame that can be appended, and manually enter it from the keyboard or OCR (step S435), or use a comment prepared in advance in the internal database of the document storage unit 330, A comment is taken in (step S432), and subsequently, a preparation for outputting a comment is made (step 439), and the comment is sent to the map / data / comment combined output unit 440.

ステップS411でマップを表示する条件でなかったら、又はステップS421でデータを出力する条件でなかったら、又はステップS431でコメントを追記する条件でなかったら、それぞれその時点で終了し、マップ・データ・コメント複合整形出力部440へはデータを送らない。  If it is not a condition for displaying a map in step S411, or if it is not a condition for outputting data in step S421, or if it is not a condition for adding a comment in step S431, the process ends at that point, and the map data comment Data is not sent to the composite shaping output unit 440.

図7は、本発明に係る情報解析報告書自動作成装置の一実施形態の入力装置2の入力条件設定画面である。  FIG. 7 is an input condition setting screen of the input device 2 of one embodiment of the information analysis report automatic creating device according to the present invention.

図7は、情報解析報告書自動作成装置の前記入力装置2の入力条件設定(1)画面の表示例である。図7において、「対象文書」のウインドの「調査対象文書」と「比較対象文書」の中から「調査対象文書」を選び、次に「文書内容」のウインドの「公開特許」「登録特許」「実用新案」「学術文献」などの中から「公開特許」を選び、次に「データの読み出し」のウインドの「自社DB1」「自社DB2」「特許庁IPDL」「PATOLIS」「他商用DB1」「他商用DB2」「FD」「CD」「MO」「DVD」「その他」などの中から「FD」を選び、更に「FD」の「文書1」「文書2」「文書3」「文書4」「文書5」「文書6」などの中から「文書3」を選んだ状態の例である。  FIG. 7 is a display example of the input condition setting (1) screen of the input device 2 of the information analysis report automatic creation device. In FIG. 7, “Survey target document” is selected from “Survey target document” and “Comparison target document” in the “Target document” window, and then “Public patent” and “Registered patent” in the “Document content” window. Select “Public Patent” from “Utility Model”, “Academic Literature”, etc., then “Read Data” window “Company DB1” “Company DB2” “Patent Office IPDL” “PATOLIS” “Other Commercial DB1” “FD” is selected from “Other Commercial DB 2”, “FD”, “CD”, “MO”, “DVD”, “Other”, etc., and “Document 1” “Document 2” “Document 3” “Document 4” of “FD”. In this example, “Document 3” is selected from “Document 5”, “Document 6”, and the like.

図8は、情報解析報告書自動作成装置の前記入力装置2の入力条件設定(2)画面の表示例である。図8において、「対象文書」のウインドの「調査対象文書」と「比較対象文書」などの中から「比較対象文書」を選び、次に「文書内容」のウインドの「公開特許」「登録特許」「実用新案」「学術文献」などの中から「公開特許」と「登録特許」の両方を選び、次に「抽出内容」のウインドの「請求項」「従来技術」「発明の課題」「手段・効果」「実施例」「図の説明」「図面」「要約」「書誌事項」「経過情報」「登録情報」「その他」などの中から「請求項」と「要約」の両方を選び、次に「データの読み出し」のウインドで前述と同じ項目の中から「自社DB1」を選んだ状態の例である。この例の入力条件設定画面における設定条件が、調査対象文書d条件入力部210と比較対象文書P条件入力部220を設定する。  FIG. 8 is a display example of the input condition setting (2) screen of the input device 2 of the information analysis report automatic creation device. In FIG. 8, a “comparison target document” is selected from “investigation target document” and “comparison target document” in the “target document” window, and then “published patent” and “registered patent” in the “document content” window. "Utility model", "Academic literature", etc., select "Public patent" and "Registered patent", then "extracted contents" window "claim" "prior art" "invention problem" Select both “Claim” and “Summary” from “Means / Effects”, “Examples”, “Explanation of Figures”, “Drawings”, “Summary”, “Bibliographic Items”, “Progress Information”, “Registration Information”, “Others”, etc. Next, in the “data read” window, “in-house DB1” is selected from the same items as described above. The setting conditions on the input condition setting screen in this example set the investigation target document d condition input unit 210 and the comparison target document P condition input unit 220.

図9は、情報解析報告書自動作成装置の前記入力装置2の入力条件設定(3)画面の表示例である。「索引語抽出条件」のウインドの「自社キーワード切出1」「自社キーワード切出2」「商用キーワード切出1」「商用キーワード切出2」などの中から「自社キーワード切出1」を選び、次に「類似率算出方法」のウインドの「類似率1」「類似率2」「類似率3」「類似率4」「類似率5」「類似率6」などの中から「類似率1」を選び、次に「母集団文書選出」のウインドの「母集団文書数」「非母集団文書数」などの中から「母集団文書数」を選び、更に「上位100件」「上位1000件」「上位3000件」「上位5000件」「数値入力」などの中から「上位3000件」を選んだ状態の例である。この例の抽出条件設定画面における設定条件が、抽出条件その他入力部230を設定する。  FIG. 9 is a display example of an input condition setting (3) screen of the input device 2 of the information analysis report automatic creation device. Select “In-house keyword extraction 1” from “In-house keyword extraction 1”, “In-house keyword extraction 2”, “Commercial keyword extraction 1”, “Commercial keyword extraction 2”, etc. Next, “similarity 1” from among “similarity 1” “similarity 2” “similarity 3” “similarity 4” “similarity 5” “similarity 6” of the window of “similarity calculation method” Next, select “Number of Population Documents” from the “Number of Population Documents”, “Number of Non-Population Documents”, etc. in the “Select Population Document” window, and then select “Top 100” and “Top 1000”. This is an example of a state in which “higher 3000 items” is selected from “items”, “higher 3000 items”, “higher 5000 items”, “numerical value input” and the like. The setting condition on the extraction condition setting screen in this example sets the extraction condition other input unit 230.

図10は、情報解析報告書自動作成装置の前記出力装置2の出力条件設定画面の表示例である。「マップ算出方法」のウインドの「x軸」に「x軸:索引語件数」及び「y軸」に「y軸:索引語順位」を選び、次に「マップ位置」のウインドの「マップ1枚」「マップ2枚」「マップ1枚・データ付」「マップ2枚・データ付」「マップ1枚・コメント付」「マップ2枚・コメント付」「マップ1・データ・コメント付」「マップ2・データ・コメント付」などの中から「マップ1枚」を選び、次に「出力データ」のウインドの「独創語」「専門語」「母集団特性語」などの中から「独創語」を選び、更に「なし」「上位5個」「上位10個」「上位15個」「上位20個」「数値入力」などの中から「上位20個」を選んだ状態の例である。次に「コメン卜」のウインドの枠内の「(自由記入)」には無記入にした。こうして抽出条件その他入力部230の出力条件を設定する。  FIG. 10 is a display example of an output condition setting screen of the output device 2 of the information analysis report automatic creation device. Select “x axis: number of index words” and “y axis: index word ranking” for “x axis” in the “map calculation method” window, and then “map 1” in the “map position” window. "Sheets" "two maps" "one map with data" "two maps with data" "one map with comments" "two maps with comments" "map one with data and comments" "maps" 2. Select “1 map” from “Data, with comments”, etc., and then “Original words” from the “Output words” window, “Original words”, “Technical terms”, “Population characteristic words”, etc. And “Top 20” is selected from “None”, “Top 5”, “Top 10”, “Top 15”, “Top 20”, “Numeric Input”, and the like. Next, “(free entry)” in the window of “Comment” was left blank. Thus, the extraction conditions and other output conditions of the input unit 230 are set.

図11は、本発明の情報解析報告書自動作成装置において、図7から図10までの例で入力したときの、母集団文書S選出部160の選出結果、及び特徴索引語TF(d)IDF(S)演算部180の抽出結果を、マップ(グラフ・表)生成部415を介して、マップ・データ・コメント複合整形出力部440にて出力した出力結果の、具体例である。  FIG. 11 shows the selection result of the population document S selection unit 160 and the characteristic index word TF (d) IDF when the information analysis report automatic creating apparatus of the present invention is inputted in the examples of FIGS. (S) This is a specific example of the output result output by the map / data / comment composite shaping output unit 440 through the map (graph / table) generation unit 415 and the extraction result of the calculation unit 180.

図11から、本発明の情報解析報告書自動作成装置において、調査対象文書dの「WEBサイトへのアクセス促進システム」に関する公開特許公報にとって、比較対象文書として特許公開公報と特許公報の約10年分の文書と比較して、特徴のある索引語を調べた結果、「会員」「画像」「WEB」「表示」などが特徴索引語であることが分かる。  From FIG. 11, in the information analysis report automatic creating apparatus according to the present invention, the published patent gazette related to the “system for promoting access to the WEB site” of the surveyed document d is about 10 years as a comparative document. As a result of examining characteristic index words compared to the minute document, it is understood that “member”, “image”, “WEB”, “display”, and the like are characteristic index words.

図12乃至図31は、本発明の情報解析報告書自動作成装置の別の例で、図11のときと同条件で情報解析したときの、母集団文書S選出部160の選出結果、及び特徴索引語TF(d)IDF(S)演算部180の抽出結果を、マップ(グラフ・表)生成部415を介して、マップ・データ・コメント複合整形出力部440にて出力した出力結果の、マップ表示の具体例である。  FIGS. 12 to 31 show another example of the information analysis report automatic creating apparatus of the present invention. The selection results and characteristics of the population document S selection unit 160 when information is analyzed under the same conditions as in FIG. A map of an output result output from the index word TF (d) IDF (S) operation unit 180 by the map / data / comment composite shaping output unit 440 via the map (graph / table) generation unit 415 It is a specific example of a display.

は本発明に係る構成図Is a block diagram according to the present invention は本発明に係る一実施形態の詳細な構成図FIG. 1 is a detailed configuration diagram of an embodiment according to the present invention. は本発明に係る一実施形態の入力装置2の動作を示すフローチャートThese are flowcharts which show operation | movement of the input device 2 of one Embodiment which concerns on this invention. は本発明に係る一実施形態の処理装置1の動作を示すフローチャートThese are flowcharts which show operation | movement of the processing apparatus 1 of one Embodiment which concerns on this invention. は本発明に係る一実施形態の出力装置4の動作を示すフローチャートFIG. 5 is a flowchart showing the operation of the output device 4 according to the embodiment of the present invention. は従来例Is a conventional example は本発明に係る一実施形態の入力条件設定の実施例Is an example of input condition setting of an embodiment according to the present invention は本発明に係る一実施形態の入力条件設定の実施例Is an example of input condition setting of an embodiment according to the present invention は本発明に係る一実施形態の入力条件設定の実施例Is an example of input condition setting of an embodiment according to the present invention は本発明に係る一実施形態の出力条件設定の実施例Is an example of output condition setting of an embodiment according to the present invention は本発明の実施例Is an embodiment of the invention は本発明の別の実施例の表示例Is a display example of another embodiment of the present invention は本発明の別の実施例の表示例Is a display example of another embodiment of the present invention は本発明の別の実施例の表示例Is a display example of another embodiment of the present invention は本発明の別の実施例の表示例Is a display example of another embodiment of the present invention は本発明の別の実施例の表示例Is a display example of another embodiment of the present invention は本発明の別の実施例の表示例Is a display example of another embodiment of the present invention は本発明の別の実施例の表示例Is a display example of another embodiment of the present invention は本発明の別の実施例の表示例Is a display example of another embodiment of the present invention は本発明の別の実施例の表示例Is a display example of another embodiment of the present invention は本発明の別の実施例の表示例Is a display example of another embodiment of the present invention は本発明の別の実施例の表示例Is a display example of another embodiment of the present invention は本発明の別の実施例の表示例Is a display example of another embodiment of the present invention は本発明の別の実施例の表示例Is a display example of another embodiment of the present invention は本発明の別の実施例の表示例Is a display example of another embodiment of the present invention は本発明の別の実施例の表示例Is a display example of another embodiment of the present invention は本発明の別の実施例の表示例Is a display example of another embodiment of the present invention は本発明の別の実施例の表示例Is a display example of another embodiment of the present invention は本発明の別の実施例の表示例Is a display example of another embodiment of the present invention は本発明の別の実施例の表示例Is a display example of another embodiment of the present invention は本発明の別の実施例の表示例Is a display example of another embodiment of the present invention

符号の説明Explanation of symbols

1:処理装置、2:入力装置、3:記録装置、4:出力装置,
110:調査対象文書d読み出し部、120:索引語(d)抽出部、130:比較対象文書P読み出し部、140:索引語(P)抽出部、121:TF(d)演算部,141:TF(P)演算部、142:IDF(P)演算部、150:類似率演算部、160:母集団文書S選出部、170:索引語(S)抽出部、171:IDF(S)演算部、180:特徴索引語TF(d)IDF(S)演算部、
210:調査対象文書d条件入力部、220:比較対象文書P条件入力部、230:抽出条件その他入力部、
310:条件記録部、320:作業結果格納部、330:文書格納部、
410:マップ作成条件読出部、412:マップ用データ取り込み部、420:母集団データ出力条件読み出し部、422:出力データ取り込み部、430:コメント条件読出部、432:定形コメント取り込み部、435:コメント追記部、440:マップ・データ・コメント複合整形出力部。
1: processing device, 2: input device, 3: recording device, 4: output device,
110: Survey target document d reading unit, 120: Index word (d) extraction unit, 130: Comparison target document P reading unit, 140: Index word (P) extraction unit, 121: TF (d) calculation unit, 141: TF (P) calculation unit, 142: IDF (P) calculation unit, 150: similarity ratio calculation unit, 160: population document S selection unit, 170: index word (S) extraction unit, 171: IDF (S) calculation unit, 180: feature index word TF (d) IDF (S) calculation unit,
210: Survey target document d condition input unit, 220: Comparison target document P condition input unit, 230: Extraction condition other input unit,
310: Condition recording unit, 320: Work result storage unit, 330: Document storage unit,
410: Map creation condition reading unit, 412: Map data loading unit, 420: Population data output condition reading unit, 422: Output data loading unit, 430: Comment condition reading unit, 432: Standard comment loading unit, 435: Comment Appending part, 440: Map, data, and comment combined shaping output part.

Claims (12)

調査対象文書の情報解析において、調査対象文書の比較対象文書に対する特徴を的確にそして自動的に作成する情報解析報告書自動作成装置であって、
前記調査対象文書及び前記比較対象文書を指定して入力し、前記情報解析をする条件を入力する入力手段と、
前記調査対象文書と類似な文書群からなる母集団文書を比較対象文書から選出する選出手段と、
前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出手段と、
前記調査対象文書の特徴を表わす、母集団或いは索引語を表示、記録、又は通信に出力する出力手段と
を備えたことを特徴とする、情報解析報告書自動作成装置。
An information analysis report automatic creation device that accurately and automatically creates the characteristics of a survey target document with respect to a comparison target document in information analysis of the survey target document,
An input means for specifying and inputting the survey target document and the comparison target document, and inputting conditions for performing the information analysis,
A selection means for selecting, from the comparison target documents, a population document consisting of a document group similar to the survey target document;
Extraction means for extracting characteristic index terms for the population document of the survey target document;
An information analysis report automatic creation apparatus comprising: output means for displaying, recording, or outputting to a communication a population or index word representing the characteristics of the document to be investigated.
請求項1に記載の、情報解析報告書自動作成装置であって、
前記調査対象文書と類似な文書群からなる母集団文書を比較対象文書から選出する選出手段において、
前記選出手段が、比較対象文書に対する類似率を算出する算出手段の結果により選出する選出手段であること
を特徴とする、情報解析報告書自動作成装置
The information analysis report automatic creation device according to claim 1,
In a selection means for selecting a population document consisting of a document group similar to the survey target document from the comparison target documents,
An information analysis report automatic creation device, wherein the selection means is a selection means that is selected based on a result of a calculation means that calculates a similarity to a comparison target document
請求項2に記載の、情報解析報告書自動作成装置であって、
前記選出手段が、比較対象文書に対する類似率を算出する算出手段の結果により選出する選出手段であることにおいて、
前記類似率を算出する算出手段が、各文書の索引語毎の出現頻度と文書頻度の関数値による類似率の算出手段であること
を特徴とする、情報解析報告書自動作成装置。
An information analysis report automatic creation device according to claim 2,
In the selection means, the selection means is selected based on the result of the calculation means for calculating the similarity to the comparison target document.
An information analysis report automatic creating apparatus, wherein the calculation means for calculating the similarity is a similarity calculation means based on a function value of the appearance frequency and document frequency for each index word of each document.
請求項2に記載の、情報解析報告書自動作成装置であって、
前記調査対象文書の特徴を表わす、母集団或いは索引語を表示、記録、又は通信に出力する出力手段において、
前記母集団或いは前記索引語を分布させてマップ状にして表示する前記表示手段と、
前記母集団或いは前記索引語のデータを一部表示する表示手段と、
前記出力手段が、その内容に応じた定形のコメントを自動的に若しくは選択して、或いは自由なコメントを記入若しくは選択して表示する出力手段を含む
ことを特徴とする、情報解析報告書自動作成装置。
An information analysis report automatic creation device according to claim 2,
In the output means for displaying, recording, or outputting the population or index word representing the characteristics of the document to be investigated,
The display means for distributing and displaying the population or the index terms in a map;
Display means for partially displaying data of the population or the index word;
The output means includes an output means for automatically or selecting a standard comment corresponding to the content, or inputting or selecting a free comment, and displaying the information analysis report automatically. apparatus.
調査対象文書及び比較対象文書を指定して入力し、情報解析をする条件を入力する入力手段と、
前記調査対象文書と類似な文書群からなる母集団文書を前記比較対象文書から選出する選出手段と、
前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出手段と、
前記調査対象文書の特徴を表わす、前記母集団或いは前記索引語を表示、記録、又は通信に出力する出力手段と
を備えたことを特徴とする、情報解析報告書自動作成装置の情報処理手段にて動作し、
前記調査対象文書の情報解析において、前記調査対象文書の前記比較対象文書に対する特徴を的確にそして自動的に作成する情報解析報告書自動作成プログラムであって、
前記調査対象文書及び前記比較対象文書を指定して入力し、前記情報解析をする条件を入力する機能と、
前記調査対象文書と類似な文書群からなる母集団文書を比較対象文書から選出する機能と、
前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する機能と、
前記調査対象文書の特徴を表わす、母集団或いは索引語を表示、記録、又は通信に出力する機能と
を実現させることを特徴とした情報解析報告書自動作成プログラム。
An input means for inputting a condition for performing information analysis by designating and inputting a survey target document and a comparison target document,
A selection means for selecting, from the comparison target documents, a population document consisting of a document group similar to the survey target document;
Extraction means for extracting characteristic index terms for the population document of the survey target document;
An information processing means for automatically generating an information analysis report, comprising: an output means for displaying, recording, or outputting the population or the index word representing characteristics of the investigation target document to communication Works
In the information analysis of the survey target document, an information analysis report automatic creation program for accurately and automatically creating the characteristics of the survey target document with respect to the comparison target document,
A function of designating and inputting the survey target document and the comparison target document, and inputting conditions for performing the information analysis;
A function of selecting a population document consisting of a document group similar to the survey target document from comparison target documents;
A function of extracting characteristic index terms for the population document of the survey target document;
An information analysis report automatic creation program characterized by realizing a function of displaying, recording, or outputting to a communication a population or index word representing the characteristics of the survey target document.
請求項5記載の、情報解析報告書自動作成装置の情報処理手段にて動作し、
前記調査対象文書の情報解析において、前記調査対象文書の前記比較対象文書に対する特徴を的確にそして自動的に作成する情報解析報告書自動作成プログラムであって、
前記調査対象文書と類似な文書群からなる母集団文書を比較対象文書から選出する機能において、
前記選出機能が、比較対象文書に対する類似率を算出する算出機能の結果により選出する機能であること
を実現させることを特徴とした情報解析報告書自動作成プログラム。
It operates in the information processing means of the information analysis report automatic creation device according to claim 5,
In the information analysis of the survey target document, an information analysis report automatic creation program for accurately and automatically creating the characteristics of the survey target document with respect to the comparison target document,
In the function of selecting a population document consisting of a document group similar to the survey target document from the comparison target documents,
An information analysis report automatic creation program characterized by realizing that the selection function is a function that is selected based on a result of a calculation function for calculating a similarity to a comparison target document.
請求項6記載の、情報解析報告書自動作成装置の情報処理手段にて動作し、
前記調査対象文書の情報解析において、前記調査対象文書の前記比較対象文書に対する特徴を的確にそして自動的に作成する情報解析報告書自動作成プログラムであって、
前記比較対象文書に対する類似率を算出する算出機能の結果により選出する機能において、
前記類似率を算出する算出機能が、各文書の索引語毎の出現頻度と文書頻度の関数値による類似率の算出機能であること
を実現させることを特徴とした情報解析報告書自動作成プログラム。
It operates in the information processing means of the information analysis report automatic creation device according to claim 6,
In the information analysis of the survey target document, an information analysis report automatic creation program for accurately and automatically creating the characteristics of the survey target document with respect to the comparison target document,
In the function of selecting by the result of the calculation function that calculates the similarity to the comparison target document,
An information analysis report automatic creation program that realizes that the calculation function for calculating the similarity is a function for calculating a similarity based on a function value of the appearance frequency and document frequency for each index word of each document.
請求項6記載の、情報解析報告書自動作成装置の情報処理手段にて動作し、
前記調査対象文書の情報解析において、前記調査対象文書の前記比較対象文書に対する特徴を的確にそして自動的に作成する情報解析報告書自動作成プログラムであって、
前記調査対象文書の特徴を表わす、母集団或いは索引語を表示、記録、又は通信に出力する機能において、
前記母集団或いは前記索引語を分布させてマップ状にして表示する前記表示機能と、
前記母集団或いは前記索引語のデータを一部表示する表示機能と、
前記出力機能が、その内容に応じた定形のコメントを自動的に若しくは選択して、或いは自由なコメントを記入若しくは選択して表示する出力機能を含むこと
を実現させることを特徴とした情報解析報告書自動作成プログラム。
It operates in the information processing means of the information analysis report automatic creation device according to claim 6,
In the information analysis of the survey target document, an information analysis report automatic creation program for accurately and automatically creating the characteristics of the survey target document with respect to the comparison target document,
In the function of displaying, recording, or outputting the population or index word representing the characteristics of the survey target document to the communication,
The display function for distributing and displaying the population or the index terms in a map form;
A display function for partially displaying the data of the population or the index word;
An information analysis report characterized by realizing that the output function includes an output function for automatically or selecting a fixed comment according to the content, or inputting or selecting a free comment for display. Automatic document creation program.
調査対象文書及び比較対象文書を指定して入力し、情報解析をする条件を入力する入力手段と、
前記調査対象文書と類似な文書群からなる母集団文書を前記比較対象文書から選出する選出手段と、
前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出手段と、
前記調査対象文書の特徴を表わす、前記母集団或いは前記索引語を表示、記録、又は通信に出力する出力手段と
を備えたことを特徴とする、情報解析報告書自動作成装置を用いて、
前記調査対象文書の情報解析において、前記調査対象文書の前記比較対象文書に対する特徴を的確にそして自動的に作成する情報解析報告書自動作成方法であって、
前記調査対象文書及び前記比較対象文書を指定して入力し、前記情報解析をする条件を入力する工程と、
前記調査対象文書と類似な文書群からなる母集団文書を比較対象文書から選出する工程と、
前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する工程と、
前記調査対象文書の特徴を表わす、母集団或いは索引語を表示、記録、又は通信に出力する工程と
を含むことを特徴とした情報解析報告書自動作成方法。
An input means for inputting a condition for performing information analysis by designating and inputting a survey target document and a comparison target document,
A selection means for selecting, from the comparison target documents, a population document consisting of a document group similar to the survey target document;
Extraction means for extracting characteristic index terms for the population document of the survey target document;
Using the information analysis report automatic creation device, characterized in that it comprises an output means for displaying, recording, or outputting the population or the index word representing the characteristics of the document to be investigated,
In the information analysis of the survey target document, an information analysis report automatic creation method for accurately and automatically creating the characteristics of the survey target document with respect to the comparison target document,
Designating and inputting the survey target document and the comparison target document, and inputting conditions for performing the information analysis;
Selecting a population document consisting of a group of documents similar to the survey target document from the comparison target documents;
Extracting characteristic index terms for the population document of the survey target document;
A method of automatically generating an information analysis report, comprising the step of displaying, recording, or outputting to a communication a population or index word representing the characteristics of the document to be investigated.
請求項9記載の、情報解析報告書自動作成方法であって、
前記調査対象文書と類似な文書群からなる母集団文書を比較対象文書から選出する工程において、
前記選出工程が、比較対象文書に対する類似率を算出する算出機能の結果により選出する工程であること
を含むことを特徴とした情報解析報告書自動作成方法。
An information analysis report automatic creation method according to claim 9,
In the process of selecting a population document consisting of a document group similar to the survey target document from the comparison target documents,
An information analysis report automatic creation method characterized in that the selection step includes a step of selecting based on a result of a calculation function for calculating a similarity to a comparison target document.
請求項10記載の、情報解析報告書自動作成方法であって、
前記比較対象文書に対する類似率を算出する算出工程の結果により選出する工程において、
前記類似率を算出する算出工程が、各文書の索引語毎の出現頻度と文書頻度の関数値による類似率の算出工程であること
を含むことを特徴とした情報解析報告書自動作成方法。
An information analysis report automatic creation method according to claim 10,
In the step of selecting by the result of the calculation step of calculating the similarity to the comparison target document,
An information analysis report automatic creation method characterized in that the calculation step of calculating the similarity rate includes a step of calculating a similarity rate based on a function value of the appearance frequency and document frequency for each index word of each document.
請求項10記載の、情報解析報告書自動作成方法であって、
前記調査対象文書の特徴を表わす、前記母集団或いは前記索引語を表示、記録、又は通信に出力する工程において、
前記母集団或いは前記索引語を分布させてマップ状にして表示する表示工程と、
前記母集団或いは前記索引語のデータを一部表示する表示工程と、
前記出力工程が、その内容に応じた定形のコメントを自動的に若しくは選択して、或いは自由なコメントを記入若しくは選択して表示する出力工程と
を含むことを特徴とした情報解析報告書自動作成方法。
An information analysis report automatic creation method according to claim 10,
In the step of displaying, recording, or outputting to the communication, the population or the index word representing the characteristics of the survey target document,
A display step of distributing and displaying the population or the index terms in a map;
A display step for displaying a part of the data of the population or the index word;
The output process includes an output process for automatically or selecting a standard comment according to the content, or inputting or selecting a free comment, and displaying the information analysis report automatically. Method.
JP2003396361A 2003-10-22 2003-10-22 Apparatus, program and method for automatic preparation of information analysis report Withdrawn JP2005128978A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003396361A JP2005128978A (en) 2003-10-22 2003-10-22 Apparatus, program and method for automatic preparation of information analysis report

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003396361A JP2005128978A (en) 2003-10-22 2003-10-22 Apparatus, program and method for automatic preparation of information analysis report

Publications (1)

Publication Number Publication Date
JP2005128978A true JP2005128978A (en) 2005-05-19

Family

ID=34649860

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003396361A Withdrawn JP2005128978A (en) 2003-10-22 2003-10-22 Apparatus, program and method for automatic preparation of information analysis report

Country Status (1)

Country Link
JP (1) JP2005128978A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006115260A1 (en) * 2005-04-25 2006-11-02 Intellectual Property Bank Corp. Device for automatically creating information analysis report, program for automatically creating information analysis report, and method for automatically creating information analysis report
JP2009271659A (en) * 2008-05-02 2009-11-19 Ricoh Co Ltd Information processing apparatus, information processing method, information processing program and recording medium
JP2012059173A (en) * 2010-09-13 2012-03-22 Fujitsu Marketing Ltd Report preparation device and its program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006115260A1 (en) * 2005-04-25 2006-11-02 Intellectual Property Bank Corp. Device for automatically creating information analysis report, program for automatically creating information analysis report, and method for automatically creating information analysis report
JP2009271659A (en) * 2008-05-02 2009-11-19 Ricoh Co Ltd Information processing apparatus, information processing method, information processing program and recording medium
JP2012059173A (en) * 2010-09-13 2012-03-22 Fujitsu Marketing Ltd Report preparation device and its program

Similar Documents

Publication Publication Date Title
Strobelt et al. Document cards: A top trumps visualization for documents
US8645184B2 (en) Future technology projection supporting apparatus, method, program and method for providing a future technology projection supporting service
US20050138018A1 (en) Information retrieval system, search result processing system, information retrieval method, and computer program product therefor
JP2008192055A (en) Content search method and content search apparatus
JPWO2005038672A1 (en) Index word extraction device, character expression diagram, and document feature analysis device for survey target document
JP4832952B2 (en) Database analysis system, database analysis method and program
JP2006091994A (en) Device, method and program for processing document information
JP4305836B2 (en) Content search display device and content search display method
JP2004334341A (en) Document retrieval system, document retrieval method, and recording medium
JP2005128978A (en) Apparatus, program and method for automatic preparation of information analysis report
JP2002251412A (en) Document retrieving device, method, and storage medium
JP2011048527A (en) Sensitivity information extraction device, sensitivity retrieval device and method, and program
JPH1185794A (en) Retrieval word input device and recording medium recording retrieval word input program
JP2000020549A (en) Device for assisting input to document database system
JP4484957B1 (en) Retrieval expression generation device, retrieval expression generation method, and program
JP2008276561A (en) Morpheme analysis device, morpheme analysis method, morpheme analysis program, and recording medium with computer program recorded thereon
JP2549745B2 (en) Document search device
JP3943005B2 (en) Information retrieval program
JP7284371B2 (en) Information processing device, information processing method, and program
JP4248828B2 (en) Document processing apparatus, document processing method, and recording medium
JP2008083898A (en) Information processing system and information processing program
JP2002259426A (en) Similar document retrieval device, similar document retrieval method, recording medium with similar document retrieval program recorded thereon and similar document retrieval program
JP2000207414A (en) Internet information retrieving method and storage medium with internet information retrieval program stored therein
JP4135467B2 (en) Information processing apparatus, system, and program
JP3210842B2 (en) Information processing device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061020

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20061020

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20080331