JPH01188934A - Automatic document sorting device - Google Patents

Automatic document sorting device

Info

Publication number
JPH01188934A
JPH01188934A JP63013063A JP1306388A JPH01188934A JP H01188934 A JPH01188934 A JP H01188934A JP 63013063 A JP63013063 A JP 63013063A JP 1306388 A JP1306388 A JP 1306388A JP H01188934 A JPH01188934 A JP H01188934A
Authority
JP
Japan
Prior art keywords
document
score
classification
input
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63013063A
Other languages
Japanese (ja)
Other versions
JPH069054B2 (en
Inventor
Atsushi Tamura
淳 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63013063A priority Critical patent/JPH069054B2/en
Publication of JPH01188934A publication Critical patent/JPH01188934A/en
Publication of JPH069054B2 publication Critical patent/JPH069054B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PURPOSE:To effectively sort documents by checking a sample document group to obtain the appearing frequency information on the key words of each field and knowing a key word having the high identifying power as well as the degree of this identifying degree. CONSTITUTION:In a preparatory process a key word is extracted by an automatic key word extracting means 2 for a sample document. Then the appearing frequency of the extracted key word is counted by a positive score table production means 71 for acquisition of the squared value. Then a key word having high identifying power is selected and at the same time the score of the key word showing the degrees of contribution to each field is calculated from said squared value. These calculated scores are stored in a score table storing means 8. In a field process, the means 2 ejects the key word to the document received from a document input means 1. Then the score of the key word is read out by reference to the means 8 and added to each field. The sorting operation is carried out to the fixed area of a document from its head toward a field showing the highest score.

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、文書自動分類装置に関するものである。[Detailed description of the invention] (Industrial application field) The present invention relates to an automatic document classification device.

(従来の技術) 従来は、文書の分類は人手によっていたため、非能率的
であった。また、あるキーワードが出現なときに特定の
項目へ分類する方法では、分類は自動的に行えるものの
、キーワードと分類先との対応関係はあらかじめ人手で
つけておかなければならなかった。
(Prior Art) Conventionally, document classification was done manually, which was inefficient. In addition, in the method of classifying into a specific item when a certain keyword appears, although the classification can be performed automatically, the correspondence between the keyword and the classification destination had to be established manually in advance.

(発明が解決しようとする問題点) 以上述べたよ−うに、従来の文書の分類では、人手を介
するため、正確ではあるものの時間とコストがかかると
いう問題点があった。
(Problems to be Solved by the Invention) As described above, the conventional document classification requires manual labor, so although it is accurate, it is time consuming and costly.

本発明の目的は、このような従来の欠点を除去して、文
書分類の際に各分類ごとのキーワードの出現頻度情報を
利用して自動的に分類する新規な文書自動分類装置を提
供することにある。
An object of the present invention is to provide a novel automatic document classification device that eliminates such conventional drawbacks and automatically classifies documents using frequency information of keywords for each classification. It is in.

(問題点を解決するための手段) 本発明の文書自動分類装置は、 (a)電子化文書を入力する文書入力手段、(b)前記
文書入力手段から文書を受け取り、その文書中のキーワ
ードを自動的に抽出するキーワード自動抽出手段、 (c)前記文書入力手段に標本文書が入力されたときに
、前記キーワード自動抽出手段により抽出されたキーワ
ードの出現頻度から統計値をもとに各キーワードの各分
野への肯定的な貢献度を表す正の得点を計算し、得点表
を作成する正得点表作成手段、 (d)前記得点表作成手段により作成された得点表を格
納する得点表表示手段、 (e)前記文書入力手段に分類すべき文書が入力された
ときに、前記キーワード自動抽出手段により抽出された
キーワードを入力として、そのキーワードに対応する得
点を前記得点表表示手段を参照することにより入力して
、入力文書の各分野ごとの得点を計算する得点計算手段
、 (f)前記得点計算手段から各分野の得点を受け取り、
その得点をもとに一つの分類先を決定する単一分類手段
、 (g)前記分類手段から分類結果を受け取り、その分類
結果を格納する分類結果表示手段、(h)前記分類手段
から分類結果を受け取り、その分類結果を表示する分類
結果表示手段、を備えていることを特徴としている。
(Means for Solving the Problems) The automatic document classification device of the present invention includes (a) a document input means for inputting an electronic document; (b) a document received from the document input means, and keywords in the document. automatic keyword extraction means for automatically extracting keywords; (c) when a sample document is input to the document input means, each keyword is extracted based on statistical values from the appearance frequency of the keywords extracted by the automatic keyword extraction means; (d) a score sheet display means for storing the score sheet created by the score sheet creation means; (e) When a document to be classified is input to the document input means, inputting a keyword extracted by the automatic keyword extraction means, and referring to the score table display means for the score corresponding to the keyword; (f) receiving the score for each field from the score calculating means;
A single classification means that determines one classification destination based on the score; (g) A classification result display means that receives the classification result from the classification means and stores the classification result; (h) A classification result from the classification means. The present invention is characterized by comprising a classification result display means for receiving the classification result and displaying the classification result.

本発明の第2の文書自動分類装置は、 (a)゛電子化文書を入力する文書入力手段、(b)前
記文書入力手段から文書を受け取り、その文書中のキー
ワードを自動的に抽出するキーワード自動抽出手段、 (c)前記文書入力手段に標本文書が入力されたときに
、前記キーワード自動抽出手段により抽出されたキーワ
ードの出現頻度から統計値をもとに各キーワードの各分
野への肯定的な貢献度を表す正の得点および否定的な貢
献度を表す負の得点を計算し、得点表を作成する正負得
点表作成手段、 (d)前記得点表作成手段により作成された得点表を格
納する得点表表示手段、 (e)前記文書入力手段に分類すべき文書が入力された
ときに、前記キーワード自動抽出手段により抽出された
キーワードを入力として、そのキニワードに対応する得
点を前記得点表表示手段を参照することにより入力して
、入力文書の各分野ごとの得点を計算する得点計算手段
、 (f)前記得点計算手段から各分野の得点を受け取り、
その得点をもとに一つの分類先を決定する単一分類手段
、 (g)前記分類手段から分類結果を受け取り、その分類
結果を格納する分類結果表示手段、(h)前記分類手段
から分類結果を受け取り、その分類結果を表示する分類
結果表示手段、を備えていることを特徴としている。
A second automatic document classification device of the present invention includes (a) a document input means for inputting an electronic document, and (b) a keyword for receiving a document from the document input means and automatically extracting a keyword in the document. automatic extraction means; (c) when a sample document is input to the document input means, a positive expression for each field of each keyword based on statistical values from the appearance frequency of the keywords extracted by the automatic keyword extraction means; positive and negative score table creation means for calculating a positive score representing a degree of contribution and a negative score representing a degree of negative contribution, and creating a score sheet; (d) storing a score sheet created by the score sheet creation means; (e) When a document to be classified is input to the document input means, a keyword extracted by the automatic keyword extraction means is input, and a score corresponding to the keyword is displayed in the score table. a score calculation means for calculating a score for each field of the input document by inputting the input document by referring to the means; (f) receiving the score for each field from the score calculation means;
A single classification means that determines one classification destination based on the score; (g) A classification result display means that receives the classification result from the classification means and stores the classification result; (h) A classification result from the classification means. The present invention is characterized by comprising a classification result display means for receiving the classification result and displaying the classification result.

本発明の第3の文書自動分類装置は、 (a)電子化文書を入力する文書入力手段、(b)前記
文書入力手段から文書を受け取り、その文書中のキーワ
ードを自動的に抽出するキーワード自動抽出手段、 (c)前記文書入力手段に標本文書が入力されたときに
、前記キーワード自動抽出手段により抽出されたキーワ
ードの出現頻度から統計値をもとに各キーワードの各分
野への肯定的な貢献度を表す正の得点を計算し、得点表
を作成する正得点表作成手段、 (d)前記得点表作成手段により作成された得点表を格
納する得点表表示手段、 (e)前記文書入力手段に分類すべき文書が入力された
ときに、前記キーワード自動抽出手段により抽出された
キーワードを入力として、そのキーワードに対応する得
点を前記得点表表示手段を参照することにより入力して
、入力文書の各分野ごとの得点を計算する得点計算手段
、 (f)前記得点計算手段から各分野の得点を受け取り、
その得点をもとに複数の分類先を決定する複数分類手段
、 (c)前記分類手段から分類結果を受け取り、その分類
結果を格納する分類結果表示手段、(h)前記分類手段
から分類結果を受け取り、その分類結果を表示する分類
結果表示手段、を備えていることを特徴としている。
A third automatic document classification device of the present invention includes (a) a document input means for inputting an electronic document; (b) a keyword automatic classification device that receives a document from the document input means and automatically extracts keywords in the document. (c) when a sample document is input to the document input means, a positive keyword for each field is determined based on statistical values from the appearance frequency of the keywords extracted by the automatic keyword extraction means; a positive score sheet creation means that calculates a positive score representing the degree of contribution and creates a score sheet; (d) a score sheet display means that stores the score sheet created by the score sheet creation means; (e) the document input. When a document to be classified as a means is input, the keyword extracted by the automatic keyword extraction means is input, the score corresponding to the keyword is input by referring to the score table display means, and the input document is (f) receiving the scores for each field from the score calculating means;
a plurality of classification means for determining a plurality of classification destinations based on the scores; (c) a classification result display means for receiving classification results from the classification means and storing the classification results; (h) a classification result display means for receiving the classification results from the classification means; The present invention is characterized by comprising a classification result display means for receiving and displaying the classification results.

本発明め第4の文書自動分類装置は、 (a) 電子化文書を入力する文書入力手段、(b)前
記文書入力手段から文書を受け取り、その文書中のキー
ワードを自動的に抽出するキーワード自動抽出手段、 <e)前記文書入力手段に標本文書が入力されたときに
、前記キーワード自動抽出手段により抽出されたキーワ
ードの出現頻度から統計値をもとに各キーワードの各分
野への肯定的な貢献度を表す正の得点および否定的な貢
献度を表す負の得点を計算し、得点表を作成する正負得
点表作成手段、 (d)前記得点表作成手段により作成された得点表を格
納する得点表表示手段、 (e)前記文書入力手段に分類すべき文書が入力された
ときに、前記キーワード自動抽出手段により抽出された
キーワードを入力として、そのキーワードに対応する得
点を前記得点表表示手段を参照することにより入力して
、入力文書の各分野ごとの得点を計算する得点計算手段
、 (f)前記得点計算手段から各分野の得点を受け取り、
゛その得点をもとに複数の分類先を決定する複数分類手
段、 (g)前記分類手段から分類結果を受け取り、その分類
結果を格納する分類結果表示手段、(h)前記分類手段
から分類結果を受け取り、その分類結果を表示する分類
結果表示手段、を備えていることを特徴としている。
A fourth automatic document classification device of the present invention includes: (a) a document input means for inputting an electronic document; (b) a keyword automatic classification device for receiving a document from the document input means and automatically extracting keywords in the document. Extracting means, <e) When a sample document is input to the document inputting means, determining the positive association of each keyword with respect to each field based on statistical values from the appearance frequency of the keywords extracted by the automatic keyword extraction means; positive and negative score table creation means for calculating a positive score representing a degree of contribution and a negative score representing a negative degree of contribution and creating a score sheet; (d) storing the score sheet created by the score sheet creation means; (e) When a document to be classified is input to the document input means, the keyword extracted by the automatic keyword extraction means is input, and the score table display means displays the score corresponding to the keyword. (f) receiving the score for each field from the score calculating means;
゛Multiple classification means that determines a plurality of classification destinations based on the scores; (g) classification result display means that receives classification results from the classification means and stores the classification results; (h) classification results from the classification means; The present invention is characterized by comprising a classification result display means for receiving the classification result and displaying the classification result.

第1図は文書自動分類装置のブロック図であって、第1
図において1は文書入力手段、2はキーワード自動抽出
手段、3は得点計算手段、4は単一分類手段、5は分類
結果表示手段、6は分類結果表示手段、7は正得点表作
成手段、8は得点表表示手段である。
FIG. 1 is a block diagram of the automatic document classification device.
In the figure, 1 is a document input means, 2 is a keyword automatic extraction means, 3 is a score calculation means, 4 is a single classification means, 5 is a classification result display means, 6 is a classification result display means, 7 is a correct score table creation means, 8 is a score sheet display means.

第4図は文書自動分類装置のブロック図であって、第4
図において1は文書入力手段、2はキーワード自動抽出
手段、3は得点計算手段、4は単一分類手段、5は分類
結果表示手段、6は分類結果表示手段、7は正負得点表
作成手段、8は得点表表示手段である。
FIG. 4 is a block diagram of the automatic document classification device.
In the figure, 1 is a document input means, 2 is a keyword automatic extraction means, 3 is a score calculation means, 4 is a single classification means, 5 is a classification result display means, 6 is a classification result display means, 7 is a positive/negative score table creation means, 8 is a score sheet display means.

第5図は文書自動分類装置のブロック図であって、第5
図において1は文書入力手段、2はキーワード自動抽出
手段、3は得点′計算手段、4は複数分類手段、5は分
類結果表示手段、6は分類結果表示手段、7は正得点表
作成手段、8は得点表表示手段である。
FIG. 5 is a block diagram of the automatic document classification device.
In the figure, 1 is a document input means, 2 is a keyword automatic extraction means, 3 is a score calculation means, 4 is a multiple classification means, 5 is a classification result display means, 6 is a classification result display means, 7 is a correct score table creation means, 8 is a score sheet display means.

第6図は文書自動分類装置のブロック図であって、第6
図において1は文書入力手段、2はキーワード自動抽出
手段、3は得点計算手段、4は複数分類手段、5は分類
結果表示手段、6は分類結果表示手段、7は正負得点表
作成手段、8は得点表表示手段である。
FIG. 6 is a block diagram of the automatic document classification device.
In the figure, 1 is a document input means, 2 is a keyword automatic extraction means, 3 is a score calculation means, 4 is a multiple classification means, 5 is a classification result display means, 6 is a classification result display means, 7 is a positive/negative score table creation means, 8 is a score sheet display means.

(作用) 本発明においては、標本文書群を調べることにより各分
野におけるキーワードの出現頻度情報を得て、識別力の
高いキーワードとその識別力の高さを知ることができる
。第2および第4の発明においては、ある分野における
キーワードの出やすさだけでなく出にくさをも考慮する
ことにより、情報を有効に活用して文書を効率的に分類
することができる。第1および第2の発明においては、
単一の分類先へ分類することができ、第3および第4の
発明においては、複数の分類先へ分類することができる
(Operation) In the present invention, by examining a group of sample documents, information on the appearance frequency of keywords in each field can be obtained, and keywords with high discriminative power and their high discriminative powers can be known. In the second and fourth inventions, by considering not only the ease with which keywords appear in a certain field but also the difficulty in finding them, documents can be efficiently classified by effectively utilizing information. In the first and second inventions,
It is possible to classify into a single classification destination, and in the third and fourth inventions, it is possible to classify into a plurality of classification destinations.

(実施例1) 本発明の第1の装置を用いた文書分類手順を以下で説明
する。手順は、キーワードの出現頻度と分野との関係を
調べるために標本データに対して行う準備処理と、実際
に文書を分類する分類処理の2つに大別される。
(Example 1) A document classification procedure using the first device of the present invention will be described below. The procedure is broadly divided into two: a preparation process performed on sample data to examine the relationship between the frequency of appearance of keywords and the field, and a classification process to actually classify documents.

まず、準備処理について第1図、第2図を参照しながら
述べる。準備処理においては、標本文書に対して文書入
力手段1、キーワード自動抽出手段2、正得点表作成手
段71、得点表表示手段8が使われる。準備処理手順を
以下で説明する。まず、文書入力手段1により入力され
た標本文書に対して、ステップ11でキーワード自動抽
出手段2によってキーワードが抽出される。ステップ1
1では基本的に文書中の名詞、す変動側語幹が抽出され
る。゛そのほか、キーワード自動抽出手段2内の辞書に
登録されていない同字種からなる文字列も抽出される。
First, the preparation process will be described with reference to FIGS. 1 and 2. In the preparation process, the document input means 1, the automatic keyword extraction means 2, the correct score table creation means 71, and the score table display means 8 are used for the sample document. The preparation procedure will be explained below. First, keywords are extracted from a sample document input by the document input means 1 by the automatic keyword extraction means 2 in step 11. Step 1
1 basically extracts nouns and variable stems from the document.゛In addition, character strings consisting of the same character types that are not registered in the dictionary in the automatic keyword extraction means 2 are also extracted.

前記ステップ11で抽出されたキーワードの出現頻度を
正得点表作成手段71によりステップ12で数え、第i
番目のキーワードの第j分野における出現頻度Xljを
調べる。前記ステップ11と前記ステップ12は標本デ
ータのある限り繰り返される。標本データを調べ終えた
ならば、この出現頻度XIJからステップ13でカイ二
乗値X21を正得点表作成手段71により求める。具体
的には、(11式および(′2J式を用いる。
The appearance frequency of the keyword extracted in step 11 is counted in step 12 by the correct score table creation means 71, and the i-th
The appearance frequency Xlj of the th keyword in the jth field is examined. The steps 11 and 12 are repeated as long as there is sample data. After examining the sample data, the chi-square value X21 is determined from the appearance frequency XIJ in step 13 by the correct score table creation means 71. Specifically, formulas (11 and ('2J) are used.

X 、=Σ(X IJ  a IJ) / a IJ 
      (11j=1 alJ−Σ x +に′X、X IJ/Σ Σ X、k
(21に−11−1k−11−1 ここで、XIJは第i番目のキーワードの第j分野にお
ける実際の出現頻度、alJは第i番目のキーワードの
第j分野における理論度数、Mは異なり単語数、nは分
野数である。なお、理論度数とは各分野均一にキーワー
ドが出現した場合のキーワードの出現頻度をいう。
X, = Σ(X IJ a IJ) / a IJ
(11j=1 alJ−Σ x +′X, X IJ/Σ Σ
(21-11-1k-11-1 Here, XIJ is the actual appearance frequency of the i-th keyword in the j-th field, alJ is the theoretical frequency of the i-th keyword in the j-th field, and M is a different word The number n is the number of fields. Note that the theoretical frequency refers to the frequency of appearance of a keyword when the keyword appears uniformly in each field.

次にステップ14で正得点表作成手段71により(21
式を満たす第i番目のキーワードを識別力のあるキーワ
ードとして選別する。θは処理時間と精度とを勘案して
定める。
Next, in step 14, the correct score table creation means 71 (21
The i-th keyword that satisfies the formula is selected as a keyword with discriminative power. θ is determined in consideration of processing time and accuracy.

X21〉θ                (2前記
ステツプ14により選別されたキーワードの数をmとす
る。
X21>θ (2) Let m be the number of keywords selected in step 14.

ステップ15でカイ二乗値X2肋’ら第i一番目のキー
ワードの第j分野への貢献度を示す得点WIJを正得点
表作成手段71により算出する。第j分野へ肯定的な影
響を与える正の貢献度を得点WIJ+と表し、(3a)
式、(3b)式で定義する。
In step 15, the score WIJ indicating the degree of contribution of the i-th keyword to the j-th field is calculated by the positive score table creation means 71 from the chi-square value X2'. The degree of positive contribution that has a positive impact on the j-th field is expressed as the score WIJ+, and (3a)
It is defined by equation (3b).

XIJ≧alJのとき WIJ子 −X2ビ (XIJ   a+、+)2 /
X IJ< a IJのとき WIJ” =O(3b ) なお、(3a)式において、 1≦i≦m、   1≦j≦n、   1≦に≦nであ
る。
When XIJ≧alJ, WIJ child −X2bi (XIJ a+, +)2/
When X IJ<a IJ, WIJ''=O(3b) In equation (3a), 1≦i≦m, 1≦j≦n, and 1≦≦n.

完成した大きさmXnの得点表は、ステップ16で得点
表表示手段8に格納される。以上が準備処理である。
The completed score sheet of size mXn is stored in the score sheet display means 8 in step 16. The above is the preparation process.

次に分類処理について第1図、第3図を参照しながら述
べる。分類処理においては、分類されるべき文書に対し
て文書入力手段1、キーワード自動抽出手段2、得点計
算手段3、単一分類手段41、分類結果表示手段5、分
類結果表示手段6、得点表表示手段8が使われる。分類
処理手順を以下で説明する。まず、文書入力手段1によ
り入力された文書に対して、ステップ21でキーワード
自動抽出手段2によりキーワードが抽出される。
Next, the classification process will be described with reference to FIGS. 1 and 3. In the classification process, a document to be classified is subjected to a document input means 1, an automatic keyword extraction means 2, a score calculation means 3, a single classification means 41, a classification result display means 5, a classification result display means 6, and a score table display. Means 8 is used. The classification processing procedure will be explained below. First, keywords are extracted from a document input by the document input means 1 by the automatic keyword extraction means 2 in step 21 .

前記ステップ21では基本的に文書中の名詞、す変動側
語幹が抽出される。そのほか、キーワード自動抽出手段
2内の辞書に登録されていない同字種からなる文字列も
抽出される。次に前記ステップ21で抽出されたキーワ
ードに対して、ステップ22で得点計算手段3により得
点表表示手段8を参照して該当キーワードの得点を読み
出し、得点を各分野へ加算する。前記ステップ21と前
記ステップ22は文章の先頭から一定領域に対して行う
。対象領域は、先頭の一定数文、もしくは−定数のキー
ワードが抽出されるまでの領域とし、標本データの特性
をもとに決定する。対象領域内の処理が終了したときに
は、第j分野の総得点vLjは対象領域内のデータに対
して(4)式を用いて計算されている。なお、同じキー
ワードが複数回出現した場合には、回数分加算されたも
のとする。
In step 21, basically the nouns and variable stems in the document are extracted. In addition, character strings consisting of the same character types that are not registered in the dictionary in the automatic keyword extraction means 2 are also extracted. Next, in step 22, the score calculation means 3 refers to the score table display means 8 to read the score of the keyword extracted in step 21, and adds the score to each field. The steps 21 and 22 are performed for a certain area from the beginning of the sentence. The target area is defined as the first certain number of sentences or the area until the - constant keyword is extracted, and is determined based on the characteristics of the sample data. When the processing within the target area is completed, the total score vLj of the j-th field has been calculated using equation (4) for the data within the target area. Note that if the same keyword appears multiple times, it is assumed that the number of times is added.

菫、=ΣW I J              (4
1各分野の総得点W、が計算されたならば、これをもと
にステップ23で分類手段4により、最高得点を示す分
野へ分類する。すなわち、(5)式を満たす第j分野へ
分類する。
Violet, = ΣW I J (4
1. Once the total score W for each field has been calculated, based on this, in step 23, the classification means 4 classifies the field into the field showing the highest score. That is, it is classified into the j-th field that satisfies equation (5).

W、≧Wk for  Vk         (5]
最後に、前記ステップ23で決定された分類先を、ステ
ップ24で分類結果表示手段5により格納し、分類結果
表示手段6により表示する。
W, ≧Wk for Vk (5)
Finally, the classification destination determined in step 23 is stored by the classification result display means 5 in step 24, and displayed by the classification result display means 6.

(実施例2) 本発明の第2の装置を用いた文書分類手順を以下で説明
する。
(Example 2) A document classification procedure using the second device of the present invention will be described below.

まず、準備処理について第4図、第2図を参照しながら
述べる。準備処理においては、標本文書に対して文書入
力手段1、キーワード自動抽出手段2、正負得点作成手
段72、得点表表示手段8が使われる。準備処理手順を
以下で説明する。ここで、第1図における手段の番号と
同じものは、同様の機能を有する手段である。
First, the preparation process will be described with reference to FIGS. 4 and 2. In the preparation process, the document input means 1, the automatic keyword extraction means 2, the positive/negative score creation means 72, and the score table display means 8 are used for the sample document. The preparation procedure will be explained below. Here, the same numbers as the means in FIG. 1 indicate means having similar functions.

第2の発明においては、第2図のステップ15でカイ二
乗値X2Iから第1番目のキーワードの第j分野への貢
献度を示す得点WIJを正負得点表作成手段72により
算出する。第j分野へ肯定的な影響を与える正の貢献度
を得点WIJ+、否定的な影響を与える負の貢献度を得
点WIJ−と表し、それぞれ(3a)式、(3C)式で
定義する。得点wlJ+と得点WIJ−とをまとめて得
点WIJとよぶことにする。
In the second invention, in step 15 of FIG. 2, a score WIJ indicating the degree of contribution of the first keyword to the j-th field is calculated from the chi-square value X2I by the positive/negative score table creation means 72. A positive contribution that has a positive impact on the j-th field is represented by a score WIJ+, and a negative contribution that has a negative impact is represented by a score WIJ-, which are defined by equations (3a) and (3C), respectively. The score wlJ+ and the score WIJ- will be collectively referred to as the score WIJ.

XIJ≧alJのとき w、)+ =X21−  (Xll  ac」)  V
Σ   (X+k ack)2     (3a)Xl
k≧alk x 、j< a 、jのとき WIJ−ニーX2i・ (XIJ  az) 2/なお
、(3a)式、(3C)式において、1≦i≦m、  
 1≦j≦n、   1≦に≦nである。
When XIJ≧alJ, )+ =X21- (Xll ac”) V
Σ (X+k ack)2 (3a)Xl
When k≧alk x, j<a, j, WIJ-nee
1≦j≦n, 1≦and≦n.

次に分類処理について第4図、第3図を参照しながら述
べる。分類処理においては、分類されるべき文書に対し
て文書入力手段1、キーワード自動抽出手段2、得点計
算手段3、単一分類手段41、分類結果表示手段5、分
類結果表示手段6、得点表表示手段8が使われる。分類
処理手順は第1の発明と同様である。
Next, the classification process will be described with reference to FIGS. 4 and 3. In the classification process, a document to be classified is subjected to a document input means 1, an automatic keyword extraction means 2, a score calculation means 3, a single classification means 41, a classification result display means 5, a classification result display means 6, and a score table display. Means 8 is used. The classification processing procedure is the same as the first invention.

(実施例3) 本発明の第3の装置を用いた文書分類手順を以下で説明
する。
(Example 3) A document classification procedure using the third device of the present invention will be described below.

まず、準備処理について第5図、第2図を参照し0なが
ら述べる。準備処理においては、第1の発明と同様に、
標本文書に対して文書入力手段1、キーワード自動抽出
手段2、正得点表作成手段71、得点表表示手段8が使
われる。準備処理手順は、第1の発明と同様で、第1図
における手段の番号と同じものは、同様の機能を有する
手段である。
First, the preparation process will be described with reference to FIGS. 5 and 2. In the preparation process, similarly to the first invention,
Document input means 1, automatic keyword extraction means 2, correct score table creation means 71, and score table display means 8 are used for the sample document. The preparation processing procedure is the same as that of the first invention, and the same numbers as the means in FIG. 1 are means having similar functions.

次に分類処理について第5図、第3図3参照しながら述
べる。分類処理においては、分類されるべき文書に対し
て文書入力手段1、キーワード自動抽出手段2、得点計
算手段3、複数分類手段42、分類結果表示手段5、分
類結果表示手段6、得点表示手段8が使われる。ここで
、第1図における手段の番号と同じものは、同様の機能
を有する手段である。第3の発明においては、複数の分
類先を許し、第3図のステップ23においては、総得点
の一定割合以上の得点を示す分野、すなわち(6a)式
を満たす第j分野へ分類する。
Next, the classification process will be described with reference to FIGS. 5 and 3. In the classification process, document input means 1, automatic keyword extraction means 2, score calculation means 3, multiple classification means 42, classification result display means 5, classification result display means 6, and score display means 8 are used for documents to be classified. is used. Here, the same numbers as the means in FIG. 1 indicate means having similar functions. In the third invention, a plurality of classification destinations are allowed, and in step 23 of FIG. 3, classification is performed into a field in which the score is greater than a certain percentage of the total score, that is, a j-th field that satisfies equation (6a).

もしくは、最高得点に対して一定割合以上の得点を得た
分野、すなわち(6b)式を満たす第j分野へ分類する
Alternatively, it is classified into the field in which the score is higher than a certain percentage of the highest score, that is, the j-th field that satisfies equation (6b).

菫、≧β、、、(wh >、o<β<1  (6b)も
しくは前記2方法の論理和などによる複合した方法によ
って分類する。なお、α、βは分類漏れと分類ノイズと
のかねあいや分類構造の性質を勘案して定める。
Violet, ≥ β, , (wh >, o < β < 1 (6b) or a combined method such as the logical sum of the above two methods. Note that α and β are the balance between classification omission and classification noise. Determined by taking into consideration the nature of the classification structure.

(実施例4) 本発明の第4の装置を用いた文書分類手順を以下で説明
する。
(Embodiment 4) A document classification procedure using the fourth device of the present invention will be described below.

まず、準備処理について第6図、第2図を参照しながら
述べる。準備処理においては、第2の発明と同様に、標
本文書に対して文書入力手段1、キーワード自動抽出手
段2、正負得点表作成手段72、得点表表示手段8が使
われる。
First, the preparation process will be described with reference to FIGS. 6 and 2. In the preparation process, similarly to the second invention, the document input means 1, automatic keyword extraction means 2, positive/negative score table creation means 72, and score table display means 8 are used for the sample document.

次に分類処理について第6図、第3図を参照しながら述
べる。分類処理においては、分類されるべき文書に対し
て文書入力手段1、キーワード自動抽出手段2、正負得
点計算手段3、複数分類手段42、分類結果表示手段5
、分類結果表示手段6、得点表表示手段8が使われる。
Next, the classification process will be described with reference to FIGS. 6 and 3. In the classification process, document input means 1, automatic keyword extraction means 2, positive/negative score calculation means 3, multiple classification means 42, and classification result display means 5 are used for documents to be classified.
, classification result display means 6, and score table display means 8 are used.

ここで、゛第1図における手段の番号と同じものは、同
様の機能を有する手段である。
Here, the same numbers as the means in FIG. 1 indicate means having similar functions.

(発明の効果) 本発明により、文書を人手によらずに効率的かつ効果的
に自動分類することができ、時間およびコストを削減す
ることができる。
(Effects of the Invention) According to the present invention, documents can be automatically and efficiently classified without manual effort, and time and costs can be reduced.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は第1の発明におけるブロック図、第2図は準備
処理を示す流れ図、第3図は分類処理を示す流れ図、第
4図は第2の発明におけるブロック図、第5図は第3の
発明におけるブロック図、第6図は第4の発明における
ブロック図である。 図において、 1・・・・・・文書入力手段、 2・・・・・・キーワード自動抽出手段、3・・・・・
・得点計算手段、 5・・・・・・分類結果表示手段、 6・・・・・・分類結果表示手段、 8・・・・・・得点表表示手段、 41・・・単一分類手段、 42・・・複数分類手段、
71・・・正得点表作成手段、 72・・・正負得点表作成手段。
Fig. 1 is a block diagram of the first invention, Fig. 2 is a flowchart showing preparation processing, Fig. 3 is a flowchart showing classification processing, Fig. 4 is a block diagram of the second invention, and Fig. 5 is a flowchart showing the preparation process. FIG. 6 is a block diagram of the fourth invention. In the figure, 1...Document input means, 2...Keyword automatic extraction means, 3...
・Score calculation means, 5... Classification result display means, 6... Classification result display means, 8... Score table display means, 41... Single classification means, 42...Multiple classification means,
71...Positive score table creation means, 72...Positive score table creation means.

Claims (1)

【特許請求の範囲】 1、下記(a)〜(h)を備えた文書自動分類装置。 (a)電子化文書を入力する文書入力手段、 (b)前記文書入力手段から文書を受け取り、その文書
中のキーワードを自動的に抽出するキーワード自動抽出
手段、 (c)前記文書入力手段に標本文書が入力されたときに
、前記キーワード自動抽出手段により抽出されたキーワ
ードの出現頻度から統計値をもとに各キーワードの各分
野への肯定的な貢献度を表す正の得点を計算し、得点表
を作成する正得点表作成手段、 (d)前記得点表作成手段により作成された得点表を格
納する得点表格納手段、 (e)前記文書入力手段に分類すべき文書が入力された
ときに、前記キーワード自動抽出手段により抽出された
キーワードを入力として、そのキーワードに対応する得
点を前記得点表格納手段を参照することにより入力して
、入力文書の各分野ごとの得点を計算する得点計算手段
、 (f)前記得点計算手段から各分野の得点を受け取り、
その得点をもとに一つの分類先を決定する単一分類手段
、 (g)前記分類手段から分類結果を受け取り、その分類
結果を格納する分類結果格納手段、 (h)前記分類手段から分類結果を受け取り、その分類
結果を表示する分類結果表示手段。 2、下記(a)〜(h)を備えた文書自動分類装置。 (a)電子化文書を入力する文書入力手段、 (b)前記文書入力手段から文書を受け取り、その文書
中のキーワードを自動的に抽出するキーワード自動抽出
手段、 (c)前記文書入力手段に標本文書が入力されたときに
、前記キーワード自動抽出手段により抽出されたキーワ
ードの出現頻度から統計値をもとに各キーワードの各分
野への肯定的な貢献度を表す正の得点および否定的な貢
献度を表す負の得点を計算し、得点表を作成する正負得
点表作成手段、 (d)前記得点表作成手段により作成された得点表を格
納する得点表格納手段、 (e)前記文書入力手段に分類すべき文書が入力された
ときに、前記キーワード自動抽出手段により抽出された
キーワードを入力として、そのキーワードに対応する得
点を前記得点表格納手段を参照することにより入力して
、入力文書の各分野ごとの得点を計算する得点計算手段
、 (f)前記得点計算手段から各分野の得点を受け取り、
その得点をもとに一つの分類先を決定する単一分類手段
、 (g)前記分類手段から分類結果を受け取り、その分類
結果を格納する分類結果格納手段、 (h)前記分類手段から分類結果を受け取り、その分類
結果を表示する分類結果表示手段。 3、下記(a)〜(h)を備えた文書自動分類装置。 (a)電子化文書を入力する文書入力手段、 (b)前記文書入力手段から文書を受け取り、その文書
中のキーワードを自動的に抽出するキーワード自動抽出
手段、 (c)前記文書入力手段に標本文書が入力されたときに
、前記キーワード自動抽出手段により抽出されたキーワ
ードの出現頻度から統計値をもとに各キーワードの各分
野への肯定的な貢献度を表す正の得点を計算し、得点表
を作成する正得点表作成手段、 (d)前記得点表作成手段により作成された得点表を格
納する得点表格納手段、 (e)前記文書入力手段に分類すべき文書が入力された
ときに、前記キーワード自動抽出手段により抽出された
キーワードを入力として、そのキーワードに対応する得
点を前記得点表格納手段を参照することにより入力して
、入力文書の各分野ごとの得点を計算する得点計算手段
、 (f)前記得点計算手段から各分野の得点を受け取り、
その得点をもとに複数の分類先を決定する複数分類手段
、 (g)前記分類手段から分類結果を受け取り、その分類
結果を格納する分類結果格納手段、 (h)前記分類手段から分類結果を受け取り、その分類
結果を表示する分類結果表示手段。 4、下記(a)〜(h)を備えた文書自動分類装置。 (a)電子化文書を入力する文書入力手段、 (b)前記文書入力手段から文書を受け取り、その文書
中のキーワードを自動的に抽出するキーワード自動抽出
手段、 (c)前記文書入力手段に標本文書が入力されたときに
、前記キーワード自動抽出手段により抽出されたキーワ
ードの出現頻度から統計値をもとに各キーワードの各分
野への肯定的な貢献度を表す正の得点および否定的な貢
献度を表す負の得点を計算し、得点表を作成する正負得
点表作成手段、 (d)前記得点表作成手段により作成された得点表を格
納する得点表格納手段、 (e)前記文書入力手段に分類すべき文書が入力された
ときに、前記キーワード自動抽出手段により抽出された
キーワードを入力として、そのキーワードに対応する得
点を前記得点表格納手段を参照することにより入力して
、入力文書の各分野ごとの得点を計算する得点計算手段
、 (f)前記得点計算手段から各分野の得点を受け取り、
その得点をもとに複数の分類先を決定する複数分類手段
、 (g)前記分類手段から分類結果を受け取り、その分類
結果を格納する分類結果格納手段、 (h)前記分類手段から分類結果を受け取り、その分類
結果を表示する分類結果表示手段。
[Claims] 1. An automatic document classification device comprising the following (a) to (h). (a) document input means for inputting an electronic document; (b) automatic keyword extraction means for receiving a document from the document input means and automatically extracting keywords in the document; (c) inputting a sample into the document input means. When a document is input, a positive score representing the positive contribution of each keyword to each field is calculated based on statistical values from the appearance frequency of the keywords extracted by the automatic keyword extraction means, and a score is calculated. (d) score sheet storage means for storing the score sheet created by the score sheet creation means; (e) when a document to be classified is input to the document input means; , score calculation means for inputting the keywords extracted by the automatic keyword extraction means and inputting the scores corresponding to the keywords by referring to the score table storage means to calculate scores for each field of the input document; (f) receiving scores in each field from the score calculation means;
A single classification means that determines one classification destination based on the score; (g) A classification result storage means that receives the classification result from the classification means and stores the classification result; (h) A classification result from the classification means. A classification result display means that receives the classification result and displays the classification result. 2. An automatic document classification device comprising the following (a) to (h). (a) document input means for inputting an electronic document; (b) automatic keyword extraction means for receiving a document from the document input means and automatically extracting keywords in the document; (c) inputting a sample into the document input means. When a document is input, a positive score and a negative contribution representing the degree of positive contribution of each keyword to each field are calculated based on statistical values from the appearance frequency of the keywords extracted by the automatic keyword extraction means. a positive/negative score table creation means for calculating a negative score representing a degree and creating a score sheet; (d) a score sheet storage means for storing the score sheet created by the score sheet creation means; (e) the document input means. When a document to be classified is input, the keyword extracted by the automatic keyword extraction means is input, the score corresponding to the keyword is input by referring to the score table storage means, and the input document is classified. a score calculation means for calculating a score for each field; (f) receiving a score for each field from the score calculation means;
A single classification means that determines one classification destination based on the score; (g) A classification result storage means that receives the classification result from the classification means and stores the classification result; (h) A classification result from the classification means. A classification result display means that receives the classification result and displays the classification result. 3. An automatic document classification device comprising the following (a) to (h). (a) document input means for inputting an electronic document; (b) automatic keyword extraction means for receiving a document from the document input means and automatically extracting keywords in the document; (c) inputting a sample into the document input means. When a document is input, a positive score representing the positive contribution of each keyword to each field is calculated based on statistical values from the appearance frequency of the keywords extracted by the automatic keyword extraction means, and a score is calculated. (d) score sheet storage means for storing the score sheet created by the score sheet creation means; (e) when a document to be classified is input to the document input means; , score calculation means for inputting the keywords extracted by the automatic keyword extraction means and inputting the scores corresponding to the keywords by referring to the score table storage means to calculate scores for each field of the input document; (f) receiving scores in each field from the score calculation means;
multiple classification means for determining a plurality of classification destinations based on the scores; (g) classification result storage means for receiving classification results from the classification means and storing the classification results; (h) receiving classification results from the classification means; A classification result display means for receiving and displaying the classification results. 4. An automatic document classification device comprising the following (a) to (h). (a) document input means for inputting an electronic document; (b) automatic keyword extraction means for receiving a document from the document input means and automatically extracting keywords in the document; (c) inputting a sample into the document input means. When a document is input, a positive score and a negative contribution representing the degree of positive contribution of each keyword to each field are calculated based on statistical values from the appearance frequency of the keywords extracted by the automatic keyword extraction means. a positive/negative score table creation means for calculating a negative score representing a degree and creating a score sheet; (d) a score sheet storage means for storing the score sheet created by the score sheet creation means; (e) the document input means. When a document to be classified is input, the keyword extracted by the automatic keyword extraction means is input, the score corresponding to the keyword is input by referring to the score table storage means, and the input document is classified. a score calculation means for calculating a score for each field; (f) receiving the score for each field from the score calculation means;
A plurality of classification means that determines a plurality of classification destinations based on the scores; (g) A classification result storage means that receives classification results from the classification means and stores the classification results; (h) A classification result storage means that receives the classification results from the classification means. A classification result display means for receiving and displaying the classification results.
JP63013063A 1988-01-22 1988-01-22 Document automatic classifier Expired - Lifetime JPH069054B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63013063A JPH069054B2 (en) 1988-01-22 1988-01-22 Document automatic classifier

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63013063A JPH069054B2 (en) 1988-01-22 1988-01-22 Document automatic classifier

Publications (2)

Publication Number Publication Date
JPH01188934A true JPH01188934A (en) 1989-07-28
JPH069054B2 JPH069054B2 (en) 1994-02-02

Family

ID=11822681

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63013063A Expired - Lifetime JPH069054B2 (en) 1988-01-22 1988-01-22 Document automatic classifier

Country Status (1)

Country Link
JP (1) JPH069054B2 (en)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06140952A (en) * 1992-10-23 1994-05-20 Nippon Hoso Kyokai <Nhk> Category discrimination device
JPH06223114A (en) * 1993-01-26 1994-08-12 Ricoh Co Ltd Character string processing system
JPH06251072A (en) * 1993-02-27 1994-09-09 Omron Corp Device and method for processing document
JPH06314297A (en) * 1993-04-30 1994-11-08 Omron Corp Device and method for processing of document and device and method for retrieving data base
JPH06350546A (en) * 1993-06-04 1994-12-22 Nippon Hoso Kyokai <Nhk> Related program deciding device
JP2001243255A (en) * 2000-03-02 2001-09-07 Ntt Comware Corp Information management system, information managing method and recording medium storing information management program
JP2001312497A (en) * 2000-04-28 2001-11-09 Yamaha Corp Content generating device, content distribution system, device and method for content reproduction, and storage medium
JP2002108877A (en) * 2000-09-29 2002-04-12 Hitachi Ltd Method for comparing gene appearance frequency distribution and recording medium
JP2004133714A (en) * 2002-10-10 2004-04-30 Just Syst Corp Document classification device and method, and program enabling computer to execute the method
JP2009037420A (en) * 2007-08-01 2009-02-19 Yahoo Japan Corp Evaluation application device, program, and method for harmful content
WO2009087757A1 (en) * 2008-01-08 2009-07-16 Mitsubishi Electric Corporation Information filtering system, information filtering method, and information filtering program
WO2018230551A1 (en) * 2017-06-16 2018-12-20 新日鉄住金ソリューションズ株式会社 Information processing device, information processing method, and program

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06140952A (en) * 1992-10-23 1994-05-20 Nippon Hoso Kyokai <Nhk> Category discrimination device
JPH06223114A (en) * 1993-01-26 1994-08-12 Ricoh Co Ltd Character string processing system
JPH06251072A (en) * 1993-02-27 1994-09-09 Omron Corp Device and method for processing document
JPH06314297A (en) * 1993-04-30 1994-11-08 Omron Corp Device and method for processing of document and device and method for retrieving data base
JPH06350546A (en) * 1993-06-04 1994-12-22 Nippon Hoso Kyokai <Nhk> Related program deciding device
JP2001243255A (en) * 2000-03-02 2001-09-07 Ntt Comware Corp Information management system, information managing method and recording medium storing information management program
JP2001312497A (en) * 2000-04-28 2001-11-09 Yamaha Corp Content generating device, content distribution system, device and method for content reproduction, and storage medium
JP2002108877A (en) * 2000-09-29 2002-04-12 Hitachi Ltd Method for comparing gene appearance frequency distribution and recording medium
JP2004133714A (en) * 2002-10-10 2004-04-30 Just Syst Corp Document classification device and method, and program enabling computer to execute the method
JP2009037420A (en) * 2007-08-01 2009-02-19 Yahoo Japan Corp Evaluation application device, program, and method for harmful content
WO2009087757A1 (en) * 2008-01-08 2009-07-16 Mitsubishi Electric Corporation Information filtering system, information filtering method, and information filtering program
JP5079019B2 (en) * 2008-01-08 2012-11-21 三菱電機株式会社 Information filtering system, information filtering method, and information filtering program
US8442926B2 (en) 2008-01-08 2013-05-14 Mitsubishi Electric Corporation Information filtering system, information filtering method and information filtering program
WO2018230551A1 (en) * 2017-06-16 2018-12-20 新日鉄住金ソリューションズ株式会社 Information processing device, information processing method, and program
JPWO2018230551A1 (en) * 2017-06-16 2019-06-27 日鉄ソリューションズ株式会社 INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND PROGRAM
CN110612524A (en) * 2017-06-16 2019-12-24 日铁系统集成株式会社 Information processing apparatus, information processing method, and program
US11386354B2 (en) 2017-06-16 2022-07-12 Ns Solutions Corporation Information processing apparatus, information processing method, and program
CN110612524B (en) * 2017-06-16 2023-11-10 日铁系统集成株式会社 Information processing apparatus, information processing method, and recording medium

Also Published As

Publication number Publication date
JPH069054B2 (en) 1994-02-02

Similar Documents

Publication Publication Date Title
CN110059311B (en) Judicial text data-oriented keyword extraction method and system
CN110825877A (en) Semantic similarity analysis method based on text clustering
US7899816B2 (en) System and method for the triage and classification of documents
CN107239439A (en) Public sentiment sentiment classification method based on word2vec
JPH07114572A (en) Document classifying device
CN108052625B (en) Entity fine classification method
CN109492105B (en) Text emotion classification method based on multi-feature ensemble learning
CN110472203B (en) Article duplicate checking and detecting method, device, equipment and storage medium
JPH01188934A (en) Automatic document sorting device
CN110674296B (en) Information abstract extraction method and system based on key words
CN111401040A (en) Keyword extraction method suitable for word text
CN110046264A (en) A kind of automatic classification method towards mobile phone document
CN114817575B (en) Large-scale electric power affair map processing method based on extended model
CN110910175A (en) Tourist ticket product portrait generation method
CN107818173B (en) Vector space model-based Chinese false comment filtering method
CN115544348A (en) Intelligent mass information searching system based on Internet big data
CN112489689B (en) Cross-database voice emotion recognition method and device based on multi-scale difference countermeasure
JPH0554037A (en) Document classifying system
CN112836067B (en) Intelligent searching method based on knowledge graph
CN107480126B (en) Intelligent identification method for engineering material category
JP2658997B2 (en) Sentence evaluation device using keywords
CN111242170A (en) Food inspection and detection item prediction method and device
CN109214275B (en) Vulgar picture identification method based on deep learning
JPH08166965A (en) Method for automatically classifying japanese text
CN111858830B (en) Health supervision law enforcement data retrieval system and method based on natural language processing