JPH01188934A - Automatic document sorting device - Google Patents
Automatic document sorting deviceInfo
- Publication number
- JPH01188934A JPH01188934A JP63013063A JP1306388A JPH01188934A JP H01188934 A JPH01188934 A JP H01188934A JP 63013063 A JP63013063 A JP 63013063A JP 1306388 A JP1306388 A JP 1306388A JP H01188934 A JPH01188934 A JP H01188934A
- Authority
- JP
- Japan
- Prior art keywords
- document
- score
- classification
- input
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 claims description 39
- 238000000034 method Methods 0.000 abstract description 24
- 238000002360 preparation method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
Abstract
Description
【発明の詳細な説明】 (産業上の利用分野) 本発明は、文書自動分類装置に関するものである。[Detailed description of the invention] (Industrial application field) The present invention relates to an automatic document classification device.
(従来の技術)
従来は、文書の分類は人手によっていたため、非能率的
であった。また、あるキーワードが出現なときに特定の
項目へ分類する方法では、分類は自動的に行えるものの
、キーワードと分類先との対応関係はあらかじめ人手で
つけておかなければならなかった。(Prior Art) Conventionally, document classification was done manually, which was inefficient. In addition, in the method of classifying into a specific item when a certain keyword appears, although the classification can be performed automatically, the correspondence between the keyword and the classification destination had to be established manually in advance.
(発明が解決しようとする問題点)
以上述べたよ−うに、従来の文書の分類では、人手を介
するため、正確ではあるものの時間とコストがかかると
いう問題点があった。(Problems to be Solved by the Invention) As described above, the conventional document classification requires manual labor, so although it is accurate, it is time consuming and costly.
本発明の目的は、このような従来の欠点を除去して、文
書分類の際に各分類ごとのキーワードの出現頻度情報を
利用して自動的に分類する新規な文書自動分類装置を提
供することにある。An object of the present invention is to provide a novel automatic document classification device that eliminates such conventional drawbacks and automatically classifies documents using frequency information of keywords for each classification. It is in.
(問題点を解決するための手段)
本発明の文書自動分類装置は、
(a)電子化文書を入力する文書入力手段、(b)前記
文書入力手段から文書を受け取り、その文書中のキーワ
ードを自動的に抽出するキーワード自動抽出手段、
(c)前記文書入力手段に標本文書が入力されたときに
、前記キーワード自動抽出手段により抽出されたキーワ
ードの出現頻度から統計値をもとに各キーワードの各分
野への肯定的な貢献度を表す正の得点を計算し、得点表
を作成する正得点表作成手段、
(d)前記得点表作成手段により作成された得点表を格
納する得点表表示手段、
(e)前記文書入力手段に分類すべき文書が入力された
ときに、前記キーワード自動抽出手段により抽出された
キーワードを入力として、そのキーワードに対応する得
点を前記得点表表示手段を参照することにより入力して
、入力文書の各分野ごとの得点を計算する得点計算手段
、
(f)前記得点計算手段から各分野の得点を受け取り、
その得点をもとに一つの分類先を決定する単一分類手段
、
(g)前記分類手段から分類結果を受け取り、その分類
結果を格納する分類結果表示手段、(h)前記分類手段
から分類結果を受け取り、その分類結果を表示する分類
結果表示手段、を備えていることを特徴としている。(Means for Solving the Problems) The automatic document classification device of the present invention includes (a) a document input means for inputting an electronic document; (b) a document received from the document input means, and keywords in the document. automatic keyword extraction means for automatically extracting keywords; (c) when a sample document is input to the document input means, each keyword is extracted based on statistical values from the appearance frequency of the keywords extracted by the automatic keyword extraction means; (d) a score sheet display means for storing the score sheet created by the score sheet creation means; (e) When a document to be classified is input to the document input means, inputting a keyword extracted by the automatic keyword extraction means, and referring to the score table display means for the score corresponding to the keyword; (f) receiving the score for each field from the score calculating means;
A single classification means that determines one classification destination based on the score; (g) A classification result display means that receives the classification result from the classification means and stores the classification result; (h) A classification result from the classification means. The present invention is characterized by comprising a classification result display means for receiving the classification result and displaying the classification result.
本発明の第2の文書自動分類装置は、
(a)゛電子化文書を入力する文書入力手段、(b)前
記文書入力手段から文書を受け取り、その文書中のキー
ワードを自動的に抽出するキーワード自動抽出手段、
(c)前記文書入力手段に標本文書が入力されたときに
、前記キーワード自動抽出手段により抽出されたキーワ
ードの出現頻度から統計値をもとに各キーワードの各分
野への肯定的な貢献度を表す正の得点および否定的な貢
献度を表す負の得点を計算し、得点表を作成する正負得
点表作成手段、
(d)前記得点表作成手段により作成された得点表を格
納する得点表表示手段、
(e)前記文書入力手段に分類すべき文書が入力された
ときに、前記キーワード自動抽出手段により抽出された
キーワードを入力として、そのキニワードに対応する得
点を前記得点表表示手段を参照することにより入力して
、入力文書の各分野ごとの得点を計算する得点計算手段
、
(f)前記得点計算手段から各分野の得点を受け取り、
その得点をもとに一つの分類先を決定する単一分類手段
、
(g)前記分類手段から分類結果を受け取り、その分類
結果を格納する分類結果表示手段、(h)前記分類手段
から分類結果を受け取り、その分類結果を表示する分類
結果表示手段、を備えていることを特徴としている。A second automatic document classification device of the present invention includes (a) a document input means for inputting an electronic document, and (b) a keyword for receiving a document from the document input means and automatically extracting a keyword in the document. automatic extraction means; (c) when a sample document is input to the document input means, a positive expression for each field of each keyword based on statistical values from the appearance frequency of the keywords extracted by the automatic keyword extraction means; positive and negative score table creation means for calculating a positive score representing a degree of contribution and a negative score representing a degree of negative contribution, and creating a score sheet; (d) storing a score sheet created by the score sheet creation means; (e) When a document to be classified is input to the document input means, a keyword extracted by the automatic keyword extraction means is input, and a score corresponding to the keyword is displayed in the score table. a score calculation means for calculating a score for each field of the input document by inputting the input document by referring to the means; (f) receiving the score for each field from the score calculation means;
A single classification means that determines one classification destination based on the score; (g) A classification result display means that receives the classification result from the classification means and stores the classification result; (h) A classification result from the classification means. The present invention is characterized by comprising a classification result display means for receiving the classification result and displaying the classification result.
本発明の第3の文書自動分類装置は、
(a)電子化文書を入力する文書入力手段、(b)前記
文書入力手段から文書を受け取り、その文書中のキーワ
ードを自動的に抽出するキーワード自動抽出手段、
(c)前記文書入力手段に標本文書が入力されたときに
、前記キーワード自動抽出手段により抽出されたキーワ
ードの出現頻度から統計値をもとに各キーワードの各分
野への肯定的な貢献度を表す正の得点を計算し、得点表
を作成する正得点表作成手段、
(d)前記得点表作成手段により作成された得点表を格
納する得点表表示手段、
(e)前記文書入力手段に分類すべき文書が入力された
ときに、前記キーワード自動抽出手段により抽出された
キーワードを入力として、そのキーワードに対応する得
点を前記得点表表示手段を参照することにより入力して
、入力文書の各分野ごとの得点を計算する得点計算手段
、
(f)前記得点計算手段から各分野の得点を受け取り、
その得点をもとに複数の分類先を決定する複数分類手段
、
(c)前記分類手段から分類結果を受け取り、その分類
結果を格納する分類結果表示手段、(h)前記分類手段
から分類結果を受け取り、その分類結果を表示する分類
結果表示手段、を備えていることを特徴としている。A third automatic document classification device of the present invention includes (a) a document input means for inputting an electronic document; (b) a keyword automatic classification device that receives a document from the document input means and automatically extracts keywords in the document. (c) when a sample document is input to the document input means, a positive keyword for each field is determined based on statistical values from the appearance frequency of the keywords extracted by the automatic keyword extraction means; a positive score sheet creation means that calculates a positive score representing the degree of contribution and creates a score sheet; (d) a score sheet display means that stores the score sheet created by the score sheet creation means; (e) the document input. When a document to be classified as a means is input, the keyword extracted by the automatic keyword extraction means is input, the score corresponding to the keyword is input by referring to the score table display means, and the input document is (f) receiving the scores for each field from the score calculating means;
a plurality of classification means for determining a plurality of classification destinations based on the scores; (c) a classification result display means for receiving classification results from the classification means and storing the classification results; (h) a classification result display means for receiving the classification results from the classification means; The present invention is characterized by comprising a classification result display means for receiving and displaying the classification results.
本発明め第4の文書自動分類装置は、
(a) 電子化文書を入力する文書入力手段、(b)前
記文書入力手段から文書を受け取り、その文書中のキー
ワードを自動的に抽出するキーワード自動抽出手段、
<e)前記文書入力手段に標本文書が入力されたときに
、前記キーワード自動抽出手段により抽出されたキーワ
ードの出現頻度から統計値をもとに各キーワードの各分
野への肯定的な貢献度を表す正の得点および否定的な貢
献度を表す負の得点を計算し、得点表を作成する正負得
点表作成手段、
(d)前記得点表作成手段により作成された得点表を格
納する得点表表示手段、
(e)前記文書入力手段に分類すべき文書が入力された
ときに、前記キーワード自動抽出手段により抽出された
キーワードを入力として、そのキーワードに対応する得
点を前記得点表表示手段を参照することにより入力して
、入力文書の各分野ごとの得点を計算する得点計算手段
、
(f)前記得点計算手段から各分野の得点を受け取り、
゛その得点をもとに複数の分類先を決定する複数分類手
段、
(g)前記分類手段から分類結果を受け取り、その分類
結果を格納する分類結果表示手段、(h)前記分類手段
から分類結果を受け取り、その分類結果を表示する分類
結果表示手段、を備えていることを特徴としている。A fourth automatic document classification device of the present invention includes: (a) a document input means for inputting an electronic document; (b) a keyword automatic classification device for receiving a document from the document input means and automatically extracting keywords in the document. Extracting means, <e) When a sample document is input to the document inputting means, determining the positive association of each keyword with respect to each field based on statistical values from the appearance frequency of the keywords extracted by the automatic keyword extraction means; positive and negative score table creation means for calculating a positive score representing a degree of contribution and a negative score representing a negative degree of contribution and creating a score sheet; (d) storing the score sheet created by the score sheet creation means; (e) When a document to be classified is input to the document input means, the keyword extracted by the automatic keyword extraction means is input, and the score table display means displays the score corresponding to the keyword. (f) receiving the score for each field from the score calculating means;
゛Multiple classification means that determines a plurality of classification destinations based on the scores; (g) classification result display means that receives classification results from the classification means and stores the classification results; (h) classification results from the classification means; The present invention is characterized by comprising a classification result display means for receiving the classification result and displaying the classification result.
第1図は文書自動分類装置のブロック図であって、第1
図において1は文書入力手段、2はキーワード自動抽出
手段、3は得点計算手段、4は単一分類手段、5は分類
結果表示手段、6は分類結果表示手段、7は正得点表作
成手段、8は得点表表示手段である。FIG. 1 is a block diagram of the automatic document classification device.
In the figure, 1 is a document input means, 2 is a keyword automatic extraction means, 3 is a score calculation means, 4 is a single classification means, 5 is a classification result display means, 6 is a classification result display means, 7 is a correct score table creation means, 8 is a score sheet display means.
第4図は文書自動分類装置のブロック図であって、第4
図において1は文書入力手段、2はキーワード自動抽出
手段、3は得点計算手段、4は単一分類手段、5は分類
結果表示手段、6は分類結果表示手段、7は正負得点表
作成手段、8は得点表表示手段である。FIG. 4 is a block diagram of the automatic document classification device.
In the figure, 1 is a document input means, 2 is a keyword automatic extraction means, 3 is a score calculation means, 4 is a single classification means, 5 is a classification result display means, 6 is a classification result display means, 7 is a positive/negative score table creation means, 8 is a score sheet display means.
第5図は文書自動分類装置のブロック図であって、第5
図において1は文書入力手段、2はキーワード自動抽出
手段、3は得点′計算手段、4は複数分類手段、5は分
類結果表示手段、6は分類結果表示手段、7は正得点表
作成手段、8は得点表表示手段である。FIG. 5 is a block diagram of the automatic document classification device.
In the figure, 1 is a document input means, 2 is a keyword automatic extraction means, 3 is a score calculation means, 4 is a multiple classification means, 5 is a classification result display means, 6 is a classification result display means, 7 is a correct score table creation means, 8 is a score sheet display means.
第6図は文書自動分類装置のブロック図であって、第6
図において1は文書入力手段、2はキーワード自動抽出
手段、3は得点計算手段、4は複数分類手段、5は分類
結果表示手段、6は分類結果表示手段、7は正負得点表
作成手段、8は得点表表示手段である。FIG. 6 is a block diagram of the automatic document classification device.
In the figure, 1 is a document input means, 2 is a keyword automatic extraction means, 3 is a score calculation means, 4 is a multiple classification means, 5 is a classification result display means, 6 is a classification result display means, 7 is a positive/negative score table creation means, 8 is a score sheet display means.
(作用)
本発明においては、標本文書群を調べることにより各分
野におけるキーワードの出現頻度情報を得て、識別力の
高いキーワードとその識別力の高さを知ることができる
。第2および第4の発明においては、ある分野における
キーワードの出やすさだけでなく出にくさをも考慮する
ことにより、情報を有効に活用して文書を効率的に分類
することができる。第1および第2の発明においては、
単一の分類先へ分類することができ、第3および第4の
発明においては、複数の分類先へ分類することができる
。(Operation) In the present invention, by examining a group of sample documents, information on the appearance frequency of keywords in each field can be obtained, and keywords with high discriminative power and their high discriminative powers can be known. In the second and fourth inventions, by considering not only the ease with which keywords appear in a certain field but also the difficulty in finding them, documents can be efficiently classified by effectively utilizing information. In the first and second inventions,
It is possible to classify into a single classification destination, and in the third and fourth inventions, it is possible to classify into a plurality of classification destinations.
(実施例1)
本発明の第1の装置を用いた文書分類手順を以下で説明
する。手順は、キーワードの出現頻度と分野との関係を
調べるために標本データに対して行う準備処理と、実際
に文書を分類する分類処理の2つに大別される。(Example 1) A document classification procedure using the first device of the present invention will be described below. The procedure is broadly divided into two: a preparation process performed on sample data to examine the relationship between the frequency of appearance of keywords and the field, and a classification process to actually classify documents.
まず、準備処理について第1図、第2図を参照しながら
述べる。準備処理においては、標本文書に対して文書入
力手段1、キーワード自動抽出手段2、正得点表作成手
段71、得点表表示手段8が使われる。準備処理手順を
以下で説明する。まず、文書入力手段1により入力され
た標本文書に対して、ステップ11でキーワード自動抽
出手段2によってキーワードが抽出される。ステップ1
1では基本的に文書中の名詞、す変動側語幹が抽出され
る。゛そのほか、キーワード自動抽出手段2内の辞書に
登録されていない同字種からなる文字列も抽出される。First, the preparation process will be described with reference to FIGS. 1 and 2. In the preparation process, the document input means 1, the automatic keyword extraction means 2, the correct score table creation means 71, and the score table display means 8 are used for the sample document. The preparation procedure will be explained below. First, keywords are extracted from a sample document input by the document input means 1 by the automatic keyword extraction means 2 in step 11. Step 1
1 basically extracts nouns and variable stems from the document.゛In addition, character strings consisting of the same character types that are not registered in the dictionary in the automatic keyword extraction means 2 are also extracted.
前記ステップ11で抽出されたキーワードの出現頻度を
正得点表作成手段71によりステップ12で数え、第i
番目のキーワードの第j分野における出現頻度Xljを
調べる。前記ステップ11と前記ステップ12は標本デ
ータのある限り繰り返される。標本データを調べ終えた
ならば、この出現頻度XIJからステップ13でカイ二
乗値X21を正得点表作成手段71により求める。具体
的には、(11式および(′2J式を用いる。The appearance frequency of the keyword extracted in step 11 is counted in step 12 by the correct score table creation means 71, and the i-th
The appearance frequency Xlj of the th keyword in the jth field is examined. The steps 11 and 12 are repeated as long as there is sample data. After examining the sample data, the chi-square value X21 is determined from the appearance frequency XIJ in step 13 by the correct score table creation means 71. Specifically, formulas (11 and ('2J) are used.
X 、=Σ(X IJ a IJ) / a IJ
(11j=1
alJ−Σ x +に′X、X IJ/Σ Σ X、k
(21に−11−1k−11−1
ここで、XIJは第i番目のキーワードの第j分野にお
ける実際の出現頻度、alJは第i番目のキーワードの
第j分野における理論度数、Mは異なり単語数、nは分
野数である。なお、理論度数とは各分野均一にキーワー
ドが出現した場合のキーワードの出現頻度をいう。X, = Σ(X IJ a IJ) / a IJ
(11j=1 alJ−Σ x +′X, X IJ/Σ Σ
(21-11-1k-11-1 Here, XIJ is the actual appearance frequency of the i-th keyword in the j-th field, alJ is the theoretical frequency of the i-th keyword in the j-th field, and M is a different word The number n is the number of fields. Note that the theoretical frequency refers to the frequency of appearance of a keyword when the keyword appears uniformly in each field.
次にステップ14で正得点表作成手段71により(21
式を満たす第i番目のキーワードを識別力のあるキーワ
ードとして選別する。θは処理時間と精度とを勘案して
定める。Next, in step 14, the correct score table creation means 71 (21
The i-th keyword that satisfies the formula is selected as a keyword with discriminative power. θ is determined in consideration of processing time and accuracy.
X21〉θ (2前記
ステツプ14により選別されたキーワードの数をmとす
る。X21>θ (2) Let m be the number of keywords selected in step 14.
ステップ15でカイ二乗値X2肋’ら第i一番目のキー
ワードの第j分野への貢献度を示す得点WIJを正得点
表作成手段71により算出する。第j分野へ肯定的な影
響を与える正の貢献度を得点WIJ+と表し、(3a)
式、(3b)式で定義する。In step 15, the score WIJ indicating the degree of contribution of the i-th keyword to the j-th field is calculated by the positive score table creation means 71 from the chi-square value X2'. The degree of positive contribution that has a positive impact on the j-th field is expressed as the score WIJ+, and (3a)
It is defined by equation (3b).
XIJ≧alJのとき
WIJ子 −X2ビ (XIJ a+、+)2 /
X IJ< a IJのとき
WIJ” =O(3b )
なお、(3a)式において、
1≦i≦m、 1≦j≦n、 1≦に≦nであ
る。When XIJ≧alJ, WIJ child −X2bi (XIJ a+, +)2/
When X IJ<a IJ, WIJ''=O(3b) In equation (3a), 1≦i≦m, 1≦j≦n, and 1≦≦n.
完成した大きさmXnの得点表は、ステップ16で得点
表表示手段8に格納される。以上が準備処理である。The completed score sheet of size mXn is stored in the score sheet display means 8 in step 16. The above is the preparation process.
次に分類処理について第1図、第3図を参照しながら述
べる。分類処理においては、分類されるべき文書に対し
て文書入力手段1、キーワード自動抽出手段2、得点計
算手段3、単一分類手段41、分類結果表示手段5、分
類結果表示手段6、得点表表示手段8が使われる。分類
処理手順を以下で説明する。まず、文書入力手段1によ
り入力された文書に対して、ステップ21でキーワード
自動抽出手段2によりキーワードが抽出される。Next, the classification process will be described with reference to FIGS. 1 and 3. In the classification process, a document to be classified is subjected to a document input means 1, an automatic keyword extraction means 2, a score calculation means 3, a single classification means 41, a classification result display means 5, a classification result display means 6, and a score table display. Means 8 is used. The classification processing procedure will be explained below. First, keywords are extracted from a document input by the document input means 1 by the automatic keyword extraction means 2 in step 21 .
前記ステップ21では基本的に文書中の名詞、す変動側
語幹が抽出される。そのほか、キーワード自動抽出手段
2内の辞書に登録されていない同字種からなる文字列も
抽出される。次に前記ステップ21で抽出されたキーワ
ードに対して、ステップ22で得点計算手段3により得
点表表示手段8を参照して該当キーワードの得点を読み
出し、得点を各分野へ加算する。前記ステップ21と前
記ステップ22は文章の先頭から一定領域に対して行う
。対象領域は、先頭の一定数文、もしくは−定数のキー
ワードが抽出されるまでの領域とし、標本データの特性
をもとに決定する。対象領域内の処理が終了したときに
は、第j分野の総得点vLjは対象領域内のデータに対
して(4)式を用いて計算されている。なお、同じキー
ワードが複数回出現した場合には、回数分加算されたも
のとする。In step 21, basically the nouns and variable stems in the document are extracted. In addition, character strings consisting of the same character types that are not registered in the dictionary in the automatic keyword extraction means 2 are also extracted. Next, in step 22, the score calculation means 3 refers to the score table display means 8 to read the score of the keyword extracted in step 21, and adds the score to each field. The steps 21 and 22 are performed for a certain area from the beginning of the sentence. The target area is defined as the first certain number of sentences or the area until the - constant keyword is extracted, and is determined based on the characteristics of the sample data. When the processing within the target area is completed, the total score vLj of the j-th field has been calculated using equation (4) for the data within the target area. Note that if the same keyword appears multiple times, it is assumed that the number of times is added.
菫、=ΣW I J (4
1各分野の総得点W、が計算されたならば、これをもと
にステップ23で分類手段4により、最高得点を示す分
野へ分類する。すなわち、(5)式を満たす第j分野へ
分類する。Violet, = ΣW I J (4
1. Once the total score W for each field has been calculated, based on this, in step 23, the classification means 4 classifies the field into the field showing the highest score. That is, it is classified into the j-th field that satisfies equation (5).
W、≧Wk for Vk (5]
最後に、前記ステップ23で決定された分類先を、ステ
ップ24で分類結果表示手段5により格納し、分類結果
表示手段6により表示する。W, ≧Wk for Vk (5)
Finally, the classification destination determined in step 23 is stored by the classification result display means 5 in step 24, and displayed by the classification result display means 6.
(実施例2)
本発明の第2の装置を用いた文書分類手順を以下で説明
する。(Example 2) A document classification procedure using the second device of the present invention will be described below.
まず、準備処理について第4図、第2図を参照しながら
述べる。準備処理においては、標本文書に対して文書入
力手段1、キーワード自動抽出手段2、正負得点作成手
段72、得点表表示手段8が使われる。準備処理手順を
以下で説明する。ここで、第1図における手段の番号と
同じものは、同様の機能を有する手段である。First, the preparation process will be described with reference to FIGS. 4 and 2. In the preparation process, the document input means 1, the automatic keyword extraction means 2, the positive/negative score creation means 72, and the score table display means 8 are used for the sample document. The preparation procedure will be explained below. Here, the same numbers as the means in FIG. 1 indicate means having similar functions.
第2の発明においては、第2図のステップ15でカイ二
乗値X2Iから第1番目のキーワードの第j分野への貢
献度を示す得点WIJを正負得点表作成手段72により
算出する。第j分野へ肯定的な影響を与える正の貢献度
を得点WIJ+、否定的な影響を与える負の貢献度を得
点WIJ−と表し、それぞれ(3a)式、(3C)式で
定義する。得点wlJ+と得点WIJ−とをまとめて得
点WIJとよぶことにする。In the second invention, in step 15 of FIG. 2, a score WIJ indicating the degree of contribution of the first keyword to the j-th field is calculated from the chi-square value X2I by the positive/negative score table creation means 72. A positive contribution that has a positive impact on the j-th field is represented by a score WIJ+, and a negative contribution that has a negative impact is represented by a score WIJ-, which are defined by equations (3a) and (3C), respectively. The score wlJ+ and the score WIJ- will be collectively referred to as the score WIJ.
XIJ≧alJのとき
w、)+ =X21− (Xll ac」) V
Σ (X+k ack)2 (3a)Xl
k≧alk
x 、j< a 、jのとき
WIJ−ニーX2i・ (XIJ az) 2/なお
、(3a)式、(3C)式において、1≦i≦m、
1≦j≦n、 1≦に≦nである。When XIJ≧alJ, )+ =X21- (Xll ac”) V
Σ (X+k ack)2 (3a)Xl
When k≧alk x, j<a, j, WIJ-nee
1≦j≦n, 1≦and≦n.
次に分類処理について第4図、第3図を参照しながら述
べる。分類処理においては、分類されるべき文書に対し
て文書入力手段1、キーワード自動抽出手段2、得点計
算手段3、単一分類手段41、分類結果表示手段5、分
類結果表示手段6、得点表表示手段8が使われる。分類
処理手順は第1の発明と同様である。Next, the classification process will be described with reference to FIGS. 4 and 3. In the classification process, a document to be classified is subjected to a document input means 1, an automatic keyword extraction means 2, a score calculation means 3, a single classification means 41, a classification result display means 5, a classification result display means 6, and a score table display. Means 8 is used. The classification processing procedure is the same as the first invention.
(実施例3)
本発明の第3の装置を用いた文書分類手順を以下で説明
する。(Example 3) A document classification procedure using the third device of the present invention will be described below.
まず、準備処理について第5図、第2図を参照し0なが
ら述べる。準備処理においては、第1の発明と同様に、
標本文書に対して文書入力手段1、キーワード自動抽出
手段2、正得点表作成手段71、得点表表示手段8が使
われる。準備処理手順は、第1の発明と同様で、第1図
における手段の番号と同じものは、同様の機能を有する
手段である。First, the preparation process will be described with reference to FIGS. 5 and 2. In the preparation process, similarly to the first invention,
Document input means 1, automatic keyword extraction means 2, correct score table creation means 71, and score table display means 8 are used for the sample document. The preparation processing procedure is the same as that of the first invention, and the same numbers as the means in FIG. 1 are means having similar functions.
次に分類処理について第5図、第3図3参照しながら述
べる。分類処理においては、分類されるべき文書に対し
て文書入力手段1、キーワード自動抽出手段2、得点計
算手段3、複数分類手段42、分類結果表示手段5、分
類結果表示手段6、得点表示手段8が使われる。ここで
、第1図における手段の番号と同じものは、同様の機能
を有する手段である。第3の発明においては、複数の分
類先を許し、第3図のステップ23においては、総得点
の一定割合以上の得点を示す分野、すなわち(6a)式
を満たす第j分野へ分類する。Next, the classification process will be described with reference to FIGS. 5 and 3. In the classification process, document input means 1, automatic keyword extraction means 2, score calculation means 3, multiple classification means 42, classification result display means 5, classification result display means 6, and score display means 8 are used for documents to be classified. is used. Here, the same numbers as the means in FIG. 1 indicate means having similar functions. In the third invention, a plurality of classification destinations are allowed, and in step 23 of FIG. 3, classification is performed into a field in which the score is greater than a certain percentage of the total score, that is, a j-th field that satisfies equation (6a).
もしくは、最高得点に対して一定割合以上の得点を得た
分野、すなわち(6b)式を満たす第j分野へ分類する
。Alternatively, it is classified into the field in which the score is higher than a certain percentage of the highest score, that is, the j-th field that satisfies equation (6b).
菫、≧β、、、(wh >、o<β<1 (6b)も
しくは前記2方法の論理和などによる複合した方法によ
って分類する。なお、α、βは分類漏れと分類ノイズと
のかねあいや分類構造の性質を勘案して定める。Violet, ≥ β, , (wh >, o < β < 1 (6b) or a combined method such as the logical sum of the above two methods. Note that α and β are the balance between classification omission and classification noise. Determined by taking into consideration the nature of the classification structure.
(実施例4)
本発明の第4の装置を用いた文書分類手順を以下で説明
する。(Embodiment 4) A document classification procedure using the fourth device of the present invention will be described below.
まず、準備処理について第6図、第2図を参照しながら
述べる。準備処理においては、第2の発明と同様に、標
本文書に対して文書入力手段1、キーワード自動抽出手
段2、正負得点表作成手段72、得点表表示手段8が使
われる。First, the preparation process will be described with reference to FIGS. 6 and 2. In the preparation process, similarly to the second invention, the document input means 1, automatic keyword extraction means 2, positive/negative score table creation means 72, and score table display means 8 are used for the sample document.
次に分類処理について第6図、第3図を参照しながら述
べる。分類処理においては、分類されるべき文書に対し
て文書入力手段1、キーワード自動抽出手段2、正負得
点計算手段3、複数分類手段42、分類結果表示手段5
、分類結果表示手段6、得点表表示手段8が使われる。Next, the classification process will be described with reference to FIGS. 6 and 3. In the classification process, document input means 1, automatic keyword extraction means 2, positive/negative score calculation means 3, multiple classification means 42, and classification result display means 5 are used for documents to be classified.
, classification result display means 6, and score table display means 8 are used.
ここで、゛第1図における手段の番号と同じものは、同
様の機能を有する手段である。Here, the same numbers as the means in FIG. 1 indicate means having similar functions.
(発明の効果)
本発明により、文書を人手によらずに効率的かつ効果的
に自動分類することができ、時間およびコストを削減す
ることができる。(Effects of the Invention) According to the present invention, documents can be automatically and efficiently classified without manual effort, and time and costs can be reduced.
第1図は第1の発明におけるブロック図、第2図は準備
処理を示す流れ図、第3図は分類処理を示す流れ図、第
4図は第2の発明におけるブロック図、第5図は第3の
発明におけるブロック図、第6図は第4の発明における
ブロック図である。
図において、
1・・・・・・文書入力手段、
2・・・・・・キーワード自動抽出手段、3・・・・・
・得点計算手段、
5・・・・・・分類結果表示手段、
6・・・・・・分類結果表示手段、
8・・・・・・得点表表示手段、
41・・・単一分類手段、 42・・・複数分類手段、
71・・・正得点表作成手段、
72・・・正負得点表作成手段。Fig. 1 is a block diagram of the first invention, Fig. 2 is a flowchart showing preparation processing, Fig. 3 is a flowchart showing classification processing, Fig. 4 is a block diagram of the second invention, and Fig. 5 is a flowchart showing the preparation process. FIG. 6 is a block diagram of the fourth invention. In the figure, 1...Document input means, 2...Keyword automatic extraction means, 3...
・Score calculation means, 5... Classification result display means, 6... Classification result display means, 8... Score table display means, 41... Single classification means, 42...Multiple classification means,
71...Positive score table creation means, 72...Positive score table creation means.
Claims (1)
中のキーワードを自動的に抽出するキーワード自動抽出
手段、 (c)前記文書入力手段に標本文書が入力されたときに
、前記キーワード自動抽出手段により抽出されたキーワ
ードの出現頻度から統計値をもとに各キーワードの各分
野への肯定的な貢献度を表す正の得点を計算し、得点表
を作成する正得点表作成手段、 (d)前記得点表作成手段により作成された得点表を格
納する得点表格納手段、 (e)前記文書入力手段に分類すべき文書が入力された
ときに、前記キーワード自動抽出手段により抽出された
キーワードを入力として、そのキーワードに対応する得
点を前記得点表格納手段を参照することにより入力して
、入力文書の各分野ごとの得点を計算する得点計算手段
、 (f)前記得点計算手段から各分野の得点を受け取り、
その得点をもとに一つの分類先を決定する単一分類手段
、 (g)前記分類手段から分類結果を受け取り、その分類
結果を格納する分類結果格納手段、 (h)前記分類手段から分類結果を受け取り、その分類
結果を表示する分類結果表示手段。 2、下記(a)〜(h)を備えた文書自動分類装置。 (a)電子化文書を入力する文書入力手段、 (b)前記文書入力手段から文書を受け取り、その文書
中のキーワードを自動的に抽出するキーワード自動抽出
手段、 (c)前記文書入力手段に標本文書が入力されたときに
、前記キーワード自動抽出手段により抽出されたキーワ
ードの出現頻度から統計値をもとに各キーワードの各分
野への肯定的な貢献度を表す正の得点および否定的な貢
献度を表す負の得点を計算し、得点表を作成する正負得
点表作成手段、 (d)前記得点表作成手段により作成された得点表を格
納する得点表格納手段、 (e)前記文書入力手段に分類すべき文書が入力された
ときに、前記キーワード自動抽出手段により抽出された
キーワードを入力として、そのキーワードに対応する得
点を前記得点表格納手段を参照することにより入力して
、入力文書の各分野ごとの得点を計算する得点計算手段
、 (f)前記得点計算手段から各分野の得点を受け取り、
その得点をもとに一つの分類先を決定する単一分類手段
、 (g)前記分類手段から分類結果を受け取り、その分類
結果を格納する分類結果格納手段、 (h)前記分類手段から分類結果を受け取り、その分類
結果を表示する分類結果表示手段。 3、下記(a)〜(h)を備えた文書自動分類装置。 (a)電子化文書を入力する文書入力手段、 (b)前記文書入力手段から文書を受け取り、その文書
中のキーワードを自動的に抽出するキーワード自動抽出
手段、 (c)前記文書入力手段に標本文書が入力されたときに
、前記キーワード自動抽出手段により抽出されたキーワ
ードの出現頻度から統計値をもとに各キーワードの各分
野への肯定的な貢献度を表す正の得点を計算し、得点表
を作成する正得点表作成手段、 (d)前記得点表作成手段により作成された得点表を格
納する得点表格納手段、 (e)前記文書入力手段に分類すべき文書が入力された
ときに、前記キーワード自動抽出手段により抽出された
キーワードを入力として、そのキーワードに対応する得
点を前記得点表格納手段を参照することにより入力して
、入力文書の各分野ごとの得点を計算する得点計算手段
、 (f)前記得点計算手段から各分野の得点を受け取り、
その得点をもとに複数の分類先を決定する複数分類手段
、 (g)前記分類手段から分類結果を受け取り、その分類
結果を格納する分類結果格納手段、 (h)前記分類手段から分類結果を受け取り、その分類
結果を表示する分類結果表示手段。 4、下記(a)〜(h)を備えた文書自動分類装置。 (a)電子化文書を入力する文書入力手段、 (b)前記文書入力手段から文書を受け取り、その文書
中のキーワードを自動的に抽出するキーワード自動抽出
手段、 (c)前記文書入力手段に標本文書が入力されたときに
、前記キーワード自動抽出手段により抽出されたキーワ
ードの出現頻度から統計値をもとに各キーワードの各分
野への肯定的な貢献度を表す正の得点および否定的な貢
献度を表す負の得点を計算し、得点表を作成する正負得
点表作成手段、 (d)前記得点表作成手段により作成された得点表を格
納する得点表格納手段、 (e)前記文書入力手段に分類すべき文書が入力された
ときに、前記キーワード自動抽出手段により抽出された
キーワードを入力として、そのキーワードに対応する得
点を前記得点表格納手段を参照することにより入力して
、入力文書の各分野ごとの得点を計算する得点計算手段
、 (f)前記得点計算手段から各分野の得点を受け取り、
その得点をもとに複数の分類先を決定する複数分類手段
、 (g)前記分類手段から分類結果を受け取り、その分類
結果を格納する分類結果格納手段、 (h)前記分類手段から分類結果を受け取り、その分類
結果を表示する分類結果表示手段。[Claims] 1. An automatic document classification device comprising the following (a) to (h). (a) document input means for inputting an electronic document; (b) automatic keyword extraction means for receiving a document from the document input means and automatically extracting keywords in the document; (c) inputting a sample into the document input means. When a document is input, a positive score representing the positive contribution of each keyword to each field is calculated based on statistical values from the appearance frequency of the keywords extracted by the automatic keyword extraction means, and a score is calculated. (d) score sheet storage means for storing the score sheet created by the score sheet creation means; (e) when a document to be classified is input to the document input means; , score calculation means for inputting the keywords extracted by the automatic keyword extraction means and inputting the scores corresponding to the keywords by referring to the score table storage means to calculate scores for each field of the input document; (f) receiving scores in each field from the score calculation means;
A single classification means that determines one classification destination based on the score; (g) A classification result storage means that receives the classification result from the classification means and stores the classification result; (h) A classification result from the classification means. A classification result display means that receives the classification result and displays the classification result. 2. An automatic document classification device comprising the following (a) to (h). (a) document input means for inputting an electronic document; (b) automatic keyword extraction means for receiving a document from the document input means and automatically extracting keywords in the document; (c) inputting a sample into the document input means. When a document is input, a positive score and a negative contribution representing the degree of positive contribution of each keyword to each field are calculated based on statistical values from the appearance frequency of the keywords extracted by the automatic keyword extraction means. a positive/negative score table creation means for calculating a negative score representing a degree and creating a score sheet; (d) a score sheet storage means for storing the score sheet created by the score sheet creation means; (e) the document input means. When a document to be classified is input, the keyword extracted by the automatic keyword extraction means is input, the score corresponding to the keyword is input by referring to the score table storage means, and the input document is classified. a score calculation means for calculating a score for each field; (f) receiving a score for each field from the score calculation means;
A single classification means that determines one classification destination based on the score; (g) A classification result storage means that receives the classification result from the classification means and stores the classification result; (h) A classification result from the classification means. A classification result display means that receives the classification result and displays the classification result. 3. An automatic document classification device comprising the following (a) to (h). (a) document input means for inputting an electronic document; (b) automatic keyword extraction means for receiving a document from the document input means and automatically extracting keywords in the document; (c) inputting a sample into the document input means. When a document is input, a positive score representing the positive contribution of each keyword to each field is calculated based on statistical values from the appearance frequency of the keywords extracted by the automatic keyword extraction means, and a score is calculated. (d) score sheet storage means for storing the score sheet created by the score sheet creation means; (e) when a document to be classified is input to the document input means; , score calculation means for inputting the keywords extracted by the automatic keyword extraction means and inputting the scores corresponding to the keywords by referring to the score table storage means to calculate scores for each field of the input document; (f) receiving scores in each field from the score calculation means;
multiple classification means for determining a plurality of classification destinations based on the scores; (g) classification result storage means for receiving classification results from the classification means and storing the classification results; (h) receiving classification results from the classification means; A classification result display means for receiving and displaying the classification results. 4. An automatic document classification device comprising the following (a) to (h). (a) document input means for inputting an electronic document; (b) automatic keyword extraction means for receiving a document from the document input means and automatically extracting keywords in the document; (c) inputting a sample into the document input means. When a document is input, a positive score and a negative contribution representing the degree of positive contribution of each keyword to each field are calculated based on statistical values from the appearance frequency of the keywords extracted by the automatic keyword extraction means. a positive/negative score table creation means for calculating a negative score representing a degree and creating a score sheet; (d) a score sheet storage means for storing the score sheet created by the score sheet creation means; (e) the document input means. When a document to be classified is input, the keyword extracted by the automatic keyword extraction means is input, the score corresponding to the keyword is input by referring to the score table storage means, and the input document is classified. a score calculation means for calculating a score for each field; (f) receiving the score for each field from the score calculation means;
A plurality of classification means that determines a plurality of classification destinations based on the scores; (g) A classification result storage means that receives classification results from the classification means and stores the classification results; (h) A classification result storage means that receives the classification results from the classification means. A classification result display means for receiving and displaying the classification results.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63013063A JPH069054B2 (en) | 1988-01-22 | 1988-01-22 | Document automatic classifier |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63013063A JPH069054B2 (en) | 1988-01-22 | 1988-01-22 | Document automatic classifier |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH01188934A true JPH01188934A (en) | 1989-07-28 |
JPH069054B2 JPH069054B2 (en) | 1994-02-02 |
Family
ID=11822681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63013063A Expired - Lifetime JPH069054B2 (en) | 1988-01-22 | 1988-01-22 | Document automatic classifier |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH069054B2 (en) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06140952A (en) * | 1992-10-23 | 1994-05-20 | Nippon Hoso Kyokai <Nhk> | Category discrimination device |
JPH06223114A (en) * | 1993-01-26 | 1994-08-12 | Ricoh Co Ltd | Character string processing system |
JPH06251072A (en) * | 1993-02-27 | 1994-09-09 | Omron Corp | Device and method for processing document |
JPH06314297A (en) * | 1993-04-30 | 1994-11-08 | Omron Corp | Device and method for processing of document and device and method for retrieving data base |
JPH06350546A (en) * | 1993-06-04 | 1994-12-22 | Nippon Hoso Kyokai <Nhk> | Related program deciding device |
JP2001243255A (en) * | 2000-03-02 | 2001-09-07 | Ntt Comware Corp | Information management system, information managing method and recording medium storing information management program |
JP2001312497A (en) * | 2000-04-28 | 2001-11-09 | Yamaha Corp | Content generating device, content distribution system, device and method for content reproduction, and storage medium |
JP2002108877A (en) * | 2000-09-29 | 2002-04-12 | Hitachi Ltd | Method for comparing gene appearance frequency distribution and recording medium |
JP2004133714A (en) * | 2002-10-10 | 2004-04-30 | Just Syst Corp | Document classification device and method, and program enabling computer to execute the method |
JP2009037420A (en) * | 2007-08-01 | 2009-02-19 | Yahoo Japan Corp | Evaluation application device, program, and method for harmful content |
WO2009087757A1 (en) * | 2008-01-08 | 2009-07-16 | Mitsubishi Electric Corporation | Information filtering system, information filtering method, and information filtering program |
WO2018230551A1 (en) * | 2017-06-16 | 2018-12-20 | 新日鉄住金ソリューションズ株式会社 | Information processing device, information processing method, and program |
-
1988
- 1988-01-22 JP JP63013063A patent/JPH069054B2/en not_active Expired - Lifetime
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06140952A (en) * | 1992-10-23 | 1994-05-20 | Nippon Hoso Kyokai <Nhk> | Category discrimination device |
JPH06223114A (en) * | 1993-01-26 | 1994-08-12 | Ricoh Co Ltd | Character string processing system |
JPH06251072A (en) * | 1993-02-27 | 1994-09-09 | Omron Corp | Device and method for processing document |
JPH06314297A (en) * | 1993-04-30 | 1994-11-08 | Omron Corp | Device and method for processing of document and device and method for retrieving data base |
JPH06350546A (en) * | 1993-06-04 | 1994-12-22 | Nippon Hoso Kyokai <Nhk> | Related program deciding device |
JP2001243255A (en) * | 2000-03-02 | 2001-09-07 | Ntt Comware Corp | Information management system, information managing method and recording medium storing information management program |
JP2001312497A (en) * | 2000-04-28 | 2001-11-09 | Yamaha Corp | Content generating device, content distribution system, device and method for content reproduction, and storage medium |
JP2002108877A (en) * | 2000-09-29 | 2002-04-12 | Hitachi Ltd | Method for comparing gene appearance frequency distribution and recording medium |
JP2004133714A (en) * | 2002-10-10 | 2004-04-30 | Just Syst Corp | Document classification device and method, and program enabling computer to execute the method |
JP2009037420A (en) * | 2007-08-01 | 2009-02-19 | Yahoo Japan Corp | Evaluation application device, program, and method for harmful content |
WO2009087757A1 (en) * | 2008-01-08 | 2009-07-16 | Mitsubishi Electric Corporation | Information filtering system, information filtering method, and information filtering program |
JP5079019B2 (en) * | 2008-01-08 | 2012-11-21 | 三菱電機株式会社 | Information filtering system, information filtering method, and information filtering program |
US8442926B2 (en) | 2008-01-08 | 2013-05-14 | Mitsubishi Electric Corporation | Information filtering system, information filtering method and information filtering program |
WO2018230551A1 (en) * | 2017-06-16 | 2018-12-20 | 新日鉄住金ソリューションズ株式会社 | Information processing device, information processing method, and program |
JPWO2018230551A1 (en) * | 2017-06-16 | 2019-06-27 | 日鉄ソリューションズ株式会社 | INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND PROGRAM |
CN110612524A (en) * | 2017-06-16 | 2019-12-24 | 日铁系统集成株式会社 | Information processing apparatus, information processing method, and program |
US11386354B2 (en) | 2017-06-16 | 2022-07-12 | Ns Solutions Corporation | Information processing apparatus, information processing method, and program |
CN110612524B (en) * | 2017-06-16 | 2023-11-10 | 日铁系统集成株式会社 | Information processing apparatus, information processing method, and recording medium |
Also Published As
Publication number | Publication date |
---|---|
JPH069054B2 (en) | 1994-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059311B (en) | Judicial text data-oriented keyword extraction method and system | |
CN110825877A (en) | Semantic similarity analysis method based on text clustering | |
US7899816B2 (en) | System and method for the triage and classification of documents | |
CN107239439A (en) | Public sentiment sentiment classification method based on word2vec | |
JPH07114572A (en) | Document classifying device | |
CN108052625B (en) | Entity fine classification method | |
CN109492105B (en) | Text emotion classification method based on multi-feature ensemble learning | |
CN110472203B (en) | Article duplicate checking and detecting method, device, equipment and storage medium | |
JPH01188934A (en) | Automatic document sorting device | |
CN110674296B (en) | Information abstract extraction method and system based on key words | |
CN111401040A (en) | Keyword extraction method suitable for word text | |
CN110046264A (en) | A kind of automatic classification method towards mobile phone document | |
CN114817575B (en) | Large-scale electric power affair map processing method based on extended model | |
CN110910175A (en) | Tourist ticket product portrait generation method | |
CN107818173B (en) | Vector space model-based Chinese false comment filtering method | |
CN115544348A (en) | Intelligent mass information searching system based on Internet big data | |
CN112489689B (en) | Cross-database voice emotion recognition method and device based on multi-scale difference countermeasure | |
JPH0554037A (en) | Document classifying system | |
CN112836067B (en) | Intelligent searching method based on knowledge graph | |
CN107480126B (en) | Intelligent identification method for engineering material category | |
JP2658997B2 (en) | Sentence evaluation device using keywords | |
CN111242170A (en) | Food inspection and detection item prediction method and device | |
CN109214275B (en) | Vulgar picture identification method based on deep learning | |
JPH08166965A (en) | Method for automatically classifying japanese text | |
CN111858830B (en) | Health supervision law enforcement data retrieval system and method based on natural language processing |