JPH08287097A - Method and device for sorting document - Google Patents

Method and device for sorting document

Info

Publication number
JPH08287097A
JPH08287097A JP7093985A JP9398595A JPH08287097A JP H08287097 A JPH08287097 A JP H08287097A JP 7093985 A JP7093985 A JP 7093985A JP 9398595 A JP9398595 A JP 9398595A JP H08287097 A JPH08287097 A JP H08287097A
Authority
JP
Japan
Prior art keywords
document
classification
probability
words
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7093985A
Other languages
Japanese (ja)
Inventor
Seiji Washisaki
誠司 鷲▲崎▼
Masahiro Oku
雅博 奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP7093985A priority Critical patent/JPH08287097A/en
Publication of JPH08287097A publication Critical patent/JPH08287097A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE: To sort documents based on the contents of a sentence by considering not only the probability of a word but also the relation between adjacent words at the time of obtaining the probability of sorting documents, thereby allowing each of them to obtain the probability of sorting the pertinent document into some document group. CONSTITUTION: When data for calculating sorting probability is accumulated by sorting probability accumulation processing, a document is newly inputted to a new document input part 6. A morphemic analyzing part 7 divides the inputted document to be the units of sentences and then morphemic-analyzes it to extract words. A sorting item extracting part 8 extracts the word, adjacent two words and three words to be sorting items from the obtained words. A sorting probability extracting part 9 selects one sorting group to be the candidate of sorting from among all the sorts. Then a sorting probability calculation part 10 extracts, with respect to the extracted sorting items, the probability of making each of them in the sorting group from a probability accumulation part 14. In addition, the probability of sorting the document to be in some sort is individually calculated through the use of the sorting probability of the sorting items.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、文書分類方法及び装置
に係り、利用者によって入力された文書に対して予め用
意してある複数の文書の分類候補の中から最も適切な分
類を決定する文書分類装置に関する。特に、文書分類時
に予め語句が文書を分類する確率を算出しておき、それ
を用いて確率的に文書を分類する文書分類方法及び装置
に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document classification method and apparatus, and determines the most appropriate classification from a plurality of document classification candidates prepared in advance for a document input by a user. Document classifier In particular, the present invention relates to a document classification method and apparatus for calculating a probability that a word classifies a document in advance at the time of classifying the document and using the probability to classify the document stochastically.

【0002】[0002]

【従来の技術】近年、与えられた文書に対して、予め設
定してある分類候補の中から適切な分類を選択する文書
分類手法に関して研究が進んでいる。さらに、様々な文
書分類手法の中でも、確率に基づく文書分類手法と呼ば
れる手法が注目されている。確率に基づく文書分類手法
とは、予め分類先(複数の場合もあり得る)が判定済み
の文書を訓練データとして入力しておき、その中の単語
がどの程度の文書を分類するかを確率として蓄積してお
き、新たに分類すべき文書が入力されたとき、蓄積して
おいた単語の文書とに対する分類確率を用いて総合的に
その文書がどの分類にあたるかを決定する手法のことを
指す。
2. Description of the Related Art In recent years, research has been conducted on a document classification method for selecting an appropriate classification from preset classification candidates for a given document. Furthermore, among various document classification methods, a method called a probability-based document classification method is drawing attention. The probability-based document classification method is to input a document whose classification destination (there may be multiple) has been determined in advance as training data, and to determine how many documents the words in it classify. When a document to be stored and newly classified is input, it refers to a method that comprehensively determines which classification the document belongs to by using the classification probability of the stored word and the document. .

【0003】従来の技術において確率に基づく文書分類
手法は、以下の4通りに代表される。 1.第1の手法: Probablistic Relevance Weighting
(PRW) この手法の例として、「Relevance weighting of searc
h terms; Journal ofthe American Society for Inform
ation Science, 27: pp. 129-146, 1976 」がある。
The document classification method based on probability in the prior art is represented by the following four methods. 1. First method: Probablistic Relevance Weighting
(PRW) As an example of this method, `` Relevance weighting of searc
h terms; Journal of the American Society for Inform
ation Science, 27: pp. 129-146, 1976 ”.

【0004】この方法は、文書dがある分類cに分類さ
れる確率をP(c|d)で表すと、このP(c|d)を
文書dが分類c以外に分類される確率を利用して近似的
に表すことを基本的なアイデアとしている。c*が分類
c以外に分類されることを表し、そしてP(c*|d)
が、文書dが分類c以外に分類される確率を表すとする
と、確率P(c|d)は以下で表されるg(c|d)を
求めることによって算出できる。
In this method, if the probability that a document d is classified into a certain classification c is represented by P (c | d), this P (c | d) is used as the probability that the document d is classified into other than the classification c. The basic idea is to express it approximately. represents that c * is classified other than classification c, and P (c * | d)
, The probability P (c | d) can be calculated by finding g (c | d) expressed below.

【0005】[0005]

【数1】 [Equation 1]

【0006】ベイズの定理を用いると、上記等式(1)
は以下のように変形できる。
Using Bayes' theorem, the above equation (1)
Can be transformed as follows.

【0007】[0007]

【数2】 [Equation 2]

【0008】(2)式において、P(c)は訓練データ
によって求められるもので、ランダムに選択した文書d
がある分類cに分類される確率を表す。よって、P(d
|c)を求めればこの確率g(c|d)は得られる。こ
のP(d|c)は文書内の単語の出現情報により求める
ことができる。即ち、各単語が文書内に独立して現れる
と仮定すると、
In the equation (2), P (c) is obtained from the training data, and the randomly selected document d
Represents the probability of being classified into a certain classification c. Therefore, P (d
This probability g (c | d) can be obtained by obtaining | c). This P (d | c) can be obtained from the appearance information of the words in the document. That is, assuming that each word appears independently in the document,

【0009】[0009]

【数3】 (Equation 3)

【0010】と変形できる。ここで、c−dは先の訓練
データの中で分類先を決定しようとしている文書d内に
は現れないが、分類cに分類される文書d以外の文書の
中に存在する単語の集合である。またTi は単語を表
し、T=1,0はti が文書d内に存在するかしないか
を表す。最終的には、g(c|d)は以下で表される。
It can be modified as follows. Here, cd is a set of words existing in a document other than the document d classified into the classification c, although it does not appear in the document d whose classification is to be determined in the previous training data. is there. Further, T i represents a word, and T = 1,0 represents whether or not t i exists in the document d. Finally, g (c | d) is expressed as follows.

【0011】[0011]

【数4】 [Equation 4]

【0012】これらは、訓練データから計算することが
でき、分類確率が求められる。詳細は上記の参考文献p
p. 130 〜135 に記載されている。 2.第2の手法: Component Theory (CT) この手法の例として、「Experiments with a component
theory of probablistic information retrieval base
d on single terms as document components;ACM Trans
actions on Information Systems, 8 (4): pp. 363-38
6, 1990 」がある。
These can be calculated from the training data and the classification probabilities are determined. See reference p above for details.
p. 130-135. 2. Second method: Component Theory (CT) As an example of this method, "Experiments with a component"
theory of probablistic information retrieval base
d on single terms as document components; ACM Trans
actions on Information Systems, 8 (4): pp. 363-38
6, 1990 ”.

【0013】この手法は、第1の手法の問題点を改善す
るために考案されているものである。文書は単語から成
ることを仮定としており、第1の手法では確率算出時に
一つ一つの単語が文書を分類する確率を利用したのに対
して、第2の手法は任意の一つ以上の単語が関連しあっ
て分類先を決定する確率を利用する。第1の手法の式
(1)のg(c|d)を等比級数的に以下のように変形
する。
This method is designed to improve the problems of the first method. It is assumed that a document consists of words, and the first method uses the probability that each word classifies the document when calculating the probability, whereas the second method uses one or more arbitrary words. Utilizes the probability of determining the classification destination because they are related to each other. G (c | d) in the equation (1) of the first method is geometrically transformed as follows.

【0014】[0014]

【数5】 (Equation 5)

【0015】ここで、P(T=t|d)、P(T=t|
c)は、それぞれ文書dの中に含まれる単語tの確率と
分類cに分類される文書の中の単語tの確率を表してい
る。これらは、訓練データから求めることができる。詳
細は、従来技術の第2の手法に関する参考文献のpp.
368〜375にある。
Here, P (T = t | d) and P (T = t |
c) represents the probability of the word t included in the document d and the probability of the word t in the document classified into the classification c, respectively. These can be obtained from training data. For details, refer to the pp.
368-375.

【0016】3.第3の手法: Retrieval with Proba
blistic Indexing (RPI) この手法の例として、「Models for retrieval with pr
obablistic indexing;Information Processing & Retri
eval, 25(1); pp. 55-72, 1989 」がある。この手法
は、第2の手法に分類の確率を求める際に単語を拡張し
てベクトル化する機能を加えたものである。すなわち、
文書dの特徴を表す単語ベクトルXを、X=(T1 ,T
2 ,…TN )と表す。このTi は、文書dが単語ti
含む時1、そうでない時0となる要素とする。このとき
のP(c|d)は以下の等式で表すことができる。
3. Third method: Retrieval with Proba
blistic Indexing (RPI) As an example of this method, `` Models for retrieval with pr
obablistic indexing; Information Processing & Retri
eval, 25 (1); pp. 55-72, 1989 ". This method is a method in which a word is expanded and vectorized when the probability of classification is obtained, in addition to the second method. That is,
A word vector X representing the feature of the document d is represented by X = (T 1 , T
2 , ... T N ). This T i is an element that becomes 1 when the document d includes the word t i and 0 otherwise. P (c | d) at this time can be expressed by the following equation.

【0017】[0017]

【数6】 (Equation 6)

【0018】この式に対して、更にそれぞれの単語が独
立であると仮定してベイズの定理を適用すれば、上記の
式(9)は以下のように変形できる。
If the Bayes' theorem is applied to this equation by assuming that each word is independent, the above equation (9) can be transformed as follows.

【0019】[0019]

【数7】 (Equation 7)

【0020】これは訓練データから算出可能である。詳
細は、従来技術の第3の手法に関する参考文献のpp.
56〜63にある。 4. 第4の手法: Single Random variable with Multi
ple Values (SVMV) この手法の例として、「A Probablistic Model for Tex
t Categorization Based on a Single Random Variable
with Multiple Values; ANLP' 94, pp. 162-167, 199
4」がある。
This can be calculated from the training data. For details, refer to pp.
56-63. 4. Fourth method: Single Random variable with Multi
ple Values (SVMV) As an example of this method, `` A Probablistic Model for Tex
t Categorization Based on a Single Random Variable
with Multiple Values; ANLP '94, pp. 162-167, 199
There is 4 ".

【0021】この第4の手法は、上記の第3の手法を拡
張したものである。第4の手法では、第3の手法におけ
る単語のベクトル化の代りに文書中に存在する単語その
ものの頻度情報を考慮するところが新しい。この手法で
は、分類確率P(c|d)は(9)の式を変形して、
The fourth method is an extension of the third method described above. The fourth method is new in that instead of vectorizing the words in the third method, the frequency information of the words themselves existing in the document is considered. In this method, the classification probability P (c | d) is obtained by modifying the equation (9),

【0022】[0022]

【数8】 (Equation 8)

【0023】で表すことができる。与えられた各単語t
i に対して文書dが分類cに分類される確率が独立だと
すると、上式(12)は第3の手法と同様に変形でき
る。すなわち、
It can be represented by Each given word t
If the probability that the document d is classified into the classification c with respect to i is independent, the above equation (12) can be modified as in the third method. That is,

【0024】[0024]

【数9】 [Equation 9]

【0025】P(T=ti |c),P(T=ti
d),P(T=ti ),P(c)などは訓練データによ
り算出できる。詳細は、従来技術の第4の手法に関する
参考文献のpp.164〜165にある。
P (T = t i | c), P (T = t i |
d), P (T = t i ), P (c), etc. can be calculated from the training data. For details, refer to pp. 164-165.

【0026】[0026]

【発明が解決しようとする課題】従来の確率に基づく文
書分類手法の問題点に関して説明する。問題点は4つに
大別できる。 1.第1の方法:Probablistic Relevance Weighting
(PRW)に関する問題点として以下のようなものがあ
る。
Problems of the conventional probability-based document classification method will be described. The problems can be roughly divided into four. 1. First Method: Probablistic Relevance Weighting
The problems with (PRW) are as follows.

【0027】問題1 文書中の単語の頻度情報が考慮さ
れていない。ある単語がある文書中に存在する場合に確
率を1、そうでない場合を0として考えるために、文書
分類に効果があると考えられる単語の頻度情報を含むこ
とができない。
Problem 1 Word frequency information in a document is not taken into consideration. Since the probability is considered to be 1 when a word is present in a document and 0 when it is not, it is not possible to include frequency information of words considered to be effective for document classification.

【0028】問題2 分類に対する単語の重みが考慮さ
れていない。ある単語が全分類の中のどの程度の分類に
含まれているかの情報が含まれていない。そのため、単
語がある分類に含まれる際の重みが考慮されない。例え
ば単語w1が分類c1中に存在し、単語w2が分類c
1、c2、c3、c4、c5中に存在すると仮定する
と、単語w1はw2よりも分類c1 を特徴付け易い。正
確な分類のためには、この性質を考慮に入れる必要があ
る。
Problem 2 Word weights for classification are not considered. There is no information about how many of the categories a word falls into. Therefore, the weight when a word is included in a certain classification is not considered. For example, the word w1 exists in the classification c1, and the word w2 exists in the classification c.
Assuming they are present in 1, c2, c3, c4, c5, the word w1 is easier to characterize the classification c1 than w2. This property must be taken into account for accurate classification.

【0029】問題3 訓練データが少ない場合の対処が
できない。訓練データが少ない場合、確率算出式の分母
が0となり確率が計算できなくなる場合が存在する。こ
の問題のよく知られた解法は、微小な数を確率式の分子
と分母に加えることである。しかし、この方法だと正確
な確率は算出できない。
Problem 3 It is impossible to deal with the case where the training data is small. If the training data is small, the denominator of the probability calculation formula may be 0, and the probability may not be calculated. A well-known solution to this problem is to add a small number to the numerator and denominator of the stochastic equation. However, this method cannot calculate the exact probability.

【0030】問題4 単語の関係が考慮できない。確率
を算出する単語は、単純に文中の単語を考えているの
で、単語間の意味的な関係を考慮できない。 2.第2の手法:Component Theory(CT)に関する問
題点として以下のようなものがある。
Problem 4 The relationship between words cannot be considered. The word for which the probability is calculated simply considers the word in the sentence, so the semantic relationship between the words cannot be considered. 2. Second method: There are the following problems regarding Component Theory (CT).

【0031】問題3 訓練データが少ない場合の対処が
できない。訓練データが少ない場合、確率算出式の分母
が0となり確率が計算できなくなる場合が存在する。こ
の問題のよく知られた解法は、微小な数を確率式の分子
と分母に加えることである。しかし、この方法だと正確
な確率は算出できない。
Problem 3 It is impossible to deal with the case where the training data is small. If the training data is small, the denominator of the probability calculation formula may be 0, and the probability may not be calculated. A well-known solution to this problem is to add a small number to the numerator and denominator of the stochastic equation. However, this method cannot calculate the exact probability.

【0032】問題4 単語の関係が考慮できない。確率
を算出する単語は、単純に文中の単語を考えているの
で、単語間の意味的な関係を考慮できない。 3.第3の手法:Retrieval with Probablistic Indexi
ng(RPI)に関する問題点として以下のようなものが
ある。
Problem 4 The relationship between words cannot be considered. The word for which the probability is calculated simply considers the word in the sentence, so the semantic relationship between the words cannot be considered. 3. Third method: Retrieval with Probablistic Indexi
There are the following problems regarding ng (RPI).

【0033】問題1 文書中の単語の頻度情報が考慮さ
れていない。ある単語がある文書中に存在する場合に確
率を1、そうでない場合を0として考えるために、文書
分類に効果があると考えられる単語の頻度情報を含むこ
とができない。
Problem 1 The word frequency information in the document is not taken into consideration. Since the probability is considered to be 1 when a word is present in a document and 0 when it is not, it is not possible to include frequency information of words considered to be effective for document classification.

【0034】問題3 訓練データが少ない場合の対処が
できない。訓練データが少ない場合、確率算出式の分母
が0となり確率が計算できなくなる場合が存在する。こ
の問題のよく知られた解法は、微小な数を確率式の分子
と分母に加えることである。しかし、この方法だと正確
な確率は算出できない。
Problem 3 It is impossible to deal with the case where the training data is small. If the training data is small, the denominator of the probability calculation formula may be 0, and the probability may not be calculated. A well-known solution to this problem is to add a small number to the numerator and denominator of the stochastic equation. However, this method cannot calculate the exact probability.

【0035】問題4 単語の関係が考慮できない。確率
を算出する単語は、単純に文中の単語を考えているの
で、単語間の意味的な関係を考慮できない。 4.第4の手法:Single Random Variable with Multip
le Values (SVMV)に関する問題点として以下のよ
うなものがある。
Problem 4 The relationship between words cannot be considered. The word for which the probability is calculated simply considers the word in the sentence, so the semantic relationship between the words cannot be considered. 4. Fourth method: Single Random Variable with Multip
There are the following problems regarding le Values (SVMV).

【0036】問題4 単語の関係が考慮できない。確率
を算出する単語は、単純に文中の単語を考えているの
で、単語間の意味的な関係を考慮できない。 このように、上記従来の技術においては、単語の頻度情
報を用いていない、訓練データが少ない場合の対処がで
きない、さらに、文書の分類時に文書中に含まれる単語
がその文書に含まれる確率の基づいてその文書がどの文
書群に分類されているかを決定しているため、文書中の
単語間の間駅が文書分類結果に反映されないため、正確
な分類ができないという問題がある。
Problem 4 The relationship between words cannot be considered. The word for which the probability is calculated simply considers the word in the sentence, so the semantic relationship between the words cannot be considered. As described above, in the above-mentioned conventional technique, the frequency information of words is not used, it is impossible to cope with a small amount of training data, and the word included in the document at the time of classifying the document is not included in the probability of being included in the document. Since the document group is determined based on the document based on that, the station between words in the document is not reflected in the document classification result, which causes a problem that accurate classification cannot be performed.

【0037】本発明は、上記の点に鑑みなされたもの
で、上記従来の問題点を解決し、新たに入力された文書
をより正確に分類することが可能な文書分類方法及び装
置を提供することを目的とする。
The present invention has been made in view of the above points, and provides a document classification method and apparatus capable of solving the above-mentioned conventional problems and classifying newly input documents more accurately. The purpose is to

【0038】[0038]

【課題を解決するための手段】本発明は、利用者により
入力された文書を、予め蓄積されている文書の分類候補
の中から尤も適切なものを選択する文書分類方法におい
て、入力された文書を予め分類された文書群に分類し、
文書の分類時に文書中に含まれる単語が文書に含まれる
文書分類確率を求める際に、該単語の確率のみならず、
隣接単語間の関係を取得して、該文書分類確率を算出す
る。
SUMMARY OF THE INVENTION The present invention is a document classification method for selecting an appropriately appropriate document input by a user from among document classification candidates stored in advance. Is classified into a pre-classified document group,
When determining the document classification probability that a word included in the document is included in the document when classifying the document, not only the probability of the word,
The relationship between adjacent words is acquired and the document classification probability is calculated.

【0039】図1は、本発明の原理を説明するための図
である。本発明は、文書を分類する際に、文書分類確率
算出用に、予め分類された文書を読み込み(ステップ
1)、読み込んだ文書内の文章を形態素解析し(ステッ
プ2)、形態素解析により分割された単語から分類確率
算出時に用いる連続するn(nは自然数)個の単語の文
書の分類項目として抽出し(ステップ3)、抽出した各
分類項目毎の各々に対して文書が全分類の中にある分類
に分類される頻度を計算し(ステップ4)、計算された
頻度から、各分類項目が文書を分類する確率を計算し
(ステップ5)、計算された確率を文書分類用に蓄積し
(ステップ6)、新たに分類すべき文書が入力された時
に(ステップ7)、入力された文書内の文章を形態素解
析し(ステップ8)、形態素解析された単語を用いて、
分類項目において連続するn個の単語列を抽出し(ステ
ップ9)、抽出した単語列に対して、予め蓄積しておい
た連続するn個の単語の中で一致するところの文書があ
る分類に属する分類確率を抽出し(ステップ10)、抽
出した分類項目の分類確率を用いて、文書がある分類に
対して分類される確率を個別に算出し(ステップ1
1)、算出された分類確率のうち、最も確率の高い分類
確率から順に文書の分類結果として決定し(ステップ1
2)、決定された文書を分類結果として表示する(ステ
ップ13)。
FIG. 1 is a diagram for explaining the principle of the present invention. According to the present invention, when a document is classified, a document classified in advance is read (step 1), a sentence in the read document is subjected to morphological analysis (step 2) for document classification probability calculation, and the document is divided by morphological analysis. It is extracted as a classification item of a document of continuous n (n is a natural number) words used in calculating the classification probability from the extracted word (step 3), and the document is included in all classifications for each extracted classification item. The frequency of classification into a certain classification is calculated (step 4), the probability that each classification item classifies a document from the calculated frequency is calculated (step 5), and the calculated probability is stored for document classification ( In step 6), when a document to be classified is newly input (step 7), the sentence in the input document is morphologically analyzed (step 8), and the words subjected to morphological analysis are used.
A continuous n word string in the classification item is extracted (step 9), and the extracted word string is classified into a class in which there is a matching document among the n consecutive words stored in advance. The classification probabilities to which the documents belong are extracted (step 10), and the classification probabilities of the extracted classification items are used to individually calculate the probabilities that documents are classified into a certain classification (step 1).
1) Among the calculated classification probabilities, the highest classification probability is determined as the document classification result in order (step 1
2) Then, the determined document is displayed as a classification result (step 13).

【0040】また、ステップ12において文書の分類結
果を決定する際に、算出した分類確率のうち、予め設定
した閾値を越える文書を分類結果として決定する。本発
明は、利用者により入力された文書を、予め蓄積されて
いる文書の分類候補の中から尤も適切なものを選択する
文書分類装置において、入力された文書を予め分類され
た文書群に分類する手段と、文書の分類時に文書中に含
まれる単語が文書に含まれる文書分類確率を求める際
に、該単語の確率のみならず、隣接単語間の関係を取得
して、該文書分類確率を算出する手段を有する。
Further, when determining the classification result of the document in step 12, the document exceeding the preset threshold value among the calculated classification probabilities is determined as the classification result. According to the present invention, in a document classification device that selects an appropriate document from among the document classification candidates stored in advance, a document input by a user is classified into a pre-classified document group. Means for obtaining the document classification probability that a word included in the document is included in the document when classifying the document, the relationship between adjacent words is acquired in addition to the probability of the word, and the document classification probability is calculated. It has a means for calculating.

【0041】図2は、本発明の原理構成図である。本発
明は、入力された文書を分類する場合に、文書分類確率
算出用に予め文書をメモリに読み込む第1の文書入力手
段101と、第1の文書入力手段101から読み込んだ
文書内の文章を単語毎に分割する第1の形態素解析手段
102と、第1の形態素解析手段102により分割した
単語から分類確率算出時に用いる連続するn(nは自然
数)個の単語を文書の分類項目として抽出する第1の分
類項目抽出手段103と、第1の分類項目抽出手段10
3により抽出した各分類項目毎に、各々に対して文書が
全分類の中のある分類に分類される頻度を計算する分類
頻度計算手段104と、分類頻度計算手段104により
計算した頻度から、各分類項目が文書を分類する確率を
計算する文書分類確率計算手段105と、文書分類確率
計算手段105により計算した確率を文書分類用とし
て、確率蓄積装置107に蓄積しておく分類確率蓄積手
段106とを用いる分類確率算出・蓄積手段100と、
新たに分類すべき文書が入力された場合に、新たに分類
すべき文書を読み込む第2の文書入力手段201と、第
1の文書入力手段から入力された文書内の文書を単語毎
に分割する第2の形態素解析手段202と、第2の形態
素解析手段202により分割された単語を用いて連続す
るn個の単語列を抽出する第2の分類項目抽出手段20
3と、分類確率蓄積手段107を参照して連続するn個
の単語の中で一致する文書がある分類に属する分類確率
を抽出する分類確率抽出手段204と、分類確率抽出手
段204により抽出した分類項目別の分類確率を用い
て、文書がある分類に対して分類される確率を個別に算
出する分類確率算出手段205と、分類確率算出手段2
05により算出した分類確率のうち、最も確率の高いも
のから順に文書の分類結果として決定する分類判定手段
206と、分類判定手段206により決定した文書を分
類結果として表示する分類結果出力手段207とを用い
る分類確率参照・算出手段200とを有する。
FIG. 2 is a block diagram showing the principle of the present invention. According to the present invention, when classifying an input document, a first document input unit 101 that reads a document into a memory in advance for calculating a document classification probability and a sentence in the document read from the first document input unit 101 A first morpheme analyzing unit 102 that divides each word, and n consecutive words (n is a natural number) used when calculating a classification probability are extracted as document classification items from the words that are divided by the first morpheme analyzing unit 102. First classification item extraction means 103 and first classification item extraction means 10
For each classification item extracted by 3, the classification frequency calculation means 104 for calculating the frequency of classification of a document into a certain classification among all classifications, and the frequency calculated by the classification frequency calculation means 104, A document classification probability calculating means 105 for calculating a probability that the classification item classifies a document, and a classification probability accumulating means 106 for accumulating the probability calculated by the document classification probability calculating means 105 in the probability accumulating device 107 for document classification. Classification probability calculation / accumulation means 100 using
When a document to be newly classified is input, the second document input unit 201 that reads the document to be newly classified and the document in the document input from the first document input unit are divided into words. A second morpheme analysis means 202 and a second classification item extraction means 20 for extracting a continuous n word string using the words divided by the second morpheme analysis means 202.
3, a classification probability extracting unit 204 that refers to the classification probability accumulating unit 107, and extracts a classification probability belonging to a certain category of a document having a matching n consecutive words; and a category extracted by the classification probability extracting unit 204. A classification probability calculating unit 205 and a classification probability calculating unit 2 which individually calculate the probabilities that a document is classified for a certain classification by using the classification probabilities for each item.
Of the classification probabilities calculated in 05, the classification determination unit 206 that determines the document classification result in order from the highest probability, and the classification result output unit 207 that displays the documents determined by the classification determination unit 206 as the classification result. And a classification probability reference / calculation means 200 to be used.

【0042】上記の分類判定手段206は、 文書の分
類結果を決定する際に、算出した分類確率のうち、予め
設定した閾値を越える文書を分類結果として決定する。
When determining the classification result of the document, the classification judging means 206 determines the document which exceeds the preset threshold value among the calculated classification probabilities as the classification result.

【0043】[0043]

【作用】本発明では、入力された文書を予め分類した文
書群に分類して、前述の問題1、2に対しては、単語が
存在するか否かだけではなく、存在する場合にその頻度
を考えることで対処する。
According to the present invention, the inputted documents are classified into a document group which is classified in advance, and in order to solve the above-mentioned problems 1 and 2, not only whether or not a word exists, but also the frequency of the existence of the word. To deal with.

【0044】また、問題3に対しては、訓練データが少
なく、確率が算出できない場合には、単独の単語だけを
考えるのではなく、隣接単語の頻度情報を考慮するた
め、より正確な確率値を求めることが可能となる。さら
に、問題4に対しては、文書分類の確率を求める際に、
単語の確率だけではなく、隣接するn個の単語間を同時
に抽出し、それが文書をある分類に分類する確率を求め
ることになるために、それらの単語間に共起関係が存在
することを考えれば、従来の技術と比較してより、文の
内容に即した文書分類が可能となる。
For Problem 3, when the training data is small and the probability cannot be calculated, not only a single word is considered but the frequency information of adjacent words is considered. It becomes possible to ask. Further, for Problem 4, when obtaining the probability of document classification,
Since not only the probability of a word but also the number of adjacent n words are extracted at the same time, and the probability of classifying a document into a certain category is obtained, the co-occurrence relation exists between these words. Considering this, it becomes possible to classify the documents according to the content of the sentence as compared with the conventional technique.

【0045】[0045]

【実施例】以下、本発明の実施例を図面と共に説明す
る。図3は、本発明の一実施例の文書分類装置の構成を
示し、図4は、本発明の一実施例の文書分類装置の概要
動作を示すフローチャートである。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 3 shows the configuration of the document classification apparatus according to the embodiment of the present invention, and FIG. 4 is a flowchart showing the general operation of the document classification apparatus according to the embodiment of the present invention.

【0046】図3において、文書分類装置は、分類確率
蓄積時においては、文書分類時に用いる確率の算出のた
めの訓練用文書を入力する文書入力部1、入力文書を品
詞単位に区分する形態素解析部2、分類確率を算出する
ために必要な項目を抽出する分類項目抽出部3、確率項
目毎に文書の分類確率を算出する項目別確率算出部4、
文書全体として文書の分類確率を算出する分類確率蓄積
部5、形態素解析に用いる日本語辞書13、項目別に算
出した分類確率を蓄積しておく確率蓄積部14より構成
されるシステムを用いる。また、項目別確率算出部4
は、分類項目毎に各々に対して文書が全分類の中のある
分類に分類される頻度を求める分類頻度算出部41と、
算出された分類頻度から各分類項目が文書を分類する確
率を計算する分類頻度計算部42を有する。
In FIG. 3, the document classifying apparatus, when accumulating classification probabilities, the document input unit 1 for inputting a training document for calculating probabilities used at the time of document classification, and morphological analysis for classifying an input document in units of parts of speech. Part 2, a classification item extraction part 3 for extracting items necessary for calculating classification probability, an item-wise probability calculation part 4 for calculating a classification probability of a document for each probability item,
A system including a classification probability accumulating unit 5 for calculating the classification probability of the document as a whole, a Japanese dictionary 13 used for morphological analysis, and a probability accumulating unit 14 for accumulating the classification probability calculated for each item is used. Also, the item-based probability calculation unit 4
Is a classification frequency calculation unit 41 that obtains a frequency for which a document is classified into a certain classification among all classifications for each classification item,
It has a classification frequency calculation unit 42 that calculates the probability that each classification item classifies a document from the calculated classification frequency.

【0047】また、分類確率算出時には、分類すべき新
規文書を入力する文書入力部6、入力文書を品詞単位に
区分する形態素解析部7、分類確率を算出するために該
当する項目を抽出する分類項目抽出部8、予め蓄積され
た分類項目別の分類確率を抽出する分類確率抽出部9、
入力された文書がどの分類に属するかの確率を算出する
分類確率算出部10、どの分類に含まれるかを判定する
分類判定部11、分類結果を出力する分類結果出力部1
2、形態素解析に用いる日本語辞書13、項目別に算出
した分類確率を蓄積しておく確率蓄積装置14より構成
されるシステムを用いる。また、本実施例では、分類結
果出力部12は、分類結果を表示装置に出力するものと
する。
When the classification probability is calculated, the document input unit 6 for inputting a new document to be classified, the morphological analysis unit 7 for dividing the input document into units of parts of speech, and the classification for extracting the corresponding items for calculating the classification probability. An item extraction unit 8, a classification probability extraction unit 9 that extracts a classification probability for each classification item accumulated in advance,
A classification probability calculation unit 10 that calculates the probability that the input document belongs to, a classification determination unit 11 that determines which classification the input document belongs to, and a classification result output unit 1 that outputs the classification result.
2. A system including a Japanese dictionary 13 used for morphological analysis and a probability storage device 14 for storing the classification probabilities calculated for each item is used. Further, in this embodiment, the classification result output unit 12 outputs the classification result to the display device.

【0048】以下、図3の文書分類装置の構成図、及び
図4の文書分類装置の処理の流れに沿って本発明の一実
施例の動作を説明する。本実施例では、ある単語の隣接
3単語に着目して文書分類を行なう例を示す。隣接単語
の数が増えた場合でも処理の流れは同じである。
The operation of the embodiment of the present invention will be described below with reference to the block diagram of the document classification device of FIG. 3 and the processing flow of the document classification device of FIG. In the present embodiment, an example will be shown in which document classification is performed by focusing on three words adjacent to a certain word. The processing flow is the same even when the number of adjacent words increases.

【0049】最初に、図4の処理において、文書の分類
確率付与用に必要な項目別の確率を確率蓄積装置14に
蓄積する処理を説明する。また、図5では、分類確率算
出時の処理を説明する。図6では、分類確率算出時の詳
細な処理について述べる。 ステップ101) 文書入力部1は、図7に示す訓練用
の文書を大量に入力する。図7の例では、文書の本文と
共にその文書の正しい分類先が複数入力されている。分
類の例としては、図7のような「飛行機」などの細分化
されたものから、「犯罪」などの大きな分類までがあ
る。文書の分類先候補は一般的に複数存在する。
First, in the process of FIG. 4, a process of accumulating in the probability accumulating device 14 the probabilities for each item required for giving the classification probability of a document will be described. Further, in FIG. 5, a process at the time of calculating the classification probability will be described. In FIG. 6, detailed processing when calculating the classification probability will be described. Step 101) The document input unit 1 inputs a large number of training documents shown in FIG. In the example of FIG. 7, a plurality of correct classification destinations of the document are input together with the body of the document. Examples of classifications range from subdivided ones such as “airplane” as shown in FIG. 7 to large classifications such as “crime”. There are generally a plurality of document classification destination candidates.

【0050】ステップ102) 文書が入力されると、
形態素解析部2は、入力された文書は、日本語辞書8を
参照しながら文単位に分割し形態素解析を行なう。例え
ば図7の本文を形態素解析するならば、「南アフリカの
ケープタウン発ロンドン行きの飛行機は、離陸寸前に5
人組のハイジャックにより乗っ取られた。」、「飛行機
の中には乗員乗客合わせて359人が残されており、予
断を許さない緊迫した状況になっている。」などと文に
分割し、日本語辞書8を利用してそれぞれを形態素解析
する。その結果を図8に示す。図8では、文を単語単位
に分割し、それぞれに対して読みと品詞が付与されてい
る。例えば、「南アフリカ」という単語に関しては、読
みとして「ミナミアフリカ」、品詞として「固有名詞」
が付与される。
Step 102) When the document is input,
The morphological analysis unit 2 divides the input document into sentence units with reference to the Japanese dictionary 8 and performs morphological analysis. For example, if we morphologically analyze the text of Fig. 7, "A plane from Cape Town in South Africa to London is about to take off.
Hijacked by a group of people. ”,“ There are 359 passengers and passengers left on the plane, which is a tense situation that cannot be foreseen. ”Divide into sentences and use the Japanese dictionary 8 for each. Perform morphological analysis. FIG. 8 shows the result. In FIG. 8, the sentence is divided into words, and a reading and a part of speech are given to each. For example, for the word "South Africa", the reading is "Minami Africa" and the part of speech is "proper noun".
Is given.

【0051】ステップ103) こうして訓練用の文全
てから単語を切り出したら、分類項目抽出部3において
以下のステップで分類確率算出用の分類項目を抽出し、
さらに、項目別確率算出部4において、分類項目別の分
類確率を算出する。文書を分類するために、一つ一つの
単語ではなく隣接単語及び、隣接する3単語に着目す
る。隣接単語及び隣接する3単語の例を図9に示す。図
9の上表は、隣接単語の幾つかの例である。この図に
は、図7における単語を出現順序順に指定個数毎にまと
めてある。図9の下図も同様に隣接3単語の例を示して
いる。これらの語句を利用して、文書dがある分類cに
分類される確率を、以下のように求める。
Step 103) After the words are cut out from all the training sentences, the classification item extracting unit 3 extracts the classification items for calculating the classification probability in the following steps,
Further, the item-wise probability calculation unit 4 calculates the category probability for each item. In order to classify documents, not the individual words but the adjacent words and the adjacent three words are focused. FIG. 9 shows an example of adjacent words and three adjacent words. The table in FIG. 9 shows some examples of adjacent words. In this figure, the words in FIG. 7 are grouped by the designated number in the order of appearance. Similarly, the lower part of FIG. 9 also shows an example of three adjacent words. Using these words and phrases, the probability that the document d is classified into a certain classification c is obtained as follows.

【0052】基本的には、ある文書dが分類cに分類さ
れる確率を、文書中に存在する単語ではなく隣接3単語
に着目して算出する。今後は、ある任意の隣接する単語
列t i-2 、ti-1 、ti のことを、(ti ,ti-1 ,t
i-2 )と表記することにする。図9の例では、隣接する
単語列は(南アフリカ,の)であり、隣接3単語列は
(南アフリカ,の,ケープタウン)で表される。この
時、分類確率P(c|d)は、
Basically, a document d is classified into the classification c.
Probability is not the word existing in the document but the adjacent 3 words
Pay attention to the calculation. Now any adjacent word
Row t i-2, Ti-1, Ti(Ti, Ti-1, T
i-2). In the example of FIG. 9, adjacent
The word string is (of South Africa) and the adjacent 3 word strings are
(Cape Town, South Africa). this
Then, the classification probability P (c | d) is

【0053】[0053]

【数10】 [Equation 10]

【0054】で表すことができる。与えられた各ti
対して文書dが分類cに分類される確率が独立だとする
と、上式は前に述べた3の手法と同様に以下のように変
形できる。
It can be represented by Assuming that the probability that the document d is classified into the classification c is independent for each given t i , the above equation can be transformed as follows in the same manner as the method of 3 described above.

【0055】[0055]

【数11】 [Equation 11]

【0056】上式におけるいくつかの値に関して説明す
る。P(T=(ti ,ti-1 ,ti- 2 |c))は、隣接
3単語ti 、ti-1 ,ti-2 が連続して現れた時分類c
に分類される確率(A)であり、P(T=(ti ,t
i-1 ,ti-2 |d)は、文書dが存在し、さらにその中
に隣接3単語が出現する確率(B)を示す。例えば、図
7の文書は、「犯罪」及び「飛行機」という分類に分類
され、更にこの文書は図9の上図のような隣接3単語
(南アフリカ,の,ケープタウン)などをその分類項目
として保持している。分類項目抽出部3でこれと同じ分
類先を持つ全文書から同じ単語列を持つものを抽出し、
項目別確率算出部4の分類頻度算出部41で頻度を算出
し、文書分類確率計算部42でこの頻度を用いて上記の
条件付き確率を算出する。例えば、図7とは異なる文書
が存在するとして、その分類先の一つが「犯罪」である
とした時に、この文書内に上記の隣接3単語である(南
アフリカ,の,ケープタウン)がある場合に、それらを
同じ情報だと見做して頻度情報に加えて確率を求める。
また、P(c)はランダムに選択した文書dが分類cに
分類される確率(C)である。P(T=(ti
i-1 ,ti-2 )は、隣接する2単語ti-1 、ti-2
出現した際のti が現れる確率(D)である。(A)か
ら(C)までの値は、隣接3単語の現れる頻度とそれら
が関連する文書の分類先をチェックすれば算出できる。
最後の値(D)は、訓練用の全文書の中にある隣接3単
語の現れる回数が少ない場合、正しく計算できない状態
になるので、以下のような工夫を行ない確率算出の頻度
を高める。ある変数tの文書中に現れる頻度をf(t)
で表す。
Some values in the above equation will be described. P (T = (t i , t i-1 , t i- 2 | c)) is a time classification c in which three adjacent words t i , t i-1 , and t i-2 appear consecutively.
Probability (A) of being classified into P (T = (t i , t
i-1 , t i-2 | d) indicates the probability (B) that the document d exists and three adjacent words appear therein. For example, the document of FIG. 7 is classified into the categories of “crime” and “airplane”, and further, this document has three adjacent words (South Africa, Cape Town) and the like as its classification items as shown in the upper diagram of FIG. keeping. The classification item extraction unit 3 extracts the documents having the same word strings from all the documents having the same classification destination,
The classification frequency calculation unit 41 of the item-based probability calculation unit 4 calculates the frequency, and the document classification probability calculation unit 42 uses the frequency to calculate the conditional probability. For example, assuming that a document different from that shown in FIG. 7 exists and one of the classification destinations is “crime”, the above-mentioned three adjacent words (South Africa, Cape Town) are present in this document. Then, they are regarded as the same information, and the probability is calculated by adding them to the frequency information.
P (c) is the probability (C) that the randomly selected document d is classified into the classification c. P (T = (t i |
t i-1 , t i-2 ) is the probability (D) that t i appears when two adjacent words t i-1 , t i-2 appear. The values from (A) to (C) can be calculated by checking the frequency of appearance of three adjacent words and the classification destination of the document to which they are related.
The last value (D) cannot be calculated correctly when the number of occurrences of three adjacent words in all the training documents is small, so the following measures are taken to increase the frequency of probability calculation. The frequency of occurrence of a variable t in the document is f (t)
It is represented by.

【0057】 P(T=(ti |ti-1 ,ti-2 )) (18) =q1 (f(T=ti |ti-1 ,ti-2 ) +q2 f(T=ti |ti-1 )+q3 f(T=ti ) (19) この式におけるf(T=ti |ti-1 )は単語ti-1
出現した際のti が現れる頻度、f(T=(ti )はt
i が現れる頻度、そしてq1 ,q2 ,q3 は、訓練デー
タにより決定できる1以下の正数、あるいは0を取る定
数である。よって、この値を算出するためには、f(T
=ti |ti-1 ,ti-2 )、f(T=(ti
i-1 )、f(T=(ti ))を求めるために次のよう
な計算を行なえば良い。まず、単語毎の分類頻度を算出
する。そのために訓練用の文全体から抽出した単語の中
から同一表記のものを抽出する。
P (T = (t i | t i-1 , t i-2 )) (18) = q 1 (f (T = t i | t i-1 , t i-2 ) + q 2 f ( T = t i | t i- 1) + q 3 f (T = t i) (19) f in the equation (T = t i | t i -1) is t i when word t i-1 appeared , F (T = (t i ) is t
The frequency at which i appears and q 1 , q 2 , and q 3 are positive numbers less than or equal to 1 that can be determined by training data, or constants that take 0. Therefore, in order to calculate this value, f (T
= T i | t i-1 , t i-2 ), f (T = (t i |
The following calculation may be performed to obtain t i−1 ), f (T = (t i )). First, the classification frequency for each word is calculated. Therefore, the same notation is extracted from the words extracted from the entire training sentence.

【0058】ステップ104) 分類項目抽出部3は、
抽出した単語に対して、その単語が含まれる文書が分類
される先をマークする。項目別確率算出部4の分類頻度
算出部41は、マークした分類先が同じならば一つの集
合と考えその頻度を計算する。この頻度fを、単語t1
を用いてf(t1 )と表す。次に、隣接単語の頻度を算
出する。単独の単語の場合と同様に、まず訓練用の文全
体から隣接した単語を抽出し、同様に分類先を元に集合
を作り頻度を算出する。この頻度fを、隣接単語t1
2 を用いてf(t1 ,t2 )と表す。さらに、隣接3
単語の頻度も同様に求める。この頻度を同様にf
(t1 ,t2 ,t3 )と表す。これらの値より値(D)
の算出が可能である。例として、図10に隣接3単語の
頻度情報収集例を考える。図10には、例えば(南アフ
リカ,の,ケープタウン)の3単語が連続する場合に、
それらが含まれる文書の分類先には、「犯罪」、「飛行
機」、「アフリカ」、「旅行」などがあることを示して
いる。各々に対して、頻度情報が付与される。
Step 104) The classification item extracting section 3
For the extracted word, mark where the document containing the word is classified. If the marked classification destinations are the same, the classification frequency calculation unit 41 of the item-by-item probability calculation unit 4 regards them as one set and calculates the frequency. This frequency f is used as the word t 1
Is represented by f (t 1 ). Next, the frequency of adjacent words is calculated. Similar to the case of a single word, first, adjacent words are extracted from the whole training sentence, and similarly, a set is created based on the classification destination and the frequency is calculated. This frequency f is set to the adjacent word t 1 ,
with t 2 represents the f (t 1, t 2) . Furthermore, adjacent 3
The word frequency is calculated in the same way. This frequency is also f
It is expressed as (t 1 , t 2 , t 3 ). Value (D) from these values
Can be calculated. As an example, consider an example of collecting frequency information of three adjacent words in FIG. In FIG. 10, for example, if three words (South Africa, Cape Town) are consecutive,
It indicates that the documents including them are classified into "crime", "airplane", "Africa", "travel", and the like. Frequency information is given to each.

【0059】ステップ105) 以上のようにして、全
文書に対して頻度情報が得られたらステップ106に移
行し、残りの文書がある場合にはステップ101に移行
する。 ステップ106) 項目別確率算出部4の文書分類確率
計算部42は、ある文書dが与えられた時に、その文書
中の分類項目ti 、ti-1 、ti-2 等により、その文書
がどの分類に該当し、各分類項目が文書を分類するため
にどの程度の確率を持っているのかの訓練データを算出
する。
Step 105) As described above, if the frequency information is obtained for all the documents, the process proceeds to step 106, and if there are remaining documents, the process proceeds to step 101. Step 106) When a document d is given, the document classification probability calculation unit 42 of the item-wise probability calculation unit 4 uses the classification items t i , t i-1 , t i-2, etc., in the document to determine the document. The training data of which category corresponds to and what probability each category has for classifying the document is calculated.

【0060】ステップ107) 分類確率蓄積部5は、
これらを確率蓄積装置11に蓄積しておく。 式(19)を用いれば式(17)は最終的に以下の形に
変形できる。
Step 107) The classification probability accumulating unit 5
These are stored in the probability storage device 11. By using the equation (19), the equation (17) can be finally transformed into the following form.

【0061】[0061]

【数12】 (Equation 12)

【0062】次に、図5に従って、分類確率算出時の処
理を説明する。 ステップ201) 上記図4の分類確率蓄積処理により
分類確率算出用のデータが蓄積されたら、新規文書入力
部6に新たに文書が入力される。 ステップ202) 形態素解析部7は、入力された文書
に対して、文単位に分割した上で形態素解析を行ない単
語を抽出する。
Next, the processing for calculating the classification probability will be described with reference to FIG. Step 201) When the data for classification probability calculation is accumulated by the classification probability accumulation process of FIG. 4, a new document is input to the new document input unit 6. Step 202) The morphological analysis unit 7 divides the input document into sentence units and then performs morphological analysis to extract words.

【0063】ステップ203) 分類項目抽出部8は、
こうして得られた単語から分類項目となる単独の単語、
隣接2単語、そして隣接3単語を抽出する。 ステップ204) 分類確率抽出部9は、全分類の中か
ら分類の候補となる分類群を一つ選択する。
Step 203) The classification item extracting section 8
A single word that becomes a classification item from the words thus obtained,
Two adjacent words and three adjacent words are extracted. (Step 204) The classification probability extraction unit 9 selects one classification group as a classification candidate from all the classifications.

【0064】ステップ205) 分類確率算出部10
は、抽出した分類項目に対して、各々がその分類群にな
る確率を確率蓄積部14から抽出する。さらに、分類項
目の分類確率を用いて文書がある分類に対して分類され
る確率を個別に算出する。詳細な動作は図6に後述す
る。
Step 205) Classification probability calculation unit 10
For the extracted classification items, the probability accumulating unit 14 extracts the probabilities that the respective classification items will belong to the classification group. Further, using the classification probabilities of the classification items, the probabilities of documents being classified for a certain classification are individually calculated. Detailed operation will be described later with reference to FIG.

【0065】ステップ206) 全ての分類群を確認し
ている場合には、ステップ207に移行し、確認してい
ない分類群がある場合には、ステップ204に移行す
る。 ステップ207) 分類確率算出部10は、算出した確
率が高い順に分類群を順に整列させる。
Step 206) If all the classification groups have been confirmed, the procedure proceeds to step 207, and if there is an unconfirmed classification group, the procedure proceeds to step 204. Step 207) The classification probability calculation unit 10 arranges the classification groups in order from the highest calculated probability.

【0066】ステップ208) 分類確率算出部10
は、メモリ上で分類確率が高いものから分類判定部11
に転送する。 ステップ209) 分類判定部11は、抽出するための
閾値を越えるかどうかを検査する。検査の結果越える場
合には、ステップ210に移行し、越えない場合には、
処理を終了する。
Step 208) Classification probability calculator 10
Indicates the classification determination unit 11 from the one having the highest classification probability in the memory.
Transfer to. Step 209) The classification determination unit 11 checks whether or not the threshold for extraction is exceeded. If the result of the inspection is exceeded, go to step 210, and if not,
The process ends.

【0067】ステップ210) 分類判定部11で閾値
を越えて、検査が合格したものを分類結果出力部12に
渡す。分類結果出力部12は、検査に合格したものだけ
を文書の分類先を決定して最終的に順に出力する。 ステップ211) このように全ての分類群に関して検
査を終了して、全ての処理を終了する。
Step 210) The classification judgment section 11 passes the threshold value and passes the inspection to the classification result output section 12. The classification result output unit 12 determines only the documents that have passed the inspection, the document classification destination, and finally outputs the documents in order. Step 211) In this way, the inspection is completed for all the classification groups, and all the processes are completed.

【0068】図6は、本発明の一実施例の分類確率算出
部の詳細な動作を説明するためのフローチャートであ
る。 ステップ301) カウントiに初期値1を設定する。 ステップ302) まず単独の単語の隣接i単語を抽出
する。
FIG. 6 is a flow chart for explaining the detailed operation of the classification probability calculating section according to the embodiment of the present invention. Step 301) Set an initial value 1 to the count i. (Step 302) First, i words adjacent to a single word are extracted.

【0069】ステップ303) 隣接i単語に対して分
類確率を抽出する。 ステップ304) iが4以下の場合には、ステップ3
05に移行し、iが4より大きければ、ステップ306
に移行する。 ステップ305) 次に、単語を隣接する2個の単語に
置き換え、同様に分類確率を抽出する。
Step 303) Extract classification probabilities for adjacent i words. Step 304) If i is 4 or less, Step 3
If i is greater than 4 in step 05, step 306
Move to (Step 305) Next, the word is replaced with two adjacent words, and the classification probability is similarly extracted.

【0070】ステップ306) このように、隣接する
3個の単語、さらにP(c)等の必要な確率値を確率蓄
積装置14から抽出する。 ステップ307) 分類確率算出部10は、確率算出式
である式(21)に上記の値を代入する。
Step 306) In this way, the three adjacent words and the necessary probability values such as P (c) are extracted from the probability accumulator 14. Step 307) The classification probability calculation unit 10 substitutes the above value into the equation (21) which is the probability calculation equation.

【0071】ステップ308) これにより、分類確率
算出部10は選択した分類群に対する文書の分類確率を
算出する。 例えば、入力された文書に対して各分類に分類される確
率が図11のように付与されたとする。閾値を5.0×
10-8とした場合、図11においてこの閾値を越えるも
のを確率の高いものから順に表示すると、分類番号1、
8、3、2となる。これらの分類を入力された文書の分
類先と決定する。
Step 308) As a result, the classification probability calculation section 10 calculates the classification probability of the document for the selected classification group. For example, it is assumed that the input document is given a probability of being classified into each classification as shown in FIG. 5.0x threshold
In the case of 10 −8 , if the items exceeding this threshold are displayed in order from the one with the highest probability in FIG.
It becomes 8, 3, 2. These classifications are determined as classification destinations of the input document.

【0072】上記のように、本発明を用いれば従来の確
率に基づく文書分類手法が持つ問題点が解決でき、従来
手法よりも精度の高い文書の分類が可能となることがわ
かる。なお、上記の実施例において、文書入力部1、
6、形態素解析部2、7、分類項目抽出部3、8につい
て、図3において別個に記載し、別個の符号を付与して
いるが、同一構成のものであり、分類確率蓄積時と、分
類確率算出時の説明の便宜上分けているものである。
As described above, by using the present invention, it is possible to solve the problems of the conventional probability-based document classification method, and it becomes possible to classify documents with higher accuracy than the conventional method. In the above embodiment, the document input unit 1,
6, the morpheme analysis units 2 and 7, and the classification item extraction units 3 and 8 are described separately in FIG. 3 and are given different reference numerals, but they have the same configuration, and the classification probability accumulation time and the classification probability accumulation time It is divided for convenience of explanation at the time of probability calculation.

【0073】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内で種々、変更・応用が可
能である。
The present invention is not limited to the above embodiments, but various modifications and applications are possible within the scope of the claims.

【0074】[0074]

【発明の効果】上述のように、本発明によれば、従来技
術における確率に基づく文書分類手法が持っていた単語
の頻度を用いない問題(問題1、2)、訓練データが少
ない場合に対処ができない問題(問題3)に対しては、
文書の中に含まれる全単語を参照することにより解決で
きることがわかる。
As described above, according to the present invention, the problem of not using the frequency of words that the probability-based document classification method in the prior art does not use (problems 1 and 2) and the case where the training data is small are addressed. For the problem that can not be done (Problem 3),
It can be seen that this can be solved by referring to all the words contained in the document.

【0075】さらに、従来の技術において、確率に基づ
く文書分類手法では用いられなかった単語間の関係を、
隣接3単語が揃って表れることを考慮することで、それ
らの関係を分類確率に採り入れて文書の分類確率を算出
するために、より精度の高い文書の分類が可能となる。
Furthermore, in the conventional technique, the relationship between words, which is not used in the probability-based document classification method, is
By considering that three adjacent words appear together, the relationship between them is incorporated into the classification probability to calculate the classification probability of the document, so that the document can be classified with higher accuracy.

【0076】このように、本発明では、文書分類の確率
を求める際に、単語の確率だけではなく、隣接単語間の
関係を考慮に入れた上で、これらが該当文書をある文書
群に分類される確率を求めることになるために、文の内
容に即した文書分類が可能となる。
As described above, according to the present invention, when the probability of document classification is obtained, not only the probability of words but also the relationship between adjacent words are taken into consideration, and these documents are classified into a certain document group. Since the probability of being processed is obtained, it is possible to classify the document according to the content of the sentence.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の原理を説明するための図である。FIG. 1 is a diagram for explaining the principle of the present invention.

【図2】本発明の原理構成図である。FIG. 2 is a principle configuration diagram of the present invention.

【図3】本発明の一実施例の文書分類装置の構成図であ
る。
FIG. 3 is a configuration diagram of a document classification device according to an embodiment of the present invention.

【図4】本発明の一実施例の分類確率蓄積時の処理を示
すフローチャートである。
FIG. 4 is a flowchart showing a process at the time of accumulating classification probabilities according to an embodiment of the present invention.

【図5】本発明の一実施例の分類確率算出時の処理を示
すフローチャートである。
FIG. 5 is a flowchart showing a process when calculating a classification probability according to an embodiment of the present invention.

【図6】本発明の一実施例の分類確率算出部の詳細な動
作を説明するためのフローチャートである。
FIG. 6 is a flowchart illustrating a detailed operation of a classification probability calculation unit according to an exemplary embodiment of the present invention.

【図7】本発明の一実施例の文書入力部に入力される文
書の例を示す図である。
FIG. 7 is a diagram showing an example of a document input to the document input unit according to the embodiment of the present invention.

【図8】本発明の一実施例の形態素解析結果を示す図で
ある。
FIG. 8 is a diagram showing a morphological analysis result according to an embodiment of the present invention.

【図9】本発明の一実施例の隣接単語及び隣接3単語の
例を示す図である。
FIG. 9 is a diagram showing an example of an adjacent word and three adjacent words according to an embodiment of the present invention.

【図10】本発明の一実施例の隣接3単語の頻度情報収
集例を示す図である。
FIG. 10 is a diagram showing an example of collecting frequency information of adjacent three words according to an embodiment of the present invention.

【図11】本発明の一実施例の各文書に対する確率付与
例を示す図である。
FIG. 11 is a diagram showing an example of assigning a probability to each document according to an embodiment of the present invention.

【符号の説明】 1 文書入力部 2 形態素解析部 3 分類項目抽出部 4 項目別確率算出部 5 分類確率蓄積部 6 文書入力部 7 形態素解析部 8 分類項目抽出部 9 分類確率抽出部 10 分類確率算出部 11 分類判定部 12 分類結果出力部 13 日本語辞書 14 確率蓄積装置 41 分類頻度算出部 42 文書分類確率計算部 100 分類確率算出・蓄積手段 101 第1の文書入力手段 102 第1の形態素解析手段 103 第1の分類項目抽出手段 104 分類頻度計算手段 105 文書分類確率計算手段 106 分類確率蓄積手段 200 分類確率参照・算出手段 201 第2の文書入力手段 202 第2の形態素解析手段 203 第2の分類項目抽出手段 204 分類確率抽出手段 205 分類確率算出手段 206 分類判定手段 207 分類結果出力手段[Explanation of symbols] 1 document input unit 2 morphological analysis unit 3 classification item extraction unit 4 item-wise probability calculation unit 5 classification probability accumulation unit 6 document input unit 7 morphological analysis unit 8 classification item extraction unit 9 classification probability extraction unit 10 classification probability Calculation unit 11 Classification determination unit 12 Classification result output unit 13 Japanese dictionary 14 Probability accumulation device 41 Classification frequency calculation unit 42 Document classification probability calculation unit 100 Classification probability calculation / accumulation unit 101 First document input unit 102 First morpheme analysis Means 103 First classification item extraction means 104 Classification frequency calculation means 105 Document classification probability calculation means 106 Classification probability accumulation means 200 Classification probability reference / calculation means 201 Second document input means 202 Second morpheme analysis means 203 Second Classification item extraction means 204 Classification probability extraction means 205 Classification probability calculation means 206 Classification determination means 207 Classification results Output means

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 利用者により入力された文書を、予め蓄
積されている文書の分類候補の中から尤も適切なものを
選択する文書分類方法において、 入力された文書を予め分類された文書群に分類し、 前記文書の分類時に文書中に含まれる単語が前記文書に
含まれる文書分類確率を求める際に、該単語の確率のみ
ならず、該単語の隣接単語間の関係を取得して、該文書
分類確率を算出することを特徴とする請求項1記載の文
書分類方法。
1. A document classification method for selecting an appropriate document from among document candidates stored in advance for a document input by a user, wherein the input document is classified into a pre-classified document group. When categorizing and determining the document classification probability that a word included in the document is included in the document when classifying the document, not only the probability of the word but also the relationship between adjacent words of the word are acquired, and The document classification method according to claim 1, wherein a document classification probability is calculated.
【請求項2】 前記文書を分類する際に、 前記文書分類確率算出用に、予め分類された文書を読み
込み、 読み込んだ文書内の文章を形態素解析し、 形態素解析により分割された単語から分類確率算出時に
用いる連続するn(nは自然数)個の単語の文書の分類
項目として抽出し、 抽出した各分類項目毎の各々に対して文書が全分類の中
にある分類に分類される頻度を計算し、 計算された頻度から、各分類項目が文書を分類する確率
を計算し、 計算された確率を文書分類用に蓄積し、 新たに分類すべき文書が入力された時に、入力された文
書内の文章を形態素解析し、 形態素解析された単語を用いて、分類項目において連続
するn個の単語列を抽出し、 抽出した単語列に対して、予め蓄積しておいた連続する
n個の単語の中で一致するところの文書がある分類に属
する分類確率を抽出し、 抽出した分類項目の分類確率を用いて、文書がある分類
に対して分類される確率を個別に算出し、 算出された分類確率のうち、最も確率の高いものから順
に前記文書の分類結果として決定し、 決定された文書を分類結果として表示する請求項1記載
の文書分類方法。
2. When classifying the documents, in order to calculate the document classification probability, a document classified in advance is read, a sentence in the read document is morphologically analyzed, and a classification probability is calculated from words divided by the morphological analysis. Extracted as a classification item of a document of consecutive n (n is a natural number) words used at the time of calculation, and for each extracted classification item, calculate the frequency with which the document is classified into classifications among all classifications Then, from the calculated frequency, the probability that each classification item classifies the document is calculated, the calculated probability is accumulated for document classification, and when the document to be classified is newly input, Morphological analysis is performed on the sentence of, and n consecutive word strings in the classification items are extracted using the morphologically analyzed words, and the consecutive n words accumulated in advance for the extracted word string Match in The classification probabilities that belong to a certain category of each document are extracted, and the probabilities that the documents are classified to a certain category are individually calculated using the classification probabilities of the extracted classification items. Among the calculated classification probabilities, The document classification method according to claim 1, wherein the document having the highest probability is determined in order as the classification result of the document, and the determined document is displayed as the classification result.
【請求項3】 文書の分類結果を決定する際に、 算出した前記分類確率のうち、予め設定した閾値を越え
る文書を分類結果として決定する請求項2記載の文書分
類方法。
3. The document classification method according to claim 2, wherein when the classification result of the document is determined, a document out of the calculated classification probabilities that exceeds a preset threshold value is determined as the classification result.
【請求項4】 利用者により入力された文書を、予め蓄
積されている文書の分類候補の中から尤も適切なものを
選択する文書分類装置において、 入力された文書を予め分類された文書群に分類する手段
と、 前記文書の分類時に文書中に含まれる単語が前記文書に
含まれる文書分類確率を求める際に、該単語の確率のみ
ならず、該単語の隣接単語間の関係を取得して、該文書
分類確率を算出する手段を有することを特徴とする文書
分類装置。
4. A document classification device for selecting an appropriate document from among document classification candidates stored in advance for a document input by a user, and converting the input document into a pre-classified document group. A means for classifying, when obtaining a document classification probability that a word included in a document is included in the document when classifying the document, not only the probability of the word but also the relationship between adjacent words of the word are acquired. A document classification device, comprising: means for calculating the document classification probability.
【請求項5】 入力された文書を分類する場合に、 文書分類確率算出用に予め文書をメモリに読み込む第1
の文書入力手段と、 前記第1の文書入力手段から読み込んだ文書内の文章を
単語毎に分割する第1の形態素解析手段と、 前記第1の形態素解析手段により分割した単語から分類
確率算出時に用いる連続するn(nは自然数)個の単語
を文書の分類項目として抽出する第1の分類項目抽出手
段と、 前記第1の分類項目抽出手段により抽出した各分類項目
毎に、各々に対して文書が全分類の中のある分類に分類
される頻度を計算する分類頻度計算手段と、 前記分類頻度計算手段により計算した頻度から、各分類
項目が文書を分類する確率を計算する文書分類確率計算
手段と、 前記文書分類確率計算手段により計算した確率を文書分
類用に蓄積しておく分類確率蓄積手段とを、用いる分類
確率算出・蓄積手段と、 新たに分類すべき文書が入力された場合に、 新たに分類すべき前記文書を読み込む第2の文書入力手
段と、 前記第1の文書入力手段から入力された前記文書内の文
書を単語毎に分割する第2の形態素解析手段と、 前記第2の形態素解析手段により分割された単語を用い
て連続するn個の単語列を抽出する第2の分類項目抽出
手段と、 前記分類確率蓄積手段を参照して連続するn個の単語の
中で一致する文書がある分類に属する分類確率を抽出す
る分類確率抽出手段と、 前記分類確率抽出手段により抽出した分類項目別の前記
分類確率を用いて、前記文書がある分類に対して分類さ
れる確率を個別に算出する分類確率算出手段と、 前記分類確率算出手段により算出した分類確率のうち、
最も確率の高いものから順に前記文書の分類結果として
決定する分類判定手段と、 前記分類判定手段により決定した文書を分類結果として
表示する分類結果出力手段とを、用いる分類確率参照・
算出手段とを有する請求項4記載の文書分類装置。
5. When classifying an input document, first reading the document into a memory for calculating a document classification probability.
Document input means, first morpheme analysis means for dividing the sentence in the document read from the first document input means into words, and when the classification probability is calculated from the words divided by the first morpheme analysis means. First classification item extracting means for extracting consecutive n words (n is a natural number) to be used as classification items of the document, and for each classification item extracted by the first classification item extracting means, Classification frequency calculation means for calculating the frequency of classification of a document into a certain classification among all classifications, and document classification probability calculation for calculating the probability that each classification item classifies a document from the frequencies calculated by the classification frequency calculation means Means and a classification probability accumulating means for accumulating the probabilities calculated by the document classification probability calculating means for document classification, and inputting a document to be newly classified. A second document input means for reading the document to be newly classified, and a second morphological analysis means for dividing the document in the document input from the first document input means into words. A second classification item extracting means for extracting a continuous word string of n words using the words divided by the second morpheme analyzing means; and a continuous n word referring to the classification probability accumulating means. A classification probability extraction unit that extracts a classification probability that a matching document belongs to a certain classification and a classification probability for each classification item extracted by the classification probability extraction unit are used to classify the document with respect to a certain classification. Among the classification probabilities calculated by the classification probability calculation means and the classification probability calculation means for individually calculating the probability
A classification probability reference unit that uses a classification determination unit that determines the classification result of the document in order from the highest probability and a classification result output unit that displays the documents determined by the classification determination unit as the classification result.
The document classification device according to claim 4, further comprising calculation means.
【請求項6】 前記分類判定手段は、 前記文書の分類結果を決定する際に、算出した分類確率
のうち、予め設定した閾値を越える文書を分類結果とし
て決定する請求項5記載の文書分類装置。
6. The document classification apparatus according to claim 5, wherein the classification determination unit determines, as a classification result, a document that exceeds a preset threshold value among the calculated classification probabilities when determining the classification result of the document. .
JP7093985A 1995-04-19 1995-04-19 Method and device for sorting document Pending JPH08287097A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7093985A JPH08287097A (en) 1995-04-19 1995-04-19 Method and device for sorting document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7093985A JPH08287097A (en) 1995-04-19 1995-04-19 Method and device for sorting document

Publications (1)

Publication Number Publication Date
JPH08287097A true JPH08287097A (en) 1996-11-01

Family

ID=14097703

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7093985A Pending JPH08287097A (en) 1995-04-19 1995-04-19 Method and device for sorting document

Country Status (1)

Country Link
JP (1) JPH08287097A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010191710A (en) * 2009-02-18 2010-09-02 Yahoo Japan Corp Genre determination dictionary creation device, and genre determination device and method
JP6199461B1 (en) * 2016-09-13 2017-09-20 ヤフー株式会社 Information processing apparatus, information processing method, and program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010191710A (en) * 2009-02-18 2010-09-02 Yahoo Japan Corp Genre determination dictionary creation device, and genre determination device and method
JP6199461B1 (en) * 2016-09-13 2017-09-20 ヤフー株式会社 Information processing apparatus, information processing method, and program
JP2018045361A (en) * 2016-09-13 2018-03-22 ヤフー株式会社 Information processing device, information processing method, and program

Similar Documents

Publication Publication Date Title
KR100816934B1 (en) Clustering system and method using search result document
CN109471942B (en) Chinese comment emotion classification method and device based on evidence reasoning rule
CN110516074B (en) Website theme classification method and device based on deep learning
Probierz et al. Rapid detection of fake news based on machine learning methods
US20080052289A1 (en) System and method for the triage and classification of documents
WO2022121163A1 (en) User behavior tendency identification method, apparatus, and device, and storage medium
JPH07114572A (en) Document classifying device
KR102015218B1 (en) Method and apparatus for text classification using machine learning
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
CN110659367B (en) Text classification number determination method and device and electronic equipment
CN115098690B (en) Multi-data document classification method and system based on cluster analysis
Keya et al. Fake news detection based on deep learning
CN117454220A (en) Data hierarchical classification method, device, equipment and storage medium
CN110968693A (en) Multi-label text classification calculation method based on ensemble learning
CN112685374A (en) Log classification method and device and electronic equipment
Mohsen et al. A performance comparison of machine learning classifiers for Covid-19 Arabic Quarantine tweets sentiment analysis
Haque et al. Hadith authenticity prediction using sentiment analysis and machine learning
CN111708865B (en) Technology forecasting and patent early warning analysis method based on improved XGboost algorithm
JPH11120183A (en) Method and device for extracting keyword
JP2000250919A (en) Document processor and its program storage medium
CN112861956A (en) Water pollution model construction method based on data analysis
JPH08287097A (en) Method and device for sorting document
JPH1115848A (en) Information sorting device, document information sorting method and recording medium to be used for execution of the method
JP7226783B2 (en) Information processing system, information processing method and program
JPH1139313A (en) Automatic document classification system, document classification oriented knowledge base creating method and record medium recording its program