JP2978044B2 - Document classification device - Google Patents

Document classification device

Info

Publication number
JP2978044B2
JP2978044B2 JP5259809A JP25980993A JP2978044B2 JP 2978044 B2 JP2978044 B2 JP 2978044B2 JP 5259809 A JP5259809 A JP 5259809A JP 25980993 A JP25980993 A JP 25980993A JP 2978044 B2 JP2978044 B2 JP 2978044B2
Authority
JP
Japan
Prior art keywords
document
vector
classification
word
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP5259809A
Other languages
Japanese (ja)
Other versions
JPH07114572A (en
Inventor
夏樹 湯浅
徹 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Consejo Superior de Investigaciones Cientificas CSIC
Original Assignee
Consejo Superior de Investigaciones Cientificas CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Consejo Superior de Investigaciones Cientificas CSIC filed Critical Consejo Superior de Investigaciones Cientificas CSIC
Priority to JP5259809A priority Critical patent/JP2978044B2/en
Publication of JPH07114572A publication Critical patent/JPH07114572A/en
Application granted granted Critical
Publication of JP2978044B2 publication Critical patent/JP2978044B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、文書を保存/自動分類
する文書自動分類機やワープロ/ファイリングシステム
などに利用される文書分類装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document classification device used for a document automatic classification machine for storing / automatically classifying documents and a word processor / filing system.

【0002】[0002]

【従来の技術】従来、文書の自動分類は困難であり、ユ
ーザが手動で分類を行なったり、文書中のキーワードを
抽出し、あらかじめ作成されたシソーラスを用いて分類
を行なっていた。また自動分類と称しているシステムで
も分類のための基本的なデータは基本例文などの形で人
手によって入力しておく必要があった。
2. Description of the Related Art Conventionally, it has been difficult to automatically classify documents, and a user manually classifies documents or extracts keywords in a document and classifies them using a thesaurus created in advance. Even in a system called automatic classification, basic data for classification had to be manually input in the form of a basic example sentence or the like.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、このよ
うな分類では人手による作業がボトルネックなるため、
大量の文書の分類作業は大変困難である。
However, in such a classification, manual work becomes a bottleneck.
Classifying a large number of documents is very difficult.

【0004】本発明は以上の事情を考慮してなされたも
ので、人手を介することなく自動的に文書の分類を行な
う文書分類装置を提供することを目的とする。
[0004] The present invention has been made in view of the above circumstances, and has as its object to provide a document classification device that automatically classifies documents without manual intervention.

【0005】[0005]

【課題を解決するための手段】請求項1に係る発明は、
文書分類装置において、文書データを記憶する記憶部
と、文書データを解析する文書解析部と、文書中の単語
間の共起関係を用いて各単語の特徴を表現する特徴ベク
トルを自動的に生成する単語ベクトル生成部と、その特
徴ベクトルを記憶する単語ベクトル記憶部と、文書内に
含まれている単語の特徴ベクトルから文書の特徴ベクト
ルを生成する文書ベクトル生成部と、その特徴ベクトル
を記憶する文書ベクトル記憶部と、文書の特徴ベクトル
間の類似度を利用して文書を分類する分類部と、その分
類した結果を記憶する結果記憶部と、特徴ベクトル生成
時に使用する単語が登録されている特徴ベクトル生成用
辞書とを備え、大量の文書ファイル中の単語間の共起関
係を用いて、各単語の特徴を表現する特徴ベクトルを自
動的に生成し、文書を自動的に分類することができるこ
とを特徴とする。
The invention according to claim 1 is
In the document classification device, a storage unit that stores the document data, a document analysis unit that analyzes the document data, and automatically generates a feature vector that expresses a feature of each word using a co-occurrence relationship between words in the document. Word vector generation unit, a word vector storage unit that stores the feature vector, a document vector generation unit that generates a document feature vector from the word feature vector included in the document, and stores the feature vector A document vector storage unit, a classification unit for classifying documents using similarity between the feature vectors of the documents, a result storage unit for storing the results of the classification, and words used when generating feature vectors are registered. A dictionary for feature vector generation, and automatically generates feature vectors representing the features of each word using co-occurrence relationships between words in a large number of document files, Automatically, characterized in that can be classified.

【0006】また、請求項2に係る発明は、上記構成に
加え、結果記憶部に記憶されている分類結果を利用して
分類時に有用な単語を選出する有用単語選出部を更に備
え、大量の文書ファイルを分類した後でその分類された
各分類群ごとに単語の出現率を調べることで、分類に有
用な単語を選出し、分類に有用な単語のみを用いること
で分類の精度を向上させることができることを特徴とす
る。
The invention according to claim 2 further comprises, in addition to the above configuration, a useful word selecting section for selecting useful words at the time of classification by using the classification result stored in the result storage section. After classifying the document file, by examining the occurrence rate of words for each classified group, words useful for classification are selected, and classification accuracy is improved by using only words useful for classification. It is characterized by being able to.

【0007】また、請求項3に係る発明は、上記構成に
加え、結果記憶部に記憶されている分類結果を利用して
各分類群を代表する特徴ベクトルを求める代表ベクトル
生成部と、代表ベクトル生成部で生成された代表ベクト
ルを記憶する代表ベクトル記憶部を更に備え、大量の文
書ファイルを分類した後でその分類された各分類群ごと
の単語や文書の特徴ベクトルを用いて、その分野を代表
する特徴ベクトルを求めることができることを特徴とす
る。
According to a third aspect of the present invention, in addition to the above configuration, a representative vector generating unit for obtaining a feature vector representing each taxonomic group using the classification result stored in the result storage unit, The apparatus further includes a representative vector storage unit that stores the representative vector generated by the generation unit, and after classifying a large number of document files, uses the feature vector of each classified group and the feature vector of the document to classify the field. It is characterized in that a representative feature vector can be obtained.

【0008】[0008]

【作用】請求項1での単語の特徴ベクトルの学習時の作
用を説明する。文書記憶部に記憶されている大量の文書
ファイルの内容が文書解析部に渡されて文の解析(形態
素解析など)が行なわれ、単語ベクトル生成部で単語の
共起関係や出現頻度等を分析して各単語の特徴ベクトル
を生成する。こうして生成された単語の特徴ベクトルは
単語ベクトル記憶部に記憶される。このようにして単語
の特徴ベクトルの学習が行なわれる。特徴ベクトルを生
成する単語は特徴ベクトル生成用辞書に登録されている
単語に制限することで特徴ベクトルの記憶空間が巨大に
なりすぎるのを防ぐ。
The operation at the time of learning the feature vector of a word according to claim 1 will be described. The contents of a large amount of document files stored in the document storage unit are passed to the document analysis unit and sentence analysis (morphological analysis, etc.) is performed, and the word vector generation unit analyzes the co-occurrence relationship and appearance frequency of words. To generate a feature vector for each word. The feature vector of the word thus generated is stored in the word vector storage. In this way, the learning of the word feature vector is performed. By limiting the words for generating feature vectors to words registered in the feature vector generation dictionary, the storage space for feature vectors is prevented from becoming too large.

【0009】請求項1での文書の分類時の作用を説明す
る。文章の分類を行なう時には、文書記憶部に記憶され
ている文書ファイルの内容が文書解析部に渡されて文の
解析(形態素解析など)が行なわれ、文書ベクトル生成
部では文書解析部で文の解析をした時に出現する単語の
特徴ベクトルを単語ベクトル記憶部を参照して求め、文
書に含まれる単語の特徴ベクトルから文書の特徴ベクト
ルを生成する。こうして生成された文書の特徴ベクトル
は文書ベクトル記憶部に記憶され、この文書の特徴ベク
トル間の類似度によって分類部で文書を分類する。この
分類結果は結果記憶部に記憶される。
The operation at the time of classifying documents according to claim 1 will be described. When classifying sentences, the contents of the document file stored in the document storage unit are passed to the document analysis unit to analyze the sentence (morphological analysis, etc.), and the document vector generation unit analyzes the sentence in the document analysis unit. The feature vector of the word that appears when the analysis is performed is obtained by referring to the word vector storage unit, and the feature vector of the document is generated from the feature vector of the word included in the document. The document feature vector generated in this way is stored in the document vector storage unit, and the classification unit classifies the document based on the similarity between the feature vectors of the document. This classification result is stored in the result storage unit.

【0010】請求項2に記載の構成では、大量の文書の
分類を実行した後、有用単語選出部にて、結果記憶部に
記憶されている分類結果を利用して分類時に有用な単語
を選出する。有用単語選出部によって選出された単語だ
けを特徴ベクトル生成用辞書に登録してから再び単語の
特徴ベクトルの学習を行なわせ、そうして得られた単語
の特徴ベクトルを用いて再び分類を行なうことによっ
て、請求項1の構成よりも特徴ベクトルの記憶空間を削
減したり、また分類の精度をあげることもできる。
According to the second aspect of the present invention, after classifying a large number of documents, a useful word selecting unit selects useful words at the time of classification by using the classification results stored in the result storage unit. I do. Registering only words selected by the useful word selection unit in the dictionary for generating feature vectors, and then learning the word feature vectors again, and re-classifying using the obtained word feature vectors Accordingly, it is possible to reduce the storage space of the feature vector as compared with the configuration of the first aspect, and to increase the accuracy of classification.

【0011】請求項3に記載の構成では、大量の文書の
分類を実行した後、代表ベクトル生成部にて、結果記憶
部に記憶されている分類結果を利用して各分類群を代表
する特徴ベクトルを求める。代表ベクトル生成部で生成
された代表ベクトルは代表ベクトル記憶部に記憶され
る。一度各分類群の代表ベクトルを生成してしまえば、
新たな文書データを分類する時には、その文書の特徴ベ
クトルと各分類群の代表ベクトルとの比較を行なうだけ
でその文書がどの分類群に属すかを判定できる。
According to a third aspect of the present invention, after a large number of documents are classified, the representative vector generation unit uses the classification results stored in the result storage unit to represent each classification group. Find a vector. The representative vector generated by the representative vector generation unit is stored in the representative vector storage unit. Once you have generated a representative vector for each taxon,
When classifying new document data, it is possible to determine to which classification group the document belongs simply by comparing the feature vector of the document with the representative vector of each classification group.

【0012】[0012]

【実施例】以下、本発明の好適な実施例を図面に基づき
詳述する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Preferred embodiments of the present invention will be described below in detail with reference to the drawings.

【0013】請求項1に係る発明の一実施例を図1に示
す。文書分類装置は、文書データを記憶する記憶部10
1と、文書データを解析する文書解析部102と、文書
中の単語間の共起関係を用いて各単語の特徴を表現する
特徴ベクトルを自動的に生成する単語ベクトル生成部1
03と、その特徴ベクトルを記憶する単語ベクトル記憶
部104と、文書内に含まれている単語の特徴ベクトル
から文書の特徴ベクトルを生成する文書ベクトル生成部
105と、その特徴ベクトルを記憶する文書ベクトル記
憶部106と、文書の特徴ベクトル間の類似度を利用し
て文書を分類する分類部107と、その分類した結果を
記憶する結果記憶部108と、特徴ベクトル生成時に使
用する単語が登録されている特徴ベクトル生成用辞書1
09とから構成される。
FIG. 1 shows an embodiment of the first aspect of the present invention. The document classification device includes a storage unit 10 for storing document data.
1, a document analysis unit 102 that analyzes document data, and a word vector generation unit 1 that automatically generates a feature vector that expresses a feature of each word using a co-occurrence relationship between words in the document.
03, a word vector storage unit 104 that stores the feature vector, a document vector generation unit 105 that generates a document feature vector from the word feature vector included in the document, and a document vector that stores the feature vector A storage unit 106, a classification unit 107 for classifying documents using similarity between the feature vectors of the documents, a result storage unit 108 for storing the results of the classification, and words used when generating feature vectors are registered. Dictionary for generating feature vectors 1
09.

【0014】一般に通常の文書に使用されている単語の
数は非常に多いため、特徴ベクトルを作成する際に用い
る単語を制限しておく方が現実的である。このために用
いるのが特徴ベクトル生成用辞書109で、ここに登録
されている単語のみを用いて単語の特徴ベクトルを作成
することで、特徴ベクトルの記憶空間の巨大化を抑える
ことができる。
In general, the number of words used in an ordinary document is very large, and it is more realistic to limit the words used when creating a feature vector. The feature vector generation dictionary 109 is used for this purpose. By creating a feature vector of a word using only the words registered in the dictionary 109, it is possible to suppress an increase in the storage space of the feature vector.

【0015】図2は単語の特徴ベクトルの学習時のシス
テム構成を示し、単語の特徴ベクトルの学習時には、学
習用の大量の文書データ文書記憶部101に記憶させて
おき、文書記憶部101から読み出した文書データは記
事、段落、一文等の適当な塊ごとに文書解析部102に
読み込まれ、文書解析部102でその文書データを解析
して単語が抽出される。ここで抽出された単語列をもと
にして単語ベクトル生成部103で単語の特徴ベクトル
を生成し、単語ベクトル生成部103で生成された単語
の特徴ベクトルは単語ベクトル記憶部104に記憶され
る。こうして単語の特徴ベクトルを学習する。
FIG. 2 shows a system configuration at the time of learning a word feature vector. At the time of learning a word feature vector, a large amount of document data for learning is stored in the document storage unit 101 and read out from the document storage unit 101. The document data is read into the document analysis unit 102 for each appropriate chunk such as an article, a paragraph, and a sentence, and the document analysis unit 102 analyzes the document data to extract words. A word feature vector is generated by the word vector generation unit 103 based on the word string extracted here, and the word feature vector generated by the word vector generation unit 103 is stored in the word vector storage unit 104. Thus, the feature vector of the word is learned.

【0016】図3は文書分類時のシステム構成を示し、
文書の分類をする時には、分類する文書のデータを文書
記憶部101に記憶させておき、文書記憶部101から
読み出した文書データは分類を行なわせたい単位(例え
ば記事単位)ごとに文書解析部102に読み込まれ、文
書解析部102でその文書データの解析をして単語が抽
出される。ここで抽出された単語の特徴ベクトルを10
4の単語ベクトル記憶部の内容を参照して求める。通常
は文書データの一つの単位(例えば一つの記事)から複
数の単語が抽出されるがこの時には求められるすべての
単語の特徴ベクトルの値を平均化することで文書の特徴
ベクトルが計算される。この時、単純に平均化するので
はなく、各特徴ベクトルをその出現頻度の逆数に応じて
重み付けをしてから(例えば、大量の記事からその単語
の出現している記事数を調査し、log(全記事数/そ
の単語が出現している記事数)をその単語の特徴ベクト
ルに掛けてから)平均化するとより良い値が得られる場
合がある。
FIG. 3 shows a system configuration at the time of document classification.
When classifying a document, the data of the document to be classified is stored in the document storage unit 101, and the document data read from the document storage unit 101 is stored in the document analysis unit 102 for each unit (eg, article unit) to be classified. And the document analysis unit 102 analyzes the document data to extract words. The extracted feature vector of the word is 10
4 with reference to the contents of the word vector storage unit. Usually, a plurality of words are extracted from one unit (eg, one article) of the document data. At this time, the feature vector of the document is calculated by averaging the values of the feature vectors of all the words obtained. At this time, instead of simply averaging, each feature vector is weighted according to the reciprocal of its appearance frequency (for example, the number of articles in which the word appears from a large number of articles is investigated, and log A better value may be obtained by averaging (after multiplying the total number of articles / the number of articles in which the word appears) by the feature vector of the word.

【0017】文書の特徴ベクトルが求まったら従来のク
ラスタリングの手法を適用することで文書の分類を行な
うことができる。これは例えば文書の特徴ベクトル間の
距離が近い文書同士は同じ分野に属するとみなせば良
い。
When the feature vector of the document is obtained, the document can be classified by applying the conventional clustering technique. For example, it may be considered that documents having a short distance between the feature vectors of the documents belong to the same field.

【0018】また、人間が各分類群ごとに典型的な文書
を選び、その文書から抽出される単語の特徴ベクトルか
らその分類群の仮の代表ベクトルを生成しておき、文書
記憶部101から読み込まれる文書の特徴ベクトルがど
の分類群の仮の代表ベクトルに近いかで文書を分類する
こともできる。このような分類手法でも文書記憶部10
1から大量に文書データを読み込ませれば仮の代表ベク
トルを人間が選んでいるという誤差の影響が少なくな
り、最終的には各分野毎のかなり一般的な代表ベクトル
を生成することができる。
Further, a human selects a typical document for each taxonomy, generates a temporary representative vector of the taxonomy from a feature vector of a word extracted from the document, and reads it from the document storage unit 101. Documents can also be classified according to which taxonomic feature vector of the document to be read is close to a temporary representative vector of which taxonomy. Even with such a classification method, the document storage unit 10
If a large amount of document data is read from one, the influence of an error that a human selects a temporary representative vector is reduced, and a fairly general representative vector for each field can be finally generated.

【0019】では具体的に単語の特徴ベクトルの生成法
を説明する。単語の特徴ベクトルは、一塊の文書データ
の中に含まれている単語の出現頻度分布に、その単語の
その一塊の文書データ中での出現頻度を掛けたものを加
算していくことによって得られる。具体的な例で説明す
る。
Now, a method for generating a word feature vector will be specifically described. The feature vector of a word is obtained by adding a value obtained by multiplying the frequency of appearance of a word contained in a piece of document data by the frequency of occurrence of the word in the piece of document data. . A specific example will be described.

【0020】例文A「アメリカ政府が先進主要国にココ
ム規制の抜本的な見直しを提案してきた。」 例文B「規制対象国が兵器の製造につながる工業製品の
輸出を規制することを条件に、ココムの規制品目を大幅
に削減する意向のようだ。」 という文書データからどのように単語の特徴ベクトルを
作成するかを説明する。ここでは、文書データは「一
文」という単位で読み込まれることとするが、これは一
記事など他の単位でも構わない。
Example A: "The US government has proposed a drastic review of Cocom regulations to major developed nations." Example B: Provided that regulated countries regulate the export of industrial products that lead to the manufacture of weapons, It seems that Kocom intends to significantly reduce the list of regulated items. " Here, the document data is read in units of “one sentence”, but this may be another unit such as one article.

【0021】また特徴ベクトルの次元数が21次元(特
徴ベクトル生成用辞書に登録されている単語数が21)
で各要素が「アメリカ、政府、先進、主要、国、ココ
ム、規制、抜本的、見直し、提案、対象、兵器、製造、
工業、製品、輸出、条件、品目、大幅、削減、意向」と
いう単語に対応しているとする。
The number of dimensions of the feature vector is 21 (the number of words registered in the feature vector generation dictionary is 21)
Each element is "U.S., government, advanced, major, national, cocom, regulation, drastic, review, proposal, target, weapons, manufacturing,
Industry, product, export, condition, item, significant, reduction, intention ".

【0022】このような条件のもとで、例文Aが文書記
憶部101から読み込まれると、文書解析部102が解
析されて「アメリカ、政府、先進、主要、国、ココム、
規制、抜本的、見直し、提案」が抽出される。この時単
語ベクトル生成部103ではこれらの単語すべての特徴
ベクトルのこれらの単語に対応する要素に1を加算す
る。すると、「アメリカ」「政府」等、例文Aに出現す
る単語の特徴ベクトルには(1,1,1,1,1,1,
1,1,1,1,0,0,0,0,0,0,0,0,
0,0,0)を加算する。これを図解したものが図8で
ある。
Under these conditions, when the example sentence A is read from the document storage unit 101, the document analysis unit 102 analyzes the sentence A and reads "America, Government, Advanced, Major, Country, Cocom,
Regulations, drastic, reviews, proposals "are extracted. At this time, the word vector generation unit 103 adds 1 to the elements corresponding to these words in the feature vectors of all these words. Then, the feature vectors of words appearing in the example sentence A, such as “America” and “Government,” are (1,1,1,1,1,1,1).
1,1,1,1,0,0,0,0,0,0,0,0,
(0,0,0). FIG. 8 illustrates this.

【0023】次に例文Bが文書記憶部101から読み込
まれると、文書解析部102で解析されて、「規制、対
象、国、兵器、製造、工業、製品、輸出、規制、条件、
ココム、規制、品目、大幅、削減、意向」が抽出され
る。
Next, when the example sentence B is read from the document storage unit 101, it is analyzed by the document analysis unit 102 and "regulation, target, country, weapon, manufacture, industry, product, export, regulation, condition,
COCOM, regulation, item, significant, reduction, intention "are extracted.

【0024】これから得られる単語出現頻度分布は
(0,0,0,0,1,1,3,0,0,0,1,1,
1,1,1,1,1,1,1,1,1)である。「規
制」は3回出現しているので、この単語出現頻度分布を
3倍したベクトルである(0,0,0,0,3,3,
9,0,0,0,3,3,3,3,3,3,3,3,
3,3,3)を「規制」の特徴ベクトルに加算し、「対
象」「国」等、例文Bに1回しか出現しない単語の特徴
ベクトルには(0,0,0,0,1,1,3,0,0,
0,1,1,1,1,1,1,1,1,1,1,1)を
加算する。これを図解したものが図9である。
The word appearance frequency distribution obtained from this is (0,0,0,0,1,1,3,0,0,0,1,1,1).
1,1,1,1,1,1,1,1,1,1). Since "Regulation" appears three times, it is a vector that triples this word appearance frequency distribution (0, 0, 0, 0, 3, 3, 3).
9,0,0,0,3,3,3,3,3,3,3,3
(3,3,3) is added to the feature vector of “regulation”, and the feature vectors of words that appear only once in example sentence B, such as “target” and “country”, are (0,0,0,0,1,1, 1,3,0,0,
0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1). FIG. 9 illustrates this.

【0025】なお、このように常に整数を加算する方法
では文の長さによって加算するベクトルの大きさが変化
してしまうので、加算するベクトルの絶対値を1に正規
化したり、出現頻度分布のベクトルの絶対値を1に正規
化してから出現数に比例した値を掛けた後に加算する方
法なども考えられる。
Since the size of a vector to be added changes depending on the length of a sentence in the method of always adding integers, the absolute value of the vector to be added is normalized to 1 or the frequency A method of normalizing the absolute value of the vector to 1, multiplying the value by a value proportional to the number of appearances, and then adding the values is also conceivable.

【0026】そして最終的に得られた特徴ベクトルは、
絶対値を1に正規化しておく。
The finally obtained feature vector is
The absolute value is normalized to 1.

【0027】こうして得られた単語の特徴ベクトルは単
語ベクトル記憶部104に記憶され、文書の分類時に利
用される。
The word feature vector thus obtained is stored in the word vector storage unit 104, and is used at the time of document classification.

【0028】次に、文書分類時の文書の特徴ベクトル生
成の処理を、具体例として以下の例文Cが読み込まれた
時をあげて説明する。
Next, the process of generating a feature vector of a document at the time of document classification will be described as a specific example when the following example sentence C is read.

【0029】例文C「アメリカ政府は兵器の削減を提案
した。」 例文Cが文書記憶部101から読み込まれると、文書解
析部102で解析されて「アメリカ、政府、兵器、削
減、提案」が抽出される。すると文書ベクトル生成部1
05では単語ベクトル記憶部104の内容を参照して
「アメリカ」「政府」等、例文Cに出現する単語の特徴
ベクトルを加算していき、例文Cの特徴ベクトルとして
(3,3,3,3,5,5,9,3,3,3,2,2,
2,2,2,2,2,2,2,2,2)を得る。これを
図解したものが図10である。図10ではわかりやすさ
を優先するためにベクトルの正規化を行なっていない
が、実際の処理では加算する前に各単語の特徴ベクトル
の絶対値を1に正規化してから加算を行なう。得られた
特徴ベクトルは文書ベクトル記憶群106に記憶され
る。
Example sentence C "The US government has proposed reduction of weapons." When the example sentence C is read from the document storage unit 101, it is analyzed by the document analysis unit 102 and "USA, government, weapons, reduction, proposal" is extracted. Is done. Then, the document vector generation unit 1
In step 05, the feature vectors of words appearing in the example sentence C, such as "America" and "government", are added with reference to the contents of the word vector storage unit 104, and (3, 3, 3, 3 , 5,5,9,3,3,3,2,2
2, 2, 2, 2, 2, 2, 2, 2, 2). FIG. 10 illustrates this. Although vector normalization is not performed in FIG. 10 in order to give priority to clarity, in actual processing, the absolute value of the feature vector of each word is normalized to 1 before addition, and then addition is performed. The obtained feature vector is stored in the document vector storage group 106.

【0030】次に、分類時に分類部107にて文書の特
徴ベクトルをどのように利用するのかを説明する。簡単
には、まず求まった文書の特徴ベクトルの絶対値を1に
正規化してから、K−means法などの従来からある
手法を用いて分類したり、分類群の(仮)代表ベクトル
との類似度(距離を求めたり内積を計算することによっ
て得られる)で分類すれば良いが、本手法で得られる特
徴ベクトルは「多く出現する単語に対応する要素の値が
非常に大きくなる」という特徴があるため、この特徴が
分類に悪影響を与えないように工夫した方が良い分類結
果が得られる場合が多い。例えば距離を求める場合には
要素間の差が拡大しないような計算による距離(通常は
各要素間の差の自乗和の平方根を計算するが、例えば各
要素間の差の絶対値の和を計算するなどして求めた距
離)を利用するようにしたほうが良いし、内積を求める
前に全要素をlogをとったり冪乗根をとったりしてか
ら正規化して値を均してから計算すると良い。
Next, a description will be given of how the classifying unit 107 uses the document feature vector at the time of classification. In brief, first, the absolute value of the obtained feature vector of the document is normalized to 1 and then classified using a conventional method such as the K-means method, or the similarity of the taxonomic group to the (temporary) representative vector. It is sufficient to classify by the degree (obtained by calculating the distance or calculating the inner product), but the feature vector obtained by this method has the characteristic that the value of the element corresponding to the word that appears frequently becomes very large. For this reason, it is often better to devise such a feature so that it does not adversely affect the classification. For example, when calculating the distance, calculate the distance so that the difference between the elements does not expand (usually calculate the square root of the sum of the squares of the differences between the elements. For example, calculate the sum of the absolute values of the differences between the elements) It is better to use the distance obtained by performing a calculation or the like, and before calculating the inner product, log all the elements or take the root of a power and then normalize the values to calculate the values.

【0031】分類の具体例として、分類群が3つあり、
それぞれの分類群の代表ベクトルが以下のように求めら
れていたとしよう。
As a specific example of classification, there are three classification groups.
Suppose that the representative vector of each taxon was obtained as follows.

【0032】分類群1の代表ベクトル(1,1,1,
1,0,0,0,0,0,0,0,0,0,0,0,
0,0,1,1,1,1) 分類群2の代表ベクトル(1,1,1,1,1,1,
1,1,1,1,5,5,5,5,5,5,5,5,
5,5,5) 分類群3の代表ベクトル(4,4,4,4,6,6,
6,3,3,3,1,1,1,1,1,1,1,1,
1,1,1) 類似度の尺度として、文書の特徴ベクトル、分類群の代
表ベクトル共に絶対値を1に正規化してから両者の内積
を計算し、一番大きな値をとるものが一番類似度が高い
とすると、例文Cの特徴ベクトル
The representative vector (1,1,1,1,
1,0,0,0,0,0,0,0,0,0,0,0,
0, 0, 1, 1, 1, 1) The representative vector (1,1,1,1,1,1,1,
1,1,1,1,5,5,5,5,5,5,5,5
5,5,5) Representative vector of taxon 3 (4,4,4,4,6,6,6)
6,3,3,3,1,1,1,1,1,1,1,1,1,
1,1,1) As a measure of the degree of similarity, the absolute value of both the feature vector of a document and the representative vector of a taxonomic group is normalized to 1 and then the inner product of the two is calculated. If the degree is high, the feature vector of the example sentence C

【0033】[0033]

【数1】 (Equation 1)

【0034】(3,3,3,3,5,5,9,3,3,
3,2,2,2,2,2,2,2,2,2,2,2) 分類群1の代表ベクトル
(3,3,3,3,5,5,9,3,3
3,2,2,2,2,2,2,2,2,2,2,2) Representative vector of taxon 1

【0035】[0035]

【数2】 (Equation 2)

【0036】(1,1,1,1,0,0,0,0,0,
0,0,0,0,0,0,0,0,1,1,1,1) 分類群2の代表ベクトル
(1,1,1,1,0,0,0,0,0,
0,0,0,0,0,0,0,0,1,1,1,1) Representative vector of taxon 2

【0037】[0037]

【数3】 (Equation 3)

【0038】(1,1,1,1,1,1,1,1,1,
1,5,5,5,5,5,5,5,5,5,5,5) 分類群3の代表ベクトル
(1,1,1,1,1,1,1,1,1,1,
1,5,5,5,5,5,5,5,5,5,5,5) Representative vector of taxon 3

【0039】[0039]

【数4】 (Equation 4)

【0040】(4,4,4,4,6,6,6,3,3,
3,1,1,1,1,1,1,1,1,1,1,1) なので、例文Cの特徴ベクトルと各分類群の代表ベクト
ルとの内積は分類群1との内積
(4,4,4,4,6,6,6,3,3,3
3,1,1,1,1,1,1,1,1,1,1,1,1) Therefore, the inner product of the feature vector of the example sentence C and the representative vector of each taxon is the dot product of the taxon1.

【0041】[0041]

【数5】 (Equation 5)

【0042】分類群2との内積Dot product with taxon 2

【0043】[0043]

【数6】 (Equation 6)

【0044】分類群3との内積Dot product with taxon 3

【0045】[0045]

【数7】 (Equation 7)

【0046】となり、例文Cの特徴ベクトルは分類群3
の代表ベクトルに一番近いことがわかるので、例文Cは
分類群3に分類される。これを図解したのが図11であ
る。図11も図10と同様わかりやすさを優先するため
にベクトルの正規化を行なっていないが、実際の処理で
は比較を行なう前に各ベクトルの絶対値を1に正規化し
てから比較を行なう。分類した結果は結果記憶部108
に記憶される。
The feature vector of the example sentence C is
, The example sentence C is classified into the classification group 3. This is illustrated in FIG. In FIG. 11, as in FIG. 10, the vectors are not normalized in order to give priority to simplicity. However, in the actual processing, the absolute value of each vector is normalized to 1 before comparison, and then the comparison is performed. The result of the classification is stored in the result storage unit 108.
Is stored.

【0047】次に、本発明の請求項2の一実施例を図4
に示す。ここで、符号201〜209で表されるものは
図1の符号101〜109で表されるものと夫々同じも
のである。
Next, a second embodiment of the present invention will be described with reference to FIG.
Shown in Here, those represented by reference numerals 201 to 209 are the same as those represented by reference numerals 101 to 109 in FIG.

【0048】文書分類装置は、文書データを記憶する記
憶部201と、文書データを解析する文書解析部202
と、文書中の単語間の共起関係を用いて各単語の特徴を
表現する特徴ベクトルを自動的に生成する単語ベクトル
生成部203と、その特徴ベクトルを記憶する単語ベク
トル記憶部204と、文書内に含まれている単語の特徴
ベクトルから文書の特徴ベクトルを生成する文書ベクト
ル生成部205と、その特徴ベクトルを記憶する文書ベ
クトル記憶部206と、文書の特徴ベクトル間の類似度
を利用して文書を分類する分類部207と、その分類し
た結果を記憶する結果記憶部208と、特徴ベクトル生
成時に使用する単語が登録されている特徴ベクトル生成
用辞書209と、結果記憶部208に記憶されている分
類結果を利用して分類時に有用な単語を選出する有用単
語選出部210とからなる。
The document classification device includes a storage unit 201 for storing document data, and a document analysis unit 202 for analyzing document data.
A word vector generation unit 203 that automatically generates a feature vector that expresses a feature of each word using a co-occurrence relationship between words in a document, a word vector storage unit 204 that stores the feature vector, A document vector generation unit 205 that generates a document feature vector from a feature vector of a word included in a document, a document vector storage unit 206 that stores the feature vector, and a similarity between the feature vectors of the document. A classification unit 207 for classifying documents, a result storage unit 208 for storing the classified results, a feature vector generation dictionary 209 in which words used at the time of generating feature vectors are registered, and a result storage unit 208 And a useful word selecting unit 210 for selecting a useful word at the time of classification using the classified result.

【0049】図5は学習時及び分類時のシステム構成を
示す図である。最初は請求項1の実施例と同様の方法に
よって、単語の特徴ベクトルを学習し、それをもとに大
量の文書データを分類する。分類した結果は結果記憶部
208に記憶されているが、この結果を元にして、有用
単語選出部210で有用単語の選出を行なう。これは、
分類群ごとに各単語の頻度を求め、どの分類群にも同じ
ような割合で含まれている単語を除去したり(方法1:
最高頻度と最低頻度との比がある閾値以下のものを除
去)、ある分類群にだけ高い割合で含まているものを選
出したり(方法2:最高頻度と第二位頻度との比がある
閾値以上のものを選出)する。なお、有用単語選出部2
10で選出を行なう単語は必ずしも特徴ベクトル生成用
辞書209に登録されている単語からでなくても良く、
もっと広い範囲の単語から選出を行なうことができる。
FIG. 5 is a diagram showing a system configuration at the time of learning and at the time of classification. First, a feature vector of a word is learned by the same method as in the first embodiment, and a large amount of document data is classified based on the learned feature vector. The result of the classification is stored in the result storage unit 208. Based on the result, the useful word selection unit 210 selects a useful word. this is,
The frequency of each word is obtained for each taxon, and words included in every taxon at a similar ratio are removed (method 1:
Remove those that have a ratio of the highest frequency to the lowest frequency below a certain threshold) or select those that are contained only in a certain group at a high rate (Method 2: There is a ratio between the highest frequency and the second highest frequency) Those with a threshold value or more are selected). In addition, useful word selection unit 2
The words to be selected in 10 need not necessarily be words from the words registered in the feature vector generation dictionary 209,
Selection can be made from a wider range of words.

【0050】具体例として分類群がa,b,cの三つあ
ったとして、特徴ベクトル生成用辞書209に登録され
ている単語が「政治、日本、国際」の三つだったとす
る。そして分類群ごとに各単語(特徴ベクトル生成用辞
書209に登録されている単語以外に「選挙」「問題」
についても頻度を調べるとする)の頻度が次のようだっ
たとする。
As a specific example, it is assumed that there are three classification groups a, b, and c, and that the words registered in the feature vector generation dictionary 209 are three, "politics, Japan, and international". Then, for each taxonomic group, each word (in addition to the words registered in the feature vector generation dictionary 209, "election", "problem"
The frequency is also determined as follows.

【0051】分類群a 政治30%,日本 5%,国際
35%,選挙10%,問題20% 分類群b 政治 3%,日本55%,国際35%,選挙
2%,問題 5% 分類群c 政治 3%,日本30%,国際35%,選挙
2%,問題30% すると、方法1を用いると「国際」はどの分類群にも同
じような割合で含まれているので、特徴ベクトル生成用
辞書から除去することになる。「政治」「日本」「選
挙」「問題」は分類群ごとの頻度に偏りがあるので、有
用単語として選出され、特徴ベクトル生成用辞書209
に登録する(この時登録単語数を抑えたい場合は、頻度
に偏りのある単語の中で、合計の出現頻度の順番に登録
したい個数だけ取ってくれば良い)。方法2を用いた場
合「政治」と「選挙」だけが選出され特徴ベクトル生成
用辞書209に登録し、「日本」や「国際」や「問題」
は特徴ベクトル生成用辞書209には登録しない。方法
1と方法2の中間的な方法として、第1位の頻度と第n
位(nは3以上、分類群の個数−1以下)の頻度との比
がある閾値以上であるかどうかで有用単語を選出する方
法も考えられる。また、頻度の比ではなく、頻度の分散
の値が大きいものを選出する方法も考えられる。
Taxa a Political 30%, Japan 5%, International 35%, Election 10%, Problem 20% Taxa b Politics 3%, Japan 55%, International 35%, Election 2%, Problem 5% Taxa c Politics 3%, Japan 30%, international 35%, election 2%, problem 30% If you use method 1, "international" is included in every taxon in the same ratio, so it is used for feature vector generation. Will be removed from the dictionary. Since "politics", "Japan", "elections" and "problems" are uneven in the frequency of each taxon, they are selected as useful words, and the feature vector generation dictionary 209 is used.
(If it is desired to reduce the number of registered words at this time, it is only necessary to take the number of words to be registered in the order of the total appearance frequency among words having a biased frequency). When the method 2 is used, only “politics” and “election” are selected and registered in the feature vector generation dictionary 209, and “Japan”, “international” and “problem” are registered.
Are not registered in the feature vector generation dictionary 209. As an intermediate method between Method 1 and Method 2,
A method of selecting useful words depending on whether or not the ratio of the frequency of the rank (n is 3 or more, and the number of taxon groups minus 1) is equal to or greater than a certain threshold is also conceivable. In addition, a method is also conceivable in which a value having a large frequency variance instead of a frequency ratio is selected.

【0052】なお、このようにして選出された単語は頻
度の比(あるいは頻度の分散)に応じた重要度を持って
いると考えることができるので、文書の特徴ベクトルを
計算する時にはその文書内の単語の特徴ベクトルをこの
比(あるいは分散)に応じて重み付けをしてから(例え
ば、log(頻度の比)をその特徴ベクトルに掛けてか
ら)平均化するとより良い文書の特徴ベクトル地が得ら
れる場合がある。
The words selected in this manner can be considered to have importance according to the frequency ratio (or frequency variance). Therefore, when calculating the feature vector of a document, Is weighted according to this ratio (or variance) and then averaged (for example, after multiplying the log (frequency ratio) by that feature vector), a better document feature vector location is obtained. May be

【0053】こうして特徴ベクトル生成用辞書209
に、分類に有用な単語だけを登録し、もう一度、単語の
特徴ベクトルを学習し、それを用いて文書を分類する
と、特徴ベクトル生成用辞書をより小さくできたり、分
類の精度をあげることができる。
In this way, the feature vector generation dictionary 209
By registering only words that are useful for classification, learning the feature vectors of words again, and classifying documents using them, the dictionary for generating feature vectors can be made smaller, and the accuracy of classification can be improved. .

【0054】本発明の請求項3の一実施例を図6に示
す。ここで、符号301〜310で表されるものは図4
の201〜210で表されるものと夫々同じものであ
る。
FIG. 6 shows a third embodiment of the present invention. Here, those represented by reference numerals 301 to 310 are shown in FIG.
Are the same as those represented by reference numerals 201 to 210, respectively.

【0055】文書分類装置は、文書データを記憶する記
憶部301と、文書データを解析する文書解析部302
と、文書中の単語間の共起関係を用いて各単語の特徴を
表現する特徴ベクトルを自動的に生成する単語ベクトル
生成部303と、その特徴ベクトルを記憶する単語ベク
トル記憶部304と、文書内に含まれている単語の特徴
ベクトルから文書の特徴ベクトルを生成する文書ベクト
ル生成部305と、その特徴ベクトルを記憶する文書ベ
クトル記憶部306と、文書の特徴ベクトル間の類似度
を利用して文書を分類する分類部307と、その分類し
た結果を記憶する結果記憶部308と、特徴ベクトル生
成時に使用する単語が登録されている特徴ベクトル生成
用辞書309と、結果記憶部308に記憶されている分
類結果を利用して分類時に有用な単語を選出する有用単
語選出部310と、結果記憶部308に記憶されている
分類結果を利用して各分類群を代表する特徴ベクトルを
求める代表ベクトル生成部311と、代表ベクトル生成
部311で生成された代表ベクトルを記憶する代表ベク
トル記憶部312とからなる。
The document classification device includes a storage unit 301 for storing document data and a document analysis unit 302 for analyzing the document data.
A word vector generation unit 303 that automatically generates a feature vector that expresses a feature of each word using a co-occurrence relationship between words in a document, a word vector storage unit 304 that stores the feature vector, A document vector generation unit 305 that generates a document feature vector from a feature vector of a word included in a document, a document vector storage unit 306 that stores the feature vector, and a similarity between the feature vectors of the document. A classifying unit 307 for classifying documents, a result storage unit 308 for storing the classified results, a dictionary 309 for generating feature vectors in which words used at the time of generating feature vectors are registered, and a result storage unit 308 A useful word selection unit 310 for selecting a useful word at the time of classification using the classification result, and a classification result stored in the result storage unit 308. A representative vector generation section 311 for obtaining a feature vector representative of each taxon, representatives from vector storage unit 312. storing the representative vectors generated by the representative vector generation unit 311.

【0056】なお請求項1の実施例を用いて請求項3の
システムを構成する場合には有用単語選出部310が無
いシステムとなる。
When the system according to the third aspect is configured using the embodiment of the first aspect, the system does not include the useful word selecting unit 310.

【0057】図7は学習時及び分類時のシステム構成を
示す図である。最初は請求項1の実施例や請求項2の実
施例と同様の方法によって、単語の特徴ベクトルを学習
し、それをもとに大量の文書データを分類する。分類し
た結果は結果記憶部308に記憶されているが、この結
果を元にして、代表ベクトル生成部311で代表ベクト
ルを生成する。これは例えば、分類群ごとの各単語の頻
度を求め、ある分類群にだけ高い割合で含まれている単
語を選出し、このような単語の特徴ベクトルの平均をと
ることよって生成できる。具体例として分類群がa,
b,cの三つあったとして、特徴ベクトル生成用辞書3
09に登録されている単語が「政治、国会、国際」の三
つだったとする。そして分類群ごとの各単語の頻度が次
のようだったとする。
FIG. 7 is a diagram showing a system configuration at the time of learning and at the time of classification. At first, a feature vector of a word is learned by the same method as in the embodiment of the first and second embodiments, and a large amount of document data is classified based on the learned feature vector. The classified result is stored in the result storage unit 308, and a representative vector is generated by the representative vector generation unit 311 based on the result. This can be generated, for example, by calculating the frequency of each word for each taxonomy, selecting words that are included only in a certain taxonomy at a high rate, and averaging the feature vectors of such words. As specific examples, the taxon is a,
Assuming that there are three, b and c, the dictionary for feature vector generation 3
Suppose that the words registered in 09 are three, “politics, parliament, and international”. Assume that the frequency of each word for each taxon is as follows.

【0058】 分類群a 政治40%,国会50%,国際10% 分類群b 政治10%,国会10%,国際80% 分類群c 政治20%,国会10%,国際70% すると、分類群aの代表ベクトルは、「政治」の特徴ベ
クトルと「国会」の特徴ベクトルの平均として与えられ
る。なお単なる平均ではなく、出現割合によって、重み
をつけることも考えられる。例えば「政治」の出現頻度
が「国会」の出現頻度の2倍なら、「政治」の特徴ベク
トルの2倍と「国会」の特徴ベクトルとを加算し、3で
割ったものを分類群aの代表ベクトルとする等である。
Taxa a Politics 40%, Diet 50%, International 10% Taxa b Politics 10%, Diet 10%, International 80% Taxa c Politics 20%, Diet 10%, International 70% Then, Taxa a Is given as an average of the feature vector of "politics" and the feature vector of "diet." In addition, it is also conceivable to assign a weight not based on an average but on an appearance ratio. For example, if the frequency of occurrence of “politics” is twice the frequency of occurrence of “diet”, twice the feature vector of “politics” and the feature vector of “diet” are added, and the result obtained by dividing by 3 is the classification group a. And so on as a representative vector.

【0059】同様に分類群aに分類された文書の特徴ベ
クトルの平均をとったものを分類群aの代表ベクトルと
する方法も考えられる。
Similarly, a method in which the average of the feature vectors of the documents classified into the classification group a is taken as the representative vector of the classification group a can be considered.

【0060】こうして、代表ベクトルが生成されたらそ
れを代表ベクトル記憶部312に記憶しておくことで、
以後の文書の分類時にはこの代表ベクトルを参照するこ
とで、文書記憶部301から読み込まれた文書は、その
文書の特徴ベクトルにもっとも類似した代表ベクトルに
対応する分類群に分類することができるようになる。
In this manner, when the representative vector is generated, it is stored in the representative vector storage unit 312.
By referring to this representative vector at the time of subsequent document classification, the document read from the document storage unit 301 can be classified into a classification group corresponding to the representative vector most similar to the feature vector of the document. Become.

【0061】本発明は文書分類に用いるだけでなく、電
子メールや電子ニュースを自動的に分類したり、電子メ
ールの中や電子ニュースの中からユーザーの興味を持ち
そうなものを選出したり(ユーザーがそれまでに読んだ
メールやニュースの特徴ベクトルとの類似度で判定でき
る)、あいまい検索(検索キーワードの特徴ベクトル
と、検索対象文書の特徴ベクトルとの類似度が一定の閾
値以上になる文書を検索するようにすることで、検索キ
ーワードに正確にマッチしていなくても関連のキーワー
ドで検索できる)に利用できたり、仮名漢字変換におけ
る同音意義語の選択(それまでに変換した内容から得ら
れる特徴ベクトルとの類似度で同音意義語を選択する)
に利用できたり、音声認識・手書き文字認識などにおい
て過去の文脈に最も適合した変換結果を選択する方法を
とる(それまでに認識した内容から得られる特徴ベクト
ルとの類似度で認識結果を選択する)際にも利用できた
り、認識時等において単語等の検索空間を狭める(それ
までに認識した内容から得られる特徴ベクトルの要素の
うち一定の閾値以上になっている要素に対応する単語だ
けを検索するようにする)際にも利用できる。
The present invention can be used not only for document classification, but also for automatically classifying e-mails and e-news, and selecting e-mails and e-news that are likely to be of interest to the user ( Fuzzy search (a document whose similarity between the feature vector of the search keyword and the feature vector of the document to be searched exceeds a certain threshold) Can be used to search for related keywords even if they do not exactly match the search keyword), or to select homophonic meaning words in kana-to-kanji conversion (from the converted content up to that point). Select the same meaning word based on the similarity to the feature vector
Select a conversion result that is most suitable for past contexts in speech recognition, handwritten character recognition, etc. (select recognition results based on similarity with feature vectors obtained from the content recognized so far) ), Or narrows the search space for words and the like at the time of recognition, etc. (Only words corresponding to elements that are above a certain threshold among the elements of the feature vector obtained from the content recognized so far) Search)).

【0062】[0062]

【効果】本発明により、自動的に単語の特徴ベクトルを
作成することができ、文書の分類を自動的に行なうこと
ができるようになる。またこの方法で作成されたれ単語
の特徴ベクトルは文書の分類時だけでなく、あいまい検
索や、仮名漢字変換における同音意義語の選択にも利用
できるし、音声認識・手書文字認識などにおいて、過去
の文脈に最も適合した認識結果を選択する方法をとる際
にも利用できる。
According to the present invention, a feature vector of a word can be automatically created, and a document can be automatically classified. In addition, the feature vector of the word created by this method can be used not only for document classification but also for fuzzy search and selection of homophonic meaning words in kana-kanji conversion, and in speech recognition, handwritten character recognition, etc. It can also be used when selecting a recognition result that best fits the context of.

【図面の簡単な説明】[Brief description of the drawings]

【図1】請求項1に係る発明の一実施例の基本構成を示
すブロック図である。
FIG. 1 is a block diagram showing a basic configuration of one embodiment of the invention according to claim 1;

【図2】図1に示すシステムの学習時のシステム構成を
示すブロック図である。
FIG. 2 is a block diagram showing a system configuration at the time of learning of the system shown in FIG. 1;

【図3】図1に示すシステムの分類時のシステム構成を
示すブロック図である。
FIG. 3 is a block diagram showing a system configuration when the system shown in FIG. 1 is classified.

【図4】請求項2に係る発明の一実施例の基本構成を示
すブロック図である。
FIG. 4 is a block diagram showing a basic configuration of one embodiment of the invention according to claim 2;

【図5】図4に示すシステムの学習、分類時のシステム
構成を示すブロック図である。
FIG. 5 is a block diagram showing a system configuration at the time of learning and classification of the system shown in FIG. 4;

【図6】請求項3に係る発明の一実施例の基本構成を示
すブロック図である。
FIG. 6 is a block diagram showing a basic configuration of one embodiment of the invention according to claim 3;

【図7】図6に示すシステムの学習、分類時のシステム
構成を示すブロック図である。
FIG. 7 is a block diagram showing a system configuration at the time of learning and classification of the system shown in FIG. 6;

【図8】単語の特徴ベクトルの生成を説明する図であ
る。
FIG. 8 is a diagram illustrating generation of a word feature vector.

【図9】単語の特徴ベクトルの生成を説明する図であ
る。
FIG. 9 is a diagram illustrating generation of a word feature vector.

【図10】文書の特徴ベクトルの生成を説明する図であ
る。
FIG. 10 is a diagram illustrating generation of a feature vector of a document.

【図11】文書の分類を説明する図である。FIG. 11 is a diagram illustrating classification of documents.

【符号の説明】[Explanation of symbols]

101、201、301 文書記憶部 102、202、302 文書解析部 103、203、303 単語ベクトル生成部 104、204、304 単語ベクトル記憶部 105、205、305 文書ベクトル生成部 106、206、306 文書ベクトル記憶部 107、207、308 分類部 108、208、308 結果記憶部 109、209、309 特徴ベクトル生成用辞書 210、310 有用単語選出部 311 代表ベクトル生成部 312 代表ベクトル記憶部 101, 201, 301 Document storage unit 102, 202, 302 Document analysis unit 103, 203, 303 Word vector generation unit 104, 204, 304 Word vector storage unit 105, 205, 305 Document vector generation unit 106, 206, 306 Document vector Storage unit 107, 207, 308 Classification unit 108, 208, 308 Result storage unit 109, 209, 309 Feature vector generation dictionary 210, 310 Useful word selection unit 311 Representative vector generation unit 312 Representative vector storage unit

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平2−158871(JP,A) 特開 平2−98778(JP,A) 特開 平2−105973(JP,A) 特開 平2−235176(JP,A) 特開 平5−54037(JP,A) 芥子育雄,乾隆夫,石鞍健一郎 共 著,「大規模文書データベースからの連 想検索」,電子情報通信学会技術研究報 告(AI−92−99),Vol.92,N o.426,1993(平5−1−22),p. 73−80 芥子育雄,乾隆夫,奥西稔幸 共著, 「意味ベクトルによる自己組織型百科事 典データベース構築の試み」,1993年度 人工知能学会全国大会(第7回)論文 集,1993(平5−7−20)p.317−320 (58)調査した分野(Int.Cl.6,DB名) G06F 17/30 JICSTファイル(JOIS)──────────────────────────────────────────────────続 き Continuation of the front page (56) References JP-A-2-158871 (JP, A) JP-A-2-98778 (JP, A) JP-A-2-105973 (JP, A) JP-A-2-158 235176 (JP, A) JP-A-5-54037 (JP, A) Ikuo Akutoshi, Takao Inui, Kenichiro Ishikura, "Associative search from large-scale document database", IEICE Technical Report ( AI-92-99), Vol. 92, No. 426, 1993 (Heisei 5-1-22), pp. 73-80 Ikuo Akutoshi, Takao Inui, Toshiyuki Okunishi, "An attempt to construct a self-organizing encyclopedia database using semantic vectors", 1993 National Convention of the Japanese Society for Artificial Intelligence (7th) Papers, 1993 (Heisei 5-7-20) p. 317-320 (58) Field surveyed (Int.Cl. 6 , DB name) G06F 17/30 JICST file (JOIS)

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 文書分類装置において、文書データを記
憶する記憶部と、文書データを解析する文書解析部と、
文書中の単語間の共起関係を用いて各単語の特徴を表現
する特徴ベクトルを自動的に生成する単語ベクトル生成
部と、その特徴ベクトルを記憶する単語ベクトル記憶部
と、文書内に含まれている単語の特徴ベクトルから文書
の特徴ベクトルを生成する文書ベクトル生成部と、その
特徴ベクトルを記憶する文書ベクトル記憶部と、文書の
特徴ベクトル間の類似度を利用して文書を分類する分類
部と、その分類した結果を記憶する結果記憶部と、特徴
ベクトル生成時に使用する単語が登録されている特徴ベ
クトル生成用辞書とを備え、大量の文書ファイル中の単
語間の共起関係を用いて、各単語の特徴を表現する特徴
ベクトルを自動的に生成し、文書を自動的に分類するこ
とができることを特徴とする文書分類装置。
In a document classification device, a storage unit for storing document data, a document analysis unit for analyzing the document data,
A word vector generation unit that automatically generates a feature vector that expresses a feature of each word using a co-occurrence relationship between words in the document, a word vector storage unit that stores the feature vector, and a word vector storage unit that is included in the document. A document vector generation unit that generates a document feature vector from a feature vector of a word, a document vector storage unit that stores the feature vector, and a classification unit that classifies documents using similarity between the document feature vectors And a result storage unit for storing the classified results, and a dictionary for generating feature vectors in which words to be used when generating feature vectors are registered, using a co-occurrence relationship between words in a large number of document files. And a document classification apparatus capable of automatically generating a feature vector expressing the feature of each word and automatically classifying documents.
【請求項2】 請求項1の文書分類装置の構成に加え
て、結果記憶部に記憶されている分類結果を利用して分
類時に有用な単語を選出する有用単語選出部を備え、大
量の文書ファイルを分類した後でその分類された各分類
群ごとに単語の出現率を調べることで、分類に有用な単
語を選出し、分類に有用な単語のみを用いることで分類
の精度を向上させることができることを特徴とする文書
分類装置。
2. The document classification apparatus according to claim 1, further comprising: a useful word selecting section for selecting a useful word at the time of classification by using a classification result stored in a result storage section. After classifying a file, by examining the frequency of occurrence of words for each classified group, select words that are useful for classification, and improve the accuracy of classification by using only words that are useful for classification. A document classification device characterized by being able to do.
【請求項3】 請求項1あるいは請求項2の文書分類装
置の構成に加えて、結果記憶部に記憶されている分類結
果を利用して各分類群を代表する特徴ベクトルを求める
代表ベクトル生成部と、代表ベクトル生成部で生成され
た代表ベクトルを記憶する代表ベクトル記憶部とを備
え、大量の文書ファイルを分類した後でその分類された
各分類群ごとの単語や文書の特徴ベクトルを用いて、そ
の分野を代表する特徴ベクトルを求めることができるこ
とを特徴とする文書分類装置。
3. A representative vector generation unit for obtaining a feature vector representing each classification group using a classification result stored in a result storage unit, in addition to the configuration of the document classification device according to claim 1 or 2. And a representative vector storage unit for storing the representative vector generated by the representative vector generation unit, and after classifying a large number of document files, using the feature vectors of the words and documents of each of the classified groups. A document classification device capable of obtaining a feature vector representative of the field.
JP5259809A 1993-10-18 1993-10-18 Document classification device Expired - Lifetime JP2978044B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5259809A JP2978044B2 (en) 1993-10-18 1993-10-18 Document classification device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5259809A JP2978044B2 (en) 1993-10-18 1993-10-18 Document classification device

Publications (2)

Publication Number Publication Date
JPH07114572A JPH07114572A (en) 1995-05-02
JP2978044B2 true JP2978044B2 (en) 1999-11-15

Family

ID=17339307

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5259809A Expired - Lifetime JP2978044B2 (en) 1993-10-18 1993-10-18 Document classification device

Country Status (1)

Country Link
JP (1) JP2978044B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7664631B2 (en) 2005-03-09 2010-02-16 Fuji Xerox Co., Ltd. Language processing device, language processing method and language processing program

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3375449B2 (en) * 1995-02-27 2003-02-10 シャープ株式会社 Integrated recognition dialogue device
JPH096799A (en) * 1995-06-19 1997-01-10 Sharp Corp Document sorting device and document retrieving device
JP3810463B2 (en) * 1995-07-31 2006-08-16 株式会社ニューズウオッチ Information filtering device
JPH09128402A (en) * 1995-10-30 1997-05-16 Fuji Xerox Co Ltd Document similarity calculation device and document sorting device
JPH10111869A (en) * 1996-10-07 1998-04-28 Fujitsu Ltd Device and method for information classification
JPH10260991A (en) * 1997-01-14 1998-09-29 Seiko Epson Corp Information retrieving method and information retrieving device
JPH10228486A (en) * 1997-02-14 1998-08-25 Nec Corp Distributed document classification system and recording medium which records program and which can mechanically be read
JPH11259485A (en) * 1998-03-06 1999-09-24 Fujitsu Ltd Document retrieving device and storage medium
JPH11259504A (en) * 1998-03-11 1999-09-24 Mitsubishi Electric Corp Data base storage device and data base retrieval device
JPH11282859A (en) * 1998-03-27 1999-10-15 Osaka Gas Co Ltd Sentence sorter and correspondence acceptance system
JPH11296552A (en) * 1998-04-13 1999-10-29 Ricoh Co Ltd Device and method for classifying document and computer-readable recording medium where program allowing computer to implement same method is recorded
US7194471B1 (en) 1998-04-10 2007-03-20 Ricoh Company, Ltd. Document classification system and method for classifying a document according to contents of the document
JP3266106B2 (en) * 1998-07-17 2002-03-18 日本電気株式会社 Automatic sentence classification apparatus and method
JP2000285140A (en) 1998-12-24 2000-10-13 Ricoh Co Ltd Device and method for processing document, device and method for classifying document, and computer readable recording medium recorded with program for allowing computer to execute these methods
JP3100955B2 (en) * 1999-02-18 2000-10-23 技術研究組合新情報処理開発機構 Information search method and information search device
JP3730451B2 (en) * 1999-08-24 2006-01-05 シャープ株式会社 Information provision device
FR2799023B1 (en) * 1999-09-24 2003-04-18 France Telecom METHOD FOR THEMATIC CLASSIFICATION OF DOCUMENTS, MODULE FOR THEMATIC CLASSIFICATION AND SEARCH ENGINE INCORPORATING SUCH A MODULE
JP2001312501A (en) * 2000-04-28 2001-11-09 Mitsubishi Electric Corp Automatic document classification system, automatic document classification method, and computer-readable recording medium with automatic document classification program recorded thereon
JP2002222083A (en) 2001-01-29 2002-08-09 Fujitsu Ltd Device and method for instance storage
CN1327334C (en) * 2001-11-08 2007-07-18 住友电气工业株式会社 File grouping device
JP3726263B2 (en) * 2002-03-01 2005-12-14 ヒューレット・パッカード・カンパニー Document classification method and apparatus
JP4499003B2 (en) * 2005-09-05 2010-07-07 日本電信電話株式会社 Information processing method, apparatus, and program
JP4688629B2 (en) * 2005-10-25 2011-05-25 株式会社ジャストシステム Electronic message classification device and electronic message classification method
JP4878468B2 (en) * 2005-10-25 2012-02-15 株式会社ジャストシステム E-mail evaluation apparatus and e-mail evaluation method
WO2007066704A1 (en) * 2005-12-09 2007-06-14 Nec Corporation Text mining device, text mining method, and text mining program
WO2007097419A1 (en) * 2006-02-23 2007-08-30 Pioneer Corporation Musical composition searching device and method, and computer program
JP5533853B2 (en) * 2009-03-31 2014-06-25 日本電気株式会社 Reading judgment device, method, program, and speech synthesizer
CN102141978A (en) * 2010-02-02 2011-08-03 阿里巴巴集团控股有限公司 Method and system for classifying texts
JP5457998B2 (en) * 2010-12-02 2014-04-02 株式会社神戸製鋼所 Teaching material content generation system, teaching material content generation method, and computer program
JP5292427B2 (en) * 2011-03-15 2013-09-18 エヌ・ティ・ティ・コムウェア株式会社 Feature amount calculation apparatus, feature amount calculation method, and program
US11462212B2 (en) * 2017-05-17 2022-10-04 Nippon Telegraph And Telephone Corporation Document identification device, document identification method, and program
JP6680725B2 (en) * 2017-06-12 2020-04-15 ヤフー株式会社 Category selection device, advertisement distribution system, category selection method, and program
CN107291896A (en) * 2017-06-21 2017-10-24 北京小度信息科技有限公司 Data-updating method and device
JP6960270B2 (en) * 2017-08-04 2021-11-05 株式会社日立製作所 Design document learning device and design document learning method
EP3598377A1 (en) * 2018-07-20 2020-01-22 KBC Groep NV Improved claim handling

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
芥子育雄,乾隆夫,奥西稔幸 共著,「意味ベクトルによる自己組織型百科事典データベース構築の試み」,1993年度人工知能学会全国大会(第7回)論文集,1993(平5−7−20)p.317−320
芥子育雄,乾隆夫,石鞍健一郎 共著,「大規模文書データベースからの連想検索」,電子情報通信学会技術研究報告(AI−92−99),Vol.92,No.426,1993(平5−1−22),p.73−80

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7664631B2 (en) 2005-03-09 2010-02-16 Fuji Xerox Co., Ltd. Language processing device, language processing method and language processing program

Also Published As

Publication number Publication date
JPH07114572A (en) 1995-05-02

Similar Documents

Publication Publication Date Title
JP2978044B2 (en) Document classification device
EP0750266B1 (en) Document classification unit and document retrieval unit
US6671683B2 (en) Apparatus for retrieving similar documents and apparatus for extracting relevant keywords
Trstenjak et al. KNN with TF-IDF based framework for text categorization
CN110287328B (en) Text classification method, device and equipment and computer readable storage medium
CN110825877A (en) Semantic similarity analysis method based on text clustering
US7899816B2 (en) System and method for the triage and classification of documents
Sueno et al. Multi-class document classification using support vector machine (SVM) based on improved Naïve bayes vectorization technique
US20050021545A1 (en) Very-large-scale automatic categorizer for Web content
US8510312B1 (en) Automatic metadata identification
CN108647322B (en) Method for identifying similarity of mass Web text information based on word network
WO2022121163A1 (en) User behavior tendency identification method, apparatus, and device, and storage medium
CN105550168A (en) Method and device for determining notional words of objects
CN111797267A (en) Medical image retrieval method and system, electronic device and storage medium
CN110968693A (en) Multi-label text classification calculation method based on ensemble learning
JPH10254883A (en) Automatic document sorting method
WO2000033215A1 (en) Term-length term-frequency method for measuring document similarity and classifying text
Jivani The novel k nearest neighbor algorithm
JPH06314297A (en) Device and method for processing of document and device and method for retrieving data base
Villegas et al. Vector-based word representations for sentiment analysis: a comparative study
JPH06282587A (en) Automatic classifying method and device for document and dictionary preparing method and device for classification
CN113609247A (en) Big data text duplicate removal technology based on improved Simhash algorithm
Peleja et al. Text Categorization: A comparison of classifiers, feature selection metrics and document representation
Junker et al. Evaluating ocr and non-ocr text representations for learning document classifiers
JP4125951B2 (en) Text automatic classification method and apparatus, program, and recording medium

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080910

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080910

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090910

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090910

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100910

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110910

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120910

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130910

Year of fee payment: 14

EXPY Cancellation because of completion of term