JP2000250916A - Document sorting method and device and recording medium - Google Patents

Document sorting method and device and recording medium

Info

Publication number
JP2000250916A
JP2000250916A JP11049055A JP4905599A JP2000250916A JP 2000250916 A JP2000250916 A JP 2000250916A JP 11049055 A JP11049055 A JP 11049055A JP 4905599 A JP4905599 A JP 4905599A JP 2000250916 A JP2000250916 A JP 2000250916A
Authority
JP
Japan
Prior art keywords
document
unknown
word
field
specific field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11049055A
Other languages
Japanese (ja)
Inventor
Yasudai Tanaka
靖大 田中
Sanko Arai
三鉉 新井
Koichi Iriguchi
浩一 入口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Steel Corp
Original Assignee
Sumitomo Metal Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sumitomo Metal Industries Ltd filed Critical Sumitomo Metal Industries Ltd
Priority to JP11049055A priority Critical patent/JP2000250916A/en
Publication of JP2000250916A publication Critical patent/JP2000250916A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To automatically sort the documents and also to improve the sorting accuracy. SOLUTION: The words extracted from many documents belonging to a specific field and the occurrence frequencies of these extracted words are previously registered on a specific dictionary 31. Meanwhile, the words extracted from many documents belonging to the general fields of a wide range are previously registered on a general dictionary 32. Then the words are extracted from an unknown document belonging to an unknown field and the degrees of associations of each of these extracted words with a specific field of the unknown document and also with the general fields of a wide range are decided by referring to both dictionaries 31 and 32. These two degrees of association are compared with each other to decide whether the unknown dictionary can be sorted as that of a specific field.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、分野が未知である
文書を特定分野に分類する文書分類方法及び装置、並び
に、その分類方法を実施するためのプログラムを記録し
た記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document classification method and apparatus for classifying a document whose field is unknown into a specific field, and a recording medium on which a program for executing the classification method is recorded.

【0002】[0002]

【従来の技術】属すべき分野が未知である未知文書を特
定分野毎に分類する処理は、従来では、人手により行わ
れていた。つまり、特定分野に属する文書を収集し、そ
の収集した文書から単語を抽出し、抽出した単語に関す
る特定分野の判別に必要なデータ(例えば、その特定分
野に属する文書に良く使用される単語の出現頻度など)
を予め準備しておき、分類対象の未知文書から単語を抽
出し、その抽出した単語について、予め準備しておいた
前記データを参照し、その参照結果に基づいてその未知
文書を所定の特定分野に分類できるか否かを判定するよ
うな一連の処理を人手により行っていた。
2. Description of the Related Art Conventionally, a process for classifying an unknown document to which a field to which it belongs into a specific field is manually performed. In other words, documents belonging to a specific field are collected, words are extracted from the collected documents, and data necessary for discriminating a specific field related to the extracted words (for example, the appearance of words frequently used in documents belonging to the specific field) Frequency, etc.)
Is prepared in advance, a word is extracted from the unknown document to be classified, the extracted word is referred to the previously prepared data, and the unknown document is classified into a specific field based on the reference result. A series of processes for determining whether or not the data can be classified to have been manually performed.

【0003】ところで、最近では、パーソナルコンピュ
ータ,ワードプロセッサなどの普及によるコンピュータ
ネットワーク構築に伴って電子化された文書が大量に流
通されているだけでなく、CD−ROMによる辞書,新
聞記事の電子文書も大量化している状況である。膨大な
文書が存在するこのような状況にあっては、人手処理に
よる文書分類で対応することは不可能であり、自動的な
文書分類の手法の開発が望まれている。
Recently, a large number of electronic documents have been distributed along with the construction of computer networks due to the spread of personal computers, word processors, and the like, as well as electronic documents such as CD-ROM dictionaries and newspaper articles. The situation is increasing. In such a situation where a large number of documents exist, it is impossible to deal with the problem by manual document classification, and development of an automatic document classification method is desired.

【0004】[0004]

【発明が解決しようとする課題】従来の手法では、特定
分野に属する大量の文書の収集及び単語分類を、人手に
よって事前に行う必要がある。また、分類精度を向上さ
せるために、これらの文書から特定の単語を指定する必
要がある場合もあるが、このような人手による分類で
は、分類の基準が不明確となることが多い。更に、新出
の単語については考慮されておらず、特定分野の動的な
変化に対して柔軟な対応ができない。
In the conventional method, it is necessary to manually collect a large number of documents belonging to a specific field and classify words in advance. In addition, in order to improve the classification accuracy, it may be necessary to specify a specific word from these documents, but such manual classification often makes the classification criteria unclear. Furthermore, new words are not taken into account, and it is not possible to flexibly respond to dynamic changes in a specific field.

【0005】文書分類の自動化の要望に呼応するよう
に、自動的に文書を分類するためのいくつかの手法が提
案されている。例えば、特開平7−114572号公報には、
特定分野に属する文書の各単語の特徴ベクトルを予め生
成して準備しておき、この準備しておいた特徴ベクトル
を参照して分類対象の文書に含まれる各単語の特徴ベク
トルを求め、その文書に含まれる各単語の特徴ベクトル
から文書の特徴ベクトルを生成し、生成した文書の特徴
ベクトルとその特定分野に属する代表的な文書の特徴ベ
クトルとの類似度によって、その文書を分類する手法が
示されている。
[0005] In response to the need for automatic document classification, several techniques have been proposed for automatically classifying documents. For example, JP-A-7-114572 discloses that
A feature vector of each word of a document belonging to a specific field is generated and prepared in advance, and a feature vector of each word included in a document to be classified is obtained with reference to the prepared feature vector. A method for generating a document feature vector from the feature vector of each word contained in the document and classifying the document based on the similarity between the feature vector of the generated document and the feature vector of a representative document belonging to the specific field is shown. Have been.

【0006】この特開平7−114572号公報に開示された
文書分類の手法では、特定分野の文書との類似度しか評
価していないので、例えば、その特定分野ではない一般
分野においても出現頻度が高い単語の影響を受けて正し
い分類を行えない、また、予め分類されている特定分野
の文書の中に特定分野とは無関係ないくつかの文書が混
入されている場合に、その影響を受けて正しい分類を行
えないなど、分類精度が低いという問題がある。よっ
て、文書自動分類における分類精度の向上が望まれてい
る。
In the document classification method disclosed in Japanese Patent Application Laid-Open No. 7-114572, only the similarity with a document in a specific field is evaluated. Classification cannot be performed correctly due to the influence of high words, and when some documents that are categorized in advance and that are not related to the specific field are mixed, There is a problem that classification accuracy is low, for example, correct classification cannot be performed. Therefore, improvement of the classification accuracy in automatic document classification is desired.

【0007】本発明は斯かる事情に鑑みてなされたもの
であり、自動的に文書の分類を行えることは勿論であっ
て、その分類精度の向上を図ることができる文書分類方
法及び装置と、その分類方法を実施するためのプログラ
ムを記録した記録媒体とを提供することを目的とする。
[0007] The present invention has been made in view of the above circumstances, and of course, it is possible to automatically classify documents, as well as a document classification method and apparatus that can improve the classification accuracy, It is an object of the present invention to provide a recording medium on which a program for performing the classification method is recorded.

【0008】本発明の他の目的は、新出の単語が出現す
るような特定分野の動的な変化にも柔軟に対応できる文
書分類方法及び装置を提供することにある。
Another object of the present invention is to provide a document classification method and apparatus which can flexibly cope with a dynamic change in a specific field where a new word appears.

【0009】[0009]

【課題を解決するための手段】請求項1に係る文書分類
方法は、分野が未知である未知文書の特定分野に対する
関連度を求め、求めた関連度に基づいて前記未知文書を
前記特定分野に分類するか否かを判定する文書分類方法
において、前記未知文書から複数の単語を抽出するステ
ップと、抽出した各単語について、予め準備されてい
る、前記特定分野に属する文書でのその単語の出現頻度
を参照すると共に、予め準備されている、一般分野に属
する文書でのその単語の出現頻度を参照するステップ
と、抽出した各単語における前記特定分野及び一般分野
での出現頻度の参照結果に従って前記関連度を求めるス
テップとを有することを特徴とする。
According to a first aspect of the present invention, there is provided a document classification method, wherein a relevance of an unknown document whose field is unknown to a specific field is obtained, and the unknown document is assigned to the specific field based on the obtained relevance. In a document classification method for determining whether to classify, a step of extracting a plurality of words from the unknown document, and for each extracted word, the appearance of the word in a document belonging to the specific field prepared in advance Referring to the frequency and referring to the frequency of appearance of the word in a document belonging to a general field, which is prepared in advance, and referring to the result of reference to the frequency of appearance in the specific field and general field in each extracted word. Determining a degree of association.

【0010】請求項2に係る文書分類方法は、請求項1
において、未知文書に対して分類判定を行った後に、該
未知文書から抽出した単語を、その分類判定結果に基づ
いて前記特定分野または一般分野での出現頻度に組み込
ませることを特徴とする。
[0010] The document classification method according to claim 2 is based on claim 1.
In the method, a word extracted from an unknown document is incorporated into the appearance frequency in the specific field or the general field based on the result of the classification after the classification is performed on the unknown document.

【0011】請求項3に係る文書分類装置は、分野が未
知である未知文書の特定分野に対する関連度を求め、求
めた関連度に基づいて前記未知文書を前記特定分野に分
類するか否かを判定する文書分類装置において、前記特
定分野に属する文書から抽出された単語の出現頻度を予
め登録する第1登録手段と、一般分野に属する文書から
抽出された単語の出現頻度を予め登録する第2登録手段
と、前記未知文書から複数の単語を抽出する手段と、抽
出した各単語について、前記第1登録手段及び第2登録
手段に登録されているその単語の出現頻度を参照し、そ
の参照結果に従って前記関連度を求める手段とを備える
ことを特徴とする。
According to a third aspect of the present invention, there is provided a document classifying apparatus for determining the relevance of an unknown document whose field is unknown to a specific field, and determining whether or not to classify the unknown document into the specific field based on the obtained relevance. A first registration unit that registers in advance a frequency of appearance of a word extracted from a document belonging to the specific field; and a second registration unit that registers in advance the frequency of appearance of a word extracted from a document belonging to a general field. Registering means, means for extracting a plurality of words from the unknown document, and for each extracted word, referencing the frequency of occurrence of the word registered in the first registering means and the second registering means. Means for determining the degree of association in accordance with

【0012】請求項4に係る文書分類装置は、請求項3
において、未知文書に対して分類判定を行った後に、該
未知文書から抽出した単語を、その分類判定結果に基づ
いて、前記第1登録手段または第2登録手段が出現頻度
に追加登録するようにしたことを特徴とする。
According to a fourth aspect of the present invention, there is provided a document classification apparatus.
In the method described above, after performing the classification judgment on the unknown document, the first registration unit or the second registration unit additionally registers a word extracted from the unknown document based on the classification judgment result. It is characterized by having done.

【0013】請求項5に係る記録媒体は、分野が未知で
ある未知文書の特定分野に対する関連度を求め、求めた
関連度に基づいて前記未知文書を前記特定分野に分類す
るか否かを判定するためのプログラムを記録してあるコ
ンピュータでの読み取り可能な記録媒体において、前記
未知文書から複数の単語を抽出することを前記コンピュ
ータにさせるプログラムコード手段と、抽出した各単語
について、予め準備されている、前記特定分野に属する
文書でのその単語の出現頻度を参照すると共に、予め準
備されている、一般分野に属する文書でのその単語の出
現頻度を参照することを前記コンピュータにさせるプロ
グラムコード手段と、抽出した各単語における前記特定
分野及び一般分野での出現頻度の参照結果に従って前記
関連度を求めることを前記コンピュータにさせるプログ
ラムコード手段とを有することを特徴とする。
According to a fifth aspect of the present invention, the relevance of an unknown document whose field is unknown to a specific field is determined, and it is determined whether or not the unknown document is classified into the specific field based on the obtained relevance. Program code means for causing the computer to extract a plurality of words from the unknown document in a computer-readable recording medium having a program recorded thereon, and each extracted word is prepared in advance. Program code means for causing the computer to refer to the frequency of occurrence of the word in a document belonging to the specific field while referring to the frequency of occurrence of the word in a document belonging to the specific field. And determining the degree of relevance according to the reference result of the frequency of occurrence of the extracted words in the specific field and the general field. The characterized by having a program code means for causing the computer.

【0014】請求項6に係る記録媒体は、請求項5にお
いて、前記特定分野に属する文書から複数の単語を抽出
することを前記コンピュータにさせるプログラムコード
手段と、前記特定分野に属する文書から抽出された各単
語の出現頻度を登録することを前記コンピュータにさせ
るプログラムコード手段と、前記一般分野に属する文書
から複数の単語を抽出することを前記コンピュータにさ
せるプログラムコード手段と、前記一般分野に属する文
書から抽出された各単語の出現頻度を登録することを前
記コンピュータにさせるプログラムコード手段とを更に
有することを特徴とする。
According to a sixth aspect of the present invention, there is provided the recording medium according to the fifth aspect, wherein the program code means for causing the computer to extract a plurality of words from the document belonging to the specific field, and the program medium extracted from the document belonging to the specific field. Program code means for causing the computer to register the frequency of occurrence of each word, program code means for causing the computer to extract a plurality of words from documents belonging to the general field, and documents belonging to the general field And program code means for causing the computer to register the frequency of appearance of each word extracted from.

【0015】請求項1,3,5,6に関する発明では、
特定分野に属する多数の文書から抽出した単語の出現頻
度の情報を予め辞書として登録しておくと共に、広範囲
の一般分野における多数の文書から抽出した単語の出現
頻度の情報も予め辞書として登録しておく。そして、分
類対象の未知文書から単語を抽出する。抽出した各単語
についてその辞書から、特定分野及び一般分野における
出現頻度を参照し、その参照結果に従って未知文書のそ
の特定分野に対する関連度を求める。本発明では、この
関連度を求める際に、特定分野に関連する情報(出現頻
度)を参照するだけでなく、広範囲の一般分野に関連す
る情報(出現頻度)も参照する。
[0015] In the invention according to claims 1, 3, 5, and 6,
The information on the frequency of appearance of words extracted from a large number of documents belonging to a specific field is registered in advance as a dictionary, and the information on the frequency of appearance of words extracted from many documents in a wide range of general fields is also registered in advance as a dictionary. deep. Then, words are extracted from the unknown documents to be classified. For each extracted word, reference is made to the frequency of appearance in the specific field and general field from the dictionary, and the relevance of the unknown document to the specific field is determined according to the reference result. In the present invention, when calculating the degree of association, not only information (appearance frequency) related to a specific field but also information (appearance frequency) related to a wide range of general fields is referred to.

【0016】このように本発明では、未知文書の特定分
野に対する関連度を求める際に、広範囲にわたる一般分
野に属する文書も参照するようにしたので、未知文書か
ら抽出した単語の中で、広範囲の分野で使用される単語
の影響を除去でき、特定分野への関連が深い単語に大き
な重み付けを行うことができ、人手による特定の単語の
指定も必要なく、分類精度の向上を図れる。
As described above, according to the present invention, when determining the degree of relevance of an unknown document to a specific field, documents belonging to a wide range of general fields are also referred to. The effects of words used in the field can be removed, words that are closely related to the specific field can be weighted heavily, and it is not necessary to manually specify a specific word, thereby improving classification accuracy.

【0017】また、予め特定分野に属すると分類されて
いる文書の中に、その特定分野と関係がないいくつかの
文書が多少混入されている場合にも、特定分野に無関係
な文書の単語は、広範囲な一般分野における単語の集ま
りに対しては相対的な頻度が低く、特定分野への関連が
小さいことを判別できるので、予め特定分野に分類され
ている文書の大部分が確かにその特定分野に属すること
を仮定できる場合には、事前に人手による文書の収集,
分類の処理が不要となり、また、この無関係な文書の混
入の影響を受けにくく、分類精度の向上を図れる。
Further, even if some documents which are not related to a specific field are mixed in a document which has been classified as belonging to a specific field in advance, the words of the documents irrelevant to the specific field are included. Because the relative frequency of words in a wide range of general fields is relatively low and it can be determined that the relevance to a specific field is small, most documents that have been classified in a specific field in advance can be identified. If you can assume that you belong to the field, collect documents manually beforehand,
Classification processing is not required, and it is hard to be affected by the mixing of the irrelevant document, so that the classification accuracy can be improved.

【0018】請求項2,4に関する発明では、未知文書
に対する分類判定を行った後、その未知文書において抽
出した単語を、その分類結果に応じて、辞書の出現頻度
に追加登録する。よって、新出の単語も自動的に追加す
るので、対象となる特定分野の動的な変化にも柔軟に対
応できる。
In the inventions according to claims 2 and 4, after the classification of an unknown document is determined, words extracted from the unknown document are additionally registered in the appearance frequency of the dictionary according to the classification result. Therefore, a newly appearing word is automatically added, so that it is possible to flexibly cope with a dynamic change in a target specific field.

【0019】[0019]

【発明の実施の形態】以下、本発明をその実施の形態を
示す図面を参照して具体的に説明する。図1は、本発明
の文書分類装置の構成を示すブロック図である。本発明
の文書分類装置は、文書分類処理に先立って、その文書
分類処理に必要な辞書を構築する辞書構築処理部1と、
その事前に構築された辞書を参照して分野が未知である
未知文書を特定分野に分類する文書分類処理部2とから
構成されている。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention will be specifically described below with reference to the drawings showing the embodiments. FIG. 1 is a block diagram showing the configuration of the document classification device of the present invention. The document classification device according to the present invention includes, before the document classification process, a dictionary construction processing unit 1 for constructing a dictionary necessary for the document classification process;
The document classification processing unit 2 classifies an unknown document whose field is unknown into a specific field by referring to the dictionary constructed in advance.

【0020】辞書構築処理部1は、特定分野に属する文
書、または、広範囲の一般分野に属する文書から単語を
抽出する単語抽出部11と、特定分野に属する文書から抽
出された単語及びその出現度数を特定分野用の辞書31
(以下、特定辞書31と略記する)に登録する特定分野用
の辞書登録部12(以下、特定辞書登録部12と略記する)
と、一般分野に属する文書から抽出された単語及びその
出現度数を一般分野用の辞書32(以下、一般辞書32と略
記する)に登録する一般分野用の辞書登録部13(以下、
一般辞書登録部13と略記する)とを有する。
The dictionary construction processing unit 1 includes a word extraction unit 11 for extracting words from a document belonging to a specific field or a document belonging to a wide range of general fields, and a word extracted from a document belonging to a specific field and its appearance frequency. The dictionary for a specific field 31
A dictionary registering unit 12 for a specific field registered in a specific dictionary 31 (hereinafter abbreviated as a specific dictionary 31) (hereinafter abbreviated as a specific dictionary registering unit 12)
And a general field dictionary registration unit 13 (hereinafter, referred to as a general field dictionary 32) that registers words extracted from documents belonging to the general field and their appearance frequencies in a general field dictionary 32 (hereinafter abbreviated as a general dictionary 32).
(Abbreviated as general dictionary registration unit 13).

【0021】文書分類処理部2は、分野が未知である分
類対象の未知文書から単語を抽出する単語抽出部21と、
特定辞書31及び一般辞書32を参照して、抽出した未知文
書の各単語における特定分野及び一般分野に対する関連
度を求め、更に、求めた各単語の関連度からその未知文
書の特定分野及び一般分野に対する関連度を求め、求め
た関連度に基づいてその未知文書を特定分野に分類する
か否かを判定する分類判定部22とを有する。
The document classification processing unit 2 includes a word extraction unit 21 for extracting a word from an unknown document to be classified whose field is unknown,
With reference to the specific dictionary 31 and the general dictionary 32, the degree of relevance of each word of the extracted unknown document to the specific field and general field is obtained. Further, the specific field and general field of the unknown document are obtained from the obtained degree of relevance of each word. And a classification determining unit 22 that determines whether or not to classify the unknown document into a specific field based on the determined degree of relevance.

【0022】次に、動作について説明する。未知文書の
分類処理を行う前に、以下のような処理にて特定辞書31
と一般辞書32とを予め作成して準備しておく。図2は、
このような特定辞書31,一般辞書32を作成する手順を示
すフローチャートである。
Next, the operation will be described. Before performing the unknown document classification process, the specific dictionary 31
And the general dictionary 32 are prepared and prepared in advance. FIG.
9 is a flowchart showing a procedure for creating such a specific dictionary 31 and a general dictionary 32.

【0023】特定分野に属する文書を辞書構築処理部1
に入力し(ステップS1)、単語抽出部11にてその文書
から単語を抽出する(ステップS2)。この単語抽出の
手法としては、文書に対して形態素解析を行い、その形
態素解析の結果から名詞相当の単語を抽出するなどの方
法を利用できる。例えば、特定分野が「サッカー」であ
り、それに属する「日韓によるワールドカップの共催
は、大きな経済効果を期待されている」という文書が単
語抽出部11に入力された場合、「日韓」,「ワールドカ
ップ」,「共催」,「経済効果」,「期待」の5つの単
語(名詞)が抽出される。
A dictionary construction processing unit 1 converts a document belonging to a specific field into a dictionary.
(Step S1), and the word is extracted from the document by the word extracting unit 11 (step S2). As a method of this word extraction, a method of performing a morphological analysis on a document and extracting a word equivalent to a noun from the result of the morphological analysis can be used. For example, when the specific field is "soccer" and the document "Joint World Cup co-hosting by Japan and South Korea is expected to have a large economic effect" is input to the word extraction unit 11, "Japan-Korea", Five words (nouns) of “World Cup”, “Co-host”, “Economic effect”, and “Expectation” are extracted.

【0024】抽出された単語を、特定辞書登録部12にて
特定分野の単語として特定辞書31に登録する(ステップ
S3)。具体的には、特定辞書31に登録されていない単
語の場合には、出現度数を1としてその単語を新たに登
録し、既に特定辞書31に登録されている単語の場合に
は、その出現度数を1加算する。
The extracted words are registered in the specific dictionary 31 as words in a specific field by the specific dictionary registration unit 12 (step S3). Specifically, in the case of a word that is not registered in the specific dictionary 31, the word is newly registered with the appearance frequency set to 1, and in the case of a word that is already registered in the specific dictionary 31, the appearance frequency is Is incremented by one.

【0025】特定分野に属するすべての文書についての
登録処理を終了したが否かを判断し(ステップS4)、
まだ文書が残っている場合には(S4:NO)、特定分野
に属する次の文書について同様の処理(S1〜S3)を
繰り返す。
It is determined whether the registration processing for all the documents belonging to the specific field has been completed (step S4).
If a document still remains (S4: NO), the same processing (S1 to S3) is repeated for the next document belonging to the specific field.

【0026】特定分野に属するすべての文書についての
処理が終了した場合には(S4:YES)、一般分野に属す
る文書を辞書構築処理部1に入力し(ステップS5)、
単語抽出部11にて、特定分野に属する文書と同様に、そ
の文書から単語を抽出する(ステップS6)。抽出され
た単語を、一般辞書登録部13にて一般分野の単語とし
て、特定分野に属する文書から抽出した単語の場合と同
様に、一般辞書32に登録する(ステップS7)。
When the processing for all the documents belonging to the specific field is completed (S4: YES), the document belonging to the general field is input to the dictionary construction processing unit 1 (step S5).
The word extraction unit 11 extracts words from the document, similarly to a document belonging to a specific field (step S6). The extracted words are registered in the general dictionary 32 as words in a general field by the general dictionary registration unit 13 in the same manner as in the case of words extracted from a document belonging to a specific field (step S7).

【0027】一般分野に属するすべての文書についての
登録処理を終了したが否かを判断し(ステップS8)、
まだ文書が残っている場合には(S8:NO)、一般分野
に属する次の文書について同様の処理(S5〜S7)を
繰り返す。一般分野に属するすべての文書についての処
理が終了した場合には(S8:YES)、全体の処理を終了
する。
It is determined whether the registration processing for all documents belonging to the general field has been completed (step S8).
If a document still remains (S8: NO), the same processing (S5 to S7) is repeated for the next document belonging to the general field. If the processing has been completed for all documents belonging to the general field (S8: YES), the entire processing is terminated.

【0028】下記表1は、このようにして登録処理がな
された特定辞書31,一般辞書32における単語wの出現度
数の一例を示す表である。特定分野が「サッカー」であ
り、f(w)は特定分野における各単語wの出現度数、
F(w)は一般分野における各単語wの出現度数、dは
特定辞書31の構築に使用した文書量、Dは一般辞書32の
構築に使用した文書量をそれぞれ表す。なお、この文書
量を表すものとしては、用いた文書の数,用いた文書の
文字数,抽出できた単語の数などを利用できる。
Table 1 below is a table showing an example of the frequency of appearance of the word w in the specific dictionary 31 and the general dictionary 32 which have been registered in this way. The specific field is “soccer”, f (w) is the frequency of appearance of each word w in the specific field,
F (w) represents the frequency of appearance of each word w in the general field, d represents the amount of documents used to construct the specific dictionary 31, and D represents the amount of documents used to construct the general dictionary 32. Note that the number of documents used, the number of characters in the used documents, the number of extracted words, and the like can be used to represent the document amount.

【0029】[0029]

【表1】 [Table 1]

【0030】次に、未知文書の分類処理の動作につい
て、その手順を示す図3のフローチャートを参照して説
明する。
Next, the operation of the classification process of the unknown document will be described with reference to the flowchart of FIG.

【0031】未知文書を文書分類処理部2に入力し(ス
テップS11)、単語抽出部21にてその文書から単語を抽
出する(ステップS12)。なお、この際の単語抽出手法
は、単語抽出部11での手法と同じである。
An unknown document is input to the document classification processing unit 2 (step S11), and words are extracted from the document by the word extraction unit 21 (step S12). Note that the word extraction method at this time is the same as the method in the word extraction unit 11.

【0032】抽出された各単語について、分類判定部22
にて、まず、特定辞書31,一般辞書32を参照して、特定
分野,一般分野における出現頻度をそれぞれ求める(ス
テップS13)。特定辞書31,一般辞書32に登録されてい
る出現度数は、辞書構築に用いたそれぞれの文書量に比
例して大きくなるので、その出現度数f(w),F
(w)を直接比較することは意味がない。そこで、辞書
構築に用いたそれぞれの文書量d,Dで出現度数f
(w),F(w)を正規化したものを出現頻度とする。
具体的に、特定分野における単語wの出現頻度をq
(w),一般分野における単語wの出現頻度をQ(w)
とした場合、それぞれ下記式(1),(2)のように定
める。 q(w)=f(w)/d …(1) Q(w)=F(w)/D …(2)
For each of the extracted words, the classification determining unit 22
First, referring to the specific dictionary 31 and the general dictionary 32, the appearance frequency in the specific field and the general field is obtained (step S13). Since the frequency of appearance registered in the specific dictionary 31 and the general dictionary 32 increases in proportion to the amount of each document used to construct the dictionary, the frequency of appearance f (w), F
It does not make sense to compare (w) directly. Then, the appearance frequency f is calculated for each of the document amounts d and D used for the dictionary construction.
(W) and F (w) are normalized as the appearance frequency.
Specifically, the appearance frequency of the word w in a specific field is represented by q
(W), the appearance frequency of the word w in the general field is Q (w)
In this case, they are determined as in the following equations (1) and (2), respectively. q (w) = f (w) / d (1) Q (w) = F (w) / D (2)

【0033】次に、各単語について、特定分野との関連
度,一般分野との関連度をそれぞれ算出する(ステップ
S14)。具体的に、単語wにおける、特定分野との関連
度をr(w),一般分野との関連度をR(w)とした場
合、それぞれ下記式(3),(4)に従って算出する。
但し、Q(w)+q(w)=0である場合には、r
(w),R(w)の何れも0とする。 r(w)=q(w)/{Q(w)+q(w)} …(3) R(w)=Q(w)/{Q(w)+q(w)} …(4)
Next, for each word, the degree of relevance to a specific field and the degree of relevance to a general field are calculated (step S14). Specifically, assuming that the degree of relevance of a word w to a specific field is r (w) and the degree of relevance to a general field is R (w), calculation is performed according to the following equations (3) and (4), respectively.
However, when Q (w) + q (w) = 0, r
Both (w) and R (w) are set to 0. r (w) = q (w) / {Q (w) + q (w)} (3) R (w) = Q (w) / {Q (w) + q (w)} (4)

【0034】次に、その未知文書について、特定分野と
の関連度,一般分野との関連度をそれぞれ算出する(ス
テップS15)。なお、未知文書における、特定分野との
関連度,一般分野との関連度は、それぞれの各単語にお
ける間連度の合計値とする。具体的に、未知文書Xにお
ける、特定分野との関連度をs(X),一般分野との関
連度をS(X)とした場合、それぞれ下記式(5),
(6)に従って算出する。なお、未知文書Xからn個の
単語wi (i=1,2,…,n)が抽出されたものとす
る。
Next, the degree of relevance with the specific field and the degree of relevance with the general field are calculated for the unknown document (step S15). Note that the degree of relevance to the specific field and the degree of relevance to the general field in the unknown document are the sum of the inter-language degrees for each word. Specifically, when the relevance of the unknown document X to a specific field is s (X) and the relevance to a general field is S (X), the following equations (5) and
It is calculated according to (6). It is assumed that n words w i (i = 1, 2,..., N) have been extracted from the unknown document X.

【0035】[0035]

【数1】 (Equation 1)

【0036】算出された特定分野との関連度s(X)及
び一般分野との関連度S(X)の大きさを比較する(ス
テップS16)。s(X)>S(X)である場合には(S
16:YES)、未知文書Xをその特定分野に分類できると判
定する(ステップS17)。一方、s(X)≦S(X)で
ある場合には(S16:NO)、未知文書Xをその特定分野
に分類できないと判定する(ステップS18)。
The magnitude of the calculated degree of relevance s (X) to the specific field and the degree of relevance S (X) to the general field are compared (step S16). If s (X)> S (X), then (S
16: YES), it is determined that the unknown document X can be classified into the specific field (step S17). On the other hand, if s (X) ≦ S (X) (S16: NO), it is determined that the unknown document X cannot be classified into the specific field (step S18).

【0037】以下、具体的な未知文書を例にした文書分
類について説明する。なお、特定分野は「サッカー」と
し、特定辞書31,一般辞書32に登録されている情報は、
表1に示したものとする。
A description will now be given of a document classification using a specific unknown document as an example. The specific field is “soccer”, and the information registered in the specific dictionary 31 and the general dictionary 32 is
It is shown in Table 1.

【0038】未知文書Yを「ワールドカップの共催によ
り日韓の関係改善がなされると、プラッターは考えてい
る」とする。この未知文書Yについては、「ワールドカ
ップ」,「共催」,「日韓」,「関係改善」,「プラッ
ター」の5個の単語が抽出される。なお、これらの単語
の中で、「プラッター」は表1に全く登録されていない
ので、以下の計算では除外する。
It is assumed that the unknown document Y is "Platter thinks that the relationship between Japan and Korea will be improved by co-hosting the World Cup." For the unknown document Y, five words of “World Cup”, “Co-host”, “Japan-Korea”, “Relationship improvement”, and “Platter” are extracted. Note that, among these words, “platter” is not registered in Table 1 at all, and is excluded from the following calculation.

【0039】特定辞書31に登録されている各単語の出現
度数f(w)及び文書量dを参照して、上記式(1)に
従って、各単語の出現頻度q(w)を求めると、q(ワ
ールドカップ)=24/100=0.24,q(共催)=6/100=
0.06,q(日韓)=5/100=0.05,q(関係改善)=0
/100=0.00となる。また、一般辞書32に登録されている
各単語の出現度数F(w)及び文書量Dを参照して、上
記式(2)に従って、各単語の出現頻度Q(w)を求め
ると、Q(ワールドカップ)=3/1000=0.003 ,Q
(共催)=26/1000=0.026 ,Q(日韓)=86/1000=
0.086 ,Q(関係改善)=46/1000=0.046 となる。
With reference to the frequency of appearance f (w) of each word and the document amount d registered in the specific dictionary 31, the appearance frequency q (w) of each word is obtained according to the above equation (1). (World Cup) = 24/100 = 0.24, q (co-host) = 6/100 =
0.06, q (Japan and South Korea) = 5/100 = 0.05, q (relationship improvement) = 0
/100=0.00. Further, by referring to the appearance frequency F (w) and the document amount D of each word registered in the general dictionary 32 and calculating the appearance frequency Q (w) of each word according to the above equation (2), Q ( World Cup) = 3/1000 = 0.003, Q
(Co-host) = 26/1000 = 0.026, Q (Japan and South Korea) = 86/1000 =
0.086, Q (relationship improvement) = 46/1000 = 0.046.

【0040】そして、上記式(3)に従って、各単語の
「サッカー」に対する関連度r(w)を求めると、r
(ワールドカップ)=0.24/(0.003+0.24)=0.99,r
(共催)=0.06/(0.026+0.06)=0.70,r(日韓)=
0.05/(0.086+0.05)=0.37,r(関係改善)=0.00/
(0.046+0.00)=0.00となる。
Then, the relevance r (w) of each word to “soccer” is calculated according to the above equation (3).
(World Cup) = 0.24 / (0.003 + 0.24) = 0.99, r
(Co-host) = 0.06 / (0.026 + 0.06) = 0.70, r (Japan and South Korea) =
0.05 / (0.086 + 0.05) = 0.37, r (relationship improvement) = 0.00 /
(0.046 + 0.00) = 0.00.

【0041】よって、上記式(5)に従って、未知文書
Yの「サッカー」に対する関連度s(Y)を求めると、
以下のようになる。 s(Y)=r(ワールドカップ)+r(共催)+r(日韓)+r(関係改善) =0.99+0.70+0.37+0.00 =2.06
Therefore, when the relevance s (Y) of unknown document Y to “soccer” is calculated according to the above equation (5),
It looks like this: s (Y) = r (World Cup) + r (co-host) + r (Japan-Korea) + r (relationship improvement) = 0.99 + 0.70 + 0.37 + 0.00 = 2.06

【0042】一方、同様に、上記式(4),(6)に従
って、未知文書Yの一般分野に対する関連度S(Y)を
求めると、以下のようになる。 S(Y)=R(ワールドカップ)+R(共催)+R(日韓)+R(関係改善) =0.01+0.30+0.63+1.00 =1.94
On the other hand, similarly, when the relevance S (Y) of the unknown document Y to the general field is obtained according to the above equations (4) and (6), the following is obtained. S (Y) = R (World Cup) + R (Co-host) + R (Japan-Korea) + R (Relationship improvement) = 0.01 + 0.30 + 0.63 + 1.00 = 1.94

【0043】よって、s(Y)>S(Y)となり、上記
未知文書Yは特定分野「サッカー」に分類できると判定
する。
Accordingly, s (Y)> S (Y), and it is determined that the unknown document Y can be classified as a specific field “soccer”.

【0044】未知文書Zとして「日韓ともに経済効果は
期待できないため、関係改善は望めないとしている」を
例とする。この未知文書Zについては、「日韓」,「経
済効果」,「期待」,「関係改善」の4個の単語が抽出
される。
As an example of the unknown document Z, "it is said that no improvement in relations can be expected because economic effects cannot be expected in both Japan and Korea." For this unknown document Z, four words of “Japan-Korea”, “economic effect”, “expectation”, and “relationship improvement” are extracted.

【0045】そして、特定辞書31に登録されている各単
語の出現度数f(w)及び文書量d、並びに、一般辞書
32に登録されている各単語の出現度数F(w)及び文書
量Dを参照して、上記式(1)〜(6)に従って、未知
文書Zの「サッカー」との関連度s(Z)及び一般分野
との関連度S(Z)を求めると、以下のようになる。 s(Z)=r(日韓)+r(経済効果)+r(期待)+r(関係改善) =0.37+0.16+0.53+0.00 =1.06 S(Z)=R(日韓)+R(経済効果)+R(期待)+R(関係改善) =0.63+0.84+0.47+1.00 =2.94
Then, the appearance frequency f (w) and document amount d of each word registered in the specific dictionary 31 and the general dictionary
32, the relevance s (Z) of the unknown document Z to "soccer" according to the expressions (1) to (6) with reference to the frequency of appearance F (w) and the document amount D of each word registered in the word 32. And the degree of relevance S (Z) to the general field is as follows. s (Z) = r (Japan and South Korea) + r (economic effect) + r (expected) + r (relationship improvement) = 0.37 + 0.16 + 0.53 + 0.00 = 1.06 S (Z) = R (Japan and South Korea) + R (economic effect) + R (expectation) + R (relationship improvement) = 0.63 + 0.84 + 0.47 + 1.00 = 2.94

【0046】よって、s(Z)<S(Z)となり、上記
未知文書Zは特定分野「サッカー」に分類できないと判
定する。
Therefore, s (Z) <S (Z), and it is determined that the unknown document Z cannot be classified into the specific field “soccer”.

【0047】次に、本発明の他の実施の形態について説
明する。図4は、その実施の形態の文書分類装置の構成
を示すブロック図である。図4において、図1と同一番
号を付した部分は同様のものを示す。また、図5は、こ
の実施の形態における文書分類処理の手順を示すフロチ
ャートである。図5において、図3と同一の処理には同
一のステップ番号を付している。
Next, another embodiment of the present invention will be described. FIG. 4 is a block diagram illustrating a configuration of the document classification device according to the embodiment. In FIG. 4, the same reference numerals as in FIG. 1 denote the same parts. FIG. 5 is a flowchart showing the procedure of the document classification process in this embodiment. In FIG. 5, the same processes as those in FIG. 3 are denoted by the same step numbers.

【0048】この実施の形態では、前述の実施の形態と
同様の辞書構築処理及び文書分類処理を行った後、その
分類処理の対象となった未知文書の単語の情報を辞書に
登録する。未知文書の分類判定を行った後(S16,S1
7,S18)、その未知文書を特定分野に分類できると判
定した場合には、その未知文書の抽出単語を特定辞書登
録部12に送って特定辞書31に追加登録し(ステップS1
9)、その未知文書を特定分野に分類できないと判定し
た場合には、その未知文書の抽出単語を一般辞書登録部
13に送って一般辞書32に追加登録する(ステップS2
0)。
In this embodiment, after performing the same dictionary construction processing and document classification processing as in the above-described embodiment, the word information of the unknown document subjected to the classification processing is registered in the dictionary. After the classification of the unknown document is determined (S16, S1
(7, S18), if it is determined that the unknown document can be classified into a specific field, the extracted word of the unknown document is sent to the specific dictionary registration unit 12 and additionally registered in the specific dictionary 31 (step S1).
9) If it is determined that the unknown document cannot be classified into a specific field, the extracted word of the unknown document is registered in the general dictionary registration unit.
13 to the general dictionary 32 for additional registration (step S2
0).

【0049】例えば、前述した未知文書Y,Zを例にし
た場合、「サッカー」に分類できると判定した未知文書
Yの抽出単語は特定辞書31に追加登録し、「サッカー」
に分類できないと判定した未知文書Zの抽出単語は一般
辞書32に追加登録する。
For example, in the case of the unknown documents Y and Z described above, the extracted words of the unknown document Y determined to be classified as "soccer" are additionally registered in the specific dictionary 31, and the "soccer"
The extracted words of the unknown document Z that are determined to be unable to be classified in the general dictionary 32 are additionally registered in the general dictionary 32.

【0050】また、未知文書Yにおける単語「プラッタ
ー」は、未知文書Yの分類判定を行うまでは、特定分
野,一般分野の何れにも影響を与えない単語であった
が、分類判定後に特定辞書31に追加登録されることにな
るので、以降の分類判定において単語「プラッター」が
出現した場合、特定分野「サッカー」への文書分類に大
きく寄与することになる。
The word "platter" in the unknown document Y is a word which does not affect any of the specific field and the general field until the classification of the unknown document Y is determined. Since the word “platter” appears in the subsequent classification determination, it will contribute greatly to the classification of documents into the specific field “soccer”.

【0051】上述した例では、特定辞書31,一般辞書32
に単語の出現度数f(w),F(w)及び文書量d,D
を登録しておき、未知文書から抽出した単語における出
現度数f(w),F(w)と文書量d,Dとを参照し
て、単語の出現頻度q(w),Q(w)、単語の関連度
r(w),R(w)を順に算出して最終的に未知文書の
関連度s(X),S(X)を求めるようにしたが、特定
辞書31,一般辞書32に、単語の出現頻度q(w),Q
(w)または単語の関連度r(w),R(w)を登録し
ておき、未知文書から抽出した単語におけるq(w),
Q(w)またはr(w),R(w)を参照して、s
(X),S(X)を求めるようにしても良い。
In the example described above, the specific dictionary 31, the general dictionary 32
Are the word appearance frequencies f (w) and F (w) and the document quantities d and D
Is registered, and the word appearance frequencies q (w), Q (w), and Q (w), F (w), and F (w), and the document amounts d and D are referred to. The relevance r (w) and R (w) of the word are calculated in order to finally obtain the relevance s (X) and S (X) of the unknown document. , Word appearance frequency q (w), Q
(W) or the degree of relevancy r (w), R (w) of the word is registered, and q (w),
With reference to Q (w) or r (w), R (w), s
(X) and S (X) may be obtained.

【0052】図6は、本発明の記録媒体の実施の形態の
構成を示すブロック図である。ここに例示するプログラ
ムは、図2,図3,図5に示すステップS1〜S20を含
んでおり、以下に説明する記録媒体に記録されている。
FIG. 6 is a block diagram showing the configuration of an embodiment of the recording medium of the present invention. The program exemplified here includes steps S1 to S20 shown in FIGS. 2, 3, and 5, and is recorded on a recording medium described below.

【0053】図6において、コンピュータ40とオンライ
ン接続する記録媒体41は、コンピュータ40の設置場所か
ら隔たって設置される例えばWWW(World Wide Web)の
サーバコンピュータを用いてなり、記録媒体41には前述
の如きプログラム41a が記録されている。記録媒体41か
ら読み出されたプログラム41a がコンピュータ40を制御
することにより、コンピュータ40が、上述したような辞
書構築処理及び文書分類処理を実行する。
In FIG. 6, a recording medium 41 that is connected online to the computer 40 is, for example, a WWW (World Wide Web) server computer that is installed separately from a place where the computer 40 is installed. The program 41a is recorded as follows. When the program 41a read from the recording medium 41 controls the computer 40, the computer 40 executes the above-described dictionary construction processing and document classification processing.

【0054】コンピュータ40の内部に設けられた記録媒
体42は、内蔵設置される例えばハードディスクドライブ
またはROMなどを用いてなり、記録媒体42には前述の
如きプログラム42a が記録されている。記録媒体42から
読み出されたプログラム42aがコンピュータ40を制御す
ることにより、コンピュータ40が、上述したような辞書
構築処理及び文書分類処理を実行する。
The recording medium 42 provided inside the computer 40 uses a built-in hard disk drive or ROM, for example, and the recording medium 42 stores the program 42a as described above. When the program 42a read from the recording medium 42 controls the computer 40, the computer 40 executes the above-described dictionary construction processing and document classification processing.

【0055】コンピュータ40に設けられたディスクドラ
イブ40a に装填して使用される記録媒体43は、運搬可能
な例えば光磁気ディスク,CD−ROMまたはフレキシ
ブルディスクなどを用いてなり、記録媒体43には前述の
如きプログラム43a が記録されている。記録媒体43から
読み出されたプログラム43a がコンピュータ40を制御す
ることにより、コンピュータ40が、上述したような辞書
構築処理及び文書分類処理を実行する。
The recording medium 43 used by being loaded into the disk drive 40a provided in the computer 40 is a transportable medium such as a magneto-optical disk, a CD-ROM, or a flexible disk. The program 43a is recorded as follows. When the program 43a read from the recording medium 43 controls the computer 40, the computer 40 executes the above-described dictionary construction processing and document classification processing.

【0056】[0056]

【発明の効果】以上のように本発明では、特定分野にお
ける単語の出現頻度を参照するだけでなく、広範囲な一
般分野における単語の出現頻度も参照するようにしたの
で、未知文書から抽出した単語の中で、広範囲の分野で
使用される単語の影響を除去でき、特定分野への関連が
深い単語に大きな重み付けを行え、人手による特定の単
語の指定も必要なく、分類精度の向上を図ることができ
る。また、予め特定分野に分類されている文書の中に、
その特定分野と関係がない文書が多少混入されている場
合にも、予め特定分野に分類されている文書の大部分が
確かにその特定分野に属することを仮定できる場合に
は、事前に人手による文書の収集,分類の処理が不要と
なり、また、この無関係な文書の混入の影響を受けにく
く、分類精度の向上を図ることができる。
As described above, according to the present invention, not only the frequency of appearance of words in a specific field but also the frequency of appearance of words in a wide range of general fields is referred to. Of words that are used in a wide range of fields can be removed, words that are closely related to a specific field can be heavily weighted, and there is no need to manually specify a specific word, thereby improving classification accuracy. Can be. Also, in documents that have been classified into specific fields in advance,
Even if some documents that are not related to the specific field are mixed in, if it can be assumed that most of the documents classified in the specific field in advance belong to the specific field, manual This eliminates the need for document collection and classification processing, and is less susceptible to the mixing of irrelevant documents, thereby improving classification accuracy.

【0057】また、本発明では、未知文書に対する分類
判定を行った後、その未知文書において抽出した単語
を、その分類結果に応じて、辞書に追加登録するので、
新出の単語も自動的に追加でき、対象となる特定分野の
動的な変化にも柔軟に対応できる。
According to the present invention, after the classification of an unknown document is determined, words extracted from the unknown document are additionally registered in a dictionary according to the classification result.
New words can be added automatically, and it can flexibly respond to dynamic changes in the target specific field.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の文書分類装置の構成を示すブロック図
である。
FIG. 1 is a block diagram illustrating a configuration of a document classification device according to the present invention.

【図2】辞書構築処理の手順を示すフローチャートであ
る。
FIG. 2 is a flowchart illustrating a procedure of a dictionary construction process.

【図3】文書分類処理の手順を示すフローチャートであ
る。
FIG. 3 is a flowchart illustrating a procedure of a document classification process.

【図4】本発明の文書分類装置の他の構成を示すブロッ
ク図である。
FIG. 4 is a block diagram showing another configuration of the document classification device of the present invention.

【図5】文書分類処理の他の手順を示すフローチャート
である。
FIG. 5 is a flowchart illustrating another procedure of the document classification process.

【図6】記録媒体の実施の形態の構成を示すブロック図
である。
FIG. 6 is a block diagram showing a configuration of an embodiment of a recording medium.

【符号の説明】[Explanation of symbols]

1 辞書構築処理部 2 文書分類処理部 11 単語抽出部 12 特定辞書登録部(特定分野用の辞書登録部) 13 一般辞書登録部(一般分野用の辞書登録部) 21 単語抽出部 22 分類判定部 31 特定辞書(特定分野用の辞書) 32 一般辞書(一般分野用の辞書) 40 コンピュータ 41,42,43 記録媒体 Reference Signs List 1 dictionary construction processing unit 2 document classification processing unit 11 word extraction unit 12 specific dictionary registration unit (dictionary registration unit for specific field) 13 general dictionary registration unit (dictionary registration unit for general field) 21 word extraction unit 22 classification judgment unit 31 Specific dictionaries (dictionaries for specific fields) 32 General dictionaries (dictionaries for general fields) 40 Computers 41, 42, 43 Recording media

───────────────────────────────────────────────────── フロントページの続き (72)発明者 入口 浩一 大阪府大阪市中央区北浜4丁目5番33号 住友金属工業株式会社内 Fターム(参考) 5B075 ND03 NK34 NR02 NR12 PR04 PR10 QM10  ────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Koichi Entrance 4-53, Kitahama, Chuo-ku, Osaka-shi, Osaka Sumitomo Metal Industries, Ltd. F-term (reference) 5B075 ND03 NK34 NR02 NR12 PR04 PR10 QM10

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 分野が未知である未知文書の特定分野に
対する関連度を求め、求めた関連度に基づいて前記未知
文書を前記特定分野に分類するか否かを判定する文書分
類方法において、前記未知文書から複数の単語を抽出す
るステップと、抽出した各単語について、予め準備され
ている、前記特定分野に属する文書でのその単語の出現
頻度を参照すると共に、予め準備されている、一般分野
に属する文書でのその単語の出現頻度を参照するステッ
プと、抽出した各単語における前記特定分野及び一般分
野での出現頻度の参照結果に従って前記関連度を求める
ステップとを有することを特徴とする文書分類方法。
1. A document classification method for determining a degree of relevance of an unknown document whose field is unknown to a specific field and determining whether to classify the unknown document into the specific field based on the obtained degree of relevance. Extracting a plurality of words from an unknown document, and for each extracted word, refer to the frequency of occurrence of the word in a document belonging to the specific field prepared in advance, and prepare in advance a general field A step of referring to the frequency of occurrence of the word in a document belonging to the document, and a step of calculating the degree of association in accordance with the result of referring to the frequency of appearance of the extracted word in the specific field and the general field. Classification method.
【請求項2】 未知文書に対して分類判定を行った後
に、該未知文書から抽出した単語を、その分類判定結果
に基づいて前記特定分野または一般分野での出現頻度に
組み込ませる請求項1記載の文書分類方法。
2. The method according to claim 1, wherein after performing classification judgment on the unknown document, a word extracted from the unknown document is incorporated into the appearance frequency in the specific field or the general field based on the classification judgment result. Document classification method.
【請求項3】 分野が未知である未知文書の特定分野に
対する関連度を求め、求めた関連度に基づいて前記未知
文書を前記特定分野に分類するか否かを判定する文書分
類装置において、前記特定分野に属する文書から抽出さ
れた単語の出現頻度を予め登録する第1登録手段と、一
般分野に属する文書から抽出された単語の出現頻度を予
め登録する第2登録手段と、前記未知文書から複数の単
語を抽出する手段と、抽出した各単語について、前記第
1登録手段及び第2登録手段に登録されているその単語
の出現頻度を参照し、その参照結果に従って前記関連度
を求める手段とを備えることを特徴とする文書分類装
置。
3. A document classification apparatus for determining the degree of relevance of an unknown document whose field is unknown to a specific field and determining whether to classify the unknown document into the specific field based on the obtained degree of relevance. First registration means for registering in advance the frequency of appearance of a word extracted from a document belonging to a specific field; second registration means for registering in advance the frequency of appearance of a word extracted from a document belonging to a general field; Means for extracting a plurality of words, means for referring to the frequency of appearance of the words registered in the first registration means and the second registration means for each of the extracted words, and means for obtaining the degree of association in accordance with the reference result A document classification device comprising:
【請求項4】 未知文書に対して分類判定を行った後
に、該未知文書から抽出した単語を、その分類判定結果
に基づいて、前記第1登録手段または第2登録手段が出
現頻度に追加登録するようにした請求項3記載の文書分
類装置。
4. After performing a classification judgment on an unknown document, the first registration means or the second registration means additionally registers a word extracted from the unknown document in the appearance frequency based on the classification judgment result. 4. The document classification device according to claim 3, wherein the document classification is performed.
【請求項5】 分野が未知である未知文書の特定分野に
対する関連度を求め、求めた関連度に基づいて前記未知
文書を前記特定分野に分類するか否かを判定するための
プログラムを記録してあるコンピュータでの読み取り可
能な記録媒体において、前記未知文書から複数の単語を
抽出することを前記コンピュータにさせるプログラムコ
ード手段と、抽出した各単語について、予め準備されて
いる、前記特定分野に属する文書でのその単語の出現頻
度を参照すると共に、予め準備されている、一般分野に
属する文書でのその単語の出現頻度を参照することを前
記コンピュータにさせるプログラムコード手段と、抽出
した各単語における前記特定分野及び一般分野での出現
頻度の参照結果に従って前記関連度を求めることを前記
コンピュータにさせるプログラムコード手段とを有する
ことを特徴とする記録媒体。
5. A program for determining a degree of relevance of an unknown document whose field is unknown to a specific field, and determining whether or not to classify the unknown document into the specific field based on the obtained degree of relevance. A computer-readable recording medium, the program code means for causing the computer to extract a plurality of words from the unknown document, and each extracted word belonging to the specific field, which is prepared in advance. A program code means for making the computer refer to the frequency of occurrence of the word in the document, and which is prepared in advance and referring to the frequency of appearance of the word in a document belonging to the general field; Causing the computer to determine the relevance according to the reference result of the frequency of appearance in the specific field and the general field. Recording medium having program code means.
【請求項6】 前記特定分野に属する文書から複数の単
語を抽出することを前記コンピュータにさせるプログラ
ムコード手段と、前記特定分野に属する文書から抽出さ
れた各単語の出現頻度を登録することを前記コンピュー
タにさせるプログラムコード手段と、前記一般分野に属
する文書から複数の単語を抽出することを前記コンピュ
ータにさせるプログラムコード手段と、前記一般分野に
属する文書から抽出された各単語の出現頻度を登録する
ことを前記コンピュータにさせるプログラムコード手段
とを更に有する請求項5記載の記録媒体。
6. A program code means for causing the computer to extract a plurality of words from a document belonging to the specific field, and registering an appearance frequency of each word extracted from the document belonging to the specific field. Registering program code means for causing a computer, program code means for causing the computer to extract a plurality of words from a document belonging to the general field, and appearance frequency of each word extracted from a document belonging to the general field 6. The recording medium according to claim 5, further comprising program code means for causing the computer to perform the above.
JP11049055A 1999-02-25 1999-02-25 Document sorting method and device and recording medium Pending JP2000250916A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11049055A JP2000250916A (en) 1999-02-25 1999-02-25 Document sorting method and device and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11049055A JP2000250916A (en) 1999-02-25 1999-02-25 Document sorting method and device and recording medium

Publications (1)

Publication Number Publication Date
JP2000250916A true JP2000250916A (en) 2000-09-14

Family

ID=12820411

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11049055A Pending JP2000250916A (en) 1999-02-25 1999-02-25 Document sorting method and device and recording medium

Country Status (1)

Country Link
JP (1) JP2000250916A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2004084096A1 (en) * 2003-03-19 2006-06-22 富士通株式会社 Case classification apparatus and method
JP2007122147A (en) * 2005-10-25 2007-05-17 Just Syst Corp Electronic message classification device and electronic message classification method
JP2014167835A (en) * 2014-06-18 2014-09-11 Ubic:Kk Document sorting system, control method of document sorting system, and control program of document sorting system
JP2018049310A (en) * 2016-09-20 2018-03-29 富士通株式会社 Message distribution program, message distribution device, and message distribution method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2004084096A1 (en) * 2003-03-19 2006-06-22 富士通株式会社 Case classification apparatus and method
US7370024B2 (en) * 2003-03-19 2008-05-06 Fujitsu Limited Case classification apparatus and method
JP2007122147A (en) * 2005-10-25 2007-05-17 Just Syst Corp Electronic message classification device and electronic message classification method
JP4688629B2 (en) * 2005-10-25 2011-05-25 株式会社ジャストシステム Electronic message classification device and electronic message classification method
JP2014167835A (en) * 2014-06-18 2014-09-11 Ubic:Kk Document sorting system, control method of document sorting system, and control program of document sorting system
JP2018049310A (en) * 2016-09-20 2018-03-29 富士通株式会社 Message distribution program, message distribution device, and message distribution method

Similar Documents

Publication Publication Date Title
JP6398510B2 (en) Entity linking method and entity linking apparatus
US7028250B2 (en) System and method for automatically classifying text
US7599926B2 (en) Reputation information processing program, method, and apparatus
JP5608817B2 (en) Target word recognition using specified characteristic values
CN106202124B (en) Webpage classification method and device
CN106940702A (en) Entity refers to the method and apparatus with entity in semantic knowledge-base in connection short text
US20070043690A1 (en) Method and apparatus of supporting creation of classification rules
US8606779B2 (en) Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
CN108829661B (en) News subject name extraction method based on fuzzy matching
JP2001256244A (en) Device and method for sorting image data
CN112347244A (en) Method for detecting website involved in yellow and gambling based on mixed feature analysis
CN109508460B (en) Unsupervised composition running question detection method and unsupervised composition running question detection system based on topic clustering
WO2020248377A1 (en) Information pushing method and apparatus, computer readable storage medium, and computer device
JP2013246826A (en) Attribute values alignment system for differently structured object instances, method and program of attribute values alignment system for differently structured object instances
CN109783483A (en) A kind of method, apparatus of data preparation, computer storage medium and terminal
JPH11250106A (en) Method for automatically retrieving registered trademark through the use of video information of content substrate
JP2000250916A (en) Document sorting method and device and recording medium
JPH069054B2 (en) Document automatic classifier
CN106844338A (en) Detection method based on the entity row of the network form of dependence between attribute
JP2002157262A (en) Classification rule definition supporting method
JP3929418B2 (en) Information search program and medium on which information search program is recorded
KR102269737B1 (en) Information Classification Method Based on Deep-Learning And Apparatus Thereof
CN114707003A (en) Method, equipment and storage medium for dissimilarity of names of thesis authors
JPH1139313A (en) Automatic document classification system, document classification oriented knowledge base creating method and record medium recording its program
JP3715413B2 (en) Similar document search apparatus and similar document search method