JP3264253B2 - Document automatic classification system and method - Google Patents

Document automatic classification system and method

Info

Publication number
JP3264253B2
JP3264253B2 JP23516698A JP23516698A JP3264253B2 JP 3264253 B2 JP3264253 B2 JP 3264253B2 JP 23516698 A JP23516698 A JP 23516698A JP 23516698 A JP23516698 A JP 23516698A JP 3264253 B2 JP3264253 B2 JP 3264253B2
Authority
JP
Japan
Prior art keywords
category
sub
categories
classification
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP23516698A
Other languages
Japanese (ja)
Other versions
JP2000067068A (en
Inventor
栄 島村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP23516698A priority Critical patent/JP3264253B2/en
Publication of JP2000067068A publication Critical patent/JP2000067068A/en
Application granted granted Critical
Publication of JP3264253B2 publication Critical patent/JP3264253B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、情報分類装置に関
し、特に、ドキュメントの自動分類システムに関する。
[0001] 1. Field of the Invention [0002] The present invention relates to an information classification device, and more particularly to an automatic document classification system.

【0002】[0002]

【従来の技術】従来の自動分類システムの一例とした、
例えば特開平10−111869号には、テキスト情報
あるいはマルチメディア情報等の情報を自動分類するに
際して、文書情報の再利用を図り分類精度を向上させる
ための多観点に基づいて自動分類する装置の構成が提案
されている。この従来の自動分類システムは、予め例と
して与えられた教師情報ドキュメントから、カテゴリの
特徴を抽出する教師情報特徴量抽出手段と、分類すべき
新規ドキュメントの特徴を抽出する新ドキュメント情報
特徴量抽出手段と、教師情報特徴量と新文書特徴量を比
較してもっとも適切なカテゴリへ分類する新ドキュメン
ト分類手段と、を備えて構成されている。
2. Description of the Related Art As an example of a conventional automatic classification system,
For example, Japanese Patent Application Laid-Open No. H10-111869 discloses a configuration of an apparatus for automatically classifying information such as text information or multimedia information based on various viewpoints for reusing document information and improving classification accuracy. Has been proposed. This conventional automatic classification system includes a teacher information feature amount extraction unit that extracts a feature of a category from a teacher information document given as an example in advance, and a new document information feature amount extraction unit that extracts a feature of a new document to be classified. And a new document classifying means for comparing the teacher information feature amount and the new document feature amount and classifying them into the most appropriate category.

【0003】このような構成を有する従来の自動分類シ
ステムは、概略、次のように動作する。すなわち、予め
カテゴリの特徴量をシステムに学習させるために教師デ
ータが与えられ、これをもとに各カテゴリの特徴量を求
める。
The conventional automatic classification system having such a configuration operates roughly as follows. That is, teacher data is provided in advance to allow the system to learn the feature amount of the category, and the feature amount of each category is obtained based on this.

【0004】次に、自動分類の対象となる新規ドキュメ
ントが与えられ、このドキュメントの特徴量を求めたの
ち、各カテゴリの特徴量と比較して、最も適切なカテゴ
リへ分類する。
[0004] Next, a new document to be automatically classified is provided, and the characteristic amount of the document is obtained. Then, the document is compared with the characteristic amount of each category and classified into the most appropriate category.

【0005】[0005]

【発明が解決しようとする課題】しかしながら、上記し
た従来の自動分類システムには、実際のドキュメントを
分類する場合、必ずしも一つのカテゴリへ分類されるこ
とが適切ではないという問題点を有している。
However, the above-mentioned conventional automatic classification system has a problem that it is not always appropriate to classify an actual document into one category when classifying an actual document. .

【0006】具体的には、例えば不特定多数の人によっ
て作成された雑多なドキュメントを分類する場合、多く
のカテゴリにまたがった内容のドキュメントを対象とす
ることが多い。
[0006] Specifically, for example, when classifying a variety of documents created by an unspecified number of people, it is often the case that documents whose contents span many categories are targeted.

【0007】このようなドキュメントをいずれか一つの
カテゴリへ分類してしまった場合、ドキュメントの再利
用時の検索の際に、他のカテゴリからの検索が不可能に
なってしまう。
[0007] If such a document is classified into any one of the categories, it becomes impossible to search from another category at the time of searching for reuse of the document.

【0008】また、正確に一つのカテゴリへの分類を決
定するようなアルゴリズムは、一般に、その計算処理に
時間を要し、このため、上記のように、必ずしも厳密な
分類を必要としない場合には、効率的でない、といえ
る。
Also, an algorithm that determines a classification into one category accurately requires a long time in its calculation process, and therefore, as described above, when an strict classification is not necessarily required, Is not efficient.

【0009】したがって本発明は、上記技術的課題の認
識に基づき創案されたものであって、その目的は、ドキ
ュメントをその内容にしたがって適切なカテゴリへ効率
的に分類し、検索を容易化する自動分類システム、装置
及び方法を提供することにある。
[0009] Therefore, the present invention has been made based on the recognition of the above technical problem, and an object of the present invention is to automatically classify documents into appropriate categories according to their contents, and to facilitate automatic search. It is to provide a classification system, apparatus and method.

【0010】[0010]

【課題を解決するための手段】前記目的を達成する本発
明の自動分類システムは、ドキュメントを複数のカテゴ
リに分類する手段と、ジャンルの表す内容に応じて、分
類先カテゴリの数を制限する手段と、を備え、ドキュメ
ントを、その内容にに即して複数の適するカテゴリへ分
類する、ように構成したものである。より詳細には、本
発明は、あるカテゴリに関していくつかのサブカテゴリ
に分けられた格納領域を持つデータ蓄積手段と、学習デ
ータを入力して前記各サブカテゴリの特徴を事前に学習
する特徴学習手段と、分類対象として与えられたドキュ
メントの特徴を解析し、それぞれのサブカテゴリの特徴
との意味的な距離から複数の格納先サブカテゴリを決定
する自動分類手段と、を備え、前記ドキュメントのカテ
ゴリの表す内容に応じて格納先サブカテゴリの最大数及
びその組み合わせを調整する。
According to the present invention, there is provided an automatic classification system for classifying documents into a plurality of categories and for limiting the number of categories to be classified according to the contents of a genre. And classifying documents into a plurality of suitable categories according to their contents. More specifically, the present invention provides a data storage unit having a storage area divided into several sub-categories for a certain category, a feature learning unit for inputting learning data and learning in advance the characteristics of each of the sub-categories, Automatic classification means for analyzing characteristics of a document given as a classification target and determining a plurality of storage destination sub-categories from a semantic distance from the characteristics of each sub-category; Adjust the maximum number of storage destination subcategories and their combinations.

【0011】また、本発明においては、異なる複数の分
類手段を備え、カテゴリの表す内容に応じて分類手段を
切り替える構成としてもよく、効率的に動作する。より
詳細には、前記自動分類手段が、異なる分類方式の複数
の自動分類手段よりなり、前記複数の分類手段のうちか
らカテゴリの表す内容に応じて適当な自動分類手段を選
択する手段と、をさらに備える。あるいは、前記自動分
類手段が、一つの分類手段を持ち、与えられた分類方式
を規定するデータにより、カテゴリの示す内容に応じて
分類の仕方を調整する。
In the present invention, a plurality of different classifying means may be provided, and the classifying means may be switched according to the content of the category, so that the operation is efficient. More specifically, the automatic classification means comprises a plurality of automatic classification means of different classification schemes, means for selecting an appropriate automatic classification means according to the content of the category from the plurality of classification means, Further prepare. Alternatively, the automatic classification means has one classification means, and adjusts a classification method in accordance with the contents indicated by the category, based on data defining a given classification method.

【0012】[0012]

【発明の実施の形態】次に本発明の実施の形態について
図面を参照して詳細に説明する。本発明の自動分類装置
は、その好ましい実施の形態において、カテゴリに対し
ていくつかのサブカテゴリに分けられた格納領域を持つ
データ蓄積手段と、事前にカテゴリ学習のために与えら
れるカテゴリ学習データを用いて学習しカテゴリ毎の特
徴データを抽出する特徴学習手段と、前記カテゴリ毎の
特徴データを基に分類対象ドキュメントを解析し、近い
内容の複数のサブカテゴリへ、予め設定させた複数分類
制約条件の範囲内で分類する自動分類手段と、を備え
る。
Embodiments of the present invention will now be described in detail with reference to the drawings. In a preferred embodiment, the automatic classification device of the present invention uses data storage means having storage areas divided into several sub-categories with respect to categories, and category learning data given in advance for category learning. Feature learning means for learning and extracting feature data for each category, analyzing a document to be classified based on the feature data for each category, and setting a plurality of sub-categories having similar contents to a range of a plurality of preset classification constraint conditions. Automatic classification means for classifying within.

【0013】この特徴学習手段は、カテゴリ学習データ
で与えられた学習データのうち同一のカテゴリに属する
ドキュメントを1つにマージし、該マージしたドキュメ
ント内に含まれる出現単語を抽出する前記各出現単語の
出現確率を計算し、サブカテゴリの簡便な特徴データを
生成する。また自動分類手段は、与えられた分類対象ド
キュメントの出現単語を抽出して前記各出現単語の出現
確率を計算し、前記各出現単語の出現確率を基に分類対
象ドキュメントの簡便な特徴データを生成し、分類対象
ドキュメントの簡便な特徴データと、特徴学習手段で生
成されたカテゴリ毎の特徴データから取り出し各サブカ
テゴリの特徴データとを比較し、類似するサブカテゴリ
の一覧リストを生成し、このリストから、予め与えられ
た複数分類制約条件の範囲内で複数のサブカテゴリへ自
動分類するように構成される。
The feature learning means merges documents belonging to the same category from the learning data given by the category learning data into one, and extracts the appearing words included in the merged document. Is calculated, and simple feature data of the subcategory is generated. Further, the automatic classification means extracts an appearance word of the given classification target document, calculates an appearance probability of each occurrence word, and generates simple feature data of the classification target document based on the occurrence probability of each occurrence word. Then, the simple feature data of the document to be classified is compared with the feature data of each sub-category extracted from the feature data of each category generated by the feature learning means, and a list of similar sub-categories is generated. From this list, It is configured to automatically classify into a plurality of sub-categories within a range of a predetermined multi-class constraint.

【0014】本発明の自動分類装置は、その好ましい第
2の実施に形態において、前記データ記憶手段が、カテ
ゴリについていくつかのサブカテゴリに分けられた格納
領域を備え、さらにそれぞれのサブカテゴリが再帰的に
いくつかのサブカテゴリに分けられた階層構造を成す格
納領域を有し、前記自動分類手段が、分類対象ドキュメ
ントと再帰的に前記データ蓄積手段から渡されるドキュ
メントのカテゴリと前記カテゴリ毎の特徴データを用い
て、分類対象ドキュメントを、近い内容の複数のサブカ
テゴリへ、複数分類制約条件の範囲内で分類する。
In a preferred second embodiment of the automatic classification apparatus of the present invention, the data storage means has a storage area divided into several sub-categories for each category, and each sub-category is recursively stored. A storage area having a hierarchical structure divided into several sub-categories, wherein the automatic classification unit uses the classification target document and the category of the document recursively passed from the data storage unit and the characteristic data for each category. Then, the classifying target document is classified into a plurality of subcategories having similar contents within the range of the plural classification constraint conditions.

【0015】また本発明の自動分類装置は、その好まし
い第3の実施に形態において、カテゴリについていくつ
かのサブカテゴリに分けられた格納領域を備え、さらに
それぞれのサブカテゴリが再帰的にいくつかのサブカテ
ゴリに分けられた階層構造を成す格納領域を有するデー
タ蓄積手段と、事前にカテゴリ学習のために与えられる
カテゴリ学習データを用いて学習しサブカテゴリの簡便
な特徴データと精密な特徴データを合わせてカテゴリ毎
の特徴データを生成する特徴学習手段と、前記カテゴリ
毎の特徴データを用いて近い内容の複数のサブカテゴリ
へ複数分類制約条件の範囲内で分類する第1の自動分類
手段と、前記カテゴリ毎の特徴データを用いて単一のサ
ブカテゴリに正確に分類する第2の自動分類手段と、自
動分類を行なう分類対象ドキュメントと再帰的に前記デ
ータ蓄積手段から渡されるドキュメントのカテゴリに応
じて、前記第1、及び第2の自動分類手段のいずれかを
選択するスイッチ手段、を備える。
In the third preferred embodiment, the automatic classification device of the present invention includes a storage area divided into several subcategories for each category, and each subcategory is recursively divided into several subcategories. A data storage means having a storage area having a divided hierarchical structure, and learning by using category learning data given in advance for category learning, and combining simple feature data and precise feature data of subcategories into each category. Feature learning means for generating feature data, first automatic classification means for classifying into a plurality of sub-categories having close contents using the feature data for each category within a range of a plurality of classification constraint conditions, and feature data for each category A second automatic classification means for accurately classifying into a single sub-category by using Depending on the document category that are passed from the recursively said data storage means and the target document, a switch means, for selecting one of the first and second automatic classification means.

【0016】本発明の自動分類装置は、その好ましい第
4の実施に形態において、カテゴリについていくつかの
サブカテゴリに分けられた格納領域を備え、さらにそれ
ぞれのサブカテゴリが再帰的にいくつかのサブカテゴリ
に分けられた階層構造を成す格納領域を有するデータ蓄
積手段と、事前にカテゴリ学習のために与えられるカテ
ゴリ学習データを用いて学習しサブカテゴリの簡便な特
徴データと精密な特徴データを合わせてカテゴリ毎の特
徴データを生成する特徴学習手段と、分類対象ドキュメ
ントと再帰的に前記データ蓄積手段から渡されるドキュ
メントのカテゴリと、前記カテゴリ毎の特徴データを基
に、分類方法を定義した規定ファイルの記述内容にした
がって適切な分類方式を選択して自動分類する自動分類
手段と、を備える。本発明の実施の形態において、特徴
学習手段、自動分類手段、スイッチ手段は、コンピュー
タ上で実行されるプログラムによりその機能を実現する
ようにしてもよい。この場合、上記プログラムを記録し
たFDD、CD−ROM等の記録媒体からコンピュータ
にプログラムを読み出して実行することで本発明を実施
することができる。以下実施例に即して詳細に説明す
る。
In the fourth preferred embodiment, the automatic classification device of the present invention comprises a storage area divided into several subcategories for each category, and each subcategory is recursively divided into several subcategories. Data storage means having a storage area forming a hierarchical structure and learning by using category learning data given for the category learning in advance, and combining the simple feature data and the precise feature data of the sub-category with the feature for each category. A feature learning unit for generating data, a category of the document to be classified and a document category recursively passed from the data storage unit, and a description of a specification file defining a classification method based on the feature data for each category. Automatic classification means for selecting an appropriate classification method and performing automatic classification In the embodiment of the present invention, the features of the feature learning unit, the automatic classification unit, and the switch unit may be realized by a program executed on a computer. In this case, the present invention can be implemented by reading a program from a recording medium such as an FDD or a CD-ROM in which the program is recorded and executing the program. Hereinafter, the present invention will be described in detail with reference to examples.

【0017】[0017]

【実施例】図1は、本発明の第1の実施例の構成を示す
図である。図1を参照すると、本発明の第1の実施例
は、あるカテゴリについていくつかのサブカテゴリに分
けられた格納領域を持つデータ蓄積手段1と、事前にカ
テゴリ学習のためにシステムに与えられるカテゴリ学習
データ5を用いてカテゴリ毎の特徴データ7を抽出する
特徴学習手段2と、カテゴリ毎の特徴データ7を基に、
自動分類を行なう分類対象ドキュメント6を解析して、
近い内容の複数のサブカテゴリへ、複数分類制約データ
8の範囲内で分類する自動分類手段3と、を備えて構成
されている。
FIG. 1 is a diagram showing the configuration of a first embodiment of the present invention. Referring to FIG. 1, a first embodiment of the present invention relates to a data storage means 1 having a storage area divided into several sub-categories for a certain category, and a category learning provided to a system in advance for category learning. Based on feature learning means 2 for extracting feature data 7 for each category using data 5 and feature data 7 for each category,
Analyzing the classification target document 6 for performing automatic classification,
Automatic classification means 3 for classifying into a plurality of sub-categories having similar contents within the range of the plurality of classification constraint data 8.

【0018】次に、本発明の第1の実施例の動作につい
て説明する。まず、自動分類を行なう前にシステムがサ
ブカテゴリ毎の特徴を学習する必要がある。
Next, the operation of the first embodiment of the present invention will be described. First, it is necessary for the system to learn the characteristics of each subcategory before performing automatic classification.

【0019】図5は、本発明の第1の実施例における特
徴学習手段2の処理動作を説明するため流れ図である。
図1及び図5を参照して、特徴学習手段2の動作につい
て説明する。
FIG. 5 is a flowchart for explaining the processing operation of the feature learning means 2 in the first embodiment of the present invention.
The operation of the feature learning means 2 will be described with reference to FIGS.

【0020】まず、カテゴリ学習データ5で与えられた
学習データのうち同一のカテゴリに属するドキュメント
を1つにマージする(ステップS201)。
First, the documents belonging to the same category among the learning data given by the category learning data 5 are merged into one (step S201).

【0021】次に、このマージしたドキュメント内に含
まれる出現単語を切り出し、抽出する(ステップS20
2)。この各出現単語の出現確率を計算し(ステップS
203)、このサブカテゴリの簡便な特徴データを生成
する(ステップS204)。これを全サブカテゴリにつ
いて計算するまで繰り返す(ステップS205)。
Next, the words appearing in the merged document are cut out and extracted (step S20).
2). The appearance probability of each occurrence word is calculated (step S
203), and generate simple feature data of this sub-category (step S204). This is repeated until calculation is performed for all sub-categories (step S205).

【0022】ここで得られたカテゴリ毎の特徴データ7
を基に、新たに与えられる分類対象ドキュメントの自動
分類を行なう。
The characteristic data 7 for each category obtained here
Automatically classifies a newly given document to be classified based on.

【0023】図6は、本発明の第1の実施例における自
動分類手段3の処理動作を説明するための流れ図であ
る。図1及び図6を参照して、自動分類手段3の動作に
ついて説明する。
FIG. 6 is a flowchart for explaining the processing operation of the automatic classifying means 3 in the first embodiment of the present invention. The operation of the automatic classification means 3 will be described with reference to FIGS.

【0024】全てのサブカテゴリの特徴データをカテゴ
リ毎の特徴データ7から取り出す(ステップS30
1)。
The feature data of all the sub-categories is extracted from the feature data 7 for each category (step S30).
1).

【0025】新たに与えられた分類対象ドキュメントの
出現単語を切り出し(ステップS302)、各出現単語
の出現確率を計算する(ステップS303)。
An appearance word of the newly given classification target document is cut out (step S302), and an appearance probability of each occurrence word is calculated (step S303).

【0026】各出現単語の出現確率を基に、ドキュメン
トの簡便な特徴データを生成する(ステップS30
4)。
Based on the appearance probabilities of the respective appearance words, simple feature data of the document is generated (step S30).
4).

【0027】ステップS304で生成されたこの特徴デ
ータと、ステップS301で取り出した各サブカテゴリ
の特徴データとを比較し(ステップS305)、類似す
るサブカテゴリの一覧リストを生成する(ステップS3
06)。
The feature data generated in step S304 is compared with the feature data of each subcategory extracted in step S301 (step S305), and a list of similar subcategories is generated (step S3).
06).

【0028】このリストから、予め与えられた複数分類
制約データ8の範囲内で複数のサブカテゴリへ自動分類
する(ステップS307)。
From this list, automatic classification into a plurality of sub-categories is performed within the range of the predetermined plural-classification constraint data 8 (step S307).

【0029】ステップS301〜S307の処理を与え
られた新規ドキュメント全てに対して行なう(ステップ
S308)。
The processing of steps S301 to S307 is performed for all the given new documents (step S308).

【0030】図12は、本発明の第1の実施例における
複数分類制約データ8の一例を示す図である。図12を
参照すると、この複数分類制約データ8には、カテゴリ
名801、カテゴリ毎の同時に分類を許す最大サブカテ
ゴリ数802、同時に分類することを禁止するサブカテ
ゴリの組み合わせ803が、カテゴリ毎に定義されてい
る。図12に示す例の場合、カテゴリ名がスポーツのカ
テゴリについて、同時分類可能な最大数は「3」、制約
事項(Restriction)として、同時に分類することを禁
止するサブカテゴリの組み合せとして、サッカーと野
球、サッカーとゴルフ、空手と野球の組み合せが規定さ
れている。
FIG. 12 is a diagram showing an example of the multiple classification constraint data 8 in the first embodiment of the present invention. Referring to FIG. 12, in the multiple classification constraint data 8, a category name 801, a maximum number of sub-categories 802 for which simultaneous classification is permitted for each category, and a combination 803 of sub-categories for which simultaneous classification is prohibited are defined for each category. I have. In the case of the example shown in FIG. 12, the maximum number of categories that can be classified simultaneously is “3” for the category of sports, and as a combination of subcategories that are prohibited from being classified at the same time as restrictions (Restriction), soccer and baseball, Combinations of soccer and golf, karate and baseball are specified.

【0031】次に、本発明の第2の実施例について説明
する。図2は、本発明の第2の実施例の構成を示す図で
ある。図2を参照すると、本発明の第2の実施例は、あ
るカテゴリについていくつかのサブカテゴリに分けられ
た格納領域を備え、さらにそれぞれのサブカテゴリが再
帰的にいくつかのサブカテゴリに分けられた階層構造を
成す格納領域を有するデータ蓄積手段10を備え、前記
第1の実施例の特徴学習手段2と、分類対象となるドキ
ュメント6と、再帰的にデータ蓄積手段10から渡され
るドキュメントをカテゴリ毎の特徴データ7を用いて近
い内容の複数のサブカテゴリへ複数分類制約データ8の
範囲内で分類する自動分類手段31と、を備えて構成さ
れている。
Next, a second embodiment of the present invention will be described. FIG. 2 is a diagram showing the configuration of the second embodiment of the present invention. Referring to FIG. 2, a second embodiment of the present invention includes a storage area divided into several sub-categories for a certain category, and each sub-category is recursively divided into several sub-categories. And a data storage unit 10 having a storage area satisfying the following conditions. The feature learning unit 2 of the first embodiment, the document 6 to be classified, and the document recursively passed from the data storage unit 10 are classified by category. Automatic classification means 31 for classifying data into a plurality of subcategories having similar contents within the range of the plurality of classification constraint data 8 using the data 7.

【0032】本発明の第2の実施例の動作について説明
する。本発明の第2の実施例において、サブカテゴリ毎
の特徴学習の方法としては、特徴学習手段2において、
前記第1の実施例の説明で参照した図5に流れ図として
示す処理と同様の動作を行なう。ここで得られたカテゴ
リ毎の特徴データ7を基に新たに与えられるドキュメン
トの自動分類を行なう。
The operation of the second embodiment of the present invention will be described. In the second embodiment of the present invention, as a feature learning method for each sub-category,
The same operation as the processing shown as a flowchart in FIG. 5 referred to in the description of the first embodiment is performed. Based on the characteristic data 7 for each category obtained here, a document to be newly given is automatically classified.

【0033】本発明の第2の実施例におけるデータ蓄積
手段10では、それぞれのカテゴリが再帰的にサブカテ
ゴリに分割されている階層構造を備えている。自動分類
の際には、まず、最上位のサブカテゴリ分類を行ない、
次にそれぞれのサブカテゴリに含まれているドキュメン
トを再帰的に自動分類手段31に与え、さらに詳細なサ
ブカテゴリへ自動分類する。
The data storage means 10 according to the second embodiment of the present invention has a hierarchical structure in which each category is recursively divided into sub-categories. When performing automatic classification, first perform the top-level sub-category classification,
Next, the documents included in the respective subcategories are recursively given to the automatic classification means 31 to automatically classify the documents into more detailed subcategories.

【0034】図7は、本発明の第2の実施例における自
動分類手段31の処理動作を説明するための流れ図であ
る。図7に示すように、本発明の第2の実施例における
自動分類手段31の動作は、図6を参照して説明した前
記第1の実施例における自動分類手段3の処理動作とほ
ぼ同様とされており、自動分類動作の始めに分類するド
キュメントの属するカテゴリから分類すべきサブカテゴ
リを求めてその特徴データをカテゴリ毎の特徴データ7
から取り出す処理(図7のステップS311)が、図6
のステップS301と相違している。図7の流れ図にお
いて、ステップS312〜ステップS318は、図6の
流れ図における各ステップS302〜ステップS308
に対応する。
FIG. 7 is a flowchart for explaining the processing operation of the automatic classification means 31 in the second embodiment of the present invention. As shown in FIG. 7, the operation of the automatic classification means 31 in the second embodiment of the present invention is substantially the same as the processing operation of the automatic classification means 3 in the first embodiment described with reference to FIG. The sub-category to be classified is obtained from the category to which the document to be classified belongs at the beginning of the automatic classification operation, and the characteristic data is converted into the characteristic data for each category
6 (step S311 in FIG. 7) corresponds to FIG.
Is different from step S301 of FIG. In the flowchart of FIG. 7, steps S312 to S318 are performed in steps S302 to S308 in the flowchart of FIG.
Corresponding to

【0035】次に、本発明の第3の実施例について説明
する。図3は、本発明の第3の実施例の構成を示す図で
ある。図3を参照すると、本発明の第3の実施例は、前
記第2の実施例におけるデータ蓄積手段10を備えると
共に、予め与えられるカテゴリ学習データ5を用いてカ
テゴリ毎の特徴データ71を抽出する特徴学習手段20
と、カテゴリ毎の特徴データ7を用いて近い内容の複数
のサブカテゴリへ複数分類制約データ8の範囲内で分類
する第1の自動分類手段31と、同じくカテゴリ毎の特
徴データ71を用いて単一のサブカテゴリに正確に分類
する第2の自動分類手段32と、自動分類を行なう分類
対象ドキュメント6と再帰的にデータ蓄積手段10から
渡されるドキュメントのカテゴリに応じて、第1、第2
の自動分類手段31、32のいずれかを選択するスイッ
チ4と、を備えて構成されている。
Next, a third embodiment of the present invention will be described. FIG. 3 is a diagram showing the configuration of the third exemplary embodiment of the present invention. Referring to FIG. 3, a third embodiment of the present invention includes the data storage means 10 of the second embodiment, and extracts feature data 71 for each category using category learning data 5 given in advance. Feature learning means 20
A first automatic classification means 31 for classifying into a plurality of sub-categories having similar contents within the range of the plural classification constraint data 8 using the characteristic data 7 for each category, and a single The second automatic classifying means 32 for accurately classifying the document into the subcategories, the classification target document 6 for performing the automatic classification, and the first and second categories according to the category of the document recursively passed from the data storage means 10.
And a switch 4 for selecting one of the automatic classification means 31 and 32.

【0036】次に本発明の第3の実施例の動作について
説明する。まず、自動分類を行なう前にシステムがサブ
カテゴリ毎の特徴を学習する必要がある。
Next, the operation of the third embodiment of the present invention will be described. First, it is necessary for the system to learn the characteristics of each subcategory before performing automatic classification.

【0037】図9は、本発明の第3の実施例における特
徴学習手段20の処理動作を説明するための流れ図であ
る。図3及び図9を参照して、特徴学習手段20の動作
について説明する。
FIG. 9 is a flow chart for explaining the processing operation of the feature learning means 20 according to the third embodiment of the present invention. The operation of the feature learning means 20 will be described with reference to FIGS.

【0038】まず、カテゴリ学習データ5で与えられた
学習データのうち同一のカテゴリに属するドキュメント
を1つにマージする(ステップS251)。
First, the documents belonging to the same category among the learning data given by the category learning data 5 are merged into one (step S251).

【0039】次に、このマージしたドキュメント内に含
まれる出現単語を切り出し、抽出する(ステップS25
2)。この各出現単語の出現確率を計算し(ステップS
253)、このサブカテゴリの簡便な特徴データを生成
する(ステップS254)。
Next, the words appearing in the merged document are cut out and extracted (step S25).
2). The appearance probability of each occurrence word is calculated (step S
253), and generate simple feature data of this sub-category (step S254).

【0040】また、これとは別に各単語の出現確率から
このサブカテゴリの精密な特徴データも生成する(ステ
ップS255)。
Apart from this, precise feature data of this subcategory is also generated from the appearance probability of each word (step S255).

【0041】この2種類の特徴データを合わせてカテゴ
リ毎の特徴データ71を生成する。これを全サブカテゴ
リについて計算するまで繰り返す(ステップS25
6)。
The two types of feature data are combined to generate feature data 71 for each category. This is repeated until calculation is performed for all subcategories (step S25)
6).

【0042】ここで得られたカテゴリ毎の特徴データ7
1をもとに、新たに与えられるドキュメントの自動分類
を行なう。このシステムは、分類対象ドキュメント6と
再帰的にデータ蓄積手段10から、与えられるドキュメ
ントの属しているカテゴリに応じて、スイッチ4が、複
数のカテゴリへ分類する第1の自動分類手段31か、も
しくは、正確に単一のカテゴリへ分類する第2の自動分
類手段32のいずれかを選択する。
The characteristic data 7 for each category obtained here
1, a new document is automatically classified. In this system, according to a category to which a given document belongs, the switch 4 recursively receives data from the classification target document 6 and the data storage means 10 according to the first automatic classification means 31 for classifying the document into a plurality of categories, or , One of the second automatic classifying means 32 that classifies the data into a single category accurately.

【0043】この選択の基準として、サブカテゴリの表
す内容が重なりやすいカテゴリでは第1の自動分類手段
31を選び、サブカテゴリの表す内容が同時に記述され
にくいカテゴリでは第2の自動分類手段32を選択する
ようスイッチ4内に設定されている。
As a criterion for this selection, the first automatic classification means 31 is selected in a category in which the contents represented by the sub-categories are likely to overlap, and the second automatic classification means 32 is selected in a category in which the contents represented by the sub-categories are difficult to be described simultaneously. It is set in the switch 4.

【0044】図8は、本発明の第3の実施例における自
動分類手段32の処理動作を説明するための流れ図であ
る。図3及び図8を参照して、自動分類手段32の動作
について説明する。
FIG. 8 is a flow chart for explaining the processing operation of the automatic classifying means 32 in the third embodiment of the present invention. The operation of the automatic classification means 32 will be described with reference to FIGS.

【0045】スイッチ4から渡された分類対象ドキュメ
ントのカテゴリに属するサブカテゴリの精密な特徴デー
タをカテゴリ毎の特徴データ71から取り出す(ステッ
プS321)。
The precise feature data of the subcategory belonging to the category of the document to be categorized passed from the switch 4 is extracted from the feature data 71 for each category (step S321).

【0046】与えられたドキュメントの出現単語を切り
出し(ステップS322)、各出現単語の出現確率を計
算する(ステップS323)。それをもとにドキュメン
トの精密な特徴データを生成する(ステップS32
4)。
The appearance words of the given document are cut out (step S322), and the appearance probability of each appearance word is calculated (step S323). Based on this, precise document feature data is generated (step S32).
4).

【0047】ステップS324で生成された特徴データ
とステップS321で取り出したサブテゴリの特徴デー
タを比較し(ステップS325)、類似するサブカテリ
をリストアップする(ステップS326)。
The feature data generated in step S324 is compared with the feature data of the sub-category extracted in step S321 (step S325), and similar subcategories are listed (step S326).

【0048】このリストからもっとも類似するサブカテ
ゴリのみに与えられたドキュメントを自動分類する。
(ステップS327)。
Documents assigned to only the most similar subcategory from this list are automatically classified.
(Step S327).

【0049】ステップS321〜ステップS321の処
理を与えられた新規ドキュメント全てに対して行なう
(ステップS328)。
The processes of steps S321 to S321 are performed on all the given new documents (step S328).

【0050】次に本発明の第4の実施例について説明す
る。図4は、本発明の第4の実施例の構成を示す図であ
る。図4を参照すると,本発明の第4の実施例は、前記
第2の実施例で説明したものと同様のデータ蓄積手段1
0を備え、予め与えられるカテゴリ学習データ5を用い
てカテゴリ毎の特徴データ71を抽出する特徴学習手段
20と、分類対象ドキュメント6および再帰的にデータ
蓄積手段10から渡されるドキュメントをカテゴリ毎の
特徴データ72を基に、分類方法規定ファイル8の記述
内容にしたがって適切な分類方式を選択して自動分類さ
せる自動分類手段35と、を備えた構成されている。
Next, a fourth embodiment of the present invention will be described. FIG. 4 is a diagram showing the configuration of the fourth embodiment of the present invention. Referring to FIG. 4, a fourth embodiment of the present invention is similar to the data storage means 1 described in the second embodiment.
0, and a feature learning unit 20 for extracting feature data 71 for each category using category learning data 5 given in advance, and a classification target document 6 and a document passed recursively from the data storage unit 10 are classified by a feature for each category. An automatic classification means 35 for selecting an appropriate classification method according to the description contents of the classification method definition file 8 based on the data 72 and automatically classifying the selected data.

【0051】図10は、本発明の第4の実施例における
自動分類手段35の処理動作を説明するための流れ図で
ある。また図11は、図10のステップ355の詳細を
示す流れ図である。図4及び図10を参照して、この自
動分類手段35の動作について説明する。
FIG. 10 is a flowchart for explaining the processing operation of the automatic classification means 35 in the fourth embodiment of the present invention. FIG. 11 is a flowchart showing details of step 355 in FIG. The operation of the automatic classification means 35 will be described with reference to FIGS.

【0052】入力された分類対象ドキュメントのカテゴ
リに属するサブカテゴリの精密な特徴データをカテゴリ
毎の特徴データ71から取り出す(ステップS35
1)。
The precise feature data of the subcategory belonging to the category of the input document to be classified is extracted from the feature data 71 for each category (step S35).
1).

【0053】与えられたドキュメントの出現単語を切り
出し(ステップS352)、各出現単語の出現確率を計
算する(ステップS353)。それをもとにドキュメン
トの精密な特徴データを生成する(ステップS35
4)。
The appearance words of the given document are cut out (step S352), and the appearance probability of each appearance word is calculated (step S353). Based on this, precise document feature data is generated (step S35).
4).

【0054】次に予め与えられる分類方法規定ファイル
81に規定されている分類方式で自動分類を行なう(ス
テップS355)。図11を参照すると、ステップ35
5の処理は、ドキュメントの特徴データとステップS3
51で取り出した各サブカテゴリの特徴データを比較し
(ステップS3551)、類似する複数のカテゴリへ分
類する処理(ステップS3553)、同じく最も類似す
る単一のカテゴリへ分類する処理(ステップS355
4)、特徴データを比較せずに、特定単語の出現のみを
頼りに分類先を決定する処理(ステップS3552)の
うちのいずれかを選択する。
Next, automatic classification is performed according to the classification method specified in the classification method specification file 81 given in advance (step S355). Referring to FIG. 11, step 35
The processing of step 5 is performed by combining the document characteristic data with the step S3.
The feature data of each sub-category extracted in 51 is compared (step S3551), and the data is classified into a plurality of similar categories (step S3553), and the data is classified into the single most similar category (step S355)
4) Select any one of the processes (step S3552) for determining a classification destination only based on the appearance of a specific word without comparing feature data.

【0055】そしてステップS351からステップ35
5の処理を、与えられた全てのドキュメントに対して行
なう(ステップS356)。
Steps S351 to S35
Step 5 is performed for all the given documents (step S356).

【0056】[0056]

【発明の効果】以上説明したように、本発明によれば、
下記記載の効果を奏する。
As described above, according to the present invention,
The following effects are obtained.

【0057】本発明の第1の効果は、複数のカテゴリの
内容を含むドキュメントを適切に分類することができ
る、ということである。
A first effect of the present invention is that a document including the contents of a plurality of categories can be appropriately classified.

【0058】その理由は、本発明が、複数分類を許す分
類方式よりなり、複数分類するカテゴリ数と組み合わせ
を調整するように構成されている、ためである。
The reason is that the present invention has a classification system that allows a plurality of classifications, and is configured to adjust the number of categories to be classified and the combination.

【0059】本発明の第2の効果は、階層的なカテゴリ
を持つ場合に、効率的に分類することができる、という
ことである。
The second effect of the present invention is that, when there is a hierarchical category, classification can be performed efficiently.

【0060】その理由は、本発明においては、サブカテ
ゴリの内容が同時に同一ドキュメントに記述されやすい
カテゴリでは簡便なアルゴリズムで高速に複数分類し、
サブカテゴリの内容が同一ドキュメントに記述されにく
いカテゴリでは精密なアルゴリズムで正確に分類する、
ように構成したことによる。
The reason is that, in the present invention, in a category in which the contents of sub-categories are easily described in the same document at the same time, a plurality of classifications are performed at high speed by a simple algorithm.
For categories where the content of subcategories is difficult to describe in the same document, classify accurately with a precise algorithm,
This is due to such a configuration.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施例の構成を示すブロック図
である。
FIG. 1 is a block diagram showing a configuration of a first exemplary embodiment of the present invention.

【図2】本発明の第2の実施例の構成を示すブロック図
である。
FIG. 2 is a block diagram showing a configuration of a second exemplary embodiment of the present invention.

【図3】本発明の第3の実施例の構成を示すブロック図
である。
FIG. 3 is a block diagram illustrating a configuration of a third exemplary embodiment of the present invention.

【図4】本発明の第4の実施例の構成を示すブロック図
である。
FIG. 4 is a block diagram showing a configuration of a fourth embodiment of the present invention.

【図5】本発明の第1、第2の実施例における特徴学習
手段2の動作を説明するための流れ図である。
FIG. 5 is a flowchart for explaining the operation of the feature learning means 2 in the first and second embodiments of the present invention.

【図6】本発明の第1の実施例における自動分類手段3
の動作を説明するための流れ図である。
FIG. 6 shows an automatic classification unit 3 according to the first embodiment of the present invention.
3 is a flowchart for explaining the operation of FIG.

【図7】本発明の第2、第3の実施例における自動分類
手段31の動作を説明するための流れ図である。
FIG. 7 is a flowchart for explaining the operation of the automatic classification means 31 in the second and third embodiments of the present invention.

【図8】本発明の第3の実施例における自動分類手段3
2の動作を説明するための流れ図である。
FIG. 8 shows an automatic classification unit 3 according to a third embodiment of the present invention.
9 is a flowchart for explaining the operation of the second embodiment.

【図9】本発明の第3、及び第4の実施例における特徴
学習手段20の動作を説明するための流れ図である。
FIG. 9 is a flowchart for explaining the operation of the feature learning means 20 in the third and fourth embodiments of the present invention.

【図10】本発明の第4の実施例における自動分類手段
35の動作を説明するための流れ図である。
FIG. 10 is a flowchart for explaining the operation of the automatic classification means 35 according to the fourth embodiment of the present invention.

【図11】本発明の第4の実施例における自動分類手段
35の動作の詳細を説明するための流れ図である。
FIG. 11 is a flowchart for explaining the details of the operation of the automatic classification means 35 according to the fourth embodiment of the present invention.

【図12】本発明の第1の実施例における複数分類制約
データ8の一例を示す図である。
FIG. 12 is a diagram illustrating an example of multiple classification constraint data 8 according to the first embodiment of this invention.

【符号の説明】[Explanation of symbols]

1、10 データ蓄積手段 2、20 特徴学習手段 3、30、31、32、35 自動分類手段 4 スイッチ 5 カテゴリ学習データ 6 分類対象ドキュメント 7、71 カテゴリ毎の特徴データ 8 複数分類制約データ 1, 10 Data storage means 2, 20 Feature learning means 3, 30, 31, 32, 35 Automatic classification means 4 Switch 5 Category learning data 6 Classification target document 7, 71 Feature data for each category 8 Multiple classification constraint data

Claims (14)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】あるカテゴリに関していくつかのサブカテ
ゴリに分けられた格納領域を持つデータ蓄積手段と、 学習データを入力して前記各サブカテゴリの特徴を事前
に学習する特徴学習手段と、 分類対象として与えられたドキュメントの特徴を解析
し、それぞれのサブカテゴリの特徴との意味的な距離か
ら複数の格納先サブカテゴリを決定する自動分類手段
と、を備え、 前記ドキュメントのカテゴリの表す内容に応じて格納先
サブカテゴリの最大数及びその組み合わせを調整する、
ように構成されてなる、ことを特徴とする自動分類シス
テム。
1. A data storage means having a storage area divided into several sub-categories for a certain category, a feature learning means for inputting learning data and learning in advance the characteristics of each of the sub-categories, Automatically classifying means for analyzing the characteristics of the obtained document and determining a plurality of storage destination sub-categories from a semantic distance from the characteristics of the respective sub-categories, and storing destination sub-categories according to the content represented by the category of the document. Adjust the maximum number and combinations of
An automatic classification system characterized by being configured as follows.
【請求項2】前記データ蓄積手段が、前記サブカテゴリ
がさらに再帰的にいくつかのサブカテゴリに分けられ階
層構造をなす格納領域を有する、ことを特徴とする請求
項1の自動分類システム。
2. The automatic classification system according to claim 1, wherein said data storage means has a storage area in which said sub-categories are further recursively divided into several sub-categories and form a hierarchical structure.
【請求項3】前記自動分類手段が、分類対象ドキュメン
トと再帰的に前記データ蓄積手段から渡されるドキュメ
ントのカテゴリと前記カテゴリ毎の特徴データを用い
て、分類対象ドキュメントを、近い内容の複数のサブカ
テゴリへ、複数分類制約条件の範囲内で分類する、こと
を特徴とする請求項2記載の自動分類システム。
3. The automatic classifying means classifies a document to be classified into a plurality of sub-categories having similar contents by using a document to be classified and a category of the document recursively passed from the data storage means and characteristic data for each category. 3. The automatic classification system according to claim 2, wherein classification is performed within a range of a plurality of classification constraint conditions.
【請求項4】前記自動分類手段が、異なる分類方式を持
つ複数の分類手段と、前記複数の分類手段のうちからカ
テゴリの表す内容に応じて適当な分類方式を選択する手
段と、をさらに備えることを特徴とする請求項2の自動
分類システム。
4. The automatic classification means further comprises: a plurality of classification means having different classification schemes; and a means for selecting an appropriate classification scheme from the plurality of classification means in accordance with the content of a category. 3. The automatic classification system according to claim 2, wherein:
【請求項5】前記自動分類手段が、一つの分類手段を持
ち、与えられた分類方式を規定するデータにより、カテ
ゴリの示す内容に応じて分類の仕方を調整する手段をさ
らに備えることを特徴とする請求項2の自動分類システ
ム。
5. The automatic classification means has one classification means, and further comprises means for adjusting a classification method in accordance with the contents indicated by the category based on data defining a given classification method. 3. The automatic classification system according to claim 2, wherein:
【請求項6】カテゴリに対していくつかのサブカテゴリ
に分けられた格納領域を持つデータ蓄積手段と、 事前にカテゴリ学習のために与えられるカテゴリ学習デ
ータを用いて学習しカテゴリ毎の特徴データを抽出する
特徴学習手段と、 前記カテゴリ毎の特徴データを基に分類対象ドキュメン
トを解析し、近い内容の複数のサブカテゴリへ、予め設
定させた複数分類制約条件の範囲内で分類する自動分類
手段と、 を備えていることを特徴とする自動分類装置。
6. A data storage means having a storage area divided into several sub-categories with respect to a category, and learning using category learning data given in advance for category learning to extract feature data for each category. Automatic classification means for analyzing a classification target document based on the characteristic data for each category, and classifying the documents into a plurality of subcategories having similar contents within a range of a preset plural classification constraint condition. An automatic classification device, comprising:
【請求項7】前記特徴学習手段が、カテゴリ学習データ
で与えられた学習データのうち同一のカテゴリに属する
ドキュメントを1つにマージする手段と、 該マージしたドキュメント内に含まれる出現単語を抽出
する前記各出現単語の出現確率を計算する手段と、 サブカテゴリの簡便な特徴データを生成する手段と、 を含むことを特徴とする請求項6記載の自動分類装置。
7. The feature learning means for merging documents belonging to the same category among learning data given as category learning data into one, and extracting an appearing word included in the merged document. 7. The automatic classification apparatus according to claim 6, further comprising: means for calculating an appearance probability of each of the appearance words; and means for generating simple feature data of a subcategory.
【請求項8】前記自動分類手段が、与えられた分類対象
ドキュメントの出現単語を抽出して前記各出現単語の出
現確率を計算する手段と、 前記各出現単語の出現確率を基に前記分類対象ドキュメ
ントの簡便な特徴データを生成する手段と、 前記分類対象ドキュメントの簡便な特徴データと、前記
特徴学習手段で生成されたカテゴリ毎の特徴データから
取り出した各サブカテゴリの特徴データとを比較し、類
似するサブカテゴリの一覧リストを生成する手段と、 前記生成されたリストから、予め与えられた複数分類制
約条件の範囲内で複数のサブカテゴリへ自動分類する手
段と、 を含むことを特徴とする請求項6記載の自動分類装置。
8. An automatic classification means for extracting an appearance word of a given document to be classified and calculating an appearance probability of each of the appearance words; Means for generating simple feature data of the document; comparing the simple feature data of the classification target document with the feature data of each sub-category extracted from the feature data for each category generated by the feature learning means; 7. A means for generating a list of sub-categories to be performed, and means for automatically classifying the generated list into a plurality of sub-categories within a predetermined range of a plurality of classification constraint conditions. Automatic classification device as described.
【請求項9】前記データ記憶手段が、カテゴリについて
いくつかのサブカテゴリに分けられた格納領域を備え、
さらにそれぞれのサブカテゴリが再帰的にいくつかのサ
ブカテゴリに分けられた階層構造を成す格納領域を有
し、 前記自動分類手段が、分類対象ドキュメントと、再帰的
に前記データ蓄積手段から渡されるドキュメントのカテ
ゴリと、前記カテゴリ毎の特徴データとを用いて、分類
対象ドキュメントを、近い内容の複数のサブカテゴリ
へ、複数分類制約条件の範囲内で分類する、ことを特徴
とする請求項6記載の自動分類装置。
9. The data storage means includes a storage area divided into several sub-categories for a category,
Further, each of the sub-categories has a storage area having a hierarchical structure recursively divided into a number of sub-categories, wherein the automatic classifying means includes a classification target document and a category of a document which is recursively passed from the data storage means. 7. The automatic classification device according to claim 6, wherein the classification target document is classified into a plurality of subcategories having similar contents within a range of a plurality of classification constraint conditions using the feature data for each category. .
【請求項10】カテゴリについていくつかのサブカテゴ
リに分けられた格納領域を持つデータ蓄積手段を備え、 事前にカテゴリ学習データを入力して前記各サブカテゴ
リの特徴を学習しカテゴリ毎の特徴データを作成してお
き、 分類対象ドキュメントを自動分類するに際して、サブカ
テゴリの特徴データを前記カテゴリ毎の特徴データから
取り出し、前記分類対象ドキュメントについて特徴デー
タを生成し、前記生成された特徴データと前記取り出さ
れた各サブカテゴリの特徴データとを比較し、類似する
サブカテゴリの一覧をリストアップし、この一覧から、
予め与えられた複数分類データの制約条件の範囲内で複
数のサブカテゴリへ自動分類する、 ことを特徴とする自動分類方法。
10. A data storage means having a storage area divided into a number of sub-categories with respect to a category, wherein category learning data is input in advance to learn features of each of the sub-categories, and feature data for each category is created. When automatically classifying the document to be classified, the feature data of the sub-category is extracted from the feature data for each category, feature data is generated for the document to be classified, and the generated feature data and each of the extracted sub-categories are extracted. , And a list of similar subcategories is listed. From this list,
An automatic classification method characterized by automatically classifying into a plurality of sub-categories within a predetermined range of constraint conditions of a plurality of classification data.
【請求項11】カテゴリについていくつかのサブカテゴ
リに分けられた格納領域を備え、さらにそれぞれのサブ
カテゴリが再帰的にいくつかのサブカテゴリに分けられ
た階層構造を成す格納領域を有するデータ蓄積手段を備
え、 事前にカテゴリ学習データを入力して前記各サブカテゴ
リの特徴を学習しカテゴリ毎の特徴データを作成してお
き、 分類対象ドキュメントを自動分類するに際して、前記分
類対象ドキュメントと、再帰的に前記データ蓄積手段か
ら渡されるドキュメントのカテゴリと、前記カテゴリ毎
の特徴データと、を用いて、分類対象ドキュメントを、
近い内容の複数のサブカテゴリへ、複数分類制約条件の
範囲内で分類する、ことを特徴とする自動分類方法。
11. A data storage means comprising a storage area divided into several sub-categories for each category, and further comprising a storage area having a hierarchical structure in which each sub-category is recursively divided into several sub-categories, The category learning data is input in advance to learn the characteristics of each of the sub-categories to create feature data for each category. When automatically classifying the classification target documents, the classification target documents and the data storage means Using the category of the document passed from and the feature data for each category, the classification target document,
An automatic classification method characterized by classifying into a plurality of subcategories having similar contents within a range of a plurality of classification constraint conditions.
【請求項12】前記分類対象ドキュメントの属するカテ
ゴリから分類すべきサブカテゴリを求めてその特徴デー
タを前記カテゴリ毎の特徴データから取り出す処理を行
い、最上位のサブカテゴリ分類を行ない、次にそれぞれ
のサブカテゴリに含まれているドキュメントを再帰的に
自動分類することで、より詳細なサブカテゴリへ自動分
類する、ことを特徴とする請求項1記載の自動分類方
法。
12. A sub-category to be classified is determined from the category to which the document to be classified belongs, and the characteristic data is extracted from the characteristic data for each category, the top sub-category is classified, and then the sub-category is classified. the including document by recursively automatic classification and automatic classification into more detailed sub-categories, automatic classification method of claim 1 1, wherein a.
【請求項13】あるカテゴリに関していくつかのサブカ
テゴリに分けられた格納領域を持つデータ蓄積手段を備
え、 (a)事前にカテゴリ学習データを入力して前記各サブ
カテゴリの特徴を学習してカテゴリ毎の特徴データを作
成する処理、 (b)分類対象ドキュメントを自動分類するに際して、
サブカテゴリの特徴データを前記カテゴリ毎の特徴デー
タから取り出し、前記分類対象ドキュメントについて特
徴データを生成し、前記生成された特徴データと前記取
り出された各サブカテゴリの特徴データとを比較し、類
似するサブカテゴリの一覧をリストアップし、このリス
トから、予め与えられた複数分類データの制約条件の範
囲内で複数のサブカテゴリへ自動分類する処理、 の上記(a)及び(b)の各処理をコンピュータ上で実
行させるためのプログラムを記録した記録媒体。
13. A data storage means having a storage area divided into a number of sub-categories with respect to a certain category. (A) Category learning data is input in advance to learn the characteristics of each of the sub-categories, and (B) When automatically classifying the documents to be classified,
The feature data of the sub-category is extracted from the feature data of each category, the feature data is generated for the classification target document, the generated feature data is compared with the feature data of each of the extracted sub-categories, A list is listed up, and from the list, processing of automatically classifying into a plurality of sub-categories within the range of the constraint condition of a plurality of classification data given in advance is executed on a computer by the above-described processing of (a) and (b). A recording medium on which a program for causing a program to be recorded is recorded.
【請求項14】カテゴリについていくつかのサブカテゴ
リに分けられた格納領域を備え、さらにそれぞれのサブ
カテゴリが再帰的にいくつかのサブカテゴリに分けられ
た階層構造を成す格納領域を有するデータ蓄積手段を備
え、 (a)事前にカテゴリ学習データを入力して前記各サブ
カテゴリの特徴を学習してカテゴリ毎の特徴データを作
成する処理、 (b)分類対象ドキュメントと再帰的に前記データ蓄積
手段から渡されるドキュメントのカテゴリと前記カテゴ
リ毎の特徴データを用いて、分類対象ドキュメントを、
近い内容の複数のサブカテゴリへ、複数分類制約条件の
範囲内で分類する処理、 の上記(a)及び(b)の各処理をコンピュータ上で実
行させるためのプログラムを記録した記録媒体。
14. A data storage means comprising a storage area divided into several sub-categories with respect to a category, and further comprising a storage area having a hierarchical structure in which each sub-category is recursively divided into several sub-categories, (A) a process of inputting category learning data in advance and learning features of each of the sub-categories to create feature data for each category; and (b) a process of retrieving documents to be classified and documents recursively passed from the data storage means. Using the category and the feature data for each category, the document to be classified is
A recording medium for recording a program for causing a computer to execute the above-described processes (a) and (b) of a process of classifying into a plurality of subcategories having similar contents within a range of a plurality of classification constraint conditions.
JP23516698A 1998-08-21 1998-08-21 Document automatic classification system and method Expired - Fee Related JP3264253B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23516698A JP3264253B2 (en) 1998-08-21 1998-08-21 Document automatic classification system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23516698A JP3264253B2 (en) 1998-08-21 1998-08-21 Document automatic classification system and method

Publications (2)

Publication Number Publication Date
JP2000067068A JP2000067068A (en) 2000-03-03
JP3264253B2 true JP3264253B2 (en) 2002-03-11

Family

ID=16982046

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23516698A Expired - Fee Related JP3264253B2 (en) 1998-08-21 1998-08-21 Document automatic classification system and method

Country Status (1)

Country Link
JP (1) JP3264253B2 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002024243A (en) * 2000-07-07 2002-01-25 Shimadzu Corp Scientific information browse system and host computer and browsing computer used for the same
JP2006065366A (en) * 2004-08-24 2006-03-09 Nec Corp Keyword classification device, its method, terminal device, and program
US20060136467A1 (en) * 2004-12-17 2006-06-22 General Electric Company Domain-specific data entity mapping method and system
US20060271379A1 (en) * 2005-05-26 2006-11-30 Jason Resnick Intellectual property analysis and report generating system and method
JP5288959B2 (en) * 2008-09-17 2013-09-11 三菱電機株式会社 Data classification apparatus and computer program
JP4745424B2 (en) * 2009-06-05 2011-08-10 株式会社東芝 Document classification apparatus and document classification program
US11315551B2 (en) * 2019-11-07 2022-04-26 Accent Global Solutions Limited System and method for intent discovery from multimedia conversation

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3577822B2 (en) * 1996-02-14 2004-10-20 富士ゼロックス株式会社 Information presentation apparatus and information presentation method
JPH09223150A (en) * 1996-02-16 1997-08-26 Nippon Telegr & Teleph Corp <Ntt> Information classification processing method
JPH10111869A (en) * 1996-10-07 1998-04-28 Fujitsu Ltd Device and method for information classification
JPH10116290A (en) * 1996-10-11 1998-05-06 Mitsubishi Electric Corp Document classification managing method and document retrieving method

Also Published As

Publication number Publication date
JP2000067068A (en) 2000-03-03

Similar Documents

Publication Publication Date Title
US6654744B2 (en) Method and apparatus for categorizing information, and a computer product
US7627176B2 (en) Apparatus, method, and computer program for analyzing document layout
JP4540970B2 (en) Information retrieval apparatus and method
WO2022001682A1 (en) Control object query method and apparatus for vehicle-mounted system
US20180046708A1 (en) System and Method for Automatic Detection and Clustering of Articles Using Multimedia Information
Tursun et al. Component-based attention for large-scale trademark retrieval
CN101278350B (en) Method and apparatus for automatically generating a playlist by segmental feature comparison
JP4893861B1 (en) Character string detection apparatus, image processing apparatus, character string detection method, control program, and recording medium
JP3264253B2 (en) Document automatic classification system and method
JPH10162020A (en) Browsing method for image data base
CN115618014A (en) Standard document analysis management system and method applying big data technology
JP2002007433A (en) Information sorter, information sorting method, computer readable recording medium recorded with information sorting program and information sorting program
JP2010061176A (en) Text mining device, text mining method, and text mining program
KR20230062251A (en) Apparatus and method for document classification based on texts of the document
Feng et al. Multiple style exploration for story unit segmentation of broadcast news video
JP2009098811A (en) Document sorting apparatus and program
US7715631B2 (en) Method and apparatus for extracting feature information, and computer product
JP4423385B2 (en) Document classification support apparatus and computer program
JP4055976B2 (en) Document image processing method, document image processing apparatus, and recording medium
JP2000148788A (en) Device and method for extracting title area from document image and document retrieving method
JP4305921B2 (en) Video topic splitting method
JP2006107354A (en) Automatic classification method and program, storage medium, and automatic classification device
Liu et al. NewsBR: a content-based news video browsing and retrieval system
JP2000181936A (en) Document feature extracting device and document classifying device
CN116978060A (en) Bird identification method and system

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20011127

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071228

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081228

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091228

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091228

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101228

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101228

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111228

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111228

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121228

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121228

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131228

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees