JP2000222431A - Document classifying device - Google Patents

Document classifying device

Info

Publication number
JP2000222431A
JP2000222431A JP2648399A JP2648399A JP2000222431A JP 2000222431 A JP2000222431 A JP 2000222431A JP 2648399 A JP2648399 A JP 2648399A JP 2648399 A JP2648399 A JP 2648399A JP 2000222431 A JP2000222431 A JP 2000222431A
Authority
JP
Grant status
Application
Patent type
Prior art keywords
category
document
document information
pattern
means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2648399A
Other languages
Japanese (ja)
Inventor
Hiroyoshi Konaka
裕喜 小中
Original Assignee
Mitsubishi Electric Corp
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Abstract

PROBLEM TO BE SOLVED: To select a category to be appropriately classified and make document information storable according to the category by selecting a category from which a characteristic pattern whose weight is the highest is extracted among collected characteristic patterns and storing document information that is not classified yet in the selected category. SOLUTION: A storing means 10 classified document information having a keyword set having a keyword characterizing the contents of a document corresponding to a document number, etc., to a corresponding category and stores it. An extracting means 20 extracts a characteristic pattern having a keyword whose rate of being included in the keyword set of the stored document information is high in each category and gives weight. Then, a characteristic pattern collecting means 30 collects character patterns including a part of a keyword set of unclassified document information. A selecting means 40 selects a category from which a characteristic pattern whose weight is the highest among the collected characteristic patterns and stores the unclassified document information.

Description

【発明の詳細な説明】 DETAILED DESCRIPTION OF THE INVENTION

【0001】 [0001]

【発明の属する技術分野】本発明はあらかじめ文書情報を分類し格納したものの中に未だ分類がなされていない文書情報(未分類文書情報と称す)を、その内容に適したカテゴリを選定した後、このカテゴリへ格納する文書分類装置に関するものである。 The present invention is the document information that is not yet classified is made among those stored classifies the pre-document information BACKGROUND OF THE INVENTION (called unclassified document information), after selecting the category appropriate to its contents, it relates to the document classification device that stores to this category.

【0002】 [0002]

【従来の技術】個々のキーワードの統計情報に基づいて分類を行う技術としては、特開昭63−214832号公報、特開平1−188934号公報、特開平5−54 As a technique for classifying on the basis of the Related Art Individual keyword statistics, JP 63-214832 and JP Hei 1-188934, JP-A No. 5-54
037号公報、特開平5−342272号公報、特開平6−75995号公報などがある。 037, JP-A No. 5-342272 and JP-the like Hei 6-75995 discloses. これら公報に記載されたものは、あるカテゴリに属する文書における個々のキーワードの出現頻度といった情報をカテゴリへの貢献度とするとともに、未分類文書情報に含まれる個々の単語の貢献度をカテゴリごとに加算して各カテゴリへの関連度とし、最大の関連度をもつカテゴリへと分類し、格納するものである。 Those described in these publications, as well as information such as frequency of occurrence of individual keywords in documents belonging to a category and contribution to category, individual words contributions contained in unclassified document information categorized adding to the relevance for each category, classified into categories with the highest relevance is for storing. また特開平8−221439号公報はニューラルネットワークを利用して分類を行うものである。 Also JP-A-8-221439 is intended to perform classification using a neural network.

【0003】分類決定木によるものとしては特開平5− [0003] due to the classification decision tree Japanese Patent Application Laid-Open 5
233706号公報、特開平5−234726号公報、 233706, JP-A No. 5-234726, JP-
特開平9−16570号公報などがある。 And the like Hei 9-16570 discloses. これらの公報に記載されたものは、キーワードやその他の文書情報の有無をもとに分類を決定する木を予め構成しておき、それを利用して分類を決定するものである。 Those described in these publications, previously constituting a tree which determines the classification based on the presence or absence of keywords or other document information is what determines the classification by using it.

【0004】 [0004]

【発明が解決しようとする課題】個々のキーワードの統計情報に基づいて分類を行う場合、各キーワードのカテゴリへの貢献度が加算される結果、分類に寄与したキーワードの組合せを判別するのが困難であり、利用者がその分類の良否を判断することが難しい。 When performing a classification based on THE INVENTION Problems to be Solved] individual keyword statistics, results contribution to each keyword category is added, difficult to determine a combination of keywords that contributed to the classification in it, it is difficult to determine the quality of the classification user. また例えば複数ある内のあるカテゴリ(例えばカテゴリAとする)にはキーワードa及びキーワードbを共に含む文書を、その他のカテゴリ(つまりカテゴリA以外のカテゴリ)にはキーワードaもしくはキーワードbのうちのいずれか一方と共に他のキーワードを含むような文書を分類していて、 The addition, for example documents in certain of the plurality of categories (eg, Category A) containing both the keyword a and the keyword b, any of the keywords a or keyword b Other categories (i.e. other than Category A Category) one together have classified the documents, such as including the other keywords or,
そこにキーワードa、キーワードb両方のキーワードを含む未分類文書を分類する場合を考える。 There keyword a, consider the case to classify the unclassified documents that contain both keywords b keyword.

【0005】各キーワードの貢献度の算出において、キーワードの総出現文書数に応じて重みが小さくなるような重みづけの方法を用いている場合、キーワードa、キーワードbの両方を含む未分類の文書情報のカテゴリAへの関連度が小さく算出され、その未分類の文書情報に含まれるキーワードのうち総出現文書数が少ないキーワードの貢献度に左右されて、他のカテゴリに分類されるといった問題があった。 [0005] In the calculation of the contribution of each keyword, the case of using weighting methods, such as the weight depending on the total number of occurrences document keyword decreases, keyword a, unclassified documents that contain both keywords b information is of relevance is calculated as a small value to the category a, its being dependent on the total occurrences document fewer keywords contribution of the keywords contained in the unclassified document information, a problem is in other categories there were.

【0006】一方、分類決定木を構成する方法では、冗長性のない決定木を構成するため、例えば複数あるカテゴリのうちのあるカテゴリ(カテゴリBとする)にあるいくつかのキーワード(キーワードa、キーワードbとする)のいずれかを含む文書を分類しようとしたとき、 On the other hand, in the method of constructing the classification decision tree, to configure the non-redundant decision tree, for example, some keywords that certain of the plurality of categories in the category (a category B) (keyword a, when an attempt is made to classify documents that contain any of the keywords and b),
たまたま予めカテゴリBに分類された文書がキーワードb Document the keyword b, which happens to have been classified in advance category B
を含むものばかりとなっていれば、決定木として例えばキーワードbがあればカテゴリBに分類するというものが構成され、キーワードaだけを含む文書を分類する知識が得られないことになる。 If it only intended to include, it is configured those that fall into the category B, if the decision tree example the keyword b, will not obtain knowledge of classifying documents containing keywords only a.

【0007】本発明の目的は、従来技術における上記のような問題点を解決するためになされたものであり、いくつかのカテゴリに分類された文書情報集合と未分類文書情報とが与えられ、キーワードの組合せで出現する場合にも対応し、かつ適切な分類すべきカテゴリを選定し格納することが可能となる文書分類装置を得ることである。 An object of the present invention has been made to solve the above-mentioned problems in the prior art, some the document information collection is categorized and unclassified document information is given, also supports the case of occurrence of a combination of keywords, and it is possible to obtain a document sorting apparatus makes it possible to select the should appropriate classification category stored.

【0008】 [0008]

【課題を解決するための手段】この発明に係る文書分類装置は、文書番号および前記文書番号に対応する文書の内容を特徴づけるキーワードを有するキーワード集合を有する文書情報を対応するカテゴリに分類して格納する格納手段と、前記格納手段の各カテゴリを特徴付けるための情報であって、前記カテゴリに格納された文書情報のキーワード集合に含まれる割合が高いキーワードを有する特徴パターンを前記格納手段の各カテゴリ毎に抽出するとともに、前記抽出した特徴パターンに重みを付与する抽出手段と、未だ分類されていない文書情報のキーワード集合の一部または全部を含む特徴パターンをカテゴリ毎に収集する特徴パターン収集手段と、前記特徴パターン収集手段により収集した特徴パターンのうち、その重みが最も高い Means for Solving the Problems A document classification apparatus according to the present invention classifies the document information with a keyword set having a keyword characterizing the contents of the document corresponding to the document ID and the document ID in the corresponding category storage means for storing an information for characterizing each category of the storage unit, each category of the storage means the characteristic pattern having a keyword high proportion contained in the keyword set of the document information stored in the category is extracted for each, and extracting means for applying a weight to the feature pattern the extracted, and the feature pattern collection means for collecting characteristic pattern for each category that includes some or all of the keyword set of the document information that has not yet been classified of the feature pattern collected by the feature pattern collection means, the highest weight thereof 徴パターンを抽出したカテゴリを選定し、前記選定したカテゴリへ未だ分類されていない文書情報を格納する選定手段とを備えたことを特徴とするものである。 Select a category extracting the symptoms pattern, is characterized in that a selection means for storing the selected the document information that has not yet been classified into categories.

【0009】この発明に係る文書分類装置は、抽出した特徴パターンに付与する重みを、特徴パターンに対応するカテゴリに格納された全ての文書情報のうち、前記特徴パターンを含むキーワード集合を有する文書情報の割合としたことを特徴とするものである。 [0009] document classification apparatus according to the present invention, the weight to be given to the extracted feature patterns, of all of the document information stored in the category corresponding to the characteristic pattern, document information with a keyword set containing the feature pattern it is characterized in that the ratio between the.

【0010】この発明に係る文書分類装置は、抽出した特徴パターンに付与する重みを、特徴パターンを含むキーワード集合をもつ全カテゴリの文書のうち、当該特徴パターンに対応するカテゴリに属する文書の割合としたことを特徴とするものである。 [0010] document classification apparatus according to the present invention, the weight to be given to the extracted feature patterns, among documents all categories with a keyword set including the feature pattern, and percentage of documents belonging to the category corresponding to the characteristic pattern it is characterized in that the.

【0011】この発明に係る文書分類装置は、格納手段に格納した所定の文書情報の集合において、カテゴリの特徴パターンに対する条件付きエントロピーを前記特徴パターンに付与する重みとしたことを特徴とするものである。 [0011] document classification apparatus according to the present invention, the predetermined set of document information stored in the storage means, characterized in that it has a weight which imparts conditional entropy for the feature pattern of categories on the feature pattern is there.

【0012】この発明に係る文書分類装置は、抽出した特徴パターンに付与する重みに前記特徴パターンを構成するキーワード数を乗じたものを前記特徴パターンに付与する重みとしたことを特徴とするものである。 [0012] document classification apparatus according to the invention, are multiplied by the number of keywords constituting the feature pattern to the weight to be given to the extracted feature pattern characterized in that it has a weight to be applied to the feature pattern is there.

【0013】この発明に係る文書分類装置は、文書番号および前記文書番号に対応する文書の内容を特徴づけるキーワードを有するキーワード集合を有する文書情報を対応するカテゴリに分類して格納する格納手段と、前記格納手段の各カテゴリを特徴付けるための情報であって、前記カテゴリに格納された文書情報のキーワード集合に含まれる割合が高いキーワードを有する特徴パターンを前記格納手段の各カテゴリ毎に抽出する抽出手段と、未だ分類されていない文書情報のキーワード集合の一部または全部を含む特徴パターンをカテゴリ毎に収集する特徴パターン収集手段と、前記未だ分類されていない文書情報がカテゴリへ属するのが適切とするべき確率を各カテゴリ毎に算出するとともに、前記確率が最も大きなカテゴリを選定し [0013] document classification apparatus according to the present invention, a storage unit for storing and classifying the document information with a keyword set having a keyword characterizing the contents of the document corresponding to the document ID and the document ID in the corresponding category, wherein an information for characterizing each category storage means, extracting means for extracting a feature pattern having a keyword high proportion contained in the keyword set of the document information stored in the category for each category of the storage unit When a feature pattern collection means for collecting feature pattern including a part or all of the keyword set of the document information that has not yet been classified in each category, document information the not yet classified that belongs to the category and appropriate to calculate the probability for each category to the probability to select the most significant categories 前記選定したカテゴリへ未だ分類されていない文書情報を格納する選定手段とを備えたことを特徴とするものである。 It is characterized in that a selection means for storing the selected the document information that has not yet been classified into categories.

【0014】この発明に係る文書分類装置は、選定手段は、前記特徴パターン収集手段により収集した特徴パターンのうち、その重みが高い特徴パターンを抽出したカテゴリまたは前記未だ分類されていない文書情報がカテゴリへ属するのが適切とするべき確率が高い特徴パターンを抽出したカテゴリを選定し、前記選定手段により選定したカテゴリの情報を表示するように構成したことを特徴とするものである。 [0014] document classification apparatus according to the present invention, the selection means, the feature of the feature pattern collected by the pattern acquisition means, the category or the document information which is not yet classified its weight was extracted high characteristic pattern category probability to belong to is appropriate to select a category extracting the high feature pattern and is characterized by being configured to display information category selected by said selecting means.

【0015】この発明に係る文書分類装置は、入力した特徴パターンが格納手段に格納された文書情報の中にあるかどうかを検索する文書情報検索手段を備えたことを特徴とするものである。 The document classification apparatus according to the present invention, is characterized in that it comprises a document information retrieval means for retrieving whether in the document information input characteristic patterns stored in the storing means.

【0016】 [0016]

【発明の実施の形態】実施の形態1. DETAILED DESCRIPTION OF THE INVENTION Embodiment 1. 以下本発明の実施の一形態を説明する。 Hereinafter will be described an embodiment of the present invention. 図1は実施の形態1の文書分類装置を説明するための図である。 Figure 1 is a diagram for explaining a document classification apparatus of the first embodiment. 図において、10は格納手段、20は抽出手段、30は特徴パターン収集手段、 In the figure, the storage means 10, 20 extracting unit, 30 feature pattern collection means,
選定手段、40は選定手段、50は文書情報入力手段である。 Selecting means, 40 selection means, 50 is a document information input means.

【0017】格納手段10は、例えばハードディスク、 [0017] storage means 10, for example, a hard disk,
フィレキシブルディスク等のような磁気記録媒体、MOディスクなどのような光磁気記録媒体といったように高い記憶容量を有する情報記憶媒体を有するものである。 The magnetic recording medium such as Fi lexical Bull disk and has an information storage medium having a high storage capacity as such a magneto-optical recording medium such as an MO disc. 格納手段10は予めその内部にいくつかのカテゴリを有する。 Storage means 10 has several categories in advance therein. 各カテゴリには予め文書に対応する番号を付与した文書番号である文書ID、およびこの文書の内容を特徴づけるキーワードを少なくとも1つ有するキーワード集合を含む文書情報が格納されている。 Article ID Each category is a document number assigned a number corresponding to the pre-document, and document information including a keyword set having at least one keyword to characterize the content of the document is stored.

【0018】カテゴリへの分類は例えばK平均法など何らかのクラスタリングアルゴリズムを用いたものでもよいし、あるいは人手で行ったものでもよい。 [0018] The classification of the categories may be one may be one using some kind of clustering algorithm such as, for example, K-average method, or made in the manual. 格納データ形式の簡単な例としては、例えば各カテゴリに 文書ID1:キーワード1、キーワード2. A simple example of a storage data format, for example, the document to each category ID1: Keywords 1, keyword 2. . . 文書ID2:キーワード1、キーワード2. Document ID2: keyword 1, keyword 2. . . というように、複数の文書情報を文書情報の集合として1つのファイルとしたものなどがある。 So on, it is such as those with a single file a plurality of document information as a set of document information.

【0019】文書の内容そのものは、この文書の文書I [0019] The content itself of the document, a document of this document I
Dと対応づけて取り出せるように格納している。 Storing the retrieval in association with D. 例えば、文書に対応する格納手段10の各カテゴリに文書の内容に関する情報を格納しても良いし、または格納手段10とは別体の格納手段(図示せず)に格納してもよい。 For example, it may be stored information about the contents of the document to each category of the storage unit 10 corresponding to the document, or the storage unit 10 may be stored in separate storage means (not shown).

【0020】キーワード集合は文書情報の内容から予め人手で付与しておいてもよいし、予め機械(図示せず) [0020] It keyword sets may have been granted in advance by hand from the contents of the document information, (not shown) in advance machine
などにより文書情報の内容を解析し、その結果を利用して付与してもよい。 Analyzes the contents of the document information and the like, it may be applied by utilizing the result. また「コンピューター」、「計算機」などを例えば「コンピュータ」という統一したキーワードとして表すというようにその意味が同じである用語を1つの統一したキーワードとして表すようにすれば、いわゆる表記ゆれ、同義語を考慮しかつ、統一したキーワードの付与が可能となる。 The "Computer", if so expressed as keywords its meaning is unified term of one is the same as that expressed as keywords unified as "computer", for example, such as "computer", fluctuation called notation, synonyms consideration of life and death, unified keyword of the grant is made possible.

【0021】特徴パターン抽出手段20は、格納手段1 The characteristic pattern extracting means 20, storage means 1
0に格納された文書情報のキーワード集合から、各カテゴリの文書情報を特徴づける1つもしくはそれ以上のキーワードの連言である特徴パターンをカテゴリごとに抽出するとともに、抽出した特徴パターンに重みを付与するものである。 From keyword set of the document information stored in the 0, giving a weight to with the extracted feature patterns of one or more keywords of the feature pattern is a conjunctive characterize the document information of each category is extracted for each category it is intended to. 以上の処理は実際に未分類の文書情報を与えられて分類を行う前に処理しておくことが可能である。 The above processing it is possible to make processed before performing the actual classification given the document information unclassified.

【0022】未分類文書入力手段50は格納手段10に未だ分類されていない文書の文書情報(未分類文書情報と称す)に含まれるキーワード集合を特徴パターン収集手段30へ送る。 The unclassified document input unit 50 sends the keyword set included in the document information of the document that has not yet been classified in the storage unit 10 (referred to as unclassified document information) to the feature pattern collection means 30. 特徴パターン収集手段30は、特徴パターン抽出手段20が抽出した特徴パターンのうち、未分類文書情報のキーワード集合の一部または全部を含む特徴パターンをカテゴリ毎に収集する。 Feature pattern collection means 30, of the characteristic pattern, wherein the pattern extraction unit 20 has extracted, collected the characteristic pattern including a part or all of the keyword set of unclassified document information for each category.

【0023】選定手段40は特徴パターン収集手段により収集した各カテゴリの特徴パターンのうち、その重みが最大となるものを、そのカテゴリへの関連度とし、関連度が最大のカテゴリを選定した後、選定したカテゴリへ未分類文書情報を格納する。 The selection means 40 of the characteristic patterns of each category collected by the feature pattern collection means, what the weight is maximum, and relevance to the category, after the degree of association was selected maximum category, to store the unclassified document information to the selected category.

【0024】このように構成することにより、未分類文書情報を文書の内容に応じたカテゴリへ逐次格納することが可能となる。 [0024] With this configuration, it is possible to sequentially store into categories according unclassified document information on the content of the document.

【0025】特徴パターン抽出手段20により各カテゴリから抽出する特徴パターンとしては、例えばカテゴリの支持率が高い特徴パターン、カテゴリの確信度が高い特徴パターン、これら2つがいずれも高い特徴パターン等がある。 [0025] As the characteristic pattern extracted from each category by the feature pattern extraction means 20, for example, the category of supporting high rate characteristic pattern, the category of confidence is high characteristic patterns, these two are both are highly characteristic pattern, or the like.

【0026】ここで、支持率、確信度を以下のように定義する。 [0026] Here, the supporting ratio is defined as follows confidence. カテゴリの支持率とは、少なくとも1つのキーワードを有する特徴パターンを備えた文書情報に対し、 The categories of support rate, to document information having a feature pattern having at least one keyword,
カテゴリに属する文書情報集合のうち、当該特徴パターンを構成する全てのキーワードを含むキーワード集合を備えた文書情報の割合とする。 Of document information set belonging to the category, and the percentage of the document information with a keyword set containing all the keywords that constitutes the feature pattern. カテゴリの確信度とは、 The confidence of the category,
当該特徴パターンを構成する全てのキーワードを含むキーワード集合を備えた文書情報を格納する全てのカテゴリのうち、当該カテゴリに属する文書情報の割合とする。 Of all the categories for storing document information including a keyword set containing all the keywords that constitute the characteristic pattern, a percentage of the document information belonging to the category. このように支持率、確信度が高い特徴パターンはそのカテゴリに属する文書情報を特徴づけるもの情報となりうる。 Thus approval rating, characteristic patterns high confidence may be information that characterizes the document information in that category.

【0027】特徴パターン抽出手段20より抽出した特徴パターンとして例えば、格納する文書情報の数が50 [0027] For example as a characteristic pattern extracted from the feature pattern extraction means 20, the number of document information to be stored 50
であるカテゴリCに対応して「コンピュータ」および「ネットワーク」を共にキーワードとして有する特徴パターンが支持率40%、確信度80%で抽出されたとする。 Feature pattern having at which correspond to the category C as a keyword both "computer" and "network" 40% support ratio, and extracted with confidence of 80%. これはカテゴリCに格納された全文書情報のうち、 This is one of the full-text document information stored in the category C,
「コンピュータ」および「ネットワーク」というキーワードを含むキーワード集合を有するものがカテゴリCの全文書情報のうちの40%すなわち20の文書情報がこれに相当し、それは格納手段10の中の全カテゴリに格納された文書情報の中で、「コンピュータ」および「ネットワーク」というキーワードを含むキーワード集合を有する文書情報のうちの80%がカテゴリCに格納された文書情報であることを意味する。 Document information 40% or 20 corresponds to the out of all the document information that is the category C with a keyword set including the keyword "computer" and "network", it is stored in all categories in the storage means 10 in the document information, it means that 80% of the document information with a keyword set including the keyword "computer" and "network" is a document information stored in the category C.

【0028】実施の形態1では、特徴パターン抽出手段20は、例えばあるカテゴリにおいて、予め定められた値以上の最小支持率と予め定められた値以上の最小確信度とを有するものを特徴パターンとして抽出するものを例に説明する。 [0028] In the first embodiment, the characteristic pattern extracting means 20, for example, in a category, those having a minimum confidence predetermined value or more with a predetermined minimum value more support rate as a feature pattern those extracted as an example.

【0029】図2は、格納手段10、特徴パターン抽出手段20の具体的な構成の一例を説明するための図である。 FIG. 2 is a diagram for explaining an example of a specific configuration of the storage unit 10, the characteristic pattern extracting means 20. 図において図1と同一の符号を付したものは同一またはこれに相当するものである。 Figure 1 that the same reference numerals as in figure corresponds to the same or it. 図において、11は、 In the figure, 11 is,
文書ID、文書IDに対応するキーワード集合をカテゴリに分類して、格納する記録部であり、記録部11は例えばハードディスク装置、MOディスクまたはフロッピーディスクなどを装着したディスク駆動装置などである。 Classified document ID, a keyword set corresponding to the document ID to the category, a recording unit for storing, recording unit 11, for example a hard disk drive, a disk drive unit equipped with an MO disk or a floppy disk and the like. 12は、記録部11に記録された文書ID、文書I 12, document ID recorded in the recording unit 11, the document I
Dに対応するキーワード集合をカテゴリ毎に読み出して記憶するとともに、後述する制御部21により指定されたカテゴリに格納された文書ID、文書IDに対応するキーワード集合を有する文書情報を後述する候補パターン生成部24に出力する文書情報記憶部である。 The keyword collection corresponding stores reads every category D, generating candidate patterns to be described later document information with the document ID stored in the specified category by the control unit 21 described later, the keyword set corresponding to the document ID a document information storage unit to be output to the section 24.

【0030】また文書情報記憶部12は、多支持パターン集合生成部22または高確信度パターン出力部23によりカテゴリとパターンが指定されると、指定されたカテゴリにおいて、指定されたパターンを含むキーワード集合をが出現する文書情報の数を計算し、多支持パターン集合生成部22または高確信度パターン出力部23に出力する。 Further the document information storage unit 12, the multi-support pattern set generating unit 22 or the category and the pattern by high confidence pattern output section 23 is designated, in a given category, keyword set containing the specified pattern the calculates the number of document information appearing, and outputs the multi-support pattern set generating unit 22 or the high confidence pattern output unit 23. 文書情報記憶部12は、各文書情報において、指定されたパターンが出現するか否かを検査する場合、その文書情報を構成するキーワード集合の一部または全部がそのパターンに一致するか否かを検査する。 Document information storage section 12 in each document information, if the specified pattern is examined whether the appearance, whether some or all of the keywords set forming the document information matches the pattern inspect.

【0031】したがって、この検査を効率的に行うために、ハッシュテーブルやハッシュ木を用いて各文書情報のキーワード集合に対して部分集合となる可能性のあるパターンを絞り込んだり、各パターン、文書情報においてキーワード集合を整列したり、あるいはビットパターンで表すようにしてもよい。 [0031] Therefore, in order to perform this test efficiently narrow down the possible pattern comprising a subset for the keyword set of the document information using a hash table or a hash tree, each pattern, the document information it may be represented by ordered or or bit pattern, the keyword set in. なお、文書情報記憶部12 The document information storage section 12
を所定のコンピュータネットワークに接続し、そのコンピュータネットワークを介して他の記録部から文書情報を読み出すようにしてもよい。 Was connected to a predetermined computer network, it may be read out document information from another recording unit through the computer network.

【0032】24は、文書情報記憶部12より供給されたあるカテゴリの文書IDに対応する各キーワードに対し、1つのキーワードにより構成される候補パターンを生成して、多支持パターン集合生成部22に出力するとともに、多支持パターン集合生成部22より供給され、 [0032] 24, for each keyword corresponding to the document ID of a category that has been supplied from the document information storage section 12, and generates a composed candidate patterns by one keyword, the multi-support pattern set generating unit 22 outputs, are supplied from the multi-support pattern set generating unit 22,
その多支持パターン集合の多支持パターンを構成するキーワードの数をnとしたとき、(n−1)個のキーワードが共通する任意の2つの多支持パターンから(n+ When the number of keywords that constitute the multi-support pattern of the multi-support pattern set is n, from any two multi-support patterns in common the (n-1) keyword (n +
1)個のキーワードからなるパターンを生成し、そのパターンの任意のn個のキーワードが多支持パターン集合に含まれるものを候補パターンとして、新たな候補パターン集合を生成し、多支持パターン集合生成部22に出力する候補パターン集合生成部である。 1) generates a pattern of keyword (s), what any of n keywords of the pattern is included in the multi-support pattern set as candidate patterns, it generates a new candidate pattern sets, multi-support pattern set generating unit a candidate pattern set generator outputting to 22.

【0033】22は、候補パターン集合生成部24より供給される各候補パターンについて、制御部21により指定されたカテゴリにおいて、その候補パターンが出現する文書情報の数とそのカテゴリに属するすべての文書情報の数との比である支持率を、文書情報記憶部12を利用して計算し、その支持率が所定のしきい値(または最小支持率)以上であるパターンを新たな多支持パターンとして選択し、それらの多支持パターンの集合を高確信度パターン出力部23と候補パターン集合生成部24 [0033] 22, for each candidate pattern supplied from the candidate pattern set generating unit 24, in the category specified by the control unit 21, all the document information belongs number of document information to which the candidate pattern appears with its category the ratio of the number of selected support rate, calculated using the document information storage section 12, the supporting rate is a predetermined threshold value (or minimum support rate) or pattern as a new multi-supporting pattern and, high confidence pattern output unit 23 a set of those multi support pattern and the candidate pattern set generating unit 24
に出力する多支持パターン集合生成部である。 Is a multi-support pattern set generating unit for outputting to.

【0034】23は、多支持パターン集合生成部22より供給される各パターンについて、制御部21により指定されたクラスタにおいてそのパターンが出現する文書情報の数とすべてのクラスタにおいてそのパターンが出現する文書情報の数との比である確信度を、文書集合記憶部12を利用して計算し、多支持パターン集合生成部22より供給されたパターン集合から、確信度が所定の最小確信度以上であるパターンを選択し、そのパターンを出力する高確信度パターン出力部である。 [0034] 23, for each pattern supplied from the multi-support pattern set generating unit 22, the number and the document to which the pattern appears in all clusters of the document information to which the pattern appears in the cluster designated by the control unit 21 the confidence is the ratio between the number of information, calculated using the document set storage unit 12, a pattern set supplied from the multi-support pattern set generating unit 22, is a predetermined minimum confidence or confidence select pattern is a high confidence pattern output unit for outputting the pattern. 21は、文書集合記憶部12、多支持パターン集合生成部22、高確信度パターン出力部23、および候補パターン集合生成部24を制御する制御部である。 21, the document set storage unit 12, a multi-support pattern set generating unit 22, a control unit for controlling the high confidence pattern output section 23, and the candidate pattern set generating unit 24.

【0035】図2に示すように構成すれば、多支持パターン集合生成部22より支持率の高い特徴パターンを抽出することができ、高確信度パターン出力部23より確信度の高い特徴パターンを抽出することができる。 [0035] If configured as shown in FIG. 2, it is possible to extract a high characteristic pattern of support rate higher-supporting pattern set generating unit 22, extracts a high characteristic pattern degree of certainty than the high confidence pattern output section 23 can do.

【0036】このように支持率、確信度が高い特徴パターンはそのカテゴリに属する文書情報を特徴づけるもの情報となりうる。 [0036] Thus it is supporting rate, feature pattern high confidence may be information that characterizes the document information in that category. 未分類文書情報に対応する文書ID、 Document ID corresponding to the unclassified document information,
これに対応するキーワード集合を適切なカテゴリへ分類するのに有用であるばかりか、キーワード検索を行う場合において、キーワードの内容に関連するカテゴリを優先して検索するようにすれば、検索時間の短縮が可能となる。 Or a set of keywords corresponding to this only useful to classify to the appropriate category, in the case of performing a keyword search, if to search with priority category related to the contents of the keyword, the search time shortening it is possible.

【0037】一般に、抽出する支持率のしきい値(最小支持率)と抽出する確信度のしきい値(最小確信度)を与えた場合、あるカテゴリに対応する特徴パターンは複数のものが抽出される。 [0037] In general, when given a confidence threshold (minimum confidence) to be extracted and the extraction support rate threshold (minimum support rate), a characteristic pattern corresponding to a certain category are several things Extraction It is. しかしながら、最小支持率または最小確信度が高過ぎると特徴パターンが一つも抽出できない場合も考えられる。 However, the minimum supported rate or minimum confidence is too high characteristic patterns are conceivable may not be able to extract one. 逆に最小支持率または最小確信度が低過ぎると特徴パターンの抽出に時間がかかるか、または必要以上に多くの特徴パターンが抽出されやすくなる。 The minimum support rate or minimum confidence is too low or takes a long time to extract feature patterns, or many feature pattern is likely to be extracted more than necessary.

【0038】従って、最小支持率、最小確信度を予め高い値に設定し、特徴パターンに対応するカテゴリの抽出ができなければ、適切な数の特徴パターンの抽出ができるまで最小支持率、最小確信度を徐々に小さくするするように構成するのが望ましい。 [0038] Therefore, the minimum support rate, set in advance a high value the minimum confidence, to be able to extract the category corresponding to the feature pattern, the minimum support rate until extraction of appropriate number of feature pattern, minimum confidence it is desirable to configured to gradually reduce the degree. また特徴パターンの抽出において、特徴パターンに含まれるキーワードの数を制限することにより、あまりに複雑なパターンの抽出を抑制することが可能である。 In the extraction of the characteristic patterns, by limiting the number of keywords included in the characteristic pattern, it is possible to suppress the too extraction of complex patterns.

【0039】特徴パターン抽出手段20は抽出した各特徴パターンに対し、相互比較可能な重みを与える。 The characteristic pattern extracting means 20 for each feature pattern extracted, giving the mutual comparable weights. カテゴリC iにおいて抽出された個々の特徴パターンp ijの重みw ijとしては、カテゴリC iに対する特徴パターンp ijの支持率、確信度、または条件つきエントロピーを用いることなどが考えられる。 The weight w ij of each feature pattern p ij extracted in category C i, support rate characteristic patterns p ij for category C i, is considered such that the use of confidence or conditional entropy. または、カテゴリC iにおいて抽出された個々の特徴パターンp ijの重みw ijとして、特徴パターンp ijを構成するキーワードの数そのものをカテゴリC iの個々の特徴パターンp ijの重みw Or, the category C as the weight w ij of each feature pattern p ij extracted in i, the weight w of each feature pattern p ij category C i the number itself of keywords constituting the feature pattern p ij
ijとしてもよい。 It may be used as the ij.

【0040】ここで、格納手段10に格納された所定の文書情報の集合を文書集合Dとする。 [0040] Here, the document set D to a predetermined set of document information stored in the storage unit 10. 文書集合Dは格納手段10に格納された一部または全ての文書情報である。 Document set D is part stored in the storage unit 10 or all of the document information. 文書集合DにおけるカテゴリC iのパターンpに対する条件付エントロピーEnt i (D|p)とすると、 When | (p D), conditional entropy Ent i with respect to the pattern p of category C i in the document set D

【0041】 [0041]

【数1】 [Number 1]

【0042】ここで、D pは文書集合Dのうちパターンpをキーワード集合の一部に含む文書の集合であり、 [0042] In this case, D p is a set of documents, including the part of the keyword set a pattern p of the document set D,

【0043】 [0043]

【数2】 [Number 2]

【0044】とする。 [0044] to be. ここで、Ent i (D)は文書集合DにおけるクラスタC iのエントロピーであり、 Here, Ent i (D) is the entropy of a cluster C i in the document collection D,

【0045】 [0045]

【数3】 [Number 3]

【0046】とすると、(3a)、(3b)よりEnt When [0046], (3a), Ent than (3b)
i (D)は次式で表される。 i (D) is expressed by the following equation.

【0047】 [0047]

【数4】 [Number 4]

【0048】以上いずれかの指標に従って、特徴パターン抽出手段20は抽出した各特徴パターンに重みを付与していく。 [0048] in accordance with any of the indicators above, the characteristic pattern extracting means 20 will impart a weight to each feature pattern extracted. 以上の処理は実際に未分類文書情報を与えられて分類を行う前に処理しておくことが可能である。 The above processing it is possible to make processed before performing the actual classification given the unclassified document information.

【0049】特徴パターン収集手段30は、未分類文書情報のキーワード集合の一部または全部を含む特徴パターンをカテゴリごとに収集する。 [0049] The feature pattern collection means 30, to collect the characteristic pattern that includes some or all of the keyword set of unclassified document information for each category. 例えばカテゴリCの特徴パターンとして「コンピュータ」および「ネットワーク」からなるものを特徴パターンとするもの、「コンピュータ」および「制御」からなるものを特徴パターンとするもの、「コンピュータ」を特徴パターンとするものが抽出されていて、未分類の文書情報のキーワード集合が「コンピュータ、プロセッサ、ネットワーク、計算、 For example those characterized pattern made of "computer" and "network" as a characteristic pattern of category C, those characterized pattern made of "computer" and "control", which is characterized pattern "computer" There have been extracted, unclassified keyword set of document information is "computer, processor, network, calculation,
プログラム」であるとする。 And is a program ". このとき、特徴パターン収集手段30は、「コンピュータ」および「ネットワーク」と「コンピュータ」が未分類の文書情報のキーワード集合に関連するカテゴリCの特徴パターンとして収集する。 In this case, the characteristic pattern collection unit 30 collects as a characteristic pattern of categories C that "computer" and "network", "computer" is related to the keyword set of the document information unclassified.

【0050】選定手段40は特徴パターン収集手段30 The selecting means 40, wherein the pattern acquisition means 30
により収集した各カテゴリの特徴パターンのうち、その重みが最大となるものを、そのカテゴリへの関連度とし、関連度が最大となるカテゴリを選定した後、選定したカテゴリへ未分類の文書情報を格納する。 Of characteristic patterns of each category collected by, what the weight is maximum, and relevance to the category, after selecting the category relevance is maximized, document information unclassified into selected category Store.

【0051】例えば特徴パターンの重みとして確信度を用いていて、特徴パターン収集手段30が収集した特徴パターンがカテゴリCに対応する確信度80%の「コンピュータ」および「ネットワーク」に対応する特徴パターン、同じくカテゴリCで確信度50%の「コンピュータ」に対応する特徴パターン、そしてカテゴリDで確信度60%の「プロセッサ」に対応する特徴パターンであれば、選定手段40は未分類文書情報を格納手段10のカテゴリの1つであるカテゴリCへ格納する。 [0051] For example have used certainty as the weight of the feature pattern, characteristic pattern is characteristic pattern, wherein the pattern collection means 30 collects corresponding to "computer" and "network" confidence of 80% corresponding to the category C, feature pattern and, if characteristic patterns corresponding to the "processor" confidence of 60% category D, selection means 40 storage means the unclassified document information, also corresponding to the "computer" confidence of 50% category C 10 is one of the categories and stored in the category C.

【0052】このように実施の形態1によれば、各カテゴリの文書情報を特徴づける1つもしくはそれ以上のキーワードを有する特徴パターンをカテゴリごとに抽出し、この抽出した特徴パターンに相互比較可能な重み(例えば、支持率、確信度、条件付きエントロピー、特徴パターンの重みにキーワード数を乗じたもの等)を与えておき、各カテゴリより抽出された複数の特徴パターンに付与した重みのうち、その値が最大となるものをカテゴリへの関連度とし、この関連度が最大であるカテゴリを選択し、選択したカテゴリへ未分類文書の分類を行うことにより、重みが最大となる特徴パターンを格納するカテゴリを選択し、このカテゴリへ未分類の文書情報を格納することが可能となる。 [0052] According to the first such implementation, the feature pattern having one or more keywords characterizing the document information of each category is extracted for each category, cross comparable to the extracted feature patterns weight (e.g., support rate, confidence, conditional entropy, those such as multiplied by the number of keywords to the weight of the feature patterns) in advance gives, among weights assigned to a plurality of feature patterns extracted from each category, its and what value is maximum and the relevance of the category, the relevance selects a category which is the maximum, by performing the classification of unclassified documents to the selected category, and stores the characteristic pattern weight is maximum select a category, it is possible to store the document information unclassified into this category.

【0053】更に格納された文書情報の集合から各カテゴリの文書情報を特徴づけるキーワードの組合せパターンを抽出し、それを利用して分類するので、キーワードが組合せで出現する場合にも対応することが可能であるとともに、分類の根拠がキーワードの組合せパターンであるため、利用者にとっても直観的に理解しやすく、分類の良否の判断が容易になる。 [0053] extracts the combination patterns of keywords that characterize the document information of each category from a set of further document information stored, so classified by using it, it is applied even if the keyword appears in combination as well as a possible, because the basis for the classification is a combination of a keyword, intuitively easy to understand even for users, determines the quality of the classification is facilitated.

【0054】個々の特徴パターンに付与する重みとして確信度を用いた場合、その特徴パターンを含むキーワード集合を有する文書情報が偏って格納されているカテゴリへる未分類の文書情報が格納される。 [0054] When using the confidence as a weight to be applied to each feature pattern, the category Hell document information unclassified document information having a keyword set containing the feature pattern is stored biased is stored.

【0055】また、複数のカテゴリにおいて同一の特徴パターンが収集された場合、個々のカテゴリで抽出された特徴パターンの重みとして支持率を用いれば、あるカテゴリにおいて最も出現する文書情報の割合が高い特徴パターンに対応したカテゴリへ未分類の文書情報が格納される。 [0055] Also, if the same characteristic pattern is collected in a plurality of categories, the use of the support rate as weights of feature patterns extracted by individual categories, characterized percentage of the document information that appears most in a category higher document information that has not been classified is stored in the category that corresponds to the pattern.

【0056】また、個々の特徴パターンに付与する重みとして条件つきエントロピーを用いる場合、支持率と確信度との両方を考慮することに相当する。 [0056] In the case of using a conditional entropy as a weight to be applied to each feature pattern corresponds to considering both the support rate and confidence. これは、カテゴリにおいて出現する文書情報の割合も高く、また他のカテゴリにはあまり出現しないような特徴パターンに対応したカテゴリへ未分類の文書情報が格納される。 This higher percentage of document information appearing in the category, also the document information of the other categories unclassified to that corresponding to the characteristic pattern as poorly appearance category are stored. よって、未分類の文書情報のキーワード集合に含まれるキーワードが多く格納されているカテゴリであって、未分類の文書情報のキーワード集合に含まれるキーワードを含む文書情報の割合が高いカテゴリへ格納することができるので、未分類の文書情報をより適切なカテゴリへ格納することができる。 Therefore, the keywords included in the keyword set of the document information unclassified a category stored number, the percentage of document information comprising keywords contained in the keyword set of the document information unclassified stores the high category since it is, it is possible to store the document information that has not been classified to a more appropriate category.

【0057】また、上述したいずれかの各特徴パターンの重みと、この特徴パターンを構成するキーワードの数とを乗じ、これを新たな重みとし、選定手段はこの新たな重みが最大なものに対応する特徴パターンを格納するカテゴリを選定するように構成すれば、特徴パターンを構成するキーワードの数が多い特徴パターンに対応するカテゴリへ未分類の文書情報が格納される。 [0057] Also, the weight of each feature pattern of any described above, by multiplying the number of keywords constituting the feature pattern, which was a new weighting, selecting means corresponds to the maximum ones this new weight if configured to select a category for storing the feature pattern, the document information unclassified is stored in the category corresponding to a large number characteristic patterns of keywords constituting the feature pattern.

【0058】実施の形態2. [0058] Embodiment 2. 特徴パターン抽出手段20 Characteristic pattern extraction means 20
は、格納手段10に格納された文書情報集合から、各カテゴリを特徴づける特徴パターンをカテゴリごとに抽出した後、実施の形態1のように各特徴パターンに重みを付与するのではなく、各特徴パターンを含む文書情報の数を、対応するカテゴリとその他の全カテゴリの合計についてそれぞれ付与し、選定手段40は未分類文書があるカテゴリに属するのが適切とするべき確率(推定確率と称す)を算出するとともに、この推定確率をそのカテゴリへの関連度とし、関連度が最大のカテゴリに未分類文書を格納するように構成したことを特徴とするものである。 From the document information set stored in the storage unit 10, after the characteristic patterns that characterize each category were extracted for each category, instead of applying a weight to each characteristic pattern as in the first embodiment, each feature the number of document information including a pattern, each assigned for a total for the corresponding category and all other categories, selecting means 40 the probability to be appropriate that belong to categories that unclassified document (referred to as estimated probability) to calculate, it is characterized in that the estimated probability and relevance to the category, relevance is configured to store the unclassified documents to the largest category.

【0059】各カテゴリにおける推定確率は以下のように計算する。 [0059] estimated probability in each category is calculated as follows. まず、あるカテゴリにおいて、未分類の文書情報に含まれるキーワードに対応する特徴パターンが全く収集されなければ、推定確率は0とする。 First, in a certain category, to be collected, wherein a pattern corresponding to the keywords included in the document information unclassified at all, estimated probability is 0. 次に、特徴パターンが1つしか収集されなければ、その確信度がそのまま推定確率として用いられる。 Then, if the characteristic patterns are collected only one that confidence is directly used as the estimated probability. 一方、あるカテゴリに対応して複数の特徴パターンが収集された場合、当該カテゴリに対する推定確率を計算する方法として、さまざまなものが考えられる。 On the other hand, when it is collected a plurality of characteristic patterns corresponding to a certain category, as a method of calculating the estimated probability for that category, it is conceivable variety.

【0060】例えば、各特徴パターンの確信度を推定確率とするような構成の場合は、実施の形態1において説明したものの一例と同じになる。 [0060] For example, in the case of construction as the confidence of the characteristic pattern as the estimated probability, it is the same as an example of those described in the first embodiment.

【0061】別の方法として、あるカテゴリに対応して収集された複数の特徴パターンが同時に出現していることに着目した推定方法が考えられる。 [0061] Alternatively, a plurality of characteristic patterns were collected corresponding to a certain category is considered estimating method focusing on the fact that appeared simultaneously. 以下にその推定方法を示す。 The following shows the estimation method.

【0062】まず単純なケースとして、格納手段に格納されている文書情報の数がNである文書情報の集合Dの中のカテゴリC iにおいて、キーワードaからなる特徴パターンp aとキーワードbからなる特徴パターンp bが収集されたとする。 Firstly as a simple case, the number of the document information stored in the storage means in category C i in the set D of document information is N, consists of the characteristic pattern p a and keywords b consisting keyword a wherein the pattern p b was collected. また、各特徴パターンを含むキーワード集合を持つ文書情報の集合をそれぞれD pa 、D pbとし、 In addition, a set of document information with a keyword set including each feature pattern D pa respectively, and D pb,

【0063】 [0063]

【数5】 [Number 5]

【0064】とする。 [0064] to be. このときパターンp aとp bとを同時に含む未分類文書がカテゴリC iに属する推定確率は以下のように表される。 Estimated probability belonging unclassified document containing this case a pattern p a and p b at the same time the category C i is expressed as follows.

【0065】 [0065]

【数6】 [6]

【0066】但し、N(X)は文書情報の集合Xに属する文書の数とする。 [0066] However, N (X) is the number of documents belonging to the set X of document information. ここで、例えばN(C i ∩D pa Here, for example, N (C i ∩D pa
pb )は実際に文書情報の中から算出することも可能だが、そのような文書情報がたまたま存在しない場合もあり、また存在したとしても文書情報の数が小さくて統計的に意味を持たない場合がある。 D pb) is a possible to calculate from the actual document information, but in some cases such a document information does not happen there, also no statistically significant small number of document information even if there If there is a. ここでは、対応するカテゴリとその他の全カテゴリにおける各特徴パターンの出現文書数から、間接的に算出する方法を考える。 Here, from the appearance number of documents of each feature pattern in the corresponding category and all other categories, consider how to indirectly calculate. そのための仮定として、D pa及びD pbがC i及び Hypothetically therefor, D pa and D pb is C i and

【0067】 [0067]

【数7】 [Equation 7]

【0068】においてそれぞれ独立であるとする。 And are each independently in [0068]. このとき、 At this time,

【0069】 [0069]

【数8】 [Equation 8]

【0070】となり、上記条件つき確率は各特徴パターンの対応するカテゴリとその他の全カテゴリにおける出現文書数及び各カテゴリの総文書数から [0070] next, the conditional probability is from the total number of documents in the corresponding category and other appearance number of documents and each category in all categories of each characteristic pattern

【0071】 [0071]

【数9】 [Equation 9]

【0072】のように計算できるため、これを用いるとP(C i |D pa ∩D pb )は、 [0072] Since the can be calculated as use the P this (C i | D pa ∩D pb ) is

【0073】 [0073]

【数10】 [Number 10]

【0074】ただし、 [0074] However,

【0075】 [0075]

【数11】 [Number 11]

【0076】とする。 [0076] to be. このように(9)式により推定確率を求めることが可能となる。 Thus (9) it is possible to determine the estimated probability by equation.

【0077】次にあるカテゴリにおいて収集された特徴パターンのうちの少なくとも1つが複数のキーワードを有するような場合を考える。 [0077] Then at least one of a feature pattern that is collected in the category but consider a case that has a plurality of keywords. 複数の特徴パターンが重複した構成キーワードを持っていない場合は、上記と同様に考えればよい。 If multiple feature pattern does not have a configuration keyword duplicate, it may be considered in the same manner as described above. 重複したキーワードを持っている場合は、そのキーワードが上記確率にどの程度寄与するかを考慮する必要がある。 If you have duplicate keywords, it is necessary to consider whether the keyword is to what extent contribute to the probability.

【0078】例えばカテゴリC iにおいてキーワードc、 [0078] For example, keyword c in category C i,
dからなる特徴パターンp c,dとキーワードc、e、fからなる特徴パターンp c,e,fが収集されたとする。 feature pattern p c consisting of d, d and keyword c, e, consists f characteristic pattern p c, e, and f have been collected. このとき(9)式に従ってそのまま計算するとキーワードcの寄与分が重複して考慮されることになる。 In this case (9) so that the contribution of the keyword c are considered duplicate Continued calculated according formula. これを避けるためには、各キーワードによる寄与分をそれぞれ考慮する必要があるが、その推定を容易にするための仮定として、例えばある特徴パターンにおける各キーワードはそれぞれ独立しており、それぞれの寄与は均等であるとする。 To avoid this, although the contribution by each keyword is necessary to consider each as assumptions to facilitate the estimation, for example, to each of keywords independently at a characteristic pattern, the respective contributions assumed to be equal. この仮定によれば特徴パターンp c,dに含まれるキーワードc、dの(9)式に対する寄与は Feature pattern p c According to this assumption, the keyword included in the d c, contribution to (9) of d is

【0079】 [0079]

【数12】 [Number 12]

【0080】となる。 The [0080]. 同様に特徴パターンp c,e,fにおいてはキーワードc、e、fの寄与は Similarly characteristic pattern p c, e, keyword c in f, e, the contribution of f is

【0081】 [0081]

【数13】 [Number 13]

【0082】と計算される。 [0082] and is calculated. あるキーワードが収集された複数の特徴パターンに含まれる時、そのキーワードの寄与は例えばそれぞれの特徴パターンにおいて算出された寄与の最大値とする。 When included in the plurality of characteristic patterns with keyword is collected, the contribution of the keyword is the maximum value of the contribution for example calculated in each of the feature pattern. このようにしてあるカテゴリC Category C that is in this way
iにおいて収集された特徴パターンpに含まれるすべてのキーワードkについてそれぞれの寄与R i (k)を上記により計算すれば、推定確率は respective contributions R i (k) of the all keyword k included in the collected feature pattern p by calculating the above in i, the estimated probability

【0083】 [0083]

【数14】 [Number 14]

【0084】と計算される。 [0084] and is calculated. このように実施の形態2によれば、未分類文書情報に応じてカテゴリごとに収集された特徴パターンから、未分類文書が各カテゴリに属するのが適切とするべき推定確率を各カテゴリごとに算出し、推定確率が最大となるカテゴリを選定し、このカテゴリへ未分類の文書情報を格納するようにしたので、未分類の文書情報を適切なカテゴリへ格納することができる。 According to the second embodiment, calculated from the feature pattern collected for each category in accordance with the unclassified document information, the estimated probability to unclassified documents is appropriate that belong to each category in each category and, select the category that estimated probability is maximized, since so as to store document information unclassified into this category, it is possible to store the document information unclassified into appropriate categories. 特にカテゴリごとに収集された特徴パターンの構成キーワードまで考慮した推定確率を算出するようにすれば、実施の形態1より計算量は大きくなるものの、従来頻出しなかった新たなキーワードの組合せにも対応した分類が可能となる。 Especially when to calculate the estimated probability of considering configuration keywords collected characteristic pattern for each category, although greater computational than in the first embodiment, corresponding to the combination of a new keyword which has not conventionally frequently the classification is possible.

【0085】実施の形態3. [0085] Embodiment 3. 図3は実施の形態3の文書分類装置の構成を説明するための図である。 Figure 3 is a diagram for explaining the structure of a document classification apparatus according to the third embodiment. 図において、図1、2と同一の符号を付したものは同一またはこれに相当するものである。 In the figure, those designated by the same reference numerals as FIGS. 1 and 2 corresponds to the same or it. 60は分類決定インタフェース、70は文書情報検索手段である。 60 classification decision interface 70 is a document information retrieval means. 分類決定インタフェース50は、表示画面を有し、表示画面には選定手段40が選定したカテゴリと、その選定に関する情報、例えば各カテゴリに対して収集された特徴パターン、特徴パターンに対する重み、または未分類の文書情報とカテゴリとの関連度等を表示するものである。 Classification decision interface 50 has a display screen, and the category selecting means 40 is selected on the display screen, information about the selection, for example, feature pattern collected for each category, the weight for the feature pattern or unclassified, it is intended to display the related level, and the like of the document information and the category of. 利用者はその表示された情報をもとに最終的に分類すべきカテゴリを決定する。 The user determines the category should be finally classified on the basis of the information that has been the display. また、利用者は必要に応じて特徴パターンを選択して文書情報検索手段70に送出し、その結果を参照することが可能である。 Further, the user sends the document information retrieval means 70 to select the feature pattern as necessary, it is possible to see the result.

【0086】文書情報検索手段70は与えられた特徴パターンを含むキーワード集合をもつ文書情報を格納手段10に格納された文書情報の集合から検索し、結果を分類決定インタフェース60に表示する。 [0086] searching from a set of document information retrieval means 70 the document information stored in the storage unit 10 the document information with a keyword set including the features pattern imparted to display the results in classification decision interface 60. 必ずしも必要ではないが、検索対象を特定のカテゴリに絞ったり、複数の特徴パターンに関するAND検索、OR検索などが実行可能であれば、より効率のよい検索を行うことが可能となる。 Although not required, or narrow the search to a particular category, the AND search for a plurality of characteristic patterns, etc. OR search is performed if, it is possible to perform more efficient search.

【0087】このように実施の形態3によれば、利用者が分類選定に関する情報を参照しながら、分類を最終的に決定することが可能である。 [0087] According to the third embodiment, with reference to the information about the user classification selection, it is possible to determine classifying finally. 特に、各カテゴリで収集された特徴パターンはキーワードの連言であり、利用者にとって直観的にわかりやすいため、必要に応じて特徴パターンによる文書情報検索を行いながら、各カテゴリの特徴を把握した上で分類を最終的に決定することが可能である。 In particular, the characteristic pattern that has been collected in each category is a conjunction of the keyword, for intuitively easy to understand for the user, while the document information search by the characteristic pattern, if necessary, on which to understand the characteristics of each category it is possible to determine classifying finally.

【0088】上述した各実施の形態は、本発明の実施の一形態として示したものであり、本発明はこれらに限定されるべきものではない。 [0088] Each of the embodiments described above are those shown as an embodiment of the present invention, the present invention should not be limited thereto. 本願発明は特許請求の範囲に記載されたもの、またはその均等物を含むものである。 The present invention is intended to include those described in the claims or their equivalents.

【0089】 [0089]

【発明の効果】この発明に係る文書分類装置によれば、 Effects of the Invention According to the document classification apparatus according to the present invention,
文書番号および前記文書番号に対応する文書の内容を特徴づけるキーワードを有するキーワード集合を有する文書情報を対応するカテゴリに分類して格納する格納手段と、前記格納手段の各カテゴリを特徴付けるための情報であって、前記カテゴリに格納された文書情報のキーワード集合に含まれる割合が高いキーワードを有する特徴パターンを前記格納手段の各カテゴリ毎に抽出するとともに、前記抽出した特徴パターンに重みを付与する抽出手段と、未だ分類されていない文書情報のキーワード集合の一部または全部を含む特徴パターンをカテゴリ毎に収集する特徴パターン収集手段と、前記特徴パターン収集手段により収集した特徴パターンのうち、その重みが最も高い特徴パターンを抽出したカテゴリを選定し、前記選定したカテゴ With information to characterize a storage unit for storing and classifying the document information with a keyword set having a keyword characterizing the contents of the document corresponding to the document ID and the document ID to the corresponding category, each category of the storage unit there are, extracts the feature pattern having a high proportion keywords in the keyword set of the document information stored in the category for each category of the storage means, extracting means for applying a weight to the feature pattern the extracted When a feature pattern collection means for collecting feature pattern including a part or all of the keyword set of the document information that has not yet been classified in each category, among characteristic patterns collected by the feature pattern collection unit, the weight is most select a category extracting the high feature pattern, and the selected category へ未だ分類されていない文書情報を格納する選定手段とを備えたので、未だ分類されていない文書情報を適切なカテゴリへ格納することができる。 Since a selecting means for storing the document information that has not yet been classified into can store document information that has not yet been classified into appropriate categories.

【0090】この発明に係る文書分類装置によれば、抽出した特徴パターンに付与する重みを、特徴パターンに対応するカテゴリに格納された全ての文書情報のキーワード集合うち、前記特徴パターンを含むキーワード集合を有する文書情報の割合としたので、未だ分類されていない文書情報を適切なカテゴリへ格納することができる。 [0090] According to the document classification apparatus according to the present invention, the weight to be given to the extracted feature patterns, among keyword set of all of the document information stored in the category corresponding to the characteristic pattern, keyword set containing the feature pattern since the ratio of the document information with can store document information that has not yet been classified into appropriate categories.

【0091】この発明に係る文書分類装置によれば、抽出した特徴パターンに付与する重みを、特徴パターンを含むキーワード集合をもつ全カテゴリの文書のうち、当該特徴パターンに対応するカテゴリに属する文書の割合としたので、未だ分類されていない文書情報を適切なカテゴリへ格納することができる。 [0091] According to the document classification apparatus according to the present invention, the weight to be given to the extracted feature patterns, among documents all categories with a keyword set containing characteristic patterns, the documents belonging to the category corresponding to the characteristic pattern since the ratio can store document information that has not yet been classified into appropriate categories.

【0092】この発明に係る文書分類装置によれば、格納手段に格納した所定の文書情報の集合において、カテゴリの特徴パターンに対する条件付きエントロピーを前記特徴パターンに付与する重みとしたので、未だ分類されていない文書情報をより適切なカテゴリへ格納することができる。 [0092] According to the document classification apparatus according to the present invention, the predetermined set of document information stored in the storage unit, since the weight of imparting conditional entropy for the feature pattern of categories on the feature pattern, is yet classified it is possible to store the document information not to a more appropriate category.

【0093】この発明に係る文書分類装置によれば、抽出した特徴パターンに付与する重みに前記特徴パターンを構成するキーワード数を乗じたものを前記特徴パターンに付与する重みとしたので、未だ分類されていない文書情報をより適切なカテゴリへ格納することができる。 [0093] According to the document classification apparatus according to the present invention, since the the weight to be given to the extracted feature pattern multiplied by the number of keywords constituting the feature pattern and a weight to be applied to the feature pattern, is yet classified it is possible to store the document information not to a more appropriate category.

【0094】この発明に係る文書分類装置によれば、文書番号および前記文書番号に対応する文書の内容を特徴づけるキーワードを有するキーワード集合を有する文書情報を対応するカテゴリに分類して格納する格納手段と、前記格納手段の各カテゴリを特徴付けるための情報であって、前記カテゴリに格納された文書情報のキーワード集合に含まれる割合が高いキーワードを有する特徴パターンを前記格納手段の各カテゴリ毎に抽出する抽出手段と、未だ分類されていない文書情報のキーワード集合の一部または全部を含む特徴パターンをカテゴリ毎に収集する特徴パターン収集手段と、前記未だ分類されていない文書情報がカテゴリへ属するのが適切とするべき確率を各カテゴリ毎に算出するとともに、前記確率が最も大きなカテゴリを [0094] According to the document classification apparatus according to the present invention, storage means for storing classified document information having a keyword set having a keyword characterizing the contents of the document corresponding to the document ID and the document ID in the corresponding category When the a information for characterizing each category storage means, extracts a feature pattern having a keyword high proportion contained in the keyword set of the document information stored in the category for each category of the storage unit extraction means, a feature pattern collection means for collecting characteristic pattern for each category that includes some or all of the keyword set of the document information that has not yet been classified, the still document information that is not classified that belongs to the category appropriate and with the probability to be calculated for each category, the probability is the largest category 定し、前記選定したカテゴリへ未だ分類されていない文書情報を格納する選定手段とを備えたので、未だ分類されていない文書情報をより適切なカテゴリへ格納することができる。 Constant and, since a selection means for storing the selected the document information that has not yet been classified into categories, it is possible to store the document information that has not yet been classified into more appropriate categories.

【0095】この発明に係る文書分類装置によれば、選定手段は、前記特徴パターン収集手段により収集した特徴パターンのうち、その重みが高い特徴パターンを抽出したカテゴリまたは前記未だ分類されていない文書情報がカテゴリへ属するのが適切とするべき確率が高い特徴パターンを抽出したカテゴリを選定し、前記選定手段により選定したカテゴリの情報を表示するように構成したので、装置を使用するものが選定したカテゴリに対し適宜判断することが可能となる。 [0095] According to the document classification apparatus according to the present invention, the selection means, the feature pattern of the feature pattern collected by the collection means, the document information that weights are not extracted category or the still classify high feature pattern category There selects a category extracting the high feature pattern probability to be appropriate that belongs to the category, since it is configured to display information category selected by said selecting means, which selects those that use device it is possible to appropriately determine relative.

【0096】この発明に係る文書分類装置は、入力した特徴パターンが格納手段に格納された文書情報の中にあるかどうかを検索する文書情報検索手段を備えたので、 [0096] document classification apparatus according to the present invention, since with a document information retrieval means for retrieving whether in the document information entered feature pattern is stored in the storage means,
装置を利用するものは特徴パターンによる文書情報検索を行いながら、各カテゴリの特徴を把握した上で分類を最終的に決定することが可能である。 While document information search by the feature pattern utilizes a device, it is possible to finally determine the classification on which to understand the characteristics of each category.

【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS

【図1】 実施の形態1の文書分類装置を説明するための図である。 1 is a diagram for explaining a document classification apparatus of the first embodiment.

【図2】 実施の形態1の文書分類装置を説明するための図である。 2 is a diagram for explaining a document classification apparatus of the first embodiment.

【図3】 実施の形態1の文書分類装置を説明するための図である。 3 is a diagram for explaining a document classification apparatus of the first embodiment.

【符号の説明】 DESCRIPTION OF SYMBOLS

10:格納手段 20:抽出手段 30:特徴パターン収集手段 40:選定手段 50:未文書情報入力手段 10: storage unit 20: Extraction unit 30: wherein the pattern acquisition unit 40: selection unit 50: not document information input means

Claims (8)

    【特許請求の範囲】 [The claims]
  1. 【請求項1】 文書番号および前記文書番号に対応する文書の内容を特徴づけるキーワードを有するキーワード集合を有する文書情報を対応するカテゴリに分類して格納する格納手段と、 前記格納手段の各カテゴリを特徴付けるための情報であって、前記カテゴリに格納された文書情報のキーワード集合に含まれる割合が高いキーワードを有する特徴パターンを前記格納手段の各カテゴリ毎に抽出するとともに、前記抽出した特徴パターンに重みを付与する抽出手段と、 未だ分類されていない文書情報のキーワード集合の一部または全部を含む特徴パターンをカテゴリ毎に収集する特徴パターン収集手段と、 前記特徴パターン収集手段により収集した特徴パターンのうち、その重みが最も高い特徴パターンを抽出したカテゴリを選定し、前記 And 1. A article and storing means for storing the document information with a keyword set having a keyword characterizing the content of the document corresponding to the document ID and classified into the corresponding category, each category of the storage unit an information for characterizing, extracts the feature pattern having a high proportion keywords in the keyword set of the document information stored in the category for each category of the storage unit, the weight to the feature pattern the extracted extracting means for imparting a characteristic pattern collection means for collecting characteristic pattern for each category that includes some or all of the keyword set of the document information that has not yet been classified, among characteristic patterns collected by the feature pattern collection means , selects a category extracting the highest feature pattern is its weight, the 選定したカテゴリへ未だ分類されていない文書情報を格納する選定手段とを備えたことを特徴とする文書分類装置。 Document classification apparatus characterized by comprising a selecting means for storing the selected document information that has not yet been classified into categories.
  2. 【請求項2】 抽出した特徴パターンに付与する重みを、 特徴パターンに対応するカテゴリに格納された全ての文書情報のうち、前記特徴パターンを含むキーワード集合を有する文書情報の割合としたことを特徴とする請求項1に記載の文書分類装置。 2. A method weights to be applied to the extracted feature patterns, of all of the document information stored in the category corresponding to the feature pattern, characterized in that a proportion of the document information with a keyword set containing the feature pattern document classification apparatus according to claim 1,.
  3. 【請求項3】 抽出した特徴パターンに付与する重みを、 特徴パターンを含むキーワード集合をもつ全カテゴリの文書のうち、当該特徴パターンに対応するカテゴリに属する文書の割合としたことを特徴とする請求項1に記載の文書分類装置。 The 3. A weight to be given to the extracted feature patterns, among documents all categories with a keyword set containing characteristic patterns, claims, characterized in that the percentage of documents belonging to the category corresponding to the characteristic pattern document classification apparatus according to claim 1.
  4. 【請求項4】 格納手段に格納した所定の文書情報の集合において、 カテゴリの特徴パターンに対する条件付きエントロピーを前記特徴パターンに付与する重みとしたことを特徴とする請求項1に記載の文書分類装置。 4. A predetermined set of document information stored in the storage means, a document classification apparatus according to claim 1, characterized in that it has a weight which imparts conditional entropy for the feature pattern of categories on the feature pattern .
  5. 【請求項5】 抽出した特徴パターンに付与する重みに前記特徴パターンを構成するキーワード数を乗じたものを前記特徴パターンに付与する重みとしたことを特徴とする請求項2から4のいずれか1項に記載の文書分類装置。 5. The one extracted multiplied by the number of keywords constituting the feature pattern to the weight to be given to the characteristic pattern of claim 2, characterized in that the weight to be assigned to the characteristic pattern 4 1 document classification apparatus according to claim.
  6. 【請求項6】 文書番号および前記文書番号に対応する文書の内容を特徴づけるキーワードを有するキーワード集合を有する文書情報を対応するカテゴリに分類して格納する格納手段と、 前記格納手段の各カテゴリを特徴付けるための情報であって、前記カテゴリに格納された文書情報のキーワード集合に含まれる割合が高いキーワードを有する特徴パターンを前記格納手段の各カテゴリ毎に抽出する抽出手段と、 未だ分類されていない文書情報のキーワード集合の一部または全部を含む特徴パターンをカテゴリ毎に収集する特徴パターン収集手段と、 前記未だ分類されていない文書情報がカテゴリへ属するのが適切とするべき確率を各カテゴリ毎に算出するとともに、前記確率が最も大きなカテゴリを選定し、前記選定したカテゴリへ未だ Storage means for storing classified document information having a keyword set in the corresponding category with keywords that characterize 6. Article number and content of the document corresponding to the document ID, each category of the storage unit an information for characterizing, extracting means for extracting a feature pattern having a high proportion keywords in the keyword set of the document information stored in the category for each category of the storage means, has not yet been classified a feature pattern collection means for collecting feature pattern including a part or all of the keyword set of the document information for each category, the probability to document information the not yet classified is appropriate that belong to categories for each category to calculate the probability to select the most significant categories, yet to the selected category 分類されていない文書情報を格納する選定手段とを備えたことを特徴とする文書分類装置。 Document classification apparatus characterized by comprising a selecting means for storing the document information that is not classified.
  7. 【請求項7】 選定手段は、前記特徴パターン収集手段により収集した特徴パターンのうち、その重みが高い特徴パターンを抽出したカテゴリまたは前記未だ分類されていない文書情報がカテゴリへ属するのが適切とするべき確率が高い特徴パターンを抽出したカテゴリを選定し、 前記選定手段により選定したカテゴリの情報を表示するように構成したことを特徴とする請求項1から6のいずれかに記載の文書分類装置。 7. The selecting means, said one of the feature pattern collected by the feature pattern acquisition means, the document information that weights are not extracted category or the still classify high feature pattern is appropriate that belongs to the category should probability to select a category extracting the high feature pattern, document classification apparatus according to any one of 6 claim 1, characterized in that configured to display information category selected by said selecting means.
  8. 【請求項8】 入力した特徴パターンが格納手段に格納された文書情報の中にあるかどうかを検索する文書情報検索手段を備えたことを特徴とする請求項7に記載の文書分類装置。 8. A document classification apparatus according to claim 7, characterized in that input feature pattern having a document information retrieval means for retrieving whether in the document information stored in the storage means.
JP2648399A 1999-02-03 1999-02-03 Document classifying device Pending JP2000222431A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2648399A JP2000222431A (en) 1999-02-03 1999-02-03 Document classifying device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2648399A JP2000222431A (en) 1999-02-03 1999-02-03 Document classifying device

Publications (1)

Publication Number Publication Date
JP2000222431A true true JP2000222431A (en) 2000-08-11

Family

ID=12194756

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2648399A Pending JP2000222431A (en) 1999-02-03 1999-02-03 Document classifying device

Country Status (1)

Country Link
JP (1) JP2000222431A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6985908B2 (en) 2001-11-01 2006-01-10 Matsushita Electric Industrial Co., Ltd. Text classification apparatus
JP2009163771A (en) * 2001-11-02 2009-07-23 Thomson Reuters Global Resources Systems, methods, and software for classifying documents
WO2011086820A1 (en) * 2010-01-15 2011-07-21 日本電気株式会社 Information processing device, information processing method, and computer-readable recording medium
JP2013545189A (en) * 2010-11-02 2013-12-19 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited Determination of the category information using a multi-stage
WO2017138549A1 (en) * 2016-02-12 2017-08-17 日本電気株式会社 Information processing device, information processing method, and recording medium

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6985908B2 (en) 2001-11-01 2006-01-10 Matsushita Electric Industrial Co., Ltd. Text classification apparatus
JP2009163771A (en) * 2001-11-02 2009-07-23 Thomson Reuters Global Resources Systems, methods, and software for classifying documents
WO2011086820A1 (en) * 2010-01-15 2011-07-21 日本電気株式会社 Information processing device, information processing method, and computer-readable recording medium
US9824142B2 (en) 2010-01-15 2017-11-21 Nec Corporation Information processing device, information processing method, and computer-readable recording medium
JP2013545189A (en) * 2010-11-02 2013-12-19 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited Determination of the category information using a multi-stage
WO2017138549A1 (en) * 2016-02-12 2017-08-17 日本電気株式会社 Information processing device, information processing method, and recording medium

Similar Documents

Publication Publication Date Title
O’Connor et al. Clustering items for collaborative filtering
US7028250B2 (en) System and method for automatically classifying text
US6212526B1 (en) Method for apparatus for efficient mining of classification models from databases
Rennie Improving multi-class text classification with naive Bayes
US7062485B1 (en) Method and apparatus for score normalization for information retrieval applications
US6397209B1 (en) Real time structured summary search engine
US20060004747A1 (en) Automated taxonomy generation
US5742816A (en) Method and apparatus for identifying textual documents and multi-mediafiles corresponding to a search topic
US5721902A (en) Restricted expansion of query terms using part of speech tagging
US5873076A (en) Architecture for processing search queries, retrieving documents identified thereby, and method for using same
US20060095852A1 (en) Information storage and retrieval
Bailey et al. Fast algorithms for mining emerging patterns
US20080201297A1 (en) Method and System for Determining Relation Between Search Terms in the Internet Search System
US5737734A (en) Query word relevance adjustment in a search of an information retrieval system
US5717914A (en) Method for categorizing documents into subjects using relevance normalization for documents retrieved from an information retrieval system in response to a query
US20100114561A1 (en) Latent metonymical analysis and indexing (lmai)
US20090094233A1 (en) Modeling Topics Using Statistical Distributions
US5625767A (en) Method and system for two-dimensional visualization of an information taxonomy and of text documents based on topical content of the documents
US7502780B2 (en) Information storage and retrieval
US20050203970A1 (en) System and method for document collection, grouping and summarization
US20090204609A1 (en) Determining Words Related To A Given Set Of Words
US20080040342A1 (en) Data processing apparatus and methods
Wilcox et al. The role of domain knowledge in automating medical text report classification
López‐Pujalte et al. Order‐based fitness functions for genetic algorithms applied to relevance feedback
US7707201B2 (en) Systems and methods for managing and using multiple concept networks for assisted search processing