JP2005266866A - Document classifying device and classification system generating device and method for document classifying device - Google Patents

Document classifying device and classification system generating device and method for document classifying device Download PDF

Info

Publication number
JP2005266866A
JP2005266866A JP2004073973A JP2004073973A JP2005266866A JP 2005266866 A JP2005266866 A JP 2005266866A JP 2004073973 A JP2004073973 A JP 2004073973A JP 2004073973 A JP2004073973 A JP 2004073973A JP 2005266866 A JP2005266866 A JP 2005266866A
Authority
JP
Japan
Prior art keywords
classification
hierarchical structure
frame
cluster
classification system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004073973A
Other languages
Japanese (ja)
Other versions
JP4461854B2 (en
Inventor
Hiroshi Umeki
宏 梅基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2004073973A priority Critical patent/JP4461854B2/en
Publication of JP2005266866A publication Critical patent/JP2005266866A/en
Application granted granted Critical
Publication of JP4461854B2 publication Critical patent/JP4461854B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To automatically construct the classification system of a hierarchical structure from a flat classification frame. <P>SOLUTION: A sample document inputting part 141 receives a sample document associated with a classification frame from a sample document storing part 13, and supplies it to an initial classification system generating part 142 (S10). An initial classification system generating part 142 refers to the sample document for clustering classification frames, and generates an initial classification system by defining the cluster as an upper rank classification frame and the classification frame to which the cluster is belonging as a terminal classification frame, and stores it in a classification system storing part 143 (S11). An evaluating part 144 automatically classifies the sample document by referring to the temporary classification system stored in the classification system storing part 143 (S12), and evaluates the classification result (S13). When there is any upper rank classification frame whose precision is lower than a reference value, a classification system changing part 145 changes the classification system. The cluster corresponding to the upper rank classification frame whose precision is lower than the reference value and a cluster similar to the cluster are united into one cluster for re-clustering, and the cluster is generated, and the classification system is changed (S15). <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

この発明は、文書を分類するための分類体系の階層化技術に関し、簡易に分類体系を階層化しあるいは階層を最適化するものである。   The present invention relates to a hierarchization technique of a classification system for classifying documents, and easily classifies a classification system or optimizes a hierarchy.

新着もしくは注目する文書をあらかじめ決められた分類体系にしたがって自動的に分類することが行なわれている。例えば、特定の概念や話題ごとに分類枠(カテゴリともいう)を設定し、単語ベクトルやキーワードを用いて文書を分類枠に分類する。ユーザは、所望の分類枠(カテゴリともいう)に労力を集中することができ大変便利である。   A new arrival or attention document is automatically classified according to a predetermined classification system. For example, a classification frame (also called a category) is set for each specific concept or topic, and a document is classified into a classification frame using a word vector or a keyword. The user can concentrate his effort on a desired classification frame (also called a category), which is very convenient.

ところで、分類時に参照される分類体系を階層構造にすると、結果の一覧性が高まり、分類誤りに強くなる。後者の理由は、もしも分類誤りがあった場合でも、同じ階層の別の分類枠を参照すれば探していた文書を比較的容易に見つけられる可能性が高いためである。一般に文書の分類を機械的に行う場合、自然言語自体もしくは分類定義にあいまい性があるため、高い精度を実現することは難しく、分類誤りに強いことが強く望まれる。   By the way, if the classification system referred to at the time of classification has a hierarchical structure, the listability of the results is enhanced and the classification error is strong. The reason for the latter is that even if there is a classification error, it is highly likely that the document being searched for can be found relatively easily by referring to another classification frame in the same hierarchy. In general, when performing document classification mechanically, natural language itself or classification definition is ambiguous, so it is difficult to achieve high accuracy, and it is strongly desired to be resistant to classification errors.

しかし、階層的な分類体系をユーザが構築することは負荷が高い。非階層的ないわゆるフラットな分類体系であれば、ユーザは単に分類枠を定義するだけで済む。一方、階層構造を構築するためには、分類枠間の上下関係や類似関係などを各分類枠に対してユーザが判断する必要がある。実際の文書、それも文書の集合に対してこうした関係性をユーザが判断することは、基準が明確でないため困難である。   However, it is expensive for the user to construct a hierarchical classification system. With a non-hierarchical so-called flat classification system, the user only needs to define a classification frame. On the other hand, in order to construct a hierarchical structure, it is necessary for the user to determine the vertical relationship between the classification frames, the similarity relationship, and the like for each classification frame. It is difficult for a user to judge such a relationship with an actual document or a set of documents because the criteria are not clear.

特許文献1には、この問題を解消する目的で、過去に生成したカテゴリ構造情報を参照または再利用する方法が開示されている。しかし、この方法では、再利用に適した情報がすでに蓄積されていなければならず、そのような再利用対象情報がない場合には適用できない。また、過去においては適当であった情報であっても、今回適用する場合にも適当であるとは必ずしも言えず、時宜にかなったカテゴリ構造を構築できない。
特開2003−216622号
Patent Document 1 discloses a method of referring to or reusing category structure information generated in the past for the purpose of solving this problem. However, with this method, information suitable for reuse must already be accumulated, and cannot be applied when there is no such information to be reused. Moreover, even if the information is appropriate in the past, it cannot always be said that it is appropriate when applied this time, and a timely category structure cannot be constructed.
JP 2003-216622 A

この発明は、以上の事情を考慮してなされたものであり、ユーザが用意したサンプル文書からでも簡易に分類の階層構造を構築できる分類体系の階層化技術を提供することを目的としている。   The present invention has been made in consideration of the above circumstances, and an object thereof is to provide a hierarchization technique for a classification system that can easily construct a hierarchical structure of classification even from a sample document prepared by a user.

この発明の骨子は、ユーザが定義したフラットな分類枠の集合を元にして、システム(装置または装置群)が自動的に階層的な分類体系を構築する点にある。この発明の構成例では以下のような処理を行う。   The essence of the present invention is that the system (device or device group) automatically constructs a hierarchical classification system based on a set of flat classification frames defined by the user. In the configuration example of the present invention, the following processing is performed.

[ステップS1]:
ユーザは分類枠を、分類されるべきサンプル文書の集合で定義する。この際、構造に関する情報をユーザが用意する必要はない。
[Step S1]:
The user defines a classification frame with a set of sample documents to be classified. At this time, it is not necessary for the user to prepare information regarding the structure.

[ステップS2]:
システムは、与えられた分類枠を既存のクラスタリング技術などを用いて、たとえば5から20個のクラスタに分ける。文書クラスタリングの場合、一般に対象は文書にあるが、ここでの対象はサンプル文書ではなく分類枠である。
[Step S2]:
The system divides a given classification frame into, for example, 5 to 20 clusters using an existing clustering technique or the like. In the case of document clustering, the target is generally in a document, but the target here is not a sample document but a classification frame.

[ステップS3]:
サンプル文書を入力として、ステップ2で準備したクラスタを分類体系にしたがって、自動分類を行う。
[Step S3]:
Using the sample document as an input, the cluster prepared in step 2 is automatically classified according to the classification system.

システムが自動分類を行うとき、入力の文書に対して、まずは最上位の階層に含まれる各クラスタとの関連度を計算し、最も関連度の大きいクラスタに振り分ける。次に、そのクラスタが下位の階層をもっている場合には、その階層に対して同様のことを行う。ユーザの定義した分類枠に振り分けられるまでこれらの処理を続ける。   When the system performs automatic classification, first, the degree of relevance with each cluster included in the highest hierarchy is calculated for the input document and distributed to the cluster with the highest degree of relevance. Next, if the cluster has a lower hierarchy, the same thing is done for that hierarchy. These processes are continued until they are assigned to the classification frame defined by the user.

入力文書とクラスタとの関連度は、文書の単語ベクトルとクラスタの単語ベクトル間の関連度で定義する。単語ベクトルの大きさは、クラスタにおける単語の出現頻度に関する統計量から求める。このとき、あるクラスタが属している階層に含まれる全てのサンプル文書を母数とする。   The degree of association between the input document and the cluster is defined by the degree of association between the word vector of the document and the word vector of the cluster. The size of the word vector is obtained from a statistic regarding the appearance frequency of words in the cluster. At this time, all sample documents included in the hierarchy to which a certain cluster belongs are set as a population parameter.

各階層ごとにサンプル文書が異なるため、単語ベクトルの大きさはそれぞれ異なることになる。したがって、最上位の階層から文書の関連度を求めていくと、各階層ごとにより適当な関連度が求められることが期待できる。すなわち、単にキーワードの有無や一律に決められた単語スコアによって分類結果が決まるのではなく、分類体系の階層構造に応じてより妥当だと期待できる分類が行われる。   Since the sample documents are different for each hierarchy, the word vectors have different sizes. Therefore, when the relevance level of a document is obtained from the highest level, it can be expected that an appropriate relevance level is obtained for each level. That is, the classification result is not determined simply by the presence or absence of the keyword or the word score that is uniformly determined, but is classified according to the hierarchical structure of the classification system.

[ステップS4]:
自動分類結果の精度を評価する。サンプル文書が所定の分類枠を含むクラスタに分類されている場合を正解としてみなし、再現率または再現率と適合率の調和平均であるF値などを測定する。
[Step S4]:
Evaluate the accuracy of automatic classification results. A case where the sample document is classified into a cluster including a predetermined classification frame is regarded as a correct answer, and an F value that is a harmonic average of the recall rate or the recall rate and the matching rate is measured.

[ステップS5]:
分類結果の精度が基準値よりも低い場合は、分類精度が基準値より低いクラスタとそれに類似したクラスタに注目する。これらのクラスタをまとめて仮想的な階層分類枠を設定し、この仮想分類枠の下位に分類枠を配置する。これら分類枠に対して再度クラスタリングを行い、ステップ3に戻る。基準値は予め決められたものを用いる。分類の要素数や種々の条件に基づいて決定されても良いし、ユーザが設定変更可能なようにしても良い。
[Step S5]:
When the accuracy of the classification result is lower than the reference value, attention is paid to a cluster whose classification accuracy is lower than the reference value and a cluster similar thereto. These clusters are put together to set a virtual hierarchical classification frame, and the classification frame is arranged below this virtual classification frame. Clustering is again performed on these classification frames, and the process returns to step 3. A predetermined reference value is used. It may be determined based on the number of classification elements and various conditions, or the user may be able to change the setting.

[ステップS6]:
十分によい精度が得られた場合は、各クラスタを仮想的な階層分類枠に設定し、その下位に分類枠を配置する。
[Step S6]:
When sufficiently good accuracy is obtained, each cluster is set as a virtual hierarchical classification frame, and the classification frame is arranged below it.

結果として、階層構造をもつ分類体系が構築される。ユーザが定義した分類枠は、階層構造の末端の分類枠となり、それ以外の分類枠はシステムにより設定される。階層構造は、サンプル文書を入力の文書として自動分類を行った場合に、分類誤りが最小に近づくように設定される。   As a result, a classification system having a hierarchical structure is constructed. The classification frame defined by the user becomes the classification frame at the end of the hierarchical structure, and the other classification frames are set by the system. The hierarchical structure is set so that a classification error approaches a minimum when automatic classification is performed using a sample document as an input document.

なお、予め分類体系の階層構造を用意しておき、ステップS3〜S6を用いて改造構造の最適化を行っても良い。すなわち、ユーザは入力として階層構造をもつ分類体系を指定し、結果として、より精度の高い分類体系が得られる。   Note that the hierarchical structure of the classification system may be prepared in advance, and the modified structure may be optimized using steps S3 to S6. That is, the user designates a classification system having a hierarchical structure as an input, and as a result, a more accurate classification system is obtained.

さらにこの発明を説明する。   The present invention will be further described.

この発明の一側面によれば、上述の目的を達成するために、文書分類装置の階層構造分類体系を生成する分類体系生成装置に:非階層構造の末端分類枠ごとのサンプル文書を入力し、上記サンプル文書を参照して非階層型の末端分類枠をクラスタリングし、クラスタリングの結果得られたクラスタを上位分類枠として上記非階層型の末端分類枠の上位に配置する階層構造を、初期の階層構造分類体系として生成する初期階層構造分類体系生成手段と;初期の階層構造分類体系または変更された階層構造分類体系を記憶する階層構造分類体系記憶手段と;上記階層構造分類体系記憶手段に記憶されている階層構造分類体系を参照して上記サンプル文書を分類し、分類精度が基準値よりも低い上位分類枠を判別する分類精度評価手段と;分類精度が基準値より低い上位分類枠が判別されたときに、上記分類精度評価手段により精度が基準値より低いと評価された上位分類枠のクラスタを、他のクラスタと統合して1つのクラスタに再編し、統合した上記1つのクラスタに含まれる末端分類枠を、当該末端分類枠に含まれる上記サンプル文書を参照して再クラスタリングし、再クラスタリングの結果得られたクラスタを、当該1つのクラスタに対応する上位分類枠の下位の上位分類枠とするように、上記階層構造分類体系記憶手段に記憶されている上記階層構造分類体系を変更する階層構造変更手段とを設け;所定の終了条件が満たされないときは、上記分類結果評価手段による判別と上記階層構造変更手段による上記階層構造分類体系の変更とを繰り返し、所定の終了条件が満たされたときに上記階層構造分類体系記憶手段に記憶されている上記階層構造分類体系を上記文書分類装置の分類体系として用いるようにしている。   According to one aspect of the present invention, in order to achieve the above-described object, a sample document for each non-hierarchical terminal classification frame is input to a classification system generation apparatus that generates a hierarchical classification system of a document classification apparatus. Clustering the non-hierarchical terminal classification frame with reference to the sample document, and placing the cluster obtained as a result of the clustering as a high-level classification frame above the non-hierarchical terminal classification frame, an initial hierarchy Initial hierarchical structure classification system generation means for generating as a structural classification system; hierarchical structure classification system storage means for storing an initial hierarchical structure classification system or a modified hierarchical structure classification system; and stored in the hierarchical structure classification system storage means Classification accuracy evaluation means for classifying the sample document with reference to a hierarchical classification system, and determining a higher classification frame whose classification accuracy is lower than a reference value; When a higher classification frame lower than the reference value is determined, the cluster of the higher classification frame evaluated by the classification accuracy evaluation means as having an accuracy lower than the reference value is integrated with other clusters and reorganized into one cluster. The terminal classification frames included in the integrated one cluster are reclustered with reference to the sample document included in the terminal classification frame, and the cluster obtained as a result of the reclustering corresponds to the one cluster. Hierarchical structure changing means for changing the hierarchical structure classification system stored in the hierarchical structure classification system storage means so as to be an upper classification frame lower than the upper classification frame is provided; when a predetermined end condition is not satisfied Repeats the determination by the classification result evaluation means and the change of the hierarchical structure classification system by the hierarchical structure changing means, and a predetermined end condition is satisfied. The hierarchy classification system stored in the hierarchy classification system storage means can have used as the classification system for the document classification apparatus.

この構成においては、非階層型の、すなわちフラットな分類枠から出発してクラスタリングによりクラスタを生成し、これらクラスタを上位の分類枠として階層構造分類体系を準備し、分類精度が基準値より低い上位分類枠すなわちクラスタに着目して他のクラスタと統合した後再クラスタリングを行い、階層を伸ばしていくようにしている。階層を伸ばしていくことにより、当該精度が基準値より低い上位分類枠が改善されてくことが期待される。暫定的な階層構造分類枠を用いて分類を行なうだけで、分類精度の向上した階層構造分類枠を簡易に生成できる。なお、基準値は予め決められたものを用いる。分類の要素数や種々の条件に基づいて決定されても良いし、ユーザが設定変更可能なようにしても良い。   In this configuration, clusters are generated by clustering starting from a non-hierarchical, that is, flat classification frame, a hierarchical structure classification system is prepared using these clusters as upper classification frames, and the classification accuracy is higher than the reference value. Focusing on the classification frame, that is, the cluster, it is integrated with other clusters and then reclustered to expand the hierarchy. By extending the hierarchy, it is expected that the upper classification frame whose accuracy is lower than the reference value will be improved. By simply performing classification using a provisional hierarchical structure classification frame, a hierarchical structure classification frame with improved classification accuracy can be easily generated. Note that a predetermined reference value is used. It may be determined based on the number of classification elements and various conditions, or the user may be able to change the setting.

この構成において、上記精度が基準値より低いと評価されたクラスタと統合される他のクラスタは上記精度が基準値より低いと評価されたクラスタと類似するクラスタとすることができる。   In this configuration, the other cluster integrated with the cluster whose accuracy is lower than the reference value can be a cluster similar to the cluster whose accuracy is lower than the reference value.

なお、クラスタには単一の分類枠しか含まれないものもある。   Some clusters include only a single classification frame.

また、上記終了条件は、いずれのクラスタも分類精度が基準値よりも低いと評価されないこととすることができる。現時点の階層構造分類体系における階層の深さや、再クラスタリングの回数、分類の回数等を終了条件としても良い。   Further, the termination condition may be that none of the clusters is evaluated as having a classification accuracy lower than the reference value. The hierarchy conditions, the number of times of re-clustering, the number of times of classification, etc. in the current hierarchical structure classification system may be used as the termination conditions.

また、この発明は、文書分類装置の階層構造分類体系を生成する分類体系生成装置として実現できるだけでなく、そのような機構を含む文書分類装置として構成できる。また、文書分類装置の既存の階層構造分類体系を最適化する機構を含む文書分類装置としても構成できる。   In addition, the present invention can be realized not only as a classification system generation apparatus that generates a hierarchical structure classification system of a document classification apparatus, but also as a document classification apparatus including such a mechanism. Further, it can be configured as a document classification device including a mechanism for optimizing the existing hierarchical structure classification system of the document classification device.

なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。   The present invention can be realized not only as an apparatus or a system but also as a method. Of course, a part of the invention can be configured as software. Of course, software products used to cause a computer to execute such software are also included in the technical scope of the present invention.

この発明の上述の側面および他の側面は特許請求の範囲に記載され以下実施例を用いて詳述される。   These and other aspects of the invention are set forth in the appended claims and will be described in detail below with reference to examples.

この発明によれば、ユーザにとってはフラットな分類と同じ手間で、より高い効果が見込まれる階層的な分類を実現することができる。また、あらかじめ階層情報を構築しておく必要がなく、分類体系を構築するごとに、与えられた分類枠を最適に表すような階層的な分類体系を自動的に得ることができる。   According to the present invention, it is possible to realize a hierarchical classification that is expected to have a higher effect with the same effort as a flat classification for the user. In addition, it is not necessary to construct hierarchical information in advance, and a hierarchical classification system that optimally represents a given classification frame can be automatically obtained each time a classification system is constructed.

以下、この発明の実施例について説明する。   Examples of the present invention will be described below.

図1は、この発明を適用した文書分類装置1を示しており、図2は文書分類装置1の要部である分類体系階層化部14を示しており、図3は分類体系階層化部14の動作を示している。この例では、分類体系階層化部14は文書分類装置1の1機構として構成されているが、単独の装置として構成されても良い。例えば、単独の装置として階層化された文書分類体系を生成し、これを記録媒体や通信媒体を介して文書分類装置1に供給するものでも良い。   FIG. 1 shows a document classification device 1 to which the present invention is applied, FIG. 2 shows a classification system hierarchization unit 14 which is a main part of the document classification device 1, and FIG. Shows the operation. In this example, the classification system hierarchization unit 14 is configured as one mechanism of the document classification device 1, but may be configured as a single device. For example, a hierarchical document classification system may be generated as a single device and supplied to the document classification device 1 via a recording medium or a communication medium.

図1において、文書分類装置1は、文書入力部10、文書分類部11、分類済み文書記憶部12、サンプル文書記憶部13、および分類体系階層化部14を含んで構成されている。文書入力部10は、予め準備された一群の文書、定期的に入力される一群の文書、逐次入力される文書を入力するものであり、文書は記録媒体または通信媒体を介して伝送されてくる。文書は文書分類装置1のサイトの生成されたものでも良い。文書分類部11は、階層構造分類体系例えば図6に示すような分類体系を参照して文書を分類する。階層構造分類体系は末端の分類枠と上位の分類枠とで構成され、木構造をしている。文書の分類にはキーワードを用いたり、単語ベクトルを用いたりすることができる。この例では単語ベクトルを用い、各分類枠(上位分類枠および末端分類枠)に単語ベクトルが割り当てられているが、これに限定されない。文書はルート分類枠から出発し、それぞれの分岐(分岐先の分類枠)の単語ベクトルと突き合わされて、最も適切な分岐に分類され、つぎの階層でも同様に分岐の単語ベクトルと突き合わされ、最も適切な分岐に分類され、最終的にいずれかの末端分類枠に分類される。分類された文書は分類済み文書記憶部12に記憶される。分類済み文書記憶部12は、文書本体を記憶しても良いし、文書属性、分類枠、文書本体のアドレス等を保管し、文書本体は別の記憶部に記憶しても良い。   In FIG. 1, the document classification device 1 includes a document input unit 10, a document classification unit 11, a classified document storage unit 12, a sample document storage unit 13, and a classification system hierarchization unit 14. The document input unit 10 inputs a group of documents prepared in advance, a group of documents input periodically, and a document input sequentially, and the documents are transmitted via a recording medium or a communication medium. . The document may be generated from the site of the document classification device 1. The document classification unit 11 classifies documents with reference to a hierarchical structure classification system, for example, a classification system as shown in FIG. The hierarchical structure classification system is composed of a terminal classification frame and an upper classification frame, and has a tree structure. For classification of documents, keywords or word vectors can be used. In this example, a word vector is used and a word vector is assigned to each classification frame (upper classification frame and terminal classification frame), but the present invention is not limited to this. The document starts from the root classification frame, is matched with the word vector of each branch (branch destination classification frame), is classified into the most appropriate branch, and is also matched with the branch word vector in the next hierarchy, It is classified into an appropriate branch and finally classified into one of the terminal classification frames. The classified documents are stored in the classified document storage unit 12. The classified document storage unit 12 may store the document body, or may store document attributes, classification frames, document body addresses, and the like, and the document body may be stored in another storage unit.

分類された文書は所定の閲覧機構を用いて閲覧することができる。任意のレベルの分類枠を指定してその分類枠に入っている文書の属性、要約等を閲覧できるようにしても良いし、また検索機構を付加して検索結果の文書を閲覧できるようにしても良い。その他分類装置の種々の機構を採用できる。   The classified documents can be browsed using a predetermined browsing mechanism. You can specify a classification frame at an arbitrary level so that you can browse the attributes, summaries, etc. of the documents in the classification frame. Also good. Various other mechanisms of the classification device can be employed.

分類体系階層化部14は、文書分類部11で用いられる階層構造分類体系を生成するためのものである。分類体系階層化部14はサンプル文書記憶部13に記憶されているサンプル文書を用いて階層構造分類体系を生成する。サンプル文書記憶部13に記憶されているサンプル文書は予めユーザ等によりフラットに配置された複数の分類枠(末端分類枠)に分けられている。分類体系階層化部14の詳細については図2および図3を参照して説明する。   The classification system hierarchization unit 14 is for generating a hierarchical structure classification system used in the document classification unit 11. The classification system hierarchization unit 14 generates a hierarchical structure classification system using the sample documents stored in the sample document storage unit 13. The sample documents stored in the sample document storage unit 13 are divided in advance into a plurality of classification frames (terminal classification frames) arranged flat by a user or the like. Details of the classification system hierarchization unit 14 will be described with reference to FIGS.

図2は、分類体系階層化部14の構成例を示している。図2において、分類体系階層化部14は、サンプル文書入力部141、初期分類体系生成部142、分類体系記憶部143、評価部144、分類体系変更部145等を含んで構成されている。なお、これら各部は実際にはプログラムのプロセスにより実行されるものであり、サンプル文書入力部141は図3のステップS10に対応し、初期分類体系生成部142は同じくステップS11に対応し、評価部144は同じくステップS12〜S14に対応し、分類体系変更部145は同じくステップS15に対応する。   FIG. 2 shows a configuration example of the classification system hierarchization unit 14. In FIG. 2, the classification system hierarchization unit 14 includes a sample document input unit 141, an initial classification system generation unit 142, a classification system storage unit 143, an evaluation unit 144, a classification system change unit 145, and the like. These units are actually executed by a program process. The sample document input unit 141 corresponds to step S10 in FIG. 3, and the initial classification system generation unit 142 similarly corresponds to step S11. 144 corresponds to steps S12 to S14, and the classification system changing unit 145 also corresponds to step S15.

図2および図3を参照して分類体系階層化部14をさらに説明する。図2および図3において、サンプル文書入力部141はサンプル文書記憶部13から分類枠に関係づけられたサンプル文書を受取り初期分類体系生成部142に供給する(S10)。初期分類体系生成部142はサンプル文書を参照して分類枠をクラスタリングし、クラスタを上位分類枠としクラスタの属する分類枠を末端分類枠として初期分類体系を生成して分類体系記憶部143に記憶する(S11)。評価部144は、分類体系記憶部143に記憶されている暫定的な分類体系を参照してサンプル文書を自動分類し(S12)、この後分類結果を評価する(S13)。いずれの上位分類枠も精度が基準値より低くなければ暫定的な分類体系を最終的な分類体系として確定する(S14、S16)。精度が基準値より低い上位分類枠がある場合には分類体系変更部145が分類体系を変更する。精度が基準値より低い上位分類枠に対応するクラスタとこのクラスタに類似するクラスタあるいは末端分類枠(1つの末端分類枠のみ含むクラスタ)を1つのクラスタに統合してステップS11と同様にその統合クラスタの範囲で再クラスタリングを行い、クラスタを生成して分類体系を変更する(S15)。すなわち、統合クラスタに対応する上位分類枠の下位に、再クラスタリングにより生成したクラスタに対応する上位分類枠を用意し、その下に末端分類枠を配置する。この結果、階層の深さが伸びることになる。   The classification system hierarchization unit 14 will be further described with reference to FIGS. 2 and 3. 2 and 3, the sample document input unit 141 receives the sample document related to the classification frame from the sample document storage unit 13 and supplies it to the initial classification system generation unit 142 (S10). The initial classification system generation unit 142 clusters the classification frames with reference to the sample document, generates an initial classification system using the cluster as the upper classification frame and the classification frame to which the cluster belongs as the terminal classification frame, and stores the initial classification system in the classification system storage unit 143. (S11). The evaluation unit 144 automatically classifies the sample document with reference to the provisional classification system stored in the classification system storage unit 143 (S12), and then evaluates the classification result (S13). If the accuracy of any of the upper classification frames is not lower than the reference value, the provisional classification system is determined as the final classification system (S14, S16). If there is a higher classification frame whose accuracy is lower than the reference value, the classification system changing unit 145 changes the classification system. A cluster corresponding to a higher classification frame whose accuracy is lower than the reference value and a cluster similar to this cluster or a terminal classification frame (a cluster including only one terminal classification frame) are integrated into one cluster, and the integrated cluster is the same as in step S11. Re-clustering is performed in the range of (1) to generate clusters and change the classification system (S15). That is, an upper classification frame corresponding to a cluster generated by reclustering is prepared below the upper classification frame corresponding to the integrated cluster, and the terminal classification frame is arranged below the upper classification frame. As a result, the depth of the hierarchy increases.

精度が基準値より低い上位分類がなくなるまでS13〜S15を繰り返し、最終的にすべての上位分類の精度が良好になったら分類体系を確定する(S16)。なお、すべての上位分類の精度が良好になるという終了条件に変えて、その他の条件を再証しても良い。例えば、分類体系の深さが所定の値になったこと、上記ステップS13〜S15の繰り返しの回数が所定の値になったこと、処理時間が所定の値になったこと等を採用しても良い。   S13 to S15 are repeated until there is no higher classification whose accuracy is lower than the reference value, and when the accuracy of all the higher classifications finally becomes good, the classification system is determined (S16). It should be noted that other conditions may be re-examined instead of the termination condition that the accuracy of all the upper classifications becomes good. For example, it may be adopted that the depth of the classification system has reached a predetermined value, that the number of repetitions of steps S13 to S15 has reached a predetermined value, that the processing time has reached a predetermined value, etc. good.

上記各ステップをさらに詳細に説明する。   Each of the above steps will be described in more detail.

[ステップS10]:ユーザは分類枠を、分類されるべきサンプル文書の集合で定義する。この際、構造に関する情報をユーザが用意する必要はない。 [Step S10]: The user defines a classification frame by a set of sample documents to be classified. At this time, it is not necessary for the user to prepare information regarding the structure.

[ステップS11]:システムは、与えられた分類枠を既存のクラスタリング技術などを用いて、たとえば5から20個のクラスタに分ける。文書クラスタリングの場合、一般に対象は文書にあるが、ここでの対象はサンプル文書ではなく分類枠である。 [Step S11]: The system divides the given classification frame into, for example, 5 to 20 clusters using an existing clustering technique or the like. In the case of document clustering, the target is generally in a document, but the target here is not a sample document but a classification frame.

[ステップS12]:サンプル文書を入力として、上記ステップS11のクラスタを分類体系にしたがって、自動分類を行う。 [Step S12]: The sample document is input, and the cluster of step S11 is automatically classified according to the classification system.

システムが自動分類を行うとき、入力の文書に対して、まずは最上位の階層に含まれる各クラスタとの関連度を計算し、最も関連度の大きいクラスタに振り分ける。次に、そのクラスタが下位の階層をもっている場合には、その階層に対して同様のことを行う。ユーザの定義した分類枠に振り分けられるまでこれらの処理を続ける。   When the system performs automatic classification, first, the degree of relevance with each cluster included in the highest hierarchy is calculated for the input document and distributed to the cluster with the highest degree of relevance. Next, if the cluster has a lower hierarchy, the same thing is done for that hierarchy. These processes are continued until they are assigned to the classification frame defined by the user.

入力文書とクラスタとの関連度は、文書の単語ベクトルとクラスタの単語ベクトル間の関連度で定義する。単語ベクトルの大きさは、クラスタにおける単語の出現頻度に関する統計量から求める。このとき、あるクラスタが属している階層に含まれる全てのサンプル文書を母数とする。   The degree of association between the input document and the cluster is defined by the degree of association between the word vector of the document and the word vector of the cluster. The size of the word vector is obtained from a statistic regarding the appearance frequency of words in the cluster. At this time, all sample documents included in the hierarchy to which a certain cluster belongs are set as a population parameter.

各階層ごとにサンプル文書が異なるため、単語ベクトルの大きさはそれぞれ異なることになる。したがって、最上位の階層から文書の関連度を求めていくと、各階層ごとにより適当な関連度が求められることが期待できる。すなわち、単にキーワードの有無や一律に決められた単語スコアによって分類結果が決まるのではなく、分類体系の階層構造に応じてより妥当だと期待できる分類が行われる。   Since the sample documents are different for each hierarchy, the word vectors have different sizes. Therefore, when the relevance level of a document is obtained from the highest level, it can be expected that an appropriate relevance level is obtained for each level. That is, the classification result is not determined simply by the presence or absence of the keyword or the word score that is uniformly determined, but is classified according to the hierarchical structure of the classification system.

[ステップS13]:自動分類結果の精度を評価する。サンプル文書が所定の分類枠を含むクラスタに分類されている場合を正解としてみなし、再現率または再現率と適合率の調和平均であるF値などを測定する。 [Step S13]: The accuracy of the automatic classification result is evaluated. A case where the sample document is classified into a cluster including a predetermined classification frame is regarded as a correct answer, and an F value that is a harmonic average of the recall rate or the recall rate and the matching rate is measured.

[ステップS14、S15]:結果の精度が基準値よりも低い場合は、分類精度が基準値より低いクラスタとそれに類似したクラスタに注目する。これらのクラスタをまとめて仮想的な階層分類枠を設定し、この仮想分類枠の下位に分類枠を配置する。これら分類枠に対して再度クラスタリングを行い、ステップS12に戻る。 [Steps S14 and S15]: When the accuracy of the result is lower than the reference value, attention is paid to a cluster whose classification accuracy is lower than the reference value and a cluster similar thereto. These clusters are put together to set a virtual hierarchical classification frame, and the classification frame is arranged below this virtual classification frame. Clustering is again performed on these classification frames, and the process returns to step S12.

[ステップS14、S16]:十分によい精度が得られた場合は、各クラスタを仮想的な階層分類枠に設定し、その下位に分類枠を配置する。 [Steps S14 and S16]: When sufficiently high accuracy is obtained, each cluster is set as a virtual hierarchical classification frame, and the classification frame is arranged below it.

結果として、階層構造をもつ分類体系が構築される。ユーザが定義した分類枠は、階層構造の末端の分類枠となり、それ以外の分類枠はシステムにより設定される。階層構造は、サンプル文書を入力の文書として自動分類を行った場合に、分類誤りが最小に近づくように設定される。   As a result, a classification system having a hierarchical structure is constructed. The classification frame defined by the user becomes the classification frame at the end of the hierarchical structure, and the other classification frames are set by the system. The hierarchical structure is set so that a classification error approaches a minimum when automatic classification is performed using a sample document as an input document.

このような処理によれば、例えば図4に示すように分類枠がクラスタにクラスタリングされる。低精度のクラスタαとこれに類似するクラスタに注目してこれを1つのクラスタにし、再クラスタリングして、図5に示すように、その下位にクラスタを配置する。図5では、統合したクラスタが再クラスタリングにより3つのクラスタに分割される。以上の処理を繰り返すことにより図6に示すような階層構造分類体系が構築される。   According to such processing, the classification frames are clustered into clusters as shown in FIG. 4, for example. Focusing on the low-accuracy cluster α and a cluster similar thereto, this is made into one cluster, re-clustered, and as shown in FIG. In FIG. 5, the integrated cluster is divided into three clusters by re-clustering. By repeating the above processing, a hierarchical structure classification system as shown in FIG. 6 is constructed.

この実施例によれば、ユーザは何ら分類体系の上下関係に配慮することなく単にフラットな分類枠とそのサンプル文書を用意するだけで簡単に階層構造の分類体系を構築することができる。しかも、分類精度が向上するように分類体系を更新しておくので、文書分類の高精度が保証される。   According to this embodiment, the user can easily construct a hierarchical classification system simply by preparing a flat classification frame and its sample document without considering the hierarchical relationship of the classification system. In addition, since the classification system is updated so as to improve the classification accuracy, high accuracy of document classification is guaranteed.

なお、この発明は上述の実施例に限定されるものではなく、種々変更が可能である。例えば、図7に示すようにこの発明を分類体系最適化部(学習化部)15として構築しても良い。すなわち、分類体系最適化部15は、文書分類部11で用いている分類体系を分類済み文書記憶部12の文書または他のサンプル文書等を用いて最適化できる。分類体系最適化部15は例えば図8に示すように文書入力部151、評価部152、分類体系記憶部153、分類体系変更部154等を含んで構成される。分類体系最適化部15の文書入力部151、評価部152、分類体系記憶部153、分類体系変更部154は、図2の分類体系階層化部14の文書入力部141、評価部144、分類体系記憶部143、分類体系変更部145と対応するものであり、その動作は図3に破線で示す部分と同様のものである(ステップS12〜S16)。   In addition, this invention is not limited to the above-mentioned Example, A various change is possible. For example, the present invention may be constructed as a classification system optimization unit (learning unit) 15 as shown in FIG. That is, the classification system optimization unit 15 can optimize the classification system used in the document classification unit 11 by using a document in the classified document storage unit 12, another sample document, or the like. For example, as shown in FIG. 8, the classification system optimization unit 15 includes a document input unit 151, an evaluation unit 152, a classification system storage unit 153, a classification system change unit 154, and the like. The document input unit 151, the evaluation unit 152, the classification system storage unit 153, and the classification system change unit 154 of the classification system optimization unit 15 are the document input unit 141, the evaluation unit 144, and the classification system of the classification system hierarchization unit 14 of FIG. The operations correspond to those of the storage unit 143 and the classification system changing unit 145, and their operations are the same as those indicated by the broken lines in FIG. 3 (steps S12 to S16).

この変形例では、既存の分類体系の分類精度が基準値より低い場合や、状況に併せて分類体系を修正した場合に、文書分類部11の分類体系を分類体系記憶部153に記憶して最適化対象とし、分類済み文書や、状況を代表するサンプル文書を文書入力部151から入力して評価、変更を行う。この場合にも上述と同様に分類精度が向上し、また状況に合致したものとなる。   In this modified example, when the classification accuracy of the existing classification system is lower than the reference value, or when the classification system is modified according to the situation, the classification system of the document classification unit 11 is stored in the classification system storage unit 153 and optimized. A classified document or a sample document representing the situation is input from the document input unit 151 and evaluated and changed. In this case as well, the classification accuracy is improved and the situation is matched.

この発明の実施例を示すブロック図である。It is a block diagram which shows the Example of this invention. 上述実施例の要部の構成例を示すブロック図である。It is a block diagram which shows the structural example of the principal part of the said Example. 上述実施例の動作を説明するフローチャートである。It is a flowchart explaining operation | movement of the said Example. 上述実施例の動作を説明する図であり、クラスタリングされた分類枠の状態を説明する図である。It is a figure explaining operation | movement of the said Example, and is a figure explaining the state of the clustered classification frame. 上述実施例の動作を説明する図であり、精度が基準値より低いクラスタに着目してクラスタの統合を行いその後再クラスタした状態を説明する図である。It is a figure explaining the operation | movement of the said Example, It is a figure explaining the state which integrated after focusing on the cluster whose precision is lower than a reference value, and then reclustered. 上述実施例の動作を説明する図であり、最終的に得られる階層構造分類体系の例を示す図である。It is a figure explaining operation | movement of the said Example, and is a figure which shows the example of the hierarchical structure classification | category system finally obtained. 上述実施例の変形例を説明するブロック図である。It is a block diagram explaining the modification of the said Example. 上述実施例の変形例における要部の構成例を示すブロック図である。It is a block diagram which shows the structural example of the principal part in the modification of the above-mentioned Example.

符号の説明Explanation of symbols

1 文書分類装置
10 文書入力部
11 文書分類部
12 文書記憶部
13 サンプル文書記憶部
14 分類体系階層化部
15 分類体系最適化部
141 サンプル文書入力部
142 初期分類体系生成部
143 分類体系記憶部
144 評価部
145 分類体系変更部
151 文書入力部
152 評価部
153 分類体系記憶部
154 分類体系変更部
1 Document classification device 10 Document input unit 11 Document classification unit 12 Document storage unit 13 Sample document storage unit 14 Classification system hierarchization unit 15 Classification system optimization unit 141 Sample document input unit 142 Initial classification system generation unit 143 Classification system storage unit 144 Evaluation unit 145 Classification system change unit 151 Document input unit 152 Evaluation unit 153 Classification system storage unit 154 Classification system change unit

Claims (9)

文書分類装置の階層構造分類体系を生成する分類体系生成装置において、
非階層構造の末端分類枠ごとのサンプル文書を入力し、上記サンプル文書を参照して非階層型の末端分類枠をクラスタリングし、クラスタリングの結果得られたクラスタを上位分類枠として上記非階層型の末端分類枠の上位に配置する階層構造を、初期の階層構造分類体系として生成する初期階層構造分類体系生成手段と、
初期の階層構造分類体系または変更された階層構造分類体系を記憶する階層構造分類体系記憶手段と、
上記階層構造分類体系記憶手段に記憶されている階層構造分類体系を参照して上記サンプル文書を分類し、分類精度が基準値より低い上位分類枠を判別する分類精度評価手段と、
分類精度が基準値より低い上位分類枠が判別されたときに、上記分類精度評価手段により精度が基準値より低いと評価された上位分類枠のクラスタを、他のクラスタと統合して1つのクラスタに再編し、統合した上記1つのクラスタに含まれる末端分類枠を、当該末端分類枠に含まれる上記サンプル文書を参照して再クラスタリングし、再クラスタリングの結果得られたクラスタを、当該1つのクラスタに対応する上位分類枠の下位の上位分類枠とするように、上記階層構造分類体系記憶手段に記憶されている上記階層構造分類体系を変更する階層構造変更手段とを有し、
所定の終了条件が満たされないときは、上記分類結果評価手段による判別と上記階層構造変更手段による上記階層構造分類体系の変更とを繰り返し、所定の終了条件が満たされたときに上記階層構造分類体系記憶手段に記憶されている上記階層構造分類体系を上記文書分類装置の分類体系として用いることを特徴とする分類体系生成装置。
In a classification system generation device that generates a hierarchical classification system of a document classification device,
Input a sample document for each non-hierarchical terminal classification frame, cluster the non-hierarchical terminal classification frame with reference to the sample document, and use the cluster obtained as a result of clustering as a higher classification frame to An initial hierarchical structure classification system generating means for generating a hierarchical structure to be arranged above the terminal classification frame as an initial hierarchical structure classification system;
A hierarchical structure classification system storage means for storing an initial hierarchical structure classification system or a modified hierarchical structure classification system;
Classification accuracy evaluation means for classifying the sample document with reference to the hierarchical structure classification system stored in the hierarchical structure classification system storage means, and determining a higher classification frame whose classification accuracy is lower than a reference value;
When a higher classification frame whose classification accuracy is lower than the reference value is determined, the cluster of the higher classification frame whose accuracy is evaluated to be lower than the reference value by the classification accuracy evaluation means is integrated with other clusters to form one cluster The end classification frame included in the one cluster that has been reorganized and integrated is reclustered with reference to the sample document included in the end classification frame, and the cluster obtained as a result of the reclustering is converted into the one cluster. Hierarchical structure change means for changing the hierarchical structure classification system stored in the hierarchical structure classification system storage means so that the upper classification frame is lower than the upper classification frame corresponding to
When the predetermined end condition is not satisfied, the determination by the classification result evaluating means and the change of the hierarchical structure classification system by the hierarchical structure changing means are repeated, and when the predetermined end condition is satisfied, the hierarchical structure classification system A classification system generation apparatus characterized in that the hierarchical structure classification system stored in a storage means is used as a classification system of the document classification apparatus.
上記精度が基準値より低いと評価されたクラスタと統合される他のクラスタは上記精度が基準値より低いと評価されたクラスタと類似するクラスタである請求項1記載の分類体系生成装置。   2. The classification system generating apparatus according to claim 1, wherein the other cluster integrated with the cluster evaluated to have the accuracy lower than the reference value is a cluster similar to the cluster evaluated to have the accuracy lower than the reference value. 上記終了条件は、いずれのクラスタも分類精度が基準値より低いと評価されないことである請求項1または2記載の分類体系生成装置。   The classification system generation device according to claim 1 or 2, wherein the termination condition is that any cluster is not evaluated as having a classification accuracy lower than a reference value. 文書を入力する文書入力手段と、
末端分類枠および上記分類枠を含む階層構造分類体系を生成する階層構造分類体系生成手段とを有し、
上記階層構造分類体系を参照して上記文書を分類する文書分類装置において、
上記階層構造分類体系生成手段は、
非階層構造の末端分類枠ごとのサンプル文書を入力し、上記サンプル文書を参照して非階層型の末端分類枠をクラスタリングし、クラスタリングの結果得られたクラスタを上位分類枠として上記非階層型の末端分類枠の上位に配置する階層構造を、初期の階層構造分類体系として生成する初期階層構造分類体系生成手段と、
初期の階層構造分類体系または変更された階層構造分類体系を記憶する階層構造分類体系記憶手段と、
上記階層構造分類体系記憶手段に記憶されている階層構造分類体系を参照して上記サンプル文書を分類し、分類精度が基準値より低い上位分類枠を判別する分類精度評価手段と、
分類精度が基準値より低い上位分類枠が判別されたときに、上記分類精度評価手段により精度が基準値より低いと評価された上位分類枠のクラスタを、他のクラスタと統合して1つのクラスタに再編し、統合した上記1つのクラスタに含まれる末端分類枠を、当該末端分類枠に含まれる上記サンプル文書を参照して再クラスタリングし、再クラスタリングの結果得られたクラスタを、当該1つのクラスタに対応する上位分類枠の下位の上位分類枠とするように、上記階層構造分類体系記憶手段に記憶されている上記階層構造分類体系を変更する階層構造変更手段とを有し、
所定の終了条件が満たされないときは、上記分類結果評価手段による判別と上記階層構造変更手段による上記階層構造分類体系の変更とを繰り返し、所定の終了条件が満たされたときに上記階層構造分類体系記憶手段に記憶されている上記階層構造分類体系を上記文書分類装置の分類体系として用いることを特徴とする文書分類装置。
A document input means for inputting a document;
A hierarchical classification system generating means for generating a hierarchical classification system including the terminal classification frame and the classification frame,
In a document classification device for classifying the document with reference to the hierarchical structure classification system,
The hierarchical structure classification system generating means is:
Input a sample document for each non-hierarchical terminal classification frame, cluster the non-hierarchical terminal classification frame with reference to the sample document, and use the cluster obtained as a result of clustering as a higher classification frame to An initial hierarchical structure classification system generating means for generating a hierarchical structure to be arranged above the terminal classification frame as an initial hierarchical structure classification system;
A hierarchical structure classification system storage means for storing an initial hierarchical structure classification system or a modified hierarchical structure classification system;
Classification accuracy evaluation means for classifying the sample document with reference to the hierarchical structure classification system stored in the hierarchical structure classification system storage means, and determining a higher classification frame whose classification accuracy is lower than a reference value;
When a higher classification frame whose classification accuracy is lower than the reference value is determined, the cluster of the higher classification frame whose accuracy is evaluated to be lower than the reference value by the classification accuracy evaluation means is integrated with other clusters to form one cluster The end classification frame included in the one cluster that has been reorganized and integrated is reclustered with reference to the sample document included in the end classification frame, and the cluster obtained as a result of the reclustering is converted into the one cluster. Hierarchical structure change means for changing the hierarchical structure classification system stored in the hierarchical structure classification system storage means so that the upper classification frame is lower than the upper classification frame corresponding to
When the predetermined end condition is not satisfied, the determination by the classification result evaluating means and the change of the hierarchical structure classification system by the hierarchical structure changing means are repeated, and when the predetermined end condition is satisfied, the hierarchical structure classification system A document classification apparatus using the hierarchical structure classification system stored in a storage means as a classification system of the document classification apparatus.
文書を入力する文書入力手段と、
文書を分類する際に参照する階層構造分類体系を記憶する階層構造分類体系記憶手段と、
上記階層構造分類体系記憶手段に記憶されている上記階層構造分類体系を適合化する階層構造適合化手段とを有し、
適合化された上記階層構造分類体系を参照して上記文書を分類する文書分類装置において、
上記階層構造適合化手段は、
上記階層構造分類体系記憶手段に記憶されている階層構造分類体系を参照して上記サンプル文書を分類し、分類精度が基準値より低い上位分類枠を判別する分類精度評価手段と、
分類精度が基準値より低い上位分類枠が判別されたときに、上記分類精度評価手段により精度が基準値より低いと評価された上位分類枠のクラスタを、他のクラスタと統合して1つのクラスタに再編し、統合した上記1つのクラスタに含まれる末端分類枠を、当該末端分類枠に含まれる上記サンプル文書を参照して再クラスタリングし、再クラスタリングの結果得られたクラスタを、当該1つのクラスタに対応する上位分類枠の下位の上位分類枠とするように、上記階層構造分類体系記憶手段に記憶されている上記階層構造分類体系を変更する階層構造変更手段とを有し、
所定の終了条件が満たされないときは、上記分類結果評価手段による判別と上記階層構造変更手段による上記階層構造分類体系の変更とを繰り返し、所定の終了条件が満たされたときに上記階層構造分類体系記憶手段に記憶されている上記階層構造分類体系を上記文書分類装置の分類体系として用いることを特徴とする文書分類装置。
A document input means for inputting a document;
A hierarchical classification system storage means for storing a hierarchical classification system to be referred to when classifying documents;
Hierarchical structure adapting means for adapting the hierarchical structure classification system stored in the hierarchical structure classification system storage means,
In a document classification apparatus for classifying the document with reference to the adapted hierarchical structure classification system,
The hierarchical structure adaptation means is:
Classification accuracy evaluation means for classifying the sample document with reference to the hierarchical structure classification system stored in the hierarchical structure classification system storage means, and determining a higher classification frame whose classification accuracy is lower than a reference value;
When a higher classification frame whose classification accuracy is lower than the reference value is determined, the cluster of the higher classification frame whose accuracy is evaluated to be lower than the reference value by the classification accuracy evaluation means is integrated with other clusters to form one cluster The end classification frame included in the one cluster that has been reorganized and integrated is reclustered with reference to the sample document included in the end classification frame, and the cluster obtained as a result of the reclustering is converted into the one cluster. Hierarchical structure change means for changing the hierarchical structure classification system stored in the hierarchical structure classification system storage means so as to be an upper classification frame lower than the upper classification frame corresponding to
When the predetermined end condition is not satisfied, the determination by the classification result evaluating unit and the change of the hierarchical structure classification system by the hierarchical structure changing unit are repeated, and when the predetermined end condition is satisfied, the hierarchical structure classification system A document classification apparatus using the hierarchical structure classification system stored in a storage means as a classification system of the document classification apparatus.
文書分類装置の階層構造分類体系を生成する方法において、
(a)非階層構造の末端分類枠ごとのサンプル文書を入力するステップと、
(b)上記サンプル文書を参照して非階層型の末端分類枠をクラスタリングし、クラスタリングの結果得られたクラスタを上位分類枠として上記非階層型の末端分類枠の上位に配置する階層構造を、初期の階層構造分類体系として生成するステップと、
(c)初期の階層構造分類体系または変更された階層構造分類体系を参照して上記サンプル文書を分類するステップと、
(d)分類精度が基準値より低い上位分類枠を判別するステップと、
(e)分類精度が基準値より低い上位分類枠が判別されたときに、精度が基準値より低いと評価された上位分類枠のクラスタを、他のクラスタと統合して1つのクラスタに再編し、統合した上記1つのクラスタに含まれる末端分類枠を、当該末端分類枠に含まれる上記サンプル文書を参照して再クラスタリングし、再クラスタリングの結果得られたクラスタを、当該1つのクラスタに対応する上位分類枠の下位の上位分類枠とするように、上記階層構造分類体系記憶手段に記憶されている上記階層構造分類体系を変更してステップ(c)に戻るステップと、
(f)分類精度が基準値より低い上位分類枠が判別されないときには現在の階層構造分類体系を上記文書分類装置の分類体系として用いるステップとを有することを特徴とする分類体系生成方法。
In a method for generating a hierarchical classification system of a document classification device,
(A) inputting a sample document for each non-hierarchical terminal classification frame;
(B) A non-hierarchical terminal classification frame is clustered with reference to the sample document, and a hierarchical structure in which a cluster obtained as a result of the clustering is arranged as a higher classification frame at a higher level than the non-hierarchical terminal classification frame, Generating as an initial hierarchical classification system;
(C) classifying the sample document with reference to an initial hierarchical classification system or a modified hierarchical classification system;
(D) determining a higher classification frame whose classification accuracy is lower than a reference value;
(E) When a higher classification frame whose classification accuracy is lower than the reference value is determined, the clusters of the higher classification frame evaluated as having a lower accuracy than the reference value are integrated with other clusters and reorganized into one cluster. The terminal classification frames included in the integrated one cluster are reclustered with reference to the sample document included in the terminal classification frame, and the cluster obtained as a result of the reclustering corresponds to the one cluster. Changing the hierarchical structure classification system stored in the hierarchical structure classification system storage means to return to the step (c) so as to be an upper classification frame lower than the upper classification frame;
(F) A method for generating a classification system, comprising a step of using a current hierarchical structure classification system as a classification system of the document classification device when a higher classification frame having a classification accuracy lower than a reference value is not determined.
文書分類装置の階層構造分類体系を適合化する方法において、
(a)階層構造分類体系を参照して上記サンプル文書を分類するステップと、
(b)分類精度が基準値より低い上位分類枠を判別するステップと、
(c)分類精度が基準値より低い上位分類枠が判別されたときに、精度が基準値より低いと評価された上位分類枠のクラスタを、他のクラスタと統合して1つのクラスタに再編し、統合した上記1つのクラスタに含まれる末端分類枠を、当該末端分類枠に含まれる上記サンプル文書を参照して再クラスタリングし、再クラスタリングの結果得られたクラスタを、当該1つのクラスタに対応する上位分類枠の下位の上位分類枠とするように、上記階層構造分類体系記憶手段に記憶されている上記階層構造分類体系を変更してステップ(a)に戻るステップと、
(d)分類精度が基準値より低い上位分類枠が判別されないときには現在の階層構造分類体系を上記文書分類装置の分類体系として用いるステップとを有することを特徴とする分類体系適合化方法。
In a method for adapting a hierarchical classification system of a document classification device,
(A) classifying the sample document with reference to a hierarchical structure classification system;
(B) determining a higher classification frame whose classification accuracy is lower than a reference value;
(C) When a higher classification frame whose classification accuracy is lower than the reference value is determined, the cluster of the higher classification frame evaluated as having a lower accuracy than the reference value is integrated with other clusters and reorganized into one cluster. The terminal classification frames included in the integrated one cluster are reclustered with reference to the sample document included in the terminal classification frame, and the cluster obtained as a result of the reclustering corresponds to the one cluster. Changing the hierarchical structure classification system stored in the hierarchical structure classification system storage means to return to the step (a) so as to be an upper classification frame lower than the upper classification frame;
(D) a classification system adaptation method comprising a step of using a current hierarchical structure classification system as a classification system of the document classification device when a higher classification frame having a classification accuracy lower than a reference value is not determined.
文書分類装置の階層構造分類体系を生成する階層構造分類体系生成用コンピュータプログラムにおいて、
(a)非階層構造の末端分類枠ごとのサンプル文書を入力するステップと、
(b)上記サンプル文書を参照して非階層型の末端分類枠をクラスタリングし、クラスタリングの結果得られたクラスタを上位分類枠として上記非階層型の末端分類枠の上位に配置する階層構造を、初期の階層構造分類体系として生成するステップと、
(c)初期の階層構造分類体系または変更された階層構造分類体系を参照して上記サンプル文書を分類するステップと、
(d)分類精度が基準値より低い上位分類枠を判別するステップと、
(e)分類精度が基準値より低い上位分類枠が判別されたときに、精度が基準値より低いと評価された上位分類枠のクラスタを、他のクラスタと統合して1つのクラスタに再編し、統合した上記1つのクラスタに含まれる末端分類枠を、当該末端分類枠に含まれる上記サンプル文書を参照して再クラスタリングし、再クラスタリングの結果得られたクラスタを、当該1つのクラスタに対応する上位分類枠の下位の上位分類枠とするように、上記階層構造分類体系記憶手段に記憶されている上記階層構造分類体系を変更してステップ(c)に戻るステップと、
(f)分類精度が基準値より低い上位分類枠が判別されないときには現在の階層構造分類体系を上記文書分類装置の分類体系として用いるステップとをコンピュータに実行させるために用いられることを特徴とする分類体系生成用コンピュータプログラム。
In a computer program for generating a hierarchical structure classification system for generating a hierarchical structure classification system of a document classification device,
(A) inputting a sample document for each non-hierarchical terminal classification frame;
(B) A non-hierarchical terminal classification frame is clustered with reference to the sample document, and a hierarchical structure in which a cluster obtained as a result of the clustering is arranged as a higher classification frame at a higher level than the non-hierarchical terminal classification frame, Generating as an initial hierarchical classification system;
(C) classifying the sample document with reference to an initial hierarchical classification system or a modified hierarchical classification system;
(D) determining a higher classification frame whose classification accuracy is lower than a reference value;
(E) When a higher classification frame whose classification accuracy is lower than the reference value is determined, the clusters of the higher classification frame evaluated as having a lower accuracy than the reference value are integrated with other clusters and reorganized into one cluster. The terminal classification frames included in the integrated one cluster are reclustered with reference to the sample document included in the terminal classification frame, and the cluster obtained as a result of the reclustering corresponds to the one cluster. Changing the hierarchical structure classification system stored in the hierarchical structure classification system storage means to return to the step (c) so as to be an upper classification frame lower than the upper classification frame;
(F) A classification used for causing a computer to execute a step of using the current hierarchical structure classification system as a classification system of the document classification device when a higher classification frame having a classification accuracy lower than a reference value is not determined. Computer program for system generation.
文書分類装置の階層構造分類体系を適合化する階層構造適合化用コンピュータプログラムにおいて、
(a)階層構造分類体系を参照して上記サンプル文書を分類するステップと、
(b)分類精度が基準値より低い上位分類枠を判別するステップと、
(c)分類精度が基準値より低い上位分類枠が判別されたときに、精度が基準値より低いと評価された上位分類枠のクラスタを、他のクラスタと統合して1つのクラスタに再編し、統合した上記1つのクラスタに含まれる末端分類枠を、当該末端分類枠に含まれる上記サンプル文書を参照して再クラスタリングし、再クラスタリングの結果得られたクラスタを、当該1つのクラスタに対応する上位分類枠の下位の上位分類枠とするように、上記階層構造分類体系記憶手段に記憶されている上記階層構造分類体系を変更してステップ(a)に戻るステップと、
(d)分類精度が基準値より低い上位分類枠が判別されないときには現在の階層構造分類体系を上記文書分類装置の分類体系として用いるステップとをコンピュータに実行させるために用いられることを特徴とする分類体系適合化用コンピュータプログラム。
In a computer program for hierarchical structure adaptation that adapts the hierarchical classification system of a document classification device,
(A) classifying the sample document with reference to a hierarchical structure classification system;
(B) determining a higher classification frame whose classification accuracy is lower than a reference value;
(C) When a higher classification frame whose classification accuracy is lower than the reference value is determined, the cluster of the higher classification frame evaluated as having a lower accuracy than the reference value is integrated with other clusters and reorganized into one cluster. The terminal classification frames included in the integrated one cluster are reclustered with reference to the sample document included in the terminal classification frame, and the cluster obtained as a result of the reclustering corresponds to the one cluster. Changing the hierarchical structure classification system stored in the hierarchical structure classification system storage means to return to the step (a) so as to be an upper classification frame lower than the upper classification frame;
(D) A classification that is used for causing a computer to execute a step of using the current hierarchical structure classification system as the classification system of the document classification device when a higher classification frame having a classification accuracy lower than a reference value is not determined. Computer program for system adaptation.
JP2004073973A 2004-03-16 2004-03-16 Document classification apparatus and classification system generation apparatus and method for document classification apparatus Expired - Fee Related JP4461854B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004073973A JP4461854B2 (en) 2004-03-16 2004-03-16 Document classification apparatus and classification system generation apparatus and method for document classification apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004073973A JP4461854B2 (en) 2004-03-16 2004-03-16 Document classification apparatus and classification system generation apparatus and method for document classification apparatus

Publications (2)

Publication Number Publication Date
JP2005266866A true JP2005266866A (en) 2005-09-29
JP4461854B2 JP4461854B2 (en) 2010-05-12

Family

ID=35091394

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004073973A Expired - Fee Related JP4461854B2 (en) 2004-03-16 2004-03-16 Document classification apparatus and classification system generation apparatus and method for document classification apparatus

Country Status (1)

Country Link
JP (1) JP4461854B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272892A (en) * 2006-03-29 2007-10-18 Xerox Corp Hierarchical clustering with real-time updating
JP2007334388A (en) * 2006-06-12 2007-12-27 Nippon Telegr & Teleph Corp <Ntt> Method and device for clustering, program, and computer-readable recording medium
WO2011004529A1 (en) * 2009-07-06 2011-01-13 日本電気株式会社 Classification hierarchy re-creation system, classification hierarchy re-creation method, and classification hierarchy re-creation program
WO2014002212A1 (en) * 2012-06-27 2014-01-03 株式会社日立製作所 Document linking method, document searching method, document linking apparatus, document linking apparatus, and program therefor
JP2014013601A (en) * 2007-12-21 2014-01-23 Mks Instruments Inc Hierarchical organization for data using partial least square analysis(pls-tree)
JP2017167831A (en) * 2016-03-16 2017-09-21 ヤフー株式会社 Information processing device, information processing method and information processing program

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08153121A (en) * 1994-09-30 1996-06-11 Hitachi Ltd Method and device for document information classification
JP2002183171A (en) * 2000-12-12 2002-06-28 Matsushita Electric Ind Co Ltd Document data clustering system
JP2002202984A (en) * 2000-11-02 2002-07-19 Fujitsu Ltd Automatic text information sorter based on rule base model
JP2003271620A (en) * 2002-03-19 2003-09-26 Fuji Xerox Co Ltd Document classification device, document classification method and document classification program
JP2003316796A (en) * 2002-04-26 2003-11-07 Fuji Xerox Co Ltd Hierarchical clustering device, hierarchical clustering method, hierarchical clustering program and hierarchical clustering system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08153121A (en) * 1994-09-30 1996-06-11 Hitachi Ltd Method and device for document information classification
JP2002202984A (en) * 2000-11-02 2002-07-19 Fujitsu Ltd Automatic text information sorter based on rule base model
JP2002183171A (en) * 2000-12-12 2002-06-28 Matsushita Electric Ind Co Ltd Document data clustering system
JP2003271620A (en) * 2002-03-19 2003-09-26 Fuji Xerox Co Ltd Document classification device, document classification method and document classification program
JP2003316796A (en) * 2002-04-26 2003-11-07 Fuji Xerox Co Ltd Hierarchical clustering device, hierarchical clustering method, hierarchical clustering program and hierarchical clustering system

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272892A (en) * 2006-03-29 2007-10-18 Xerox Corp Hierarchical clustering with real-time updating
JP2007334388A (en) * 2006-06-12 2007-12-27 Nippon Telegr & Teleph Corp <Ntt> Method and device for clustering, program, and computer-readable recording medium
JP2014013601A (en) * 2007-12-21 2014-01-23 Mks Instruments Inc Hierarchical organization for data using partial least square analysis(pls-tree)
WO2011004529A1 (en) * 2009-07-06 2011-01-13 日本電気株式会社 Classification hierarchy re-creation system, classification hierarchy re-creation method, and classification hierarchy re-creation program
US8732173B2 (en) 2009-07-06 2014-05-20 Nec Corporation Classification hierarchy regeneration system, classification hierarchy regeneration method, and classification hierarchy regeneration program
JP5621773B2 (en) * 2009-07-06 2014-11-12 日本電気株式会社 Classification hierarchy re-creation system, classification hierarchy re-creation method, and classification hierarchy re-creation program
WO2014002212A1 (en) * 2012-06-27 2014-01-03 株式会社日立製作所 Document linking method, document searching method, document linking apparatus, document linking apparatus, and program therefor
JP5894273B2 (en) * 2012-06-27 2016-03-23 株式会社日立製作所 Document association method, document retrieval method, document association apparatus, document retrieval apparatus, and program therefor
JP2017167831A (en) * 2016-03-16 2017-09-21 ヤフー株式会社 Information processing device, information processing method and information processing program

Also Published As

Publication number Publication date
JP4461854B2 (en) 2010-05-12

Similar Documents

Publication Publication Date Title
US11599714B2 (en) Methods and systems for modeling complex taxonomies with natural language understanding
WO2021093755A1 (en) Matching method and apparatus for questions, and reply method and apparatus for questions
CN105808590B (en) Search engine implementation method, searching method and device
WO2018004829A1 (en) Methods and apparatus for subgraph matching in big data analysis
CN103365997B (en) A kind of opining mining method based on integrated study
CN109299245B (en) Method and device for recalling knowledge points
US20140108304A1 (en) Semantic Request Normalizer
US8731930B2 (en) Contextual voice query dilation to improve spoken web searching
US11256991B2 (en) Method of and server for converting a categorical feature value into a numeric representation thereof
WO2021195095A1 (en) Neural architecture search with weight sharing
CN112328800A (en) System and method for automatically generating programming specification question answers
US20130325757A1 (en) Cascading learning system as semantic search
CN110413865A (en) Semantic expressiveness model and its method based on alternating binary coding device characterization model
JP4461854B2 (en) Document classification apparatus and classification system generation apparatus and method for document classification apparatus
CN113869609A (en) Method and system for predicting confidence of frequent subgraph of root cause analysis
WO2023083176A1 (en) Sample processing method and device and computer readable storage medium
CN116797195A (en) Work order processing method, apparatus, computer device, and computer readable storage medium
US20230153335A1 (en) Searchable data structure for electronic documents
US10467530B2 (en) Searching text via function learning
US20220156285A1 (en) Data Tagging And Synchronisation System
US20230142351A1 (en) Methods and systems for searching and retrieving information
CN114282497A (en) Method and system for converting text into SQL
Butka et al. A proposal of the information retrieval system based on the generalized one-sided concept lattices
CN107391674B (en) New type mining method and device
WO2023102831A1 (en) Systems and methods to search for digital twins

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100126

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100208

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4461854

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140226

Year of fee payment: 4

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees