JP2011191834A - Method, device and program for classifying document - Google Patents
Method, device and program for classifying document Download PDFInfo
- Publication number
- JP2011191834A JP2011191834A JP2010055271A JP2010055271A JP2011191834A JP 2011191834 A JP2011191834 A JP 2011191834A JP 2010055271 A JP2010055271 A JP 2010055271A JP 2010055271 A JP2010055271 A JP 2010055271A JP 2011191834 A JP2011191834 A JP 2011191834A
- Authority
- JP
- Japan
- Prior art keywords
- classification
- document
- similar
- assigned
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、分類が付与されていない文書を入力として、予め定義された分類体系の中から適切な分類を付与する文書分類方法、文書分類装置および文書分類プログラムに関する。特に、分類精度を再現率・適合率ともに高く維持しつつ、任意の個数を出力可能とする文書分類方法、これを実施する文書分類装置およびプログラムに関する。 The present invention relates to a document classification method, a document classification device, and a document classification program that use a document to which no classification is assigned as input and assign an appropriate classification from a predefined classification system. In particular, the present invention relates to a document classification method capable of outputting an arbitrary number while maintaining a high classification accuracy and a high recall and relevance rate, and a document classification apparatus and program for executing the document classification method.
特許や論文、新聞記事、Webページのように、テキスト情報を含む大量の文書の中から所望の文書を検索する際には、文書の形式や書誌、内容に応じて予め分類を付与しておき、検索条件の中で分類を指定することによって、検索範囲を絞り込む方法が有効である。しかし、大量の文書に分類を付与する作業や、時代の流れに応じて分類体系を常に最適な状態に更新する作業、分類を更新した場合に過去の大量の文書に付与された分類を付与し直す作業などに多大な労力を要しているのが現状である。 When searching for a desired document from a large number of documents containing text information, such as patents, papers, newspaper articles, and web pages, a classification is assigned in advance according to the document format, bibliography, and contents. A method of narrowing down the search range by specifying the classification in the search condition is effective. However, the task of assigning classifications to a large number of documents, the task of constantly updating the classification system to the optimal state according to the flow of the times, and the classification assigned to a large number of past documents when the classification is updated. The current situation is that a great deal of labor is required for repair work.
そこで、これらの作業にかかる作業者の負担を軽減する技術として文書自動分類技術が注目されている。自動分類のアルゴリズムとしては、例えば、特開2007-323454号公報に開示されているように、分類が予め付与された文書集合を学習用文書集合として用意し、まだ分類が付与されていない文書に対して、これに類似する学習用文書を検索し、検索結果上位の学習用文書に付与された分類の付与状況を統計解析して分類スコアを分類毎に算出し、当該分類スコアの大小に応じて付与すべき分類を特定するという、K近傍法(K-Nearest Neighboring法)と呼ばれる方式が一般的である(以下、本明細書では、KNN法と呼ぶこととする)。KNN法では、検索結果上位K件(KNNのK)の学習用文書の多くに付与された分類、および、より上位の学習用文書に付与された分類などを考慮して分類スコアを分類毎に算出し、分類スコアの高い順に分類を出力する。 Therefore, automatic document classification technology has attracted attention as a technology for reducing the burden on workers involved in these operations. As an automatic classification algorithm, for example, as disclosed in Japanese Patent Application Laid-Open No. 2007-323454, a document set to which classification is assigned in advance is prepared as a learning document set, and a document that has not yet been assigned classification is prepared. On the other hand, a similar learning document is searched, and the classification status assigned to the higher-ranking learning document is statistically analyzed to calculate a classification score for each classification, and according to the size of the classification score. A method called a K-Nearest Neighboring method is generally used (hereinafter, referred to as a KNN method in this specification). In the KNN method, the classification score is assigned to each classification in consideration of the classification given to many of the learning documents in the top K search results (K of KNN) and the classification given to higher learning documents. Calculate and output classification in descending order of classification score.
KNN法は、類似文書検索と共通のインデクスを使用でき、アルゴリズムも比較的単純であり、分類精度も比較的高いことから、文書分類でしばしば使われる方式である。しかし、その一方で、そのアルゴリズムの特性により、出力される分類の数が不安定になるという欠点がある。 The KNN method is a method often used in document classification because it can use an index common to similar document retrieval, has a relatively simple algorithm, and has a relatively high classification accuracy. However, on the other hand, the number of classifications to be output becomes unstable due to the characteristics of the algorithm.
例えば、類似文書検索結果の上位10件を用いて分類を特定し、1件の文書に分類が1種類だけ付与されていると仮定すると、1件の文書に対して出力されうる分類の数は、最低で1個、多くともせいぜい10個である。この出力分類の中に正解となる分類が含まれていれば良いが、特許分類のように分類の数が大量であり、かつ、分類の粒度が細かい分類体系を対象とした場合、正解分類が漏れてしまうこともしばしばあり、その結果として再現率(分類の漏れのなさの割合)が低下する可能性がある。 For example, if the top 10 similar document search results are used to identify the classification and it is assumed that only one type of classification is assigned to one document, the number of classifications that can be output for one document is , At least one and at most ten. It is sufficient that the correct classification is included in this output classification. However, when the classification system is a large number of classifications and the classification granularity is small, such as patent classification, the correct classification is There is often leakage, and as a result, the recall (ratio of missing classification) may be reduced.
出力される分類の数を多くするために、KNN法で対象とする類似文書の件数を多くする(上記例では10件を100件にする)ことが考えられるが、適合率(分類のノイズのなさの割合)が低下することが評価実験の結果から判明している。 In order to increase the number of classifications to be output, it is possible to increase the number of similar documents targeted by the KNN method (in the above example, 10 to 100). It has been found from the results of the evaluation experiment that the ratio of the absence is reduced.
一方、文書自動分類の用途として、自動分類結果を人間が精査し、必要に応じて追加・削除・修正することにより、人手で一から分類するよりも作業効率を向上させるという用途があるが、人間が精査した結果、自動分類結果が妥当でないと判断した場合、適切な分類を付与するためにその候補となる分類が漏れなく利用者に提示できていないと作業効率が悪くなる。したがって、自動分類結果として、利用者の要求に応じた数だけ分類を出力できることが望ましい。 On the other hand, as an application of automatic document classification, there is an application that improves the work efficiency rather than manually classifying from the beginning by manually examining the automatic classification results and adding, deleting, and correcting as necessary. As a result of human inspection, if it is determined that the automatic classification result is not valid, the work efficiency is deteriorated unless the candidate classification can be presented to the user without omission in order to give an appropriate classification. Therefore, it is desirable that as many automatic classification results as possible can be output according to the user's request.
以上を踏まえると、KNN法というシンプルかつ強力な文書分類方式において、再現率および適合率を低下させることなく、一定個数の分類を出力可能とすることが課題となる。 Based on the above, in a simple and powerful document classification method called the KNN method, it becomes a problem to be able to output a certain number of classifications without reducing the recall rate and the matching rate.
そこで本発明では、入力された分類付与対象文書に対して、類似文書検索手段によって検索された上位K件の類似文書(Kは予め指定された自然数)を特定し、当該K件の類似文書に付与された分類の各々について、当該K件の類似文書の中で当該分類が付与された文書の「件数」または「類似度(類似文書検索スコア)の総和値」または「類似度を検索順位の対数で除算した値の総和値」のいずれかを算出し、前記算出値の高い上位N個(Nは予め指定された自然数)の分類を当該分類付与対象文書に付与すべき分類付与結果として分類付与結果テーブルに格納し、前記類似文書検索手段によって検索された類似文書に付与された分類から当該N個の分類を除外し、除外した結果付与された分類数が0個になった類似文書を除外し、除外されずに残った類似文書における上位K件の類似文書を特定する処理を、前記分類付与結果テーブルに格納された分類数が利用者によって予め指定された数になるまで繰り返し実行することにより、上記課題を解決する。 Therefore, in the present invention, the top K similar documents (K is a natural number designated in advance) searched by the similar document search means are specified for the inputted classification grant target document, and the K similar documents are specified. For each of the assigned classifications, the “number of documents” or “total value of similarities (similar document search scores)” or “similarity of the similarities in the search rankings of the K similar documents. "Sum of values divided by logarithm" is calculated, and the top N (N is a natural number designated in advance) classification with the highest calculated value is classified as a classification grant result to be assigned to the classification grant target document. A similar document stored in the assignment result table and excluding the N classifications from the classifications assigned to the similar documents searched by the similar document search means, and the number of classifications given as a result of the exclusion is zero. Excluded, excluded By repeatedly executing the process of identifying the top K similar documents in the remaining similar documents until the number of classifications stored in the classification assignment result table reaches the number specified in advance by the user, To solve.
本発明により、KNN法というシンプルかつ強力な文書分類方式において、再現率および適合率を低下させることなく、分類を任意の個数だけ出力することが可能となる。また、高精度の分類付与結果を一定個数利用者に提示できるので、利用者は自動分類結果の妥当性をより効率良く精査できるようになる。 According to the present invention, in a simple and powerful document classification method called the KNN method, it is possible to output an arbitrary number of classifications without reducing the reproduction rate and the matching rate. In addition, since a certain number of classification grant results with high accuracy can be presented to the user, the user can scrutinize the validity of the automatic classification result more efficiently.
本発明の実施の形態を、図面を用いて詳細に説明する。なお、これにより本発明が限定されるものではない。 Embodiments of the present invention will be described in detail with reference to the drawings. Note that the present invention is not limited thereby.
本実施形態では、テキストを含む文書を入力として、予め定義された分類体系の中から適切な分類を自動的に特定する文書分類システムについて述べる。本実施形態では日本語で書かれた文書を対象としているが、英語等の外国語で書かれた文書にも適用可能である。本システムは、入力された文書と内容が類似している文書を、学習用文書集合(分類が予め付与されている文書の集合)の中から検索し、その検索結果上位の文書に付与された分類の付与状況を統計解析して付与すべき分類を決定するKNN法をベースとする。なお、KNN法では、予め分類が付与された学習用文書集合が不可欠であるが、本実施形態では、学習用文書集合が既に存在することを前提とする。 In the present embodiment, a document classification system will be described in which a document including text is input and an appropriate classification is automatically specified from a predefined classification system. In this embodiment, a document written in Japanese is targeted, but the present invention can also be applied to a document written in a foreign language such as English. This system searches for a document whose contents are similar to the input document from a learning document set (a set of documents with classifications assigned in advance), and is assigned to the higher-ranked document as a result of the search. Based on the KNN method of determining the classification to be given by statistical analysis of the classification assignment status. In the KNN method, a learning document set to which a classification is assigned in advance is indispensable. However, in the present embodiment, it is assumed that a learning document set already exists.
図1は本実施形態におけるブロック図の一例を示す図である。各々のデータおよび処理部についての詳細は、図2以降の説明の中で詳述する。 FIG. 1 is a diagram showing an example of a block diagram in the present embodiment. Details of each data and processing unit will be described in detail in FIG.
文書分類システムは、分類付与対象文書集合2を入力として、付与すべき分類を特定して分類付与結果テーブル13に出力する。処理に先立って、学習用文書集合1を構成する各文書に対して、文書解析部3において単語辞書4を参照してテキストを形態素解析して文書の内容を特徴付ける重み付き特徴語を抽出し、検索インデクス生成部5において文書IDと重み付き特徴語を対応付ける形で検索インデクス6に格納する。
The document classification system receives the classification grant target document set 2 as input, identifies the classification to be given, and outputs it to the classification grant result table 13. Prior to the processing, for each document constituting the learning document set 1, the
自動分類処理はまず、分類付与対象文書集合2を構成する各文書に対して文書解析部3において同様に単語辞書4を参照してテキストを形態素解析して重み付き特徴語を抽出する。
In the automatic classification process, first, the
次に、類似文書検索部7において、検索インデクス6を参照して、抽出された重み付き特徴語集合と類似する特徴語集合を持つ学習用文書を特定し、その類似度の高い文書から順に類似文書として類似文書テーブル8に類似度(類似文書検索スコア)とともに格納する。
Next, the similar
次に、分類付与部9において、類似文書テーブル8を入力として、学習用文書集合1を構成する文書とその文書に付与されている分類との対応を記述した文書−分類対応テーブル10を参照して、分類付与対象文書2に付与すべき分類を特定して分類付与結果テーブル13に格納する。
Next, the
本システムでは、分類付与部9以外の部分は従来のKNN法と同じ構成となっている。すなわち、文書解析部3における形態素解析については既に公知の技術であり、多くのツールが公開されている。本発明は、形態素解析方式に依存しない方法であり、どの形態素解析ツールを使用しても構わないので、ここでは深く言及しない。また、重み付き特徴語を抽出する方式としては、単語の出現頻度および出現文書数を考慮したTF-IDF法や、単語の文書内出現箇所や共起出現傾向を考慮した重み付けなど、既に公知の技術である。本発明は、特徴語の抽出および重み付けの方式に依存しない方法であり、どの方式を採用しても構わないので、ここでは深く言及しない。さらに、類似文書検索部7における特徴語照合方式、類似度算出方式、検索インデクス生成方式については、類似文書検索ツールや市販製品が多く存在している。類似文書検索では、各文書の重み付き特徴語を要素とする文書ベクトルを生成し、二つの文書の文書ベクトル間のなす角の余弦値の高いほど互いに類似していると判定する方式などが広く知られている。本発明は、類似度(類似文書検索スコア)付きの類似文書を検索できればよく、類似文書検索方式の中身には依存しないので、ここでは深く言及しない。
In this system, parts other than the
本発明では、分類付与部9が発明のポイントとなる部分である。分類付与部9は、分類特定部11、分類編集部12の二つの処理部を含み、これらを交互に繰返し実行することにより、分類を順次特定していく。
In this invention, the classification |
分類特定部11では、類似文書テーブル8および文書−分類対応テーブル10から得られる分類付き類似文書テーブルを参照して、付与すべき分類上位N個を特定し、分類付与結果テーブル13に格納する。分類付与結果テーブル13に格納された分類の数が予め利用者に指定された値に達した時点で、分類付与部9の処理を終了する。分類上位N個の特定方法については、分類付き類似文書テーブルに格納されている類似文書の上位K件を対象として、ある分類が付与されている類似文書の「件数」、「類似度の総和」、「類似度を『検索順位+1』の対数で除算した値の総和」のいずれかの値を算出し、この算出値の高い上位N個(Nは予め指定された自然数)を特定する。
The
分類編集部12では、分類付き類似文書テーブルに格納されている類似文書に付与されている分類のうち、この時点で分類付与結果テーブル13に格納されている分類を除外する。除外することによって類似文書に付与されている分類数が0個になった場合、その文書を類似文書から除外し、検索順位を上に順次詰める。この処理によって、上位K件の類似文書は動的に変化していくことになる。
The
図2は、本実施例のハードウェア構成の一例を示す図である。本システムは大きく、計算処理を実行する処理装置50、利用者が操作内容またはデータを入力するためのキーボード51およびマウス52、計算処理結果を利用者に出力するための出力モニタ53、処理装置50における処理に関するプログラムおよびデータを格納する記憶装置60から構成される。入出力データを別の計算機とやりとりする場合には、入出力データはネットワーク54を介して送受信する。
FIG. 2 is a diagram illustrating an example of a hardware configuration of the present embodiment. This system is large and includes a
記憶装置60はさらに、処理装置50における処理データを一時的に格納するワーキングエリア61と、学習用文書集合格納エリア62、分類付与対象文書集合格納エリア63、文書解析部格納エリア64、単語辞書格納エリア65、検索インデクス生成部格納エリア66、検索インデクス格納エリア67、類似文書検索部格納エリア68、類似文書テーブル格納エリア69、分類付与部格納エリア70、分類特定部格納エリア71、分類編集部格納エリア72、文書−分類対応テーブル格納エリア73、分類付与結果テーブル格納エリア74から構成される。処理装置50では、記憶装置60から必要なプログラムおよびデータをロードし、実行した結果を記憶装置60に格納することを繰り返すことにより処理が行われる。
The storage device 60 further includes a working
図3は分類付与部9の処理概要を示す図である。図3(1)は分類付与部9で生成、参照する分類付き類似文書テーブルの初期状態のデータであり、類似文書テーブル8と文書−分類対応テーブル10を、類似文書IDをキーとして結合(join)することによって得られる。本データは、類似文書検索結果順位301、入力文書に類似する文書として検索された類似文書ID302、入力文書との類似の度合いを数値化した類似度303、類似文書に付与されている分類304から構成されている。なお、図3では1件の文書に1個の分類が付与されているが、1件の文書に複数個の分類が付与されていても同様の方法で処理できる。
FIG. 3 is a diagram showing an outline of processing of the
この初期状態のデータの上位K件(図3では10件)の類似文書を対象として、KNN法に基づいて分類をN個(図3では1個)特定する。分類を特定する方法としては、以下の3種類が考えられるが、これ以外の方法でもかまわない。 Based on the KNN method, N classifications (one in FIG. 3) are identified based on the top K similar documents (10 in FIG. 3) of the initial state data. As the method for specifying the classification, the following three types are conceivable, but other methods may be used.
(1)分類が付与されている上位K件内の類似文書の件数が多い順に分類を並べ、上位N個を付与すべき分類として特定する。 (1) The categories are arranged in the descending order of the number of similar documents in the top K to which the classification is given, and the top N items are specified as the classification to be given.
(2)分類が付与されている上位K件内の類似文書の類似度の総和を算出して総和の高い順に分類を並べ、上位N個を付与すべき分類として特定する。 (2) The sum of the similarities of the similar documents in the top K cases to which the classification is given is calculated, the classifications are arranged in descending order of the sum, and the top N items are specified as the classifications to be given.
(3)分類が付与されている上位K件内の類似文書の類似度を「検索順位+1」
の対数で除算した値の総和を算出して総和の高い順に分類を並べ、上位N個を付与すべき分類として特定する。
(3) The similarity of similar documents in the top K documents to which classification is assigned is “search order + 1”
The sum of the values divided by the logarithm of is calculated, and the categories are arranged in descending order of the sum, and the top N items are specified as the categories to be assigned.
なお、本実施例では、K=10、N=1としているが、これらのパラメータは利用者が指定可能とすることは容易に可能である。また、類似文書検索結果として出力する類似文書の件数を1万件としているが、これも利用者が指定可能とすることは容易に可能である。 In this embodiment, K = 10 and N = 1, but these parameters can be easily specified by the user. Further, although the number of similar documents output as the similar document search result is 10,000, it is easily possible for the user to specify this.
図3(1)で、上述の方法によって仮に分類C01が付与すべき分類として特定されたとすると、次に、類似文書に付与されている分類304の中で、C01が付与されている分類をすべて除外する。除外した結果、一つも分類が付与されていない類似文書ができた場合には、その類似文書自体を除外する。類似文書を除外してできた空白は、順位を上に順に詰めることによって埋める。分類C01を除外してできたデータが図3(2)である。初期状態で1位にランクされた類似文書00004は除外され、2位の類似文書01015が1位に格上げされている。また、類似文書の総数が1万件から9000件に減っている。これは、分類C01を除外したことによって除外された類似文書の件数が1000件あったことを示している。
In FIG. 3 (1), if the classification C01 is specified as a classification to be given by the above-described method, all the classifications to which C01 is assigned among the
この状態における上位K件の類似文書を対象として、上述したKNN法によって、再び分類をN個決定する。仮に分類C02が付与すべき分類として決定された場合、今度は分類C02を除外し、順位を上に詰める。 For the top K similar documents in this state, N classifications are determined again by the above-described KNN method. If the classification C02 is determined as a classification to be given, the classification C02 is excluded and the rank is increased.
以上の操作を繰り返し、特定された分類の数が、利用者が予め指定した数に達した時点で処理を終了する。付与すべき分類の順位は上記方法によって決定された順(分類C01、分類C02、・・・の順)に順位付けされる。 The above operation is repeated, and the process is terminated when the number of specified classifications reaches the number designated in advance by the user. The classifications to be given are ranked in the order determined by the above method (classification C01, classification C02,...).
このように、KNN法によって分類を特定する対象となる類似文書の範囲を動的に変え、付与すべき分類を逐次特定していくことによって、適合率を低下させることなく、再現率を向上させることができ、利用者の所望の数の分類を出力できるようになる。 In this way, by dynamically changing the range of similar documents for which classification is specified by the KNN method and sequentially specifying the classification to be given, the reproduction rate is improved without reducing the relevance rate. The user can output a desired number of classifications.
図4は、分類付与対象文書集合2に対する類似文書テーブル8のデータ構成を示す図である。入力文書を一意に識別する入力文書ID401と、当該文書に対する類似文書検索の検索順位402、類似文書を一意に識別する類似文書ID404、当該類似文書の入力文書に対する類似度403から構成される。本実施例では、類似文書検索として出力されるのは、予め分類が付与されている学習用文書集合1を構成する文書のみであるが、分類が付与されていない文書も含めた文書集合から類似文書を検索し、検索結果から予め分類が付与されている学習用文書のみをフィルタリングして類似文書テーブル8を生成しても良い(この場合、類似文書検索で用いる出現文書数などの統計数値が変わるため、異なる検索結果が得られる)。
FIG. 4 is a diagram showing a data configuration of the similar document table 8 for the classification grant target document set 2. The
図5は、文書−分類対応テーブル10のデータ構成を示す図である。文書ID411とその文書に付与された分類412が対になって格納されている。文書ID=12345、00021のように、一つの文書に複数の分類が付与されていても良い。
FIG. 5 is a diagram showing a data configuration of the document-classification correspondence table 10. A
図6は、分類付与部9で生成、参照する分類付き類似文書テーブルの構成を示す図でり、図3で述べたデータに相当するものである。本データはワーキングエリア61に格納される。類似文書検索結果として出力された類似文書ID424の分類425が対応付けて記述されている。検索順位422が1位および3位の類似文書のように、1件の類似文書に複数の分類が付与されている場合、類似文書IDの分類425には1個の分類が入るように、複数のレコードに分けて記述する。
FIG. 6 is a diagram showing the structure of a similar document table with classification generated and referred to by the
図7は、分類付与部9の処理フローを示す図である。まず、類似文書テーブル8と文書分類対応テーブル10を、類似文書IDをキーとして結合(join)することによって、図6で説明した分類付き類似文書テーブルを生成し、ワーキングエリア61に格納する(ステップ1001)。次に、分類特定部11の処理を実行する(ステップ1002)。次に、分類付与結果テーブル13に格納された分類が利用者によって予め指定された個数に達したか否かを判定し(ステップ1003)、達したなら分類付与部9の処理を終了する。達していない場合、分類編集部12の処理を実行し(ステップ1004)、ステップ1002に戻る。
FIG. 7 is a diagram illustrating a processing flow of the
図8は、分類付与部9を構成する分類特定部11の処理フローを示す図である。まず、分類付与部9のステップ1001で生成してワーキングエリア61に格納されている分類付き類似文書テーブルにおいて、上位K件の類似文書ID424を特定する(ステップ2001)。次に、特定した上位K件の類似文書ID424に付与されている「類似文書IDの分類425」で構成される分類リストを生成する(ステップ2002)。次に、上記分類リストを構成する分類の各々について、当該分類が付与されている上位K件内の類似文書ID424を特定し、特定された類似文書ID424の類似度423の総和を算出する(ステップ2003)。なお、本ステップにおいて、「特定された類似文書ID424の類似度423の総和」を算出する代わりに、「特定された類似文書ID424の件数」または「特定された類似文書ID424の類似度を『検索順位+1』の対数で除算した値の総和」を算出しても良い。次に、ステップ2003で算出した分類毎の「類似度の総和」を降順にソートする(ステップ2004)。次に、類似度の総和値の高い上位N個の分類を分類付与結果テーブル13に格納する(ステップ2005)。
FIG. 8 is a diagram showing a processing flow of the
図9は、分類付与部9を構成する分類編集部12の処理フローを示す図である。まず、分類付き類似文書テーブルの行数をカウントするカウンタCの値を1に初期化する(ステップ3001)。次に、分類付き類似文書テーブルのC行目にデータが存在するか否かを判別し(ステップ3002)、存在する場合、この時点で分類付与結果テーブル13に格納されている分類のいずれかが、分類付き類似文書テーブルのC行目の「類似文書IDの分類425」と一致するかを判別し(ステップ3003)、一致する場合、当該C行目のレコードを削除し、C+1行目以降の行を上に詰める(ステップ3004)。本ステップによれば、1件の類似文書に付与された分類が0個になった類似文書は自動的に除外されることとなる。ステップ3003で一致しない場合、カウンタCに1を加算し(ステップ3005)、ステップ3002に戻る。ステップ3002においてデータが存在しないと判別された場合、分類付き類似文書テーブルの検索順位422を1から順に付与し直す(ステップ3006)。すなわち、ステップ3004でレコードが削除された結果、検索順位が飛び飛びになってしまっているものを、1から順になるように整形する。ここで、類似文書ID424が同一の行に対しては、同一の検索順位422を付与する。
FIG. 9 is a diagram illustrating a processing flow of the
図10は、本システムで用いる各種パラメータの設定を入力するパラメータ設定画面の一例を示す図である。本画面でのパラメータ設定は、エンドユーザが行っても良いし、システム管理者などエンドユーザ以外の人間が行っても良い。本設定は、分類処理を実行する前に設定するが、分類結果を見て適宜設定し直しても良い。 FIG. 10 is a diagram showing an example of a parameter setting screen for inputting various parameter settings used in the present system. Parameter setting on this screen may be performed by an end user, or may be performed by a person other than the end user, such as a system administrator. This setting is set before executing the classification process, but it may be set as appropriate by looking at the classification result.
本実施例において、本画面で設定するパラメータは、以下である。 In this embodiment, the parameters set on this screen are as follows.
(1)類似文書検索部7で出力する類似文書の総数
図3でいうところの10000件に相当する値である。
(1) Total number of similar documents output by the similar
(2)分類を特定する際に使用する類似文書の件数
図8のKに相当する値であり、図3でいうところの10件に相当する値である。
(2) Number of similar documents used when specifying a classification A value corresponding to K in FIG. 8 and a value corresponding to 10 in FIG.
(3)分類特定部11による1回の処理で付与される分類の個数
図8のNに相当する値であり、図3でいうところの1個に相当する値である。
(3) Number of classifications given in one process by the classification specifying unit 11 A value corresponding to N in FIG. 8 and a value corresponding to one in FIG.
(4)出力分類個数
分類結果として出力する分類の個数である。
(4) Number of output classifications This is the number of classifications output as a classification result.
(5)スコア算出方法
上位K件の類似文書の類似度から、どの分類を付与すべきかを特定するために算出するスコアの算出方法であり、本実施例では、以下の3種類から一つを選択する。
(5) Score calculation method This is a score calculation method for calculating which classification should be given from the similarity of the top K similar documents. In this embodiment, one of the following three types is used. select.
(a)分類が付与されている上位K件内の類似文書の件数
(b)分類が付与されている上位K件内の類似文書の類似度の総和
(c)分類が付与されている上位K件内の類似文書の類似度を「検索順位+1」
の対数で除算した値の総和
本画面によって設定されたパラメータ値はワーキングエリア61に格納し、各処理部から適宜参照することにより、分類処理を実行する。
(A) Number of similar documents in top K to which classification is assigned (b) Sum of similarities of similar documents in top K to which classification is assigned (c) Top K to which classification is assigned The similarity of similar documents in the case is set to “search order +1”
The sum of the values divided by the logarithm of is stored in the working
50・・・処理装置、60・・・記憶装置、51・・・キーボード、52・・・マウス、53・・・出力モニタ、54・・・計算機ネットワーク。 50 ... processing device, 60 ... storage device, 51 ... keyboard, 52 ... mouse, 53 ... output monitor, 54 ... computer network.
Claims (3)
前記類似文書検索手段によって検索された上位K件の類似文書(Kは予め指定された自然数)を特定し、当該K件の類似文書に付与された分類の各々について、当該K件の類似文書の中で当該分類が付与された文書の「件数」または「類似度(類似文書検索スコア)の総和値」または「類似度を『検索順位+1』の対数で除算した値の総和値」のいずれかを算出し、
前記算出値の高い上位N個(Nは予め指定された自然数)の分類を当該分類付与対象文書に付与すべき分類付与結果として分類付与結果テーブルに格納し、
前記類似文書検索手段によって検索された類似文書に付与された分類から当該N個の分類を除外し、除外した結果付与された分類数が0個になった類似文書を除外し、除外されずに残った類似文書における上位K件の類似文書を特定する処理を、
前記分類付与結果テーブルに格納された分類数が利用者によって予め指定された数に達するまで繰り返し実行する、
ことを特徴とする文書分類方法。 A learning document set, a document-classification correspondence table in which each document constituting the learning document set and a classification previously assigned to the document are described in association with each other, and a classification grant target document that has not yet been assigned a classification Based on the classification assigned to the retrieved similar documents with reference to the document-classification correspondence table, and the similar document retrieval means for retrieving documents similar to the classification assignment target document from the learning document set. A document classification method in a document classification apparatus having a classification providing means for determining a classification to be assigned to the classification grant target document,
The top K similar documents (K is a natural number designated in advance) searched by the similar document search means are specified, and for each of the classifications assigned to the K similar documents, the K similar documents are identified. Among them, either “Number of documents”, “Sum of similarity (similar document search score)” or “Sum of values obtained by dividing similarity by logarithm of“ search rank + 1 ”” To calculate
The top N classifications (N is a natural number designated in advance) having the highest calculated value are stored in the classification assignment result table as classification assignment results to be assigned to the classification assignment target document,
The N classifications are excluded from the classifications assigned to the similar documents searched by the similar document search means, and the similar documents in which the number of classifications given as a result of the exclusion are 0 are excluded and are not excluded. The process of identifying the top K similar documents in the remaining similar documents
Repeatedly until the number of classifications stored in the classification assignment result table reaches a number specified in advance by the user,
Document classification method characterized by the above.
前記類似文書検索手段によって検索された上位K件の類似文書(Kは予め指定された自然数)に付与された分類の各々について、当該K件の類似文書の中で当該分類が付与された文書の「件数」または「類似度(類似文書検索スコア)の総和値」または「類似度を『検索順位+1』の対数で除算した値の総和値」のいずれかを算出し、
前記算出値の高い上位N個(Nは予め指定された自然数)の分類を当該分類付与対象文書に付与すべき分類付与結果として分類付与結果テーブルに格納し、
前記類似文書検索手段によって検索された類似文書に付与された分類から当該N個の分類を除外し、除外した結果付与された分類数が0個になった類似文書を除外し、除外されずに残った類似文書における上位K件の類似文書を特定する処理を、
前記分類付与結果テーブルに格納された分類数が利用者によって予め指定された数に達するまで交互に繰り返し実行する手段を有する、
ことを特徴とする文書分類装置。 A learning document set, a document-classification correspondence table in which each document constituting the learning document set and a classification previously assigned to the document are described in association with each other, and a classification grant target document that has not yet been assigned a classification Based on the classification assigned to the retrieved similar documents with reference to the document-classification correspondence table, and the similar document retrieval means for retrieving documents similar to the classification assignment target document from the learning document set. In the document classification apparatus having a classification providing means for determining a classification to be assigned to the classification grant target document,
For each of the classifications assigned to the top K similar documents (K is a natural number designated in advance) searched by the similar document search means, among the K similar documents, the documents assigned the classification Calculate either “Number of cases” or “Sum of similarity (similar document search score)” or “Sum of similarity divided by logarithm of“ search rank + 1 ””
The top N classifications (N is a natural number designated in advance) having the highest calculated value are stored in the classification assignment result table as classification assignment results to be assigned to the classification assignment target document,
The N classifications are excluded from the classifications assigned to the similar documents searched by the similar document search means, and the similar documents in which the number of classifications given as a result of the exclusion are 0 are excluded and are not excluded. The process of identifying the top K similar documents in the remaining similar documents
Means for alternately and repeatedly executing until the number of classifications stored in the classification assignment result table reaches a number specified in advance by the user;
A document classification device characterized by that.
前記類似文書検索手段によって検索された上位K件の類似文書(Kは予め指定された自然数)を特定し、当該K件の類似文書に付与された分類の各々について、当該K件の類似文書の中で当該分類が付与された文書の「件数」または「類似度(類似文書検索スコア)の総和値」または「類似度を『検索順位+1』の対数で除算した値の総和値」のいずれかを算出し、
前記算出値の高い上位N個(Nは予め指定された自然数)の分類を当該分類付与対象文書に付与すべき分類付与結果として分類付与結果テーブルに格納し、
前記類似文書検索手段によって検索された類似文書に付与された分類から当該N個の分類を除外し、除外した結果付与された分類数が0個になった類似文書を除外し、除外されずに残った類似文書における上位K件の類似文書を特定する処理を、
前記分類付与結果テーブルに格納された分類数が利用者によって予め指定された数に達するまで繰り返し前記コンピュータに実行させる、
ことを特徴とするプログラム。 A learning document set, a document-classification correspondence table in which each document constituting the learning document set and a classification previously assigned to the document are described in association with each other, and a classification grant target document that has not yet been assigned a classification Based on the classification assigned to the retrieved similar documents with reference to the document-classification correspondence table, and the similar document retrieval means for retrieving documents similar to the classification assignment target document from the learning document set. A program having a computer having a classifying unit for determining a class to be given to the document to be classified,
The top K similar documents (K is a natural number designated in advance) searched by the similar document search means are specified, and for each of the classifications assigned to the K similar documents, the K similar documents are identified. Among them, either “Number of documents”, “Sum of similarity (similar document search score)” or “Sum of values obtained by dividing similarity by logarithm of“ search rank + 1 ”” To calculate
The top N classifications (N is a natural number designated in advance) having the highest calculated value are stored in the classification assignment result table as classification assignment results to be assigned to the classification assignment target document,
The N classifications are excluded from the classifications assigned to the similar documents searched by the similar document search means, and the similar documents in which the number of classifications given as a result of the exclusion are 0 are excluded and are not excluded. The process of identifying the top K similar documents in the remaining similar documents
Causing the computer to repeatedly execute until the number of classifications stored in the classification assignment result table reaches a number specified in advance by a user,
A program characterized by that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010055271A JP5439235B2 (en) | 2010-03-12 | 2010-03-12 | Document classification method, document classification device, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010055271A JP5439235B2 (en) | 2010-03-12 | 2010-03-12 | Document classification method, document classification device, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011191834A true JP2011191834A (en) | 2011-09-29 |
JP5439235B2 JP5439235B2 (en) | 2014-03-12 |
Family
ID=44796716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010055271A Expired - Fee Related JP5439235B2 (en) | 2010-03-12 | 2010-03-12 | Document classification method, document classification device, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5439235B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014135045A (en) * | 2012-12-10 | 2014-07-24 | Canon Marketing Japan Inc | Document classification device, document classification method, and program |
JP5986687B2 (en) * | 2013-08-29 | 2016-09-06 | 株式会社Ubic | Data separation system, data separation method, program for data separation, and recording medium for the program |
JP2019125025A (en) * | 2018-01-12 | 2019-07-25 | 株式会社日立ソリューションズ | System, method for managing document data, and program |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993216B (en) * | 2019-03-11 | 2021-05-11 | 深兰科技(上海)有限公司 | Text classification method and device based on K nearest neighbor KNN |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10307847A (en) * | 1997-02-28 | 1998-11-17 | Fujitsu Ltd | Similar case selecting method, its device and recording medium |
JP2000099723A (en) * | 1998-09-25 | 2000-04-07 | Oki Electric Ind Co Ltd | Method and device for preparation of dictionary |
JP2007323454A (en) * | 2006-06-02 | 2007-12-13 | National Institute Of Information & Communication Technology | Document classification device and program |
-
2010
- 2010-03-12 JP JP2010055271A patent/JP5439235B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10307847A (en) * | 1997-02-28 | 1998-11-17 | Fujitsu Ltd | Similar case selecting method, its device and recording medium |
JP2000099723A (en) * | 1998-09-25 | 2000-04-07 | Oki Electric Ind Co Ltd | Method and device for preparation of dictionary |
JP2007323454A (en) * | 2006-06-02 | 2007-12-13 | National Institute Of Information & Communication Technology | Document classification device and program |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014135045A (en) * | 2012-12-10 | 2014-07-24 | Canon Marketing Japan Inc | Document classification device, document classification method, and program |
JP5986687B2 (en) * | 2013-08-29 | 2016-09-06 | 株式会社Ubic | Data separation system, data separation method, program for data separation, and recording medium for the program |
JPWO2015030112A1 (en) * | 2013-08-29 | 2017-03-02 | 株式会社Ubic | Data separation system, data separation method, program for data separation, and recording medium for the program |
US10489427B2 (en) | 2013-08-29 | 2019-11-26 | Fronteo, Inc. | Document classification system, document classification method, and document classification program |
JP2019125025A (en) * | 2018-01-12 | 2019-07-25 | 株式会社日立ソリューションズ | System, method for managing document data, and program |
Also Published As
Publication number | Publication date |
---|---|
JP5439235B2 (en) | 2014-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101508260B1 (en) | Summary generation apparatus and method reflecting document feature | |
JP2020500371A (en) | Apparatus and method for semantic search | |
US10353925B2 (en) | Document classification device, document classification method, and computer readable medium | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
JPWO2008107997A1 (en) | Form type identification program, form type identification method, and form type identification device | |
JP2005038386A (en) | Device and method for sorting sentences | |
JP4349875B2 (en) | Document filtering apparatus, document filtering method, and document filtering program | |
US20190362187A1 (en) | Training data creation method and training data creation apparatus | |
JP5439235B2 (en) | Document classification method, document classification device, and program | |
JP4521459B2 (en) | Document classification apparatus, document classification method, and program | |
JP5324677B2 (en) | Similar document search support device and similar document search support program | |
WO2008062822A1 (en) | Text mining device, text mining method and text mining program | |
JP7282014B2 (en) | Workshop support system and workshop support method | |
KR101035037B1 (en) | Apparatus and method for clustering documents using dynamic threshold | |
CN112287102A (en) | Data mining method and device | |
KR102519955B1 (en) | Apparatus and method for extracting of topic keyword | |
JP2008197952A (en) | Text segmentation method, its device, its program and computer readable recording medium | |
JP2020071678A (en) | Information processing device, control method, and program | |
JP2019148859A (en) | Device and method supporting discovery of design pattern in model development environment using flow diagram | |
JP2019061522A (en) | Document recommendation system, document recommendation method and document recommendation program | |
JP4813312B2 (en) | Electronic document search method, electronic document search apparatus and program | |
JP2008282111A (en) | Similar document retrieval method, program and device | |
US20170109535A1 (en) | Investigation apparatus, computer-readable recording medium, and investigation method | |
KR101592670B1 (en) | Apparatus for searching data using index and method for using the apparatus | |
JPWO2014170965A1 (en) | Document processing method, document processing apparatus, and document processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130128 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131216 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5439235 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |