JP5215046B2 - Document classification device - Google Patents
Document classification device Download PDFInfo
- Publication number
- JP5215046B2 JP5215046B2 JP2008148389A JP2008148389A JP5215046B2 JP 5215046 B2 JP5215046 B2 JP 5215046B2 JP 2008148389 A JP2008148389 A JP 2008148389A JP 2008148389 A JP2008148389 A JP 2008148389A JP 5215046 B2 JP5215046 B2 JP 5215046B2
- Authority
- JP
- Japan
- Prior art keywords
- category
- document
- moving
- categories
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、電子化された大量の文書をその内容に応じて分類・整理するための文書分類装置に関する。 The present invention relates to a document classification apparatus for classifying and organizing a large number of digitized documents according to their contents.
近年、計算機の高性能化や記憶媒体の大容量化、計算機ネットワークの普及などに伴い、電子化された大量の文書を計算機システムに記憶管理して利用することが可能となった。ここでいう文書とは、例えば帳票、企画書、設計書といった業務文書や、マニュアル、特許、技術文献、法令、規程、議事録、ニュース記事、電子メール、ウェブページ、書籍などを指す。 In recent years, it has become possible to store and manage a large amount of digitized documents in a computer system as the performance of computers increases, the capacity of storage media increases, the spread of computer networks, and the like. The document here refers to, for example, business documents such as forms, planning documents, and design documents, manuals, patents, technical literature, laws, regulations, minutes, news articles, e-mails, web pages, books, and the like.
このような大量の文書を未整理のまま計算機のファイルシステムやデータベースに記憶するだけでは、どこにどのような情報が存在するかが分からなくなり、せっかくの情報が利用できなくなるという問題が生じる。従って、文書を内容や用途に応じて分類・整理しておくことで情報の有効活用や共有の促進を図るといったことが行われている。 If such a large number of documents are simply stored in a file system or database of a computer without being organized, there is a problem that what kind of information exists and it is impossible to use such information. Therefore, information is effectively used and sharing is promoted by classifying and organizing documents according to contents and uses.
また、例えば日々作成され蓄積される日報や週報などの報告書や、顧客から送付されてくる問い合わせ、製品等の不具合情報、特許・技術文献等の知的財産などを分析・調査して内容の傾向を把握したり、新たな知見を得る目的にも、互いに内容が類似した文書同士をグルーピングしたりすることが行われている。このような文書の分類作業には労力がかかるため、文書を自動的に分類する技術が従来開発されている。 In addition, for example, daily reports and weekly reports that are created and accumulated daily, inquiries sent from customers, defect information on products, etc., intellectual property such as patents and technical literature, etc. For the purpose of grasping the trend and obtaining new knowledge, documents having similar contents are grouped together. Since such a document classification work requires labor, a technique for automatically classifying documents has been developed.
大量の文書を自動的に分類する技術には、大別すると教師あり分類と教師なし分類がある。教師あり分類は、あらかじめユーザが与えたカテゴリの構造と各カテゴリに分類されるべき訓練文書とに基づき、未分類の文書を自動的に分類する方法である。教師なし分類は主にクラスタリングと呼ばれ、ユーザが定義した文書の類似度に基づき、類似した文書同士を自動的にグルーピングし、カテゴリ構造自体も自動生成する方法である。 Techniques for automatically classifying a large number of documents are roughly classified into supervised classification and unsupervised classification. Supervised classification is a method of automatically classifying unclassified documents based on a category structure given in advance by a user and training documents to be classified into each category. Unsupervised classification is mainly called clustering, and is a method of automatically grouping similar documents and automatically generating a category structure itself based on the similarity of documents defined by the user.
しかし、これらの技術による自動分類の結果はユーザが意図したものにならないことが多い。また、ある文書集合を自動または手作業で分類してカテゴリ構造を作成した後、新たな文書集合を追加して分類しようとすると、既存のカテゴリ構造では新しい文書をうまく分類できないこともある。 However, the results of automatic classification by these techniques are often not what the user intended. In addition, when a certain document set is automatically or manually classified to create a category structure and then a new document set is added and classified, the new document may not be classified well with the existing category structure.
計算機処理による自動分類では、人間が手作業で行うような質の良い分類結果を得ることは困難であるし、文書をどのようなカテゴリ構造に分類すべきかはユーザ自身の意図にもよる。従って、ユーザと計算機との協調作業によってユーザが意図するカテゴリ構造を効率よく作成できるようにすることが望まれる。そこで、以下のような技術が提案されている。 In automatic classification by computer processing, it is difficult to obtain a high-quality classification result that is manually performed by humans, and what category structure a document should be classified into depends on the user's own intention. Therefore, it is desirable to be able to efficiently create a category structure intended by the user through cooperative work between the user and the computer. Therefore, the following techniques have been proposed.
その一つは、あるカテゴリに自動分類された文書をユーザが別のカテゴリに移動(割り当て直し)できるようにしたものである。もちろん、大量の文書をユーザが逐一移動するのは労力がかかるし、そもそも、どの文書をどのカテゴリに移動すべきかを判断すること自体が難しい。 One of them is that a user can move (reassign) a document automatically classified into a certain category to another category. Of course, it is laborious for the user to move a large number of documents one by one, and it is difficult to determine which document should be moved to which category in the first place.
従って、例えば特許文献1に開示されるように、自動分類による分類結果の適切さを判定する作業や、分類結果が誤りである場合に適切なカテゴリを見つける作業を効率良く行うための支援方法が考案されている。また、例えば特許文献2や特許文献3に開示されるように、適切なカテゴリが存在しない場合に新規のカテゴリを作成する必要性をユーザに提案する方法も考案されている。
Therefore, as disclosed in
さらに、例えば特許文献3に開示されるように、あるカテゴリに分類される文書数が少なくなった場合に当該カテゴリを削除するか、あるいは他のカテゴリへ併合することをユーザに提案したり、逆に、あるカテゴリへ分類される文書が多くなった場合に当該カテゴリを分割することを提案したりする方法も考案されている。
Further, as disclosed in
一方、例えば特許文献4に開示されるように、カテゴリの移動や削除等の変更の指示に応じて、既に分類されている文書を再分類する方法も考案されている。
従来の自動分類、特に教師なし分類(クラスタリング)には以下の課題がある。まず、ユーザが類似していると考える文書が別々のカテゴリに分類されてしまったり、逆に、類似していないと考える文書が同じカテゴリに分類されてしまったりすることがある。 Conventional automatic classification, particularly unsupervised classification (clustering) has the following problems. First, documents that the user thinks are similar may be classified into different categories, and conversely, documents that are considered not similar may be classified into the same category.
一般的な文書クラスタリングにおいては、各文書の特徴を表すために単語ベクトルを用いることが多い。単語ベクトルとは、文書中に出現する各々の単語をベクトルの次元とし、各次元の値を当該単語の品詞や頻度などに基づいて計算した重みとして構成したベクトルである。そして、文書の間の類似度は、両文書の単語ベクトルの類似度(余弦など)を用いて定義する。 In general document clustering, word vectors are often used to represent the characteristics of each document. A word vector is a vector configured with each word appearing in a document as the dimension of the vector and the value of each dimension as a weight calculated based on the part of speech or frequency of the word. And the similarity between documents is defined using the similarity (cosine etc.) of the word vector of both documents.
この類似度を用いて、文書集合から、互いによく類似した文書同士を選んでグルーピングしていくのがクラスタリングの処理である。この処理においては、単語ベクトル中のどの単語が類似度の計算において影響を及ぼすかは機械的に定められるため、その分類結果がユーザが意図しないものになってしまうことがある。
また、階層的に生成したカテゴリ構造の上位下位(親子)関係がユーザの意図に合わないことがある。また、カテゴリの同一階層(兄弟)に分類の観点が異なるカテゴリができてしまうことがある。
Clustering is a process of selecting and grouping documents that are very similar to each other from the document set using the similarity. In this processing, which word in the word vector has an influence on the similarity calculation is mechanically determined, and the classification result may be unintended by the user.
In addition, the upper and lower (parent-child) relationship of the hierarchically generated category structure may not match the user's intention. In addition, categories with different viewpoints may be created in the same hierarchy (siblings) of categories.
階層的クラスタリングの手法(凝集型あるいは分割型)によれば、互いに類似したカテゴリをまとめる上位のカテゴリを設けてカテゴリを階層的に構成することが可能である。しかしながら、文書もしくはカテゴリを類似したもの同士で凝縮あるいは分割していく順序は上述の単語ベクトルに影響され、先に凝縮されたもの(あるいは後で分割されたもの)が下位のカテゴリとなるよう機械的に定められる。 According to the hierarchical clustering method (aggregation type or division type), it is possible to provide a higher-level category for grouping similar categories and hierarchically configure the categories. However, the order in which documents or categories are condensed or divided between similar ones is affected by the above word vector, and the one condensed earlier (or later divided) becomes a lower category. Determined.
また、ある凝縮処理(あるいは分割処理)において影響の大きかった単語と別の凝縮処理(あるいは分割処理)において影響の大きかった単語とは何ら関係がないため、カテゴリの階層構造の同一階層にできる兄弟カテゴリは分類の観点としては異なる場合が多い。その結果、自動的に生成したカテゴリの階層構造はユーザの意図に合わないものになることが多い。 In addition, since there is no relationship between a word that has a large influence in one condensation process (or division process) and a word that has a large influence in another condensation process (or division process), siblings that can be in the same hierarchy of the category hierarchy Categories are often different in terms of classification. As a result, the hierarchical structure of automatically generated categories often does not match the user's intention.
そこで、本発明の目的は、カテゴリの階層構造における各カテゴリについてユーザの意図に合うように移動できるように支援するとともに、カテゴリの移動にかかる作業を効率化し、ユーザの移動操作に応じてカテゴリの階層構造を適切に再構成することが可能になる文書分類装置を提供することにある。 Therefore, an object of the present invention is to support each category in the category hierarchical structure so that it can be moved in accordance with the user's intention, to improve the efficiency of the work for moving the category, and to change the category according to the user's moving operation. An object of the present invention is to provide a document classification device that can appropriately reconstruct a hierarchical structure.
すなわち、本発明に係わる文書分類装置は、複数の文書を記憶する文書記憶手段と、文書記憶手段に記憶された所定の文書集合を分類する文書分類手段と、文書分類手段による分類結果である複数のカテゴリの情報を記憶するカテゴリ記憶手段と、カテゴリ記憶手段に記憶されるカテゴリのうち指定されたカテゴリの移動先候補または指定されたカテゴリの下に移動するカテゴリの候補を提示する移動カテゴリ候補提示手段とを備え、移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリ以外のカテゴリが持つ文書および当該カテゴリの少なくとも一方を適した分類形態となるように再分類する移動カテゴリ再分類手段とを具備し、移動カテゴリ再分類手段は、移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリの移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、移動したカテゴリの移動先のカテゴリの上位カテゴリ、または移動先のカテゴリと共通の上位カテゴリを有する別カテゴリに各々属する文書のうち何れかの文書を当該移動したカテゴリに分類することを特徴とする。
また、本発明に係わる文書分類装置は、複数の文書を記憶する文書記憶手段と、文書記憶手段に記憶された所定の文書集合を分類する文書分類手段と、文書分類手段による分類結果である複数のカテゴリの情報を記憶するカテゴリ記憶手段と、カテゴリ記憶手段に記憶されるカテゴリのうち指定されたカテゴリの移動先候補または指定されたカテゴリの下に移動するカテゴリの候補を提示する移動カテゴリ候補提示手段と、移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリ以外のカテゴリに属する文書および当該カテゴリの少なくとも一方を適した分類形態となるように再分類する移動カテゴリ再分類手段とを具備し、移動カテゴリ再分類手段は、移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、移動先のカテゴリの上位カテゴリ、または移動先のカテゴリと共通の上位カテゴリを有する別カテゴリが各々有する下位カテゴリのうち何れかのカテゴリを移動したカテゴリの下位カテゴリとすることを特徴とする。
また、本発明に係わる文書分類装置は、複数の文書を記憶する文書記憶手段と、文書記憶手段に記憶された所定の文書集合を分類する文書分類手段と、文書分類手段による分類結果である複数のカテゴリの情報を記憶するカテゴリ記憶手段と、カテゴリ記憶手段に記憶されるカテゴリのうち指定されたカテゴリの移動先候補または指定されたカテゴリの下に移動するカテゴリの候補を提示する移動カテゴリ候補提示手段と、移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリ以外のカテゴリに属する文書および当該カテゴリの少なくとも一方を適した分類形態となるように再分類する移動カテゴリ再分類手段とを具備し、移動カテゴリ再分類手段は、移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリに属する文書のうち何れかの文書を、移動元のカテゴリの上位カテゴリ、移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、移動先のカテゴリの上位カテゴリ、または移動先のカテゴリと共通の上位カテゴリを有する別カテゴリのいずれかのカテゴリに分類することを特徴とする。
また、本発明に係わる文書分類装置は、複数の文書を記憶する文書記憶手段と、文書記憶手段に記憶された所定の文書集合を分類する文書分類手段と、文書分類手段による分類結果である複数のカテゴリの情報を記憶するカテゴリ記憶手段と、カテゴリ記憶手段に記憶されるカテゴリのうち指定されたカテゴリの移動先候補または指定されたカテゴリの下に移動するカテゴリの候補を提示する移動カテゴリ候補提示手段と、移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリ以外のカテゴリに属する文書および当該カテゴリの少なくとも一方を適した分類形態となるように再分類する移動カテゴリ再分類手段とを具備し、移動カテゴリ再分類手段は、移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリが有する下位カテゴリのうち何れかのカテゴリを、移動元のカテゴリの上位カテゴリ、移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、移動先のカテゴリの上位カテゴリ、または移動先のカテゴリと共通の上位カテゴリを有する別カテゴリのいずれかのカテゴリの下位カテゴリとすることを特徴とする。
That is, the document classification apparatus according to the present invention includes a document storage unit that stores a plurality of documents, a document classification unit that classifies a predetermined document set stored in the document storage unit, and a plurality of classification results obtained by the document classification unit. Category storage means for storing category information, and moving category candidate presentation for presenting a candidate for a specified category to be moved among categories stored in the category storage means or a candidate for a category to be moved under the specified category Moving category re -categorization to reclassify at least one of a document and a category of a category other than the moved category according to the movement of the category after presentation by the moving category candidate presenting means to a suitable classification form. A moving category re-classifying means, the moving category re-classifying means after the presentation by the moving category candidate presenting means. According to the movement of the category, another category having a higher category in common with the moved source category of the moved category, a higher category of the moved category of the moved category, or another category having a higher category common to the moved category. One of the documents belonging to each of the documents is classified into the moved category .
The document classification apparatus according to the present invention includes a document storage unit that stores a plurality of documents, a document classification unit that classifies a predetermined document set stored in the document storage unit, and a plurality of classification results obtained by the document classification unit. Category storage means for storing category information, and moving category candidate presentation for presenting a candidate for a specified category to be moved among categories stored in the category storage means or a candidate for a category to be moved under the specified category And moving category reclassification means for reclassifying documents belonging to categories other than the moved category and at least one of the categories into a suitable classification form according to the movement of the category after presentation by the moving category candidate presentation means The moving category reclassification means includes the category of the category after being presented by the moving category candidate presentation means. According to the movement, any category of another category having a higher category common to the source category, a higher category of the destination category, or a lower category each of the different categories having a higher category common to the destination category Is a subcategory of the moved category.
The document classification apparatus according to the present invention includes a document storage unit that stores a plurality of documents, a document classification unit that classifies a predetermined document set stored in the document storage unit, and a plurality of classification results obtained by the document classification unit. Category storage means for storing category information, and moving category candidate presentation for presenting a candidate for a specified category to be moved among categories stored in the category storage means or a candidate for a category to be moved under the specified category And moving category reclassification means for reclassifying documents belonging to categories other than the moved category and at least one of the categories into a suitable classification form according to the movement of the category after presentation by the moving category candidate presentation means The moving category reclassification means includes the category of the category after being presented by the moving category candidate presentation means. If any of the documents belonging to the moved category is moved, the higher category of the source category, another category having the same upper category as the source category, the upper category of the destination category, or the move It is characterized in that it is classified into one of different categories having a higher-level category in common with the previous category .
The document classification apparatus according to the present invention includes a document storage unit that stores a plurality of documents, a document classification unit that classifies a predetermined document set stored in the document storage unit, and a plurality of classification results obtained by the document classification unit. Category storage means for storing category information, and moving category candidate presentation for presenting a candidate for a specified category to be moved among categories stored in the category storage means or a candidate for a category to be moved under the specified category And moving category reclassification means for reclassifying documents belonging to categories other than the moved category and at least one of the categories into a suitable classification form according to the movement of the category after presentation by the moving category candidate presentation means The moving category reclassification means includes the category of the category after being presented by the moving category candidate presentation means. In accordance with the movement, any one of the lower categories of the moved category is classified as a higher category of the source category, another category having a higher category in common with the source category, a higher category of the destination category, or It is characterized in that it is set as a lower category of any one of different categories having an upper category in common with the destination category.
本発明によれば、カテゴリの階層構造における各カテゴリについてユーザの意図に合うように移動できるように支援するとともに、カテゴリの移動にかかる作業を効率化し、ユーザの移動操作に応じてカテゴリの階層構造を適切に再構成することができるので、カテゴリの移動という簡単な操作によって、ユーザが意図する階層構造を作成することができ、その操作に基づいて操作対象以外のカテゴリや文書も適切に再構成される。従って、クラスタリング等によって自動生成したカテゴリの階層構造を用いたり、過去に作成した階層構造を再利用したりして、効率よく意図通りの階層構造を作成することができる。 ADVANTAGE OF THE INVENTION According to this invention, while assisting so that it can move according to a user's intention about each category in the hierarchy structure of a category, the operation | work concerning a movement of a category is improved, and the hierarchy structure of a category according to a user's movement operation Can be reconfigured appropriately, so the hierarchical structure intended by the user can be created by a simple operation of moving a category, and categories and documents other than the operation target can also be appropriately reconfigured based on that operation. Is done. Therefore, the hierarchical structure of categories automatically generated by clustering or the like can be used, or the hierarchical structure created in the past can be reused to efficiently create the intended hierarchical structure.
以下図面により本発明の実施形態について説明する。
図1は、本発明の実施形態における文書分類装置の構成例を表すブロック図である。
図1に示すように、本発明の実施形態における文書分類装置は、装置全体の処理動作を司る制御部1、記憶装置2、文書分類部3、カテゴリ編集部4、キーボードやマウスなどの入力装置5およびディスプレイ装置などの出力装置6を備え、それぞれがバス7を介して相互に接続される。
Embodiments of the present invention will be described below with reference to the drawings.
FIG. 1 is a block diagram illustrating a configuration example of a document classification apparatus according to an embodiment of the present invention.
As shown in FIG. 1, a document classification device according to an embodiment of the present invention includes a
記憶装置2は、例えばハードディスクドライブや不揮発性メモリなどの記憶媒体であり、文書分類部3やカテゴリ編集部4による処理動作のためのプログラムを記憶する他、文書記憶部21およびカテゴリ記憶部22を有する。カテゴリ記憶部22には、後述するように、階層構造を構成する複数のカテゴリが記憶され、各カテゴリには、その親カテゴリ、つまり上位のカテゴリと、当該カテゴリが持つ文書の情報が記憶される。
The
文書分類部3は、記憶装置2の文書記憶部21に記憶されている文書集合を自動的に分類する手段であり、その分類結果すなわちカテゴリの集合を、カテゴリ記憶部22に記憶する。文書分類部3は単語ベクトル生成部31および分類・クラスタリング部32を有する。
The
文書分類部3の単語ベクトル生成部31は、文書記憶部21に記憶されている各文書から当該文書の特徴を表す単語ベクトルを生成する。また、カテゴリは文書の部分集合として表現するので、カテゴリの単語ベクトルは、当該カテゴリが持つ複数の文書の単語ベクトルを用い、単語ベクトル生成部31によって生成する。
また、文書分類部3の分類・クラスタリング部32は、文書とカテゴリの間の類似度を上述の単語ベクトルの類似度によって計算し、その類似度に基づいて文書を自動的に分類もしくはクラスタリングする手段である。
The word
Further, the classification /
以上説明した図1の文書分類部3の単語ベクトル生成部31および分類・クラスタリング部32は、従来技術による文書分類装置が有する手段と同様の手段であるが、図1に示したカテゴリ編集部4は本発明の特徴的な手段であり、特にカテゴリの移動、つまり上位下位関係の付け替えを行えるようにした点が従来技術と比べて新規な点である。
The word
カテゴリ編集部4は移動カテゴリ候補提示部41、移動カテゴリ再分類部42および移動カテゴリ名変更部43を有する。カテゴリ編集部4の移動カテゴリ候補提示部41は、ユーザが入力装置5を用いて指定したカテゴリについて、当該カテゴリを移動する先の候補として適した別のカテゴリ、または当該カテゴリの下に移動する候補として適した別のカテゴリを提示する。
また、移動カテゴリ再分類部42は、ユーザが入力装置5を用いて移動操作を行ったカテゴリについて、移動前には当該移動後のカテゴリとは別のカテゴリが持っていた文書や下位カテゴリのうち、移動後には当該カテゴリが持つ方が適切なものや、逆に移動前には当該カテゴリが持っていた文書や下位カテゴリのうち、移動後には別のカテゴリが持つ方が適切なものを、自動的に再分類する。
The
In addition, the movement
また、移動カテゴリ名変更部43は、移動したカテゴリの名称を当該移動先の階層構造において適切な名称に変更する。なお、カテゴリ編集部4には、上述のカテゴリ移動の操作以外にも、文書をあるカテゴリから別のカテゴリに移動する操作や、新しいカテゴリを作成する手段、既存のカテゴリを削除する手段、さらには複数のカテゴリを1つのカテゴリに統合する操作や1つのカテゴリを複数のカテゴリに分割する操作などを行う機能を設けてもよい。これらの機能は従来技術による文書分類装置の一部で実現される。
Further, the movement category
図2は、本発明の実施形態における文書分類装置の文書記憶部に記憶される文書情報の一例を表形式で示す図である。
記憶装置2の文書記憶部21には複数の文書の情報が記憶され、各文書は図2に示すように文書のユニークな識別子である文書番号、文書名、本文などの情報を持つ。また、本実施形態では文書の特徴を表す単語ベクトルも文書記憶部21にて文書毎に記憶する。その詳細については後述する。なお、本実施形態では発明の理解を容易にするために文書の特徴を単語ベクトルのみで表現しているが、例えば文書の属性情報(日時、種別、作成者など)を、文書を特徴付けるベクトルの要素としてもよい。
FIG. 2 is a diagram showing an example of document information stored in the document storage unit of the document classification apparatus according to the embodiment of the present invention in a table format.
Information of a plurality of documents is stored in the
図3は、本発明の実施形態における文書分類装置のカテゴリ記憶部に記憶されるカテゴリ情報の一例を表形式で示す図である。
図3では3種類のカテゴリを示す。各カテゴリは当該カテゴリのユニークな識別子であるカテゴリ番号およびカテゴリ名を持つ。本実施形態では、カテゴリは0個または1個の親カテゴリつまりを持つとする。図3(a)に示したカテゴリはルートのカテゴリであるため親カテゴリを持たない。一方、図3(b)に示したカテゴリは、カテゴリ番号「C001」のカテゴリ、すなわち図3(a)で示したカテゴリを親に持ち、図3(c)に示したカテゴリはカテゴリ番号「C002」のカテゴリ、すなわち図3(b)で示したカテゴリを親カテゴリに持つ。また、各カテゴリが持つ文書の情報もカテゴリ記憶部22に記憶される。
FIG. 3 is a diagram showing an example of the category information stored in the category storage unit of the document classification device according to the embodiment of the present invention in a table format.
FIG. 3 shows three types of categories. Each category has a category number and a category name that are unique identifiers of the category. In the present embodiment, it is assumed that a category has zero or one parent category. Since the category shown in FIG. 3A is a root category, it does not have a parent category. On the other hand, the category shown in FIG. 3B has the category of the category number “C001”, that is, the category shown in FIG. 3A as the parent, and the category shown in FIG. ", That is, the category shown in FIG. 3B as a parent category. In addition, information on the documents possessed by each category is also stored in the
例えば図3(c)に示したカテゴリは文書番号が「D021」「D079」「D193」などの文書を直接持つ。ここで、図3(b)に示したカテゴリは図3(c)に示したカテゴリの親カテゴリであるため、図3(b)に示したカテゴリは間接的に文書番号「D021」「D079」「D193」などの文書を持つことになる。 For example, the category shown in FIG. 3C directly has documents having document numbers “D021”, “D079”, “D193”, and the like. Here, since the category shown in FIG. 3B is a parent category of the category shown in FIG. 3C, the category shown in FIG. 3B is indirectly document numbers “D021” and “D079”. You will have a document such as “D193”.
また、カテゴリの特徴を表す単語ベクトルもカテゴリ記憶部22にてカテゴリ毎に記憶される。その詳細については後述する。なお、ルートのカテゴリの単語ベクトルは不要なので「なし」とする。
A word vector representing the characteristics of the category is also stored for each category in the
図4は、本発明の実施形態における文書分類装置の処理動作の一例を示すフローチャートである。図5は、本発明の実施形態における文書分類装置による文書の単語ベクトルを求める処理動作の一例を示すフローチャートである。図6は、本発明の実施形態における文書分類装置によるカテゴリ内の文書の単語ベクトルを求める処理動作の一例を示すフローチャートである。図7は、本発明の実施形態における文書分類装置によるカテゴリの単語ベクトルを求める処理動作の一例を示すフローチャートである。 FIG. 4 is a flowchart showing an example of the processing operation of the document classification device in the embodiment of the present invention. FIG. 5 is a flowchart showing an example of a processing operation for obtaining a word vector of a document by the document classification device according to the embodiment of the present invention. FIG. 6 is a flowchart illustrating an example of a processing operation for obtaining a word vector of a document in a category by the document classification device according to the embodiment of the present invention. FIG. 7 is a flowchart illustrating an example of a processing operation for obtaining a category word vector by the document classification device according to the embodiment of the present invention.
図5と図6に示した処理は、ともに文書の単語ベクトルを生成する処理を表すが、図5に示した処理で求められる単語ベクトルは、当該文書が属するカテゴリには依存しない単語ベクトルであるのに対し、図6に示した処理で求められる単語ベクトルは、図5に示した処理結果を用いて求められる、所定のカテゴリにおける文書の特徴を表す単語ベクトルである。また、図7に示した処理で求められる単語ベクトルは、図6の処理結果を用いて求められる、カテゴリの特徴を表す単語ベクトルである。 The processes shown in FIGS. 5 and 6 both represent the process of generating a word vector of a document. The word vector obtained by the process shown in FIG. 5 is a word vector that does not depend on the category to which the document belongs. On the other hand, the word vector obtained by the processing shown in FIG. 6 is a word vector representing the characteristics of the document in a predetermined category, obtained using the processing result shown in FIG. Moreover, the word vector calculated | required by the process shown in FIG. 7 is a word vector showing the characteristic of a category calculated | required using the process result of FIG.
図4に示すように、文書分類部3の単語ベクトル生成部31は、文書の単語ベクトル生成処理を行ない(ステップS1)、次にカテゴリ内の文書の単語ベクトル生成処理を行ない(ステップS2)、次にカテゴリの単語ベクトル生成処理を行なう(ステップS3)。
As shown in FIG. 4, the word
ステップS1の処理の詳細について図5を参照して説明する。単語ベクトル生成部31は、処理の対象とする文書dから単語ベクトルを生成する対象とするテキストを取得する(ステップS11)。図2に示した例では、文書の「本文」のテキストを対象とするが、例えば「[要約]」、「[課題]」、「[解決方法]」などの見出しの部分は文書の内容には直接関係がないので、これらの見出しを対象テキストから除去する。
Details of the processing in step S1 will be described with reference to FIG. The word
次に、単語ベクトル生成部31は取得済みのテキストを形態素解析し(ステップS12)、得られた単語(形態素)tのうち未選択の単語tがあれば(ステップS13のNO)、未選択の何れかの単語tを選択する。そして、単語ベクトル生成部31は、選択した単語tの品詞が単語ベクトルに含めるべき所定の品詞の単語であるか、あるいは不要語であるかどうかを調べる(ステップS14)。ここでは例えば、品詞が名詞やサ変名詞、固有名詞なである単語は単語ベクトルに含め、接続詞や副詞などは単語ベクトルに含めないといった単語の選別を行う。なお、文書の種類によっては文書の特徴を表さない単語については、不要語として除去する。例えば特許文書を処理対象とする場合には、「装置」、「手段」といった単語は文書の特徴を表さないので、不要語として除去する。
Next, the word
次に、単語ベクトル生成部31は文書dのテキスト中で単語tが出現する頻度tfを求め(ステップS15)、単語tを文書dの単語ベクトルvdにおける1つの次元とし、その次元のベクトルの値をtfとする(ステップS16)。
ステップS16の処理後はステップS13の処理に戻る。単語ベクトル生成部31は未選択の単語tがなければ(ステップS13のYES)、ステップS1の処理を終了する。
Next, the word
After step S16, the process returns to step S13. If there is no unselected word t (YES in step S13), the word
このようにして、図2に例示したような文書の単語ベクトルが生成される。例えば図2に示した「メール」という単語は頻度が10、すなわち文書中で10回出現したことを意味する。ただし図2に示した例では理解を容易にするために、値が0である次元、すなわち当該文書には出現していない単語は示しておらず、単語を出現頻度の多い順に記述している。 In this way, a word vector of the document as illustrated in FIG. 2 is generated. For example, the word “mail” shown in FIG. 2 means that the frequency is 10, that is, appears 10 times in the document. However, in the example shown in FIG. 2, for ease of understanding, a dimension with a value of 0, that is, words that do not appear in the document are not shown, and the words are described in the order of appearance frequency. .
次にステップS2の処理の詳細について図6を参照して説明する。あるカテゴリcにおける文書dの特徴を表すベクトルを生成するために、単語ベクトル生成部31は、対象とするカテゴリcについて、これが直接あるいは間接的に持つ文書の集合を求め、これをDcとする(ステップS21)。
Next, details of the processing in step S2 will be described with reference to FIG. In order to generate a vector representing the characteristics of the document d in a certain category c, the word
次に単語ベクトル生成部31は、ステップS16の処理で求めた単語ベクトルvdの各単語tについて未選択のものがあれば(ステップS22のNO)、当該未選択のいずれかの単語tを選択し、文書集合Dc中で当該選択した単語tを含む文書数dfcを求め(ステップS23)、選択済みの単語tを単語ベクトルvcdの1つの次元とし、その次元の値をtf*(log(|Dc|/dfc)+1)とする(ステップS24)。
Next, if there is an unselected word vector t in the word vector vd obtained in the process of step S16 (NO in step S22), the word
ここで|Dc|は文書集合Dcの文書数である。この計算式は一般にTF・IDFと呼ばれ、従来より情報検索や文書分類の分野で広く使用されているものである。すなわち、単語tが文書dに出現する頻度が多い(ベクトルの値tfが大きい)ほど、また、カテゴリcが持つ文書のうち単語tを含む文書が少ない(文書数dfcが小さい)ほど、当該単語は文書dの特徴をよく表す単語であるとみなされる。 Here, | Dc | is the number of documents in the document set Dc. This calculation formula is generally called TF / IDF, and has been widely used in the fields of information retrieval and document classification. That is, the more frequently the word t appears in the document d (the vector value tf is larger), and the fewer the documents containing the word t (of the document number dfc) out of the documents of the category c, the more the word Is regarded as a word that well represents the characteristics of the document d.
こうして生成された単語ベクトルvcdは、前述したように求めた単語ベクトルvdと比較すると、カテゴリcにおいて文書dの特徴をよく表す次元の値(単語の重み)が大きくなったベクトルとなる。なお、上記のIDFに相当する部分、すなわち、(log(|Dc|/dfc)+1)の部分は、カテゴリcが持つ文書の集合Dcを対象にしているため、特に文書集合Dcの文書数が少ない場合には、本来特徴的でない単語の重みが大きくなってしまうこともあり得る。 The word vector vcd generated in this way is a vector in which the dimension value (word weight) that well represents the feature of the document d in the category c is larger than the word vector vd obtained as described above. Note that the part corresponding to the IDF, that is, the part of (log (| Dc | / dfc) +1) is directed to the document set Dc of the category c, and therefore the number of documents in the document set Dc is particularly large. If the number is small, the weight of words that are not characteristic in nature may increase.
したがって、このIDFの部分を全ての文書集合Dおよび当該文書集合D中で単語tを含む文書数dfを用いて計算してもよいし、文書集合Dcで計算した値と文書集合Dで計算した値の両方を加味した値(例えば平均)を用いてもよい。さらに、ステップS23の処理、つまり単語tを含む文書数を求める処理では、例えば情報検索における転置ファイルのような手段を用いることで処理の効率を向上してもよい。 Therefore, the IDF portion may be calculated using all the document sets D and the number of documents df including the word t in the document set D, or calculated using the values calculated in the document set Dc and the document set D. You may use the value (for example, average) which considered both values. Further, in the process of step S23, that is, the process of obtaining the number of documents including the word t, the efficiency of the process may be improved by using a means such as a transposed file in information retrieval.
ステップS24の処理後はステップS22の処理に戻る。未選択の単語tがなければ(ステップS22のYES)、単語ベクトル生成部31は、単語ベクトルvcdの各次元の値を当該単語ベクトルvcdのノルム|vcd|で割ることによって正規化する(ステップS25)。その結果単語ベクトルvcdはノルムが1のベクトルとなる。
After step S24, the process returns to step S22. If there is no unselected word t (YES in step S22), the word
次にステップS3の処理の詳細について図7を参照して説明する。この処理で求める対象はカテゴリcの単語ベクトルである。カテゴリcの単語ベクトルは、カテゴリcの直接または間接の親カテゴリpにおけるカテゴリcの単語ベクトル(すなわちカテゴリpにおいてカテゴリcの特徴を表すベクトル)として求められる。 Next, details of the processing in step S3 will be described with reference to FIG. An object to be obtained in this process is a word vector of category c. The word vector of category c is obtained as the word vector of category c in the direct or indirect parent category p of category c (that is, the vector representing the characteristics of category c in category p).
まず、単語ベクトル生成部31は、カテゴリcが直接・間接に持つ文書の集合をDcとする(ステップS31)。そして単語ベクトル生成部31は、求めたい単語ベクトルの初期値を空(すべての次元の値が0のベクトル)とする(ステップS32)。次に、単語ベクトル生成部31は、文書集合Dc中の各文書dのうち未選択の文書dがあれば(ステップS33のNO)、未選択のうち何れかの文書dを選択し、カテゴリpにおける選択済みの文書dの単語ベクトルvpdを求める(ステップS34)。これは図6に示した処理によって求めることができる。
そして単語ベクトル生成部31は、単語ベクトルvpdを単語ベクトルvpcに加える(ステップS35)。
First, the word
Then, the word
ステップS35の処理後は、ステップS33の処理に戻る。単語ベクトル生成部31は未選択の文書dがなければ(ステップS33のYES)、単語ベクトルvpcの各次元の値を単語ベクトルvpcのノルム|vpc|で割ることによって正規化する(ステップS36)。その結果、単語ベクトルvpcはノルムが1のベクトルとなる。このようにして、単語ベクトルvpcは、親カテゴリpにおいてカテゴリcが持つ複数の文書の特徴を表す平均的なベクトルとして生成される。
After step S35, the process returns to step S33. If there is no unselected document d (YES in step S33), the word
図8は、本発明の実施形態における文書分類装置による文書の分類処理の一例を示すフローチャートである。ステップS3の処理後、文書分類部3の分類・クラスタリング部32は文書の分類・クラスタリング処理を行なう(ステップS4)。
ステップS4の処理の詳細について図8を参照して説明する。まず、分類・クラスタリング部32は、ユーザが入力装置5を用いて指定したカテゴリpが持つ文書集合を分類対象の文書集合とする(ステップS41)。カテゴリpは、既にいくつかの子カテゴリを持っていることもあるし、子カテゴリを1つも持っていないこともあるが、図8ではいずれの場合にも実行する処理の流れを記している。
FIG. 8 is a flowchart illustrating an example of document classification processing by the document classification device according to the embodiment of the present invention. After the processing in step S3, the classification /
Details of the processing in step S4 will be described with reference to FIG. First, the classification /
すなわち、カテゴリpが直接持つ文書について、これを分類すべきpの子カテゴリが既に存在すれば、その子カテゴリに当該文書を分類するし、そのような子カテゴリが存在しなければ、かつ、後述するように新規の子カテゴリを作成するよう指示されているならば、当該文書を分類すべき子カテゴリを新規に作成する。 That is, for a document directly owned by category p, if there is already a child category of p that should be classified, the document is classified into that child category, and if there is no such child category, it will be described later. If the user is instructed to create a new child category, a new child category for classifying the document is created.
以下に説明する処理は、leader−follower法と呼ばれる単純なクラスタリング手法である。この手法では、分類・クラスタリング部32は、対象文書集合中の各文書dのうち未選択の文書dがあれば(ステップS42のNO)、未選択のうちいずれかの文書dを選択する。そして、分類・クラスタリング部32は、選択した文書dの分類先であるカテゴリcmaxの初期値を「なし」とし、文書dとcmaxの類似度の最大値の初期値を0とする(ステップS43)。
The process described below is a simple clustering method called a leader-follower method. In this method, the classification /
そして、分類・クラスタリング部32は、カテゴリpの各子カテゴリcのうち未選択のカテゴリがあれば(ステップS44のNO)、未選択のうちいずれかのカテゴリcを選択し、選択済みの文書dとカテゴリcの類似度sを求める(ステップS45)。ここで、文書dとカテゴリcとの類似度sは、図6および図7で説明した、文書の単語ベクトル(ここではvpd)と、カテゴリの単語ベクトル(vpc)との類似度(主にはベクトルの余弦)によって求める。
If there is an unselected category among the child categories c of category p (NO in step S44), the classification /
分類・クラスタリング部32は、類似度sが所定の閾値sth以上で、かつ最大値smaxより大きければ(ステップS46のYES)、cmax=cとし、smax=sとする(ステップS47)。
The classification /
ステップS46の処理で「NO」と判別された場合やステップS47の処理後は、ステップS44の処理に戻る。分類・クラスタリング部32は、カテゴリpの各子カテゴリcのうち未選択のカテゴリがなければ(ステップS44のYES)、カテゴリcmax、すなわちカテゴリpの子カテゴリのうち文書dとの類似度が最大で、かつ当該類似度が閾値sth以上のカテゴリが存在すれば(ステップS48のYES)、文書dをカテゴリcmaxに分類する(ステップS51)。
If “NO” is determined in the process of step S46 or after the process of step S47, the process returns to the process of step S44. If there is no unselected category among the child categories c of category p (YES in step S44), the classification /
分類・クラスタリング部32は、カテゴリcmaxが存在せず(ステップS48のNO)、かつ新規の子カテゴリを作成するよう指示されているならば(ステップS49のYES)、カテゴリpの子カテゴリとしてカテゴリcmaxを新規に作成し(ステップS50)、文書dをカテゴリcmaxに分類する(ステップS51)。
If the category cmax does not exist (NO in step S48) and the classification /
一方、分類・クラスタリング部32は、新規カテゴリを作成しないよう指定されている場合には(ステップS49のNO)、文書dは既存の子カテゴリのうち最も適切なカテゴリに分類されるが、適切な子カテゴリが存在しない場合(文書dはいずれの子カテゴリとも、類似度が閾値未満である場合)、文書dはどの子カテゴリにも分類しない。
On the other hand, if the classification /
ステップS51の処理後、分類・クラスタリング部32は、文書dが分類されたカテゴリcmaxの単語ベクトルを再計算する(ステップS52)。図7で説明したように、カテゴリの単語ベクトルは、本実施形態では当該カテゴリが持つ文書の単語ベクトルを平均したものであるため、カテゴリcmaxの単語ベクトルは文書dを追加する前のカテゴリcmaxの単語ベクトルvpcmaxと、文書dの単語ベクトルvpdとを用いて求めることができる。
After the process of step S51, the classification /
すなわち、文書dを加える前のカテゴリcmaxが持つ文書数をとすれば、ベクトル|Dcmax|*vpcmax+vpdを、そのノルムで正規化して大きさを1としたベクトルが、カテゴリcmaxの新しい単語ベクトルとなる。以上の処理を各文書dについて繰り返し行うことで、カテゴリpが持つ文書は当該カテゴリpの子カテゴリに分類される。 That is, if the number of documents in the category cmax before adding the document d is taken, a vector with a magnitude of 1 obtained by normalizing the vector | Dcmax | * vpcmax + vpd with its norm becomes a new word vector of the category cmax. . By repeating the above processing for each document d, the document possessed by the category p is classified into a child category of the category p.
ステップS49の処理で「NO」と判別された場合やステップS52の処理後は、ステップS42の処理に戻る。分類・クラスタリング部32は、対象文書集合中の各文書dのうち未選択の文書dがあり(ステップS42のNO)、ステップS50の処理にて作成された子カテゴリで、結局ただ1つの文書しか持たないようなものがあれば、その子カテゴリは不要であるので削除する(ステップS53)。以上に述べた処理は、文書の教師あり分類と教師なし分類を兼ねた比較的単純な処理であるが、本発明はこの方法に限定しない。
If “NO” is determined in the process of step S49 or after the process of step S52, the process returns to the process of step S42. The classification /
なお、leader−follower法自体は階層的な構造を持つカテゴリを生成しない方法ではあるが、例えば、あるカテゴリpを対象に図8で説明した処理を実行して作成した子カテゴリのうち、所定の子カテゴリcを対象にして、さらに当該図8に示した処理を実行することで、カテゴリcの子カテゴリ(すなわちカテゴリpの孫)を作成することができるので、カテゴリの階層構造を容易に作成できる。 Note that the leader-follower method itself is a method that does not generate a category having a hierarchical structure. For example, among child categories created by executing the processing described with reference to FIG. By executing the process shown in FIG. 8 with respect to the child category c, a child category of the category c (that is, a grandchild of the category p) can be created, so that a hierarchical structure of categories can be easily created. it can.
次に、カテゴリ編集部4により移動すべきカテゴリの候補を提示する処理について説明する。
図9は、本発明の実施形態における文書分類装置による移動すべきカテゴリの候補の提示画面の一例を示す図である。図10は、本発明の実施形態における文書分類装置による移動すべきカテゴリの候補を提示する処理動作の一例を示すフローチャートである。図10に示した処理は、図9に示した提示画面を生成するために、移動カテゴリ候補提示部41によって実行される処理動作である。
Next, processing for presenting category candidates to be moved by the
FIG. 9 is a diagram showing an example of a category candidate presentation screen to be moved by the document classification device according to the embodiment of the present invention. FIG. 10 is a flowchart illustrating an example of a processing operation for presenting a category candidate to be moved by the document classification device according to the embodiment of the present invention. The processing shown in FIG. 10 is a processing operation executed by the movement category
図9に示した画面では、ユーザが入力装置5を用いてカテゴリ61を指定した場合、当該カテゴリが持つ特徴的な単語(以下、特徴語と呼ぶ。図9中では例えば「メール」など)を持った他のカテゴリが提示され、図9に示したようにカテゴリ62の特徴語が強調表示される。図9において、斜線が付されたカテゴリのマークはユーザにより入力装置5を用いて指定されたカテゴリのマークを示し、四角で囲まれた特徴語は強調表示された特徴語を示す。
In the screen shown in FIG. 9, when the user designates a
ここで、カテゴリの特徴語とは図7に示した処理で説明したカテゴリの単語ベクトルのうち、次元の値、すなわち単語の重みが特に大きい単語である。図9に示した例では、カテゴリの特徴語のうち最も重みの大きい単語をそのカテゴリの名称として、当該単語を見出しとして用いて表示上も大きな字体で示しており、この見出し以外の特徴語は、その重みが大きい順に列挙して表示している。 Here, the category feature word is a word having a particularly large dimension value, that is, a word weight, of the category word vectors described in the processing shown in FIG. In the example shown in FIG. 9, the word with the highest weight among the feature words of the category is used as the name of the category, and the word is used as a headline, and the large word is shown on the display. Are listed in descending order of their weights.
図9に示したカテゴリ61では、「メール」という特徴語が見出しとして用いられ、その他にも「検索」、「送信」、「重要」などの特徴語が表示される。ユーザが入力装置5を用いてカテゴリ61を選択すると、このカテゴリと共通の特徴語を持つカテゴリとして、カテゴリ62、カテゴリ63などがあることが分かるので、ユーザは例えばカテゴリ62をカテゴリ61の下位に移動すべき、あるいはカテゴリ61をカテゴリ63の下位に移動すべきといった、移動操作の候補となるカテゴリを知ることができる。
In the
ステップS4の処理後、カテゴリ編集部4の移動カテゴリ候補提示部41は、移動操作の候補となるカテゴリを提示する(ステップS5)。
ステップS5の処理の詳細について説明する。図10は、このような特徴語を強調表示することで移動操作の候補となるカテゴリを提示する処理の流れを示す。まず、移動カテゴリ候補提示部41は、ユーザが入力装置5を用いて、あるカテゴリc1を選択すると(ステップS61)、全カテゴリ中の各カテゴリc2について未選択のカテゴリがあれば(ステップS62のNO)、未選択のうちいずれかのカテゴリc2を選択する。
After the process of step S4, the moving category
Details of the processing in step S5 will be described. FIG. 10 shows a flow of processing for presenting a category that is a candidate for the movement operation by highlighting such a feature word. First, when the user selects a certain category c1 using the input device 5 (step S61), the moving category
そして、移動カテゴリ候補提示部41は、カテゴリc2がカテゴリc1と共通の祖先(直接または間接の上位カテゴリで、かつ、ルートカテゴリ以外)のカテゴリpを持つかどうかを調べ(ステップS63)、カテゴリpが存在すれば(ステップS63のYES)、カテゴリc2の特徴語のうち、カテゴリc1の特徴語でもあり、かつカテゴリpの特徴語ではない単語を強調表示する(ステップS64)。一方、移動カテゴリ候補提示部41は、カテゴリpが存在しなければ(ステップS63のNO)、単純にカテゴリc2の特徴語のうちカテゴリc1の特徴語でもある単語を強調表示する(ステップS65)。
Then, the moving category
ステップS64の処理によって、多くの特徴語が強調されて表示が繁雑になることが防げる。すなわち例えば、図9に示したカテゴリ61とカテゴリ62の共通の祖先はカテゴリ65であるが、カテゴリ65より下位のカテゴリは全て「検索」という特徴語を持つことが自明であるため、これを逐一強調表示するということは行わないようにし、ユーザにとって分かりやすい過不足ない表示を行なう。
By the process of step S64, it can be prevented that many feature words are emphasized and the display becomes complicated. That is, for example, the common ancestor of the
図9に示した例では、カテゴリ62の特徴語のうち四角で囲まれた特徴語は前述したステップS64の処理により強調表示された特徴語であり、カテゴリ63の特徴語のうち、特徴語64などの四角で囲まれた特徴語は前述したステップS65の処理により強調表示された特徴語である。
In the example shown in FIG. 9, among the feature words of
ステップS64,S65の処理後は、ステップS62の処理に戻る。ステップS62の処理で「NO」と判別された場合にはステップS5の処理が終了する。ステップS5の処理後、移動カテゴリ再分類部42は、移動カテゴリの再分類処理を行なう(ステップS6)。
After the processes of steps S64 and S65, the process returns to the process of step S62. If “NO” is determined in the process of step S62, the process of step S5 ends. After the processing in step S5, the movement
図11は、本発明の実施形態における文書分類装置によるカテゴリの第1の例の移動前の状態を示す図である。図12は、本発明の実施形態における文書分類装置によるカテゴリの第1の例の移動後の状態を示す図である。図13は、本発明の実施形態における文書分類装置によるカテゴリの第2の例の移動前の状態を示す図である。図14は、本発明の実施形態における文書分類装置によるカテゴリの第2の例の移動後の状態を示す図である。 FIG. 11 is a diagram illustrating a state before movement of a first example of categories by the document classification device according to the embodiment of the present invention. FIG. 12 is a diagram illustrating a state after movement of the first example of the category by the document classification device according to the embodiment of the present invention. FIG. 13 is a diagram illustrating a state before movement of a second example of categories by the document classification device according to the embodiment of the present invention. FIG. 14 is a diagram showing a state after movement of the second example of the category by the document classification device according to the embodiment of the present invention.
図11に示したカテゴリの階層構造のうち、あるカテゴリを移動させた例が図12である。同様に、図13に示したカテゴリの階層構造のうち、あるカテゴリを移動させた例が図14である。
図11から図14の図において楕円で示したものがカテゴリである。図11では、例えば図11ではカテゴリ81やカテゴリ82が楕円で示される。この楕円内に記した「検索」や「メール」が、当該カテゴリの名称、すなわち当該カテゴリの特徴を最もよく表す特徴語である。また、カテゴリ同士は親子関係(上位下位関係)を持ち、例えばカテゴリ81はカテゴリ82の親カテゴリであり、逆にカテゴリ81から見るとカテゴリ82は子カテゴリである。
FIG. 12 shows an example in which a certain category is moved in the category hierarchical structure shown in FIG. Similarly, FIG. 14 shows an example in which a certain category is moved in the hierarchical structure of the categories shown in FIG.
In FIG. 11 to FIG. 14, categories are indicated by ellipses. In FIG. 11, for example, in FIG. 11, the
図11に示した文書(a)は、カテゴリ82に分類されているということを示す。図11は、特許文書を自動分類した結果の例であるが、自動分類の典型的な欠点を示すものでもある。
第一に、例えば「メール」に関する特許文書がカテゴリ82、83、85に分散して分類されてしまい、ユーザはどのカテゴリにどのような文書があるかが分からない。
第二に、例えば図11に示した文書(a)と(d)のように、互いに類似した文書が別々のカテゴリに分類されてしまっている。
第三に、カテゴリ81「検索」の子カテゴリとして、「WWW」、「メール」、「自然文」、「要約」というカテゴリが作られているが、分類の観点がまちまちである。例えば「WWW」や「メール」はそれぞれ、「WWW検索」や「メールの検索」といった、「検索の対象(アプリケーション)」といった観点で特許文書を分類するものであるのに対し、「自然文」や「要約」は、「自然文検索」や「検索結果の要約」といった「検索の技術そのもの」に関わる特許文書を分類するカテゴリであり、それぞれ分類の観点が異なる。
The document (a) shown in FIG. 11 indicates that it is classified into the
First, for example, patent documents related to “e-mail” are distributed and classified into
Second, for example, documents similar to documents (a) and (d) shown in FIG. 11 are classified into different categories.
Third, the categories “WWW”, “Mail”, “Natural sentence”, and “Summary” are created as child categories of the
このような問題を解消するため、まず図11に示した例では、ユーザが入力装置5を用いてカテゴリ82をカテゴリ85の下位カテゴリとする、すなわち図11に示した点線状の楕円87の位置に移動することを考える。そして、この移動操作を実行した後のカテゴリの階層構造を表した図が図12である。図11のカテゴリ82が点線状の楕円87の位置に移動された結果のカテゴリが図12に示すカテゴリ92であり、このカテゴリの名称は「メール」から「検索」へと変更されている。
In order to solve such a problem, first, in the example shown in FIG. 11, the user uses the input device 5 to set the
すなわち、移動操作を行う前の図11にてカテゴリ82は、「検索」における「メール」に関する分類、つまりカテゴリ81におけるカテゴリ82という意味を持っていたが、移動後の図12では、「メール」における「検索」(カテゴリ95におけるカテゴリ92)という意味を持つため、その意味に適した名称になっている。
That is, in FIG. 11 before performing the moving operation, the
次に、カテゴリ82に属していなかった文書(c)(d)(e)が、カテゴリ92に分類される。さらに、カテゴリ82の子カテゴリではなかったカテゴリ83が、カテゴリ92の子カテゴリ、つまり図12に示したカテゴリ93となっている。
Next, the documents (c), (d), and (e) that did not belong to the
次に、図13と図14を用いて別の移動操作の例を説明する。この例は、図13に示したカテゴリ102「WWW」を、その親カテゴリ101「検索」の下から、別のカテゴリ108「収集」の下、すなわち図13に示した点線状の楕円109の位置に移動する例である。
Next, another example of the moving operation will be described with reference to FIGS. In this example, the
図12で説明した例と同様に、移動対象のカテゴリ102の名称「WWW」は、移動後には図14に示したカテゴリ112に示すように「検索」に変更される。また、カテゴリ102が持っていた文書(c)(d)(e)や、カテゴリ102の子カテゴリ103、104は、それぞれ別のカテゴリに移動する。これは、これらの文書や子カテゴリが、カテゴリ102を移動した後は図14に示したカテゴリ112に属することが適切でなくなるからである。
Similar to the example described with reference to FIG. 12, the name “WWW” of the
すなわち図13に示したカテゴリ102の意味は、「検索」かつ「WWW」に関する文書を分類するカテゴリであったが、これを移動した結果、つまり図14に示したカテゴリ112では、「WWW」かつ「収集」かつ「検索」に関する文書を分類するカテゴリとなる必要が生じるため、この新しいカテゴリの階層構造において当該カテゴリに分類されるべきでない文書や子カテゴリ、すなわち「収集」とは関わりのない文書や子カテゴリは別のカテゴリに分類し直すのが適切である。本発明はこのような再分類を自動的に行うものである。
That is, the
また、特に、カテゴリ102の子カテゴリ103「要約」は、図14に示した例ではカテゴリ116の子カテゴリとなるため、その名称は図14に示したカテゴリ113に示すように、「要約」から「WWW」へと変更される。このように本発明の実施形態における文書分類装置によれば、ユーザによるカテゴリの移動操作に従い、カテゴリの名称の変更と、文書および下位カテゴリの再分類が自動的に行われる。
その結果、ユーザは、自分の意図に合ったカテゴリの階層構造をカテゴリの移動という簡単な操作によって効率よく作成することができる。
In particular, since the
As a result, the user can efficiently create a hierarchical structure of categories that suits his intentions by a simple operation of moving categories.
以下、移動カテゴリ再分類部42によるステップS6の処理の詳細について説明する。図15は、本発明の実施形態における文書分類装置によるカテゴリの移動に従い文書および下位カテゴリを再分類する処理動作の一例を示すフローチャートである。
Hereinafter, details of the process of step S6 by the movement
まず、移動カテゴリ再分類部42は、ユーザが入力装置5を用いてカテゴリcをカテゴリpの下からカテゴリqの下に移動した場合(ステップS71)、つまり移動操作の前ではカテゴリcの親カテゴリはカテゴリpであったが、カテゴリcを移動した後はカテゴリqがカテゴリcの親カテゴリとなった場合には、カテゴリcの単語ベクトルを再計算する(ステップS72)。
First, the moving
移動前のカテゴリcの単語ベクトルは、カテゴリpにおけるカテゴリcの単語ベクトル(上記の記法ではvpc)であったが、移動後にはカテゴリqにおけるカテゴリcの単語ベクトル(上記の記法ではvqc)となり、カテゴリpとカテゴリqがそれぞれ持つ文書の特徴の違いによって、カテゴリcの単語ベクトルの各単語の重みが変更される。ただし、ステップS72の処理は、カテゴリの単語ベクトルを厳密に計算する必要がある場合に行う処理であり、この処理は省略してもよい。 The word vector of category c before moving was the word vector of category c in category p (vpc in the above notation), but after moving, it is the word vector of category c in category q (vqc in the above notation), The weight of each word in the word vector of category c is changed depending on the difference in the document characteristics of category p and category q. However, the processing in step S72 is processing performed when it is necessary to strictly calculate the word vector of the category, and this processing may be omitted.
次に、移動カテゴリ再分類部42は、移動前にカテゴリcが持っていなかった文書のうち、移動後のカテゴリcが持つほうが適切であるような文書を求めて、これを当該カテゴリcに移動する処理を行う(ステップS73,S74,S75)。
Next, the movement
移動カテゴリ再分類部42は、ステップS73の処理として、カテゴリpの各子カテゴリcpが持つ文書のうち、カテゴリcpよりもカテゴリcに類似した文書があれば、これを当該カテゴリcに移動する。
図11で説明した例では、カテゴリcpはカテゴリ84であり、その文書(c)が図12に示したカテゴリ92に移動する。ここで、文書とカテゴリとの類似度は、両者の単語ベクトルの類似度(図8で説明したように、主に余弦)によって求める。
As a process of step S73, the movement
In the example described in FIG. 11, the category cp is the
移動カテゴリ再分類部42は、ステップS74の処理として、カテゴリqが持つ文書のうち、カテゴリqよりもカテゴリcに類似した文書があれば、これを当該カテゴリcに移動する(図11の例ではカテゴリ85の文書(d))。
As a process of step S74, the moving
移動カテゴリ再分類部42は、ステップS75の処理として、カテゴリqの各子カテゴリcqが持つ文書のうち、カテゴリcqよりもカテゴリcに類似した文書があれば、これを当該カテゴリcに移動する(図11の例ではカテゴリ86の文書(e))。
As a process of step S75, the movement
次に、移動カテゴリ再分類部42は、移動前にカテゴリcが持っていなかった子カテゴリのうち、移動後のカテゴリcが持つほうが適切であるようなカテゴリを求めて、これをカテゴリcに移動してカテゴリcの子カテゴリとする処理を行う(ステップS76,S77,S78)。
Next, the movement
移動カテゴリ再分類部42は、ステップS76の処理として、カテゴリpの各子カテゴリcpが持つ子カテゴリのうち、カテゴリcpよりもカテゴリcに類似した子カテゴリがあれば、当該子カテゴリを当該カテゴリcに移動する。ここで、カテゴリ同士の類似度は両カテゴリの単語ベクトルの類似度(主に余弦)によって求める。図11と図12に示した例では、カテゴリ83がカテゴリ92の子カテゴリ93になる。
In step S76, the moving
移動カテゴリ再分類部42は、ステップS77の処理として、カテゴリqが持つ子カテゴリのうち、カテゴリqよりもカテゴリcに類似した子カテゴリがあれば、これを当該カテゴリcに移動し、ステップS78の処理として、カテゴリqの各子カテゴリcqが持つ子カテゴリのうち、カテゴリcqよりもカテゴリcに類似した子カテゴリがあれば、やはり当該子カテゴリをカテゴリcに移動する。
The moving
次に、移動カテゴリ再分類部42は、カテゴリcが移動前に持っていた文書のうち、別のカテゴリに分類したほうが適切な文書があれば、これをカテゴリcから別のカテゴリに移動するという処理を行う(ステップS79,S80,S81,S82)。
Next, if there is a document that is more appropriate to be classified into another category among the documents that the category c had before the movement, the movement
移動カテゴリ再分類部42は、ステップS79の処理として、カテゴリcが持つ文書のうち、カテゴリcよりもカテゴリpに類似した文書があれば、これを当該カテゴリpに移動する。図13に示した例では、移動対象のカテゴリ102が持つ文書(d)が、移動後の図14では親カテゴリであるカテゴリ111に移動される。
The movement
移動カテゴリ再分類部42は、ステップS80の処理として、カテゴリcが持つ文書のうち、カテゴリcよりもカテゴリpのいずれかの子カテゴリcpに類似した文書があれば、この文書を当該カテゴリcpに移動する。図13の例では文書(e)が、カテゴリ102からカテゴリ105(図14ではカテゴリ115)に移動する。
If there is a document similar to any child category cp of category p rather than category c among the documents of category c as the process of step S80, the movement
移動カテゴリ再分類部42は、ステップS81の処理として、カテゴリcが持つ文書のうちカテゴリcよりもカテゴリqに類似した文書があれば、これを当該カテゴリqに移動し、ステップS82の処理として、カテゴリcが持つ文書のうち、カテゴリcよりもカテゴリqのいずれかの子カテゴリcqに類似した文書があれば、これを当該カテゴリcqに移動する。
The movement
次に、移動カテゴリ再分類部42は、カテゴリcが移動前に持っていた子カテゴリのうち、別のカテゴリに分類したほうが適切な子カテゴリがあれば、これをカテゴリcから別のカテゴリに移動するという処理を行う(ステップS83,S84,S85,S86)。
Next, if there is a child category that is more appropriate to be classified into another category among the child categories that the category c had before the movement, the movement
移動カテゴリ再分類部42は、ステップS83の処理として、カテゴリcが持つカテゴリのうち、カテゴリcよりもカテゴリpに類似した子カテゴリがあれば、これを当該カテゴリpに移動してカテゴリpの子カテゴリとする。図13に示した例では、移動対象のカテゴリ102が持つ子カテゴリのうち、カテゴリ104を、親カテゴリである101の下に移動する(図14ではカテゴリ114)。
As a process of step S83, the moving
移動カテゴリ再分類部42は、ステップS84の処理として、カテゴリcが持つ子カテゴリのうち、カテゴリcよりもカテゴリpのいずれかの子カテゴリcpに類似した子カテゴリがあれば、これを当該カテゴリcpに移動する。図13の例では、カテゴリ103がカテゴリ106の子カテゴリ(図14ではカテゴリ113)になり、その名称も「要約」から「WWW」に変更される。
If there is a child category that is similar to any child category cp of category p rather than category c among the child categories of category c, the moving
移動カテゴリ再分類部42は、ステップS85の処理として、カテゴリcが持つ子カテゴリのうち、カテゴリcよりもカテゴリqに類似した子カテゴリがあれば、これを当該カテゴリqに移動し、ステップS86の処理として、カテゴリcが持つ子カテゴリのうち、カテゴリcよりもカテゴリqのいずれかの子カテゴリcqに類似した子カテゴリがあれば、これを当該カテゴリcqに移動する。ステップS86の処理が終了するとステップS6の処理が終了する。
The moving
なお、ステップS73からステップS76の処理では、カテゴリcの文書や子カテゴリの移動が行われるため、厳密にはカテゴリcの単語ベクトルを文書や子カテゴリの移動の都度、再計算する必要がある。
この場合、移動させる文書や子カテゴリの順序によって、再分類の結果が変わる可能性があるので、例えばステップS73からステップS78の処理では、カテゴリcに最も類似した文書あるいは子カテゴリから優先的に移動させるようにしてもよい。
In the processing from step S73 to step S76, since the category c document and child category are moved, strictly speaking, it is necessary to recalculate the word vector of category c every time the document or child category is moved.
In this case, since the result of reclassification may change depending on the order of the document to be moved and the child category, for example, in the processing from step S73 to step S78, the document or child category most similar to category c is preferentially moved. You may make it make it.
同様にステップS79からステップS86の処理では、カテゴリcとの類似度が小さい文書あるいは子カテゴリから優先的に移動させるようにしてもよい。しかしながら、分類処理の厳密さがあまり問われない場合には、単語ベクトルの再計算処理を省略することで、処理効率を向上させてもよい。 Similarly, in the processing from step S79 to step S86, it may be preferentially moved from a document or child category having a low similarity to category c. However, if the strictness of the classification process is not particularly questioned, the processing efficiency may be improved by omitting the word vector recalculation process.
ステップS6の処理後、移動カテゴリ名変更部43は、移動したカテゴリの名称変更処理を行なう(ステップS7)。
ステップS7の処理の詳細について説明する。図16は、本発明の実施形態における文書分類装置によるカテゴリの移動に従いカテゴリの名称を変更する処理動作の一例を示すフローチャートである。図15で説明したように、カテゴリの移動に応じて再分類の処理が行われるので、当該カテゴリの単語ベクトルの内容も変化する。
After the process of step S6, the moving category
Details of the processing in step S7 will be described. FIG. 16 is a flowchart showing an example of a processing operation for changing the category name in accordance with the movement of the category by the document classification device according to the embodiment of the present invention. As described with reference to FIG. 15, since the reclassification process is performed according to the movement of the category, the content of the word vector of the category also changes.
移動カテゴリ名変更部43は、ユーザが入力装置5を用いてカテゴリcをカテゴリpの下からカテゴリqの下に移動させた場合(ステップS91)、カテゴリcの名称が新しい親カテゴリqまたはその祖先、すなわちカテゴリqの直接または間接的に上位にあるカテゴリの名称と重複するかどうか調べる(ステップS92)。
When the user moves the category c from below the category p to below the category q using the input device 5 (step S91), the movement category
移動カテゴリ名変更部43は、重複があれば(ステップS92のYES)、カテゴリcの特徴語のうち、カテゴリqとその祖先の名称を除いた最も特徴的な語をカテゴリcの名称とする(ステップS93)。
If there is an overlap (YES in step S92), the movement category
移動カテゴリ名変更部43は、前述した重複がなければ(ステップS92のNO)、カテゴリcの名称は変更しない(ステップS94)。ただし上述のように、カテゴリcを移動することで当該カテゴリcの単語ベクトルが変化するため、カテゴリcの特徴語も変わる可能性がある。
したがって、祖先のカテゴリとの名称の重複が生じない場合であっても、カテゴリcの名称が当該カテゴリcの特徴をあまりよく表さない語になっている場合には、移動後の新しい特徴語を用いてカテゴリcの名称を変更してもよい。
The movement category
Therefore, even if the name does not overlap with the ancestor category, if the name of the category c is a word that does not represent the feature of the category c, the new feature word after the movement The name of category c may be changed using
図17は、本発明の実施形態における文書分類装置の操作画面の一例を示す図である。図17に示した画面は、カテゴリ編集部4がユーザからのカテゴリの編集操作を受け付ける一方で、当該カテゴリ編集部4が行った処理の結果をユーザに対して提示するグラフィカルユーザインタフェースの例を示す図である。
FIG. 17 is a diagram showing an example of an operation screen of the document classification device according to the embodiment of the present invention. The screen shown in FIG. 17 shows an example of a graphical user interface in which the
上記に説明したように、例えば図11に示したカテゴリ81を移動してカテゴリ83の下位カテゴリにするという操作は、図17においてはユーザが入力装置5を用いて、移動対象のカテゴリ141を選択し、移動先の上位カテゴリ142の上にドラッグアンドドロップすることにより行われる。
As described above, for example, in the operation of moving the
なお、図17に示した領域143は、ユーザが入力装置5を用いて選択したカテゴリ141が持つ文書の一覧を表しており、これらの文書のうちユーザが入力装置5を用いて選択した文書144の内容が画面中の領域145の部分に表示されるようになっている。
An
以上に説明した、移動カテゴリ再分類部42による再分類の処理、および移動カテゴリ名変更部43による名称変更の処理は、ユーザのカテゴリ移動操作に応じて自動的に実行してもよいが、ユーザの明示的な指示があった場合にのみに再分類と名称変更の処理を行ってもよい。
The reclassification process by the movement
また、再分類または名称変更の処理結果をユーザに提示してその採否をユーザが判定し、採用する場合にのみ再分類または名称変更の結果をカテゴリ記憶部22に記憶し、採用しない場合には処理結果を破棄するようにしてもよい。
In addition, when the reclassification or name change processing result is presented to the user, the user determines whether or not to adopt the result, and the reclassification or name change result is stored in the
さらには、ユーザが入力装置5を用いて、あるカテゴリの移動を仮に試行してみて、再分類と名称変更の処理を行い、その結果を参照して、この移動操作が適切でないと判断すれば操作自体を取りやめるといった形態も可能である。 Furthermore, if the user tries to move a certain category by using the input device 5 and performs reclassification and name change processing, referring to the result, it is determined that this moving operation is not appropriate. It is also possible to cancel the operation itself.
このような変更は、上記で説明した処理の流れに軽微な変更を加えることで容易に実現することができる。また、本実施形態で説明した文書分類のモデルは、1つの文書が1つのカテゴリにのみ属すモデルであるが、1つの文書が複数のカテゴリに属すことが可能なモデルに拡張することも容易に行える。 Such a change can be easily realized by making a minor change to the processing flow described above. The document classification model described in the present embodiment is a model in which one document belongs to only one category, but can easily be extended to a model in which one document can belong to a plurality of categories. Yes.
なお、この発明は前記実施形態そのままに限定されるものではなく実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を省略してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。 The present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. Various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. For example, some components may be omitted from all the components shown in the embodiment. Furthermore, you may combine suitably the component covering different embodiment.
1…制御部、2…記憶装置、3…文書分類部、4…カテゴリ編集部、5…入力装置、6…出力装置、7…バス、21…文書記憶部、22…カテゴリ記憶部、31…単語ベクトル生成部、32…分類・クラスタリング部、41…移動カテゴリ候補提示部、42…移動カテゴリ再分類部、43…移動カテゴリ名変更部。
DESCRIPTION OF
Claims (4)
前記文書記憶手段に記憶された所定の文書集合を分類する文書分類手段と、
前記文書分類手段による分類結果である複数のカテゴリの情報を記憶するカテゴリ記憶手段と、
前記カテゴリ記憶手段に記憶されるカテゴリのうち指定されたカテゴリの移動先候補または前記指定されたカテゴリの下に移動するカテゴリの候補を提示する移動カテゴリ候補提示手段と、
前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリ以外のカテゴリに属する文書および当該カテゴリの少なくとも一方を適した分類形態となるように再分類する移動カテゴリ再分類手段と
を具備し、
前記移動カテゴリ再分類手段は、
前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリの移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、前記移動したカテゴリの移動先のカテゴリの上位カテゴリ、または前記移動先のカテゴリと共通の上位カテゴリを有する別カテゴリに各々属する文書のうち何れかの文書を当該移動したカテゴリに分類する
ことを特徴とする文書分類装置。 Document storage means for storing a plurality of documents;
Document classification means for classifying a predetermined document set stored in the document storage means;
Category storage means for storing information of a plurality of categories as classification results by the document classification means;
A moving category candidate presenting means for presenting a moving destination candidate of a designated category among categories stored in the category storing means or a candidate for a category moving under the designated category;
Moving category reclassifying means for reclassifying documents belonging to categories other than the moved category and at least one of the categories into a suitable classification form according to the movement of the category after the moving category candidate presenting means presents Equipped ,
The movement category reclassification means includes:
According to the movement of the category after the moving category candidate presenting means presents, another category having a higher category in common with the moving source category of the moved category, the higher category of the moving destination category of the moved category, or the moving A document classification apparatus for classifying any one of documents belonging to different categories having an upper category in common with the previous category into the moved category .
前記文書記憶手段に記憶された所定の文書集合を分類する文書分類手段と、
前記文書分類手段による分類結果である複数のカテゴリの情報を記憶するカテゴリ記憶手段と、
前記カテゴリ記憶手段に記憶されるカテゴリのうち指定されたカテゴリの移動先候補または前記指定されたカテゴリの下に移動するカテゴリの候補を提示する移動カテゴリ候補提示手段と、
前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリ以外のカテゴリに属する文書および当該カテゴリの少なくとも一方を適した分類形態となるように再分類する移動カテゴリ再分類手段と
を具備し、
前記移動カテゴリ再分類手段は、
前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、前記移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、前記移動先のカテゴリの上位カテゴリ、または前記移動先のカテゴリと共通の上位カテゴリを有する別カテゴリが各々有する下位カテゴリのうち何れかのカテゴリを前記移動したカテゴリの下位カテゴリとする
ことを特徴とする文書分類装置。 Document storage means for storing a plurality of documents;
Document classification means for classifying a predetermined document set stored in the document storage means;
Category storage means for storing information of a plurality of categories as classification results by the document classification means;
A moving category candidate presenting means for presenting a moving destination candidate of a designated category among categories stored in the category storing means or a candidate for a category moving under the designated category;
Moving category reclassification means for reclassifying at least one of a document belonging to a category other than the moved category and the category into a suitable classification form according to the movement of the category after presentation by the moving category candidate presentation means;
Comprising
The movement category reclassification means includes:
According to the movement of the category after presentation by the moving category candidate presenting means, another category having an upper category common to the moving source category, an upper category of the moving destination category, or an upper category common to the moving destination category A document classification device characterized in that any one of the lower categories of each of the different categories having a category is a lower category of the moved category.
前記文書記憶手段に記憶された所定の文書集合を分類する文書分類手段と、
前記文書分類手段による分類結果である複数のカテゴリの情報を記憶するカテゴリ記憶手段と、
前記カテゴリ記憶手段に記憶されるカテゴリのうち指定されたカテゴリの移動先候補または前記指定されたカテゴリの下に移動するカテゴリの候補を提示する移動カテゴリ候補提示手段と、
前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリ以外のカテゴリに属する文書および当該カテゴリの少なくとも一方を適した分類形態となるように再分類する移動カテゴリ再分類手段と
を具備し、
前記移動カテゴリ再分類手段は、
前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリに属する文書のうち何れかの文書を、前記移動元のカテゴリの上位カテゴリ、前記移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、前記移動先のカテゴリの上位カテゴリ、または前記移動先のカテゴリと共通の上位カテゴリを有する別カテゴリのいずれかのカテゴリに分類する
ことを特徴とする文書分類装置。 Document storage means for storing a plurality of documents;
Document classification means for classifying a predetermined document set stored in the document storage means;
Category storage means for storing information of a plurality of categories as classification results by the document classification means;
A moving category candidate presenting means for presenting a moving destination candidate of a designated category among categories stored in the category storing means or a candidate for a category moving under the designated category;
Moving category reclassification means for reclassifying at least one of a document belonging to a category other than the moved category and the category into a suitable classification form according to the movement of the category after presentation by the moving category candidate presentation means;
Comprising
The movement category reclassification means includes:
In accordance with the movement of the category after presentation by the moving category candidate presenting means, any one of the documents belonging to the moved category is selected as a higher category of the moving source category and a higher category common to the moving source category. A document classification apparatus that classifies the document into one of another category having another category having an upper category common to the destination category, an upper category of the destination category, or an upper category common to the destination category.
前記文書記憶手段に記憶された所定の文書集合を分類する文書分類手段と、
前記文書分類手段による分類結果である複数のカテゴリの情報を記憶するカテゴリ記憶手段と、
前記カテゴリ記憶手段に記憶されるカテゴリのうち指定されたカテゴリの移動先候補または前記指定されたカテゴリの下に移動するカテゴリの候補を提示する移動カテゴリ候補提示手段と、
前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリ以外のカテゴリに属する文書および当該カテゴリの少なくとも一方を適した分類形態となるように再分類する移動カテゴリ再分類手段と
を具備し、
前記移動カテゴリ再分類手段は、
前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリが有する下位カテゴリのうち何れかのカテゴリを、前記移動元のカテゴリの上位カテゴリ、前記移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、前記移動先のカテゴリの上位カテゴリ、または前記移動先のカテゴリと共通の上位カテゴリを有する別カテゴリのいずれかのカテゴリの下位カテゴリとする
ことを特徴とする文書分類装置。 Document storage means for storing a plurality of documents;
Document classification means for classifying a predetermined document set stored in the document storage means;
Category storage means for storing information of a plurality of categories as classification results by the document classification means;
A moving category candidate presenting means for presenting a moving destination candidate of a designated category among categories stored in the category storing means or a candidate for a category moving under the designated category;
Moving category reclassification means for reclassifying at least one of a document belonging to a category other than the moved category and the category into a suitable classification form according to the movement of the category after presentation by the moving category candidate presentation means;
Comprising
The movement category reclassification means includes:
In accordance with the movement of the category after presentation by the moving category candidate presenting means, any one of the lower categories of the moved category is classified into a higher category of the moving source category and a higher category common to the moving source category. The document classification apparatus is characterized in that it is set as a lower category of any one of another category having a category, an upper category of the destination category, or another category having an upper category in common with the destination category.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008148389A JP5215046B2 (en) | 2008-06-05 | 2008-06-05 | Document classification device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008148389A JP5215046B2 (en) | 2008-06-05 | 2008-06-05 | Document classification device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009294938A JP2009294938A (en) | 2009-12-17 |
JP5215046B2 true JP5215046B2 (en) | 2013-06-19 |
Family
ID=41543067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008148389A Active JP5215046B2 (en) | 2008-06-05 | 2008-06-05 | Document classification device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5215046B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5100777B2 (en) * | 2010-03-19 | 2012-12-19 | 株式会社東芝 | Document classification apparatus and program |
JP5023176B2 (en) * | 2010-03-19 | 2012-09-12 | 株式会社東芝 | Feature word extraction apparatus and program |
JP5060601B2 (en) * | 2010-08-03 | 2012-10-31 | 株式会社東芝 | Document analysis apparatus and program |
JP5708278B2 (en) * | 2011-06-08 | 2015-04-30 | ソニー株式会社 | Information processing apparatus and information processing method |
US10248718B2 (en) | 2015-07-04 | 2019-04-02 | Accenture Global Solutions Limited | Generating a domain ontology using word embeddings |
JP6715758B2 (en) * | 2016-12-26 | 2020-07-01 | Kddi株式会社 | Classifier generation device, classifier generation method, and computer program |
CN108597519B (en) * | 2018-04-04 | 2020-12-29 | 百度在线网络技术(北京)有限公司 | Call bill classification method, device, server and storage medium |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000137723A (en) * | 1998-10-30 | 2000-05-16 | Ricoh Co Ltd | Device and method for classifying document and medium where document classifying program is recorded |
JP4063489B2 (en) * | 2000-10-05 | 2008-03-19 | 株式会社ジャストシステム | Document classification apparatus, document classification method, and computer-readable recording medium storing a program for causing a computer to execute the method |
JP2003196298A (en) * | 2001-12-25 | 2003-07-11 | Fujitsu Ltd | Field system structure supporting device |
JP4744787B2 (en) * | 2002-05-08 | 2011-08-10 | 株式会社東芝 | Information organization support method and program for it |
JP4769005B2 (en) * | 2005-03-31 | 2011-09-07 | 株式会社日立製作所 | Information processing support system and information processing support program |
-
2008
- 2008-06-05 JP JP2008148389A patent/JP5215046B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2009294938A (en) | 2009-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5160312B2 (en) | Document classification device | |
Bazan et al. | A new version of rough set exploration system | |
JP5215046B2 (en) | Document classification device | |
JP3303926B2 (en) | Structured document classification apparatus and method | |
JP3856969B2 (en) | Object analysis design support method | |
EP1622044B1 (en) | Selective multi level expansion of data base via pivot point data | |
Heer et al. | Graphical histories for visualization: Supporting analysis, communication, and evaluation | |
US10360294B2 (en) | Methods and systems for efficient and accurate text extraction from unstructured documents | |
Edhlund | Nvivo 9 essentials | |
CN100462961C (en) | Method for organizing multi-file and equipment for displaying multi-file | |
JP5512489B2 (en) | File management apparatus and file management method | |
US20060116994A1 (en) | System and method for interactive multi-dimensional visual representation of information content and properties | |
US7149967B2 (en) | Method and system for creating a table version of a document | |
US20110289448A1 (en) | Folder management device, folder management method, and folder management program | |
JP2007072528A (en) | Method, program and device for analyzing document structure | |
JP6008693B2 (en) | Information processing apparatus, control method therefor, and program | |
KR20120099578A (en) | Reconstruction of lists in a document | |
Bazan et al. | On the evolution of rough set exploration system | |
JP7281905B2 (en) | Document evaluation device, document evaluation method and program | |
JP6173848B2 (en) | Document classification device | |
JP4745419B2 (en) | Document classification apparatus and program | |
JP4017354B2 (en) | Information classification apparatus and information classification program | |
JP4745424B2 (en) | Document classification apparatus and document classification program | |
US20230267271A1 (en) | Auto conversion system and method of manuscript format | |
JPH0869473A (en) | Document management device and data processor with document management function |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110223 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121113 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5215046 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160308 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |