JP5215046B2 - Document classification device - Google Patents

Document classification device Download PDF

Info

Publication number
JP5215046B2
JP5215046B2 JP2008148389A JP2008148389A JP5215046B2 JP 5215046 B2 JP5215046 B2 JP 5215046B2 JP 2008148389 A JP2008148389 A JP 2008148389A JP 2008148389 A JP2008148389 A JP 2008148389A JP 5215046 B2 JP5215046 B2 JP 5215046B2
Authority
JP
Japan
Prior art keywords
category
document
moving
categories
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008148389A
Other languages
Japanese (ja)
Other versions
JP2009294938A (en
Inventor
和之 後藤
秀樹 岩崎
泰成 宮部
博司 平
茂 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2008148389A priority Critical patent/JP5215046B2/en
Publication of JP2009294938A publication Critical patent/JP2009294938A/en
Application granted granted Critical
Publication of JP5215046B2 publication Critical patent/JP5215046B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、電子化された大量の文書をその内容に応じて分類・整理するための文書分類装置に関する。   The present invention relates to a document classification apparatus for classifying and organizing a large number of digitized documents according to their contents.

近年、計算機の高性能化や記憶媒体の大容量化、計算機ネットワークの普及などに伴い、電子化された大量の文書を計算機システムに記憶管理して利用することが可能となった。ここでいう文書とは、例えば帳票、企画書、設計書といった業務文書や、マニュアル、特許、技術文献、法令、規程、議事録、ニュース記事、電子メール、ウェブページ、書籍などを指す。   In recent years, it has become possible to store and manage a large amount of digitized documents in a computer system as the performance of computers increases, the capacity of storage media increases, the spread of computer networks, and the like. The document here refers to, for example, business documents such as forms, planning documents, and design documents, manuals, patents, technical literature, laws, regulations, minutes, news articles, e-mails, web pages, books, and the like.

このような大量の文書を未整理のまま計算機のファイルシステムやデータベースに記憶するだけでは、どこにどのような情報が存在するかが分からなくなり、せっかくの情報が利用できなくなるという問題が生じる。従って、文書を内容や用途に応じて分類・整理しておくことで情報の有効活用や共有の促進を図るといったことが行われている。   If such a large number of documents are simply stored in a file system or database of a computer without being organized, there is a problem that what kind of information exists and it is impossible to use such information. Therefore, information is effectively used and sharing is promoted by classifying and organizing documents according to contents and uses.

また、例えば日々作成され蓄積される日報や週報などの報告書や、顧客から送付されてくる問い合わせ、製品等の不具合情報、特許・技術文献等の知的財産などを分析・調査して内容の傾向を把握したり、新たな知見を得る目的にも、互いに内容が類似した文書同士をグルーピングしたりすることが行われている。このような文書の分類作業には労力がかかるため、文書を自動的に分類する技術が従来開発されている。   In addition, for example, daily reports and weekly reports that are created and accumulated daily, inquiries sent from customers, defect information on products, etc., intellectual property such as patents and technical literature, etc. For the purpose of grasping the trend and obtaining new knowledge, documents having similar contents are grouped together. Since such a document classification work requires labor, a technique for automatically classifying documents has been developed.

大量の文書を自動的に分類する技術には、大別すると教師あり分類と教師なし分類がある。教師あり分類は、あらかじめユーザが与えたカテゴリの構造と各カテゴリに分類されるべき訓練文書とに基づき、未分類の文書を自動的に分類する方法である。教師なし分類は主にクラスタリングと呼ばれ、ユーザが定義した文書の類似度に基づき、類似した文書同士を自動的にグルーピングし、カテゴリ構造自体も自動生成する方法である。   Techniques for automatically classifying a large number of documents are roughly classified into supervised classification and unsupervised classification. Supervised classification is a method of automatically classifying unclassified documents based on a category structure given in advance by a user and training documents to be classified into each category. Unsupervised classification is mainly called clustering, and is a method of automatically grouping similar documents and automatically generating a category structure itself based on the similarity of documents defined by the user.

しかし、これらの技術による自動分類の結果はユーザが意図したものにならないことが多い。また、ある文書集合を自動または手作業で分類してカテゴリ構造を作成した後、新たな文書集合を追加して分類しようとすると、既存のカテゴリ構造では新しい文書をうまく分類できないこともある。   However, the results of automatic classification by these techniques are often not what the user intended. In addition, when a certain document set is automatically or manually classified to create a category structure and then a new document set is added and classified, the new document may not be classified well with the existing category structure.

計算機処理による自動分類では、人間が手作業で行うような質の良い分類結果を得ることは困難であるし、文書をどのようなカテゴリ構造に分類すべきかはユーザ自身の意図にもよる。従って、ユーザと計算機との協調作業によってユーザが意図するカテゴリ構造を効率よく作成できるようにすることが望まれる。そこで、以下のような技術が提案されている。   In automatic classification by computer processing, it is difficult to obtain a high-quality classification result that is manually performed by humans, and what category structure a document should be classified into depends on the user's own intention. Therefore, it is desirable to be able to efficiently create a category structure intended by the user through cooperative work between the user and the computer. Therefore, the following techniques have been proposed.

その一つは、あるカテゴリに自動分類された文書をユーザが別のカテゴリに移動(割り当て直し)できるようにしたものである。もちろん、大量の文書をユーザが逐一移動するのは労力がかかるし、そもそも、どの文書をどのカテゴリに移動すべきかを判断すること自体が難しい。   One of them is that a user can move (reassign) a document automatically classified into a certain category to another category. Of course, it is laborious for the user to move a large number of documents one by one, and it is difficult to determine which document should be moved to which category in the first place.

従って、例えば特許文献1に開示されるように、自動分類による分類結果の適切さを判定する作業や、分類結果が誤りである場合に適切なカテゴリを見つける作業を効率良く行うための支援方法が考案されている。また、例えば特許文献2や特許文献3に開示されるように、適切なカテゴリが存在しない場合に新規のカテゴリを作成する必要性をユーザに提案する方法も考案されている。   Therefore, as disclosed in Patent Document 1, for example, there is a support method for efficiently performing an operation of determining the appropriateness of the classification result by automatic classification and an operation of finding an appropriate category when the classification result is incorrect. It has been devised. In addition, as disclosed in, for example, Patent Document 2 and Patent Document 3, a method has been devised that proposes to the user the necessity of creating a new category when there is no appropriate category.

さらに、例えば特許文献3に開示されるように、あるカテゴリに分類される文書数が少なくなった場合に当該カテゴリを削除するか、あるいは他のカテゴリへ併合することをユーザに提案したり、逆に、あるカテゴリへ分類される文書が多くなった場合に当該カテゴリを分割することを提案したりする方法も考案されている。   Further, as disclosed in Patent Document 3, for example, when the number of documents classified into a certain category decreases, the user is suggested to delete the category or merge it with another category, or vice versa. In addition, there has been devised a method of proposing to divide a category when the number of documents classified into a category increases.

一方、例えば特許文献4に開示されるように、カテゴリの移動や削除等の変更の指示に応じて、既に分類されている文書を再分類する方法も考案されている。
特開平9−22414号公報 特開平5−342272号公報 特開2002−117046号公報 特開2000−137723号公報
On the other hand, as disclosed in Patent Document 4, for example, a method of reclassifying already classified documents in response to a change instruction such as moving or deleting a category has been devised.
Japanese Patent Laid-Open No. 9-22414 JP-A-5-342272 JP 2002-117046 A JP 2000-137723 A

従来の自動分類、特に教師なし分類(クラスタリング)には以下の課題がある。まず、ユーザが類似していると考える文書が別々のカテゴリに分類されてしまったり、逆に、類似していないと考える文書が同じカテゴリに分類されてしまったりすることがある。   Conventional automatic classification, particularly unsupervised classification (clustering) has the following problems. First, documents that the user thinks are similar may be classified into different categories, and conversely, documents that are considered not similar may be classified into the same category.

一般的な文書クラスタリングにおいては、各文書の特徴を表すために単語ベクトルを用いることが多い。単語ベクトルとは、文書中に出現する各々の単語をベクトルの次元とし、各次元の値を当該単語の品詞や頻度などに基づいて計算した重みとして構成したベクトルである。そして、文書の間の類似度は、両文書の単語ベクトルの類似度(余弦など)を用いて定義する。   In general document clustering, word vectors are often used to represent the characteristics of each document. A word vector is a vector configured with each word appearing in a document as the dimension of the vector and the value of each dimension as a weight calculated based on the part of speech or frequency of the word. And the similarity between documents is defined using the similarity (cosine etc.) of the word vector of both documents.

この類似度を用いて、文書集合から、互いによく類似した文書同士を選んでグルーピングしていくのがクラスタリングの処理である。この処理においては、単語ベクトル中のどの単語が類似度の計算において影響を及ぼすかは機械的に定められるため、その分類結果がユーザが意図しないものになってしまうことがある。
また、階層的に生成したカテゴリ構造の上位下位(親子)関係がユーザの意図に合わないことがある。また、カテゴリの同一階層(兄弟)に分類の観点が異なるカテゴリができてしまうことがある。
Clustering is a process of selecting and grouping documents that are very similar to each other from the document set using the similarity. In this processing, which word in the word vector has an influence on the similarity calculation is mechanically determined, and the classification result may be unintended by the user.
In addition, the upper and lower (parent-child) relationship of the hierarchically generated category structure may not match the user's intention. In addition, categories with different viewpoints may be created in the same hierarchy (siblings) of categories.

階層的クラスタリングの手法(凝集型あるいは分割型)によれば、互いに類似したカテゴリをまとめる上位のカテゴリを設けてカテゴリを階層的に構成することが可能である。しかしながら、文書もしくはカテゴリを類似したもの同士で凝縮あるいは分割していく順序は上述の単語ベクトルに影響され、先に凝縮されたもの(あるいは後で分割されたもの)が下位のカテゴリとなるよう機械的に定められる。   According to the hierarchical clustering method (aggregation type or division type), it is possible to provide a higher-level category for grouping similar categories and hierarchically configure the categories. However, the order in which documents or categories are condensed or divided between similar ones is affected by the above word vector, and the one condensed earlier (or later divided) becomes a lower category. Determined.

また、ある凝縮処理(あるいは分割処理)において影響の大きかった単語と別の凝縮処理(あるいは分割処理)において影響の大きかった単語とは何ら関係がないため、カテゴリの階層構造の同一階層にできる兄弟カテゴリは分類の観点としては異なる場合が多い。その結果、自動的に生成したカテゴリの階層構造はユーザの意図に合わないものになることが多い。   In addition, since there is no relationship between a word that has a large influence in one condensation process (or division process) and a word that has a large influence in another condensation process (or division process), siblings that can be in the same hierarchy of the category hierarchy Categories are often different in terms of classification. As a result, the hierarchical structure of automatically generated categories often does not match the user's intention.

そこで、本発明の目的は、カテゴリの階層構造における各カテゴリについてユーザの意図に合うように移動できるように支援するとともに、カテゴリの移動にかかる作業を効率化し、ユーザの移動操作に応じてカテゴリの階層構造を適切に再構成することが可能になる文書分類装置を提供することにある。   Therefore, an object of the present invention is to support each category in the category hierarchical structure so that it can be moved in accordance with the user's intention, to improve the efficiency of the work for moving the category, and to change the category according to the user's moving operation. An object of the present invention is to provide a document classification device that can appropriately reconstruct a hierarchical structure.

すなわち、本発明に係わる文書分類装置は、複数の文書を記憶する文書記憶手段と、文書記憶手段に記憶された所定の文書集合を分類する文書分類手段と、文書分類手段による分類結果である複数のカテゴリの情報を記憶するカテゴリ記憶手段と、カテゴリ記憶手段に記憶されるカテゴリのうち指定されたカテゴリの移動先候補または指定されたカテゴリの下に移動するカテゴリの候補を提示する移動カテゴリ候補提示手段とを備え、移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリ以外のカテゴリが持つ文書および当該カテゴリの少なくとも一方を適した分類形態となるように再分類する移動カテゴリ再分類手段とを具備し、移動カテゴリ再分類手段は、移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリの移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、移動したカテゴリの移動先のカテゴリの上位カテゴリ、または移動先のカテゴリと共通の上位カテゴリを有する別カテゴリに各々属する文書のうち何れかの文書を当該移動したカテゴリに分類することを特徴とする。
また、本発明に係わる文書分類装置は、複数の文書を記憶する文書記憶手段と、文書記憶手段に記憶された所定の文書集合を分類する文書分類手段と、文書分類手段による分類結果である複数のカテゴリの情報を記憶するカテゴリ記憶手段と、カテゴリ記憶手段に記憶されるカテゴリのうち指定されたカテゴリの移動先候補または指定されたカテゴリの下に移動するカテゴリの候補を提示する移動カテゴリ候補提示手段と、移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリ以外のカテゴリに属する文書および当該カテゴリの少なくとも一方を適した分類形態となるように再分類する移動カテゴリ再分類手段とを具備し、移動カテゴリ再分類手段は、移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、移動先のカテゴリの上位カテゴリ、または移動先のカテゴリと共通の上位カテゴリを有する別カテゴリが各々有する下位カテゴリのうち何れかのカテゴリを移動したカテゴリの下位カテゴリとすることを特徴とする。
また、本発明に係わる文書分類装置は、複数の文書を記憶する文書記憶手段と、文書記憶手段に記憶された所定の文書集合を分類する文書分類手段と、文書分類手段による分類結果である複数のカテゴリの情報を記憶するカテゴリ記憶手段と、カテゴリ記憶手段に記憶されるカテゴリのうち指定されたカテゴリの移動先候補または指定されたカテゴリの下に移動するカテゴリの候補を提示する移動カテゴリ候補提示手段と、移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリ以外のカテゴリに属する文書および当該カテゴリの少なくとも一方を適した分類形態となるように再分類する移動カテゴリ再分類手段とを具備し、移動カテゴリ再分類手段は、移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリに属する文書のうち何れかの文書を、移動元のカテゴリの上位カテゴリ、移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、移動先のカテゴリの上位カテゴリ、または移動先のカテゴリと共通の上位カテゴリを有する別カテゴリのいずれかのカテゴリに分類することを特徴とする
また、本発明に係わる文書分類装置は、複数の文書を記憶する文書記憶手段と、文書記憶手段に記憶された所定の文書集合を分類する文書分類手段と、文書分類手段による分類結果である複数のカテゴリの情報を記憶するカテゴリ記憶手段と、カテゴリ記憶手段に記憶されるカテゴリのうち指定されたカテゴリの移動先候補または指定されたカテゴリの下に移動するカテゴリの候補を提示する移動カテゴリ候補提示手段と、移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリ以外のカテゴリに属する文書および当該カテゴリの少なくとも一方を適した分類形態となるように再分類する移動カテゴリ再分類手段とを具備し、移動カテゴリ再分類手段は、移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリが有する下位カテゴリのうち何れかのカテゴリを、移動元のカテゴリの上位カテゴリ、移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、移動先のカテゴリの上位カテゴリ、または移動先のカテゴリと共通の上位カテゴリを有する別カテゴリのいずれかのカテゴリの下位カテゴリとすることを特徴とする。
That is, the document classification apparatus according to the present invention includes a document storage unit that stores a plurality of documents, a document classification unit that classifies a predetermined document set stored in the document storage unit, and a plurality of classification results obtained by the document classification unit. Category storage means for storing category information, and moving category candidate presentation for presenting a candidate for a specified category to be moved among categories stored in the category storage means or a candidate for a category to be moved under the specified category Moving category re -categorization to reclassify at least one of a document and a category of a category other than the moved category according to the movement of the category after presentation by the moving category candidate presenting means to a suitable classification form. A moving category re-classifying means, the moving category re-classifying means after the presentation by the moving category candidate presenting means. According to the movement of the category, another category having a higher category in common with the moved source category of the moved category, a higher category of the moved category of the moved category, or another category having a higher category common to the moved category. One of the documents belonging to each of the documents is classified into the moved category .
The document classification apparatus according to the present invention includes a document storage unit that stores a plurality of documents, a document classification unit that classifies a predetermined document set stored in the document storage unit, and a plurality of classification results obtained by the document classification unit. Category storage means for storing category information, and moving category candidate presentation for presenting a candidate for a specified category to be moved among categories stored in the category storage means or a candidate for a category to be moved under the specified category And moving category reclassification means for reclassifying documents belonging to categories other than the moved category and at least one of the categories into a suitable classification form according to the movement of the category after presentation by the moving category candidate presentation means The moving category reclassification means includes the category of the category after being presented by the moving category candidate presentation means. According to the movement, any category of another category having a higher category common to the source category, a higher category of the destination category, or a lower category each of the different categories having a higher category common to the destination category Is a subcategory of the moved category.
The document classification apparatus according to the present invention includes a document storage unit that stores a plurality of documents, a document classification unit that classifies a predetermined document set stored in the document storage unit, and a plurality of classification results obtained by the document classification unit. Category storage means for storing category information, and moving category candidate presentation for presenting a candidate for a specified category to be moved among categories stored in the category storage means or a candidate for a category to be moved under the specified category And moving category reclassification means for reclassifying documents belonging to categories other than the moved category and at least one of the categories into a suitable classification form according to the movement of the category after presentation by the moving category candidate presentation means The moving category reclassification means includes the category of the category after being presented by the moving category candidate presentation means. If any of the documents belonging to the moved category is moved, the higher category of the source category, another category having the same upper category as the source category, the upper category of the destination category, or the move It is characterized in that it is classified into one of different categories having a higher-level category in common with the previous category .
The document classification apparatus according to the present invention includes a document storage unit that stores a plurality of documents, a document classification unit that classifies a predetermined document set stored in the document storage unit, and a plurality of classification results obtained by the document classification unit. Category storage means for storing category information, and moving category candidate presentation for presenting a candidate for a specified category to be moved among categories stored in the category storage means or a candidate for a category to be moved under the specified category And moving category reclassification means for reclassifying documents belonging to categories other than the moved category and at least one of the categories into a suitable classification form according to the movement of the category after presentation by the moving category candidate presentation means The moving category reclassification means includes the category of the category after being presented by the moving category candidate presentation means. In accordance with the movement, any one of the lower categories of the moved category is classified as a higher category of the source category, another category having a higher category in common with the source category, a higher category of the destination category, or It is characterized in that it is set as a lower category of any one of different categories having an upper category in common with the destination category.

本発明によれば、カテゴリの階層構造における各カテゴリについてユーザの意図に合うように移動できるように支援するとともに、カテゴリの移動にかかる作業を効率化し、ユーザの移動操作に応じてカテゴリの階層構造を適切に再構成することができるので、カテゴリの移動という簡単な操作によって、ユーザが意図する階層構造を作成することができ、その操作に基づいて操作対象以外のカテゴリや文書も適切に再構成される。従って、クラスタリング等によって自動生成したカテゴリの階層構造を用いたり、過去に作成した階層構造を再利用したりして、効率よく意図通りの階層構造を作成することができる。   ADVANTAGE OF THE INVENTION According to this invention, while assisting so that it can move according to a user's intention about each category in the hierarchy structure of a category, the operation | work concerning a movement of a category is improved, and the hierarchy structure of a category according to a user's movement operation Can be reconfigured appropriately, so the hierarchical structure intended by the user can be created by a simple operation of moving a category, and categories and documents other than the operation target can also be appropriately reconfigured based on that operation. Is done. Therefore, the hierarchical structure of categories automatically generated by clustering or the like can be used, or the hierarchical structure created in the past can be reused to efficiently create the intended hierarchical structure.

以下図面により本発明の実施形態について説明する。
図1は、本発明の実施形態における文書分類装置の構成例を表すブロック図である。
図1に示すように、本発明の実施形態における文書分類装置は、装置全体の処理動作を司る制御部1、記憶装置2、文書分類部3、カテゴリ編集部4、キーボードやマウスなどの入力装置5およびディスプレイ装置などの出力装置6を備え、それぞれがバス7を介して相互に接続される。
Embodiments of the present invention will be described below with reference to the drawings.
FIG. 1 is a block diagram illustrating a configuration example of a document classification apparatus according to an embodiment of the present invention.
As shown in FIG. 1, a document classification device according to an embodiment of the present invention includes a control unit 1, a storage device 2, a document classification unit 3, a category editing unit 4, and an input device such as a keyboard and mouse. 5 and an output device 6 such as a display device, each connected to each other via a bus 7.

記憶装置2は、例えばハードディスクドライブや不揮発性メモリなどの記憶媒体であり、文書分類部3やカテゴリ編集部4による処理動作のためのプログラムを記憶する他、文書記憶部21およびカテゴリ記憶部22を有する。カテゴリ記憶部22には、後述するように、階層構造を構成する複数のカテゴリが記憶され、各カテゴリには、その親カテゴリ、つまり上位のカテゴリと、当該カテゴリが持つ文書の情報が記憶される。   The storage device 2 is a storage medium such as a hard disk drive or a non-volatile memory, for example, and stores a program for processing operations by the document classification unit 3 and the category editing unit 4, as well as the document storage unit 21 and the category storage unit 22. Have. As will be described later, the category storage unit 22 stores a plurality of categories constituting a hierarchical structure, and each category stores its parent category, that is, a higher-level category, and document information of the category. .

文書分類部3は、記憶装置2の文書記憶部21に記憶されている文書集合を自動的に分類する手段であり、その分類結果すなわちカテゴリの集合を、カテゴリ記憶部22に記憶する。文書分類部3は単語ベクトル生成部31および分類・クラスタリング部32を有する。   The document classification unit 3 is means for automatically classifying a document set stored in the document storage unit 21 of the storage device 2, and stores the classification result, that is, a set of categories, in the category storage unit 22. The document classification unit 3 includes a word vector generation unit 31 and a classification / clustering unit 32.

文書分類部3の単語ベクトル生成部31は、文書記憶部21に記憶されている各文書から当該文書の特徴を表す単語ベクトルを生成する。また、カテゴリは文書の部分集合として表現するので、カテゴリの単語ベクトルは、当該カテゴリが持つ複数の文書の単語ベクトルを用い、単語ベクトル生成部31によって生成する。
また、文書分類部3の分類・クラスタリング部32は、文書とカテゴリの間の類似度を上述の単語ベクトルの類似度によって計算し、その類似度に基づいて文書を自動的に分類もしくはクラスタリングする手段である。
The word vector generation unit 31 of the document classification unit 3 generates a word vector representing the characteristics of the document from each document stored in the document storage unit 21. Since the category is expressed as a subset of the document, the word vector of the category is generated by the word vector generation unit 31 using the word vectors of a plurality of documents included in the category.
Further, the classification / clustering unit 32 of the document classification unit 3 calculates a similarity between a document and a category based on the above-described word vector similarity, and automatically classifies or clusters documents based on the similarity. It is.

以上説明した図1の文書分類部3の単語ベクトル生成部31および分類・クラスタリング部32は、従来技術による文書分類装置が有する手段と同様の手段であるが、図1に示したカテゴリ編集部4は本発明の特徴的な手段であり、特にカテゴリの移動、つまり上位下位関係の付け替えを行えるようにした点が従来技術と比べて新規な点である。   The word vector generation unit 31 and the classification / clustering unit 32 of the document classification unit 3 in FIG. 1 described above are the same means as those in the document classification apparatus according to the prior art, but the category editing unit 4 shown in FIG. Is a characteristic means of the present invention, and is particularly novel compared to the prior art in that the category can be moved, that is, the subordinate relationship can be changed.

カテゴリ編集部4は移動カテゴリ候補提示部41、移動カテゴリ再分類部42および移動カテゴリ名変更部43を有する。カテゴリ編集部4の移動カテゴリ候補提示部41は、ユーザが入力装置5を用いて指定したカテゴリについて、当該カテゴリを移動する先の候補として適した別のカテゴリ、または当該カテゴリの下に移動する候補として適した別のカテゴリを提示する。
また、移動カテゴリ再分類部42は、ユーザが入力装置5を用いて移動操作を行ったカテゴリについて、移動前には当該移動後のカテゴリとは別のカテゴリが持っていた文書や下位カテゴリのうち、移動後には当該カテゴリが持つ方が適切なものや、逆に移動前には当該カテゴリが持っていた文書や下位カテゴリのうち、移動後には別のカテゴリが持つ方が適切なものを、自動的に再分類する。
The category editing unit 4 includes a moving category candidate presenting unit 41, a moving category reclassifying unit 42, and a moving category name changing unit 43. The moving category candidate presenting unit 41 of the category editing unit 4 is a category designated by the user using the input device 5, another category suitable as a destination candidate to move the category, or a candidate moving under the category Present another category as appropriate.
In addition, the movement category reclassification unit 42, among the categories that the user has performed a movement operation using the input device 5, includes documents and subcategories that had a category different from the category after the movement before the movement. If the category is more appropriate after the move, or the document or subcategory that the category had before the move is automatically Reclassify.

また、移動カテゴリ名変更部43は、移動したカテゴリの名称を当該移動先の階層構造において適切な名称に変更する。なお、カテゴリ編集部4には、上述のカテゴリ移動の操作以外にも、文書をあるカテゴリから別のカテゴリに移動する操作や、新しいカテゴリを作成する手段、既存のカテゴリを削除する手段、さらには複数のカテゴリを1つのカテゴリに統合する操作や1つのカテゴリを複数のカテゴリに分割する操作などを行う機能を設けてもよい。これらの機能は従来技術による文書分類装置の一部で実現される。   Further, the movement category name changing unit 43 changes the name of the moved category to an appropriate name in the hierarchy structure of the movement destination. In addition to the category moving operation described above, the category editing unit 4 includes an operation for moving a document from one category to another category, a means for creating a new category, a means for deleting an existing category, A function of performing an operation of integrating a plurality of categories into one category or an operation of dividing one category into a plurality of categories may be provided. These functions are realized by a part of a conventional document classification apparatus.

図2は、本発明の実施形態における文書分類装置の文書記憶部に記憶される文書情報の一例を表形式で示す図である。
記憶装置2の文書記憶部21には複数の文書の情報が記憶され、各文書は図2に示すように文書のユニークな識別子である文書番号、文書名、本文などの情報を持つ。また、本実施形態では文書の特徴を表す単語ベクトルも文書記憶部21にて文書毎に記憶する。その詳細については後述する。なお、本実施形態では発明の理解を容易にするために文書の特徴を単語ベクトルのみで表現しているが、例えば文書の属性情報(日時、種別、作成者など)を、文書を特徴付けるベクトルの要素としてもよい。
FIG. 2 is a diagram showing an example of document information stored in the document storage unit of the document classification apparatus according to the embodiment of the present invention in a table format.
Information of a plurality of documents is stored in the document storage unit 21 of the storage device 2, and each document has information such as a document number, a document name, and a body, which are unique identifiers of the document, as shown in FIG. In the present embodiment, a word vector representing the document characteristics is also stored for each document in the document storage unit 21. Details thereof will be described later. In this embodiment, in order to facilitate the understanding of the invention, the document features are expressed only by word vectors. For example, document attribute information (date and time, type, creator, etc.) is used as a vector characterizing the document. It may be an element.

図3は、本発明の実施形態における文書分類装置のカテゴリ記憶部に記憶されるカテゴリ情報の一例を表形式で示す図である。
図3では3種類のカテゴリを示す。各カテゴリは当該カテゴリのユニークな識別子であるカテゴリ番号およびカテゴリ名を持つ。本実施形態では、カテゴリは0個または1個の親カテゴリつまりを持つとする。図3(a)に示したカテゴリはルートのカテゴリであるため親カテゴリを持たない。一方、図3(b)に示したカテゴリは、カテゴリ番号「C001」のカテゴリ、すなわち図3(a)で示したカテゴリを親に持ち、図3(c)に示したカテゴリはカテゴリ番号「C002」のカテゴリ、すなわち図3(b)で示したカテゴリを親カテゴリに持つ。また、各カテゴリが持つ文書の情報もカテゴリ記憶部22に記憶される。
FIG. 3 is a diagram showing an example of the category information stored in the category storage unit of the document classification device according to the embodiment of the present invention in a table format.
FIG. 3 shows three types of categories. Each category has a category number and a category name that are unique identifiers of the category. In the present embodiment, it is assumed that a category has zero or one parent category. Since the category shown in FIG. 3A is a root category, it does not have a parent category. On the other hand, the category shown in FIG. 3B has the category of the category number “C001”, that is, the category shown in FIG. 3A as the parent, and the category shown in FIG. ", That is, the category shown in FIG. 3B as a parent category. In addition, information on the documents possessed by each category is also stored in the category storage unit 22.

例えば図3(c)に示したカテゴリは文書番号が「D021」「D079」「D193」などの文書を直接持つ。ここで、図3(b)に示したカテゴリは図3(c)に示したカテゴリの親カテゴリであるため、図3(b)に示したカテゴリは間接的に文書番号「D021」「D079」「D193」などの文書を持つことになる。   For example, the category shown in FIG. 3C directly has documents having document numbers “D021”, “D079”, “D193”, and the like. Here, since the category shown in FIG. 3B is a parent category of the category shown in FIG. 3C, the category shown in FIG. 3B is indirectly document numbers “D021” and “D079”. You will have a document such as “D193”.

また、カテゴリの特徴を表す単語ベクトルもカテゴリ記憶部22にてカテゴリ毎に記憶される。その詳細については後述する。なお、ルートのカテゴリの単語ベクトルは不要なので「なし」とする。   A word vector representing the characteristics of the category is also stored for each category in the category storage unit 22. Details thereof will be described later. Since the word vector of the root category is unnecessary, it is set as “none”.

図4は、本発明の実施形態における文書分類装置の処理動作の一例を示すフローチャートである。図5は、本発明の実施形態における文書分類装置による文書の単語ベクトルを求める処理動作の一例を示すフローチャートである。図6は、本発明の実施形態における文書分類装置によるカテゴリ内の文書の単語ベクトルを求める処理動作の一例を示すフローチャートである。図7は、本発明の実施形態における文書分類装置によるカテゴリの単語ベクトルを求める処理動作の一例を示すフローチャートである。   FIG. 4 is a flowchart showing an example of the processing operation of the document classification device in the embodiment of the present invention. FIG. 5 is a flowchart showing an example of a processing operation for obtaining a word vector of a document by the document classification device according to the embodiment of the present invention. FIG. 6 is a flowchart illustrating an example of a processing operation for obtaining a word vector of a document in a category by the document classification device according to the embodiment of the present invention. FIG. 7 is a flowchart illustrating an example of a processing operation for obtaining a category word vector by the document classification device according to the embodiment of the present invention.

図5と図6に示した処理は、ともに文書の単語ベクトルを生成する処理を表すが、図5に示した処理で求められる単語ベクトルは、当該文書が属するカテゴリには依存しない単語ベクトルであるのに対し、図6に示した処理で求められる単語ベクトルは、図5に示した処理結果を用いて求められる、所定のカテゴリにおける文書の特徴を表す単語ベクトルである。また、図7に示した処理で求められる単語ベクトルは、図6の処理結果を用いて求められる、カテゴリの特徴を表す単語ベクトルである。   The processes shown in FIGS. 5 and 6 both represent the process of generating a word vector of a document. The word vector obtained by the process shown in FIG. 5 is a word vector that does not depend on the category to which the document belongs. On the other hand, the word vector obtained by the processing shown in FIG. 6 is a word vector representing the characteristics of the document in a predetermined category, obtained using the processing result shown in FIG. Moreover, the word vector calculated | required by the process shown in FIG. 7 is a word vector showing the characteristic of a category calculated | required using the process result of FIG.

図4に示すように、文書分類部3の単語ベクトル生成部31は、文書の単語ベクトル生成処理を行ない(ステップS1)、次にカテゴリ内の文書の単語ベクトル生成処理を行ない(ステップS2)、次にカテゴリの単語ベクトル生成処理を行なう(ステップS3)。   As shown in FIG. 4, the word vector generation unit 31 of the document classification unit 3 performs a word vector generation process for the document (step S1), and then performs a word vector generation process for the document in the category (step S2). Next, category word vector generation processing is performed (step S3).

ステップS1の処理の詳細について図5を参照して説明する。単語ベクトル生成部31は、処理の対象とする文書dから単語ベクトルを生成する対象とするテキストを取得する(ステップS11)。図2に示した例では、文書の「本文」のテキストを対象とするが、例えば「[要約]」、「[課題]」、「[解決方法]」などの見出しの部分は文書の内容には直接関係がないので、これらの見出しを対象テキストから除去する。   Details of the processing in step S1 will be described with reference to FIG. The word vector generation unit 31 acquires a text as a target for generating a word vector from the document d to be processed (step S11). In the example shown in FIG. 2, the text of the “body” of the document is targeted. For example, headings such as “[Summary]”, “[Problem]”, “[Solution]” are included in the content of the document. Since these are not directly related, these headings are removed from the target text.

次に、単語ベクトル生成部31は取得済みのテキストを形態素解析し(ステップS12)、得られた単語(形態素)tのうち未選択の単語tがあれば(ステップS13のNO)、未選択の何れかの単語tを選択する。そして、単語ベクトル生成部31は、選択した単語tの品詞が単語ベクトルに含めるべき所定の品詞の単語であるか、あるいは不要語であるかどうかを調べる(ステップS14)。ここでは例えば、品詞が名詞やサ変名詞、固有名詞なである単語は単語ベクトルに含め、接続詞や副詞などは単語ベクトルに含めないといった単語の選別を行う。なお、文書の種類によっては文書の特徴を表さない単語については、不要語として除去する。例えば特許文書を処理対象とする場合には、「装置」、「手段」といった単語は文書の特徴を表さないので、不要語として除去する。   Next, the word vector generation unit 31 performs morphological analysis on the acquired text (step S12). If there is an unselected word t among the obtained words (morphemes) t (NO in step S13), the unselected text is generated. Any word t is selected. Then, the word vector generation unit 31 checks whether the part of speech of the selected word t is a word of a predetermined part of speech to be included in the word vector or an unnecessary word (step S14). Here, for example, a word is selected such that a word whose part of speech is a noun, a strange noun, or a proper noun is included in the word vector and a conjunction or adverb is not included in the word vector. Depending on the type of document, words that do not represent the characteristics of the document are removed as unnecessary words. For example, when a patent document is to be processed, words such as “device” and “means” do not represent the characteristics of the document and are removed as unnecessary words.

次に、単語ベクトル生成部31は文書dのテキスト中で単語tが出現する頻度tfを求め(ステップS15)、単語tを文書dの単語ベクトルvdにおける1つの次元とし、その次元のベクトルの値をtfとする(ステップS16)。
ステップS16の処理後はステップS13の処理に戻る。単語ベクトル生成部31は未選択の単語tがなければ(ステップS13のYES)、ステップS1の処理を終了する。
Next, the word vector generation unit 31 obtains the frequency tf at which the word t appears in the text of the document d (step S15), sets the word t as one dimension in the word vector vd of the document d, and the value of the vector of that dimension Is set to tf (step S16).
After step S16, the process returns to step S13. If there is no unselected word t (YES in step S13), the word vector generation unit 31 ends the process in step S1.

このようにして、図2に例示したような文書の単語ベクトルが生成される。例えば図2に示した「メール」という単語は頻度が10、すなわち文書中で10回出現したことを意味する。ただし図2に示した例では理解を容易にするために、値が0である次元、すなわち当該文書には出現していない単語は示しておらず、単語を出現頻度の多い順に記述している。   In this way, a word vector of the document as illustrated in FIG. 2 is generated. For example, the word “mail” shown in FIG. 2 means that the frequency is 10, that is, appears 10 times in the document. However, in the example shown in FIG. 2, for ease of understanding, a dimension with a value of 0, that is, words that do not appear in the document are not shown, and the words are described in the order of appearance frequency. .

次にステップS2の処理の詳細について図6を参照して説明する。あるカテゴリcにおける文書dの特徴を表すベクトルを生成するために、単語ベクトル生成部31は、対象とするカテゴリcについて、これが直接あるいは間接的に持つ文書の集合を求め、これをDcとする(ステップS21)。   Next, details of the processing in step S2 will be described with reference to FIG. In order to generate a vector representing the characteristics of the document d in a certain category c, the word vector generation unit 31 obtains a set of documents that the target category c has directly or indirectly, and sets this as Dc ( Step S21).

次に単語ベクトル生成部31は、ステップS16の処理で求めた単語ベクトルvdの各単語tについて未選択のものがあれば(ステップS22のNO)、当該未選択のいずれかの単語tを選択し、文書集合Dc中で当該選択した単語tを含む文書数dfcを求め(ステップS23)、選択済みの単語tを単語ベクトルvcdの1つの次元とし、その次元の値をtf*(log(|Dc|/dfc)+1)とする(ステップS24)。   Next, if there is an unselected word vector t in the word vector vd obtained in the process of step S16 (NO in step S22), the word vector generation unit 31 selects any of the unselected words t. Then, the number dfc of documents including the selected word t in the document set Dc is obtained (step S23), the selected word t is set as one dimension of the word vector vcd, and the value of the dimension is set to tf * (log (| Dc | / Dfc) +1) (step S24).

ここで|Dc|は文書集合Dcの文書数である。この計算式は一般にTF・IDFと呼ばれ、従来より情報検索や文書分類の分野で広く使用されているものである。すなわち、単語tが文書dに出現する頻度が多い(ベクトルの値tfが大きい)ほど、また、カテゴリcが持つ文書のうち単語tを含む文書が少ない(文書数dfcが小さい)ほど、当該単語は文書dの特徴をよく表す単語であるとみなされる。   Here, | Dc | is the number of documents in the document set Dc. This calculation formula is generally called TF / IDF, and has been widely used in the fields of information retrieval and document classification. That is, the more frequently the word t appears in the document d (the vector value tf is larger), and the fewer the documents containing the word t (of the document number dfc) out of the documents of the category c, the more the word Is regarded as a word that well represents the characteristics of the document d.

こうして生成された単語ベクトルvcdは、前述したように求めた単語ベクトルvdと比較すると、カテゴリcにおいて文書dの特徴をよく表す次元の値(単語の重み)が大きくなったベクトルとなる。なお、上記のIDFに相当する部分、すなわち、(log(|Dc|/dfc)+1)の部分は、カテゴリcが持つ文書の集合Dcを対象にしているため、特に文書集合Dcの文書数が少ない場合には、本来特徴的でない単語の重みが大きくなってしまうこともあり得る。   The word vector vcd generated in this way is a vector in which the dimension value (word weight) that well represents the feature of the document d in the category c is larger than the word vector vd obtained as described above. Note that the part corresponding to the IDF, that is, the part of (log (| Dc | / dfc) +1) is directed to the document set Dc of the category c, and therefore the number of documents in the document set Dc is particularly large. If the number is small, the weight of words that are not characteristic in nature may increase.

したがって、このIDFの部分を全ての文書集合Dおよび当該文書集合D中で単語tを含む文書数dfを用いて計算してもよいし、文書集合Dcで計算した値と文書集合Dで計算した値の両方を加味した値(例えば平均)を用いてもよい。さらに、ステップS23の処理、つまり単語tを含む文書数を求める処理では、例えば情報検索における転置ファイルのような手段を用いることで処理の効率を向上してもよい。   Therefore, the IDF portion may be calculated using all the document sets D and the number of documents df including the word t in the document set D, or calculated using the values calculated in the document set Dc and the document set D. You may use the value (for example, average) which considered both values. Further, in the process of step S23, that is, the process of obtaining the number of documents including the word t, the efficiency of the process may be improved by using a means such as a transposed file in information retrieval.

ステップS24の処理後はステップS22の処理に戻る。未選択の単語tがなければ(ステップS22のYES)、単語ベクトル生成部31は、単語ベクトルvcdの各次元の値を当該単語ベクトルvcdのノルム|vcd|で割ることによって正規化する(ステップS25)。その結果単語ベクトルvcdはノルムが1のベクトルとなる。   After step S24, the process returns to step S22. If there is no unselected word t (YES in step S22), the word vector generation unit 31 normalizes by dividing the value of each dimension of the word vector vcd by the norm | vcd | of the word vector vcd (step S25). ). As a result, the word vector vcd is a vector whose norm is 1.

次にステップS3の処理の詳細について図7を参照して説明する。この処理で求める対象はカテゴリcの単語ベクトルである。カテゴリcの単語ベクトルは、カテゴリcの直接または間接の親カテゴリpにおけるカテゴリcの単語ベクトル(すなわちカテゴリpにおいてカテゴリcの特徴を表すベクトル)として求められる。   Next, details of the processing in step S3 will be described with reference to FIG. An object to be obtained in this process is a word vector of category c. The word vector of category c is obtained as the word vector of category c in the direct or indirect parent category p of category c (that is, the vector representing the characteristics of category c in category p).

まず、単語ベクトル生成部31は、カテゴリcが直接・間接に持つ文書の集合をDcとする(ステップS31)。そして単語ベクトル生成部31は、求めたい単語ベクトルの初期値を空(すべての次元の値が0のベクトル)とする(ステップS32)。次に、単語ベクトル生成部31は、文書集合Dc中の各文書dのうち未選択の文書dがあれば(ステップS33のNO)、未選択のうち何れかの文書dを選択し、カテゴリpにおける選択済みの文書dの単語ベクトルvpdを求める(ステップS34)。これは図6に示した処理によって求めることができる。
そして単語ベクトル生成部31は、単語ベクトルvpdを単語ベクトルvpcに加える(ステップS35)。
First, the word vector generation unit 31 sets a set of documents that the category c has directly or indirectly as Dc (step S31). Then, the word vector generation unit 31 sets the initial value of the word vector to be obtained to be empty (a vector in which all dimension values are 0) (step S32). Next, if there is an unselected document d among the documents d in the document set Dc (NO in step S33), the word vector generation unit 31 selects any one of the unselected documents d and selects the category p. The word vector vpd of the selected document d in is obtained (step S34). This can be obtained by the process shown in FIG.
Then, the word vector generation unit 31 adds the word vector vpd to the word vector vpc (step S35).

ステップS35の処理後は、ステップS33の処理に戻る。単語ベクトル生成部31は未選択の文書dがなければ(ステップS33のYES)、単語ベクトルvpcの各次元の値を単語ベクトルvpcのノルム|vpc|で割ることによって正規化する(ステップS36)。その結果、単語ベクトルvpcはノルムが1のベクトルとなる。このようにして、単語ベクトルvpcは、親カテゴリpにおいてカテゴリcが持つ複数の文書の特徴を表す平均的なベクトルとして生成される。   After step S35, the process returns to step S33. If there is no unselected document d (YES in step S33), the word vector generation unit 31 normalizes by dividing each dimension value of the word vector vpc by the norm | vpc | of the word vector vpc (step S36). As a result, the word vector vpc is a vector whose norm is 1. In this way, the word vector vpc is generated as an average vector representing the characteristics of a plurality of documents that the category c has in the parent category p.

図8は、本発明の実施形態における文書分類装置による文書の分類処理の一例を示すフローチャートである。ステップS3の処理後、文書分類部3の分類・クラスタリング部32は文書の分類・クラスタリング処理を行なう(ステップS4)。
ステップS4の処理の詳細について図8を参照して説明する。まず、分類・クラスタリング部32は、ユーザが入力装置5を用いて指定したカテゴリpが持つ文書集合を分類対象の文書集合とする(ステップS41)。カテゴリpは、既にいくつかの子カテゴリを持っていることもあるし、子カテゴリを1つも持っていないこともあるが、図8ではいずれの場合にも実行する処理の流れを記している。
FIG. 8 is a flowchart illustrating an example of document classification processing by the document classification device according to the embodiment of the present invention. After the processing in step S3, the classification / clustering unit 32 of the document classification unit 3 performs document classification / clustering processing (step S4).
Details of the processing in step S4 will be described with reference to FIG. First, the classification / clustering unit 32 sets a document set of the category p designated by the user using the input device 5 as a document set to be classified (step S41). The category p may already have several child categories or may not have any child categories, but FIG. 8 shows the flow of processing executed in either case.

すなわち、カテゴリpが直接持つ文書について、これを分類すべきpの子カテゴリが既に存在すれば、その子カテゴリに当該文書を分類するし、そのような子カテゴリが存在しなければ、かつ、後述するように新規の子カテゴリを作成するよう指示されているならば、当該文書を分類すべき子カテゴリを新規に作成する。   That is, for a document directly owned by category p, if there is already a child category of p that should be classified, the document is classified into that child category, and if there is no such child category, it will be described later. If the user is instructed to create a new child category, a new child category for classifying the document is created.

以下に説明する処理は、leader−follower法と呼ばれる単純なクラスタリング手法である。この手法では、分類・クラスタリング部32は、対象文書集合中の各文書dのうち未選択の文書dがあれば(ステップS42のNO)、未選択のうちいずれかの文書dを選択する。そして、分類・クラスタリング部32は、選択した文書dの分類先であるカテゴリcmaxの初期値を「なし」とし、文書dとcmaxの類似度の最大値の初期値を0とする(ステップS43)。   The process described below is a simple clustering method called a leader-follower method. In this method, the classification / clustering unit 32 selects one of the unselected documents d if there is an unselected document d among the documents d in the target document set (NO in step S42). Then, the classification / clustering unit 32 sets the initial value of the category cmax, which is the classification destination of the selected document d, to “none”, and sets the initial value of the maximum similarity between the documents d and cmax to 0 (step S43). .

そして、分類・クラスタリング部32は、カテゴリpの各子カテゴリcのうち未選択のカテゴリがあれば(ステップS44のNO)、未選択のうちいずれかのカテゴリcを選択し、選択済みの文書dとカテゴリcの類似度sを求める(ステップS45)。ここで、文書dとカテゴリcとの類似度sは、図6および図7で説明した、文書の単語ベクトル(ここではvpd)と、カテゴリの単語ベクトル(vpc)との類似度(主にはベクトルの余弦)によって求める。   If there is an unselected category among the child categories c of category p (NO in step S44), the classification / clustering unit 32 selects one of the unselected categories c and selects the selected document d. And the similarity s of the category c is obtained (step S45). Here, the similarity s between the document d and the category c is the similarity between the word vector (vpd in this case) and the word vector (vpc) of the category described in FIGS. (Cosine of vector)

分類・クラスタリング部32は、類似度sが所定の閾値sth以上で、かつ最大値smaxより大きければ(ステップS46のYES)、cmax=cとし、smax=sとする(ステップS47)。   The classification / clustering unit 32 sets cmax = c and smax = s (step S47) if the similarity s is greater than or equal to a predetermined threshold sth and greater than the maximum value smax (YES in step S46).

ステップS46の処理で「NO」と判別された場合やステップS47の処理後は、ステップS44の処理に戻る。分類・クラスタリング部32は、カテゴリpの各子カテゴリcのうち未選択のカテゴリがなければ(ステップS44のYES)、カテゴリcmax、すなわちカテゴリpの子カテゴリのうち文書dとの類似度が最大で、かつ当該類似度が閾値sth以上のカテゴリが存在すれば(ステップS48のYES)、文書dをカテゴリcmaxに分類する(ステップS51)。   If “NO” is determined in the process of step S46 or after the process of step S47, the process returns to the process of step S44. If there is no unselected category among the child categories c of category p (YES in step S44), the classification / clustering unit 32 has the maximum similarity to category cmax, that is, the document d among the child categories of category p. If there is a category whose similarity is greater than or equal to the threshold sth (YES in step S48), the document d is classified into the category cmax (step S51).

分類・クラスタリング部32は、カテゴリcmaxが存在せず(ステップS48のNO)、かつ新規の子カテゴリを作成するよう指示されているならば(ステップS49のYES)、カテゴリpの子カテゴリとしてカテゴリcmaxを新規に作成し(ステップS50)、文書dをカテゴリcmaxに分類する(ステップS51)。   If the category cmax does not exist (NO in step S48) and the classification / clustering unit 32 is instructed to create a new child category (YES in step S49), the category cmax is set as a child category of the category p. Is newly created (step S50), and the document d is classified into the category cmax (step S51).

一方、分類・クラスタリング部32は、新規カテゴリを作成しないよう指定されている場合には(ステップS49のNO)、文書dは既存の子カテゴリのうち最も適切なカテゴリに分類されるが、適切な子カテゴリが存在しない場合(文書dはいずれの子カテゴリとも、類似度が閾値未満である場合)、文書dはどの子カテゴリにも分類しない。   On the other hand, if the classification / clustering unit 32 is designated not to create a new category (NO in step S49), the document d is classified into the most appropriate category among the existing child categories. When there is no child category (in the case of document d, any child category has a similarity less than the threshold), document d is not classified into any child category.

ステップS51の処理後、分類・クラスタリング部32は、文書dが分類されたカテゴリcmaxの単語ベクトルを再計算する(ステップS52)。図7で説明したように、カテゴリの単語ベクトルは、本実施形態では当該カテゴリが持つ文書の単語ベクトルを平均したものであるため、カテゴリcmaxの単語ベクトルは文書dを追加する前のカテゴリcmaxの単語ベクトルvpcmaxと、文書dの単語ベクトルvpdとを用いて求めることができる。   After the process of step S51, the classification / clustering unit 32 recalculates the word vector of the category cmax into which the document d is classified (step S52). As described with reference to FIG. 7, the word vector of the category is an average of the word vectors of the documents included in the category in the present embodiment. Therefore, the word vector of the category cmax is that of the category cmax before the document d is added. It can be obtained using the word vector vpcmax and the word vector vpd of the document d.

すなわち、文書dを加える前のカテゴリcmaxが持つ文書数をとすれば、ベクトル|Dcmax|*vpcmax+vpdを、そのノルムで正規化して大きさを1としたベクトルが、カテゴリcmaxの新しい単語ベクトルとなる。以上の処理を各文書dについて繰り返し行うことで、カテゴリpが持つ文書は当該カテゴリpの子カテゴリに分類される。   That is, if the number of documents in the category cmax before adding the document d is taken, a vector with a magnitude of 1 obtained by normalizing the vector | Dcmax | * vpcmax + vpd with its norm becomes a new word vector of the category cmax. . By repeating the above processing for each document d, the document possessed by the category p is classified into a child category of the category p.

ステップS49の処理で「NO」と判別された場合やステップS52の処理後は、ステップS42の処理に戻る。分類・クラスタリング部32は、対象文書集合中の各文書dのうち未選択の文書dがあり(ステップS42のNO)、ステップS50の処理にて作成された子カテゴリで、結局ただ1つの文書しか持たないようなものがあれば、その子カテゴリは不要であるので削除する(ステップS53)。以上に述べた処理は、文書の教師あり分類と教師なし分類を兼ねた比較的単純な処理であるが、本発明はこの方法に限定しない。   If “NO” is determined in the process of step S49 or after the process of step S52, the process returns to the process of step S42. The classification / clustering unit 32 has an unselected document d among the documents d in the target document set (NO in step S42), and in the child category created in step S50, only one document is eventually obtained. If there is something that does not have, the child category is unnecessary and is deleted (step S53). The process described above is a relatively simple process that combines the supervised classification and the unsupervised classification of documents, but the present invention is not limited to this method.

なお、leader−follower法自体は階層的な構造を持つカテゴリを生成しない方法ではあるが、例えば、あるカテゴリpを対象に図8で説明した処理を実行して作成した子カテゴリのうち、所定の子カテゴリcを対象にして、さらに当該図8に示した処理を実行することで、カテゴリcの子カテゴリ(すなわちカテゴリpの孫)を作成することができるので、カテゴリの階層構造を容易に作成できる。   Note that the leader-follower method itself is a method that does not generate a category having a hierarchical structure. For example, among child categories created by executing the processing described with reference to FIG. By executing the process shown in FIG. 8 with respect to the child category c, a child category of the category c (that is, a grandchild of the category p) can be created, so that a hierarchical structure of categories can be easily created. it can.

次に、カテゴリ編集部4により移動すべきカテゴリの候補を提示する処理について説明する。
図9は、本発明の実施形態における文書分類装置による移動すべきカテゴリの候補の提示画面の一例を示す図である。図10は、本発明の実施形態における文書分類装置による移動すべきカテゴリの候補を提示する処理動作の一例を示すフローチャートである。図10に示した処理は、図9に示した提示画面を生成するために、移動カテゴリ候補提示部41によって実行される処理動作である。
Next, processing for presenting category candidates to be moved by the category editing unit 4 will be described.
FIG. 9 is a diagram showing an example of a category candidate presentation screen to be moved by the document classification device according to the embodiment of the present invention. FIG. 10 is a flowchart illustrating an example of a processing operation for presenting a category candidate to be moved by the document classification device according to the embodiment of the present invention. The processing shown in FIG. 10 is a processing operation executed by the movement category candidate presentation unit 41 in order to generate the presentation screen shown in FIG.

図9に示した画面では、ユーザが入力装置5を用いてカテゴリ61を指定した場合、当該カテゴリが持つ特徴的な単語(以下、特徴語と呼ぶ。図9中では例えば「メール」など)を持った他のカテゴリが提示され、図9に示したようにカテゴリ62の特徴語が強調表示される。図9において、斜線が付されたカテゴリのマークはユーザにより入力装置5を用いて指定されたカテゴリのマークを示し、四角で囲まれた特徴語は強調表示された特徴語を示す。   In the screen shown in FIG. 9, when the user designates a category 61 using the input device 5, a characteristic word (hereinafter referred to as a feature word, for example, “mail” in FIG. 9) possessed by the category. The other category is presented, and the feature words of category 62 are highlighted as shown in FIG. In FIG. 9, a hatched category mark indicates a category mark designated by the user using the input device 5, and a feature word surrounded by a square indicates a highlighted feature word.

ここで、カテゴリの特徴語とは図7に示した処理で説明したカテゴリの単語ベクトルのうち、次元の値、すなわち単語の重みが特に大きい単語である。図9に示した例では、カテゴリの特徴語のうち最も重みの大きい単語をそのカテゴリの名称として、当該単語を見出しとして用いて表示上も大きな字体で示しており、この見出し以外の特徴語は、その重みが大きい順に列挙して表示している。   Here, the category feature word is a word having a particularly large dimension value, that is, a word weight, of the category word vectors described in the processing shown in FIG. In the example shown in FIG. 9, the word with the highest weight among the feature words of the category is used as the name of the category, and the word is used as a headline, and the large word is shown on the display. Are listed in descending order of their weights.

図9に示したカテゴリ61では、「メール」という特徴語が見出しとして用いられ、その他にも「検索」、「送信」、「重要」などの特徴語が表示される。ユーザが入力装置5を用いてカテゴリ61を選択すると、このカテゴリと共通の特徴語を持つカテゴリとして、カテゴリ62、カテゴリ63などがあることが分かるので、ユーザは例えばカテゴリ62をカテゴリ61の下位に移動すべき、あるいはカテゴリ61をカテゴリ63の下位に移動すべきといった、移動操作の候補となるカテゴリを知ることができる。   In the category 61 shown in FIG. 9, the characteristic word “mail” is used as a headline, and other characteristic words such as “search”, “transmission”, and “important” are displayed. When the user selects the category 61 using the input device 5, it can be seen that there are categories 62, 63, and the like as categories having common feature words with this category. It is possible to know a category that is a candidate for the movement operation, such as to move or to move the category 61 to a position below the category 63.

ステップS4の処理後、カテゴリ編集部4の移動カテゴリ候補提示部41は、移動操作の候補となるカテゴリを提示する(ステップS5)。
ステップS5の処理の詳細について説明する。図10は、このような特徴語を強調表示することで移動操作の候補となるカテゴリを提示する処理の流れを示す。まず、移動カテゴリ候補提示部41は、ユーザが入力装置5を用いて、あるカテゴリc1を選択すると(ステップS61)、全カテゴリ中の各カテゴリc2について未選択のカテゴリがあれば(ステップS62のNO)、未選択のうちいずれかのカテゴリc2を選択する。
After the process of step S4, the moving category candidate presenting unit 41 of the category editing unit 4 presents a category that is a candidate for the moving operation (step S5).
Details of the processing in step S5 will be described. FIG. 10 shows a flow of processing for presenting a category that is a candidate for the movement operation by highlighting such a feature word. First, when the user selects a certain category c1 using the input device 5 (step S61), the moving category candidate presenting unit 41 has an unselected category for each category c2 in all categories (NO in step S62). ), Any one of the categories c2 is selected.

そして、移動カテゴリ候補提示部41は、カテゴリc2がカテゴリc1と共通の祖先(直接または間接の上位カテゴリで、かつ、ルートカテゴリ以外)のカテゴリpを持つかどうかを調べ(ステップS63)、カテゴリpが存在すれば(ステップS63のYES)、カテゴリc2の特徴語のうち、カテゴリc1の特徴語でもあり、かつカテゴリpの特徴語ではない単語を強調表示する(ステップS64)。一方、移動カテゴリ候補提示部41は、カテゴリpが存在しなければ(ステップS63のNO)、単純にカテゴリc2の特徴語のうちカテゴリc1の特徴語でもある単語を強調表示する(ステップS65)。   Then, the moving category candidate presentation unit 41 checks whether or not the category c2 has a common ancestor category p (direct or indirect higher category and other than the root category) with the category c1 (step S63). Is present (YES in step S63), among the characteristic words in category c2, the word that is also a characteristic word in category c1 and not a characteristic word in category p is highlighted (step S64). On the other hand, if the category p does not exist (NO in step S63), the moving category candidate presentation unit 41 simply highlights a word that is also a feature word of the category c1 among the feature words of the category c2 (step S65).

ステップS64の処理によって、多くの特徴語が強調されて表示が繁雑になることが防げる。すなわち例えば、図9に示したカテゴリ61とカテゴリ62の共通の祖先はカテゴリ65であるが、カテゴリ65より下位のカテゴリは全て「検索」という特徴語を持つことが自明であるため、これを逐一強調表示するということは行わないようにし、ユーザにとって分かりやすい過不足ない表示を行なう。   By the process of step S64, it can be prevented that many feature words are emphasized and the display becomes complicated. That is, for example, the common ancestor of the category 61 and the category 62 shown in FIG. 9 is the category 65, but it is obvious that all the categories below the category 65 have the characteristic word “search”. The highlighting is not performed, and the display is simple and easy for the user to understand.

図9に示した例では、カテゴリ62の特徴語のうち四角で囲まれた特徴語は前述したステップS64の処理により強調表示された特徴語であり、カテゴリ63の特徴語のうち、特徴語64などの四角で囲まれた特徴語は前述したステップS65の処理により強調表示された特徴語である。   In the example shown in FIG. 9, among the feature words of category 62, the feature words surrounded by a square are feature words highlighted by the process of step S64 described above. Of the feature words of category 63, feature words 64 A feature word surrounded by a square such as is a feature word highlighted by the process of step S65 described above.

ステップS64,S65の処理後は、ステップS62の処理に戻る。ステップS62の処理で「NO」と判別された場合にはステップS5の処理が終了する。ステップS5の処理後、移動カテゴリ再分類部42は、移動カテゴリの再分類処理を行なう(ステップS6)。   After the processes of steps S64 and S65, the process returns to the process of step S62. If “NO” is determined in the process of step S62, the process of step S5 ends. After the processing in step S5, the movement category reclassification unit 42 performs reclassification processing for the movement category (step S6).

図11は、本発明の実施形態における文書分類装置によるカテゴリの第1の例の移動前の状態を示す図である。図12は、本発明の実施形態における文書分類装置によるカテゴリの第1の例の移動後の状態を示す図である。図13は、本発明の実施形態における文書分類装置によるカテゴリの第2の例の移動前の状態を示す図である。図14は、本発明の実施形態における文書分類装置によるカテゴリの第2の例の移動後の状態を示す図である。   FIG. 11 is a diagram illustrating a state before movement of a first example of categories by the document classification device according to the embodiment of the present invention. FIG. 12 is a diagram illustrating a state after movement of the first example of the category by the document classification device according to the embodiment of the present invention. FIG. 13 is a diagram illustrating a state before movement of a second example of categories by the document classification device according to the embodiment of the present invention. FIG. 14 is a diagram showing a state after movement of the second example of the category by the document classification device according to the embodiment of the present invention.

図11に示したカテゴリの階層構造のうち、あるカテゴリを移動させた例が図12である。同様に、図13に示したカテゴリの階層構造のうち、あるカテゴリを移動させた例が図14である。
図11から図14の図において楕円で示したものがカテゴリである。図11では、例えば図11ではカテゴリ81やカテゴリ82が楕円で示される。この楕円内に記した「検索」や「メール」が、当該カテゴリの名称、すなわち当該カテゴリの特徴を最もよく表す特徴語である。また、カテゴリ同士は親子関係(上位下位関係)を持ち、例えばカテゴリ81はカテゴリ82の親カテゴリであり、逆にカテゴリ81から見るとカテゴリ82は子カテゴリである。
FIG. 12 shows an example in which a certain category is moved in the category hierarchical structure shown in FIG. Similarly, FIG. 14 shows an example in which a certain category is moved in the hierarchical structure of the categories shown in FIG.
In FIG. 11 to FIG. 14, categories are indicated by ellipses. In FIG. 11, for example, in FIG. 11, the categories 81 and 82 are indicated by ellipses. “Search” and “mail” written in the ellipse are feature words that best represent the name of the category, that is, the feature of the category. The categories have a parent-child relationship (upper-lower relationship). For example, the category 81 is a parent category of the category 82. Conversely, when viewed from the category 81, the category 82 is a child category.

図11に示した文書(a)は、カテゴリ82に分類されているということを示す。図11は、特許文書を自動分類した結果の例であるが、自動分類の典型的な欠点を示すものでもある。
第一に、例えば「メール」に関する特許文書がカテゴリ82、83、85に分散して分類されてしまい、ユーザはどのカテゴリにどのような文書があるかが分からない。
第二に、例えば図11に示した文書(a)と(d)のように、互いに類似した文書が別々のカテゴリに分類されてしまっている。
第三に、カテゴリ81「検索」の子カテゴリとして、「WWW」、「メール」、「自然文」、「要約」というカテゴリが作られているが、分類の観点がまちまちである。例えば「WWW」や「メール」はそれぞれ、「WWW検索」や「メールの検索」といった、「検索の対象(アプリケーション)」といった観点で特許文書を分類するものであるのに対し、「自然文」や「要約」は、「自然文検索」や「検索結果の要約」といった「検索の技術そのもの」に関わる特許文書を分類するカテゴリであり、それぞれ分類の観点が異なる。
The document (a) shown in FIG. 11 indicates that it is classified into the category 82. FIG. 11 is an example of the result of automatic classification of patent documents, but also shows typical drawbacks of automatic classification.
First, for example, patent documents related to “e-mail” are distributed and classified into categories 82, 83, and 85, and the user does not know what document is in which category.
Second, for example, documents similar to documents (a) and (d) shown in FIG. 11 are classified into different categories.
Third, the categories “WWW”, “Mail”, “Natural sentence”, and “Summary” are created as child categories of the category 81 “Search”, but the viewpoint of classification varies. For example, “WWW” and “mail” classify patent documents in terms of “search target (application)” such as “WWW search” and “mail search”, whereas “natural text”. And “summary” are categories for classifying patent documents related to “search technology itself” such as “natural text search” and “summary of search results”, and have different viewpoints of classification.

このような問題を解消するため、まず図11に示した例では、ユーザが入力装置5を用いてカテゴリ82をカテゴリ85の下位カテゴリとする、すなわち図11に示した点線状の楕円87の位置に移動することを考える。そして、この移動操作を実行した後のカテゴリの階層構造を表した図が図12である。図11のカテゴリ82が点線状の楕円87の位置に移動された結果のカテゴリが図12に示すカテゴリ92であり、このカテゴリの名称は「メール」から「検索」へと変更されている。   In order to solve such a problem, first, in the example shown in FIG. 11, the user uses the input device 5 to set the category 82 as a lower category of the category 85, that is, the position of the dotted ellipse 87 shown in FIG. Think about moving to. FIG. 12 shows a hierarchical structure of categories after this movement operation is executed. The category as a result of moving the category 82 in FIG. 11 to the position of the dotted ellipse 87 is the category 92 shown in FIG. 12, and the name of this category is changed from “mail” to “search”.

すなわち、移動操作を行う前の図11にてカテゴリ82は、「検索」における「メール」に関する分類、つまりカテゴリ81におけるカテゴリ82という意味を持っていたが、移動後の図12では、「メール」における「検索」(カテゴリ95におけるカテゴリ92)という意味を持つため、その意味に適した名称になっている。   That is, in FIG. 11 before performing the moving operation, the category 82 has the meaning of “mail” in “search”, that is, the category 82 in the category 81, but in FIG. Therefore, the name is suitable for the meaning of “search” (category 92 in category 95).

次に、カテゴリ82に属していなかった文書(c)(d)(e)が、カテゴリ92に分類される。さらに、カテゴリ82の子カテゴリではなかったカテゴリ83が、カテゴリ92の子カテゴリ、つまり図12に示したカテゴリ93となっている。   Next, the documents (c), (d), and (e) that did not belong to the category 82 are classified into the category 92. Further, a category 83 that is not a child category of category 82 is a child category of category 92, that is, category 93 shown in FIG.

次に、図13と図14を用いて別の移動操作の例を説明する。この例は、図13に示したカテゴリ102「WWW」を、その親カテゴリ101「検索」の下から、別のカテゴリ108「収集」の下、すなわち図13に示した点線状の楕円109の位置に移動する例である。   Next, another example of the moving operation will be described with reference to FIGS. In this example, the category 102 “WWW” shown in FIG. 13 is placed under the parent category 101 “search”, under another category 108 “collection”, that is, the position of the dotted ellipse 109 shown in FIG. It is an example to move to.

図12で説明した例と同様に、移動対象のカテゴリ102の名称「WWW」は、移動後には図14に示したカテゴリ112に示すように「検索」に変更される。また、カテゴリ102が持っていた文書(c)(d)(e)や、カテゴリ102の子カテゴリ103、104は、それぞれ別のカテゴリに移動する。これは、これらの文書や子カテゴリが、カテゴリ102を移動した後は図14に示したカテゴリ112に属することが適切でなくなるからである。   Similar to the example described with reference to FIG. 12, the name “WWW” of the category 102 to be moved is changed to “search” as shown in the category 112 shown in FIG. 14 after the movement. Further, the documents (c), (d), and (e) that the category 102 has, and the child categories 103 and 104 of the category 102 move to different categories. This is because it is not appropriate that these documents and child categories belong to the category 112 shown in FIG. 14 after the category 102 is moved.

すなわち図13に示したカテゴリ102の意味は、「検索」かつ「WWW」に関する文書を分類するカテゴリであったが、これを移動した結果、つまり図14に示したカテゴリ112では、「WWW」かつ「収集」かつ「検索」に関する文書を分類するカテゴリとなる必要が生じるため、この新しいカテゴリの階層構造において当該カテゴリに分類されるべきでない文書や子カテゴリ、すなわち「収集」とは関わりのない文書や子カテゴリは別のカテゴリに分類し直すのが適切である。本発明はこのような再分類を自動的に行うものである。   That is, the category 102 shown in FIG. 13 is a category for classifying documents related to “search” and “WWW”. However, in the category 112 shown in FIG. Since it is necessary to be a category that classifies documents related to “collection” and “search”, documents and child categories that should not be classified in the category in this new category hierarchy, that is, documents that are not related to “collection” It is appropriate to reclassify or child categories into different categories. The present invention automatically performs such reclassification.

また、特に、カテゴリ102の子カテゴリ103「要約」は、図14に示した例ではカテゴリ116の子カテゴリとなるため、その名称は図14に示したカテゴリ113に示すように、「要約」から「WWW」へと変更される。このように本発明の実施形態における文書分類装置によれば、ユーザによるカテゴリの移動操作に従い、カテゴリの名称の変更と、文書および下位カテゴリの再分類が自動的に行われる。
その結果、ユーザは、自分の意図に合ったカテゴリの階層構造をカテゴリの移動という簡単な操作によって効率よく作成することができる。
In particular, since the child category 103 “summary” of the category 102 is a child category of the category 116 in the example shown in FIG. 14, the name is changed from “summary” as shown in the category 113 shown in FIG. It is changed to “WWW”. As described above, according to the document classification apparatus of the embodiment of the present invention, the category name is changed and the document and the lower category are reclassified automatically according to the category moving operation by the user.
As a result, the user can efficiently create a hierarchical structure of categories that suits his intentions by a simple operation of moving categories.

以下、移動カテゴリ再分類部42によるステップS6の処理の詳細について説明する。図15は、本発明の実施形態における文書分類装置によるカテゴリの移動に従い文書および下位カテゴリを再分類する処理動作の一例を示すフローチャートである。   Hereinafter, details of the process of step S6 by the movement category reclassification unit 42 will be described. FIG. 15 is a flowchart showing an example of a processing operation for reclassifying a document and a lower category according to the movement of the category by the document classification device according to the embodiment of the present invention.

まず、移動カテゴリ再分類部42は、ユーザが入力装置5を用いてカテゴリcをカテゴリpの下からカテゴリqの下に移動した場合(ステップS71)、つまり移動操作の前ではカテゴリcの親カテゴリはカテゴリpであったが、カテゴリcを移動した後はカテゴリqがカテゴリcの親カテゴリとなった場合には、カテゴリcの単語ベクトルを再計算する(ステップS72)。   First, the moving category reclassifying unit 42 uses the input device 5 to move the category c from below the category p to below the category q (step S71), that is, before the moving operation, the parent category of the category c. Is category p, but after moving category c, if category q becomes the parent category of category c, the word vector of category c is recalculated (step S72).

移動前のカテゴリcの単語ベクトルは、カテゴリpにおけるカテゴリcの単語ベクトル(上記の記法ではvpc)であったが、移動後にはカテゴリqにおけるカテゴリcの単語ベクトル(上記の記法ではvqc)となり、カテゴリpとカテゴリqがそれぞれ持つ文書の特徴の違いによって、カテゴリcの単語ベクトルの各単語の重みが変更される。ただし、ステップS72の処理は、カテゴリの単語ベクトルを厳密に計算する必要がある場合に行う処理であり、この処理は省略してもよい。   The word vector of category c before moving was the word vector of category c in category p (vpc in the above notation), but after moving, it is the word vector of category c in category q (vqc in the above notation), The weight of each word in the word vector of category c is changed depending on the difference in the document characteristics of category p and category q. However, the processing in step S72 is processing performed when it is necessary to strictly calculate the word vector of the category, and this processing may be omitted.

次に、移動カテゴリ再分類部42は、移動前にカテゴリcが持っていなかった文書のうち、移動後のカテゴリcが持つほうが適切であるような文書を求めて、これを当該カテゴリcに移動する処理を行う(ステップS73,S74,S75)。   Next, the movement category reclassification unit 42 obtains a document that is more appropriate for the category c after the movement from the documents that the category c does not have before the movement, and moves the document to the category c. (Steps S73, S74, S75).

移動カテゴリ再分類部42は、ステップS73の処理として、カテゴリpの各子カテゴリcpが持つ文書のうち、カテゴリcpよりもカテゴリcに類似した文書があれば、これを当該カテゴリcに移動する。
図11で説明した例では、カテゴリcpはカテゴリ84であり、その文書(c)が図12に示したカテゴリ92に移動する。ここで、文書とカテゴリとの類似度は、両者の単語ベクトルの類似度(図8で説明したように、主に余弦)によって求める。
As a process of step S73, the movement category reclassification unit 42 moves a document similar to the category c to the category c if there is a document similar to the category c than the category cp among the documents of each child category cp of the category p.
In the example described in FIG. 11, the category cp is the category 84, and the document (c) moves to the category 92 shown in FIG. Here, the degree of similarity between the document and the category is obtained from the degree of similarity between the two word vectors (mainly cosine as explained in FIG. 8).

移動カテゴリ再分類部42は、ステップS74の処理として、カテゴリqが持つ文書のうち、カテゴリqよりもカテゴリcに類似した文書があれば、これを当該カテゴリcに移動する(図11の例ではカテゴリ85の文書(d))。   As a process of step S74, the moving category reclassifying unit 42 moves a document similar to the category c to the category c if there is a document similar to the category c than the category q (in the example of FIG. 11). Category 85 document (d)).

移動カテゴリ再分類部42は、ステップS75の処理として、カテゴリqの各子カテゴリcqが持つ文書のうち、カテゴリcqよりもカテゴリcに類似した文書があれば、これを当該カテゴリcに移動する(図11の例ではカテゴリ86の文書(e))。   As a process of step S75, the movement category reclassification unit 42 moves a document similar to the category c to the category c if there is a document similar to the category c than the category cq among the documents of each child category cq of the category q ( In the example of FIG. 11, the document (e) in category 86).

次に、移動カテゴリ再分類部42は、移動前にカテゴリcが持っていなかった子カテゴリのうち、移動後のカテゴリcが持つほうが適切であるようなカテゴリを求めて、これをカテゴリcに移動してカテゴリcの子カテゴリとする処理を行う(ステップS76,S77,S78)。   Next, the movement category reclassification unit 42 obtains a category that is more appropriate for the category c after the movement from the child categories that the category c did not have before the movement, and moves the category to the category c. Then, a process for making it a child category of category c is performed (steps S76, S77, S78).

移動カテゴリ再分類部42は、ステップS76の処理として、カテゴリpの各子カテゴリcpが持つ子カテゴリのうち、カテゴリcpよりもカテゴリcに類似した子カテゴリがあれば、当該子カテゴリを当該カテゴリcに移動する。ここで、カテゴリ同士の類似度は両カテゴリの単語ベクトルの類似度(主に余弦)によって求める。図11と図12に示した例では、カテゴリ83がカテゴリ92の子カテゴリ93になる。   In step S76, the moving category reclassifying unit 42 determines that if there is a child category that is similar to the category c than the category cp among the child categories of each child category cp of the category p, the moving category reclassification unit 42 selects the child category. Move to. Here, the similarity between categories is obtained from the similarity (mainly cosine) of the word vectors of both categories. In the example shown in FIGS. 11 and 12, the category 83 becomes a child category 93 of the category 92.

移動カテゴリ再分類部42は、ステップS77の処理として、カテゴリqが持つ子カテゴリのうち、カテゴリqよりもカテゴリcに類似した子カテゴリがあれば、これを当該カテゴリcに移動し、ステップS78の処理として、カテゴリqの各子カテゴリcqが持つ子カテゴリのうち、カテゴリcqよりもカテゴリcに類似した子カテゴリがあれば、やはり当該子カテゴリをカテゴリcに移動する。   The moving category reclassification unit 42 moves the category q if there is a child category that is more similar to the category c than the category q among the child categories that the category q has, and moves the category to the category c. As a process, if there is a child category that is more similar to the category c than the category cq among the child categories of each child category cq of the category q, the child category is also moved to the category c.

次に、移動カテゴリ再分類部42は、カテゴリcが移動前に持っていた文書のうち、別のカテゴリに分類したほうが適切な文書があれば、これをカテゴリcから別のカテゴリに移動するという処理を行う(ステップS79,S80,S81,S82)。   Next, if there is a document that is more appropriate to be classified into another category among the documents that the category c had before the movement, the movement category reclassification unit 42 moves the document from the category c to another category. Processing is performed (steps S79, S80, S81, S82).

移動カテゴリ再分類部42は、ステップS79の処理として、カテゴリcが持つ文書のうち、カテゴリcよりもカテゴリpに類似した文書があれば、これを当該カテゴリpに移動する。図13に示した例では、移動対象のカテゴリ102が持つ文書(d)が、移動後の図14では親カテゴリであるカテゴリ111に移動される。   The movement category reclassification unit 42 moves the category c if there is a document similar to the category p rather than the category c among the documents of the category c as a process of step S79. In the example shown in FIG. 13, the document (d) of the category 102 to be moved is moved to the category 111, which is the parent category in FIG.

移動カテゴリ再分類部42は、ステップS80の処理として、カテゴリcが持つ文書のうち、カテゴリcよりもカテゴリpのいずれかの子カテゴリcpに類似した文書があれば、この文書を当該カテゴリcpに移動する。図13の例では文書(e)が、カテゴリ102からカテゴリ105(図14ではカテゴリ115)に移動する。   If there is a document similar to any child category cp of category p rather than category c among the documents of category c as the process of step S80, the movement category reclassification unit 42 moves this document to the category cp. . In the example of FIG. 13, the document (e) moves from the category 102 to the category 105 (category 115 in FIG. 14).

移動カテゴリ再分類部42は、ステップS81の処理として、カテゴリcが持つ文書のうちカテゴリcよりもカテゴリqに類似した文書があれば、これを当該カテゴリqに移動し、ステップS82の処理として、カテゴリcが持つ文書のうち、カテゴリcよりもカテゴリqのいずれかの子カテゴリcqに類似した文書があれば、これを当該カテゴリcqに移動する。   The movement category reclassification unit 42 moves the category c if there is a document that is more similar to the category q than the category c among the documents of the category c as the process of step S81, and as the process of step S82, If there is a document that is more similar to any child category cq of category q than category c among the documents that category c has, it is moved to category cq.

次に、移動カテゴリ再分類部42は、カテゴリcが移動前に持っていた子カテゴリのうち、別のカテゴリに分類したほうが適切な子カテゴリがあれば、これをカテゴリcから別のカテゴリに移動するという処理を行う(ステップS83,S84,S85,S86)。   Next, if there is a child category that is more appropriate to be classified into another category among the child categories that the category c had before the movement, the movement category reclassifying unit 42 moves the category from the category c to another category. Is performed (steps S83, S84, S85, S86).

移動カテゴリ再分類部42は、ステップS83の処理として、カテゴリcが持つカテゴリのうち、カテゴリcよりもカテゴリpに類似した子カテゴリがあれば、これを当該カテゴリpに移動してカテゴリpの子カテゴリとする。図13に示した例では、移動対象のカテゴリ102が持つ子カテゴリのうち、カテゴリ104を、親カテゴリである101の下に移動する(図14ではカテゴリ114)。   As a process of step S83, the moving category reclassifying unit 42 moves the category c if there is a child category that is more similar to the category p than the category c and moves it to the category p. Category. In the example shown in FIG. 13, among the child categories of the category 102 to be moved, the category 104 is moved below the parent category 101 (category 114 in FIG. 14).

移動カテゴリ再分類部42は、ステップS84の処理として、カテゴリcが持つ子カテゴリのうち、カテゴリcよりもカテゴリpのいずれかの子カテゴリcpに類似した子カテゴリがあれば、これを当該カテゴリcpに移動する。図13の例では、カテゴリ103がカテゴリ106の子カテゴリ(図14ではカテゴリ113)になり、その名称も「要約」から「WWW」に変更される。   If there is a child category that is similar to any child category cp of category p rather than category c among the child categories of category c, the moving category reclassification unit 42 moves this to category cp as the process of step S84. To do. In the example of FIG. 13, the category 103 becomes a child category of the category 106 (category 113 in FIG. 14), and its name is also changed from “summary” to “WWW”.

移動カテゴリ再分類部42は、ステップS85の処理として、カテゴリcが持つ子カテゴリのうち、カテゴリcよりもカテゴリqに類似した子カテゴリがあれば、これを当該カテゴリqに移動し、ステップS86の処理として、カテゴリcが持つ子カテゴリのうち、カテゴリcよりもカテゴリqのいずれかの子カテゴリcqに類似した子カテゴリがあれば、これを当該カテゴリcqに移動する。ステップS86の処理が終了するとステップS6の処理が終了する。   The moving category reclassification unit 42 moves the category c if there is a child category that is more similar to the category q than the category c among the child categories of the category c as a process of step S85. As a process, if there is a child category that is more similar to any child category cq of category q than category c among child categories of category c, it is moved to category cq. When the process of step S86 ends, the process of step S6 ends.

なお、ステップS73からステップS76の処理では、カテゴリcの文書や子カテゴリの移動が行われるため、厳密にはカテゴリcの単語ベクトルを文書や子カテゴリの移動の都度、再計算する必要がある。
この場合、移動させる文書や子カテゴリの順序によって、再分類の結果が変わる可能性があるので、例えばステップS73からステップS78の処理では、カテゴリcに最も類似した文書あるいは子カテゴリから優先的に移動させるようにしてもよい。
In the processing from step S73 to step S76, since the category c document and child category are moved, strictly speaking, it is necessary to recalculate the word vector of category c every time the document or child category is moved.
In this case, since the result of reclassification may change depending on the order of the document to be moved and the child category, for example, in the processing from step S73 to step S78, the document or child category most similar to category c is preferentially moved. You may make it make it.

同様にステップS79からステップS86の処理では、カテゴリcとの類似度が小さい文書あるいは子カテゴリから優先的に移動させるようにしてもよい。しかしながら、分類処理の厳密さがあまり問われない場合には、単語ベクトルの再計算処理を省略することで、処理効率を向上させてもよい。   Similarly, in the processing from step S79 to step S86, it may be preferentially moved from a document or child category having a low similarity to category c. However, if the strictness of the classification process is not particularly questioned, the processing efficiency may be improved by omitting the word vector recalculation process.

ステップS6の処理後、移動カテゴリ名変更部43は、移動したカテゴリの名称変更処理を行なう(ステップS7)。
ステップS7の処理の詳細について説明する。図16は、本発明の実施形態における文書分類装置によるカテゴリの移動に従いカテゴリの名称を変更する処理動作の一例を示すフローチャートである。図15で説明したように、カテゴリの移動に応じて再分類の処理が行われるので、当該カテゴリの単語ベクトルの内容も変化する。
After the process of step S6, the moving category name changing unit 43 performs a name changing process for the moved category (step S7).
Details of the processing in step S7 will be described. FIG. 16 is a flowchart showing an example of a processing operation for changing the category name in accordance with the movement of the category by the document classification device according to the embodiment of the present invention. As described with reference to FIG. 15, since the reclassification process is performed according to the movement of the category, the content of the word vector of the category also changes.

移動カテゴリ名変更部43は、ユーザが入力装置5を用いてカテゴリcをカテゴリpの下からカテゴリqの下に移動させた場合(ステップS91)、カテゴリcの名称が新しい親カテゴリqまたはその祖先、すなわちカテゴリqの直接または間接的に上位にあるカテゴリの名称と重複するかどうか調べる(ステップS92)。   When the user moves the category c from below the category p to below the category q using the input device 5 (step S91), the movement category name changing unit 43 has a new parent category q or its ancestor whose name is the category c. That is, it is checked whether or not it overlaps with the name of the category directly above or indirectly above the category q (step S92).

移動カテゴリ名変更部43は、重複があれば(ステップS92のYES)、カテゴリcの特徴語のうち、カテゴリqとその祖先の名称を除いた最も特徴的な語をカテゴリcの名称とする(ステップS93)。   If there is an overlap (YES in step S92), the movement category name changing unit 43 sets the most characteristic word of the category c characteristic words excluding the category q and the name of its ancestor as the name of the category c ( Step S93).

移動カテゴリ名変更部43は、前述した重複がなければ(ステップS92のNO)、カテゴリcの名称は変更しない(ステップS94)。ただし上述のように、カテゴリcを移動することで当該カテゴリcの単語ベクトルが変化するため、カテゴリcの特徴語も変わる可能性がある。
したがって、祖先のカテゴリとの名称の重複が生じない場合であっても、カテゴリcの名称が当該カテゴリcの特徴をあまりよく表さない語になっている場合には、移動後の新しい特徴語を用いてカテゴリcの名称を変更してもよい。
The movement category name changing unit 43 does not change the name of the category c (step S94) if there is no duplication described above (NO in step S92). However, as described above, moving the category c changes the word vector of the category c, so the feature words of the category c may also change.
Therefore, even if the name does not overlap with the ancestor category, if the name of the category c is a word that does not represent the feature of the category c, the new feature word after the movement The name of category c may be changed using

図17は、本発明の実施形態における文書分類装置の操作画面の一例を示す図である。図17に示した画面は、カテゴリ編集部4がユーザからのカテゴリの編集操作を受け付ける一方で、当該カテゴリ編集部4が行った処理の結果をユーザに対して提示するグラフィカルユーザインタフェースの例を示す図である。   FIG. 17 is a diagram showing an example of an operation screen of the document classification device according to the embodiment of the present invention. The screen shown in FIG. 17 shows an example of a graphical user interface in which the category editing unit 4 accepts a category editing operation from the user and presents the result of the processing performed by the category editing unit 4 to the user. FIG.

上記に説明したように、例えば図11に示したカテゴリ81を移動してカテゴリ83の下位カテゴリにするという操作は、図17においてはユーザが入力装置5を用いて、移動対象のカテゴリ141を選択し、移動先の上位カテゴリ142の上にドラッグアンドドロップすることにより行われる。   As described above, for example, in the operation of moving the category 81 shown in FIG. 11 to make it a lower category of the category 83, the user selects the category 141 to be moved using the input device 5 in FIG. This is done by dragging and dropping on the upper category 142 of the movement destination.

なお、図17に示した領域143は、ユーザが入力装置5を用いて選択したカテゴリ141が持つ文書の一覧を表しており、これらの文書のうちユーザが入力装置5を用いて選択した文書144の内容が画面中の領域145の部分に表示されるようになっている。   An area 143 illustrated in FIG. 17 represents a list of documents included in the category 141 selected by the user using the input device 5, and among these documents, the document 144 selected by the user using the input device 5. Is displayed in the area 145 in the screen.

以上に説明した、移動カテゴリ再分類部42による再分類の処理、および移動カテゴリ名変更部43による名称変更の処理は、ユーザのカテゴリ移動操作に応じて自動的に実行してもよいが、ユーザの明示的な指示があった場合にのみに再分類と名称変更の処理を行ってもよい。   The reclassification process by the movement category reclassification unit 42 and the name change process by the movement category name change unit 43 described above may be automatically executed according to the user category movement operation. The reclassification and name change processing may be performed only when there is an explicit instruction.

また、再分類または名称変更の処理結果をユーザに提示してその採否をユーザが判定し、採用する場合にのみ再分類または名称変更の結果をカテゴリ記憶部22に記憶し、採用しない場合には処理結果を破棄するようにしてもよい。   In addition, when the reclassification or name change processing result is presented to the user, the user determines whether or not to adopt the result, and the reclassification or name change result is stored in the category storage unit 22 only when it is adopted. The processing result may be discarded.

さらには、ユーザが入力装置5を用いて、あるカテゴリの移動を仮に試行してみて、再分類と名称変更の処理を行い、その結果を参照して、この移動操作が適切でないと判断すれば操作自体を取りやめるといった形態も可能である。   Furthermore, if the user tries to move a certain category by using the input device 5 and performs reclassification and name change processing, referring to the result, it is determined that this moving operation is not appropriate. It is also possible to cancel the operation itself.

このような変更は、上記で説明した処理の流れに軽微な変更を加えることで容易に実現することができる。また、本実施形態で説明した文書分類のモデルは、1つの文書が1つのカテゴリにのみ属すモデルであるが、1つの文書が複数のカテゴリに属すことが可能なモデルに拡張することも容易に行える。   Such a change can be easily realized by making a minor change to the processing flow described above. The document classification model described in the present embodiment is a model in which one document belongs to only one category, but can easily be extended to a model in which one document can belong to a plurality of categories. Yes.

なお、この発明は前記実施形態そのままに限定されるものではなく実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を省略してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。   The present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. Various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. For example, some components may be omitted from all the components shown in the embodiment. Furthermore, you may combine suitably the component covering different embodiment.

本発明の実施形態における文書分類装置の構成例を表すブロック図。1 is a block diagram illustrating a configuration example of a document classification device according to an embodiment of the present invention. 本発明の実施形態における文書分類装置の文書記憶部に記憶される文書情報の一例を表形式で示す図。The figure which shows an example of the document information memorize | stored in the document memory | storage part of the document classification device in embodiment of this invention in a table format. 本発明の実施形態における文書分類装置のカテゴリ記憶部に記憶されるカテゴリ情報の一例を表形式で示す図。The figure which shows an example of the category information memorize | stored in the category memory | storage part of the document classification device in embodiment of this invention in a table format. 本発明の実施形態における文書分類装置の処理動作の一例を示すフローチャート。6 is a flowchart illustrating an example of processing operation of the document classification device according to the embodiment of the present invention. 本発明の実施形態における文書分類装置による文書の単語ベクトルを求める処理動作の一例を示すフローチャート。6 is a flowchart illustrating an example of a processing operation for obtaining a word vector of a document by the document classification device according to the embodiment of the present invention. 本発明の実施形態における文書分類装置によるカテゴリ内の文書の単語ベクトルを求める処理動作の一例を示すフローチャート。6 is a flowchart illustrating an example of a processing operation for obtaining a word vector of a document in a category by the document classification device according to the embodiment of the present invention. 本発明の実施形態における文書分類装置によるカテゴリの単語ベクトルを求める処理動作の一例を示すフローチャート。6 is a flowchart illustrating an example of a processing operation for obtaining a word vector of a category by the document classification device according to the embodiment of the present invention. 本発明の実施形態における文書分類装置による文書の分類処理の一例を示すフローチャート。6 is a flowchart illustrating an example of document classification processing by the document classification device according to the embodiment of the present invention. 本発明の実施形態における文書分類装置による移動すべきカテゴリの候補の提示画面の一例を示す図。The figure which shows an example of the presentation screen of the candidate of the category which should be moved by the document classification device in embodiment of this invention. 本発明の実施形態における文書分類装置による移動すべきカテゴリの候補を提示する処理動作の一例を示すフローチャート。6 is a flowchart illustrating an example of a processing operation for presenting a category candidate to be moved by the document classification device according to the embodiment of the present invention. 本発明の実施形態における文書分類装置によるカテゴリの第1の例の移動前の状態を示す図。The figure which shows the state before the movement of the 1st example of the category by the document classification device in embodiment of this invention. 本発明の実施形態における文書分類装置によるカテゴリの第1の例の移動後の状態を示す図。The figure which shows the state after the movement of the 1st example of the category by the document classification device in embodiment of this invention. 本発明の実施形態における文書分類装置によるカテゴリの第2の例の移動前の状態を示す図。The figure which shows the state before the movement of the 2nd example of the category by the document classification device in embodiment of this invention. 本発明の実施形態における文書分類装置によるカテゴリの第2の例の移動後の状態を示す図。The figure which shows the state after the movement of the 2nd example of the category by the document classification device in embodiment of this invention. 本発明の実施形態における文書分類装置によるカテゴリの移動に従い文書および下位カテゴリを再分類する処理動作の一例を示すフローチャート。6 is a flowchart illustrating an example of a processing operation for reclassifying a document and a lower category according to category movement by the document classification device according to the embodiment of the present invention. 本発明の実施形態における文書分類装置によるカテゴリの移動に従いカテゴリの名称を変更する処理動作の一例を示すフローチャート。6 is a flowchart illustrating an example of a processing operation for changing a category name in accordance with the movement of a category by the document classification device according to the embodiment of the present invention. 本発明の実施形態における文書分類装置の操作画面の一例を示す図。The figure which shows an example of the operation screen of the document classification device in embodiment of this invention.

符号の説明Explanation of symbols

1…制御部、2…記憶装置、3…文書分類部、4…カテゴリ編集部、5…入力装置、6…出力装置、7…バス、21…文書記憶部、22…カテゴリ記憶部、31…単語ベクトル生成部、32…分類・クラスタリング部、41…移動カテゴリ候補提示部、42…移動カテゴリ再分類部、43…移動カテゴリ名変更部。   DESCRIPTION OF SYMBOLS 1 ... Control part, 2 ... Storage device, 3 ... Document classification part, 4 ... Category edit part, 5 ... Input device, 6 ... Output device, 7 ... Bus, 21 ... Document storage part, 22 ... Category storage part, 31 ... Word vector generation unit, 32... Classification / clustering unit, 41... Moving category candidate presentation unit, 42... Moving category reclassification unit, 43.

Claims (4)

複数の文書を記憶する文書記憶手段と、
前記文書記憶手段に記憶された所定の文書集合を分類する文書分類手段と、
前記文書分類手段による分類結果である複数のカテゴリの情報を記憶するカテゴリ記憶手段と、
前記カテゴリ記憶手段に記憶されるカテゴリのうち指定されたカテゴリの移動先候補または前記指定されたカテゴリの下に移動するカテゴリの候補を提示する移動カテゴリ候補提示手段と、
前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリ以外のカテゴリに属する文書および当該カテゴリの少なくとも一方を適した分類形態となるように再分類する移動カテゴリ再分類手段と
を具備し、
前記移動カテゴリ再分類手段は、
前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリの移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、前記移動したカテゴリの移動先のカテゴリの上位カテゴリ、または前記移動先のカテゴリと共通の上位カテゴリを有する別カテゴリに各々属する文書のうち何れかの文書を当該移動したカテゴリに分類する
ことを特徴とする文書分類装置。
Document storage means for storing a plurality of documents;
Document classification means for classifying a predetermined document set stored in the document storage means;
Category storage means for storing information of a plurality of categories as classification results by the document classification means;
A moving category candidate presenting means for presenting a moving destination candidate of a designated category among categories stored in the category storing means or a candidate for a category moving under the designated category;
Moving category reclassifying means for reclassifying documents belonging to categories other than the moved category and at least one of the categories into a suitable classification form according to the movement of the category after the moving category candidate presenting means presents Equipped ,
The movement category reclassification means includes:
According to the movement of the category after the moving category candidate presenting means presents, another category having a higher category in common with the moving source category of the moved category, the higher category of the moving destination category of the moved category, or the moving A document classification apparatus for classifying any one of documents belonging to different categories having an upper category in common with the previous category into the moved category .
複数の文書を記憶する文書記憶手段と、
前記文書記憶手段に記憶された所定の文書集合を分類する文書分類手段と、
前記文書分類手段による分類結果である複数のカテゴリの情報を記憶するカテゴリ記憶手段と、
前記カテゴリ記憶手段に記憶されるカテゴリのうち指定されたカテゴリの移動先候補または前記指定されたカテゴリの下に移動するカテゴリの候補を提示する移動カテゴリ候補提示手段と、
前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリ以外のカテゴリに属する文書および当該カテゴリの少なくとも一方を適した分類形態となるように再分類する移動カテゴリ再分類手段と
を具備し、
前記移動カテゴリ再分類手段は、
前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、前記移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、前記移動先のカテゴリの上位カテゴリ、または前記移動先のカテゴリと共通の上位カテゴリを有する別カテゴリが各々有する下位カテゴリのうち何れかのカテゴリを前記移動したカテゴリの下位カテゴリとする
ことを特徴とする文書分類装置。
Document storage means for storing a plurality of documents;
Document classification means for classifying a predetermined document set stored in the document storage means;
Category storage means for storing information of a plurality of categories as classification results by the document classification means;
A moving category candidate presenting means for presenting a moving destination candidate of a designated category among categories stored in the category storing means or a candidate for a category moving under the designated category;
Moving category reclassification means for reclassifying at least one of a document belonging to a category other than the moved category and the category into a suitable classification form according to the movement of the category after presentation by the moving category candidate presentation means;
Comprising
The movement category reclassification means includes:
According to the movement of the category after presentation by the moving category candidate presenting means, another category having an upper category common to the moving source category, an upper category of the moving destination category, or an upper category common to the moving destination category A document classification device characterized in that any one of the lower categories of each of the different categories having a category is a lower category of the moved category.
複数の文書を記憶する文書記憶手段と、
前記文書記憶手段に記憶された所定の文書集合を分類する文書分類手段と、
前記文書分類手段による分類結果である複数のカテゴリの情報を記憶するカテゴリ記憶手段と、
前記カテゴリ記憶手段に記憶されるカテゴリのうち指定されたカテゴリの移動先候補または前記指定されたカテゴリの下に移動するカテゴリの候補を提示する移動カテゴリ候補提示手段と、
前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリ以外のカテゴリに属する文書および当該カテゴリの少なくとも一方を適した分類形態となるように再分類する移動カテゴリ再分類手段と
を具備し、
前記移動カテゴリ再分類手段は、
前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリに属する文書のうち何れかの文書を、前記移動元のカテゴリの上位カテゴリ、前記移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、前記移動先のカテゴリの上位カテゴリ、または前記移動先のカテゴリと共通の上位カテゴリを有する別カテゴリのいずれかのカテゴリに分類する
ことを特徴とする文書分類装置。
Document storage means for storing a plurality of documents;
Document classification means for classifying a predetermined document set stored in the document storage means;
Category storage means for storing information of a plurality of categories as classification results by the document classification means;
A moving category candidate presenting means for presenting a moving destination candidate of a designated category among categories stored in the category storing means or a candidate for a category moving under the designated category;
Moving category reclassification means for reclassifying at least one of a document belonging to a category other than the moved category and the category into a suitable classification form according to the movement of the category after presentation by the moving category candidate presentation means;
Comprising
The movement category reclassification means includes:
In accordance with the movement of the category after presentation by the moving category candidate presenting means, any one of the documents belonging to the moved category is selected as a higher category of the moving source category and a higher category common to the moving source category. A document classification apparatus that classifies the document into one of another category having another category having an upper category common to the destination category, an upper category of the destination category, or an upper category common to the destination category.
複数の文書を記憶する文書記憶手段と、
前記文書記憶手段に記憶された所定の文書集合を分類する文書分類手段と、
前記文書分類手段による分類結果である複数のカテゴリの情報を記憶するカテゴリ記憶手段と、
前記カテゴリ記憶手段に記憶されるカテゴリのうち指定されたカテゴリの移動先候補または前記指定されたカテゴリの下に移動するカテゴリの候補を提示する移動カテゴリ候補提示手段と、
前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリ以外のカテゴリに属する文書および当該カテゴリの少なくとも一方を適した分類形態となるように再分類する移動カテゴリ再分類手段と
を具備し、
前記移動カテゴリ再分類手段は、
前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリが有する下位カテゴリのうち何れかのカテゴリを、前記移動元のカテゴリの上位カテゴリ、前記移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、前記移動先のカテゴリの上位カテゴリ、または前記移動先のカテゴリと共通の上位カテゴリを有する別カテゴリのいずれかのカテゴリの下位カテゴリとする
ことを特徴とする文書分類装置。
Document storage means for storing a plurality of documents;
Document classification means for classifying a predetermined document set stored in the document storage means;
Category storage means for storing information of a plurality of categories as classification results by the document classification means;
A moving category candidate presenting means for presenting a moving destination candidate of a designated category among categories stored in the category storing means or a candidate for a category moving under the designated category;
Moving category reclassification means for reclassifying at least one of a document belonging to a category other than the moved category and the category into a suitable classification form according to the movement of the category after presentation by the moving category candidate presentation means;
Comprising
The movement category reclassification means includes:
In accordance with the movement of the category after presentation by the moving category candidate presenting means, any one of the lower categories of the moved category is classified into a higher category of the moving source category and a higher category common to the moving source category. The document classification apparatus is characterized in that it is set as a lower category of any one of another category having a category, an upper category of the destination category, or another category having an upper category in common with the destination category.
JP2008148389A 2008-06-05 2008-06-05 Document classification device Active JP5215046B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008148389A JP5215046B2 (en) 2008-06-05 2008-06-05 Document classification device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008148389A JP5215046B2 (en) 2008-06-05 2008-06-05 Document classification device

Publications (2)

Publication Number Publication Date
JP2009294938A JP2009294938A (en) 2009-12-17
JP5215046B2 true JP5215046B2 (en) 2013-06-19

Family

ID=41543067

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008148389A Active JP5215046B2 (en) 2008-06-05 2008-06-05 Document classification device

Country Status (1)

Country Link
JP (1) JP5215046B2 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5100777B2 (en) * 2010-03-19 2012-12-19 株式会社東芝 Document classification apparatus and program
JP5023176B2 (en) * 2010-03-19 2012-09-12 株式会社東芝 Feature word extraction apparatus and program
JP5060601B2 (en) * 2010-08-03 2012-10-31 株式会社東芝 Document analysis apparatus and program
JP5708278B2 (en) * 2011-06-08 2015-04-30 ソニー株式会社 Information processing apparatus and information processing method
US10248718B2 (en) 2015-07-04 2019-04-02 Accenture Global Solutions Limited Generating a domain ontology using word embeddings
JP6715758B2 (en) * 2016-12-26 2020-07-01 Kddi株式会社 Classifier generation device, classifier generation method, and computer program
CN108597519B (en) * 2018-04-04 2020-12-29 百度在线网络技术(北京)有限公司 Call bill classification method, device, server and storage medium

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137723A (en) * 1998-10-30 2000-05-16 Ricoh Co Ltd Device and method for classifying document and medium where document classifying program is recorded
JP4063489B2 (en) * 2000-10-05 2008-03-19 株式会社ジャストシステム Document classification apparatus, document classification method, and computer-readable recording medium storing a program for causing a computer to execute the method
JP2003196298A (en) * 2001-12-25 2003-07-11 Fujitsu Ltd Field system structure supporting device
JP4744787B2 (en) * 2002-05-08 2011-08-10 株式会社東芝 Information organization support method and program for it
JP4769005B2 (en) * 2005-03-31 2011-09-07 株式会社日立製作所 Information processing support system and information processing support program

Also Published As

Publication number Publication date
JP2009294938A (en) 2009-12-17

Similar Documents

Publication Publication Date Title
JP5160312B2 (en) Document classification device
Bazan et al. A new version of rough set exploration system
JP5215046B2 (en) Document classification device
JP3303926B2 (en) Structured document classification apparatus and method
JP3856969B2 (en) Object analysis design support method
EP1622044B1 (en) Selective multi level expansion of data base via pivot point data
Heer et al. Graphical histories for visualization: Supporting analysis, communication, and evaluation
US10360294B2 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
Edhlund Nvivo 9 essentials
CN100462961C (en) Method for organizing multi-file and equipment for displaying multi-file
JP5512489B2 (en) File management apparatus and file management method
US20060116994A1 (en) System and method for interactive multi-dimensional visual representation of information content and properties
US7149967B2 (en) Method and system for creating a table version of a document
US20110289448A1 (en) Folder management device, folder management method, and folder management program
JP2007072528A (en) Method, program and device for analyzing document structure
JP6008693B2 (en) Information processing apparatus, control method therefor, and program
KR20120099578A (en) Reconstruction of lists in a document
Bazan et al. On the evolution of rough set exploration system
JP7281905B2 (en) Document evaluation device, document evaluation method and program
JP6173848B2 (en) Document classification device
JP4745419B2 (en) Document classification apparatus and program
JP4017354B2 (en) Information classification apparatus and information classification program
JP4745424B2 (en) Document classification apparatus and document classification program
US20230267271A1 (en) Auto conversion system and method of manuscript format
JPH0869473A (en) Document management device and data processor with document management function

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110223

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130228

R150 Certificate of patent or registration of utility model

Ref document number: 5215046

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160308

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350