JP2002007433A - Information sorter, information sorting method, computer readable recording medium recorded with information sorting program and information sorting program - Google Patents

Information sorter, information sorting method, computer readable recording medium recorded with information sorting program and information sorting program

Info

Publication number
JP2002007433A
JP2002007433A JP2001111942A JP2001111942A JP2002007433A JP 2002007433 A JP2002007433 A JP 2002007433A JP 2001111942 A JP2001111942 A JP 2001111942A JP 2001111942 A JP2001111942 A JP 2001111942A JP 2002007433 A JP2002007433 A JP 2002007433A
Authority
JP
Japan
Prior art keywords
classification
information
unit
feature element
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001111942A
Other languages
Japanese (ja)
Other versions
JP4017354B2 (en
Inventor
Yoshinori Katayama
佳則 片山
Kanji Uchino
寛治 内野
Norihiko Sakamoto
憲彦 坂本
Tatsu Shibata
竜 柴田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001111942A priority Critical patent/JP4017354B2/en
Publication of JP2002007433A publication Critical patent/JP2002007433A/en
Application granted granted Critical
Publication of JP4017354B2 publication Critical patent/JP4017354B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To enhance sorting precision regardlessly of the contents and quantity of the information on an object to be sorted. SOLUTION: This information sorter is provided with a feature element extracting part 40 to extract feature elements for every sorting category from each of plural sample texts to be included in sorting sample data 30 in which a group 10 of sample texts is preliminarily associated with plural sorting categories, a sorting method deciding part 50 to decide a sorting method with the highest sorting precision from plural sorting methods based on the sorting sample data 30, a sort learning information generating part 60 to generate sorting learning information 70 showing features for every sorting category based o the feature elements extracted by the feature element extracting part 40 according to the sorting method decided by the sorting method deciding part 50, and an automatic sorting part 90 to sort a group 80 of new texts being the object to be sorted for every sorting category according to the sorting method decided by the sorting method deciding part 50 and the sorting learning information 70.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、大量のテキスト情
報等の分類に用いられる情報分類装置、情報分類方法お
よび情報分類プログラムを記録したコンピュータ読み取
り可能な記録媒体、並びに情報分類プログラムに関する
ものであり、特に、複数の分類方法から最も分類精度が
高い分類方法を選択することで、分類精度、効率を高め
ることができる情報分類装置、情報分類方法および情報
分類プログラムを記録したコンピュータ読み取り可能な
記録媒体、並びに情報分類プログラムに関するものであ
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an information classification apparatus, an information classification method, a computer-readable recording medium on which an information classification program is recorded, and an information classification program used for classifying a large amount of text information and the like. In particular, an information classification device, an information classification method, and a computer-readable recording medium that records an information classification program that can increase the classification accuracy and efficiency by selecting a classification method with the highest classification accuracy from a plurality of classification methods , And an information classification program.

【0002】近時、インターネットを用いることで、莫
大な量のテキスト情報を簡単に入手することが可能であ
る。このことから、これらの大量のテキスト情報の内容
を把握し、その中から必要なテキスト情報を効率よく抽
出する技術が求められている。これは、決められた分類
カテゴリに、これらのテキスト情報が分類されている
と、後にテキスト情報を活用する際の検索や、関連テキ
スト情報を見つける場合等に便利だからである。
2. Description of the Related Art Recently, a huge amount of text information can be easily obtained by using the Internet. For this reason, there is a need for a technology that grasps the contents of a large amount of text information and efficiently extracts necessary text information from the content. This is because if these text information is classified into a predetermined classification category, it is convenient for a search when utilizing the text information later, or when finding related text information.

【0003】従来では、このような大量のテキスト情報
は、分類担当者や、テキスト情報の作成者またはテキス
ト情報の活用者により、新規のテキスト情報の内容が判
断され、複数の分類カテゴリからなる分類体系の中の最
適な分類カテゴリにそれぞれ手動で分類されていた。ま
た、別の分類方法としては、計算機システムを利用して
新規のテキスト情報の内容が解析され、この解析結果に
基づいて分類カテゴリに該当するテキスト情報を自動で
分類するものがある。前者の分類方法では、非常に高い
コストがかかり、後者の分類方法では、実用的な結果を
得るための分類カテゴリの数や分類精度に問題がある。
このことから、従来よりこのような問題を効果的に解決
するための手段、方法が切望されている。
Conventionally, such a large amount of text information is classified by a person in charge of classification, a creator of the text information or a user of the text information to determine the contents of the new text information, and the classification is made up of a plurality of classification categories. Each was manually classified into the best classification category in the system. As another classification method, there is a method in which the content of new text information is analyzed using a computer system, and text information corresponding to a classification category is automatically classified based on the analysis result. The former classification method has a very high cost, and the latter classification method has problems in the number of classification categories and the classification accuracy for obtaining practical results.
For this reason, means and methods for effectively solving such problems have long been desired.

【0004】[0004]

【従来の技術】電子化された大量のテキスト情報が流通
するようになった現在では、テキスト情報の効率的検索
/利用の観点から、テキスト情報の意味内容に基づいた
分類が重要な課題となっている。従来より、かかる課題
を解決するための手段として、テキスト情報の分類作業
を自動で実行する情報分類装置が各方面で用いられてい
る。
2. Description of the Related Art At present, when a large amount of digitized text information has been distributed, classification based on the semantic content of text information has become an important issue from the viewpoint of efficient search / use of text information. ing. 2. Description of the Related Art Conventionally, as a means for solving such a problem, an information classification device that automatically executes a text information classification operation has been used in various fields.

【0005】また、従来では、与えられたテキスト情報
の分類事例に基づいてテキスト情報の分類方法を導出し
た後、この分類方法に基づいて新規のテキスト情報を分
類する方法として、特開平11−328211号公報、
特開平11−296552号公報、特開平11−167
581号公報、特開平11−161671号公報等に様
々な分類方法が開示されている。ここで、つぎの(1)
項〜(3)項に従来の分類方法を列挙する。 (1)確率モデルを基にした統計的な分類方法 (2)学習により自動分類を行う分類方法 (3)それぞれの分類カテゴリにテキスト情報を分類す
るためのルールを作成し、このルールを用いて自動分類
を行う分類方法
Conventionally, a method for deriving a text information classification method based on a given text information classification example and then classifying new text information based on this classification method is disclosed in Japanese Patent Application Laid-Open No. H11-32821. No.
JP-A-11-296552, JP-A-11-167
Various classification methods are disclosed in, for example, Japanese Patent Application Laid-Open No. 581 and Japanese Patent Application Laid-Open No. 11-161671. Here, the following (1)
Items to (3) list conventional classification methods. (1) Statistical classification method based on stochastic model (2) Classification method that performs automatic classification by learning (3) Create rules for classifying text information into each classification category, and use this rule Classification method for automatic classification

【0006】(1)項の分類方法は、一般的な分類の傾
向を見つけだすことができるが、細かい分類の傾向を見
つけだすことができない。(2)項の分類方法は、分類
カテゴリ数が数十未満の場合に高い分類精度を得ること
ができるが、数十以上に増えた場合、分類精度が低くな
る。また、(3)項の分類方法は、ルールの作成および
メンテナンスに多大なコストがかかる。このように、
(1)項〜(3)項までの分類方法は、それぞれ一長一
短がある。
[0006] In the classification method of the item (1), general classification tendency can be found, but fine classification tendency cannot be found. According to the classification method of item (2), high classification accuracy can be obtained when the number of classification categories is less than several tens, but when the number of classification categories increases to several tens or more, the classification accuracy decreases. In addition, the classification method of the item (3) requires a great deal of cost for creating and maintaining rules. in this way,
The classification methods of items (1) to (3) each have advantages and disadvantages.

【0007】図18は、従来の情報分類装置の構成を示
すブロック図である。この図において、分類サンプルデ
ータ2は、どの分類カテゴリにどのテキストを分類する
のかが予め決められた複数のテキストからなる分類に関
する正解データである。特徴素抽出部1は、分類サンプ
ルデータ2から、各分類カテゴリの特徴をそれぞれ表す
特徴素(単語)を各テキストから抽出する。
FIG. 18 is a block diagram showing a configuration of a conventional information classification device. In this figure, classification sample data 2 is correct data relating to a classification composed of a plurality of texts in which which text is to be classified into which classification category. The feature element extraction unit 1 extracts, from each text, feature elements (words) representing the features of each classification category from the classification sample data 2.

【0008】ここで、特徴素の抽出においては、各分類
カテゴリの弁別能力を高めることができる特徴素を効率
的に抽出する必要がある。従って、特徴素抽出部1で
は、特徴素の出現頻度をベースにして、上記弁別能力を
高めるための特徴素抽出方法が用いられる。この特徴素
抽出方法としては、従来より複数のものが提案されてい
る。また、特徴素の属性についても品詞を幾つか指定す
る等の方法が採られる。
Here, in extracting feature elements, it is necessary to efficiently extract feature elements that can enhance the discrimination ability of each classification category. Therefore, the feature element extraction unit 1 uses the feature element extraction method for enhancing the discrimination ability based on the appearance frequency of the feature element. A plurality of feature element extraction methods have been conventionally proposed. In addition, a method of designating some parts of speech for the attribute of the feature element is also employed.

【0009】分類学習情報生成部3は、特徴素抽出部1
により抽出された特徴素から各分類カテゴリの特徴をそ
れぞれ算出し、この算出結果としての分類学習情報4を
生成する。この分類学習情報生成部3における分類学習
方法としては、従来より複数のものが提案されている。
分類学習情報4は、特徴素の状況と分類カテゴリとの対
応関係を表す情報である。自動分類部5は、予め固定的
に設定された一つの分類方法により、分類対象である、
複数のテキストからなる新規テキスト群6を分類学習情
報4に基づいて、分類カテゴリに分類し、分類結果デー
タ7を出力する。
The classification learning information generation unit 3 includes a feature element extraction unit 1
The feature of each classification category is calculated from the feature element extracted by the above, and the classification learning information 4 as the calculation result is generated. As the classification learning method in the classification learning information generation unit 3, a plurality of methods have been conventionally proposed.
The classification learning information 4 is information indicating the correspondence between the state of the feature element and the classification category. The automatic classification unit 5 is a classification target according to one classification method fixedly set in advance.
The new text group 6 including a plurality of texts is classified into classification categories based on the classification learning information 4, and the classification result data 7 is output.

【0010】[0010]

【発明が解決しようとする課題】ところで、前述したよ
うに、従来の情報分類装置(図18参照)においては、
特徴素抽出部1の特徴素抽出方法として複数のものがあ
る旨を述べたが、分類対象となる新規テキスト群6の内
容、量に依存して、分類結果データ7における分類精度
が変動することから、あらゆる内容、量の新規テキスト
群6に対して高い分類精度を維持する万能な抽出方法を
一意に規定することが難しい。
By the way, as described above, in the conventional information classification device (see FIG. 18),
Although it has been described that there are a plurality of feature element extraction methods of the feature element extraction unit 1, the classification accuracy in the classification result data 7 varies depending on the content and amount of the new text group 6 to be classified. Therefore, it is difficult to uniquely define a universal extraction method that maintains high classification accuracy for the new text group 6 having any content and amount.

【0011】同様にして、分類学習情報生成部3におい
ても、分類学習方法として複数のものがある旨を述べた
が、新規テキスト群6の内容、量に依存して分類結果デ
ータ7における分類精度が変動することから、高い分類
精度を維持する万能な分類学習方法を一意に規定するこ
とが難しい。このことから、従来の情報分類装置では、
やむを得ず、複数の分類方法(特徴素抽出方法、分類学
習方法)のうち一つの分類方法が固定的に用いられてい
る。
Similarly, the classification learning information generating unit 3 has described that there are a plurality of classification learning methods. However, the classification accuracy in the classification result data 7 depends on the content and amount of the new text group 6. Fluctuates, it is difficult to uniquely define a universal classification learning method that maintains high classification accuracy. From this, in the conventional information classification device,
Inevitably, one of a plurality of classification methods (feature element extraction method, classification learning method) is fixedly used.

【0012】従って、従来の情報分類装置では、一つの
固定的な分類方法により新規テキスト群6の分類を行っ
ているため、新規テキスト群6の内容、量によって分類
精度がバラツキ、結果的に分類精度が低くなってしまう
という問題があった。
Therefore, in the conventional information classifying apparatus, the classification of the new text group 6 is performed by one fixed classification method. Therefore, the classification accuracy varies depending on the content and the amount of the new text group 6, and as a result, the classification is performed. There has been a problem that accuracy is reduced.

【0013】本発明は、上記に鑑みてなされたもので、
分類対象の情報の内容、量にかかわらず、分類精度を高
めることができる情報分類装置、情報分類方法および情
報分類プログラムを記録したコンピュータ読み取り可能
な記録媒体、並びに情報分類プログラムを提供すること
を目的とする。
The present invention has been made in view of the above,
An object of the present invention is to provide an information classification device, an information classification method, a computer-readable recording medium on which an information classification program is recorded, and an information classification program capable of improving the classification accuracy regardless of the content and amount of information to be classified. And

【0014】[0014]

【課題を解決するための手段】上記目的を達成するため
に、請求項1にかかる発明は、複数のサンプルテキスト
と複数の分類カテゴリとが予め対応付けられた分類サン
プル情報に含まれる複数のサンプルテキストのそれぞれ
から分類カテゴリ毎に特徴素を抽出する特徴素抽出手段
と、前記分類サンプル情報に基づいて、複数の分類方法
の中から最も分類精度が高い分類方法を決定する分類方
法決定手段と、前記分類方法決定手段により決定された
分類方法に従って、前記特徴素抽出手段により抽出され
た特徴素に基づいて、分類カテゴリ毎の特徴を表す分類
学習情報を生成する分類学習情報生成手段と、前記分類
方法決定手段により決定された分類方法および前記分類
学習情報に従って、分類対象である新規テキスト群を分
類カテゴリ毎に分類する分類手段とを備えることを特徴
とする。
To achieve the above object, according to the present invention, a plurality of sample texts included in classification sample information in which a plurality of sample texts and a plurality of classification categories are associated in advance. A feature element extraction unit that extracts a feature element for each classification category from each of the texts; a classification method determination unit that determines a classification method with the highest classification accuracy from among a plurality of classification methods based on the classification sample information; A classification learning information generation unit configured to generate classification learning information representing a feature for each classification category based on the feature element extracted by the feature element extraction unit in accordance with the classification method determined by the classification method determination unit; According to the classification method determined by the method determination means and the classification learning information, a new text group to be classified is divided for each classification category. Characterized in that it comprises a classifying means for.

【0015】この発明によれば、複数の分類方法を使用
可能な状態にしておき、分類方法決定手段により、分類
サンプル情報に基づいて複数の分類方法の中から最も分
類精度が高い分類方法を決定した後、この分類方法に従
って新規テキスト群を分類カテゴリ毎に分類するように
したので、従来に比して、分類対象の情報の内容、量に
かかわらず、分類精度を高めることができる。
According to the present invention, a plurality of classification methods are made usable, and the classification method determining means determines a classification method having the highest classification accuracy from the plurality of classification methods based on the classification sample information. After that, the new text group is classified for each classification category according to this classification method, so that the classification accuracy can be improved as compared with the related art regardless of the content and amount of the information to be classified.

【0016】また、請求項2にかかる発明は、請求項1
に記載の情報分類装置において、前記特徴素抽出手段
は、複数の特徴素抽出方法により特徴素をそれぞれ抽出
し、これらの抽出結果に基づいて、複数の特徴素抽出方
法の中から分類カテゴリ間の弁別能力が高い特徴素抽出
方法を選択し、この選択結果に対応する特徴素を抽出結
果とすることを特徴とする。
According to a second aspect of the present invention, there is provided the first aspect of the present invention.
In the information classification device described in the above, the feature element extracting means extracts each of the feature elements by a plurality of feature element extraction methods, and based on these extraction results, among the plurality of feature element extraction methods, includes A feature element extraction method having high discrimination ability is selected, and a feature element corresponding to the selection result is set as an extraction result.

【0017】この発明によれば、特徴素抽出手段で複数
の特徴素抽出方法を使用可能な状態にしておき、これら
の複数の特徴素抽出方法にそれぞれ対応する特徴素を抽
出し、特に、分類カテゴリ間の弁別能力が高い特徴素抽
出方法に対応する特徴素を抽出結果とするようにしたの
で、この特徴素に対応する分類結果の分類精度をさらに
高めることができる。
According to the present invention, a plurality of feature element extraction methods can be used by the feature element extraction means, and feature elements respectively corresponding to the plurality of feature element extraction methods are extracted. Since the feature element corresponding to the feature element extraction method having a high ability to discriminate between categories is used as the extraction result, the classification accuracy of the classification result corresponding to this feature element can be further improved.

【0018】また、請求項3にかかる発明は、請求項1
に記載の情報分類装置において、前記特徴素抽出手段に
より抽出された特徴素を編集する編集手段を備えること
を特徴とする。
The invention according to claim 3 is based on claim 1.
The information classification device described in (1), further comprising an editing unit that edits the feature element extracted by the feature element extraction unit.

【0019】この発明によれば、編集手段を設けて、抽
出された特徴素を編集(削除、追加等)可能としたの
で、分類カテゴリに対して柔軟な特徴素設定を行うこと
ができる。
According to the present invention, the editing means is provided so that the extracted feature element can be edited (deleted, added, etc.), so that flexible feature element setting can be performed for the classification category.

【0020】また、請求項4にかかる発明は、請求項1
〜3のいずれか一つに記載の情報分類装置において、前
記分類方法決定手段は、クロスバリデーション方式によ
り、複数の分類方法の中から最も分類精度が高い分類方
法を決定することを特徴とする。
The invention according to claim 4 is based on claim 1.
In the information classification device according to any one of the items (1) to (3), the classification method determination unit determines a classification method with the highest classification accuracy from a plurality of classification methods by a cross validation method.

【0021】この発明によれば、複数の分類方法を使用
可能な状態にしておき、分類方法決定手段により、分類
サンプル情報に基づいて複数の分類方法の中から最も分
類精度が高い分類方法をクロスバリデーション方式によ
り決定した後、この分類方法に従って新規テキスト群を
分類カテゴリ毎に分類するようにしたので、従来に比し
て、分類対象の情報の内容、量にかかわらず、分類精度
を高めることができる。
According to the present invention, a plurality of classification methods are made available, and the classification method having the highest classification accuracy is selected from the plurality of classification methods based on the classification sample information by the classification method determination means. After determining by the validation method, the new text group is classified according to the classification category according to this classification method, so that the classification accuracy can be improved as compared with the past, regardless of the content and amount of classification target information. it can.

【0022】また、請求項5にかかる発明は、請求項1
〜4のいずれか一つに記載の情報分類装置において、前
記サンプル情報、前記新規テキスト群における分類対象
箇所を指定する指定手段を備えることを特徴とする。
Further, the invention according to claim 5 is based on claim 1.
5. The information classification device according to any one of items 4 to 4, further comprising a specification unit that specifies a classification target portion in the sample information and the new text group.

【0023】この発明によれば、指定手段により、分類
サンプル情報、新規テキスト群における分類対象箇所を
指定するようにしたので、分類に不要な箇所を排除し、
本質的に必要な箇所を対象に分類を行うことができるた
め、分類精度をさらに向上させることができる。
According to the present invention, the classifying sample information and the classification target portion in the new text group are designated by the designation means.
Since the classification can be performed on essentially necessary parts, the classification accuracy can be further improved.

【0024】また、請求項6にかかる発明は、請求項1
〜5のいずれか一つに記載の情報分類装置において、複
数のサンプルテキストをクラスタリングすることで、前
記複数のサンプルテキストと複数の分類カテゴリとが対
応付けられた前記分類サンプル情報を生成するクラスタ
リング手段を備えることを特徴とする。
The invention according to claim 6 is the invention according to claim 1.
In the information classification device according to any one of the first to fifth aspects, by clustering a plurality of sample texts, clustering means for generating the classified sample information in which the plurality of sample texts are associated with a plurality of classification categories. It is characterized by having.

【0025】この発明によれば、クラスタリング手段に
より分類サンプル情報を生成するようにしたので、複数
のサンプルテキストから分類カテゴリを手動で生成する
場合に比して、格段に効率を向上させることができると
ともに、ユーザの作業負担を軽減させることができる。
According to the present invention, since the classification sample information is generated by the clustering means, the efficiency can be remarkably improved as compared with a case where the classification category is manually generated from a plurality of sample texts. At the same time, the work load on the user can be reduced.

【0026】また、請求項7にかかる発明は、請求項1
〜5のいずれか一つに記載の情報分類装置において、前
記分類サンプル情報をクラスタリングするクラスタリン
グ手段と、前記クラスタリング手段のクラスタリング結
果と所望のクラスタリング結果とを比較する比較手段
と、前記比較手段の比較結果に基づいて、必要に応じて
前記分類サンプル情報を変更する変更手段とを備えるこ
とを特徴とする。
The invention according to claim 7 is the first invention.
5. The information classification apparatus according to any one of claims 1 to 5, wherein the clustering unit clusters the classified sample information, a comparison unit that compares a clustering result of the clustering unit with a desired clustering result, and a comparison of the comparison unit. Changing means for changing the classification sample information as necessary based on the result.

【0027】この発明によれば、クラスタリング手段の
クラスタリング結果と所望のクラスタリング結果とを比
較し、この比較結果が例えば不一致である場合に、変更
手段により分類サンプル情報を変更可能としたので、よ
り完全な分類サンプル情報に基づいて新規テキスト群の
分類を行うことができることから、分類精度を極めて高
くすることができる。
According to the present invention, the clustering result of the clustering means is compared with a desired clustering result, and when the comparison result is, for example, inconsistent, the classification sample information can be changed by the changing means. Since the new text group can be classified based on the proper classification sample information, the classification accuracy can be extremely increased.

【0028】また、請求項8にかかる発明は、請求項1
〜7のいずれか一つに記載の情報分類装置において、前
記分類手段の分類結果における新規テキスト群をクラス
タリングし、クラスタリング結果を表示するクラスタリ
ング結果表示手段を備えることを特徴とする。
The invention according to claim 8 is the invention according to claim 1.
7. The information classification apparatus according to any one of items 1 to 7, further comprising a clustering result display unit that clusters a new text group in the classification result of the classification unit and displays the clustering result.

【0029】この発明によれば、クラスタリング結果表
示手段によりクラスタリング結果を表示するようにした
ので、分類結果の分布をユーザが容易に把握することが
できる。
According to the present invention, the clustering result is displayed by the clustering result display means, so that the user can easily grasp the distribution of the classification results.

【0030】また、請求項9にかかる発明は、請求項1
〜8のいずれか一つに記載の情報分類装置において、前
記分類手段の分類結果を最適化する最適化手段を備え、
前記分類学習情報生成手段は、最適化された分類結果に
基づいて、分類学習情報を再生成し、前記分類手段は、
前記分類方法決定手段により決定された分類方法および
再生成された前記分類学習情報に従って、分類対象であ
る新規テキスト群を分類カテゴリ毎に分類することを特
徴とする。
The invention according to claim 9 is based on claim 1.
The information classification device according to any one of to 8, further comprising an optimization unit that optimizes a classification result of the classification unit,
The classification learning information generating means regenerates the classification learning information based on the optimized classification result, and the classification means
In accordance with the classification method determined by the classification method determination means and the regenerated classification learning information, a new text group to be classified is classified for each classification category.

【0031】この発明によれば、最適化手段により最適
化された分類結果に基づいて、分類学習情報を再生成
し、この分類学習情報に従って、新規テキスト群を再度
分類するようにしたので、さらに分類精度を向上させる
ことができる。
According to the present invention, the classification learning information is regenerated based on the classification result optimized by the optimizing means, and the new text group is classified again according to the classification learning information. Classification accuracy can be improved.

【0032】また、請求項10にかかる発明は、請求項
9に記載の情報分類装置において、前記最適化前の分類
結果と前記最適化後の分類結果との相違を視覚的に認識
可能な相違認識情報として表示する相違認識情報表示手
段を備えることを特徴とする。
According to a tenth aspect of the present invention, in the information classification apparatus according to the ninth aspect, the difference between the classification result before the optimization and the classification result after the optimization is visually recognizable. It is characterized by comprising a difference recognition information display means for displaying as recognition information.

【0033】この発明によれば、最適化前後における分
類結果の相違を相違認識情報として表示させ、ユーザが
一目で相違を認識できるようにしたので、相違に基づく
ユーザの対応を迅速に行わせることができ、結果的に分
類精度を高めることができる。
According to the present invention, the difference between the classification results before and after the optimization is displayed as the difference recognition information so that the user can recognize the difference at a glance, so that the user can quickly respond based on the difference. As a result, classification accuracy can be improved.

【0034】また、請求項11にかかる発明は、複数の
サンプルテキストと複数の分類カテゴリとが予め対応付
けられた分類サンプル情報に含まれる複数のサンプルテ
キストのそれぞれから分類カテゴリ毎に特徴素を抽出す
る特徴素抽出工程と、前記分類サンプル情報に基づい
て、複数の分類方法の中から最も分類精度が高い分類方
法を決定する分類方法決定工程と、前記分類方法決定工
程で決定された分類方法に従って、前記特徴素抽出工程
で抽出された特徴素に基づいて、分類カテゴリ毎の特徴
を表す分類学習情報を生成する分類学習情報生成工程
と、前記分類方法決定工程で決定された分類方法および
前記分類学習情報に従って、分類対象である新規テキス
ト群を分類カテゴリ毎に分類する分類工程とを含むこと
を特徴とする。
Further, according to the present invention, a feature element is extracted for each classification category from each of a plurality of sample texts included in classification sample information in which a plurality of sample texts and a plurality of classification categories are associated in advance. A feature element extraction step, based on the classification sample information, a classification method determination step of determining a classification method having the highest classification accuracy from among a plurality of classification methods, and a classification method determined in the classification method determination step. A classification learning information generating step of generating classification learning information representing a feature for each classification category based on the characteristic element extracted in the characteristic element extraction step; a classification method determined in the classification method determining step; A classification step of classifying a new text group to be classified into classification categories according to the learning information.

【0035】この発明によれば、複数の分類方法を使用
可能な状態にしておき、分類方法決定工程で、分類サン
プル情報に基づいて複数の分類方法の中から最も分類精
度が高い分類方法を決定した後、この分類方法に従って
新規テキスト群を分類カテゴリ毎に分類するようにした
ので、従来に比して、分類対象の情報の内容、量にかか
わらず、分類精度を高めることができる。
According to the present invention, a plurality of classification methods are made available, and in the classification method determining step, a classification method having the highest classification accuracy is determined from the plurality of classification methods based on the classification sample information. After that, the new text group is classified for each classification category according to this classification method, so that the classification accuracy can be improved as compared with the related art regardless of the content and amount of the information to be classified.

【0036】また、請求項12にかかる発明は、複数の
サンプルテキストと複数の分類カテゴリとが予め対応付
けられた分類サンプル情報に含まれる複数のサンプルテ
キストのそれぞれから分類カテゴリ毎に特徴素を抽出さ
せる特徴素抽出工程と、前記分類サンプル情報に基づい
て、複数の分類方法の中から最も分類精度が高い分類方
法を決定させる分類方法決定工程と、前記分類方法決定
工程で決定された分類方法に従って、前記特徴素抽出工
程で抽出された特徴素に基づいて、分類カテゴリ毎の特
徴を表す分類学習情報を生成させる分類学習情報生成工
程と、前記分類方法決定工程で決定された分類方法およ
び前記分類学習情報に従って、分類対象である新規テキ
スト群を分類カテゴリ毎に分類させる分類工程とをコン
ピュータに実行させるための情報分類プログラムを記録
したコンピュータ読み取り可能な記録媒体である。
According to a twelfth aspect of the present invention, a feature element is extracted for each classification category from each of a plurality of sample texts included in classification sample information in which a plurality of sample texts and a plurality of classification categories are associated in advance. A feature element extracting step, based on the classification sample information, a classification method determining step of determining a classification method having the highest classification accuracy from a plurality of classification methods, and a classification method determined in the classification method determination step. A classification learning information generating step of generating classification learning information representing a feature for each classification category based on the characteristic element extracted in the characteristic element extraction step; a classification method determined in the classification method determining step; A classification step of classifying a new text group to be classified into classification categories in accordance with the learning information. A computer-readable recording medium recording the order information classification program.

【0037】この発明によれば、複数の分類方法を使用
可能な状態にしておき、分類方法決定工程で、分類サン
プル情報に基づいて複数の分類方法の中から最も分類精
度が高い分類方法を決定した後、この分類方法に従って
新規テキスト群を分類カテゴリ毎に分類するようにした
ので、従来に比して、分類対象の情報の内容、量にかか
わらず、分類精度を高めることができる。
According to the present invention, a plurality of classification methods are made available, and the classification method having the highest classification accuracy is determined from the plurality of classification methods based on the classification sample information in the classification method determination step. After that, the new text group is classified for each classification category according to this classification method, so that the classification accuracy can be improved as compared with the related art regardless of the content and amount of the information to be classified.

【0038】また、請求項13にかかる発明は、複数の
サンプルテキストと複数の分類カテゴリとが予め対応付
けられた分類サンプル情報に含まれる複数のサンプルテ
キストのそれぞれから分類カテゴリ毎に特徴素を抽出さ
せる特徴素抽出手順と、前記分類サンプル情報に基づい
て、複数の分類方法の中から最も分類精度が高い分類方
法を決定させる分類方法決定手順と、前記分類方法決定
手順で決定された分類方法に従って、前記特徴素抽出手
順で抽出された特徴素に基づいて、分類カテゴリ毎の特
徴を表す分類学習情報を生成させる分類学習情報生成手
順と、前記分類方法決定手順で決定された分類方法およ
び前記分類学習情報に従って、分類対象である新規テキ
スト群を分類カテゴリ毎に分類させる分類手順とをコン
ピュータに実行させるための情報分類プログラムであ
る。
According to a thirteenth aspect of the present invention, a feature element is extracted for each classification category from each of a plurality of sample texts included in classification sample information in which a plurality of sample texts and a plurality of classification categories are associated in advance. A feature element extraction procedure, a classification method determination procedure for determining a classification method having the highest classification accuracy from among a plurality of classification methods based on the classification sample information, and a classification method determined in the classification method determination procedure. A classification learning information generating step of generating classification learning information representing a feature for each classification category based on the characteristic element extracted in the characteristic element extraction step; a classification method determined in the classification method determination step; The computer executes a classification procedure for classifying a new text group to be classified into classification categories according to the learning information. It is because of information classification program.

【0039】この発明によれば、複数の分類方法を使用
可能な状態にしておき、分類方法決定手順で、分類サン
プル情報に基づいて複数の分類方法の中から最も分類精
度が高い分類方法を決定した後、この分類方法に従って
新規テキスト群を分類カテゴリ毎に分類するようにした
ので、従来に比して、分類対象の情報の内容、量にかか
わらず、分類精度を高めることができる。
According to the present invention, a plurality of classification methods are made available, and the classification method having the highest classification accuracy is determined from the plurality of classification methods based on the classification sample information in the classification method determination procedure. After that, the new text group is classified for each classification category according to this classification method, so that the classification accuracy can be improved as compared with the related art regardless of the content and amount of the information to be classified.

【0040】[0040]

【発明の実施の形態】以下、図面を参照して本発明にか
かる情報分類装置、情報分類方法および情報分類プログ
ラムを記録したコンピュータ読み取り可能な記録媒体、
並びに情報分類プログラムの一実施の形態について詳細
に説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, with reference to the drawings, an information classification device, an information classification method, and a computer-readable recording medium recording an information classification program according to the present invention will be described.
An embodiment of the information classification program will be described in detail.

【0041】図1は、本発明にかかる一実施の形態の構
成を示すブロック図である。この図において、サンプル
テキスト群10は、未分類の複数のテキストの集合であ
る。クラスタリング部20は、サンプルテキスト群10
をクラスタリングし、分類サンプルデータ30を生成す
る。この分類サンプルデータ30は、どの分類カテゴリ
にどのテキストを分類するのかが予め決められた複数の
テキストからなる分類に関する正解データである。
FIG. 1 is a block diagram showing the configuration of an embodiment according to the present invention. In this figure, a sample text group 10 is a set of a plurality of unclassified texts. The clustering unit 20 includes the sample text group 10
Are clustered to generate classification sample data 30. The classification sample data 30 is correct answer data relating to a classification including a plurality of texts in which which text is to be classified into which classification category.

【0042】特徴素抽出部40は、特徴素抽出部1(図
18参照)と同様にして、分類サンプルデータ30か
ら、各分類カテゴリの特徴をそれぞれ表す特徴素(単
語)を各テキストから抽出する。ただし、特徴素抽出部
1が一つの特徴素抽出方法に従って特徴素の抽出を行う
のに対して、特徴素抽出部40は、複数の特徴素抽出方
法のそれぞれに従って特徴素の抽出を行う点で、特徴素
抽出部1と異なる。
The feature element extraction unit 40 extracts feature elements (words) representing the features of each classification category from each text from the classification sample data 30 in the same manner as the feature element extraction unit 1 (see FIG. 18). . However, while the feature element extraction unit 1 extracts feature elements according to one feature element extraction method, the feature element extraction unit 40 extracts feature elements according to each of a plurality of feature element extraction methods. , The feature element extraction unit 1.

【0043】分類学習情報生成部60は、分類学習情報
生成部3(図18参照)と同様にして、特徴素抽出部4
0により抽出された特徴素から各分類カテゴリの特徴を
それぞれ算出し、この算出結果としての分類学習情報7
0を生成する。ただし、分類学習情報生成部3が一つの
分類学習方法に従って特徴を算出するのに対して、分類
学習情報生成部60は、複数の分類学習方法のそれぞれ
に従って特徴を算出する点で、分類学習情報生成部3と
異なる。
The classification learning information generation unit 60 is similar to the classification learning information generation unit 3 (see FIG. 18) in that the feature element extraction unit 4
0, the feature of each classification category is calculated from the feature element extracted, and the classification learning information 7 as the calculation result is obtained.
Generate 0. However, while the classification learning information generation unit 3 calculates a feature according to one classification learning method, the classification learning information generation unit 60 calculates a feature according to each of a plurality of classification learning methods. Different from the generation unit 3.

【0044】分類方法決定部50は、例えば、周知のク
ロスバリデーションにより、複数の分類方法の中から最
も分類精度が高い分類方法を決定する。この分類方法決
定部50の動作の詳細については後述する。新規テキス
ト群80は、図2に示したように、分類対象の複数の新
規テキストTX1(テキスト名text1)〜新規テキ
ストTX10 (テキスト名text10)、・・・からな
る。図1に戻り、自動分類部90は、分類方法決定部5
0により決定された分類方法および分類学習情報70に
基づいて、新規テキスト群80を分類カテゴリに分類
し、これを分類結果データ100(図3参照)として出
力する。
The classification method determining unit 50 determines a classification method having the highest classification accuracy from among a plurality of classification methods by, for example, well-known cross validation. Details of the operation of the classification method determining unit 50 will be described later. New text group 80, as shown in FIG. 2, a plurality of new text TX 1 to be classified (text name text1) ~ new text TX 10 (text name text10), consisting of .... Returning to FIG. 1, the automatic classification unit 90 includes the classification method determination unit 5
The new text group 80 is classified into classification categories based on the classification method and the classification learning information 70 determined by 0, and this is output as the classification result data 100 (see FIG. 3).

【0045】クラスタリング部110は、分類結果デー
タ100をクラスタリングし、クラスタリング結果C
(図4参照)を得る。表示部120は、クラスタリング
部110からのクラスタリング結果Cや、各部からの各
種データを表示するディスプレイである。図5〜図7に
は、表示部120の表示例が図示されている。入力部1
30は、後述する編集作業や、表示部120におけるウ
ィンドウ操作等を行うためのマウス、キーボード等であ
る。
The clustering unit 110 clusters the classification result data 100 and generates a clustering result C
(See FIG. 4). The display unit 120 is a display that displays the clustering result C from the clustering unit 110 and various data from each unit. 5 to 7 show display examples of the display unit 120. Input unit 1
Reference numeral 30 denotes a mouse, a keyboard, and the like for performing an editing operation described later, a window operation on the display unit 120, and the like.

【0046】つぎに、上述した一実施の形態の動作につ
いて、図8〜図10に示したフローチャートを参照しつ
つ説明する。図1に示したクラスタリング部20にサン
プルテキスト群10が入力されると、図8に示したステ
ップSA1では、クラスタリング部20は、サンプルテ
キスト群10の複数のテキストをクラスタリングする。
ステップSA2では、クラスタリング部20は、各クラ
スタを分類カテゴリ化する。ステップSA3では、クラ
スタリング部20は、どの分類カテゴリにどのテキスト
を分類するのかが予め決められた複数のテキストからな
る分類に関する分類サンプルデータ30(正解データ)
を特徴素抽出部40へ出力する。
Next, the operation of the above-described embodiment will be described with reference to the flowcharts shown in FIGS. When the sample text group 10 is input to the clustering unit 20 shown in FIG. 1, the clustering unit 20 clusters a plurality of texts in the sample text group 10 in step SA1 shown in FIG.
At step SA2, the clustering unit 20 categorizes each cluster into categories. In step SA3, the clustering unit 20 classifies the classification sample data 30 (correct data) regarding a classification including a plurality of texts in which classifications are classified into which texts.
Is output to the feature element extraction unit 40.

【0047】これにより、ステップSA4では、特徴素
抽出部40は、分類サンプルデータ30における各分類
カテゴリの特徴をそれぞれ表す特徴素(単語)を各テキ
ストから抽出する特徴素抽出処理を実行する。すなわ
ち、図9に示したステップSB1では、特徴素抽出部4
0は、分類サンプルデータ30を形態素解析することに
より、分類カテゴリの特徴を表す特徴素(単語)の候補
を抽出する。ステップSB2では、特徴素抽出部40
は、抽出された特徴素の候補における同義語を統一化す
るという処理を実行する。
Thus, in step SA4, the feature element extraction unit 40 executes a feature element extraction process of extracting, from each text, a feature element (word) representing a feature of each category in the category sample data 30. That is, in step SB1 shown in FIG.
0 extracts a feature element (word) candidate representing the feature of the classification category by performing a morphological analysis on the classification sample data 30. In step SB2, the feature element extraction unit 40
Executes a process of unifying synonyms in the extracted feature element candidates.

【0048】ステップSB3では、特徴素抽出部40
は、抽出された複数の特徴素の候補に関して、分類カテ
ゴリ毎に、同一語の特徴素をカウントする。ステップS
B4では、特徴素抽出部40は、分類カテゴリ毎に複数
の特徴素の候補を絞り込むランキング処理を実行する。
このランキング処理では、複数の特徴素の候補に対し
て、出現頻度が高い順に特徴素を分類カテゴリ毎にラン
キングする方法や、出現確率が高い順に特徴素を分類カ
テゴリ毎にランキングする方法や、出現頻度の算出に統
計的手法(他の分類カテゴリにも出現している特徴素の
ランキングを下げる手法)を取り入れ、特徴素を分類カ
テゴリ毎にランキングする方法等が採用される。
In step SB3, the feature element extraction unit 40
Counts, for each of the plurality of extracted feature element candidates, the same word feature element. Step S
In B4, the feature element extraction unit 40 executes a ranking process for narrowing down a plurality of feature element candidates for each classification category.
In this ranking process, for a plurality of candidate feature elements, a method of ranking feature elements by classification category in descending order of appearance frequency, a method of ranking feature elements by classification category in descending order of appearance probability, A statistical method (a method of lowering the ranking of feature elements that also appear in other classification categories) is used to calculate the frequency, and a method of ranking feature elements for each classification category is employed.

【0049】ステップSB5では、特徴素抽出部40
は、上述したランキングが高い特徴素を分類カテゴリ毎
に上位から所定数抽出し、これらを特徴素として抽出す
る。ステップSB6では、特徴素抽出部40は、抽出さ
れた特徴素を特徴素抽出結果データとして出力する。図
11は、上述した三つのランキングの方法のうち、出現
頻度順にランキングされた特徴素出現頻度順リストR1
(特徴素抽出結果データに対応)を示す図である。
In step SB5, the feature element extraction unit 40
Extracts a predetermined number of the above-described feature elements having high rankings from the top for each classification category, and extracts these as feature elements. In step SB6, the feature element extraction unit 40 outputs the extracted feature element as feature element extraction result data. FIG. 11 shows a feature element appearance frequency order list R 1 ranked in the order of appearance frequency among the three ranking methods described above.
FIG. 14 is a diagram illustrating (corresponding to feature element extraction result data).

【0050】同図には、分類カテゴリ(「Econom
ic」、「Foreign」、・・・、「Societ
y」および「Sport」)のフィールドと、当該分類
カテゴリにおける特徴素(「市場」、「円高」等)出現
頻度を表す度数のフィールドとがある。それぞれの分類
カテゴリに対応するレコードには、当該分類カテゴリに
分類されたテキストの数が記述されている。ここでいう
テキストとは、サンプルテキスト群10(図1参照)を
構成するものをいう。例えば、「Economic」と
いう分類カテゴリには、27個のテキストが分類されて
おり、「Foreign」という分類カテゴリには、4
3個のテキストが分類されている。
FIG. 5 shows a classification category (“Econom”).
ic "," Foreign ", ...," Societ "
y "and" Sport "), and a frequency field indicating the frequency of appearance of feature elements (" market "," yen appreciation ", etc.) in the classification category. In the record corresponding to each classification category, the number of texts classified into the classification category is described. Here, the text refers to a text constituting the sample text group 10 (see FIG. 1). For example, a classification category of “Economic” classifies 27 texts, and a classification category of “Foreign” includes 4 texts.
Three texts are classified.

【0051】同図左端のフィールドは、出現頻度が高い
順を表すランキングである。例えば、「Economi
c」という分類カテゴリにおいては、27個のテキスト
内での出現頻度のランキングが1位の特徴素が「市場」
(度数:61.0)、2位の特徴素が「円高」(度数:
40.0)、以下同様にして、30位の特徴素が「金
融」(度数:12.0)である。
The leftmost field in the figure is a ranking indicating the order of appearance frequency. For example, "Economi
In the category “c”, the feature element whose ranking of the appearance frequency in the 27 texts is the first is “market”
(Frequency: 61.0) The feature element of the second place is “yen high”
40.0), and similarly, the thirtieth feature element is “finance” (frequency: 12.0).

【0052】図12は、上述した三つのランキングの方
法のうち、Kullback−Leibler法と呼ば
れる統計的手法を取り入れ、特徴素が分類カテゴリ毎に
ランキングされた特徴素出現頻度順リストR2 (特徴素
抽出結果データに対応)を示す図である。同図に示した
特徴素ランキングリストR2 の基本的な構成は、特徴素
出現頻度順リストR1(図11参照)の構成と同一であ
る。
FIG. 12 shows a feature element appearance frequency order list R 2 (feature element ranking) in which feature elements are ranked for each classification category by adopting a statistical method called the Kullback-Leibler method among the three ranking methods described above. (Corresponding to extraction result data). The basic configuration of the feature elements ranking list R 2 shown in this figure is the same as that of the feature element appearance frequency order list R 1 (see FIG. 11).

【0053】しかしながら、特徴素ランキングリストR
2 では、他の分類カテゴリにも出現している特徴素のラ
ンキングを下げ、当該分類カテゴリと他の分類カテゴリ
との弁別能力を向上させるための統計的手法が採用され
ている。例えば、図11に示した「Economic」
という分類カテゴリにおけるランキング3位の「ドル」
(特徴素)は、図12に示した「Economic」と
いう分類カテゴリで31位以下(図示略)とされてい
る。
However, the feature element ranking list R
In 2 , a statistical method is adopted for lowering the ranking of feature elements that also appear in other classification categories and improving the ability to discriminate the classification category from other classification categories. For example, "Economic" shown in FIG.
"Dollar" ranked third in the classification category
(Feature element) is ranked 31st or lower (not shown) in the classification category of “Economic” shown in FIG.

【0054】図8に戻り、ステップSA5では、分類方
法決定部50は、新規テキスト群80に適用する分類方
法を自動的に決定するか否かを判断する。ユーザからの
指示が無ければ、分類方法決定部50は、ステップSA
5の判断結果を「Yes」とする。一方、ユーザにより
マニュアル操作で分類方法が指示された場合、分類方法
決定部50は、ステップSA5の判断結果を「No」と
し、ステップSA7でユーザからの指示に基づいて分類
方法を決定する。
Returning to FIG. 8, in step SA5, the classification method determining section 50 determines whether or not to automatically determine the classification method to be applied to the new text group 80. If there is no instruction from the user, the classification method determining unit 50 proceeds to step SA
The determination result of No. 5 is “Yes”. On the other hand, when the user instructs the classification method by manual operation, the classification method determination unit 50 sets the determination result in step SA5 to “No”, and determines the classification method based on the instruction from the user in step SA7.

【0055】この場合、ステップSA6では、分類方法
決定部50は、例えば、クロスバリデーションにより、
分類方法を自動的に決定する分類方法決定処理を実行す
る。すなわち、図10に示したステップSC1では、分
類方法決定部50は、分類サンプルデータ30における
分類カテゴリ毎に分類サンプル(テキスト)をランダム
にN個に分ける。ステップSC2では、分類方法決定部
50は、(N−1)個の分類サンプルに対して、複数の
学習アルゴリズム(分類方法)をそれぞれ適用し、それ
ぞれの学習アルゴリズムに対応する特徴素や分類学習情
報を作成する。
In this case, in step SA6, the classification method determining unit 50 performs, for example, cross validation.
A classification method determination process for automatically determining a classification method is executed. That is, in step SC1 shown in FIG. 10, the classification method determination unit 50 randomly divides the classification samples (texts) into N pieces for each classification category in the classification sample data 30. In step SC2, the classification method determination unit 50 applies a plurality of learning algorithms (classification methods) to the (N-1) classification samples, respectively, and outputs a feature element or classification learning information corresponding to each learning algorithm. Create

【0056】ステップSC3では、分類方法決定部50
は、ステップSC2で作成された特徴素や分類学習情報
を用いて、残り(1/N)の分類サンプルに対して当該
学習アルゴリズム方法を適用することにより、分類テス
トを行い分類精度を算出する。この分類精度は、複数の
学習アルゴリズムのそれぞれについて個別的に算出され
る。ステップSC4では、分類方法決定部50は、上記
分類テストをN回実行したか否かを判断し、この場合、
判断結果を「No」とする。以後、ステップSC2およ
びステップSC3では、分類サンプルを一つづつ替える
ことにより、N個の分類サンプルに関するそれぞれ分類
精度が、複数の学習アルゴリズム毎に算出される。
In step SC3, the classification method determining section 50
Performs a classification test and calculates classification accuracy by applying the learning algorithm method to the remaining (1 / N) classification samples using the feature elements and the classification learning information created in step SC2. This classification accuracy is individually calculated for each of the plurality of learning algorithms. In step SC4, the classification method determination unit 50 determines whether or not the classification test has been performed N times.
The determination result is “No”. Thereafter, in step SC2 and step SC3, the classification accuracy for each of the N classification samples is calculated for each of the plurality of learning algorithms by changing the classification samples one by one.

【0057】そして、ステップSC4の判断結果が「Y
es」になると、ステップSC5では、分類方法決定部
50は、N個の分類サンプルに関する分類精度の平均値
を複数の学習アルゴリズム毎に算出する。ステップSC
6では、分類方法決定部50は、複数の学習アルゴリズ
ム(分類方法)にそれぞれ対応する複数の分類精度の平
均値うち、最も高いものを選択した後、選択された分類
精度に対応する学習アルゴリズム(分類方法)を選択す
る。また、分類方法決定部50は、分類精度が最も高い
学習アルゴリズム(分類方法)を分類学習情報生成部6
0および自動分類部90に通知する。
Then, the determination result of step SC4 is "Y
When "es" is reached, in step SC5, the classification method determination unit 50 calculates an average value of the classification accuracy for the N classification samples for each of the plurality of learning algorithms. Step SC
In 6, the classification method determination unit 50 selects the highest one of the average values of the plurality of classification accuracies respectively corresponding to the plurality of learning algorithms (classification methods), and then selects the learning algorithm (classification method) corresponding to the selected classification accuracy. Method). Further, the classification method determining unit 50 determines a learning algorithm (classification method) having the highest classification accuracy by the classification learning information generation unit 6.
0 and notify the automatic classification unit 90.

【0058】図8に戻り、ステップSA8では、分類学
習情報生成部60は、分類方法決定部50により通知さ
れた学習アルゴリズム(分類方法)、および特徴素抽出
部40からの特徴素抽出結果データに基づいて、分類学
習情報70を生成する。ステップSA9では、分類学習
情報生成部60は、分類学習情報70をデータベース
(図示略)に登録する。ステップSA10では、自動分
類部90は、分類対象である新規テキスト群80が入力
されたか否かを判断し、この場合、判断結果を「No」
として同判断を繰り返す。
Returning to FIG. 8, in step SA8, the classification learning information generation unit 60 converts the learning algorithm (classification method) notified by the classification method determination unit 50 and the feature element extraction result data from the feature element extraction unit 40 into the learning algorithm. Based on this, the classification learning information 70 is generated. In step SA9, the classification learning information generation unit 60 registers the classification learning information 70 in a database (not shown). In step SA10, the automatic classification unit 90 determines whether or not the new text group 80 to be classified has been input. In this case, the determination result is “No”.
And repeat the same judgment.

【0059】そして、新規テキスト群80が自動分類部
90に入力されると、自動分類部90は、ステップSA
10の判断結果を「Yes」とする。ステップSA11
では、自動分類部90は、新規テキスト群80(図2参
照)を構成する新規テキストTX1 、新規テキストTX
2 、・・・新規テキストTX10 、・・・のすべての自動分類
が終了したか否かを判断し、この場合、判断結果を「N
o」とする。以降、ステップSA15〜ステップSA2
1では、自動分類部90は、分類方法決定部50により
決定された分類方法に基づいて、自動分類処理を実行す
る。
When the new text group 80 is input to the automatic classification unit 90, the automatic classification unit 90
The determination result of No. 10 is “Yes”. Step SA11
Then, the automatic classifying unit 90 sets the new text TX 1 and the new text TX constituting the new text group 80 (see FIG. 2).
2 ,... It is determined whether or not all the automatic classifications of the new texts TX 10 ,... Have been completed.
o ". Hereinafter, Step SA15 to Step SA2
In 1, the automatic classification unit 90 executes an automatic classification process based on the classification method determined by the classification method determination unit 50.

【0060】以下では、分類方法の一例として、ベクト
ル空間法に基づいて新規テキスト群80を分類する場合
について説明する。この場合に、分類学習情報70に
は、各分類カテゴリ毎に30個の特徴素が含まれてお
り、全特徴素のベクトル、各分類カテゴリのベクトルが
含まれているものとする。この状態で、ステップSA1
5では、自動分類部90は、新規テキスト群80におけ
る新規テキストTX1 (図2参照)に対して形態素解析
を実行し、特徴素(単語)を抽出する。ステップSA1
6では、自動分類部90は、抽出された特徴素における
同義語を統一化するという同義語統一化処理を実行す
る。
In the following, as an example of the classification method, a case where the new text group 80 is classified based on the vector space method will be described. In this case, it is assumed that the classification learning information 70 includes 30 feature elements for each category, and includes vectors of all feature elements and vectors of each category. In this state, step SA1
In 5, the automatic classification unit 90 performs a morphological analysis on the new text TX 1 (see FIG. 2) in the new text group 80 and extracts a feature element (word). Step SA1
In 6, the automatic classification unit 90 executes a synonym unification process of unifying synonyms in the extracted feature elements.

【0061】ステップSA17では、自動分類部90
は、抽出された特徴素をカウントする。ステップSA1
8では、自動分類部90は、分類学習情報70内の特徴
素と同一の特徴素を、新規テキストTX1 に含まれる複
数の特徴素から取得する。つぎに、自動分類部90は、
取得した特徴素、すなわち、新規テキストTX1 に関す
る文書ベクトルを生成する。
In step SA17, the automatic classifying section 90
Counts the extracted feature elements. Step SA1
In 8, automatic classification section 90, the same feature element and the feature element in the classification learning information 70, obtains a plurality of feature elements included in the new text TX 1. Next, the automatic classification unit 90
Acquired feature element, i.e., generates a document vector for new text TX 1.

【0062】ステップSA19では、新規テキストTX
1 に関する文書ベクトルと、分類学習情報70内の各分
類カテゴリのベクトルとの類似度(コサイン値)を算出
する。この類似度(コサイン値)は、分類カテゴリのベ
クトルをA、新規テキストTX1 の文書ベクトルをBと
するとつぎの式で表される。 類似度(コサイン値)=ベクトルAと文書ベクトルBと
の内積/(ベクトルAの大きさ×文書ベクトルBの大き
さ)
At Step SA19, the new text TX
The similarity (cosine value) between the document vector related to 1 and the vector of each classification category in the classification learning information 70 is calculated. The similarity (cosine values) is a vector of classification category A, When the document vector for the new text TX 1 B is expressed by the following. Similarity (cosine value) = Inner product of vector A and document vector B / (size of vector A × size of document vector B)

【0063】すなわち、ステップSA19では、新規テ
キストTX1 に関して、分類カテゴリの数分の類似度
(コサイン値)が算出される。ステップSA20では、
自動分類部90は、算出された複数の類似度(コサイン
値)を正規化(0〜100までの値とする)する。ステ
ップSA21では、自動分類部90は、複数の類似度
(コサイン値)のうち、しきい値(例えば、70)以上
の類似度を選択した後、選択された類似度に対応する分
類カテゴリに新規テキストTX1 を分類する。なお、複
数の類似度のすべてがしきい値に満たない場合、自動分
類部90は、当該新規テキストTX1 を分類できないテ
キストとする。以後、ステップSA15〜ステップSA
21までの処理が繰り返されることにより、新規テキス
トが分類カテゴリに順次分類される。
[0063] That is, in step SA19, in relation to the new text TX 1, a few minutes of the similarity of the classification category (cosine value) is calculated. At step SA20,
The automatic classifying unit 90 normalizes the plurality of calculated similarities (cosine values) (to a value from 0 to 100). In step SA21, the automatic classification unit 90 selects a similarity that is equal to or greater than a threshold value (for example, 70) among a plurality of similarities (cosine values), and then newly assigns a classification category corresponding to the selected similarity. to classify the text TX 1. In the case where all of the plurality of similarity is less than the threshold value, automatic classification section 90, a text that can not be classified the new text TX 1. Thereafter, Step SA15 to Step SA
By repeating the processing up to 21, the new text is sequentially classified into the classification categories.

【0064】そして、すべての新規テキストの分類が終
了すると、自動分類部90は、ステップSA11の判断
結果を「Yes」とする。ステップSA12では、自動
分類部90は、図3に示した分類結果データ100を出
力する。この図において、テキスト名text1 〜テ
キスト名text20、・・・は、図2に示したテキスト
名text1〜テキスト名text10、・・・に対応し
ており、「AUTOMOTIVE_INDUSTRY」
等は、分類カテゴリを示し、分類カテゴリの右側の数字
は、得点(例えば、類似度)を表す。すなわち、図2に
示した新規テキストTX1 は、「AUTOMOTIVE
_INDUSTRY」という分類カテゴリに分類されて
おり、得点(類似度)が「85」である。
When the classification of all new texts is completed, the automatic classification unit 90 sets the result of the determination in step SA11 to "Yes". In step SA12, the automatic classification unit 90 outputs the classification result data 100 shown in FIG. In this figure, the text names text1 to text20, ... correspond to the text names text1 to text10, ... shown in Fig. 2 and "AUTOMOTIVE_INDUSTRY"
And so on indicate a classification category, and a number on the right side of the classification category indicates a score (for example, similarity). In other words, the new text TX 1 shown in FIG. 2, "AUTOMOTIVE
_INDUSTRY ”, and the score (similarity) is“ 85 ”.

【0065】図8に戻り、ステップSA13では、クラ
スタリング部110は、分類結果データ100を用い
て、新規テキスト群80をクラスタリングする。図4
は、クラスタリング部110におけるクラスタリング結
果Cを示す図である。この図には、1000個の新規テ
キストからなる新規テキスト群80が分類された場合で
あって、「Economic」という分類カテゴリに2
6個の新規テキストが分類された場合の26個の新規テ
キストの内訳(テキストの数、特徴素)が図示されてい
る。
Returning to FIG. 8, in step SA 13, clustering section 110 clusters new text group 80 using classification result data 100. FIG.
9 is a diagram showing a clustering result C in the clustering unit 110. FIG. This figure shows a case where a new text group 80 consisting of 1000 new texts is classified, and is classified into a classification category “Economic”.
A breakdown (the number of texts, characteristic elements) of the 26 new texts when 6 new texts are classified is illustrated.

【0066】ステップSA14では、表示部120に
は、例えば、図4に示したクラスタリング結果Cが表示
される。これにより、ユーザは、分類カテゴリ(この場
合、Economic」)にどのような内容が分類され
ているかの確認を行うことができる。
In step SA14, the display unit 120 displays, for example, the clustering result C shown in FIG. Thereby, the user can confirm what kind of content is classified into the classification category (Economic in this case).

【0067】なお、一実施の形態においては、図12に
示した特徴素ランキングリストR2を表示部120に表
示させ、ユーザの要求に応じて、特徴素ランキングリス
トR 2 を編集し、図13に示した特徴素ランキングリス
トR3 を用いて、分類を行うようにしてもよい。この場
合、ユーザは、入力部130を用いて、特徴素ランキン
グリストR2 において不要と判断した特徴素を削除する
という編集を行う。これにより、特徴素ランキングリス
トR3 (図13参照)が作成され、この特徴素ランキン
グリストR3 に基づいて、上述した処理が実行される。
In one embodiment, FIG.
The indicated feature element ranking list RTwoIs displayed on the display unit 120.
Feature list according to the user's request.
R Two Is edited, and the feature element ranking list shown in FIG.
RThree May be used to perform the classification. This place
In this case, the user uses the input unit 130 to
Grist RTwo Delete feature elements that are judged unnecessary in
Edit that. As a result, the feature element ranking squirrel
RThree (See FIG. 13) is created, and this feature element Rankin
Grist RThree The above-described processing is executed on the basis of.

【0068】なお、一実施の形態では、分類サンプルデ
ータ30と新規テキスト群80との構造が予め規定され
ている場合、分類サンプルデータ30、新規テキスト群
80における分類対象箇所を入力部130により指定す
るようにしてもよい。
In one embodiment, when the structure of the classification sample data 30 and the new text group 80 is defined in advance, the input unit 130 specifies the classification target portion in the classification sample data 30 and the new text group 80. You may make it.

【0069】さて、前述では、図1に示したクラスタリ
ング部20によりクラスタリングされた結果(分類サン
プルデータ30)をそのまま特徴素抽出部40で用いた
例について説明したが、クラスタリングされた結果を検
証するようにしてもよい。以下では、この場合を一実施
の形態の変形例1として、図14および図15を参照し
て説明する。
In the above description, an example was described in which the result (classified sample data 30) clustered by the clustering unit 20 shown in FIG. 1 was used as it is in the feature element extraction unit 40. The clustered result will be verified. You may do so. Hereinafter, this case will be described as a first modification of the embodiment with reference to FIGS.

【0070】図15に示したステップSD1では、図1
に示した分類サンプルデータ30(正解データ)に含ま
れるサンプルテキスト群10に対して、クラスタリング
部20によりクラスタリングが実行される。この場合、
分類サンプルデータ30における分類カテゴリの割付け
が無視される。図14は、クラスタリング部20により
クラスタリングされた結果(クラスタリング結果分布デ
ータCB)を示す図である。この図には、7つの分類カ
テゴリ(「Economic」、「Foreign」、
・・・「Sport」)に割り付けられた277のテキス
トをクラスタリングした結果が図示されている。
In step SD1 shown in FIG.
The clustering unit 20 performs clustering on the sample text group 10 included in the classification sample data 30 (correct answer data) shown in FIG. in this case,
The assignment of the classification category in the classification sample data 30 is ignored. FIG. 14 is a diagram illustrating a result of clustering performed by the clustering unit 20 (clustering result distribution data CB). The figure shows seven classification categories ("Economic", "Foreign",
... “Sport”) are clustered in 277 texts.

【0071】この図によれば、Aレコードの「Spor
ts」、CおよびEレコードの「Politics」
は、きれいに分類カテゴリの割付が行われていることが
わかる。これに対して、Dレコードの「Economi
c」と「Industry」の区別や、Fレコード以降
の「Foreign」、「Industry」、「Po
litics」、「Science」、「Societ
y」の区別が曖昧になっていることがわかる。この場合
には、後述するステップSD4の処理が実行される。ス
テップSD2では、クラスタリングされた結果(分類カ
テゴリの割付)と、ユーザが当初想定していた分類カテ
ゴリの割付とが比較部(図示略)により比較される。
According to this figure, “Spor” of the A record
"ts", "Politics" of C and E records
Indicates that the classification categories are clearly assigned. On the other hand, D record "Economi
c ”and“ Industry ”and“ Foreign ”,“ Industry ”,“ Po ”
liters "," Science "," Societ "
It can be seen that the distinction of "y" is ambiguous. In this case, the process of step SD4 described later is executed. In step SD2, the result of the clustering (assignment of the classification category) is compared with the assignment of the classification category originally assumed by the user by the comparison unit (not shown).

【0072】ステップSD3では、比較部は、ステップ
SD2の比較結果が同一であるか否かを判断し、この判
断結果が「No」である場合、比較結果を表示部120
に表示させる。これにより、ステップSD4では、ユー
ザは、入力部130を用いて、クラスタリングされた結
果(分類カテゴリの割付)を再検討し、分類カテゴリの
編集を行う。一方、ステップSD3の判断結果が「Ye
s」である場合、すなわち、分類サンプルデータ30に
おける分類カテゴリの割付がユーザが当初想定していた
ものと同一であるため、ステップSD5では、分類カテ
ゴリおよび分類サンプル(テキスト)が学習情報とされ
る。ステップSD6では、比較部(図示略)は、分類サ
ンプルデータ30を特徴素抽出部40へ出力する。これ
により、前述した処理が実行される。
In step SD3, the comparing section determines whether or not the comparison result in step SD2 is the same. If the determination result is "No", the comparing section displays the comparison result on display section 120.
To be displayed. Thus, in step SD4, the user uses the input unit 130 to review the clustered result (assignment of the classification category) and edit the classification category. On the other hand, if the determination result of step SD3 is “Ye
s ", that is, since the assignment of the classification category in the classification sample data 30 is the same as that initially assumed by the user, in step SD5, the classification category and the classification sample (text) are set as the learning information. . In step SD6, the comparison unit (not shown) outputs the classification sample data 30 to the feature element extraction unit 40. Thereby, the above-described processing is executed.

【0073】さて、前述では、自動分類部90により分
類された分類結果データ100をそのまま出力する例に
ついて説明したが、自動分類部90により分類が行われ
た後に分類結果データ100が所望のものであるか否か
を検証し、この検証結果がNGの場合に、この検証結果
を分類学習情報70にフィードバックし、再学習するこ
とにより分類精度を向上させるようにしてもよい。以下
では、この場合を一実施の形態の変形例2として図16
を参照しつつ説明する。同図において、図1の各部に対
応する部分には同一の符号を付ける。この図において
は、再学習処理部140が新たに設けられている。この
再学習処理部140は、上述したフィードバックを受け
て分類学習情報70Aを作成する。
In the above, an example has been described in which the classification result data 100 classified by the automatic classification unit 90 is output as it is. However, after the classification is performed by the automatic classification unit 90, the classification result data 100 is a desired one. It is also possible to verify whether or not there is, and if the verification result is NG, feed back the verification result to the classification learning information 70 and re-learn to improve the classification accuracy. Hereinafter, this case will be referred to as a second modification of the embodiment shown in FIG.
This will be described with reference to FIG. In the figure, portions corresponding to the respective portions in FIG. 1 are denoted by the same reference numerals. In this figure, a relearning processing unit 140 is newly provided. The relearning processing unit 140 creates the classification learning information 70A in response to the feedback described above.

【0074】20個の新規テキストからなる新規テキス
ト群80が情報分類装置200に入力されると、新規テ
キスト群80は、前述した動作と同様にして、分類学習
情報70および所定の分類方法に基づいて、自動分類さ
れる。これにより、情報分類装置200からは、分類結
果データ100が出力される。この分類結果データ10
0は、表示部120に表示される。ここで、分類結果デ
ータ100において、分類カテゴリBに割り付けられた
新規テキスト(5)および(6)が分類カテゴリAに割
り付けられるべきであって、かつ分類カテゴリCに割り
付けられた新規テキスト(9)が分類カテゴリDに割り
付けられるべきであった場合、ユーザは、入力部130
を用いて、所望の割付に編集する。
When a new text group 80 composed of 20 new texts is input to the information classification device 200, the new text group 80 is generated based on the classification learning information 70 and a predetermined classification method in the same manner as the above-described operation. Are automatically classified. As a result, the classification result data 100 is output from the information classification device 200. This classification result data 10
0 is displayed on the display unit 120. Here, in the classification result data 100, the new texts (5) and (6) allocated to the classification category B should be allocated to the classification category A, and the new texts (9) allocated to the classification category C. Should be assigned to the classification category D, the user
Is used to edit to the desired assignment.

【0075】これにより、再学習処理部140は、編集
された分類結果データ100に基づいて、分類学習情報
生成部60(図1参照)と同様の動作により、再学習処
理を実行し、分類学習情報70Aを再構築する。この状
態で、新規テキスト群80が情報分類装置200に入力
されると、新規テキスト群80は、前述した動作と同様
にして、再構築された分類学習情報70Aおよび所定の
分類方法に基づいて、自動分類される。この場合、情報
分類装置200から出力される分類結果データ100の
分類精度は、再学習の効果により、極めて高い。
Thus, the re-learning processing unit 140 executes the re-learning process based on the edited classification result data 100 by the same operation as the classification learning information generating unit 60 (see FIG. 1). The information 70A is reconstructed. In this state, when the new text group 80 is input to the information classification device 200, the new text group 80 is generated based on the reconstructed classification learning information 70A and the predetermined classification method in the same manner as the operation described above. Automatically classified. In this case, the classification accuracy of the classification result data 100 output from the information classification device 200 is extremely high due to the effect of relearning.

【0076】なお、一実施の形態では、図1に示した表
示部120に図5に示した画面G1を表示させ、分類処
理で発生する各種情報を表示させるようにしてもよい。
画面G1 には、「ユーザークレーム分類」という分類カ
テゴリに対応するフォルダH 0 、この分類カテゴリの配
下に属する「初期不良」、・・・・「問い合わせ」および
「分類されなかった文書」という分類カテゴリにそれぞ
れ対応するフォルダH1〜H7 がそれぞれ表示されてい
る。
In one embodiment, the table shown in FIG.
The screen G shown in FIG.1Is displayed and the classification
Various kinds of information generated in the process may be displayed.
Screen G1 Has a classification category called “User Claim Classification”.
Folder H corresponding to category 0 , Distribution of this classification category
"Initial failure" under ... "Inquiry" and
Classified as "Unclassified documents"
Corresponding folder H1~ H7 Are displayed respectively
You.

【0077】また、画面G1 には、ウィンドウ制御によ
り、画面G2 〜G4 が表示されている。画面G2 には、
図6に示したように「問い合わせ」という分類カテゴリ
に対応するサンプル文書(分類サンプルデータ30に対
応)のタイトルK1 およびテキスト内容K2 が表示され
ている。また、図7に示した画面G3 には、「問い合わ
せ」という分類カテゴリに対応するキーワード(特徴
素)が表示されている。図5に示した画面G4 には、
「問い合わせ」という分類カテゴリに分類された新規テ
キストの一覧画面J1 および当該新規テキストの内容に
関する内容表示画面J2 が表示されている。ここで、新
規テキストの一覧画面J1 におけるアイコンI1 〜I4
は、上述した変形例2による再学習前の得点(類似度)
に対する、再学習後の得点の変化を表すものである。
Further, screens G 2 to G 4 are displayed on the screen G 1 by window control. The screen G 2,
Title K 1 and text content K 2 of the sample document corresponding to the classification category of "inquiry" (corresponding to the classification sample data 30) is displayed as shown in FIG. 6. Also, the screen G 3 shown in FIG. 7, the keyword corresponding to the classification category of "Query" (feature element) is displayed. Screen G 4 shown in FIG. 5,
The contents display screen J 2 is displayed on the contents of the list screen J 1 and the new text of the new text, which is classified as a classification category of "inquiry". Here, the icon I 1 ~I 4 in the list screen J 1 of the new text
Is the score (similarity) before re-learning according to Modification 2 described above.
Represents a change in score after re-learning with respect to.

【0078】すなわち、アイコンI1 は、前回よりも得
点(類似度)が高くなったことを意味しており、アイコ
ンI2 は、前回よりも得点(類似度)が低くなったこと
を意味している。アイコンI3 は、前回、当該分類カテ
ゴリ(この場合「問い合わせ」)に分類されていた新規
テキストが、今回、当該分類カテゴリに分類されなかっ
たことを意味している。また、アイコンI4 は、前回、
当該分類カテゴリ(この場合「問い合わせ」)に分類さ
れていなかった新規テキストが、今回、当該分類カテゴ
リに分類されたことを意味している。
That is, the icon I 1 means that the score (similarity) is higher than the previous time, and the icon I 2 means that the score (similarity) is lower than the previous time. ing. Icon I 3 is the last time, the new text, which has been classified into the classification category (in this case "inquiry") is, this time, which means that it has not been classified into the classification category. Also, the icon I 4 was the last time,
This means that a new text that has not been classified into the classification category (in this case, “inquiry”) is now classified into the classification category.

【0079】以上説明したように、一実施の形態によれ
ば、複数の分類方法を使用可能な状態にしておき、分類
方法決定部50により、分類サンプルデータ30に基づ
いて複数の分類方法の中から最も分類精度が高い分類方
法を決定した後、この分類方法に従って新規テキスト群
80を分類カテゴリ毎に分類するようにしたので、従来
に比して、分類対象の情報の内容、量にかかわらず、分
類精度を高めることができる。
As described above, according to one embodiment, a plurality of classification methods are set to be usable, and the classification method determining unit 50 sets a plurality of classification methods based on the classification sample data 30. After determining the classification method with the highest classification accuracy from, the new text group 80 is classified according to the classification method according to this classification method. , Classification accuracy can be improved.

【0080】また、一実施の形態によれば、特徴素抽出
部40で複数の特徴素抽出方法を使用可能な状態にして
おき、これらの複数の特徴素抽出方法にそれぞれ対応す
る特徴素を抽出し、特に、分類カテゴリ間の弁別能力が
高い特徴素抽出方法に対応する特徴素を抽出結果とする
ようにしたので、この特徴素に対応する分類結果の分類
精度をさらに高めることができる。
According to one embodiment, a plurality of feature element extraction methods can be used by the feature element extraction unit 40, and feature elements corresponding to the plurality of feature element extraction methods are extracted. In particular, since a feature element corresponding to a feature element extraction method having high discrimination ability between classification categories is used as an extraction result, the classification accuracy of the classification result corresponding to this feature element can be further improved.

【0081】また、一実施の形態によれば、入力部13
0および表示部120(編集手段)を設けて、抽出され
た特徴素を編集(削除、追加等)可能としたので、分類
カテゴリに対して柔軟な特徴素設定を行うことができ
る。
According to one embodiment, the input unit 13
0 and the display unit 120 (editing means) are provided so that the extracted feature elements can be edited (deleted, added, etc.), so that flexible feature element setting can be performed for the classification category.

【0082】また、一実施の形態によれば、入力部13
0および表示部120(指定手段)により、分類サンプ
ルデータ30、新規テキスト群80における分類対象箇
所を指定するようにしたので、分類に不要な箇所を排除
し、本質的に必要な箇所を対象に分類を行うことができ
るため、分類精度をさらに向上させることができる。
According to one embodiment, the input unit 13
0 and the display unit 120 (designating means) designate a classification target portion in the classification sample data 30 and the new text group 80. Therefore, a portion unnecessary for classification is eliminated, and a portion essentially required is targeted. Since the classification can be performed, the classification accuracy can be further improved.

【0083】また、一実施の形態によれば、クラスタリ
ング部20により分類サンプルデータ30を生成するよ
うにしたので、複数のサンプルテキストから分類カテゴ
リを手動で生成する場合に比して、格段に効率を向上さ
せることができるとともに、ユーザの作業負担を軽減さ
せることができる。
Further, according to the embodiment, the classification sample data 30 is generated by the clustering unit 20, so that the efficiency is significantly improved as compared with the case where the classification category is manually generated from a plurality of sample texts. Can be improved, and the work load on the user can be reduced.

【0084】また、一実施の形態によれば、クラスタリ
ング部20のクラスタリング結果と所望のクラスタリン
グ結果とを比較し、この比較結果が例えば不一致である
場合に、入力部130(変更手段)により分類サンプル
データ30を変更可能としたので、より完全な分類サン
プルデータ30に基づいて新規テキスト群80の分類を
行うことができることから、分類精度を極めて高くする
ことができる。
Further, according to one embodiment, the clustering result of the clustering unit 20 is compared with a desired clustering result. Since the data 30 can be changed, the new text group 80 can be classified based on the more complete classification sample data 30, so that the classification accuracy can be extremely increased.

【0085】また、一実施の形態によれば、表示部12
0にクラスタリング結果分布データCB(図14参照)
を表示するようにしたので、分類結果の分布をユーザが
容易に把握することができる。
According to one embodiment, the display unit 12
Clustering result distribution data CB to 0 (see FIG. 14)
Is displayed, so that the user can easily grasp the distribution of the classification results.

【0086】また、一実施の形態によれば、変形例2で
説明したように、最適化された分類結果に基づいて、分
類学習情報70Aを再生成し、この分類学習情報70A
に従って、新規テキスト群80を再度分類するようにし
たので、さらに分類精度を向上させることができる。
Further, according to one embodiment, as described in the second modification, the classification learning information 70A is regenerated based on the optimized classification result, and the classification learning information 70A is generated.
, The new text group 80 is classified again, so that the classification accuracy can be further improved.

【0087】また、一実施の形態によれば、上記最適化
前後における分類結果の相違をアイコンI1〜14(相違
認識情報)として表示させ、ユーザが一目で相違を認識
できるようにしたので、相違に基づくユーザの対応を迅
速に行わせることができ、結果的に分類精度を高めるこ
とができる。
[0087] According to one embodiment, to display the difference of the classification result in the before and after optimization icon I 1 to 1 4 as (difference recognition information), so the user has to be aware of the difference at a glance In addition, it is possible to promptly respond to the user based on the difference, and as a result, the classification accuracy can be improved.

【0088】以上本発明にかかる一実施の形態について
図面を参照して詳述してきたが、具体的な構成例はこの
一実施の形態に限られるものではなく、本発明の要旨を
逸脱しない範囲の設計変更等があっても本発明に含まれ
る。たとえば、前述した一実施の形態においては、情報
分類装置の機能を実現するための情報分類プログラムを
図17に示したコンピュータ読み取り可能な記録媒体4
00に記録して、この記録媒体400に記録された情報
分類プログラムを同図に示したコンピュータ300に読
み込ませ、実行することにより情報分類を行うようにし
てもよい。
Although the embodiment of the present invention has been described in detail with reference to the drawings, the specific configuration is not limited to this embodiment and does not depart from the gist of the present invention. Even if there is a change in the design, the present invention is included in the present invention. For example, in the above-described embodiment, an information classification program for realizing the function of the information classification device is stored in the computer-readable recording medium 4 shown in FIG.
00, the information classification program recorded in the recording medium 400 may be read by the computer 300 shown in FIG.

【0089】図17に示したコンピュータ300は、上
記情報分類プログラムを実行するCPU301と、キー
ボード、マウス等の入力装置302と、各種データを記
憶するROM(Read Only Memory)303と、演算パラ
メータ等を記憶するRAM(Random Access Memory)3
04と、記録媒体400から情報分類プログラムを読み
取る読取装置305と、ディスプレイ、プリンタ等の出
力装置306と、装置各部を接続するバスBUとから構
成されている。
The computer 300 shown in FIG. 17 stores a CPU 301 for executing the information classification program, an input device 302 such as a keyboard and a mouse, a ROM (Read Only Memory) 303 for storing various data, and an arithmetic parameter. RAM (Random Access Memory) 3 for storing
04, a reading device 305 that reads the information classification program from the recording medium 400, an output device 306 such as a display or a printer, and a bus BU that connects each unit of the device.

【0090】CPU301は、読取装置305を経由し
て記録媒体400に記録されている情報分類プログラム
を読み込んだ後、情報分類プログラムを実行することに
より、前述した情報分類を行う。なお、記録媒体400
には、光ディスク、フロッピー(登録商標)ディスク、
ハードディスク等の可搬型の記録媒体が含まれることは
もとより、ネットワークのようにデータを一時的に記録
保持するような伝送媒体も含まれる。
The CPU 301 reads the information classification program recorded on the recording medium 400 via the reading device 305, and executes the information classification program to perform the information classification described above. The recording medium 400
Include optical disks, floppy (registered trademark) disks,
In addition to a portable recording medium such as a hard disk, a transmission medium such as a network for temporarily recording and holding data is also included.

【0091】また、一実施の形態では、図1に示した分
類方法決定部50で、分類方法の決定方式の一例として
クロスバリデーション方式を採用した場合について説明
したが、この方式に限られるものではなく、再現率(結
果の中で正解の含まれている割合)や、適合率(結果の
中で間違いの少なさ)といった値をキーとして分類方法
を決定するようにしてもよい。要は、複数の分類方法が
使用可能であること、これらの分類方法の中から最も分
類精度が高いものを選択できること、という要件を具備
していれば、いかなる方式を採用しても本発明に含まれ
る。
Further, in the embodiment, the case where the cross-validation method is adopted as an example of the method of determining the classification method in the classification method determining section 50 shown in FIG. 1 has been described, but the present invention is not limited to this method. Instead, the classification method may be determined by using the values such as the recall (the ratio of correct answers included in the results) and the precision (the number of mistakes in the results) as keys. In short, as long as a plurality of classification methods can be used and a classification method having the highest classification accuracy can be selected from these classification methods, the present invention can be applied to any method. included.

【0092】[0092]

【発明の効果】以上説明したように、請求項1にかかる
発明によれば、複数の分類方法を使用可能な状態にして
おき、分類方法決定手段により、分類サンプル情報に基
づいて複数の分類方法の中から最も分類精度が高い分類
方法を決定した後、この分類方法に従って新規テキスト
群を分類カテゴリ毎に分類するようにしたので、従来に
比して、分類対象の情報の内容、量にかかわらず、分類
精度を高めることができるという効果を奏する。
As described above, according to the first aspect of the present invention, a plurality of classification methods are set in a usable state, and a plurality of classification methods are determined by the classification method determining means based on the classification sample information. After determining the classification method with the highest classification accuracy from among, the new text group is classified according to the classification category according to this classification method. Therefore, an effect that the classification accuracy can be improved can be achieved.

【0093】また、請求項2にかかる発明によれば、特
徴素抽出手段で複数の特徴素抽出方法を使用可能な状態
にしておき、これらの複数の特徴素抽出方法にそれぞれ
対応する特徴素を抽出し、特に、分類カテゴリ間の弁別
能力が高い特徴素抽出方法に対応する特徴素を抽出結果
とするようにしたので、この特徴素に対応する分類結果
の分類精度をさらに高めることができるという効果を奏
する。
According to the second aspect of the present invention, a plurality of feature element extraction methods can be used by the feature element extraction means, and feature elements respectively corresponding to the plurality of feature element extraction methods are set. Since extraction is performed, in particular, a feature element corresponding to a feature element extraction method having a high ability to discriminate between classification categories is used as an extraction result, the classification accuracy of the classification result corresponding to this feature element can be further improved. It works.

【0094】また、請求項3にかかる発明によれば、編
集手段を設けて、抽出された特徴素を編集(削除、追加
等)可能としたので、分類カテゴリに対して柔軟な特徴
素設定を行うことができるという効果を奏する。
According to the third aspect of the present invention, an editing means is provided so that the extracted feature element can be edited (deleted, added, etc.). This has the effect that it can be performed.

【0095】また、請求項4にかかる発明によれば、複
数の分類方法を使用可能な状態にしておき、分類方法決
定手段により、分類サンプル情報に基づいて複数の分類
方法の中から最も分類精度が高い分類方法をクロスバリ
デーション方式により決定した後、この分類方法に従っ
て新規テキスト群を分類カテゴリ毎に分類するようにし
たので、従来に比して、分類対象の情報の内容、量にか
かわらず、分類精度を高めることができるという効果を
奏する。
According to the fourth aspect of the present invention, a plurality of classification methods are set in a usable state, and the classification method determining means determines the most accurate classification among the plurality of classification methods based on the classification sample information. After determining the classification method with high cross-validation method, the new text group is classified for each classification category according to this classification method, so compared to the past, regardless of the content and amount of classification target information, There is an effect that classification accuracy can be improved.

【0096】また、請求項5にかかる発明によれば、指
定手段により、分類サンプル情報、新規テキスト群にお
ける分類対象箇所を指定するようにしたので、分類に不
要な箇所を排除し、本質的に必要な箇所を対象に分類を
行うことができるため、分類精度をさらに向上させるこ
とができるという効果を奏する。
According to the fifth aspect of the present invention, the designation means designates the classification sample information and the classification target position in the new text group. Therefore, unnecessary portions for classification are eliminated, and essentially, Since classification can be performed for a necessary portion as an object, there is an effect that classification accuracy can be further improved.

【0097】また、請求項6にかかる発明によれば、ク
ラスタリング手段により分類サンプル情報を生成するよ
うにしたので、複数のサンプルテキストから分類カテゴ
リを手動で生成する場合に比して、格段に効率を向上さ
せることができるとともに、ユーザの作業負担を軽減さ
せることができるという効果を奏する。
According to the sixth aspect of the present invention, since the classification sample information is generated by the clustering means, the efficiency is significantly improved as compared with the case where the classification category is manually generated from a plurality of sample texts. And the burden on the user can be reduced.

【0098】また、請求項7にかかる発明によれば、ク
ラスタリング手段のクラスタリング結果と所望のクラス
タリング結果とを比較し、この比較結果が例えば不一致
である場合に、変更手段により分類サンプル情報を変更
可能としたので、より完全な分類サンプル情報に基づい
て新規テキスト群の分類を行うことができることから、
分類精度を極めて高くすることができるという効果を奏
する。
According to the seventh aspect of the present invention, the clustering result of the clustering means is compared with a desired clustering result, and when the comparison result is, for example, inconsistent, the classification sample information can be changed by the changing means. Since it is possible to classify a new text group based on more complete classification sample information,
There is an effect that the classification accuracy can be made extremely high.

【0099】また、請求項8にかかる発明によれば、ク
ラスタリング結果表示手段によりクラスタリング結果を
表示するようにしたので、分類結果の分布をユーザが容
易に把握することができるという効果を奏する。
According to the eighth aspect of the present invention, since the clustering result is displayed by the clustering result display means, the user can easily grasp the distribution of the classification result.

【0100】また、請求項9にかかる発明によれば、最
適化手段により最適化された分類結果に基づいて、分類
学習情報を再生成し、この分類学習情報に従って、新規
テキスト群を再度分類するようにしたので、さらに分類
精度を向上させることができるという効果を奏する。
According to the ninth aspect of the present invention, classification learning information is regenerated based on the classification result optimized by the optimizing means, and the new text group is classified again according to the classification learning information. As a result, there is an effect that the classification accuracy can be further improved.

【0101】また、請求項10にかかる発明によれば、
最適化前後における分類結果の相違を相違認識情報とし
て表示させ、ユーザが一目で相違を認識できるようにし
たので、相違に基づくユーザの対応を迅速に行わせるこ
とができ、結果的に分類精度を高めることができるとい
う効果を奏する。
According to the tenth aspect of the present invention,
The difference between the classification results before and after the optimization is displayed as difference recognition information so that the user can recognize the difference at a glance, so that the user can be promptly dealt with based on the difference, and as a result, the classification accuracy is improved. It has the effect of being able to increase.

【0102】また、請求項11、12、13にかかる発
明によれば、複数の分類方法を使用可能な状態にしてお
き、分類方法決定工程で、分類サンプル情報に基づいて
複数の分類方法の中から最も分類精度が高い分類方法を
決定した後、この分類方法に従って新規テキスト群を分
類カテゴリ毎に分類するようにしたので、従来に比し
て、分類対象の情報の内容、量にかかわらず、分類精度
を高めることができるという効果を奏する。
According to the eleventh, twelfth, and thirteenth aspects of the present invention, a plurality of classification methods are set to be usable, and in the classification method determining step, a plurality of classification methods are selected based on the classification sample information. After determining the classification method with the highest classification accuracy from, the new text group is classified according to the classification method according to this classification method, so compared to the past, regardless of the content and amount of information to be classified, There is an effect that classification accuracy can be improved.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明にかかる一実施の形態の構成を示すブロ
ック図である。
FIG. 1 is a block diagram showing a configuration of an embodiment according to the present invention.

【図2】図1に示した新規テキスト群80の一例を示す
図である。
FIG. 2 is a diagram showing an example of a new text group 80 shown in FIG.

【図3】図1に示した分類結果データ100の一例を示
す図である。
FIG. 3 is a diagram showing an example of classification result data 100 shown in FIG.

【図4】図1に示したクラスタリング部110における
クラスタリング結果Cを示す図である。
FIG. 4 is a diagram showing a clustering result C in the clustering unit 110 shown in FIG.

【図5】図1に示した表示部120の表示例を示す図で
ある。
FIG. 5 is a diagram showing a display example of a display unit 120 shown in FIG.

【図6】図1に示した表示部120の表示例を示す図で
ある。
FIG. 6 is a diagram showing a display example of a display unit 120 shown in FIG.

【図7】図1に示した表示部120の表示例を示す図で
ある。
FIG. 7 is a diagram showing a display example of a display unit 120 shown in FIG.

【図8】同一実施の形態の動作を説明するフローチャー
トである。
FIG. 8 is a flowchart illustrating the operation of the same embodiment.

【図9】図8に示した特徴素抽出処理を説明するフロー
チャートである。
FIG. 9 is a flowchart illustrating a feature element extraction process illustrated in FIG. 8;

【図10】図8に示した分類方法決定処理を説明するフ
ローチャートである。
FIG. 10 is a flowchart illustrating a classification method determination process illustrated in FIG. 8;

【図11】同一実施の形態における特徴素出現頻度順リ
ストR1 を示す図である。
11 is a diagram illustrating a feature element appearance frequency order list R 1 in the same embodiment.

【図12】同一実施の形態における特徴素ランキングリ
ストR2 を示す図である。
12 is a diagram showing the feature elements ranking list R 2 in the same embodiment.

【図13】同一実施の形態における特徴素ランキングリ
ストR3 を示す図である。
13 is a diagram showing the feature elements ranking list R 3 in the same embodiment.

【図14】同一実施の形態におけるクラスタリング結果
分布データCBを示す図である。
FIG. 14 is a diagram showing clustering result distribution data CB in the same embodiment.

【図15】同一実施の形態の変形例1を説明するフロー
チャートである。
FIG. 15 is a flowchart illustrating a first modification of the same embodiment.

【図16】同一実施の形態の変形例2を説明する図であ
る。
FIG. 16 is a diagram illustrating a second modification of the same embodiment.

【図17】同一実施の形態の変形例3を示すブロック図
である。
FIG. 17 is a block diagram showing a third modification of the same embodiment.

【図18】従来の情報分類装置の構成を示すブロック図
である。
FIG. 18 is a block diagram showing a configuration of a conventional information classification device.

【符号の説明】[Explanation of symbols]

20 クラスタリング部 40 特徴素抽出部 50 分類方法決定部 60 分類学習情報生成部 90 自動分類部 110 クラスタリング部 120 表示部 130 入力部 300 コンピュータ 301 CPU 400 記録媒体 Reference Signs List 20 clustering unit 40 feature element extraction unit 50 classification method determination unit 60 classification learning information generation unit 90 automatic classification unit 110 clustering unit 120 display unit 130 input unit 300 computer 301 CPU 400 recording medium

フロントページの続き (72)発明者 坂本 憲彦 静岡県静岡市南町18番1号 株式会社富士 通インフォソフトテクノロジ内 (72)発明者 柴田 竜 静岡県静岡市南町18番1号 株式会社富士 通インフォソフトテクノロジ内 Fターム(参考) 5B075 ND03 NK06 NK32 NK46 NR12 PQ02 PQ46 QM05 UU06 5B082 GA08 Continued on the front page (72) Inventor Norihiko Sakamoto 18-1, Minamicho, Shizuoka City, Shizuoka Prefecture Inside Fujitsu Infosoft Technology Co., Ltd. (72) Inventor Ryu Shibata 18-1, Minamicho, Shizuoka City, Shizuoka Prefecture Fujitsu Infosoft Co., Ltd. F term in technology (reference) 5B075 ND03 NK06 NK32 NK46 NR12 PQ02 PQ46 QM05 UU06 5B082 GA08

Claims (13)

【特許請求の範囲】[Claims] 【請求項1】 複数のサンプルテキストと複数の分類カ
テゴリとが予め対応付けられた分類サンプル情報に含ま
れる複数のサンプルテキストのそれぞれから分類カテゴ
リ毎に特徴素を抽出する特徴素抽出手段と、 前記分類サンプル情報に基づいて、複数の分類方法の中
から最も分類精度が高い分類方法を決定する分類方法決
定手段と、 前記分類方法決定手段により決定された分類方法に従っ
て、前記特徴素抽出手段により抽出された特徴素に基づ
いて、分類カテゴリ毎の特徴を表す分類学習情報を生成
する分類学習情報生成手段と、 前記分類方法決定手段により決定された分類方法および
前記分類学習情報に従って、分類対象である新規テキス
ト群を分類カテゴリ毎に分類する分類手段と、 を備えることを特徴とする情報分類装置。
A feature element extracting unit configured to extract a feature element for each classification category from each of a plurality of sample texts included in classification sample information in which a plurality of sample texts and a plurality of classification categories are associated in advance; A classification method determining unit that determines a classification method with the highest classification accuracy from a plurality of classification methods based on the classification sample information; and an extraction by the feature element extraction unit according to the classification method determined by the classification method determination unit. A classification learning information generating unit that generates classification learning information representing a feature for each classification category based on the obtained feature element; and a classification target according to the classification method determined by the classification method determination unit and the classification learning information. An information classification device, comprising: a classification unit that classifies a new text group for each classification category.
【請求項2】 前記特徴素抽出手段は、複数の特徴素抽
出方法により特徴素をそれぞれ抽出し、これらの抽出結
果に基づいて、複数の特徴素抽出方法の中から分類カテ
ゴリ間の弁別能力が高い特徴素抽出方法を選択し、この
選択結果に対応する特徴素を抽出結果とすることを特徴
とする請求項1に記載の情報分類装置。
2. The feature element extraction means extracts feature elements by a plurality of feature element extraction methods, respectively, and based on the extraction results, a discriminating ability between classification categories from the plurality of feature element extraction methods. The information classification apparatus according to claim 1, wherein a high feature element extraction method is selected, and a feature element corresponding to the selection result is set as an extraction result.
【請求項3】 前記特徴素抽出手段により抽出された特
徴素を編集する編集手段を備えることを特徴とする請求
項1に記載の情報分類装置。
3. The information classification apparatus according to claim 1, further comprising an editing unit that edits the feature element extracted by the feature element extraction unit.
【請求項4】 前記分類方法決定手段は、クロスバリデ
ーション方式により、複数の分類方法の中から最も分類
精度が高い分類方法を決定することを特徴とする請求項
1〜3のいずれか一つに記載の情報分類装置。
4. The classification method according to claim 1, wherein the classification method determination unit determines a classification method having the highest classification accuracy from a plurality of classification methods by a cross-validation method. Described information classification device.
【請求項5】 前記分類サンプル情報、前記新規テキス
ト群における分類対象箇所を指定する指定手段を備える
ことを特徴とする請求項1〜4のいずれか一つに記載の
情報分類装置。
5. The information classification apparatus according to claim 1, further comprising a specification unit that specifies a classification target portion in the classification sample information and the new text group.
【請求項6】 複数のサンプルテキストをクラスタリン
グすることで、前記複数のサンプルテキストと複数の分
類カテゴリとが対応付けられた前記分類サンプル情報を
生成するクラスタリング手段を備えることを特徴とする
請求項1〜5のいずれか一つに記載の情報分類装置。
6. A clustering means for clustering a plurality of sample texts to generate the classification sample information in which the plurality of sample texts are associated with a plurality of classification categories. The information classification device according to any one of Items 1 to 5,
【請求項7】 前記分類サンプル情報をクラスタリング
するクラスタリング手段と、前記クラスタリング手段の
クラスタリング結果と所望のクラスタリング結果とを比
較する比較手段と、前記比較手段の比較結果に基づい
て、必要に応じて前記分類サンプル情報を変更する変更
手段とを備えることを特徴とする請求項1〜5のいずれ
か一つに記載の情報分類装置。
7. A clustering means for clustering the classified sample information, a comparing means for comparing a clustering result of the clustering means with a desired clustering result, and, if necessary, based on a comparison result of the comparing means. The information classification device according to claim 1, further comprising a change unit configured to change the classification sample information.
【請求項8】 前記分類手段の分類結果における新規テ
キスト群をクラスタリングし、クラスタリング結果を表
示するクラスタリング結果表示手段を備えることを特徴
とする請求項1〜7のいずれか一つに記載の情報分類装
置。
8. The information classification according to claim 1, further comprising a clustering result display unit that clusters a new text group in the classification result of the classification unit and displays the clustering result. apparatus.
【請求項9】 前記分類手段の分類結果を最適化する最
適化手段を備え、前記分類学習情報生成手段は、最適化
された分類結果に基づいて、分類学習情報を再生成し、
前記分類手段は、前記分類方法決定手段により決定され
た分類方法および再生成された前記分類学習情報に従っ
て、分類対象である新規テキスト群を分類カテゴリ毎に
分類することを特徴とする請求項1〜8のいずれか一つ
に記載の情報分類装置。
9. An optimizing unit for optimizing a classification result of the classification unit, wherein the classification learning information generating unit regenerates classification learning information based on the optimized classification result,
The method according to claim 1, wherein the classification unit classifies the new text group to be classified for each classification category according to the classification method determined by the classification method determination unit and the regenerated classification learning information. 8. The information classification device according to any one of 8.
【請求項10】 前記最適化前の分類結果と前記最適化
後の分類結果との相違を視覚的に認識可能な相違認識情
報として表示する相違認識情報表示手段を備えることを
特徴とする請求項9に記載の情報分類装置。
10. A difference recognition information display means for displaying a difference between the classification result before optimization and the classification result after optimization as difference recognition information that can be visually recognized. 9. The information classification device according to item 9.
【請求項11】 複数のサンプルテキストと複数の分類
カテゴリとが予め対応付けられた分類サンプル情報に含
まれる複数のサンプルテキストのそれぞれから分類カテ
ゴリ毎に特徴素を抽出する特徴素抽出工程と、 前記分類サンプル情報に基づいて、複数の分類方法の中
から最も分類精度が高い分類方法を決定する分類方法決
定工程と、 前記分類方法決定工程で決定された分類方法に従って、
前記特徴素抽出工程で抽出された特徴素に基づいて、分
類カテゴリ毎の特徴を表す分類学習情報を生成する分類
学習情報生成工程と、 前記分類方法決定工程で決定された分類方法および前記
分類学習情報に従って、分類対象である新規テキスト群
を分類カテゴリ毎に分類する分類工程と、 を含むことを特徴とする情報分類方法。
11. A feature element extracting step of extracting a feature element for each classification category from each of a plurality of sample texts included in classification sample information in which a plurality of sample texts and a plurality of classification categories are associated in advance, Based on the classification sample information, a classification method determination step of determining the classification method with the highest classification accuracy from among a plurality of classification methods, according to the classification method determined in the classification method determination step,
A classification learning information generating step of generating classification learning information representing a feature for each classification category based on the characteristic element extracted in the characteristic element extraction step; a classification method determined in the classification method determining step; and the classification learning A classification step of classifying a new text group to be classified according to the information for each classification category.
【請求項12】 複数のサンプルテキストと複数の分類
カテゴリとが予め対応付けられた分類サンプル情報に含
まれる複数のサンプルテキストのそれぞれから分類カテ
ゴリ毎に特徴素を抽出させる特徴素抽出工程と、 前記分類サンプル情報に基づいて、複数の分類方法の中
から最も分類精度が高い分類方法を決定させる分類方法
決定工程と、 前記分類方法決定工程で決定された分類方法に従って、
前記特徴素抽出工程で抽出された特徴素に基づいて、分
類カテゴリ毎の特徴を表す分類学習情報を生成させる分
類学習情報生成工程と、 前記分類方法決定工程で決定された分類方法および前記
分類学習情報に従って、分類対象である新規テキスト群
を分類カテゴリ毎に分類させる分類工程と、 をコンピュータに実行させるための情報分類プログラム
を記録したコンピュータ読み取り可能な記録媒体。
12. A feature element extracting step of extracting a feature element for each classification category from each of a plurality of sample texts included in classification sample information in which a plurality of sample texts and a plurality of classification categories are associated in advance, Based on the classification sample information, a classification method determining step of determining the classification method with the highest classification accuracy from a plurality of classification methods, according to the classification method determined in the classification method determination step,
A classification learning information generation step of generating classification learning information representing a feature for each classification category based on the feature element extracted in the characteristic element extraction step; a classification method determined in the classification method determination step; and the classification learning A computer-readable recording medium that records an information classification program for causing a computer to execute a classification step of classifying a new text group to be classified into classification categories according to information;
【請求項13】 複数のサンプルテキストと複数の分類
カテゴリとが予め対応付けられた分類サンプル情報に含
まれる複数のサンプルテキストのそれぞれから分類カテ
ゴリ毎に特徴素を抽出させる特徴素抽出手順と、 前記分類サンプル情報に基づいて、複数の分類方法の中
から最も分類精度が高い分類方法を決定させる分類方法
決定手順と、 前記分類方法決定手順で決定された分類方法に従って、
前記特徴素抽出手順で抽出された特徴素に基づいて、分
類カテゴリ毎の特徴を表す分類学習情報を生成させる分
類学習情報生成手順と、 前記分類方法決定手順で決定された分類方法および前記
分類学習情報に従って、分類対象である新規テキスト群
を分類カテゴリ毎に分類させる分類手順と、 をコンピュータに実行させることを特徴とする情報分類
プログラム。
13. A feature element extraction procedure for extracting a feature element for each classification category from each of a plurality of sample texts included in classification sample information in which a plurality of sample texts and a plurality of classification categories are associated in advance; Based on the classification sample information, a classification method determination procedure for determining the classification method with the highest classification accuracy from among a plurality of classification methods, and according to the classification method determined in the classification method determination procedure,
A classification learning information generation step of generating classification learning information representing a feature for each classification category based on the feature element extracted in the characteristic element extraction step; a classification method determined in the classification method determination step; and the classification learning An information classification program characterized by causing a computer to execute a classification procedure for classifying a new text group to be classified according to information according to classification categories.
JP2001111942A 2000-04-17 2001-04-10 Information classification apparatus and information classification program Expired - Fee Related JP4017354B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001111942A JP4017354B2 (en) 2000-04-17 2001-04-10 Information classification apparatus and information classification program

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000115669 2000-04-17
JP2000-115669 2000-04-17
JP2001111942A JP4017354B2 (en) 2000-04-17 2001-04-10 Information classification apparatus and information classification program

Publications (2)

Publication Number Publication Date
JP2002007433A true JP2002007433A (en) 2002-01-11
JP4017354B2 JP4017354B2 (en) 2007-12-05

Family

ID=26590260

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001111942A Expired - Fee Related JP4017354B2 (en) 2000-04-17 2001-04-10 Information classification apparatus and information classification program

Country Status (1)

Country Link
JP (1) JP4017354B2 (en)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287776A (en) * 2003-03-20 2004-10-14 Fujitsu Ltd Document classification method, document classification device, and document classification program
WO2007077991A1 (en) * 2006-01-06 2007-07-12 Sony Corporation Information processing device and method, and program
JP2008046729A (en) * 2006-08-11 2008-02-28 Kddi Corp Moving image topic division device
JP2008532180A (en) * 2005-03-04 2008-08-14 イーストマン コダック カンパニー Additional clustering of images with missing time information
US7458034B2 (en) 2002-05-08 2008-11-25 Kabushiki Kaisha Toshiba Data organization support method and program product therefor
WO2009087757A1 (en) * 2008-01-08 2009-07-16 Mitsubishi Electric Corporation Information filtering system, information filtering method, and information filtering program
WO2010038481A1 (en) * 2008-10-03 2010-04-08 富士通株式会社 Computer-readable recording medium containing a sentence extraction program, sentence extraction method, and sentence extraction device
JP2010282416A (en) * 2009-06-04 2010-12-16 Fujitsu Ltd Section data-recommending method, program, and device
WO2015030112A1 (en) * 2013-08-29 2015-03-05 株式会社Ubic Document sorting system, document sorting method, and document sorting program
US9177260B2 (en) 2009-08-11 2015-11-03 Nec Corporation Information classification device, information classification method, and computer readable recording medium
JP2016012258A (en) * 2014-06-30 2016-01-21 富士ゼロックス株式会社 Learning program and information processing apparatus
WO2016203652A1 (en) * 2015-06-19 2016-12-22 株式会社Ubic System related to data analysis, control method, control program, and recording medium therefor
JP2018092612A (en) * 2016-12-01 2018-06-14 富士通株式会社 Valuation device of complexity of classification task and method
JP2019003254A (en) * 2017-06-12 2019-01-10 ヤフー株式会社 Category selection apparatus, advertisement distribution system, category selection method and program
JP2019067433A (en) * 2012-12-28 2019-04-25 株式会社ユニバーサルエンターテインメント Subject provision system

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7458034B2 (en) 2002-05-08 2008-11-25 Kabushiki Kaisha Toshiba Data organization support method and program product therefor
JP2004287776A (en) * 2003-03-20 2004-10-14 Fujitsu Ltd Document classification method, document classification device, and document classification program
JP2008532180A (en) * 2005-03-04 2008-08-14 イーストマン コダック カンパニー Additional clustering of images with missing time information
US8204837B2 (en) 2006-01-06 2012-06-19 Sony Corporation Information processing apparatus and method, and program for providing information suitable for a predetermined mood of a user
WO2007077991A1 (en) * 2006-01-06 2007-07-12 Sony Corporation Information processing device and method, and program
JP2008046729A (en) * 2006-08-11 2008-02-28 Kddi Corp Moving image topic division device
WO2009087757A1 (en) * 2008-01-08 2009-07-16 Mitsubishi Electric Corporation Information filtering system, information filtering method, and information filtering program
KR101139192B1 (en) * 2008-01-08 2012-04-26 미쓰비시덴키 가부시키가이샤 Information filtering system, information filtering method, and computer-readable recording medium having information filtering program recorded
JP5079019B2 (en) * 2008-01-08 2012-11-21 三菱電機株式会社 Information filtering system, information filtering method, and information filtering program
US8442926B2 (en) 2008-01-08 2013-05-14 Mitsubishi Electric Corporation Information filtering system, information filtering method and information filtering program
WO2010038481A1 (en) * 2008-10-03 2010-04-08 富士通株式会社 Computer-readable recording medium containing a sentence extraction program, sentence extraction method, and sentence extraction device
JP2010092108A (en) * 2008-10-03 2010-04-22 Fujitsu Ltd Similar sentence extraction program, method, and apparatus
JP2010282416A (en) * 2009-06-04 2010-12-16 Fujitsu Ltd Section data-recommending method, program, and device
US9177260B2 (en) 2009-08-11 2015-11-03 Nec Corporation Information classification device, information classification method, and computer readable recording medium
JP2019067433A (en) * 2012-12-28 2019-04-25 株式会社ユニバーサルエンターテインメント Subject provision system
WO2015030112A1 (en) * 2013-08-29 2015-03-05 株式会社Ubic Document sorting system, document sorting method, and document sorting program
JP5986687B2 (en) * 2013-08-29 2016-09-06 株式会社Ubic Data separation system, data separation method, program for data separation, and recording medium for the program
US10489427B2 (en) 2013-08-29 2019-11-26 Fronteo, Inc. Document classification system, document classification method, and document classification program
JPWO2015030112A1 (en) * 2013-08-29 2017-03-02 株式会社Ubic Data separation system, data separation method, program for data separation, and recording medium for the program
JP2016012258A (en) * 2014-06-30 2016-01-21 富士ゼロックス株式会社 Learning program and information processing apparatus
WO2016203652A1 (en) * 2015-06-19 2016-12-22 株式会社Ubic System related to data analysis, control method, control program, and recording medium therefor
JP2018092612A (en) * 2016-12-01 2018-06-14 富士通株式会社 Valuation device of complexity of classification task and method
JP2019003254A (en) * 2017-06-12 2019-01-10 ヤフー株式会社 Category selection apparatus, advertisement distribution system, category selection method and program

Also Published As

Publication number Publication date
JP4017354B2 (en) 2007-12-05

Similar Documents

Publication Publication Date Title
US6654744B2 (en) Method and apparatus for categorizing information, and a computer product
JP4382526B2 (en) Sentence classification apparatus and method
JP2002007433A (en) Information sorter, information sorting method, computer readable recording medium recorded with information sorting program and information sorting program
JP2003030224A (en) Device for preparing document cluster, system for retrieving document and system for preparing faq
JPH07114572A (en) Document classifying device
JP5160312B2 (en) Document classification device
MX2012011923A (en) Ascribing actionable attributes to data that describes a personal identity.
JP3735335B2 (en) Example-based search method and search system for similarity judgment
US7836059B2 (en) System and method for minimally predictive feature identification
JP3820878B2 (en) Information search device, score determination device, information search method, score determination method, and program recording medium
JP3333998B2 (en) Automatic classifying apparatus and method
WO2008062822A1 (en) Text mining device, text mining method and text mining program
JP4426041B2 (en) Information retrieval method by category factor
JP4640593B2 (en) Multilingual document search device, multilingual document search method, and multilingual document search program
JP5780036B2 (en) Extraction program, extraction method and extraction apparatus
JPH08272806A (en) Data base retrieval system
JPH08287086A (en) Method and device for emphasizing and displaying image in order of adaptability
JP4813312B2 (en) Electronic document search method, electronic document search apparatus and program
JP4426893B2 (en) Document search method, document search program, and document search apparatus for executing the same
JP4128033B2 (en) Profile data retrieval apparatus and program
JP2000305950A (en) Document sorting device and document sorting method
JP6181890B2 (en) Literature analysis apparatus, literature analysis method and program
JP2001101226A (en) Document group sorter and document group sorting method
JP3210842B2 (en) Information processing device
JPH08305710A (en) Method for extracting key word of document and document retrieving device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070605

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070911

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070918

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100928

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100928

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110928

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120928

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120928

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130928

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees