JP2017027495A - Verification device, classification system, verification method, classification method, and computer program - Google Patents
Verification device, classification system, verification method, classification method, and computer program Download PDFInfo
- Publication number
- JP2017027495A JP2017027495A JP2015147577A JP2015147577A JP2017027495A JP 2017027495 A JP2017027495 A JP 2017027495A JP 2015147577 A JP2015147577 A JP 2015147577A JP 2015147577 A JP2015147577 A JP 2015147577A JP 2017027495 A JP2017027495 A JP 2017027495A
- Authority
- JP
- Japan
- Prior art keywords
- verification
- classification
- data
- classifier
- hierarchy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、データの分類技術に関する。 The present invention relates to a data classification technique.
従来のテキスト分類技術として、例えば特許文献1,2が知られている。特許文献1のテキスト分類技術では、階層化されたカテゴリにテキストを分類する。特許文献2のテキスト分類技術では、文書の階層型分類において、情報のカテゴリを、検索に関連する情報を含むバイナリツリーのノードを含むバイナリツリーとして構成する。 For example, Patent Documents 1 and 2 are known as conventional text classification techniques. In the text classification technique disclosed in Patent Document 1, texts are classified into hierarchical categories. In the text classification technique of Patent Document 2, in the hierarchical classification of documents, an information category is configured as a binary tree including nodes of a binary tree including information related to search.
しかし、上述した従来のテキスト分類技術では、階層化されたカテゴリにおいて階層が深くなるにつれて分類精度が低下する場合があった。また、カテゴリの階層構造が大規模になると、実際の分類に不要のカテゴリも含まれる事象が発生して分類処理の効率が悪くなる可能性があった。 However, in the conventional text classification technique described above, the classification accuracy may decrease as the hierarchy becomes deeper in the hierarchical category. In addition, when the category hierarchy structure is large, an event that includes an unnecessary category in the actual classification may occur, and the efficiency of the classification process may deteriorate.
本発明は、このような事情を考慮してなされたものであり、テキスト分類処理の精度や効率の向上を図ることができる、検証装置、分類システム、検証方法、分類方法、及びコンピュータプログラムを提供することを課題とする。 The present invention has been made in view of such circumstances, and provides a verification apparatus, a classification system, a verification method, a classification method, and a computer program capable of improving the accuracy and efficiency of text classification processing. The task is to do.
(1)本発明の一態様は、データを分類する先である分類項目及び分類項目の階層を示す分類構造データの検証を行う検証装置において、前記分類構造データに属するラベルのうち正解ラベルが付与された検証教師データのうち、前記分類構造データにおける検証対象階層の分類項目のうち検証対象分類項目の識別番号を含む正解ラベルが付与された正例の前記検証教師データである検証正例学習データと、前記検証対象分類項目の識別番号を含まない正解ラベルが付与された負例の前記検証教師データである検証負例学習データとを使用して、前記検証対象分類項目についての分類器を生成する分類器生成部と、前記検証教師データのうち、前記正例の検証教師データであって前記検証正例学習データと異なる前記検証教師データである検証正例テストデータ、又は、前記負例の検証教師データであって前記検証負例学習データと異なる前記検証教師データである検証負例テストデータを使用して、前記分類器生成部により生成された前記分類器の適合度を計算する適合度計算部と、前記適合度計算部により計算された前記適合度に基づいて、前記検証対象階層における前記検証対象分類項目の採用を判断する階層設定部と、を備える検証装置である。
(2)本発明の一態様は、上記(1)の検証装置において、前記分類構造データにおける上位の階層から下位の階層へと順番に前記検証対象階層を検証し、不採用と判断された前記検証対象分類項目に属する下層の分類項目に対しては前記検証の手順を実行しないで不採用とする、検証装置である。
(1) According to one aspect of the present invention, in a verification apparatus that verifies classification structure data indicating a classification item to which data is classified and a hierarchy of classification items, a correct label is assigned among the labels belonging to the classification structure data. Among the verified verification teacher data, the verification correct example learning data that is the correct verification teacher data to which the correct label including the identification number of the verification target classification item among the classification items of the verification target hierarchy in the classification structure data is given And a verification negative example learning data that is the verification teacher data of the negative example to which the correct answer label not including the identification number of the verification target classification item is given, and generates a classifier for the verification target classification item A classifier generating unit that performs verification of the verification teacher data of the positive example and the verification teacher data different from the verification positive example learning data. Generated by the classifier generator using positive example test data or verification negative example test data that is the verification teacher data of the negative example and the verification teacher data different from the verification negative example learning data A fitness calculation unit that calculates the fitness of the classifier, and a hierarchy setting unit that determines adoption of the verification target classification item in the verification target hierarchy based on the fitness calculated by the fitness calculation unit; , A verification device comprising:
(2) According to one aspect of the present invention, in the verification device according to (1), the verification target hierarchy is verified in order from an upper hierarchy to a lower hierarchy in the classification structure data, and the non-adoption is determined This is a verification device that rejects a lower-level classification item belonging to a verification target classification item without executing the verification procedure.
(3)本発明の一態様は、上記(1)又は(2)のいずれかの検証装置と、前記検証装置による分類項目検証結果が反映された分類構造データの分類器を使用して、入力データの分類を行う分類部と、を備える分類システムである。
(4)本発明の一態様は、上記(3)の分類システムにおいて、前記分類部は、前記分類構造データにおける最上位階層から前記入力データの分類を開始し、分類成功の分類項目に属する一つ下層の分類のみを順次行う、分類システムである。
(3) According to one aspect of the present invention, the verification device according to any one of (1) and (2) above and a classifier of classification structure data in which a classification item verification result by the verification device is reflected are input. And a classification unit that classifies data.
(4) According to one aspect of the present invention, in the classification system of (3), the classification unit starts classification of the input data from the highest hierarchy in the classification structure data, and belongs to the classification item of classification success. It is a classification system that performs only the lower layer classification sequentially.
(5)本発明の一態様は、データを分類する先である分類項目及び分類項目の階層を示す分類構造データの検証方法において、検証装置が、前記分類構造データに属するラベルのうち正解ラベルが付与された検証教師データのうち、前記分類構造データにおける検証対象階層の分類項目のうち検証対象分類項目の識別番号を含む正解ラベルが付与された正例の前記検証教師データである検証正例学習データと、前記検証対象分類項目の識別番号を含まない正解ラベルが付与された負例の前記検証教師データである検証負例学習データとを使用して、前記検証対象分類項目についての分類器を生成する分類器生成ステップと、前記検証装置が、前記検証教師データのうち、前記正例の検証教師データであって前記検証正例学習データと異なる前記検証教師データである検証正例テストデータ、又は、前記負例の検証教師データであって前記検証負例学習データと異なる前記検証教師データである検証負例テストデータを使用して、前記分類器生成ステップにより生成された前記分類器の適合度を計算する適合度計算ステップと、前記検証装置が、前記適合度計算ステップにより計算された前記適合度に基づいて、前記検証対象階層における前記検証対象分類項目の採用を判断する階層設定ステップと、を含む検証方法である。 (5) According to one aspect of the present invention, in the verification method of classification structure data indicating a classification item to which data is classified and a hierarchy of classification items, the verification device has a correct label among the labels belonging to the classification structure data. Verification example learning that is the verification example data of the correct example to which the correct answer label including the identification number of the verification target classification item among the classification items of the verification target hierarchy in the classification structure data is given among the provided verification teacher data A classifier for the verification target classification item using data and verification negative example learning data that is the verification teacher data of the negative example to which the correct answer label not including the identification number of the verification target classification item is assigned A classifier generation step to generate, and the verification device is the verification teacher data of the positive example among the verification teacher data before being different from the verification positive example learning data The classifier using the verification positive example test data that is verification teacher data or the verification negative example test data that is the verification teacher data of the negative example that is different from the verification negative example learning data A fitness calculation step for calculating the fitness of the classifier generated by the generation step; and the verification device in the verification target hierarchy based on the fitness calculated by the fitness calculation step And a hierarchy setting step for determining adoption of a classification item.
(6)本発明の一態様は、上記(5)の検証方法により分類構造データの検証を行う検証ステップと、分類部が、前記検証ステップによる分類項目検証結果が反映された分類構造データの分類器を使用して、入力データの分類を行う分類ステップと、を含む分類方法である。 (6) In one aspect of the present invention, a verification step of verifying classification structure data by the verification method of (5) above, and a classification unit classifying classification structure data in which a classification item verification result in the verification step is reflected And a classification step of classifying input data using a container.
(7)本発明の一態様は、データを分類する先である分類項目及び分類項目の階層を示す分類構造データの検証を行うためのコンピュータプログラムであって、前記分類構造データに属するラベルのうち正解ラベルが付与された検証教師データのうち、前記分類構造データにおける検証対象階層の分類項目のうち検証対象分類項目の識別番号を含む正解ラベルが付与された正例の前記検証教師データである検証正例学習データと、前記検証対象分類項目の識別番号を含まない正解ラベルが付与された負例の前記検証教師データである検証負例学習データとを使用して、前記検証対象分類項目についての分類器を生成する分類器生成ステップと、前記検証教師データのうち、前記正例の検証教師データであって前記検証正例学習データと異なる前記検証教師データである検証正例テストデータ、又は、前記負例の検証教師データであって前記検証負例学習データと異なる前記検証教師データである検証負例テストデータを使用して、前記分類器生成ステップにより生成された前記分類器の適合度を計算する適合度計算ステップと、前記適合度計算ステップにより計算された前記適合度に基づいて、前記検証対象階層における前記検証対象分類項目の採用を判断する階層設定ステップと、をコンピュータに実行させるためのコンピュータプログラムである。
(8)本発明の一態様は、上記(7)のコンピュータプログラムにおいて、前記コンピュータプログラムの実行結果である分類項目検証結果が反映された分類構造データの分類器を使用して入力データの分類を行う分類ステップ、をさらにコンピュータに実行させるためのコンピュータプログラムである。
(7) One aspect of the present invention is a computer program for verifying classification structure data indicating a classification item to which data is classified and a hierarchy of classification items, and among the labels belonging to the classification structure data Verification that is the verification teacher data of the correct example to which the correct answer label including the identification number of the verification target classification item among the classification items of the verification target hierarchy in the classification structure data is provided among the verification teacher data to which the correct label is assigned Using the positive example learning data and the verification negative example learning data that is the verification teacher data of the negative example given the correct answer label that does not include the identification number of the verification target classification item, the verification target classification item A classifier generating step for generating a classifier, and the verification teacher data of the positive example among the verification teacher data, which is different from the verification positive example learning data Using the verification positive example test data that is the verification teacher data or the verification negative example test data that is the verification teacher data of the negative example that is different from the verification negative example learning data A fitness calculation step for calculating the fitness of the classifier generated by the generator generation step, and the adoption of the verification target classification item in the verification target hierarchy based on the fitness calculated by the fitness calculation step A computer program for causing a computer to execute a hierarchy setting step for determining
(8) According to one aspect of the present invention, in the computer program of (7), the classification of input data is performed using a classification structure data classifier that reflects a classification item verification result that is an execution result of the computer program. A computer program for causing a computer to further execute a classification step to be performed.
本発明によれば、テキスト分類処理の精度や効率の向上を図ることができるという効果が得られる。 According to the present invention, it is possible to improve the accuracy and efficiency of text classification processing.
以下、図面を参照し、本発明の実施形態について説明する。
図1は、本発明の一実施形態に係る分類システム1を示す構成図である。図1に示す分類システム1は、検証モジュール11と、分類器生成モジュール12と、コンテンツ分類モジュール13と、学習データベース(学習DB)14を備える。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a configuration diagram showing a classification system 1 according to an embodiment of the present invention. The classification system 1 shown in FIG. 1 includes a
[学習データベース]
学習DB_14は、分類構造データ及び教師データを格納する。分類構造データは予め作成されて学習DB_14に格納される。分類構造データの作成には、例えば、グラウンデッド・セオリー・アプローチ(Grounded Theory Approach)技術を利用することができる。
[Learning database]
The learning DB_14 stores classification structure data and teacher data. The classification structure data is created in advance and stored in the learning DB_14. For creating classification structure data, for example, Grounded Theory Approach technology can be used.
分類構造データは、データを分類する先である分類項目及び分類項目の階層を示すデータである。図2は、本実施形態に係る分類構造データの構成例を示す図である。図2において、分類構造データは、第1階層から第3階層までの3つの階層を有し、階層毎に分類項目を有する。 The classification structure data is data indicating a classification item to which the data is classified and a hierarchy of the classification items. FIG. 2 is a diagram illustrating a configuration example of classification structure data according to the present embodiment. In FIG. 2, the classification structure data has three layers from the first layer to the third layer, and has a classification item for each layer.
図2に示す分類構造データにおいて、第1階層の分類項目は「音楽」であり、第1階層の分類項目「音楽」の識別番号は「1」である。第1階層の分類項目「音楽」に属する下層である第2階層の分類項目は「ジャンル」と「音色」であり、該第2階層の分類項目「ジャンル」の識別番号は「1」であり、該第2階層の分類項目「音色」の識別番号は「2」である。第2階層の分類項目「ジャンル」に属する下層である第3階層の分類項目は「クラシック」と「ポップス」であり、該第3階層の分類項目「クラシック」の識別番号は「1」であり、該第3階層の分類項目「ポップス」の識別番号は「2」である。第2階層の分類項目「音色」に属する下層である第3階層の分類項目は「くらい」と「明るい」と「暖かい」であり、該第3階層の分類項目「くらい」の識別番号は「1」であり、該第3階層の分類項目「明るい」の識別番号は「2」であり、該第3階層の分類項目「暖かい」の識別番号は「3」である。 In the classification structure data shown in FIG. 2, the classification item of the first hierarchy is “music”, and the identification number of the classification item “music” of the first hierarchy is “1”. The category items of the second layer, which is the lower layer belonging to the category item “music” of the first layer, are “genre” and “tone”, and the identification number of the category item “genre” of the second layer is “1”. The identification number of the classification item “tone color” in the second hierarchy is “2”. The classification items of the third layer, which is the lower layer belonging to the classification item “genre” of the second layer, are “classic” and “pops”, and the identification number of the classification item “classic” of the third layer is “1”. The identification number of the classification item “pops” in the third hierarchy is “2”. The classification items of the third layer, which is the lower layer belonging to the classification item “timbre” of the second layer, are “about”, “bright” and “warm”, and the identification number of the classification item “about” of the third layer is “ The identification number of the classification item “bright” in the third hierarchy is “2”, and the identification number of the classification item “warm” in the third hierarchy is “3”.
図2に示す分類構造データは、例えばテキストデータを音楽のジャンルや印象で分類する場合に利用される。図2に示す分類構造データにおいて、第1階層は、分類対象のテキストデータのうちトピックが「音楽」であるテキストデータを分類する先となる。第2階層は、トピックが「音楽」であるテキストデータのうち「ジャンル」又は「音色」に関するテキストデータを分類する先となる。第3階層は、トピックが「音楽」であるテキストデータであって「ジャンル」又は「音色」に関するテキストデータのうち「ジャンル」又は「音色」の具体的な分類項目に関するテキストデータを分類する先となる。 The classification structure data shown in FIG. 2 is used, for example, when text data is classified by music genre or impression. In the classification structure data shown in FIG. 2, the first hierarchy is a destination for classifying text data whose topic is “music” among the text data to be classified. The second hierarchy is a destination for classifying text data related to “genre” or “tone” among text data whose topic is “music”. The third hierarchy is text data whose topic is “music” and classifies text data related to specific classification items of “genre” or “tone” among text data related to “genre” or “tone”. Become.
図2に示す分類構造データによって分類されたテキストデータには、分類された先の分類項目の識別番号から構成されるラベルが付与される。図2には、第3階層まで分類されたテキストデータに対して付与されるラベル「111」,「112」,「121」,「122」及び「123」が示される。例えば、テキストデータ「私の好きな音楽はクラシック」に対して、分類結果のラベル「111」が付与される。テキストデータ「暖かい音色の音楽が好き」に対して、分類結果のラベル「123」が付与される。また、第2階層まで分類されたテキストデータとして、例えば「私は音楽ならどんなジャンルでも好き」に対して、分類結果のラベル「11」が付与される。また、第1階層まで分類されたテキストデータとして、例えば「私は音楽が好き」に対して、分類結果のラベル「1」が付与される。 The text data classified by the classification structure data shown in FIG. 2 is given a label composed of the identification numbers of the classified previous classification items. FIG. 2 shows labels “111”, “112”, “121”, “122”, and “123” assigned to the text data classified up to the third hierarchy. For example, a label “111” as a classification result is assigned to text data “My favorite music is classic”. A label “123” as a classification result is assigned to the text data “I like music with a warm tone color”. As text data classified up to the second level, for example, a label “11” as a classification result is assigned to “I like any genre as long as it is music”. As text data classified up to the first level, for example, a label “1” as a classification result is given to “I like music”.
教師データは、学習DB_14内の分類構造データに属するラベルのうち正解ラベルが付与されたテキストデータである。教師データのテキストデータは、例えば、一般大衆に対して実施されたアンケートの回答として自由記述された文章のテキストデータである。該テキストデータに対して分類構造データに属する正解ラベルが付与されたデータが、教師データとして利用される。例えば、人間がテキストデータを分析して該テキストデータの正解ラベルを判断し、判断結果の正解ラベルを該テキストデータに付与する。 The teacher data is text data to which the correct label is assigned among the labels belonging to the classification structure data in the learning DB_14. The text data of the teacher data is, for example, text data of a sentence that is freely described as an answer to a questionnaire conducted for the general public. Data to which the correct label belonging to the classification structure data is assigned to the text data is used as teacher data. For example, a human analyzes text data to determine the correct label of the text data, and assigns the correct answer label of the determination result to the text data.
[分類器生成モジュール]
分類器生成モジュール12は、学習DB_14内の分類構造データ及び教師データを使用して分類器を生成する。分類器生成モジュール12は、学習DB_14内の分類構造データにおけるラベル毎に、教師データを仕分ける。図2に示す分類構造データの例では、8個のラベル「1」,「11」,「12」,「111」,「112」,「121」,「122」及び「123」の各々で、教師データが仕分けされる。
[Classifier generation module]
The
ラベル毎の教師データの仕分けでは、仕分け対象ラベルに対して、教師データに付与された正解ラベルと仕分け対象ラベルを比較し、両者が一致した教師データと両者が不一致した教師データとに仕分ける。例えば仕分け対象ラベル「111」に対して、学習DB_14内の教師データのうち、ラベル「111」が付与された教師データを仕分け対象ラベル「111」の正例データグループにグルーピングし、ラベル「111」が付与されていない教師データを仕分け対象ラベル「111」の負例データグループにグルーピングする。また、例えば仕分け対象ラベル「11」に対して、学習DB_14内の教師データのうち、ラベル「11」が付与された教師データを仕分け対象ラベル「11」の正例データグループにグルーピングし、ラベル「11」が付与されていない教師データを仕分け対象ラベル「11」の負例データグループにグルーピングする。また、例えば仕分け対象ラベル「1」に対して、学習DB_14内の教師データのうち、ラベル「1」が付与された教師データを仕分け対象ラベル「1」の正例データグループにグルーピングし、ラベル「1」が付与されていない教師データを仕分け対象ラベル「1」の負例データグループにグルーピングする。 In the classification of the teacher data for each label, the correct label given to the teacher data and the classification target label are compared with the classification target label, and the data is classified into the teacher data in which both match and the teacher data in which they do not match. For example, for the classification target label “111”, among the teacher data in the learning DB_14, the teacher data to which the label “111” is assigned is grouped into a positive example data group of the classification target label “111”, and the label “111” is grouped. Is grouped into the negative example data group of the sorting target label “111”. Further, for example, for the classification target label “11”, among the teacher data in the learning DB_14, the teacher data to which the label “11” is assigned is grouped into a positive data group of the classification target label “11”, and the label “11” is grouped. Teacher data to which “11” is not assigned is grouped into a negative example data group with a sorting target label “11”. Further, for example, for the classification target label “1”, among the teacher data in the learning DB_14, the teacher data to which the label “1” is assigned is grouped into the positive example data group of the classification target label “1”, and the label “ Teacher data to which “1” is not assigned is grouped into a negative example data group with a sorting target label “1”.
分類器生成モジュール12は、分類器生成対象ラベルの正例データグループと負例データグループを使用して、分類器生成対象ラベルについての分類器を生成する。分類器生成対象ラベルについての分類器は、分類対象のテキストデータが分類器生成対象ラベルに該当するか否かを判定する機能を有する。分類器として、例えば、SVM(Support Vector Machine)や「Bayesian Network」などの分類器を利用してもよい。又は、分類器生成対象ラベルの正例データグループから正例ベクトルを生成し、分類器生成対象ラベルの負例データグループから負例ベクトルを生成し、正例ベクトルと負例ベクトルのベクトル類似度に基づいて分類器を生成してもよい。
The
[検証モジュール]
検証モジュール11は、学習DB_14内の分類構造データの検証を行う。図3を参照して検証モジュール11の動作を説明する。図3は、本実施形態に係る検証方法のフローチャートである。図3に示す検証方法の手順(ステップS111〜S114)は、分類構造データにおける上位の階層から下位の階層へと順番に実行される。例えば、図2に示す分類構造データに対して、最初に第1階層に対してステップS111〜S114を実行し、次いで第2階層に対してステップS111〜S114を実行し、最後に第3階層に対してステップS111〜S114を実行する。
[Verification module]
The
分類構造データの検証には検証教師データを使用する。検証教師データは、例えば、直近の一定期間(例えば、直近の半年間)に実施されたアンケートの回答として自由記述された文章のテキストデータに対して、分類構造データに属するラベルのうち正解ラベルが付与されたテキストデータである。例えば、人間がテキストデータを分析して該テキストデータの正解ラベルを判断し、判断結果の正解ラベルを該テキストデータに付与する。検証教師データは、学習DB_14に格納されている。検証教師データは、学習DB_14に格納されている教師データのうち、全ての教師データであってもよく、又は、一部の教師データであってもよい。 Verification teacher data is used for verification of classification structure data. The verification teacher data includes, for example, the correct label among the labels belonging to the classification structure data with respect to the text data of a sentence that is freely described as an answer to a questionnaire conducted during the most recent fixed period (for example, the most recent half year). It is the given text data. For example, a human analyzes text data to determine the correct label of the text data, and assigns the correct answer label of the determination result to the text data. The verification teacher data is stored in the learning DB_14. The verification teacher data may be all the teacher data among the teacher data stored in the learning DB_14, or may be a part of the teacher data.
(ステップS111)検証モジュール11は、分類構造データにおける検証対象階層の分類項目のうち検証対象分類項目に対して、検証教師データの仕分けを行う。検証教師データの仕分けでは、検証対象分類項目に対して、検証対象分類項目の識別番号を含む正解ラベルが付与された検証教師データと、検証対象分類項目の識別番号を含まない正解ラベルが付与された検証教師データとに仕分ける。例えば、図2に示す分類構造データの第2階層の分類項目「ジャンル」が検証対象分類項目である場合、該分類項目「ジャンル」の識別番号「1」を含むラベル「11」,「111」又は「112」が付与された検証教師データと、該分類項目「ジャンル」の識別番号「1」を含まないラベル「1」,「12」,「121」,「122」又は「123」が付与された検証教師データとに仕分ける。検証対象分類項目の識別番号を含む正解ラベルが付与された検証教師データは、検証対象分類項目の検証正例データグループにグルーピングされる。検証対象分類項目の識別番号を含まない正解ラベルが付与された検証教師データは、検証対象分類項目の検証負例データグループにグルーピングされる。
(Step S111) The
検証モジュール11は、検証対象分類項目の検証正例データグループ内の検証教師データを所定の比率で検証学習データと検証テストデータに仕分ける。検証モジュール11は、検証対象分類項目の検証負例データグループ内の検証教師データについても、該同じ比率で検証学習データと検証テストデータに仕分ける。例えば、検証対象分類項目の検証正例データグループ内の全検証教師データのうち、90%の検証教師データを検証対象分類項目の検証正例学習データグループにグルーピングし、残りの10%の検証教師データを検証対象分類項目の検証正例テストデータグループにグルーピングする。同様に、検証対象分類項目の検証負例データグループ内の全検証教師データのうち、90%の検証教師データを検証対象分類項目の検証負例学習データグループにグルーピングし、残りの10%の検証教師データを検証対象分類項目の検証負例テストデータグループにグルーピングする。
The
(ステップS112)検証モジュール11は、検証対象分類項目の検証正例学習データグループ及び検証負例学習データグループを使用して、分類器生成モジュール12により、検証対象分類項目についての分類器を生成する。検証対象分類項目についての分類器は、分類対象のテキストデータが検証対象分類項目に該当するか否かを判定する機能を有する。
(Step S112) The
(ステップS113)検証モジュール11は、検証対象分類項目の検証正例テストデータグループ又は検証負例テストデータグループを使用して、検証対象分類項目についての分類器の適合度を計算する。分類器の適合度の例1〜4を以下に挙げる。
(Step S113) The
(分類器の適合度の例1)
分類器の適合度の例1は正解率(Accuracy)である。正解率は、次式で表される。
正解率=(TP+TN)/(TP+FP+TN+FN)
(Example 1 of classifier fitness)
An example 1 of the goodness of fit of the classifier is the accuracy rate (Accuracy). The accuracy rate is expressed by the following equation.
Accuracy rate = (TP + TN) / (TP + FP + TN + FN)
(分類器の適合度の例2)
分類器の適合度の例2は真陽性率(True Positive Rate)である。真陽性率は、次式で表される。
真陽性率=TP/(TP+FN)
(Example of goodness of classifier 2)
Example 2 of the classifier's goodness is a true positive rate. The true positive rate is expressed by the following equation.
True positive rate = TP / (TP + FN)
(分類器の適合度の例3)
分類器の適合度の例3は偽陰性率(False Negative Rate)である。偽陰性率は、次式で表される。
偽陰性率=FN/(TP+FN)
(Example 3 of classifier fitness)
Example 3 of the goodness of fit of the classifier is a false negative rate. The false negative rate is expressed by the following equation.
False negative rate = FN / (TP + FN)
(分類器の適合度の例4)
分類器の適合度の例4は精度(Precision)である。精度は、次式で表される。
精度=TP/(TP+FP)
(Example 4 of classifier fitness)
Example 4 of the goodness of fit of the classifier is Precision. The accuracy is expressed by the following equation.
Accuracy = TP / (TP + FP)
上記の分類器の適合度の例1〜4において、TP(True positives)は、検証正例テストデータグループの検証教師データを分類器に適用した結果、正しく正例と判定された検証教師データの個数である。TN(True negatives)は、検証負例テストデータグループの検証教師データを分類器に適用した結果、正しく負例と判定された検証教師データの個数である。FP(False positives)は、検証負例テストデータグループの検証教師データを分類器に適用した結果、誤って正例と判定された検証教師データの個数である。FN(False negatives)は、検証正例テストデータグループの検証教師データを分類器に適用した結果、誤って負例と判定された検証教師データの個数である。 In Examples 1 to 4 of the suitability of the classifiers described above, TP (True positives) is obtained by applying the verification teacher data of the verification positive example test data group to the classifier, and as a result, the verification teacher data correctly determined as positive examples. It is a number. TN (True negatives) is the number of verification teacher data correctly determined as negative examples as a result of applying the verification teacher data of the verification negative example test data group to the classifier. FP (False positives) is the number of verification teacher data erroneously determined as positive examples as a result of applying the verification teacher data of the verification negative example test data group to the classifier. FN (False negatives) is the number of verification teacher data erroneously determined as negative examples as a result of applying the verification teacher data of the verification positive example test data group to the classifier.
なお、上記の分類器の適合度の例1〜4のうち、いずれか一つのみを分類器の適合度に使用してもよく、又は、いずれか複数を分類器の適合度に使用してもよい。 It should be noted that only one of the above-mentioned classifier suitability examples 1 to 4 may be used for the classifier suitability, or any one of them may be used for the classifier suitability. Also good.
(ステップS114)検証モジュール11は、検証対象分類項目についての分類器の適合度に基づいて、当該分類器の合否を判定する。例えば、上記の分類器の適合度の例1〜4のうち、いずれか一つのみ又はいずれか複数を評価し、評価の結果、適合度が良好である場合に合格と判定する。例えば、上記の分類器の適合度の例1〜4のうち、少なくともいずれか一つの適合度が良好である場合に合格と判定してもよい。又は、上記の分類器の適合度の例1〜4の全てが良好である場合にのみ合格と判定してもよい。適合度の評価方法として、例えば、適合度と所定の閾値との大小比較が挙げられる。
(Step S114) The
検証モジュール11は、検証対象分類項目についての分類器が合格である場合に、当該検証対象分類項目を採用する。一方、検証モジュール11は、検証対象分類項目についての分類器が不合格である場合に、当該検証対象分類項目を不採用とする。
The
なお、不採用とされた検証対象分類項目に属する下層の分類項目に対しては、上記のステップS111〜S114を実行しないで、不採用としてもよい。 Note that the above-described steps S111 to S114 may not be performed on lower-level classification items belonging to the verification target classification items that have been rejected, and may be rejected.
検証モジュール11は、不採用とする検証対象分類項目を分類器生成モジュール12へ通知する。分類器生成モジュール12は、学習DB_14内の分類構造データ及び教師データを使用して分類器を生成する際に、検証モジュール11から不採用として通知された分類項目を、削除したり又は判定不能項目にしたりする。
The
図4は、本実施形態に係る分類構造データに対する分類項目検証結果の反映例を示す図である。図4には、上記の図2に示す分類構造データに対して、検証モジュール11による分類項目検証結果が反映された例が示される。図4の例では、検証モジュール11によって第2階層の分類項目「音色」が不採用と決定された。また、第2階層の分類項目「音色」が不採用と決定されために、第2階層の分類項目「音色」に属する下層である第3階層の分類項目「くらい」,「明るい」及び「暖かい」の全てが不採用と決定された。これにより、分類器生成モジュール12は、上記の図2に示す分類構造データについての分類器を生成する際に、第2階層の分類項目「音色」並びに第3階層の分類項目「くらい」,「明るい」及び「暖かい」を削除する。又は、分類器生成モジュール12は、上記の図2に示す分類構造データについての分類器を生成する際に、第2階層の分類項目「音色」並びに第3階層の分類項目「くらい」,「明るい」及び「暖かい」を判定不能項目にする。
FIG. 4 is a diagram showing a reflection example of the classification item verification result for the classification structure data according to the present embodiment. FIG. 4 shows an example in which the classification item verification result by the
[コンテンツ分類モジュール]
コンテンツ分類モジュール13は、分類器生成モジュール12によって生成された分類器を使用して、入力データのテキストデータを分類する。コンテンツ分類モジュール13は、該分類の結果を示す分類結果データを出力する。分類結果データは、例えば、入力されたテキストデータの分類が成功したラベルが、該テキストデータに付与されたデータである。
[Content classification module]
The
図5を参照して、本実施形態に係るコンテンツ分類モジュール13の動作を説明する。図5は、本実施形態に係る分類方法のフローチャートである。
With reference to FIG. 5, the operation of the
(ステップS201)コンテンツ分類モジュール13は、入力データとしてテキストデータ(入力テキストデータ)を受信する。
(Step S201) The
(ステップS202)コンテンツ分類モジュール13は、分類器を使用して、入力テキストデータに対し、分類構造データにおける最上位階層の分類を行う。分類器は、入力テキストデータが分類対象階層である最上位階層の分類項目に該当するか否かを判定する。分類器は、分類項目の判定結果として「該当」又は「非該当」を出力する。
(Step S202) The
例えば、図4に示す分類項目検証結果の反映された分類構造データについての分類器は、入力テキストデータが第1階層の分類項目「音楽」に該当するか否かを判定する。分類器は、分類項目「音楽」の判定結果として「該当」又は「非該当」を出力する。なお、最上位階層に複数の分類項目が存在する場合には、分類器は、最上位階層の複数の分類項目の各々について、入力テキストデータが分類項目に該当するか否かを判定する。分類器は、各分類項目の判定結果として「該当」又は「非該当」を出力する。 For example, the classifier for the classification structure data reflected in the classification item verification result shown in FIG. 4 determines whether or not the input text data corresponds to the classification item “music” in the first layer. The classifier outputs “applicable” or “not applicable” as the determination result of the classification item “music”. If there are a plurality of classification items in the highest hierarchy, the classifier determines whether or not the input text data corresponds to the classification item for each of the plurality of classification items in the highest hierarchy. The classifier outputs “applicable” or “non-applicable” as the determination result of each classification item.
(ステップS203)コンテンツ分類モジュール13は、分類器による分類対象階層の分類の結果が成功であるかを判断する。分類器から出力された分類項目の判定結果が「該当」である場合、当該分類項目の分類の結果は成功である。分類器から出力された分類項目の判定結果が「非該当」である場合、当該分類項目の分類の結果は失敗である。
(Step S203) The
コンテンツ分類モジュール13は、分類対象階層において少なくとも一つの分類項目の分類の結果が成功である場合に、分類成功であると判断する。分類成功である場合、ステップS204へ進む。一方、コンテンツ分類モジュール13は、分類対象階層において全ての分類項目の分類の結果が失敗である場合に、分類失敗であると判断する。分類失敗である場合、ステップS206へ進む。分類失敗である場合には、当該分類対象階層に属する下層の分類は実行しない。
The
(ステップS204)コンテンツ分類モジュール13は、分類構造データにおける最下位階層の分類まで終了したかを判断する。最下位階層の分類まで終了した場合にはステップS206へ進む。一方、最下位階層の分類まで終了していない場合にはステップS205へ進む。
(Step S204) The
(ステップS205)コンテンツ分類モジュール13は、分類器を使用して、入力テキストデータに対し、分類成功の分類項目に属する一つ下層の分類を行う。
(Step S205) The
例えば、図4に示す分類項目検証結果の反映された分類構造データについての分類器の場合において、第2階層の分類項目「ジャンル」の分類が成功したときは、入力テキストデータに対して、第2階層の分類項目「ジャンル」に属する一つ下層である第3階層の分類項目「クラシック」及び「ポップス」の各々の分類を行う。分類器は、入力テキストデータが第3階層の分類項目「クラシック」に該当するか否かと、入力テキストデータが第3階層の分類項目「ポップス」に該当するか否かを判定する。分類器は、第3階層の分類項目「クラシック」の判定結果として「該当」又は「非該当」と、第3階層の分類項目「ポップス」の判定結果として「該当」又は「非該当」を出力する。 For example, in the case of the classifier for the classification structure data reflecting the classification item verification result shown in FIG. 4, when the classification of the category item “genre” in the second hierarchy is successful, the input text data is Each of the classification items “Classic” and “Pops” in the third layer, which is one lower layer belonging to the classification item “Genre” in the two layers, is performed. The classifier determines whether the input text data corresponds to the classification item “classic” in the third hierarchy, and whether the input text data corresponds to the classification item “pops” in the third hierarchy. The classifier outputs “Applicable” or “Not Applicable” as the determination result of the classification item “Classic” in the third hierarchy and “Applicable” or “Not Applicable” as the determination result of the classification item “Pops” in the third hierarchy. To do.
なお、分類器は、分類項目検証結果に従って削除したり又は判定不能項目にしたりした分類項目については分類を実行しない。例えば、図4に示す分類項目検証結果の反映された分類構造データにおいて、第2階層の分類項目「音色」並びに第3階層の分類項目「くらい」,「明るい」及び「暖かい」は、分類項目検証結果に従って削除された又は判定不能項目にされた分類項目である。これにより、第2階層の分類項目「音色」並びに第3階層の分類項目「くらい」,「明るい」及び「暖かい」については、分類器による分類が実行されない。 It should be noted that the classifier does not perform classification on a classification item that has been deleted or made a non-determinable item according to the classification item verification result. For example, in the classification structure data in which the classification item verification result shown in FIG. 4 is reflected, the classification item “timbre” in the second hierarchy and the classification items “about”, “bright”, and “warm” in the third hierarchy are classified items. This is a classification item that has been deleted according to the verification result or that has been made undecidable. Thereby, the classification by the classifier is not executed for the classification item “tone color” of the second layer and the classification items “about”, “bright”, and “warm” of the third layer.
ステップS205の後、ステップS203に戻る。 After step S205, the process returns to step S203.
(ステップS206)コンテンツ分類モジュール13は、入力テキストデータに対する分類の結果を示す分類結果データを出力する。コンテンツ分類モジュール13は、例えば、全ての分類成功の分類項目のラベルを入力テキストデータに付与したデータを分類結果データとして出力する。
(Step S206) The
上記の図5に示す分類方法によれば、分類構造データにおける上位階層の分類成功の分類項目に対して、さらにその下層の分類項目の分類を行う。これにより、分類構造データにおける階層構造を考慮しないで各階層の分類項目で独立に分類を行うよりも、テキスト分類処理の効率を向上させることができる。 According to the classification method shown in FIG. 5 described above, the classification items in the lower layers are further classified with respect to the classification item of the classification success in the higher hierarchy in the classification structure data. As a result, the efficiency of the text classification process can be improved as compared with the case where the classification items of each hierarchy are independently classified without considering the hierarchical structure in the classification structure data.
本実施形態によれば、例えば図4に示す分類項目検証結果の反映された分類構造データについての分類器によって、入力テキストデータが第1階層の分類項目「音楽」に該当すると判定された場合、第2階層の分類項目「ジャンル」及び「音色」のうち、分類項目「ジャンル」のみの分類が実行され、分類項目「音色」の分類は実行されない。さらには、第2階層の分類項目「音色」に属する第3階層の分類項目「くらい」,「明るい」及び「暖かい」の全ての分類が実行されない。 According to the present embodiment, for example, when the classifier for the classification structure data in which the classification item verification result shown in FIG. 4 is reflected determines that the input text data corresponds to the classification item “music” in the first layer, Of the classification items “genre” and “tone color” in the second hierarchy, only the classification item “genre” is classified, and the classification item “tone” is not classified. Furthermore, the classification items “about”, “bright”, and “warm” of the third layer belonging to the classification item “tone color” of the second layer are not executed.
図4に示す分類項目検証結果の反映された分類構造データにおいて第2階層の分類項目「音色」は、検証モジュール11による適合度の判定の結果から不採用とされた分類項目である。したがって、第2階層の分類項目「音色」の分類を実行しないことにより、誤った分類結果を出力することを防止できると共に、テキスト分類処理の効率が向上する。さらに、第2階層の分類項目「音色」に属する第3階層の分類項目「くらい」,「明るい」及び「暖かい」についても分類を実行しないことにより、誤った分類結果の出力の防止と、テキスト分類処理のさらなる効率向上を図ることができる。
In the classification structure data in which the classification item verification result shown in FIG. 4 is reflected, the classification item “tone color” in the second hierarchy is a classification item that has been rejected from the result of determination of the fitness by the
上述したように本実施形態によれば、テキスト分類処理の精度や効率の向上を図ることができるという効果が得られる。また、本実施形態によれば以下に示すような効果が得られる。 As described above, according to the present embodiment, it is possible to improve the accuracy and efficiency of the text classification process. Further, according to the present embodiment, the following effects can be obtained.
一般的に分類構造データは、下層になるほど分類項目数が多くなる。このことから、分類構造データの下層になるほど分類項目一つあたりの学習データ数が減少するので、分類器の分類精度が下がる傾向にある。一方、分類項目一つあたりの学習データ数の減少を防ぐために、分類構造データの階層構成や学習データ数の下限が定められていると、自動的に分類器を生成してテキストデータの分類処理を行うことができない場合が発生しやすくなるので、使い勝手が悪い。 In general, the number of classification items in the classification structure data increases as it is lower. For this reason, the lower the classification structure data, the less the number of learning data per classification item, and the classification accuracy of the classifier tends to decrease. On the other hand, if the hierarchical structure of classification structure data and the lower limit of the number of learning data are defined in order to prevent a decrease in the number of learning data per classification item, a classifier is automatically generated and text data is classified. Since it becomes easy to occur when it is not possible to perform, it is unusable.
しかし、本実施形態によれば、分類構造データの分類項目のうち、検証教師データに適合する分類項目のみの分類を行う分類器を生成することができるので、分類器が分類を行う分類項目については分類精度を高く保つことができる。例えば、検証教師データとして、実際に分類器で分類する対象となる分類対象テキストデータに類するテキストデータを使用することにより、分類対象テキストデータに適合する分類項目の分類精度を高く保った分類器を生成することが可能になる。例えば、アンケートの回答として自由記述された文章のテキストデータを分類する場合、検証教師データとして、直近に実施された該アンケートにより収集された該テキストデータを検証教師データに使用することが挙げられる。これにより、実際に分類の対象になるアンケート回答のテキストデータに適合する高精度の分類器を生成することが可能になる。 However, according to the present embodiment, it is possible to generate a classifier that classifies only the classification items that match the verification teacher data among the classification items of the classification structure data. Can keep the classification accuracy high. For example, by using text data similar to the classification target text data that is actually classified by the classifier as the verification teacher data, a classifier that maintains a high classification accuracy of the classification items that match the classification target text data. Can be generated. For example, when classifying text data of a sentence that is freely described as an answer to a questionnaire, the text data collected by the most recently conducted questionnaire is used as verification teacher data as verification teacher data. This makes it possible to generate a highly accurate classifier that matches the text data of the questionnaire response that is actually the classification target.
また、例えば、様々な分野のテキストデータから生成された大規模な分類構造データから、特定の分野のテキストデータを分類するための分類器を生成すると分類処理の効率が悪い分類器になりやすい。例えば、分類対象の特定の分野とは無関係の分類項目の分類処理を行う分類器となって、分類処理に余計な時間がかかる等、分類処理の効率が悪くなる。 Further, for example, if a classifier for classifying text data in a specific field is generated from large-scale classification structure data generated from text data in various fields, it becomes easy to be a classifier with poor classification processing efficiency. For example, it becomes a classifier that performs classification processing of classification items unrelated to a specific field to be classified, and the classification processing becomes inefficient, for example, it takes extra time for the classification processing.
しかし、本実施形態によれば、分類対象の特定の分野のテキストデータを検証教師データに使用することにより、該特定の分野のテキストデータに適合する分類項目のみの分類を実行する分類器を生成することができる。これにより、分類処理に余計な時間がかからない等、分類処理の効率の良い分類器を生成することが可能になる。 However, according to the present embodiment, by using text data of a specific field to be classified as verification teacher data, a classifier that performs classification of only classification items that match the text data of the specific field is generated. can do. As a result, it is possible to generate a classifier with high efficiency of the classification process, such that the extra time is not required for the classification process.
上述の実施形態では、検証モジュール11が適合度計算部および階層設定部に対応し、分類器生成モジュール12が分類器生成部に対応し、コンテンツ分類モジュール13が分類部に対応する。
In the above-described embodiment, the
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。 As mentioned above, although embodiment of this invention was explained in full detail with reference to drawings, the specific structure is not restricted to this embodiment, The design change etc. of the range which does not deviate from the summary of this invention are included.
また、上述した分類システム1の機能を実現するためのコンピュータプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するようにしてもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、DVD(Digital Versatile Disk)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
Further, a computer program for realizing the functions of the classification system 1 described above may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read into the computer system and executed. . Here, the “computer system” may include an OS and hardware such as peripheral devices.
“Computer-readable recording medium” refers to a flexible disk, a magneto-optical disk, a ROM, a writable nonvolatile memory such as a flash memory, a portable medium such as a DVD (Digital Versatile Disk), and a built-in computer system. A storage device such as a hard disk.
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
Further, the “computer-readable recording medium” means a volatile memory (for example, DRAM (Dynamic DRAM) in a computer system that becomes a server or a client when a program is transmitted through a network such as the Internet or a communication line such as a telephone line. Random Access Memory)), etc., which hold programs for a certain period of time.
The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.
The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.
1…分類システム、11…検証モジュール(適合度計算部、階層設定部)、12…分類器生成モジュール(分類器生成部)、13…コンテンツ分類モジュール(分類部)、14…学習データベース(学習DB) DESCRIPTION OF SYMBOLS 1 ... Classification system, 11 ... Verification module (fitness calculation part, hierarchy setting part), 12 ... Classifier generation module (classifier generation part), 13 ... Content classification module (classification part), 14 ... Learning database (learning DB) )
Claims (8)
前記分類構造データに属するラベルのうち正解ラベルが付与された検証教師データのうち、前記分類構造データにおける検証対象階層の分類項目のうち検証対象分類項目の識別番号を含む正解ラベルが付与された正例の前記検証教師データである検証正例学習データと、前記検証対象分類項目の識別番号を含まない正解ラベルが付与された負例の前記検証教師データである検証負例学習データとを使用して、前記検証対象分類項目についての分類器を生成する分類器生成部と、
前記検証教師データのうち、前記正例の検証教師データであって前記検証正例学習データと異なる前記検証教師データである検証正例テストデータ、又は、前記負例の検証教師データであって前記検証負例学習データと異なる前記検証教師データである検証負例テストデータを使用して、前記分類器生成部により生成された前記分類器の適合度を計算する適合度計算部と、
前記適合度計算部により計算された前記適合度に基づいて、前記検証対象階層における前記検証対象分類項目の採用を判断する階層設定部と、
を備える検証装置。 In the verification device for verifying the classification structure data indicating the classification item and the classification item hierarchy to which the data is classified,
Among the verification teacher data to which the correct answer label is assigned among the labels belonging to the classification structure data, the correct answer to which the correct answer label including the identification number of the verification target classification item among the classification items of the verification target hierarchy in the classification structure data is assigned. Using the verification positive example learning data which is the verification teacher data of the example and the verification negative example learning data which is the verification teacher data of the negative example to which the correct label not including the identification number of the verification target classification item is given A classifier generator for generating a classifier for the verification target classification item,
Among the verification teacher data, the verification example data of the positive example and the verification example data that is the verification teacher data different from the verification example learning data, or the verification example data of the negative example, A fitness calculation unit that calculates the fitness of the classifier generated by the classifier generation unit using verification negative example test data that is the verification teacher data different from the verification negative example learning data;
A hierarchy setting unit that determines adoption of the verification target classification item in the verification target hierarchy based on the fitness calculated by the fitness calculation unit;
A verification apparatus comprising:
請求項1に記載の検証装置。 The verification target hierarchy is verified in order from the upper hierarchy to the lower hierarchy in the classification structure data, and the verification procedure is performed for the lower classification items belonging to the verification target classification item determined to be non-adopted. Do not execute, do not adopt,
The verification device according to claim 1.
前記検証装置による分類項目検証結果が反映された分類構造データの分類器を使用して、入力データの分類を行う分類部と、
を備える分類システム。 The verification apparatus according to claim 1 or 2,
A classification unit that classifies input data using a classifier of classification structure data in which a classification item verification result by the verification device is reflected;
A classification system comprising:
請求項3に記載の分類システム。 The classification unit starts the classification of the input data from the highest hierarchy in the classification structure data, and sequentially performs only one lower layer classification belonging to the classification item of classification success,
The classification system according to claim 3.
検証装置が、前記分類構造データに属するラベルのうち正解ラベルが付与された検証教師データのうち、前記分類構造データにおける検証対象階層の分類項目のうち検証対象分類項目の識別番号を含む正解ラベルが付与された正例の前記検証教師データである検証正例学習データと、前記検証対象分類項目の識別番号を含まない正解ラベルが付与された負例の前記検証教師データである検証負例学習データとを使用して、前記検証対象分類項目についての分類器を生成する分類器生成ステップと、
前記検証装置が、前記検証教師データのうち、前記正例の検証教師データであって前記検証正例学習データと異なる前記検証教師データである検証正例テストデータ、又は、前記負例の検証教師データであって前記検証負例学習データと異なる前記検証教師データである検証負例テストデータを使用して、前記分類器生成ステップにより生成された前記分類器の適合度を計算する適合度計算ステップと、
前記検証装置が、前記適合度計算ステップにより計算された前記適合度に基づいて、前記検証対象階層における前記検証対象分類項目の採用を判断する階層設定ステップと、
を含む検証方法。 In the verification method of the classification structure data indicating the classification item and the classification item hierarchy to which the data is classified,
Among the verification teacher data to which the verification device is assigned the correct label among the labels belonging to the classification structure data, the correct label including the identification number of the verification target classification item among the classification items of the verification target hierarchy in the classification structure data is Verification positive example learning data which is the verification teacher data of the given positive example and verification negative example learning data which is the verification example data of the negative example to which the correct label not including the identification number of the verification target classification item is assigned And a classifier generating step for generating a classifier for the verification target classification item using
The verification apparatus is verification positive example test data which is the verification teacher data of the positive example and is different from the verification positive example learning data among the verification teacher data, or the negative verification teacher A fitness calculation step of calculating a fitness of the classifier generated by the classifier generation step using verification negative example test data which is data and the verification teacher data different from the verification negative example learning data When,
The verification apparatus, based on the fitness calculated in the fitness calculation step, a hierarchy setting step for determining adoption of the verification target classification item in the verification target hierarchy;
Verification method including
分類部が、前記検証ステップによる分類項目検証結果が反映された分類構造データの分類器を使用して、入力データの分類を行う分類ステップと、
を含む分類方法。 A verification step of verifying the classification structure data by the verification method according to claim 5;
A classification step in which a classification unit classifies input data using a classifier of classification structure data in which a classification item verification result in the verification step is reflected;
Classification method including
前記分類構造データに属するラベルのうち正解ラベルが付与された検証教師データのうち、前記分類構造データにおける検証対象階層の分類項目のうち検証対象分類項目の識別番号を含む正解ラベルが付与された正例の前記検証教師データである検証正例学習データと、前記検証対象分類項目の識別番号を含まない正解ラベルが付与された負例の前記検証教師データである検証負例学習データとを使用して、前記検証対象分類項目についての分類器を生成する分類器生成ステップと、
前記検証教師データのうち、前記正例の検証教師データであって前記検証正例学習データと異なる前記検証教師データである検証正例テストデータ、又は、前記負例の検証教師データであって前記検証負例学習データと異なる前記検証教師データである検証負例テストデータを使用して、前記分類器生成ステップにより生成された前記分類器の適合度を計算する適合度計算ステップと、
前記適合度計算ステップにより計算された前記適合度に基づいて、前記検証対象階層における前記検証対象分類項目の採用を判断する階層設定ステップと、
をコンピュータに実行させるためのコンピュータプログラム。 A computer program for verifying classification structure data indicating a classification item and a classification item hierarchy to which data is classified,
Among the verification teacher data to which the correct answer label is assigned among the labels belonging to the classification structure data, the correct answer to which the correct answer label including the identification number of the verification target classification item among the classification items of the verification target hierarchy in the classification structure data is assigned. Using the verification positive example learning data which is the verification teacher data of the example and the verification negative example learning data which is the verification teacher data of the negative example to which the correct label not including the identification number of the verification target classification item is given A classifier generating step for generating a classifier for the verification target classification item;
Among the verification teacher data, the verification example data of the positive example and the verification example data that is the verification teacher data different from the verification example learning data, or the verification example data of the negative example, A fitness calculation step of calculating a fitness of the classifier generated by the classifier generation step using verification negative example test data which is the verification teacher data different from the verification negative example learning data;
Hierarchy setting step for determining adoption of the verification target classification item in the verification target hierarchy based on the fitness calculated in the fitness calculation step;
A computer program for causing a computer to execute.
をさらにコンピュータに実行させるための請求項7に記載のコンピュータプログラム。 A classification step of classifying input data using a classifier of classification structure data reflecting a classification item verification result that is an execution result of the computer program;
The computer program according to claim 7, further causing a computer to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015147577A JP2017027495A (en) | 2015-07-27 | 2015-07-27 | Verification device, classification system, verification method, classification method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015147577A JP2017027495A (en) | 2015-07-27 | 2015-07-27 | Verification device, classification system, verification method, classification method, and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017027495A true JP2017027495A (en) | 2017-02-02 |
Family
ID=57949850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015147577A Pending JP2017027495A (en) | 2015-07-27 | 2015-07-27 | Verification device, classification system, verification method, classification method, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017027495A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019053730A (en) * | 2017-09-12 | 2019-04-04 | ネイバー コーポレーションNAVER Corporation | Deep-learning learning method for category classification of documents and system for the same |
JP2019149102A (en) * | 2018-02-28 | 2019-09-05 | ヤフー株式会社 | Information processing device, keyword extractor, information processing method, and program |
JP2022029461A (en) * | 2018-02-28 | 2022-02-17 | ヤフー株式会社 | Keyword extraction device, keyword extraction method, and program |
JP2023007228A (en) * | 2021-07-01 | 2023-01-18 | 株式会社Pkutech | Information processing apparatus, program, and information processing method |
JP2023037406A (en) * | 2021-09-03 | 2023-03-15 | 株式会社マクロミル | Information processing method and information processing apparatus |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009217528A (en) * | 2008-03-11 | 2009-09-24 | Hitachi Ltd | Document classification method, system, and computer program |
JP2014096086A (en) * | 2012-11-12 | 2014-05-22 | Hitachi Solutions Ltd | Document classification system and method |
-
2015
- 2015-07-27 JP JP2015147577A patent/JP2017027495A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009217528A (en) * | 2008-03-11 | 2009-09-24 | Hitachi Ltd | Document classification method, system, and computer program |
JP2014096086A (en) * | 2012-11-12 | 2014-05-22 | Hitachi Solutions Ltd | Document classification system and method |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019053730A (en) * | 2017-09-12 | 2019-04-04 | ネイバー コーポレーションNAVER Corporation | Deep-learning learning method for category classification of documents and system for the same |
JP2019149102A (en) * | 2018-02-28 | 2019-09-05 | ヤフー株式会社 | Information processing device, keyword extractor, information processing method, and program |
JP2022029461A (en) * | 2018-02-28 | 2022-02-17 | ヤフー株式会社 | Keyword extraction device, keyword extraction method, and program |
JP7297855B2 (en) | 2018-02-28 | 2023-06-26 | ヤフー株式会社 | Keyword extraction device, keyword extraction method, and program |
JP2023007228A (en) * | 2021-07-01 | 2023-01-18 | 株式会社Pkutech | Information processing apparatus, program, and information processing method |
JP7278560B2 (en) | 2021-07-01 | 2023-05-22 | 株式会社Pkutech | Information processing device, program and information processing method |
JP2023037406A (en) * | 2021-09-03 | 2023-03-15 | 株式会社マクロミル | Information processing method and information processing apparatus |
JP7329570B2 (en) | 2021-09-03 | 2023-08-18 | 株式会社マクロミル | Information processing method and information processing device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7210587B2 (en) | Machine learning to integrate knowledge and natural language processing | |
US20230334254A1 (en) | Fact checking | |
US11093515B2 (en) | Internet search result intention | |
US20190213260A1 (en) | Machine Learning Modification and Natural Language Processing | |
US10936680B2 (en) | Intent based search result interaction | |
US9542477B2 (en) | Method of automated discovery of topics relatedness | |
JP2017027495A (en) | Verification device, classification system, verification method, classification method, and computer program | |
US10839308B2 (en) | Categorizing log records at run-time | |
EP3685243A1 (en) | Content pattern based automatic document classification | |
US11860953B2 (en) | Apparatus and methods for updating a user profile based on a user file | |
US20200265042A1 (en) | Candidate name generation | |
US11227127B2 (en) | Natural language artificial intelligence topology mapping for chatbot communication flow | |
US20090094177A1 (en) | Method for efficient machine-learning classification of multiple text categories | |
US11887059B2 (en) | Apparatus and methods for creating a video record | |
CN101639837A (en) | Method and system for automatically classifying objects | |
CN110781292A (en) | Text data multi-level classification method and device, electronic equipment and storage medium | |
WO2021245924A1 (en) | Processing device, processing method, and processing program | |
JP2015018372A (en) | Expression extraction model learning device, expression extraction model learning method and computer program | |
JP6511865B2 (en) | INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM | |
CN115146741B (en) | Feature determination method of operating system level, computing device and storage medium | |
Georgescu et al. | When in doubt ask the crowd: Employing crowdsourcing for active learning | |
JP2023145767A (en) | Vocabulary extraction support system and vocabulary extraction support method | |
US20200097883A1 (en) | Dynamically evolving textual taxonomies | |
Roy et al. | ZSCRGAN: A GAN-based expectation maximization model for zero-shot retrieval of images from textual descriptions | |
US20230290168A1 (en) | Selecting files for intensive text extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20150728 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20180219 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190305 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190426 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20191008 |