JP2019148566A - Teacher data creation support method and device - Google Patents

Teacher data creation support method and device Download PDF

Info

Publication number
JP2019148566A
JP2019148566A JP2018035092A JP2018035092A JP2019148566A JP 2019148566 A JP2019148566 A JP 2019148566A JP 2018035092 A JP2018035092 A JP 2018035092A JP 2018035092 A JP2018035092 A JP 2018035092A JP 2019148566 A JP2019148566 A JP 2019148566A
Authority
JP
Japan
Prior art keywords
data
classifier
sub
taught
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018035092A
Other languages
Japanese (ja)
Other versions
JP6960356B2 (en
Inventor
松村 明
Akira Matsumura
明 松村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Screen Holdings Co Ltd
Original Assignee
Screen Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Screen Holdings Co Ltd filed Critical Screen Holdings Co Ltd
Priority to JP2018035092A priority Critical patent/JP6960356B2/en
Publication of JP2019148566A publication Critical patent/JP2019148566A/en
Application granted granted Critical
Publication of JP6960356B2 publication Critical patent/JP6960356B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Investigating Materials By The Use Of Optical Means Adapted For Particular Applications (AREA)

Abstract

To provide a technique for efficiently extracting data subjected to teaching in which there is possibility of having a teaching error, out of a plurality of pieces of data subjected to teaching in which one class is taught in advance.SOLUTION: A teacher data creation support method comprises: a step (step S22) for constructing a group of sub data subjected to teaching formed of data subjected to teaching, selected by one or more pieces from each of a plurality of classes in a group of data 90 subjected to teaching; a step (step S23) for setting the group of teh sub data subjected to teaching to teacher data for generating a sub sorter; and a step (step S24) for acquiring a classification achievement (correct answer ratio, for example) of the sub sorter by a re-substitution method. The method comprises a step S26 for selecting a sub sorter having the best classification achievement out of a prescribed number of sub sorters obtained by repeating the steps S22-S24, and a step S27 for extracting incompatible data subjected to teaching whose classification destination class does not match a teaching class, when the sub sorter classifies the group of data 90 subjected to teaching.SELECTED DRAWING: Figure 6

Description

この発明は、分類器の学習に使用される教師データの作成を支援する技術に関する。   The present invention relates to a technique for supporting creation of teacher data used for learning of a classifier.

半導体基板、ガラス基板、プリント基板等の製造では、異物や傷、エッチング不良等の欠陥を検査するために光学顕微鏡や走査電子顕微鏡等を用いて外観検査が行われる。従来、このような検査工程において検出された欠陥に対して、さらに詳細な解析を行うことによりその欠陥の発生原因を特定し、欠陥に対する対策が行われてきた。   In manufacturing a semiconductor substrate, a glass substrate, a printed circuit board, and the like, an appearance inspection is performed using an optical microscope, a scanning electron microscope, or the like in order to inspect defects such as foreign matters, scratches, and etching defects. Conventionally, the cause of the defect has been identified by performing further detailed analysis on the defect detected in such an inspection process, and countermeasures against the defect have been taken.

近年では、基板上のパターンの複雑化および微細化に伴い、検出される欠陥の種類および数量が増加する傾向にあり、検査工程で検出された欠陥を自動的に分類する自動分類が提案されている。自動分類により欠陥の解析を迅速かつ効率的に行うことが実現され、発生頻度の高い欠陥の種類に注目して優先的に対策を施すことが可能となる。   In recent years, as the pattern on the substrate becomes more complex and finer, the types and quantities of detected defects tend to increase, and automatic classification has been proposed to automatically classify defects detected in the inspection process. Yes. It is possible to quickly and efficiently analyze defects by automatic classification, and it is possible to preferentially take measures by paying attention to the types of defects that occur frequently.

自動分類では、欠陥を分類する際にニューラルネットワークや決定木、判別分析等を利用した分類器が用いられる。分類器に自動分類を行わせるには、欠陥画像(または、欠陥画像の特徴量)および欠陥画像の種類であるカテゴリを示す信号を含む教師データを用意して分類器を学習させる必要がある。   In automatic classification, a classifier using a neural network, a decision tree, discriminant analysis, or the like is used when classifying defects. In order for the classifier to perform automatic classification, it is necessary to prepare the teacher data including a signal indicating a defect image (or a feature amount of the defect image) and a category that is the type of the defect image, and learn the classifier.

特許文献1では、オペレータがモニタに表示された教示用欠陥画像を観察し、欠陥のカテゴリの一覧表から該当する欠陥のカテゴリを教示用欠陥画像に付与することにより教師データの作成が行われる。また、特許文献1では、欠陥画像に予め付与されたカテゴリ(教示クラス)が欠陥画像の属すべきカテゴリか否かを判定することにより、質が高い教師データを作成する手法が開示されている。具体的には、各カテゴリに属する複数の欠陥画像の各種類の特徴量の分散に基づいて、当該種類に対して特徴量の代表値を含む特徴量範囲が設定され、各欠陥画像の一の種類の特徴量を当該種類の特徴量範囲に含むカテゴリに投票を行う処理が特徴量の全ての種類について行われる。そして、複数のカテゴリのうち得票数が最も多いカテゴリと当該欠陥画像が属するカテゴリとが異なる場合にその旨が出力される。   In Patent Document 1, an operator observes a teaching defect image displayed on a monitor, and creates teacher data by adding a corresponding defect category to a teaching defect image from a list of defect categories. Japanese Patent Application Laid-Open No. 2004-228561 discloses a technique for creating high-quality teacher data by determining whether a category (teaching class) given in advance to a defect image is a category to which the defect image belongs. Specifically, a feature amount range including a representative value of the feature amount is set for the type based on the distribution of the feature amount of each type of the plurality of defect images belonging to each category, A process of voting for a category that includes a type of feature quantity in the type of feature quantity range is performed for all types of feature quantities. Then, when the category with the largest number of votes out of a plurality of categories is different from the category to which the defect image belongs, this is output.

特開2010−91401号公報JP 2010-91401 A

しかしながら、特許文献1における統計的な処理によるカテゴリの判定は、各カテゴリに属する複数の欠陥画像(教師画像)の各種類の特徴量の分布が正規分布に従う(または、正規分布に従うとみなすことができる)場合には有効であるが、特徴量の分布が多峰性を示す等、正規分布に従わない場合には、予め付与されたカテゴリ(クラス)の間違い(教示間違い)の発見について、適切な支援が困難であるという問題があった。   However, the determination of a category by statistical processing in Patent Document 1 may be considered that the distribution of each type of feature amount of a plurality of defect images (teacher images) belonging to each category follows a normal distribution (or follows a normal distribution). If it does not follow the normal distribution, such as the distribution of feature values is multimodal, it is appropriate to detect mistakes in the pre-assigned category (class) (teaching errors). There was a problem that difficult support was difficult.

そこで、本発明は、予めクラスが教示された複数の教示済データから、教示間違いの可能性のある教示済データを効率的に抽出する技術を提供することを目的とする。   Therefore, an object of the present invention is to provide a technique for efficiently extracting taught data with a possibility of teaching error from a plurality of taught data in which classes are taught in advance.

上記課題を解決するため、第1態様は、データをその特徴量に基づいて分類する分類器の生成に使用される教師データの作成を支援する教師データ作成支援方法であって、(a1)複数のクラスのうちいずれか1つが教示クラスとして教示された複数の教示済データからなる教示済データ群を準備する工程と、(b1)前記教示済データ群において、前記複数のクラス各々から1つ以上ずつ選択された前記教示済データで構成されるサブ教示済データ群を構築する工程と、(c1)前記サブ教示済データ群を教師データとして、前記教示済データを分類するサブ分類器を生成する工程と、(d1)前記工程(c1)により生成される前記サブ分類器で前記教示済データ群の全部または一部を分類することによって、前記サブ分類器の分類成績を取得する工程と、(e1)前記工程(b1)、前記工程(c1)および前記工程(d1)を複数回繰り返すことによって得られる複数の前記サブ分類器の中から、前記教示済データ群の全部または一部を分類した場合の分類成績が所定の分類成績の基準を満たすサブ分類器を典型分類器として選定する工程と、(f1)前記工程(e1)にて選定された前記典型分類器で、前記教示済データ群の全部または一部を分類した場合に、分類先クラスが前記教示クラスと一致しない不適合教示済データを抽出する工程とを含む。   In order to solve the above-mentioned problem, a first aspect is a teacher data creation support method for supporting creation of teacher data used for generating a classifier that classifies data based on its feature value, and (a1) a plurality of Preparing a taught data group composed of a plurality of taught data in which any one of the classes is taught as a teaching class; and (b1) one or more of each of the plurality of classes in the taught data group (C1) generating a sub-classifier that classifies the taught data using the sub-taught data group as teacher data. (D1) obtaining a classification result of the sub-classifier by classifying all or part of the taught data group with the sub-classifier generated by the step (c1); e1) (b1), classification results when all or part of the taught data group is classified from among the plurality of sub-classifiers obtained by repeating the step (c1) and the step (d1) multiple times Selecting a sub-classifier satisfying a predetermined classification performance criterion as a typical classifier, and (f1) the typical classifier selected in the step (e1), wherein all or one of the taught data groups is selected. And extracting the non-conforming teaching data in which the class to be classified does not match the teaching class when the part is classified.

第2態様は、第1態様の教師データ作成支援方法であって、前記工程(e1)は、前記複数のサブ分類器の中から、前記分類成績が最も良い1つのサブ分類器を前記典型分類器として選定する工程である。   The second mode is the teacher data creation support method according to the first mode, wherein the step (e1) selects one sub-classifier having the best classification result from the plurality of sub-classifiers. It is a process to select as a container.

第3態様は、データをその特徴量に基づいて分類する分類器の生成に使用される教師データの作成を支援する教師データ作成支援方法であって、(a1)複数のクラスのうちいずれか1つが教示クラスとして教示された複数の教示済データからなる教示済データ群を準備する工程と、(b1)前記教示済データ群において、前記複数のクラス各々から1つ以上ずつ選択された前記教示済データで構成されるサブ教示済データ群を構築する工程と、(c1)前記サブ教示済データ群を教師データとして、前記教示済データを分類するサブ分類器を生成する工程と、(d1)前記工程(c1)により生成される前記サブ分類器で複数の前記教示済データを分類することによって、前記サブ分類器の分類成績を取得する工程と、(e2)前記工程(b1)、前記工程(c1)および前記工程(d1)を複数回繰り返すことによって得られる複数の前記サブ分類器の中から、前記教示済データ群の全部または一部を分類した場合の分類成績が所定の分類成績の基準を満たす1つ以上のサブ分類器を選定する工程と、(f2-1)前記工程(e2)にて選定された1つ以上のサブ分類器の各々で、前記複数の教示済データ群の全部または一部を分類した場合に、分類先クラスが前記教示クラスに一致する一致教示済データを教師データとして、典型分類器を生成する工程と、(f2-2)前記工程(f2-1)にて生成された前記典型分類器で、前記教示済データ群の全部または一部を分類した場合に、分類先クラスが前記教示クラスと一致しない不適合教示済データを抽出する工程とを含む。   A third aspect is a teacher data creation support method that supports creation of teacher data used to generate a classifier that classifies data based on its feature value, and (a1) any one of a plurality of classes Preparing a taught data group consisting of a plurality of taught data taught as a teaching class, and (b1) the taught data selected one or more from each of the plurality of classes in the taught data group (C1) generating a sub-classifier that classifies the taught data using the sub-taught data group as teacher data, and (d1) Classifying the plurality of taught data by the sub classifier generated by the step (c1) to obtain a classification result of the sub classifier, and (e2) the step (b1), the step ( c1) and the step (d1) One or more sub-classifiers in which the classification result when all or part of the taught data group is classified from among the plurality of sub-classifiers obtained by repeating several times satisfies a predetermined classification result criterion And (f2-1) classifying all or part of the plurality of taught data groups in each of the one or more sub-classifiers selected in the step (e2), A step of generating a typical classifier using matching taught data whose classification destination class matches the teaching class as teacher data, and (f2-2) the typical classifier generated in the step (f2-1). A step of extracting non-conforming taught data whose classification destination class does not match the taught class when all or part of the taught data group is classified.

第4態様は、第3態様の教師データ作成支援方法であって、前記工程(e2)は、前記複数のサブ分類器の中から、所定の分類成績の基準を満たす2つ以上のサブ分類器を選定する工程である。   A fourth aspect is the teacher data creation support method according to the third aspect, wherein the step (e2) includes at least two sub-classifiers satisfying a predetermined classification result criterion among the plurality of sub-classifiers. This is a process of selecting.

第5態様は、第3態様の教師データ作成支援方法であって、前記工程(e2)は、前記複数のサブ分類器の中から、前記分類成績が最も良い1つのサブ分類器を前記典型分類器として選定する工程である。   A fifth aspect is the teacher data creation support method according to the third aspect, wherein the step (e2) selects one sub-classifier having the best classification result from the plurality of sub-classifiers. It is a process to select as a container.

第6態様は、第1態様から第5態様のいずれか1つの教師データ作成支援方法であって、前記分類成績は、前記教示済データの総数のうち、前記教示クラスと前記サブ分類器による分類先クラスとが一致した教示済データの総数の割合である。   A sixth aspect is the teacher data creation support method according to any one of the first to fifth aspects, wherein the classification result is classified by the teaching class and the sub-classifier out of the total number of the taught data. This is the ratio of the total number of taught data that matches the previous class.

第7態様は、データをその特徴量に基づいて分類する分類器の生成に使用される教師データの作成を支援する教師データ作成支援装置であって、複数のクラスのうちいずれか1つが教示クラスとして教示された複数の教示済データからなる教示済データ群を記憶する記憶部と、前記教示済データ群において、前記複数のクラス各々から1つ以上ずつ選択することにより、サブ教示済データ群を構築するサブ教示済データ群構築部と、前記サブ教示済データ群を教師データとして、データを分類するサブ分類器を生成する分類器生成部と、前記サブ分類器で前記教示済データ群の全部または一部を分類した場合の前記サブ分類器の分類成績を取得する分類成績取得部と、前記サブ教示済データ群構築部、前記分類器生成部および前記分類成績取得部を制御することによって、複数の前記サブ教示済データ群から生成される複数の前記サブ分類器各々の分類成績を取得する繰返制御部と、複数の前記サブ分類器の中から、所定の分類成績の基準を満たすサブ分類器を典型分類器として選定するとともに、当該典型分類器で前記教示済データ群の一部または全部を分類した場合に、分類先クラスが前記教示クラスと一致しない不適合教示済データを抽出するデータ抽出部とを備える。   A seventh aspect is a teacher data creation support device that supports creation of teacher data used to generate a classifier that classifies data based on its feature quantity, wherein any one of a plurality of classes is a teaching class A storage unit for storing a taught data group composed of a plurality of taught data taught as: and by selecting one or more of each of the plurality of classes in the taught data group, A sub-teached data group constructing unit to construct, a classifier generating unit for generating a sub-classifier that classifies data using the sub-taught data group as teacher data, and all of the taught data group in the sub-classifier Alternatively, a classification result acquisition unit that acquires a classification result of the sub-classifier when a part is classified, a sub-teached data group construction unit, the classifier generation unit, and the classification result acquisition A repetition control unit that obtains a classification result of each of the plurality of sub-classifiers generated from the plurality of sub-taught data groups, and a plurality of the sub-classifiers, When a sub-classifier that satisfies the classification performance criteria is selected as a typical classifier, and when part or all of the taught data group is classified by the typical classifier, the classification destination class does not match the taught class A data extraction unit for extracting the taught data.

第1態様の教師データ作成支援方法によると、所定の分類成績の基準を満たすサブ分類器の生成に使われた複数の教示済データは、分類成績の良い分類器の生成に適した教師データであると考えられる。このため、この複数の教示済データを教師データとして得られる典型分類器に基づき、分類先クラスが教示クラスに一致しない不適合教示済データを抽出することによって、教示間違いの可能性が高い教示済データを効率よく抽出し得る。また、サブ分類器をそのまま典型分類器とするため、分類器の再生成が不要である。このため、分類器生成に係る演算処理量を軽減することができる。   According to the teacher data creation support method of the first aspect, a plurality of taught data used for generating a sub-classifier that satisfies a predetermined classification result criterion is teacher data suitable for generating a classifier having a good classification result. It is believed that there is. For this reason, based on a typical classifier obtained from the plurality of taught data as teacher data, by extracting non-conforming teaching data whose classification destination class does not match the teaching class, taught data with a high possibility of teaching error Can be extracted efficiently. Moreover, since the sub classifier is used as a typical classifier as it is, it is not necessary to regenerate the classifier. For this reason, it is possible to reduce the amount of calculation processing related to classifier generation.

第2態様の教師データ作成支援方法によると、分類成績が最も良いサブ分類器を典型分類器とするため、不適合教示済データの数量を最小化し得る。   According to the teacher data creation support method of the second aspect, since the sub classifier with the best classification result is the typical classifier, the quantity of the non-conforming taught data can be minimized.

第3態様の教師データ作成支援方法によると、教示済データ群のうち、所定の分類成績の基準を満たすサブ分類器が、教示クラスと同じクラスに分類された一致教示済データは、分類器の生成に適した教師データとなり得る。このため、この一致教示済データを教師データとして典型分類器を生成し、教示済データ群の全部または一部を分類することにより、教示間違いの可能性が高い教示済データを効率よく抽出し得る。   According to the teacher data creation support method of the third aspect, the matched taught data in which the sub-classifier satisfying the predetermined classification result criteria in the taught data group is classified into the same class as the teaching class is It can be teacher data suitable for generation. Therefore, by generating a typical classifier using the matched taught data as teacher data and classifying all or a part of the taught data group, it is possible to efficiently extract taught data with a high possibility of teaching error. .

第4態様の教師データ作成支援方法によると、2つ以上のサブ分類器の生成に用いられた複数の教示済データを教師データとして典型分類器が生成される。この典型分類器に基づいて、不適合教示済データが抽出されるため、教示間違いの可能性が高い教示済データを効率的に抽出し得る。   According to the teacher data creation support method of the fourth aspect, a typical classifier is generated using a plurality of taught data used for generating two or more sub-classifiers as teacher data. Based on this typical classifier, the non-conforming taught data is extracted, so that it is possible to efficiently extract the taught data having a high possibility of teaching mistake.

第5態様の教師データ作成支援方法によると、分類成績が最も良いサブ分類器に基づいて、典型分類器が生成されるため、不適合教示済データの数量を最小化し得る。   According to the teacher data creation support method of the fifth aspect, since the typical classifier is generated based on the sub-classifier having the best classification result, the quantity of the non-conforming taught data can be minimized.

第6態様の教師データ作成支援方法によると、分類器の分類成績の指標として一般的な正答率(Accuracy)に基づいて、サブ分類器を評価することができる。   According to the teacher data creation support method of the sixth aspect, the sub-classifier can be evaluated based on a general accuracy rate (Accuracy) as an index of the classification performance of the classifier.

第7態様の教師データ作成支援装置によると、再代入法により分類先クラスが教示クラスと一致した一致教示済データは、分類成績が優れた分類器の生成に適すると考えられる。このため、適合教示済データを教師データとして得られる典型分類器に基づいて、不適合教示済データを抽出することにより、教示間違いの可能性が高い教示済データを効率よく抽出し得る。   According to the teacher data creation support device of the seventh aspect, it is considered that the matched taught data in which the classification destination class matches the teaching class by the resubstitution method is suitable for generating a classifier having excellent classification results. For this reason, by extracting the non-conforming taught data based on the typical classifier that can obtain the conforming taught data as the teacher data, it is possible to efficiently extract the taught data having a high possibility of teaching mistake.

図1は、実施形態の画像分類装置1の概略構成を示す図である。FIG. 1 is a diagram illustrating a schematic configuration of an image classification device 1 according to the embodiment. 図2は、実施形態の画像分類装置1による欠陥画像の分類の流れを示す図である。FIG. 2 is a diagram illustrating a flow of defect image classification by the image classification apparatus 1 according to the embodiment. 図3は、ホストコンピュータ5の構成を示すブロック図である。FIG. 3 is a block diagram showing the configuration of the host computer 5. 図4は、検査・分類装置4の分類器422を生成するためのホストコンピュータ5の機能構成を示すブロック図である。FIG. 4 is a block diagram showing a functional configuration of the host computer 5 for generating the classifier 422 of the inspection / classification apparatus 4. 図5は、ホストコンピュータ5の教師データ作成支援部61の機能構成を示すブロック図である。FIG. 5 is a block diagram showing a functional configuration of the teacher data creation support unit 61 of the host computer 5. 図6は、第1の教師データ作成支援処理の流れを示す図である。FIG. 6 is a diagram showing the flow of the first teacher data creation support process. 図7は、第2の教師データ作成支援処理の流れを示す図である。FIG. 7 is a diagram showing the flow of the second teacher data creation support process. 図8は、分類器生成部615の構成を示す図である。FIG. 8 is a diagram illustrating a configuration of the classifier generation unit 615. 図9は、分類器生成部615によるサブ分類器生成の流れを示す図である。FIG. 9 is a diagram illustrating a flow of sub-classifier generation by the classifier generation unit 615. 図10は、度数分布データ82が示す第1の特徴量軸における複数のクラスの度数分布表を示す図である。FIG. 10 is a diagram illustrating a frequency distribution table of a plurality of classes on the first feature amount axis indicated by the frequency distribution data 82. 図11は、度数分布データ82が示す第1の特徴量軸におけるクラス別のヒストグラムを示す図である。FIG. 11 is a diagram illustrating a histogram for each class on the first feature amount axis indicated by the frequency distribution data 82. 図12は、度数分布データ82が示す第2の特徴量軸における複数のクラスの度数分布表を示す図である。FIG. 12 is a diagram showing a frequency distribution table of a plurality of classes on the second feature amount axis indicated by the frequency distribution data 82. 図13は、度数分布データ82が示す第2の特徴量軸におけるクラス別のヒストグラムを示す図である。FIG. 13 is a diagram illustrating a histogram for each class on the second feature amount axis indicated by the frequency distribution data 82. 図14は、分類器330による教示済データ90の分類結果の一例を示す図である。FIG. 14 is a diagram illustrating an example of the classification result of the taught data 90 by the classifier 330. 図15は、度数分布データ82の修正例を説明するための図である。FIG. 15 is a diagram for explaining a modification example of the frequency distribution data 82. 図16は、度数分布データ82の他の修正例を説明するための図である。FIG. 16 is a diagram for explaining another modification example of the frequency distribution data 82. 図17は、教示済データ数(教師データ数)と分類器330の正答率の関係を示すグラフである。FIG. 17 is a graph showing the relationship between the number of taught data (the number of teacher data) and the correct answer rate of the classifier 330. 図18は、教示済データ数と分類器330の正答率の関係を示す他のグラフである。FIG. 18 is another graph showing the relationship between the number of taught data and the correct answer rate of the classifier 330.

以下、添付の図面を参照しながら、本発明の実施形態について説明する。なお、この実施形態に記載されている構成要素はあくまでも例示であり、本発明の範囲をそれらのみに限定する趣旨のものではない。図面においては、理解容易のため、必要に応じて各部の寸法や数が誇張又は簡略化して図示されている場合がある。また、本願において、一または複数の構成要素を「備える」、「含む」または「有する」という表現は、特に断らない限り、他の構成要素の存在を除外する排他的表現ではない。   Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings. In addition, the component described in this embodiment is an illustration to the last, and is not a thing of the meaning which limits the scope of the present invention only to them. In the drawings, the size and number of each part may be exaggerated or simplified as necessary for easy understanding. Further, in this application, the expression “comprising”, “including”, or “having” one or more constituent elements is not an exclusive expression for excluding the presence of other constituent elements unless otherwise specified.

<1. 第1実施形態>
図1は、実施形態の画像分類装置1の概略構成を示す図である。画像分類装置1では、半導体基板9上のパターン欠陥を示す欠陥画像が取得され、その欠陥画像の分類が行われる。画像分類装置1は、撮像装置2、検査・分類装置4およびホストコンピュータ5を備えている。なお、本実施形態では、分類対象が半導体基板を撮像して得られた欠陥画像である場合を例として説明するが、欠陥画像に限られるものではなく、例えば、細胞を撮像して得られた細胞画像等を分類対象としてもよい。
<1. First Embodiment>
FIG. 1 is a diagram illustrating a schematic configuration of an image classification device 1 according to the embodiment. In the image classification device 1, a defect image indicating a pattern defect on the semiconductor substrate 9 is acquired, and the defect image is classified. The image classification device 1 includes an imaging device 2, an inspection / classification device 4, and a host computer 5. In this embodiment, the case where the classification target is a defect image obtained by imaging a semiconductor substrate will be described as an example. However, the present invention is not limited to the defect image, and for example, obtained by imaging a cell. Cell images and the like may be classified.

撮像装置2は、半導体基板9上の検査対象領域を撮像する。検査・分類装置4は、撮像装置2によって取得された画像データに基づく欠陥検査を行う。検査・分類装置4は、欠陥が検出された場合に、その欠陥を欠陥の種別(クラス)毎に分類する。半導体基板9上に存在するパターンの欠陥のクラスは、欠損、突起、断線、ショート、異物などを含み得る。ホストコンピュータ5は、画像分類装置1の全体動作を制御するとともに、検査・分類装置4における欠陥の分類に利用される分類器422を生成する。   The imaging device 2 images the inspection target area on the semiconductor substrate 9. The inspection / classification device 4 performs defect inspection based on the image data acquired by the imaging device 2. When a defect is detected, the inspection / classification device 4 classifies the defect for each defect type (class). The class of pattern defects present on the semiconductor substrate 9 may include defects, protrusions, disconnections, shorts, foreign matter, and the like. The host computer 5 controls the overall operation of the image classification device 1 and generates a classifier 422 used for defect classification in the inspection / classification device 4.

撮像装置2は、半導体基板9の製造ラインに組み込まれ、画像分類装置1はいわゆるインライン型のシステムとされ得る。画像分類装置1は、欠陥検査装置に自動欠陥分類の機能を付加した装置である。   The imaging device 2 can be incorporated into a production line for the semiconductor substrate 9 and the image classification device 1 can be a so-called inline system. The image classification apparatus 1 is an apparatus in which a function of automatic defect classification is added to a defect inspection apparatus.

撮像装置2は、撮像部21、ステージ22およびステージ駆動部23を備えている。撮像部21は、半導体基板9の検査領域を撮像する。ステージ22は、半導体基板9を保持する。ステージ駆動部23は、撮像部21に対してステージ22を半導体基板9の表面に平行な方向に相対移動させる。   The imaging device 2 includes an imaging unit 21, a stage 22, and a stage driving unit 23. The imaging unit 21 images the inspection area of the semiconductor substrate 9. The stage 22 holds the semiconductor substrate 9. The stage driving unit 23 moves the stage 22 relative to the imaging unit 21 in a direction parallel to the surface of the semiconductor substrate 9.

撮像部21は、照明部211、光学系212および撮像デバイス213を備えている。光学系212は、半導体基板9に照明光を導く。半導体基板9にて反射した光は、再び光学系212に入射する。撮像デバイス213は、光学系212により結像された半導体基板9の像を電気信号に変換する。   The imaging unit 21 includes an illumination unit 211, an optical system 212, and an imaging device 213. The optical system 212 guides illumination light to the semiconductor substrate 9. The light reflected by the semiconductor substrate 9 enters the optical system 212 again. The imaging device 213 converts the image of the semiconductor substrate 9 formed by the optical system 212 into an electrical signal.

ステージ駆動部23は、ボールネジ、ガイドレール、モータ等により構成されている。ホストコンピュータ5がステージ駆動部23および撮像部21を制御することにより、半導体基板9上の検査対象領域が撮像される。   The stage driving unit 23 includes a ball screw, a guide rail, a motor, and the like. The host computer 5 controls the stage drive unit 23 and the imaging unit 21 so that the inspection target area on the semiconductor substrate 9 is imaged.

検査・分類装置4は、欠陥検出部41および自動分類部42を有する。欠陥検出部41は、検査対象領域の画像データを処理しつつ欠陥を検出する。詳細には、欠陥検出部41は、検査対象領域の画像データを高速に処理する専用の電気的回路を有し、撮像により得られた画像と参照画像(欠陥が存在しない画像)との比較や画像処理により検査対象領域の欠陥検査を行う。自動分類部42は、欠陥検出部41が検出した欠陥画像を分類する。詳細には、自動分類部42は、各種演算処理を行うCPUや各種情報を記憶するメモリ等により構成される。自動分類部42は、特徴量算出部421および分類器422を有する。分類器422は、ニューラルネットワーク、決定木、判別分析等を利用して欠陥の分類、すなわち、欠陥画像の分類を実行する。   The inspection / classification apparatus 4 includes a defect detection unit 41 and an automatic classification unit 42. The defect detection unit 41 detects defects while processing the image data of the inspection target area. Specifically, the defect detection unit 41 has a dedicated electric circuit that processes image data of the inspection target area at high speed, and compares an image obtained by imaging with a reference image (an image without a defect) A defect inspection of the inspection target area is performed by image processing. The automatic classification unit 42 classifies the defect images detected by the defect detection unit 41. Specifically, the automatic classification unit 42 includes a CPU that performs various arithmetic processes, a memory that stores various information, and the like. The automatic classification unit 42 includes a feature amount calculation unit 421 and a classifier 422. The classifier 422 executes defect classification, that is, defect image classification, using a neural network, a decision tree, discriminant analysis, or the like.

図2は、実施形態の画像分類装置1による欠陥画像の分類の流れを示す図である。まず、図1に示す撮像装置2が半導体基板9を撮像することにより、検査・分類装置4の欠陥検出部41が画像データを取得する(ステップS11)。   FIG. 2 is a diagram illustrating a flow of defect image classification by the image classification apparatus 1 according to the embodiment. First, when the imaging apparatus 2 shown in FIG. 1 images the semiconductor substrate 9, the defect detection unit 41 of the inspection / classification apparatus 4 acquires image data (step S11).

続いて、欠陥検出部41が、検査対象領域の欠陥検査を行うことにより、欠陥の検出を行う(ステップS12)。ステップS12において欠陥が検出された場合(ステップS12においてYES)、欠陥部分の画像(すなわち、欠陥画像)のデータが自動分類部42へと送信される。欠陥が検出されない場合は(ステップS12においてNO)、ステップS11の画像データの取得が行われる。   Subsequently, the defect detection unit 41 detects a defect by performing a defect inspection on the inspection target region (step S12). If a defect is detected in step S12 (YES in step S12), the image of the defective portion (that is, the defect image) is transmitted to the automatic classification unit 42. If no defect is detected (NO in step S12), image data acquisition in step S11 is performed.

自動分類部42は、欠陥画像を受け取ると、その欠陥画像の複数種類の特徴量の配列である特徴量を算出する(ステップS13)。その算出された特徴量は分類器422に入力され、分類器422により分類が行われる(ステップS14)。すなわち、分類器422により欠陥画像が複数のクラスのいずれかに分類される。画像分類装置1では、欠陥検出部41にて欠陥が検出される毎に、特徴量の算出がリアルタイムに行われ、多数の欠陥画像の自動分類が高速に行われる。   When receiving the defect image, the automatic classification unit 42 calculates a feature amount that is an array of a plurality of types of feature amounts of the defect image (step S13). The calculated feature amount is input to the classifier 422, and classification is performed by the classifier 422 (step S14). That is, the classifier 422 classifies the defect image into one of a plurality of classes. In the image classification device 1, every time a defect is detected by the defect detection unit 41, the feature amount is calculated in real time, and a large number of defect images are automatically classified at high speed.

次に、ホストコンピュータ5による分類器422の学習について説明する。図3は、ホストコンピュータ5の構成を示すブロック図である。   Next, learning of the classifier 422 by the host computer 5 will be described. FIG. 3 is a block diagram showing the configuration of the host computer 5.

ホストコンピュータ5は、CPU51、ROM52およびRAM53を有する。CPU51は各種演算処理を行う演算回路を含む。ROM52は基本プログラムを記憶している。RAM53は各種情報を記憶する揮発性の主記憶装置である。ホストコンピュータ5は、CPU51,ROM52およびRAM53をバスライン501で接続した一般的なコンピュータシステムの構成を備えている。   The host computer 5 has a CPU 51, ROM 52 and RAM 53. The CPU 51 includes an arithmetic circuit that performs various arithmetic processes. The ROM 52 stores a basic program. The RAM 53 is a volatile main storage device that stores various information. The host computer 5 has a general computer system configuration in which a CPU 51, a ROM 52, and a RAM 53 are connected by a bus line 501.

ホストコンピュータ5は、固定ディスク54、ディスプレイ55、入力部56、読取装置57および通信部58を備えている。これらの要素は、適宜インターフェース(I/F)を介してバスライン501に接続されている。   The host computer 5 includes a fixed disk 54, a display 55, an input unit 56, a reading device 57, and a communication unit 58. These elements are connected to the bus line 501 through an interface (I / F) as appropriate.

固定ディスク54は、情報記憶を行う補助記憶装置である。ディスプレイ55は、画像などの各種情報を表示する表示部である。入力部56は、キーボード56aおよびマウス56b等を含む入力用デバイスである。読取装置57は、光ディスク、磁気ディスク、光磁気ディスク等のコンピュータ読取可能な記録媒体8から情報の読み取りを行う。通信部58は、画像分類装置1の他の要素との間で信号を送受信する。   The fixed disk 54 is an auxiliary storage device that stores information. The display 55 is a display unit that displays various types of information such as images. The input unit 56 is an input device including a keyboard 56a and a mouse 56b. The reading device 57 reads information from a computer-readable recording medium 8 such as an optical disk, a magnetic disk, or a magneto-optical disk. The communication unit 58 transmits and receives signals to and from other elements of the image classification device 1.

ホストコンピュータ5は、読取装置57を介して記録媒体8からプログラム80を読み取り、固定ディスク54に記録される。当該プログラム80は、RAM53にコピーされる。CPU51は、RAM53内に格納されたプログラム80に従って、演算処理を実行する。   The host computer 5 reads the program 80 from the recording medium 8 via the reading device 57 and records it on the fixed disk 54. The program 80 is copied to the RAM 53. The CPU 51 executes arithmetic processing according to the program 80 stored in the RAM 53.

図4は、検査・分類装置4の分類器422を生成するためのホストコンピュータ5の機能構成を示すブロック図である。ホストコンピュータ5の機能は、ホストコンピュータ5のCPU51、ROM52、RAM53および固定ディスク54などにより実現される。図4では、検査・分類装置4も併せて示されている。ホストコンピュータ5は、教師データ作成支援部61、及び、学習部63を有する。教師データ作成支援部61は、分類器の学習に使用される教師データを作成する。学習部63は、教師データを用いて分類器を学習させる。   FIG. 4 is a block diagram showing a functional configuration of the host computer 5 for generating the classifier 422 of the inspection / classification apparatus 4. The functions of the host computer 5 are realized by the CPU 51, the ROM 52, the RAM 53, the fixed disk 54, and the like of the host computer 5. In FIG. 4, the inspection / classification apparatus 4 is also shown. The host computer 5 includes a teacher data creation support unit 61 and a learning unit 63. The teacher data creation support unit 61 creates teacher data used for learning of the classifier. The learning unit 63 learns the classifier using the teacher data.

教師データは、欠陥画像である教師画像のデータ、教師画像の特徴量の値、及び、欠陥のクラスを示す情報である教示クラスを含む。教師画像の特徴量として、例えば、欠陥の面積、明度平均、周囲長、扁平度、欠陥を楕円に近似した場合の長軸の傾き等が採用され得る。   The teacher data includes teacher image data that is a defect image, a feature value of the teacher image, and a teaching class that is information indicating a defect class. As the feature amount of the teacher image, for example, the area of the defect, the brightness average, the peripheral length, the flatness, the inclination of the long axis when the defect is approximated to an ellipse, and the like can be adopted.

学習部63では、教師データから読み出された教師画像の特徴量の値が、ホストコンピュータ5内の分類器(図示省略)に入力される。そして、分類器の出力が教示クラスと同じになるように学習が行われ、学習結果、すなわち、学習後の分類器422(正確には、分類器422の構造や変数の値を示す情報)が自動分類部42へと転送される。このように、教師データを使用して分類器422が生成される。分類器の生成とは、分類器が含むパラメータに値を付与したり構造を決定したりすること等により、分類器を生成することをいう。   In the learning unit 63, the feature value of the teacher image read from the teacher data is input to a classifier (not shown) in the host computer 5. Then, learning is performed so that the output of the classifier becomes the same as the teaching class, and the learning result, that is, the classifier 422 after learning (more precisely, information indicating the structure of the classifier 422 and the value of the variable) is obtained. It is transferred to the automatic classification unit 42. Thus, the classifier 422 is generated using the teacher data. Generation of a classifier means generation of a classifier by assigning a value to a parameter included in the classifier or determining a structure.

図5は、ホストコンピュータ5の教師データ作成支援部61の機能構成を示すブロック図である。教師データ作成支援部61は、データ演算部610、ディスプレイ55および入力部56を備える。データ演算部610は、記憶部611、サブ教示済データ群構築部613、分類器生成部615、分類成績取得部617、繰返制御部618、データ抽出部619および表示制御部620を備える。データ演算部610の処理の詳細については後述する。なお、データ演算部610(および学習部63)の機能は、専用の電気回路により構築されてもよく、部分的に専用の電気回路が利用されてもよい。   FIG. 5 is a block diagram showing a functional configuration of the teacher data creation support unit 61 of the host computer 5. The teacher data creation support unit 61 includes a data calculation unit 610, a display 55, and an input unit 56. The data calculation unit 610 includes a storage unit 611, a sub-taught data group construction unit 613, a classifier generation unit 615, a classification result acquisition unit 617, a repetition control unit 618, a data extraction unit 619, and a display control unit 620. Details of the processing of the data calculation unit 610 will be described later. It should be noted that the function of the data operation unit 610 (and the learning unit 63) may be constructed by a dedicated electric circuit or may be partially used.

図6は、第1の教師データ作成支援処理の流れを示す図である。以下に説明する各動作は、特に断らない限り、データ演算部610により実行されるものとする。   FIG. 6 is a diagram showing the flow of the first teacher data creation support process. Each operation described below is executed by the data calculation unit 610 unless otherwise specified.

第1の教師データ作成支援処理では、まず、複数の教示済データ90が準備される(ステップS21)。以下、この複数の教示済データ90を「教示済データ90群」とも称する。教示済データ90は、あらかじめ複数の欠陥のクラスのうち1つが教示クラスとして教示された欠陥画像を示すデータである。教示済データ90群には、間違ったクラスが教示された教示済データ90を含む可能性がある。教師データ作成支援部61が実行する教師データ作成支援処理では、教示間違いの教示済データ90を効率よく発見して、正しいクラスを教示することにより、高品質の教師データを生成するものである。教示済データ90群に含まれる教示済データ90の数量は、特に限定されないが、例えば、1000個〜10万個程度であることが想定される。また、各教示済データ90の教示クラスは、任意の分類器の分類結果に基づいて教示されたものとしてよいし、あるいは、オペレータが各欠陥画像を目視確認すること等に基づいてオペレータが教示したものであってもよい。準備された教示済データ90群は、記憶部611に保存される。   In the first teacher data creation support process, first, a plurality of taught data 90 are prepared (step S21). Hereinafter, the plurality of taught data 90 are also referred to as “taught data 90 group”. The taught data 90 is data indicating a defect image in which one of a plurality of defect classes is previously taught as a teaching class. The taught data 90 group may include taught data 90 in which the wrong class is taught. In the teacher data creation support process executed by the teacher data creation support unit 61, high-quality teacher data is generated by efficiently finding the taught data 90 of teaching errors and teaching the correct class. The quantity of the taught data 90 included in the taught data 90 group is not particularly limited, but is assumed to be about 1000 to 100,000, for example. Moreover, the teaching class of each taught data 90 may be taught based on the classification result of an arbitrary classifier, or the operator taught based on the operator visually confirming each defect image. It may be a thing. The prepared taught data 90 group is stored in the storage unit 611.

教示済データ90群が準備された後、サブ教示済データ群構築部613が、サブ教示済データ群を構築する(ステップS22)。サブ教示済データ群は、記憶部611に保存された全ての教示済データ90のうち、複数のクラス各々から1つ以上の同数ずつランダムに選定された教示済データ90の集合である。   After the taught data 90 group is prepared, the sub-taught data group construction unit 613 constructs a sub-taught data group (step S22). The sub-teached data group is a set of taught data 90 that is randomly selected from one or more equal numbers of each of a plurality of classes among all the taught data 90 stored in the storage unit 611.

サブ教示済データ群が構築されると、分類器生成部615がサブ分類器を生成する(ステップS23)。詳細には、分類器生成部615が、サブ教示済データ群に属する複数の教示済データ90を用いた機械学習により、データを分類するサブ分類器を生成する。サブ分類器は、教示済データ90の欠陥画像が持つ特徴量に基づき、複数の欠陥のクラスのうちのいずれか1つに分類する。   When the sub-taught data group is constructed, the classifier generation unit 615 generates a sub classifier (step S23). Specifically, the classifier generation unit 615 generates a sub classifier that classifies data by machine learning using a plurality of taught data 90 belonging to the sub taught data group. The sub classifier classifies the defect class into any one of a plurality of defect classes based on the feature amount of the defect image of the taught data 90.

具体的に、分類器生成部615では、教示済データ90から読み出された欠陥画像の特徴量が、ホストコンピュータ5内の分類器(図示省略)に入力される。そして、その分類器の出力が、教示クラスと一致するように学習が行われ、学習結果、すなわち、学習後のサブ分類器(正確には、サブ分類器の構造や変数の値を示す情報)が取得される。このように、サブ教示済データ群の教示済データ90を使用して、サブ分類器が生成される。サブ分類器の構築手法の詳細な例については、後述する。   Specifically, in the classifier generation unit 615, the feature amount of the defect image read from the taught data 90 is input to a classifier (not shown) in the host computer 5. Then, learning is performed so that the output of the classifier coincides with the teaching class, and the learning result, that is, the sub-classifier after learning (more precisely, information indicating the structure of the sub-classifier and the value of the variable) Is acquired. In this way, a sub classifier is generated using the taught data 90 of the sub taught data group. A detailed example of the construction method of the sub classifier will be described later.

サブ分類器が生成されると、分類成績取得部617がそのサブ分類器の分類成績を取得する(ステップS24)。具体的には、記憶部611に保存された教示済データ90群の全部または一部(サブ教示済データ群以外の教示済データ90を含む)を、そのサブ分類器で分類した場合の分類成績を取得する。分類成績の指標としては、例えば、正答率(Accuracy)が採用され得る。正答率とは、サブ分類器により分類された教示済データ90の総数のうち、サブ分類器で分類されたクラスと教示クラスとが一致した教示済データ90の総数の割合である。   When the sub classifier is generated, the classification result acquisition unit 617 acquires the classification result of the sub classifier (step S24). Specifically, the classification result when all or part of the taught data 90 group stored in the storage unit 611 (including taught data 90 other than the sub-taught data group) is classified by the sub-classifier. To get. As an index of classification results, for example, a correct answer rate (Accuracy) can be adopted. The correct answer rate is a ratio of the total number of taught data 90 in which the class classified by the sub classifier and the taught class match among the total number of taught data 90 classified by the sub classifier.

なお、分類成績の指標として、正答率の代わりに再現率(Recall)または適合率(Precision)を採用してもよい。再現率とは、特定の教示クラスの教示済データ90のうち、サブ分類器によって正しくその教示クラスに分類された教示済データ90の割合である。適合率とは、サブ分類器によってある特定のクラスに分類された教示済データ90のうち、教示クラスがその特定のクラスに一致している教示済データ90の割合である。   In addition, as an index of the classification result, a recall (Recall) or a precision (Precision) may be adopted instead of the correct answer rate. The recall is the ratio of the taught data 90 correctly classified into the teaching class by the sub-classifier out of the taught data 90 of the specific teaching class. The relevance ratio is a ratio of taught data 90 in which the teaching class matches the specific class out of the taught data 90 classified into a specific class by the sub classifier.

サブ分類器の分類成績が取得されると、繰返制御部618は、所定数のサブ分類器が生成されたか否かを判定する(ステップS25)。所定数のサブ分類器が生成されていない場合(ステップS25においてNOの場合)、繰返制御部618は、サブ教示済データ群構築部613、分類器生成部615および分類成績取得部617を制御して、ステップS22〜ステップS24を再び実行させる。このように、本例では、所定数のサブ分類器が生成されるまでステップS22〜ステップS24が繰り返し行われる。   When the classification result of the sub classifier is acquired, the repetition control unit 618 determines whether a predetermined number of sub classifiers have been generated (step S25). When the predetermined number of sub classifiers has not been generated (NO in step S25), repetition control unit 618 controls sub-taught data group construction unit 613, classifier generation unit 615, and classification result acquisition unit 617. Then, step S22 to step S24 are executed again. Thus, in this example, steps S22 to S24 are repeatedly performed until a predetermined number of sub-classifiers are generated.

繰返制御部618が所定数のサブ分類器が生成されたと判定した場合(ステップS25においてYESの場合)、データ演算部610は、所定数のサブ分類器の中から、分類成績が最良のサブ分類器を選定する(ステップS26)。具体的に、分類成績の指標として「正答率」が採用されている場合、正答率が最も高いサブ分類器が選定される。なお、ステップS26において、分類成績の最も良いサブ分類器が選定されることは必須ではない。所定の分類成績の基準(例えば、「正答率が所定のしきい値を超える」など)を満たす1つのサブ分類器が選定されてもよい。   When iterative control unit 618 determines that a predetermined number of sub-classifiers have been generated (YES in step S25), data operation unit 610 selects the sub-class with the best classification result from the predetermined number of sub-classifiers. A classifier is selected (step S26). Specifically, when the “correct answer rate” is adopted as an index of classification results, the sub classifier having the highest correct answer rate is selected. In step S26, it is not essential to select a sub-classifier having the best classification result. One sub-classifier that satisfies a predetermined classification performance criterion (for example, “the correct answer rate exceeds a predetermined threshold”, etc.) may be selected.

1つのサブ分類器が選定された後、データ抽出部619は、当該1つのサブ分類器を典型分類器とする。そして、データ抽出部619は、当該典型分類器で、教示済データ90群の全部または一部を分類した場合に、分類先クラスが元の教示クラスと適合しない教示済データ90(以下、「不適合教示済データ」とも称する。)を抽出する(ステップS27)。本例では、典型分類による分類結果は、ステップS24においてその典型分類器に対応するサブ分類器の分類成績を取得した際に得られている。このため、本例では、ステップS27において、改めて分類を行うことは必須ではない。   After one sub classifier is selected, the data extraction unit 619 sets the one sub classifier as a typical classifier. Then, the data extraction unit 619 uses the typical classifier to classify all or part of the taught data 90 group, and the taught data 90 (hereinafter referred to as “nonconforming”) whose classification destination class does not match the original teaching class. (Also referred to as “taught data”) is extracted (step S27). In this example, the classification result by the typical classification is obtained when the classification result of the sub classifier corresponding to the typical classifier is acquired in step S24. For this reason, in this example, it is not essential to perform classification again in step S27.

不適合教示済データが抽出された後、表示制御部620は、その不適合教示済データの欠陥画像をディスプレイ55に表示する(ステップS28)。これにより、教示間違いの可能性がある教示済データ90が、オペレータに提示される。このとき、不適合教示済データについて、欠陥画像とともに、元の教示クラスと分類先クラスとが表示されるとよい。教示済データ90の表示に伴い、データ演算部610が新たなクラスの教示を受け付ける再教示受付部として機能するようにしてもよい。具体的には、オペレータが各教示済データ90を目視により確認して教示クラスの妥当性を判断する。そして、オペレータがクラスの再教示が必要と判断した場合には、入力部56を介して、クラスを指定する入力を行う。データ演算部610は、当該入力を受け付けることにより、記憶部611に保存されているその教示済データ90の教示クラスを修正するとよい。   After the non-conforming taught data is extracted, the display control unit 620 displays a defect image of the non-conforming taught data on the display 55 (step S28). Thereby, the taught data 90 with the possibility of teaching mistake is presented to the operator. At this time, the original teaching class and the classification destination class may be displayed together with the defect image for the non-conforming teaching completed data. As the taught data 90 is displayed, the data calculation unit 610 may function as a re-teaching accepting unit that accepts teaching of a new class. Specifically, the operator visually checks each taught data 90 to determine the validity of the teaching class. When the operator determines that class re-teaching is necessary, an input for designating a class is performed via the input unit 56. The data calculation unit 610 may correct the teaching class of the taught data 90 stored in the storage unit 611 by receiving the input.

第1の教師データ作成支援処理によると、所定の分類成績の基準を満たすサブ分類器が典型分類器として選定され、教示済データ90群の中から、当該典型分類器による分類先クラスが教示クラスと適合しない不適合教示済データが抽出される。このため、分類成績の基準を適切に設定することにより、教示間違いの可能性が高い教示済データを効率よく抽出し得る。また、サブ分類器をそのまま典型分類器とするため、分類器の再生成が不要である。このため、分類器生成に係る演算処理量を軽減することができる。特に、分類成績が最も良いサブ分類器に基づいて、不適合教示済データを抽出することにより、不適合教示済データの数量を最小化することができる。   According to the first teacher data creation support process, a sub classifier satisfying a predetermined classification result criterion is selected as a typical classifier, and a class to be classified by the typical classifier is selected from the taught data 90 group as a teaching class. Incompatible teaching data that does not match is extracted. For this reason, by appropriately setting the standard of classification results, it is possible to efficiently extract taught data with a high possibility of teaching error. Moreover, since the sub classifier is used as a typical classifier as it is, it is not necessary to regenerate the classifier. For this reason, it is possible to reduce the amount of calculation processing related to classifier generation. In particular, the quantity of non-conforming taught data can be minimized by extracting non-conforming taught data based on the sub-classifier having the best classification result.

教示済データ90群のうち、サブ分類器の分類先クラスが教示クラスと一致しない教示済データ90(以下、不一致教示済データとも称する。)は、サブ分類器の分類成績を低下させるものである。このため、一致教示済データ(教示済データ90群から上記不一致教示済データを除いたもの)は、分類成績の良い分類器の生成に適した教師データとなり得る。したがって、教示済データ90群のうち、一致教示済データのみを教師データとすることにより、教示済データ90群全体を教師データとする場合よりも、分類成績が優れた典型分類器を生成し得る。したがって、当該典型分類器に基づいて、教示済データ90群から教示間違いの可能性のある教示済データ90を有効にかつ効率的に抽出し得る。   Of the taught data 90 group, taught data 90 in which the classification class of the sub classifier does not match the teaching class (hereinafter also referred to as non-matched taught data) reduces the classification result of the sub classifier. . For this reason, the coincidence taught data (excluding the mismatched taught data from the taught data 90 group) can be teacher data suitable for generating a classifier with good classification results. Therefore, by using only the matched taught data among the taught data 90 group as the teacher data, a typical classifier having better classification results than the case where the entire taught data 90 group is used as the teacher data can be generated. . Therefore, based on the typical classifier, the taught data 90 with the possibility of teaching error can be effectively and efficiently extracted from the taught data 90 group.

図7は、第2の教師データ作成支援処理の流れを示す図である。図7に示す教師データ作成支援処理のうち、ステップS21〜ステップS25までは、図6に示す教師データ作成支援処理と共通する。   FIG. 7 is a diagram showing the flow of the second teacher data creation support process. Of the teacher data creation support process shown in FIG. 7, steps S21 to S25 are common to the teacher data creation support process shown in FIG.

この第2の教師データ作成支援処理では、データ演算部610がステップS25において所定数のサブ分類器が生成されたと判定した場合(ステップS25においてYES)、データ演算部610が、所定数のサブ分類器の中から、分類成績が所定の基準を満たす複数のサブ分類器を選定する(ステップS261)。分類成績の指標としては、例えば第1の教師データ作成支援処理のステップS24のときと同様に、正答率が採用され得る。この場合、ステップS261においては、正答率が所定の値を超える複数のサブ分類器が選定されるとよい。また、正答率の代わりに、特定クラスまたは全クラスについての再現率あるいは適合率も採用し得る。   In the second teacher data creation support process, when the data operation unit 610 determines that a predetermined number of sub-classifiers have been generated in step S25 (YES in step S25), the data operation unit 610 determines that the predetermined number of sub-classifiers have been generated. A plurality of sub classifiers whose classification results satisfy a predetermined criterion are selected from the classifiers (step S261). As an index of classification results, for example, the correct answer rate can be adopted as in step S24 of the first teacher data creation support process. In this case, in step S261, a plurality of sub-classifiers whose correct answer rate exceeds a predetermined value may be selected. In addition, the recall rate or the matching rate for a specific class or all classes can be adopted instead of the correct answer rate.

複数のサブ分類器が選定された後、分類器生成部615は、データを分類する典型分類器を生成する(ステップS262)。詳細には、分類器生成部615は、ステップS261において選定された複数のサブ分類器各々で教示済データ90群の全部または一部を分類した場合に、分類先クラスが教示クラスと一致した教示済データ(以下、「一致教示済データ」とも称する)を収集する。そして、分類器生成部615は、その収集された一致教示済データを教師データとする機械学習を行うことにより、典型分類器を生成する。   After a plurality of sub classifiers are selected, the classifier generation unit 615 generates a typical classifier that classifies data (step S262). Specifically, the classifier generating unit 615 classifies all or a part of the taught data 90 group in each of the plurality of sub-classifiers selected in step S261, and teaches that the classification destination class matches the teaching class. Collected data (hereinafter also referred to as “coincidence taught data”). Then, the classifier generation unit 615 generates a typical classifier by performing machine learning using the collected matched taught data as teacher data.

典型分類器が生成された後、データ抽出部619は、当該典型分類器によって、記憶部611に保存されている教示済データ90群の全部または一部の教示済データ90を分類する。そして、データ抽出部619は、分類された複数の教示済データ90のうち、典型分類器による分類先クラスが元の教示クラスと適合しなかった教示済データ90を、不適合教示済データとして抽出する(ステップS27)。そして、表示制御部620が、その不適合教示済データをディスプレイ55に表示する(ステップS28)。   After the typical classifier is generated, the data extracting unit 619 classifies all or part of the taught data 90 of the taught data 90 group stored in the storage unit 611 by the typical classifier. Then, the data extraction unit 619 extracts the taught data 90 in which the class to be classified by the typical classifier does not match the original teaching class from the plurality of classified taught data 90 as non-conforming taught data. (Step S27). Then, the display control unit 620 displays the nonconforming teaching data on the display 55 (step S28).

所定の分類成績の基準を満たす複数のサブ分類器の生成に使用されたサブ教示済データ群は、高精度な分類器の生成に適した典型データのセットであると考えられる。このため、ステップS261において選定されたサブ分類器の生成に使用された教示済データ90の各サブ教示済データ群を教師データとして典型分類器を生成することによって、分類成績の優れた典型分類器を生成し得る。したがって、この生成された典型分類器に基づいて、分類先クラスが教示クラスと適合しない教示済データ90を抽出することによって、オペレータに対して教示間違いの可能性があるデータを効率的に提示することができる。   The sub-taught data group used to generate a plurality of sub-classifiers that satisfy a predetermined classification performance criterion is considered to be a set of typical data suitable for generating a high-precision classifier. Therefore, a typical classifier having excellent classification results is generated by generating a typical classifier using each sub-taught data group of the taught data 90 used for generating the sub-classifier selected in step S261 as teacher data. Can be generated. Therefore, based on the generated typical classifier, by extracting the taught data 90 in which the class to be classified does not match the teaching class, data that may possibly cause a teaching error is efficiently presented to the operator. be able to.

なお、第2の教師データ作成支援処理では、ステップS261,S262において、複数のサブ分類器に基づき、典型分類器が生成されている。しかしながら、1つのサブ分類器に基づいて、典型分類器が生成されてもよい。例えば、ステップS261では、分類器生成部615が、分類成績が最も良い1つのサブ分類器を選定する。そして、ステップS262では、分類器生成部615が、その1つのサブ分類器で教示済データ90群の全部または一部を分類した場合に、分類先クラスが教示クラスと一致する一致教示済データを収集する。そして、分類器生成部615が、収集された一致教示済データを教師データとする機械学習を行うことにより、典型分類器を生成するとよい。   In the second teacher data creation support process, a typical classifier is generated based on a plurality of sub-classifiers in steps S261 and S262. However, a typical classifier may be generated based on one sub-classifier. For example, in step S261, the classifier generation unit 615 selects one sub classifier having the best classification result. In step S262, when the classifier generation unit 615 classifies all or part of the taught data 90 group by the one sub-classifier, the matching taught data whose classification destination class matches the teaching class is obtained. collect. Then, the classifier generation unit 615 may generate a typical classifier by performing machine learning using the collected matched taught data as teacher data.

<分類器の生成処理>
分類器生成部615は、上述したように、第1および第2の教師データ支援処理において、サブ分類器の生成処理(図6:ステップS25)を行う。また、分類器生成部615は、第2の教師データ支援処理において、典型分類器の生成処理(図7:ステップS262)を行う。ここでは、この分類器生成部615による分類器の生成処理について説明する。以下では、サブ分類器の生成処理について主に説明するが、典型分類器についても同様に生成することができる。図8は、分類器生成部615の構成を示す図である。図9は、分類器生成部615によるサブ分類器生成の流れを示す図である。
<Classifier generation process>
As described above, the classifier generation unit 615 performs sub-classifier generation processing (FIG. 6: step S25) in the first and second teacher data support processing. The classifier generation unit 615 performs a typical classifier generation process (FIG. 7: step S262) in the second teacher data support process. Here, the classifier generation processing by the classifier generation unit 615 will be described. In the following, the generation process of the sub classifier will be mainly described, but the typical classifier can be generated in the same manner. FIG. 8 is a diagram illustrating a configuration of the classifier generation unit 615. FIG. 9 is a diagram illustrating a flow of sub-classifier generation by the classifier generation unit 615.

図8に示すように、分類器生成部615は、教師データ記憶部6150、度数分布データ生成部6151、分類器構築部6152、度数分布データ修正部6153および繰返制御部6154を有する。   As shown in FIG. 8, the classifier generation unit 615 includes a teacher data storage unit 6150, a frequency distribution data generation unit 6151, a classifier construction unit 6152, a frequency distribution data correction unit 6153, and a repetition control unit 6154.

教師データ記憶部6150は、分類器を構築するための教師データ(ここでは、複数の教示済データ90)を記憶する。分類器生成部615において、サブ分類器を生成する場合、教師データ記憶部6150は、サブ教示済データ群構築部613により構築されたサブ教示済データ群に属する複数の教示済データ90を、教師データとして記憶する(図9:ステップS31)。   The teacher data storage unit 6150 stores teacher data (in this case, a plurality of taught data 90) for constructing a classifier. When the classifier generation unit 615 generates a sub classifier, the teacher data storage unit 6150 stores a plurality of taught data 90 belonging to the sub taught data group constructed by the sub taught data group construction unit 613. The data is stored (FIG. 9: Step S31).

サブ教示済データ群の各教示済データ90が準備されると、度数分布データ生成部6151は、複数の教示済データ90に基づいて、特徴量軸毎の度数分布を示す度数分布データ82を生成する(図9:ステップS32)。度数分布データ82は、各教示済データ90を標本とする度数分布を示すデータであって、特徴量軸毎に、各特徴量軸の値を離散化した各区間における度数(出現頻度)を、クラス別に示すデータである。   When each taught data 90 of the sub taught data group is prepared, the frequency distribution data generation unit 6151 generates frequency distribution data 82 indicating the frequency distribution for each feature amount axis based on the plurality of taught data 90. (FIG. 9: Step S32). The frequency distribution data 82 is data indicating a frequency distribution using each taught data 90 as a sample. For each feature amount axis, the frequency (appearance frequency) in each section obtained by discretizing the value of each feature amount axis is expressed as follows. This data is shown by class.

具体的に、度数分布データ生成部6151は、特徴量軸毎に、各教示済データ90に含まれる特徴量の値から、最大値及び最小値を特定することにより、特徴量軸毎に値の分布範囲を取得する。そして、度数分布データ生成部6151は、当該分布範囲を、適当な個数の区間に等分割(離散化)する。分布範囲の分割数は、例えば、2の1乗(すなわち、2)以上、2の10乗以下とし得る。そして、離散化された各区間(離散区間)におけるクラス別の度数(出現頻度)が求められる。詳細には、特徴量軸毎に、1つの教示済データ90につき、その教示済データ90が持つ特徴量の値に対応する対応離散区間の度数を1つだけ加える。   Specifically, the frequency distribution data generation unit 6151 specifies a maximum value and a minimum value from the feature value values included in each taught data 90 for each feature value axis, thereby obtaining a value for each feature value axis. Get the distribution range. Then, the frequency distribution data generation unit 6151 equally divides (discretizes) the distribution range into an appropriate number of sections. The number of divisions of the distribution range may be, for example, 2 to the 1st power (ie, 2) or more and 2 to the 10th power or less. Then, the frequency (appearance frequency) for each class in each discretized section (discrete section) is obtained. Specifically, for each feature quantity axis, for each taught data 90, only one frequency of the corresponding discrete section corresponding to the feature quantity value of the taught data 90 is added.

図10は、度数分布データ82が示す第1の特徴量軸における複数のクラスの度数分布表を示す図である。図11は、度数分布データ82が示す第1の特徴量軸におけるクラス別のヒストグラムを示す図である。図12は、度数分布データ82が示す第2の特徴量軸における複数のクラスの度数分布表を示す図である。図13は、度数分布データ82が示す第2の特徴量軸におけるクラス別のヒストグラムを示す図である。   FIG. 10 is a diagram illustrating a frequency distribution table of a plurality of classes on the first feature amount axis indicated by the frequency distribution data 82. FIG. 11 is a diagram illustrating a histogram for each class on the first feature amount axis indicated by the frequency distribution data 82. FIG. 12 is a diagram showing a frequency distribution table of a plurality of classes on the second feature amount axis indicated by the frequency distribution data 82. FIG. 13 is a diagram illustrating a histogram for each class on the second feature amount axis indicated by the frequency distribution data 82.

図10及び図12では、複数(ここでは3種類)のクラスをそれぞれ「Class 1」「Class 2」「Class 3」と表し、特徴量軸における区間を、見出しに「bin」と表す行に0〜15の番号で示している(以下同様)。   In FIG. 10 and FIG. 12, a plurality of (here, three types) classes are represented as “Class 1”, “Class 2”, and “Class 3”, respectively, and the section on the feature amount axis is 0 in the row representing “bin” in the heading. It is indicated by a number of ~ 15 (the same applies hereinafter).

図10から図13では、各特徴量軸の値の分布範囲の分割数は14(区間(1)〜区間(14))であり、当該分布範囲よりも小さい値の区間(0)および大きい値の区間(15)も設けられている。区間(0)および区間(15)は、クラスが教示されていない未知のデータが示す値が、教示済データ90に基づく分布範囲の外側となる場合に用いられる。後述するように、特徴量軸毎のクラス別の度数分布は、データの分類(すなわち、クラス判別)に供される。このため、度数分布データ82は、クラス判別を行うための「判別情報」ともいえる。   In FIG. 10 to FIG. 13, the number of divisions of the distribution range of the values of each feature amount axis is 14 (section (1) to section (14)), and the section (0) having a value smaller than the distribution range and a large value are included. Section (15) is also provided. The section (0) and the section (15) are used when the value indicated by the unknown data whose class is not taught is outside the distribution range based on the taught data 90. As will be described later, the frequency distribution by class for each feature amount axis is used for data classification (that is, class discrimination). Therefore, the frequency distribution data 82 can be said to be “discrimination information” for class discrimination.

分布範囲の分割数は、特徴量軸毎に異なっていてもよいし、全特徴量軸について同一としてもよい。例えば、全区間において度数が1となる区間が1つのみ存在するような分割数のうち、最小のものが分割数の上限として設定され得る。これにより、度数が1以上となる区間が不連続となることが抑制される。また、複数の特徴量軸により規定される特徴量空間において、複数の特徴量軸の区間により表現される領域(セル)の個数が、教師画像の総数よりも十分に多くなるように、分割数の下限が設定されることが好ましい。   The number of divisions of the distribution range may be different for each feature amount axis, or may be the same for all feature amount axes. For example, among the number of divisions in which there is only one section having a frequency of 1 in all sections, the smallest one can be set as the upper limit of the number of divisions. Thereby, it is suppressed that the section where the frequency becomes 1 or more becomes discontinuous. In addition, in the feature amount space defined by the plurality of feature amount axes, the number of divisions is such that the number of regions (cells) expressed by the sections of the plurality of feature amount axes is sufficiently larger than the total number of teacher images. It is preferable that the lower limit of is set.

分類器構築部6152は、各特徴量の値に基づきデータを分類する(すなわち、クラス判別する)初期の分類器330を生成する(図9:ステップS33)。当該初期の分類器330は、度数分布データ82が示す、特徴量軸毎の各区間におけるクラス別の出現比率に基づき、分類対象のデータを分類するように構成される。   The classifier construction unit 6152 generates an initial classifier 330 that classifies data (that is, classifies) based on the value of each feature quantity (FIG. 9: step S33). The initial classifier 330 is configured to classify data to be classified based on the appearance ratio of each class in each section indicated by the frequency distribution data 82.

ここでは、分類器330の基本的構造は予め決定されており、分類器330は、複数の特徴量軸各々について、演算を行う複数の弱分類器を含む。弱分類器各々は、分類対象の画像が持つ特徴量の値を参照して、当該値が取得された画像が、複数のクラスのそれぞれに属する確率(弱分類器各々が対応する特徴量軸のみに着目した確率)をクラス評価結果として求める。   Here, the basic structure of the classifier 330 is determined in advance, and the classifier 330 includes a plurality of weak classifiers that perform computation for each of a plurality of feature amount axes. Each weak classifier refers to the feature value of the image to be classified, and the probability that the image from which the value was acquired belongs to each of a plurality of classes (only the feature value axis corresponding to each weak classifier Is obtained as a class evaluation result.

ここで、サブ教示済データ群の各教示済データ90の総数をN、クラスの個数をn、クラスC(i=1,2,・・・,n)に属する(すなわち教示クラスがCである)教示済データ90の総数をNとする。Nはどの特徴量軸についても同じ数である。したがって、クラスCに属する教示済データ90の総数Nの全クラスの総和は、式(1)のようにサブ教示済データ群の各教示済データ90の総数Nとなる。 Here, the total number of each taught data 90 in the sub-teached data group is N, the number of classes is n, and the class C i (i = 1, 2,..., N) belongs to (that is, the taught class is C i. The total number of taught data 90 is N i . Ni is the same number for any feature amount axis. Therefore, the sum total of all classes of the total number N i of the taught data 90 belonging to the class C i is the total number N of each taught data 90 in the sub-taught already-trained data group as shown in Expression (1).

Figure 2019148566
Figure 2019148566

また、特徴量軸の総数をm、特徴量軸Dj(j=1,2,・・・,m)の値を離散化したときの分割数をKとし、特徴量軸Djの区間k(k=1,2,・・・,K)におけるクラスCに属する教示済データ90の個数をFij(k)で表すと、クラスCに属する教示済データ90の総数Nは、式(2)のように表される。 Further, the total number of feature amount axes is m, the number of divisions when the value of the feature amount axis Dj (j = 1, 2,..., M) is discretized is K j, and the section k ( k = 1, 2, · · ·, when the number of teaching-data-90 belonging to the class C i in K j) expressed by F ij (k), the total number N i of the teaching-data-90 belonging to the class C i is It is expressed as equation (2).

Figure 2019148566
Figure 2019148566

一方、1つの特徴量軸Dのみに着目した場合に、区間kにおいてクラスCに属する教示済データ90の出現比率(個数Fij(k)のクラスCに属する教示済データ90の総数Nに対する比率)は、当該特徴量軸Dの値が区間kに属する画像がクラスCに属する確率と考えることができる。以下、当該確率をPjk(Ci)と表す。この確率Pjk(Ci)は、式(3)のように表される。 On the other hand, when attention is paid to only one feature amount axis D j , the appearance ratio of the taught data 90 belonging to the class C i in the section k (the total number of taught data 90 belonging to the class C i of the number F ij (k)) The ratio with respect to N i ) can be considered as the probability that an image whose value of the feature amount axis D j belongs to the section k belongs to the class C i . Hereinafter, the probability is expressed as P jk (C i ). This probability P jk (C i ) is expressed as shown in Equation (3).

Figure 2019148566
Figure 2019148566

例えば、第1の特徴量軸(特徴量軸D1)の9番の区間(9)について確率Pjk(Ci)を求めた場合、例えば、クラス1(C)の確率P1,9(C1)は、0.031(=49/1578)となる。また、クラス2(C)の確率P1,9(C2)は、0.171(=486/2849)となる。さらに、クラス3(C)の確率P1,9(C3)は、0.013(=9/688)となる。1つの特徴量軸において、確率Pjk(Ci)はn個(クラス数)だけ得られるが、全クラスの確率Pjk(Ci)の総和は1にはならない。 For example, when the probability P jk (C i ) is obtained for the ninth section (9) of the first feature amount axis (feature amount axis D 1 ), for example, the probability P 1,9 of class 1 (C 1 ) (C 1 ) is 0.031 (= 49/1578). The probability P 1,9 (C 2 ) of class 2 (C 2 ) is 0.171 (= 486/2849). Further, the probability P 1,9 (C 3 ) of class 3 (C 3 ) is 0.013 (= 9/688). On one feature axis, the probability P jk (C i ) is obtained by n (number of classes), but the sum of the probabilities P jk (C i ) of all classes is not 1.

分類器330を構成する複数の弱分類器各々は、対応する特徴量軸Djの値から度数分布データ82を参照することにより、クラス別に出現比率(確率Pjk(Ci))をクラス評価結果として求める。当該弱分類器では、特徴量軸Dの値が取得された画像が、特定のクラスCに属するとした場合の妥当性(確信度)を示す評価値がクラス評価値として求められるともいえる。 Each of the plurality of weak classifiers constituting the classifier 330 refers to the frequency distribution data 82 from the value of the corresponding feature amount axis D j , thereby classifying the appearance ratio (probability P jk (C i )) for each class. As a result. In the weak classifier, it can be said that an evaluation value indicating validity (confidence) when an image from which the value of the feature amount axis D j is acquired belongs to a specific class C i is obtained as a class evaluation value. .

ところで、多くの特徴量軸におけるクラス別の度数分布では、図11および図13のヒストグラムのように、互いに重なり合う部分が多く存在するため、各特徴量軸において求められる複数のクラスに対する確率によるクラスの予測精度は、あまり高いとはいえない(ただし、ランダムにクラスを予測するよりも精度は高いといえる。)。そこで、分類器330では、アンサンブル学習の考え方が取り入れられており、複数の特徴量軸に対する複数の弱分類器のクラス評価結果に基づいて分類クラスを決定する強分類器として、分類器330が構成される。   By the way, in the frequency distribution by class on many feature amount axes, there are many overlapping portions as shown in the histograms of FIGS. 11 and 13. The prediction accuracy is not very high (although it can be said that the accuracy is higher than predicting the class randomly). Therefore, the classifier 330 adopts the concept of ensemble learning, and the classifier 330 is configured as a strong classifier that determines a classification class based on the class evaluation results of a plurality of weak classifiers for a plurality of feature amount axes. Is done.

分類器330では、各特徴量軸に対するクラス評価結果として、複数のクラスの評価値(確率)が求められるが、クラス評価結果は、例えば、評価値が最大のクラスに1を付与し、他のクラスに0を付与するものであってもよい。この場合、実質的に、各特徴量軸において評価値が最大のクラスに投票を行う処理となり、複数の特徴量軸における得票数が最大のクラスが分類クラスとして決定される。   In the classifier 330, evaluation values (probabilities) of a plurality of classes are obtained as class evaluation results for each feature amount axis. For example, the class evaluation result is obtained by assigning 1 to the class having the maximum evaluation value, You may give 0 to a class. In this case, the process is to vote for the class having the largest evaluation value on each feature amount axis, and the class having the largest number of votes on the plurality of feature amount axes is determined as the classification class.

図8に示すように、度数分布データ修正部6153は、度数分布データ生成部6151によって生成され、分類器構築部6152に送られた度数分布データ82を修正する。以下、度数分布データ修正部6153が度数分布データ82を修正する処理の流れについて説明する。具体的には、度数分布データ修正部6153は、修正対象の度数分布データ82に基づきデータ分類を行う分類器330を用いて、サブ教示済データ群の各教示済データ90を分類する(図9:ステップS34)。   As shown in FIG. 8, the frequency distribution data correction unit 6153 corrects the frequency distribution data 82 generated by the frequency distribution data generation unit 6151 and sent to the classifier construction unit 6152. Hereinafter, a flow of processing in which the frequency distribution data correction unit 6153 corrects the frequency distribution data 82 will be described. Specifically, the frequency distribution data correction unit 6153 classifies each taught data 90 of the sub-taught data group using the classifier 330 that performs data classification based on the frequency distribution data 82 to be corrected (FIG. 9). : Step S34).

本処理例では、度数分布データ修正部6153は、教示済データ90として、初期の分類器330を生成したとき(すなわち、初期の度数分布データ82を生成したとき)に使用された教示済データ90全部を、分類器330に分類させる。なお、度数分布データ修正部6153が、教示済データ90全部のうち一部のみを選択して、分類器330に分類させてもよい。教示済データ90の分類では、各教示済データ90の各特徴量軸Dの値が特定され、クラスC別の出現比率(確率Pjk(Ci))がクラス評価結果として取得される。 In this processing example, the frequency distribution data correction unit 6153 uses the taught data 90 used when the initial classifier 330 is generated as the taught data 90 (that is, when the initial frequency distribution data 82 is generated). All are classified by the classifier 330. Note that the frequency distribution data correction unit 6153 may select only a part of all the taught data 90 and cause the classifier 330 to classify it. The classification of the teaching-data-90, identified the value of the characteristic quantity axis D j of each teaching-data-90, class C i different appearance ratio (probability P jk (C i)) is obtained as a class evaluation result .

分類器330による分類では、さらに、特徴量軸各々の出現比率の代表値(例えば、平均値や中央値、加重平均値等)が求められる。そして、全クラスのうち代表値が最大であるクラスが、当該教示済データ90の分類先クラスに決定される。各教示済データ90の分類クラスは、度数分布データ修正部6153において記憶される。なお、分類器330による好ましい処理では、(1)最大の代表値が所定のしきい値SH1未満である場合、または、(2)最大の代表値と2番目に大きい代表値との差(または比率)が所定の他のしきい値SH2未満である場合などに、分類すべきクラスが不明であることを示す追加クラスが分類クラスとして決定される。以下の説明では、上記(1)、(2)の場合に、教師画像群の教師画像が、追加クラスに分類されるものとする。   In the classification by the classifier 330, a representative value (for example, an average value, a median value, a weighted average value, etc.) of the appearance ratio of each feature amount axis is further obtained. Then, the class having the maximum representative value among all classes is determined as the class to be classified in the taught data 90. The classification class of each taught data 90 is stored in the frequency distribution data correction unit 6153. In the preferred processing by the classifier 330, (1) when the maximum representative value is less than the predetermined threshold SH1, or (2) the difference between the maximum representative value and the second largest representative value (or The additional class indicating that the class to be classified is unknown is determined as the classification class, for example, when the ratio is less than another predetermined threshold value SH2. In the following description, it is assumed that the teacher images of the teacher image group are classified into the additional class in the cases (1) and (2).

図14は、分類器330による教示済データ90の分類結果の一例を示す図である。図14は、分類結果をまとめたコンフュージョンマトリクス(混同行列)である。図14では、3種類の教示クラスを行見出しに記し、不明を含む4種類の分類クラスを列見出しに記している。教示クラスが「A」である各教示済データ90のうち、クラス「B」に分類された教示済データ90の個数は、「A」の行と「B」の列とが交差するセルに示される。たとえば、教示クラスが「Class 1」である各教示済データ90のうち、「Class 2」に分類された教示済データ90の数は、143個である。また、「Precision」(適合率)の行と「Recall」(再現率)の列とが交差するセルは、分類器330により分類された教示済データ90の総数のうち、分類器330により分類されたクラスと教示クラスとが一致した教示済データ90の総数の比率(正答率:Accuracy)である。全ての教示済データ90が分類対象とされている場合、図9の分類結果は、いわゆる再代入法評価の結果である。   FIG. 14 is a diagram illustrating an example of the classification result of the taught data 90 by the classifier 330. FIG. 14 is a confusion matrix (confusion matrix) that summarizes the classification results. In FIG. 14, three types of teaching classes are described in the row headings, and four types of classification classes including unknown are described in the column headings. Of each taught data 90 whose teaching class is “A”, the number of taught data 90 classified into class “B” is indicated in the cell where the row “A” and the column “B” intersect. It is. For example, among each taught data 90 whose teaching class is “Class 1”, the number of taught data 90 classified as “Class 2” is 143. In addition, a cell in which a “Precision” (accuracy) row and a “Recall” (recall) column intersect is classified by the classifier 330 out of the total number of taught data 90 classified by the classifier 330. The ratio of the total number of taught data 90 in which the class and the teaching class match (accuracy rate: Accuracy). When all the taught data 90 is a classification target, the classification result of FIG. 9 is a result of so-called resubstitution method evaluation.

続いて、度数分布データ修正部6153は、各教示済データ90のうち、分類されたクラスが教示クラスと相違していた教示済データ90(以下、このデータを「不一致教示済データ」とも称する。)が存在する場合、その不一致教示済データ各々に基づいて、度数分布データ82を修正する(図9:ステップS35)。   Subsequently, the frequency distribution data correcting unit 6153 has taught data 90 in which the classified class is different from the taught class among the taught data 90 (hereinafter, this data is also referred to as “mismatched taught data”). ) Exists, the frequency distribution data 82 is corrected based on each of the mismatched taught data (FIG. 9: step S35).

この度数分布データ82の修正では、不一致教示済データを参酌することにより、特徴量軸各々に関して、その不一致教示済データが持つ特徴量の値に対応する区間(対応区間)が特定されるとともに、その対応区間における不一致教示済データの教示クラスの度数が、予め定められた正の値(たとえば「1」)だけ増加される。すなわち、分類先クラスが教示クラスと相違した不一致教示済データについて、特徴量軸毎のクラス別の度数分布を示す度数分布データ82において、重複して計数された度数分布データ82が生成されることとなる。この処理は、不一致教示済データの重みの変更と捉えることもできる。   In the correction of the frequency distribution data 82, by considering the mismatched taught data, for each feature amount axis, a section (corresponding section) corresponding to the feature value of the mismatched taught data is specified. The frequency of the teaching class of the mismatched taught data in the corresponding section is increased by a predetermined positive value (for example, “1”). That is, the frequency distribution data 82 that is counted twice is generated in the frequency distribution data 82 that indicates the frequency distribution for each class for each feature amount axis for the mismatched taught data whose classification destination class is different from the teaching class. It becomes. This process can also be regarded as a change in the weight of the mismatched taught data.

図15は、度数分布データ82の修正例を説明するための図である。ここでは、不一致教示済データの教示クラスが「Class 2」であり、その不一致教示済データが持つ特徴量軸Dの特徴量の値の対応区間が区間kであるとする。すると、この場合、図15に示すように、度数分布データ修正部6153は、区間kにおける「Class 2」の度数(個数F2j(k))を「1」だけ増加させる。これにより、区間kにおける「Class 2」の出現比率(確率Pjk(C2))が見かけ上増加することとなる。このような要領で、度数分布データ修正部6153は、不一致教示済データの全ての特徴量軸に関して、対応区間の度数を増加させることにより、度数分布データ82を修正する。 FIG. 15 is a diagram for explaining a modification example of the frequency distribution data 82. Here, it is assumed that the teaching class of the mismatched taught data is “Class 2”, and the corresponding section of the feature amount value of the feature amount axis D j possessed by the mismatched taught data is the section k. Then, in this case, as shown in FIG. 15, the frequency distribution data correction unit 6153 increases the frequency (number F 2j (k)) of “Class 2” in the interval k by “1”. As a result, the appearance ratio (probability P jk (C 2 )) of “Class 2” in the interval k apparently increases. In this manner, the frequency distribution data correction unit 6153 corrects the frequency distribution data 82 by increasing the frequency of the corresponding section for all feature amount axes of the mismatched taught data.

続いて、分類器構築部6152は、修正された度数分布データ82に基づきデータを分類するように、分類器330を更新する(図9:ステップS36)。新たな度数分布データ82では、不一致教示済データについて、特徴量軸毎に対応する対応区間の出現比率が増加している。このため、更新された分類器330では、この不一致教示済データを教示クラスに正しく分類する確率が、更新前よりも高くなる。   Subsequently, the classifier construction unit 6152 updates the classifier 330 so as to classify the data based on the corrected frequency distribution data 82 (FIG. 9: Step S36). In the new frequency distribution data 82, the appearance ratio of the corresponding section corresponding to each feature amount axis is increased for the mismatched taught data. For this reason, the updated classifier 330 has a higher probability of correctly classifying the mismatched taught data into the teaching class than before the update.

続いて、度数分布データ修正部6153は、修正された度数分布データ82に基づく分類器330を用いて、サブ教示済データ群の各教示済データ90を分類する(図9:ステップS37)。ここでは、ステップS31で準備されたサブ教示済データ群の各教示済データ90の全てを対象としてもよいし、そのうちの一部を対象としてもよい。   Subsequently, the frequency distribution data correction unit 6153 uses the classifier 330 based on the corrected frequency distribution data 82 to classify each taught data 90 of the sub-taught data group (FIG. 9: Step S37). Here, all of the taught data 90 of the sub-taught data group prepared in step S31 may be targeted, or a part of them may be targeted.

繰返制御部6154は、分類器330の教示済データ90の分類成績が所定の基準を満たすまで、度数分布データ修正部6153に度数分布データ82の修正を行わせる。具体的には、繰返制御部6154は、図4のステップS17の分類結果に基づき、分類器330による各教示済データ90のクラス判別の正答率が所定基準を満たすか否かを判断する(図9:ステップS38)。所定基準は、たとえば「正答率が所定値を超える」とすることが考えられる。正答率が所定基準を満たさない場合(ステップS38においてNOの場合)、ステップS15戻って、度数分布データ修正部6153が、ステップS37において不一致教示済データに基づき、度数分布データ82をさらに修正する処理を行う。このように、分類器330による各教示済データ90のクラス判別の正答率が所定値となるまで、ステップS35からステップS37までが繰り返し行われる。   The repetition control unit 6154 causes the frequency distribution data correction unit 6153 to correct the frequency distribution data 82 until the classification result of the taught data 90 of the classifier 330 satisfies a predetermined standard. Specifically, the repetition control unit 6154 determines whether or not the correct answer rate of class discrimination of each taught data 90 by the classifier 330 satisfies a predetermined standard based on the classification result of step S17 of FIG. FIG. 9: Step S38). For example, it is conceivable that the predetermined standard is “the correct answer rate exceeds a predetermined value”. If the correct answer rate does not satisfy the predetermined standard (NO in step S38), the process returns to step S15, and the frequency distribution data correction unit 6153 further corrects the frequency distribution data 82 based on the mismatched taught data in step S37. I do. As described above, steps S35 to S37 are repeatedly performed until the correct answer rate of class discrimination of each taught data 90 by the classifier 330 becomes a predetermined value.

ステップS38において、所定基準を満たす分類器330が得られた場合(ステップS38においてYESの場合)、その分類器330がサブ分類器として登録される(ステップS39)。   If a classifier 330 that satisfies the predetermined criteria is obtained in step S38 (YES in step S38), the classifier 330 is registered as a sub-classifier (step S39).

このように、分類器生成部615では、分類器330が度数分布データ82に基づいてサブクラスの各教示済データ90を分類し、度数分布データ修正部6153が教示クラスとは異なるクラスに分類された不一致教示済データに基づき度数分布データ82を修正する。このとき、度数分布データ修正部6153は、特徴量軸毎に、不一致教示済データが持つ特徴量の値に対応する対応区間の度数が増大するように度数分布データ82を修正する。これにより、不一致教示済データ各々の各特徴量の値が属する区間の出現比率が見かけ上増加した度数分布データ82が生成される。すると、分類器330がこの修正された度数分布データ82に基づきデータ分類を行うように更新されるため、不一致教示済データを教示クラスに正しく分類する確率が上昇する。したがって、この度数分布データ82の修正を繰り返し行うことにより、データをその教示クラスに適合するクラスに高確率で分類する分類器330を得ることができる。   Thus, in the classifier generation unit 615, the classifier 330 classifies each taught data 90 of the subclass based on the frequency distribution data 82, and the frequency distribution data correction unit 6153 is classified into a class different from the teaching class. The frequency distribution data 82 is corrected based on the mismatched taught data. At this time, the frequency distribution data correction unit 6153 corrects the frequency distribution data 82 so that the frequency of the corresponding section corresponding to the feature value of the mismatched taught data increases for each feature value axis. Thereby, the frequency distribution data 82 in which the appearance ratio of the section to which the value of each feature amount of each of the mismatched taught data belongs apparently increases is generated. Then, since the classifier 330 is updated to perform data classification based on the corrected frequency distribution data 82, the probability of correctly classifying the mismatched taught data into the teaching class increases. Therefore, by repeatedly correcting the frequency distribution data 82, it is possible to obtain a classifier 330 that classifies the data into a class that matches the teaching class with high probability.

図16は、度数分布データ82の他の修正例を説明するための図である。図15に示す例では、1つの不一致教示済データがあった場合、その不一致教示済データの持つある特徴量の値に対応する対応区間kのみの度数を「1」だけ増加させている。しかしながら、図16に示すように、対応区間である区間kだけでなく、その区間kに隣接する区間k+1,k−1(隣接区間)についても、度数を増加させてよい。図16に示す例では、区間kの増加数は「2」としており、区間k+1,k−1の増加数「1」としている。このように、対応区間の増加数と隣接区間の増加数とを異ならせてもよいし、一致させてもよい。   FIG. 16 is a diagram for explaining another modification example of the frequency distribution data 82. In the example shown in FIG. 15, when there is one mismatched taught data, the frequency of only the corresponding section k corresponding to a certain feature value of the mismatched taught data is increased by “1”. However, as shown in FIG. 16, the frequency may be increased not only in the corresponding section k, but also in the sections k + 1 and k−1 (adjacent sections) adjacent to the section k. In the example illustrated in FIG. 16, the increase number in the section k is “2”, and the increase number in the sections k + 1 and k−1 is “1”. In this way, the increase number of the corresponding section and the increase number of the adjacent section may be made different or may be matched.

また、度数を増加させる区間は、対応区間及びその両側の隣接区間に限定されない。たとえば、対応区間kとその両側の複数区間、あるいは、対応区間kとその片側の複数区間について、度数を増加させてもよい。また、対応区間kを中心とするガウス分布(詳細には、ガウス分布を整数化したもの)に従って、両側(または片側)の各区間における度数の増加数を決定してもよい。   Further, the section for increasing the frequency is not limited to the corresponding section and the adjacent sections on both sides thereof. For example, the frequency may be increased for the corresponding section k and a plurality of sections on both sides thereof, or for the corresponding section k and a plurality of sections on one side thereof. Further, the frequency increase number in each section on both sides (or one side) may be determined in accordance with a Gaussian distribution centering on the corresponding section k (specifically, a Gaussian distribution converted into an integer).

不一致教示済データが持つ特徴量が属する対応区間および隣接区間の度数を増加させることにより、それらの区間の出現比率を見かけ上増加させた度数分布データ82を生成できる。ここで、不一致教示済データの教示クラスに属するデータの特徴量は、通常、特定の対応区間とそれに隣接する隣接区間に分布し得る。このため、更新された分類器330が、対応区間または隣接区間の特徴量を持つデータを、不一致教示済データの教示クラスに分類する確率を上げることができる。   By increasing the frequency of the corresponding section and the adjacent section to which the feature quantity of the mismatched taught data belongs, the frequency distribution data 82 in which the appearance ratio of those sections is apparently increased can be generated. Here, the feature amount of the data belonging to the teaching class of the mismatched taught data can be normally distributed in a specific corresponding section and an adjacent section adjacent thereto. Therefore, it is possible to increase the probability that the updated classifier 330 classifies the data having the feature amount of the corresponding section or the adjacent section into the teaching class of the mismatched taught data.

また、対応区間の増加数を隣接区間の増加数よりも多くする場合、対応区間の出現比率を隣接区間の出現比率よりも相対的に大きく増加させることができる。したがって、更新された分類器330が、不一致教示済データの教示クラスに分類されるべきデータ、すなわち、上記対応区間の特徴量を持つが、その教示クラスに分類される確率を上げることができる。   Further, when the increase number of the corresponding section is larger than the increase number of the adjacent section, the appearance ratio of the corresponding section can be increased relatively larger than the appearance ratio of the adjacent section. Therefore, the updated classifier 330 has the data to be classified into the teaching class of the mismatched taught data, that is, the feature amount of the corresponding section, but the probability of being classified into the teaching class can be increased.

なお、ここでは、第1および第2の教師データ作成支援処理におけるサブ分類器の生成処理(図6および図7:ステップS23)について説明した。しかしながら、第2の教師データ作成支援処理における典型分類器の生成処理(図7:ステップS262)も、このサブ分類器の生成処理と同様の手順で生成され得る。   Here, the sub-classifier generation process (FIGS. 6 and 7: step S23) in the first and second teacher data creation support processes has been described. However, the typical classifier generation process (FIG. 7: step S262) in the second teacher data creation support process can also be generated in the same procedure as the sub-classifier generation process.

図17は、教示済データ数(教師データ数)と分類器330の正答率の関係を示すグラフである。このグラフにおいて、横軸は教示済データ数(クラスが教示された教師データの数)を示しており、縦軸はその教示済データ数で生成された分類器330の正答率を示している。   FIG. 17 is a graph showing the relationship between the number of taught data (the number of teacher data) and the correct answer rate of the classifier 330. In this graph, the horizontal axis indicates the number of taught data (the number of teacher data for which a class is taught), and the vertical axis indicates the correct answer rate of the classifier 330 generated by the number of taught data.

図17のグラフは、分類器330が全データ数5112個の欠陥画像(特徴量軸の数は174次元)を3クラスに分類した場合の例を示している。なお、正答率を算出するために、5112個のデータ全てには予めクラスラベルが付与されているが、分類器330の分類処理中には参照されない。例えば、分類器330を生成する際、1クラスにつき1つの教示済データ90を使用した場合、教示済データ数が3となる。また、1クラスにつき2つの教示済データ90を使用した場合、サブ教示済データ群の教示済データ数が6となる。教示済データ90の選出はランダムに行っている。   The graph of FIG. 17 shows an example in which the classifier 330 classifies the defect data (the number of feature amount axes is 174 dimensions) having a total data number of 5112 into three classes. In order to calculate the correct answer rate, all 5112 data are given class labels in advance, but are not referred to during the classification process of the classifier 330. For example, when the classifier 330 is generated, if one taught data 90 is used for one class, the number of taught data is 3. When two taught data 90 are used for one class, the number of taught data in the sub-taught data group is 6. Selection of the taught data 90 is performed at random.

また、図17に示す例では、分類器330を取得する際、度数分布データ修正部6153が度数分布データ82を修正するときに(図9:ステップS35参照)、対応区間k(注目区画)に「3」、その対応区間kを中心にしてその両側の各区間k−1,k+1に「1」ずつ度数を増加させている({+1,+3,+1}(総数5、標準偏差1))。また、どの教示済データ数についても、正答率の評価が100回ずつ独立して行われている。グラフ中、黒丸で示される点が100回の評価により得られた正答率の平均値を示しており、上下の「ひげ」は正答率の分布範囲(最大および最小)を示している。また、比較のため、度数分布データ82を修正する際に対応区間に+1だけ増加させる単純な方法で生成された分類器330の正答率を破線で示している。   In the example shown in FIG. 17, when the classifier 330 is acquired, when the frequency distribution data correction unit 6153 corrects the frequency distribution data 82 (see FIG. 9: step S35), the corresponding section k (attention zone) is set. “3”, the frequency is increased by “1” in each of the sections k−1, k + 1 on both sides of the corresponding section k ({+1, + 3, + 1} (total number 5, standard deviation 1)) . In addition, the correct answer rate is evaluated 100 times independently for any number of taught data. In the graph, the points indicated by black circles indicate the average value of the correct answer rate obtained by 100 evaluations, and the upper and lower “beards” indicate the distribution range (maximum and minimum) of the correct answer rate. For comparison, the correct answer rate of the classifier 330 generated by a simple method of increasing the corresponding interval by +1 when correcting the frequency distribution data 82 is indicated by a broken line.

図17に示すように、教示済データ数を増やすことにより、分類器330の正答率が向上している。また、対応区間に度数を1だけ増加させる場合よりも、対応区間およびその隣接区間にも度数を増加させる場合の方が、正答率の高い分類器330を得ることができている。この傾向は、教示済データ数が少ないほど特に顕著である。   As shown in FIG. 17, the correct answer rate of the classifier 330 is improved by increasing the number of taught data. Further, the classifier 330 having a higher correct answer rate can be obtained when the frequency is increased in the corresponding section and its adjacent sections than when the frequency is increased by 1 in the corresponding section. This tendency is more remarkable as the number of taught data is smaller.

図18は、教示済データ数と分類器330の正答率の関係を示す他のグラフである。このグラフにおいて、横軸は教示済データ数を示しており、縦軸は分類器構築装置33が生成した分類器330の正答率を示している。このグラフは、欠陥画像ではなく、細胞画像を教師データとして生成された分類器330を用いて、全データ数5000個の細胞画像(特徴量軸の数は11次元)を3クラスに分類した場合の正答率を示している。   FIG. 18 is another graph showing the relationship between the number of taught data and the correct answer rate of the classifier 330. In this graph, the horizontal axis indicates the number of taught data, and the vertical axis indicates the correct answer rate of the classifier 330 generated by the classifier construction device 33. This graph shows a case where a total of 5000 cell images (the number of feature axes is 11 dimensions) is classified into 3 classes using a classifier 330 that is generated not by a defect image but by a cell image as teacher data. The correct answer rate is shown.

また、図18に示す例では、分類器330を生成する際、度数分布データ修正部6153が度数分布データ82を修正するときに(図9:ステップS35参照)、対応区間k(注目区画)に「14」、その対応区間kを中心にして負側の8区間(区間k−8〜k−1)各々に「1」「2」「3」「5」「8」「11」「13」、正側の8区間(区間k+1〜k+8)各々に「13」「11」「8」「5」「3」「2」「1」の度数を増加させている({1,2,3,5,8,11,13,14,13,11,8,5,3,2,1}(総数100,標準偏差3))。グラフ中、黒丸で示される点が100回の評価により得られた正答率の平均値を示しており、上下の「ひげ」は正答率の分布範囲(最大および最小)を示している。また、比較のため、度数分布データ82を修正する際に対応区間に+1だけ増加させる単純な方法で生成された分類器330の正答率を破線で示している。   In the example shown in FIG. 18, when the classifier 330 is generated, when the frequency distribution data correction unit 6153 corrects the frequency distribution data 82 (see FIG. 9: step S35), the corresponding section k (attention zone) is set. “14”, “1”, “2”, “3”, “5”, “8”, “11”, “13” in each of the eight negative sections (sections k−8 to k−1) centering on the corresponding section k , The frequency of “13” “11” “8” “5” “3” “2” “1” is increased in each of the eight positive sections (sections k + 1 to k + 8) ({1, 2, 3, 5, 8, 11, 13, 14, 13, 11, 8, 5, 3, 2, 1} (total number 100, standard deviation 3)). In the graph, the points indicated by black circles indicate the average value of the correct answer rate obtained by 100 evaluations, and the upper and lower “beards” indicate the distribution range (maximum and minimum) of the correct answer rate. For comparison, the correct answer rate of the classifier 330 generated by a simple method of increasing the corresponding interval by +1 when correcting the frequency distribution data 82 is indicated by a broken line.

図18に示す例においても、図17に示した例と同様に、教示済データ数を増やすことにより、分類器330の正答率が向上している。また、不一致教示済データについて、対応区間に度数を1だけ増加させる場合よりも、対応区間及びその周辺の区間にも度数を増加させる場合の方が、正答率の高い分類器330を得ることができている。この傾向は、教示数が少ないほど特に顕著である。   Also in the example shown in FIG. 18, as in the example shown in FIG. 17, the correct answer rate of the classifier 330 is improved by increasing the number of taught data. Further, with respect to the mismatched taught data, it is possible to obtain the classifier 330 having a higher correct answer rate when the frequency is increased in the corresponding section and its surrounding sections than when the frequency is increased by 1 in the corresponding section. is made of. This tendency is more remarkable as the number of teachings is smaller.

図17および図18に示すように、同じ教示済データ数であっても、教示済データの選び方により正答率のばらつきが発生する。たとえば、図17に示すように、教示済データ数を3とした場合、平均50%程度の正答率であるが、教示済データ90の組み合わせによっては、65%以上の正答率が得られる可能性がある。つまり、図6および図7に示す第1および第2の教師データ作成支援処理で生成される複数のサブ分類器では、正答率が大きくばらつき得る。特に、第1の教師データ作成支援処理では、典型分類器の選定処理(図6:ステップS26)において、複数のサブ分類器の中から、分類成績が最も良いサブ分類器を典型分類器として選定する。このため、ステップS28においてオペレータに提示する不適合教示済データの数量、すなわち、人間の判断を求める教示済データ数を最小化する効果が顕著になる。   As shown in FIGS. 17 and 18, even if the number of taught data is the same, the correct answer rate varies depending on how taught data is selected. For example, as shown in FIG. 17, when the number of taught data is 3, the average correct answer rate is about 50%, but depending on the combination of taught data 90, there is a possibility that a correct answer rate of 65% or more may be obtained. There is. That is, in the plurality of sub-classifiers generated by the first and second teacher data creation support processes shown in FIGS. 6 and 7, the correct answer rate can vary greatly. In particular, in the first teacher data creation support process, in the typical classifier selection process (FIG. 6: step S26), the sub-classifier having the best classification result is selected from the plurality of sub-classifiers as the typical classifier. To do. For this reason, the effect of minimizing the quantity of non-conforming taught data to be presented to the operator in step S28, that is, the number of taught data for which human judgment is required becomes significant.

なお、分類器生成部615が、図9に示した手順で分類器を生成することは必須ではなく、他の手法(例えば、線形判別分析やSVMなど公知の手法)を採用することも妨げられない。   Note that it is not essential for the classifier generation unit 615 to generate a classifier according to the procedure shown in FIG. 9, and other techniques (for example, known techniques such as linear discriminant analysis and SVM) are also prevented from being adopted. Absent.

<2. 変形例>
以上、実施形態について説明してきたが、本発明は上記のようなものに限定されるものではなく、様々な変形が可能である。
<2. Modification>
Although the embodiment has been described above, the present invention is not limited to the above, and various modifications are possible.

例えば、ステップS22において、サブ教示済データ群構築部613が各クラスから選定する教示済データ90の数量は、同数に限定されず、クラス毎に異なっていてもよい。例えば、各クラスから選定される数量を、各クラスに属する教示済データ90の総数に比例させてもよい。すなわち、第1のクラスと第2のクラスとがある場合に、第1のクラスの総数が第2のクラスの総数のL倍であれば、第1のクラスから選定される数量を第2のクラスから選定される数量のL倍としてもよい。ただし、サブ分類器は教師データのクラス別の出現頻度に基づく機械学習により生成される。このため、選定される数量がクラス毎に異なる場合には、サブ分類器の分類結果に偏りが生じやすくなる。このため、サブ教示済データ群として各クラスから選定される教示済データ90の数量は、クラス間で同数であることが望ましい。   For example, in step S22, the quantity of the taught data 90 selected from each class by the sub-taught data group construction unit 613 is not limited to the same number, and may be different for each class. For example, the quantity selected from each class may be proportional to the total number of taught data 90 belonging to each class. That is, when there are the first class and the second class, and the total number of the first classes is L times the total number of the second classes, the quantity selected from the first class is set to the second class. It is good also as L times the quantity selected from a class. However, the sub-classifier is generated by machine learning based on the appearance frequency for each class of teacher data. For this reason, when the quantity to be selected is different for each class, the classification result of the sub-classifier tends to be biased. For this reason, it is desirable that the quantity of the taught data 90 selected from each class as the sub-teached data group is the same number between classes.

この発明は詳細に説明されたが、上記の説明は、すべての局面において、例示であって、この発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。上記各実施形態及び各変形例で説明した各構成は、相互に矛盾しない限り適宜組み合わせたり、省略したりすることができる。   Although the present invention has been described in detail, the above description is illustrative in all aspects, and the present invention is not limited thereto. It is understood that countless variations that are not illustrated can be envisaged without departing from the scope of the present invention. The configurations described in the above embodiments and modifications can be appropriately combined or omitted as long as they do not contradict each other.

1 画像分類装置
5 ホストコンピュータ
55 ディスプレイ
56 入力部
61 教師データ作成支援部
610 データ演算部
611 記憶部
613 サブ教示済データ群構築部
615 分類器生成部
6150 教師データ記憶部
6151 度数分布データ生成部
6152 分類器構築部
6153 度数分布データ修正部
6154 繰返制御部
617 分類成績取得部
618 繰返制御部
619 データ抽出部
620 表示制御部
63 学習部
90 教示済データ
DESCRIPTION OF SYMBOLS 1 Image classification device 5 Host computer 55 Display 56 Input part 61 Teacher data creation assistance part 610 Data operation part 611 Storage part 613 Sub teaching data group construction part 615 Classifier generation part 6150 Teacher data storage part 6151 Frequency distribution data generation part 6152 Classifier construction unit 6153 Frequency distribution data correction unit 6154 Repeat control unit 617 Classification result acquisition unit 618 Repeat control unit 619 Data extraction unit 620 Display control unit 63 Learning unit 90 Taught data

Claims (7)

データをその特徴量に基づいて分類する分類器の生成に使用される教師データの作成を支援する教師データ作成支援方法であって、
(a1) 複数のクラスのうちいずれか1つが教示クラスとして教示された複数の教示済データからなる教示済データ群を準備する工程と、
(b1) 前記教示済データ群において、前記複数のクラス各々から1つ以上ずつ選択された前記教示済データで構成されるサブ教示済データ群を構築する工程と、
(c1) 前記サブ教示済データ群を教師データとして、前記教示済データを分類するサブ分類器を生成する工程と、
(d1) 前記工程(c1)により生成される前記サブ分類器で前記教示済データ群の全部または一部を分類することによって、前記サブ分類器の分類成績を取得する工程と、
(e1) 前記工程(b1)、前記工程(c1)および前記工程(d1)を複数回繰り返すことによって得られる複数の前記サブ分類器の中から、前記教示済データ群の全部または一部を分類した場合の分類成績が所定の分類成績の基準を満たすサブ分類器を典型分類器として選定する工程と、
(f1) 前記工程(e1)にて選定された前記典型分類器で、前記教示済データ群の全部または一部を分類した場合に、分類先クラスが前記教示クラスと一致しない不適合教示済データを抽出する工程と、
を含む、教師データ作成支援方法。
A teacher data creation support method for supporting creation of teacher data used to generate a classifier that classifies data based on its feature amount,
(a1) preparing a taught data group composed of a plurality of taught data in which any one of a plurality of classes is taught as a teaching class;
(b1) in the taught data group, constructing a sub-taught data group composed of the taught data selected one or more from each of the plurality of classes;
(c1) generating a sub classifier that classifies the taught data using the sub taught data group as teacher data;
(d1) obtaining a classification result of the sub-classifier by classifying all or part of the taught data group in the sub-classifier generated by the step (c1);
(e1) Classifying all or part of the taught data group from a plurality of the sub-classifiers obtained by repeating the step (b1), the step (c1) and the step (d1) a plurality of times. Selecting a sub-classifier as a typical classifier whose classification results satisfy the predetermined classification criteria,
(f1) When the typical classifier selected in the step (e1) classifies all or part of the taught data group, non-conforming taught data whose classification destination class does not match the taught class Extracting, and
Including teacher data creation support method.
請求項1の教師データ作成支援方法であって、
前記工程(e1)は、前記複数のサブ分類器の中から、前記分類成績が最も良い1つのサブ分類器を前記典型分類器として選定する工程である、教師データ作成支援方法。
A teacher data creation support method according to claim 1,
The teacher data creation support method, wherein the step (e1) is a step of selecting, as the typical classifier, one sub classifier having the best classification result from the plurality of sub classifiers.
データをその特徴量に基づいて分類する分類器の生成に使用される教師データの作成を支援する教師データ作成支援方法であって、
(a1) 複数のクラスのうちいずれか1つが教示クラスとして教示された複数の教示済データからなる教示済データ群を準備する工程と、
(b1) 前記教示済データ群において、前記複数のクラス各々から1つ以上ずつ選択された前記教示済データで構成されるサブ教示済データ群を構築する工程と、
(c1) 前記サブ教示済データ群を教師データとして、前記教示済データを分類するサブ分類器を生成する工程と、
(d1) 前記工程(c1)により生成される前記サブ分類器で複数の前記教示済データを分類することによって、前記サブ分類器の分類成績を取得する工程と、
(e2) 前記工程(b1)、前記工程(c1)および前記工程(d1)を複数回繰り返すことによって得られる複数の前記サブ分類器の中から、前記教示済データ群の全部または一部を分類した場合の分類成績が所定の分類成績の基準を満たす1つ以上のサブ分類器を選定する工程と、
(f2-1) 前記工程(e2)にて選定された1つ以上のサブ分類器の各々で、前記複数の教示済データ群の全部または一部を分類した場合に、分類先クラスが前記教示クラスに一致する一致教示済データを教師データとして、典型分類器を生成する工程と、
(f2-2) 前記工程(f2-1)にて生成された前記典型分類器で、前記教示済データ群の全部または一部を分類した場合に、分類先クラスが前記教示クラスと一致しない不適合教示済データを抽出する工程と、
を含む、教師データ作成支援方法。
A teacher data creation support method for supporting creation of teacher data used to generate a classifier that classifies data based on its feature amount,
(a1) preparing a taught data group composed of a plurality of taught data in which any one of a plurality of classes is taught as a teaching class;
(b1) in the taught data group, constructing a sub-taught data group composed of the taught data selected one or more from each of the plurality of classes;
(c1) generating a sub classifier that classifies the taught data using the sub taught data group as teacher data;
(d1) obtaining a classification result of the sub-classifier by classifying a plurality of the taught data in the sub-classifier generated by the step (c1);
(e2) Classifying all or part of the taught data group from the plurality of sub-classifiers obtained by repeating the step (b1), the step (c1) and the step (d1) a plurality of times. Selecting one or more sub-classifiers whose classification results satisfy a predetermined classification criteria,
(f2-1) When all or some of the plurality of taught data groups are classified in each of the one or more sub-classifiers selected in the step (e2), the classification destination class is the teaching class. Generating a typical classifier using matched taught data that matches a class as teacher data;
(f2-2) Non-conformity in which the classification class does not match the taught class when all or part of the taught data group is classified by the typical classifier generated in the step (f2-1) Extracting the taught data; and
Including teacher data creation support method.
請求項3の教師データ作成支援方法であって、
前記工程(e2)は、前記複数のサブ分類器の中から、所定の分類成績の基準を満たす2つ以上のサブ分類器を選定する工程である、教師データ作成支援方法。
A teacher data creation support method according to claim 3,
The teacher data creation support method, wherein the step (e2) is a step of selecting two or more sub-classifiers satisfying a predetermined classification result criterion from the plurality of sub-classifiers.
請求項3の教師データ作成支援方法であって、
前記工程(e2)は、前記複数のサブ分類器の中から、前記分類成績が最も良い1つのサブ分類器を前記典型分類器として選定する工程である、教師データ作成支援方法。
A teacher data creation support method according to claim 3,
The teacher data creation support method, wherein the step (e2) is a step of selecting one sub-classifier having the best classification result as the typical classifier from the plurality of sub-classifiers.
請求項1から請求項5のいずれか1項の教師データ作成支援方法であって、
前記分類成績は、前記教示済データの総数のうち、前記教示クラスと前記サブ分類器による分類先クラスとが一致した教示済データの総数の割合である、教師データ作成支援方法。
A teacher data creation support method according to any one of claims 1 to 5,
The teacher data creation support method, wherein the classification result is a ratio of a total number of taught data in which the teaching class matches a class to be classified by the sub-classifier out of a total number of the taught data.
データをその特徴量に基づいて分類する分類器の生成に使用される教師データの作成を支援する教師データ作成支援装置であって、
複数のクラスのうちいずれか1つが教示クラスとして教示された複数の教示済データからなる教示済データ群を記憶する記憶部と、
前記教示済データ群において、前記複数のクラス各々から1つ以上ずつ選択することにより、サブ教示済データ群を構築するサブ教示済データ群構築部と、
前記サブ教示済データ群を教師データとして、データを分類するサブ分類器を生成する分類器生成部と、
前記サブ分類器で前記教示済データ群の全部または一部を分類した場合の前記サブ分類器の分類成績を取得する分類成績取得部と、
前記サブ教示済データ群構築部、前記分類器生成部および前記分類成績取得部を制御することによって、複数の前記サブ教示済データ群から生成される複数の前記サブ分類器各々の分類成績を取得する繰返制御部と、
複数の前記サブ分類器の中から、所定の分類成績の基準を満たすサブ分類器を典型分類器として選定するとともに、当該典型分類器で前記教示済データ群の一部または全部を分類した場合に、分類先クラスが前記教示クラスと一致しない不適合教示済データを抽出するデータ抽出部と、
を備える、教師データ作成支援装置。
A teacher data creation support device that supports creation of teacher data used to generate a classifier that classifies data based on its feature amount,
A storage unit for storing a taught data group composed of a plurality of taught data in which any one of a plurality of classes is taught as a teaching class;
In the taught data group, a sub-taught data group constructing unit that constructs a sub-taught data group by selecting one or more from each of the plurality of classes;
A classifier generation unit that generates a sub classifier for classifying data using the sub-taught data group as teacher data;
A classification result obtaining unit for obtaining a classification result of the sub-classifier when all or part of the taught data group is classified by the sub-classifier;
The classification results of each of the plurality of sub classifiers generated from the plurality of sub taught data groups are acquired by controlling the sub taught data group construction unit, the classifier generation unit, and the classification result acquisition unit. A repeat control unit to
When a sub-classifier satisfying a predetermined classification performance criterion is selected as a typical classifier from the plurality of sub-classifiers, and when part or all of the taught data group is classified by the typical classifier A data extraction unit that extracts non-conforming teaching data whose classification destination class does not match the teaching class;
A teacher data creation support device.
JP2018035092A 2018-02-28 2018-02-28 Teacher data creation support method and teacher data creation support device Active JP6960356B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018035092A JP6960356B2 (en) 2018-02-28 2018-02-28 Teacher data creation support method and teacher data creation support device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018035092A JP6960356B2 (en) 2018-02-28 2018-02-28 Teacher data creation support method and teacher data creation support device

Publications (2)

Publication Number Publication Date
JP2019148566A true JP2019148566A (en) 2019-09-05
JP6960356B2 JP6960356B2 (en) 2021-11-05

Family

ID=67850435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018035092A Active JP6960356B2 (en) 2018-02-28 2018-02-28 Teacher data creation support method and teacher data creation support device

Country Status (1)

Country Link
JP (1) JP6960356B2 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010272053A (en) * 2009-05-25 2010-12-02 Victor Co Of Japan Ltd Data classifier creation device, data classification device, data classifier creation method, data classification method, data classifier creation program, and data classification program
JP2013225313A (en) * 2012-04-20 2013-10-31 Applied Materials Israel Ltd Preparation and maintenance of classifier in automatic defect classification
JP2016191589A (en) * 2015-03-31 2016-11-10 株式会社Screenホールディングス Defect classification device defect classification method
JP2017062677A (en) * 2015-09-25 2017-03-30 株式会社Screenホールディングス Sorter construction method, image sorting method, sorter construction device and image sorting device
JP2017107422A (en) * 2015-12-10 2017-06-15 株式会社Screenホールディングス Image classification method and image classification device
JP2017162232A (en) * 2016-03-10 2017-09-14 株式会社Screenホールディングス Teacher data creation support device, image classification device, teacher data creation support method and image classification method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010272053A (en) * 2009-05-25 2010-12-02 Victor Co Of Japan Ltd Data classifier creation device, data classification device, data classifier creation method, data classification method, data classifier creation program, and data classification program
JP2013225313A (en) * 2012-04-20 2013-10-31 Applied Materials Israel Ltd Preparation and maintenance of classifier in automatic defect classification
JP2016191589A (en) * 2015-03-31 2016-11-10 株式会社Screenホールディングス Defect classification device defect classification method
JP2017062677A (en) * 2015-09-25 2017-03-30 株式会社Screenホールディングス Sorter construction method, image sorting method, sorter construction device and image sorting device
JP2017107422A (en) * 2015-12-10 2017-06-15 株式会社Screenホールディングス Image classification method and image classification device
JP2017162232A (en) * 2016-03-10 2017-09-14 株式会社Screenホールディングス Teacher data creation support device, image classification device, teacher data creation support method and image classification method

Also Published As

Publication number Publication date
JP6960356B2 (en) 2021-11-05

Similar Documents

Publication Publication Date Title
CN108352339B (en) Adaptive automatic defect classification
JP6113024B2 (en) Classifier acquisition method, defect classification method, defect classification device, and program
JP6063756B2 (en) Teacher data creation support device, teacher data creation device, image classification device, teacher data creation support method, teacher data creation method, and image classification method
US9020237B2 (en) Method for optimizing observed image classification criterion and image classification apparatus
JP6472621B2 (en) Classifier construction method, image classification method, and image classification apparatus
TWI502189B (en) Training data verification apparatus, training data generation apparatus, image classification apparatus, training data verification method, training data generation method, and image classification method
Lambrou et al. Reliable probability estimates based on support vector machines for large multiclass datasets
JPH11344450A (en) Instruction data forming method and defect classifying method and apparatus thereof
JP2018045673A (en) Sorter construction method, image sorting method, sorter construction device and image sorting device
US11321633B2 (en) Method of classifying defects in a specimen semiconductor examination and system thereof
CN113420669B (en) Document layout analysis method and system based on multi-scale training and cascade detection
JP6531036B2 (en) Teacher data creation support method, image classification method, teacher data creation support device and image classification device
CN114254146A (en) Image data classification method, device and system
JP6871807B2 (en) Classifier construction method, classifier and classifier construction device
JP2010071826A (en) Teacher data preparation method, and image sorting method and image sorter
JP6425468B2 (en) Teacher data creation support method, image classification method, teacher data creation support device and image classification device
WO2021090601A1 (en) Classifying device and image classifying system
JP5075083B2 (en) Teacher data creation support method, image classification method, and image classification apparatus
JP5298552B2 (en) Discrimination device, discrimination method, and program
JP6960356B2 (en) Teacher data creation support method and teacher data creation support device
JP2020052475A (en) Sorter building method, image classification method, sorter building device, and image classification device
JP7120528B2 (en) Classifier construction method, image classification method, classifier construction device, and image classification device
RU2582064C1 (en) Methods and systems for effective automatic recognition of symbols using forest solutions
CN113537253A (en) Infrared image target detection method and device, computing equipment and storage medium
JP2019057024A (en) Classifier construction method, image classification method, classifier construction device and image classification device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201218

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210930

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211011

R150 Certificate of patent or registration of utility model

Ref document number: 6960356

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150