JP6960356B2

JP6960356B2 - 教師データ作成支援方法および教師データ作成支援装置

Info

Publication number: JP6960356B2
Application number: JP2018035092A
Authority: JP
Inventors: 明松村
Original assignee: Screen Holdings Co Ltd
Current assignee: Screen Holdings Co Ltd
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2021-11-05
Anticipated expiration: 2038-02-28
Also published as: JP2019148566A

Description

この発明は、分類器の学習に使用される教師データの作成を支援する技術に関する。

半導体基板、ガラス基板、プリント基板等の製造では、異物や傷、エッチング不良等の欠陥を検査するために光学顕微鏡や走査電子顕微鏡等を用いて外観検査が行われる。従来、このような検査工程において検出された欠陥に対して、さらに詳細な解析を行うことによりその欠陥の発生原因を特定し、欠陥に対する対策が行われてきた。

近年では、基板上のパターンの複雑化および微細化に伴い、検出される欠陥の種類および数量が増加する傾向にあり、検査工程で検出された欠陥を自動的に分類する自動分類が提案されている。自動分類により欠陥の解析を迅速かつ効率的に行うことが実現され、発生頻度の高い欠陥の種類に注目して優先的に対策を施すことが可能となる。

自動分類では、欠陥を分類する際にニューラルネットワークや決定木、判別分析等を利用した分類器が用いられる。分類器に自動分類を行わせるには、欠陥画像（または、欠陥画像の特徴量）および欠陥画像の種類であるカテゴリを示す信号を含む教師データを用意して分類器を学習させる必要がある。

特許文献１では、オペレータがモニタに表示された教示用欠陥画像を観察し、欠陥のカテゴリの一覧表から該当する欠陥のカテゴリを教示用欠陥画像に付与することにより教師データの作成が行われる。また、特許文献１では、欠陥画像に予め付与されたカテゴリ（教示クラス）が欠陥画像の属すべきカテゴリか否かを判定することにより、質が高い教師データを作成する手法が開示されている。具体的には、各カテゴリに属する複数の欠陥画像の各種類の特徴量の分散に基づいて、当該種類に対して特徴量の代表値を含む特徴量範囲が設定され、各欠陥画像の一の種類の特徴量を当該種類の特徴量範囲に含むカテゴリに投票を行う処理が特徴量の全ての種類について行われる。そして、複数のカテゴリのうち得票数が最も多いカテゴリと当該欠陥画像が属するカテゴリとが異なる場合にその旨が出力される。

特開２０１０−９１４０１号公報

しかしながら、特許文献１における統計的な処理によるカテゴリの判定は、各カテゴリに属する複数の欠陥画像（教師画像）の各種類の特徴量の分布が正規分布に従う（または、正規分布に従うとみなすことができる）場合には有効であるが、特徴量の分布が多峰性を示す等、正規分布に従わない場合には、予め付与されたカテゴリ（クラス）の間違い（教示間違い）の発見について、適切な支援が困難であるという問題があった。

そこで、本発明は、予めクラスが教示された複数の教示済データから、教示間違いの可能性のある教示済データを効率的に抽出する技術を提供することを目的とする。

上記課題を解決するため、第１態様は、データをその特徴量に基づいて分類する分類器の生成に使用される教師データの作成を支援する教師データ作成支援方法であって、(a1)複数のクラスのうちいずれか１つが教示クラスとして教示された複数の教示済データからなる教示済データ群を準備する工程と、(b1)前記教示済データ群において、前記複数のクラス各々から１つ以上ずつ選択された前記教示済データで構成されるサブ教示済データ群を構築する工程と、(c1)前記サブ教示済データ群を教師データとして、前記教示済データを分類するサブ分類器を生成する工程と、(d1)前記工程(c1)により生成される前記サブ分類器で前記教示済データ群の全部または一部を分類することによって、前記サブ分類器の分類成績を取得する工程と、(e1)前記工程(b1)、前記工程(c1)および前記工程(d1)を複数回繰り返すことによって得られる複数の前記サブ分類器の中から、前記教示済データ群の全部または一部を分類した場合の分類成績が所定の分類成績の基準を満たすサブ分類器を典型分類器として選定する工程と、(f1)前記工程(e1)にて選定された前記典型分類器で、前記教示済データ群の全部または一部を分類した場合に、分類先クラスが前記教示クラスと一致しない不適合教示済データを抽出する工程とを含む。

第２態様は、第１態様の教師データ作成支援方法であって、前記工程(e1)は、前記複数のサブ分類器の中から、前記分類成績が最も良い１つのサブ分類器を前記典型分類器として選定する工程である。

第３態様は、データをその特徴量に基づいて分類する分類器の生成に使用される教師データの作成を支援する教師データ作成支援方法であって、(a1)複数のクラスのうちいずれか１つが教示クラスとして教示された複数の教示済データからなる教示済データ群を準備する工程と、(b1)前記教示済データ群において、前記複数のクラス各々から１つ以上ずつ選択された前記教示済データで構成されるサブ教示済データ群を構築する工程と、(c1)前記サブ教示済データ群を教師データとして、前記教示済データを分類するサブ分類器を生成する工程と、(d1)前記工程(c1)により生成される前記サブ分類器で複数の前記教示済データを分類することによって、前記サブ分類器の分類成績を取得する工程と、(e2)前記工程(b1)、前記工程(c1)および前記工程(d1)を複数回繰り返すことによって得られる複数の前記サブ分類器の中から、前記教示済データ群の全部または一部を分類した場合の分類成績が所定の分類成績の基準を満たす１つ以上のサブ分類器を選定する工程と、(f2-1)前記工程(e2)にて選定された１つ以上のサブ分類器の各々で、前記複数の教示済データ群の全部または一部を分類した場合に、分類先クラスが前記教示クラスに一致する一致教示済データを教師データとして、典型分類器を生成する工程と、(f2-2)前記工程(f2-1)にて生成された前記典型分類器で、前記教示済データ群の全部または一部を分類した場合に、分類先クラスが前記教示クラスと一致しない不適合教示済データを抽出する工程とを含む。

第４態様は、第３態様の教師データ作成支援方法であって、前記工程(e2)は、前記複数のサブ分類器の中から、所定の分類成績の基準を満たす２つ以上のサブ分類器を選定する工程である。

第５態様は、第３態様の教師データ作成支援方法であって、前記工程(e2)は、前記複数のサブ分類器の中から、前記分類成績が最も良い１つのサブ分類器を前記典型分類器として選定する工程である。

第６態様は、第１態様から第５態様のいずれか１つの教師データ作成支援方法であって、前記分類成績は、前記教示済データの総数のうち、前記教示クラスと前記サブ分類器による分類先クラスとが一致した教示済データの総数の割合である。

第７態様は、データをその特徴量に基づいて分類する分類器の生成に使用される教師データの作成を支援する教師データ作成支援装置であって、複数のクラスのうちいずれか１つが教示クラスとして教示された複数の教示済データからなる教示済データ群を記憶する記憶部と、前記教示済データ群において、前記複数のクラス各々から１つ以上ずつ選択することにより、サブ教示済データ群を構築するサブ教示済データ群構築部と、前記サブ教示済データ群を教師データとして、データを分類するサブ分類器を生成する分類器生成部と、前記サブ分類器で前記教示済データ群の全部または一部を分類した場合の前記サブ分類器の分類成績を取得する分類成績取得部と、前記サブ教示済データ群構築部、前記分類器生成部および前記分類成績取得部を制御することによって、複数の前記サブ教示済データ群から生成される複数の前記サブ分類器各々の分類成績を取得する繰返制御部と、複数の前記サブ分類器の中から、所定の分類成績の基準を満たすサブ分類器を典型分類器として選定するとともに、当該典型分類器で前記教示済データ群の一部または全部を分類した場合に、分類先クラスが前記教示クラスと一致しない不適合教示済データを抽出するデータ抽出部とを備える。

第１態様の教師データ作成支援方法によると、所定の分類成績の基準を満たすサブ分類器の生成に使われた複数の教示済データは、分類成績の良い分類器の生成に適した教師データであると考えられる。このため、この複数の教示済データを教師データとして得られる典型分類器に基づき、分類先クラスが教示クラスに一致しない不適合教示済データを抽出することによって、教示間違いの可能性が高い教示済データを効率よく抽出し得る。また、サブ分類器をそのまま典型分類器とするため、分類器の再生成が不要である。このため、分類器生成に係る演算処理量を軽減することができる。

第２態様の教師データ作成支援方法によると、分類成績が最も良いサブ分類器を典型分類器とするため、不適合教示済データの数量を最小化し得る。

第３態様の教師データ作成支援方法によると、教示済データ群のうち、所定の分類成績の基準を満たすサブ分類器が、教示クラスと同じクラスに分類された一致教示済データは、分類器の生成に適した教師データとなり得る。このため、この一致教示済データを教師データとして典型分類器を生成し、教示済データ群の全部または一部を分類することにより、教示間違いの可能性が高い教示済データを効率よく抽出し得る。

第４態様の教師データ作成支援方法によると、２つ以上のサブ分類器の生成に用いられた複数の教示済データを教師データとして典型分類器が生成される。この典型分類器に基づいて、不適合教示済データが抽出されるため、教示間違いの可能性が高い教示済データを効率的に抽出し得る。

第５態様の教師データ作成支援方法によると、分類成績が最も良いサブ分類器に基づいて、典型分類器が生成されるため、不適合教示済データの数量を最小化し得る。

第６態様の教師データ作成支援方法によると、分類器の分類成績の指標として一般的な正答率（Accuracy）に基づいて、サブ分類器を評価することができる。

第７態様の教師データ作成支援装置によると、再代入法により分類先クラスが教示クラスと一致した一致教示済データは、分類成績が優れた分類器の生成に適すると考えられる。このため、適合教示済データを教師データとして得られる典型分類器に基づいて、不適合教示済データを抽出することにより、教示間違いの可能性が高い教示済データを効率よく抽出し得る。

図１は、実施形態の画像分類装置１の概略構成を示す図である。図２は、実施形態の画像分類装置１による欠陥画像の分類の流れを示す図である。図３は、ホストコンピュータ５の構成を示すブロック図である。図４は、検査・分類装置４の分類器４２２を生成するためのホストコンピュータ５の機能構成を示すブロック図である。図５は、ホストコンピュータ５の教師データ作成支援部６１の機能構成を示すブロック図である。図６は、第１の教師データ作成支援処理の流れを示す図である。図７は、第２の教師データ作成支援処理の流れを示す図である。図８は、分類器生成部６１５の構成を示す図である。図９は、分類器生成部６１５によるサブ分類器生成の流れを示す図である。図１０は、度数分布データ８２が示す第１の特徴量軸における複数のクラスの度数分布表を示す図である。図１１は、度数分布データ８２が示す第１の特徴量軸におけるクラス別のヒストグラムを示す図である。図１２は、度数分布データ８２が示す第２の特徴量軸における複数のクラスの度数分布表を示す図である。図１３は、度数分布データ８２が示す第２の特徴量軸におけるクラス別のヒストグラムを示す図である。図１４は、分類器３３０による教示済データ９０の分類結果の一例を示す図である。図１５は、度数分布データ８２の修正例を説明するための図である。図１６は、度数分布データ８２の他の修正例を説明するための図である。図１７は、教示済データ数（教師データ数）と分類器３３０の正答率の関係を示すグラフである。図１８は、教示済データ数と分類器３３０の正答率の関係を示す他のグラフである。

以下、添付の図面を参照しながら、本発明の実施形態について説明する。なお、この実施形態に記載されている構成要素はあくまでも例示であり、本発明の範囲をそれらのみに限定する趣旨のものではない。図面においては、理解容易のため、必要に応じて各部の寸法や数が誇張又は簡略化して図示されている場合がある。また、本願において、一または複数の構成要素を「備える」、「含む」または「有する」という表現は、特に断らない限り、他の構成要素の存在を除外する排他的表現ではない。

＜１．第１実施形態＞
図１は、実施形態の画像分類装置１の概略構成を示す図である。画像分類装置１では、半導体基板９上のパターン欠陥を示す欠陥画像が取得され、その欠陥画像の分類が行われる。画像分類装置１は、撮像装置２、検査・分類装置４およびホストコンピュータ５を備えている。なお、本実施形態では、分類対象が半導体基板を撮像して得られた欠陥画像である場合を例として説明するが、欠陥画像に限られるものではなく、例えば、細胞を撮像して得られた細胞画像等を分類対象としてもよい。

撮像装置２は、半導体基板９上の検査対象領域を撮像する。検査・分類装置４は、撮像装置２によって取得された画像データに基づく欠陥検査を行う。検査・分類装置４は、欠陥が検出された場合に、その欠陥を欠陥の種別（クラス）毎に分類する。半導体基板９上に存在するパターンの欠陥のクラスは、欠損、突起、断線、ショート、異物などを含み得る。ホストコンピュータ５は、画像分類装置１の全体動作を制御するとともに、検査・分類装置４における欠陥の分類に利用される分類器４２２を生成する。

撮像装置２は、半導体基板９の製造ラインに組み込まれ、画像分類装置１はいわゆるインライン型のシステムとされ得る。画像分類装置１は、欠陥検査装置に自動欠陥分類の機能を付加した装置である。

撮像装置２は、撮像部２１、ステージ２２およびステージ駆動部２３を備えている。撮像部２１は、半導体基板９の検査領域を撮像する。ステージ２２は、半導体基板９を保持する。ステージ駆動部２３は、撮像部２１に対してステージ２２を半導体基板９の表面に平行な方向に相対移動させる。

撮像部２１は、照明部２１１、光学系２１２および撮像デバイス２１３を備えている。光学系２１２は、半導体基板９に照明光を導く。半導体基板９にて反射した光は、再び光学系２１２に入射する。撮像デバイス２１３は、光学系２１２により結像された半導体基板９の像を電気信号に変換する。

ステージ駆動部２３は、ボールネジ、ガイドレール、モータ等により構成されている。ホストコンピュータ５がステージ駆動部２３および撮像部２１を制御することにより、半導体基板９上の検査対象領域が撮像される。

検査・分類装置４は、欠陥検出部４１および自動分類部４２を有する。欠陥検出部４１は、検査対象領域の画像データを処理しつつ欠陥を検出する。詳細には、欠陥検出部４１は、検査対象領域の画像データを高速に処理する専用の電気的回路を有し、撮像により得られた画像と参照画像（欠陥が存在しない画像）との比較や画像処理により検査対象領域の欠陥検査を行う。自動分類部４２は、欠陥検出部４１が検出した欠陥画像を分類する。詳細には、自動分類部４２は、各種演算処理を行うＣＰＵや各種情報を記憶するメモリ等により構成される。自動分類部４２は、特徴量算出部４２１および分類器４２２を有する。分類器４２２は、ニューラルネットワーク、決定木、判別分析等を利用して欠陥の分類、すなわち、欠陥画像の分類を実行する。

図２は、実施形態の画像分類装置１による欠陥画像の分類の流れを示す図である。まず、図１に示す撮像装置２が半導体基板９を撮像することにより、検査・分類装置４の欠陥検出部４１が画像データを取得する（ステップＳ１１）。

続いて、欠陥検出部４１が、検査対象領域の欠陥検査を行うことにより、欠陥の検出を行う（ステップＳ１２）。ステップＳ１２において欠陥が検出された場合（ステップＳ１２においてＹＥＳ）、欠陥部分の画像（すなわち、欠陥画像）のデータが自動分類部４２へと送信される。欠陥が検出されない場合は（ステップＳ１２においてＮＯ）、ステップＳ１１の画像データの取得が行われる。

自動分類部４２は、欠陥画像を受け取ると、その欠陥画像の複数種類の特徴量の配列である特徴量を算出する（ステップＳ１３）。その算出された特徴量は分類器４２２に入力され、分類器４２２により分類が行われる（ステップＳ１４）。すなわち、分類器４２２により欠陥画像が複数のクラスのいずれかに分類される。画像分類装置１では、欠陥検出部４１にて欠陥が検出される毎に、特徴量の算出がリアルタイムに行われ、多数の欠陥画像の自動分類が高速に行われる。

次に、ホストコンピュータ５による分類器４２２の学習について説明する。図３は、ホストコンピュータ５の構成を示すブロック図である。

ホストコンピュータ５は、ＣＰＵ５１、ＲＯＭ５２およびＲＡＭ５３を有する。ＣＰＵ５１は各種演算処理を行う演算回路を含む。ＲＯＭ５２は基本プログラムを記憶している。ＲＡＭ５３は各種情報を記憶する揮発性の主記憶装置である。ホストコンピュータ５は、ＣＰＵ５１，ＲＯＭ５２およびＲＡＭ５３をバスライン５０１で接続した一般的なコンピュータシステムの構成を備えている。

ホストコンピュータ５は、固定ディスク５４、ディスプレイ５５、入力部５６、読取装置５７および通信部５８を備えている。これらの要素は、適宜インターフェース（Ｉ／Ｆ）を介してバスライン５０１に接続されている。

固定ディスク５４は、情報記憶を行う補助記憶装置である。ディスプレイ５５は、画像などの各種情報を表示する表示部である。入力部５６は、キーボード５６ａおよびマウス５６ｂ等を含む入力用デバイスである。読取装置５７は、光ディスク、磁気ディスク、光磁気ディスク等のコンピュータ読取可能な記録媒体８から情報の読み取りを行う。通信部５８は、画像分類装置１の他の要素との間で信号を送受信する。

ホストコンピュータ５は、読取装置５７を介して記録媒体８からプログラム８０を読み取り、固定ディスク５４に記録される。当該プログラム８０は、ＲＡＭ５３にコピーされる。ＣＰＵ５１は、ＲＡＭ５３内に格納されたプログラム８０に従って、演算処理を実行する。

図４は、検査・分類装置４の分類器４２２を生成するためのホストコンピュータ５の機能構成を示すブロック図である。ホストコンピュータ５の機能は、ホストコンピュータ５のＣＰＵ５１、ＲＯＭ５２、ＲＡＭ５３および固定ディスク５４などにより実現される。図４では、検査・分類装置４も併せて示されている。ホストコンピュータ５は、教師データ作成支援部６１、及び、学習部６３を有する。教師データ作成支援部６１は、分類器の学習に使用される教師データを作成する。学習部６３は、教師データを用いて分類器を学習させる。

教師データは、欠陥画像である教師画像のデータ、教師画像の特徴量の値、及び、欠陥のクラスを示す情報である教示クラスを含む。教師画像の特徴量として、例えば、欠陥の面積、明度平均、周囲長、扁平度、欠陥を楕円に近似した場合の長軸の傾き等が採用され得る。

学習部６３では、教師データから読み出された教師画像の特徴量の値が、ホストコンピュータ５内の分類器（図示省略）に入力される。そして、分類器の出力が教示クラスと同じになるように学習が行われ、学習結果、すなわち、学習後の分類器４２２（正確には、分類器４２２の構造や変数の値を示す情報）が自動分類部４２へと転送される。このように、教師データを使用して分類器４２２が生成される。分類器の生成とは、分類器が含むパラメータに値を付与したり構造を決定したりすること等により、分類器を生成することをいう。

図５は、ホストコンピュータ５の教師データ作成支援部６１の機能構成を示すブロック図である。教師データ作成支援部６１は、データ演算部６１０、ディスプレイ５５および入力部５６を備える。データ演算部６１０は、記憶部６１１、サブ教示済データ群構築部６１３、分類器生成部６１５、分類成績取得部６１７、繰返制御部６１８、データ抽出部６１９および表示制御部６２０を備える。データ演算部６１０の処理の詳細については後述する。なお、データ演算部６１０（および学習部６３）の機能は、専用の電気回路により構築されてもよく、部分的に専用の電気回路が利用されてもよい。

図６は、第１の教師データ作成支援処理の流れを示す図である。以下に説明する各動作は、特に断らない限り、データ演算部６１０により実行されるものとする。

第１の教師データ作成支援処理では、まず、複数の教示済データ９０が準備される（ステップＳ２１）。以下、この複数の教示済データ９０を「教示済データ９０群」とも称する。教示済データ９０は、あらかじめ複数の欠陥のクラスのうち１つが教示クラスとして教示された欠陥画像を示すデータである。教示済データ９０群には、間違ったクラスが教示された教示済データ９０を含む可能性がある。教師データ作成支援部６１が実行する教師データ作成支援処理では、教示間違いの教示済データ９０を効率よく発見して、正しいクラスを教示することにより、高品質の教師データを生成するものである。教示済データ９０群に含まれる教示済データ９０の数量は、特に限定されないが、例えば、１０００個〜１０万個程度であることが想定される。また、各教示済データ９０の教示クラスは、任意の分類器の分類結果に基づいて教示されたものとしてよいし、あるいは、オペレータが各欠陥画像を目視確認すること等に基づいてオペレータが教示したものであってもよい。準備された教示済データ９０群は、記憶部６１１に保存される。

教示済データ９０群が準備された後、サブ教示済データ群構築部６１３が、サブ教示済データ群を構築する（ステップＳ２２）。サブ教示済データ群は、記憶部６１１に保存された全ての教示済データ９０のうち、複数のクラス各々から１つ以上の同数ずつランダムに選定された教示済データ９０の集合である。

サブ教示済データ群が構築されると、分類器生成部６１５がサブ分類器を生成する（ステップＳ２３）。詳細には、分類器生成部６１５が、サブ教示済データ群に属する複数の教示済データ９０を用いた機械学習により、データを分類するサブ分類器を生成する。サブ分類器は、教示済データ９０の欠陥画像が持つ特徴量に基づき、複数の欠陥のクラスのうちのいずれか１つに分類する。

具体的に、分類器生成部６１５では、教示済データ９０から読み出された欠陥画像の特徴量が、ホストコンピュータ５内の分類器（図示省略）に入力される。そして、その分類器の出力が、教示クラスと一致するように学習が行われ、学習結果、すなわち、学習後のサブ分類器（正確には、サブ分類器の構造や変数の値を示す情報）が取得される。このように、サブ教示済データ群の教示済データ９０を使用して、サブ分類器が生成される。サブ分類器の構築手法の詳細な例については、後述する。

サブ分類器が生成されると、分類成績取得部６１７がそのサブ分類器の分類成績を取得する（ステップＳ２４）。具体的には、記憶部６１１に保存された教示済データ９０群の全部または一部（サブ教示済データ群以外の教示済データ９０を含む）を、そのサブ分類器で分類した場合の分類成績を取得する。分類成績の指標としては、例えば、正答率（Accuracy）が採用され得る。正答率とは、サブ分類器により分類された教示済データ９０の総数のうち、サブ分類器で分類されたクラスと教示クラスとが一致した教示済データ９０の総数の割合である。

なお、分類成績の指標として、正答率の代わりに再現率（Recall）または適合率（Precision）を採用してもよい。再現率とは、特定の教示クラスの教示済データ９０のうち、サブ分類器によって正しくその教示クラスに分類された教示済データ９０の割合である。適合率とは、サブ分類器によってある特定のクラスに分類された教示済データ９０のうち、教示クラスがその特定のクラスに一致している教示済データ９０の割合である。

サブ分類器の分類成績が取得されると、繰返制御部６１８は、所定数のサブ分類器が生成されたか否かを判定する（ステップＳ２５）。所定数のサブ分類器が生成されていない場合（ステップＳ２５においてＮＯの場合）、繰返制御部６１８は、サブ教示済データ群構築部６１３、分類器生成部６１５および分類成績取得部６１７を制御して、ステップＳ２２〜ステップＳ２４を再び実行させる。このように、本例では、所定数のサブ分類器が生成されるまでステップＳ２２〜ステップＳ２４が繰り返し行われる。

繰返制御部６１８が所定数のサブ分類器が生成されたと判定した場合（ステップＳ２５においてＹＥＳの場合）、データ演算部６１０は、所定数のサブ分類器の中から、分類成績が最良のサブ分類器を選定する（ステップＳ２６）。具体的に、分類成績の指標として「正答率」が採用されている場合、正答率が最も高いサブ分類器が選定される。なお、ステップＳ２６において、分類成績の最も良いサブ分類器が選定されることは必須ではない。所定の分類成績の基準（例えば、「正答率が所定のしきい値を超える」など）を満たす１つのサブ分類器が選定されてもよい。

１つのサブ分類器が選定された後、データ抽出部６１９は、当該１つのサブ分類器を典型分類器とする。そして、データ抽出部６１９は、当該典型分類器で、教示済データ９０群の全部または一部を分類した場合に、分類先クラスが元の教示クラスと適合しない教示済データ９０（以下、「不適合教示済データ」とも称する。）を抽出する（ステップＳ２７）。本例では、典型分類による分類結果は、ステップＳ２４においてその典型分類器に対応するサブ分類器の分類成績を取得した際に得られている。このため、本例では、ステップＳ２７において、改めて分類を行うことは必須ではない。

不適合教示済データが抽出された後、表示制御部６２０は、その不適合教示済データの欠陥画像をディスプレイ５５に表示する（ステップＳ２８）。これにより、教示間違いの可能性がある教示済データ９０が、オペレータに提示される。このとき、不適合教示済データについて、欠陥画像とともに、元の教示クラスと分類先クラスとが表示されるとよい。教示済データ９０の表示に伴い、データ演算部６１０が新たなクラスの教示を受け付ける再教示受付部として機能するようにしてもよい。具体的には、オペレータが各教示済データ９０を目視により確認して教示クラスの妥当性を判断する。そして、オペレータがクラスの再教示が必要と判断した場合には、入力部５６を介して、クラスを指定する入力を行う。データ演算部６１０は、当該入力を受け付けることにより、記憶部６１１に保存されているその教示済データ９０の教示クラスを修正するとよい。

第１の教師データ作成支援処理によると、所定の分類成績の基準を満たすサブ分類器が典型分類器として選定され、教示済データ９０群の中から、当該典型分類器による分類先クラスが教示クラスと適合しない不適合教示済データが抽出される。このため、分類成績の基準を適切に設定することにより、教示間違いの可能性が高い教示済データを効率よく抽出し得る。また、サブ分類器をそのまま典型分類器とするため、分類器の再生成が不要である。このため、分類器生成に係る演算処理量を軽減することができる。特に、分類成績が最も良いサブ分類器に基づいて、不適合教示済データを抽出することにより、不適合教示済データの数量を最小化することができる。

教示済データ９０群のうち、サブ分類器の分類先クラスが教示クラスと一致しない教示済データ９０（以下、不一致教示済データとも称する。）は、サブ分類器の分類成績を低下させるものである。このため、一致教示済データ（教示済データ９０群から上記不一致教示済データを除いたもの）は、分類成績の良い分類器の生成に適した教師データとなり得る。したがって、教示済データ９０群のうち、一致教示済データのみを教師データとすることにより、教示済データ９０群全体を教師データとする場合よりも、分類成績が優れた典型分類器を生成し得る。したがって、当該典型分類器に基づいて、教示済データ９０群から教示間違いの可能性のある教示済データ９０を有効にかつ効率的に抽出し得る。

図７は、第２の教師データ作成支援処理の流れを示す図である。図７に示す教師データ作成支援処理のうち、ステップＳ２１〜ステップＳ２５までは、図６に示す教師データ作成支援処理と共通する。

この第２の教師データ作成支援処理では、データ演算部６１０がステップＳ２５において所定数のサブ分類器が生成されたと判定した場合（ステップＳ２５においてＹＥＳ）、データ演算部６１０が、所定数のサブ分類器の中から、分類成績が所定の基準を満たす複数のサブ分類器を選定する（ステップＳ２６１）。分類成績の指標としては、例えば第１の教師データ作成支援処理のステップＳ２４のときと同様に、正答率が採用され得る。この場合、ステップＳ２６１においては、正答率が所定の値を超える複数のサブ分類器が選定されるとよい。また、正答率の代わりに、特定クラスまたは全クラスについての再現率あるいは適合率も採用し得る。

複数のサブ分類器が選定された後、分類器生成部６１５は、データを分類する典型分類器を生成する（ステップＳ２６２）。詳細には、分類器生成部６１５は、ステップＳ２６１において選定された複数のサブ分類器各々で教示済データ９０群の全部または一部を分類した場合に、分類先クラスが教示クラスと一致した教示済データ（以下、「一致教示済データ」とも称する）を収集する。そして、分類器生成部６１５は、その収集された一致教示済データを教師データとする機械学習を行うことにより、典型分類器を生成する。

典型分類器が生成された後、データ抽出部６１９は、当該典型分類器によって、記憶部６１１に保存されている教示済データ９０群の全部または一部の教示済データ９０を分類する。そして、データ抽出部６１９は、分類された複数の教示済データ９０のうち、典型分類器による分類先クラスが元の教示クラスと適合しなかった教示済データ９０を、不適合教示済データとして抽出する（ステップＳ２７）。そして、表示制御部６２０が、その不適合教示済データをディスプレイ５５に表示する（ステップＳ２８）。

所定の分類成績の基準を満たす複数のサブ分類器の生成に使用されたサブ教示済データ群は、高精度な分類器の生成に適した典型データのセットであると考えられる。このため、ステップＳ２６１において選定されたサブ分類器の生成に使用された教示済データ９０の各サブ教示済データ群を教師データとして典型分類器を生成することによって、分類成績の優れた典型分類器を生成し得る。したがって、この生成された典型分類器に基づいて、分類先クラスが教示クラスと適合しない教示済データ９０を抽出することによって、オペレータに対して教示間違いの可能性があるデータを効率的に提示することができる。

なお、第２の教師データ作成支援処理では、ステップＳ２６１，Ｓ２６２において、複数のサブ分類器に基づき、典型分類器が生成されている。しかしながら、１つのサブ分類器に基づいて、典型分類器が生成されてもよい。例えば、ステップＳ２６１では、分類器生成部６１５が、分類成績が最も良い１つのサブ分類器を選定する。そして、ステップＳ２６２では、分類器生成部６１５が、その１つのサブ分類器で教示済データ９０群の全部または一部を分類した場合に、分類先クラスが教示クラスと一致する一致教示済データを収集する。そして、分類器生成部６１５が、収集された一致教示済データを教師データとする機械学習を行うことにより、典型分類器を生成するとよい。

＜分類器の生成処理＞
分類器生成部６１５は、上述したように、第１および第２の教師データ支援処理において、サブ分類器の生成処理（図６：ステップＳ２５）を行う。また、分類器生成部６１５は、第２の教師データ支援処理において、典型分類器の生成処理（図７：ステップＳ２６２）を行う。ここでは、この分類器生成部６１５による分類器の生成処理について説明する。以下では、サブ分類器の生成処理について主に説明するが、典型分類器についても同様に生成することができる。図８は、分類器生成部６１５の構成を示す図である。図９は、分類器生成部６１５によるサブ分類器生成の流れを示す図である。

図８に示すように、分類器生成部６１５は、教師データ記憶部６１５０、度数分布データ生成部６１５１、分類器構築部６１５２、度数分布データ修正部６１５３および繰返制御部６１５４を有する。

教師データ記憶部６１５０は、分類器を構築するための教師データ（ここでは、複数の教示済データ９０）を記憶する。分類器生成部６１５において、サブ分類器を生成する場合、教師データ記憶部６１５０は、サブ教示済データ群構築部６１３により構築されたサブ教示済データ群に属する複数の教示済データ９０を、教師データとして記憶する（図９：ステップＳ３１）。

サブ教示済データ群の各教示済データ９０が準備されると、度数分布データ生成部６１５１は、複数の教示済データ９０に基づいて、特徴量軸毎の度数分布を示す度数分布データ８２を生成する（図９：ステップＳ３２）。度数分布データ８２は、各教示済データ９０を標本とする度数分布を示すデータであって、特徴量軸毎に、各特徴量軸の値を離散化した各区間における度数（出現頻度）を、クラス別に示すデータである。

具体的に、度数分布データ生成部６１５１は、特徴量軸毎に、各教示済データ９０に含まれる特徴量の値から、最大値及び最小値を特定することにより、特徴量軸毎に値の分布範囲を取得する。そして、度数分布データ生成部６１５１は、当該分布範囲を、適当な個数の区間に等分割（離散化）する。分布範囲の分割数は、例えば、２の１乗（すなわち、２）以上、２の１０乗以下とし得る。そして、離散化された各区間（離散区間）におけるクラス別の度数（出現頻度）が求められる。詳細には、特徴量軸毎に、１つの教示済データ９０につき、その教示済データ９０が持つ特徴量の値に対応する対応離散区間の度数を１つだけ加える。

図１０は、度数分布データ８２が示す第１の特徴量軸における複数のクラスの度数分布表を示す図である。図１１は、度数分布データ８２が示す第１の特徴量軸におけるクラス別のヒストグラムを示す図である。図１２は、度数分布データ８２が示す第２の特徴量軸における複数のクラスの度数分布表を示す図である。図１３は、度数分布データ８２が示す第２の特徴量軸におけるクラス別のヒストグラムを示す図である。

図１０及び図１２では、複数（ここでは３種類）のクラスをそれぞれ「Class 1」「Class 2」「Class 3」と表し、特徴量軸における区間を、見出しに「bin」と表す行に０〜１５の番号で示している（以下同様）。

図１０から図１３では、各特徴量軸の値の分布範囲の分割数は１４（区間（１）〜区間（１４））であり、当該分布範囲よりも小さい値の区間（０）および大きい値の区間（１５）も設けられている。区間（０）および区間（１５）は、クラスが教示されていない未知のデータが示す値が、教示済データ９０に基づく分布範囲の外側となる場合に用いられる。後述するように、特徴量軸毎のクラス別の度数分布は、データの分類（すなわち、クラス判別）に供される。このため、度数分布データ８２は、クラス判別を行うための「判別情報」ともいえる。

分布範囲の分割数は、特徴量軸毎に異なっていてもよいし、全特徴量軸について同一としてもよい。例えば、全区間において度数が１となる区間が１つのみ存在するような分割数のうち、最小のものが分割数の上限として設定され得る。これにより、度数が１以上となる区間が不連続となることが抑制される。また、複数の特徴量軸により規定される特徴量空間において、複数の特徴量軸の区間により表現される領域（セル）の個数が、教師画像の総数よりも十分に多くなるように、分割数の下限が設定されることが好ましい。

分類器構築部６１５２は、各特徴量の値に基づきデータを分類する（すなわち、クラス判別する）初期の分類器３３０を生成する（図９：ステップＳ３３）。当該初期の分類器３３０は、度数分布データ８２が示す、特徴量軸毎の各区間におけるクラス別の出現比率に基づき、分類対象のデータを分類するように構成される。

ここでは、分類器３３０の基本的構造は予め決定されており、分類器３３０は、複数の特徴量軸各々について、演算を行う複数の弱分類器を含む。弱分類器各々は、分類対象の画像が持つ特徴量の値を参照して、当該値が取得された画像が、複数のクラスのそれぞれに属する確率（弱分類器各々が対応する特徴量軸のみに着目した確率）をクラス評価結果として求める。

ここで、サブ教示済データ群の各教示済データ９０の総数をＮ、クラスの個数をｎ、クラスＣ_ｉ（ｉ＝１，２，・・・，ｎ）に属する（すなわち教示クラスがＣ_ｉである）教示済データ９０の総数をＮ_ｉとする。Ｎ_ｉはどの特徴量軸についても同じ数である。したがって、クラスＣ_ｉに属する教示済データ９０の総数Ｎ_ｉの全クラスの総和は、式（１）のようにサブ教示済データ群の各教示済データ９０の総数Ｎとなる。

また、特徴量軸の総数をｍ、特徴量軸Ｄｊ（ｊ＝１，２，・・・，ｍ）の値を離散化したときの分割数をＫ_ｊとし、特徴量軸Ｄｊの区間ｋ（ｋ＝１，２，・・・，Ｋ_ｊ）におけるクラスＣ_ｉに属する教示済データ９０の個数をF_ij(k)で表すと、クラスＣ_ｉに属する教示済データ９０の総数Ｎ_ｉは、式（２）のように表される。

一方、１つの特徴量軸Ｄ_ｊのみに着目した場合に、区間ｋにおいてクラスＣ_ｉに属する教示済データ９０の出現比率（個数F_ij(k)のクラスＣ_ｉに属する教示済データ９０の総数Ｎ_ｉに対する比率）は、当該特徴量軸Ｄ_ｊの値が区間ｋに属する画像がクラスＣ_ｉに属する確率と考えることができる。以下、当該確率をP_jk(C_i)と表す。この確率P_jk(C_i)は、式（３）のように表される。

例えば、第１の特徴量軸（特徴量軸D₁）の９番の区間（９）について確率P_jk(C_i)を求めた場合、例えば、クラス１（Ｃ_１）の確率P_1,9(C₁)は、0.031（=49/1578）となる。また、クラス２（Ｃ_２）の確率P_1,9(C₂)は、0.171（=486/2849）となる。さらに、クラス３（Ｃ_３）の確率P_1,9(C₃)は、0.013（=9/688）となる。１つの特徴量軸において、確率P_jk(C_i)はｎ個（クラス数）だけ得られるが、全クラスの確率P_jk(C_i)の総和は１にはならない。

分類器３３０を構成する複数の弱分類器各々は、対応する特徴量軸D_jの値から度数分布データ８２を参照することにより、クラス別に出現比率（確率P_jk(C_i)）をクラス評価結果として求める。当該弱分類器では、特徴量軸Ｄ_ｊの値が取得された画像が、特定のクラスＣ_ｉに属するとした場合の妥当性（確信度）を示す評価値がクラス評価値として求められるともいえる。

ところで、多くの特徴量軸におけるクラス別の度数分布では、図１１および図１３のヒストグラムのように、互いに重なり合う部分が多く存在するため、各特徴量軸において求められる複数のクラスに対する確率によるクラスの予測精度は、あまり高いとはいえない（ただし、ランダムにクラスを予測するよりも精度は高いといえる。）。そこで、分類器３３０では、アンサンブル学習の考え方が取り入れられており、複数の特徴量軸に対する複数の弱分類器のクラス評価結果に基づいて分類クラスを決定する強分類器として、分類器３３０が構成される。

分類器３３０では、各特徴量軸に対するクラス評価結果として、複数のクラスの評価値（確率）が求められるが、クラス評価結果は、例えば、評価値が最大のクラスに１を付与し、他のクラスに０を付与するものであってもよい。この場合、実質的に、各特徴量軸において評価値が最大のクラスに投票を行う処理となり、複数の特徴量軸における得票数が最大のクラスが分類クラスとして決定される。

図８に示すように、度数分布データ修正部６１５３は、度数分布データ生成部６１５１によって生成され、分類器構築部６１５２に送られた度数分布データ８２を修正する。以下、度数分布データ修正部６１５３が度数分布データ８２を修正する処理の流れについて説明する。具体的には、度数分布データ修正部６１５３は、修正対象の度数分布データ８２に基づきデータ分類を行う分類器３３０を用いて、サブ教示済データ群の各教示済データ９０を分類する（図９：ステップＳ３４）。

本処理例では、度数分布データ修正部６１５３は、教示済データ９０として、初期の分類器３３０を生成したとき（すなわち、初期の度数分布データ８２を生成したとき）に使用された教示済データ９０全部を、分類器３３０に分類させる。なお、度数分布データ修正部６１５３が、教示済データ９０全部のうち一部のみを選択して、分類器３３０に分類させてもよい。教示済データ９０の分類では、各教示済データ９０の各特徴量軸Ｄ_ｊの値が特定され、クラスＣ_ｉ別の出現比率（確率P_jk(C_i)）がクラス評価結果として取得される。

分類器３３０による分類では、さらに、特徴量軸各々の出現比率の代表値（例えば、平均値や中央値、加重平均値等）が求められる。そして、全クラスのうち代表値が最大であるクラスが、当該教示済データ９０の分類先クラスに決定される。各教示済データ９０の分類クラスは、度数分布データ修正部６１５３において記憶される。なお、分類器３３０による好ましい処理では、（１）最大の代表値が所定のしきい値ＳＨ１未満である場合、または、（２）最大の代表値と２番目に大きい代表値との差（または比率）が所定の他のしきい値ＳＨ２未満である場合などに、分類すべきクラスが不明であることを示す追加クラスが分類クラスとして決定される。以下の説明では、上記（１）、（２）の場合に、教師画像群の教師画像が、追加クラスに分類されるものとする。

図１４は、分類器３３０による教示済データ９０の分類結果の一例を示す図である。図１４は、分類結果をまとめたコンフュージョンマトリクス（混同行列）である。図１４では、３種類の教示クラスを行見出しに記し、不明を含む４種類の分類クラスを列見出しに記している。教示クラスが「Ａ」である各教示済データ９０のうち、クラス「Ｂ」に分類された教示済データ９０の個数は、「Ａ」の行と「Ｂ」の列とが交差するセルに示される。たとえば、教示クラスが「Class 1」である各教示済データ９０のうち、「Class 2」に分類された教示済データ９０の数は、１４３個である。また、「Precision」（適合率）の行と「Recall」（再現率）の列とが交差するセルは、分類器３３０により分類された教示済データ９０の総数のうち、分類器３３０により分類されたクラスと教示クラスとが一致した教示済データ９０の総数の比率（正答率：Accuracy）である。全ての教示済データ９０が分類対象とされている場合、図９の分類結果は、いわゆる再代入法評価の結果である。

続いて、度数分布データ修正部６１５３は、各教示済データ９０のうち、分類されたクラスが教示クラスと相違していた教示済データ９０（以下、このデータを「不一致教示済データ」とも称する。）が存在する場合、その不一致教示済データ各々に基づいて、度数分布データ８２を修正する（図９：ステップＳ３５）。

この度数分布データ８２の修正では、不一致教示済データを参酌することにより、特徴量軸各々に関して、その不一致教示済データが持つ特徴量の値に対応する区間（対応区間）が特定されるとともに、その対応区間における不一致教示済データの教示クラスの度数が、予め定められた正の値（たとえば「１」）だけ増加される。すなわち、分類先クラスが教示クラスと相違した不一致教示済データについて、特徴量軸毎のクラス別の度数分布を示す度数分布データ８２において、重複して計数された度数分布データ８２が生成されることとなる。この処理は、不一致教示済データの重みの変更と捉えることもできる。

図１５は、度数分布データ８２の修正例を説明するための図である。ここでは、不一致教示済データの教示クラスが「Class 2」であり、その不一致教示済データが持つ特徴量軸Ｄ_ｊの特徴量の値の対応区間が区間ｋであるとする。すると、この場合、図１５に示すように、度数分布データ修正部６１５３は、区間ｋにおける「Class 2」の度数（個数F_2j(k)）を「1」だけ増加させる。これにより、区間ｋにおける「Class 2」の出現比率（確率P_jk(C₂)）が見かけ上増加することとなる。このような要領で、度数分布データ修正部６１５３は、不一致教示済データの全ての特徴量軸に関して、対応区間の度数を増加させることにより、度数分布データ８２を修正する。

続いて、分類器構築部６１５２は、修正された度数分布データ８２に基づきデータを分類するように、分類器３３０を更新する（図９：ステップＳ３６）。新たな度数分布データ８２では、不一致教示済データについて、特徴量軸毎に対応する対応区間の出現比率が増加している。このため、更新された分類器３３０では、この不一致教示済データを教示クラスに正しく分類する確率が、更新前よりも高くなる。

続いて、度数分布データ修正部６１５３は、修正された度数分布データ８２に基づく分類器３３０を用いて、サブ教示済データ群の各教示済データ９０を分類する（図９：ステップＳ３７）。ここでは、ステップＳ３１で準備されたサブ教示済データ群の各教示済データ９０の全てを対象としてもよいし、そのうちの一部を対象としてもよい。

繰返制御部６１５４は、分類器３３０の教示済データ９０の分類成績が所定の基準を満たすまで、度数分布データ修正部６１５３に度数分布データ８２の修正を行わせる。具体的には、繰返制御部６１５４は、図４のステップＳ１７の分類結果に基づき、分類器３３０による各教示済データ９０のクラス判別の正答率が所定基準を満たすか否かを判断する（図９：ステップＳ３８）。所定基準は、たとえば「正答率が所定値を超える」とすることが考えられる。正答率が所定基準を満たさない場合（ステップＳ３８においてＮＯの場合）、ステップＳ１５戻って、度数分布データ修正部６１５３が、ステップＳ３７において不一致教示済データに基づき、度数分布データ８２をさらに修正する処理を行う。このように、分類器３３０による各教示済データ９０のクラス判別の正答率が所定値となるまで、ステップＳ３５からステップＳ３７までが繰り返し行われる。

ステップＳ３８において、所定基準を満たす分類器３３０が得られた場合（ステップＳ３８においてＹＥＳの場合）、その分類器３３０がサブ分類器として登録される（ステップＳ３９）。

このように、分類器生成部６１５では、分類器３３０が度数分布データ８２に基づいてサブクラスの各教示済データ９０を分類し、度数分布データ修正部６１５３が教示クラスとは異なるクラスに分類された不一致教示済データに基づき度数分布データ８２を修正する。このとき、度数分布データ修正部６１５３は、特徴量軸毎に、不一致教示済データが持つ特徴量の値に対応する対応区間の度数が増大するように度数分布データ８２を修正する。これにより、不一致教示済データ各々の各特徴量の値が属する区間の出現比率が見かけ上増加した度数分布データ８２が生成される。すると、分類器３３０がこの修正された度数分布データ８２に基づきデータ分類を行うように更新されるため、不一致教示済データを教示クラスに正しく分類する確率が上昇する。したがって、この度数分布データ８２の修正を繰り返し行うことにより、データをその教示クラスに適合するクラスに高確率で分類する分類器３３０を得ることができる。

図１６は、度数分布データ８２の他の修正例を説明するための図である。図１５に示す例では、１つの不一致教示済データがあった場合、その不一致教示済データの持つある特徴量の値に対応する対応区間ｋのみの度数を「１」だけ増加させている。しかしながら、図１６に示すように、対応区間である区間ｋだけでなく、その区間ｋに隣接する区間ｋ＋１，ｋ−１（隣接区間）についても、度数を増加させてよい。図１６に示す例では、区間ｋの増加数は「２」としており、区間ｋ＋１，ｋ−１の増加数「１」としている。このように、対応区間の増加数と隣接区間の増加数とを異ならせてもよいし、一致させてもよい。

また、度数を増加させる区間は、対応区間及びその両側の隣接区間に限定されない。たとえば、対応区間ｋとその両側の複数区間、あるいは、対応区間ｋとその片側の複数区間について、度数を増加させてもよい。また、対応区間ｋを中心とするガウス分布（詳細には、ガウス分布を整数化したもの）に従って、両側（または片側）の各区間における度数の増加数を決定してもよい。

不一致教示済データが持つ特徴量が属する対応区間および隣接区間の度数を増加させることにより、それらの区間の出現比率を見かけ上増加させた度数分布データ８２を生成できる。ここで、不一致教示済データの教示クラスに属するデータの特徴量は、通常、特定の対応区間とそれに隣接する隣接区間に分布し得る。このため、更新された分類器３３０が、対応区間または隣接区間の特徴量を持つデータを、不一致教示済データの教示クラスに分類する確率を上げることができる。

また、対応区間の増加数を隣接区間の増加数よりも多くする場合、対応区間の出現比率を隣接区間の出現比率よりも相対的に大きく増加させることができる。したがって、更新された分類器３３０が、不一致教示済データの教示クラスに分類されるべきデータ、すなわち、上記対応区間の特徴量を持つが、その教示クラスに分類される確率を上げることができる。

なお、ここでは、第１および第２の教師データ作成支援処理におけるサブ分類器の生成処理（図６および図７：ステップＳ２３）について説明した。しかしながら、第２の教師データ作成支援処理における典型分類器の生成処理（図７：ステップＳ２６２）も、このサブ分類器の生成処理と同様の手順で生成され得る。

図１７は、教示済データ数（教師データ数）と分類器３３０の正答率の関係を示すグラフである。このグラフにおいて、横軸は教示済データ数（クラスが教示された教師データの数）を示しており、縦軸はその教示済データ数で生成された分類器３３０の正答率を示している。

図１７のグラフは、分類器３３０が全データ数５１１２個の欠陥画像（特徴量軸の数は１７４次元）を３クラスに分類した場合の例を示している。なお、正答率を算出するために、５１１２個のデータ全てには予めクラスラベルが付与されているが、分類器３３０の分類処理中には参照されない。例えば、分類器３３０を生成する際、１クラスにつき１つの教示済データ９０を使用した場合、教示済データ数が３となる。また、１クラスにつき２つの教示済データ９０を使用した場合、サブ教示済データ群の教示済データ数が６となる。教示済データ９０の選出はランダムに行っている。

また、図１７に示す例では、分類器３３０を取得する際、度数分布データ修正部６１５３が度数分布データ８２を修正するときに（図９：ステップＳ３５参照）、対応区間ｋ（注目区画）に「３」、その対応区間ｋを中心にしてその両側の各区間ｋ−１，ｋ＋１に「１」ずつ度数を増加させている（｛＋１，＋３，＋１｝（総数５、標準偏差１））。また、どの教示済データ数についても、正答率の評価が１００回ずつ独立して行われている。グラフ中、黒丸で示される点が１００回の評価により得られた正答率の平均値を示しており、上下の「ひげ」は正答率の分布範囲（最大および最小）を示している。また、比較のため、度数分布データ８２を修正する際に対応区間に＋１だけ増加させる単純な方法で生成された分類器３３０の正答率を破線で示している。

図１７に示すように、教示済データ数を増やすことにより、分類器３３０の正答率が向上している。また、対応区間に度数を１だけ増加させる場合よりも、対応区間およびその隣接区間にも度数を増加させる場合の方が、正答率の高い分類器３３０を得ることができている。この傾向は、教示済データ数が少ないほど特に顕著である。

図１８は、教示済データ数と分類器３３０の正答率の関係を示す他のグラフである。このグラフにおいて、横軸は教示済データ数を示しており、縦軸は分類器構築装置３３が生成した分類器３３０の正答率を示している。このグラフは、欠陥画像ではなく、細胞画像を教師データとして生成された分類器３３０を用いて、全データ数５０００個の細胞画像（特徴量軸の数は１１次元）を３クラスに分類した場合の正答率を示している。

また、図１８に示す例では、分類器３３０を生成する際、度数分布データ修正部６１５３が度数分布データ８２を修正するときに（図９：ステップＳ３５参照）、対応区間ｋ（注目区画）に「１４」、その対応区間ｋを中心にして負側の８区間（区間ｋ−８〜ｋ−１）各々に「１」「２」「３」「５」「８」「１１」「１３」、正側の８区間（区間ｋ＋１〜ｋ＋８）各々に「１３」「１１」「８」「５」「３」「２」「１」の度数を増加させている（｛１，２，３，５，８，１１，１３，１４，１３，１１，８，５，３，２，１｝（総数１００，標準偏差３））。グラフ中、黒丸で示される点が１００回の評価により得られた正答率の平均値を示しており、上下の「ひげ」は正答率の分布範囲（最大および最小）を示している。また、比較のため、度数分布データ８２を修正する際に対応区間に＋１だけ増加させる単純な方法で生成された分類器３３０の正答率を破線で示している。

図１８に示す例においても、図１７に示した例と同様に、教示済データ数を増やすことにより、分類器３３０の正答率が向上している。また、不一致教示済データについて、対応区間に度数を１だけ増加させる場合よりも、対応区間及びその周辺の区間にも度数を増加させる場合の方が、正答率の高い分類器３３０を得ることができている。この傾向は、教示数が少ないほど特に顕著である。

図１７および図１８に示すように、同じ教示済データ数であっても、教示済データの選び方により正答率のばらつきが発生する。たとえば、図１７に示すように、教示済データ数を３とした場合、平均５０％程度の正答率であるが、教示済データ９０の組み合わせによっては、６５％以上の正答率が得られる可能性がある。つまり、図６および図７に示す第１および第２の教師データ作成支援処理で生成される複数のサブ分類器では、正答率が大きくばらつき得る。特に、第１の教師データ作成支援処理では、典型分類器の選定処理（図６：ステップＳ２６）において、複数のサブ分類器の中から、分類成績が最も良いサブ分類器を典型分類器として選定する。このため、ステップＳ２８においてオペレータに提示する不適合教示済データの数量、すなわち、人間の判断を求める教示済データ数を最小化する効果が顕著になる。

なお、分類器生成部６１５が、図９に示した手順で分類器を生成することは必須ではなく、他の手法（例えば、線形判別分析やＳＶＭなど公知の手法）を採用することも妨げられない。

＜２．変形例＞
以上、実施形態について説明してきたが、本発明は上記のようなものに限定されるものではなく、様々な変形が可能である。

例えば、ステップＳ２２において、サブ教示済データ群構築部６１３が各クラスから選定する教示済データ９０の数量は、同数に限定されず、クラス毎に異なっていてもよい。例えば、各クラスから選定される数量を、各クラスに属する教示済データ９０の総数に比例させてもよい。すなわち、第１のクラスと第２のクラスとがある場合に、第１のクラスの総数が第２のクラスの総数のＬ倍であれば、第１のクラスから選定される数量を第２のクラスから選定される数量のＬ倍としてもよい。ただし、サブ分類器は教師データのクラス別の出現頻度に基づく機械学習により生成される。このため、選定される数量がクラス毎に異なる場合には、サブ分類器の分類結果に偏りが生じやすくなる。このため、サブ教示済データ群として各クラスから選定される教示済データ９０の数量は、クラス間で同数であることが望ましい。

この発明は詳細に説明されたが、上記の説明は、すべての局面において、例示であって、この発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。上記各実施形態及び各変形例で説明した各構成は、相互に矛盾しない限り適宜組み合わせたり、省略したりすることができる。

１画像分類装置
５ホストコンピュータ
５５ディスプレイ
５６入力部
６１教師データ作成支援部
６１０データ演算部
６１１記憶部
６１３サブ教示済データ群構築部
６１５分類器生成部
６１５０教師データ記憶部
６１５１度数分布データ生成部
６１５２分類器構築部
６１５３度数分布データ修正部
６１５４繰返制御部
６１７分類成績取得部
６１８繰返制御部
６１９データ抽出部
６２０表示制御部
６３学習部
９０教示済データ

Claims

データをその特徴量に基づいて分類する分類器の生成に使用される教師データの作成を支援する教師データ作成支援方法であって、
(a1) 複数のクラスのうちいずれか１つが教示クラスとして教示された複数の教示済データからなる教示済データ群を準備する工程と、
(b1) 前記教示済データ群において、前記複数のクラス各々から１つ以上ずつ選択された前記教示済データで構成されるサブ教示済データ群を構築する工程と、
(c1) 前記サブ教示済データ群を教師データとして、前記教示済データを分類するサブ分類器を生成する工程と、
(d1) 前記工程(c1)により生成される前記サブ分類器で前記教示済データ群の全部または一部を分類することによって、前記サブ分類器の分類成績を取得する工程と、
(e1) 前記工程(b1)、前記工程(c1)および前記工程(d1)を複数回繰り返すことによって得られる複数の前記サブ分類器の中から、前記教示済データ群の全部または一部を分類した場合の分類成績が所定の分類成績の基準を満たすサブ分類器を典型分類器として選定する工程と、
(f1) 前記工程(e1)にて選定された前記典型分類器で、前記教示済データ群の全部または一部を分類した場合に、分類先クラスが前記教示クラスと一致しない不適合教示済データを抽出する工程と、
を含む、教師データ作成支援方法。
請求項１の教師データ作成支援方法であって、
前記工程(e1)は、前記複数のサブ分類器の中から、前記分類成績が最も良い１つのサブ分類器を前記典型分類器として選定する工程である、教師データ作成支援方法。
データをその特徴量に基づいて分類する分類器の生成に使用される教師データの作成を支援する教師データ作成支援方法であって、
(a1) 複数のクラスのうちいずれか１つが教示クラスとして教示された複数の教示済データからなる教示済データ群を準備する工程と、
(b1) 前記教示済データ群において、前記複数のクラス各々から１つ以上ずつ選択された前記教示済データで構成されるサブ教示済データ群を構築する工程と、
(c1) 前記サブ教示済データ群を教師データとして、前記教示済データを分類するサブ分類器を生成する工程と、
(d1) 前記工程(c1)により生成される前記サブ分類器で複数の前記教示済データを分類することによって、前記サブ分類器の分類成績を取得する工程と、
(e2) 前記工程(b1)、前記工程(c1)および前記工程(d1)を複数回繰り返すことによって得られる複数の前記サブ分類器の中から、前記教示済データ群の全部または一部を分類した場合の分類成績が所定の分類成績の基準を満たす１つ以上のサブ分類器を選定する工程と、
(f2-1) 前記工程(e2)にて選定された１つ以上のサブ分類器の各々で、前記複数の教示済データ群の全部または一部を分類した場合に、分類先クラスが前記教示クラスに一致する一致教示済データを教師データとして、典型分類器を生成する工程と、
(f2-2) 前記工程(f2-1)にて生成された前記典型分類器で、前記教示済データ群の全部または一部を分類した場合に、分類先クラスが前記教示クラスと一致しない不適合教示済データを抽出する工程と、
を含む、教師データ作成支援方法。
請求項３の教師データ作成支援方法であって、
前記工程(e2)は、前記複数のサブ分類器の中から、所定の分類成績の基準を満たす２つ以上のサブ分類器を選定する工程である、教師データ作成支援方法。
請求項３の教師データ作成支援方法であって、
前記工程(e2)は、前記複数のサブ分類器の中から、前記分類成績が最も良い１つのサブ分類器を前記典型分類器として選定する工程である、教師データ作成支援方法。
請求項１から請求項５のいずれか１項の教師データ作成支援方法であって、
前記分類成績は、前記教示済データの総数のうち、前記教示クラスと前記サブ分類器による分類先クラスとが一致した教示済データの総数の割合である、教師データ作成支援方法。
データをその特徴量に基づいて分類する分類器の生成に使用される教師データの作成を支援する教師データ作成支援装置であって、
複数のクラスのうちいずれか１つが教示クラスとして教示された複数の教示済データからなる教示済データ群を記憶する記憶部と、
前記教示済データ群において、前記複数のクラス各々から１つ以上ずつ選択することにより、サブ教示済データ群を構築するサブ教示済データ群構築部と、
前記サブ教示済データ群を教師データとして、データを分類するサブ分類器を生成する分類器生成部と、
前記サブ分類器で前記教示済データ群の全部または一部を分類した場合の前記サブ分類器の分類成績を取得する分類成績取得部と、
前記サブ教示済データ群構築部、前記分類器生成部および前記分類成績取得部を制御することによって、複数の前記サブ教示済データ群から生成される複数の前記サブ分類器各々の分類成績を取得する繰返制御部と、
複数の前記サブ分類器の中から、所定の分類成績の基準を満たすサブ分類器を典型分類器として選定するとともに、当該典型分類器で前記教示済データ群の一部または全部を分類した場合に、分類先クラスが前記教示クラスと一致しない不適合教示済データを抽出するデータ抽出部と、
を備える、教師データ作成支援装置。