JP2005352997A

JP2005352997A - 事例データベースの構築方法、判別装置の学習方法、データ判別支援装置、データ判別支援プログラム

Info

Publication number: JP2005352997A
Application number: JP2004175963A
Authority: JP
Inventors: Takashi Onoda; 崇小野田; Hiroshi Murata; 博士村田; Michiko Yamana; 美智子山名
Original assignee: Central Research Institute of Electric Power Industry
Current assignee: Central Research Institute of Electric Power Industry
Priority date: 2004-06-14
Filing date: 2004-06-14
Publication date: 2005-12-22
Anticipated expiration: 2024-06-14
Also published as: JP4859351B2

Abstract

【課題】事例データベースを構築する人間の作業量を減らす。
【解決手段】複数の事例データを計算機に入力しておき、２つのクラスに属する事例データのクラス情報を計算機に入力し（Ｓ４０１）、計算機が該当する事例データをクラスに分類し（Ｓ４０２）、特徴空間の中で一のクラスの境界となる第１超平面とその他のクラスの境界となる第２超平面とを計算機に計算させ（Ｓ４０３）、クラスの分類が済んでいない事例データのうち、第１超平面と第２超平面とに挟まれた領域であるグレーゾーンに該当しない事例データを、上記一のクラスとその他のクラスのいずれか該当する方に計算機により自動で分類し（Ｓ４０４）かつグレーゾーンに該当する事例データを計算機に提示させ（Ｓ４０５）、当該提示された事例データのクラス情報を計算機に入力し（Ｓ４０６）、当該入力されたクラス情報に基づき計算機が該当する事例データを該当するクラスに分類する（Ｓ４０７）。
【選択図】図１

Description

本発明は、データベースの構築方法および計算機の学習方法に関する。さらに詳述すると、本発明は、対話的に事例データベースを構築する方法および計算機を学習させる方法およびそのための装置とプログラムに関する。

従来、計算機（コンピュータ）を利用して事例データベースを構築することが行われている。事例データベースには、複数の事例データがそれぞれ属するクラスに分類されて記録されている。事例データベースに整理されて蓄積されている膨大なデータを利用すれば、例えばある未知のデータがあった場合に、事例データベースに蓄積されたどのデータと一致または類似するかをパターンマッチング等の手法を用いて自動識別し、当該未知のデータがどのクラスに属するのか、機械的に判断できる。

また、計算機に例題（データと当該データが属するクラスの正解）を与えて、計算機を学習させ、当該計算機を判別装置として機能させることも行われている。学習が完了した計算機すなわち判別装置に、クラスが未知のデータを入力すると、判別装置は当該入力データの属するクラスを推定し、推定したクラスを出力する。計算機を判別装置として機能させるアルゴリズムとして、例えば非特許文献１に開示されるサポートベクターマシーンが有名である。

ところで、設備・機器の再利用による有効活用、異常予兆発見に基づく設備・機器の交換などによるコストダウンを目的として、設備・機器の保守・管理を従来の使用年数に基づく時間計画保全（ＴＢＭ、Time Based Maintenace）から、設備・機器の劣化状態等に基づく状態監視保全（ＣＢＭ、Condition Based Maintenance）へ移行することが提案されている。この設備・機器の状態に基づくＣＢＭでは、設備・機器が使用に耐えられなくなる状態まで設備・機器の運用が可能となるため、従来のＴＢＭより、大幅なコスト削減が期待できる。

例えば図１３に示すように、電柱の腕金の監視画像をデータベース化し、腕金の劣化状態の判断を自動化する技術がある（非特許文献２参照）。この技術では、先ず見本となる多数の電柱の腕金の監視画像を予め用意し、各画像に撮影された腕金の錆の状態などから、これらの画像を「引き続き利用できる状態」「鍍金処理を施した後に再利用できる状態」「廃棄する必要がある状態」の３つのクラスに分け、事例データベース１０１を構築する。そして、事例データベース１０１に蓄積されている腕金画像を例題として計算機１０２に学習させ、当該計算機１０２を判別装置として機能させる。学習が完了し判別装置として機能する計算機１０２に、クラスが未知の腕金画像を入力として与えると、計算機１０２は当該腕金画像が「引き続き利用できる状態」「鍍金処理を施した後に再利用できる状態」「廃棄する必要がある状態」の中のどのクラスに属するかを自動的に判断し、結果を出力する。これにより、腕金の劣化状態の判断を自動化することができる。

V. N. Vapnik. The Nature of Statistical Learning Theory, Springer, 1995. 山名，村田，小野田，他：「腕金錆画像に基づく腕金再利用判定精度の向上」 2004 人工知能学会全国大会論文集 2F2-01

しかしながら、事例データベースを有効利用するためには先ず事例データベースを構築する必要があり、事例データベースの構築には各事例データがどのクラスに属するのかを定めるために専門家の判断すなわち人間の判断が不可欠である。事例データベースには可能な限り多くの情報が蓄積されていることが望ましく、従来は、すべての膨大な数の事例データに対して専門家（人間）がクラス判定を行っており、事例データベースの構築に多大な労力、時間、コストを要している。

また、計算機を判別装置として機能させるためには、先ず計算機を学習させる必要があり、この学習にはデータと当該データが属するクラスの正解との組である例題が不可欠であり、各例題の正解を定めるために、専門家の判断すなわち人間の判断が不可欠である。一般に、計算機に与える例題の数が多いほど判別装置としての判定精度は高まる。従来は、膨大な数の例題を専門家（人間）が予め用意する必要があり、判別装置の学習に多大な労力、時間、コストを要している。

例えば、上記のように腕金画像の事例データベースを利用して腕金の劣化状態の自動判別を行う場合には、先ず始めに腕金画像の事例データベースを構築する必要があり、そのためには専門家が何千、何万という画像に対して、各画像が属するクラスを判定しなければならない。何千、何万というデータに対して、人間が各データのクラスを判定することは不可能ではないにしろ、非常に辛い作業となる。また、非常に辛い作業であるため、作業途中で人による判定が曖昧になる虞もある。

また、設備・機器の保守・管理について従来の使用年数に基づく時間計画保全（ＴＢＭ）から、設備・機器の劣化状態等に基づく状態監視保全（ＣＢＭ）への移行が図られているが、ＣＢＭへは、単に設備・機器状態データを収集できれば移行できるというものではない。設備・機器状態データが何の情報も付加されることなく蓄積されても、ＣＢＭに利用することはできない。ＣＢＭを実行するためには、大量の設備・機器状態データに状態の判定（例えば「利用可能、利用不可」や「良、不良」などの判定）を付加することが不可欠となる。しかしながら、何千、何万という設備・機器状態データに対して、人間が状態の判定を行うためには上述したように膨大な労力、時間、コストを必要とする。人間による判定回数は押さえながら、設備・機器状態データに適切な「判定」を付加できる技術が望まれている。

そこで本発明は、人間と計算機が協調作業することにより、人間の作業量を大幅に減らすことができる事例データベースの構築方法、判別装置の学習方法、データ判別支援装置、データ判別支援プログラムを提供することを目的とする。

かかる目的を達成するため、請求項１記載の発明は、複数の事例データがそれぞれ属するクラスに分類されて記録される事例データベースを構築する方法であり、前記複数の事例データを計算機に入力するデータ入力ステップと、前記複数の事例データのうちの一部であり且つ少なくとも２つのクラスに属する事例データのクラス情報を前記計算機に入力する初期情報入力ステップと、当該入力されたクラス情報に基づき、前記計算機が該当する事例データを該当するクラスに分類する初期受動分類ステップと、クラスの分類が済んでいる事例データを用いて特徴空間の中で一のクラスの境界となる第１超平面とその他のクラスの境界となる第２超平面とを前記計算機に計算させる識別面生成ステップと、クラスの分類が済んでいない事例データのうち、前記第１超平面と前記第２超平面とに挟まれた領域であるグレーゾーンに該当しない事例データを、上記一のクラスとその他のクラスのいずれか該当する方に前記計算機により自動で分類する自動分類ステップと、クラスの分類が済んでいない事例データのうち、前記グレーゾーンに該当する事例データの全部または一部を前記計算機に提示させる提示ステップと、当該提示された事例データのクラス情報を前記計算機に入力する補充情報入力ステップと、当該入力されたクラス情報に基づき、前記計算機が該当する事例データを該当するクラスに分類する受動分類ステップとを有するようにしている。

また、請求項８記載のデータ判別支援装置は、事例データが属するクラスの判別を支援する装置であり、複数の前記事例データの入力を受け付けるデータ入力手段と、前記複数の事例データのうちの一部であり且つ少なくとも２つのクラスに属する事例データのクラス情報の入力を受け付ける初期情報入力手段と、当該入力されたクラス情報に基づき、該当する事例データを該当するクラスに分類する初期受動分類手段と、クラスの分類が済んでいる事例データを用いて特徴空間の中で一のクラスの境界となる第１超平面とその他のクラスの境界となる第２超平面とを計算する識別面生成手段と、クラスの分類が済んでいない事例データのうち、前記第１超平面と前記第２超平面とに挟まれた領域であるグレーゾーンに該当しない事例データを、上記一のクラスとその他のクラスのいずれか該当する方に自動で分類する自動分類手段と、クラスの分類が済んでいない事例データのうち、前記グレーゾーンに該当する事例データの全部または一部を提示する提示手段と、当該提示された事例データのクラス情報の入力を受け付ける補充情報入力手段と、当該入力されたクラス情報に基づき、該当する事例データを該当するクラスに分類する受動分類手段とを備えている。

また、請求項１０記載のデータ判別支援プログラムは、事例データが属するクラスの判別を支援する装置としてコンピュータを機能させるプログラムであり、複数の前記事例データの入力を受け付けるデータ入力手段と、前記複数の事例データのうちの一部であり且つ少なくとも２つのクラスに属する事例データのクラス情報の入力を受け付ける初期情報入力手段と、当該入力されたクラス情報に基づき、該当する事例データを該当するクラスに分類する初期受動分類手段と、クラスの分類が済んでいる事例データを用いて特徴空間の中で一のクラスの境界となる第１超平面とその他のクラスの境界となる第２超平面とを計算する識別面生成手段と、クラスの分類が済んでいない事例データのうち、前記第１超平面と前記第２超平面とに挟まれた領域であるグレーゾーンに該当しない事例データを、上記一のクラスとその他のクラスのいずれか該当する方に自動で分類する自動分類手段と、クラスの分類が済んでいない事例データのうち、前記グレーゾーンに該当する事例データの全部または一部を提示する提示手段と、当該提示された事例データのクラス情報の入力を受け付ける補充情報入力手段と、当該入力されたクラス情報に基づき、該当する事例データを該当するクラスに分類する受動分類手段として、コンピュータを機能させるようにしている。

第１超平面と第２超平面とに挟まれた領域（グレーゾーン）は、本来どちらのクラスに分けられるか不確定の領域である。クラスが未知の新たな事例データが加わったときに、これら新たに加わった事例データのうち、注意して判定しなければならないのはグレーゾーンに該当するものだけである。何故なら、グレーゾーンに位置する事例データは、僅かな違いでいずれのクラスにも属し得る可能性があり、どちらのクラスに属するかはっきりしない判定の難しいデータと言えるからである。そこで、グレーゾーンの外に位置する判定の容易な事例データについては計算機が自動でクラス判定を行い、グレーゾーンの中に位置する判定の難しい事例データだけを計算機が人間に提示し、提示された判定の難しい事例データのみについて人間が計算機にクラスの正解値を教えるようにする。これにより、作業者はすべての事例データについてクラスを判定する必要はなくなり、人間がクラスを判断しなければならない事例データ数を圧倒的に減らすことができ、人間の作業量を大幅に減らすことができる。

また、請求項２記載の発明は、請求項１記載の事例データベースの構築方法において、前記提示ステップでは、前記グレーゾーンに該当する事例データのうちの一定数の事例データを前記計算機に提示させ、全ての前記事例データのクラスの分類が終了するまで、前記識別面生成ステップ、前記自動分類ステップ、前記提示ステップ、前記補充情報入力ステップ、前記受動分類ステップを繰り返すようにしている。

また、請求項９記載の発明は、請求項８記載のデータ判別支援装置において、前記提示手段は、前記グレーゾーンに該当する事例データのうちの一定数の事例データを提示し、全ての前記事例データのクラスが確定するまで、前記識別面生成手段、前記自動分類手段、前記提示手段、前記補充情報入力手段、前記受動分類手段の処理を繰り返すようにしている。

また、請求項１１記載の発明は、請求項１０記載のデータ判別支援プログラムにおいて、前記提示手段は、前記グレーゾーンに該当する事例データのうちの一定数の事例データを提示し、全ての前記事例データのクラスが確定するまで、前記識別面生成手段、前記自動分類手段、前記提示手段、前記補充情報入力手段、前記受動分類手段の処理を繰り返すようにしている。

この場合、グレーゾーンに該当する事例データの数が膨大となる場合でも、当該膨大な数の事例データの全てを計算機が作業者等に提示するのではなく、一部を提示するので、作業者等はグレーゾーンに該当する事例データの一部についてのみ計算機にクラスの正解値を教えればよい。従って、事例データベースの構築作業にあたる人間（作業者等）の作業量を確実に低減できる。

また、請求項３記載の発明は、請求項２記載の事例データベースの構築方法において、前記提示ステップでは、前記グレーゾーンに該当する事例データのうち、前記第１超平面と前記第２超平面との間に位置する識別面に最も近い事例データから順に一定数の事例データを前記計算機に提示させるようにしている。この場合、識別面の近傍に位置する事例データほどクラスの判定が困難であるため、最適な識別面の生成に有効な事例データを、計算機が作業者等に効率的に提示できる。

また、請求項４記載の発明は、請求項３記載の事例データベースの構築方法において、前記第１超平面および前記第２超平面および前記識別面をサポートベクターマシーンにより計算するようにしている。サポートベクターマシンは、現在知られているパターン識別手法の中で最も優秀なパターン識別能力を有する方法の一つであり、この方法を利用することで、正確に事例データが分類された質の高い事例データベースを構築できる。

また、請求項５記載の発明は、請求項１から４のいずれか１つに記載の事例データベースの構築方法において、前記クラスは３つ以上存在し、任意の１のクラスと残りのクラスとの事例データの分類を行う処理を、属する事例データが確定したクラスは除くとの条件の下で、残りのクラスが１となるまで繰り返すようにしている。この場合、判定回数を極力減らして、効率的に多クラスの事例データベースを構築できる。

また、請求項６記載の発明は、請求項１から５のいずれか１つに記載の事例データベースの構築方法において、前記事例データは画像データであるものとしている。したがって、従来は、膨大な数の画像のすべてに対して専門家（人間）がクラス判定を行って構築されていた画像データベースを、人間と計算機が協調作業することにより、人間の作業量を大幅に減らして、構築することができる。

また、請求項７記載の発明は、事例データが属するクラスを判定する判別装置を学習させる方法であり、前記複数の事例データを計算機に入力するデータ入力ステップと、前記複数の事例データのうちの一部であり且つ少なくとも２つのクラスに属する事例データのクラス情報を前記計算機に入力する初期情報入力ステップと、当該入力されたクラス情報に基づき、前記計算機が該当する事例データを該当するクラスに分類する初期受動分類ステップと、クラスの分類が済んでいる事例データを用いて特徴空間の中で一のクラスの境界となる第１超平面とその他のクラスの境界となる第２超平面とを前記計算機に計算させる識別面生成ステップと、クラスの分類が済んでいない事例データのうち、前記第１超平面と前記第２超平面とに挟まれた領域であるグレーゾーンに該当しない事例データを、上記一のクラスとその他のクラスのいずれか該当する方に前記計算機により自動で分類する自動分類ステップと、クラスの分類が済んでいない事例データのうち、前記グレーゾーンに該当する事例データのうちの一定数の事例データを前記計算機に提示させる提示ステップと、当該提示された事例データのクラス情報を前記計算機に入力する補充情報入力ステップと、当該入力されたクラス情報に基づき、前記計算機が該当する事例データを該当するクラスに分類する受動分類ステップとを有し、全ての前記事例データのクラスの分類が終了するまで、前記識別面生成ステップ、前記自動分類ステップ、前記提示ステップ、前記補充情報入力ステップ、前記受動分類ステップを繰り返し、前記計算機を学習させ前記判別装置として機能させるようにしている。

本発明によれば、事例データベースの構築が完了した時点で、クラスを識別する識別面の学習も完了している。したがって、事例データベースの構築に用いた計算機は、クラスが未知の事例データが与えられると、当該事例データが属するクラスを自動判定して出力する判別装置として機能する。したがって、従来は精度の高い判定を行うために専門家（人間）が膨大な数の例題を予め用意する必要があったが、作業者は例題となるすべての事例データについてクラスの正解値を判定する必要はなくなり、人間がクラスを判断しなければならない事例データ数を圧倒的に減らすことができ、人間の作業量を大幅に減らすことができる。これにより、判別装置の学習を省力化、効率化できる。

しかして請求項１記載の事例データベースの構築方法、請求項７記載の判別装置の学習方法、請求項８記載のデータ判別支援装置、請求項１０記載のデータ判別支援プログラムによれば、人間（作業者等）は、事例データベースを構築するための或いは計算機を判別装置として学習させるための膨大な量の事例データのすべてに対して「甲」「乙」「丙」といったクラス判定を行う必要はなく、計算機が提示する計算機にとって判別が困難な必要最低限の事例データに対してのみクラス判定を行えばよい。したがって、人間が判断しなければならない事例データを圧倒的に減らすことができ、人間の作業量を大幅に減らすことができる。この結果、事例データベースの構築または判別装置の学習に費やすコスト、時間、労力を大幅に削減できる。

また、本発明によれば、人間による判定回数を必要最低限に押さえながら、膨大な量のの設備・機器状態データに、適切な「判定」（例えば「利用可能、利用不可」や「良、不良」などの判定）を付加することができ、ＣＢＭ（設備・機器の劣化状態等に基づく状態監視保全）の実現に大きな貢献が期待できる。

さらに、請求項２記載の事例データベースの構築方法、請求項９記載のデータ判別支援装置、請求項１０記載のデータ判別支援プログラムによれば、グレーゾーンに該当する事例データの数が膨大となる場合でも、当該膨大な数の事例データの全てを計算機が作業者等に提示するのではなく、一部を提示するので、事例データベースの構築作業にあたる人間（作業者等）の作業量を確実に低減できる。

さらに、請求項３記載の事例データベースの構築方法によれば、識別面に最も近い事例データから順に一定数の事例データを計算機に提示させるので、最適な識別面の生成に有効な事例データを、計算機が作業者等に効率的に提示できる。

さらに、請求項４記載の事例データベースの構築方法によれば、第１超平面および第２超平面および識別面をサポートベクターマシーンにより計算するので、正確に事例データが分類された質の高い事例データベースを構築できる。

さらに、請求項５記載の事例データベースの構築方法によれば、判定回数を極力減らして、効率的に多クラスの事例データベースを構築できる。

さらに、請求項６記載の事例データベースの構築方法によれば、従来は、膨大な数の画像のすべてに対して専門家（人間）がクラス判定を行って構築されていた画像データベースを、人間と計算機が協調作業することにより、人間の作業量を大幅に減らして、構築することができる。

以下、本発明の構成を図面に示す実施形態に基づいて詳細に説明する。

図１から図１２に本発明の事例データベースの構築方法、判別装置の学習方法、データ判別支援装置、データ判別支援プログラムの実施の一形態を示す。本実施形態では、次のようにして事例データベース１を構築する。先ず、複数の事例データを計算機２に入力する（データ入力ステップ、図２のＳ１）。次に、複数の事例データのうちの一部であり且つ少なくとも異なる２つのクラスに属する事例データのクラス情報を計算機２に入力する（初期情報入力ステップ、図１のＳ４０１）。次に、入力されたクラス情報に基づき、計算機２が該当する事例データを該当するクラスに分類する（初期受動分類ステップ、Ｓ４０２）。次に、クラスの分類が済んでいる事例データを用いて特徴空間の中で一のクラスの境界となる第１超平面Ｈ１とその他のクラスの境界となる第２超平面Ｈ２とを計算機２に計算させる（識別面生成ステップ、Ｓ４０３）。次に、クラスの分類が済んでいない事例データのうち、第１超平面Ｈ１と第２超平面Ｈ２とに挟まれた領域であるグレーゾーンＧに該当しない事例データを、上記一のクラスとその他のクラスのいずれか該当する方に計算機２により自動で分類する（自動分類ステップ、Ｓ４０４）。次に、クラスの分類が済んでいない事例データのうち、グレーゾーンＧに該当する事例データの全部または一部を計算機２に提示させる（提示ステップ、Ｓ４０５）。次に、当該提示された事例データのクラス情報を計算機２に入力する（補充情報入力ステップ、Ｓ４０６）。次に、当該入力されたクラス情報に基づき、計算機２が該当する事例データを該当するクラスに分類する（受動分類ステップ、Ｓ４０７）。

ここで、例えば本実施形態では、提示ステップ（Ｓ４０５）において、グレーゾーンＧに該当する事例データのうちの一定数の事例データを計算機２に提示させるようにしている。そして、全ての事例データのクラスの分類が終了するまで（Ｓ４０８）、識別面生成ステップ（Ｓ４０３）、自動分類ステップ（Ｓ４０４）、提示ステップ（Ｓ４０５）、補充情報入力ステップ（Ｓ４０６）、受動分類ステップ（Ｓ４０７）を繰り返すようにしている。このように構成することで、グレーゾーンＧに該当する事例データの数が膨大となる場合でも、事例データベース１の構築作業にあたる人間（即ち作業者）の作業量を低減できる。尚、グレーゾーンＧに該当する事例データの数が少ないような場合には、提示ステップ（Ｓ４０５）において、グレーゾーンＧに該当する事例データの全部を計算機２に提示させるようにしても良く、この場合はＳ４０８をループ終了条件とする繰り返し処理は行わなくとも良い。

事例データは、例えば電力設備機器の状態データであり、特に本実施形態では、電柱の腕金の監視画像（以下、腕金画像と略記する。）としている。腕金画像はデジタル画像であり、デジタルデータとして取り扱うことができる。但し、事例データが腕金画像に限られるものではなく、他の設備・機器等の画像であっても良く、また画像に限らず、設備・機器のセンサ情報（例えば温度や音などの情報）などであっても良い。

識別面生成ステップ（Ｓ４０３）における第１超平面Ｈ１と第２超平面Ｈ２の計算には、例えば本実施形態ではサポートベクターマシーンを利用する。サポートベクターマシン（Support Vector Machine、ＳＶＭとも呼ぶ。）は、現在知られているパターン識別手法の中で最も優秀なパターン識別能力を有する方法の一つである。

ｄ次元の１個のパターンデータ（例えば画像）Ｘ＝（ｘ_１，ｘ_２，・・・，ｘ_ｄ）が与えられたときに、このＸがどのクラスに属するのかを分類する。便宜上、クラスの数は２個とし、クラスをｙで表し、クラスｙを１と−１に数値化しておく。データＸを入力とし、クラスｙ＝±１を出力とする関数を「識別関数」と呼ぶ。

計算機２を判別装置２’として機能させるためには、事前に与えられた例題を計算機２に学習させ、例題が正しく識別されるような識別関数を求める。例題は、ｎ個のサンプルデータＸ_１，Ｘ_２，・・・，Ｘ_ｎと、これらのサンプルデータに対応する正解のクラスｙ_１，ｙ_２，・・・，ｙ_ｎである。そして、新しく与えられた未知のデータＸを、得られた識別関数を用いて分類し、クラスｙを出力する。

図３はＳＶＭがパターン識別を行う際の概念図である。白丸（＝−１）と黒丸（＝１）とを分類したいとする。入力データＸに対し、二値の出力ｙを与える以下の識別関数ｙ＝ｆ（Ｘ）に従って出力する。
＜数１＞
ｆ（Ｘ）＝sgn（ｗ・Ｘ＋ｂ）

ここで、ｗ＝（ｗ_１，ｗ_２，・・・，ｗ_ｄ）はベクトル変数、ｂはスカラー変数である。ｗ・Ｘの・は内積を表す。sgn［ｕ］は、ｕ＞０で１をとり、ｕ≦０で−１をとる符号関数である。これは、図３において、ｄ次元の入力空間をｗ・Ｘ＋ｂ＝０で定義される超平面（識別面）Ｈ０で二つに分け、一方に１を、もう一方に−１を対応させることに対応する。学習とは、与えられた例題に対してｗやｂを調整することである。

すべてのサンプルデータに対して正しいクラスが出力されるようなｗとｂの組み合わせが存在するとき、その例題集合は「線形分離可能」であるという。この線形分離を実現する超平面（識別面）Ｈ０は一つには決まらない。そこで、ＳＶＭでは、識別面Ｈ０（最適超平面）から各クラスの端までの距離をマージンＬと呼び、マージンＬを最大にするように識別面Ｈ０を決める。それはクラス間の真ん中を識別面Ｈ０とすることに対応する。識別面Ｈ０からマージンＬだけ離れて識別面Ｈ０を挟む２枚の超平面、換言すればクラスの端のサンプルデータがのっている超平面が、第１超平面Ｈ１と第２超平面Ｈ２となる。

ここで、すべてのサンプルデータに対して正しいクラスが出力されるようなｗとｂの組み合わせが存在することは必ずしも保証されない。つまり、常に「線形分離可能」であるとは限らない。一般に線形分離は、サンプル数ｎが大きくなるほど難しく、特徴ベクトルの次元ｄが大きいほど易しくなる。そこで、線形分離可能でない場合には、Ｘを非線形変換（ｚ＝φ（Ｘ））によって、より高次元の空間に写像する。すると、線形分離可能な状態となり、最適な識別面（分離超平面）Ｈ０を求めることができる。例えば図４に示すように、二次元空間上のＸを非線形変換（ｚ＝φ（Ｘ））することにより、三次元空間上のｚへと変換すると、平面で線形分離することができる。

普通は次元の増加とともに計算量が増え計算が困難となる。この問題を解決するためにＳＶＭでは、内積Ｘ・Ｘを非線形変換した結果現れる内積ｚ・ｚ＝φ（Ｘ）・φ（Ｘ）を核関数（カーネル関数）Ｋを使って済ませ、ｚの計算を経由しないという方法をとる。このテクニックを「カーネルトリック」と呼ぶ。つまり、Ｋを以下のように置く。
＜数２＞
Ｋ（Ｘ_１，Ｘ_２）＝φ（Ｘ_１）・φ（Ｘ_２）

カーネル関数Ｋの代表的な例としては、以下の数式３で表されるＲＢＦ（Radial Basis Function）カーネルや、数式４で表されるｐ次の多項式カーネルがある。
＜数３＞
Ｋ（ｘ、ｙ）＝exp（−‖ｘ−ｙ‖^２／２σ^２）
＜数４＞
Ｋ（ｘ、ｙ）＝（ｘ・ｙ＋１）^ｐ

このように、カーネルトリックと呼ばれる計算方法によって、高次元へ写像していながら計算量を減らして計算をスムーズに行う。すると、線形分離可能な状態となり、最適な識別面Ｈ０（分離超平面）を求めることができる。尚、識別面Ｈ０および第１超平面Ｈ１および第２超平面Ｈ２を求めるアルゴリズムは必ずしも上記の例には限定されず、その他の既知のアルゴリズムあるいは更に改良された新規のアルゴリズムを採用することも可能である。

識別面生成ステップ（Ｓ４０３）において、クラスの分類が済んでいる事例データは、上記の例題に相当する。したがって、この例題を用いて、上記のようにＳＶＭにより識別面Ｈ０および第１超平面Ｈ１および第２超平面Ｈ２を計算できる。本実施形態の事例データはデジタル画像データであり、ＳＶＭでは、例えば色を表すＲＧＢ画像の画素値といった画像の特徴を要素とするベクトル空間（特徴空間）上で、各画像はそれぞれ点として表される。ＳＶＭでは、注意して識別しなければならないのは、境界（第１超平面Ｈ１上または第２超平面Ｈ２上）に来るようなデータだけである点に着目し、境界に位置する分類の難しいデータ（図３中の点線上のデータ）のみを用い、そのデータから識別面Ｈ０までの距離（マージンＬ）を最大にするように識別面Ｈ０を決定する。そして、新しい未知のデータが特徴空間上で識別面Ｈ０のどちら側に位置するかによって、当該未知データのクラス（−１または１）を判断する。

ここで、マージンＬの中、すなわち第１超平面Ｈ１と第２超平面Ｈ２とに挟まれた領域（グレーゾーンＧ）は、本来どちらのクラスに分けられるか不確定の領域である。クラスが未知の新たな事例データが加わったときに、これら新たに加わった事例データのうち、注意して判定しなければならないのはグレーゾーンＧに該当するものだけである。何故なら、グレーゾーンＧに位置する事例データ、特に識別面Ｈ０上または識別面Ｈ０の近傍に位置する事例データは、僅かな違いでいずれのクラスにも属し得る可能性があり、どちらのクラスに属するかはっきりしない判定の難しいデータと言えるからである。

そこで、グレーゾーンＧの外に位置する判定の容易な事例データについては計算機２が自動でクラス判定を行い（Ｓ４０４）、グレーゾーンＧの中に位置する判定の難しい事例データだけを計算機２が人間に提示し（Ｓ４０５）、提示された判定の難しい事例データのみについて人間が計算機２にクラスの正解値を教えるようにする（Ｓ４０６）。これにより、作業者はすべての事例データについてクラスを判定する必要はなくなり、人間がクラスを判断しなければならない事例データ数を圧倒的に減らすことができ、人間の作業量を大幅に減らすことができる。

識別面Ｈ０の近傍に位置する事例データほどクラスの判定が困難であると考えられるため、例えば本実施形態では、提示ステップ（Ｓ４０５）において、グレーゾーンＧに該当する事例データのうち、識別面Ｈ０に最も近い事例データから順に一定数の事例データを計算機２に提示させるようにしている。

ここで、ＳＶＭは入力として与えられた事例データが２つのクラスのどちらに属するかを判断するアルゴリズムであるが、実際のクラスは３つ以上であっても構わない。例えば本実施形態では、次のようにして、３つ以上の多クラスに対応可能としている。即ち、任意の１のクラスと残りのクラスとの事例データの分類を行う処理を、属する事例データが確定したクラスは除くとの条件の下で、残りのクラスが１となるまで繰り返すようにしている。換言すれば、図５に示すように、木構造による判定方法を用いている。例えば、「甲」「乙」「丙」の３つのクラスがあるとすると、まず「甲」と「その他（「乙」「丙」）」について判定し、次に、属する事例データが確定した「甲」を除いて、「その他」から「乙」と「丙」を判定する。これにより、各回の判定は２クラスの判定となり、ＳＶＭによる判定が可能となる。同様にして、３クラス以上の場合にも対応可能である。尚、図５中の符号Ｈ０，Ｈ１，Ｈ２は「甲」と「その他（「乙」「丙」）」を分類する識別面およびこの識別面を挟む第１超平面と第２超平面を示し、符号Ｈ０’，Ｈ１’，Ｈ２’は「乙」と「丙」を分類する識別面およびこの識別面を挟む第１超平面と第２超平面を示す。

尚、例えば「甲」「乙」「丙」を先ず２クラスに分類する場合、その分類の仕方は、「甲」と「乙・丙」、「乙」と「甲・丙」、「丙」と「甲・乙」、のように複数の組み合わせが考えられるが、この中から１つを計算機２によりランダムに選択するようにしても良く、特定の組み合わせを選択するように人間が計算機２に指示するようにしても良い。

但し、３つ以上の多クラスに対応するための方法は、上記の木構造による判定方法には必ずしも限られない。例えば「甲」と「乙」、「乙」と「丙」、「丙」と「甲」の全ての組み合わせについて判定し、各組み合わせでの判定結果（３クラスの例では二つの判定結果）が一致している場合には、そのクラスを答えとし、各組み合わせでの判定結果が異なった場合には、識別面Ｈ０からの距離が最も遠いクラスを答えとするようにしても良い。或いは、「甲」と「その他（「乙」「丙」）」、「乙」と「その他（「丙」「甲」）」、「丙」と「その他（「甲」「乙」）」について判定し、各判定結果（３クラスの例では三つの判定結果）が一致している場合にはそのクラスを答えとし、判定結果が競合している場合には、識別面Ｈ０からの距離が最も遠いクラスを答えとするようにしても良い。尚、これらの方法の場合にも、同様にして３クラス以上の場合にも対応可能である。但し、木構造による判定方法が判定回数が最も少なく、処理速度が最も速い方法である。

腕金画像を事例データとする本実施形態では、各画像に撮影された腕金の錆の状態などから、これら腕金画像を「引き続き利用できる状態」「鍍金処理を施した後に再利用できる状態」「廃棄する必要がある状態」の３つのクラスに分ける。

ここで、本実施形態では、各事例データにクラスの情報を表す判定ラベルを付与することで、各事例データを該当するクラスに分類するようにしている。尚、ＳＶＭにより判定されるクラス情報（ｙ＝±１）を便宜上サブラベルと呼ぶ。

本発明は、データ判別支援装置２０として装置化される。このデータ判別支援装置２０は、複数の事例データの入力を受け付けるデータ入力手段２１と、複数の事例データのうちの一部であり且つ少なくとも異なる２つのクラスに属する事例データのクラス情報の入力を受け付ける初期情報入力手段２２と、当該入力されたクラス情報に基づき、該当する事例データを該当するクラスに分類する初期受動分類手段２３と、クラスの分類が済んでいる事例データを用いて特徴空間の中で一のクラスの境界となる第１超平面Ｈ１とその他のクラスの境界となる第２超平面Ｈ２とを計算する識別面生成手段２４と、クラスの分類が済んでいない事例データのうち、第１超平面Ｈ１と第２超平面Ｈ２とに挟まれた領域であるグレーゾーンＧに該当しない事例データを、上記一のクラスとその他のクラスのいずれか該当する方に自動で分類する自動分類手段２５と、クラスの分類が済んでいない事例データのうち、グレーゾーンＧに該当する事例データの全部または一部を提示する提示手段２６と、当該提示された事例データのクラス情報の入力を受け付ける補充情報入力手段２７と、当該入力されたクラス情報に基づき、該当する事例データを該当するクラスに分類する受動分類手段２８とを備えている。

本実施形態のデータ判別支援装置２０は、例えば計算機２（コンピュータ）を利用して構成される。この計算機２がデータ判別支援プログラムを実行することで、当該計算機２がデータ判別支援装置２０として機能する。計算機２は、例えば図６に示すように、中央処理演算装置（ＣＰＵ）３１、ＲＡＭやＲＯＭおよびハードディスクなどの記憶装置３２、キーボードやマウスなどの入力装置３３、ディスプレイやプリンタ等の出力装置３４、ＣＤやＦＤなどの媒体に記録されたデータを読み取るディスクドライブ等のデータ読取装置３５、ネットワーク２８を介して外部の情報処理装置２９とデータ通信を行うネットワークインターフェース３６などのハードウェア資源がバス４６により接続されて構成されている。計算機２のデータ読取装置３５は、データ入力手段２１として機能する。尚、外部の情報処理装置２９より事例データを受信する場合は、ネットワークインターフェース３６がデータ入力手段２１として機能する。計算機２の入力装置３３は、初期情報入力手段２２および補充情報入力手段２７として機能する。計算機２のＣＰＵ３１は、初期受動分類手段２３および識別面生成手段２４および自動分類手段２５および受動分類手段２８として機能する。計算機２の出力装置３４は、提示手段２６として機能する。尚、外部の情報処理装置２９を利用する者にグレーゾーンＧに該当する事例データを提示する場合には、ネットワークインターフェース３６が提示手段２６として機能する。

このデータ判別支援装置２０が実行する処理の一例を図１、図２に示すフローチャートに従って以下に説明する。先ず、作業者が、複数の事例データとして、予め用意された複数の腕金画像をデータ入力手段２１を介して計算機２に入力する（データ入力ステップ、図２のＳ１）。入力された複数の事例データは、計算機２の記憶装置３２に記録される。

次に、計算機２は、記憶装置３２内に作業領域を確保し、当該作業領域に全てのクラス名を記録する（Ｓ２）。この作業領域を「クラスの群」と呼ぶ。尚、どのようなクラス名が存在するのかは、予め必要なパラメータとして、入力装置３３などを介して作業者により計算機２に入力されているものとする。例えば本実施形態では、腕金画像が属するクラスは、「引き続き利用できる状態」「鍍金処理を施した後に再利用できる状態」「廃棄する必要がある状態」の３つである。本実施形態では便宜上、「引き続き利用できる状態」のクラス名を「甲」とし、「鍍金処理を施した後に再利用できる状態」のクラス名を「乙」とし、「廃棄する必要がある状態」のクラス名を「丙」とする。

また、クラスの分類を行う対象となる事例データの群を対象データ群と呼ぶ。処理の開始時点では、記憶装置３２に記録されたすべての事例データが対象データ群として計算機２に認識される（Ｓ２）。

次に、上記「クラスの群」の中から１のクラスを選択する（Ｓ３）。即ち、「甲」「乙」「丙」の中から１のクラスを選択する。選択されたクラスを「着目クラス」と呼ぶ。選択されなかったクラスを「残クラス」と呼ぶ。尚、「着目クラス」の選択は、「クラスの群」の中から計算機２がランダムに自動で選択するようにしても良く、計算機２が現時点の「クラスの群」を出力装置３４に表示して、人間が入力装置３３を用いて選択できるようにしても良い。ここでは、例えば「甲」が「着目クラス」として選択されたとする。

次に、「着目クラス」と「残クラス」との分類を行う（Ｓ４）。即ち、対象データ群について、「甲」と「その他（「乙」「丙」）」のどちらに属するのか判定を行う。当該判定処理を詳細化したフローチャートを図１に示す。

先ず、作業者が、対象データ群のうちの一部であり且つ少なくとも異なる２つのクラスに属する事例データのクラス情報を入力装置３３を介して計算機２に入力する（図１のＳ４０１）。即ち、「着目クラス」と「残クラス」の代表的な事例データを選択し、当該事例データの正解のクラスを作業者が計算機２に教示する。上記選択される「着目クラス」と「残クラス」の代表的な事例データを初期データと呼ぶ。尚、初期情報入力ステップ（Ｓ４０１）における初期データの選択および初期データの正解クラスの入力は、例えば図７に示すように、作業者が予め各クラスごとに代表的な事例データを例えば少なくとも一つずつ選択しておき、作業者が入力装置３３を介して初期データを指定し（Ｓ４０１−１Ａ）、且つこれらの正解クラスを計算機２に指示するようにしても良い（Ｓ４０１−２Ａ）。或いは、例えば図８に示すように、計算機２が対象データ群の中からランダムに選択した事例データを出力装置３４に表示する処理と（Ｓ４０１−１Ｂ）、表示された事例データの正解クラスを作業者が入力装置３３を介して計算機２に入力する処理とを（Ｓ４０１−２Ｂ）、「着目クラス」と「残クラス」に属する事例データが例えば少なくとも一つずつ選択されるまで（Ｓ４００）、繰り返すようにしても良い。

ここで、初期データの数は、「着目クラス」と「残クラス」に属する事例データが少なくとも一つずつあれば（即ち最低２つ以上あれば）良いが、下流の識別面生成ステップ（Ｓ４０３）において信頼のおける識別面Ｈ０を形成するためには、ある程度の数の初期データを用意しておくことが望ましい。このため、初期データの数がある一定数に達するまで（図７，図８のＳ４００）、初期情報入力ステップ（Ｓ４０１）において初期データを選択し且つ初期データの正解クラスを入力する処理を繰り返すようにしても良い。初期データの必要数は、例えばパラメータとして、入力装置３３などを介して作業者により計算機２に予め入力しておくことができる。

次に、初期情報入力ステップ（Ｓ４０１）で入力されたクラス情報に基づいて、計算機２は該当する事例データを該当するクラスに分類する（Ｓ４０２）。本実施形態では、該当する事例データに判定ラベルを付加することで、事例データをクラス別に分類するようにしている。本実施形態での判定ラベルは、例えば「甲」「乙」「丙」のいずれかである。一方、ＳＶＭによる判定で与えられるクラス情報（サブラベル）は「１」「−１」のいずれかである。そこで本実施形態では、「着目クラス」に該当するサブラベルを「１」とし、「残クラス」に該当するサブラベルを「−１」として、判定ラベルに加えてサブラベルを事例データに付加するようにしている。従って、初期受動分類ステップ（Ｓ４０２）では、「甲」の判定ラベルが付加された事例データには同時にサブラベルとして「１」が付加され、「乙」または「丙」の判定ラベルが付加された事例データには同時にサブラベルとして「−１」が付加される。

次に、対象データ群の中から、クラスの分類が済んでいる事例データ、換言すればサブラベルが付加されている事例データを用いて、計算機２は、特徴空間の中の識別面Ｈ０、第１超平面Ｈ１、第２超平面Ｈ２を計算する（Ｓ４０３）。図９にＳＶＭによる計算処理の一例を示す。先ず、サブラベルが付加されている事例データを特徴空間上に表現する（Ｓ４０３−１）。本実施形態の事例データはデジタル画像データであり、例えば色を表すＲＧＢ画像の画素値といった画像の特徴を要素とするベクトルとして、特徴空間上で、各画像の特徴ベクトルがそれぞれ点として表現される。尚、事例データ（例えば本実施形態では画像）から特徴ベクトルを作成する方法は、特定のものに限定されるものではなく、既知または新規のパターン認識技術や画像処理技術のアルゴリズムを利用して良い。そして、特徴ベクトルの中から識別の難しい特徴ベクトル（サポートベクター）を抽出し、マージンＬが最大となる識別面Ｈ０を求める最適化問題を解く（Ｓ４０３−２）。この結果、例えば図１０（ａ）に示すように、識別面Ｈ０が生成され（Ｓ４０３−３）、グレーゾーンＧが決定する（Ｓ４０３−４）。

次に、計算機２は、対象データ群の中から、クラスの分類が済んでいない事例データ、換言すればサブラベルが付加されていない事例データについて、グレーゾーンＧに該当しない事例データを、「着目クラス」と「残クラス」のいずれか該当する方に自動で分類する（Ｓ４０４）。具体的には、対象データ群の中でサブラベルがまだ付加されていない事例データを上記特徴空間上に表現し、グレーゾーンＧの外に位置する事例データに対し、「着目クラス」の領域に位置する事例データにはサブラベルとして「１」を付加し、「残クラス」の領域に位置する事例データにはサブラベルとして「−１」を付加する。図１０（ｂ）中の△で示すデータは、サブラベルが付加されていない事例データを示す。図１０（ｃ）は、上記自動分類ステップ（Ｓ４０４）によって、グレーゾーンＧの外に位置する事例データが「着目クラス」または「残クラス」に属するデータとして自動的に認識される様子を示す。

一方、計算機２は、上記特徴空間上に表現されたサブラベルがまだ付加されていない事例データのうち、グレーゾーンＧの中に位置する事例データについて、識別面Ｈ０に最も近い事例データから順に一定数の事例データを、出力装置３４に表示する（Ｓ４０５）。尚、出力装置３４に表示する事例データの数は、例えばパラメータとして、入力装置３３などを介して作業者により計算機２に予め入力しておくことができる。ここで、本実施形態では、提示ステップ（Ｓ４０５）において出力装置３４に表示する事例データを、識別面Ｈ０に最も近い事例データから順に選択しているが、グレーゾーンＧの中に位置する事例データの中からランダムに選択するようにしても構わない。例えば図１０（ｃ）中の○で囲まれた△で示す識別面Ｈ０に近いデータが、出力装置３４に表示される。

これに対して作業者は、計算機２が提示した事例データの正解クラスを入力装置３３を介して計算機２に入力する（Ｓ４０６）。

すると、計算機２は、補充情報入力ステップ（Ｓ４０６）で入力されたクラス情報に基づいて、該当する事例データを該当するクラスに分類する（Ｓ４０７）。具体的には、「甲」「乙」「丙」のいずれかの判定レベルを該当する事例データに判定ラベルを付加し、且つ「甲」の判定ラベルが付加された事例データには同時にサブラベルとして「１」を付加し、「乙」または「丙」の判定ラベルが付加された事例データには同時にサブラベルとして「−１」を付加する。ここで、本実施形態では、「甲」と「その他（「乙」「丙」）」を分ける処理の中においても、作業者が「乙」または「丙」と判定した事例データについては、「乙」または「丙」の判定レベルを該当する事例データに付加するようにしている。したがって、当該「乙」または「丙」の判定レベルが付加された事例データを、後に「乙」と「丙」を分ける処理の中で、「乙」と「丙」を分離する識別面Ｈ０を形成するための例題として利用することができる。

次に、計算機２は、対象データ群の中に、クラスの分類が済んでいない事例データ、換言すればサブラベルがまだ付加されていない事例データがあるか、確認する（Ｓ４０８）。対象データ群の中にサブラベルがまだ付加されていない事例データがあれば（Ｓ４０８；Ｙｅｓ）、計算機２は、対象データ群の中の現時点でサブラベルが付加されている事例データを用いて、特徴空間の中の識別面Ｈ０、第１超平面Ｈ１、第２超平面Ｈ２を再計算する（Ｓ４０３）。この再計算を行う時点でのサブラベルが付加されている事例データの数は、自動分類ステップ（Ｓ４０４）および受動分類ステップ（Ｓ４０７）により、前回の識別面Ｈ０を計算する時点でのサブラベルが付加されている事例データの数よりも増加している。図１０（ｄ）は、識別面、第１超平面、第２超平面が再計算される様子を示し、図１０（ｄ）中の符号Ｈ０，Ｈ１，Ｈ２は再計算された新しい識別面、第１超平面、第２超平面を示している。上記再計算後、計算機２は、自動分類ステップ（Ｓ４０４）、提示ステップ（Ｓ４０５）、補充情報入力ステップ（Ｓ４０６）、受動分類ステップ（Ｓ４０７）を再実行する。そして、再度、対象データ群の中に、サブラベルがまだ付加されていない事例データがあるか、確認する（Ｓ４０８）。

以上により、対象データ群のすべての事例データにサブラベルが付加されると（Ｓ４０８；Ｎｏ）、「甲」と「その他（「乙」「丙」）」を分類する処理は終了し、図２に示すフローチャートに復帰する。尚、「甲」と「その他（「乙」「丙」）」を分離するための最終的な識別面Ｈ０、換言すれば学習が完了した最適な識別面Ｈ０（識別関数）は、計算機２の記憶装置３２に記録される。

図２に示すフローチャートに復帰すると、計算機２は、サブラベル「１」が付加されているすべての事例データに対し、「着目クラス」の判定ラベル「甲」を付加する（Ｓ５）。これにより、自動分類ステップ（Ｓ４０４）において、サブラベル「１」だけが付加されて、判定ラベル「甲」が付加されていなかった事例データに対して、判定ラベル「甲」が付加される。

次に、計算機２は、「残クラス」の数が１つであるか判断する（Ｓ６）。「残クラス」の数が２以上あれば（Ｓ６；Ｎｏ）、さらに「残クラス」を分類する処理に進む。本実施形態では、「残クラス」は、「乙」と「丙」であり、２クラスであるので（Ｓ６；Ｎｏ）、さらに「乙」と「丙」を分類する処理に進む。

「残クラス」を分類する処理では、先ず、対象データ群に対して、「着目クラス」と「残クラス」とを分類するために便宜的に付加していたサブラベルを取り外す（Ｓ７）。そして、「クラスの群」の中から「着目クラス」を除外する（Ｓ８）。これにより本実施形態の場合、「クラスの群」は「乙」と「丙」だけになる。次に、対象データ群の中から「着目クラス」に属する事例データを除外する（Ｓ９）。本実施形態の場合、「甲」に属する事例データが対象データ群から除外され、対象データ群は「乙」または「丙」に属する事例データのみとなる。尚、「甲」に属する事例データが対象データ群として認識されなくなるだけであって、記憶装置３２から「甲」に属する事例データが物理的に削除されるわけではない。そして、図２のＳ３以降の処理を再び繰り返す。

即ち、上記「クラスの群」の中から「着目クラス」を選択する（Ｓ３）。即ち、「乙」「丙」の中から「着目クラス」を選択する。ここでは、例えば「乙」が「着目クラス」として選択されたとする。次に、「着目クラス」と「残クラス」との分類を行う（Ｓ４）。即ち、対象データ群について、「乙」と「丙」のどちらに属するのか判定を行う。

先ず、初期データのクラス情報を計算機２に入力する（図１のＳ４０１）。この初期情報入力ステップ（Ｓ４０１）において、「甲」と「その他（「乙」「丙」）」を分離する前回の処理において、「乙」の判定ラベルを付加された事例データと、「丙」の判定ラベルを付加された事例データとが、既に必要な数だけそろっていれば（図７または図８のＳ４００；Ｙｅｓ）、初期データを選択し且つ初期データの正解クラスを入力する処理をスキップすることができる。

次に、初期受動分類ステップ（Ｓ４０２）を実行し、「着目クラス」である「乙」の判定ラベルを付加する事例データには同時にサブラベルとして「１」を付加し、「残クラス」である「丙」の判定ラベルを付加する事例データには同時にサブラベルとして「−１」を付加する。そして、対象データ群のすべての事例データにサブラベルが付加されるまで（Ｓ４０８）、識別面生成ステップ（Ｓ４０３）、自動分類ステップ（Ｓ４０４）、提示ステップ（Ｓ４０５）、補充情報入力ステップ（Ｓ４０６）、受動分類ステップ（Ｓ４０７）を繰り返す。

対象データ群のすべての事例データにサブラベルが付加されると（Ｓ４０８；Ｎｏ）、「乙」と「その他（すなわち「丙」）」を分類する処理は終了し、図２に示すフローチャートに復帰する。尚、「乙」と「丙」を分離するための最終的な識別面Ｈ０、換言すれば学習が完了した最適な識別面Ｈ０（識別関数）は、計算機２の記憶装置３２に記録される。

図２に示すフローチャートに復帰すると、計算機２は、サブラベル「１」が付加されているすべての事例データに対し、「着目クラス」の判定ラベル「乙」を付加する（Ｓ５）。次に、計算機２は、「残クラス」の数が１つであるか判断する（Ｓ６）。本実施形態では、「残クラス」は「丙」だけであり、１つである（Ｓ６；Ｙｅｓ）。従って、計算機２は、サブラベル「−１」が付加されているすべての事例データに対し、「残クラス」の判定ラベル「丙」を付加する（Ｓ１０）。これにより、自動分類ステップ（Ｓ４０４）において、サブラベル「−１」だけが付加されて、判定ラベル「丙」が付加されていなかった事例データに対して、判定ラベル「丙」が付加される。そして、「着目クラス」と「残クラス」とを分類するために便宜的に付加していたサブラベルを取り外し（Ｓ１１）、処理は終了する。

以上の処理により、記憶装置３２に記録されたすべての事例データに対して「甲」「乙」「丙」のいずれかの判定ラベルが付加される。即ち、記憶装置３２には、複数の事例データがそれぞれ属するクラスに分類されて記録されており、記憶装置３２において事例データベース１が構築される。また、事例データベース１の構築が完了した時点で、「甲」と「乙・丙」を識別する識別面Ｈ０および「乙」と「丙」を識別する識別面Ｈ０の学習も完了している。したがって、この計算機２は、クラスが未知の事例データ（腕金画像）が与えられると、当該事例データが属するクラスを自動判定して出力する判別装置２’として機能する。即ち、計算機２は事例データベース１としても利用できるし、判別装置２’としても利用できる。本発明方法により、事例データベース１を構築すると同時に計算機２を判別装置２’として学習させることができる。

以上のように本発明によれば、人間（作業者等）は、事例データベース１を構築するための或いは計算機２を判別装置２’として学習させるための膨大な量の事例データのすべてに対して「甲」「乙」「丙」といった判定ラベルを付与する必要はなく、計算機２が提示する計算機２にとって判別が困難な必要最低限の事例データに対してのみ判定ラベルを付与すればよい。したがって、人間が判断しなければならない事例データ（例えば腕金画像）を圧倒的に減らすことができ、人間の作業量を大幅に減らすことができる。この結果、事例データベース１の構築または判別装置２’の学習に費やすコスト、時間、労力を大幅に削減できる。

本発明の有用性を実証するために、米国郵便番号手書き数字認識用公開テストデータ（ http：//www.kernel-machines.org/）のデジタル画像を、数字別に分類する処理に、本発明を適用した。テストデータとして用いた手書き数字のデジタル画像の合計は３７４７枚であり、その内訳は、数字０が１５５０枚、数字１が１２６８枚、数字２が９２９枚である。これらのテストデータを本発明により「数字０」「数字１」「数字２」の３つのクラスに分類する。

テストデータとして用いた手書き数字のデジタル画像は、１６×１６（＝２５６）画素である。ＳＶＭへ学習させるデータセットは、一枚の画像から１６×１６行列の画素値を１行目から１６行目まで順につけて並べた２５６個の数値データとした。ＳＶＭはインターネット上から入手できる汎用ソフト「libＳＶＭ」を用いた（ http：//www.csie.ntu.edu.tw/~cjlin/libsvm/）。また、本実施例では、カーネル関数として、２次の多項式カーネルを用いた。

本実施例では、はじめに「数字０」と「その他（「数字１」「数字２」）」を分類し、その後に、「数字１」と「数字２」の分類を行った。ＳＶＭでは、「数字０」と「その他」を分類する際には、「数字０」と判定した場合は「１」を与え、「数字１」または「数字２」と判定した場合は「−１」を与え、「数字１」と「数字２」を分類する際には、「数字１」と判定した場合は「１」を与え、「数字２」と判定した場合は「−１」を与えるようにした。

提示ステップ（Ｓ４０５）において、本実施例の判別装置２’が作業者に提示するユーザインタフェース画面３０の一例を図１１に示す。本実施例では、このユーザインタフェース画面３０上に、グレーゾーンＧの中に位置する４枚の画像を表示するようにしている。尚、本実施例では、当該４枚の画像を選択するにあたり、識別面Ｈ０に最も近い画像から順に選択する方法（以下、提案選択方法と呼ぶ。）と、ランダムに選択する方法（以下、ランダム選択方法と呼ぶ。）の両方を試した。

また、このユーザインタフェース画面３０では、作業者が表示された４枚の画像について、それぞれ「選択なし」「０」「１」「２」の４つのチェックボックス４１の中から一つだけチェックできるようになっている。つまり作業者は、表示された４枚の画像について、それぞれ「選択なし」「０」「１」「２」のいずれかを選択できる。尚、初めは「選択なし」にチェックが付されており、作業者が判定できない画像については「選択なし」のままでも良いように構成されている。

また、上記ユーザインタフェース画面３０には、現時点までに、人が判定した画像の枚数、即ち、初期情報入力ステップ（Ｓ４０１）および補充情報入力ステップ（Ｓ４０６）において、作業者が計算機２に正解クラスを教示した画像の枚数が、「人が判定した枚数」として表示される（図１１の符号４２参照）。また、上記「人が判定した枚数」と、自動分類ステップ（Ｓ４０４）で計算機２が自動で判定ラベルを付した画像の枚数との合計が、上記ユーザインタフェース画面３０に「ラベルの付いている枚数」として表示される（図１１の符号４３参照）。また、本実施例で用いたテストデータは既に正解（すなわち画像の示す数字）が判明しているため、その時点までにラベルの付いている画像が正しく識別されている割合が、上記ユーザインタフェース画面３０に「識別率」として表示される（図１１の符号４４参照）。尚、本実施例では、自動分類ステップ（Ｓ４０４）の時点で判定ラベルが確定する場合、例えば「数字０」と「その他」を分類する場合において「数字０」と判定された場合、および「数字１」と「数字２」を分類する場合においては、該当する事例データにサブラベルに加えて判定ラベルを付与するものとした。

上記ユーザインタフェース画面３０上で、表示された４枚の画像について、作業者がそれぞれ「選択なし」「０」「１」「２」の選択を終えて「ＯＫ」ボタン４５を押すと、同じユーザインタフェース画面３０のままで、４枚の新たな未判定画像が表示される。また、チェックボックス４１のチェックの位置は「選択なし」へ初期化される。また、「識別率」、「人が判定した枚数」、「ラベルの付いている枚数」の数値が更新される。尚、一度作業者によって「０」「１」「２」のいずれかを判定された画像は、次回からは上記ユーザインタフェース画面３０に提示されないようになっている。

また、本実施例では、初期情報入力ステップ（Ｓ４０１）では、初期データとして「数字０」のグループから２枚、「数字１」のグループから１枚、「数字２」のグループから１枚の画像を計算機２がランダムに選び、上記と同じユーザインタフェース画面３０を用いて作業者に提示する。

提示ステップ（Ｓ４０５）において識別面Ｈ０に最も近い画像から順に４枚を選択する方法（提案選択方法）と、グレーゾーンＧの中に位置する画像の中からランダムに４枚を選択する方法（ランダム選択方法）とを用いて、本発明により３７４７枚の画像に判定ラベルを付与する処理を、それぞれ１００回ずつ試行した。

図１２に上記の実験結果を示す。図１２の横軸は、作業者（人間）が判定して判定ラベルを付与した画像の枚数を示し、縦軸はその時点で判定ラベルが付いている画像の中で、正しく判定ラベルが付いている画像数の全画像数３７４７枚に対する割合を示す。図１２では、当該割合を「識別率」と定義している。実線は、提案選択方法の実験結果を示し、破線はランダム選択方法の実験結果を示す。尚、各実験結果は、１００回試行した平均を示し、標準偏差をエラーバーで示した。提案選択方法では、ラベル付けの初期でばらつきが大きくなっている。これは、初めに数字０のグループと数字１，２のグループを分ける判別面からの距離が小さいものを選ぶようにしているため、数字１と数字２とのラベル付けが進まないことに起因している。最終的には、ランダム選択方法に比べ、提案選択方法の方が少ない枚数で３７４７枚の全画像に正しい判定ラベルが付与されている。また、本実施例で用いた手書き数字データの中には人間でも判定を間違えてしまうような判別の難しい画像データが元々含まれているが、図１２に示すように本発明では全画像３７４７枚に正しい判定ラベルを付与することができており、高い識別率が得られていることがわかる。

尚、図１２中の一点鎖線は、全ての画像に対して人間が判定して判定ラベルを付与する場合（人海戦術法と呼ぶ。）を示している。人海戦術法では、作業者が判定ラベルを付与した画像数が３００枚の段階では、図１２での識別率は３００／３７４７（＝０．０８）と極めて低い。これに対して、本発明に係る提案選択方法では、作業者が約１６０枚の画像に判定ラベルを付与した段階で、図１２の識別率は１００％となっており、全画像３７４７枚に正しい判定ラベルを付与することができている。これにより本発明の有用性が確認できる。

次に、事例データベース１の構築のために１０万枚の画像を判定し、ラベル付けする場合を想定し、提案選択方法とランダム選択方法と人海戦術法とにおけるコスト比較等を行った結果を表１に示す。提案選択方法とランダム選択方法の値は、１００回試行した平均を示している。

表１の一段目は、全画像３７４７枚に正しい判定ラベルを付与するために、人間が判定ラベルを付ける必要がある画像の枚数を示している。提案選択方法では１６６．０（±５．０）枚であり、ランダム選択方法では２８７．６（±１９．０）枚であり、人海戦術法では３７４７枚である。表１の二段目は、各事例データベース構築法のコスト比率を示している。人海戦術法の場合を１とすると、提案選択方法では０．０４４（＝１６６．０／３７４７）であり、ランダム選択方法では０．０７７（＝２８７．６／３７４７）である。表１の三段目は、１枚の画像を判定するのに１０秒かかるとして１０万枚ラベル付けするのに要する時間を示している。提案選択方法では１２．３時間を要し、ランダム選択方法では２１．３時間を要し、人海戦術法では２７８時間も要する。表１の四段目は１日当たり作業者が７時間労働した場合に要する日数を示している。提案選択方法では１．８日を要し、ランダム選択方法では３．１日を要し、人海戦術法では４０日も要する。本発明に係る提案選択方法では人海戦術法に比べて約２３分の１に省力化されており、ランダム選択方法でも約１３分の１に省力化されている。仮に人件費として１時間当たり１万円の給与を支払った場合には、人海戦術法では２７８万円かかるところ、提案選択方法ではわずか約１２万円で済む。以上のように、本発明によれば、事例データベース構築にかかる費用、労力、時間を大幅に軽減できることが確認できた。

なお、上述の実施形態は本発明の好適な実施の一例ではあるがこれに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変形実施可能である。例えば事例データは、上述の実施例で例示した腕金画像等の画像データに限らず、設備・機器のセンサ情報（例えば温度や音などの情報）などであっても良い。

また、グレーゾーンＧに該当する事例データの数が少ないような場合には、提示ステップ（Ｓ４０５）において、グレーゾーンＧに該当する事例データの全部を計算機２に提示させるようにしても良く、この場合はＳ４０８をループ終了条件とする繰り返し処理は行わなくとも良い。

また、３つ以上の多クラスに対応するための方法は、上述の実施形態で説明した木構造による判定方法には限られず、例えば「甲」と「乙」、「乙」と「丙」、「丙」と「甲」のように、クラスの全ての組み合わせについて判定し、各組み合わせでの判定結果（３クラスの例では二つの判定結果）が一致している場合には、そのクラスを答えとし、各組み合わせでの判定結果が異なった場合には、識別面Ｈ０からの距離が最も遠いクラスを答えとするようにしても良い。或いは、「甲」と「その他（「乙」「丙」）」、「乙」と「その他（「丙」「甲」）」、「丙」と「その他（「甲」「乙」）」のように、一対その他の全ての組み合わせについて判定し、各判定結果（３クラスの例では三つの判定結果）が一致している場合にはそのクラスを答えとし、判定結果が競合している場合には、識別面Ｈ０からの距離が最も遠いクラスを答えとするようにしても良い。また、事例データベース構築後または判別装置の学習後、新たな事例データに対して本発明方法を再び実施して、既設の事例データベースを拡充したり、判別装置を再学習したりしても良い。

本発明の事例データベースの構築方法、判別装置の学習方法、データ判別支援装置、データ判別支援プログラムにおいて実行される処理の一例を示すフローチャートである。本発明の事例データベースの構築方法、判別装置の学習方法、データ判別支援装置、データ判別支援プログラムにおいて実行される処理の一例を示し、図１のフローチャートの処理を呼び出す上位のフローチャートである。サポートベクターマシーンの原理を示す概念図である。サポートベクターマシーンにおける非線形変換による高次元への写像を示す概念図である。３つ以上の多クラスに対応するための木構造による判定方法を示す概念図である。本発明のデータ判別支援プログラムが実装された計算機であるデータ判別支援装置の構成の一例を示すブロック図である。図１のフローチャートの一部の処理を詳細に示すフローチャートである。図７の処理の他の例を示すフローチャートである。図１のフローチャートの一部の処理を詳細に示すフローチャートである。本発明におけるサポートベクターマシーンの概念を示し、（ａ）は最初の識別面が生成される様子を示し、（ｂ）は識別面の生成後に新たな事例データが加わった様子を示し、（ｃ）は上記新たに加わった事例データのうちグレーゾーンの外に位置するものが該当するクラスに分類される様子を示し、（ｄ）は上記新たに加わった事例データのうちグレーゾーンの外に位置するものを利用して識別面が再生成される様子を示す。本発明の判別装置が作業者に提示するユーザインタフェース画面の一例を示す。横軸は、作業者（人間）が判定して判定ラベルを付与した画像の枚数を示し、縦軸はその時点で判定ラベルが付いている画像の中で、正しく判定ラベルが付いている画像数の全画像数に対する割合を示すグラフである。従来の事例データベースおよび判別装置を示す概略構成図である。

符号の説明

１事例データベース
２計算機
２’ 判別装置
２０データ判別支援装置
２１データ入力手段
２２初期情報入力手段
２３初期受動分類手段
２４識別面生成手段
２５自動分類手段
２６提示手段
２７補充情報入力手段
Ｈ０識別面
Ｈ１第１超平面
Ｈ２第２超平面
Ｇグレーゾーン

Claims

複数の事例データがそれぞれ属するクラスに分類されて記録される事例データベースを構築する方法であり、前記複数の事例データを計算機に入力するデータ入力ステップと、前記複数の事例データのうちの一部であり且つ少なくとも２つのクラスに属する事例データのクラス情報を前記計算機に入力する初期情報入力ステップと、当該入力されたクラス情報に基づき、前記計算機が該当する事例データを該当するクラスに分類する初期受動分類ステップと、クラスの分類が済んでいる事例データを用いて特徴空間の中で一のクラスの境界となる第１超平面とその他のクラスの境界となる第２超平面とを前記計算機に計算させる識別面生成ステップと、クラスの分類が済んでいない事例データのうち、前記第１超平面と前記第２超平面とに挟まれた領域であるグレーゾーンに該当しない事例データを、上記一のクラスとその他のクラスのいずれか該当する方に前記計算機により自動で分類する自動分類ステップと、クラスの分類が済んでいない事例データのうち、前記グレーゾーンに該当する事例データの全部または一部を前記計算機に提示させる提示ステップと、当該提示された事例データのクラス情報を前記計算機に入力する補充情報入力ステップと、当該入力されたクラス情報に基づき、前記計算機が該当する事例データを該当するクラスに分類する受動分類ステップとを有することを特徴とする事例データベースの構築方法。
前記提示ステップでは、前記グレーゾーンに該当する事例データのうちの一定数の事例データを前記計算機に提示させ、全ての前記事例データのクラスの分類が終了するまで、前記識別面生成ステップ、前記自動分類ステップ、前記提示ステップ、前記補充情報入力ステップ、前記受動分類ステップを繰り返すことを特徴とする請求項１記載の事例データベースの構築方法。
前記提示ステップでは、前記グレーゾーンに該当する事例データのうち、前記第１超平面と前記第２超平面との間に位置する識別面に最も近い事例データから順に一定数の事例データを前記計算機に提示させることを特徴とする請求項２記載の事例データベースの構築方法。
前記第１超平面および前記第２超平面および前記識別面をサポートベクターマシーンにより計算することを特徴とする請求項３記載の事例データベースの構築方法。
前記クラスは３つ以上存在し、任意の１のクラスと残りのクラスとの事例データの分類を行う処理を、属する事例データが確定したクラスは除くとの条件の下で、残りのクラスが１となるまで繰り返すことを特徴とする請求項１から４のいずれか１つに記載の事例データベースの構築方法。
前記事例データは画像データであることを特徴とする請求項１から５のいずれか１つに記載の事例データベースの構築方法。
事例データが属するクラスを判定する判別装置を学習させる方法であり、前記複数の事例データを計算機に入力するデータ入力ステップと、前記複数の事例データのうちの一部であり且つ少なくとも２つのクラスに属する事例データのクラス情報を前記計算機に入力する初期情報入力ステップと、当該入力されたクラス情報に基づき、前記計算機が該当する事例データを該当するクラスに分類する初期受動分類ステップと、クラスの分類が済んでいる事例データを用いて特徴空間の中で一のクラスの境界となる第１超平面とその他のクラスの境界となる第２超平面とを前記計算機に計算させる識別面生成ステップと、クラスの分類が済んでいない事例データのうち、前記第１超平面と前記第２超平面とに挟まれた領域であるグレーゾーンに該当しない事例データを、上記一のクラスとその他のクラスのいずれか該当する方に前記計算機により自動で分類する自動分類ステップと、クラスの分類が済んでいない事例データのうち、前記グレーゾーンに該当する事例データのうちの一定数の事例データを前記計算機に提示させる提示ステップと、当該提示された事例データのクラス情報を前記計算機に入力する補充情報入力ステップと、当該入力されたクラス情報に基づき、前記計算機が該当する事例データを該当するクラスに分類する受動分類ステップとを有し、全ての前記事例データのクラスの分類が終了するまで、前記識別面生成ステップ、前記自動分類ステップ、前記提示ステップ、前記補充情報入力ステップ、前記受動分類ステップを繰り返し、前記計算機を学習させ前記判別装置として機能させることを特徴とする判別装置の学習方法。
事例データが属するクラスの判別を支援する装置であり、複数の前記事例データの入力を受け付けるデータ入力手段と、前記複数の事例データのうちの一部であり且つ少なくとも２つのクラスに属する事例データのクラス情報の入力を受け付ける初期情報入力手段と、当該入力されたクラス情報に基づき、該当する事例データを該当するクラスに分類する初期受動分類手段と、クラスの分類が済んでいる事例データを用いて特徴空間の中で一のクラスの境界となる第１超平面とその他のクラスの境界となる第２超平面とを計算する識別面生成手段と、クラスの分類が済んでいない事例データのうち、前記第１超平面と前記第２超平面とに挟まれた領域であるグレーゾーンに該当しない事例データを、上記一のクラスとその他のクラスのいずれか該当する方に自動で分類する自動分類手段と、クラスの分類が済んでいない事例データのうち、前記グレーゾーンに該当する事例データの全部または一部を提示する提示手段と、当該提示された事例データのクラス情報の入力を受け付ける補充情報入力手段と、当該入力されたクラス情報に基づき、該当する事例データを該当するクラスに分類する受動分類手段とを備えることを特徴とするデータ判別支援装置。
前記提示手段は、前記グレーゾーンに該当する事例データのうちの一定数の事例データを提示し、全ての前記事例データのクラスが確定するまで、前記識別面生成手段、前記自動分類手段、前記提示手段、前記補充情報入力手段、前記受動分類手段の処理を繰り返すことを特徴とする請求項８記載のデータ判別支援装置。
事例データが属するクラスの判別を支援する装置としてコンピュータを機能させるプログラムであり、複数の前記事例データの入力を受け付けるデータ入力手段と、前記複数の事例データのうちの一部であり且つ少なくとも２つのクラスに属する事例データのクラス情報の入力を受け付ける初期情報入力手段と、当該入力されたクラス情報に基づき、該当する事例データを該当するクラスに分類する初期受動分類手段と、クラスの分類が済んでいる事例データを用いて特徴空間の中で一のクラスの境界となる第１超平面とその他のクラスの境界となる第２超平面とを計算する識別面生成手段と、クラスの分類が済んでいない事例データのうち、前記第１超平面と前記第２超平面とに挟まれた領域であるグレーゾーンに該当しない事例データを、上記一のクラスとその他のクラスのいずれか該当する方に自動で分類する自動分類手段と、クラスの分類が済んでいない事例データのうち、前記グレーゾーンに該当する事例データの全部または一部を提示する提示手段と、当該提示された事例データのクラス情報の入力を受け付ける補充情報入力手段と、当該入力されたクラス情報に基づき、該当する事例データを該当するクラスに分類する受動分類手段としてコンピュータを機能させることを特徴とするデータ判別支援プログラム。
前記提示手段は、前記グレーゾーンに該当する事例データのうちの一定数の事例データを提示し、全ての前記事例データのクラスが確定するまで、前記識別面生成手段、前記自動分類手段、前記提示手段、前記補充情報入力手段、前記受動分類手段の処理を繰り返すことを特徴とする請求項１０記載のデータ判別支援プログラム。