JP2013125322A

JP2013125322A - 学習装置、プログラム及び学習方法

Info

Publication number: JP2013125322A
Application number: JP2011272329A
Authority: JP
Inventors: Fumiyuki Shiratani; 文行白谷
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2011-12-13
Filing date: 2011-12-13
Publication date: 2013-06-24

Abstract

【課題】正解ラベル付き画像から生成した未ラベル画像へのラベル付けコストを抑制しつつ、生成する判別器の判別精度を向上させる学習装置等の提供。
【解決手段】学習装置１００は、特徴ベクトル算出部１１０と、特徴ベクトルに基づき、判別器の生成処理を行う判別器生成部１２０と、第１の正解ラベル付き画像に基づき、未ラベル画像の画像生成処理を行う画像生成部１３０と、ユーザに提示する未ラベル画像の画像選択処理を行う画像選択部１４０と、選択された未ラベル画像を表示部３００に出力する出力部１５０と、入力部２００から取得した正解ラベルを、選択した未ラベル画像に関連付けて、第２の正解ラベル付き画像とする正解ラベル設定部１６０とを含む。判別器生成部１２０は、第１の正解ラベル付き画像の特徴ベクトルと、第２の正解ラベル付き画像の特徴ベクトルとに基づき、判別器の再生成処理を行う。
【選択図】図１

Description

本発明は、学習装置、プログラム及び学習方法等に関係する。

近年、機械学習の分野において、教師あり学習の研究が進められている。教師あり学習とは、正解ラベルが付与されたデータを用いて、学習を行い、判別器を生成する手法のことをいう。そして、学習後には、正解ラベルが付与されていない未ラベルデータの内容を、生成した判別器を用いて判別し、判別した未ラベルデータに対してラベル付けを行う。このような教師あり学習は、大量のデータの内容を自動的に判別する必要がある検索エンジンやログ解析システム等において用いられている。

一般的に、学習に用いる教師データが多ければ多い程、生成される判別器の判別精度は向上し、自動的に正しいラベル付けを行うことが可能になる。しかし、教師データの正解ラベルは人の手によって付与される場合がほとんどであるため、例えば、画像の内容を自動的に判別したい場合などのように、大量の教師データを準備することが困難であったり、教師データの生成コストが非常に大きくなったりする場合が多い。

そこで、教師あり学習を発展させた手法の一つに、正解ラベル付きデータだけでなく、未ラベルデータも教師データとして用いる半教師あり学習という手法がある。そして、その半教師あり学習の中でも、主に画像データを学習・判別対象とする手法であり、正解ラベル付き画像から新たな画像を生成して、学習に用いる生成型学習という手法が提案されている。

他にも、画像データを学習・判別対象とする学習手法に関する発明としては、特許文献１に記載される従来技術などがある。

特開２０１１−１５４５０１号公報

従来の生成型学習では、正解ラベル付き画像から新たな画像を生成した場合に、新たな画像の正解ラベルは、元の画像の正解ラベルと同じであるということを前提としていた。しかし、この前提の下では、新たな画像を生成する際に、正解ラベルが変わらない程度でしか、正解ラベル付き画像に変化を与えられないため、多くの画像を新たに生成できないという問題があった。そのため、教師データの数を十分に増やすことができず、判別器の判別精度を十分に向上させることができなかった。

一方、新たな画像を生成する際に、正解ラベルが変わっても良いとした場合には、生成後の画像に対して、正解ラベルを人が付与する必要がある。この場合には、教師データの数を十分に増やすことができる一方で、教師データの生成コストが膨大になるという問題点がある。

本発明の幾つかの態様によれば、正解ラベル付き画像から生成した未ラベル画像へのラベル付けコストを抑制しつつ、生成する判別器の判別精度を向上させることができる学習装置、プログラム及び学習方法等を提供することができる。

本発明の一態様は、画像の特徴ベクトルを算出する特徴ベクトル算出部と、算出された前記特徴ベクトルに基づいて、判別器の生成処理を行う判別器生成部と、第１の正解ラベル付き画像に基づいて、未ラベル画像の画像生成処理を行う画像生成部と、生成された複数の前記未ラベル画像に基づいて、ユーザに提示する前記未ラベル画像の画像選択処理を行う画像選択部と、前記画像選択部により選択された前記未ラベル画像を表示部に出力する出力部と、入力部から正解ラベルを取得し、取得した前記正解ラベルを、選択した前記未ラベル画像に関連付けて、第２の正解ラベル付き画像とする正解ラベル設定部と、を含み、前記判別器生成部は、前記第１の正解ラベル付き画像の前記特徴ベクトルと、前記第２の正解ラベル付き画像の前記特徴ベクトルとに基づいて、前記判別器の再生成処理を行う学習装置に関係する。

本発明の一態様では、再学習において、あらかじめ用意しておいた第１の正解ラベル付き画像のみでなく、未ラベル画像も教師データとして用いる。

この際に、第１の正解ラベル付き画像から未ラベル画像を生成し、生成した未ラベル画像にユーザから入力してもらった正解ラベルを付与して、第２の正解ラベル付き画像を生成する。

そして、第１の正解ラベル付き画像と第２の正解ラベル付き画像とを用いて、判別器を生成することができる。

これにより、新たな画像データベースを入手できない場合でも、手持ちの画像データベースから新たに学習用画像データベースを準備することができ、テスト画像（未ラベル画像）の判別精度を向上させることが可能となる。

また、本発明の一態様では、前記画像生成部は、前記未ラベル画像の前記画像生成処理として、前記第１の正解ラベル付き画像を複数の領域に分割し、分割した各領域の画像を前記未ラベル画像として生成する処理を行ってもよい。

これにより、第１の正解ラベル付き画像から、元の第１の正解ラベル付き画像と映っている内容が異なる新たな学習用画像を生成すること等が可能になる。

また、本発明の一態様では、前記特徴ベクトル算出部は、前記第１の正解ラベル付き画像の前記特徴ベクトルである第１の特徴ベクトルと、前記第１の正解ラベル付き画像を分割して生成した前記未ラベル画像の前記特徴ベクトルである第２の特徴ベクトルとを算出し、前記画像選択部は、前記画像選択処理として、前記第１の特徴ベクトルと前記第２の特徴ベクトルとの距離情報を求め、前記距離情報に基づいて、前記ユーザに提示する前記未ラベル画像を選択する第１の画像選択処理を行ってもよい。

これにより、例えば、元の第１の正解ラベル付き画像と最も似ていない未ラベル画像を、ユーザに提示する画像として選択すること等が可能になる。

また、本発明の一態様では、前記画像選択部は、未ラベル画像数に基づいて、実行する前記画像選択処理を、前記第１の画像選択処理から第２の画像選択処理へ切り替えてもよい。

これにより、例えば第１の画像選択処理により、学習済みの正解ラベル付き画像の特徴と違いが大きい未ラベル画像を選択して学習に用い、第２の画像選択処理により、判別空間において特徴ベクトルが判別境界付近にマッピングされる未ラベル画像を選択して学習に用いること等が可能になる。

また、本発明の一態様では、前記画像選択部は、前記第１の画像選択処理として、前記第１の特徴ベクトルと前記第２の特徴ベクトルとの距離情報を求め、前記距離情報に基づいて、第１の提示候補選択処理を行い、前記第１の提示候補選択処理の結果に基づいて、第２の提示候補選択処理を行い、前記第２の提示候補選択処理において選択された前記未ラベル画像を、前記ユーザに提示する前記未ラベル画像として選択する処理を行ってもよい。

これにより、例えば、各サポートベクトルに最も近い第２の特徴ベクトルの中で、判別器の判別精度の向上に大きく寄与する第２の特徴ベクトルを特定すること等が可能になる。

また、本発明の一態様では、前記画像選択部は、前記第２の画像選択処理として、選択された前記第２の特徴ベクトルと所与の前記第１の特徴ベクトルとの距離情報を求め、求めた前記距離情報の積算処理を行い、前記積算処理の結果に基づいて、前記ユーザに提示する前記未ラベル画像を選択する処理を行ってもよい。

これにより、例えば、各サポートベクトルとの距離の総和が最小となる第２の特徴ベクトルを選択すれば、判別面に近い未ラベル画像を選択すること等が可能になる。

また、本発明の一態様では、前記画像生成部は、前記未ラベル画像の前記画像生成処理として、前記第１の正解ラベル付き画像に対して画像処理を行うことにより得られる画像を、前記未ラベル画像として生成する処理を行ってもよい。

これにより、例えば、第１の正解ラベル付き画像から、元の第１の正解ラベル付き画像と映っている内容は同じだが、画像の輝度や明度、コントラスト値、シャープネスなどが異なる新たな学習用画像を生成すること等が可能になる。

また、本発明の一態様では、前記画像生成部は、前記画像処理として、前記第１の正解ラベル付き画像の輝度を変化させる処理を行ってもよい。

これにより、第１の正解ラベル付き画像から、元の第１の正解ラベル付き画像と映っている内容は同じだが、画像の輝度が異なる新たな学習用画像を生成すること等が可能になる。

また、本発明の一態様では、前記画像生成部は、同一の前記第１の正解ラベル付き画像から生成した複数の前記未ラベル画像を、前記輝度の大きさ順に並び替えた同系統生成画像列を生成し、前記画像選択部は、前記同系統生成画像列に基づいて、前記ユーザに提示する前記未ラベル画像の前記画像選択処理を行ってもよい。

これにより、複数の同系統生成画像列の中から一つの同系統生成画像列を選択し、選択した同系統生成画像列に含まれる未ラベル画像の中から、ユーザに提示する画像を選択すること等が可能になる。

また、本発明の一態様では、生成した前記判別器を用いて、前記未ラベル画像の判別処理を行い、前記判別処理の結果であるテストラベルを前記未ラベル画像に関連付ける判別部を含み、前記画像選択部は、前記同系統生成画像列に含まれる前記未ラベル画像の前記テストラベルに基づいて、前記同系統生成画像列の安定度を算出し、前記安定度に基づいて、前記同系統生成画像列の選択処理を行い、前記画像選択処理として、選択された前記同系統生成画像列に含まれる前記未ラベル画像の中から、前記ユーザに提示する前記未ラベル画像を選択する処理を行ってもよい。

これにより、例えば、安定度が最小の同系統画像列を選択すれば、現在の判別器を用いた場合に判別精度が悪くなる画像から優先的に学習を行うこと等が可能になる。

また、本発明の一態様では、前記判別部は、実数により表される前記テストラベルを前記未ラベル画像に関連付け、前記画像選択部は、前記同系統生成画像列において、隣り合う前記未ラベル画像にそれぞれ関連付けられた前記テストラベル同士の積を求め、求めた積の総和を、前記同系統生成画像列の前記安定度として算出してもよい。

これにより、例えば、求めた安定度が最小であるものを選べば、最も判定結果が変わりやすい同系統生成画像列を選択すること等が可能になる。

また、本発明の一態様では、前記画像選択部は、前記同系統生成画像列において、前記テストラベルが切り替わる前の前記未ラベル画像又は切り替わった後の前記未ラベル画像を、前記ユーザに提示する前記未ラベル画像として選択してもよい。

これにより、判別結果が誤っていると推定できる画像を優先的にユーザに提示する画像として選択すること等が可能になる。

また、本発明の一態様では、前記画像選択部は、前記同系統生成画像列において、前記輝度の大きさが最大又は最小である前記未ラベル画像を、前記ユーザに提示する前記未ラベル画像として選択してもよい。

これにより、例えば、選択された同系統生成画像列の安定度が最大値である場合に、ユーザに提示する画像の数を抑制し、より効率的に学習を行うこと等が可能になる。

また、本発明の一態様では、生成した前記判別器を用いて、前記未ラベル画像の判別処理を行い、前記判別処理の結果であるテストラベルを前記未ラベル画像に関連付ける判別部を含み、前記判別部は、前記未ラベル画像の前記判別処理を行う際に、前記テストラベルの確信度を算出し、前記画像選択部は、前記確信度に基づいて、前記ユーザに提示する前記未ラベル画像を選択してもよい。

これにより、例えば、第１の画像選択処理において、選択された同系統生成画像列の未ラベル画像の中で確信度が最小の画像を選択すること等が可能になる。

また、本発明の一態様では、前記判別器生成部は、前記第２の正解ラベル付き画像の前記特徴ベクトルに基づいて、前記判別器の更新処理を行ってもよい。

これにより、一度学習した学習用画像を再度学習する処理を省略でき、処理量を削減すること等が可能となる。

また、本発明の一態様では、生成した前記判別器を用いて、前記未ラベル画像の判別処理を行い、前記判別処理の結果であるテストラベルを前記未ラベル画像に関連付ける判別部を含み、前記出力部は、前記画像選択部により選択された前記未ラベル画像と共に、前記判別部により前記未ラベル画像に関連付けられた前記テストラベルを出力してもよい。

これにより、ユーザが提示されたえテストラベルを参考にしながら、正解ラベルを入力すること等が可能になる。

また、本発明の他の態様では、上記各部としてコンピューターを機能させるプログラムに関係する。

また、本発明の他の態様では、第１の正解ラベル付き画像の特徴ベクトルを算出し、算出された前記第１の正解ラベル付き画像の前記特徴ベクトルに基づいて、判別器の生成処理を行い、前記第１の正解ラベル付き画像に基づいて、未ラベル画像の画像生成処理を行い、生成された前記未ラベル画像の前記特徴ベクトルを算出し、算出された前記未ラベル画像の前記特徴ベクトルに基づいて、ユーザに提示する前記未ラベル画像の画像選択処理を行い、選択した前記未ラベル画像を表示部に出力し、入力部から正解ラベルを取得し、取得した前記正解ラベルを、選択した前記未ラベル画像に関連付けて、第２の正解ラベル付き画像とし、選択した前記未ラベル画像の前記特徴ベクトルを、前記第２の正解ラベル付き画像の前記特徴ベクトルとし、前記第１の正解ラベル付き画像の前記特徴ベクトルと、前記第２の正解ラベル付き画像の前記特徴ベクトルとに基づいて、前記判別器の再生成処理を行う学習方法に関係する。

本実施形態のシステム構成例。本実施形態の処理の概要を説明するフローチャート。ＳＶＭを用いて判別器を生成する処理の説明図。正解ラベル付き画像を分割して生成する未ラベル画像の説明図。第１の画像選択処理の説明図。他の第１の画像選択処理の説明図。第２の画像選択処理の説明図。図８（Ａ）及び図８（Ｂ）は、画像処理を行って生成する未ラベル画像と同系統生成画像列の説明図。図９（Ａ）〜図９（Ｄ）は、第２の実施例の画像選択処理の説明図。第１の実施例において行う追加学習処理を説明するフローチャート。図１１（Ａ）及び図１１（Ｂ）は、ＨＳＶ色空間へＲＧＢ画像をマッピングする処理の説明図。図１２（Ａ）及び図１２（Ｂ）は、特徴ベクトルの説明図。第２の実施例において行う追加学習処理を説明するフローチャート。

以下、本実施形態について説明する。まず、本実施形態の概要を説明し、次に本実施形態のシステム構成例について説明する。そして、本実施形態の手法について説明し、最後に、フローチャートを用いて具体的な処理の詳細について説明する。なお、以下に説明する本実施形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本発明の必須構成要件であるとは限らない。

１．概要
近年、機械学習の分野において、教師あり学習の研究が進められている。教師あり学習とは、正解ラベルが付与されたデータを用いて、学習を行い、判別器を生成する手法のことをいう。そして、学習後には、正解ラベルが付与されていない未ラベルデータの内容を、生成した判別器を用いて判別し、判別した未ラベルデータに対してラベル付けを行う。このような教師あり学習は、大量のデータの内容を自動的に判別する必要がある検索エンジンやログ解析システム等において用いられている。

従来の生成型学習では、「正解ラベル付き画像から新たな画像を生成した場合に、新たな画像の正解ラベルは、元の画像の正解ラベルと同じである」ということを前提としていた。

例えば、正解ラベル付き画像に画像処理を行って、新たな画像を生成する方法として、正解ラベル付き画像に微小なノイズを加えたり、明るさを少し変えたりする方法などが考えられる。

しかし、実際には、新たに生成する画像の正解ラベルを元の画像の正解ラベルから変えずに、どの程度までなら画像の明るさ等を変更できるか分からないことが多い。例えば、風景などのスナップ写真をシーンごとに分類する場合に、夜景の画像を明るくしていくと、あるところから「夜景」というラベルは、不適切になるし、「鮮やかなシーン」というラベルは、画像の彩度を低下させていくと、あるところから不適切となってしまう。

すなわち、「正解ラベル付き画像から新たな画像を生成した場合に、新たな画像の正解ラベルは、元の画像の正解ラベルと同じである」という前提の下では、新たな画像を生成する際に、正解ラベルが変わらない程度でしか、正解ラベル付き画像に変化を与えることができず、多くの画像を新たに生成できないという問題があった。そのため、教師データの数を十分に増やすことができず、判別器の判別精度を十分に向上させることができなかった。

一方、「新たな画像を生成する際に、正解ラベルが変わっても良い」とした場合には、生成後の画像に対して、正解ラベルを人が付与する必要がある。この場合には、教師データの数を十分に増やすことができる一方で、教師データの生成コストが膨大になるという問題点がある。

そこで、本実施形態では、正解ラベル付き画像から未ラベル画像を生成し、生成した未ラベル画像へのラベル付けコストを抑制しつつ、生成する判別器の判別精度を向上させることができる学習装置、プログラム及び学習方法等を提供する。

本実施形態では、ラベル付けコストの抑制を図るために、生成した判別器の判別精度の向上に有用である未ラベル画像を特定し、特定された未ラベル画像のみをユーザ（人）に提示することによって、未ラベル画像へのラベル付け作業の低コスト化を図る。

２．システム構成例
次に、図１に本実施形態の学習装置１００の構成例を示す。

学習装置１００は、特徴ベクトル算出部１１０と、判別器生成部１２０と、画像生成部１３０と、画像選択部１４０と、出力部１５０と、正解ラベル設定部１６０と、判別部１７０と、記憶部１８０と、を含む。学習装置１００の各部は、内部バスにより互いに接続されている。また、入力部２００は、正解ラベル設定部１６０に接続されており、出力部１５０は、表示部３００に接続されている。

なお、学習装置１００は、図１の構成に限定されず、これらの一部の構成要素を省略したり、他の構成要素を追加したりするなどの種々の変形実施が可能である。また、学習装置１００の一部又は全部の機能は、ネットワーク上のサーバにより実現され、入力部２００と表示部３００とを有する電子機器と通信により接続されていてもよい。

次に各部で行われる処理について説明する。

まず、特徴ベクトル算出部１１０は、画像の特徴ベクトルを算出する。

次に、判別器生成部１２０は、算出された特徴ベクトルに基づいて、判別器の生成処理を行う。

画像生成部１３０は、第１の正解ラベル付き画像に基づいて、未ラベル画像の画像生成処理を行う。

そして、画像選択部１４０は、生成された複数の未ラベル画像に基づいて、ユーザに提示する未ラベル画像の画像選択処理を行う。

さらに、出力部１５０は、画像選択部１４０により選択された未ラベル画像を表示部３００に出力する。

正解ラベル設定部１６０は、入力部２００から正解ラベルを取得し、取得した正解ラベルを、選択した未ラベル画像に関連付けて、第２の正解ラベル付き画像とする。

判別部１７０は、生成した判別器を用いて、未ラベル画像の判別処理を行い、判別処理の結果であるテストラベルを未ラベル画像に関連付ける。

ここで、特徴ベクトル算出部１１０及び判別器生成部１２０、画像生成部１３０、画像選択部１４０、正解ラベル設定部１６０、判別部１７０の機能は、各種プロセッサ（ＣＰＵ等）、ＡＳＩＣ（ゲートアレイ等）などのハードウェアや、プログラムなどにより実現できる。

また、記憶部１８０は、正解ラベル付き画像や未ラベル画像、これらの画像の特徴ベクトル等を記憶したり、特徴ベクトル算出部１１０や判別器生成部１２０等のワーク領域となったりするもので、その機能はＲＡＭ等のメモリやＨＤＤなどにより実現できる。

入力部２００は、正解ラベル設定部１６０に対してユーザが正解ラベル等を入力するためのインターフェースであり、キーボードやマウス等により構成される。

また、表示部３００は、出力部１５０から取得された未ラベル画像等を表示する。

３．本実施形態の手法
次に、本実施形態の手法について説明する。

本実施形態の学習装置１００は、画像の特徴ベクトルを算出する特徴ベクトル算出部１１０と、算出された特徴ベクトルに基づいて、判別器の生成処理を行う判別器生成部１２０と、第１の正解ラベル付き画像に基づいて、未ラベル画像の画像生成処理を行う画像生成部１３０と、生成された複数の未ラベル画像に基づいて、ユーザに提示する未ラベル画像の画像選択処理を行う画像選択部１４０と、画像選択部１４０により選択された未ラベル画像を表示部３００に出力する出力部１５０と、入力部２００から正解ラベルを取得し、取得した正解ラベルを、選択した未ラベル画像に関連付けて、第２の正解ラベル付き画像とする正解ラベル設定部１６０と、を含む。そして、判別器生成部１２０は、第１の正解ラベル付き画像の特徴ベクトルと、第２の正解ラベル付き画像の特徴ベクトルとに基づいて、判別器の再生成処理を行う。

まず、本実施形態では、図２のフローチャートに示すように、正解ラベル付き画像のみを用いて、学習を行い、判別器を生成する（Ｓ１）。そして、学習を終了するか否か判定し（Ｓ２）、終了すると判定した場合には、処理を終了する。一方、学習を継続すると判定した場合には、再学習を行う（Ｓ３）。なお、再学習の代わりに、後述する追加学習を行っても良い。

本実施形態には、大きな３つの特徴がある。第１の特徴は、ステップＳ３の再学習において、あらかじめ用意しておいた正解ラベル付き画像のみでなく、未ラベル画像も教師データとして用いる点である。

ここで、ラベル（クラス）とは、データ（画像データ）の内容を表す言葉や記号等のことをいう。また、正解ラベルとは、データの内容を正しく表しているラベルのことをいう。例えば、「空（そら）」と「空ではない」という二種類のラベルがある場合に、後述する図４の「空とひまわり畑」が映されている画像ＬＩＭに対する正解ラベルは「空」である。なお、この例では、「空」が少しでも映っている場合には、「空」の画像であると判定する。

また、学習装置（学習アルゴリズム）への入力となる画像データのことを、学習用画像（教師データ）と呼ぶが、学習用画像のうち、正解ラベルが付与されている画像のことを正解ラベル付き画像と呼ぶ。

一方、未ラベル画像（ラベルなし画像）とは、ラベルが付与されていない画像のことをいい、通常は主にテストデータとして用いられる。ただし、前述したように本実施形態では教師データとしても用いられる。なお、テストデータとは、判別器の判別対象となるデータのことである。

ここで、判別器（学習判別器、判別モデル）とは、テストデータに付与すべきラベルを判別する基準やルール等のことをいう。判別器は、例えば、ＳＶＭ（Support Vector Machine）などの学習アルゴリズムと教師データを用いて、学習を行うことにより得られる学習結果とも言える。

また、判別器の生成処理とは、第１の正解ラベル付き画像に基づいて、学習を行って、判別器を生成することをいう。

ここで、第１の正解ラベル付き画像とは、あらかじめ正解ラベルが付与されている学習用画像またはその総称のことをいう。第１の正解ラベル付き画像は、記憶部１８０から読み出すものであってもよいし、入力部２００から入力されるものであってもよい。

なお、学習アルゴリズムへの入力データは、画像データをそのまま用いるのではなく、画像の特徴ベクトルを算出し、特徴ベクトルを学習アルゴリズムへの入力データとして用いる。

ここで、画像の特徴ベクトルとは、画像の特徴量に基づいて、要素が決定されるベクトルのことをいう。また、画像の特徴ベクトルは、学習アルゴリズムの直接の入力データと言っても良い。ただし、後述するように学習アルゴリズムへの入力は、画像の特徴ベクトルに基づいて生成したデータであってもよい。なお、画像の特徴量や特徴ベクトルの算出方法の具体例については、後述する。

ここで、学習アルゴリズムとしてＳＶＭを用いた場合の判別器の生成処理の一例を図３に示す。ここでは、説明の簡略化のため、画像の特徴ベクトルＶは（１）式で表される２次元ベクトルとし、判別空間も特徴ベクトルＶの要素ａ_１とａ_２を軸として表されるものとする。

図３の例では、「空（そら）」という正解ラベルが付された第１の正解ラベル付き画像の特徴ベクトルを黒丸（Ｖ１〜Ｖ５、ＳＶ１、ＳＶ２）で表し、「空ではない」という正解ラベルが付された第１の正解ラベル付き画像の特徴ベクトルを×印（Ｖ６〜Ｖ９、ＳＶ３、ＳＶ４）で表している。

そして、異なる正解ラベルが関連付けられている特徴ベクトル同士を分離する平面であり、各特徴ベクトルとの距離を最大とする平面を求め、これを判別面ＤＭとする。本例では、このようにして求めた判別面ＤＭが判別器として用いられる。なお、本例では説明の簡略化のため、線形な判別面を示しているが、線形でなくてもよい。

したがって、学習後に未ラベル画像のラベルを判別する際には、例えば、未ラベル画像の特徴ベクトルを判別空間に写像して、判別面ＤＭよりも図の上側に位置する場合には、この未ラベル画像のラベルは「空」であると判定し、図の下側に位置する場合には、「空ではない」と判定する。

なお、学習アルゴリズムとしてＳＶＭを用いる場合に、ＳＶＭによって導出された判別面（判別器）を決定付けるために必要最小限の特徴ベクトルのことをサポートベクトルという。図３の例では、ＳＶ１〜ＳＶ４がサポートベクトルとなる。

一方、判別器の再生成処理とは、第１の正解ラベル付き画像と、後述する第２の正解ラベル付き画像に基づいて、学習を行い、判別器を生成することをいう。また、再生成処理を行う場合には、既に学習に用いた正解ラベル付き画像についても再度学習し直すため、通常の判別器の生成処理と入力が異なるだけである。

次に、第２の特徴は、ステップＳ３において、未ラベル画像を外部から取得するのではなく、第１の正解ラベル付き画像から未ラベル画像を生成し、生成した未ラベル画像にユーザから入力してもらった正解ラベルを付与して、第２の正解ラベル付き画像を生成する点である。

ここで、第２の正解ラベル付き画像とは、未ラベル画像に正解ラベルを後付けした画像またはその総称のことをいう。なお、未ラベル画像の具体的な生成方法については、後で詳しく述べる。

また、前述した図３の例で用いる第２の正解ラベル付き画像の特徴ベクトルには、この画像の元となった未ラベル画像の特徴ベクトルを用いても良い。

さらに、第３の特徴は、能動学習を行う点、すなわち第２の正解ラベル付き画像の生成時に、未ラベル画像の中から判別器の判別精度の向上に有用である未ラベル画像を、ユーザに提示する画像として選択する点である。第３の特徴については、後で詳しく述べる。

これにより、新たな画像データベースを入手できない場合でも、手持ちの画像データベースから新たに生成した画像に正解ラベルを追加して再学習させることによって、画像の判別精度を向上させることが可能となる。

また、画像生成部１３０は、未ラベル画像の画像生成処理として、第１の正解ラベル付き画像を複数の領域に分割し、分割した各領域の画像を未ラベル画像として生成する処理を行ってもよい。

ここで、領域とは、第１の正解ラベル付き画像の一部分であり、第１の正解ラベル付き画像を分割して生成する。なお、分割して生成する領域の形状は問わない。

具体例を図４に示す。図４では、「空」の正解ラベルが付された第１の正解ラベル付き画像ＬＩＭを４つの領域に分割する。分割して生成される各領域は、第１の正解ラベル付き画像の一部分であるため、例えば、第１の正解ラベル付き画像ＬＩＭの下半分のように、元の画像と違い「空」が映っておらず、元画像に付与されていた正解ラベルが適当でない場合がある。そのため、分割して生成される領域は、未ラベル画像ＵＬＩＭ１〜ＵＬＩＭ４となる。これらの未ラベル画像は、以下で説明するようにユーザによりラベル付けを行い、第２の正解ラベル付き画像として利用する。

これにより、第１の正解ラベル付き画像から、元の第１の正解ラベル付き画像と映っている内容が異なる新たな学習用画像を生成すること等が可能になる。そして、より多くの種類の学習用画像を用いて学習を行い、多種類のテスト画像を判別できる判別器を生成すること等が可能となる。

また、特徴ベクトル算出部１１０は、第１の正解ラベル付き画像の特徴ベクトルである第１の特徴ベクトルと、第１の正解ラベル付き画像を分割して生成した未ラベル画像の特徴ベクトルである第２の特徴ベクトルとを算出してもよい。そして、画像選択部１４０は、画像選択処理として、第１の特徴ベクトルと第２の特徴ベクトルとの距離情報を求め、距離情報に基づいて、ユーザに提示する未ラベル画像を選択する第１の画像選択処理を行ってもよい。

ここで、第１の特徴ベクトルとは、第１の正解ラベル付き画像の特徴ベクトルのことをいう。

また、第２の特徴ベクトルとは、第１の正解ラベル付き画像を分割して生成した未ラベル画像の特徴ベクトルのことをいう。

距離情報とは、特徴ベクトル間の距離を表す情報のことをいう。例えば、距離情報は、特徴ベクトルを判別空間へ写像した場合において、特徴ベクトルを表す点と点との距離のことをいう。また、数学的にこれと等価な情報を用いてもよい。

ここで、具体例を図５に示す。図５は、図３の例において、「空」の正解ラベルが付された第１の正解ラベル付き画像から、４枚の未ラベル画像が生成された場合の例である。第１の特徴ベクトルＬＶ１を丸印○で、第２の特徴ベクトル（ＵＬＶ１〜ＵＬＶ４）を三角△印で、判別空間にマッピングした様子を示している。なお、図５では、サポートベクトルＳＶ１〜ＳＶ４以外の特徴ベクトルは、説明に不要なため省略している。

そして、第１の特徴ベクトルＬＶ１と各第２の特徴ベクトル（ＵＬＶ１〜ＵＬＶ４）との距離（ＤＳ１〜ＤＳ４）を求める。本例では、求めた距離ＤＳ１〜ＤＳ４の中で、最も長い距離であるＤＳ４に対応する未ラベル画像を、ユーザに提示する画像として特定する。なお、ここで最も長い距離を選択するのは、元画像の特徴ベクトルとの距離が長ければ、新たに生成された未ラベル画像に映る内容が元画像に映る内容と大きく異なっており、現在の判別器を用いて正しく判別できない可能性が高いと考えられるためである。

この時、例えば、現在の判別面ＢＤＭを用いて判別を行うと、正解ラベルは「空」であると判別される一方で、ユーザが提示された画像を見て、「空ではない」という正解ラベルを入力したとする。当然ユーザの判定が正しい。そのため、ユーザが入力した正解ラベルを選択された未ラベル画像に付与して、第２の正解ラベル付き画像として、学習に用いる。すると、再学習前の判別面ＢＤＭから、判別面がＡＤＭへと移動し、より多種類の画像を正しく判別することができるようになる。

これにより、例えば、元の第１の正解ラベル付き画像と最も似ていない未ラベル画像を、ユーザに提示する画像として選択すること等が可能になる。そして、１学習用画像当たりの判別器の判別精度の改善率を大きくし、学習効率を向上させること等が可能となる。

また、画像選択部１４０は、未ラベル画像数に基づいて、実行する画像選択処理を、第１の画像選択処理から第２の画像選択処理へ切り替えてもよい。

ここで、未ラベル画像数とは、第１の正解ラベル付き画像から生成した未ラベル画像の残数のことである。未ラベル画像数の代わりに、全画像数と未ラベル画像数の割合等を用いてもよい。

また、第１の画像選択処理とは、第２の画像選択処理の前段階に行う画像選択処理のことをいう。例えば、図５を用いて説明した処理や、図６を用いて後述する処理のこと等をいう。

さらに、第２の画像選択処理とは、第１の画像選択処理の後段階に行う画像選択処理のことをいう。例えば、図７を用いて後述する処理のこと等をいう。

これにより、例えば第１の画像選択処理により、学習済みの正解ラベル付き画像の特徴と違いが大きい未ラベル画像を選択して学習に用い、第２の画像選択処理により、判別空間において特徴ベクトルが判別境界付近にマッピングされる未ラベル画像を選択して学習に用いること等が可能になる。すなわち、第１の画像選択処理により、判別器の判別精度を大きく改善するような未ラベル画像を選択し、第２の画像選択処理により、判別器の微調整を行う未ラベル画像を選択すること等が可能になる。

また、画像選択部１４０は、第１の画像選択処理として、第１の特徴ベクトルと第２の特徴ベクトルとの距離情報を求め、距離情報に基づいて、第１の提示候補選択処理を行い、第１の提示候補選択処理の結果に基づいて、第２の提示候補選択処理を行い、第２の提示候補選択処理において選択された未ラベル画像を、ユーザに提示する未ラベル画像として選択する処理を行ってもよい。

具体的には、画像選択部１４０は、第１の画像選択処理として、第１の特徴ベクトルと選択された第２の特徴ベクトルとの組み合わせの中から、２つの特徴ベクトル間の距離が最小となる組み合わせを選択する第１の提示候補選択処理を行い、第１の提示候補選択処理において選択した組み合わせの中から、距離が最大となる組み合わせを選択する第２の提示候補選択処理を行い、第２の提示候補選択処理において選択した組み合わせに対応する未ラベル画像を、ユーザに提示する未ラベル画像として選択する処理を行ってもよい。

なお、第１の提示候補選択処理は、第２の特徴ベクトルが選択される度に行う。本実施例では、全ての第２の特徴ベクトルに対して、第１の提示候補選択処理を行うことが望ましいが、全てに対して行わなくても良い。

ここで、具体例を図６に示す。図６は、図５の例において、図５と異なる前述した第１の画像選択処理を用いて未ラベル画像を選択する例である。なお、図６では、サポートベクトルＳＶ１、ＳＶ４と、未ラベル画像の特徴ベクトルＵＬＶ２、ＵＬＶ４以外の特徴ベクトルは、説明の簡略化のため扱わないこととするが、実際の処理では他の特徴ベクトルも扱う必要がある。

まず、第１の提示候補選択処理として、第２の特徴ベクトル群の中からＵＬＶ２を選択し、第１の特徴ベクトルのうちのサポートベクトル（ＳＶ１とＳＶ４）との距離（ＤＳ２１とＤＳ２４）を求め、距離が最小（ＤＳ２４）である組み合わせＵＬＶ２とＳＶ４を選択する。ＵＬＶ４についても同様の第１の提示候補選択処理を行い、ＵＬＶ４とＳＶ１を選択する。

次に、第２の提示候補選択処理として、第１の提示候補選択処理において選択した組み合わせ（ＵＬＶ２とＳＶ４、ＵＬＶ４とＳＶ１）の中から、距離が最大（ＤＳ４１）となる組み合わせＵＬＶ４とＳＶ１を選択する。そして、特徴ベクトルがＵＬＶ４となる未ラベル画像をユーザに提示する。

そして、ユーザから入力してもらった正解ラベルを付与して、学習に用い、図５の例と同様に判別面をＢＤＭからＡＤＭに移動させることができる
なお、ここで述べた第１の画像選択処理は、後述する（２）式等を用いることにより実現できる。

また、画像選択部１４０は、第２の画像選択処理として、選択された第２の特徴ベクトルと所与の第１の特徴ベクトルとの距離情報を求め、求めた距離情報の積算処理を行い、積算処理の結果に基づいて、ユーザに提示する未ラベル画像を選択する処理を行ってもよい。

具体的には、画像選択部１４０は、第２の画像選択処理として、選択された第２の特徴ベクトルと所与の第１の特徴ベクトルとの距離情報を求め、求めた距離情報の積算処理を行って距離評価値を求め、求めた距離評価値が最小となる第２の特徴ベクトルを求め、求めた第２の特徴ベクトルに対応する未ラベル画像を、ユーザに提示する未ラベル画像として選択してもよい。

ここで、距離評価値とは、ＳＶＭによって導出された判別面と第２の特徴ベクトルとの位置関係を表す値のことをいう。例えば、距離評価値は、選択された第２の特徴ベクトルと所与の第１の特徴ベクトルとの距離情報の積算処理結果のことをいう。

次に、具体例を図７に示す。図７は、図５の例において、第１の画像選択処理を行って、判別面を図５のＡＤＭの位置に移動させた後（図７ではＢＤＭとして記載している）、未ラベル画像数が所定の閾値を下回り、第２の画像選択処理を行う場合の例である。また、図７の例では、図５のＵＬＶ４をサポートベクトルＳＶ５としている。さらに、図５の例とは異なる第１の正解ラベル付き画像から、新たな未ラベル画像を生成し、算出した第２の特徴ベクトルＵＬＶ５〜ＵＬＶ８を判別空間に写像している。なお、図７では、それらとサポートベクトルＳＶ１〜ＳＶ４以外の特徴ベクトルは、説明の簡略化のため扱わないこととするが、実際の処理では他の特徴ベクトルも扱う必要がある。

距離評価値は、後述する（３）式等を用いることにより実現できる。後述するため、ここでは省略する。

距離評価値は、前述したように、第２の特徴ベクトルと判別面との位置関係を表すため、図７では模式的に、第２の特徴ベクトルから判別面へ下ろした垂線の長さ（ＤＳ５〜ＤＳ８）を距離評価値として表す。そして、距離評価値が最小である第２の特徴ベクトルＵＬＶ５を選択する。その後、ユーザに提示し、入力された正解ラベルが現在の判別器による判定結果と異なる場合には、判別面をＡＤＭへと移動する。

これにより、例えば、各サポートベクトルとの距離の総和が最小となる第２の特徴ベクトルを選択すれば、判別面に近い未ラベル画像を選択すること等が可能になる。また、判別空間において、判別境界付近のデータを学習に用いることにより、判別器の判別精度をより向上させること等が可能になる。

また、画像生成部１３０は、未ラベル画像の画像生成処理として、第１の正解ラベル付き画像に対して画像処理を行うことにより得られる画像を、未ラベル画像として生成する処理を行ってもよい。

ここで、画像処理とは、例えば、画像の輝度や明度、コントラスト値、シャープネスなどを変えて、他の画像を新たに生成する処理のことをいう。

例えば、画像生成部１３０は、画像処理として、第１の正解ラベル付き画像の輝度を変化させる処理を行ってもよい。

具体例を図８（Ａ）と図８（Ｂ）に示す。図８（Ａ）には、第１の正解ラベル付き画像ＬＩＭ１を元に、輝度を変化させて生成した４枚の未ラベル画像ＵＬＩＭ１〜ＵＬＩＭ４を示す。同様に、図８（Ｂ）には、第１の正解ラベル付き画像ＬＩＭ２を元に、輝度を変化させて生成した４枚の未ラベル画像ＵＬＩＭ５〜ＵＬＩＭ８を示す。

これにより、例えば、第１の正解ラベル付き画像から、元の第１の正解ラベル付き画像と映っている内容は同じだが、画像の輝度や明度、コントラスト値、シャープネスなどが異なる新たな学習用画像を生成すること等が可能になる。そして、より多くの種類の学習用画像を用いて学習を行い、多種類のテスト画像を判別できる判別器を生成すること等が可能となる。

このように画像処理を行って、新たな未ラベル画像を生成する場合には、ある特定の第１の正解ラベル付き画像から生成した未ラベル画像を、判別器を用いて判別処理を行った時に、判別精度が著しく悪くなる場合がある。

そこで、画像生成部１３０は、同一の第１の正解ラベル付き画像から生成した複数の未ラベル画像を、輝度の大きさ順に並び替えた同系統生成画像列を生成してもよい。そして、画像選択部１４０は、同系統生成画像列に基づいて、ユーザに提示する未ラベル画像の画像選択処理を行ってもよい。

ここで、同系統生成画像列とは、同一の第１の正解ラベル付き画像から生成された複数の画像の列であり、輝度の大きさ順に並び替えられた画像列のことをいう。

例えば、図８（Ａ）ではＳＩＬ１が、図８（Ｂ）ではＳＩＬ２が同系統生成画像列である。

さらに、本実施形態の学習装置１００は、生成した判別器を用いて、未ラベル画像の判別処理を行い、判別処理の結果であるテストラベルを未ラベル画像に関連付ける判別部１７０を含んでもよい。そして、画像選択部１４０は、同系統生成画像列に含まれる未ラベル画像のテストラベルに基づいて、同系統生成画像列の安定度を算出し、安定度に基づいて、同系統生成画像列の選択処理を行い、画像選択処理として、選択された同系統生成画像列に含まれる未ラベル画像の中から、ユーザに提示する未ラベル画像を選択する処理を行ってもよい。

ここで、テストラベルとは、現在の判別器を用いて、未ラベル画像（テスト画像）の判別を行った結果得られるラベルのことをいう。なお、テストラベルは、あくまで判別器の判別結果であって、必ずしも正解ラベルと一致するとは限らない。

また、安定度とは、画像に付与されるラベルの変わりやすさ、すなわちラベルが切り替わる頻度を表す指標である。同系統生成画像列の安定度と言う場合には、同系統生成画像列に含まれる第１の正解ラベル付き画像と未ラベル画像のラベルの変わりやすさを表す値となる。安定度は、ラベルが切り替わる頻度が高いほど小さな値となり、ラベルが切り替わる頻度が低いほど大きな値となる。同系統生成画像列の安定度の具体的な計算方法については後述する。

これにより、例えば、安定度が最小の同系統画像列を選択すれば、現在の判別器を用いた場合に判別精度が悪くなる画像から優先的に学習を行うこと等が可能になる。そして、学習効率を上げて、学習を行う必要がある学習画像数を減らすこと等が可能になる。

また、判別部１７０は、実数により表されるテストラベルを未ラベル画像に関連付けてもよい。そして、画像選択部１４０は、同系統生成画像列において、隣り合う未ラベル画像にそれぞれ関連付けられたテストラベル同士の積を求め、求めた積の総和を、同系統生成画像列の安定度として算出してもよい。

なお、同系統生成画像列において、隣り合う未ラベル画像の全ての組み合わせについて、積を求め、その和をとることが望ましいが、これに限定されない。

ここで、図８（Ａ）の同系統生成画像列ＳＩＬ１の判別結果を図９（Ａ）に、その時の安定度を図９（Ｂ）に示す。本例では、画像内に「空（そら）」が映っている場合に数値「＋１」の正解ラベルを与え、「空」が映っていない場合に数値「−１」の正解ラベルを与えるものとする。図９（Ａ）の表に示すように、未ラベル画像ＵＬＩＭ１のテストラベルは、「−１」（「空ではない」）と判別され、ＵＬＩＭ２は「＋１」（「空」）、ＵＬＩＭ３は「＋１」、ＵＬＩＭ４は「−１」と判別されたとする。そして、図９（Ｂ）に示すように、同系統生成画像列ＳＩＬ１の隣り合う未ラベル画像（ＵＬＩＭ１〜ＵＬＩＭ４）と正解ラベル付き画像ＬＩＭ１のラベルの積の総和を、安定度として求め、「０」という値を得る。

同様に、図８（Ｂ）の同系統生成画像列ＳＩＬ２の判別結果を図９（Ｃ）に、その時の安定度を図９（Ｄ）に示す。その結果、同系統生成画像列ＳＩＬ２の安定度は「４」となり、同系統生成画像列ＳＩＬ１の安定度「０」よりも大きいため、同系統生成画像列ＳＩＬ２の方がラベルの切り替わり頻度が小さいということが分かる。

これにより、例えば、求めた安定度が最小であるもの（図９（Ａ）〜図９（Ｄ）の例では、安定度が０）を選べば、最も判定結果が変わりやすい同系統生成画像列（同例では同系統生成画像列ＳＩＬ１）を選択すること等が可能になる。

また、判別結果が誤っている画像は、テストラベルが切り替わる前後の画像であることが多い。

そこで、画像選択部１４０は、同系統生成画像列において、テストラベルが切り替わる前の未ラベル画像又は切り替わった後の未ラベル画像を、ユーザに提示する未ラベル画像として選択してもよい。

具体的に、テストラベルが切り替わる前と後とは、図９（Ａ）の例では、ＵＬＩＭ１が切り替わり前の未ラベル画像となり、ＵＬＩＭＩ２が切り替わり後の未ラベル画像となる。同様に、ＵＬＩＭ３が切り替わり前の未ラベル画像であり、ＵＬＩＭＩ４が切り替わり後の未ラベル画像でもある。

また、選択された同系統生成画像列のラベルが全て同じ場合には、最初の画像のラベルと最後のラベルの画像さえ正解ラベルと一致していれば、中間の画像のラベルも正しい場合が多い。

そこで、画像選択部１４０は、同系統生成画像列において、輝度の大きさが最大又は最小である未ラベル画像を、ユーザに提示する未ラベル画像として選択してもよい。

また、判別部１７０は、未ラベル画像の判別処理を行う際に、テストラベルの確信度を算出し、画像選択部１４０は、確信度に基づいて、ユーザに提示する未ラベル画像を選択してもよい。

ここで、確信度（信頼度）とは、判別されたテストラベルの確からしさを表す指標のことをいう。例えば、ＳＶＭを用いて生成した判別器により判別処理を行う場合には、判別面と特徴ベクトルとの距離情報などを確信度として用いる。

具体例として、図９（Ａ）と図９（Ｃ）に確信度の一例を示している。本例では、確信度は１が最大で、０が最小である。なお、図９（Ａ）の例では、正解ラベル付き画像ＬＩＭ１の確信度は０．５であるが、先にも述べたように、確信度は判別面と正解ラベル付き画像ＬＩＭ１の特徴ベクトルとの距離を表しているため、正解ラベル付き画像であっても確信度が１になるとは限らない。

これまでは、図２のステップＳ３において、判別器の再生成処理を行う場合についてのみ述べてきたが、再学習の代わりに追加学習を行ってもよい。

すなわち、判別器生成部１２０は、第２の正解ラベル付き画像の特徴ベクトルに基づいて、判別器の更新処理を行ってもよい。

ここで、判別器の更新処理とは、既に学習に用いた正解ラベル付き画像について再度学習を行わず、追加分の学習用画像についてのみ、学習を行い、判別器を生成することをいう。また、判別器の更新処理のことを追加学習ともいう。

また、出力部１５０は、画像選択部１４０により選択された未ラベル画像と共に、判別部１７０により未ラベル画像に関連付けられたテストラベルを出力してもよい。

なお、本実施形態の学習装置１００等は、プログラムにより実現してもよい。この場合には、ＣＰＵ等のプロセッサがプログラムを実行することで、本実施形態の学習装置１００等が実現される。具体的には、情報記憶媒体に記憶されたプログラムが読み出され、読み出されたプログラムをＣＰＵ等のプロセッサが実行する。ここで、情報記憶媒体（コンピューターにより読み取り可能な媒体）は、プログラムやデータなどを格納するものであり、その機能は、光ディスク（ＤＶＤ、ＣＤ等）、ＨＤＤ（ハードディスクドライブ）、或いはメモリー（カード型メモリー、ＲＯＭ等）などにより実現できる。そして、ＣＰＵ等のプロセッサは、情報記憶媒体に格納されるプログラム（データ）に基づいて本実施形態の種々の処理を行う。即ち、情報記憶媒体には、本実施形態の各部としてコンピューター（操作部、処理部、記憶部、出力部を備える装置）を機能させるためのプログラム（各部の処理をコンピューターに実行させるためのプログラム）が記憶される。

４．処理の詳細
４．１第１の実施例の処理の詳細
以下では、図１０のフローチャートを用いて、正解ラベル付き画像を分割して生成した未ラベル画像を用いて、追加学習を行う場合の処理（図２のステップＳ３）の詳細について説明する。

第１の実施例及び第２の実施例では、学習アルゴリズム（学習モデル）として、ＳＶＭ（Support Vector Machine）を用いる。

まず、例えば、５０００枚の画像を学習用画像として、画像内に「空（そら）」が映っている場合に数値「＋１」の正解ラベルを与え、「空」が映っていない場合に数値「−１」の正解ラベルを与え、正解ラベル付き画像を生成する。これら学習用画像と正解ラベルのセット（正解ラベル付き画像）を入力として、ＳＶＭにより学習を行い、判別器を生成する。

ここまでは、従来のＳＶＭの学習過程であり、その処理を説明しておく。画像が学習装置（学習システム）に入力されると、例えば、図１１（Ａ）に示すような画像ＩＭにおいて、格子状に配置設定されたサンプリング点（ＳＰ１〜ＳＰ９の画素）の近傍で、ＨＳＶ（Hue、Saturation、Value）などの色の特徴量を算出する。例えば、サンプリング点ＳＰ１の特徴量が、（色相、彩度、明度）＝（１４５、３５、６０）などのように求められる。なお、サンプリング点の近傍とは、サンプリング点を中心とした所定数の画素のことをいう。また、サンプリング点の近傍の画素を用いるのは、ノイズに対するロバスト性向上のためである。具体的には、図１１（Ａ）では、サンプリング点ＳＰ１を中心とした周囲８画素（Ｐ１〜Ｐ８）を、サンプリング点の近傍としている。図１１（Ａ）では、サンプリング点ＳＰ１についてのみ、近傍の画素を表しているが、実際には、他のサンプリング点ＳＰ２〜ＳＰ９の近傍も考慮する必要がある。

そして、図１１（Ｂ）に示すようなＨＳＶ色空間に、サンプリング点及びその近傍の画素の特徴量をマッピングする。なお、図１１（Ｂ）に示すＨＳＶ色空間は、彩度を縦軸に、色相を横軸としており、説明の簡略化のため、明度は省略している。

全てのサンプリング点とその近傍について、特徴量を図１１（Ｂ）に示すＨＳＶ色空間にマッピングし、色相を９０毎に、彩度を２５％毎に区切った領域を定義し、各領域内にマッピングされている画素数をカウントする。そして、カウントした各領域の画素数を、図１２（Ａ）にヒストグラムで表す。図１２（Ａ）のヒストグラムは、画素数を縦軸、色相範囲と彩度範囲により定義される属性（特徴ベクトルの要素のこと）を横軸としている。

そして、図１２（Ｂ）に示すように、図１２（Ａ）の横軸を属性（要素）とするベクトルｘのことを特徴ベクトルと呼ぶ。本実施例では、この特徴ベクトルをそのまま学習アルゴリズムＳＶＭに入力しても良いし、もう一段階、良く知られたBag of Featuresヒストグラムを作成し、そのヒストグラムの要素を並べたベクトルを学習アルゴリズムＳＶＭに入力しても良い。以下では、Bag of Featuresヒストグラムから作成されたベクトルも特徴ベクトルと呼ぶことにする。

なお、画像（画素）の特徴量として用いる値は、上述したＨＳＶに限ったものでなく、良く知られたＳＩＦＴ（Scale-Invariant Feature Transform）やＨＯＧ（Histograms of Oriented Gradients）のような勾配特徴量、ＬＢＰ（Local Binary Pattern）のようなテクスチャ特徴量であっても良い。

そして、上述した特徴ベクトルと正解ラベルとを用いて学習を行い、判別器を生成する。学習終了後に、テスト画像（未ラベル画像）を学習装置に入力すると、テスト画像から特徴ベクトルを算出し、それに基づき、判別器は、「空」が映っているか否かの判定を「＋１」、「−１」というテストラベルとして出力する。尚、「＋１」、「−１」という２値の出力の代わりに、ＳＶＭにおいて得られる「空」らしさの値（確信度）を、例えば「＋１．２」、「−０．５」のようにアナログ値で中間出力することも可能である。この中間出力値を学習済みの閾値で２値化したものが、テストラベルである。

なお、以下の説明において、ＳＶＭとして通常のバッチ処理型のＳＶＭを用いれば、（追加データと既に学習済みのデータを含めた一括）再学習となるのに対し、ＬＡＳＶＭ（Fast Kernel Classifiers with Online and Active Learning, Bodes etc, Journal of Machine Learning Research, 2005）など逐次処理型の（オンライン）ＳＶＭを用いれば、追加データのみを学習可能な追加学習となる。再学習、追加学習のどちらであっても良い。これは、第２の実施例でも同様である。

さて、これから、図１０に示すような追加学習を開始する。まず、例えば、５０００枚の学習用画像を入力し（Ｓ１０１）、それらの各学習用画像を例えば、Ｍ×Ｎの領域に分割する（Ｓ１０２）。一例として図４のように、Ｍ＝Ｎ＝２とすると、学習用画像１枚につき、４つの領域が生成されるので、５０００枚の画像からは、合計２００００個の領域が生成される。生成された個々の領域を１つの画像とみなして、新たな学習用画像として用いることにすると、２００００枚の画像に新たな正解ラベルが必要となってしまい、人がこの作業を行うのは、非効率的である。

そこで、生成された新たな学習用画像の中から、学習に有効と判定される画像を順番に選択して人に提示していく。例えば、２００００枚の上位約５％までの１０００枚に正解ラベルを付けることで、省力化を図ることが可能となる。

さて、この時、５０００枚の画像の学習から生成された２００００枚の画像から特徴ベクトルを算出し、メモリに一旦、蓄積する（Ｓ１０３）。蓄積した特徴ベクトルから、能動学習の戦略に基づき、１つの特徴ベクトルを選定する（Ｓ１０４）。ここで、ユーザに提示する未ラベル画像の画像選択処理の詳細を説明する。

以下では、学習済みの正解ラベル付き画像の集合をＬ、未ラベル画像の集合をＵと記す。例えば、追加学習の初期段階では、正解ラベル付き画像ｓ∈Ｌのいずれとも最も似ていない未ラベル画像ｘ∈Ｕから選択していくような戦略を採用する。すなわち、図６を用いて説明した第１の画像選択処理に相当する。Ｋをカーネル関数、Φを判別空間への写像とすれば、以下の関係式が成り立つ。（２）式に基づき、１つの特徴ベクトルを選定する。

なお、５０００枚の画像の学習からサポートベクトルが、例えば１０００個決まっていたとすると、これらと新たに生成したラベルなしサンプル間で、合計１０００×２００００＝２００００００００回の（２）式の計算を行うことになる。

そこで、上記の計算は、計算回数が多くなってしまうので、計算効率の点から、上記で図５を用いて説明した以下のような第１の画像選択処理で代用しても良い。すなわち、単一の学習用画像及びその学習用画像から生成された４枚の画像との間で、特徴ベクトル間の距離を算出する。これを学習用画像５０００枚に対して全て算出し、その中で、値の大きい順番に（最も距離が離れたものから）ソートする。そして、ソート順に画面上に未ラベル画像を提示する。こうして、画像選出までの計算時間を短縮することで、人に正解ラベル入力のための画像提示待ちの時間を短縮することができる。

上記の戦略を用いて、例えば、上位１％を追加学習した後に、能動学習の別の戦略として、例えば、判別面に近いサンプルから追加学習させる画像選択処理に切り替える。ＳＶＭでは、判別面のマージンを最大化する学習がなされるが、その判別面とラベルなしサンプルｘ∈Ｕとの距離を最小にするようなサンプルを選択する（３）式を用いる。

ここで、αやｂは、ＳＶＭで現れるサポートベクトルの重み係数及びバイアス項である。

さて次に、選択した特徴ベクトルに対応する分割領域の画像を提示する（Ｓ１０５）。この時、画像の提示だけでなく、この画像をテスト画像として判別器に入力した際のテストラベルを同時に表示しても良い。

評価者が、正解ラベルの入力を止めない場合には（Ｓ１０６）、提示された画像を評価者が見て、正解ラベルを入力する（Ｓ１０７）。正解ラベルの付与された特徴ベクトルを用いて、判別器を更新する（Ｓ１０８）。再び、ステップＳ１０４に戻り、蓄積した特徴ベクトルから、能動学習の戦略に基づき、１つの特徴ベクトルを選定する。以下、ステップＳ１０６で評価者が、正解ラベルの入力を止めると判定するまで、上記の処理を繰り返す。正解ラベルの入力を止めるための指標として、追加学習の枚数や、追加学習時の判別精度（分類精度）などを画面に表示すると良い。

４．２第２の実施例の処理の詳細
以下では、図１３のフローチャートを用いて、正解ラベル付き画像の輝度を変更して生成した未ラベル画像を用いて、追加学習を行う場合の処理（図２のステップＳ３）の詳細について説明する。

第１の実施例では、学習用画像を複数の領域に分割することによって、新たな学習用画像を生成する例を説明した。第２の実施例では、学習用画像に画像の輝度や明度、彩度、シャープネスなどを変化させる画像処理を行うことによって、新たな学習用画像を生成する。

例えば、スナップ写真の「夜景」と人が判断する画像に「＋１」、「夜景でない」と人が判断する画像に「−１」のラベルを与えて、ＳＶＭを用いて学習を行う。

図１３に示すようにまず、学習用画像群を入力する（Ｓ２０１）。続いて、各元画像の輝度を例えば、±２０刻みで変えて画像を生成する（Ｓ２０２）。元画像の輝度が例えば、９０であった場合、それから生成される画像の輝度は、１０、３０、…、２３０、２５０の値をとり、元画像１枚から１２枚の画像が生成されることになる。

これらの画像をテスト画像として用いる。すなわち、生成した各未ラベル画像から特徴ベクトルを算出し、一旦、メモリに蓄積しておき（Ｓ２０３）、蓄積した特徴ベクトルをテスト用入力として、判別器により判定する（Ｓ２０４）。

同系統生成画像列において、未ラベル画像を判別器に入力してテストラベルを取得し、隣同士のテストラベルの積を全て足し合わせた値を安定度として算出する（Ｓ２０５）。つまり、テストラベルが、「＋１」と「−１」の間を切り替わる頻度が高いほど、安定度は小さな値となり、ラベルが切り替わらない場合は、安定度は、大きな値となる。続いて、同系列生成画像列を１つのグループと見なし、グループ同士を安定度の値でソートして、安定度の小さい順番に、同系列生成画像列とテストラベルのセットを画面に提示する（Ｓ２０６）。

評価者は、正解ラベルの入力を止めない場合（Ｓ２０７）、提示画像とテストラベルをチェックして、間違ったラベルがついている場合には、正解ラベルを入力する（Ｓ２０８）。そして、正解ラベルと対応する画像の特徴ベクトルを用いて、判別器を更新する（Ｓ２０９）。更新後、ステップＳ２０４に戻り、蓄積した特徴ベクトルをテスト用入力として判別器で判定する。以下、正解ラベルの入力を止めると判断した場合に（Ｓ２０７）、追加学習を終了する。正解ラベルの入力を止める指標として、追加学習の枚数や、判別器の精度を画面に提示しても良い。

このように、安定度の小さな同系統生成画像列から学習させることにより、ロバスト性を追加学習の早い段階で向上させる効果を期待することができる。

上記の安定度の算出では、テストラベルとして「＋１」と「−１」を用いた。その代わりに、テストラベル付けの処理の１つ前の時点では、「夜景」らしさ（確信度）が、アナログ値で「＋１．２」や「−０．８」などと求まっており、これらの値を代わりに用いても良い。

また、同系統生成画像列の中で、「夜景」らしさの指標（確信度）を用いて提示画像を選択しても良い。

尚、上記では、安定度の小さい順番に、同系統生成画像列とそのテストラベルを提示したが、さらに、安定度に応じて、以下のように、表示する枚数を減らしても良い。

つまり、安定度が大きく、例えば、同系統生成画像列のテストラベルが全て同じ場合には、輝度の値でソートした最小と最大の画像とテストラベルを提示する。まず、この最大、最小の画像でのテストラベルが、正しければ、同系統生成画像列に対しては、誤りを訂正する追加学習の必要はない。

また、同系統生成画像列のテストラベルが、１、または、２箇所で異なる値に切り替わっている場合には、その切り替わった前後のラベルと対応する画像を提示してもよい。このように、切り替わり位置が、正しい場合には、同系統生成画像列に対しては、誤りを訂正する追加学習の必要はない。もし、テストラベルが、誤っている場合には、正しいラベルになるように、同系統生成画像列に教師ラベルを付けて追加学習する。

このように、安定度の値の大きさによって、同系統生成画像列の中で提示する画像枚数を減らして、評価者がチェックすることができるようになり、評価が簡便になる効果がある。

以上のように本実施形態について詳細に説明したが、本発明の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本発明の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また、学習装置等の構成、動作も本実施形態で説明したものに限定されず、種々の変形実施が可能である。

１００学習装置、１１０特徴ベクトル算出部、１２０判別器生成部、
１３０画像生成部、１４０画像選択部、１５０出力部、
１６０正解ラベル設定部、１７０判別部、１８０記憶部、２００入力部、
３００表示部

Claims

画像の特徴ベクトルを算出する特徴ベクトル算出部と、
算出された前記特徴ベクトルに基づいて、判別器の生成処理を行う判別器生成部と、
第１の正解ラベル付き画像に基づいて、未ラベル画像の画像生成処理を行う画像生成部と、
生成された複数の前記未ラベル画像に基づいて、ユーザに提示する前記未ラベル画像の画像選択処理を行う画像選択部と、
前記画像選択部により選択された前記未ラベル画像を表示部に出力する出力部と、
入力部から正解ラベルを取得し、取得した前記正解ラベルを、選択した前記未ラベル画像に関連付けて、第２の正解ラベル付き画像とする正解ラベル設定部と、
を含み、
前記判別器生成部は、
前記第１の正解ラベル付き画像の前記特徴ベクトルと、前記第２の正解ラベル付き画像の前記特徴ベクトルとに基づいて、前記判別器の再生成処理を行うことを特徴とする学習装置。
請求項１において、
前記画像生成部は、
前記未ラベル画像の前記画像生成処理として、
前記第１の正解ラベル付き画像を複数の領域に分割し、分割した各領域の画像を前記未ラベル画像として生成する処理を行うことを特徴とする学習装置。
請求項２において、
前記特徴ベクトル算出部は、
前記第１の正解ラベル付き画像の前記特徴ベクトルである第１の特徴ベクトルと、前記第１の正解ラベル付き画像を分割して生成した前記未ラベル画像の前記特徴ベクトルである第２の特徴ベクトルとを算出し、
前記画像選択部は、
前記画像選択処理として、
前記第１の特徴ベクトルと前記第２の特徴ベクトルとの距離情報を求め、前記距離情報に基づいて、前記ユーザに提示する前記未ラベル画像を選択する第１の画像選択処理を行うことを特徴とする学習装置。
請求項３において、
前記画像選択部は、
未ラベル画像数に基づいて、実行する前記画像選択処理を、前記第１の画像選択処理から第２の画像選択処理へ切り替えることを特徴とする学習装置。
請求項４において、
前記画像選択部は、
前記第１の画像選択処理として、
前記第１の特徴ベクトルと前記第２の特徴ベクトルとの距離情報を求め、前記距離情報に基づいて、第１の提示候補選択処理を行い、前記第１の提示候補選択処理の結果に基づいて、第２の提示候補選択処理を行い、前記第２の提示候補選択処理において選択された前記未ラベル画像を、前記ユーザに提示する前記未ラベル画像として選択する処理を行うことを特徴とする学習装置。
請求項４又は５において、
前記画像選択部は、
前記第２の画像選択処理として、
選択された前記第２の特徴ベクトルと所与の前記第１の特徴ベクトルとの距離情報を求め、求めた前記距離情報の積算処理を行い、前記積算処理の結果に基づいて、前記ユーザに提示する前記未ラベル画像を選択する処理を行うことを特徴とする学習装置。
請求項１において、
前記画像生成部は、
前記未ラベル画像の前記画像生成処理として、
前記第１の正解ラベル付き画像に対して画像処理を行うことにより得られる画像を、前記未ラベル画像として生成する処理を行うことを特徴とする学習装置。
請求項７において、
前記画像生成部は、
前記画像処理として、
前記第１の正解ラベル付き画像の輝度を変化させる処理を行うことを特徴とする学習装置。
請求項８において、
前記画像生成部は、
同一の前記第１の正解ラベル付き画像から生成した複数の前記未ラベル画像を、前記輝度の大きさ順に並び替えた同系統生成画像列を生成し、
前記画像選択部は、
前記同系統生成画像列に基づいて、前記ユーザに提示する前記未ラベル画像の前記画像選択処理を行うことを特徴とする学習装置。
請求項９において、
生成した前記判別器を用いて、前記未ラベル画像の判別処理を行い、前記判別処理の結果であるテストラベルを前記未ラベル画像に関連付ける判別部を含み、
前記画像選択部は、
前記同系統生成画像列に含まれる前記未ラベル画像の前記テストラベルに基づいて、前記同系統生成画像列の安定度を算出し、
前記安定度に基づいて、前記同系統生成画像列の選択処理を行い、
前記画像選択処理として、
選択された前記同系統生成画像列に含まれる前記未ラベル画像の中から、前記ユーザに提示する前記未ラベル画像を選択する処理を行うことを特徴とする学習装置。
請求項１０において、
前記判別部は、
実数により表される前記テストラベルを前記未ラベル画像に関連付け、
前記画像選択部は、
前記同系統生成画像列において、隣り合う前記未ラベル画像にそれぞれ関連付けられた前記テストラベル同士の積を求め、求めた積の総和を、前記同系統生成画像列の前記安定度として算出することを特徴とする学習装置。
請求項９乃至１１のいずれかにおいて、
前記画像選択部は、
前記同系統生成画像列において、前記テストラベルが切り替わる前の前記未ラベル画像又は切り替わった後の前記未ラベル画像を、前記ユーザに提示する前記未ラベル画像として選択することを特徴とする学習装置。
請求項９乃至１２のいずれかにおいて、
前記画像選択部は、
前記同系統生成画像列において、前記輝度の大きさが最大又は最小である前記未ラベル画像を、前記ユーザに提示する前記未ラベル画像として選択することを特徴とする学習装置。
請求項７乃至１３のいずれかにおいて、
生成した前記判別器を用いて、前記未ラベル画像の判別処理を行い、前記判別処理の結果であるテストラベルを前記未ラベル画像に関連付ける判別部を含み、
前記判別部は、
前記未ラベル画像の前記判別処理を行う際に、前記テストラベルの確信度を算出し、
前記画像選択部は、
前記確信度に基づいて、前記ユーザに提示する前記未ラベル画像を選択することを特徴とする学習装置。
請求項１乃至１４のいずれかにおいて、
前記判別器生成部は、
前記第２の正解ラベル付き画像の前記特徴ベクトルに基づいて、前記判別器の更新処理を行うことを特徴とする学習装置。
請求項１乃至１５のいずれかにおいて、
生成した前記判別器を用いて、前記未ラベル画像の判別処理を行い、前記判別処理の結果であるテストラベルを前記未ラベル画像に関連付ける判別部を含み、
前記出力部は、
前記画像選択部により選択された前記未ラベル画像と共に、前記判別部により前記未ラベル画像に関連付けられた前記テストラベルを出力することを特徴とする学習装置。
画像の特徴ベクトルを算出する特徴ベクトル算出部と、
算出された前記特徴ベクトルに基づいて、判別器の生成処理を行う判別器生成部と、
第１の正解ラベル付き画像に基づいて、未ラベル画像の画像生成処理を行う画像生成部と、
生成された複数の前記未ラベル画像に基づいて、ユーザに提示する前記未ラベル画像の画像選択処理を行う画像選択部と、
前記画像選択部により選択された前記未ラベル画像を表示部に出力する出力部と、
入力部から正解ラベルを取得し、取得した前記正解ラベルを、選択した前記未ラベル画像に関連付けて、第２の正解ラベル付き画像とする正解ラベル設定部として、
コンピューターを機能させ、
前記判別器生成部は、
前記第１の正解ラベル付き画像の前記特徴ベクトルと、前記第２の正解ラベル付き画像の前記特徴ベクトルとに基づいて、前記判別器の再生成処理を行うことを特徴とするプログラム。
第１の正解ラベル付き画像の特徴ベクトルを算出し、
算出された前記第１の正解ラベル付き画像の前記特徴ベクトルに基づいて、判別器の生成処理を行い、
前記第１の正解ラベル付き画像に基づいて、未ラベル画像の画像生成処理を行い、
生成された前記未ラベル画像の前記特徴ベクトルを算出し、
算出された前記未ラベル画像の前記特徴ベクトルに基づいて、ユーザに提示する前記未ラベル画像の画像選択処理を行い、
選択した前記未ラベル画像を表示部に出力し、
入力部から正解ラベルを取得し、取得した前記正解ラベルを、選択した前記未ラベル画像に関連付けて、第２の正解ラベル付き画像とし、選択した前記未ラベル画像の前記特徴ベクトルを、前記第２の正解ラベル付き画像の前記特徴ベクトルとし、
前記第１の正解ラベル付き画像の前記特徴ベクトルと、前記第２の正解ラベル付き画像の前記特徴ベクトルとに基づいて、前記判別器の再生成処理を行うことを特徴とする学習方法。