JP5157848B2

JP5157848B2 - 画像処理装置、画像処理方法、コンピュータプログラム、及び、情報記録媒体

Info

Publication number: JP5157848B2
Application number: JP2008301386A
Authority: JP
Inventors: 浩久稲本; 幸二小林; 酉華木原
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2008-11-26
Filing date: 2008-11-26
Publication date: 2013-03-06
Anticipated expiration: 2028-11-26
Also published as: JP2010128706A

Description

本発明は、画像処理装置、画像処理方法、コンピュータプログラム、及び、情報記録媒体に関する。

従来から、大量の画像データを容易に分類するための、様々な自動分類手段がある。例えば、特開２００６−１２８９６６号公報（特許文献１）では、撮影時の画角や被写体までの距離等の特徴量を利用して自動分類を行う発明が開示されている。また特開２００４−０６２８０４号公報（特許文献２）では、画像から色や模様といった特徴量を算出し、その特徴量により画像を自動分類する発明が開示されている。このように、自動的に画像を分類することが出来れば、ユーザの負荷をあげることなく、検索効率を劇的に向上させることができる。

ここで、分類手段に着目すると、さまざまな分類手段が考えられる。例えば、特徴量の次元が低い場合、すなわち、特徴量の種類が少ない場合には、分類規則を手作業にて作成し、ユーザに提供することが容易にできる。しかし、分類に利用する特徴量の次元は高次元であることが多いため、近年では機械学習を用いた分類規則生成が盛んになってきている。以下、分類規則生成のことを学習と呼ぶ。

例えば非特許文献１に示すＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）は、入力された未知のデータに対し精度良く分類を行うことができる。その一方で学習には非常に長い時間を要する。また、ＳＶＭに限らず、分類規則の生成アルゴリズムは高精度に分類を行う為には非常に長い学習時間を要する。

特開２００６−１２８９６６号公報特開２００４−０６２８０４号公報Ｃ．ＣｏｒｔｅｓａｎｄＶ．Ｎ．Ｖａｐｎｉｋ， "ＳｕｐｐｏｒｔｖｅｃｔｏｒＮｅｔｗｏｒｋｓ，" ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，ｖｏｌ．２０，ｐｐ．２７３−２９７，１９９５Ｃｈｉｈ−ＣｈｕｎｇＣｈａｎｇａｎｄＣｈｉｈ−ＪｅｎＬｉｎ，ＬＩＢＳＶＭ：ａｌｉｂｒａｒｙｆｏｒｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｓ，２００１．Ｙ．ＦｒｅｕｎｄａｎｄＲ．Ｓｃｈａｐｉｒｅ．Ａｓｈｏｒｔｉｎｔｒｏｄｕｃｔｉｏｎｔｏｂｏｏｓｔｉｎｇ，Ｊ．Ｊａｐａｎ．Ｓｏｃ．ｆｏｒＡｒｔｉｆ．Ｉｎｔｅｌ．１４（５）（１９９９），７７１−７８０．１１ＰａｕｌＶｉｏｌａａｎｄＭｉｃｈａｅｌＪｏｎｅｓ．Ｒａｐｉｄｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｕｓｉｎｇａｂｏｏｓｔｅｄｃａｓｃａｄｅｏｆｓｉｍｐｌｅｆｅａｔｕｒｅｓ．ＩｎＣＶＰＲ，２００１．

ところで、ユーザに対して提供する分類規則が理想的な分類規則である場合には、その分類規則をユーザに提供する前に、長い時間をかけて学習させることは有効である。しかし、必ずしもそのような分類規則が作成できるとは限らない。さらに、ユーザの好みは人によって異なるため、一のユーザが保持する画像の種類は、分類規則の学習時に予測不可能である場合も考えられる。そこで、分類規則の生成はユーザの保持する実際の画像を用いて行うことが望ましい。

しかしながら、高精度な分類規則生成には多大な時間がかかるため、高精度且つ高速に学習を行う分類規則生成手段について、上記特許文献１及び２には考慮されていない。

本発明は、上記の点に鑑みて、これらの問題を解消するために発明されたものであり、画像の分類規則を、高精度かつ高速に学習を行って生成する画像処理装置、画像処理方法、コンピュータプログラム、及び、情報記録媒体を提供することを目的としている。

上記目的を達成するために、本発明の画像処理装置は次の如き構成を採用した。

本発明の画像処理装置は、異なる複数の画像特徴のそれぞれを軸とする多次元空間に位置する複数の画像の観測データを、前記画像特徴に基づく複数のクラスに分類する分類規則を生成する画像処理装置であって、前記画像特徴の情報を付与された前記観測データである分類済データのうち、一の前記クラスの境界の近傍の分類済データである境界データを検出するデータ検出手段と、前記境界データにより、第１の分類規則を生成する第１の分類規則生成手段と、第２の分類規則を生成する際の前記分類済データ毎の重要度である重みを付与された複数の前記分類済データに基づいて分類器を生成する分類器生成処理と、前記重みを付与された複数の前記分類済データを前記分類器がクラスに分類する分類処理と、前記分類済データの重みを更新する重み付け処理と、を含む分類規則生成処理を行い前記第２の分類規則を生成する第２の分類規則生成手段と、を有し、前記第２の分類規則生成手段は、前記分類規則生成処理を１回以上繰り返し、前記重み付け処理において、前記分類済データのうち、前記分類処理により分類されたクラスに対応する画像特徴の情報と、該分類済データが前記第２の分類規則生成手段に入力される前に既に付与されている画像特徴の情報と、が異なる分類済データに対する前記重要度が高くなる重みの更新を行い、前記データ検出手段は、前記分類規則生成処理が繰り返される際の前記重みの更新の履歴に基づいて、前記境界データを検出する構成とすることができる。

これにより、画像の分類規則を、高精度かつ高速に学習を行って生成する画像処理装置を提供することができる。

なお、上記課題を解決するため、本発明は、上記画像処理装置における画像処理方法、その画像処理方法をコンピュータに実行させるためのコンピュータプログラム、及び、そのコンピュータプログラムを格納した情報記録媒体としてもよい。

本発明の画像処理装置、画像処理方法、コンピュータプログラム、及び、情報記録媒体によれば、画像の分類規則を、高精度かつ高速に学習を行って生成する画像処理装置、画像処理方法、コンピュータプログラム、及び、情報記録媒体を提供することが可能になる。

以下、本発明の実施の形態を図面に基づき説明する。

〔本発明の実施の形態〕
従来から、フラットベッドスキャナや、デジタルスチルカメラ等の、画像をデジタル信号へ変換し、ＰＣへ取り込む画像入力機器がある。デジタル信号としてＰＣへ取り込まれた画像は、ＰＣ上での閲覧、画像処理ソフトウェアを用いる編集、又は、プリンタを用いる出力等に利用される。

更に、フラットベッドスキャナの読み取り速度が高速化し、デジタルスチルカメラに搭載されているメディアが大容量化し、それに加えて、インターネットを介して、他のユーザと取り込んだ画像の共有を行うプラットフォームが台頭している。各ユーザのＰＣ上に取り込まれている画像は膨大な量になることがある。

これにより、ユーザが利用したい画像を検索するという作業が重要視されるようになりつつある。一方、画像データはテキストデータなどと違い、直接的にデータの内容を検索することが出来ない事がある。画像が文字を含んでいる場合にはＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）を行うことで、画像の内容をテキストデータに変換することが出来るので、直接的にデータの内容を検索することが出来る。

しかし、デジタルスチルカメラで撮影された画像は文字を含まないことがある。文字を含まない画像を検索するために、ユーザは画像に付加されている、デジタルスチルカメラで撮影された場所、撮影日時、撮影環境等情報を元に検索することができる。画像に付加されている情報は、画像の情報に対して間接的な情報である。

また、入力された画像を人間が手作業で所定の分類を行い、分類毎にディレクトリに入力する方法なども考えられるが、ユーザのＰＣに保持される画像の量が膨大な場合には、ユーザにかかる負荷が非常に高いものになる。

本実施の形態に係る画像処理装置は、画像の分類規則を、高精度かつ高速に学習を行って生成することにより、これらの課題を解決する。

〔第１の実施の形態〕
以下の実施の形態では、ＭｕｌｔｉＦｕｎｃｔｉｏｎＰｒｉｎｔｅｒ（以下、「ＭＦＰ」という。)を例に説明する。図１は、本実施の形態に係る分類規則生成装置１とその周辺機器とを示すブロック図である。図１の分類規則生成装置１は、ＭＦＰ１００、ＰＣ１０１、及び、表示装置１０２を有する。またＰＣ１０１には、キーボード１０３とマウス１０４とが接続されている。

ＭＦＰ１００は、画像データの入力手段であるフラットベッドスキャナを備える。フラットベッドスキャナは、原稿をＣＣＤカメラにて光学的に読み取ることで得られる電気信号を、Ａ／Ｄ変換してデジタル画像を得る。得られたデジタル画像は、ビットマップ形式やＪＰＥＧ形式等のフォーマットに変換される。

ＭＦＰ１００は、また、入力手段としてＬＡＮ端子を備える。ＬＡＮケーブルを介してＬＡＮ端子からインターネットに接続することで、ユーザにより様々なデジタル画像がＭＦＰ１００に入力される。そのようなデジタル画像は、例えば、ＦＡＸで送られる画像等である。フラットベッドスキャナで獲得した画像も、インターネットで獲得した画像も、画像の濃淡をデジタルデータで表しているという点で本質が変わらない。そこで、以下の説明の入力手段の範疇には、フラットベッドスキャナ及びＬＡＮ端子等を含むものとして説明する。

入力手段より得られたデジタル画像は、ＭＦＰ１００が有するハードディスクに入力される。ハードディスク内に蓄積された画像は、ＬＡＮを経由して、パーソナルコンピュータ（以下、「ＰＣ」という。）上で閲覧される。

ＭＦＰ１００は、さらに、出力機能としてプリンタを有する。ハードディスクに蓄積された画像は、ユーザがＰＣから操作することにより、出力される。ＭＦＰ１００は、また、Ｗｅｂページサーバとして機能する。ＰＣ等からＭＦＰ１００に割り振られたネットワークアドレスにアクセスすると、動的にＨＴＭＬファイルを生成し、ハードディスクに保持された画像を閲覧するアプリケーションが提示される。

入力手段からＭＦＰ１００のハードディスクへ画像データが格納されると、順次、図２のインデックスが作成される。図２は、画像に対して生成されるインデックスを示す図である。図２において、画像ＩＤは画像が入力された順番に割り振られる数字である。また、特徴量は画像の色やエッジ情報、模様等の画像内容に則した値が多次元ベクトルとして保持されている。また、特徴量を利用して、所定の分類規則に従って、分類された結果も同様に保持されるとよい。ここで所定の分類規則とは、例えば、機械学習を利用して作成されたものであり、出荷時には既に分類規則が登録されている。尚、分類結果は、例えば、風景、人物、生き物の３種類とする。特徴量の算出方法及び、画像の分類方法については後述する。

（ユーザの操作に対する処理）
ユーザがＰＣ１０１を操作することにより、ＭＦＰ１００内のハードディスクに蓄積された画像データへアクセスする。ＰＣ１０１には、キーボード１０３及びマウス１０４が接続しており、これらを用いてＭＦＰ１００内のハードディスクに蓄積された画像を閲覧するアプリケーションを操作することが出来る。尚、操作の経過や閲覧している画像などは表示装置１０２に表示されるものとする。

ＰＣ１０１は、例えば、ＨＴＭＬファイルを閲覧できるウェブブラウザがインストールされている。図３は、このウェブブラウザから、ＭＦＰ１００に割り振られたアドレスにアクセスする際に生成される画像を表示するＨＴＭＬファイルの例である。

図３の画面は、ディレクトリ選択部２１と画像表示部２２とを有する。ディレクトリ選択部２１において、文字列の左側に示されたアイコンはディレクトリを示すアイコンである。例えば、ユーザが「人物」ディレクリのアイコンをクリックすると、ＭＦＰ１００は図２に示す分類結果が「人物」である画像のみを抽出する。ＰＣ１０１は、抽出された画像に縮小処理を施し、画像表示部２２にて格子状に整列して表示されるようにＨＴＭＬファイルを更新する。

ユーザは、画像表示部２２に表示された画像をマウス１０４によってクリックすることで、選択し、閲覧したり、印刷したりすることが出来る。更にユーザはマウス１０４を使ってドラッグすることで画像表示部に表示された画像を異なるディレクトリに移動させることが出来る。移動が成された場合に、ハードディスクに格納されているインデックスが更新される。例えば分類結果が生き物の画像ファイルを人物ディレクトリに移動させたとき、その分類結果のインデックスは生き物に更新される。更に、移動が成された場合には出荷時に提供した分類規則がユーザの嗜好に合わなかったと判断し、ＭＦＰ１００が分類規則の再生成を行う。分類規則の生成手段については後述する。

（画像が入力される際の処理）
図４は、画像が、ＭＦＰ１００の入力手段から入力されハードディスクに蓄積されるときの処理の概略を示すものである。入力手段により画像が入力されると、画像はＭＦＰ１００内のハードディスク２０５に蓄積され、さらに、特徴量算出手段２００によって特徴量が算出される。画像は、さらに、算出された特徴量に基づいて分類手段２０１によって分類される。分類された結果は図２に示す、画像ＩＤ、ファイル名、及び、特徴量と対応づけられてハードディスクに格納される。

（特徴量算出手段２００）
特徴量算出手段２００は、例えば、色、エッジ及び模様の３種類の特徴量を算出する。本実施の形態では、前提として、画像内の各画素の色情報が、Ｒ（レッド）、Ｇ（グリーン）、Ｂ（ブルー）の３原色の階調をそれぞれ０〜２５５の２５６階調で示しているものとする。３原色の階調が何れも０である場合には、その画素の色は黒となる。また、３原色の階調が何れも２５５である場合には、その画素の色は白となる。このように、各画素には、ｓＲＧＢ表色系の３次元の色情報が割り当てられる。

エッジ特徴量の算出方法について述べる。図５は、３画素×３画素のフィルタリングマトリクスの例を示す図である。まず、画像内の画素マトリクスの各画素に対して、図４に示すフィルタリングマトリクスを用いて、たたみ込み積分を施す。画像内の注目画素に対して、図示のフィルタリングマトリクスにおける中心画素の値（４）を割り当てるとともに、その注目画素の周囲に存在する画素に対して、フィルタリングマトリクスの中心画素の周囲に存在する画素の値を割り当てる。このようなたたみ込み積分を画像全体に施して、エッジ画像を得る。

その後、所定の閾値、例えば１２８を用いて２値化する。次に画像全体を１０×１０の等サイズのブロックに等分し、それぞれの中で２値化の閾値を超えていた画素をカウントする。以上の処理により１００次元のベクトルが得られる。また、ブロックに含まれる全ての画素数で除算することで正規化し、ベクトルの各要素の値を０から１の範囲に正規化しておく。

次に色特徴量の算出方法について述べる。まず画像に含まれる画素を全て２５５で除算し、正規化する。次に、画像を次式（１）から（７）によりｓＲＧＢ表色系からＬａｂ表色系の色表現に変換する。

例えば、Ｄ６５光源を想定した場合、式（１）から（７）では、Ｘｎ＝０．９５、Ｙｎ＝１．００、Ｚｎ＝１．０９となる。Ｌａｂ表色系に変換した後、エッジ特徴量の算出と同様に、画像を１０×１０のブロックに等分し、それぞれのブロックで平均Ｌａｂを得る。得られたＬａｂは次式（８）から（１０）により０から１の範囲の値に正規化したＬ’ａ’ｂ’に変換する。以上の処理により、１００×３＝３００次元のベクトルが得られる。

次に模様特徴量の算出方法について述べる。模様特徴量の算出には、例えば、濃度共起行列が用いられる。濃度共起行列は、ある小領域において、図６に示すように、濃淡画像の明るさがｋの画素からδ（ｒ，θ）で示される相対位置に１の画素が出現する頻度をｐδ（ｒ，θ）とする。ｓＲＧＢ表色系の画像をグレー画像に変換し、その後、各画素を１６で割って余りを捨てることで１６の階調に量子化する。その後、１６の階調数をｍとして、式（１１）に基づいて１６×１６次元の濃度共起行列を得る。尚、得られたマトリクスの値を画像に含まれる画素数で割り、０から１の範囲の値に正規化しておく。

本実施の形態では、δ（１，０）、δ（１，４５）、及びδ（１，９０）の３種類の濃度共起行列を得ているため、最終的に２５６×３＝７６８次元の特徴量ベクトルが得られる。

濃度共起行列は画像の周波数情報の概略を示す特徴量であるため、テクスチャ特徴量の算出に用いることができる。なお、周波数情報の取得にはフーリエ変換を用いるとよい。また、ＭＦＰに記憶されている画像データファイルがＪＰＥＧ方式で圧縮されているものであればＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍを用いることで、容易に周波数情報を得る。以上のようにして、最終的には１００＋３００＋７６８＝１１６８次元の特徴量ベクトルが得られる。

（分類手段２０１）
図７は、分類手段２０１の構成を説明する図である。特徴量算出手段２００で出力された特徴量ベクトルを第１の分類手段３００にて人物であるかどうかの判定を行い、同様に第２の分類手段３０１では風景、第３の分類手段３０２では生き物で有るかどうかの判定を行う。それぞれの判定手段からは−１〜１の値が出力され、値が大きい程信頼度が高いと考えられる。それぞれの判定手段の出力を比較手段３０３にて比較し、最も大きいものを判定結果とする。

各判定手段は、例えば、非特許文献１に記載されているＳＶＭを利用するとよい。ＳＶＭによる識別を式（１２）に示す。式（１２）においてｘが入力ベクトル、ｘｉはサポートベクタと呼ばれる特徴量ベクトル、αｉは重み、ｔｉは入力ベクトルｘｉに対する解で−１又は１である。

Ｋ（ｘｉ，ｘ）はカーネル関数と呼ばれる関数で、例えば、式（１８）に示すＲａｄｉａｌＢａｓｉｓＦｕｎｃｔｉｏｎを利用するとよい。また、ｈは閾値である。

非特許文献１記載のＳＶＭの判定は式（１２）の右辺に更にsign(x)関数を施す。sign(x)関数はx<0なら−１を出力し、x≧なら1を出力する関数である。Sign(x)関数により、本来１又は−１を出力する。本実施例では分類の種類が３つあり、入力された画像を何れか１つに判定しなければならないことから、それぞれのsign関数に導入する前の値を以て出力としている。

分類規則はＭＦＰ１００を出荷する前に規定の規則を決定しておく。規定の分類規則とは、例えば、様々な人物画像、風景画像、生き物画像を用意し、これらから前述の特徴量算出手段２００と同様に特徴量を算出し、ＳＶＭによって生成される分類規則である。尚、ＳＶＭの分類規則生成過程では、サポートベクタxiとαとhとが算出される。

（ＳＶＭによる分類規則生成）
次にＳＶＭによる分類規則の生成方法について説明する。ＳＶＭは式（１３）で示すように入力ベクトルと重みベクトルωの内積が特定の閾値を超えていればｙ＝１を出力し、超えていなければｙ＝−１を出力する識別器である。例えば、出力ｙ＝１のとき入力画像は文書画像であり、出力ｙ＝−１のとき、入力画像が写真画像であると判定する。つまり、ＳＶＭの学習とは前記重みベクトルω、及び閾値ｈを決定する作業である。尚、特許文献１に記載のＳＶＭの学習の概要を以下で説明する。

図８は、ＳＶＭの動作の概要を示したものである。まず前提条件として、図８（ａ）において「○」と「×」とで表される二つの種類のベクトル群が存在するものとする。ＳＶＭは、これら二つのクラスを最適に分離するための超平面を決定するためのアルゴリズムである。図８（ｂ）は、超平面の例を示す図である。ＳＶＭにおいて、二つのベクトル群を最適に分割するとは、未知のベクトルが入力されたときの対応能力、つまり汎化能力を最大とするということと等価である。これを実現するために、二つのベクトル群の境界位置に存在するベクトル（ＳｕｐｐｏｒｔＶｅｃｔｏｒ）を見つけて、ＳｕｐｐｏｒｔＶｅｃｔｏｒと超平面との距離が最大となるように超平面を設定する。

ここで、実動作上、間違いの教師データも存在するため、間違いの許容量、すなわち、ソフトマージンを設定するパラメータを決める必要がある。以上は、線形ＳＶＭについての説明であるが、実際の教師データは線形判別できるベクトル群とは限らない。しかし、特徴量ベクトルを、より高次の空間に射影するカーネルトリックを行い、その空間上で超平面を求めることで、非線形な問題にも対応できる。

以上を実現するために、教師データ(xi,yi)を用いて式（１4）の条件下で式（１5）を最大化するラグランジェ乗数ベクトルαiを求める。その後、式（１６）及び式（１７）により、ラグランジェ乗数ベクトルの要素のうち０でない要素に対応する教師データ群Ｓと、そのうち、任意の一つの教師データ(x0,y0)を用いて超平面のパラメータω,hを求める。なお、教師データ群Ｓがサポートベクタとなる。

尚、式（１４）から式（１７）に於いて、K(x,y)はカーネルトリックを実現するためのカーネル関数を示す。カーネル関数には様々なものが考案されているが、本実施の形態ではＲａｄｉａｌＢａｓｉｓＦｕｎｃｔｉｏｎ（ＲＢＦ）を用いる。ＲＢＦは次式（１８）で示される関数でＣは任意の数字である。以上述べたように、ＳＶＭを用いて学習を行うにはソフトマージンの許容量を設定するパラメータγとカーネル関数であるＲＢＦを決定するためのＣを設定する必要がある。非特許文献２に示すように、Ｃを〜の範囲（ステップ幅〜）で、γを〜の範囲（ステップ幅〜）で、総当たりで識別率を算出し、最も良い識別率を算出するＣとγを決定するとよい。

（分類規則の再生性処理）
図９は、分類規則を再生成する際の処理の概要を示す図である。図９の処理は、例えば、ユーザの操作によって開始される。

図９のステップＳ４０９では、ハードディスクに格納されているインデックスから特徴量と分類結果を読み出す。第１の分類手段３００の分類規則を生成する場合ならば、分類結果が人物なら正解データを１、それ以外ならば正解データを−１として、特徴量にラベル付けすることによりサンプルを作成する。これにより、既にクラスに分類された画像データを生成することができる。

ステップＳ４００では、このサンプルを、非特許文献３に記載されているＡｄａＢｏｏｓｔによる分類規則生成を行う。また、ステップＳ４０１では、ＡｄａＢｏｏｓｔによる分類結果は利用せずに、規則生成時の過程を利用して、特徴量とサンプル数の削減を行う。更にステップＳ４０２では、ＳＶＭによる分類規則生成を行う。ここでＳＶＭによる分類規則生成については前述と同様の処理を行うものである。同様に第２の分類手段３０１と第３の分類手段３０２についても、サンプルを作成し、ＡｄａＢｏｏｓｔとＳＶＭを利用して分類規則を生成するものである。
以下、ステップＳ４００のＡｄａＢｏｏｓｔによる分類規則生成とステップＳ４０１の特徴量とサンプル数削減について詳述する。

（ＡｄａＢｏｏｓｔによる分類規則生成）
ＡｄａＢｏｏｓｔは本来、ＳＶＭと同様に分類規則の生成手段である。複数の貧弱な識別器の結果の重み付き多数決を採ることで高精度な判定結果を得ることができる。尚、ここでいう貧弱な識別器（弱識別器）と言う言葉は、それらを組み合わせて得られる高精度な識別器を強識別器と呼ぶのと対比するための言葉で、実際にはどんな識別器であっても構わない。弱識別器をどのように設計するかにもよるが、一般にＡｄａＢｏｏｓｔはＳＶＭよりも高速に分類、識別が行えると言われている。

本実施の形態では、ＡｄａＢｏｏｓｔを分類規則生成手段としては使わない。前述の通り、特徴量次元とサンプル数の削減に利用する。特徴量次元とサンプル数の削減が出来る理由について述べるために、まず、ＡｄａＢｏｏｓｔによる分類規則の生成手法について述べる。図１０は、ＡｄａＢｏｏｓｔによる分類規則の生成手法のフローを示す図である。

ステップＳ０１では、サンプルに対する重みＤ１（ｉ）を初期化する。初期化の方法は、全ての重みの和が１になってさえいれば、自由であるが、本実施の形態では、サンプル数ｍに対して各サンプルに１／ｍの重みを付ける。

ステップＳ０２では、重みの付けられたサンプルを用いて弱識別器ｈｔ（ｘｉ）の学習を行う。非特許文献３では弱識別器の規定は無く、識別率が０．５を超えてさえいれば良いとされている。本実施の形態では、特徴量次元から、或る特定の１次元を抽出し、閾値を設定する弱識別器を用いる。前述の様に特徴量は全て０〜１に正規化されているので、０．０１ステップなどで順次閾値をスキャンすれば最適な弱識別器が設定できる。

ステップＳ０２に続くステップＳ０３では、学習により得られた弱識別器により、全サンプルに対する識別を行い、間違い率ε_tを算出する。但しこの間違い率は間違えたサンプル数の割合でなく、間違えたサンプルに付けられた重みの和の割合である。前述の通り重みは合計１に正規化されているので、間違えたサンプルに付けられた重みの和を採ることで、間違い率が算出できる。

ステップＳ０３に続くステップＳ０４では、間違い率ε_tを用いて、式（１９）に基づいて弱識別器の重みαiを算出する。式（１９）は、優秀な弱識別器には高い重みを付け、劣等な弱識別器には低い重みが付くようになっている。

ステップＳ０４に続くステップＳ０５では、弱識別器の重みα_iを用い、次式（２０）及び式（２１）に基づいてサンプルの重みを更新する。式（２０）は、今回の学習で間違えたサンプルの重みを重く、正解したサンプルの重みを小さくするように設計されている。尚、Ztは更新後の重みの和が１になる正規化をするための値である。

ステップＳ０５に続くステップＳ０６では、収束確認を行う。例えばエラー率が０になった場合には収束したと言えるし、エラー率の変化が事前に設定した閾値、例えば０．０１等の範囲を超えない場合にも収束したと言える。もし、収束しなかった場合にはもう一度ステップＳ０２からステップＳ０６迄の処理を繰り返す。もし、収束した場合には、処理を終了させる。また、各学習ステップにおける各サンプルの重みをステップＳ０７において保持しておくことにする。

最終的に算出された、複数の弱識別器h_i(x)と弱識別器の重みα_iとを利用し、次式（２２）に基づいて計算を行えば識別器として利用することが出来る。但し、式（２２）においてTは収束までに学習した回数、つまり識別に利用する弱識別器の数を示している。

以上のようにして、ＡｄａＢｏｏｓｔを用いた分類規則の生成が極めて高速に行えるが、この識別器はＳＶＭにより生成される分類規則に比べると精度が良くない。そのため本実施の形態では、ＡｄａＢｏｏｓｔを識別器としては用いない。図１０のステップＳ０７において保持するサンプル重みの履歴と、各弱識別器で判定に利用する次元のみを利用する。

（サンプルの削減指針）
サンプル重みを利用することでサンプル数を削減することが出来る。例えば図１１に示すような２次元の特徴量分布が得られたとする。図１１では、○が１のラベルが付けられたサンプル、×が−１のラベルが付けられたサンプルを示す。図１１より、最終的に得たい分類規則の境界線が図中の点線になることは明らかである。
ＡｄａＢｏｏｓｔもＳＶＭもこの境界線を求めて、入力されたベクトルがそれよりも内側に存在するか、外側に存在するかを判定する識別器である。

図１２は、境界付近ではない領域に存在するサンプルを削除した場合の特徴量分布を示すものである。ここで理想的な分類規則の境界線は、図１１と同様に、点線で示したような境界線が最適である。つまり、分類規則の生成に必要なサンプルは主に異なるラベルの付けられたサンプルとの境界付近に存在するサンプルであり、それ以外の領域のサンプルは分類規則の生成のための学習に寄与させなくてもよい。

ところで、ＳＶＭはマージン最大化に基づいて境界を表すためのサンプル、すなわち、サポートベクタだけを抽出するアルゴリズムでもある。マージン最大化は未知のデータに対して正確な分類を行う汎化性能に優れた手法ではあるが、全てのサンプルについてマージン最大化を考えた結果、非常に低速な処理になる。そこで本実施の形態では、単純ではあるが、極めて高速なＡｄａＢｏｏｓｔを用いることで、境界付近のサンプルだけを抽出し、その後マージン最大化により高汎化性能な識別を行う。

（サンプル重みの履歴によるサンプル数の削減方法）
本実施の形態では、ＡｄａＢｏｏｓｔの学習過程で算出される重みの履歴を利用することで異なるラベルの付いたサンプルの境界付近に存在するサンプルを抽出することを特徴とする。以下、重みの履歴を利用することで境界付近に存在するサンプルが抽出できることを説明する。

図１３は、特徴量のサンプルの例である。図１３において、○は１のラベルが付いたサンプルであり、□は−１のラベルが付いたサンプルである。

図１４は、図１３のサンプルに対してＡｄａＢｏｏｓｔにより分類規則の生成を行った結果を示す図である。図１４において背景の色が変化した領域が、ＡｄａＢｏｏｓｔにより得られた境界である。また、○及び□の大きさは、学習時のサンプル重みの平均値である。識別境界付近では比較的大きな平均値が得られているのに対して、識別境界から離れた領域、すなわち、図１４中左上及び右下では非常に小さな平均値になっている。

ＡｄａＢｏｏｓｔの学習過程においては、図１０のステップＳ０２からステップＳ０６のループで作成された弱識別器により、間違えたサンプルの重みは大きくなり、正解したサンプルの重みは小さくなる。境界付近に存在するサンプルは、様々な弱識別器によって誤判別されてしまうので、学習が完了した後、ループ毎の重みの平均値をとると、重くなる傾向がある。一方、境界付近から遠い場所に存在するサンプルは様々な弱識別器に間違えられることがないので、ループ毎の重みの平均値は軽くなる傾向がある。

以上の理由から、本実施の形態では、全てのサンプルに対してループ毎の平均重み、すなわち、図１４の○及び□の大きさの平均値Ｓを算出する。本実施の形態では、さらに、Ｓ／２を超えるサンプルは重要なサンプル、Ｓ／２より小さいサンプルは重要でないサンプルとする。このように、ＡｄａＢｏｏｓｔの学習過程で生じた重みの経過を利用することで境界面から遠いサンプルをＳＶＭによる学習から省くことが出来る。

本実施の形態では、さらに、サンプルの平均重みＳの５倍以上の場合は、ＳＶＭによる学習からサンプルを省くようにしている。図１５は、明らかにノイズであるサンプルを加えた例である。ノイズは、図１５の真ん中の下辺りにある○サンプルである。図１６は、図１５の例に対応する重みの平均の分布を示す図である。図１５及び図１６に示すように、周辺に違うラベルのついたサンプルが多数存在し、同じラベルのついたサンプルが殆ど無い場合、極端に平均重みが大きくなってしまう。そこで、平均重みが極端に多い場合にはＳＶＭの学習サンプルから除くことにより、ノイズの影響を軽減することができるため、識別精度が向上する。

また本実施の形態では、平均重みがＳ／２以下の重要でないサンプルについては、全てを削除するのではなく、ランダムに１％を残す構成とした。このような構成とした理由は境界面以外のデータを全部削除してしまって空白のデータの存在しない領域が発生してしまうと、ノイズ成分によって予期しない識別平面が出来てしまうことを防ぐためである。

図１６（ａ）は、データセットの例である。図１６（ａ）において、最適な識別平面を太線で表す。図１６（ｂ）は、識別平面から離れた領域のデータを全て削除した例である。図１６（ｂ）の例のように、左上の×がノイズとして扱われず、それによって思わぬ識別平面が発生してしまう場合がある。本構成のように境界面から離れたデータを一部残し、空白の領域を出来るだけ作らないようにすると、図１６（ｂ）のような、予期しない識別平面の発生確率を低減できる。

（特徴量次元削減方法）
本実施の形態では、サンプル数の削減による学習の高速化手段を提示しているが、本実施の形態で利用している弱識別器は、特定の次元にだけ着目する。そのため、学習により得られた各弱識別器が注目した次元により、分類に対して重要な特徴量と、重要でない特徴量とを分けることが出来る。一般に、今回算出した特徴量が全て分類に重要であることは少なく、実際にはもっと少ない次元の特徴量で、分類することが可能である。つまり、ＳＶＭによる学習時の特徴量を削減することが出来るので、より高速なＳＶＭによる学習が行える。尚、この特徴量削減手法は、非特許文献４に述べられている手法と同様である。非特許文献４は、特徴量次元を削減することにより、識別時の高速化を図っている。一方、本実施の形態では学習時の高速化を図っている。

〔第２の実施の形態〕
本発明の第２の実施の形態は、第１の実施の形態と、ほぼ構成を同じくするものであるが、学習サンプル数を削減する為の境界付近に存在するデータの抽出方法が異なる。第１の実施の形態ではＡｄａＢｏｏｓｔを用いてサンプルを抽出したが、本実施の形態では、各サンプルの近傍に存在するサンプルのラベルを調べることでサンプルの抽出を行う。

まずサンプル群の中から１つのサンプルに着目し、そのサンプルに対するユークリッド空間上での近傍の５つのサンプルを抽出する。５つのサンプルのうち、１つでも基のサンプルと異なるラベルが付いたサンプルが存在していた場合、基のサンプルは境界付近に存在するとする。もし、５つのサンプル全てが基のサンプルと同じラベルであった場合、基のサンプルは境界付近には存在しないとして、ＳＶＭによる学習には利用しない。同様の処理を全てのサンプルに対して行うことで、境界付近だけのサンプルを利用して学習を行うことが出来る。このように必ずしもＡｄａＢｏｏｓｔを利用しなくても境界付近に存在するサンプルを検出して、ＳＶＭによる学習を高速に行うことも可能である。

（コンピュータ等による実現）
なお、本発明の実施の形態に係る画像処理装置は、例えばパーソナルコンピュータ（ＰＣ）等で実現されてもよい。また、本発明の実施形態に係る画像処理方法は、例えば、ＣＰＵがＲＯＭやハードディスク装置等に記憶されたプログラムに従い、ＲＡＭ等のメインメモリをワークエリアとして使用し、実行される。

以上、発明を実施するための最良の形態について説明を行ったが、本発明は、この最良の形態で述べた実施の形態に限定されるものではない。本発明の主旨をそこなわない範囲で変更することが可能である。

本実施の形態に係る分類規則生成装置１とその周辺機器とを示すブロック図である。画像に対して生成されるインデックスを説明する図である。ウェブブラウザから、ＭＦＰ１００に割り振られたアドレスにアクセスする際に生成される画像を表示するＨＴＭＬファイルの例である。画像がＭＦＰ１００の入力手段から入力されハードディスクに蓄積されるときの処理の概略を示す図である。３画素×３画素のフィルタリングマトリクスの例を示す図である。ｋの画素からδ（ｒ，θ）で示される相対位置を示す図である。分類手段２０１の構成を説明する図である。 SVMの動作の概要を示す図である。分類規則を再生成する際の処理の概要を示す図である。ＡｄａＢｏｏｓｔによる分類規則の生成手法のフローを示す図である。２次元の特徴量分布の例を示す図である。境界付近ではない領域に存在するサンプルを削除した場合の特徴量分布を示す図である。特徴量のサンプルの例である。ＡｄａＢｏｏｓｔにより分類規則の生成を行った結果を示す図である。明らかにノイズであるサンプルを加えた例を示す図である。データセットの例を示す図である。

符号の説明

２１ディレクトリ選択部
２２画像表示部
１０２表示装置
１０３キーボード
１０４マウス
２００特徴量算出手段
２０１分類手段
２０５ハードディスク
３００第一の分類手段
３０１第二の分類手段
３０２第三の分類手段
３０３比較手段

Claims

異なる複数の画像特徴のそれぞれを軸とする多次元空間に位置する複数の画像の観測データを、前記画像特徴に基づく複数のクラスに分類する分類規則を生成する画像処理装置であって、
前記画像特徴の情報を付与された前記観測データである分類済データのうち、一の前記クラスの境界の近傍の分類済データである境界データを検出するデータ検出手段と、
前記境界データにより、第１の分類規則を生成する第１の分類規則生成手段と、
第２の分類規則を生成する際の前記分類済データ毎の重要度である重みを付与された複数の前記分類済データに基づいて分類器を生成する分類器生成処理と、前記重みを付与された複数の前記分類済データを前記分類器がクラスに分類する分類処理と、前記分類済データの重みを更新する重み付け処理と、を含む分類規則生成処理を行い前記第２の分類規則を生成する第２の分類規則生成手段と、
を有し、
前記第２の分類規則生成手段は、前記分類規則生成処理を１回以上繰り返し、前記重み付け処理において、前記分類済データのうち、前記分類処理により分類されたクラスに対応する画像特徴の情報と、該分類済データが前記第２の分類規則生成手段に入力される前に既に付与されている画像特徴の情報と、が異なる分類済データに対する前記重要度が高くなる重みの更新を行い、
前記データ検出手段は、前記分類規則生成処理が繰り返される際の前記重みの更新の履歴に基づいて、前記境界データを検出する
ことを特徴とする画像処理装置。
前記重みの更新の履歴は、前記分類規則生成処理毎に付与される重みの平均値であり、
前記第２の分類規則生成手段は、繰り返される前記分類規則生成処理のうち一の前記分類規則生成処理において、前記平均値が第１の所定の値より大きい分類済データを選択して、前記一の分類規則生成処理を行うことを特徴とする請求項１記載の画像処理装置。
前記第２の分類規則生成手段は、繰り返される前記分類規則生成処理のうち一の前記分類規則生成処理において、前記平均値が第２の所定の値より大きい分類済データを、前記一の分類規則生成処理に用いないことを特徴とする請求項２記載の画像処理装置。
前記データ検出手段は、
異なる複数の前記分類済データの間の距離を算出する距離算出手段と、
前記距離算出手段により算出された距離に基づき、複数の前記分類済データのうち一の分類済データに最も近接する他の二以上の分類済データを抽出する近接データ抽出手段と、
前記一の分類済データの画像特徴の情報と前記他の二以上の分類済データの画像特徴の情報と、を比較することにより、該一の分類済データが境界データであるか否かを判定する判定手段と、
を有することを特徴とする請求項１ないし３何れか一項記載の画像処理装置。
異なる複数の画像特徴のそれぞれを軸とする多次元空間に位置する複数の画像の観測データを、前記画像特徴に基づく複数のクラスに分類する分類規則を生成する画像処理装置における画像処理方法であって、
前記画像特徴の情報を付与された前記観測データである分類済データのうち、一の前記クラスの境界の近傍の分類済データである境界データを検出するデータ検出ステップと、
前記境界データにより、第１の分類規則を生成する第１の分類規則生成ステップと、
第２の分類規則を生成する際の前記分類済データ毎の重要度である重みを付与された複数の前記分類済データに基づいて分類器を生成する分類器生成処理と、前記重みを付与された複数の前記分類済データを前記分類器がクラスに分類する分類処理と、前記分類済データの重みを更新する重み付け処理と、を含む分類規則生成処理を行い前記第２の分類規則を生成する第２の分類規則生成ステップと、
を有し、
前記第２の分類規則生成ステップにおいて、前記分類規則生成処理を１回以上繰り返し、前記重み付け処理において、前記分類済データのうち、前記分類処理により分類されたクラスに対応する画像特徴の情報と、該分類済データが前記第２の分類規則生成ステップにおいて入力される前に既に付与されている画像特徴の情報と、が異なる分類済データに対する前記重要度が高くなる重みの更新を行い、
前記データ検出ステップにおいて、前記分類規則生成処理が繰り返される際の前記重みの更新の履歴に基づいて、前記境界データを検出する
ことを有することを特徴とする画像処理方法。
前記データ検出ステップは、
異なる複数の前記分類済データの間の距離を算出する距離算出ステップと、
前記距離算出ステップにおいて算出された距離に基づき、複数の前記分類済データのうち一の分類済データに最も近接する他の二以上の分類済データを抽出する近接データ抽出ステップと、
前記一の分類済データの画像特徴の情報と前記他の二以上の分類済データの画像特徴の情報と、を比較することにより、該一の分類済データが境界データであるか否かを判定する判定ステップと、
を有することを特徴とする請求項５記載の画像処理方法。
請求項５、及び６記載の画像処理方法をコンピュータに実行させるためのコンピュータプログラム。
請求項７記載のコンピュータプログラムを記録したことを特徴とするコンピュータ読み取り可能な情報記録媒体。