JP5157848B2 - 画像処理装置、画像処理方法、コンピュータプログラム、及び、情報記録媒体 - Google Patents

画像処理装置、画像処理方法、コンピュータプログラム、及び、情報記録媒体 Download PDF

Info

Publication number
JP5157848B2
JP5157848B2 JP2008301386A JP2008301386A JP5157848B2 JP 5157848 B2 JP5157848 B2 JP 5157848B2 JP 2008301386 A JP2008301386 A JP 2008301386A JP 2008301386 A JP2008301386 A JP 2008301386A JP 5157848 B2 JP5157848 B2 JP 5157848B2
Authority
JP
Japan
Prior art keywords
data
classification rule
classified data
classification
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008301386A
Other languages
English (en)
Other versions
JP2010128706A (ja
Inventor
浩久 稲本
幸二 小林
酉華 木原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2008301386A priority Critical patent/JP5157848B2/ja
Publication of JP2010128706A publication Critical patent/JP2010128706A/ja
Application granted granted Critical
Publication of JP5157848B2 publication Critical patent/JP5157848B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、画像処理装置、画像処理方法、コンピュータプログラム、及び、情報記録媒体に関する。
従来から、大量の画像データを容易に分類するための、様々な自動分類手段がある。例えば、特開2006−128966号公報(特許文献1)では、撮影時の画角や被写体までの距離等の特徴量を利用して自動分類を行う発明が開示されている。また特開2004−062804号公報(特許文献2)では、画像から色や模様といった特徴量を算出し、その特徴量により画像を自動分類する発明が開示されている。このように、自動的に画像を分類することが出来れば、ユーザの負荷をあげることなく、検索効率を劇的に向上させることができる。
ここで、分類手段に着目すると、さまざまな分類手段が考えられる。例えば、特徴量の次元が低い場合、すなわち、特徴量の種類が少ない場合には、分類規則を手作業にて作成し、ユーザに提供することが容易にできる。しかし、分類に利用する特徴量の次元は高次元であることが多いため、近年では機械学習を用いた分類規則生成が盛んになってきている。以下、分類規則生成のことを学習と呼ぶ。
例えば非特許文献1に示すSVM(Support Vector Machine)は、入力された未知のデータに対し精度良く分類を行うことができる。その一方で学習には非常に長い時間を要する。また、SVMに限らず、分類規則の生成アルゴリズムは高精度に分類を行う為には非常に長い学習時間を要する。
特開2006−128966号公報 特開2004−062804号公報 C. Cortes and V.N. Vapnik, "Support vector Networks," Machine Learning, vol.20, pp.273−297, 1995 Chih−Chung Chang and Chih−Jen Lin, LIBSVM : a library for support vector machines, 2001. Y. Freund and R. Schapire. A short introduction to boosting, J. Japan. Soc. for Artif. Intel. 14(5) (1999), 771−780. 11 Paul Viola and Michael Jones. Rapid object detection using a boosted cascade of simple features. In CVPR, 2001.
ところで、ユーザに対して提供する分類規則が理想的な分類規則である場合には、その分類規則をユーザに提供する前に、長い時間をかけて学習させることは有効である。しかし、必ずしもそのような分類規則が作成できるとは限らない。さらに、ユーザの好みは人によって異なるため、一のユーザが保持する画像の種類は、分類規則の学習時に予測不可能である場合も考えられる。そこで、分類規則の生成はユーザの保持する実際の画像を用いて行うことが望ましい。
しかしながら、高精度な分類規則生成には多大な時間がかかるため、高精度且つ高速に学習を行う分類規則生成手段について、上記特許文献1及び2には考慮されていない。
本発明は、上記の点に鑑みて、これらの問題を解消するために発明されたものであり、画像の分類規則を、高精度かつ高速に学習を行って生成する画像処理装置、画像処理方法、コンピュータプログラム、及び、情報記録媒体を提供することを目的としている。
上記目的を達成するために、本発明の画像処理装置は次の如き構成を採用した。
本発明の画像処理装置は、異なる複数の画像特徴のそれぞれを軸とする多次元空間に位置する複数の画像の観測データを、前記画像特徴に基づく複数のクラスに分類する分類規則を生成する画像処理装置であって、前記画像特徴の情報を付与された前記観測データである分類済データのうち、一の前記クラスの境界の近傍の分類済データである境界データを検出するデータ検出手段と、前記境界データにより、第1の分類規則を生成する第1の分類規則生成手段と、第2の分類規則を生成する際の前記分類済データ毎の重要度である重みを付与された複数の前記分類済データに基づいて分類器を生成する分類器生成処理と、前記重みを付与された複数の前記分類済データを前記分類器がクラスに分類する分類処理と、前記分類済データの重みを更新する重み付け処理と、を含む分類規則生成処理を行い前記第2の分類規則を生成する第2の分類規則生成手段と、を有し、前記第2の分類規則生成手段は、前記分類規則生成処理を1回以上繰り返し、前記重み付け処理において、前記分類済データのうち、前記分類処理により分類されたクラスに対応する画像特徴の情報と、該分類済データが前記第2の分類規則生成手段に入力される前に既に付与されている画像特徴の情報と、が異なる分類済データに対する前記重要度が高くなる重みの更新を行い、前記データ検出手段は、前記分類規則生成処理が繰り返される際の前記重みの更新の履歴に基づいて、前記境界データを検出する構成とすることができる。
これにより、画像の分類規則を、高精度かつ高速に学習を行って生成する画像処理装置を提供することができる。
なお、上記課題を解決するため、本発明は、上記画像処理装置における画像処理方法、その画像処理方法をコンピュータに実行させるためのコンピュータプログラム、及び、そのコンピュータプログラムを格納した情報記録媒体としてもよい。
本発明の画像処理装置、画像処理方法、コンピュータプログラム、及び、情報記録媒体によれば、画像の分類規則を、高精度かつ高速に学習を行って生成する画像処理装置、画像処理方法、コンピュータプログラム、及び、情報記録媒体を提供することが可能になる。
以下、本発明の実施の形態を図面に基づき説明する。
〔本発明の実施の形態〕
従来から、フラットベッドスキャナや、デジタルスチルカメラ等の、画像をデジタル信号へ変換し、PCへ取り込む画像入力機器がある。デジタル信号としてPCへ取り込まれた画像は、PC上での閲覧、画像処理ソフトウェアを用いる編集、又は、プリンタを用いる出力等に利用される。
更に、フラットベッドスキャナの読み取り速度が高速化し、デジタルスチルカメラに搭載されているメディアが大容量化し、それに加えて、インターネットを介して、他のユーザと取り込んだ画像の共有を行うプラットフォームが台頭している。各ユーザのPC上に取り込まれている画像は膨大な量になることがある。
これにより、ユーザが利用したい画像を検索するという作業が重要視されるようになりつつある。一方、画像データはテキストデータなどと違い、直接的にデータの内容を検索することが出来ない事がある。画像が文字を含んでいる場合にはOCR(Optical Character Recognition)を行うことで、画像の内容をテキストデータに変換することが出来るので、直接的にデータの内容を検索することが出来る。
しかし、デジタルスチルカメラで撮影された画像は文字を含まないことがある。文字を含まない画像を検索するために、ユーザは画像に付加されている、デジタルスチルカメラで撮影された場所、撮影日時、撮影環境等情報を元に検索することができる。画像に付加されている情報は、画像の情報に対して間接的な情報である。
また、入力された画像を人間が手作業で所定の分類を行い、分類毎にディレクトリに入力する方法なども考えられるが、ユーザのPCに保持される画像の量が膨大な場合には、ユーザにかかる負荷が非常に高いものになる。
本実施の形態に係る画像処理装置は、画像の分類規則を、高精度かつ高速に学習を行って生成することにより、これらの課題を解決する。
〔第1の実施の形態〕
以下の実施の形態では、Multi Function Printer(以下、「MFP」という。)を例に説明する。図1は、本実施の形態に係る分類規則生成装置1とその周辺機器とを示すブロック図である。図1の分類規則生成装置1は、MFP100、PC101、及び、表示装置102を有する。またPC101には、キーボード103とマウス104とが接続されている。
MFP100は、画像データの入力手段であるフラットベッドスキャナを備える。フラットベッドスキャナは、原稿をCCDカメラにて光学的に読み取ることで得られる電気信号を、A/D変換してデジタル画像を得る。得られたデジタル画像は、ビットマップ形式やJPEG形式等のフォーマットに変換される。
MFP100は、また、入力手段としてLAN端子を備える。LANケーブルを介してLAN端子からインターネットに接続することで、ユーザにより様々なデジタル画像がMFP100に入力される。そのようなデジタル画像は、例えば、FAXで送られる画像等である。フラットベッドスキャナで獲得した画像も、インターネットで獲得した画像も、画像の濃淡をデジタルデータで表しているという点で本質が変わらない。そこで、以下の説明の入力手段の範疇には、フラットベッドスキャナ及びLAN端子等を含むものとして説明する。
入力手段より得られたデジタル画像は、MFP100が有するハードディスクに入力される。ハードディスク内に蓄積された画像は、LANを経由して、パーソナルコンピュータ(以下、「PC」という。)上で閲覧される。
MFP100は、さらに、出力機能としてプリンタを有する。ハードディスクに蓄積された画像は、ユーザがPCから操作することにより、出力される。MFP100は、また、Webページサーバとして機能する。PC等からMFP100に割り振られたネットワークアドレスにアクセスすると、動的にHTMLファイルを生成し、ハードディスクに保持された画像を閲覧するアプリケーションが提示される。
入力手段からMFP100のハードディスクへ画像データが格納されると、順次、図2のインデックスが作成される。図2は、画像に対して生成されるインデックスを示す図である。図2において、画像IDは画像が入力された順番に割り振られる数字である。また、特徴量は画像の色やエッジ情報、模様等の画像内容に則した値が多次元ベクトルとして保持されている。また、特徴量を利用して、所定の分類規則に従って、分類された結果も同様に保持されるとよい。ここで所定の分類規則とは、例えば、機械学習を利用して作成されたものであり、出荷時には既に分類規則が登録されている。尚、分類結果は、例えば、風景、人物、生き物の3種類とする。特徴量の算出方法及び、画像の分類方法については後述する。
(ユーザの操作に対する処理)
ユーザがPC101を操作することにより、MFP100内のハードディスクに蓄積された画像データへアクセスする。PC101には、キーボード103及びマウス104が接続しており、これらを用いてMFP100内のハードディスクに蓄積された画像を閲覧するアプリケーションを操作することが出来る。尚、操作の経過や閲覧している画像などは表示装置102に表示されるものとする。
PC101は、例えば、HTMLファイルを閲覧できるウェブブラウザがインストールされている。図3は、このウェブブラウザから、MFP100に割り振られたアドレスにアクセスする際に生成される画像を表示するHTMLファイルの例である。
図3の画面は、ディレクトリ選択部21と画像表示部22とを有する。ディレクトリ選択部21において、文字列の左側に示されたアイコンはディレクトリを示すアイコンである。例えば、ユーザが「人物」ディレクリのアイコンをクリックすると、MFP100は図2に示す分類結果が「人物」である画像のみを抽出する。PC101は、抽出された画像に縮小処理を施し、画像表示部22にて格子状に整列して表示されるようにHTMLファイルを更新する。
ユーザは、画像表示部22に表示された画像をマウス104によってクリックすることで、選択し、閲覧したり、印刷したりすることが出来る。更にユーザはマウス104を使ってドラッグすることで画像表示部に表示された画像を異なるディレクトリに移動させることが出来る。移動が成された場合に、ハードディスクに格納されているインデックスが更新される。例えば分類結果が生き物の画像ファイルを人物ディレクトリに移動させたとき、その分類結果のインデックスは生き物に更新される。更に、移動が成された場合には出荷時に提供した分類規則がユーザの嗜好に合わなかったと判断し、MFP100が分類規則の再生成を行う。分類規則の生成手段については後述する。
(画像が入力される際の処理)
図4は、画像が、MFP100の入力手段から入力されハードディスクに蓄積されるときの処理の概略を示すものである。入力手段により画像が入力されると、画像はMFP100内のハードディスク205に蓄積され、さらに、特徴量算出手段200によって特徴量が算出される。画像は、さらに、算出された特徴量に基づいて分類手段201によって分類される。分類された結果は図2に示す、画像ID、ファイル名、及び、特徴量と対応づけられてハードディスクに格納される。
(特徴量算出手段200)
特徴量算出手段200は、例えば、色、エッジ及び模様の3種類の特徴量を算出する。本実施の形態では、前提として、画像内の各画素の色情報が、R(レッド)、G(グリーン)、B(ブルー)の3原色の階調をそれぞれ0〜255の256階調で示しているものとする。3原色の階調が何れも0である場合には、その画素の色は黒となる。また、3原色の階調が何れも255である場合には、その画素の色は白となる。このように、各画素には、sRGB表色系の3次元の色情報が割り当てられる。
エッジ特徴量の算出方法について述べる。図5は、3画素×3画素のフィルタリングマトリクスの例を示す図である。まず、画像内の画素マトリクスの各画素に対して、図4に示すフィルタリングマトリクスを用いて、たたみ込み積分を施す。画像内の注目画素に対して、図示のフィルタリングマトリクスにおける中心画素の値(4)を割り当てるとともに、その注目画素の周囲に存在する画素に対して、フィルタリングマトリクスの中心画素の周囲に存在する画素の値を割り当てる。このようなたたみ込み積分を画像全体に施して、エッジ画像を得る。
その後、所定の閾値、例えば128を用いて2値化する。次に画像全体を10×10の等サイズのブロックに等分し、それぞれの中で2値化の閾値を超えていた画素をカウントする。以上の処理により100次元のベクトルが得られる。また、ブロックに含まれる全ての画素数で除算することで正規化し、ベクトルの各要素の値を0から1の範囲に正規化しておく。
次に色特徴量の算出方法について述べる。まず画像に含まれる画素を全て255で除算し、正規化する。次に、画像を次式(1)から(7)によりsRGB表色系からLab表色系の色表現に変換する。
Figure 0005157848
例えば、D65光源を想定した場合、式(1)から(7)では、Xn=0.95、Yn=1.00、Zn=1.09となる。Lab表色系に変換した後、エッジ特徴量の算出と同様に、画像を10×10のブロックに等分し、それぞれのブロックで平均Labを得る。得られたLabは次式(8)から(10)により0から1の範囲の値に正規化したL’a’b’に変換する。以上の処理により、100×3=300次元のベクトルが得られる。
Figure 0005157848
次に模様特徴量の算出方法について述べる。模様特徴量の算出には、例えば、濃度共起行列が用いられる。濃度共起行列は、ある小領域において、図6に示すように、濃淡画像の明るさがkの画素からδ(r,θ)で示される相対位置に1の画素が出現する頻度をpδ(r,θ)とする。sRGB表色系の画像をグレー画像に変換し、その後、各画素を16で割って余りを捨てることで16の階調に量子化する。その後、16の階調数をmとして、式(11)に基づいて16×16次元の濃度共起行列を得る。尚、得られたマトリクスの値を画像に含まれる画素数で割り、0から1の範囲の値に正規化しておく。
Figure 0005157848
本実施の形態では、δ(1,0)、δ(1,45)、及びδ(1,90)の3種類の濃度共起行列を得ているため、最終的に256×3=768次元の特徴量ベクトルが得られる。
濃度共起行列は画像の周波数情報の概略を示す特徴量であるため、テクスチャ特徴量の算出に用いることができる。なお、周波数情報の取得にはフーリエ変換を用いるとよい。また、MFPに記憶されている画像データファイルがJPEG方式で圧縮されているものであればDiscrete Cosine Transformを用いることで、容易に周波数情報を得る。以上のようにして、最終的には100+300+768=1168次元の特徴量ベクトルが得られる。
(分類手段201)
図7は、分類手段201の構成を説明する図である。特徴量算出手段200で出力された特徴量ベクトルを第1の分類手段300にて人物であるかどうかの判定を行い、同様に第2の分類手段301では風景、第3の分類手段302では生き物で有るかどうかの判定を行う。それぞれの判定手段からは−1〜1の値が出力され、値が大きい程信頼度が高いと考えられる。それぞれの判定手段の出力を比較手段303にて比較し、最も大きいものを判定結果とする。
各判定手段は、例えば、非特許文献1に記載されているSVMを利用するとよい。SVMによる識別を式(12)に示す。式(12)においてxが入力ベクトル、xiはサポートベクタと呼ばれる特徴量ベクトル、αiは重み、tiは入力ベクトルxiに対する解で−1又は1である。
Figure 0005157848
K(xi,x)はカーネル関数と呼ばれる関数で、例えば、式(18)に示すRadial Basis Functionを利用するとよい。また、hは閾値である。
非特許文献1記載のSVMの判定は式(12)の右辺に更にsign(x)関数を施す。sign(x)関数はx<0なら−1を出力し、x≧なら1を出力する関数である。Sign(x)関数により、本来1又は−1を出力する。本実施例では分類の種類が3つあり、入力された画像を何れか1つに判定しなければならないことから、それぞれのsign関数に導入する前の値を以て出力としている。
分類規則はMFP100を出荷する前に規定の規則を決定しておく。規定の分類規則とは、例えば、様々な人物画像、風景画像、生き物画像を用意し、これらから前述の特徴量算出手段200と同様に特徴量を算出し、SVMによって生成される分類規則である。尚、SVMの分類規則生成過程では、サポートベクタxiとαとhとが算出される。
(SVMによる分類規則生成)
次にSVMによる分類規則の生成方法について説明する。SVMは式(13)で示すように入力ベクトルと重みベクトルωの内積が特定の閾値を超えていればy=1を出力し、超えていなければy=−1を出力する識別器である。例えば、出力y=1のとき入力画像は文書画像であり、出力y=−1のとき、入力画像が写真画像であると判定する。つまり、SVMの学習とは前記重みベクトルω、及び閾値hを決定する作業である。尚、特許文献1に記載のSVMの学習の概要を以下で説明する。
Figure 0005157848
図8は、SVMの動作の概要を示したものである。まず前提条件として、図8(a)において「○」と「×」とで表される二つの種類のベクトル群が存在するものとする。SVMは、これら二つのクラスを最適に分離するための超平面を決定するためのアルゴリズムである。図8(b)は、超平面の例を示す図である。SVMにおいて、二つのベクトル群を最適に分割するとは、未知のベクトルが入力されたときの対応能力、つまり汎化能力を最大とするということと等価である。これを実現するために、二つのベクトル群の境界位置に存在するベクトル(Support Vector)を見つけて、Support Vectorと超平面との距離が最大となるように超平面を設定する。
ここで、実動作上、間違いの教師データも存在するため、間違いの許容量、すなわち、ソフトマージンを設定するパラメータを決める必要がある。以上は、線形SVMについての説明であるが、実際の教師データは線形判別できるベクトル群とは限らない。しかし、特徴量ベクトルを、より高次の空間に射影するカーネルトリックを行い、その空間上で超平面を求めることで、非線形な問題にも対応できる。
以上を実現するために、教師データ(xi,yi)を用いて式(14)の条件下で式(15)を最大化するラグランジェ乗数ベクトルαiを求める。その後、式(16)及び式(17)により、ラグランジェ乗数ベクトルの要素のうち0でない要素に対応する教師データ群Sと、そのうち、任意の一つの教師データ(x0,y0)を用いて超平面のパラメータω,hを求める。なお、教師データ群Sがサポートベクタとなる。
Figure 0005157848
尚、式(14)から式(17)に於いて、K(x,y)はカーネルトリックを実現するためのカーネル関数を示す。カーネル関数には様々なものが考案されているが、本実施の形態ではRadial Basis Function(RBF)を用いる。RBFは次式(18)で示される関数でCは任意の数字である。以上述べたように、SVMを用いて学習を行うにはソフトマージンの許容量を設定するパラメータγとカーネル関数であるRBFを決定するためのCを設定する必要がある。非特許文献2に示すように、Cを〜の範囲(ステップ幅〜)で、γを〜の範囲(ステップ幅〜)で、総当たりで識別率を算出し、最も良い識別率を算出するCとγを決定するとよい。
Figure 0005157848
(分類規則の再生性処理)
図9は、分類規則を再生成する際の処理の概要を示す図である。図9の処理は、例えば、ユーザの操作によって開始される。
図9のステップS409では、ハードディスクに格納されているインデックスから特徴量と分類結果を読み出す。第1の分類手段300の分類規則を生成する場合ならば、分類結果が人物なら正解データを1、それ以外ならば正解データを−1として、特徴量にラベル付けすることによりサンプルを作成する。これにより、既にクラスに分類された画像データを生成することができる。
ステップS400では、このサンプルを、非特許文献3に記載されているAdaBoostによる分類規則生成を行う。また、ステップS401では、AdaBoostによる分類結果は利用せずに、規則生成時の過程を利用して、特徴量とサンプル数の削減を行う。更にステップS402では、SVMによる分類規則生成を行う。ここでSVMによる分類規則生成については前述と同様の処理を行うものである。同様に第2の分類手段301と第3の分類手段302についても、サンプルを作成し、AdaBoostとSVMを利用して分類規則を生成するものである。
以下、ステップS400のAdaBoostによる分類規則生成とステップS401の特徴量とサンプル数削減について詳述する。
(AdaBoostによる分類規則生成)
AdaBoostは本来、SVMと同様に分類規則の生成手段である。複数の貧弱な識別器の結果の重み付き多数決を採ることで高精度な判定結果を得ることができる。尚、ここでいう貧弱な識別器(弱識別器)と言う言葉は、それらを組み合わせて得られる高精度な識別器を強識別器と呼ぶのと対比するための言葉で、実際にはどんな識別器であっても構わない。弱識別器をどのように設計するかにもよるが、一般にAdaBoostはSVMよりも高速に分類、識別が行えると言われている。
本実施の形態では、AdaBoostを分類規則生成手段としては使わない。前述の通り、特徴量次元とサンプル数の削減に利用する。特徴量次元とサンプル数の削減が出来る理由について述べるために、まず、AdaBoostによる分類規則の生成手法について述べる。図10は、AdaBoostによる分類規則の生成手法のフローを示す図である。
ステップS01では、サンプルに対する重みD1(i)を初期化する。初期化の方法は、全ての重みの和が1になってさえいれば、自由であるが、本実施の形態では、サンプル数mに対して各サンプルに1/mの重みを付ける。
ステップS02では、重みの付けられたサンプルを用いて弱識別器ht(xi)の学習を行う。非特許文献3では弱識別器の規定は無く、識別率が0.5を超えてさえいれば良いとされている。本実施の形態では、特徴量次元から、或る特定の1次元を抽出し、閾値を設定する弱識別器を用いる。前述の様に特徴量は全て0〜1に正規化されているので、0.01ステップなどで順次閾値をスキャンすれば最適な弱識別器が設定できる。
ステップS02に続くステップS03では、学習により得られた弱識別器により、全サンプルに対する識別を行い、間違い率εtを算出する。但しこの間違い率は間違えたサンプル数の割合でなく、間違えたサンプルに付けられた重みの和の割合である。前述の通り重みは合計1に正規化されているので、間違えたサンプルに付けられた重みの和を採ることで、間違い率が算出できる。
ステップS03に続くステップS04では、間違い率εtを用いて、式(19)に基づいて弱識別器の重みαiを算出する。式(19)は、優秀な弱識別器には高い重みを付け、劣等な弱識別器には低い重みが付くようになっている。
Figure 0005157848
ステップS04に続くステップS05では、弱識別器の重みαiを用い、次式(20)及び式(21)に基づいてサンプルの重みを更新する。式(20)は、今回の学習で間違えたサンプルの重みを重く、正解したサンプルの重みを小さくするように設計されている。尚、Ztは更新後の重みの和が1になる正規化をするための値である。
Figure 0005157848
ステップS05に続くステップS06では、収束確認を行う。例えばエラー率が0になった場合には収束したと言えるし、エラー率の変化が事前に設定した閾値、例えば0.01等の範囲を超えない場合にも収束したと言える。もし、収束しなかった場合にはもう一度ステップS02からステップS06迄の処理を繰り返す。もし、収束した場合には、処理を終了させる。また、各学習ステップにおける各サンプルの重みをステップS07において保持しておくことにする。
最終的に算出された、複数の弱識別器hi(x)と弱識別器の重みαiとを利用し、次式(22)に基づいて計算を行えば識別器として利用することが出来る。但し、式(22)においてTは収束までに学習した回数、つまり識別に利用する弱識別器の数を示している。
Figure 0005157848
以上のようにして、AdaBoostを用いた分類規則の生成が極めて高速に行えるが、この識別器はSVMにより生成される分類規則に比べると精度が良くない。そのため本実施の形態では、AdaBoostを識別器としては用いない。図10のステップS07において保持するサンプル重みの履歴と、各弱識別器で判定に利用する次元のみを利用する。
(サンプルの削減指針)
サンプル重みを利用することでサンプル数を削減することが出来る。例えば図11に示すような2次元の特徴量分布が得られたとする。図11では、○が1のラベルが付けられたサンプル、×が−1のラベルが付けられたサンプルを示す。図11より、最終的に得たい分類規則の境界線が図中の点線になることは明らかである。
AdaBoostもSVMもこの境界線を求めて、入力されたベクトルがそれよりも内側に存在するか、外側に存在するかを判定する識別器である。
図12は、境界付近ではない領域に存在するサンプルを削除した場合の特徴量分布を示すものである。ここで理想的な分類規則の境界線は、図11と同様に、点線で示したような境界線が最適である。つまり、分類規則の生成に必要なサンプルは主に異なるラベルの付けられたサンプルとの境界付近に存在するサンプルであり、それ以外の領域のサンプルは分類規則の生成のための学習に寄与させなくてもよい。
ところで、SVMはマージン最大化に基づいて境界を表すためのサンプル、すなわち、サポートベクタだけを抽出するアルゴリズムでもある。マージン最大化は未知のデータに対して正確な分類を行う汎化性能に優れた手法ではあるが、全てのサンプルについてマージン最大化を考えた結果、非常に低速な処理になる。そこで本実施の形態では、単純ではあるが、極めて高速なAdaBoostを用いることで、境界付近のサンプルだけを抽出し、その後マージン最大化により高汎化性能な識別を行う。
(サンプル重みの履歴によるサンプル数の削減方法)
本実施の形態では、AdaBoostの学習過程で算出される重みの履歴を利用することで異なるラベルの付いたサンプルの境界付近に存在するサンプルを抽出することを特徴とする。以下、重みの履歴を利用することで境界付近に存在するサンプルが抽出できることを説明する。
図13は、特徴量のサンプルの例である。図13において、○は1のラベルが付いたサンプルであり、□は−1のラベルが付いたサンプルである。
図14は、図13のサンプルに対してAdaBoostにより分類規則の生成を行った結果を示す図である。図14において背景の色が変化した領域が、AdaBoostにより得られた境界である。また、○及び□の大きさは、学習時のサンプル重みの平均値である。識別境界付近では比較的大きな平均値が得られているのに対して、識別境界から離れた領域、すなわち、図14中左上及び右下では非常に小さな平均値になっている。
AdaBoostの学習過程においては、図10のステップS02からステップS06のループで作成された弱識別器により、間違えたサンプルの重みは大きくなり、正解したサンプルの重みは小さくなる。境界付近に存在するサンプルは、様々な弱識別器によって誤判別されてしまうので、学習が完了した後、ループ毎の重みの平均値をとると、重くなる傾向がある。一方、境界付近から遠い場所に存在するサンプルは様々な弱識別器に間違えられることがないので、ループ毎の重みの平均値は軽くなる傾向がある。
以上の理由から、本実施の形態では、全てのサンプルに対してループ毎の平均重み、すなわち、図14の○及び□の大きさの平均値Sを算出する。本実施の形態では、さらに、S/2を超えるサンプルは重要なサンプル、S/2より小さいサンプルは重要でないサンプルとする。このように、AdaBoostの学習過程で生じた重みの経過を利用することで境界面から遠いサンプルをSVMによる学習から省くことが出来る。
本実施の形態では、さらに、サンプルの平均重みSの5倍以上の場合は、SVMによる学習からサンプルを省くようにしている。図15は、明らかにノイズであるサンプルを加えた例である。ノイズは、図15の真ん中の下辺りにある○サンプルである。図16は、図15の例に対応する重みの平均の分布を示す図である。図15及び図16に示すように、周辺に違うラベルのついたサンプルが多数存在し、同じラベルのついたサンプルが殆ど無い場合、極端に平均重みが大きくなってしまう。そこで、平均重みが極端に多い場合にはSVMの学習サンプルから除くことにより、ノイズの影響を軽減することができるため、識別精度が向上する。
また本実施の形態では、平均重みがS/2以下の重要でないサンプルについては、全てを削除するのではなく、ランダムに1%を残す構成とした。このような構成とした理由は境界面以外のデータを全部削除してしまって空白のデータの存在しない領域が発生してしまうと、ノイズ成分によって予期しない識別平面が出来てしまうことを防ぐためである。
図16(a)は、データセットの例である。図16(a)において、最適な識別平面を太線で表す。図16(b)は、識別平面から離れた領域のデータを全て削除した例である。図16(b)の例のように、左上の×がノイズとして扱われず、それによって思わぬ識別平面が発生してしまう場合がある。本構成のように境界面から離れたデータを一部残し、空白の領域を出来るだけ作らないようにすると、図16(b)のような、予期しない識別平面の発生確率を低減できる。
(特徴量次元削減方法)
本実施の形態では、サンプル数の削減による学習の高速化手段を提示しているが、本実施の形態で利用している弱識別器は、特定の次元にだけ着目する。そのため、学習により得られた各弱識別器が注目した次元により、分類に対して重要な特徴量と、重要でない特徴量とを分けることが出来る。一般に、今回算出した特徴量が全て分類に重要であることは少なく、実際にはもっと少ない次元の特徴量で、分類することが可能である。つまり、SVMによる学習時の特徴量を削減することが出来るので、より高速なSVMによる学習が行える。尚、この特徴量削減手法は、非特許文献4に述べられている手法と同様である。非特許文献4は、特徴量次元を削減することにより、識別時の高速化を図っている。一方、本実施の形態では学習時の高速化を図っている。
〔第2の実施の形態〕
本発明の第2の実施の形態は、第1の実施の形態と、ほぼ構成を同じくするものであるが、学習サンプル数を削減する為の境界付近に存在するデータの抽出方法が異なる。第1の実施の形態ではAdaBoostを用いてサンプルを抽出したが、本実施の形態では、各サンプルの近傍に存在するサンプルのラベルを調べることでサンプルの抽出を行う。
まずサンプル群の中から1つのサンプルに着目し、そのサンプルに対するユークリッド空間上での近傍の5つのサンプルを抽出する。5つのサンプルのうち、1つでも基のサンプルと異なるラベルが付いたサンプルが存在していた場合、基のサンプルは境界付近に存在するとする。もし、5つのサンプル全てが基のサンプルと同じラベルであった場合、基のサンプルは境界付近には存在しないとして、SVMによる学習には利用しない。同様の処理を全てのサンプルに対して行うことで、境界付近だけのサンプルを利用して学習を行うことが出来る。このように必ずしもAdaBoostを利用しなくても境界付近に存在するサンプルを検出して、SVMによる学習を高速に行うことも可能である。
(コンピュータ等による実現)
なお、本発明の実施の形態に係る画像処理装置は、例えばパーソナルコンピュータ(PC)等で実現されてもよい。また、本発明の実施形態に係る画像処理方法は、例えば、CPUがROMやハードディスク装置等に記憶されたプログラムに従い、RAM等のメインメモリをワークエリアとして使用し、実行される。
以上、発明を実施するための最良の形態について説明を行ったが、本発明は、この最良の形態で述べた実施の形態に限定されるものではない。本発明の主旨をそこなわない範囲で変更することが可能である。
本実施の形態に係る分類規則生成装置1とその周辺機器とを示すブロック図である。 画像に対して生成されるインデックスを説明する図である。 ウェブブラウザから、MFP100に割り振られたアドレスにアクセスする際に生成される画像を表示するHTMLファイルの例である。 画像がMFP100の入力手段から入力されハードディスクに蓄積されるときの処理の概略を示す図である。 3画素×3画素のフィルタリングマトリクスの例を示す図である。 kの画素からδ(r,θ)で示される相対位置を示す図である。 分類手段201の構成を説明する図である。 SVMの動作の概要を示す図である。 分類規則を再生成する際の処理の概要を示す図である。 AdaBoostによる分類規則の生成手法のフローを示す図である。 2次元の特徴量分布の例を示す図である。 境界付近ではない領域に存在するサンプルを削除した場合の特徴量分布を示す図である。 特徴量のサンプルの例である。 AdaBoostにより分類規則の生成を行った結果を示す図である。 明らかにノイズであるサンプルを加えた例を示す図である。 データセットの例を示す図である。
符号の説明
21 ディレクトリ選択部
22 画像表示部
102 表示装置
103 キーボード
104 マウス
200 特徴量算出手段
201 分類手段
205 ハードディスク
300 第一の分類手段
301 第二の分類手段
302 第三の分類手段
303 比較手段

Claims (8)

  1. 異なる複数の画像特徴のそれぞれを軸とする多次元空間に位置する複数の画像の観測データを、前記画像特徴に基づく複数のクラスに分類する分類規則を生成する画像処理装置であって、
    前記画像特徴の情報を付与された前記観測データである分類済データのうち、一の前記クラスの境界の近傍の分類済データである境界データを検出するデータ検出手段と、
    前記境界データにより、第1の分類規則を生成する第1の分類規則生成手段と、
    第2の分類規則を生成する際の前記分類済データ毎の重要度である重みを付与された複数の前記分類済データに基づいて分類器を生成する分類器生成処理と、前記重みを付与された複数の前記分類済データを前記分類器がクラスに分類する分類処理と、前記分類済データの重みを更新する重み付け処理と、を含む分類規則生成処理を行い前記第2の分類規則を生成する第2の分類規則生成手段と、
    を有し、
    前記第2の分類規則生成手段は、前記分類規則生成処理を1回以上繰り返し、前記重み付け処理において、前記分類済データのうち、前記分類処理により分類されたクラスに対応する画像特徴の情報と、該分類済データが前記第2の分類規則生成手段に入力される前に既に付与されている画像特徴の情報と、が異なる分類済データに対する前記重要度が高くなる重みの更新を行い、
    前記データ検出手段は、前記分類規則生成処理が繰り返される際の前記重みの更新の履歴に基づいて、前記境界データを検出する
    ことを特徴とする画像処理装置。
  2. 前記重みの更新の履歴は、前記分類規則生成処理毎に付与される重みの平均値であり、
    前記第2の分類規則生成手段は、繰り返される前記分類規則生成処理のうち一の前記分類規則生成処理において、前記平均値が第1の所定の値より大きい分類済データを選択して、前記一の分類規則生成処理を行うことを特徴とする請求項記載の画像処理装置。
  3. 前記第2の分類規則生成手段は、繰り返される前記分類規則生成処理のうち一の前記分類規則生成処理において、前記平均値が第2の所定の値より大きい分類済データを、前記一の分類規則生成処理に用いないことを特徴とする請求項記載の画像処理装置。
  4. 前記データ検出手段は、
    異なる複数の前記分類済データの間の距離を算出する距離算出手段と、
    前記距離算出手段により算出された距離に基づき、複数の前記分類済データのうち一の分類済データに最も近接する他の二以上の分類済データを抽出する近接データ抽出手段と、
    前記一の分類済データの画像特徴の情報と前記他の二以上の分類済データの画像特徴の情報と、を比較することにより、該一の分類済データが境界データであるか否かを判定する判定手段と、
    を有することを特徴とする請求項1ないし何れか一項記載の画像処理装置。
  5. 異なる複数の画像特徴のそれぞれを軸とする多次元空間に位置する複数の画像の観測データを、前記画像特徴に基づく複数のクラスに分類する分類規則を生成する画像処理装置における画像処理方法であって、
    前記画像特徴の情報を付与された前記観測データである分類済データのうち、一の前記クラスの境界の近傍の分類済データである境界データを検出するデータ検出ステップと、
    前記境界データにより、第1の分類規則を生成する第1の分類規則生成ステップと、
    第2の分類規則を生成する際の前記分類済データ毎の重要度である重みを付与された複数の前記分類済データに基づいて分類器を生成する分類器生成処理と、前記重みを付与された複数の前記分類済データを前記分類器がクラスに分類する分類処理と、前記分類済データの重みを更新する重み付け処理と、を含む分類規則生成処理を行い前記第2の分類規則を生成する第2の分類規則生成ステップと、
    を有し、
    前記第2の分類規則生成ステップにおいて、前記分類規則生成処理を1回以上繰り返し、前記重み付け処理において、前記分類済データのうち、前記分類処理により分類されたクラスに対応する画像特徴の情報と、該分類済データが前記第2の分類規則生成ステップにおいて入力される前に既に付与されている画像特徴の情報と、が異なる分類済データに対する前記重要度が高くなる重みの更新を行い、
    前記データ検出ステップにおいて、前記分類規則生成処理が繰り返される際の前記重みの更新の履歴に基づいて、前記境界データを検出する
    ことを有することを特徴とする画像処理方法。
  6. 前記データ検出ステップは、
    異なる複数の前記分類済データの間の距離を算出する距離算出ステップと、
    前記距離算出ステップにおいて算出された距離に基づき、複数の前記分類済データのうち一の分類済データに最も近接する他の二以上の分類済データを抽出する近接データ抽出ステップと、
    前記一の分類済データの画像特徴の情報と前記他の二以上の分類済データの画像特徴の情報と、を比較することにより、該一の分類済データが境界データであるか否かを判定する判定ステップと、
    を有することを特徴とする請求項記載の画像処理方法。
  7. 請求項5、及び6記載の画像処理方法をコンピュータに実行させるためのコンピュータプログラム。
  8. 請求項記載のコンピュータプログラムを記録したことを特徴とするコンピュータ読み取り可能な情報記録媒体。
JP2008301386A 2008-11-26 2008-11-26 画像処理装置、画像処理方法、コンピュータプログラム、及び、情報記録媒体 Expired - Fee Related JP5157848B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008301386A JP5157848B2 (ja) 2008-11-26 2008-11-26 画像処理装置、画像処理方法、コンピュータプログラム、及び、情報記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008301386A JP5157848B2 (ja) 2008-11-26 2008-11-26 画像処理装置、画像処理方法、コンピュータプログラム、及び、情報記録媒体

Publications (2)

Publication Number Publication Date
JP2010128706A JP2010128706A (ja) 2010-06-10
JP5157848B2 true JP5157848B2 (ja) 2013-03-06

Family

ID=42329064

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008301386A Expired - Fee Related JP5157848B2 (ja) 2008-11-26 2008-11-26 画像処理装置、画像処理方法、コンピュータプログラム、及び、情報記録媒体

Country Status (1)

Country Link
JP (1) JP5157848B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5565190B2 (ja) * 2010-08-11 2014-08-06 富士ゼロックス株式会社 学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置
JP6961539B2 (ja) * 2018-06-22 2021-11-05 株式会社ブリヂストン 路面状態判別方法及び路面状態判別装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5017941B2 (ja) * 2006-06-27 2012-09-05 オムロン株式会社 モデル作成装置および識別装置
JP2008027130A (ja) * 2006-07-20 2008-02-07 Seiko Epson Corp オブジェクト認識装置およびオブジェクト認識方法ならびにオブジェクト認識用プログラム
JP2008283361A (ja) * 2007-05-09 2008-11-20 Ricoh Co Ltd 画像処理装置、画像処理方法、プログラムおよび記録媒体

Also Published As

Publication number Publication date
JP2010128706A (ja) 2010-06-10

Similar Documents

Publication Publication Date Title
JP4859025B2 (ja) 類似画像検索装置、類似画像検索処理方法、プログラム及び情報記録媒体
US8699789B2 (en) Document classification using multiple views
US8370338B2 (en) Large-scale asymmetric comparison computation for binary embeddings
JP5149259B2 (ja) ランレングスヒストグラムを用いて文書の表現を生成する方法及び装置
Kanan et al. Color-to-grayscale: does the method matter in image recognition?
Ko et al. Object-of-interest image segmentation based on human attention and semantic region clustering
US8879796B2 (en) Region refocusing for data-driven object localization
US7623712B2 (en) Image processing method and apparatus
Wang et al. Visual saliency by selective contrast
US20110085728A1 (en) Detecting near duplicate images
JP2007286767A (ja) 画像検索システム、及び、画像検索サーバ及びその制御方法、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体
JP2010140478A (ja) 文書画像分類のための方法及びシステム
JP4772819B2 (ja) 画像検索装置および画像検索方法
JP6937508B2 (ja) 画像処理システム、評価モデル構築方法、画像処理方法及びプログラム
WO2015146113A1 (ja) 識別辞書学習システム、識別辞書学習方法および記録媒体
JP4859054B2 (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
WO2021129289A9 (zh) 图像处理方法、装置、电子设备以及存储介质
JP2006209353A (ja) 画像判断装置、画像形成装置、画像判断方法、画像判断プログラム、画像形成プログラムおよびコンピュータ読取り可能な記録媒体
US11410278B2 (en) Automatic artifact removal in a digital image
JP5157848B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム、及び、情報記録媒体
JP2020087165A (ja) 学習データ生成プログラム、学習データ生成装置、及び学習データ生成方法
US9424488B2 (en) Applying a segmentation engine to different mappings of a digital image
Mohammed et al. Proposed approach for automatic underwater object classification
JP6419560B2 (ja) 検索装置、方法及びプログラム
KR101758869B1 (ko) 멀티미디어 콘텐츠 분류장치 및 이를 이용한 분류방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110913

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120904

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121126

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees