JP2016057918A - 画像処理装置、画像処理方法及びプログラム - Google Patents

画像処理装置、画像処理方法及びプログラム Download PDF

Info

Publication number
JP2016057918A
JP2016057918A JP2014184563A JP2014184563A JP2016057918A JP 2016057918 A JP2016057918 A JP 2016057918A JP 2014184563 A JP2014184563 A JP 2014184563A JP 2014184563 A JP2014184563 A JP 2014184563A JP 2016057918 A JP2016057918 A JP 2016057918A
Authority
JP
Japan
Prior art keywords
image
learning
unit
region
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014184563A
Other languages
English (en)
Inventor
雅人 青葉
Masahito Aoba
雅人 青葉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2014184563A priority Critical patent/JP2016057918A/ja
Priority to US14/849,346 priority patent/US10395136B2/en
Publication of JP2016057918A publication Critical patent/JP2016057918A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

【課題】撮影条件の変化等により画像特徴が変化する場合においても、精度よく画像を識別することを目的とする。【解決手段】1以上の第1の学習画像に基づいて、識別器を生成する第1の学習手段と、識別器による第1の学習画像の評価結果に基づいて、第1の学習画像から第2の学習画像を生成する画像生成手段と、第2の学習画像に基づいて、第1の学習手段により生成された識別器と異なる1以上の識別器を生成する第2の学習手段と、第1の学習画像及び第2の学習画像に基づいて、第1の学習手段が生成した識別器及び第2の学習手段が生成した識別器の適正度を判定する判定器を生成する判定器生成手段とを有することを特徴とする。【選択図】図1

Description

本発明は、画像処理装置、画像処理方法及びプログラムに関する。
従来、画像を複数の領域に分割する研究が多く行われてきた。近年では、画像から人物の領域、自動車の領域、道路の領域、建物の領域、空の領域等、意味的な領域を切り出す課題について、盛んに研究されている。このような課題は、意味的領域分割(Semantic Segmentation)と呼ばれ、写っている物の種類に対応した画像補正や、シーン解釈等に応用できると考えられている。意味的領域分割を行うにあたり、画像の各位置に関するクラスラベルの識別を、画素単位ではなく、小領域(superpixel)単位で行うことは、既に一般的である。小領域は、主に類似した特徴を持つ小さな領域として画像から切り出されるもので、小領域を切り出す技術についても、様々な手法が提案されている。
代表的なものとして、非特許文献1のようなグラフベースの手法や、非特許文献2のようなクラスタリングベースの手法がある。このようにして得られた各小領域は、その小領域の内部の特徴量、またはその周辺のコンテクスト特徴量も一緒に用いてクラスラベルを識別することが行われる。通常は様々な学習画像を用いてこのような局所ベースの領域識別器を学習させることで領域識別を行う。
領域識別器を使って画像上の領域クラスを識別しようとすると、撮影状況によっては、同じクラスカテゴリの小領域であっても、画像特徴に変化が生じることがある。例えば、同じ雲であっても、昼間に撮影された雲は白く、夕日とともに撮影された雲は太陽の照り返しを受けてオレンジ色をしている。このような場合、夕焼け画像におけるオレンジ色の雲と昼間に撮影されたオレンジ色のテクスチャフルな壁は、特徴空間上では類似したものとなる。前述したように様々な学習画像を用いて領域判定器を学習しようとして、夕焼け画像とオレンジ色の壁を同時に学習させると、これらを分離することは困難な問題となる。
特許文献1には、課題を分けることで車両の角度や天気の変動等に対応して、車両を認識する技術が開示されている。この技術では、対象領域における水平線や垂直線の数、コントラストによって、それぞれの条件に対応するSVM(サポートベクトルマシン)を用意しておき、上記条件によってSVMを切り換えることで車両認識を行う。この例では、上記のような条件に対して所定閾値で問題を切り換えることで、それぞれの認識問題を単純化している。
特許第4942510号公報
Efficient Graph−Based Image Segmentation,P.F.Felzenszwalb、IJCV2004. SLIC Superpixels,R.Achanta,A.Shaji,K.Smith,A.Lucchi,EPFL Technical Report,2010.
特許文献1の方法は、分割統治と呼ばれる考え方に従ったものであり、状況の変化等によって問題を切り分けて、解き方を変えるものである。しかしながら、条件によって問題を切り分ける際に、人が意図的にその条件を決定することが最適であるとは限らない。例えば、昼景と夕景を区別しようとしても、昼と夕方の境界は曖昧であって、明確に定義できるものではない。また、昼と夕方以外にも、切り分けることで問題が簡単になる状況があるかもしれないが、それを未然に知ることは難しい。
本発明はこのような問題点に鑑みなされたもので、撮影条件の変化等により画像特徴が変化する場合においても、精度よく画像を識別することを目的とする。
そこで、本発明は、画像形成装置であって、1以上の第1の学習画像に基づいて、識別器を生成する第1の学習手段と、前記識別器による前記第1の学習画像の評価結果に基づいて、前記第1の学習画像から第2の学習画像を生成する画像生成手段と、前記第2の学習画像に基づいて、前記第1の学習手段により生成された前記識別器と異なる1以上の識別器を生成する第2の学習手段と、前記第1の学習画像及び前記第2の学習画像に基づいて、前記第1の学習手段が生成した前記識別器及び前記第2の学習手段が生成した識別器の適正度を判定する判定器を生成する判定器生成手段とを有することを特徴とする。
本発明によれば、撮影条件の変化等により画像特徴が変化する場合においても、精度よく画像を識別することができる。
第1の実施形態に係る画像処理装置のソフトウェア構成を示す図である。 画像識別処理を示すフローチャートである。 画像識別処理の説明図である。 学習データの説明図である。 学習処理を示すフローチャートである。 学習データセット生成処理を説明図である。 第2の実施形態に係る学習データセット生成処理の説明図である。 第2の実施形態に係る第2学習処理を示すフローチャートである。 第3の実施形態に係る第2学習処理を示すフローチャートである。 第5の実施形態に係る学習処理を示すフローチャートである。 第5の実施形態に係る画像識別処理を示すフローチャートである。 画像処理装置のハードウェア構成を示す図である。
以下、本発明の実施形態について図面に基づいて説明する。
(第1の実施形態)
図1は、第1の実施形態に係る画像処理装置のソフトウェア構成を示す図である。画像処理装置は、画像識別処理と、学習処理とを行う。ここで、画像識別処理とは、入力画像を空、人物、建物といった意味的領域(領域クラス)に分割する処理である。また、学習処理は、学習画像を用いて、画像識別処理において用いられる領域識別器を生成する処理である。本実施形態においては、画像処理装置は、複数の領域識別器を生成し、さらに、画像識別処理において、各領域識別器の入力画像に対する適正度を判定するための判定器も作成する。
まず、画像識別処理に係る構成について説明する。画像設定部100は、画像識別処理の対象となる入力画像を設定する。画像特徴抽出部101は、入力画像全体に対する大域的な画像特徴を抽出する。判定部102は、判定器記憶部110に予め記憶されている判定器を用いて、入力画像を処理するのに適した領域識別器を選択する。領域分割部103は、入力画像を複数の小領域に分割する。ここで、小領域は、主に類似した特徴を示す小さな領域として画像から切り出されるものである。小領域に分割するための処理として代表的なものとして、非特許文献1に示されるグラフベースの手法や、非特許文献2に示されるクラスタリングベースの手法が挙げられる。小領域に分割するための処理は、特に限定されるものではない。領域特徴抽出部104は、各小領域から領域特徴を抽出する。識別部105は、入力画像の領域を識別する。すなわち、識別部105は、判定部102で選択された領域識別器を領域識別器記憶部111から読み出し、領域特徴抽出部104にて抽出された領域特徴量を用いて各小領域の領域クラスを推定する。識別部105で得られた各小領域の領域クラスは、出力部106にて出力される。領域識別器記憶部111は、後述の学習処理において生成された複数の領域識別器を記憶する。判定器記憶部110は、学習処理において生成された各領域識別器に対応して生成された複数の判定器を記憶する。
次に、学習処理に係る構成について説明する。学習データ記憶部112は、予め用意された学習用の画像(学習画像)と、領域教師データとを記憶している。学習データは、複数の学習画像と、領域教師データとを含む。学習データ設定部120は、学習データ記憶部112から学習データを読み込み、それぞれの学習画像を小領域に分割し、小領域の特徴量である領域特徴と画像全体の特徴である画像特徴とを抽出する。第1学習部121は、与えられた学習画像すべてにおける小領域の領域特徴と領域ラベルに基づいて学習処理を行い、領域識別器を生成し、生成した領域識別器を領域識別器記憶部111に記憶する。
評価部122は、第1学習部121にて生成された領域識別器を用いて、与えられているすべての学習画像に対して領域識別を行う。そして、評価部122は、領域識別の結果を領域教師データと比較することで評価を行う。データセット生成部123は、評価部122における評価結果に基づいて、与えられている学習画像から新たな学習画像(学習データセット)を生成する。第2学習部124は、データセット生成部123により生成されたそれぞれの学習データセットを用いて学習処理を行い、領域識別器を生成し、生成した領域識別器を領域識別器記憶部111に記憶する。
対応付部125は、第1学習部121及び第2学習部124により得られた領域識別器を用いて、すべての学習画像に対して領域識別を行う。そして、対応付部125は、識別結果を領域教師データと比較した結果に基づき、それぞれの学習画像を判定器のカテゴリへと対応付ける。第3学習部126は、対応付けられた学習画像に基づき、領域識別器の適正度を出力する判定器を学習する。第3学習部126は、学習により得られた判定器を判定器記憶部110に記憶する。第3学習部126は、対応付部125でいずれかのカテゴリに対応付けされた学習画像を学習データから取り除く。残った学習画像は、学習データとして、再び第1学習部121において、処理が行われる。
図2は、画像処理装置による画像識別処理を示すフローチャートである。S200において、画像設定部100は、入力画像を処理対象として設定する。なお、処理対象となる入力画像は、カメラ等の撮像装置から与えられるものでもよいし、予め画像処理装置のハードディスク等のストレージに保存されていた画像であってもよい。このように、入力画像の取得方法は、特に限定されるものではない。図3に示す300は、入力画像の一例である。
次に、S201において、画像特徴抽出部101は、入力画像から画像全体の画像特徴を抽出する。画像特徴としては、画像全体の色ヒストグラムや勾配ベクトル方向のヒストグラムによるBoW(Bag of Words)特徴や、フィッシャーベクトル等を用いることができる。画像特徴の種類は、実施形態に限定されるものではない。ここでは、入力画像Iから得られた画像特徴をFとする。
次に、S202において、判定部102は、画像特徴Fに基づいて、入力画像Iの領域分割に適した領域識別器を選択する。具体的には、判定部102は、まず、判定器記憶部110から、後述する学習処理によって予め得られている判定器gを読み込む。判定器gは、画像特徴Fを入力とし、各領域識別器の適正度ベクトルg(F)を出力する。適正度ベクトルg(F)は、領域識別器の総数N_sに対してN_s次元のベクトルである。適正度ベクトルg(F)の各要素は、各領域識別器に対する適正度であり、適正度ベクトルg(F)は、(式1)により得られる。
Figure 2016057918
ここで、g_s(F)(s=1,…,N_s)は、s番目の領域識別器に対する適正度である。また、N_sは、領域識別器の総数であり、後述する学習処理において決定される。判定結果は、(式2)に示すように、この適正度g_s(F)が最大となる領域識別器のインデックスs(I)として得られる。
Figure 2016057918
すなわち、判定部102は、インデックスs(I)より特定される領域識別器を、入力画像Iの領域分割に適した領域識別器として選択する。ここで、S202の処理は、判定器により出力される適正度に基づいて、複数の領域識別器の中から、入力画像に対する処理に用いる識別器を選択する選択処理の一例である。
次に、S203において、領域分割部103は、入力画像Iを小領域に分割する。ここでは、入力画像Iを分割することにより得られた小領域の数をKとする。図3に示す310は、入力画像300に対して得られた小領域分割の結果の一例である。次に、S204において、領域特徴抽出部104は、各小領域の領域クラスを識別するための領域特徴を抽出する。領域特徴としては、小領域内部における色平均値や色ヒストグラム、小領域の位置や大きさ、LBP(Local Binary Patterns)等のテクスチャ特徴等が挙げられる。領域特徴の種類は、特に限定されるものではない。領域特徴抽出部104はまた、領域特徴として、小領域の周囲に関するコンテクスト特徴を用いてもよい。ここで、小領域SP_k(k=1・・・K)から抽出された領域特徴をx_kとする。
なお、S201とS202の処理と、S203とS204の処理とは、互いに独立する処理であり、両処理の実行順番は、実施形態に限定されるものではない。他の例としては、S201とS202の処理の前に、S203とS204の処理を実行してもよい。また、他の例としては、S201とS202の処理と、S203とS204の処理とを同時に実行してもよい。
次に、S205において、識別部105は、S202において選択された領域識別器と、各小領域において得られた領域特徴と、に基づき、入力画像の領域識別を行う。具体的には、識別部105は、S202において選択された領域識別器f_s(I)を、領域識別器記憶部111から読み込む。ここで、領域識別器記憶部111には、後述する学習処理によって予め得られた、N_s個の領域識別器f_s(s=1,,,N_s)が記憶されているものとする。識別部105は、読み込まれた領域識別器f_s(I)に対して、それぞれの小領域SP_kに関する領域特徴x_kを入力とし、領域クラスのスコアベクトルf_{s(I)}(x_k)を出力する。ここで、スコアベクトルf_{s(I)}(x_k)は、領域クラスの総種類数N_cに対してN_c次元のベクトルである。スコアベクトルf_{s(I)}(x_k)の各要素は、各領域クラスに対するスコアである。c番目の領域クラスに対するスコアをf_{s(I),c}(x_k)(c=1・・・N_c)と記述することとすると、スコアベクトルは、(式3)により得られる。
Figure 2016057918
識別部105は、各小領域SP_kに対する領域識別結果を、(式4)に示すように、スコアf_{s(I),c}(x_k)が最大となるクラスc_kとして得る。
Figure 2016057918
識別部105は、入力画像に含まれるすべての小領域SP_k(k=1・・・K)に関して領域識別器f_s(I)を適用し、すべての領域識別結果c_kを得ると、S205の処理を終了する。図3に示す320は、領域識別処理の結果の一例である。ここで、S205の処理は、領域識別処理の一例である。
次に、S206において、出力部106は、S205において得られた領域識別結果を出力する。なお、出力形態は、特に限定されるものではない。例えば、領域識別結果をユーザが目視により確認する場合には、出力部106は、領域識別結果として得られた領域クラスを色で分けて画面に出力する。また、他の例としては、出力部106は、領域識別結果を利用してタグ付け等他の処理を行う場合には、小領域SP_kの位置情報と領域識別結果c_kをそのまま次の処理に対して出力する。以上で、画像識別処理が終了する。
上記のような画像識別処理を行うためには、領域識別器f_s(s=1・・・N_s)と領域識別器の適正度を判定する判定器gと、が、それぞれ、領域識別器記憶部111と判定器記憶部110とに記憶されている必要がある。これらは学習処理によって生成される。以下、学習処理について説明する。図4は、学習データの説明図である。学習データは、図4(a)に示す学習画像400と、図4(b)に示す領域教師データ410とを含んでいる。ここで、領域教師データ410は、学習画像400を入力画像とした場合に最終的に獲得したい所望の領域クラスが各画素に対して付与された情報である。領域教師データの領域クラスは、MSRC−21データセット等で一般的に用いられているような、空(sky)、人物(body)、建物(building)、といった意味的なクラスである。また、他の例としては、平坦領域、テクスチャ領域、といった見た目の違いによるクラスであってもよい。
学習データ記憶部112には、予めN枚の学習画像I_n(n=1,…,N)と、それぞれの学習画像の領域に対する領域教師データが記憶されているものとする。(式5)に示すように、これらすべての学習画像の集合をU_0とする。
Figure 2016057918
領域クラスは、全部でN_c種類あるものとする。また、学習画像I_nに対応する領域教師データをGT_nとする。
図5は、画像処理装置による、学習処理を示すフローチャートである。S500において、画像処理装置の学習データ設定部120は、学習データ設定処理を行う。学習データ設定処理は、画像特徴量抽出処理(S501)、領域分割処理(S502)及び領域特徴抽出処理(S503)を含んでいる。S501において、学習データ設定部120は、学習データ記憶部112に記憶されている各学習画像から画像全体の画像特徴を抽出する。学習データ設定部120は、図2に示す画像識別処理のS201の処理において抽出される画像特徴と同じ種類の特徴を抽出する。ここで、学習画像I_nから抽出された画像特徴をF_nとする。
次に、S502において、学習データ設定部120は、各学習画像を小領域に分割する。学習データ設定部120は、画像識別処理におけるS203の処理と同じ手法により、小領域に分割する。画像I_nに対する小領域分割結果として、K_n個の小領域が生成されたものとし、学習用の小領域の総数をK_all=ΣK_n個とする。また、学習画像の小領域を通し番号でSP_j(j=1,,,K_all)とする。次に、S503において、学習データ設定部120は、S502において得られたすべての学習画像それぞれに対するすべての小領域SP_j(j=1,,,K_all)から領域特徴を抽出する。学習データ設定部120は、画像識別処理におけるS204の処理において抽出される領域特徴と同じ種類の特徴を抽出する。小領域SP_jから抽出された領域特徴をx_jとする。初期学習データセットS_0は、すべての学習小領域を含んだものとし、(式6)により得られる。
Figure 2016057918
以下、S504〜S509の処理は、繰り返し処理である。繰り返し回数のカウンタをtとし、初期状態でt=1とする。最初の繰り返し時(t=1)には、学習データ設定部120は、学習画像集合U_1=U_0、学習データセットS_1=S_0と初期化しておく。2回目以降の繰り返し(t=2,3,…)では、U_t及びS_tの更新は後述するS509において行われる。
S504において、第1学習部121は、領域識別器を学習する。第1学習部121は、小領域集合S_tに含まれるすべての小領域を学習対象として用いる。第1学習部121は、まず小領域に対する教師ベクトルを算出する。小領域SP_jが学習画像I_nから分割されたとし、GT_nの小領域SP_jに対応する位置において、多くの面積を占める領域クラスラベルをc_jとする。この場合、小領域SP_jに対する教師ベクトルτ_jは(式7)により得られる。
Figure 2016057918
ここで、τ_{j,k}は、(式8)により得られる。
Figure 2016057918
第1学習部121は、教師ベクトルの設定として、上記のように1又は0に設定するのではなく、実数値を与えてもよい。例えば、GT_nの小領域SP_jに対応する位置における領域クラスラベルの面積比がr_c(c=1,,,N_c;Σr_c=1)となっていた場合に、第1学習部121は、教師ベクトルτ_jを(式9)から算出してもよい。
Figure 2016057918
第1学習部121は、識別関数に対して領域特徴x_jを入力したときに得られる出力ベクトルと教師ベクトルτ_jの誤差が、全学習データを通して小さくなるように識別関数のパラメータを調整して、領域識別器を生成する。識別関数のモデルとその学習方法は、特に限定されるものではない。第1学習部121は、例えばSVMや多層ニューラルネットワーク、ロジスティック回帰等を用いてもよい。第1学習部121は、学習により得られた領域識別器をf_{t,0}として領域識別器記憶部111に記録する。ここで、S504は、学習画像に基づいて、識別器を生成する学習処理の一例である。
次に、S505において、評価部122は、S503において生成された領域識別器f_{t,0}を用いて、学習データを評価する。具体的には、評価部122は、画像特徴x_jを領域識別器f_{t,0}に入力し、その出力として(式10)に示すスコアベクトルf_{t,0}(x_j)を得る。
Figure 2016057918
評価部122は、(式10)を用いて、すべての領域特徴x_j(j=1,,,K_all)のスコアベクトルを算出する。すなわち、評価部122は、K_all個のスコアベクトルf_{t,0}(x_j)(j=1,…,K_all)を得る。
次に、S506において、データセット生成部123は、S505における評価結果に基づいて、撮影条件等の変動に応じた領域識別器を学習させるための学習画像のデータセットを生成する。図6は、学習データセット生成処理を説明図である。図6においては、簡単のためN_c=2としている。図6に示す600は、小領域集合S_tの特徴空間における分布を表わしている。601は、1番目の領域クラス(c=1)の分布を表している。602は、2番目の領域クラス(c=2)の分布を表している。603は、両領域クラスの識別境界である。識別境界603上ではf_{t,0,1}=f_{t,0,2}となる。
データセット生成部123は、評価結果として得られたすべての学習用小領域に対するスコアベクトルf_{t,0}(x_j)(j=1,…,K_all)に基づき、以下のように学習用小領域を、2つの画像群、正解データと不正解データに分割する。すなわち、データセット生成部123は、学習用小領域SP_jに対し、(式11)により評価値scoredif_jを算出する。
Figure 2016057918
評価値scoredif_jは、大きな値であるほど良く識別できていることを表わしている。また、この評価値scoredif_jが負の値を取る場合には、小領域SP_jは誤識別されたことを意味する。データセット生成部123は、(式12)に示すように、評価値scoredif_jが、所定の閾値以上であれば学習用小領域SP_jを「正解データ」とする。データセット生成部123は、(式13)に示すように、評価値scoredif_jが、閾値未満である場合には、学習用小領域SP_jを「不正解データ」とする。なお、閾値としては、例えば、θ=0.3とする。このようにして、データセット生成部123は、学習用小領域SP_jを、正解データセットS_trueと不正解データセットS_falseとに分割する。
Figure 2016057918
Figure 2016057918
図6の604及び605は、S_true及びS_falseの境界であって、scoredif_j=θとなる位置である。(式12)及び(式13)により、図6の600で表わされる小領域集合S_tは、610a,610bで表わされる画像群(成功データセット)と620で表わされる画像群(不正解データセット)とに分割される。
さらに、データセット生成部123は、(式14)により、不正解データセットS_falseを領域クラス毎に分割する。
Figure 2016057918
図6の630及び640は、620で表わされる不正解データセットS_falseを、(式14)に従って、S_{false,1}とS_{false,2}に分割した様子を表わしている。データセット生成部123は、これらのデータセットを利用して、(式15)により、領域クラスcの学習データセットを生成する。すなわち、データセット生成部123は、領域クラスcの正解データセットと、不正解データセットのうち、正解データセットに対応する領域、すなわち領域クラスcの画像群とを組み合わせて、新たな学習画像を生成する。
Figure 2016057918
図6の650及び660は、(式15)に従って生成されたS_{t,1}及びS_{t,2}を表わしている。なお、S506の処理は、識別器による学習画像の評価結果に基づいて、1以上の学習画像から少領域単位で画像を抽出し、これを新たな学習画像として生成する画像生成処理の一例である。
次に、S507において、第2学習部124は、S506において生成された学習データセットを用いて、領域識別器を学習する。具体的には、第2学習部124は、学習データセットS_{t,c}(c=1,…,N_c)それぞれを用いて学習を行い、N_c個の領域識別器を生成する。学習データセットS_{t,c}によって学習された領域識別器をf_{t,c}とする。それぞれの学習データセットにおける学習方法は、S503における第1学習処理と同様である。第2学習部124は、生成した領域識別器f_{t,c}(c=1,,,N_c)を領域識別器記憶部111に記録する。ここで、S507の処理は、新たに生成された学習画像に基づいて、識別器を生成する学習処理の一例である。
次に、S508において、対応付部125は、S503及びS507において生成された領域識別器に対して学習画像を対応付ける。具体的には、対応付部125は、S503で生成された領域識別器f_{t,0}と、S507で生成された領域識別器f_{t,c}(c=1,…,N_c)と、を処理対象とする。すなわち、対応付部125は、これらN_c+1個の領域識別器f_{t,γ}(γ=0,…,N_c)を処理対象とする。そして、対応付部125は、それぞれの領域識別器に対して、初期学習画像集合U_0におけるすべての学習画像I_n(n=1,…,N)を入力させたときの結果を出力する。そして、対応付部125は、得られた領域識別結果を、領域教師データGT_nと比較して認識率で評価する。認識率の定義としては、例えば、出力された各画素の領域クラスと領域教師データを比較したときに、領域クラスが一致した画素数の全体画素数に対する割合で表わされるpixel accuracyが挙げられる。認識率の定義としてはまた、各領域クラスに関する再現率と適合率を求めてその調和平均をとるF値等が挙げられる。認識率の定義は、特に限定されるものではない。
ここで、学習画像I_nに対する領域識別器f_{t,γ}の認識率をR_{n,γ}とする。対応付部125は、認識率が所定の閾値η(例えばη=0.9)以上の場合には、学習画像I_nを領域識別器f_{t,γ}に対応するポジティブ画像とし、(式16)によりポジティブ画像集合T_{t,γ}を生成する。
Figure 2016057918
対応付部125はさらに、(式17)により、上記ポジティブ画像集合T_{t,γ}(γ=0,…,N_c)に含まれる学習画像を学習画像集合U_tから除いたものを、次ループの学習画像集合U_{t+1}とする。
Figure 2016057918
ここで、学習画像集合U_{t+1}に含まれる学習画像から得られる小領域の集合を、S_{t+1}とする。S509において、対応付部125は、U_{t+1}が空集合であれば、繰り返し処理を終了し、処理をS510へ進める。一方、対応付部125は、U_{t+1}が空集合でなければ、繰り返しカウンタtの値をインクリメントし、処理をS503へ進める。
次に、S510において、第3学習部126は、S503及びS507において生成された各領域識別器に対する判定器を学習する。判定器は、対応する領域識別器の適正度を出力するものである。ここで、簡単のため、S503及びS507において生成されたすべての領域識別器f_{t,γ}のインデクスを通し番号で書き直すこととする。生成された領域識別器の数を、N_sとし、領域識別器のインデクスを振り直した表記をf_s(s=1,・・・,N_s)とする。同様に、ポジティブ画像集合T_{t,γ}のインデクスをT_s(s=1,・・・,N_s)と表記し直す。なお、前述の画像識別処理時の表記は、この振り直したインデクスに従うものとする。
第3学習部126は、初期学習画像集合U_0におけるすべての学習画像I_n(n=1,・・・,N)対して、(式18)に示す適正度の教師信号ρ_nを求めれる。ρ_{n,s}は、(式19)により得られる。
Figure 2016057918
Figure 2016057918
第3学習部126は、S501において抽出された画像特徴F_n(n=1・・・N)を入力として、教師信号ρ_n(n=1・・・N)に基づいて、領域識別器の適正度を判定する判定器を学習する。判定器のモデルとしては、領域識別器と同様に、SVMや多層ニューラルネットワーク、ロジスティック回帰等が挙げられる。判定器の種類は、特に限定されるものではない。判定器は、領域識別器と同じモデルであってもよいし、別のモデルであってもよい。例えば、領域識別器はSVMで生成されたものであって、判定器はロジスティック回帰で生成されたものであってもよい。第3学習部126は、学習により得られた判定器をgとして、判定器記憶部110に記憶する。以上で、学習処理が終了する。なお、S510の処理は、学習画像に基づいて、識別器の適正度を判定する判定器を生成する判定器生成処理の一例である。
以上のように、学習処理において、判定器g及び領域識別器f_s(s=1・・・N_s)が生成され、それぞれ判定器記憶部110及び領域識別器記憶部111に記録される。これにより、画像処理装置は、前述の画像識別処理を行うことが可能となる。
このように、第1の実施形態に係る画像処理装置は、例えば、昼空と夕空等の撮影条件等によって画像の特徴が変化する場合にも、各撮影画像に適した領域判定を行うことができるような学習画像を自動的に生成することができる。すなわち、画像処理装置は、状況に応じた領域識別器を生成することができる。画像処理装置は、さらに状況を選択することにより、領域識別の精度を向上させることができる。このように、画像処理装置は、撮影条件の変化等により画像特徴が変化する場合においても、精度よく画像を識別することができる。
(第2の実施形態)
第1の実施形態に係る画像処理装置は、不正解データを領域クラス毎に分けて各々を正解データと組み合わせることで学習データセットを生成する。これに対し、第2の実施形態に係る画像処理装置は、不正解データをさらに細かく分割して、小領域データを少しずつ追加していくことで学習データセットを生成する。以下、第2の実施形態に係る画像処理装置について説明する。第2の実施形態に係る画像処理装置は、第1の実施形態に係る画像処理装置とは、図5に示す学習データセット生成処理(S506)及び第2学習処理(S507)における処理が異なっている。ここでは、第2の実施形態に係る画像処理装置について、第1の実施形態に係る画像処理装置と異なる点について説明する。
図7は、第2の実施形態に係る画像処理装置による、学習データセット生成処理(S506)の説明図である。ここでは、簡単のため、クラス数をN_c=2とする。S506において、データセット生成部123は、まず(式11)に従い、学習用小領域SP_jの正解の領域クラスc_jに対する他の領域クラスのスコアと比較した評価値scoredif_jを算出する。次に、データセット生成部123は、(式12)及び(式13)に従い、成功データセットS_true及び不正解データセットS_falseを生成する。さらに、データセット生成部123は、不正解データセットS_falseを(式14)に従い、領域クラス毎に分割し、S_{false,c}(c=1・・・N_c)を生成する。
そして、データセット生成部123は、領域クラス毎の不正解データセットS_{falsei,c}を、特徴空間上でそれぞれクラスタリングする。クラスタリング手法は既存の手法でよく、特に限定されるものではない。クラスタリング手法としては、例えばk−meansや凝集的クラスタリング、階層クラスタリング等が挙げられる。図7の700は、図6に示す不正解データ630のクラスタリング結果である。ここで、クラスcにおけるクラスタ数をL_cとし、各クラスタのインデックスをlとする。また、領域クラスcにおけるl番目のクラスタをCL_{c,l}(l=1・・・L_c)と表わす。
次に、データセット生成部123は、各クラスタCL_{c,l}に関して、(式20)により、各評価値scoredif_jの総和D_{c,l}を計算する。
Figure 2016057918
D_{c,l}の値は、クラスタCL_{c,l}に属する小領域が、領域クラスcに対してどのくらい正しく判定できているかを表わしている。領域クラスcにおけるクラスタの中で、この値が最も大きなクラスタのインデックスをlmaxとする。lmaxは、(式21)のように表される。
Figure 2016057918
領域クラスcに関してD_{c,l}の最も大きなクラスタは、CL_{c,lmax}と表わされる。
図8は、第2の実施形態に係る画像処理装置による、第2学習処理(S507)における詳細な処理を示すフローチャートである。S800〜S804の処理は、各領域クラスc(c=1・・・N_c)に対して行われる繰り返し処理である。第2学習部124は、繰り返し処理の最初に、まず残クラスタ集合V_cを、全クラスタCL_{c,l}(l=1・・・L_c)を含む集合として初期化しておく。残クラスタ集合V_cは、(式22)により表される。
Figure 2016057918
S800において、第2学習部124は、(式23)に示すように、クラスタCL_{c,lmax}に含まれるすべての小領域とS_trueの和集合を、学習データセットS_{t,c}とする。すなわち、第2学習部124は、クラスタCL_{c,lmax}のすべての小領域とS_trueとを組み合わせて、新たな学習画像を生成する。
Figure 2016057918
図7における710a,710bは、(式23)により得られる、正解データ610a,610bと、701で表わされるCL_{c,lmax}の和集合、すなわち学習データセットS_{t,c}を表わしている。
次に、S801において、第2学習部124は、S800において得られた学習データセットS_{t,c}を用いて、領域識別器f_{t,c}を学習する。領域識別器を学習する処理は、第1の実施形態における第2学習処理(S507)において領域識別器を学習する処理と同様である。次に、S802において、第2学習部124は、S800において追加したクラスタCL_{c,lmax}の要素である小領域を、領域分割器f_{t,c}に入力したときの識別結果を算出する。具体的には、第2学習部124は、(式11)により各小領域における評価値scoredifの値を算出する。第2学習部124は、さらに得られた値のクラスタCL_{c,lmax}内における総和D_{c,lmax}を算出する。
S803において、第2学習部124は、総和D_{c,lmax}の値が所定の閾値ζ(例えばζ=0.3)以上であれば、処理をS804へ進める。一方、第2学習部124は、総和D_{c,lmax}の値が所定の閾値ζ未満であった場合、領域識別器f_{t,c}を前の繰り返し時における状態に戻し、領域識別器記憶部111に記憶する。そして、S805において、第2学習部124は、未処理の領域クラスcが存在する場合には、処理をS800へ進め、未処理の領域クラスcを処理対象として、処理を継続する。
S804において、第2学習部124は、(式24)に示すように、残クラスタ集合V_cからCL_{c,lmax}を差し引いて更新する。
Figure 2016057918
そして、第2学習部124は、残クラスタ集合V_cに属するすべての小領域データに関して、領域識別器f_{t,c}よる評価を行う。第2学習部124は、評価結果に基づいて、残クラスタV_cの要素であるクラスタの中から(式20)及び(式21)に従ってCL_{c,lmax}を再決定し、処理をS800へ進める。図7の720a,720bは、クラスタ追加処理(S800)が繰り返されることにより、クラスタ702が追加されて更新された学習データセットS_{t,c}を表わしている。第2学習部124は、すべての領域クラスcに関する繰り返し処理を終えると、図5に示す対応付け処理(S508)へと処理を進める。なお、第2の実施形態に係る画像処理装置のこれ以外の構成及び処理は、第1の実施形態に係る画像処理装置の構成及び処理と同様である。
(第3の実施形態)
第1、第2の実施形態に係る画像処理装置は、学習データを小領域単位で扱うのに対し、第3の実施形態に係る画像処理装置は、学習データを画像単位で扱う。以下、第3の実施形態に係る画像処理装置について説明する。第3の実施形態に係る画像処理装置は、第1の実施形態に係る画像処理装置とは、図5に示す学習データセット生成処理(S506)及び第2学習処理(S507)における処理が異なっている。ここでは、第3の実施形態に係る画像処理装置について、第1、第2の実施形態に係る画像処理装置と異なる点について説明する。
第2学習部124は、学習データセット生成処理(S506)において、評価処理(S505)における評価結果に基づいて、撮影状況の変動等に応じた領域識別器を学習させるためのデータセットを生成する。具体的には、第2学習部124は、(式11)に従い、学習用小領域SP_jの評価値scoredif_jを算出し、(式12)に従い、成功データS_trueを生成する。次に、第2学習部124は、学習画像集合U_tに含まれる画像I_nの、領域クラスcに対する占有度E_{n,c}を(式25)により算出する。
Figure 2016057918
ここでA_jは、小領域SP_jの面積とする。δはクロネッカーデルタであって、(式26)のように表わされる。
Figure 2016057918
(式25)の値は、画像I_nが領域クラスcに対してどのくらい正しく判定できているかを表わしている。この値が最も大きな画像のインデックスをcmaxとする。cmaxは、(式27)のように表される。
Figure 2016057918
Eの値が最も大きな画像は、I_cmaxと表わされる。
図9は、第3の実施形態に係る画像処理装置による、第2学習処理(S507)における詳細な処理を示すフローチャートである。S900〜S904の処理は、各領域クラスc(c=1・・・N_c)に対して行われる繰り返し処理である。第2学習部124は、繰り返し処理の最初に、まず追加画像集合U_addを空集合で初期化しておく。S900において、第2学習部124は、(式28)に示すように、画像I_cmaxに含まれるすべての小領域とS_trueとの和集合を、学習データセットS_{t,c}とする。すなわち、第2学習部124は、画像I_cmaxに含まれるすべての小領域をS_trueに追加する。
Figure 2016057918
さらに、第2学習部124は、(式29)に示すように、追加画像集合U_addに、画像I_cmaxを追加する。
Figure 2016057918
次に、S901において、第2学習部124は、S900において得られた学習データセットS_{t,c}を用いて、領域識別器f_{t,c}を学習する。領域識別器を学習する処理は、第1の実施形態における第2学習処理(S507)において領域識別器を学習する処理と同様である。次に、S902において、第2学習部124は、S900において追加した学習画像I_cmaxを領域分割器f_{t,c}に入力したときの領域識別結果を算出する。そして、第2学習部124は、得られた領域識別結果を領域教師データGT_cmaxと比較し、認識率を算出する。S903において、第2学習部124は、認識率が所定の閾値η(例えばη=0.8)以上であれば、処理をS904へ進める。第2学習部124は、認識率が所定の閾値η未満であった場合、領域分割器f_{t,c}を前の繰り返し時における状態に戻し、領域識別器記憶部111に記憶する。そして、S905において、第2学習部124は、未処理の領域クラスcが存在する場合には、処理をS900へ進め、未処理の領域クラスcを処理対象として、処理を継続する。
S904において、第2学習部124は、(式30)により表される、全学習画像集合U_0と追加画像集合U_addの差集合U_subに関して、領域識別器f_{t,c}よる評価を行う。
Figure 2016057918
そして、第2学習部124は、(式25)〜(式27)に従い、U_subの中で最も占有度Eの大きな画像をI_cmaxとして置き換える、その後処理をS900へ進める。第2学習部124は、すべての領域クラスcに関する繰り返し処理を終えると、図5に示す対応付け処理(S508)へと処理を進める。なお、第3の実施形態に係る画像処理装置のこれ以外の構成及び処理は、他の実施形態に係る画像処理装置の構成及び処理と同様である。
以上のように、本実施形態に係る画像処理装置は、画像単位で学習データセットを設定することにより、複数の領域識別器と、各領域識別器に対応する判定器とを生成することができる
(第4の実施形態)
第1〜3の実施形態に係る画像処理装置は、画像識別処理において、1つの領域識別器を選択し、この領域識別器を用いて領域識別結果を得る。これに対し、第4の実施形態に係る画像処理装置は、すべての領域識別器による結果に重みを付けて総和を取ることにより、領域識別結果を得る。以下、第4の実施形態に係る画像処理装置について説明する。ここでは、第4の実施形態に係る画像処理装置について、第1の実施形態に係る画像処理装置と異なる点について説明する。以下、第4の実施形態に係る画像処理装置による、画像識別処理を、図2を参照しつつ説明する。
第4の実施形態に係る画像処理装置による、画像設定処理(S200)及び画像特徴抽出処理(S201)は、第1の実施形態において説明した処理と同様である。S201の処理の後、S202において、判定部102は、(式1)により、領域識別器記憶部111に記憶されている各領域識別器の適正度を算出する。なお、このとき、判定部102は、(式2)により、適正度g_s(F)が最大となる領域識別器のインデックスs(I)を算出する処理は行わない。続く、領域分割処理(S203)及び領域特徴抽出処理(S204)は、第1の実施形態において説明した処理と同様である。
S204の後、S205において、識別部105は、領域識別器記憶部111に記憶されているすべての領域識別器f_s(s=1・・・N_s)を利用して、入力画像のすべての小領域SP_kに関して判定を行う。領域識別器f_sの出力は、(式31)に示される。
Figure 2016057918
各領域クラスの最終スコアSCORE_c(x_k)は、(式32)に示すように、判定器の出力である適正度との重み付き線形和で表わされる。
Figure 2016057918
識別部105は、各小領域SP_kに対する領域識別結果を、(式33)に示すように、SCORE_cの値が最も大きくなる領域クラスc_kとして得る。
Figure 2016057918
続く、領域識別結果出力処理(S206)は、第1の実施形態において説明した処理と同様である。
次に、第4の実施形態に係る画像識別処理を実現するための、学習処理について説明する。なお、第4の実施形態に係る画像処理装置による学習処理のうち、判定器学習処理(S510)のみが、他の実施形態に係る学習処理と異なる。以下、第4の実施形態に係る画像処理装置による、判定器学習処理(S510)について説明する。判定器学習処理(S510)において、第3学習部126は、すべての学習画像I_n(n=1・・・N)のすべての小領域に対して、学習して得られた領域識別器f_s(s=1・・・N_s)を利用した領域識別を行う。小領域に対して得られた領域識別器の出力値を、その小領域内部における画素の出力値とすれば、画像における画素毎の出力値が得られることになる。簡単のため、学習画像I_nの全画素を通し番号pで表わすこととする。画素数を、N_p個とする。学習画像I_nの、画素pにおける領域クラスcに対する出力ベクトルe_n(p,c)は、(式34)のように示される。
Figure 2016057918
ここで、e_{n,s}(p,c)は、(式35)により示される。
Figure 2016057918
第3学習部126は、出力ベクトルe_n(p,c)に対して、重み係数ベクトルw_nを乗じた値を、学習画像I_nの画素pにおける、領域クラスcに対する統合した出力値として得る。具体的には、領域教師データGT_n(n=1・・・N)から、画素pの正解領域クラスがc(p)の場合の、画素pに対する教師ベクトルμ_pを(式36)のように設定する。
Figure 2016057918
ここで、μ_{p,c}は、(式37)で示される。
Figure 2016057918
また、学習画像I_nに関する誤差関数E_nを以下のように定義する。
Figure 2016057918
ここでTは、行列及びベクトルの転置を表わす。この誤差関数E_nを最小化するようなw_nの値は、最小二乗法により解析的に(式39)により求まる。
Figure 2016057918
ここでμは、教師ベクトルμ_pをすべての画素pに対して羅列したN_c×N_p次元ベクトルで、(式40)のように表わされる。
Figure 2016057918
Fは計画行列と呼ばれ、そのi行j列要素F_ijは、(式41)により得られる。
Figure 2016057918
ただし、インデックスjは、画素pと領域クラスcの組み合わせを表わし、j=p(N_c―1)+cとされる。
第3学習部126は、上記より得られたw_nの値を、学習画像I_nに対する判定器の教師ベクトルとする。すなわち、(式18)で表わされる、学習画像I_nに対する教師信号ρ_nを、(式42)のように設定する。
Figure 2016057918
そして、第3学習部126は、この教師信号をもとに、回帰学習にて判定器gを学習し、生成した判定器gを判定器記憶部110に記憶する。回帰学習の処理としては、例えばロジスティック回帰やSVR、回帰木等が挙げられる。なお、回帰学習の処理は、特に限定されるものではない。なお、第4の実施形態に係る画像処理装置のこれ以外の構成及び処理は、他の実施形態に係る画像処理装置の構成及び処理と同様である。
以上のように、第4の実施形態に係る画像処理装置は、複数の領域識別器の出力を、それぞれの適正度で重み付けし、その値を合計して領域分割の結果を得ることができる。
(第5の実施形態)
第1〜4の実施形態に係る画像処理装置は、すべての学習画像を用いて、複数の領域識別器とこれに対応する1つの判定器を生成する。これに対し、第5の実施形態に係る画像処理装置は、学習画像を複数のグループに分け、各グループに対し、複数の領域識別器とこれに対応する1つの判定器を生成する。そして、第5の実施形態に係る画像処理装置は、各グループに対して生成された複数の領域識別器とこれに対応する1つの判定器を用いて、領域識別を行う。以下、第5の実施形態に係る画像処理装置について説明する。ここでは、第5の実施形態に係る画像処理装置について、第1の実施形態に係る画像処理装置と異なる点について説明する。
図10は、第5の実施形態に係る学習処理を示すフローチャートである。S1000において、学習データ設定部120は、カウンタmの値をm=1に初期化する。次に、S1001において、学習データ設定部120は、学習データにバリエーションを付けるため、学習データをランダムにサンプリングする。学習データ設定部120は、学習データ記憶部112に記憶されているN枚の学習画像I_n(n=1・・・N)から、ランダムにN_m枚の学習データを選択する。選択された画像集合は、m番目の学習シーケンスにおける初期学習画像集合U_0として扱われる。なお、N_mの値は、N_m≦Nの範囲からどのように設定してもよいが、例えばNの半分のように設定してもよい。
次に、S1002において、画像処理装置は、学習シーケンス処理を実行する。ここで、学習シーケンス処理は、第1の実施形態において図5を参照しつつ説明したS500〜S510の処理である。すなわち、画像処理装置は、S1001において選択した学習データを用いて、図5を参照しつつ説明した学習処理を実行する。次に、S1003において、学習データ設定部120は、カウンタmの値と所定値Mとを比較する。ここで、Mは、学習シーケンス処理を実行する回数であり、予め設定されているものとする。学習データ設定部120は、m=Mの場合には、学習処理を終了する。学習データ設定部120は、m<Mの場合には、処理をS1004へ進める。S1004において、学習データ設定部120は、カウンタmの値をインクリメントし、その後、処理をS1001へ進める。
これにより、本実施形態に係る画像処理装置は、学習シーケンスをM回実行することにより、反応の異なるM個の判定器と、各判定器に対応する複数の領域識別器を得ることができる。
なお、本実施形態に係る画像処理装置は、学習シーケンス(S1001)を繰り返しによりM回行うが、他の例としては、異なる学習データの組を用いた学習シーケンス処理を並列に実行してもよい。また、本実施形態に係る画像処理装置は、学習画像をランダムに選択するが、これに替えて、学習条件を変えてバリエーションを付けてもよい。学習データ設定部120は、例えば、領域分割に関する制御パラメータ、抽出する画像特徴や領域特徴を、各学習シーケンスで変えて用いてもよい。また、学習データ設定部120は、各学習シーケンスにおいて、第1〜4の実施形態において説明したいずれの学習シーケンスを実行してもよく、また、それらの組み合わせでM個の学習シーケンスを行ってもよい。
図11は、第5の実施形態に係る画像識別処理を示すフローチャートである。S1100において、画像設定部100は、入力画像を処理対象として設定する。次に、S101において、画像設定部100は、カウンタmの値をm=1に初期化する。次に、S1002おいて、画像処理装置は、画像識別シーケンス処理を実行する。ここで、画像識別シーケンス処理は、第1の実施形態において、図2を参照しつつ説明したS201〜S205の処理である。すなわち、画像処理装置は、S1100において設定した入力画像に対し、図2を参照しつつ説明したS201〜S205の処理を実行する。
次に、S1003において、画像設定部100は、カウンタmと所定値Mとを比較する。画像設定部100は、m=Mの場合には、処理をS1105へ進める。画像設定部100は、m<Mの場合には、処理をS1104へ進める。S1104において、画像設定部100は、カウンタmの値をインクリメントし、その後、処理をS1102へ進める。すなわち、本実施形態に係る画像識別処理においては、画像識別シーケンス処理をM回実行することにより、各学習シーケンスで得られた識別器による領域識別結果を得る。なお、画像処理装置は、各画像識別シーケンス処理(S1102)において、判定器及び領域識別器の異なる組を用いるものとする。なお、実施形態に係る画像処理装置は、画像識別シーケンス(S1102)を繰り返しによりM回行うが、他の例としては、異なる判定器等の組み合わせを用いた、画像識別シーケンス(S1102)を並列に実行してもよい。
S1105において、識別部105は、M回の画像識別シーケンスの実行により得られたM種類の領域識別結果から、入力画像の各画素の領域クラスに対して投票を行う。そして、識別部105は、最も多く投票された領域クラスを、その画素の最終的な領域クラスとする。次に、S1106において、出力部106は、領域識別結果を出力する。なお、第5の実施形態に係る画像処理装置のこれ以外の構成及び処理は、他の実施形態に係る画像処理装置の構成及び処理と同様である。
以上のように、第5の実施形態に係る画像処理装置は、学習データにバリエーションを付けることで、アンサンブルによる領域識別を行うことができる。
図12は、第1〜5の実施形態に係る画像処理装置のハードウェア構成を示す図である。CPU1201は、ROM1202に記憶された制御プログラムを読み出して各種処理を実行する。RAM1203は、CPU1201の主メモリ、ワークエリア等の一時記憶領域として用いられる。HDD1204は、画像データや各種プログラム等各種情報を記憶する。表示部1205は、各種情報を表示する。入力部1206は、キーボードやマウスを有し、ユーザによる各種操作を受け付ける。ネットワークI/F部1207は、ネットワークを介して画像形成装置等の外部装置との通信処理を行う。また、他の例としては、ネットワークI/F部1207は、無線により外部装置との通信を行ってもよい。なお、画像処理装置の機能や処理は、CPU1201がROM1202又はHDD1204に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。なお、画像処理装置の機能や処理は、CPU1201がROM1202又はHDD1204に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。
なお、他の例としては、図1を参照しつつ説明した画像処理装置の各部は、それぞれ独立したデバイスとしてもよい。また、他の例としては、画像処理装置の各部は、複数の装置により実現されてもよい。画像処理装置の各部は、また、カメラ等の撮影装置内部においてプログラム又は回路として実装されてもよい。また、画像処理装置の各記憶部は、画像処理装置の内部又は外部ストレージとして実現される。学習データ記憶部112、領域識別器記憶部111及び判定器記憶部110は、同一のストレージであってもよく、異なる3つのストレージであってもよい。
また、上記実施形態においては、画像の領域分割を例にして説明したが、本実施形態に係る画像形成装置の応用は領域分割に限定されるものではない。例えば、領域識別器をパターン識別器、小領域を画像をラスタスキャンしながら得られるブロック領域による部分画像として、撮影状況変動に対応した画像上のパターン識別器を生成することができる。パターン識別器の具体例としては、マルチクラスの物体検出器や、顔検出器等を想定することもできる。
<その他の実施形態>
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。
以上、上述した各実施形態によれば、撮影条件の変化等により画像特徴が変化する場合においても、精度よく画像を識別することができる。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。上述の実施形態の一部を適宜組み合わせてもよい。
102 判定部
105 識別部
110 判定器記憶部
111 領域識別器記憶部
121 第1学習部
123 データセット生成部
124 第2学習部
126 第3学習部

Claims (13)

  1. 1以上の第1の学習画像に基づいて、識別器を生成する第1の学習手段と、
    前記識別器による前記第1の学習画像の評価結果に基づいて、前記第1の学習画像から第2の学習画像を生成する画像生成手段と、
    前記第2の学習画像に基づいて、前記第1の学習手段により生成された前記識別器と異なる1以上の識別器を生成する第2の学習手段と、
    前記第1の学習画像及び前記第2の学習画像に基づいて、前記第1の学習手段が生成した前記識別器及び前記第2の学習手段が生成した識別器の適正度を判定する判定器を生成する判定器生成手段と
    を有することを特徴とする画像処理装置。
  2. 入力画像の画像特徴に応じて前記判定器により出力される適正度と、各識別器による識別結果に基づいて、前記入力画像の領域識別を行う識別手段をさらに有することを特徴とする請求項1に記載の画像処理装置。
  3. 入力画像の画像特徴に応じて前記判定器により出力される適正度に基づいて、前記第1の学習手段及び前記第2の学習手段が生成した複数の識別器の中から処理に用いる識別器を選択する選択手段をさらに有し、
    前記識別手段は、前記選択手段により選択された前記識別器を利用して、前記入力画像の領域識別を行うことを特徴とする請求項2に記載の画像処理装置。
  4. 前記入力画像を複数の小領域に分割する第1の分割手段をさらに有し、
    前記識別手段は、前記選択手段により選択された前記識別器を利用し、前記小領域の領域特徴に基づいて、前記入力画像の領域識別を行うことを特徴とする請求項3に記載の画像処理装置。
  5. 前記画像生成手段は、1以上の前記第1の学習画像から小領域単位で前記第2の学習画像を生成することを特徴とする請求項4に記載の画像処理装置。
  6. 前記第1の学習画像を、前記識別器による評価結果が閾値以上となる第1の画像群と、閾値未満となる第2の画像群と、に分割する第2の分割手段と、
    前記第2の画像群を、領域クラス毎に分割する第3の分割手段と
    をさらに有し、
    前記画像生成手段は、前記第2の画像群のうち、前記第1の画像群に対応する領域クラスの画像と、前記第1の画像群と、を組み合わせて前記第2の学習画像を生成することを特徴とする請求項5に記載の画像処理装置。
  7. 前記第1の学習画像を、前記識別器による評価結果が閾値以上となる第1の画像群と、閾値未満となる第2の画像群と、に分割する第2の分割手段と、
    前記第2の画像群を、複数のクラスタに分割する第3の分割手段と
    をさらに有し、
    前記画像生成手段は、前記第1の画像群に対応するクラスタの画像と、前記第1の画像群とを組み合わせて前記第2の学習画像を生成することを特徴とする請求項5に記載の画像処理装置。
  8. 前記画像生成手段は、複数の第1の学習画像それぞれに対する前記識別器による評価結果に基づいて、複数の第1の学習画像から画像単位で前記第2の学習画像を生成することを特徴とする請求項1乃至4何れか1項に記載の画像処理装置。
  9. 前記第1の学習画像を、前記識別器による評価結果が閾値以上となる1以上の学習画像を含む第1の画像群と、閾値未満となる1以上の第2の画像群と、に分割する第2の分割手段と、
    各撮影画像に含まれる画素の領域クラスに基づいて、複数の撮影画像の中から、前記第1の画像群に対応する撮影画像を選択する選択手段と
    をさらに有し、
    前記画像生成手段は、前記第1の画像群と、前記選択手段により選択された前記撮影画像とを組み合わせて前記第2の学習画像を生成することを特徴とする請求項8に記載の画像処理装置。
  10. 前記識別手段は、各識別器による識別結果に、前記適正度に応じた重み付けを行うことにより、前記入力画像の領域識別を行うことを特徴とする請求項2に記載の画像処理装置。
  11. 異なる複数の第1の学習画像それぞれから得られた識別器と判定器の複数の組み合わせを記憶する記憶手段をさらに有し、
    前記識別手段は、各組み合せに応じた領域識別の結果に基づいて、前記入力画像の領域識別の結果を得ることを特徴とする請求項2に記載の画像処理装置。
  12. 画像処理装置が実行する画像処理方法であって、
    1以上の第1の学習画像に基づいて、識別器を生成する第1の学習ステップと、
    前記識別器による前記第1の学習画像の評価結果に基づいて、前記第1の学習画像から第2の学習画像を生成する画像生成ステップと、
    前記第2の学習画像に基づいて、前記第1の学習ステップにおいて生成された前記識別器と異なる1以上の識別器を生成する第2の学習ステップと、
    前記第1の学習画像及び前記第2の学習画像に基づいて、前記第1の学習ステップにおいて生成された前記識別器及び前記第2の学習ステップにおいて生成された識別器の適正度を判定する判定器を生成する判定器生成ステップと
    を含むことを特徴とする画像処理方法。
  13. コンピュータを、
    1以上の第1の学習画像に基づいて、識別器を生成する第1の学習手段と、
    前記識別器による前記第1の学習画像の評価結果に基づいて、前記第1の学習画像から第2の学習画像を生成する画像生成手段と、
    前記第2の学習画像に基づいて、前記第1の学習手段により生成された前記識別器と異なる1以上の識別器を生成する第2の学習手段と、
    前記第1の学習画像及び前記第2の学習画像に基づいて、前記第1の学習手段が生成した前記識別器及び前記第2の学習手段が生成した識別器の適正度を判定する判定器を生成する判定器生成手段と
    して機能させるためのプログラム。
JP2014184563A 2014-09-10 2014-09-10 画像処理装置、画像処理方法及びプログラム Pending JP2016057918A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014184563A JP2016057918A (ja) 2014-09-10 2014-09-10 画像処理装置、画像処理方法及びプログラム
US14/849,346 US10395136B2 (en) 2014-09-10 2015-09-09 Image processing apparatus, image processing method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014184563A JP2016057918A (ja) 2014-09-10 2014-09-10 画像処理装置、画像処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2016057918A true JP2016057918A (ja) 2016-04-21

Family

ID=55437791

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014184563A Pending JP2016057918A (ja) 2014-09-10 2014-09-10 画像処理装置、画像処理方法及びプログラム

Country Status (2)

Country Link
US (1) US10395136B2 (ja)
JP (1) JP2016057918A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018200531A (ja) * 2017-05-26 2018-12-20 富士通株式会社 教師データ生成装置、教師データ生成方法、教師データ生成プログラム、及び物体検出システム
JP2019077391A (ja) * 2017-10-26 2019-05-23 トヨタ自動車株式会社 ヘッドライト制御システム
JP2019101519A (ja) * 2017-11-29 2019-06-24 Kddi株式会社 画素に基づく画像セグメンテーション用のプログラム
JP2020123830A (ja) * 2019-01-30 2020-08-13 京セラドキュメントソリューションズ株式会社 画像処理装置、画像読取装置、画像形成装置、画像処理方法及び画像処理プログラム
WO2022097353A1 (ja) * 2020-11-09 2022-05-12 東京ロボティクス株式会社 データセット生成装置、方法、プログラム及びシステム
US11741367B2 (en) 2017-03-13 2023-08-29 Fanuc Corporation Apparatus and method for image processing to calculate likelihood of image of target object detected from input image
JP7452149B2 (ja) 2020-03-20 2024-03-19 株式会社アイシン ブロックノイズ検出の為の学習装置及びコンピュータプログラム

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016057918A (ja) * 2014-09-10 2016-04-21 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
EP3271894B1 (en) * 2015-03-20 2019-02-13 Ventana Medical Systems, Inc. System and method for image segmentation
CN106156755B (zh) * 2016-07-29 2018-05-18 深圳云天励飞技术有限公司 一种人脸识别中的相似度计算方法及系统
CN107798324B (zh) * 2016-08-29 2020-12-29 北京君正集成电路股份有限公司 一种车牌图像定位方法及设备
CN107277615B (zh) * 2017-06-30 2020-06-23 北京奇虎科技有限公司 直播风格化处理方法、装置、计算设备及存储介质
CN107277391B (zh) * 2017-06-30 2020-06-23 北京奇虎科技有限公司 图像转换网络处理方法、服务器、计算设备及存储介质
KR102565278B1 (ko) * 2018-03-26 2023-08-09 삼성전자주식회사 영상 분할 방법, 영상 분할 장치, 및 영상 분할을 위한 학습 방법
WO2019224947A1 (ja) * 2018-05-23 2019-11-28 株式会社ソニー・インタラクティブエンタテインメント 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム
CN109348589B (zh) * 2018-08-29 2020-04-10 浙江大丰实业股份有限公司 基于图像识别的射灯定向照明平台
JP7453767B2 (ja) * 2019-09-25 2024-03-21 キヤノン株式会社 情報処理装置、情報処理方法
KR20220082454A (ko) * 2020-12-10 2022-06-17 삼성전자주식회사 생체 정보의 도용 여부를 검출하는 방법 및 장치

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1393196A4 (en) * 2001-05-07 2007-02-28 Health Discovery Corp CORES AND METHODS FOR SELECTING CORES FOR USE IN TEACHING MACHINES
US20030110038A1 (en) * 2001-10-16 2003-06-12 Rajeev Sharma Multi-modal gender classification using support vector machines (SVMs)
US7203360B2 (en) * 2003-04-09 2007-04-10 Lee Shih-Jong J Learnable object segmentation
JP5025893B2 (ja) * 2004-03-29 2012-09-12 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
US7447359B2 (en) * 2004-09-07 2008-11-04 Siemens Medical Solutions Usa, Inc. System and method for anatomical structure parsing and detection
US7664328B2 (en) * 2005-06-24 2010-02-16 Siemens Corporation Joint classification and subtype discovery in tumor diagnosis by gene expression profiling
CN101030259B (zh) 2006-02-28 2011-10-26 东软集团股份有限公司 Svm分类器、利用svm分类器识别车辆图像的方法和装置
US8295575B2 (en) * 2007-10-29 2012-10-23 The Trustees of the University of PA. Computer assisted diagnosis (CAD) of cancer using multi-functional, multi-modal in-vivo magnetic resonance spectroscopy (MRS) and imaging (MRI)
US8015132B2 (en) * 2008-05-16 2011-09-06 Samsung Electronics Co., Ltd. System and method for object detection and classification with multiple threshold adaptive boosting
CN101359372B (zh) * 2008-09-26 2011-05-11 腾讯科技(深圳)有限公司 分类器的训练方法及装置、识别敏感图片的方法及装置
US8577130B2 (en) * 2009-03-16 2013-11-05 Siemens Medical Solutions Usa, Inc. Hierarchical deformable model for image segmentation
US8478052B1 (en) * 2009-07-17 2013-07-02 Google Inc. Image classification
US8687898B2 (en) * 2010-02-01 2014-04-01 Toyota Motor Engineering & Manufacturing North America System and method for object recognition based on three-dimensional adaptive feature detectors
US8649606B2 (en) * 2010-02-10 2014-02-11 California Institute Of Technology Methods and systems for generating saliency models through linear and/or nonlinear integration
WO2013049153A2 (en) * 2011-09-27 2013-04-04 Board Of Regents, University Of Texas System Systems and methods for automated screening and prognosis of cancer from whole-slide biopsy images
US8699752B2 (en) * 2011-09-29 2014-04-15 Nec Laboratories America, Inc. Adaptive cross partition for learning weak classifiers
CN103366177B (zh) * 2012-03-28 2016-12-07 佳能株式会社 对象检测分类器生成方法和设备、图像对象检测方法和设备
SG11201501348RA (en) * 2012-08-24 2015-04-29 Agency Science Tech & Res Methods and systems for automatic location of optic structures in an image of an eye, and for automatic retina cup-to-disc ratio computation
WO2014063278A1 (en) * 2012-10-22 2014-05-01 Nokia Corporation Classifying image samples
US9443326B2 (en) * 2013-12-10 2016-09-13 Microsoft Technology Licensing, Llc Semantic place labels
JP2016057918A (ja) * 2014-09-10 2016-04-21 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
KR102294734B1 (ko) * 2014-09-30 2021-08-30 삼성전자주식회사 영상 정합 장치, 영상 정합 방법 및 영상 정합 장치가 마련된 초음파 진단 장치
WO2016074247A1 (en) * 2014-11-15 2016-05-19 Beijing Kuangshi Technology Co., Ltd. Face detection using machine learning
AU2014271236A1 (en) * 2014-12-02 2016-06-16 Canon Kabushiki Kaisha Video segmentation method

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11741367B2 (en) 2017-03-13 2023-08-29 Fanuc Corporation Apparatus and method for image processing to calculate likelihood of image of target object detected from input image
DE102018105334B4 (de) 2017-03-13 2024-01-25 Fanuc Corporation Bildverarbeitungsvorrichtung und Bildverarbeitungsverfahren zur Berechnung der Bildwahrscheinlichkeit eines aus einem Eingangsbild erfassten Zielobjekts
JP2018200531A (ja) * 2017-05-26 2018-12-20 富士通株式会社 教師データ生成装置、教師データ生成方法、教師データ生成プログラム、及び物体検出システム
JP2019077391A (ja) * 2017-10-26 2019-05-23 トヨタ自動車株式会社 ヘッドライト制御システム
JP2019101519A (ja) * 2017-11-29 2019-06-24 Kddi株式会社 画素に基づく画像セグメンテーション用のプログラム
JP2020123830A (ja) * 2019-01-30 2020-08-13 京セラドキュメントソリューションズ株式会社 画像処理装置、画像読取装置、画像形成装置、画像処理方法及び画像処理プログラム
JP7198432B2 (ja) 2019-01-30 2023-01-04 京セラドキュメントソリューションズ株式会社 画像処理装置、画像読取装置、画像形成装置、画像処理方法及び画像処理プログラム
JP7452149B2 (ja) 2020-03-20 2024-03-19 株式会社アイシン ブロックノイズ検出の為の学習装置及びコンピュータプログラム
WO2022097353A1 (ja) * 2020-11-09 2022-05-12 東京ロボティクス株式会社 データセット生成装置、方法、プログラム及びシステム
JP7446615B2 (ja) 2020-11-09 2024-03-11 東京ロボティクス株式会社 データセット生成装置、生成方法、プログラム、システム、機械学習装置、物体認識装置、及びピッキングシステム

Also Published As

Publication number Publication date
US10395136B2 (en) 2019-08-27
US20160070976A1 (en) 2016-03-10

Similar Documents

Publication Publication Date Title
JP2016057918A (ja) 画像処理装置、画像処理方法及びプログラム
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN110619369B (zh) 基于特征金字塔与全局平均池化的细粒度图像分类方法
CN106960214B (zh) 基于图像的物体识别方法
JP6708385B2 (ja) 識別器作成装置、識別器作成方法、およびプログラム
WO2016037300A1 (en) Method and system for multi-class object detection
CN110866896B (zh) 基于k-means与水平集超像素分割的图像显著性目标检测方法
CN106815323B (zh) 一种基于显著性检测的跨域视觉检索方法
CN110047139B (zh) 一种指定目标三维重建方法及系统
JP6866095B2 (ja) 学習装置、画像識別装置、学習方法、画像識別方法及びプログラム
CN111639540A (zh) 基于相机风格和人体姿态适应的半监督人物重识别方法
CN113761259A (zh) 一种图像处理方法、装置以及计算机设备
JP6107531B2 (ja) 特徴抽出プログラム及び情報処理装置
CN112801104B (zh) 基于语义分割的图像像素级伪标签确定方法及系统
CN113569895A (zh) 图像处理模型训练方法、处理方法、装置、设备及介质
CN113870157A (zh) 一种基于CycleGAN的SAR图像合成方法
CN110633727A (zh) 基于选择性搜索的深度神经网络舰船目标细粒度识别方法
CN110196917A (zh) 个性化logo版式定制方法、系统和存储介质
CN114445681A (zh) 模型训练及图像识别方法和装置、设备及存储介质
CN111274964B (zh) 一种基于无人机视觉显著性分析水面污染物的检测方法
CN113111716A (zh) 一种基于深度学习的遥感影像半自动标注方法和装置
CN115311550B (zh) 遥感影像语义变化检测方法、装置、电子设备及存储介质
CN112132822B (zh) 一种基于迁移学习的可疑违章建筑检测算法
JP2016062249A (ja) 識別辞書学習システム、認識辞書学習方法および認識辞書学習プログラム
KR101095859B1 (ko) 영상 분할 장치 및 방법