JP6855207B2 - 画像処理装置、画像処理方法及びプログラム - Google Patents

画像処理装置、画像処理方法及びプログラム Download PDF

Info

Publication number
JP6855207B2
JP6855207B2 JP2016198889A JP2016198889A JP6855207B2 JP 6855207 B2 JP6855207 B2 JP 6855207B2 JP 2016198889 A JP2016198889 A JP 2016198889A JP 2016198889 A JP2016198889 A JP 2016198889A JP 6855207 B2 JP6855207 B2 JP 6855207B2
Authority
JP
Japan
Prior art keywords
image
feature
region
horizon
image processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016198889A
Other languages
English (en)
Other versions
JP2018060440A (ja
JP2018060440A5 (ja
Inventor
小川 修平
修平 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2016198889A priority Critical patent/JP6855207B2/ja
Publication of JP2018060440A publication Critical patent/JP2018060440A/ja
Publication of JP2018060440A5 publication Critical patent/JP2018060440A5/ja
Application granted granted Critical
Publication of JP6855207B2 publication Critical patent/JP6855207B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像中の対象を認識する技術に関する。
従来から、画像中の対象(被写体)を認識する画像認識技術が知られている。例えば、画像中に存在する顔の位置を認識する顔認識、人体を検出する人体検出、画像が撮像された環境や状況を認識するシーン認識、画像中の各画素の意味的なカテゴリを認識する意味的領域分割などである。
しかしながら、画像情報のみに基づいて画像中の対象を認識することが、困難となる場合がある。例えば、意味的領域分割において、画像中の被写体を空と空以外の1以上のカテゴリとに分類する際、画像情報のみでは、空に類似した白い壁や水面といった領域を空と誤認識してしまうことがある。また、学習事例数が少ない場合、様々な色やテクスチャを持つ空を認識することは困難である。
そこで、撮像時に得られる撮像系の位置や姿勢などの情報を利用して地平線や水平線を推定し、画像の認識を行う技術が知られている。非特許文献1には、撮像系の姿勢から得られた水平線や地平線の情報に基づいて領域分割を行うことが開示されている。
Jing Wang,Grant Schindler,Irfan Essa, ’Orientation−Aware Scene Understanding for Mobile Cameras’,Proceedings of the 2012 ACM Conference on Ubiquitous Computing,pp.260−269 R.Achanta,A.Shaji,K.Smith,A.Lucchi,P.Fua,and S.Susstrunk,SLIC Superpixels Compared to State−of−the−art Superpixel Methods,IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.34,num.11,p.2274−2282,2012. Timo Ojala,Matti Pietikainen,and David Harwood. A comperative study of texture measures with classification based on featured distributions.Pattern Recognition,Vol.29,No.1,pp.51−59,1996.
しかし、撮像系の姿勢のみから推定される地平線や水平線を利用しただけでは、地平線や水平線よりも上方に存在する非空領域(空以外のカテゴリの領域)を空領域として誤判別する可能性があった。そこで、本発明は、より精度良く空領域を認識できるようにすることにある。
上記課題を解決するために、本発明は、
撮像装置による撮像により得られた画像を複数の領域に分割する分割手段と、
前記域ごとに前記画像の画像情報に基づく第1の特徴抽出する抽出手段と、
前記像装置の前記撮像の際の姿勢を示す姿勢情報を取得する第1の取得手段と、
前記第1の取得手段により取得された前記姿勢情報に基づいて、前記画像における水平線または地平線を推定する第1の推定手段と、
前記画像の所定領域ごとの被写体と前記撮像装置との距離を示す距離情報を取得する第2の取得手段と、
前記抽出手段により抽出された前記第1の特徴と、前記第1の推定手段による推定結果と、前記第2の取得手段により取得される前記距離情報とを統合した、前記領域ごとの第2の特徴を取得する第3の取得手段と、
前記領域ごとの前記第2の特徴と、隣接する領域の前記第2の特徴とに基づいて、前記領域ごとの第3の特徴を取得する第4の取得手段と、
学習された識別器への、前記第4の取得手段により取得された前記領域ごとの前記第3の特徴の入力に対する出力に基づいて、前記画像における空領域を推定する第2の推定手段と、
を有することを特徴とする。
以上の構成によれば、本発明は、より精度良く空領域を認識できるようになる。
第1の実施形態に係る画像処理装置の機能構成を示すブロック図。 第1の実施形態に係る画像処理の詳細を示すフローチャート。 第1の実施形態において撮像系の姿勢情報を説明する図。 第1の実施形態おいて地平線/水平線尤度マップの生成を説明する図。 第1の実施形態において隣接SPの分類を説明する図。 第1の実施形態において隣接SPの統計値を算出する方法を説明する図。 第2の実施形態に係る画像処理装置の機能構成を示すブロック図。 第2の実施形態に係る画像処理の詳細を示すフローチャート。 第2の実施形態においてエッジ強度マップの生成を説明する図。 第3の実施形態に係る画像処理装置の機能構成を示すブロック図。 第3の実施形態に係る画像処理の詳細を示すフローチャート。 第4の実施形態に係る画像処理装置の機能構成を示すブロック図。 第4の実施形態に係る画像処理の詳細を示すフローチャート。
[第1の実施形態]
以下、図面を参照して本発明の第1の実施形態を詳細に説明する。本実施形態では、画像認識の一例として、画像中に存在する被写体のカテゴリを判別し、カテゴリの領域ごとに分割する意味的領域分割の場合について説明する。被写体のカテゴリには、空と、空以外の、例えば、人体、草木、建物、車、道路といった一般的なC個のカテゴリとする。
図1は、本実施形態に係る画像処理装置の機能構成を示すブロック図であり、図1(a)は画像認識時の機能構成を示している。画像処理装置は、画像認識を行う対象の画像を取得するための画像取得部101、取得された画像を部分領域に分割する部分領域分割部102、撮像系の姿勢を取得する撮像系姿勢取得部103を有する。また、撮像系の姿勢から画像中の水平線または地平線を推定する地平線/水平線位置推定部104、取得画像の距離情報を取得する距離情報取得部105を有する。また、画像と距離情報及び水平線または地平線の位置に基づいて部分領域ごとに特徴量を抽出する部分領域特徴抽出部106、部分領域特徴量に基づいて空境界を推定する空境界推定部107を有する。また更に、空境界判別器を保持する空境界判別器保持部109、前記部分領域特徴量と推定された前記空境界に基づいて部分領域のカテゴリを認識する部分領域判別部108、部分領域判別器を保持する部分領域判別器保持部110を有する。
この画像処理装置は、CPU、ROM、RAM、HDD等のハードウェア構成を備え、CPUがROMやHD等に格納されたプログラムを実行することにより、例えば、上述した各機能構成の処理が実現される。RAMは、CPUがプログラムを展開して実行するワークエリアとして機能する記憶領域を有する。ROMは、CPUが実行するプログラム等を格納する記憶領域を有する。HDは、CPUが処理を実行する際に要する各種のプログラム、閾値に関するデータ等を含む各種のデータを格納する記憶領域を有する。
ここで、本実施形態に係る画像処理装置の各機能部による処理の詳細を、図2を用いて説明する。図2は、本実施形態の画像処理装置による処理の詳細を示すフローチャートであり、図2(a)は画像認識時の処理を示している。まず、ステップS1において、画像取得部101は、カメラ等の撮像装置から画像を1枚取得する。ここでの画像は、静止画像、もしくは動画像中の1フレームの画像である。
次に、ステップS2で、部分領域分割部102が、取得した画像を部分領域に分割する。具体的には、非特許文献2等の公知の方法を用いて、Super−Pixel(以下、SPと記す)と呼ばれる色と位置の類似した小領域(画素の塊)に画像を分割する。
次に、ステップS3で、撮像系姿勢取得部103は撮像装置(撮像系)の姿勢を取得する。具体的には、撮像系に取り付けられたジャイロセンサや加速度センサ等の慣性センサの情報を利用して撮像系の姿勢を求める。ここで、ジャイロセンサや加速度センサの値から得られた重力加速度値を[Gx,Gy,Gz]として、図3に示す撮像系の姿勢に関する情報φ,Θ,ψを、以下の数式1により算出する。
Figure 0006855207

なお、ここでは、撮像系姿勢取得部103は、取得した慣性センサに基づいて撮像系の姿勢情報を算出して取得するようにしているが、撮像系(撮像装置)で姿勢情報を算出して、撮像系姿勢取得部103はその算出した姿勢情報を取得するだけとしてもよい。
次に、ステップS4で、地平線/水平線位置推定部104は、ステップS3で得られた撮像系の姿勢情報に基づいて、画像内の水平線または地平線の位置を推定する。具体的には、非特許文献1等に開示されている公知の手法により、撮像系の姿勢情報から画像内の地平線または水平線の位置を推定する。なお、撮影時の撮像系の姿勢情報を利用して地平線/水平線位置を推定してもよいし、撮影前後の時系列で得られた撮像系の姿勢情報にカルマンフィルタや拡張カルマンフィルタなどの時系列フィルタを施した値を利用して地平線/水平線位置を推定してもよい。
また、本実施形態において、地平線/水平線位置推定部104は、推定された地平線/水平線位置に基づいて、ステップS1で入力された画像の画素ごとに水平線位置らしさを示す地平線/水平線尤度を計算して、地平線/水平線尤度マップを生成する。具体的には、撮像系の姿勢を推定するための慣性センサに含まれるノイズが正規分布であると仮定し、慣性センサ値から一意に求められた地平線/水平線位置を中心とした正規分布により地平線/水平線尤度マップを表現する。
次に、ステップS5で、距離情報取得部105がステップS1で得られた入力画像に対応した距離情報を取得し、距離マップを作成する。
図4は、本実施形態における地平線/水平線尤度マップを説明する図であり、図4(a)が入力画像の一例を示している。ここでは、sky、building等のカテゴリを含む画像が入力されているものとする。図4(b)には上述のステップS4で生成される地平線/水平線尤度マップの例を示し、図4(c)には上述のステップS5で生成される距離マップの例を示している。
次に、ステップS6で、部分領域特徴抽出部106がステップS2で得られた各部分領域から特徴量を抽出する。ここでは、入力画像の画素値に基づく特徴量と、ステップS4で得られた水平線尤度マップに基づく特徴量、およびステップS5で得られた距離マップに基づく特徴量の3種類の特徴量を抽出する。
具体的には、まず、部分領域毎に抽出される特徴量として、入力画像のSPごとに、色の分布のヒストグラムやLocal Binary Pattern(以下、LBPと記す)領域のモーメント、高次統計量といった一般的な特徴量を抽出する。なお、LBPについては、非特許文献3等により広く知られた技術内容であるので、ここでの説明は省略する。
また、距離マップに基づく部分領域特徴量として、入力画像の注目部分領域に対応する距離マップの部分領域内の距離値の平均、分散、歪度、尖度などの基本統計量を抽出する。
さらに、地平線/水平線尤度に基づく部分領域特徴量として、注目部分領域に対応する地平線/水平線尤度マップの部分領域内の尤度値および、水平線の上下のいずれに部分領域が存在するかの情報を抽出する。これら複数の種類の特徴量を全て連結し、特徴次元ごとのスケールの違いを吸収するため次元ごとに正規化したものを部分領域特徴量とする。
次に、ステップS7において、空境界推定部107は、注目SPが空境界であるかどうかを判別する。このステップS7は、サブステップS7a、S7bに分けられる。まず、ステップS7aにおいて、空境界推定特徴生成部107aが、注目SPと注目SPに隣接するSPとから成る部分領域の特徴量から、空境界を推定するために必要な特徴量を生成する。ここでは、図5に示すように、注目SPと隣接SPとの相対的な位置関係に基づいて、隣接SPを上下左右の4つの方向に分類する。そして、各方向に隣接するSPの部分領域特徴量の平均、分散、歪度、尖度などの基本統計量を注目SPの部分領域特徴量に連結して、注目SPの空境界推定特徴量とする。
例えば、図5に示した例では、注目SP1010に隣接するSPのうち、SP1011とSP1012が右方向に隣接している。そこで、SP1011とSP1012の部分領域特徴量の平均を、右方向に隣接するSPの特徴量1014として注目SPの部分領域特徴量1013に連結する。
次に、ステップS7bで、空境界判別部107bが、前段のステップS7aで得られた部分領域の空境界推定特徴量に基づいて、部分領域が空境界か否かを判別する。空境界判別部107bは、サポートベクトルマシン(以下、SVMと記す)の識別器により空領域か否かを判断する。この識別器は、空境界推定特徴量を入力変数、空境界か否かを目標変数として、与えられた入力変数に対して正しく空境界か否か出力できるように前もって学習が行われている。以上のステップS7での判別処理の結果、1つの部分領域に対して空境界か否かの判別スコア(空境界スコア)が得られる。
次に、ステップS8で領域判別部108が、部分領域特徴抽出部106で抽出された部分領域特徴量と、空境界推定部107で得られた部分領域ごとの空境界スコアとに基づいて、部分領域のカテゴリを判別する。
領域判別部108は、第2の部分領域特徴生成部108aと部分領域認識部108bとにより構成されている。まず、ステップS8aにおいて、第2の部分領域特徴生成部108aが、図6に示すように、注目SPの周辺領域を注目SPからの方向と距離に応じて8分割した領域1001から1008ごとに、空境界スコアの平均や分散といった統計値を算出する。そして、この算出した統計量を空境界特徴量として、注目SPの部分領域特徴量と、注目SPの空境界特徴量とを連結した特徴量を第2の部分領域特徴量として生成する。
次に、ステップS8bで部分領域認識部108bが、前段のステップS8aで得られた第2の部分領域特徴量に基づいて部分領域のカテゴリを認識する。統合領域認識部108bは、SVMの識別器を用いて部分領域のカテゴリを認識する。この識別器は、第2の部分領域特徴量を入力変数、正解カテゴリを目標変数として、与えられた入力変数に対して正しいカテゴリが出力できるように前もって学習されている。なお、SVMは基本的に2クラス判別器であるため、対象カテゴリを正事例とし、その他の全てのカテゴリを負事例としてカテゴリごとに学習を行い、C個のSVMを用意するものとする。このステップS8bでの判別処理の結果、1つの統合領域に対してC個のカテゴリの判別スコアが得られる。
次に、上述のステップS7で用いる空境界判別器の学習方法について説明する。なお、画像認識時と共通する同様の機能構成、処理については同じ符号を付して説明を省略する。図1(b)は、本実施形態に係る画像処理装置の空境界判別器を学習する時の機能構成を示している。画像処理装置は、学習に必要な画像、撮像系の姿勢、距離情報、及びカテゴリGTを有する学習データ保持部112、部分領域分割部102、地平線/水平線位置推定部104、部分領域特徴抽出部106を有する。また、空境界推定特徴生成部107a、空境界判別器学習部110、空境界判別器保持部109を有する。なお、カテゴリGT(Ground Truth)とは、入力画像に正解のカテゴリを割り当てたマップのことである。
図2(b)は、本実施形態における空境界の学習処理を示すフローチャートである。まず、ステップS2において、部分領域分割部102が、非特許文献2等に記載の手法を用いて、学習データ保持部112に保持されている学習画像をSPに分割する。次に、ステップS4において、地平線/水平線推定部104が、学習データ保持部112に保持された撮像系の姿勢情報から、認識時と同様の方法で画像内の地平線または水平線の位置を推定する。
次に、ステップS6において、部分領域特徴抽出部106が、ステップS2で得られた部分領域から認識時と同様の手法で部分領域特徴量を取得する。次に、ステップS7aにおいて、空境界推定生成部107aが、認識時と同様の手法で、部分領域特徴量と地平線/水平線位置に基づいて、空境界推定に必要な特徴量を生成する。
次に、ステップS9で、空境界判別器学習部110が、前段のステップS7aで得られた空境界推定特徴量と、学習データ保持部112に保持されたカテゴリGTとに基づいて、空境界判別器を学習する。空境界判別器はSVMから成り、空境界推定特徴量を入力変数、空境界か否かを目標変数として、与えられた入力変数に対して正しく空境界か否かが出力できるように学習される。
次に、本実施形態の画像認識処理のステップS8で用いられる部分領域判別器の学習方法について説明する。なお、画像認識時と共通する同様の機能構成、処理については同じ符号を付して説明を省略する。図1(c)は、本実施形態に係る画像処理装置の部分領域判別器の学習時の機能構成を示している。画像処理装置は、学習データ保持部112、部分領域分割部102、部分領域特徴抽出部106、空境界推定部107を有する。また、空境界判別器保持部109、第2の部分領域特徴生成部108a、部分領域判別器学習部108b、部分領域判別器保持部113を有する。
図2(c)は、本実施形態における部分領域判別器の学習処理を示すフローチャートである。同図において、ステップS2からS6までの処理は、空境界判別器の学習処理と同様であるため、重ねての説明を省く。
ステップS8aにおいて、第2の部分領域特徴生成部108aは、画像認識時と同様の手法で、第2の部分領域特徴量を生成する。次に、ステップS10において、前段のステップS8aで得られた第2の部分領域特徴量と、学習データ保持部112に保持されているカテゴリGTとに基づいて、部分領域判別器を学習する。部分領域判別器はSVMから成り、第2の部分領域特徴量を入力変数、部分領域のカテゴリを目標変数として、与えられた入力変数に対して正しくカテゴリを出力できるように学習される。部分領域判別器保持部113は、得られた部分領域判別器を保持する。
以上、本実施形態によれば、撮像系の姿勢から推定される画像中の地平線/水平線と、画像情報の両方を利用して、画像中の空境界を推定する。これにより、より精度良く空領域を認識できるようになる。具体的には、第2の部分領域特徴生成部108aによって、注目SPと空境界の関係を考慮した特徴量が生成されるため、地平線/水平線上方の誤判別や、地平線/水平線が画像中に存在しない場合の誤判別を軽減することができる。
[第1の実施形態の変形例]
第1の実施形態では、空境界推定特徴生成部107aが各象限に存在する隣接SPの部分領域特徴量の平均や分散等の統計量を注目SPの部分領域特徴量に連結して、注目SPの空境界推定特徴量とした。しかし、コードブック化された隣接SPの部分領域特徴量の頻度ヒストグラムを注目SPの部分領域特徴量に連結して、空境界推定特徴量としてもよい。ここで、コードブックとは、注目SPの部分領域特徴量をk−meansなどのクラスタリング手法によって得られる代表ベクトルのことを指す。
また、本実施形態では空境界推定特徴生成部107aは、注目SPに隣接するSPに着目し、隣接SPの部分領域特徴量を利用して、空境界推定特徴量を生成した。しかし、注目SPに隣接するSPではなく、注目SPを中心とするある領域内に存在するSPの部分領域特徴量を利用して、空境界推定特徴量を生成してもよい。
また、第1の実施形態では、空境界判別部107b、及び部分領域判別部108bはSVMを用いたが、別の識別器を用いることも考えられる。例えば、ロジスティック回帰、ニューラルネット、ランダムフォレスト等を用いることが考えられる。また、部分領域の判別スコアを条件付き確率場CRF(Conditional Random Field)の枠組みに組み込み、カテゴリを判別するようにしてもよい。
なお、第1の実施形態では、画像認識時、空境界判別器の学習時、部分領域判別器の学習時で、同一の画像処理装置を用いるものとして説明したが、それぞれ別々の装置で行うようにしてもよい。
[第2の実施形態]
次に、本発明の第2の実施形態について説明する。第1の実施形態では、画像認識タスクとして意味的領域分割の例を説明したが、本実施形態ではシーン判別の場合について説明する。本実施形態では、静止画像1枚を入力とし、入力画像のシーンのカテゴリを判別することを目的とする。ここでのカテゴリとは、山岳風景、街中の景色、人物ポートレートなど予めユーザが分類しておいた所定のC個のシーンのカテゴリである。なお、第1の実施形態において既に説明をした構成については同一の符号を付し、その説明を省略する。
図7は、本実施形態に係る画像処理装置の機能構成を示すブロック図であり、図7(a)は画像認識時の機能構成を示している。画像処理装置は、画像取得部101、部分領域分割部102、撮像系姿勢取得部103、地平線/水平線位置推定部104、部分領域特徴抽出部106を有する。また、空境界推定部202、画像中のエッジを抽出するためのエッジ抽出部201、部分領域特徴量と空境界推定結果からシーンのカテゴリを判別するシーン判別部203、シーン判別器を保持するシーン判別器保持部204を有する。
図8は、本実施形態の画像処理装置による処理の詳細を示すフローチャートであり、図8(a)は画像認識の処理に係るフローチャートである。まず、ステップS201において、画像取得部101は、カメラ等の撮像装置から画像を1枚取得する。次に、ステップS202で、部分領域分割部102は、画像取得部101により取得された画像を複数の部分領域に分割する。続いて、ステップS206で、部分領域特徴抽出部106が、第1の実施形態と同様にして、前段のステップS202で分割された各部分領域から部分領域特徴量を抽出する。
一方、ステップS203で、撮像系姿勢取得部103は撮像系の姿勢情報を取得する。次に、ステップS205において、地平線/水平線位置推定部104が撮像系の姿勢情報に基づき、第1の実施形態に示した手法と同様にして、水平線または地平線の位置を推定する。さらに、地平線/水平線位置推定部104は、推定した地平線/水平線位置に基づいて画素毎に地平線/水平線尤度を算出し、地平線/水平線尤度マップを作成する。
次に、ステップS204において、エッジ抽出部201はCanny法等のエッジ抽出法を用いて画像中のエッジを抽出する。ここでは、図9に示すように、閾値を1つ以上変えてエッジを抽出し、全てのエッジ抽出結果に対して重み付け和を計算することにより、エッジ強度マップを生成する。
次に、ステップS207において、空境界推定部203は、エッジ抽出部201により生成されたエッジ強度マップと、地平線/水平線位置推定部104により作成された地平線/水平線尤度マップとに基づいて、空境界を推定する。具体的には、エッジ抽出部201により画素ごとに得られたエッジ強度マップを地平線/水平線尤度で重みづけして、地平線/水平線位置を考慮したエッジ強度マップを生成し、このマップから空境界を推定する。
次に、ステップS208において、シーン判別部は、部分領域特徴抽出部106により抽出された部分領域特徴量と、空境界推定部202により推定された空境界とに基づいてシーンの判別を行う。具体的には、ステップS208aにおいて、シーン判別特徴生成部203aが、注目SPの部分領域特徴量と、注目SP内に存在するエッジコードブックの頻度ヒストグラムで表現したものとを連結し、シーン判別特徴量を生成する。具体的には、ステップS207で得られたSP内のエッジの方向および強度に基づいて予めクラスタリングしてエッジコードブックを取得しておく。そして、SP毎に抽出された特徴量をコードブック化して、画像中の全SPのコードブック頻度ヒストグラムをシーン判別特徴量とする。
次に、ステップS208bにおいて、シーン判別部203bは、シーン判別器保持部204に保持されたシーン判別器を用いて、ステップS208aでSP毎に求めたシーン判別特徴量に基づいて画像のシーンを判別する。シーン判別部203bが用いるシーン判別器はSVMの識別器であり、シーン判別特徴量を入力変数、正解シーンを目標変数として、与えられた入力変数に対して正しいシーンが出力できるように前もって学習されている。なお、SVMは基本的に2クラス判別器であるため、対象シーンを正事例とし、その他のすべてのシーンカテゴリーを負事例としてシーンごとに学習を行い、C個のSVMを用意する。ステップS202bでは、シーン判別処理の結果、1枚の画像に対してC個のシーンの判別スコアが得られる。
次に、上述の画像認識処理のステップS208で用いられるシーン判別器の学習方法について説明する。図7(b)は、本実施形態におけるシーン判別器の学習時の画像処理装置の機能構成を示している。画像処理装置は、学習に必要な画像、撮像系の姿勢、及びシーンGTを有する学習データ保持部205、地平線/水平線位置推定部104、エッジ抽出部201、空境界判別器学習部204、空境界判別器保持部203を有する。
図8(b)は、本実施形態に係るシーン判別器の学習処理を示すフローチャートである。同図において、まず、ステップS202において、部分領域分割部102は、非特許文献1等に記載の手法を用いて、学習データ保持部に保存されている学習画像をSPに分割する。次に、ステップS206において、部分領域特徴抽出部106は、画像認識時と同様の手法により、前段のステップS202で得られた部分領域毎に特徴量を抽出する。
次に、ステップS204で、エッジ抽出部201は、画像認識時と同様に、画像中のエッジを抽出する。次に、ステップS205において、地平線/水平線位置推定部104は、画像認識時と同様に、撮像系の姿勢情報から水平線または地平線の位置を推定し、地平線/水平線尤度マップを作成する。
次に、ステップS207で、空境界推定部202は、画像認識時と同様に、エッジ抽出部201により抽出されたエッジ情報と、地平線/水平線位置推定部104により作成された地平線/水平線尤度マップとに基づいて空境界を推定する。
次に、ステップS207aで、シーン判別特徴生成部203aは、部分領域特徴抽出部106により得られた部分領域特徴と、空境界推定部202より得られた空境界の情報とを用いて、画像認識時と同様に、シーン判別特徴量を生成する。次に、ステップS210で、シーン判別器学習部205は、前段のステップS207aで得られたシーン判別特徴量と、学習データ保持部205に保持されているシーンGTとに基づいて、シーン判別器を学習する。そして、シーン判別器保持部204は、学習されたシーン判別器を保持する。
以上、本実施形態によれば、画像認識タスクがシーン判別の際にも、撮像系の姿勢から推定される画像中の地平線/水平線と、画像情報の両方を利用して、画像中の空境界を推定することにより、精度良く空領域を認識できるようになる。
[第3の実施形態]
次に、本発明の第3の実施形態について説明する。本実施形態は、空境界推定方法およびカテゴリ判別方法が第1の実施形態と異なるものである。なお、第1、第2の実施形態で既に説明をした構成については同一の符号を付し、その説明は省略する。
図10は、本実施形態に係る画像処理装置の機能構成を示すブロック図であり、図10(a)は画像認識時の機能構成を示している。本実施形態に係る画像処理装置は、画像取得部101、撮像系姿勢取得部103、地平線/水平線位置推定部104、距離情報取得部105を有する。また、第1の部分領域特徴分割部301、第1の部分領域特徴抽出部302、第1の空境界判別部303、第1の空境界判別器保持部307を有する。さらに、第2の部分領域分割部304、第2の部分領域特徴抽出部305、第2の空境界判別部306、第2の空境界判別器保持部308、部分領域判別部314、部分領域判別器保持部309を有する。
図11は、本実施形態の画像処理装置による処理の詳細を示すフローチャートであり、図11(a)は画像認識の処理に係るフローチャートである。なお、ステップS301からステップS306までの処理は、第1の実施形態と同様であるため、重ねての説明を省く。
ステップS307において、第2の部分領域分割部304は、地平線/水平線位置推定美104により得られた地平線/水平線尤度マップと、距離情報取得部105により得られた距離マップとに基づいて、画像を第2の部分領域に分割する。具体的には、予め正規化した地平線/水平線尤度マップおよび距離マップの2チャネルを持つ画像と仮定し、非特許文献2等の方法を用いてこの画像をSPに分割する。
次に、ステップS308で、第1の空境界判別部303が、ステップS305で得られた第1の部分領域特徴に基づいて、画像内の各SPの空境界スコアを推定する。この第1の部分領域特徴は、第1の実施形態における部分領域特徴に相当しており、第1の部分領域特徴に基づいて空境界スコアを推定する手法は第1の実施形態と同様であるため、重ねての説明を省く。
次に、ステップS309で、第2の部分領域特徴抽出部305が、地平線/水平線尤度マップ及び距離マップの値に基づいて、前段のステップS307で得られた第2の部分領域ごとに特徴量を抽出する。具体的には、第2の部分領域内の距離の平均や分散等の統計値、地平線/水平線尤度の平均や分散等の統計値、及びSP重心と地平線/水平線の相対的な位置関係を全て連結して第2の部分領域特徴量とする。
次に、ステップS310で第2の空境界判別部306が、前段のステップS09で得られた第2の部分領域特徴量に基づいて、第2の部分領域ごとの空境界スコアを推定する。第2の空境界判別部が用いるSVMの識別器は、第2の部分領域特徴量を入力変数、空境界か否かを目標変数として、正しく空境界か否かを出力できるように、予め学習されている。
次に、ステップS311で部分領域判別部314が、第1の部分領域特徴、第1の空境界判別部303により得られた空境界推定スコア、及び第2の空境界判別部306より得られた空境界推定スコアに基づいて、部分領域のカテゴリを判別する。具体的には、第2の部分領域特徴生成部314aが、第1の実施形態と同様に、注目SPの周辺に位置するSPの空境界スコアを算出する。そして、第1の部分領域特徴と、第1の空境界判別部303で得られた周辺SPの空境界スコアの平均や分散等の統計値と、第2の空境界判別部306で得られた周辺SPの空境界スコアの平均や分散等の統計値と、を連結して、第3の部分領域特徴を生成する。
さらに、ステップS311bで、部分領域判別部314bが、第3の部分領域特徴に基づいて部分領域のカテゴリを判別する。部分領域判別部314bが用いるSVMの識別器は、第3の部分領域特徴量を入力変数、被写体のカテゴリを目標変数として、正しくカテゴリを出力できるように、予め学習されている。
次に、上述した画像認識処理のステップS308で用いられる第1の空境界判別器の学習処理について説明する。図10(b)は、本実施形態に係る第1の空境界を学習する際の画像処理装置の機能構成を示すブロック図である。
本実施形態の画像処理装置は、学習に必要な画像、撮像系の姿勢、距離情報、及びカテゴリGTを有する学習データ保持部310、画像をSPに分割する第1の部分領域分割部301、第1の部分領域から特徴を抽出する第1の部分領域特徴抽出部を有する。また、第1の部分領域特徴量に基づいて、空境界を学習する第1の空境界判別器学習部、第1の空境界判別器を保持する第1の空境界判別器保持部を有する。
図11(b)は、本実施形態における第1の空境界判別器の学習処理を示すフローチャートである。同図のステップS304からステップS305までは、第1の部分領域分割部301が、画像を部分領域に分割した後、第1の部分領域抽出部302により、第1の部分領域特徴を抽出する。具体的な処理は、画像認識時と同様であるため、重ねての説明を省く。
次に、ステップS312において、第1の空境界判別器学習部311が、前段のステップS305で得られた第1の部分領域特徴に基づいて、注目部分領域が空境界か否かを学習する。具体的には、第1の空境界判別器学習部311は、SVMの識別器を用いて、第1の部分領域特徴を入力変数とし、注目する部分領域が空境界か否かを目標変数として、空境界か否かを学習する。その後、第1の空境界判別器保持部307は、前段のステップS312で得られた空境界判別器を保持する。
次に、本実施形態の画像認識処理におけるステップS308で用いられる第2の空境界判別器の学習処理について説明する。図10(c)は、本実施形態における第2の空境界判別器を学習する時の画像処理装置の機能構成を示す図である。
本実施形態の画像処理装置は、学習データ保持部310、撮像系の姿勢から画像の地平線及び水平線位置を推定する地平線/水平背に値位置推定部104、地平線/水平線の情報と距離情報から画像を部分領域に分割する第2の部分領域分割部304を有する。また、前段で得られた部分領域ごとに特徴量を抽出する第2の部分領域特徴抽出部、前段で得られた特徴量に基づいて空境界を学習する第2の空境界判別器学習部312、前段で得られた空境界判別器を保持する空境界判別器保持部308を有する。
図11(c)は、本実施形態における第2の空境界判別器の学習処理を示すフローチャートである。この学習処理において、ステップS306からステップS309までの処理は、画像認識時と同様であるため、重ねての説明を省く。
次に、ステップS313で、第2の空境界判別器学習部312は、前段のステップS309で得られた第2の部分領域特徴量と学習データ保持部310に保持されているカテゴリGTの情報とに基づいて、注目する部分領域が空境界であるか否かを学習する。具体的には、第2の空境界判別器学習部312は、SVMの識別器を用いて、第2の部分領域特徴を入力変数とし、注目する部分領域が空境界か否かを目標変数として、空境界か否かを学習する。その後、第2の空境界判別器保持部308は、前段のステップS313で得られた空境界判別器を保持する。
次に、本実施形態の画像認識処理のステップS311で用いられる部分領域判別器の学習処理について説明する。図10(d)は、本実施形態における部分領域判別器を学習する時の画像処理装置の機能構成を示すブロック図である。
本実施形態の画像処理装置は、学習データ保持部310、第1の部分領域分割部301、第1の部分領域特徴抽出部302、第1の空境界判別部303、第1の空境界判別器保持部307を有する。また、地平線/水平線位置推定部104、第2の部分領域分割部304、第2の空境界判別部306、第2の空境界判別器保持部308、第3の部分領域特徴生成部314a、部分領域判別器学習部313、部分領域判別器保持部309を有する。
図11(d)は、本実施形態における部分領域判別器の学習処理を示すフローチャートである。ステップS304からステップS311までの処理は、画像認識時と同様であるため、重ねての説明を省く。
次に、ステップS314において、部分領域判別器学習部313は、第3の部分領域特徴生成部314aで得られた第3の部分領域特徴と学習データ保持部310に保持されているカテゴリGTの情報に基づいて、注目する部分領域のカテゴリを学習する。具体的には、部分領域判別器学習部313は、SVMの識別器を用いて、第3の部分領域特徴を入力変数とし、注目する部分領域のカテゴリGTを目標変数として、注目する部分領域のカテゴリを学習する。その後、部分領域判別器保持部309は、前段のステップS314で得られた部分領域判別器を保持する。
以上、本実施形態によれば、第1の空境界判別部、第2の空境界判別部の両方を用いて、画像中の空境界を推定することにより、精度良く空領域を認識できるようになる。
[第4の実施形態]
次に、本発明の第4の実施形態について説明する。本実施形態は、空境界推定方法およびカテゴリ判別方法が、第1の実施形態とは異なるものである。なお、第1〜第3の各実施形態において既に説明をした構成については同一の符号を付し、その説明は省略する。
図12は、本実施形態に係る画像処理装置の機能構成を示すブロック図である。本実施形態に係る画像処理装置は、画像取得部101、部分領域分割部102、撮像系姿勢取得部103、地平線/水平線位置推定部104、距離情報取得部105、部分領域特徴抽出部106を有する。また、部分領域判別部108、部分領域判別器保持部110、空境界推定部107、空境界判別器保持部109、誤判別訂正部401を有する。
図13は、本実施形態に係る画像処理装置による画像認識処理の詳細を示すフローチャートである。ステップS401からステップS406までは、第1の実施形態と同様であるため、重ねての説明を省く。
次に、ステップS407において、空境界推定部107は、注目SPの空境界尤度を推定する。空境界推定部107は、第1の実施形態と同様にして、注目SPの部分領域特徴と、注目SPに隣接するSPの部分領域特徴とに基づいて空境界尤度を推定する。
次に、ステップS408で、部分領域判別部108は、第1の実施形態と同様にして、部分領域特徴抽出部106により得られた部分領域特徴に基づいて、カテゴリごとの推定スコアを出力する。
次に、ステップS409において、誤判別訂正部401は、部分領域判別部108より得られた各SPのカテゴリのスコアと、空境界推定部107によって得られた空境界スコアとに基づいて、CRFの枠組みでカテゴリ誤判別の訂正を行う。具体的には、CRFのpairwise potentialを設計する際に、空境界を跨ぐような伝播のコストを高くすることで、空境界を考慮した誤判別の訂正が可能となる。
例えば、下記の数式2によりCRFのポテンシャルを設計する場合、Φに小領域iと小領域jが空境界を跨ぐ場合に、ペナルティK(K>0)を付与することにより、境界を跨ぐ伝播を発生しにくくさせ、空境界を考慮したカテゴリの訂正が可能となる。
Figure 0006855207

ここで、xは領域iのカテゴリ、Φはxに対するカテゴリ尤度を表すunary potential、ψは隣接する領域間のpairwise potentialである。
以上、本実施形態によれば、誤判別訂正部401が各SPのカテゴリのスコアと空境界スコアとに基づいて、CRFの枠組みでカテゴリ誤判別の訂正を行うようにしたので、精度良く空領域を認識できるようになる。
なお、上述の説明では、誤判別訂正部401は、CRFの枠組みでカテゴリ誤判別の訂正を行ったが、推定されたカテゴリのうち、地平線/水平線よりも下方に存在する空のカテゴリを、空以外で最も推定スコアの高いカテゴリに訂正してもよい。
[その他の実施形態]
本発明は、上記実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形(各実施例の有機的な組合せを含む)が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述した各実施例及びその変形例を組み合わせた構成も全て本発明に含まれるものである。
101 画像取得部
102 部分領域分割部
103 撮像系姿勢取得部
104 地平線/水平線位置推定部
105 距離情報取得部
106 部分領域特徴抽出部
107 空境界推定部
108 部分領域判別部

Claims (11)

  1. 撮像装置による撮像により得られた画像を複数の領域に分割する分割手段と、
    前記域ごとに前記画像の画像情報に基づく第1の特徴抽出する抽出手段と、
    前記像装置の前記撮像の際の姿勢を示す姿勢情報を取得する第1の取得手段と、
    前記第1の取得手段により取得された前記姿勢情報に基づいて、前記画像における水平線または地平線を推定する第1の推定手段と、
    前記画像の所定領域ごとの被写体と前記撮像装置との距離を示す距離情報を取得する第2の取得手段と、
    前記抽出手段により抽出された前記第1の特徴と、前記第1の推定手段による推定結果と、前記第2の取得手段により取得される前記距離情報とを統合した、前記領域ごとの第2の特徴を取得する第3の取得手段と、
    前記領域ごとの前記第2の特徴と、隣接する領域の前記第2の特徴とに基づいて、前記領域ごとの第3の特徴を取得する第4の取得手段と、
    学習された識別器への、前記第4の取得手段により取得された前記領域ごとの前記第3の特徴の入力に対する出力に基づいて、前記画像における空領域を推定する第2の推定手段と、
    を有することを特徴とする画像処理装置。
  2. 前記画像からエッジ情報を抽出する第2の抽出手段を更に有し、
    前記第2の推定手段は、前記エッジ情報に基づいて前記画像における空領域を推定することを特徴とする請求項1記載の画像処理装置。
  3. 前記領域ごとにカテゴリを判別する判別手段を更に有することを特徴とする請求項1または2に記載の画像処理装置。
  4. 前記第2の推定手段は、前記領域ごとに空領域らしさを示すスコアを算出し、
    前記判別手段は、前記スコアと前記第3の特徴に基づいて前記複数の領域ごとにカテゴリを判別することを特徴とする請求項に記載の画像処理装置。
  5. 前記領域ごとの前記スコアと、方向と距離に応じた周辺領域の前記スコアとに基づく前記領域ごとの第4の特徴及び前記第3の特徴を統合した、前記領域ごとの第5の特徴を取得する第5の取得手段を更に有し、
    前記判別手段は、学習された第2の識別器への、前記第5の取得手段により取得された前記領域ごとの前記第5の特徴の入力に対する出力に基づいて、前記領域ごとにカテゴリを判別することを特徴とする請求項4に記載の画像処理装置。
  6. 前記画像のシーンを判別する第2の判別手段を更に有することを特徴とする請求項1からのいずれか1項に記載の画像処理装置。
  7. 前記画像から抽出されたエッジ情報と、前記第1の推定手段による推定結果とに基づく空領域と非空領域との境界の推定結果及び前記第2の特徴とを結合した、前記領域ごとの第6の特徴を取得する第6の取得手段を更に有し、
    前記第2の判別手段は、学習された第3の識別器への、前記第6の取得手段により取得された前記領域ごとの前記第6の特徴の入力に対する出力に基づいて、前記画像のシーンを判別することを特徴とする請求項6に記載の画像処理装置。
  8. 前記抽出手段は、前記画像の素値に基づいて前記第1の特徴を抽出することを特徴とする請求項1からのいずれか1項に記載の画像処理装置。
  9. 前記第2の推定手段は、前記複数の領域のそれぞれが空領域と非空領域との境界を含むか否かを推定することを特徴とする請求項1から8のいずれか1項に記載の画像処理装置。
  10. 撮像装置による撮像により得られた画像を複数の領域に分割し、
    前記領域ごとに前記画像の画像情報に基づく第1の特徴を抽出し、
    前記撮像装置の前記撮像の際の姿勢を示す姿勢情報を取得し、
    取得された前記姿勢情報に基づいて、前記画像における水平線または地平線を推定し、
    前記画像の所定領域ごとの被写体と前記撮像装置との距離を示す距離情報を取得し、
    抽出された前記第1の特徴と、前記水平線または地平線の推定結果と、前記距離情報とを統合した、前記複数の領域ごとの第2の特徴を取得し、
    前記領域ごとの前記第2の特徴と、隣接する領域の前記第2の特徴とに基づいて、前記領域ごとの第3の特徴を取得し、
    学習された識別器への、前記領域ごとの前記第3の特徴の入力に対する出力に基づいて、前記画像における空領域を推定する
    ことを特徴とする画像処理方法。
  11. コンピュータを、請求項1から9のいずれか1項に記載の画像処理装置として機能させるためのプログラム。
JP2016198889A 2016-10-07 2016-10-07 画像処理装置、画像処理方法及びプログラム Active JP6855207B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016198889A JP6855207B2 (ja) 2016-10-07 2016-10-07 画像処理装置、画像処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016198889A JP6855207B2 (ja) 2016-10-07 2016-10-07 画像処理装置、画像処理方法及びプログラム

Publications (3)

Publication Number Publication Date
JP2018060440A JP2018060440A (ja) 2018-04-12
JP2018060440A5 JP2018060440A5 (ja) 2019-11-21
JP6855207B2 true JP6855207B2 (ja) 2021-04-07

Family

ID=61908595

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016198889A Active JP6855207B2 (ja) 2016-10-07 2016-10-07 画像処理装置、画像処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6855207B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014179920A (ja) * 2013-03-15 2014-09-25 Canon Inc 撮像装置及びその制御方法、プログラム、並びに記憶媒体
JP6332937B2 (ja) * 2013-10-23 2018-05-30 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
JP6448325B2 (ja) * 2014-11-19 2019-01-09 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
JP2016151955A (ja) * 2015-02-18 2016-08-22 キヤノン株式会社 画像処理装置、撮像装置、距離計測装置、および画像処理方法

Also Published As

Publication number Publication date
JP2018060440A (ja) 2018-04-12

Similar Documents

Publication Publication Date Title
US20220138490A1 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
JP6832504B2 (ja) 物体追跡方法、物体追跡装置およびプログラム
JP7190842B2 (ja) 情報処理装置、情報処理装置の制御方法及びプログラム
JP6332937B2 (ja) 画像処理装置、画像処理方法及びプログラム
US9824294B2 (en) Saliency information acquisition device and saliency information acquisition method
US10395103B2 (en) Object detection method, object detection apparatus, and program
US10216979B2 (en) Image processing apparatus, image processing method, and storage medium to detect parts of an object
JP6664163B2 (ja) 画像識別方法、画像識別装置及びプログラム
CN105740780B (zh) 人脸活体检测的方法和装置
US10311595B2 (en) Image processing device and its control method, imaging apparatus, and storage medium
JP6482195B2 (ja) 画像認識装置、画像認識方法及びプログラム
JP5899179B2 (ja) 人物認識装置、人物認識方法、人物認識プログラムおよびその記録媒体
WO2022121283A1 (zh) 车辆关键点信息检测和车辆控制
JP6921694B2 (ja) 監視システム
EP2879080B1 (en) Image processing device and method, and computer readable medium
CN110546644B (zh) 识别装置、识别方法以及记录介质
JP6112801B2 (ja) 画像認識装置及び画像認識方法
JP6351243B2 (ja) 画像処理装置、画像処理方法
JP2010176380A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
US20180089537A1 (en) Learning apparatus, image identification apparatus, learning method, image identification method, and storage medium
JP2015197708A (ja) オブジェクト識別装置、オブジェクト識別方法及びプログラム
CN111160169A (zh) 人脸检测方法、装置、设备及计算机可读存储介质
CN112541394A (zh) 黑眼圈及鼻炎识别方法、系统及计算机介质
CN112613471A (zh) 人脸活体检测方法、装置及计算机可读存储介质
CN106406507B (zh) 图像处理方法以及电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191007

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210317

R151 Written notification of patent or utility model registration

Ref document number: 6855207

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151