JP2015204030A - 認識装置及び認識方法 - Google Patents

認識装置及び認識方法 Download PDF

Info

Publication number
JP2015204030A
JP2015204030A JP2014083781A JP2014083781A JP2015204030A JP 2015204030 A JP2015204030 A JP 2015204030A JP 2014083781 A JP2014083781 A JP 2014083781A JP 2014083781 A JP2014083781 A JP 2014083781A JP 2015204030 A JP2015204030 A JP 2015204030A
Authority
JP
Japan
Prior art keywords
image
candidate
attribute
candidate area
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014083781A
Other languages
English (en)
Other versions
JP6448212B2 (ja
JP2015204030A5 (ja
Inventor
俊太 舘
Shunta Tachi
俊太 舘
克彦 森
Katsuhiko Mori
克彦 森
優和 真継
Masakazu Matsugi
優和 真継
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2014083781A priority Critical patent/JP6448212B2/ja
Priority to US14/685,427 priority patent/US9773189B2/en
Publication of JP2015204030A publication Critical patent/JP2015204030A/ja
Publication of JP2015204030A5 publication Critical patent/JP2015204030A5/ja
Application granted granted Critical
Publication of JP6448212B2 publication Critical patent/JP6448212B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】様々な被写体を手掛かりにして処理負荷の低い方法で画像のシーンの判別を行うことができるようにする。
【解決手段】画像から、被写体の候補領域を抽出する候補領域抽出手段と、前記候補領域抽出手段により抽出された被写体の候補領域から前記画像の属性に関する特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段で抽出された特徴量に基づいて、前記候補領域抽出手段により抽出された被写体の候補領域の属性を判定する属性判定手段と、前記属性判定手段の判定結果を統合することにより、画像の属性を同定する判定結果統合手段とを有する。
【選択図】図1

Description

本発明は認識装置及び認識方法に関し、特に、静止画、動画または距離画像などの画像情報を入力画像とし、画像中の物体を手掛かりとしてシーン、イベント、構図、もしくは主被写体といった画像の属性情報を推定するために用いて好適な技術に関する。
画像中の物体を手掛かりとして、画像のシーンやイベントを推定する従来の方法として、例えば非特許文献1がある。非特許文献1は、複数の特定のクラスの物体が画像中に存在するか否かを調べ、その有無の結果の分布を特徴量として画像のシーン判別を行う。
Li−Jia Li, Hao Su, Yongwhan Lim, Li Fei−Fei, "Objects as Attributes for Scene Classification", Proc. of the European Conf. on Computer Vision (ECCV 2010). P. Felzenszwalb, R. Girshick, D. McAllester, and D. Ramanan. "Object Detection with Discriminatively Trained Part Based Models", IEEE Trans. on Pattern Analysis and Machine Intelligence 2010 Koen E. A. van de Sande, Jasper R. R. Uijlings, Theo Gevers, Arnold W. M. Smeulders, Segmentation As Selective Search for Object Recognition, IEEE International Conference on Computer Vision, 2011 Jianbo Shi and Jitendra Malik, Normalized Cuts and Image Segmentation, IEEE Trans. on Pattern Analysis and Machine Intelligence, Vol. 22, No. 8, 2000 Joao Carreira and Cristian Sminchisescu, Constrained Parametric Min−Cuts for Automatic Object Segmentation, IEEE Conference on Computer Vision and Pattern Recognition, 2010 Svetlana Lazebnik, Cordelia Schmid, Jean Ponce, Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories, IEEE Conference on Computer Vision and Pattern Recognition, 2006 P. Felzenszwalb, D. McAllester, D. Ramanan, A Discriminatively Trained, Multiscale, Deformable Part Model, IEEE Conference on Computer Vision and Pattern Recognition, 2008 T.Kobayashi and N.Otsu. Action and Simultaneous Multiple−Person Identification Using Cubic Higher−Order Local Auto−Correlation", In Proc. International Conference on Pattern Recognition, pp. 741−744, 2004.
このような方法では、シーン判別の手掛かりとなる被写体を認識する検出器(例えば、非特許文献2のような手法を用いる)を複数用意し、犬や車といった特定の被写体ごとに検出処理を行う必要がある。この時、以下のような課題が存在する。
第1に、多数のシーンの種類を正確に判別するには、各シーンに関連する多数の被写体の検出器を用意する必要がある。非特許文献2のような検出器の処理は、検出器ごとにスライディング窓と呼ばれる画像走査を行うために計算量が多く、シーン数が増えるのに応じてシーン判別にかかる処理時間が著しく増大する可能性がある。
第2に、シーンを判別する際に、いずれの被写体が重要かは一般に未知のため、微妙なシーンを見分ける場合、どのような被写体の検出器を用意すればよいかを事前に決めづらい問題がある。
第3に、例えば誕生パーティと結婚式の披露宴のシーンを見分ける際に、人物の服装が普段着かドレスかといった差異が手掛かりになるなど、被写体の有無ではなくバリエーションの違いが重要な場合がある。非特許文献1のような従来手法では、そのままでは被写体のバリエーションの違いを判別の手掛かりにすることができない問題点があった。
本発明は前述の問題点に鑑み、様々な被写体を手掛かりにして処理負荷の低い方法で画像のシーンの判別を行うことができるようにすることを目的とする。
本発明の認識装置は、画像から、被写体の候補領域を抽出する候補領域抽出手段と、前記候補領域抽出手段により抽出された被写体の候補領域から前記画像の属性に関する特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段で抽出された特徴量に基づいて、前記候補領域抽出手段により抽出された被写体の候補領域の属性を判定する属性判定手段と、前記属性判定手段の判定結果を統合することにより、画像の属性を同定する判定結果統合手段とを有することを特徴とする。
本発明によれば、様々な被写体を手掛かりにして処理負荷の低い方法で画像のシーンの判別を行うことが可能となる。また、各シーンにおいてどのような被写体を識別するべきか予め教示する必要がない。
第1の実施形態の認識装置の基本構成を示すブロック図である。 第1の実施形態の認識装置の処理の流れを説明するフローチャートである。 候補領域を抽出する処理の手順を説明するフローチャートである。 候補領域の特徴を抽出する処理の手順を説明するフローチャートである。 属性判定処理部の模式図である。 属性の判定処理の手順を説明するフローチャートである。 属性の判定処理の結果例を示す図である。 第1の実施形態の学習フェーズの基本構成を示すブロック図である。 第1の実施形態の学習フェーズの処理の手順を説明するフローチャートである。 学習フェーズにおける学習用物体領域の抽出の結果例を示す図である。 学習フェーズにおける分類木の学習処理の手順を説明するフローチャートである。 属性判定処理部の学習結果の模式図である。 第1の実施形態の派生形態の構成例を示すブロック図である。 第2の実施形態の認識装置の基本構成を示すブロック図である。 第3の実施形態の認識装置の基本構成を示すブロック図である。 第3の実施形態の被写体の候補領域の抽出結果例を示す図である。 第4の実施形態の認識装置の基本構成を示すブロック図である。 構図クラスおよび推定結果の例を示す図である。 主被写体領域の推定結果の例を示す図である。
[第1の実施形態]
以下、図面を参照して本発明の認識装置を実施するための形態の例を説明する。本認識装置は、入力画像を受け取り、その画像があらかじめ定められた複数のシーンのクラスのいずれに属するかを正しく判別することを目的とする。
図1に、本実施形態による認識装置の基本的な構成図を示す。画像入力部101は、画像データを入力する。候補領域抽出部102は、画像の属性情報を判別するための画像の属性に関連する被写体の領域を抽出する。特徴量抽出部103は、候補領域抽出部102において抽出された被写体の候補領域から画像特徴量を抽出する。属性判定部104は、特徴量抽出部103で抽出された特徴量に基づいて候補領域がいずれのシーンクラスの画像に含まれる領域であるかを判定する。判定結果統合部105は、属性判定部104の結果をまとめて最終的に画像のシーンクラスを判定する。
なおここで、画像のシーンクラスには誕生パーティ、クリスマスパーティ、結婚式、キャンプ、運動会、学芸会、といった様々なシーンやイベントの種別が含まれる。本実施形態では、前述したような数十クラスのシーンがユーザーによって与えられているものとし、入力画像からこれらのシーンクラスを判別する。
さらに、本発明は、前述の例のような日常の出来事に関わるシーンのクラス以外にも適用可能である。例えば、夜景・光源の方向(順光、逆光、右からの斜光、左からの斜光)、花のクロースアップ、といった、カメラが撮影を行う際に撮影のパラメータを調整する目的で設定される撮影モードと呼ばれる種別をシーンクラスとして定義して用いることもできる。このように、本発明は様々な対象の画像の属性の判別に適用可能である。
次に、本実施形態の認識装置の認識処理と学習処理の流れについて説明する。
<認識フェーズ>
まず、認識処理の流れを図2のフローチャートを用いて説明する。
S201では、画像入力部101が画像データを受け取る。ここで、本発明の実施形態における画像データとは、カラー画像、動画、または距離画像といった様々な形式の映像情報、およびそれらの組み合わせを指す。本実施形態においては、画像入力部101には静止画のカラー画像が入力されるものとする。さらに、本ステップでは画像に応じてサイズの拡大縮小や輝度値の正規化等、以降の認識処理に必要な前処理を必要に応じて行う。
次に、S202では、候補領域抽出部102が画像のシーンクラスを見分けるための手掛かりとなる複数の被写体の候補領域を抽出する処理を行う。被写体には主に人体、犬、およびコップといった、ある程度決まった形状やサイズを持つ物体の領域と、空、芝生、山といった比較的サイズが大きく形状の不定な背景に関する領域とが存在する。
本実施形態では、このうちの物体を分析することで、画像シーンを類別する形態について述べる。それは、例えば画像中に料理と思われる物体領域が存在していればパーティのシーンの可能性が高く、ランプのような形状の物体があればキャンプのシーンである可能性が高いと考える、といった具合である。
候補領域抽出部102では、画像中に存在する物体の領域全体をなるべく正確に抽出することが望ましい。それは、物体に基づいてシーンを判別する際に、抽出された領域が物体の一部しか含んでいなかったり、あるいは異なる物体が混じっていたりすると誤判別の可能性が高くなるためである。
ただし、画像中に存在している様々な物体について、その物体が何であるかを知らずして、一つ一つの物体の境界を正確に切り出すことは極めて困難である。そのため、ここでは完璧な物体領域の切り出しは期待せずに、物体の領域らしいと考えられる候補領域を複数個抽出する。そして、そのうちのいくつかはある程度の正確さで物体領域を含んでいると仮定して、各候補領域で画像のシーンの判別を行う。その結果を多数決することで、誤りが多少含まれていても最終的に正しくシーンのクラスを判定できることを期待する。
このような条件において、候補領域を抽出するために用いることのできる公知の手法は種々あるが、本実施形態では公知の技術である非特許文献3の方法を参考に用いる。処理の流れを図3のフローチャートを用いて簡単に説明する。
まず、S301では、画像をSuper−pixel(以下、SPと表記する)と呼ばれる色が近い画素をまとめた小領域に分割する。
次に、S302では、隣接する全てのSPのペアについて、(1)テクスチャ特徴の類似度、および(2)サイズの類似度を算出する。これを数式1のように所定の係数α(0≦α≦1)で重み付け和した値をSPペアの類似度とする。
Figure 2015204030
ここで、テクスチャ特徴としては、特徴量として広く一般的な色SIFT特徴の頻度ヒストグラムを用いる(詳細は、非特許文献3を参照)。テクスチャ特徴の類似度としては、広く一般に用いられる距離尺度であるヒストグラム交差を用いる。SPサイズの類似度としては、SPペアのうち小さい方のSPの面積を大きいSPの面積で割った値とする。テクスチャの類似度もサイズの類似度も、類似度が最少のときに0、最大のときに1となる。
次に、S303では、最も類似性の高かった2つの隣接SPのペアを連結し、被写体の候補領域とする。連結したSPを新たなSPとし、特徴量と隣接SPとの類似度を算出しなおす。すべてのSPが連結されるまでこれを繰り返す(S302〜S306)。このようにすることで、SPの数から1を引いた数だけ、大小様々な候補領域が抽出される。ただし、小さすぎる被写体領域は誤判別の原因になりやすいので、所定値より大きな面積を持つSPのみを候補領域とする(S304〜S305)。以上の候補領域の生成処理の詳細は非特許文献3を参照されたい。
なお、ここでは、非特許文献3の方法を参考にして説明したが、物体らしい領域を抽出する方法はこれに限らず、様々な方法が考えられる。例えば、グラフカットと呼ばれる前景と背景を分離する手法、またはテクスチャ分析を行って画像をテクスチャごとに分割する手法(詳細は、非特許文献4を参照のこと)などが広く公知である。
図2のフローチャートの説明に戻る。
S203では、特徴量抽出部103が各候補領域から特徴量を抽出する。抽出する特徴量は複数の種類を含む。ここでは、図4のフローチャートのように、6種類の特徴量の抽出を行う。
(1)S401では、候補領域内の色SIFT特徴の頻度ヒストグラムを抽出する。
(2)S402では、候補領域の面積と位置を出力する。ただし、ここで面積の値は画像全体を1として正規化した値とし、位置は画像の縦横の長さを1として正規化した領域の重心位置とする。
(3)S403では、候補領域の周囲の領域から色SIFT特徴を抽出し頻度ヒストグラムを生成する。これは、物体を認識する際に背景の特徴も手掛かりになるため、周囲の領域の特徴を別に与えるものである。なお、候補領域の周囲の領域とは、候補領域の所定の幅だけ膨張させた領域とする。
次に、候補領域が真に物体の領域か否かを判別する手掛かりとなる特徴量として、以下の第4から第6の特徴量を、S404〜S406で算出する。
(4)S404では、候補領域内の色SIFT特徴と、候補領域の周囲の色SIFT特徴の頻度ヒストグラムの類似度を、特徴量として算出する。なお、ここで類似度としてはヒストグラム交差を用いる。
(5)S405では、候補領域輪郭のエッジの強度の平均値を、特徴量として算出する。ここでは、画像の輝度勾配の絶対値(dx2+dy21/2を、領域の輪郭上で計算して平均値を求める。ただし、dxとdyはそれぞれ画像のx方向とy方向の輝度勾配の値である。
(6)S406では、候補領域の凸形状度を特徴量として算出する。ただし、ここで凸形状度とは、候補領域の面積と候補領域の凸包の面積との比である。この値は、候補領域が凸形状であれば1になり、凹形状であれば0に近づく。
以上のような特徴を用いることで、候補領域がその周囲から独立した物体領域か否かをある程度判別することが可能となる。
以上が、S203で行われる特徴抽出の処理となる。なお、ここで用いた特徴量の他にも、候補領域のアスペクト比やモーメント長など、領域に関する特徴量は様々なものが利用可能である。本発明の実施形態としては、前述した特徴量に限るものではないことを留意されたい。
次に、S204では属性判定部104が、各候補領域の特徴を見てどのシーンクラスに関連のある領域かを判別する。なお、ここで判別されるのは候補領域自体の種別ではなく、候補領域が関連するシーンクラスの種別であることが本発明の重要な特徴である。
本実施形態では、属性判定部104は、図5(a)に模式図で表すように、複数の分類木502a〜502cの集合(アンサンブル)によって構成されるアンサンブル分類木502からなる。各分類木は、候補領域の特徴量から正解のシーンクラスを推定し、推定結果を図5(b)のシーンクラスの投票空間へ投票する。
分類木の各判別ノード(一部に記号503a〜503cを付して示す)は、線形判別器で構成されている。各葉ノード(一部に記号503d〜503fを付して示す)には、学習フェーズにおいてその葉ノードに割り振られた学習データの情報が格納されている。学習データの一部に記号504a〜504c、対応するシーンクラスのラベルに記号505a〜505cを付して示す。後に学習フェーズで詳細を説明するように、各判別ノードは、学習データの候補領域がなるべくシーンクラスごとに分かれるように学習されている。
図6のフローチャートを参照しながらアンサンブル分類木による判定処理の手順を説明する。
S601で、候補領域をアンサンブル分類木に入力すると、判定処理をS603〜S607において、各々の分類木ごとに行う。
まずS603で、分類木の根ノード503aからシーンクラス判別処理を開始する。各ノードでは、候補領域の特徴に基づいて判別器による判別を行う。
S604では、判別結果によって次の枝を決定して進む。
S605では、葉ノードに到達したか否かを判断し、到達していない場合はS604に戻り、各ノードでの判別と移動を葉ノードにたどり着くまで繰り返す。葉ノードに到達したら、葉ノードに格納されている学習データのシーンクラスの比率を参照する。これが入力候補領域のシーンクラスの尤度スコアになる。
ただしここで、記号φが付された学習データ(物体でない領域のデータなのでここではこれを非物体領域クラスと呼ぶ)の比率の多い葉ノードにたどり着いた場合は、入力した候補領域も物体領域でない可能性が高い。そのため、所定の比率以上に非物体領域クラスのデータがある葉ノードからは投票を行わない(S606)。そうでない場合は、各クラスに対して尤度スコアの値を投票して加算する。(S607)。図5(a)の例では、到達した葉ノードでは誕生パーティクラスの割合が2/3のため、0.667の値を加算している。
なお、投票の方法はこれ以外にもいくつかバリエーションがある。例えば葉ノードの最大比率のシーンクラスを一つ選んで1票のみを投票するような形態でもよい。
以上のようにして全ての分類木が全ての候補領域について判別して投票を行ったら、投票処理S205を終了する。
次に、S206では、こうして得られた投票の合計数の最大のシーンクラスを入力画像のシーンクラスとして出力する。ただし、ここで別の形態として、いずれのシーンクラスの投票数も所定の閾値に未たない場合には、シーンクラスは不明であると出力してもよい。また逆に、複数のシーンクラスの投票数が同時に所定の閾値を超えている場合は、該当するシーンクラス全てを出力してもよい。
図7に、候補領域の抽出からシーンクラスの判定までの結果の例を示す。図7(a)は、入力画像の例である。図7(b)は、候補領域抽出部102によって抽出された物体の候補領域を矩形枠で示したものである(ただし、煩雑さを避けるためすべての候補領域を図示していない)。
図7(c)は全候補領域を属性判定部104で判定させた結果、非物体領域クラスと判断された候補領域を除いた後の図である。このようにして、残った候補領域からシーンクラスの投票を行った結果例を図7(d)に示す。図中の記号θはシーンクラスを判定するための闘値である。この例ではパーティのシーンが閾値θを上回っているため、パーティシーンとして出力して認識処理を終了する。
<学習フェーズ>
次に、学習フェーズと呼ばれる、アンサンブル分類木の学習の処理について説明する。
本処理の目的は、ユーザーから提供される(1)学習画像セット、およびそれに対応する(2)シーンクラスの教師値、および(3)物体の位置の教師値、の3つを属性判定部104に与えて訓練する。そして、入力画像に対して正しくシーンクラスの種別が出力できるようなアンサンブル分類木を作成することである。
図8に、学習フェーズにおける本認識装置の構成図を示す。これは、認識フェーズでの基本構成図の図1に準ずるものである。図1との相違点は、物体位置データ入力部106および画像属性データ入力部107が存在して、画像のシーンクラスおよび物体の位置の教師値を入力する点である。
図9(a)のフローチャートを参照しながら学習フェーズの動作処理の説明を行う。
まず、S901では、画像入力部101が学習画像を入力する。また同時に、画像属性データ入力部107が各学習画像に対応するシーンクラスの教師値を入力する。
次に、S902では、各学習画像について、物体位置データ入力部106が物体の領域の位置の教師値を入力する。
ここでの物体位置データとは、学習画像1枚1枚について、図10(a)に示すように、画像に含まれる物体領域の位置をユーザーが教師値として用意しておいたものである。図10(a)では、物体領域の位置の教師値の形態の一例として物体の領域に外接する矩形で表している(教師値の矩形の一部に記号1002a〜1002dを付して示している)。
なお、ユーザーにとってどの物体がそのシーンを判別する際に大きく寄与するかという判断は、判別対象シーン数が多い場合は困難である。そのため、ユーザーは各物体についての余計な推定はせず、物体であるか否かのみを判断してなるべく多くの物体の位置を教示するものとする。ただし、小さすぎる物体、遮蔽されていてよく見えていないような物体については学習を困難にするため教示を省いてもよい。
次に、S903では、認識フェーズで行ったのと同じ方法によって候補領域抽出部102が候補領域を抽出する。図10(b)は、その結果例である。ここでは、候補領域の矩形のいくつかに記号1003a〜1003cを付して示す。
次に、S904では、抽出した候補領域について、最も近くにある教師値の物体領域の重なりの度合い(オーバーラップ値)を調べる。領域xと領域yのオーバーラップ値は以下の数式2で算出する。
Figure 2015204030
次に、S905では、物体領域とのオーバーラップ値が所定の値以上(ここでは、0.5以上とする)の候補領域を学習に用いる物体領域として採用する。学習用に採用された物体領域を、図10(c)において記号1004a〜1004eを付して示す。
さらに、オーバーラップ値が所定の値未満(ここでは、0.2未満とする)だった候補領域を、非物体クラスの領域として以降の学習に用いる。但し非物体クラスの領域数は物体の領域の数よりも多数のため、適当にサンプリングして数を減らして用いる。
次に、S906では、ここまでの処理で得られた物体領域の学習用データと非物体領域の学習用データを用いて属性判定部104の学習を行う。以降は、重要な処理であるので特に詳細なフローを図11にて示して説明を行う。
まず、図11のS1101で特徴量抽出部103が認識フェーズと同様の方法で、全ての物体領域と非物体領域より特徴量を抽出する。以下、S1102〜S1106において、各々の領域ごとに特徴量の抽出を行う。
S1103では、根ノードから学習を開始する。まず学習データが存在するシーンクラスを2グループにランダムに分ける。更に、非物体領域も独立した一つのシーンクラスとして見なし、これも2グループのどちらかをランダムに選んでまとめて割り振る。
次にS1104では、各学習データの特徴量を入力として、先に定義した2グループに判別できるように判別器の学習を行う。ここでは、機械学習の方法として一般的な線形のサポートベクトルマシン(以降SVMと呼ぶ)の手法を用いる。なおこの時、一部の学習データをランダムにサンプルして評価用のデータとして学習に使わずに別にとっておく。
次のS1105では、この評価用のデータを用いてSVMの判別能力の有効性を評価する。まず評価用データをSVMで判別して2分割する。そして、分類木の学習に一般的に使われる下記の(数式3)の情報量を計算する。
Figure 2015204030
ただし、ここで、cはシーンクラスの変数、pkcは2つに分割されたデータのうち、k側(ここでは、分割後のデータをLとRの記号で示している)のデータでシーンクラスcが占める割合を意味する。Nは分割前のデータ数、nkはk側に分割されたデータの数、を意味する。判別器によって2分割された時に、分割後の各群のデータにクラスの分布の偏りが生じていれば情報量の値は大きくなり、偏りがなければ情報量の値は小さい。
S1102〜S1106では、このようにしてランダムな2グループの定義と、SVMの学習と、SVMの判別結果の評価を所定の回数繰り返す。
所定の回数が終われば、次にS1107で、それまでに得られた中で最も情報量の大きな結果が得られたSVMのパラメータをこのノードの判別器として採用する。
S1108では、採用したSVMの学習パラメータを用いて学習データを改めて判別してSVMスコアが正か負かで2つに分割し、それぞれを右と左の枝のノードに割り当てる。そして、左右の各枝においてS1102からの処理を再帰的に繰り返す。
ただし、分割した結果、シーンクラスの種類が一種類のみになった場合(S1109)、もしくは分割後のデータ数が所定数を下回った場合(S1110)、その枝の学習を打ち切って葉ノードとする。そして、その時点で残っている学習データの情報を葉ノードに記憶して、再帰処理を終了する。
このように、各ノードでの分割ごとにシーンクラスの出現頻度に偏りを生じさせる判別を行っていくことで、シーンクラスの分類が行われる。このような学習結果の模式的な例を図12に示す。
図12では、分類木502aの各葉ノード(一部に、503d〜503fの記号を付して示す)に、形態の特徴量が近いか、もしくはシーンクラスの同じ領域のデータが固まっている。必ずしも完全な分類はなされていないものの、このような分類木を多数学習してアンサンブル分類木として投票によって統合することで、精度の高いシーンクラスの判別結果が得られる。
またここで、誕生日ケーキ504bとクリスマスケーキ504cが別の葉ノード503eと503dにあることに留意されたい。本手法では被写体をケーキや帽子といった種別ごとに分類するのではなく、被写体の属する画像のシーンクラスごとに分類を行う。そのため、ケーキという同じ種別の物体であっても、誕生日とクリスマスという異なるシーンクラスに属し、且つ見えのバリエーションが異なるものであれば、この図12のように、異なる枝への分類が自動的に行われることも可能なことを示すものである。これは、本発明の形態の重要な効果であるので特にここで強調しておく。
なお、ここで判別器の学習にSVMを用い、評価基準として情報量基準を用いたが、学習方法や評価基準は、本発明において特にこれに限定するものではなく、公知の判別器の手法が広く適用可能である。例えば、SVMの代わりに線形判別分析でもよいし、評価基準には一般的なジニ係数などを用いてもよい。
以上が分類木の学習の方法である。ここでは、一本の分類木の学習についてのみ述べた。アンサンブル分類木は複数の分類木で構成されており、他の分類木を学習する際には、分類木ごとにバリエーションを持たせる必要がある。その方法としては、複数の公知の方法があるが、ここでは最も一般的な方法を用いる。即ち、分類木ごとに学習データをサブサンプリングし、それぞれの木で異なる学習データセットに基づいて学習を行えばよい。
<被写体の位置の教示方法についての派生の形態>
ここまでの説明では、被写体の存在位置を教師値として与える学習の方法について述べたが、学習時の被写体の位置の教示は本発明において必須の要件ではない。本発明の適用の範囲がこの形態に限定されないことを示すために、以下に被写体の教示方法の他の派生形態の説明を行う。
被写体の教師値の方法の例として、以下の4つの方法が考えられる。
(1)ユーザーが被写体の位置を全ての画像について多数教示する。
(2)ユーザーが被写体の位置を一部のみ教示する。
(3)ユーザーが被写体の位置を教示しない。
(4)ユーザーがシーンクラスに特に関連が強いと考える被写体の位置のみ教示する。
ここで、(1)はすでに説明を行った方法である。(4)はクリスマスパーティにおけるクリスマスツリーなど、そのシーンとの関連の顕著な物体のみを指示するものである。以降、(2)〜(4)の派生の形態について順に簡単な説明を行う。
まず、被写体の位置を一部のみ教示する形態例(2)について説明する。ここでは、形態例(1)との相違点のみに絞って説明する。
形態例(2)は、半教師学習と呼ばれる公知の学習手法に類する。具体的には、まず物体位置が教示されている学習画像から物体領域の特徴量を抽出する。次に、教師値の与えられてない学習画像からも候補領域を抽出し、それらの特徴量を求める。次に、候補領域のうち、いずれかの教示された領域と所定値以上に特徴量が類似している領域があれば、それらも学習用の物体領域として優先的に採用する。所定値以下の領域は、非物体クラスの学習データとする。以上が形態例(2)の方法の説明である。
次に、被写体の情報を全く教示しない形態例(3)について説明する。本形態例(3)では、学習画像から抽出した全ての候補領域を物体領域データか非物体領域かの区別なく使って分類木の学習を行う。学習フェーズのフローは図9(b)のフローチャートのようになる。
図9(b)のフローチャートにおいて、S911はS901に対応し、S912はS903に対応し、S913はS906に対応する。この形態においては、先に用いた「非物体領域のクラス」は設定しない。そのため不完全に切り出された領域や物体に無関係な領域も多数シーンクラスに関係する被写体領域として学習に用いられることになる。
形態例(3)の方法は、ユーザーの教示に費やす負担は軽減されるが、その分判別精度が低い。これについての対策の工夫は複数考えられる。
まず、第1の工夫として、データの数および分類木の数を増やし、認識時の投票の数を増やすことである。アンサンブル学習の一般的性質として、個々の弱識別器(分類木)の判別精度が低くても、バリエーションが大きければ弱識別器の数の増加につれて判別精度が漸近的に上がることは広く公知である。
さらに、被写体の教示方法の形態例(3)の別の付加的な工夫としては、候補領域抽出部102において候補領域を抽出した後に、どの程度物体の領域が正しく抽出されているか(以降、これを物体度と呼ぶ)を推定する。物体度が低いと判定された領域は学習にも認識にも使わないことである。このような物体度の推定方法は種々の方法が公知になっており、例えば非特許文献5のような方法が挙げられる。
非特許文献5では、候補領域の特徴量を入力とし、候補領域と真の物体領域の重なりの量であるオーバーラップ値を推定する回帰の問題を解いている(詳細は非特許文献5を参照のこと)。
これを踏まえて処理フローを図9(c)のフローチャートのように改変する。
即ち、S922で候補領域を抽出した後に、S923でオーバーラップ値を推定して物体度とし、S924で所定の値よりも物体度の低い領域を除いた上で、S925で学習および認識を行う。
次に、重要な被写体のみを教示する形態例(4)の方法について説明する。(4)の方法の実現形態の一つの例は以下のようになる。即ち、ユーザーが指定した重要物体と重なる物体候補領域は、重なりの量に応じた分だけ分類木の学習の際に重視して重み付けして学習を行う。そして重なりのないその他の物体候補領域は、通常のまま重みを付けずに学習する。
以降、形態例(4)の方法を詳細に説明する。まず、物体位置を教示しない形態例(3)の方法と同様、全ての物体候補領域を抽出する。さらに、物体度を推定して物体度の低い領域を除く。次に、残った全ての領域について、ユーザーの指示した重要物体とのオーバーラップ値を算出する。次に、オーバーラップ値に基づいて物体候補領域xに以下の数式4のw(x)で重みを付けて分類木の学習を行う。
Figure 2015204030
ただし、ここでO(x)は、領域xと重要物体とのオーバーラップ度、βは0以上の係数であり、この値が大きければ重要物体をより強く重視して学習を行う。βは交差確認法等で適切な値を設定する。
次に、数式4の情報量を拡張し、学習データの重要性の重みを考慮した情報量基準として、数式3を拡張して以下のように定義する。これを用いて判別器の学習を行えばよい。
Figure 2015204030
ただし、pkc(w)はシーンクラスcの学習データ数の重み付きの割合で、
Figure 2015204030
である。これにより、重要な物体に近い領域をより重視して区別するよう学習することが可能である。なお、上式はβが0のとき、もしくは重要な物体が学習事例の中に存在しない時は、これまでの学習の式と同じ値になる。
以上、ここまで学習フェーズにおける被写体領域の教示方法の派生の形態例(1)〜(4)について述べた。
<大分類と小分類を用いる派生の形態>
以降では、本発明に係る認識装置の全体構成の派生の形態について述べる。
ここでは、本実施形態の派生の形態として、既存のシーン分類の方法で一度大まかにシーンを分けておいて、その後に本発明を適用して詳細なシーンを判別する形態について述べる。
以降では、大まかなシーンクラスの分類を大分類シーン、その後の詳細なシーンクラスの分類を小分類シーンと呼ぶ。たとえば、大分類シーンはパーティや野外スポーツといった分類であり、小分類シーンとしてはクリスマスパーティや誕生日パーティ、スポーツシーンであればサッカーや野球、などのクラスを考える。
大分類シーンを判別する方法としては、例えばBag of Words手法と呼ばれる手法が有効であることが非特許文献6などにおいて公知である。
図13に認識装置の構成図を示す。
画像入力部111には、カメラの画像が入力される。大分類判定部112は、非特許文献6のBag of Words手法により、パーティシーン、スポーツシーン、風景画像シーン、その他さまざまなシーンを分類する。
小分類判定部113a〜113cは大分類判定部112での判別に基づいていずれか一つかが選ばれて以降の処理が行われる。
小分類判定部113a〜113cがそれぞれ備える属性判定部は大分類ごとに異なった学習データで学習した異なったパラメータ(判定辞書)を備える。
これは例えば、パーティのシーンを分析する小分類判定部113aであれば、様々な種類のパーティの画像のみを学習データとして与えて学習することを意味する。また、候補領域抽出部と特徴量抽出部についても、小分類のシーンを見分けるのに適した候補領域の抽出の基準や特徴量の種別を定めてよい。
これらの適切な基準や特徴量はユーザーが手で調整してもよいが、複数のパラメータの組み合わせを与えて最も精度の高くなるパラメータを交差確認法等で探索してもよい。これにより、大分類ごとに特化した、より正確なシーンクラス判別が行われる。以上が本実施形態の派生の形態の説明である。このようにして、本発明は既存手法と組み合わせるような形態の適応も可能であることが示された。
以上で第1の実施形態の説明を終える。
前述したように、第1の実施形態の認識装置によれば、画像中の物体を分析して詳細に画像のシーンを判別することができる。また、各シーンにおいてどのような被写体を識別するべきか予め教示することなくシーン判別の学習を行うことができる。
また、判別対象のシーン数が増えても、認識処理時間が著しく増加しない。また、被写体の有無のみならず被写体のバリエーションの差異に基づいて類似のシーンを判別することも可能である。
[第2の実施形態]
第2の実施形態は、第1の実施の形態を拡張した形態である。拡張であるので、ここでは相違点のみに絞って簡便に説明する。
第1の実施形態では、物体の領域を手掛かりとして、これを分類することでシーンクラスを推定した。この場合、物体が存在しないような画像シーン、例えば海や山といった風景のみのシーンでは判別の手掛かりが存在しない。
そこで、本第2の実施形態では、物体以外のタイプの被写体領域も分析の対象として採用し、それぞれのタイプの候補領域を抽出し、それぞれ異なった属性判別器でどのシーンクラスに関連するかを判定する。このように、複数のタイプの被写体を用いて多面的にシーンクラスの解析を行うことにより、物体領域のみを手掛かりにした場合よりもシーンクラスの判別が頑健になることが期待される。
図14に、本実施形態の基本構成図を示す。第1の実施形態の構成図と本構成図の異なる点は、タイプの異なる3種類の被写体の候補領域の抽出部、特徴量抽出部および属性判定部を備えることである。具体的には、本認識装置は物体の候補領域を抽出する物体候補領域抽出部122a、人体の領域を抽出する人体候補領域抽出部122b、空や山や床といった背景の領域を抽出する背景候補領域抽出部122c、を備える。
物体候補領域抽出部122a〜122cでは、第1の実施形態と同様に物体の抽出を行う。人体候補領域抽出部では、非特許文献7のような公知の方法を用いて人体の候補領域を抽出する。背景候補領域抽出部では、色もしくはテクスチャの均一性が高く、面積の広い領域を抽出して背景領域とする。具体的には、非特許文献4のようなテクスチャ分析の方法で画像を複数領域に分割してそれぞれを背景候補領域として抽出する。
特徴量抽出部123a〜123cでは、被写体のタイプにあった特徴量を抽出する。ここでは、物体の特徴量抽出部123aおよび背景領域の特徴量抽出部123cは第1の実施形態で述べたものと同じ特徴量を抽出する。人体領域の特徴量抽出部123bでは服装や頭部の被り物の有無等を重点的に見るために、検出された人体領域を頭部、上半身、下半身、の3か所のパーツに分けて、それぞれから色SIFT特徴量を抽出して連結し、特徴ベクトルとする。
それぞれの属性判定部124a〜124cは、このように、タイプの異なる被写体に特化して学習を行う。学習の仕方は第1の実施形態の方法と同様であるが、ここで、多少バリエーションを加える。
それは、背景領域に関しては、例えば一様な青空の領域からは屋外であることは分かっても、それがキャンプのシーンなのか野球のシーンなのかは知り得ない、というようなことが起こりやすいことである。そのため、第1の実施形態の方法で背景属性判定部124cを学習すると過学習を起こし易くなる可能性がある。
そこで、ここでは、以下のような工夫を行う。例えば一つの工夫としては、分類木の深さが所定数以上になったら学習を早期に打ち切って過学習を防ぐことである。また別の工夫としては、各ノードの判別器を訓練する際に情報量基準を用いずに、データを単にランダムに分割するだけの判別器を採用することである。
これは、各分類木の判別器の判別関数の係数をランダムな値にすることで実現される。この判別器はハッシュ法、ランダム射影、類似事例データの探索、近似最近傍探索といわれる公知の機械学習の方法と数理的に同種の操作である。即ち、本発明の属性判定部の判別器には、アンサンブル分類木に限らず、上に挙げたような様々な機械学習の方法が適用可能である。
次に、判定結果統合部125では、属性判定部124a〜124cの投票結果を統合する。このとき、被写体のタイプによって得られる判定の信頼性に差があるのでそのまま加算せずに重みW=[w1,w2,w3Tを定義して重み付和を求めて最終的に画像の属性を同定して最終の判定結果とする。ただし、Wは複数の候補値から交差確認法で決定するか、平均的に判別精度が最良となる値を最小二乗法で解いて決定するとよい。また単純に重み付和するのではなく、上記の投票結果を入力とし、画像の属性が出力されるようにサポートベクトルマシンなどの判別器を用いて学習するような形態でもよい。
以上が複数のタイプの被写体を用いてシーンクラスの判別を行う第2の実施形態の説明になる。
[第3の実施形態]
第3の実施形態の認識装置は、動画を用いて動画のシーンクラスを判別することを目的とするものである。本実施形態では特に監視カメラ画像の正常状態・異常状態について判別を行う形態について述べる。監視カメラ画像の異常状態としては複数のタイプが考えられるが、ここでは群衆の異常行動を判別するような認識装置について述べる。
図15に、本実施形態の認識装置の基本構成図を示す。
画像入力部131には、監視カメラの動画像が入力される。人体候補領域抽出部132aは、第2の実施形態と同様にして非特許文献7等の人体検出器の手法によって人体を検出する部位である。ここで抽出された人体は、人体特徴量抽出部133aにて人体候補領域中の見えの特徴量を算出する。
また、前後の動画フレームを参照して人体の移動方向と移動速度、および動き特徴ベクトルも抽出して特徴量に加える。ここで見えの特徴とは第1の実施形態と同様に色SIFT特徴のヒストグラム、動き特徴ベクトルとしては例えばCHLACと呼ばれる非特許文献8に開示されているような公知の方法の特徴量を抽出する。
次に、人体属性判定部134aで人体領域の特徴量をアンサンブル分類木からなる判別器で判定させて第1の実施形態と同様にして個々の人体の候補領域が異常シーンの人体か正常シーンの人体かの尤度スコアを得る。人体属性判定部134aは第1の実施形態と同様にあらかじめ異常行動の動画像と正常なシーンの動画像の学習データから人体候補領域抽出部132aによって人体を抽出し、両者の特徴量を分類木によって学習してある。これにより、武器を振りまわしている人物や、逃げる人物、格闘している人物の動きなど、異常な行動下にある人体領域を異常度が高いとして判定することができる。
なお、非特許文献7のような人体検出手法は、遮蔽のない立位の人体の検出精度は高いが、雑踏の中に頭部が一部だけ見えている人物や、見えのサイズの小さな人物、立位以外の姿勢の人物、に対しては検出が困難であるという課題がある。図16(a)に、群衆の動画像のシーンの例を示すが、図16(b)で黒矩形枠で例示するように、このような条件下では人体として検出されるのは少数にとどまることも多い。
そこで、このような課題に対する工夫として本認識装置は個々の人体のみならず、群衆候補領域抽出部132bによって群衆が存在している可能性が高いと判断できる候補領域を抽出する。そして、同領域が正常シーンにおける群衆か、異常シーンの群衆であるか、領域の特徴量を手掛かりに調べて判定を行う。
群衆の候補領域の抽出には先に動き特徴ベクトルとして用いたCHLAC特徴(詳細は、非特許文献8を参照されたい)を用いる。これを用いて以下のように処理を行う。
まず、あらかじめ学習データとして様々な群衆の動画と、群衆は含まれていないが様々な動きのある動画とを用意する。これらの動画を16画素×16画素×16フレームといった一定サイズの時空間のブロックに分割し、それぞれのブロックからCHLAC特徴ベクトルを抽出する。
CHLAC特徴は251次元の特徴量であるので、251次元空間上にブロック数と等しい数のサンプルの2群の分布が得られる。次にこの2群のデータに対して一般的な判別手法である線形判別分析を行い、2群のデータを分ける最良の1次元の基底への射影ベクトルを得る。
次に、認識時の群衆候補領域抽出部132bの動作について述べる。まず入力動画を受け取ったら、学習時と同じサイズのブロックデータに分割する(ブロックは互いに重なっていてもよい)。各ブロックからCHLAC特徴を抽出し、先に線形判別分析で得た1次元基底上に射影して基底上の値を得る。
この基底上の値が各ブロックの群衆らしさの尤度となるので、所定の閾値で切って群衆候補領域としてこれを抽出する。図16(c)に黒太枠線で結果の例を示す。後の処理はこれまでの形態と同様に群衆特徴量抽出部133bで見えおよび動きの特徴を抽出し、群衆属性判定部134bで異常か正常かの判別を行って判別スコアを得る。
次に、物体候補領域抽出部132cが抽出対象とする領域は、異常な群衆行動に伴って観察されることのある、不特定な被写体の領域である。例えば発煙灯の煙や、路上の物が燃やされることで発生する炎、破壊行為による破片の散乱、等々様々な被写体が考えられる。
本発明を適用して得られる本実施形態の認識装置は、学習時に予めどのような特定の被写体がシーンクラスの判別に関連するかの前提を持たずに学習を行うことが特長の一つである。そのため、ここでは様々な物体候補領域が抽出できるように物体候補領域抽出部132cを構成する。具体的には、動きおよび見えの特徴が似たまとまった領域を物体候補領域として抽出するようにする。
物体候補領域の具体的な抽出の仕方は、第1の実施形態で図3により説明したSuper−pixel(以降、SPと表記する)を用いる方法を拡張したものである。図3の方法との相違点は2点ある。一点目はSPの連結の際に画素の見え特徴のみならず、動き特徴も類似度として用いるようにすることである。二点目は動きのないSP領域を始めに候補領域から除外することである。以下に詳細を説明する。
まず、動画像中の1フレームについて、動画像解析で一般的な手法であるオプティカルフローを画素ごとに計算する。次にSPを作成するが、このときに領域内のオプティカルフローの平均量が一定以下のSPは削除する。
次に、図3のS302〜S306と同様に類似する隣接SPを連結していくが、この際に用いる類似度として、SPのRGBの色分布、およびオプティカルフローの方位の分布、の両方を連結してまとめたベクトルについて類似度を算出する。このようにすることで、見えおよび動きの似たまとまった領域を物体候補領域として抽出することができる。
図16(d)に、物体候補領域抽出部132cの動作の結果の例を黒太枠線で示す。ここでは、炎と煙の領域、および群衆の一部、が物体候補領域として抽出されている。
なお、物体候補領域の抽出の仕方はここで述べた方法に限定するものではなく、見えや動きの似たまとまった領域を抽出する方法であればいずれも適用可能である。
以降の物体特徴量抽出部133cと物体属性判定部134cでは、先の群衆領域に対するものと同一である。繰り返しになるので詳細な説明を省略する。
以上のようにして、複数のタイプの候補領域を手掛かりとして、入力動画の映像が正常な群衆のシーンか否かのスコアが各候補領域から得られた。
次いで、第2の実施形態と同様に判定結果統合部135で判別スコアを投票して各被写体タイプごとに集計する。次に得られたスコアを重み付け和する。さらに、1フレームごとの結果は安定しない場合があるので、前後の複数フレーム間で結果を移動平均し、最終結果とする。
なお、動きベクトル特徴としてはCHLAC特徴以外に、時空間勾配のヒストグラムを用いる方法や、隠れマルコフモデルを用いるものなど様々あるので被写体のタイプにあったものを選べばよい。
なお、前述の実施形態の派生として、それぞれの属性判定部を学習する際に、例えば火災の動画データと正常シーンの動画データを学習データとして与えて2クラスのシーン判別を学習すれば、火災検出機能を持った認識装置を実現することができる。またあるいは火災・異常行動・正常の3シーンのクラスの教師値を与えてクラス判別するように学習するようなこともできる。このように、本発明は様々な現実問題の課題に対して適用が可能である。
また、本実施形態では動画像を用いたが、監視カメラとしての精度を増すために距離画像を併用して使う派生の形態も考えられる。この場合、輝度画像、距離画像、どちらの画像からも特徴量を抽出して連結し、判別器で判別を行うような工夫を用いればよい。
以上で、動画から群衆およびシーンの異常状態を判別する形態の第3の実施形態の説明を終える。
[第4の実施形態]
第4の実施形態は、静止画像を入力として画像の構図のクラスを判別するものである。またさらに本実施形態では画像構図のクラスの判別と同時に、画像の主被写体の領域も推定する。本実施形態の開示によって、本発明はシーンクラスのような一変数の情報を判別するのみならず、適切な工夫によって主被写体領域のような複雑な画像属性の推定に用いることも可能であることを示すものである。
一般に、画像構図のクラスには様々な種類が提唱されており「日の丸構図」、「(黄金比の近似である)三分割構図」、「対角線構図」、「三角構図」、などのタイプが知られている。
写真撮影時に自動で写真構図を推定することができれば、焦点位置や露出などの撮影時のカメラパラメータを構図に合った適切な値を決定することができる。また被写体に合った写真構図の枠線をユーザーに教示するなどして、構図の修正を容易にすることもできる。
また、主被写体の領域が分かれば、焦点や露出を主被写体に合わせて適切に制御することが可能になる。また画像の整理やハイライト作成などの画像の二次利用においても主被写体の情報は極めて重要な情報である。
但し、従来の主被写体認識の方法にはいくつか課題があった。例えば、色コントラスト差などの顕著度に基づいて判断する方法の場合、意味的に重要でない領域であっても周囲との色や輝度のコントラストが強いと主被写体として誤って認識されてしまうことがあった。
例えば、室内の写真で部屋の隅にだけ光が明るく当たっているような場合や、路上で家と家の隙間から白い空が僅かに見えているような場合に、誤って主被写体と判別することがあった。
また、例えば他の主被写体認識の方法に、人体検出や顔検出などの物体検出を利用して主被写体を決定する方法があるが、このような物体検出を用いる方法では、不特定の様々な物体に対して適応できない問題があった。
本実施形態では、画像を構成する被写体を抽出し、属性判定部で分類・判別して被写体個々に構図クラスおよび主被写体領域を推定し、統合することで、これらの画像属性を自動判別することが可能であることを示す。
図18(a)に、本実施形態の判別対象のクラスである7種類の画像の構図クラスを示す。学習データの各画像には、この7クラスのどれに該当するかの教師値があらかじめ付与されている。また各画像の主被写体の領域は、二値画像によって主被写体の教師値が与えられている。
図17に、本実施形態の基本構成図を示す。これは、第2の実施形態の形態に準じる構成になっている。第2の実施形態との相違点の一つは、判定結果統合部145が画像構図判定統合部145aと、主被写体領域判定統合部145bの二つの機能部位を備える点である。
以降では、第2の実施形態との相違点に絞って説明を行う。
本実施形態で候補領域として抽出する被写体のタイプは物体、線分、人体の3タイプである。構図を推定するのに直接的な効果があると考えられる線分の情報が被写体として新たに用いられている点が大きな相違点である。
線分候補領域を抽出するには、入力画像からハフ変換によって線分を抽出し、所定以上のエッジ強度および長さを持った線分のみを候補線分として残すという処理を行う。
図18(b)に、記号1402bを付して線分候補領域の抽出結果の例を示す。更に線分特徴量抽出部143bでは、候補線分の所定の周囲の範囲から色SIFT特徴を抽出してこれを候補線分の見えの特徴量とする。この他に候補線分の重心位置、長さ、傾きなども算出して全て連結し、特徴量とする。
その他の物体候補領域や人体候補領域については、第2の実施形態と同様の方法で特徴量を抽出する。ただし、第2の実施形態で用いた特徴量に加えて、構図を決定する上で重要と考えられる各領域の重心位置や、領域形状の2次モーメントの特徴量も抽出して加える。さらに、高いコントラストの領域やピントのあっている領域は構図を決定する上で影響が大きいことを考慮し、領域の内外の色のコントラストの差や、領域の内外のエッジの量の比、などコントラストやピントに関連のある特徴量も追加して抽出しておく。
各被写体の属性判定部144a〜144cでは、被写体の特徴量と、被写体の属する画像の構図クラスとを関連付けてあらかじめアンサンブル分類木を学習させてある。これは、第2の実施形態で各被写体候補領域の特徴量とシーンクラスとを関連付けて学習判別したことと相同の関係である。各被写体の特徴量である位置やサイズや境界の強度などに、構図クラスを判別する手掛かりとなる情報が多少ずつでも存在していれば、これらを統合することによってシーンクラスを判別する時と同じように構図クラスも正しく判別することができる。
図18(b)に、このようなアンサンブル分類木で構図クラスを推定した結果の模式的な例を示す。抽出された各被写体領域1402a〜1402cの個々の被写体領域について構図クラスを推定し、それぞれを投票した結果を投票空間1403a〜1403cに表している。これを重み付け和して統合し、最終結果1404を得る。結果の例の図では三分割構図が最終的な答えとして出力されている。
次に、主被写体領域の推定の方法について説明する。主被写体領域を構図クラスと同時に推定するために、本実施形態ではアンサンブル分類木で構図クラスを学習する時に以下のような工夫を併せて行う。即ち、各分類器の葉ノードに、学習データの構図クラスの比率だけでなく、学習データの主被写体領域の情報も記憶させておく。このような、学習の目標変数以外のデータのことをメタデータと呼ぶ。
メタデータである主被写体領域の情報は、まずそれぞれ縦横比1対1の画像に比率を正規化する。次に葉ノードの中で主被写体領域画像を平均化して、これをその葉ノードにおける主被写体の事前分布とする。さらに、これをガウス分布で近似してガウス分布のパラメータのみを記憶する。事前分布そのものを使わないで近似を行うのは、分類木のサイズが大きくなると記憶容量および投票の計算処理にかかる速度が膨大になるためである。この点の問題がなければ近似せずに分布そのものを記憶して用いてもよい。またガウス分布も混合ガウス分布等で近似してもよい。
こうして得られた主被写体領域のメタデータの例を図19(a)に示す。ここでは、物体候補領域として抽出された空の領域1411を分類木で判別させたときに到達した葉ノードに記憶されている主被写体の領域の事前分布(をガウス分布で近似したもの)を記号1412を付して示している。
この結果例では、空の領域1411のように、均一の領域が画像上部に写っている画像の場合、主被写体領域は上方には存在しないことが多いため、図19(a)のように中央付近を中心とした位置に主被写体領域がある可能性が高いことを示している。
このように、候補被写体ごとに主被写体領域の事前分布のメタデータを参照し、それを投票した結果の例の模式図を図19(b)に示す。ここでは、各被写体からの投票結果を記号1413a〜1413cを付し、重み付けして統合した後の最終的な推定結果を記号1414を付して示す。本図では主被写体の位置(人物)の近辺をある程度正しく推定している様子を示している。
以上で画像の構図クラスおよび主被写体領域を推定する第4の実施形態についての説明を終える。本発明を適用した実現例により、画像中の被写体のパターンを手掛かりにして、構図推定を行えることを示した。また、被写体の分類結果にメタデータを付随させて用いることにより、主被写体領域の推定も学習的に行うことができることを示した。これは、顕著度のように機械的な基準で決める従来の方法と大きく相違する点である。
本発明の実施形態によれば、画像の構図や、画像中の群衆の行動の正常・異常の判別や、主被写体の判別など、画像中の被写体を手掛かりにして様々な画像の属性を判別することが可能である。
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、前述した実施形態の機能を実現するソフトウェア(コンピュータプログラム)を、ネットワーク又は各種のコンピュータ読み取り可能な記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
101 画像入力部
102 候補領域抽出部
103 特徴量抽出部
104 属性判定部
105 判定結果統合部

Claims (16)

  1. 画像から、被写体の候補領域を抽出する候補領域抽出手段と、
    前記候補領域抽出手段により抽出された被写体の候補領域から前記画像の属性に関する特徴量を抽出する特徴量抽出手段と、
    前記特徴量抽出手段で抽出された特徴量に基づいて、前記候補領域抽出手段により抽出された被写体の候補領域の属性を判定する属性判定手段と、
    前記属性判定手段の判定結果を統合することにより、画像の属性を同定する判定結果統合手段とを有することを特徴とする認識装置。
  2. 前記候補領域抽出手段は、所定の候補領域の基準に基づいて複数の被写体の候補領域を抽出することを特徴とする請求項1に記載の認識装置。
  3. 前記候補領域抽出手段は、複数の異なる前記基準に基づく複数の候補領域抽出手段とからなることを特徴とする請求項2に記載の認識装置。
  4. 前記属性判定手段は、複数の異なる前記候補領域抽出手段にそれぞれ対応する複数の属性判定手段とからなることを特徴とする請求項3に記載の認識装置。
  5. 前記候補領域抽出手段は、前記画像から人体候補領域を抽出する人体候補領域抽出手段を備えることを特徴とする請求項1〜4の何れか1項に記載の認識装置。
  6. 前記属性判定手段は、前記候補領域の属性を学習する際に前記候補領域がその画像の属性に応じて分かれるように分類することで前記学習を行うことを特徴とする請求項1〜5の何れか1項に記載の認識装置。
  7. 前記属性判定手段は、前記候補領域を分類する際に、重要な候補領域として教示された領域を優先して分類するように学習を行うことを特徴とする請求項6に記載の認識装置。
  8. 前記属性判定手段は、前記画像の属性に関連しない被写体の候補領域に基づいて学習を行うことを特徴とする請求項1〜7の何れか1項に記載の認識装置。
  9. 前記属性判定手段は、分類木に基づく手法で構成されることを特徴とする請求項1〜8の何れか1項に記載の認識装置。
  10. 前記属性判定手段は、類似事例データの探索に基づく手法で構成されることを特徴とする請求項1〜8の何れか1項に記載の認識装置。
  11. 前記属性判定手段は、ハッシュ法に基づく手法で構成されることを特徴とする請求項1〜8の何れか1項に記載の認識装置。
  12. 前記属性判定手段の判定する属性は、画像のシーン、画像中の群衆の行動、画像の構図の種類、画像の主被写体の情報、画像の光源の方向に関する情報の何れかであることを特徴とする請求項1〜11の何れか1項に記載の認識装置。
  13. 前記属性を判定する対象の画像は動画像であることを特徴とする請求項1〜12の何れか1項に記載の認識装置。
  14. 前記属性を判定する対象の画像は距離画像であることを特徴とする請求項1〜12の何れか1項に記載の認識装置。
  15. 画像から、被写体の候補領域を抽出する候補領域抽出工程と、
    前記候補領域抽出工程において抽出された被写体の候補領域から前記画像の属性に関する特徴量を抽出する特徴量抽出工程と、
    前記特徴量抽出工程で抽出された特徴量に基づいて、前記候補領域抽出工程において抽出された被写体の候補領域の属性を判定する属性判定工程と、
    前記属性判定工程の判定結果を統合することにより、画像の属性を同定する判定結果統合工程とを有することを特徴とする認識方法。
  16. 画像から、被写体の候補領域を抽出する候補領域抽出工程と、
    前記候補領域抽出工程において抽出された被写体の候補領域から前記画像の属性に関する特徴量を抽出する特徴量抽出工程と、
    前記特徴量抽出工程で抽出された特徴量に基づいて、前記候補領域抽出工程において抽出された被写体の候補領域の属性を判定する属性判定工程と、
    前記属性判定工程の判定結果を統合することにより、画像の属性を同定する判定結果統合工程とをコンピュータに実行させることを特徴とするプログラム。
JP2014083781A 2014-04-15 2014-04-15 認識装置及び認識方法 Expired - Fee Related JP6448212B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014083781A JP6448212B2 (ja) 2014-04-15 2014-04-15 認識装置及び認識方法
US14/685,427 US9773189B2 (en) 2014-04-15 2015-04-13 Recognition apparatus and recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014083781A JP6448212B2 (ja) 2014-04-15 2014-04-15 認識装置及び認識方法

Publications (3)

Publication Number Publication Date
JP2015204030A true JP2015204030A (ja) 2015-11-16
JP2015204030A5 JP2015204030A5 (ja) 2017-05-25
JP6448212B2 JP6448212B2 (ja) 2019-01-09

Family

ID=54597446

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014083781A Expired - Fee Related JP6448212B2 (ja) 2014-04-15 2014-04-15 認識装置及び認識方法

Country Status (1)

Country Link
JP (1) JP6448212B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017107443A (ja) * 2015-12-10 2017-06-15 株式会社大林組 状況判定システム、状況判定方法及び状況判定プログラム
JP2017157201A (ja) * 2016-02-29 2017-09-07 トヨタ自動車株式会社 人間を中心とした場所認識方法
JP2018169972A (ja) * 2017-03-30 2018-11-01 Kddi株式会社 検索結果による学習が可能な対象検出装置、検出モデル生成装置、プログラム及び方法
JP2019139468A (ja) * 2018-02-09 2019-08-22 株式会社ビコー 情報処理装置、情報処理方法およびプログラム
JP2019139497A (ja) * 2018-02-09 2019-08-22 株式会社日立ソリューションズ・クリエイト 画像処理システム及び画像処理方法
JP2021056796A (ja) * 2019-09-30 2021-04-08 トッパン・フォームズ株式会社 構造認識システム、構造認識装置、構造認識方法、及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008009893A (ja) * 2006-06-30 2008-01-17 Canon Inc パラメータ学習方法及びその装置、パターン識別方法及びその装置、プログラム
JP2008217589A (ja) * 2007-03-06 2008-09-18 Toshiba Corp 学習装置及びパターン認識装置
JP2011221689A (ja) * 2010-04-07 2011-11-04 Sony Corp 学習装置、学習方法、認識装置、認識方法、およびプログラム
JP2012030042A (ja) * 2010-06-30 2012-02-16 Panasonic Electric Works Co Ltd 監視装置、プログラム
US20130058583A1 (en) * 2011-09-07 2013-03-07 Andrew Charles Gallagher Event classification method using light source detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008009893A (ja) * 2006-06-30 2008-01-17 Canon Inc パラメータ学習方法及びその装置、パターン識別方法及びその装置、プログラム
JP2008217589A (ja) * 2007-03-06 2008-09-18 Toshiba Corp 学習装置及びパターン認識装置
JP2011221689A (ja) * 2010-04-07 2011-11-04 Sony Corp 学習装置、学習方法、認識装置、認識方法、およびプログラム
JP2012030042A (ja) * 2010-06-30 2012-02-16 Panasonic Electric Works Co Ltd 監視装置、プログラム
US20130058583A1 (en) * 2011-09-07 2013-03-07 Andrew Charles Gallagher Event classification method using light source detection

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
古賀久志: "ハッシュを用いた類似検索技術とその応用", 電子情報通信学会 基礎・環境ソサイエティ FUNDAMENTALS REVIEW, vol. 7, no. 3, JPN6018007393, January 2014 (2014-01-01), JP, pages 256 - 268, ISSN: 0003751289 *
柳井 啓司: "一般物体認識の現状と今後", 情報処理学会研究報告, vol. 2006, no. 93, JPN6018007395, 9 September 2006 (2006-09-09), JP, pages 121 - 134, ISSN: 0003751290 *
相田 優、柳井 啓司、柴原 一友、藤本 浩司: "服飾画像マイニングのための衣類領域からの色情報抽出", 電子情報通信学会技術研究報告, vol. 111, no. 478, JPN6018007391, 5 March 2012 (2012-03-05), JP, pages 235 - 240, ISSN: 0003751288 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017107443A (ja) * 2015-12-10 2017-06-15 株式会社大林組 状況判定システム、状況判定方法及び状況判定プログラム
JP2017157201A (ja) * 2016-02-29 2017-09-07 トヨタ自動車株式会社 人間を中心とした場所認識方法
US10049267B2 (en) 2016-02-29 2018-08-14 Toyota Jidosha Kabushiki Kaisha Autonomous human-centric place recognition
JP2018169972A (ja) * 2017-03-30 2018-11-01 Kddi株式会社 検索結果による学習が可能な対象検出装置、検出モデル生成装置、プログラム及び方法
JP2019139468A (ja) * 2018-02-09 2019-08-22 株式会社ビコー 情報処理装置、情報処理方法およびプログラム
JP2019139497A (ja) * 2018-02-09 2019-08-22 株式会社日立ソリューションズ・クリエイト 画像処理システム及び画像処理方法
JP2021056796A (ja) * 2019-09-30 2021-04-08 トッパン・フォームズ株式会社 構造認識システム、構造認識装置、構造認識方法、及びプログラム
JP7365835B2 (ja) 2019-09-30 2023-10-20 Toppanエッジ株式会社 構造認識システム、構造認識装置、構造認識方法、及びプログラム

Also Published As

Publication number Publication date
JP6448212B2 (ja) 2019-01-09

Similar Documents

Publication Publication Date Title
US9773189B2 (en) Recognition apparatus and recognition method
KR101964397B1 (ko) 정보처리장치 및 정보처리방법
CN108446617B (zh) 抗侧脸干扰的人脸快速检测方法
JP6448212B2 (ja) 認識装置及び認識方法
US10216979B2 (en) Image processing apparatus, image processing method, and storage medium to detect parts of an object
CN110298297B (zh) 火焰识别方法和装置
CN102332092B (zh) 一种基于视频分析的火焰检测方法
CN105740780B (zh) 人脸活体检测的方法和装置
JP6482195B2 (ja) 画像認識装置、画像認識方法及びプログラム
KR100735549B1 (ko) 영상의 피부색을 변환하는 영상 처리 방법 및 장치
KR101872811B1 (ko) 행동 패턴 인식 장치, 행동 패턴 인식 방법 및 행동 패턴 분류기 생성 방법
KR20070016849A (ko) 얼굴 검출과 피부 영역 검출을 적용하여 피부의 선호색변환을 수행하는 방법 및 장치
JP2016099734A (ja) 画像処理装置、情報処理方法及びプログラム
CN109902576B (zh) 一种头肩图像分类器的训练方法及应用
CN112836625A (zh) 人脸活体检测方法、装置、电子设备
WO2013075295A1 (zh) 低分辨率视频的服装识别方法及系统
CN112434647A (zh) 一种人脸活体检测方法
JP3962517B2 (ja) 顔面検出方法及びその装置、コンピュータ可読媒体
CN110046601B (zh) 针对十字路口场景的行人检测方法
JP2010146395A (ja) 画像処理装置、画像処理方法、画像処理プログラム、及び、電子機器
CN113763418B (zh) 一种基于头肩检测的多目标跟踪方法
CN114627500A (zh) 一种基于卷积神经网络的跨模态行人重识别方法
JP6539720B1 (ja) 画像処理装置
Campadelli et al. A color based method for face detection
CN105760881A (zh) 基于Haar分类器方法的人脸建模检测方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170405

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170405

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181204

R151 Written notification of patent or utility model registration

Ref document number: 6448212

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees