JP6112801B2 - 画像認識装置及び画像認識方法 - Google Patents

画像認識装置及び画像認識方法 Download PDF

Info

Publication number
JP6112801B2
JP6112801B2 JP2012183456A JP2012183456A JP6112801B2 JP 6112801 B2 JP6112801 B2 JP 6112801B2 JP 2012183456 A JP2012183456 A JP 2012183456A JP 2012183456 A JP2012183456 A JP 2012183456A JP 6112801 B2 JP6112801 B2 JP 6112801B2
Authority
JP
Japan
Prior art keywords
class
boundary
image
feature
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012183456A
Other languages
English (en)
Other versions
JP2014041477A (ja
Inventor
矢野 光太郎
光太郎 矢野
一郎 梅田
一郎 梅田
佐藤 博
博 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2012183456A priority Critical patent/JP6112801B2/ja
Priority to US13/967,044 priority patent/US9489566B2/en
Publication of JP2014041477A publication Critical patent/JP2014041477A/ja
Application granted granted Critical
Publication of JP6112801B2 publication Critical patent/JP6112801B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Description

本発明は、特に、精度良く物体を識別するために用いて好適な画像認識装置、画像認識方法、プログラム及び記憶媒体に関する。
従来、人物の顔を含む画像から顔の領域を顔画像として抽出し、抽出した顔画像を予め登録した特定人物の顔画像と比較することにより個人の識別を行う顔認識技術が知られている。この顔認識技術は、例えば、カメラに写っている人物が登録者であると認識されたときに入室を許可するといったセキュリティ用途に使用されている。
一方、この顔認識技術を用いて同一人物が写っている写真の画像検索を行いたいといった要望もある。セキュリティ用途においては、人物を撮影する際の条件に制約を付けて高精度の認識を可能としているが、画像検索の場合は人物の撮影条件が多岐に亘っているため認識精度が低下するといった問題がある。例えば、顔の向きや表情、撮影時の照明が異なった写真間では、同一人物が写っていても別人物と誤判定してしまうことがあった。
そこで、撮影条件が異なる場合においても高精度に認識を行う方法としては、複数の顔画像を登録する方式が提案されている。例えば、特許文献1には、複数の顔画像から部分空間を作成し、登録顔及び入力顔の部分空間同士の類似度から認識を行う方法が開示されている。
一方、識別対象の複数のサンプルから対象が属するクラスのサンプルを包含する最小の超球を用いて表現する方法として、SVDD(Support Vector Data Description)が知られている(例えば、非特許文献1参照)。また、非特許文献2には、SVDDを用いた一般物体カテゴリの分類方法が開示されている。
特開平11−175718号公報
D.Tax and R.Duin. Support Vector Data Description. Machine Learning, 54(1):45-66, 2004. X.Yu, D.DeMenthon and D.Doermann. Support Vector Data Description for Image Categorization From Internet Images. 19th International Conference on Pattern Recognition, 2008. P.Viola and M.Jones. Rapid Object Detection using Boosted Cascade of Simple Features. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR2001) C.Shan and T.Gritti, Learning Discriminative LBP-Histogram Bins For Facial Expression Recognition. In Proc. British Machine Vision Conference, 2008 S.Maji, A.C.Berg and J.Malik, Classification using intersection kernel support vector machines are efficient. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR2008) A. Vedaldi and A. Zisserman, Efficient Additive Kernels via Explicit Feature Maps. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR2010)
しかしながら、特許文献1に記載の部分空間によって顔の認識を行う方法においては、入力する顔画像も複数必要であり、その分、処理量が増大してしまう。また、登録した顔画像と同一人物の顔画像を入力したとしても同一人物として識別しない場合がある。これは、登録された顔画像及び入力された顔画像の部分空間の広がりが大きいと、それらの部分空間の類似度が必ずしも高くならないからである。さらに、クラス数の増加に伴う部分空間の重なりにより誤認識が生じてしまう。このような特性は、特に登録された顔画像のサンプル数が少ない場合に生じやすい。
一方、非特許文献2で提案された方法を顔認識に適用すると、登録された顔画像のうち識別境界に近いサンプルをサポートベクターとして抽出するので、上記課題は解決できる。しかしながら、単純にSVDDを適用すると入力サンプルが対象カテゴリかどうかは識別できるが、そのカテゴリに属する信頼度を求めることができない。したがって、複数の似た人物が登録されている場合には、最も類似した人物を識別結果として出力することができないという問題がある。
本発明は前述の問題点に鑑み、複数の登録画像から高精度に物体を認識できるようにすることを目的としている。
本発明の画像認識装置は、物体画像を取得する取得手段と、前記取得手段によって取得された物体画像から特徴量を抽出する特徴抽出手段と、複数のクラスの各クラスについて、前記特徴抽出手段によって該クラスの物体を含む複数の物体画像から抽出されたそれぞれの特徴量を当該クラスの訓練サンプルの集合とし、訓練サンプルの集合を包含する領域の境界付近に存在する複数の訓練サンプルのそれぞれ前記クラスの境界サンプルと判別して、該境界サンプルと当該境界サンプルのそれぞれに対するパラメータとを前記クラスのモデルとして登録する登録手段と、前記複数のクラスの各クラスについて、前記取得手段により取得された認識対象の物体画像から前記特徴抽出手段により抽出された特徴量と、当該クラスのモデルとして登録された各境界サンプルとの所定のカーネル関数値を求め、当該各境界サンプルに対する前記カーネル関数値及びパラメータ基づいて、前記認識対象の物体画像に対して、クラスごと信頼度を算出する算出手段と、前記算出手段により算出されたクラスごとの信頼度に基づいて、前記認識対象の物体画像の認識結果を出力する識別手段とを備えたことを特徴とする。
本発明によれば、複数の似た物体が登録されている場合であっても、複数の登録画像から高精度に物体認識を行うことができる。
本発明の実施形態に係る画像認識装置の機能構成例を示すブロック図である。 実施形態において、顔画像を登録する処理手順の一例を示すフローチャートである。 顔画像を取得する詳細な処理手順の一例を示すフローチャートである。 特徴量を抽出する詳細な処理手順の一例を示すフローチャートである。 顔モデルを登録する詳細な処理手順の一例を示すフローチャートである。 顔画像を領域分割する様子を説明するための図である。 実施形態において、入力された顔画像を識別する処理手順の一例を示すフローチャートである。 信頼度を求める詳細な処理手順の一例を示すフローチャートである。 入力された顔画像の人物を識別する詳細な処理手順の一例を示すフローチャートである。
(第1の実施形態)
以下、添付図面を参照して、本発明を好適な実施形態に従って詳細に説明する。本実施形態では、複数の顔画像から顔の個人識別を行う例について説明する。
図1は、本実施形態に係る画像認識装置100の機能構成例を示すブロック図である。
図1において、顔画像取得部101は、画像データを取得する撮像装置、及び取得した画像データから顔の領域を切り出して顔画像データを出力する画像処理装置により構成されている。特徴抽出部102は、顔画像取得部101で取得した顔画像データから顔の個人識別を行うための特徴量を求める。
登録部103は、特徴抽出部102で求めた複数の顔の特徴量から個人毎に顔識別を行うための顔モデルを抽出する。また、登録部103は、訓練サンプル記憶部111、第1のHIK算出部112、及び境界サンプル判別部113により構成されている。顔モデル記憶部104は、登録部103で求めた個人毎の顔モデルを記憶するメモリである。
算出部105は、特徴抽出部102で抽出した特徴量を入力し、顔モデル記憶部104に登録されている顔モデルから、入力された特徴量が顔モデルのクラスである信頼度を求める。算出部105は、第2のHIK算出部121、及び信頼度算出部122により構成されている。なお、第1のHIK算出部112及び第2のHIK算出部121は同じ機能を有するため、第2のHIK算出部121は登録部103の第1のHIK算出部112で代用してもよい。顔識別部106は、複数の個人について、算出部105から出力される信頼度から顔の識別を行う。
次に、本実施形態の動作について説明する。まず、顔画像の顔モデルを登録する処理について図2〜図5を参照しながら説明する。
図2は、顔画像の顔モデルを登録する処理手順の一例を示すフローチャートである。本実施形態では、動画像を構成する複数のフレームから特徴量を抽出するため、S201及びS202の処理は、フレームが入力されるたびに逐次実行されるものとする。
図2において、まず、顔画像取得部101は、物体画像(顔画像)を取得する(S201)。S201の処理の詳細については、以下の図3のフローチャートを参照しながら説明する。
図3は、図2のS201において、顔画像取得部101が顔画像を取得する詳細な処理手順の一例を示すフローチャートである。
まず、動画像を撮影するために、登録する人物の顔を撮像し、動画像をフレーム毎に切り出して静止画像として画像データを取得する。そして、取得した画像データを顔画像取得部101内部のメモリに記憶する(S301)。このとき、取得する画像データは輝度画像とし、RGB等のカラー画像を取得した場合は輝度画像に変換して記憶する。
次に、S301で取得した画像データから、顔領域の正確な位置及び大きさを求める(S302)。具体的には、例えば、非特許文献3に開示されている顔検出方法によって、画像中の顔領域の位置を求める。
次に、S302で検出した顔の位置及び大きさに基づいて、顔画像の正規化を行う(S303)。具体的には、検出した顔領域が所定の配置及び大きさになるように幾何学変換を行う。例えば、両目の夫々の位置が画像中の所定の位置に配置される100×100画素の顔画像になるように変換する。そして、顔画像取得部101は、正規化した顔画像を出力し、処理を終了する。
図2の説明に戻り、次に、特徴抽出部102は、正規化した顔画像から顔の特徴を表す特徴量を抽出する(S202)。S202の処理の詳細については、以下の図4のフローチャートを参照しながら説明する。
図4は、図2のS202において、特徴抽出部102が特徴量を抽出する詳細な処理手順の一例を示すフローチャートである。
まず、入力した顔画像を領域分割する(S401)。この処理では、図6に示すように、水平方向及び垂直方向に同じ大きさの矩形領域になるようにブロックに分割する。このとき、例えば、一つのブロックが25×25画素の4×4の領域に分割する。その他にも、顔の目、口、鼻といった位置毎に領域の形状や大きさを変えて分割してもよく、夫々の領域が重なるようにしてもよい。
次に、S401で分割した領域から特徴量を抽出する(S402)。本実施形態では、特徴量としてLBP(Local Binary Pattern)特徴量を求める。LBP特徴量は、非特許文献4に記載されているように近傍の画素の輝度の増加傾向あるいは減少傾向を符号化したものである。LBP特徴量は顔認識に有効であり、照明変動にロバストな特性を持つ。
次に、S402で抽出した特徴量の領域内での分布を求め、ヒストグラム特徴として抽出する(S403)。すなわち、S402で求めたLBP特徴量の符号化した値毎に度数を求め、その度数分布をヒストグラム特徴とする。なお、例えば、S402で輝度勾配を求め、S403でそのヒストグラムを抽出してHOG(Histogram of Oriented Gradients)特徴量を抽出するようにその他のヒストグラム特徴を抽出してもよい。但し、ここで抽出したヒストグラム特徴の総和が変動する場合には、抽出したヒストグラム特徴を正規化して総和が不変になるようにする。
次に、S401で分割したすべての領域において、S402及びS403の処理を行ったか否かを判定する(S404)。この判定の結果、まだ処理を行っていない領域が存在する場合はS402に戻り、次の領域に対して処理を行う。一方、全ての領域において処理を行った場合はS405に進む。
次に、S403で抽出した領域毎のヒストグラム特徴を全て結合し、結合した特徴量を出力する(S405)。例えば、S401で分割した領域の数がnRであり、S403で求めたヒストグラムのビンの数がnBである場合には、結合した特徴量は、nR×nB次元の特徴量になる。
図2の説明に戻り、次に、登録部103は、特徴抽出部102から特徴量を入力し、登録部103の訓練サンプル記憶部111に記憶する。そして、逐次入力される複数の特徴量から顔モデルを抽出し、顔モデル記憶部104に登録する(S203)。これにより、同一人物の顔画像の特徴量に係る複数の顔モデルを登録することができる。
ここで、非特許文献1に記載されているSVDD(Support Vector Data Description)について簡単に説明する。本実施形態では、特徴抽出部102で抽出した複数の特徴量はSVDDにおける訓練サンプルの集合であり、訓練サンプルをxi(i=1,・・・N、Nはサンプル数)とする。SVDDでは、以下の(1)式に示す2次計画問題を解いて、訓練サンプルを包含する最小半径の超球を算出する。
ここで、Rは超球の半径、aは超球の中心、ξiはスラック変数、Φは高次元特徴空間への非線形写像、Cは超球の体積と超球の外側のサンプル数とのトレードオフを制御するパラメータである。また、ラグランジュ乗数αi≧0を導入すると、(1)式は以下の(2)式を解く問題として表すことができる。
ここで、K(xi,xj)=(Φ(xi),Φ(xj))はカーネル関数である。(2)式を満たすラグランジュ乗数αiのうち、非ゼロの係数に対応するサンプルで球体を表すことができ、SVDDでは球体の境界付近にあたるこれらの訓練サンプルをサポートベクター(境界サンプル)として抽出する。このとき、入力サンプルzの超球の中心からの距離をRzとすると、以下の(3)式が成り立つ。
但し、NSVは抽出したサポートベクターの数を表し、Σは抽出したサポートベクターに対する総和を表す。
図5は、図2のS203において、登録部103が顔モデルを登録する詳細な処理手順の一例を示すフローチャートである。
まず、特徴抽出部102が抽出した複数の特徴量から第1のHIK算出部112は、HIK(Histogram Intersection Kernel)を算出する(S501)。HIKは以下の(4)式により算出する。
ここで、xil,xjlは夫々、特徴量xi,xjのl番目の特徴、dは特徴量の次元、min()は小さい方の値を返す関数である。本実施形態では、このようにSVDDのカーネル関数としてHIKを用い、算出した値を次のS502で用いるために訓練サンプル記憶部111に保持しておく。
次に、境界サンプル判別部113は、S501で求めた特徴量同士のHIKの値からSVDDによって境界サンプルを判別する(S502)。すなわち、前述の(2)式を満たすラグランジュ乗数αiのうち、非ゼロの係数に対応する訓練サンプルをサポートベクター(境界サンプル)として判別する。
次に、S502で境界サンプルとして判別した訓練サンプルxi及びラグランジュ乗数αiを顔モデルとして顔モデル記憶部104に登録する(S503)。
以上、人物の顔を撮像して動画像を生成し、顔モデルを登録する動作について説明した。なお、複数の人物の顔モデルを登録する場合には以上の処理を繰り返す。顔画像(顔モデル)を登録する際には、顔の向き、表情、等の変動のバリエーションが大きい動画像から登録することにより、登録した人物の多様な見えをモデル化できるので、高精度な認識が可能である。
次に、認識対象の人物の顔画像を入力し、登録した顔画像と照合する処理について図7〜図9を参照しながら説明する。
図7は、入力された顔画像を識別する処理手順の一例を示すフローチャートである。
まず、顔画像取得部101は、認識対象の人物の顔画像を取得する(S701)。そして、特徴抽出部102、は取得した顔画像から顔の特徴を表す特徴量を抽出する(S702)。図7のS701及びS702の処理はそれぞれ、顔画像を登録する時のS201及びS202の処理と同様の処理を行う。なお、特徴抽出部102が特徴量を抽出すると、その情報は算出部105に出力される。
次に、算出部105は、特徴抽出部102で抽出した特徴量を入力し、顔モデル記憶部104に登録されている顔モデルから、特徴量がその顔モデルのクラスである信頼度を算出する(S703)。S703の処理の詳細については、以下の図8のフローチャートを参照しながら説明する。
図8は、図7のS703において、算出部105が信頼度を算出する詳細な処理手順の一例を示すフローチャートである。
まず、算出部105は顔モデル記憶部104から照合すべき登録データ(顔モデル)を取得する(S801)。次に、入力された特徴量とS801で取得した登録データの境界サンプルとから、第2のHIK算出部121はHIKを算出する。HIKは以下の(5)式により算出する。
ここで、xiは登録データの境界サンプル、zは入力特徴量、xil、zlは夫々xi、zのl番目の特徴である。第2のHIK算出部121は、登録データの全ての境界サンプルについてHIKを算出し、係数αiとの重み付き総和を信頼度算出部122に出力する(S802)。
次に、信頼度算出部122は、S802の出力と登録データから入力特徴量が登録した顔モデルのクラスである信頼度を算出する(S803)。以下、信頼度を算出する詳細な方法について説明する。入力された特徴量の信頼度Pは以下の(6)式により定義することができる。
但し、Rzは(3)式に示した入力特徴量の超球の中心からの距離、Rmax、Rminは夫々、Rzが取りうる最大値及び最小値である。ここで、R2 maxは(3)式より以下の(7)式により算出することができる。
(7)式において(3)式の第二項にあたる項はHIKの性質から0である。また、K(z,z)は正規化したヒストグラム特徴を使用することにより固定値となるので、登録処理時に境界サンプルを抽出する際に、R2 maxを事前に算出しておくことができる。一方、R2 minは(3)式及び(7)式より以下の(8)式により算出することができる。
但し、max_hikは(3)式の第二項のΣαiK(xi,z)が取りうる最大値である。max_hikは、以下の方法により推定する。まず、以下の(9)式に示すβを算出する。
ここで、hmeanはS802で出力されるHIKの総和を特徴量の次元数で割った値、すなわち、ヒストグラム特徴のビン毎のHIKの総和の平均値である。また、hmean_maxはヒストグラム特徴のビン毎のHIKの総和の平均値の最大値であり、登録処理を行う時に事前に算出しておいてもよい。SVDDの性質からβはhmeanの信頼度を表し、一方、hmeanは正規分布に従うので、標準正規分布の累積分布関数から信頼度βの信頼区間を算出することができる。そして、信頼区間の上限に特徴量の次元数を乗じた値をmax_hikの推定値とする。
以上の手順により、(6)式から入力された特徴量の信頼度を、第2のHIK算出部121から出力されるHIKの総和と登録データとから算出することができる。なお、登録された顔モデルが複数ある場合には、S703の処理を登録人物毎に人数分繰り返し、夫々の信頼度を得る。
次に、顔識別部106は、複数の個人についての算出部105の出力から顔の識別を行う(S704)。S704の処理の詳細については、以下の図9のフローチャートを参照しながら説明する。
図9は、図7のS704において、顔識別部106が入力された顔画像の人物を識別する詳細な処理手順の一例を示すフローチャートである。
まず、算出部105により算出された人物毎の信頼度のうち、信頼度が所定値以上であるものを抽出する(S901)。そして、抽出した信頼度が所定値以上のもののうち、最も高い信頼度を持つ人物を認識結果とする(S902)。なお、信頼度が所定値以上のものが存在しない場合には、登録人物ではないという認識結果とする。また、信頼度が所定値以上の人物が複数存在した場合に、それら複数の人物を認識結果として、それぞれの信頼度とともに出力したり、信頼度順にソートして出力することもできる。
以上説明したように本実施形態では、入力された顔画像から得られた特徴量と登録された顔画像から得られた特徴量の境界サンプルとから入力された顔画像に係る人物が登録人物である信頼度を算出するようにしている。このとき、複数の登録人物について信頼度を夫々算出して顔認識結果を得るようにしている。さらに本実施形態では、夫々の顔画像からヒストグラム特徴を抽出するようにし、HIKで信頼度を求めるようにしたので安定した信頼度を得ることができる。
なお、本実施形態では、図8のS802において境界サンプルとのHIKを(5)式にて随時算出するようにしたが、非特許文献5に記載されている方法によって処理をより高速化することも可能である。この場合、図5に示した手順により求めた境界サンプルとパラメータとからヒストグラムインターセクションの取りうる最大値を事前に算出してソーティングしたテーブルを作成する。そして、図8のS802において(5)式の代わりにテーブルを利用した近似計算を行うようにする。
また、本実施形態において得られた顔識別部106の識別結果を登録部103にフィードバックして、より高精度な顔モデルを得ることができる。この場合、識別結果に対応した人物の訓練サンプルに入力サンプルを追加してS203の処理を行い、顔モデルを更新すればよい。このとき、入力サンプルの超球の中心からの距離Rzが、対応する人物の境界サンプルにより表すことができる超球の半径Rより小さい場合は入力サンプルが超球の内側に位置するので顔モデルを更新する必要はない。また、入力サンプル及び境界サンプルのHIKの値については、照合処理時にS802で求めた結果を再利用し、図5のS502で境界サンプルを判別することにより更新処理を効率よく行うことができる。
また、本実施形態では、ヒストグラム特徴同士のHIKを算出して境界サンプルの判別を行い、入力サンプルの信頼度を算出したが、その他のカーネル関数を用いるようにしてもよい。非特許文献6に示すように、HIKはヒストグラム特徴のビン毎に算出した所定の正定値関数の和として表現可能な関数であるadditive kernelの一種であり、HIKの代わりにadditive kernelならば適用可能である。そのようなカーネル関数として、例えば、カイ自乗カーネル、Hellinger's kernelがある。その場合、第1のHIK算出部112及び第2のHIK算出部121の代わりに代用するカーネル関数を算出するようにする。また、その場合には、非特許文献6に記載された方法によって処理をより高速化することが可能である。
本実施形態では、顔全体から一つの特徴量を抽出して認識処理を行うようにしたが、顔画像から目、口、鼻といった特徴的な部分領域を抽出し、夫々の領域において入力された特徴量の信頼度を(6)式によって算出するようにしてもよい。この場合、求めた結果を統合してS704において顔の識別を行うようにする。顔全体から特徴量を抽出して認識を行う場合に比べ、顔の向きや表情、隠れによって生じる顔の見えの変化に対して、よりロバストな顔認識を行うことができる。
本発明の本質は、登録サンプルが少ない場合において境界サンプルを用いて識別処理をより高精度に行うこと、その場合に安定した信頼度を与えること、にある。したがって、本発明を顔の個人識別に適用する実施形態について説明したが、本発明は顔の認識だけでなく他の物体の認識に対しても適用可能である。
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。また、当該プログラムを記憶したコンピュータ読み取り可能な記憶媒体も本発明に含まれる。
101 顔画像取得部
102 特徴抽出部
103 登録部
104 顔モデル記憶部
105 算出部
106 顔識別部

Claims (8)

  1. 物体画像を取得する取得手段と、
    前記取得手段によって取得された物体画像から特徴量を抽出する特徴抽出手段と、
    複数のクラスの各クラスについて、前記特徴抽出手段によって該クラスの物体を含む複数の物体画像から抽出されたそれぞれの特徴量を当該クラスの訓練サンプルの集合とし、訓練サンプルの集合を包含する領域の境界付近に存在する複数の訓練サンプルのそれぞれ前記クラスの境界サンプルと判別して、該境界サンプルと当該境界サンプルのそれぞれに対するパラメータとを前記クラスのモデルとして登録する登録手段と、
    前記複数のクラスの各クラスについて、前記取得手段により取得された認識対象の物体画像から前記特徴抽出手段により抽出された特徴量と、当該クラスのモデルとして登録された各境界サンプルとの所定のカーネル関数値を求め、当該各境界サンプルに対する前記カーネル関数値及びパラメータ基づいて、前記認識対象の物体画像に対して、クラスごと信頼度を算出する算出手段と、
    前記算出手段により算出されたクラスごとの信頼度に基づいて、前記認識対象の物体画像の認識結果を出力する識別手段とを備えたことを特徴とする画像認識装置。
  2. 前記クラスは、SVDD(Support Vector Data Description)により定義された超球であることを特徴とする請求項1に記載の画像認識装置。
  3. 前記特徴抽出手段は、前記特徴量として前記物体画像から正規化したヒストグラム特徴を抽出し、
    前記登録手段は、前記ヒストグラム特徴のビン毎に算出した所定の正定値関数の和として表現可能なカーネル関数を算出することにより前記訓練サンプルの集合を包含する超球の境界付近に存在する訓練サンプルを境界サンプルと判別し、
    前記算出手段は、前記各クラスについて、前記認識対象の物体画像から抽出されたヒストグラム特徴と、当該クラスのモデルとして登録された各境界サンプルとの前記所定のカーネル関数値と当該各境界サンプルに対するパラメータとを用いて前記クラスごとの信頼度を算出することを特徴とする請求項2に記載の画像認識装置。
  4. 前記取得手段は、動画像を構成するフレームから物体画像を取得し、
    前記登録手段は、前記動画像を構成するそれぞれのフレームにおける同一の物体を対象とした訓練サンプルを登録することを特徴とする請求項1〜3の何れか1項に記載の画像認識装置。
  5. 前記物体画像は、人物の顔画像であることを特徴とする請求項1〜4の何れか1項に記載の画像認識装置。
  6. 物体画像を取得する取得工程と、
    前記取得工程において取得された物体画像から特徴量を抽出する特徴抽出工程と、
    複数のクラスの各クラスについて、前記特徴抽出工程において該クラスの物体を含む複数の物体画像から抽出されたそれぞれの特徴量を当該クラスの訓練サンプルの集合とし、訓練サンプルの集合を包含する領域の境界付近に存在する複数の訓練サンプルのそれぞれ前記クラスの境界サンプルと判別して、該境界サンプルと当該境界サンプルのそれぞれに対するパラメータとを前記クラスのモデルとして登録する登録工程と、
    前記複数のクラスの各クラスについて、前記取得工程において取得された認識対象の物体画像から前記特徴抽出工程において抽出された特徴量と、当該クラスのモデルとして登録された各境界サンプルとの所定のカーネル関数値を求め、当該各境界サンプルに対する前記カーネル関数値及びパラメータ基づいて、前記認識対象の物体画像に対して、クラスごと信頼度を算出する算出工程と、
    前記算出工程において算出されたクラスごとの信頼度に基づいて、前記認識対象の物体画像の認識結果を出力する識別工程とを備えたことを特徴とする画像認識方法。
  7. 物体画像を取得する取得工程と、
    前記取得工程において取得された物体画像から特徴量を抽出する特徴抽出工程と、
    複数のクラスの各クラスについて、前記特徴抽出工程において該クラスの物体を含む複数の物体画像から抽出されたそれぞれの特徴量を当該クラスの訓練サンプルの集合とし、訓練サンプルの集合を包含する領域の境界付近に存在する複数の訓練サンプルのそれぞれ前記クラスの境界サンプルと判別して、該境界サンプルと当該境界サンプルのそれぞれに対するパラメータとを前記クラスのモデルとして登録する登録工程と、
    前記複数のクラスの各クラスについて、前記取得工程において取得された認識対象の物体画像から前記特徴抽出工程において抽出された特徴量と、当該クラスのモデルとして登録された各境界サンプルとの所定のカーネル関数値を求め、当該各境界サンプルに対する前記カーネル関数値及びパラメータ基づいて、前記認識対象の物体画像に対して、クラスごと信頼度を算出する算出工程と、
    前記算出工程において算出されたクラスごとの信頼度に基づいて、前記認識対象の物体画像の認識結果を出力する識別工程とをコンピュータに実行させることを特徴とするプログラム。
  8. 請求項7に記載のプログラムを記憶したことを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2012183456A 2012-08-22 2012-08-22 画像認識装置及び画像認識方法 Expired - Fee Related JP6112801B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012183456A JP6112801B2 (ja) 2012-08-22 2012-08-22 画像認識装置及び画像認識方法
US13/967,044 US9489566B2 (en) 2012-08-22 2013-08-14 Image recognition apparatus and image recognition method for identifying object

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012183456A JP6112801B2 (ja) 2012-08-22 2012-08-22 画像認識装置及び画像認識方法

Publications (2)

Publication Number Publication Date
JP2014041477A JP2014041477A (ja) 2014-03-06
JP6112801B2 true JP6112801B2 (ja) 2017-04-12

Family

ID=50393687

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012183456A Expired - Fee Related JP6112801B2 (ja) 2012-08-22 2012-08-22 画像認識装置及び画像認識方法

Country Status (2)

Country Link
US (1) US9489566B2 (ja)
JP (1) JP6112801B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015225410A (ja) * 2014-05-26 2015-12-14 株式会社東芝 認識装置、方法及びプログラム
CN104134058B (zh) * 2014-07-21 2017-07-11 成都万维图新信息技术有限公司 一种人脸图像处理方法
CN105426811B (zh) * 2015-09-28 2019-03-15 高新兴科技集团股份有限公司 一种人群异常行为与人群密度识别方法
JP6841232B2 (ja) * 2015-12-18 2021-03-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10621419B2 (en) * 2016-12-06 2020-04-14 Robert William Kocher Method and system for increasing biometric acceptance rates and reducing false accept rates and false rates
CN107247968A (zh) * 2017-07-24 2017-10-13 东北林业大学 基于核熵成分分析失衡数据下物流设备异常检测方法
CN109145723A (zh) * 2018-07-09 2019-01-04 长江大学 一种印章识别方法、系统、终端装置及存储介质
KR102355779B1 (ko) * 2019-01-08 2022-01-25 주식회사 케이티 얼굴 인식을 위한 얼굴 사진 등록 방법, 얼굴 인식 방법 및 서버
US11537653B2 (en) 2019-01-16 2022-12-27 International Business Machines Corporation Automated personalized identifier switching in view of closeness
WO2021027440A1 (zh) * 2019-08-15 2021-02-18 华为技术有限公司 一种人脸检索方法及装置
CN110701487B (zh) * 2019-09-18 2021-08-24 浙江工业大学 一种基于KPCA和Cas-SVDD的多工况管道泄漏检测方法
CN115937556A (zh) * 2021-09-30 2023-04-07 腾讯科技(深圳)有限公司 对象识别方法、装置、设备和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3621245B2 (ja) 1997-12-12 2005-02-16 株式会社東芝 人物認識装置、人物認識方法、および、人物認識プログラムの記録媒体
KR100456619B1 (ko) * 2001-12-05 2004-11-10 한국전자통신연구원 에스.브이.엠(svm)을 이용한 얼굴 등록/인증 시스템 및방법
US20060274949A1 (en) * 2005-06-02 2006-12-07 Eastman Kodak Company Using photographer identity to classify images
EP1910977B1 (en) * 2005-07-29 2016-11-30 Telecom Italia S.p.A. Automatic biometric identification based on face recognition and support vector machines
US8494238B2 (en) * 2007-12-21 2013-07-23 Siemens Medical Solutions Usa, Inc. Redundant spatial ensemble for computer-aided detection and image understanding
WO2009117607A1 (en) * 2008-03-19 2009-09-24 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for automatically classifying face images
US8351662B2 (en) * 2010-09-16 2013-01-08 Seiko Epson Corporation System and method for face verification using video sequence

Also Published As

Publication number Publication date
JP2014041477A (ja) 2014-03-06
US20140140583A1 (en) 2014-05-22
US9489566B2 (en) 2016-11-08

Similar Documents

Publication Publication Date Title
JP6112801B2 (ja) 画像認識装置及び画像認識方法
US20230117712A1 (en) Feature density object classification, systems and methods
CN110909651B (zh) 视频主体人物的识别方法、装置、设备及可读存储介质
JP6664163B2 (ja) 画像識別方法、画像識別装置及びプログラム
CN106408037B (zh) 图像识别方法及装置
JP5629803B2 (ja) 画像処理装置、撮像装置、画像処理方法
JP6351240B2 (ja) 画像処理装置、画像処理方法及びプログラム
US8792722B2 (en) Hand gesture detection
JP4743823B2 (ja) 画像処理装置、撮像装置、画像処理方法
JP6351243B2 (ja) 画像処理装置、画像処理方法
CN107918773B (zh) 一种人脸活体检测方法、装置及电子设备
Hebbale et al. Real time COVID-19 facemask detection using deep learning
WO2012046426A1 (ja) 物体検出装置、物体検出方法および物体検出プログラム
CN108509925A (zh) 一种基于视觉词袋模型的行人重识别方法
JP2015197708A (ja) オブジェクト識別装置、オブジェクト識別方法及びプログラム
JP2008251039A (ja) 画像認識システム及びその認識方法並びにプログラム
Cicconet et al. Mirror symmetry histograms for capturing geometric properties in images
JP2013218605A (ja) 画像認識装置、画像認識方法及びプログラム
CN113255557A (zh) 一种基于深度学习的视频人群情绪分析方法及系统
Kulkarni et al. Real time face recognition using LBP features
Ansari Hand Gesture Recognition using fusion of SIFT and HoG with SVM as a Classifier
JP2017084006A (ja) 画像処理装置およびその方法
CN114445916A (zh) 一种活体检测方法、终端设备及存储介质
Shukla et al. Deep Learning Model to Identify Hide Images using CNN Algorithm
Geetha et al. 3D face recognition using Hadoop

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150824

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170314

R151 Written notification of patent or utility model registration

Ref document number: 6112801

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees