JP2014199505A

JP2014199505A - 画像認識装置、画像認識方法及びプログラム

Info

Publication number: JP2014199505A
Application number: JP2013073935A
Authority: JP
Inventors: 敦夫野本; Atsuo Nomoto; 矢野　光太郎; Kotaro Yano; 光太郎矢野
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-03-29
Filing date: 2013-03-29
Publication date: 2014-10-23

Abstract

【課題】様々な物体を識別する際に正確に認識できるようにするとともに、計算量を抑制できるようにする。【解決手段】まず、取得した顔画像データからＬＢＰ画像特徴量を抽出する。そして、赤ちゃんかそれ以外の人物かを判定するためのＬＢＰヒストグラム特徴量をＬＢＰ画像特徴量から生成する。次に、生成したＬＢＰヒストグラム特徴量に基づいて赤ちゃんかそれ以外の人物かを判定し、判定結果に応じて顔特徴点抽出パラメタを選択し、顔特徴点を抽出する。さらに、顔特徴点の位置を元に、ＬＢＰ画像特徴量に対して局所領域を設定し、局所領域を切り出した局所ＬＢＰ画像特徴量を抽出する。そして、抽出した局所ＬＢＰ画像特徴量と、辞書データとを比較することにより類似度を算出する。【選択図】図２

Description

本発明は、特に、正確にかつ計算量を抑制して顔認識を行うために用いて好適な画像認識装置、画像認識方法及びプログラムに関する。

画像データ中の人物の顔を予め辞書に登録された人物と比較することにより個人を識別する顔認識技術が数多く提案されている。顔認識技術の応用先としては、撮影済みの大量の画像データの中から特定の人物を探し出す用途や、デジタルカメラ等の撮影パラメタを人物毎に自動で切り換える用途などがある。これらの用途における画像は実環境下で撮影されるため、顔の向きや障害物のオクルージョンにより、同一人物でも顔の見えに違いが生じる。そのため、顔認識技術は、そうした見えの違いに対して頑健であることが求められる。

実環境の変動に頑健な識別を行う方法としては、例えば、非特許文献１に提案されている。非特許文献１には、目や鼻、口といった人物の顔の特徴的な点（以下、顔特徴点と呼ぶ）を抽出した上で、顔特徴点を基準とした局所領域を設定し、局所領域毎の類似度を算出している。さらに、類似度を高い順に一定割合選択することにより、見えの変化により極端に類似度が下がった局所領域を無視することができる。これにより、見えの違いに対して比較的頑健な顔認識を実現している。

一方で、識別対象の人物の年代の違いも、識別精度を低下させる要因となる。特に、同じ人間でも赤ちゃんと大人とでは顔の見た目が大きく異なるため、大人と同様に赤ちゃんも正確に識別できる顔認識技術が求められる。赤ちゃんを顔認識する方法が、例えば特許文献１に開示されている。この方法では、人物を辞書に登録する際に、ユーザにその人物の生年月日を入力させることによって、辞書に登録された人物のうち誰が赤ちゃんであるかを事前に明らかにしておくものである。事前に赤ちゃんの識別であるか否かがわかると、顔認識方法を赤ちゃん用に特化したものに切り替えることができる。

また、特許文献２には、顔画像が赤ちゃんか否かについて、ピクセル差分特徴量（画像特徴量）から判定を行い、判定結果に応じて顔認識のパラメタを切り換え、ガボア・フィルタを用いた顔認識を行う方法が提案されている。これにより、入力顔画像が赤ちゃんであった場合においても、自動で赤ちゃんに適したパラメタに切り替えることができるため、精度よく顔認識を行うことができる。

さらに特許文献３には、赤ちゃんか否かを顔特徴点の配置から判定する方法が提案されている。大人と比較して、赤ちゃんの顔特徴点は、縦方向に圧縮したような配置になっており、この方法ではこの違いから赤ちゃんか否かを判定している。非特許文献１に記載の方法のように顔特徴点を用いて顔認識を行う場合には、顔認識とともに赤ちゃん判定を行うことができるため、処理量を軽減することができる。

特開２０１０−１７１８４２号公報特開２０１０−６１４６５号公報特開２０１１−７０６２３号公報特開２００９−２１１１７７号公報

"ＬｅａｒｎｉｎｇＰａｔｃｈＣｏｒｒｅｓｐｏｎｄｅｎｃｅｓｆｏｒＩｍｐｒｏｖｅｄＶｉｅｗｐｏｉｎｔＩｎｖａｒｉａｎｔＦａｃｅＲｅｃｏｇｎｉｔｉｏｎ"，Ａ．Ｂ．Ａｓｈｒａｆ，Ｓ．Ｌｕｃｅｙ，Ｔ．Ｃｈｅｎ，ＣａｒｎｅｇｉｅＭｅｌｌｏｎＵｎｉｖｅｒｓｉｔｙ，ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），Ｊｕｎｅ，２００８．Ｐ．ＶｉｏｌａａｎｄＭ．Ｊｏｎｅｓ， "Ｒｏｂｕｓｔｒｅａｌ−ｔｉｍｅｆａｃｅｄｅｔｅｃｔｉｏｎ"，ＩｎｐａｇｅＩＩ：７４７，２００１．Ｎ．ＤａｌａｌａｎｄＢ．Ｔｒｉｇｇｓ．Ｈｉｓｔｏｇｒａｍｓｏｆｏｒｉｅｎｔｅｄｇｒａｄｉｅｎｔｓｆｏｒｈｕｍａｎｄｅｔｅｃｔｉｏｎ．ＣｏｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），２００５．

しかしながら、従来の方法では、実環境で撮影された人物を識別する際に、識別精度を高めようとすると計算量が増大する、という問題がある。非特許文献１に記載の方法では、赤ちゃんの顔画像が入力された場合の明示的処理がないため、赤ちゃんの顔画像が入力された際に識別精度が低下する。特に、顔特徴点を利用するこの手法は、赤ちゃんと大人との間の顔特徴点の配置の違いから、精度低下の度合いが大きい。

一方、特許文献１に記載の方法は、ユーザが生年月日を手動で入力する必要があり、顔画像から装置側で赤ちゃんを判定することができない。また、特許文献２に記載の方法は、赤ちゃん判定と顔認識とで別の特徴量を使用するため、特徴量を抽出するのに計算量が大きくなってしまう問題がある。さらに特許文献３に記載の方法は、顔特徴点の配置だけでは、赤ちゃんなのか、大人の顔向きがチルトしているのか区別することが困難であるため、精度よく赤ちゃん判定をすることができない。

本発明は前述の問題点に鑑み、様々な物体を識別する際に正確に認識できるようにするとともに、計算量を抑制できるようにすることを目的としている。

本発明の画像認識装置は、物体画像を取得する取得手段と、前記取得手段によって取得された物体画像から第一特徴量を抽出する第一特徴抽出手段と、前記第一特徴抽出手段によって抽出された第一特徴量を用いて前記物体画像の属性を判定する判定手段と、前記判定手段によって判定された属性に応じたパラメタを選択し、前記物体画像の特徴点を抽出する特徴点抽出手段と、前記第一特徴量から、前記特徴点抽出手段によって抽出された特徴点に基づく第二特徴量を抽出する第二特徴抽出手段と、前記第二特徴抽出手段によって抽出された第二特徴量と予め登録されている辞書データとを比較して類似度を算出する算出手段とを有することを特徴とする。

本発明によれば、高精度に物体を認識することができ、かつ計算量を大幅に軽減することができる。

本発明の実施形態における画像認識装置のハードウェア構成例を示すブロック図である。本発明の第１の実施形態における画像認識装置の制御プログラムによる機能構成例を示すブロック図である。本発明の第１の実施形態の画像認識装置による全体的な処理手順の一例を示すフローチャートある。図３のＳ３０３において、第一特徴量を抽出する詳細な処理手順の一例を示すフローチャートである。ＬＢＰ画像特徴量を抽出するための注目画素とその周辺画素との関係を表わした模式図である。図３のＳ３０４において、属性判定用特徴量を生成する詳細な処理手順の一例を示すフローチャートである。ＬＢＰ画像特徴量からＬＢＰヒストグラム特徴量を抽出する際の処理の概要を示した模式図である。、図３のＳ３０８において第二特徴量を抽出する詳細の処理手順の一例を示すフローチャートである。図３のＳ３１１において、類似度を算出して認識結果を生成する詳細な処理手順の一例を示すフローチャートである。本発明の第３の実施形態における画像認識装置の制御プログラムによる機能構成例を示すブロック図である。本発明の第３の実施形態の画像認識装置による全体的な処理手順の一例を示すフローチャートある。図１１のＳ１１０３において、類似度を算出して認識結果を生成する詳細な処理手順の一例を示すフローチャートである。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。
（第１の実施形態）
＜ハードウェア構成＞
図１は、本実施形態における画像認識装置１０のハードウェア構成例を示すブロック図である。
図１に示すように、本実施形態における画像認識装置１０は、ＣＰＵ１、ＲＯＭ２、ＲＡＭ３、２次記憶装置４、撮像素子５、信号処理装置６、外部出力装置７、及び接続バス８を備えている。

ＣＰＵ１は、ＲＯＭ２やＲＡＭ３に格納された制御プログラムを実行することにより、画像認識装置１０全体の制御を行う。ＲＯＭ２は、不揮発性メモリであり、制御プログラムや各種パラメタを記憶する。制御プログラムは、ＣＰＵ１で実行され、後述する各処理を実行するための手段として、当該装置を機能させる。ＲＡＭ３は、揮発性メモリであり、画像データや制御プログラムおよびその実行結果を一時的に記憶する。２次記憶装置４は、ハードディスクやフラッシュメモリーなどの書き換え可能な２次記憶装置であり、画像情報や制御プログラム、各種設定内容などを記憶する。これらの情報はＲＡＭ３に出力され、ＣＰＵ１がプログラムの実行に利用する。

撮像素子５は、ＣＣＤセンサやＣＭＯＳセンサで構成され、被写体像の光を電気信号に変換する。信号処理装置６は、撮像素子５から取得した電気信号を処理し、デジタル信号に変換する信号処理回路である。このデジタル信号は、画像データとして、ＲＡＭ３または２次記憶装置４へ出力される。外部出力装置７は、ＣＲＴやＴＦＴ液晶などのモニタであり、ＲＡＭ３または２次記憶装置４から取得した画像データや制御プログラムの実行結果等を表示する。接続バス８は、これらの構成を接続して相互にデータの入出力を行う。

なお、本実施形態では、後述する処理を、ＣＰＵ１を用いてソフトウェアで実現することとするが、その処理の一部または全部をハードウェアで実現するようにしても構わない。ハードウェアとして専用回路（ＡＳＩＣ）やプロセッサ（リコンフィギュラブルプロセッサ、ＤＳＰ、ＣＰＵ）などを用いることができる。また、本実施形態の画像認識装置１０は、撮像素子５や信号処理装置６を省いて汎用ＰＣを用いて実現してもよいし、画像認識専用装置として実現するようにしても構わない。また、ネットワークまたは各種記憶媒体を介して取得したソフトウェア（プログラム）をパーソナルコンピュータ等の処理装置（ＣＰＵ、プロセッサ）にて実行してもよい。

図２は、本実施形態における画像認識装置１０の制御プログラムによる機能構成例を示すブロック図である。
図２に示すように、本実施形態の画像認識装置１０は、顔画像取得部２０１、第一特徴抽出部２０２、属性判定用特徴抽出部２０３、属性判定用特徴射影部２０４、および属性判定部２０５を備えている。さらに、顔特徴点抽出パラメタ選択部２０６、顔特徴点抽出部２０７、第二特徴抽出部２０８、第二特徴射影部２０９、識別データ生成部２１０、辞書データ登録部２１１、属性比較部２１２、類似度算出部２１３、および認識結果出力部２１４を備えている。

顔画像取得部２０１は、ＲＡＭ３または２次記憶装置４から画像データを取得し、その画像中から切り出した物体画像データ（顔画像データ）を、第一特徴抽出部２０２および顔特徴点抽出部２０７へ出力する。第一特徴抽出部２０２は、顔画像取得部２０１から取得した顔画像データから第一特徴量を抽出し、属性判定用特徴抽出部２０３および第二特徴抽出部２０８へ出力する。属性判定用特徴抽出部２０３は、第一特徴抽出部２０２から取得した第一特徴量から属性判定用特徴量を抽出し、属性判定用特徴射影部２０４へ出力する。属性判定用特徴射影部２０４は、属性判定用特徴抽出部２０３から取得した属性判定用特徴量を射影することにより次元圧縮を施す。そして、次元圧縮した属性判定特徴量を属性判定部２０５へ出力する。

属性判定部２０５は、属性判定用特徴射影部２０４から取得した属性判定用特徴量を用いて属性判定を行う。そして、属性判定結果（被写体の属性を表わすラベル）を顔特徴点抽出パラメタ選択部２０６、識別データ生成部２１０、および属性比較部２１２へ出力する。顔特徴点抽出パラメタ選択部２０６は、属性判定部２０５から取得した属性判定結果に対応する顔特徴点抽出パラメタを選択し、顔特徴点抽出部２０７へ出力する。顔特徴点抽出部２０７は、顔特徴点抽出パラメタ選択部２０６から取得した顔特徴点抽出パラメタおよび顔画像取得部２０１から取得した顔画像データを用いて、顔特徴点情報を抽出する。そして、抽出した顔特徴点情報を第二特徴抽出部２０８へ出力する。

第二特徴抽出部２０８は、顔特徴点抽出部２０７から取得した顔特徴点情報および第一特徴抽出部２０２から取得した第一特徴量を用いて第二特徴量を抽出し、第二特徴射影部２０９へ出力する。第二特徴射影部２０９は、第二特徴抽出部２０８から取得した第二特徴量を射影することにより次元圧縮を施す。そして、次元圧縮した第二特徴量を識別データ生成部２１０へ出力する。

識別データ生成部２１０は、属性判定部２０５から取得した属性判定結果と第二特徴射影部２０９とから取得した第二特徴量を関連づけた識別データを生成し、辞書データ登録部２１１および類似度算出部２１３へ出力する。辞書データ登録部２１１は、識別データ生成部２１０から取得した識別データを辞書データとして登録（記憶）する。そして、辞書データを属性比較部２１２および類似度算出部２１３へ出力する。

属性比較部２１２は、属性判定部２０５から取得した属性判定結果および辞書データ登録部２１１から取得した辞書データそれぞれの属性判定結果を比較し、比較結果を認識結果出力部２１４へ出力する。類似度算出部２１３は、識別データ生成部２１０から取得した識別データと辞書データ登録部２１１から取得した辞書データそれぞれの第二特徴量から類似度を算出し、認識結果出力部２１４へ出力する。認識結果出力部２１４は、属性比較部２１２から取得した比較結果および類似度算出部２１３から取得した類似度から認識結果を生成し、ＲＡＭ３または外部出力装置７へ出力する。

＜全体フロー＞
図３は、本実施形態の画像認識装置１０による全体的な処理手順の一例を示すフローチャートある。図３を参照しながら、画像データ中の物体を識別する実際の処理について具体的に説明する。
まず、顔画像取得部２０１は、ＲＡＭ３または２次記憶装置４から画像データを取得する（Ｓ３００）。

続いて、顔画像取得部２０１は、取得した画像データから人物の顔を検出する（Ｓ３０１）。画像中から人物の顔を検出する方法については、公知の技術を用いればよい。例えば、非特許文献２で提案されているような技術を用いることができ、これらの手法を用いて取得した顔位置情報を元に顔領域を切り出した顔画像データを取得する。また、切り出す際には、画像データの水平方向の軸に対して顔の両目をつないだ直線が平行になるよう画像を回転させる面内回転補正処理を施す。さらに、両目をつなぐ線分が顔画像の横幅に占める割合が一定になるよう拡大・縮小を行う顔サイズ正規化処理を施す。

次に、顔画像取得部２０１は、画像データから顔画像データを取得できたか否かを判定する（Ｓ３０２）。この判定の結果、人物の顔が１つも検出されず、顔画像データが１枚も取得できなかった場合（Ｓ３０２でＮｏ）は、全体の処理を終了する。一方、顔画像データを１つ以上取得できた場合（Ｓ３０２でＹｅｓ）は、第一特徴抽出部２０２は、顔画像データから第一特徴量を抽出する（Ｓ３０３）。第一特徴量を抽出する処理の詳細については後述する。続いて、属性判定用特徴抽出部２０３および属性判定用特徴射影部２０４は、第一特徴量から属性判定用特徴量を生成する（Ｓ３０４）。属性判定用特徴量を生成する処理の詳細については後述する。

続いて、属性判定部２０５は、属性判定用特徴量を用いて顔属性を判定する（Ｓ３０５）。本実施形態では、人物の顔が赤ちゃんか否かの判定処理を行う場合について説明するが、この他の属性についての判定処理を行ってもよい。また、例えば、赤ちゃん、青年、老人のように複数の属性の何れであるかを判定するようにしてもよい。また、属性判定にはＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（ＳＶＭ）を用いる。ＳＶＭはラベルの異なる学習データ群間のマージンが最大となるよう超平面を学習することにより、汎化誤差の少ない識別を実現しており、様々な撮影条件における顔画像データに対しても頑健な識別が期待できる。

属性判定部２０５は、ＳＶＭに属性判定用特徴量を入力することにより、属性判定結果を得る。なお、ＳＶＭは事前に大量の赤ちゃんの顔画像と赤ちゃん以外の人物の顔画像とを用いて学習しておく。ＳＶＭの他に、ニューラルネットワーク等の手法を用いて属性判定してもよい。

続いて、顔特徴点抽出パラメタ選択部２０６は、属性判定結果に応じた顔特徴点抽出パラメタを選択する（Ｓ３０６）。このパラメタは、次の顔特徴点抽出処理（Ｓ３０７）で使用されるパラメタである。なお、顔特徴点の抽出とは、目、鼻といった顔器官の画像上の座標情報を取得する処理を指す。パラメタは事前に赤ちゃんの顔特徴点抽出用と赤ちゃん以外の人物の顔特徴点抽出用とを用意しておき、その何れかを選択する。一般に、大人は赤ちゃんよりも面長の顔であるため、顔特徴点の配置が縦方向に広がる傾向がある。そのため、顔特徴点抽出パラメタを大人と赤ちゃんとで共用すると高精度に顔特徴点を抽出することが難しい。そこで、それぞれの属性毎に、顔特徴点抽出のパラメタを切り換えることにより、高精度に顔特徴点を抽出することができる。本実施形態では、赤ちゃんと大人とで同じパラメタを使うと精度が低下するため、属性に応じたパラメタを用意したが、属性間で精度が大差ないならば一つのパラメタで共用してもよい。例えば、男性、女性で属性判定をした場合、男性と女性とで顔特徴点の配置に大きな違いはないと考えられるので、両属性で一つの顔特徴点抽出パラメタを用いるようにしてもよい。

続いて、顔特徴点抽出部２０７は、前述の選択された顔特徴点抽出パラメタと顔画像データとから顔特徴点を抽出する（Ｓ３０７）。顔特徴点として、目、鼻、口といった個人の特徴をよく表わす器官を主に抽出するが、頬や顔の輪郭上の点を抽出するようにしてもよい。顔特徴点を抽出する方法については、公知の技術を用いればよく、例えば、特許文献４で提案されているような技術を用いることができる。

続いて、第二特徴抽出部２０８は、抽出した顔特徴点と第一特徴量とを元に第二特徴量を抽出し、後段の第二特徴射影部２０９は次元圧縮を施す（Ｓ３０８）。第二特徴量を抽出する処理の詳細については後述する。続いて、識別データ生成部２１０は、属性判定部２０５から取得した属性判定結果と第二特徴射影部２０９から取得した第二特徴量とを関連付けた識別データを生成する（Ｓ３０９）。

続いて、識別データ生成部２１０は、生成した識別データを登録するか否かを判定する（Ｓ３１０）。この判定の結果、識別データを登録する場合（Ｓ３１０でＹｅｓ）は、辞書データ登録部２１１に識別データを登録する（Ｓ３１４）。ここで、登録とは、具体的には、識別データを辞書データとして記憶しておく処理を指す。一方、識別データを登録しない場合（Ｓ３１０でＮｏ）は、次のＳ３１１の類似度算出処理に進む。

続いて、類似度算出部２１３は、類似度を算出し、認識結果出力部２１４は、類似度または属性比較結果に応じて認識結果を生成する（Ｓ３１１）。この処理の詳細については後述する。次に、検出した全ての顔画像データに対して処理が終了したか否かを判定する（Ｓ３１２）。この判定の結果、まだ処理が完了していない顔画像データがある場合（Ｓ３１２でＮｏ）は、Ｓ３０３に戻り、残りの顔画像データに対して処理を続ける。一方、すべての顔画像データに対して処理が完了した場合（Ｓ３１２でＹｅｓ）は、次の結果出力処理（Ｓ３１３）へ進む。

認識結果出力部２１４は、外部出力装置７へ、認識結果を対応する顔画像データに重畳表示し、属性比較部２１２から取得した比較結果が一致しない場合（識別データと辞書データとで属性が異なる場合）、属性が異なる旨を示す表示を行う（Ｓ３１３）。

＜第一特徴抽出処理＞
次に、第一特徴量を抽出する処理について説明する。図４は、図３のＳ３０３において、第一特徴抽出部２０２が第一特徴量を抽出する詳細な処理手順の一例を示すフローチャートである。
まず、顔画像取得部２０１から顔画像データを取得する（Ｓ４０１）。続いて、取得した顔画像データから第一特徴量を抽出する（Ｓ４０２）。本実施形態では、ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ（ＬＢＰ）画像特徴量を抽出するが、その他公知の特徴量を用いてもよい。ＬＢＰ画像特徴量は、隣り合う画素値の大小関係をコード化した特徴量である。画素間の大小関係のみに着目するため、画像の全体的な照明変化に頑健な特徴量として知られている。そのため、様々な照明条件が想定される顔画像の識別等に適している。ＬＢＰ画像特徴量の具体的な抽出方法については以下に説明する。

図５は、ＬＢＰ画像特徴量を抽出するための注目画素とその周辺画素との関係を表わした模式図である。注目画素ｇ_cの輝度値をＩ_cとし、周辺ｐ番目の画素ｇ_pの輝度値をＩ_pとする。図５に示すように、着目画素ｇ_cの真上がｇ₁、右上がｇ₂となり、時計周りにｇ₈まで続いている。このとき、着目画素ｇ_cにおけるＬＢＰコード値ＬＢＰ_cは、以下の式（１）により算出される。

ただし、ｐはＬＢＰコードのビット数を示しており、この例ではｐ＝８である。式（１）は、注目画素とその周辺８画素の差分が０以上ならば１、０より小さければ０を当てはめ、数値を連結した時のコードを８ビットの数値として扱うものである。このＬＢＰコード値ＬＢＰ_cをＬＢＰ画像特徴量と呼び、本実施形態における第一特徴量とする。

次に、抽出した第一特徴量（ＬＢＰ画像特徴量）は第二特徴量を抽出する処理で使用されるため、第一特徴抽出部２０２は、この値を保持しておく（Ｓ４０３）。

＜属性判定用特徴生成処理＞
次に、図３のＳ３０４における属性判定用特徴生成処理について説明する。図６は、図３のＳ３０４において、属性判定用特徴量を生成する詳細な処理手順の一例を示すフローチャートである。
まず、属性判定用特徴抽出部２０３は、第一特徴抽出部２０２から第一特徴量を取得する（Ｓ６０１）。続いて、属性判定用特徴抽出部２０３は、取得した第一特徴量から属性判定用特徴量を抽出する（Ｓ６０２）。本実施形態では、ＬＢＰ画像特徴量からＬＢＰヒストグラム特徴量を生成する。

図７は、ＬＢＰ画像特徴量からＬＢＰヒストグラム特徴量を抽出する際の処理の概要を示した模式図である。
図７に示すように、まず、ＬＢＰ画像特徴量を画像の局所ブロックに分割し、局所ブロック毎にヒストグラムを生成する。この局所ブロック毎のヒストグラムを連結したものがＬＢＰヒストグラム特徴量である。ＬＢＰヒストグラム特徴量は、前述のＬＢＰ画像特徴量の性質に加え、画像の局所ブロック毎にヒストグラム化することにより位置ずれに対してある程度頑健な性質を持っており、顔画像の属性判定等に適している。赤ちゃんの顔画像を判定する場合、一般に赤ちゃんは大人に比べ、肌のテクスチャが一様な傾向があるため、照明の影響を受けやすい。他にも、目が大きく、表情変化が豊かである等の特徴があり、ＬＢＰヒストグラム特徴量はそれらの特徴を捉えるのに適した特徴量である。

続いて、属性判定用特徴射影部２０４は、抽出した属性判定用特徴量を、事前に用意した射影行列を用いて射影することし、次元圧縮を施す（Ｓ６０３）。なお、射影に用いる射影行列は、学習データ（大量の顔画像データ）から事前に計算しておくものとする。計算には主成分分析（ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ、ＰＣＡ）を用い、属性判定用特徴量ベクトルＸを以下の式（２）より算出する。

ここで、Ｔは転置を表し、ｘはＬＢＰ画像特徴量の構成要素成分を表し、ｍは特徴量の次元数を表す。そして、あらかじめ学習しておいた固有区間への射影行列Ｖを以下の式（３）により算出する。

次に、射影特徴をＰとすると、特徴量の射影は以下の式（４）により算出される。

ただし、Ａは学習データの平均ベクトルを表している。主成分分析は、特徴量群の分布を解析して分散最大基準で基底を計算する手法であり、特徴量を元の特徴空間よりも情報的価値（分散最大基準での）が高い空間へ射影することができる。主成分分析により得られた固有空間へ特徴量を射影することにより、学習に用いた画像セットをよりよく表現できるだけでなく、特徴量の次元数を削減する効果も期待できる。次元数を削減する量については、のｎの数値を調整すればよい。本実施形態ではｎを実験的に定めるが、累積寄与率を基に定めてもよい。固有空間の計算方法としては、この他にもＬｏｃａｌｉｔｙＰｒｅｓｅｒｖｉｎｇＰｒｏｊｅｃｔｉｏｎ（ＬＰＰ）を用いてもよい。また、教師付きの固有空間学習方法であるＬｏｃａｌＦｉｓｈｅｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ（ＬＦＤＡ）、などの公知の例を用いてもよい。

＜第二特徴量の抽出処理＞
図８は、図３のＳ３０８において第二特徴量を抽出する詳細の処理手順の一例を示すフローチャートである。
まず、第二特徴抽出部２０８は、第一特徴抽出部２０２から第一特徴量を取得する（Ｓ８０１）。続いて、第二特徴抽出部２０８は、顔特徴点抽出部２０７から顔特徴点の情報を取得する（Ｓ８０２）。

次に、第二特徴抽出部２０８は、顔特徴点の位置を元に、第一特徴量に対して局所領域を設定する（Ｓ８０３）。ここで、局所領域は顔特徴点の位置を基準とした矩形領域である。どの局所領域を用いるかは、顔特徴点を含む局所領域候補を大量に用意し、その中から、あらかじめ学習によって定めておく。

次に、第二特徴抽出部２０８は、第一特徴量に設定した局所領域から第二特徴量を抽出する。（Ｓ８０４）。本実施形態では、第一特徴量（ＬＢＰ画像特徴量）から局所領域を切り出した局所ＬＢＰ画像特徴量を第二特徴量とする。第二特徴量を抽出する際には、局所領域の切り出しのみを行えばよいため、新たに特徴抽出を行うよりも、大幅に計算量を軽減することができる。

次に、第二特徴射影部２０９は、第二特徴量を射影することにより次元圧縮を施す（Ｓ８０５）。第二特徴量は局所領域毎に抽出した特徴量であるから、射影行列は、局所領域毎に用意する。この射影行列は、事前にＰＣＡで算出しておく。第二特徴射影部２０９は、第二特徴量と射影行列を用いて射影する処理をすべての局所領域に対して行い、局所領域毎にユニークなラベルと、それに対応する次元圧縮した第二特徴量とを関連づけて出力する。

＜類似度算出処理＞
図９は、図３のＳ３１１において、類似度を算出して認識結果を生成する詳細な処理手順の一例を示すフローチャートである。
まず、属性比較部２１２は、属性判定部２０５の判定結果と、事前に登録している辞書データの判定結果とを比較する（Ｓ９０１）。そして、両者の判定結果が一致しているか否かを判定する（Ｓ９０２）。

この判定の結果、両者の属性判定結果が一致しない場合（Ｓ９０２がＮｏ）は、類似度０（つまり別人）として扱い、識別結果を出力する処理（Ｓ９０５）へ進む。これは、赤ちゃんと赤ちゃん以外の人物とで常に別人として判定することを意味する。ある赤ちゃんの顔画像と、赤ちゃん以外のある人物の顔画像との両者が同一人物である可能性は十分ありうるが、その場合、赤ちゃん以外のある人物は赤ちゃんから経年変化を起こしており、見た目が大きく変化していることが予想される。赤ちゃんとその赤ちゃんが成長した大人との識別を画像の見た目のみから行うのは人間の目でも困難だと考えられるため、本実施形態では常に別人と判定するようにしている。

一方、両者の属性判定結果が一致した場合（Ｓ９０２がＹｅｓ）、つまり、赤ちゃん同士または赤ちゃん以外の人物同士の場合は、次のＳ９０３に進む。そして、類似度算出部２１３は、識別データ及び辞書データのそれぞれの第二特徴量間の類似度を局所領域毎に算出する（Ｓ９０３）。以後、この局所領域毎に算出した類似度を局所類似度と呼ぶ。局所類似度を算出する方法としては、特徴ベクトル間の内積に基づくコサイン類似度を用いる。すなわち、識別データの第二特徴量をベクトルＶ_I、辞書データの第二特徴量をベクトルＶ_R、ベクトルＶ_IとベクトルＶ_Rとがなす角をθとすると内積Ｖ_I・Ｖ_Rは以下の式（５）で表され、コサイン類似度Ｓは、以下の式（６）で表される。

ただし、｜Ｖ_I｜、｜Ｖ_R｜はそれぞれのベクトルのノルムを表わす。コサイン類似度を用いることにより、類似度の範囲が−１から＋１の間となるため、異なる局所領域で算出された類似度を統合する際に都合がよい。

次に、類似度算出部２１３は、複数の局所類似度から、一つの類似度を算出するための局所類似度統合の処理を行う（Ｓ６０４）。局所類似度を統合する方法としては、局所類似度を高い順に並べ、上位の局所類似度を所定の割合で抽出し、その平均をとる上位ソート方式を用いる。顔向きの変化やオクルージョン等により顔の見えが大幅に変わった場合に、変わった部分の局所類似度は異常に低い値となり、統合時に使用されなくなる。これにより、見えの変化に頑健な識別が期待できる。なお、その他の統合方法を用いてもよい。例えば、識別データ及び辞書データのそれぞれの属性判定結果に応じて統合方法を切り替えるようにしてもよい。また、統合した類似度に対して、属性判定結果に応じた線形変換等を加えてもよい。

最後に、類似度算出部２１３は、統合した類似度を認識結果出力部２１４へ出力し（Ｓ９０５）、処理を終了する。

以上のように本実施形態によれば、属性判定結果に応じた顔特徴点抽出パラメタを選択することにより、顔特徴点を高精度に抽出することができる。そして、顔特徴点を基準に抽出した第二特徴量により正確な顔認識を行うことができる。さらに、ＬＢＰ画像特徴量は、赤ちゃんの顔の判定と顔認識との両方に有効であるので、第一特徴量を属性判定用特徴量と第二特徴量とで共用することにより、別々に特徴量を抽出する場合に比べ、計算量を大幅に軽減している。

（第２の実施形態）
第１の実施形態では第一特徴量としてＬＢＰ画像特徴量を用いる場合について説明した。本実施形態では、他の特徴量を用いる例として、ＨｉｓｔｏｇｒａｍｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔ（ＨＯＧ）特徴量を用いた場合について説明する。なお、本実施形態の画像認識装置の構成については、図１及び図２と同様であるため、説明は省略する。また、画像認識装置１０による全体的な処理手順も基本的には図３と同様であり、第１の実施形態と同じ処理を行う場合は説明を省略し、処理の異なる部分のみを説明する。

第一特徴量を抽出する処理の図４のＳ４０２においては、ＨＯＧ特徴量を抽出する。顔画像において、座標（ｘ，ｙ）の画素（輝度）値をＩ（ｘ，ｙ）と表すと、ｘ方向の輝度勾配ｆ_x（ｘ，ｙ）は以下の式（７）により表される。

また、ｙ方向の輝度勾配ｆ_y（ｘ，ｙ）は以下の式（８）により表される。

そして、これらの輝度勾配から勾配強度ｍ（ｘ，ｙ）は、以下の式（９）により表される。

さらに、勾配方向θ（ｘ，ｙ）は、以下の式（１０）により表される。

本実施形態では、勾配方向の範囲１８０度を２０度毎に９分割したそれぞれの区間をビンとして、勾配方向θ（ｘ，ｙ）の頻度ヒストグラムを画像の所定の矩形領域（セル）毎に作成する。そして、３×３の９個のセルを１ブロックとして、ブロック毎に正規化を行う。正規化は１セルずつずらしながら全領域に対して行い、正規化の度にヒストグラムを連結していく。この処理を画像全体にわたって行って得た連結ヒストグラムがＨＯＧ特徴量である。このように、通常は、ブロック毎の正規化を１セルずつずらしながら行うが、ずらす量を増やすことにより計算量と特徴量の次元数とを軽減してもよい。このＨＯＧ特徴量は、画像中の物体の回転、スケール変化に対しては不変ではないものの、局所的な幾何学的変化や明るさの変化には不変な特徴量として知られている。勾配方向ヒストグラム特徴量についての詳細は非特許文献３に記載されている。以上のように、画像データ全体から抽出したＨＯＧ特徴量を第一特徴量とする。

また、図６のＳ６０２の処理については、本実施形態では、第一特徴量と同じ特徴量を属性判定用特徴量として用いるため、何も処理を行わない。さらに、図８のＳ８０４の処理においては、顔特徴点を基準に設定した局所領域毎にＨＯＧ特徴量を抽出し、これを第二特徴量とする。このようにその他公知の特徴量を用いた場合でも、属性判定と顔認識とで共通の特徴量を使いまわすことができる。

（第３の実施形態）
第１の実施形態では、属性判定の結果が一致した場合、赤ちゃん同士の顔認識を行った。しかし、赤ちゃんと別の赤ちゃんとを見分けることは人間の目でも難しい。そのため、そのようなケースで顔認識を行っても正確な識別は期待できない。そこで、本実施形態では、赤ちゃん同士の顔認識となった場合は、処理を打ち切ることにより処理の高速化を図る。なお、本実施形態の画像認識装置のハードウェア構成については、図１と同様であるため、説明は省略する。

図１０は、本実施形態における画像認識装置１０００の制御プログラムによる機能構成例を示すブロック図である。なお、図２と同じ構成については図２と同じ符号を付しており、図１０のうち、第１の実施形態と機能の異なる属性判定部１００１、識別データ生成部１００２、類似度算出部１００３及び認識結果出力部１００４について説明する。

属性判定部１００１は、属性判定用特徴射影部２０４から取得した属性判定用特徴量を用いて属性判定を行う。そして、属性判定結果を認識結果出力部１００４へ出力する。識別データ生成部１００２は、第二特徴射影部２０９から取得した第二特徴量を用いて識別データを生成する。類似度算出部１００３は、類似度算出処理を行う。認識結果出力部１００４は、属性判定部２０５から取得した属性判定結果および類似度算出部１００３から取得した類似度から認識結果を生成し、ＲＡＭ３または外部出力装置７へ出力する。

図１１は、本実施形態の画像認識装置１０００による全体的な処理手順の一例を示すフローチャートである。図１１に示す処理のうち、第１の実施形態と同じ処理については図３と同じ符号を付しており、その処理の説明については省略する。本実施形態では、図３と異なる部分について説明する。

Ｓ３０５の処理を行うと、属性判定部１００１は、属性が赤ちゃんであるか否かを判定する（Ｓ１１０１）。この判定の結果、属性が赤ちゃんであった場合（Ｓ１１０１がＹｅｓ）は、判定した顔画像に対する処理を終了し、Ｓ３１２へ進む。一方、属性が赤ちゃんではなかった場合（Ｓ１１０１でＮｏ）は、Ｓ３０６へ進み、以降の顔認識の処理を行う。このように、属性判定結果によって処理を分岐する点が、第１の実施形態と異なっている。

Ｓ３０８の処理を行うと、識別データ生成部１００２は、第二特徴量のみを識別データとして生成する（Ｓ１１０２）。本実施形態では、属性が赤ちゃんである場合には識別データを生成しないため、属性判定結果を関連付ける必要がない。

また、生成した識別データを登録しない場合（Ｓ３１０でＮｏ）は、類似度算出部１００３は、識別データ及び辞書データのそれぞれの第二特徴量から類似度を算出する（Ｓ１１０３）。

図１２は、図１１のＳ１１０３において、類似度を算出して認識結果を生成する詳細な処理手順の一例を示すフローチャートである。第１の実施形態において図９に示した手順と比較して、本実施形態では、属性の比較が行われない。したがって、図９のＳ９０３〜Ｓ９０５の処理を行うだけである。これらの処理については説明を省略する。

すべての顔画像データに対して処理が完了した場合は（Ｓ３１２でＹｅｓ）、認識結果出力部１００４は、属性判定結果が赤ちゃんであった場合は、顔画像が赤ちゃんであることを外部出力装置７に表示する。また、赤ちゃんではなかった場合には、類似度が事前に定めた閾値よりも大きい場合は同一人物と判定し、小さい場合は他人であると判定し、対応する顔画像データに重畳表示する（Ｓ１１０４）。

以上のように本実施形態によれば、属性判定結果が赤ちゃんであった場合は、その顔画像に対する処理を打ち切るようにした。これにより、赤ちゃんに対する精度の低い認識結果を出力するよりも、顔認識を行わない旨を出力することにより、出力結果に対する信頼性を高めることができる。さらに、属性判定以降の処理を行わないようにすることにより、処理量を大幅に軽減することができる。

（その他の実施形態）
前述した実施形態においては、属性判定で赤ちゃんか赤ちゃん以外の人物かを判定したが、年代以外の属性を判定してもよい。例えば、顔の向きや表情、性別などの判定においても本件を適用することができる。

また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

２０１顔画像取得部
２０２第一特徴抽出部
２０３属性判定用特徴抽出部
２０４属性判定用特徴射影部
２０５属性判定部
２０６顔特徴点抽出パラメタ選択部
２０７顔特徴点抽出部
２０８第二特徴抽出部
２０９第二特徴射影部
２１０識別データ生成部
２１１辞書データ登録部
２１２属性比較部
２１３類似度算出部
２１４認識結果出力部

Claims

物体画像を取得する取得手段と、
前記取得手段によって取得された物体画像から第一特徴量を抽出する第一特徴抽出手段と、
前記第一特徴抽出手段によって抽出された第一特徴量を用いて前記物体画像の属性を判定する判定手段と、
前記判定手段によって判定された属性に応じたパラメタを選択し、前記物体画像の特徴点を抽出する特徴点抽出手段と、
前記第一特徴量から、前記特徴点抽出手段によって抽出された特徴点に基づく第二特徴量を抽出する第二特徴抽出手段と、
前記第二特徴抽出手段によって抽出された第二特徴量と予め登録されている辞書データとを比較して類似度を算出する算出手段とを有することを特徴とする画像認識装置。
前記第一特徴量は、ＬＢＰ画像特徴量であることを特徴とする請求項１に記載の画像認識装置。
前記算出手段は、前記判定手段によって判定された属性と前記辞書データの属性とが一致した場合に類似度を算出することを特徴とする請求項１又は２に記載の画像認識装置。
前記物体画像は、顔画像であることを特徴とする請求項１から３の何れか１項に記載の画像認識装置。
前記判定手段は、前記顔画像から人物の年代を判定することを特徴とする請求項４に記載の画像認識装置。
前記判定手段により前記顔画像の属性が赤ちゃんであると判定された場合に、前記算出手段は、類似度を算出しないようにすることを特徴とする請求項５に記載の画像認識装置。
物体画像を取得する取得工程と、
前記取得工程において取得された物体画像から第一特徴量を抽出する第一特徴抽出工程と、
前記第一特徴抽出工程において抽出された第一特徴量を用いて前記物体画像の属性を判定する判定工程と、
前記判定工程において判定された属性に応じたパラメタを選択し、前記物体画像の特徴点を抽出する特徴点抽出工程と、
前記第一特徴量から、前記特徴点抽出工程において抽出された特徴点に基づく第二特徴量を抽出する第二特徴抽出工程と、
前記第二特徴抽出工程において抽出された第二特徴量と予め登録されている辞書データとを比較して類似度を算出する算出工程とを有することを特徴とする画像認識方法。
物体画像を取得する取得工程と、
前記取得工程において取得された物体画像から第一特徴量を抽出する第一特徴抽出工程と、
前記第一特徴抽出工程において抽出された第一特徴量を用いて前記物体画像の属性を判定する判定工程と、
前記判定工程において判定された属性に応じたパラメタを選択し、前記物体画像の特徴点を抽出する特徴点抽出工程と、
前記第一特徴量から、前記特徴点抽出工程において抽出された特徴点に基づく第二特徴量を抽出する第二特徴抽出工程と、
前記第二特徴抽出工程において抽出された第二特徴量と予め登録されている辞書データとを比較して類似度を算出する算出工程とコンピュータに実行させることを特徴とするプログラム。