JP2014142800A

JP2014142800A - 特徴量抽出装置、画像検出装置及び制御プログラム並びに特徴量抽出方法

Info

Publication number: JP2014142800A
Application number: JP2013010753A
Authority: JP
Inventors: Taizo Umezaki; 太造梅崎; Hayato Hirota; 隼廣田; Kenta Nishiyuki; 健太西行; Takashi Yamaguchi; 孝志山口; 哲英 ▲高▼曽; Norihide Koso
Original assignee: MegaChips Corp
Current assignee: MegaChips Corp
Priority date: 2013-01-24
Filing date: 2013-01-24
Publication date: 2014-08-07
Anticipated expiration: 2033-01-24
Also published as: JP6276504B2

Abstract

【課題】適切な特徴量を抽出することが可能な技術を提供する。
【解決手段】画像から特徴量を抽出する特徴量抽出装置１３は、評価値取得部１３０及び特徴量取得部１３１を備えている。評価値取得部１３０は、画像に含まれる複数の画素のそれぞれを注目画素とし、当該注目画素の画素値と複数の周囲画素値との関係を示す評価値を求める。特徴量取得部１３１は、評価値取得部１３０で求められた評価値についての共起頻度を求めて、当該共起頻度を特徴量とする。
【選択図】図１０

Description

本発明は、画像から特徴量を抽出する技術に関する。

特許文献１にも記載されているように、従来から、画像から特徴量を抽出する様々な技術が提案されている。また、非特許文献１では、特徴量の抽出で使用されるＬＢＰ（Local Binary Pattern）及びＬＴＰ（Local Ternary Pattern）について説明されている。

特開２０１０−４４４３８号公報

Xiaoyang Tan and Bill Triggs，"Enhanced Local Texture Feature Sets for Face Recognition under Difficult Lighting Conditions"，IEEE Transactions on Imgage processing，Volume 19，Issue 6，pp.1635-1650，June 2010

さて、画像から特徴量を抽出する際には、適切な特徴量を得る必要がある。

そこで、本発明は上述の点に鑑みて成されたものであり、適切な特徴量を得ることが可能な技術を提供することを目的とする。

上記課題を解決するため、本発明に係る特徴量抽出装置の一態様は、画像から特徴量を抽出する特徴量抽出装置であって、前記画像に含まれる複数の画素のそれぞれを注目画素とし、当該注目画素の画素値と複数の周囲画素値との関係を示す評価値を求める評価値取得部と、前記画像に含まれる前記複数の画素について求められた前記評価値についての共起頻度を求めて、当該共起頻度を前記特徴量とする特徴量取得部とを備える。

また、本発明に係る特徴量抽出装置の一態様では、前記特徴量取得部は、前記共起頻度を正規化せずに前記特徴量とする。

また、本発明に係る特徴量抽出装置の一態様では、前記評価値取得部は、前記評価値を求める際には、注目画素に対して斜め方向の周囲画素値は使用しない。

また、本発明に係る特徴量抽出装置の一態様では、前記評価値取得部は、前記評価値を求める際には、注目画素に対して右上、左上、右下及び左下の方向の周囲画素値はすべて使用しない。

また、本発明に係る特徴量抽出装置の一態様では、前記評価値取得部は、前記評価値の取得で使用する複数の周囲画素値のそれぞれについて、当該周囲画素値と注目画素の画素値との関係を示す１ビットを生成し、当該複数の周囲画素値について生成した複数のビットで構成されるバイナリコードを、当該複数のビットを順に見ていった際のビット変化の回数にかかわらず、当該評価値として使用する。

また、本発明に係る特徴量抽出装置の一態様では、前記評価値取得部は、前記評価値の取得で使用する複数の周囲画素値のそれぞれについて、当該周囲画素値と注目画素の画素値との関係を示す１ビットを生成し、当該複数の周囲画素値について生成した複数のビットで構成されるバイナリコードを当該評価値として使用し、前記１ビットは、周囲画素値が、注目画素の画素値から所定量だけ減算して得られる値以下であれば“１”を示し、当該値よりも大きければ“０”を示す。

また、本発明に係る特徴量抽出装置の一態様では、前記評価値取得部は、前記評価値の取得で使用する複数の周囲画素値のそれぞれについて、当該周囲画素値と注目画素の画素値との関係を示す１ビットを生成し、当該複数の周囲画素値について生成した複数のビットで構成されるバイナリコードを当該評価値として使用し、前記１ビットは、周囲画素値が、注目画素の画素値に所定量だけ加算して得られる値以上であれば“１”を示し、当該値未満であれば“０”を示す。

また、本発明に係る特徴量抽出装置の一態様では、前記評価値取得部は、前記評価値の取得で使用する複数の周囲画素値のそれぞれについて、当該周囲画素値と注目画素の画素値との関係を示す１ビットを生成し、当該複数の周囲画素値について生成した複数のビットで構成されるバイナリコードを当該評価値として使用し、前記１ビットは、周囲画素値が、注目画素の画素値以上であれば“１”を示し、注目画素の画素値未満であれば“０”を示す。

また、本発明に係る画像検出装置の一態様は、処理対象画像から検出対象画像を検出する画像検出装置であって、上記の特徴量抽出装置と、前記特徴量抽出装置において、前記処理対象画像に含まれる画像から抽出された特徴量に基づいて、当該画像が前記検出対象画像である可能性が高いかを判定する識別器とを備える。

また、本発明に係る画像検出装置の一態様では、前記検出対象画像は、人の顔画像である。

また、本発明に係る制御プログラムの一態様は、画像から特徴量を抽出する装置を制御するための制御プログラムであって、前記装置に、（ａ）前記画像に含まれる複数の画素のそれぞれを注目画素とし、当該注目画素の画素値と複数の周囲画素値との関係を示す評価値を求める工程と、（ｂ）前記画像に含まれる前記複数の画素について求められた前記評価値についての共起頻度を求めて、当該共起頻度を前記特徴量とする工程とを実行させるためのものである。

また、本発明に係る特徴量抽出方法の一態様は、画像から特徴量を抽出する特徴量抽出方法であって、（ａ）前記画像に含まれる複数の画素のそれぞれを注目画素とし、当該注目画素の画素値と複数の周囲画素値との関係を示す評価値を求める工程と、（ｂ）前記画像に含まれる前記複数の画素について求められた前記評価値についての共起頻度を求めて、当該共起頻度を前記特徴量とする工程とを備える。

本発明によれば、適切な特徴量を得ることができる。

画像処理システムの構成を示す図である。画像検出装置が備える複数の機能ブロックの構成を示す図である。検出部の動作を説明するための図である。検出部の動作を説明するための図である。検出部の動作を説明するための図である。検出部の動作を説明するための図である。検出部の動作を説明するための図である。検出部の動作を説明するための図である。検出結果枠を処理対象画像に重ねて示す図である。特徴量抽出装置の構成を示す図である。評価値取得部の動作を説明するための図である。注目画素値と複数の周囲画素値の一例を示す図である。ＬＢＰの生成方法を説明するための図である。ＬＢＰの生成方法を説明するための図である。処理対象画像の一例を示す図である。ＬＰＢマップ画像の一例を示す図である。ＬＴＰの生成方法を説明するための図である。ポジティブＬＴＰの生成方法を説明するための図である。ネガティブＬＴＰの生成方法を説明するための図である。ポジティブＬＴＰマップ画像の一例を示す図である。ネガティブＬＴＰマップ画像の一例を示す図である。注目画素と複数の周囲画素との間での位置関係を示す図である。注目画素からの距離が“１”である斜め方向の周囲位置での画素値を求める方法を説明するための図である。１次元評価値ヒストグラムの一例を示す図である。複数種類の評価値ペアの一例を示す図である。特徴量取得部の動作を説明するための図である。特徴量取得部の動作を説明するための図である。特徴量取得部の動作を説明するための図である。２次元評価値ヒストグラムの一例を示す図である。出力値マップの生成方法を説明するための図である。出力値マップの生成方法を説明するための図である。本実施の形態に係る出力値マップの一例を示す図である。第１特徴量だけに基づいて生成された出力値マップの一例を示す図である。特徴量取得部の変形例の動作を説明するための図である。特徴量取得部の変形例の動作を説明するための図である。撮像環境が明るい様子を示す図である。撮像環境が暗い様子を示す図である。画像処理システムの変形例の構成を示す図である。画像検出装置の変形例の構成を示す図である。隣接画素間の輝度差についての頻度分布を表す頻度曲線を示す図である。

図１は実施の形態に係る画像検出装置１を備える画像処理システム５０の構成を示す図である。画像処理システム５０は、画像検出装置１と、撮像装置５とを備えている。撮像装置５は、画像を撮像し、撮像画像を示す画像データを画像検出装置１に出力する。画像検出装置１は、入力される画像データが示す撮像画像から検出対象画像を検出する。画像処理システム５０は、例えば、監視カメラシステム、デジタルカメラシステム等で使用される。本実施の形態では、検出対象画像は、例えば人の顔画像である。以後、単に「顔画像」と言えば、人の顔画像を意味するものとする。また、検出対象画像を検出する対象の撮像画像を「処理対象画像」と呼ぶ。なお、検出対象画像は顔画像以外の画像であっても良い。例えば、検出対象画像は人全体の画像であっても良い。

図１に示されるように、画像検出装置１は、ＣＰＵ（Central Processing Unit）２及び記憶部３を備えている。記憶部３は、ＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）等で構成されている。記憶部３には、画像検出装置１の動作を制御するための制御プログラム４等が記憶されている。画像検出装置１の各種機能は、ＣＰＵ２が記憶部３内の制御プログラム４を実行することによって実現される。画像検出装置１では、制御プログラム４が実行されることによって、図２に示されるような複数の機能ブロックが形成される。

図２に示されるように、画像検出装置１は、機能ブロックとして、画像入力部１１と、検出部１２と、出力値マップ生成部１５とを備えている。なお、画像検出装置１が備える各種機能は、機能ブロックではなくハードウェア回路で実現しても良い。

画像入力部１１には、撮像装置５で順次撮像された複数枚の画像をそれぞれ示す複数の画像データが順次入力される。画像入力部１１は、処理対象画像を示す画像データを出力する。画像入力部１１は、撮像装置５で得られる各画像を処理対象画像としても良いし、撮像装置５で得られる画像のうち、数秒毎に得られる画像を処理対象画像としても良い。撮像装置５では、例えば、１秒間にＬ枚（Ｌ≧２）の画像が撮像される。つまり、撮像装置５での撮像フレームレートは、Ｌｆｐｓ(frame per second）である。

また、撮像装置５で撮像される画像では、行方向にＭ個（Ｍ≧２）の画素が並び、列方向にＮ個（Ｎ≧２）の画素が並んでいる。撮像装置５で撮像される画像の解像度は、例えばＶＧＡ（Video Graphics Array）であって、Ｍ＝６４０、Ｎ＝４８０となっている。

なお以後、行方向にｍ個（ｍ≧１）の画素が並び、列方向にｎ個（ｎ≧１）の画素が並ぶ領域の大きさをｍｐ×ｎｐで表す（ｐはピクセルの意味）。また、行列状に配置された複数の値において、左上を基準にして第ｍ行目であって第ｎ列目に位置する値をｍ×ｎ番目の値と呼ぶことがある。また、行列状に配置された複数の画素において、左上を基準にして第ｍ行目であって第ｎ列目に位置する画素をｍ×ｎ番目の画素と呼ぶことがある。

検出部１２は、画像入力部１１から出力される画像データを使用して、処理対象画像に対して顔画像の検出を行う。出力値マップ生成部１５は、検出部１２での検出結果に基づいて、顔画像としての確からしさを示す検出確度値についての処理対象画像での分布を示す出力値マップを生成する。

次に、画像検出装置１の各ブロックの動作について詳細に説明する。

＜検出処理＞
図２に示されるように、検出部１２は、特徴量抽出部１３及び識別器１４を備えている。検出部１２は、検出枠を用いて、処理対象画像において当該検出枠と同じサイズの顔画像である可能性が高い領域を検出結果領域として検出する検出処理を行う。以後、単に「検出処理」と言えば、検出部１２でのこの検出処理を意味する。検出処理については後で詳細に説明する。

検出部１２は、処理対象画像における様々な大きさの顔画像を検出するために、サイズの異なる複数種類の検出枠を使用する。検出部１２では、例えば３０種類の検出枠が使用される。

本実施の形態では、後述するように、特徴量抽出部１３は、画像から特徴量を抽出する。そして、特徴量抽出部１３においては、特徴量を抽出する対象の画像については、基準サイズ（正規化サイズ）の画像を使用する必要がある。

一方で、本実施の形態では、互いにサイズが異なる複数種類の検出枠には、基準サイズと同じサイズの検出枠と、基準サイズとは異なるサイズの検出枠とが含まれている。以後、基準サイズと同じサイズの検出枠を「基準検出枠」と呼び、基準サイズとは異なるサイズの検出枠を「非基準検出枠」と呼ぶ。本実施の形態では、複数種類の検出枠のうちのサイズが最小の検出枠が基準検出枠となっている。したがって、非基準検出枠のサイズは基準サイズよりも大きくなっている。基準検出枠のサイズは、例えば１６ｐ×１６ｐである。また、複数種類の検出枠には、例えば、大きさが１８ｐ×１８ｐの非基準検出枠及び大きさが２０ｐ×２０ｐの非基準検出枠などが含まれている。

本実施の形態では、検出部１２は、処理対象画像について基準検出枠を使用して検出処理を行う際には、処理対象画像に対して基準検出枠を移動させながら、当該基準検出枠内の画像に対して顔画像の検出を行って、当該画像が顔画像である可能性が高いかを判定する。そして、検出部１２は、処理対象画像において、顔画像である可能性が高いと判定した領域（基準検出枠内の画像）を検出結果領域とする。

一方で、検出部１２は、処理対象画像について非基準検出枠を使用して検出処理を行う際には、基準サイズとサイズが一致するように非基準検出枠をサイズ変更する。そして、検出部１２は、非基準検出枠のサイズ変更に応じて処理対象画像のサイズ変更を行う。検出部１２は、サイズ変更を行った処理対象画像に対して、サイズ変更を行った非基準検出枠を移動させながら、当該非基準検出枠内の画像に対して顔画像の検出を行って、当該画像が顔画像である可能性が高いかを判定する。そして、検出部１２は、サイズ変更を行った処理対象画像において、顔画像である可能性が高いと判定した領域（サイズ変更後の非基準検出枠内の画像）に基づいて、サイズ変更が行われていない、本来のサイズの処理対象画像において顔画像である可能性が高い領域を特定し、当該領域を検出結果領域とする。

以後、処理対象画像に対して非基準検出枠が使用されて検出処理が行われる際のサイズ変更後の当該処理対象画像を「サイズ変更画像」と呼ぶ。また、処理対象画像に対して非基準検出枠が使用されて検出処理が行われる際のサイズ変更後の当該非基準検出枠を「サイズ変更検出枠」と呼ぶ。

このように、本実施の形態では、検出部１２が処理対象画像に対して基準検出枠を使用して検出処理を行う際の当該検出部１２の動作と、検出部１２が処理対象画像に対して非基準検出枠を使用して検出処理を行う際の当該検出部１２の動作とが異なっている。以下に検出部１２の動作について詳細に説明する。

検出部１２では、検出処理に基準検出枠が使用される際には、特徴量抽出部１３が、処理対象画像に対して基準検出枠を設定し、当該処理対象画像における当該基準検出枠内の画像から複数の特徴量を抽出する。一方で、検出処理に非基準検出枠が使用される際には、特徴量抽出部１３は、処理対象画像をサイズ変更して得られるサイズ変更画像に対して、非基準検出枠をサイズ変更して得られるサイズ変更検出枠を設定し、当該サイズ変更画像における当該サイズ変更検出枠内の画像から複数の特徴量を抽出する。以後、特徴量が抽出される、基準検出枠内の画像及びサイズ変更検出枠内の画像を総称して「枠内画像」と呼ぶことがある。

ここで、基準検出枠のサイズは基準サイズと一致することから、処理対象画像における基準検出枠内の画像のサイズは基準サイズとなる。また、サイズ変更検出枠のサイズは基準サイズと一致することから、サイズ変更画像におけるサイズ変更検出枠内の画像のサイズは基準サイズとなる。よって、特徴量抽出部１３は、常に基準サイズの画像から特徴量を抽出することができる。なお、特徴量抽出部１３での特徴量の抽出方法については後で詳細に説明する。

識別器１４は、特徴量抽出部１３が枠内画像から抽出した複数の特徴量から成る特徴ベクトルと、学習サンプル（学習用のサンプル画像）に基づいて生成された複数の重み係数から成る重みベクトルとに基づいて、当該枠内画像が顔画像である確からしさを示す実数値を算出する。具体的には、特徴量抽出部１３は、枠内画像についての特徴ベクトルと、重みベクトルとの内積を求め、当該内積に所定のバイアス値を加算して得られる値を、当該枠内画像が顔画像である確からしさを示す実数値とする。以後、顔画像である確からしさを示す実数値を「検出確度値」と呼ぶ。識別器１４で算出される検出確度値は、基準検出枠内の画像あるいはサイズ変更検出枠内の画像についての顔画像らしさ（顔らしさ）を示している。識別器１４では、例えば、ＳＶＭ（Support Vector Machine）あるいはＡｄａｂｏｏｓｔが使用される。

識別器１４は、算出した検出確度値がしきい値以上であれば、枠内画像が顔画像である可能性が高いと判定する。つまり、基準検出枠が使用される際には、識別器１４は、処理対象画像における基準検出枠内の画像が、基準検出枠と同じサイズの顔画像である可能性が高い領域であると判定する。また、非基準検出枠が使用される際には、識別器１４は、サイズ変更画像におけるサイズ変更検出枠内の画像が、サイズ変更検出枠と同じサイズの顔画像である可能性が高い領域であると判定する。

一方で、識別器１４は、算出した検出確度値がしきい未満であれば、枠内画像が顔画像でない可能性が高いと判定する。つまり、基準検出枠が使用される際には、識別器１４は、処理対象画像における基準検出枠内の画像が、基準検出枠と同じサイズの顔画像である可能性が高い領域ではないと判定する。また、非基準検出枠が使用される際には、識別器１４は、サイズ変更画像におけるサイズ変更検出枠内の画像が、サイズ変更検出枠と同じサイズの顔画像である可能性が高い領域ではないと判定する。

識別器１４は、処理対象画像における基準検出枠内の画像が、基準検出枠と同じサイズの顔画像である可能性が高い領域であると判定すると、当該画像を検出結果領域とし、当該基準検出枠を検出結果枠とする。

また識別器１４は、サイズ変更画像におけるサイズ変更検出枠内の画像が、サイズ変更検出枠と同じサイズの顔画像である可能性が高い領域であると判定すると、当該領域の外形枠を仮検出結果枠とする。そして、識別器１４は、仮検出結果枠に基づいて、サイズ変更画像の元の画像である処理対象画像において、非基準検出枠と同じサイズの顔画像である可能性が高い領域を特定し、当該領域を検出結果領域とするとともに、当該検出結果領域の外形枠を最終的な検出結果枠とする。

＜基準検出枠を用いた検出処理＞
次に、検出部１２が処理対象画像に対して基準検出枠を移動させながら、当該基準検出枠内の画像が顔画像である可能性が高いかを判定する際の当該検出部１２の一連の動作について説明する。図３〜６は、検出部１２の当該動作を説明するための図である。検出部１２は、基準検出枠をラスタスキャンさせながら、当該基準検出枠内の画像に対して顔画像の検出を行う。

図３に示されるように、特徴量抽出部１３は、処理対象画像２０の左上にまず基準検出枠１００を設定して、当該基準検出枠１００内の画像から複数の特徴量を抽出する。識別器１４は、特徴量抽出部１３が抽出した複数の特徴量から成る特徴ベクトルと、複数の重み係数から成る重みベクトルとに基づいて、基準検出枠１００内の画像についての検出確度値を求める。そして、識別器１４は、算出した検出確度値がしきい値以上である場合には、処理対象画像２０での左上の基準検出枠１００内の領域が顔画像である可能性が高いと判定し、当該領域を検出結果領域とし、当該領域の外形枠である当該基準検出枠１００を検出結果枠とする。

次に特徴量抽出部１３は、処理対象画像２０において基準検出枠１００を少し右に移動させる。特徴量抽出部１３は、例えば、１画素分あるいは数画素分だけ右に基準検出枠１００を移動させる。そして、特徴量抽出部１３は、処理対象画像２０における移動後の基準検出枠１００内の画像から複数の特徴量を抽出する。

その後、識別器１４は、特徴量抽出部１３で抽出された複数の特徴量から成る特徴ベクトルと、複数の重み係数から成る重みベクトルとに基づいて、移動後の基準検出枠１００内の画像についての検出確度値を求める。そして、識別器１４は、算出した検出確度値がしきい値以上である場合には、移動後の基準検出枠１００内の画像が顔画像である可能性が高いと判定して、当該画像を検出結果領域とするとともに、当該画像の外形枠である移動後の基準検出枠１００を検出結果枠とする。

その後、検出部１２は同様に動作して、図４に示されるように、基準検出枠１００が処理対象画像２０の右端まで移動すると、検出部１２は、右端の基準検出枠１００内の画像についての検出確度値を求める。そして、検出部１２は、求めた検出確度値がしきい値以上であれば、右端の基準検出枠１００内の画像を検出結果領域とするとともに、当該右端の基準検出枠１００を検出結果枠とする。

次に、特徴量抽出部１３は、図５に示されるように、基準検出枠１００を少し下げつつ処理対象画像２０の左端に移動させた後、当該基準検出枠１００内の画像から複数の特徴量を抽出する。特徴量抽出部１３は、上下方向（列方向）において例えば１画素分あるいは数画素分だけ下に基準検出枠１００を移動させる。その後、識別器１４は、特徴量抽出部１３から抽出された複数の特徴量から成る特徴ベクトルと、複数の重み係数から成る重みベクトルとに基づいて、現在の基準検出枠１００内の画像についての検出確度値を求めて出力する。そして、識別器１４は、算出した検出確度値がしきい値以上である場合には、現在の基準検出枠１００内の画像が顔画像である可能性が高いと判定して、当該画像を検出結果領域とするとともに、当該基準検出枠１００を検出結果枠とする。

その後、検出部１２は同様に動作して、図６に示されるように、基準検出枠１００が処理対象画像２０の右下まで移動すると、検出部１２は、右下の当該基準検出枠１００内の画像についての検出確度値を求める。そして、検出部１２は、求めた検出確度値がしきい値以上であれば、右下の基準検出枠１００内の画像を検出結果領域とするとともに、当該右下の基準検出枠を検出結果枠とする。

以上のようにして、検出部１２は、基準検出枠を使用して、処理対象画像において、当該基準検出枠と同じサイズの顔画像である可能性が高い領域を検出結果領域として検出する。言い換えれば、検出部１２は、基準検出枠を使用して、処理対象画像において、当該基準検出枠と同じサイズの顔画像を特定する。

＜非基準検出枠を用いた検出処理＞
検出部１２が非基準検出枠を使用して検出処理を行う際には、特徴量抽出部１３は、非基準検出枠の大きさが基準サイズ（基準検出枠のサイズ）と一致するように、当該非基準検出枠をサイズ変更する。そして、特徴量抽出部１３は、非基準検出枠についてのサイズ変更比率と同じだけ処理対象画像をサイズ変更する。

本実施の形態では、基準サイズは１６ｐ×１６ｐであることから、例えば、大きさがＲｐ×Ｒｐ（Ｒ＞１６）の非基準検出枠が使用される場合、特徴量抽出部１３は、当該非基準検出枠の縦幅（上下方向の幅）及び横幅（左右方向の幅）をそれぞれ（１６／Ｒ）倍して当該非基準検出枠を縮小し、サイズ変更検出枠を生成する。そして、特徴量抽出部１３は、処理対象画像の縦幅（画素数）及び横幅（画素数）をそれぞれ（１６／Ｒ）倍して当該処理対象画像を縮小し、サイズ変更画像を生成する。その後、検出部１２は、上述の図３〜６を用いて説明した処理と同様に、サイズ変更画像に対してサイズ変更検出枠を移動させながら、当該サイズ変更検出枠内の画像から特徴量を抽出し、当該特徴量に基づいて、当該サイズ変更検出枠内の画像が、当該サイズ変更検出枠と同じサイズの顔画像である可能性が高いか判定する。つまり、検出部１２は、サイズ変更検出枠を用いて、サイズ変更画像において当該サイズ変更検出枠と同じサイズの顔画像である可能性が高い領域を検出する処理を行う。以後、この処理を「サイズ変更版検出処理」と呼ぶ。また、枠内画像からの特徴量の抽出に使用される基準検出枠及びサイズ変更検出枠を総称して「特徴量抽出枠」と呼ぶ。特徴量抽出枠には、サイズ変更前の非基準検出枠は含まれない。

検出部１２は、サイズ変更版検出処理において、サイズ変更画像に対してサイズ変更検出枠を設定し、当該サイズ変更検出枠内の画像が、当該サイズ変更検出枠と同じサイズの顔画像である可能性が高いと判定すると、当該画像の外形枠である当該サイズ変更検出枠を仮検出結果枠とする。

検出部１２では、サイズ変更画像について少なくとも一つの仮検出結果枠が得られると、識別器１４が、当該少なくとも一つの仮検出結果枠を、当該サイズ変更画像の元になる処理対象画像に応じた検出結果枠に変換する。

具体的には、識別器１４は、まず、サイズ変更画像に対して、得られた少なくとも一つの仮検出結果枠を設定する。図７は、サイズ変更画像１２０に対して仮検出結果枠１１０が設定されている様子を示す図である。図７の例では、サイズ変更画像１２０に対して複数の仮検出結果枠１１０が設定されている。

次に識別器１４は、図８に示されるように、仮検出結果枠１１０が設定されたサイズ変更画像１２０を拡大（サイズ変更）して元のサイズに戻すことによって、サイズ変更画像１２０を処理対象画像２０に変換する。これにより、サイズ変更画像１２０に設定された仮検出結果枠１１０も拡大されて、仮検出結果枠１１０は、図８に示されるように、処理対象画像２０に応じた検出結果枠１５０に変換される。処理対象画像２０における検出結果枠１５０内の領域が、処理対象画像２０において非基準検出枠と同じサイズの顔画像である可能性が高い検出結果領域となる。これにより、検出部１２では、サイズ変更版検出処理によって得られた仮検出結果枠１１０に基づいて、処理対象画像において非基準検出枠と同じサイズの顔画像である可能性が高い検出結果領域が特定される。

このように、検出部１２は、非基準検出枠を使用して処理対象画像についての検出処理を行う際には、サイズが基準サイズと一致するようにサイズ変更した非基準検出枠と、当該非基準検出枠のサイズ変更に応じてサイズ変更した処理対象画像とを使用してサイズ変更版検出処理を行う。これにより、基準サイズとは異なるサイズの検出枠が使用される場合であっても、特徴量抽出部１３は、基準サイズの画像から特徴量を抽出できる。そして、検出部１２は、サイズ変更版検出処理の結果に基づいて、処理対象画像において非基準検出枠と同じサイズの顔画像である可能性が高い検出結果領域を特定する。これにより、検出部１２では非基準検出枠が用いられた検出処理が行われる。

検出部１２は、以上のような検出処理を、複数種類の検出枠のそれぞれを用いて行う。これにより、処理対象画像に顔画像が含まれている場合には、検出結果領域（顔画像である可能性が高い領域）及び検出結果枠（顔画像である可能性が高い領域の外形枠）が得られるとともに、検出結果枠に対応した検出確度値が得られる。処理対象画像について得られた検出結果枠に対応した検出確度値とは、当該処理対象画像における当該検出結果枠内の画像が顔画像である確からしさを示している。

図９は、処理対象画像２０について得られた検出結果枠１５０が当該処理対象画像２０に重ねて配置された様子を示す図である。図９に示されるように、互いにサイズの異なる複数種類の検出枠が使用されて検出処理が行われることによって、様々な大きさの検出結果枠１５０が得られる。これは、処理対象画像２０に含まれる様々な大きさの顔画像が検出されていることを意味している。

＜特徴量抽出処理＞
次に特徴量抽出部１３の動作について詳細に説明する。図１０は、特徴量抽出部１３の構成を示す図である。図１０に示されるように、特徴量抽出部１３は、評価値取得部１３０と、特徴量取得部１３１とを備えている。

評価値取得部１３０は、処理対象画像から、行列状に配列された複数の評価値で構成された評価値マップを生成する。特徴量取得部１３１は、評価値マップを用いて顔画像についての特徴量を取得する。ここで、評価値とは、注目画素の画素値と、当該注目画素の周囲の複数の画素値との関係を示す値である。以後、注目画素の画素値を「注目画素値」と呼ぶことがある。また、注目画素の周囲の画素値を「周囲画素値」と呼ぶことがある。本実施の形態では、評価値の取得には、例えば、注目画素の周囲８方向の周囲画素値が使用される。

＜評価値マップの生成方法＞
評価値取得部１３０は、検出処理で使用される複数種類の検出枠のそれぞれについて、当該検出枠に対応した評価値マップを生成する。以後、基準検出枠に対応した評価値マップを「基準用評価値マップ」と呼ぶ。また、非基準検出枠に対応した評価値マップを「非基準用評価値マップ」と呼ぶ。

ここで、後述するように、処理対象画像についての特徴量の抽出では、本来のサイズ（Ｍｐ×Ｎｐ）よりも周囲１画素分だけ小さい、（Ｍ−２）ｐ×（Ｎ−２）ｐの処理対象画像が使用される。つまり、上述の図３〜６を用いて説明した検出処理においては、本来のサイズよりも周囲１画素分だけ小さい処理対象画像が使用される。この処理対象画像を特に「抽出用処理対象画像」と呼ぶ。図３〜６に示される処理対象画像２０は実際には「抽出用処理対象画像」である。また、サイズ変更画像についての特徴量が抽出される際には、本来のサイズよりも周囲１画素分だけ小さいサイズ変更画像が使用される。以後、このサイズ変更画像を特に「抽出用サイズ変更画像」と呼ぶ。

基準用評価値マップは処理対象画像から生成される。基準用評価値マップは、抽出用処理対象画像と同様に、行方向に（Ｍ−２）個の評価値が並び、列方向に（Ｎ−２）個の評価値が並ぶ、合計（（Ｍ−２）×（Ｎ−２））個の複数の評価値で構成されている。基準用評価値マップを構成する複数の評価値は、抽出用処理対象画像を構成する複数の画素とそれぞれ対応している。具体的には、基準用評価値マップでのｍ×ｎ番目の評価値は、抽出用処理対象画像でのｍ×ｎ番目の画素に対応している。基準用評価値マップでの各評価値は、それに対応する画素を注目画素とした場合における、当該注目画素の画素値と複数の周囲画素値との間の関係を示している。

また、非基準検出枠に対応した非基準用評価値マップを構成する、行列状に配置された複数の評価値は、当該非基準検出枠に対応するサイズ変更画像（当該非基準検出枠のサイズ変更比率と同じ比率だけサイズ変更された処理対象画像）を、周囲１画素分だけ小さくして得られる抽出用サイズ変更画像を構成する複数の画素とそれぞれ対応している。非基準用評価値マップでの複数の評価値の配列は、抽出用サイズ変更画像を構成する複数の画素の配列と同じである。非基準用評価値マップでのｍ×ｎ番目の評価値は、抽出用サイズ変更画像でのｍ×ｎ番目の画素に対応している。非基準用評価値マップでの各評価値は、それに対応する画素を注目画素とした場合における、当該注目画素の画素値と複数の周囲画素値との間の関係を示している。

評価値取得部１３０は、基準用評価値マップを生成する際には、図１１に示されるように、処理対象画像２０の左上に対してサイズが３ｐ×３ｐの算出用枠２００を設定する。そして、評価値取得部１３０は、算出用枠２００内の９個の画素の中央の画素を注目画素とする。

次に評価値取得部１３０は、注目画素の画素値と、注目画素の周囲の８個の周囲画素値との関係を示す評価値を求める。評価値取得部１３０は、当該８個の周囲画素値として、注目画素の左上の画素の画素値、真上の画素の画素値、右上の画素の画素値、右の画素の画素値、右下の画素の画素値、真下の画素の画素値、左下の画素の画素値、左の画素の画素値を使用する。本実施の形態では、評価値は８ビットで表される。そして、評価値取得部１３０は、求めた評価値を、算出用枠２００内の中央の画素、つまり、抽出用処理対象画像の１×１番目の画素に対応する、基準用評価値マップの１×１番目の値とする。評価値としては、例えば、ＬＢＰあるいはＬＴＰを使用することができる。ＬＢＰ及びＬＴＰの求め方については後で詳細に説明する。

図１２は、算出用枠２００内の９個の画素についての画素値の例を示す図である。本実施の形態では、評価値の取得で使用する画素値を例えば輝度とする。また本実施の形態では、画素値は８ビットで表される。したがって、画素値は、十進数で表すと、“０”から“２５５”までの値をとる。なお、当該画素値は色差成分であっても良い。以後、画素値等の値については、特に断らない名切り、十進数で表した値とする。

図１２の例では、注目画素値２１０が“５７”である。また、注目画素の左上の画素の画素値、真上の画素の画素値、右上の画素の画素値、右の画素の画素値、右下の画素の画素値、真下の画素の画素値、左下の画素の画素値、左の画素の画素値が、それぞれ、“５０”、“５５”、“６５”、“７５”、“７９”、“５９”、“４８”及び“４９”となっている。

評価値取得部１３０は、処理対象画像２０の左上にある算出用枠２００に対応する評価値を求めると、処理対象画像２０において算出用枠２００を１画素分だけ右に移動させる。そして、評価値取得部１３０は、移動後の算出用枠２００内の９個の画素の中央の画素を注目画素とし、注目画素値と、８個の周囲画素値との関係を示す評価値を求める。評価値取得部１３０は、求めた評価値を、移動後の算出用枠２００内の中央の画素、つまり、抽出用処理対象画像の１×２番目の画素に対応する、基準用評価値マップの１×２番目の値とする。

次に、評価値取得部１３０は、処理対象画像２０において算出用枠２００をさらに１画素分だけ右に移動させる。そして、評価値取得部１３０は、移動後の算出用枠２００内の９個の画素の中央の画素を注目画素とし、注目画素値と、８個の周囲画素値との関係を示す評価値を求める。評価値取得部１３０は、求めた評価値を、移動後の算出用枠２００内の中央の画素、つまり、抽出用処理対象画像の１×３番目の画素に対応する、基準用評価値マップの１×３番目の値とする。

以後、評価値取得部１３０は、算出用枠２００を１画素分ずつ処理対象画像２０の右下までラスタスキャンさせて、算出用枠２００の各位置において、当該算出用枠２００の中央の画素を注目画素として評価値を求める。これにより、抽出用処理対象画像を構成する複数の画素、つまり、処理対象画像の周囲１画素分を除いた複数の画素にそれぞれ対応する複数の評価値が生成され、当該複数の評価値から成る基準用評価値マップが完成する。なお、処理対象画像の周囲１画素分については、各画素が注目画素とならないため、当該各画素に対応する評価値は求められない。

評価値取得部１３０は、非基準検出枠に対応する非基準用評価値マップを生成する際には、処理対象画像に対して算出用枠２００を設定する替わりに、当該非基準検出枠に対応するサイズ変更画像に対して算出用枠２００を設定する。そして、評価値取得部１３０は、上記と同様にして、当該サイズ変更画像に対して算出用枠２００を１画素ずつラスタスキャンさせながら、算出用枠２００の各位置で評価値を求める。これにより、非基準検出枠に対応する抽出用サイズ変更画像を構成する複数の画素、つまり非基準検出枠に対応するサイズ変更画像の周囲１画素分を除いた複数の画素にそれぞれ対応する複数の評価値が生成され、当該複数の評価値から成る、当該非基準検出枠に対応する非基準用評価値マップが完成する。評価値取得部１３０は、複数種類の非基準検出枠のそれぞれについて非基準用評価値マップを生成する。なお、サイズ変更画像の周囲１画素分については、各画素が注目画素とならないため、当該各画素に対応する評価値は求められない。

＜評価値の具体例＞
次に評価値として使用されるＬＢＰ及びＬＴＰについて説明する。

＜ＬＢＰ＞
ＬＢＰが生成される際には、複数の周囲画素値のそれぞれについて、当該周囲画素値と注目画素値との関係を示す１ビット（以後、「関係表示ビット」と呼ぶ）が生成される。周囲画素値から注目画素値を差し引いて得られる差分値が零以上であれば関係表示ビットの値は“１”とされ、零未満であれば関係表示ビットの値は“０”とされる。そして、複数の周囲画素値について得られた複数の関係表示ビットで構成される８ビットのバイナリコード（以後、「関係表示コード」と呼ぶ）がＬＢＰとなり、当該ＬＰＢが評価値とされる。具体的には、ＬＢＰとしての関係表示コードを十進数で表した値が評価値とされる。

例えば、算出用枠２００内の複数の画素について、図１２に示されるような注目画素値２１０と複数の周囲画素値２２０とが得られたとする。評価値取得部１３０は、各周囲画素値２２０について、当該周囲画素値２２０から注目画素値２１０を差し引いて得られる差分値２５０を求める。図１３に示されるように、左上、真上、右上、右、右下、真下、左下、左の周囲画素値２２０についての注目画素値２１０との間の差分値２５０は、それぞれ“−７”、“−２”、“８”、“１８”、“２２”、“２”、“−９”、“−８”となる。そして評価値取得部１３０は、求めた複数の差分値２５０（本例では８個の差分値２５０）のそれぞれと零とを比較する。評価値取得部１３０は、周囲画素値２２０についての差分値２５０が零以上である場合には、当該周囲画素値２２０についての関係表示ビット２６０の値を“１”とし、当該差分値２５０が零未満である場合には、当該周囲画素値２２０についての関係表示ビット２６０の値を“０”とする。図１２，１３の例では、図１４に示されるように、左上、真上、右上、右、右下、真下、左下、左の周囲画素値２２０についての関係表示ビット２６０は、それぞれ“０”、“０”、“１”、“１”、“１”、“１”、“０”、“０”となる。そして、評価値取得部１３０は、複数の周囲画素値２２０について求めた複数の関係表示ビット２６０を所定の順で並べることによって、ＬＢＰとして８ビットの関係表示コードを生成する。評価値取得部１３０は、関係表示コードを求めると、当該関係表示コードを十進数で表した値を、注目画素に対応する評価値とする。本実施の形態では、例えば、左上の周囲画素値２２０の関係表示ビット２６０、真上の周囲画素値２２０の関係表示ビット２６０、右上の周囲画素値２２０の関係表示ビット２６０、右の周囲画素値２２０の関係表示ビット２６０、右下の周囲画素値２２０の関係表示ビット２６０、真下の周囲画素値２２０の関係表示ビット２６０、左下の周囲画素値２２０の関係表示ビット２６０、左の周囲画素値２２０の関係表示ビット２６０の順で、得られた８個の関係表示ビット２６０が並べられて関係表示コードが生成される。図１２の画素値の例では、図１４に示されるように、“００１１１１００”が関係表示コードとなり、それを十進数で表した値“６０”が注目画素に対応する評価値となる。

以上の説明から理解できるように、ＬＢＰは、注目画素の周囲での画素値の様子（分布状況）を示していると言える。よって、ＬＢＰは局所的なテクスチャを示していると言える。以後、ＬＢＰ（正確にはそれを十進数で表した値）を各評価値とする評価値マップを「ＬＢＰマップ」と呼ぶ。

図１５は処理対象画像２０の一例を示す図である。図１６は図１５に示される処理対象画像２０に基づいて生成されたＬＢＰマップでの各評価値を輝度とすることによって、当該ＬＢＰマップを画像化して得られるグレースケールのＬＢＰマップ画像３０を示す図である。図１６に示されるＬＢＰマップ画像３０からは、処理対象画像２０についてのテクスチャを読み取ることができる。

＜ＬＴＰ＞
ＬＴＰが生成される際には、ＬＢＰとは異なり、複数の周囲画素値のそれぞれについて、当該周囲画素値と注目画素値との関係を示す３値データが生成される。ここで、ＬＴＰにおいては、ノイズの影響を抑制するために、周囲画素値と注目画素値との関係を示す３値データが生成される際にはオフセット値が使用される。

具体的には、周囲画素値と注目画素値との差分値の絶対値が所定のオフセット値未満の場合には、３値データの値が“０”とされる。また、周囲画素値と注目画素値との差分値の絶対値がオフセット値以上であって、当該周囲画素値が当該注目画素値よりも大きい場合には、３値データの値は“１”とされる。つまり、周囲画素値が、注目画素値に対してオフセット値を加算して得られる値以上の場合には、３値データの値は“１”とされる。そして、周囲画素値と注目画素値との差分値の絶対値がオフセット値以上であって、当該周囲画素値が当該注目画素値よりも小さい場合には、３値データの値は“−１”とされる。つまり、周囲画素値が、注目画素値からオフセット値だけ減算して得られる値以下の場合には、３値データの値は“−１”とされる。オフセット値は、非特許文献１に記載されているように、例えば“５”に設定される。

このように、周囲画素値と注目画素値との間の大小関係が判定される際にオフセット値が設けられることによって、周囲画素値及び注目画素値の少なくとも一方がノイズの影響を受けたとしても、当該大小関係が誤って判定されることを抑制することができる。

ＬＴＰは、複数の周囲画素値について求められた複数の３値データが所定の順で並べられて得られる３値コード（ターナリーコード）である。例えば、左上の周囲画素値の３値データ、真上の周囲画素値の３値データ、右上の周囲画素値の３値データ、右の周囲画素値の３値データ、右下の周囲画素値の３値データ、真下の周囲画素値の３値データ、左下の周囲画素値の３値データ、左の周囲画素値の３値データの順で並べられて得られる３値コードがＬＴＰとされる。

図１７は、上述の図１２に示されるような注目画素値２１０と複数の周囲画素値２２０とが得られた場合における当該複数の周囲画素値２２０にそれぞれ対応する複数の３値データ２７０を示す図である。図１５の例では、ＬＴＰは（−１）０１１１０（−１）（−１）となる。

ＬＴＰが評価値として使用される場合には、ＬＴＰがそのまま使用されるのではなく、ＬＴＰから得られるポジティブＬＴＰ及びネガティブＬＴＰのどちらか一方が使用される。

ポジティブＬＴＰとは、ＬＴＰに含まれる“１”だけに着目して当該ＬＴＰをバイナリコードに変換したものである。具体的には、ＬＴＰにおいて“１”以外の値をすべて“０”に変換し、それによって得られたバイナリコードがポジティブＬＴＰとなる。図１８は、図１７に示されるＬＴＰに対応するポジティブＬＴＰを示す図である。図１７に示されるＬＴＰ、つまり（−１）０１１１０（−１）（−１）において、“１”以外の値がすべて“０”に変換されると、図１８に示されるように、“００１１１０００”というポジティブＬＴＰが得られる。ポジティブＬＴＰを構成する８ビットは、上位から順に、左上の周囲画素値、真上の周囲画素値、右上の周囲画素値、右の周囲画素値、右下の周囲画素値、真下の周囲画素値、左下の周囲画素値、左の周囲画素値にそれぞれ対応している。

上記の説明から理解できるように、ポジティブＬＴＰの各ビットは、当該ビットに対応する周囲画素値と注目画素値との関係を示している。そして、ポジティブＬＴＰの各ビットは、それに対応する周囲画素値が、注目画素値に対してオフセット値だけ加算して得られる値以上であれば“１”を示し、当該値未満であれば“０”を示す。したがって、ポジティブＬＴＰは、注目画素の周囲での、当該注目画素の画素値よりも大きい画素値の様子（分布状況）を示していると言える。よって、ポジティブＬＴＰについても、ＬＢＰと同様に、局所的なテクスチャを示していると言える。評価値取得部１３０は、ポジティブＬＴＰを十進数で表した値を評価値として使用する。図１８の例では、バイナリコード“００１１１０００”を十進数で表した値“５６”が評価値とされる。以後、ポジティブＬＴＰ（正確にはそれを十進数で表した値）を各評価値とする評価値マップを「ポジティブＬＴＰマップ」と呼ぶ。

一方で、ネガティブＬＴＰとは、ＬＴＰに含まれる“−１”だけに着目して当該ＬＴＰをバイナリコードに変換したものである。具体的には、ＬＴＰにおいて“−１”以外の値をすべて“０”に変換するとともに“−１”を“１”に変換し、それによって得られたバイナリコードがネガティブＬＴＰとなる。図１９は、図１７に示されるＬＴＰに対応するネガティブＬＴＰを示す図である。図１７に示されるＬＴＰ、つまり（−１）０１１１０（−１）（−１）において、“−１”以外の値がすべて“０”に変換されるとともに“−１”が“１”に変換されると、図１９に示されるように、“１０００００１１”というネガティブＬＴＰが得られる。ネガティブＬＴＰを構成する８ビットは、上位から順に、左上の周囲画素値、真上の周囲画素値、右上の周囲画素値、右の周囲画素値、右下の周囲画素値、真下の周囲画素値、左下の周囲画素値、左の周囲画素値にそれぞれ対応している。

上記の説明から理解できるように、ネガティブＬＴＰの各ビットについても、当該ビットに対応する周囲画素値と注目画素値との関係を示している。そして、ネガティブＬＴＰの各ビットは、それに対応する周囲画素値が、注目画素値からオフセット値だけ減算して得られる値以下であれば“１”を示し、当該値よりも大きければ“０”を示す。したがって、ネガティブＬＴＰは、注目画素の周囲での、当該注目画素の画素値よりも小さい画素値の様子（分布状況）を示していると言える。よって、ネガティブＬＴＰについても、ＬＢＰ及びポジティブＬＴＰと同様に、局所的なテクスチャを示していると言える。評価値取得部１３０は、ネガティブＬＴＰを十進数で表した値を評価値として使用する。図１９の例では、バイナリコード“１０００００１１”を十進数で表した値“１３１”が評価値とされる。以後、ネガティブＬＴＰ（正確にはそれを十進数で表した値）を各評価値とする評価値マップを「ネガティブＬＴＰマップ」と呼ぶ。

図２０は図１５に示される処理対象画像２０に基づいて生成されたポジティブＬＴＰマップでの各評価値を輝度とすることによって、当該ポジティブＬＴＰマップを画像化して得られるグレースケールのポジティブＬＴＰマップ画像４０ｐを示す図である。図２１は図１５に示される処理対象画像２０に基づいて生成されたネガティブＬＴＰマップでの各評価値を輝度とすることによって、当該ネガティブＬＴＰマップを画像化して得られるグレースケールのネガティブＬＴＰマップ画像４０ｎを示す図である。図２１に示されるポジティブＬＴＰマップ画像４０ｐ及び図２１に示されるネガティブＬＴＰマップ画像４０ｎからは、処理対象画像２０についてのテクスチャを読み取ることができる。

なお以後、ＬＢＰ、ネガティブＬＴＰ及びポジティブＬＴＰを特に区別する必要がないときにはそれぞれを「テクスチャ表現コード」と呼ぶことがある。

＜uniformについて＞
上記の通り、本実施の形態では、評価値は、８ビットで表現されることから、０〜２５５までの２５６種類の値をとることが可能である。

一方で、後述の説明から理解できるように、枠内画像から抽出される複数の特徴量の数、つまり枠内画像から抽出される特徴ベクトルの次元数は、評価値がとり得る値の種類の数に依存する。したがって、検出部１２での処理量を低減するためには、評価値がとり得る値の種類の数を制限することが有効である。

そこで、ＬＢＰやＬＴＰを求める際に使用されることがあるuniformという考え方を使用して、評価値がとり得る値の種類の数を制限（低減）することについて検討する。以下に、uniformを使用した、評価値がとり得る値の種類の数の制限について説明する。

まず、ＬＢＰ等のテクスチャ表現コードを構成する８ビットを順に見ていった際のビット変化（ビット反転）の回数を求める。テクスチャ表現コードを構成する８ビットを順に見ていく方向は、上位から下位に向かう方向で良いし、下位から上位に向かう方向であっても良い。そして、テクスチャ表現コードについて求めたビット変化の回数が２回以下である場合には、当該テクスチャ表現コードはuniformであるとする。一方で、テクスチャ表現コードについて求めたビット変化の回数が２回を越える場合には、つまり３回以上の場合には、当該テクスチャ表現コードはuniformでないとする。

uniformであるとされたテクスチャ表現コードについては、当該テクスチャ表現コードを十進数で表した値が評価値とされる。

一方で、uniformでないとされたテクスチャ表現コードは、ノイズの影響を受けた注目画素値及び周囲画素値に基づいて生成されたもとのとして、評価値として使用されない。uniformでないとされたテクスチャ表現コードは、８ビットの特定のバイナリコードに変換されて、当該特定のバイナリコードを十進数で表した値が評価値とされる。この特定のバイナリコードについては、uniformとされる８ビットのバイナリコード以外の８ビットのバイナリコードであれば、何でも良い。例えば、特定のバイナリコードとしては、“１０１０１０１０”が採用される。

例えば、テクスチャ表現コードが“０１００００００”であるとする。“０１００００００”を例えば上位から順に見ていくと、上位から１ビット目と２ビット目との間で“０”から“１”に変化しており、上位から２ビット目と３ビット目との間で“１”から“０”へ変化している。したがって、ビット変化が２回であるため、“０１００００００”はuniformとなり、“０１００００００”を十進数で表した値“６４”が評価値とされる。

また、テクスチャ表現コードが“００００１１１１”であるとする。それを上位から順に見ていくと、上位から４ビット目と５ビット目の間で“０”から“１”の変化しており、ビット変化は１回である。したがって、“００００１１１１”はuniformとなり、“００００１１１１”を十進数で表した値“１５”が評価値とされる。

また、テクスチャ表現コードが“００１１００１１”であるとする。それを上位から順に見ていくと、上位から２ビット目と３ビット目の間で“０”から“１”に変化し、上位から４ビット目と５ビット目の間で“１”から“０”に変化し、上位から６ビット目と７ビット目の間で“０”から“１”に変化している。したがって、ビット変化は３回であるため、“００１１００１１”はuniformでないとされる。よって、“００１１００１１”は、“１０１０１０１０”という特定のバイナリコードに変換されて、“１０１０１０１０”を十進数で表した値“１７０”が評価値とされる。

また、テクスチャ表現コードが“０１０１０１０１”であるとする。それを順に見ていくと、ビット変化は７回であるため、“０１０１０１０１”はuniformでないとされる。よって、“０１０１０１０１”は、“１０１０１０１０”という特定のバイナリコードに変換されて、“１０１０１０１０”を十進数で表した値“１７０”が評価値とされる。

このように、テクスチャ表現コードを構成する８ビットを順に見ていった際のビット変化の回数が２回を越える場合には、当該テクスチャ表現コードを特定のバイナリコードに変換し、当該特定のバイナリコードを十進数で表した値を評価値とすることによって、評価値がとり得る値の種類は、２５６種類から５９種類に制限される。

本実施の形態に係る評価値取得部１３０は、特徴ベクトルの次元数を低減するために、uniformを使用して、評価値がとり得る値の種類を５９種類に制限する。

なお、説明の便宜上、評価値がとり得る５９種類の値に対して０〜５８の番号をそれぞれ割り当てる。以後、この番号を使用して本実施の形態を説明することがある。

＜画素値補間について＞
評価値の精度を向上させるためには、評価値の取得で用いられる複数の周囲画素値については、注目画素からの距離が同じである複数の周囲位置での周囲画素値が用いられる方が望ましい。

一方で、ＬＢＰの生成においては、周囲画素値についての注目画素値との比較を、注目画素からどの程度離れた範囲まで行うかを示すパラメータとして、「注目点からの距離」が使用される。注目点からの距離が“１”の場合には、上述のように、８個の周囲画素値が使用されてＬＢＰが求められる。距離１とは、画素間の上下方向及び左右方向の距離を示している。なお、ＬＴＰについても同様である。

図２２は算出用枠２００内での注目画素３００と８個の周囲画素３１０ａ〜３１０ｈとの間での位置関係を示す図である。図２２に示されるように、算出用枠２００内の９個の画素においては、注目画素３００と上下方向あるいは左右方向の周囲画素との間の距離ａと、注目画素３００と斜め方向の周囲画素との間の距離ｂとは異なっている。

上述のように、評価値を求める際に使用する８個の周囲画素値として、注目画素３００の周囲に存在する８個の周囲画素３１０ａ〜３１０ｈの画素値を使用すると、注目画素と、周囲画素値が対応する位置との間の距離については、上下方向及び左右方向では“１”となるが、斜め方向では“１”とならない。したがって、この場合には、評価値の取得で用いられる複数の周囲画素値については、注目画素からの距離が同じである複数の周囲位置での周囲画素値とはならない。

したがって、斜め方向の周囲画素値については、斜め方向の周囲画素の画素値を使用するのではなく、注目画素からの距離が“１”である斜め方向の周囲位置４００（図２２参照）での画素値を使用することが望ましい。

注目画素からの距離が“１”である斜め方向の周囲位置４００での画素値については、バイリニア補間処理などの画素値補間処理によって求めることができる。

図２３は、注目画素からの距離が“１”である右上方向の周囲位置４００での画素値をバイリニア補間処理を用いて求める方法を説明するための図である。図２３の例では、注目画素３００の画素値、上方向の周囲画素３１０ｂの画素値、右上方向の周囲画素３１０ｃの画素値、右方向の周囲画素３１０ｄの画素値が、それぞれ“５７”、“５５”、“６５”及び“７５”となっている。また、周囲画素３１０ｃの上方向に存在する画素３２０ａの画素値が“５０”であり、周囲画素３１０ｃの右方向に存在する画素３２０ｂの画素値が“７０”となっている。

図２３の例において、対象の周囲位置４００と画素３２０ａとの間の上下方向の距離と、周囲位置４００と周囲画素３１０ｄとの間の上下方向の距離との比が、ｙ１：ｙ２であるとすると、以下の式（１）を用いて上下方向の補間値Ｙ０を求める。

また、周囲位置４００と周囲画素３１０ｂとの間の左右方向の距離と、周囲位置４００と画素３２０ｂとの間の左右方向の距離との比が、ｘ１：ｘ２であるとすると、以下の式（２）を用いて左右方向の補間値Ｘ０を求める。

そして、以下の式（３）を用いて周囲位置４００での画素値Ｚ０を求める。

注目画素からの距離が“１”である左上方向の周囲位置での画素値、注目画素からの距離が“１”である左下方向の周囲位置での画素値、注目画素からの距離が“１”である右下方向の周囲位置での画素値についても同様にして求めることができる。

評価値を求める際には、周囲画素値として、注目画素の斜め方向に存在する周囲画素の画素値ではなく、注目画素からの距離が“１”である斜め方向の周囲位置での画素値を使用することによって、より正確な評価値を求めることができる。評価値取得部１３０は、周囲画素値として、斜め方向の周囲画素の画素値を使用しても良いし、注目画素からの距離が“１”である斜め方向の周囲位置での画素値を使用しても良い。

＜特徴量取得部の動作説明＞
次に特徴量取得部１３１の動作について詳細に説明する。特徴量取得部１３１は、複数種類の検出枠のそれぞれについて、当該検出枠に対応する、評価値取得部１３０で生成された評価値マップを用いて特徴量を取得する。また特徴量取得部１３１は、処理対象画像についての特徴量を取得する際には、本来のサイズよりも周囲１画素分だけ小さい抽出用処理対象画像を使用する。また、特徴量取得部１３１は、サイズ変更画像についての特徴量を取得する際には、本来のサイズよりも周囲１画素分だけ小さい抽出用サイズ変更画像を使用する。以後、特徴量の取得で使用される抽出用処理対象画像及び抽出用サイズ変更画像を総称して「抽出対象画像」と呼ぶことがある。

本実施の形態では、例えば、２種類の特徴量が使用される。具体的には、評価値マップに設定された特徴量抽出枠内での評価値の頻度（度数）が特徴量とされる。つまり、評価値マップに設定された特徴量抽出枠内での、評価値がとり得る５９種類の値のそれぞれについての頻度（度数）が特徴量とされる。以後、この特徴量を「第１特徴量」とする。

さらに、本実施の形態では、評価値マップに設定された特徴量抽出枠内での評価値の共起頻度（共起度数）が特徴量とされる。つまり、評価値マップに設定された特徴量抽出枠内における、評価値がとり得る値についての組み合わせの頻度（度数）が特徴量とされる。以後、この特徴量を「第２特徴量」とする。第２特徴量は、評価値の共起性を示していると言える。特徴量取得部１３１は、枠内画像から取得した第１及び第２特徴量の両方から成る特徴ベクトルを識別器１４に入力する。以下に、第１及び第２特徴量の求め方について説明する。

＜第１特徴量について＞
特徴量取得部１３１は、上述の図３〜６のようにして、抽出用処理対象画像のある位置に基準検出枠を設定した際には、評価値取得部１３０で生成された基準用評価値マップに対して、当該ある位置と同じ位置に基準検出枠を設定する。そして、特徴量取得部１３１は、基準用評価値マップに設定した基準検出枠内での評価値の頻度分布（度数分布）を示す１次元評価値ヒストグラムを生成する。

図２４は１次元評価値ヒストグラムの一例を示す図である。図２４の横軸は、評価値がとり得る５９種類の値に対してそれぞれ割り当てられた０〜５８の番号を示している。図２４の縦軸は、基準用評価値マップに設定された基準検出枠内の複数の評価値において、横軸に示された番号の値を有する評価値の頻度を示している。本実施の形態では、評価値がとり得る値の種類は５９種類であるため、１次元評価値ヒストグラムは５９個のビンを有する。

特徴量取得部１３１は、１次元評価値ヒストグラムを生成すると、当該１次元評価値ヒストグラムにおける５９個のビンでの頻度のそれぞれを、抽出用処理対象画像に設定した基準検出枠内の画像についての第１特徴量とする。これにより、抽出用処理対象画像に設定された基準検出枠内の画像から、５９個の第１特徴量が抽出される。

特徴量取得部１３１は、抽出用処理対象画像に対して基準検出枠をラスタスキャンさせていく際に、基準検出枠の各位置において、上記のようにして、基準用評価値マップを用いて基準検出枠内の画像から５９個の第１特徴量を取得する。

特徴量取得部１３１では、非基準検出枠が使用される場合でも、同様にして第１特徴量が取得される。特徴量取得部１３１は、非基準検出枠に対応する抽出用サイズ変更画像のある位置にサイズ変更検出枠（特徴量抽出枠）を設定した際には、当該非基準検出枠に対応する、評価値取得部１３０で生成された非基準用評価値マップに対して、当該ある位置と同じ位置に当該サイズ変更検出枠を設定する。そして、特徴量取得部１３１は、非基準用評価値マップに設定したサイズ変更検出枠内での評価値の頻度分布を示す１次元評価値ヒストグラムを生成する。

特徴量取得部１３１は、１次元評価値ヒストグラムを生成すると、当該１次元評価値ヒストグラムにおける５９個のビンでの頻度のそれぞれを、抽出用サイズ変更画像に設定したサイズ変更検出枠内の画像についての第１特徴量とする。これにより、抽出用サイズ変更画像に設定されたサイズ変更検出枠内の画像から５９個の第１特徴量が抽出される。

特徴量取得部１３１は、抽出用サイズ変更画像に対してサイズ変更検出枠をラスタスキャンさせていく際に、サイズ変更検出枠の各位置において、上記のようにして、非基準用評価値マップを用いてサイズ変更検出枠内の画像から５９個の第１特徴量を取得する。特徴量取得部１３１は、複数種類の非基準検出枠のそれぞれに関して、当該非基準検出枠に対応する抽出用サイズ変更画像に対して当該非基準検出枠に対応するサイズ変更検出枠をラスタスキャンさせながら、当該非基準検出枠に対応する非基準用評価値マップを用いて当該サイズ変更検出枠内の画像から５９個の第１特徴量を取得する。

なお、枠内画像から抽出された５９個の第１特徴量（１次元評価値ヒストグラムの５９個のビンでの頻度）のそれぞれを以下の式（４）を用いて正規化しても良い。第１特徴量を正規化することによって、第１特徴量が、撮像装置５での撮像環境の変化の影響を受けにくくなる。

ここで、ｖは正規化前の第１特徴量を示しており、Ｖは正規化後の第１特徴量を示している。また、ｋは、枠内画像から抽出された複数の第１特徴量の数を示しており、本実施の形態ではｋ＝５９である。そして、ｖ（ｉ）は、ｋ個の第１特徴量に対して１番〜ｋ番までをそれぞれ付与した場合における、ｉ番の正規化前の第１特徴量を示している。なお、εは、式（４）の右辺の式において、ｖが零で除算されないために設けられた定数である。

＜第２特徴量について＞
特徴量取得部１３１は、抽出用処理対象画像のある位置に基準検出枠を設定した際には、評価値取得部１３０で生成された基準用評価値マップに対して、当該ある位置と同じ位置に基準検出枠を設定する。そして、特徴量取得部１３１は、基準用評価値マップに設定した基準検出枠内での評価値の共起頻度の分布を示す２次元評価値ヒストグラムを生成する。

本実施の形態では、基準用評価値マップに設定した基準検出枠（特徴量抽出枠）内において、所定の相対的な位置関係にある２つの評価値がとり得る値の組み合わせについての頻度分布を示す２次元評価値ヒストグラムが生成される。以後、所定の相対的な位置関係にある２つの評価値のペアを「評価値ペア」と呼ぶ。そして、本実施の形態では、評価値ペアを構成する２つの評価値の間での相対的な位置関係が異なる複数種類（複数組）の評価値ペアのそれぞれについて２次元評価値ヒストグラムが生成される。本実施の形態では、例えば３０種類の評価値ペアが使用される。以後、評価値ペアにおいて、一方の評価値を「第１評価値」と呼び、他方の評価値を「第２評価値」と呼ぶ。

図２５は３０種類の評価値ペアの一例を示す図である。図２５では、特徴量抽出枠内での、第１評価値５００と第２評価値５１０の間の相対的な位置関係が示されている。図２５では、白丸は第１評価値５００を示している。また図２５では、黒丸は第２評価値５１０を示しており、特徴量抽出枠内で位置が互いに異なる３０種類の第２評価値５１０が示されている。

本実施の形態では、図２５に示される第１評価値５００と、図２５に示される１種類の第２評価値５１０とで、１種類の評価値ペアが形成される。図２５では、第２評価値５１０は３０種類存在することから、３０種類の評価値ペアが形成される。以後、説明の対象の評価値ペアを「対象評価値ペア」と呼ぶ。

図２６〜２８は、特徴量取得部１３１が、基準用評価値マップに設定した基準検出枠１００内において、対象評価値ペアがとり得る値の組み合わせについての頻度分布を示す２次元評価値ヒストグラムを生成する際の当該特徴量取得部１３１の動作を説明するための図である。図２６〜２８では、対象評価値ペアは、左右方向で互いに隣り合う第１評価値５００及び第２評価値５１０で構成されている。

本実施の形態では、特徴量取得部１３１は、基準検出枠１００において、左上から右下にかけて（ラスタスキャン方向に沿って）順番に評価値を第１評価値５００とし、当該第１評価値５００とペアとなる第２評価値５１０と当該第１評価値５００の組み合わせを記憶する。そして、特徴量取得部１３１は、記憶した複数組の組み合わせについての頻度分布を示す２次元評価値ヒストグラムを生成する。以下にこの点について詳細に説明する。

図２６に示されるように、まず特徴量取得部１３１は、基準検出枠１００内の左上の評価値を第１評価値５００とし、その右隣の評価値を第２評価値５１０として、第１評価値５００と第２評価値５１０の組み合わせを記憶する。

次に図２７に示されるように、特徴量取得部１３１は、基準検出枠１００内の左上から右方向に見て２番目の評価値を第１評価値５００とし、その右隣の評価値を第２評価値５１０として、第１評価値５００と第２評価値５１０の組み合わせを記憶する。

以後、特徴量取得部１３１は、ラスタスキャン方向に沿って、基準検出枠１００内の評価値を順番に第１評価値５００とし、当該第１評価値５００の右隣の評価値を第２評価値５１０として、各第１評価値５００について、当該第１評価値５００と、それとペアとなる第２評価値５１０の組み合わせを記憶する。図２８では、基準検出枠１００内の右下から左方向に見て２番目の評価値が第１評価値５００とされ、その右隣の評価値が第２評価値５１０とされている様子が示されている。

なお、特徴量取得部１３１は、基準検出枠１００において、左上から右下にかけて順番に評価値を第１評価値５００とし、当該第１評価値５００とペアとなる第２評価値５１０と当該第１評価値５００の組み合わせを記憶していく際に、第１評価値５００とペアとなる第２評価値５１０を定めることができないときには、当該第１評価値５００と、それとペアとなる第２評価値５１０との組み合わせは記憶しない。例えば、図２６〜２８の例では、基準検出枠１００内の右下の評価値を第１評価値５００とした場合には、それとペアとなる第２評価値５１０を定めることができないことから、当該第１評価値５００と、それとペアとなる第２評価値５２０との組み合わせは記憶されない。

特徴量取得部１３１は、第１評価値５００と第２評価値５１０の組み合わせの記憶が終了すると、記憶した複数組の組み合わせに基づいて、対象評価値ペアがとり得る値の組み合わせについての頻度分布を示す２次元評価値ヒストグラムを生成する。

図２９は、対象評価値ペアについての２次元評価値ヒストグラムの一例を示す図である。図２９のＸ方向に沿った第１軸は、対象評価値ペアの第１評価値がとり得る５９種類の値に対してそれぞれ割り当てられた０〜５８の番号が示されている。また図２９のＹ方向に沿った第２軸は、対象評価値ペアの第２評価値がとり得る５９種類の値に対してそれぞれ割り当てられた０〜５８の番号が示されている。そして図２９のＺ方向に沿った第３軸は、評価値マップに設定された特徴量抽出枠内における、第１軸に示された番号の値を有する第１評価値と、第２軸に示された番号の値を有する第２評価値との組み合わせの頻度を示している。つまり、図２９の第３軸は、対象評価値ペアについて記憶された複数組の組み合わせにおいて、第１軸に示された番号の値を有する第１評価値と、第２軸に示された番号の値を有する第２評価値との組み合わせがいくつ存在しているかを示している。

例えば、対象評価値ペアについて記憶された複数組の組み合わせにおいて、番号０の値を有する第１評価値と、番号２の値を有する第２評価値との組み合わせが８個存在する場合には、第１軸に示される番号０及び第２軸に示される番号２に対応するビンでの頻度が“８”となる。また、対象評価値ペアについて記憶された複数組の組み合わせにおいて、番号２の値を有する第１評価値と、番号１の値を有する第２評価値との組み合わせが３個存在する場合には、第１軸に示される番号２及び第２軸に示される番号１に対応するビンでの頻度が“３”となる。本実施の形態では、２次元評価値ヒストグラムは、３４８１（＝５９×５９）個のビンを有する。

上述のようにして、特徴量取得部１３１は、３０種類の評価値ペアのそれぞれについて２次元評価値ヒストグラムを生成する。これにより、３０個の２次元評価値ヒストグラムが生成される。

特徴量取得部１３１は、３０個の２次元評価値ヒストグラムを生成すると、当該３０個の２次元評価値ヒストグラムのそれぞれについて、当該２次元評価ヒストグラムにおける３４８１個のビンでの頻度のそれぞれを、抽出用処理対象画像に設定した基準検出枠内の画像についての第２特徴量とする。これにより、抽出用処理対象画像に設定された基準検出枠内の画像から、１０４４３０（＝３４８１×３０）個の第２特徴量が抽出される。

特徴量取得部１３１は、抽出用処理対象画像に対して基準検出枠をラスタスキャンさせていく際に、基準検出枠の各位置において、上記のようにして、基準用評価値マップを用いて基準検出枠内の画像から１０４４３０個の第２特徴量を取得する。

特徴量取得部１３１では、非基準検出枠が使用される場合でも、同様にして第２特徴量が取得される。特徴量取得部１３１は、非基準検出枠に対応する抽出用サイズ変更画像のある位置にサイズ変更検出枠を設定した際には、当該非基準検出枠に対応する、評価値取得部１３０で生成された非基準用評価値マップに対して、当該ある位置と同じ位置に当該サイズ変更検出枠を設定する。そして、特徴量取得部１３１は、非基準用評価値マップに設定したサイズ変更検出枠内での評価値の共起頻度の分布を示す２次元評価値ヒストグラムを３０種類の評価値ペアのそれぞれについて生成する。

特徴量取得部１３１は、３０個の２次元評価値ヒストグラムを生成すると、当該３０個の２次元評価値ヒストグラムのそれぞれについて、当該２次元評価値ヒストグラムにおける３４８１個のビンでの頻度のそれぞれを、抽出用サイズ変更画像に設定したサイズ変更検出枠内の画像についての第２特徴量とする。これにより、抽出用サイズ変更画像に設定されたサイズ変更検出枠内の画像から１０４４３０個の第２特徴量が抽出される。

特徴量取得部１３１は、抽出用サイズ変更画像に対してサイズ変更検出枠をラスタスキャンさせていく際に、サイズ変更検出枠の各位置において、上記のようにして、非基準用評価値マップを用いてサイズ変更検出枠内の画像から１０４４３０個の第２特徴量を取得する。特徴量取得部１３１は、複数種類の非基準検出枠のそれぞれに関して、当該非基準検出枠に対応する抽出用サイズ変更画像に対して当該非基準検出枠に対応するサイズ変更検出枠をラスタスキャンさせながら、当該非基準検出枠に対応する非基準用評価値マップを用いて当該サイズ変更検出枠内の画像から１０４４３０個の第２特徴量を取得する。

なお、第１特徴量と同様に、枠内画像から抽出された１０４４３０個の第２特徴量（２次元評価値ヒストグラムの１０４４３０個のビンでの頻度）のそれぞれを上記の式（４）を用いて正規化しても良い。これにより、第２特徴量が、撮像装置５での撮像環境の変化の影響を受けにくくなる。式（４）を用いて第２特徴量を正規化する場合には、ｖは正規化前の第２特徴量となり、Ｖは正規化後の第２特徴量となる。また、ｋは、枠内画像から抽出された第２特徴量の数となり、ｋ＝１０４４３０である。そして、ｖ（ｉ）は、ｋ個の第２特徴量に対して１番〜ｋ番までをそれぞれ付与した場合における、ｉ番の正規化前の第２特徴量となる。

＜識別器に入力する特徴ベクトルについて＞
特徴量取得部１３１は、枠内画像から、５９個の第１特徴量と１０４４３０個の第２特徴量を抽出すると、これらの１０４４８９（＝５９＋１０４４３０）個の特徴量を順番で並べて得られる特徴ベクトルを生成する。特徴ベクトルの次元数は“１０４４８９”となる。そして、特徴量取得部１３１は、生成した特徴ベクトルを識別器１４に入力する。識別器１４は、上述のように、入力された特徴ベクトルと、重みベクトルとに基づいて、枠内画像が顔画像である確からしさを示す検出確度値を算出する。識別器１４で使用される重みベクトルは、上記と同様にして学習サンプルから抽出された５９個の第１特徴量及び１０４４３０個の第２特徴量から成る特徴ベクトルに基づいて生成されている。

このように、本実施の形態に係る特徴量抽出部１３は、枠内画像から、１０４４８９個の特徴量から成る特徴ベクトルを取得して識別器１４に入力する。

なお、uniformを使用して評価値がとり得る値が制限されない場合には、１次元評価値ヒストグラムでのビンの数は２５６個となり、２次元評価値ヒストグラムでのビンの数は１９６６０８０（＝２５６×２５６×３０）個となる。したがって、この場合の特徴ベクトルの次元数は１９６６３３６（＝２５６＋１９６６０８０）となる。

＜出力値マップ生成処理＞
出力値マップ生成部１５は、検出部１２での検出結果に基づいて、顔画像としての確からしさ（顔画像らしさ）を示す検出確度値についての処理対象画像での分布を示す出力値マップを生成する。

具体的には、出力値マップ生成部１５は、抽出用処理対象画像と同様に、行方向に（Ｍ−２）個の値が並び、列方向に（Ｎ−２）個の値が並ぶ、合計（（Ｍ−２）×（Ｎ−２））個の値から成るマップ６００を考える。そして、出力値マップ生成部１５は、処理対象画像についての一つの検出結果枠を対象検出結果枠とし、対象検出結果枠と同じ位置に、対象検出結果枠と同じ大きさの枠６１０をマップ６００に対して設定する。図３０は、マップ６００に対して枠６１０を設定した様子を示す図である。

次に出力値マップ生成部１５は、マップ６００における、枠６１０外の各値については“０”とし、枠６１０内の各値については、対象検出結果枠に対応する検出確度値（対象検出結果枠となった検出枠内の画像に対して顔画像の検出を行った結果得られた検出確度値）を用いて決定する。対象検出結果枠の大きさが、例えば１６ｐ×１６ｐであるとすると、枠６１０内には、行方向に１６個、列方向に１６個、合計２５６個の値が存在する。また、対象検出結果枠の大きさが、例えば２０ｐ×２０ｐであるとすると、枠６１０内には、行方向に２０個、列方向に２０個、合計４００個の値が存在する。図３１は、枠６１０内の各値を決定する方法を説明するための図である。

出力値マップ生成部１５は、枠６１０内の中心６１１の値を、検出部１２で求められた、対象検出結果枠に対応する検出確度値とする。そして、出力値マップ生成部１５は、枠６１０内のそれ以外の複数の値を、枠６１０の中心６１１の値を最大値とした正規分布曲線に従って枠６１０内の中心６１１から外側に向けて値が徐々に小さくなるようにする。これにより、マップ６００を構成する複数の値のそれぞれが決定されて、対象検出結果枠に対応するマップ６００が完成する。

以上のようにして、出力値マップ生成部１５は、処理対象画像についての複数の検出結果枠にそれぞれ対応する複数のマップ６００を生成する。そして、出力値マップ生成部１５は、生成した複数のマップ６００を合成して出力値マップを生成する。

具体的には、出力値マップ生成部１５は、生成した複数のマップ６００のｍ×ｎ番目の値を加算し、それによって得られた加算値を出力値マップのｍ×ｎ番目の検出確度値とする。出力値マップ生成部１５は、このようにして、出力値マップを構成する各検出確度値を求める。これにより、処理対象画像での検出確度値の分布を示す出力値マップが完成される。出力値マップは、抽出用処理対象画像と同様に、（（Ｍ−２）×（Ｎ−２））個の検出確度値で構成される。出力値マップを参照すれば、処理対象画像において顔画像らしさが高い領域を特定することができる。つまり、出力値マップを参照することによって、処理対象画像おける顔画像を特定することができる。

図３２は、処理対象画像２０についての出力値マップを当該処理対象画像２０に重ねて示す図である。図３２には、評価値マップとしてネガティブＬＴＰマップが使用された際の出力値マップが示されている。図３２及び後述の図３３では、理解し易いように、検出確度値の大きさを例えば第１段階から第５段階の５段階に分けて出力値マップを示している。図３２，３３に示される出力値マップにおいては、検出確度値が、最も大きい第５段階に属する領域については砂地のハッチングが示されており、２番目に大きい第４段階に属する領域については左上がりのハッチングが示されている。また、図３２，３３での出力値マップにおいては、検出確度値が、３番目に大きい第３段階に属する領域については右上がりのハッチングが示されており、４番目に大きい第２段階に属する領域については縦線のハッチングが示されている。そして、図３２，３３に示される出力値マップにおいては、検出確度値が、最も小さい第１段階に属する領域についてはハッチングが示されていない。

図３２に示される出力値マップにおいては、処理対象画像２０での顔画像に対応する領域での検出確度値が高くなっている。これは、処理対象画像２０に含まれる顔画像が適切に検出されていることを意味する。

図３３は、本実施の形態とは異なり、枠内画像から第１特徴量（１次元評価値マップでの各ビンの頻度）だけが抽出され、識別器１４には第１特徴量だけから成る特徴ベクトルが入力された際の出力値マップを処理対象画像２０に重ねて示す図である。図３３では、図３２と同様に、評価値マップとしてネガティブＬＴＰマップが使用された際の出力値マップが示されている。

図３３に示されるように、第１特徴量だけが使用されて顔検出が行われることによって得られた出力値マップでは、検出確度値が大きくなっている、処理対象画像２０での非顔画像に対応する領域が多くなっている。したがって、顔画像を誤検出する可能性が高くなる。

このように、本実施の形態に係る画像検出装置１では、第１特徴量だけが使用されて顔検出が行わる場合と比較して、顔画像についての検出精度が高くなっている。

画像検出装置１は、出力値マップを生成すると、当該出力値マップに基づいて、処理対象画像での顔画像を特定する。具体的には、画像検出装置１は、出力値マップにおいて、検出確度値がしきい値以上である領域を特定し、処理対象画像での当該領域と同じ位置に存在する領域を顔画像であると認定する。そして、画像検出装置１は、処理対象画像を表示装置で表示する際に、当該処理対象画像での顔画像を四角枠等が囲うようにする。

また、画像検出装置１は、予め登録された顔画像と、処理対象画像において特定した顔画像とを比較し、両者が一致するか否かを判定しても良い。そして、画像検出装置１は、予め登録された顔画像と、処理対象画像において特定した顔画像と一致しない場合には、処理対象画像での当該顔画像に対してモザイク処理を行った上で、当該処理対象画像を表示装置に表示しても良い。これにより、本実施の形態に係る画像検出装置１を監視カメラシステムに使用した場合において、監視カメラによって隣家の人の顔画像が撮影された場合であっても、当該顔画像を認識できないようにすることができる。つまり、プライバシーマスクを実現することができる。

以上のように、本実施の形態に係る特徴量抽出装置１３（特徴量抽出部１３）では、注目画素値と複数の周囲画素値との関係を示す評価値についての共起頻度を特徴量としていることから、顔画像の検出等の画像検出に適切な特徴量を得ることができる。よって、本実施の形態のように、処理対象画像から検出対象画像を検出する画像検出装置１において特徴量抽出装置１３を使用し、特徴量抽出装置１３において画像から抽出された特徴量に基づいて、当該画像が検出対象画像である可能性が高いかを判定することによって、判定精度を向上することができる。したがって、検出対象画像についての誤検出を抑制することができる。つまり、検出対象画像についての検出精度が向上する。

また、画像の局所的なテクスチャを示すＬＢＰ、ネガティブＬＴＰあるいはポジティブＬＴＰに基づく特徴量を使用して顔画像の検出を行うことによって、ＨＯＧ（Histgrams of Oriented Gradients）特徴量あるいはＨａａｒ−ｌｉｋｅ特徴量だけを使用する場合よりも顔画像についての検出精度を向上することができる。

また、本実施の形態では、第２特徴量を使用することによって検出対象画像についての検出精度が向上することから、処理量を低減するために第１及び第２特徴量の正規化を行わず、そのために第１及び第２特徴量が撮像環境の変化の影響を受けやすくなったとしても、検出対象画像についての検出精度を維持することができる。

なお、上記の例では、識別器１４に入力される特徴ベクトルには、第１特徴量と第２特徴量の両方が含まれていたが、第１特徴量が含まれていなくても良い。つまり、特徴ベクトルには、少なくとも第２特徴量（評価値の共起頻度）が含まれていれば良い。

また、特徴ベクトルには、ＬＢＰマップから取得された第２特徴量、ポジティブＬＴＰマップから取得された第２特徴量、及びネガティブＬＴＰマップから取得された第２特徴量のうちの少なくとも２種類の第２特徴量が含まれても良い。例えば、特徴ベクトルには、ＬＢＰマップから取得された第２特徴量、ポジティブＬＴＰマップから取得された第２特徴量、及びネガティブＬＴＰマップから取得された第２特徴量が含まれても良いし、ポジティブＬＴＰマップから取得された第２特徴量及びネガティブＬＴＰマップから取得された第２特徴量が含まれても良い。

また、特徴ベクトルには、ＨＯＧ特徴量、Ｈａａｒ−ｌｉｋｅ特徴量などの他の種類の特徴量が含まれても良い。

＜各種変形例＞
以下に本実施の形態についての各種変形例について説明する。

＜第１変形例＞＞
枠内画像から特徴量を抽出する際には、枠内画像を複数のブロックに分割し、各ブロックから個別に特徴量を抽出し、抽出された当該複数のブロックについての特徴量を当該枠内画像についての特徴量としても良い。これにより、枠内画像を構成する複数のブロックのそれぞれについて独立した特徴量を抽出することができる。したがって、顔の一部が隠れている場合であっても、処理対象画像から当該顔についての顔画像を適切に検出することが可能となる。以下に、枠内画像が行列状に４つのブロックに分割される場合を例に挙げて、本変形例について説明する。

特徴量取得部１３１は、図３４に示されるように、抽出対象画像７００のある位置に特徴量抽出枠７１０を設定すると、特徴量抽出枠７１０内の画像（枠内画像）を行列状に４つの画像ブロック７２０に分割する。また、特徴量取得部１３１は、評価値マップ８００に対して、抽出対象画像７００に設定した特徴量抽出枠７１０と同じ位置に特徴量抽出枠７１０を設定すると、特徴量抽出枠７１０内の領域を行列状に４つの評価値ブロック８２０に分割する。そして、特徴量取得部１３１は、４つの評価値ブロック８２０のそれぞれについて、当該評価値ブロック８２０に含まれる複数の評価値を用いて、上述のようにして複数の第１特徴量と複数の第２特徴量を求める。第１特徴量の数及び第２特徴量の数は、評価値ブロック８２０に含まれる複数の評価値の数に依存する。以後、一つの評価値ブロック８２０について求められた、複数の第１特徴量及び複数の第２特徴量をまとめて「特徴量群」と呼ぶ。

特徴量取得部１３１は、複数の評価値ブロック８２０のそれぞれについて、当該評価値ブロック８２０の特徴量群を求めると、当該特徴量群を、当該評価値ブロック８２０と同じ位置にある画像ブロック７２０についての特徴量とする。これにより、枠内画像を構成する４つの画像ブロック７２０のそれぞれから独立して特徴量が抽出される。特徴量取得部１３１は、枠内画像を構成する４つの画像ブロック７２０から特徴量を抽出すると、当該４つの画像ブロック７２０の特徴量から成るベクトルを当該枠内画像についての特徴ベクトルとして識別器１４に入力する。識別器１４は、入力された特徴ベクトルと重みベクトルに基づいて、当該枠内画像が顔画像である確からしさを示す検出確度値を算出する。

＜第２変形例＞
上述のように、評価値の共起頻度を特徴量として使用することによって、検出対象画像についての誤検出を抑制することができることから、処理量を低減するために特徴ベクトルの次元数を低減させたとしても検出対象画像の検出精度を維持することができる。

そこで、本変形例では、評価値取得部１３０は、評価値を求める際には、注目画素に対する斜め方向の周囲画素値は使用しないようにする。例えば、評価値取得部１３０は、注目画素に対して右上、左上、右下及び左下の方向の周囲画素値はすべて使用しない。これにより、評価値の取得では、上方向の周囲画素値、下方向の周囲画素値、右方向の周囲画素値及び左方向の周囲画素値だけが使用されることから、評価値は８ビットから４ビットで表現されることになり、評価値の情報量が低減する。したがって、評価値がとり得る値は０〜１５の１６種類となり、評価値がとり得る値の種類の数が低減する。なお、右上、左上、右下及び左下の方向の周囲画素値のうち少なくとも一つの周囲画素値を評価値の取得で使用しないことによって、評価値がとり得る値の種類の数を低減することができる。

このように、評価値がとり得る値の種類の数が低減することによって、１次元評価値ヒストグラム及び２次元評価値ヒストグラムでのビンの数を低減することができる。よって、特徴量抽出部１３での特徴ベクトルの生成処理についての処理量を低減できるとともに、識別器１４での処理量を低減することができる。

また、評価値の取得で、斜め方向の周囲画素値が使用されない場合には、注目画素からの距離が“１”である当該斜め方向の周囲位置での画素値を画素値補間処理によって求める必要がないことから、評価値取得部１３０での処理量がさらに低減する。

また、評価値の取得で、右上、左上、右下及び左下の方向の周囲画素値がすべて使用されない場合には、評価値が４ビットで表現されることから、上記のようにuniformを使用して評価値がとり得る値の種類を制限したとしてもそれほど効果が現れない。よって、この場合には、uniformを使用して評価値がとり得る値の種類を制限しないようにする。つまり、評価値取得部１３０は、複数のビット（４ビット）で構成されるテクスチャ表現コード（より正確にはそれを十進数で表した値）を、当該複数のビットを順に見ていった際のビット変化の回数にかかわらず、評価値として使用する。これにより、評価値がとり得る値の種類を制限する処理が不要となることから、評価値取得部１３０での処理量が低減する。

なお、評価値が４ビットで表現され、uniformを使用して評価値がとり得る値の種類が制限されない場合には、１次元評価値ヒストグラムのビンの数は１６個となり、２次元評価値ヒストグラムのビンの数は２５６（＝１６×１６）個となる。したがって、枠内画像から抽出される特徴ベクトルは、７６９６（＝１６＋２５６×３０）個の特徴量で構成され、７６９６次元となる。

＜第３変形例＞
図３６に示されるように、昼間など撮像環境が明るい場合には、人の顔における、目などの比較的暗い部分と、周囲との明暗がはっきりとなる。したがって、撮像環境が明るい場合には、注目画素の周囲での、当該注目画素よりも暗い画素の分布状況を示すネガティブＬＴＰで構成されたネガティブＬＴＰマップから取得された特徴量に基づいて顔画像の検出を行うことによって、検出精度を向上させることができる。

一方で、図３７に示されるように、夜間など撮像環境が暗い場合には、人の顔における、頬などの比較的明るい部分と、周囲との明暗がはっきりとなる。したがって、撮像環境が暗い場合には、注目画素の周囲での、当該注目画素よりも明るい画素の分布状況を示すポジティブＬＴＰで構成されたポジティブＬＴＰマップから取得された特徴量に基づいて顔画像の検出を行うことによって、検出精度を向上させることができる。

そこで、本変形例に係る画像処理システム５０では、画像検出装置１が、撮像装置５での撮像環境が明るい場合には、ネガティブＬＴＰマップを使用して顔画像の検出を行い、撮像装置５での撮像環境が暗い場合には、ポジティブＬＴＰマップを使用して顔画像の検出を行う。以下に、本変形例に係る画像処理システム５０について詳細に説明する。

図３８は本変形例に係る画像処理システム５０の構成を示す図である。図３８に示されるように、本変形例に係る画像処理システム５０では、撮像装置５に照度センサー５ａが設けられている。照度センサー５ａは、撮像装置５での撮像環境の照度を検出し、検出した照度を示す検出信号を出力する。

図３９は、本変形例に係る画像検出装置１の機能ブロックを示す図である。図３９に示されるように、本変形例に係る画像検出装置１は、照度センサー５ａから出力される検出信号に基づいて、撮像装置５での撮像環境が明るいか否かを判定する判定部１６を備えている。判定部１６は、検出部１２において処理対象画像についての検出処理が行われる際に、照度センサー５ａから出力される検出信号を参照する。そして、判定部１６は、当該検出信号が示す照度がしきい値以上であれば撮像環境は明るいと判定し、当該照度が当該しきい値未満であれば撮像環境は暗いと判定する。

本変形例では、特徴量抽出部１３は、判定部１６において撮像環境が明るいと判定されると、ネガティブＬＴＰマップを生成する。そして、特徴量抽出部１３は、生成したネガティブＬＴＰマップを用いて特徴ベクトルを生成して識別器１４に入力する。一方で、特徴量抽出部１３は、判定部１６において撮像環境が暗いと判定されると、ポジティブＬＴＰマップを生成する。そして、特徴量抽出部１３は、生成したポジティブＬＴＰマップを用いて特徴ベクトルを生成して識別器１４に入力する。

このように、撮像環境が明るいか暗いかによって、使用する評価値マップの種類を切り替えることによって、顔画像についての検出精度がさらに向上する。

＜第４変形例＞
画素値が輝度であって、画素値が８ビットで表現される際には、ＬＴＰの生成で使用されるオフセット値を“８”に設定することによって、顔画像についての検出精度が向上する。以下に、この理由について説明する。

図４０は、顔画像サンプルについての隣接画素間の輝度差の頻度分布（度数分布）を示す頻度曲線（度数曲線）９００と、非顔画像サンプルについての隣接画素間の輝度差の頻度分布を示す頻度曲線９１０とを示す図である。図４０の横軸は、画素間の輝度差がとり得る値を示している。図４０の縦軸は、横軸に示された値を有する輝度差の頻度（度数）を示している。頻度曲線９００,９１０については以下のようにして求められる。

まず、様々な複数枚の顔画像サンプルを用意する。次に、顔画像サンプルを構成する複数の画素のそれぞれについて、当該画素と、それに隣接する３つの画素（真下の画素、右下の画素、右の画素）のそれぞれとの間の輝度差を求める。この輝度差を求める処理を、用意した複数枚の顔画像サンプルのそれぞれについて行う。そして、複数枚の顔画像サンプルについて得られた複数の輝度差についての頻度分布を求める。次に、求めた頻度分布での各頻度を顔画像サンプルの枚数で除算し、１枚の顔画像サンプルについての平均的な頻度分布を生成する。その後、当該頻度分布を示すヒストグラムを生成する。頻度曲線９００は、生成したヒストグラムの複数のビンの頂点を曲線で結んだものである。

また、様々な複数枚の非顔画像サンプルを用意する。そして、非顔画像サンプルを構成する複数の画素のそれぞれについて、当該画素と、それに隣接する３つの画素（真下の画素、右下の画素、右の画素）のそれぞれとの間の輝度差を求める。この輝度差を求める処理を、用意した複数枚の非顔画像サンプルのそれぞれについて行う。そして、複数枚の非顔画像サンプルについて得られた複数の輝度差についての頻度分布を求める。次に、求めた頻度分布での各頻度を非顔画像サンプルの枚数で除算し、１枚の非顔画像サンプルについての平均的な頻度分布を生成する。その後、当該頻度分布を示すヒストグラムを生成する。頻度曲線９１０は、生成したヒストグラムの複数のビンの頂点を曲線で結んだものである。

図４０に示されるように、非顔画像サンプルについての隣接画素間の輝度差の頻度分布を示す頻度曲線９１０は、全体的に正規分布曲線に近い形を成している。これは、非顔画像については、隣接画素間の輝度差に何ら特徴が見られないからであり、輝度差が２〜３あたりでピークとなっているのはノイズの影響である。

一方で、顔画像サンプルについての隣接画素間の輝度差の頻度分布を示す頻度曲線９００は、輝度差が８未満の部分では、正規分布曲線に近い形となって頻度曲線９１０と相似形となっているが、輝度差が８以上の部分では、正規分布曲線からくずれており、頻度曲線９１０とは相似形ではない。顔画像については、隣接画素間の輝度差に特徴が見られるため、頻度曲線９００については本来的には正規分布曲線とはならないが、ノイズの影響により、輝度差が８未満の部分では正規分布曲線に近い形となっているものと思われる。

ここで、仮に頻度曲線９００，９１０がともに正規分布曲線であれば、頻度曲線９００，９１０は互いに交差することはない。しかしながら、図４０に示されるように、頻度曲線９００，９１０は輝度差８で交差していることから、輝度差が８以上において、顔画像の特徴が現れて、頻度曲線９１０の形が正規分布曲線からくずれていると見ることができる。

このように、顔画像サンプルについての頻度曲線９００と、非顔画像サンプルについての頻度曲線９１０とを比較すると、隣接画素間の輝度差が８以上となれば、両者は非相似形となっている。このことから、隣接画素間の輝度差が８以上の場合に、ノイズの影響が小さくなって、顔画像の特徴が現れると考えることができる。

そこで、ネガティブＬＴＰマップあるいはポジティブＬＴＰマップを使用して特徴量を抽出する際には、ＬＴＰを生成する際のオフセット値を“８”に設定する。これにより、ネガティブＬＴＰあるいはポジティブＬＴＰは、顔画像の特徴を適切に表すことができ、ネガティブＬＴＰマップあるいはポジティブＬＴＰマップを使用して抽出された特徴量に基づいて顔画像の識別を行うことによって、顔画像についての検出精度が向上する。

上記において画像処理システム５０は詳細に説明されたが、上記した説明は、全ての局面において例示であって、この発明がそれに限定されるものではない。また、上述した各種の例は、相互に矛盾しない限り組み合わせて適用可能である。そして、例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。

１画像検出装置
４制御プログラム
１３特徴量抽出装置（特徴量抽出部）
１３０評価値取得部
１３１特徴量取得部

Claims

画像から特徴量を抽出する特徴量抽出装置であって、
前記画像に含まれる複数の画素のそれぞれを注目画素とし、当該注目画素の画素値と複数の周囲画素値との関係を示す評価値を求める評価値取得部と、
前記画像に含まれる前記複数の画素について求められた前記評価値についての共起頻度を求めて、当該共起頻度を前記特徴量とする特徴量取得部と
を備える、特徴量抽出装置。
請求項１に記載の特徴量抽出装置であって、
前記特徴量取得部は、前記共起頻度を正規化せずに前記特徴量とする、特徴量抽出装置。
請求項１及び請求項２のいずれか一つに記載の特徴量抽出装置であって、
前記評価値取得部は、前記評価値を求める際には、注目画素に対して斜め方向の周囲画素値は使用しない、特徴量抽出装置。
請求項３に記載の特徴量抽出装置であって、
前記評価値取得部は、前記評価値を求める際には、注目画素に対して右上、左上、右下及び左下の方向の周囲画素値はすべて使用しない、特徴量抽出装置。
請求項４に記載の特徴量抽出装置であって、
前記評価値取得部は、前記評価値の取得で使用する複数の周囲画素値のそれぞれについて、当該周囲画素値と注目画素の画素値との関係を示す１ビットを生成し、当該複数の周囲画素値について生成した複数のビットで構成されるバイナリコードを、当該複数のビットを順に見ていった際のビット変化の回数にかかわらず、当該評価値として使用する、特徴量抽出装置。
請求項１乃至請求項４のいずれか一つに記載の特徴量抽出装置であって
前記評価値取得部は、前記評価値の取得で使用する複数の周囲画素値のそれぞれについて、当該周囲画素値と注目画素の画素値との関係を示す１ビットを生成し、当該複数の周囲画素値について生成した複数のビットで構成されるバイナリコードを当該評価値として使用し、
前記１ビットは、周囲画素値が、注目画素の画素値から所定量だけ減算して得られる値以下であれば“１”を示し、当該値よりも大きければ“０”を示す、特徴量抽出装置。
請求項１乃至請求項４のいずれか一つに記載の特徴量抽出装置であって
前記評価値取得部は、前記評価値の取得で使用する複数の周囲画素値のそれぞれについて、当該周囲画素値と注目画素の画素値との関係を示す１ビットを生成し、当該複数の周囲画素値について生成した複数のビットで構成されるバイナリコードを当該評価値として使用し、
前記１ビットは、周囲画素値が、注目画素の画素値に所定量だけ加算して得られる値以上であれば“１”を示し、当該値未満であれば“０”を示す、特徴量抽出装置。
請求項１乃至請求項４のいずれか一つに記載の特徴量抽出装置であって
前記評価値取得部は、前記評価値の取得で使用する複数の周囲画素値のそれぞれについて、当該周囲画素値と注目画素の画素値との関係を示す１ビットを生成し、当該複数の周囲画素値について生成した複数のビットで構成されるバイナリコードを当該評価値として使用し、
前記１ビットは、周囲画素値が、注目画素の画素値以上であれば“１”を示し、注目画素の画素値未満であれば“０”を示す、特徴量抽出装置。
処理対象画像から検出対象画像を検出する画像検出装置であって、
請求項１乃至請求項８のいずれか一つに記載の特徴量抽出装置と、
前記特徴量抽出装置において、前記処理対象画像に含まれる画像から抽出された特徴量に基づいて、当該画像が前記検出対象画像である可能性が高いかを判定する識別器と
を備える、画像検出装置。
請求項９に記載の画像検出装置であって、
前記検出対象画像は、人の顔画像である、画像検出装置。
画像から特徴量を抽出する装置を制御するための制御プログラムであって、
前記装置に、
（ａ）前記画像に含まれる複数の画素のそれぞれを注目画素とし、当該注目画素の画素値と複数の周囲画素値との関係を示す評価値を求める工程と、
（ｂ）前記画像に含まれる前記複数の画素について求められた前記評価値についての共起頻度を求めて、当該共起頻度を前記特徴量とする工程と
を実行させるための制御プログラム。
画像から特徴量を抽出する特徴量抽出方法であって、
（ａ）前記画像に含まれる複数の画素のそれぞれを注目画素とし、当該注目画素の画素値と複数の周囲画素値との関係を示す評価値を求める工程と、
（ｂ）前記画像に含まれる前記複数の画素について求められた前記評価値についての共起頻度を求めて、当該共起頻度を前記特徴量とする工程と
を備える、特徴量抽出方法。