JP6448204B2

JP6448204B2 - 物体検出装置、物体検出方法及びプログラム

Info

Publication number: JP6448204B2
Application number: JP2014069687A
Authority: JP
Inventors: 大介中嶋; ソクイチン
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-03-28
Filing date: 2014-03-28
Publication date: 2019-01-09
Anticipated expiration: 2034-03-28
Also published as: US9659227B2; JP2015191545A; US20150279039A1

Description

本発明は、特に、様々な姿勢の物体を検出するために用いて好適な物体検出装置、物体検出方法及びプログラムに関する。

従来、画像に含まれる顔や、人体等の対象物を検出する技術が提案されている。この技術では、一般的に以下のような処理により画像中の対象物を検出する。まず、対象物が存在するかどうかを判定する領域を設定し、その領域から所定の特徴量を抽出する。そして、予め機械学習により作成した識別器が特徴量を参照して、その領域に対象物が存在するかどうかを判定する。

ここで、画像中には様々な姿勢の対象物が存在する。同じ対象物であっても姿勢により特徴量のパターンが変化するため、同一の識別器を用いてすべての姿勢の対象物を高精度に検出することは困難である。そこで、特許文献１には、特定の姿勢の対象物を検出することに特化した識別器を複数用意する手法が提案されている。この手法において、１つの識別器が検出対象とする姿勢を限定することにより、すべての姿勢に対して同一の識別器を用いるよりも様々な姿勢の対象物を高精度に検出できるようにしている。

また、特許文献２〜７には、回転及び反転の関係にある姿勢に対して識別器を共通化する手法が提案されている。これらの手法では、回転及び反転の関係にある特徴量を生成することにより、１つの姿勢に対する識別器を用いてその姿勢の回転及び反転の関係にある姿勢の対象物を検出する。具体的な例として、特許文献２〜４には、画像を回転及び反転し、それぞれの画像から特徴量を抽出する手法が提案されている。また、特許文献５及び６には、特徴量を算出するために用いる画素位置を回転及び反転に応じて変更する手法が提案されている。さらに、特許文献７には、算出した特徴量の参照位置と特徴量の値とを回転及び反転に応じて変換する手法が提案されている。一方、非特許文献１及び２には、回転及び反転に不変な特徴量を取り扱う手法が提案されている。

図１２は、対象物の検出において一般に用いられるＢｏｏｓｔｉｎｇ識別器（非特許文献３を参照）による処理の流れを説明するための図である。識別処理１２０１〜１２０Ｎはそれぞれ１、２、Ｎ番目の識別処理であり、１〜Ｎの順に識別処理を実行する。それぞれの識別処理では、予め機械学習により作成した識別パラメータに従って特徴量を参照し、対象物が存在する（Ｔｒｕｅ）もしくは存在しない（Ｆａｌｓｅ）と判定する。

図１２に示す例の場合、Ｔｒｕｅであると判定されると次の識別処理に移り、すべての識別処理の判定結果がＴｒｕｅであった場合に、その領域に対象物が存在すると判定する。一方、いずれかの識別処理の判定結果がＦａｌｓｅであった場合は、その時点で領域内に対象物は存在しないと判定する。このように対象物を高精度に検出するためには多数の識別処理が必要であるが、識別処理の数が増えると識別パラメータのサイズが増大する。

特許第５０２５８９３号公報特許第４６２８８８２号公報特許第４２３８５３７号公報特開２００９−３２０２２号公報特許第４５５６８９１号公報国際公開第０９／０７８１５５号特開２０１２−２０３６９１号公報

T. Ojala, M. Pietikainen, and T. Maenpaa, "Multiresolution Gray-Scale and Rotation Invariant Texture Classification with Local Binary Patterns", IEEE Trans. on PAMI, Vol. 24, No. 7, pp. 971-987, 2002. Q. Tao, and R. Veldhuis, "Illumination Normalization Based on Simplified Local Binary Patterns for A Face Verification System", Biometrics Symposium, pp. 1-6, 2007. P. Viola, and M. Jones, "Rapid Object Detection Using a Boosted Cascade of Simple Features", CVPR2001, Vol. 1, pp. 511-518.

前述したように、画像中の様々な姿勢の対象物を高精度に検出するためには、対象物の姿勢に応じて異なる識別器を用意する必要がある。しかし、特許文献１に記載の手法のように、検出対象とする姿勢それぞれに対して識別器を用意すると、識別パラメータのサイズが増大するという課題がある。例えば、図１０に示すように、顔の姿勢を９種類に分類した場合には、９種類の識別器それぞれに対して識別パラメータを用意する必要がある。

一方、回転及び反転の関係にある姿勢に対する識別器を共通化することによって、識別パラメータのサイズを削減することが可能である。例えば、図１０に示した例の場合は、回転の関係にある識別器を共通化し、例えば姿勢１００２、１００５、１００８の３種類の識別パラメータを用意する。他の例としては、左右反転の関係にある識別器を共通化し、例えば姿勢１００１〜１００５の５種類の識別パラメータを用意する。

しかしながら特許文献２〜４に記載された方法のように、元の画像を回転及び反転処理した後にそれぞれの画像から特徴量を抽出する場合には、特徴量の抽出処理を繰り返し実行する必要があり、処理時間が長くなるという課題がある。

また、特許文献５及び６に記載の手法によれば、画像を回転及び反転処理せずに、画素の参照位置を変更することによって回転及び反転の関係にある特徴量を生成することが可能である。しかし、この手法が適用可能なのは、元の画素値をそのまま参照する場合に限られるという課題がある。画像からＬＢＰ（Local Binary Pattern）のような複数の画素間の関係性を考慮した特徴量を抽出し、特徴量を参照する場合、回転及び反転により画素の関係性が変化する。このため、対象物を高精度に検出するためには、参照位置だけではなく特徴量の値も合わせて変換する必要がある。

また、特許文献７に記載の方法では、画像から特徴量を抽出し、抽出した特徴量の参照位置と、その参照位置における特徴量の値とを変換して回転及び反転の関係にある特徴量を生成するが、特徴量の値を変換するための変換テーブルを必要とする。このように変換テーブルを用いることを前提としているため、特徴量のビット数が大きい場合には変換するためのコストが増大するという課題がある。例えば、特徴量のビット数が１６である場合、１６×２¹⁶＝１Ｍｂｉｔの変換テーブルが必要となる。

また、非特許文献１及び２に記載の方法によれば、回転及び反転に不変な特徴量を抽出するため、特徴量の値を変換する処理が不要であるが、特徴量には画像の方向特性に関する情報を含まれていない。このため、方向特性に関する情報を含む特徴量と比較して検出精度が低下するという課題がある。

本発明は前述の問題点に鑑み、物体を検出するための特徴量を、簡単に、かつ精度よく生成できるようにすることを目的としている。

本発明に係る物体検出装置は、入力画像から画素ごとに所定の方向に対する画素値の変化するパターンを示す方向特性のパターンを抽出する抽出手段と、前記抽出手段によって抽出された方向特性のパターンに基づいて第１の特徴量を生成する生成手段と、前記生成手段によって生成された第１の特徴量を回転または軸に対して反転させて第２の特徴量に変換する変換手段と、前記第１の特徴量及び前記第２の特徴量を用いて物体を検出する検出手段とを備え、前記生成手段は、前記方向特性が回転する関係、及び軸に対して反転する関係の少なくともいずれかに基づいた計算式により第１の特徴量を生成することを特徴とする。

本発明によれば、元の特徴量から回転または反転の関係にある特徴量を生成するコストを低減して、特徴量を簡単にかつ精度よく生成することができる。

各実施形態におけるパターン識別装置の機能構成例を示すブロック図である。第１の実施形態において、左右反転処理を実行する場合の特徴量変換部の詳細な構成例を示すブロック図である。第１の実施形態において、回転処理を実行する場合の特徴量変換部の詳細な構成例を示すブロック図である。ＵＬＢＰ特徴量における各方向特性の位置関係の例を示す図である。第１の実施形態において、回転を考慮したＵＬＢＰ特徴量のエンコード方法を説明するための図である。第１の実施形態において、左右反転を考慮したＵＬＢＰ特徴量のエンコード方法を説明するための図である。第１の実施形態における識別パラメータセットの例を示す図である。第１の実施形態におけるＵＬＢＰ特徴量を格納する際の格納形式を説明するための図である。元の座標と回転後または左右反転後の座標との関係を説明するための図であ異なる姿勢の顔の一例を示す図である。第１の実施形態において、評価部により行われる処理手順の一例を示すフローチャートである。Ｂｏｏｓｔｉｎｇ識別器による処理の流れを説明するための図である。第１の実施形態において、上下反転を考慮したＵＬＢＰ特徴量のエンコード方法を説明するための図である。第２の実施形態において、回転及び左右反転及び上下反転を考慮したエンコード方法を説明するための図である。第２の実施形態において、回転処理及び左右反転処理を実行する場合の特徴量変換部の詳細な構成例を示すブロック図である。第３の実施形態における特徴量変換部の詳細な構成例を示すブロック図である。第３の実施形態における識別パラメータセットの例を示す図である。第３の実施形態において、ヒストグラムのビン入替の例を説明するための図である。その他の実施形態として回転を考慮した特徴量のエンコード方法を説明するための図である。

（第１の実施形態）
以下、第１の実施形態について、図面を参照しながら詳細に説明する。本実施形態では、パターン識別装置（物体検出装置）を用いて画像中に存在する様々な姿勢の対象物（物体）を検出する例を説明する。ここで、姿勢とは対象物の画像上での見え方のことであり、撮像装置に対する対象物の向きにより変化するものである。なお、本実施形態では、特徴量としてＵＬＢＰ（Uniform Local Binary Pattern）特徴量を使用し、識別器としてＢｏｏｓｔｉｎｇ識別器を使用する例について説明するが、これに限るわけではない。例えば、画像から方向特性パターンを抽出し、方向特性パターンを所定の値にエンコードして得られる他の特徴量に対しても本発明は適用可能である。また、サポートベクトルマシンやニューラルネットワーク等の他の識別器に対しても適用可能である。

図１は、本実施形態におけるパターン識別装置１００の機能構成例を示すブロック図である。
図１において、画像入力部１０１は、光学系デバイスおよび光電変換デバイス並びにセンサーを制御するドライバー回路や、ＡＤコンバーター、各種画像補正を司る信号処理回路、フレームバッファ等により構成されている。特徴量抽出部１０９は、画像入力部１０１が取得した画像から特徴量を抽出する。なお、特徴量抽出部１０９は、さらに方向特性抽出部１０２とエンコード部１０３とから構成されている。

方向特性抽出部１０２は、画像中の各（ｘ，ｙ）座標における方向特性パターンを抽出する。ここで、方向特性パターンとは、所定の方向に対する画素値の変化パターンを意味する。ＵＬＢＰ特徴量における方向特性パターンは、以下の式（１）を用いて計算される。

ここで、ｉ（ｘ，ｙ）は、座標（ｘ，ｙ）における入力画素値（注目画素の値）を表し、ｄ_n（ｘ，ｙ）は、座標（ｘ，ｙ）における方向ｎに対する特性（方向特性パターン）を表す。また、座標（ｘ_n，ｙ_n）は、参照画素の注目画素に対する相対位置を表し、ｘ_n＝｛−１，０，１｝、ｙ_n＝｛−１，０，１｝、及びｘ_n ²＋ｙ_n ²≠０を満たすものとする。

式（１）に示すように、ＵＬＢＰ特徴量における方向特性パターンｄ_n（ｘ，ｙ）は、注目画素の値ｉ（ｘ，ｙ）と各方向における参照画素の値ｉ（ｘ＋ｘ_n，ｙ＋ｙ_n）との大小関係を示す。つまり、参照画素の値が注目画素の値以上である場合はその方向の特性は１であり、そうでない場合はその方向の特性は０となる。なお、図４には、ＵＬＢＰ特徴量における各方向特性の位置関係の例を示しており、図４に示す例では、左上の位置を起点とし、時計周りに特性はｄ₀〜ｄ₇となる。

エンコード部１０３は、方向特性抽出部１０２によって算出された方向特性パターンに対応する値を割り当てる。エンコード部１０３は、方向特性パターンを入力とする変換テーブルを備え、公知のＲＡＭ、レジスタ等により記憶される。本実施形態における方向特性パターンは、方向の数が８であり、各方向の特性は０または１であるため、８ビットで表現される。そのため、変換テーブルのサイズは２５６×８ビットとなる。ＵＬＢＰ特徴量におけるエンコード処理では、以下の式（２）を用いて計算される。

ここで、ＵＬＢＰ（ｘ，ｙ）は、座標（ｘ，ｙ）におけるＵＬＢＰ特徴量を表し、ｖ（ｄ₀（ｘ，ｙ），．．．，ｄ₇（ｘ，ｙ））は、方向特性パターンに応じて割り当てられる値を表している。ここで、式（２）中のｔ（ｘ，ｙ）は、以下の式（３）により定義される関数であり、隣り合う方向特性の変化回数を示す。

式（２）に示すように、ＵＬＢＰ特徴量におけるエンコード処理では、隣り合う方向特性の変化回数が２回以下の方向特性パターンに対してはそれぞれ固有の値を与え、その他の方向特性パターンには同一の値を与える。ここで、本実施形態では、前者の方向特性パターンのことをＵｎｉｆｏｒｍパターンと呼ぶ。例えば、方向特性パターンが"１１１００００"である場合は、変化回数が２回であるためＵｎｉｆｏｒｍパターンであり、方向特性パターンが"００１１１０１０"である場合は、変化回数が４回であるためＵｎｉｆｏｒｍパターンではない。本実施形態におけるＵＬＢＰ特徴量では、Ｕｎｉｆｏｒｍパターンは５８種類存在するため、Ｕｎｉｆｏｒｍパターンにはそれぞれ「０」〜「５７」の値を与え、その他のパターンには「５８」を与える。

従来のエンコード処理では、Ｕｎｉｆｏｒｍパターンに値を割り当てる際に、Ｕｎｉｆｏｒｍパターン間の回転や反転の関係性は考慮されていない。そのため、元のＵＬＢＰ特徴量から回転及び反転後のＵＬＢＰ特徴量を生成するためには、元の値と回転及び反転後の値との対応関係を示す変換テーブルが必要となる。この場合、ＵＬＢＰ特徴量の値は「０」〜「５８」であるため、回転及び反転に必要な変換テーブルのサイズは５９×６ビットとなる。

また、使用する参照画素の数を増加させると、より豊富な画像特徴を抽出することが可能となり、対象物の検出精度が向上することが期待できる。しかし、参照画素の数が増加すると、Ｕｎｉｆｏｒｍパターンの数が多くなり、回転及び反転に必要な変換テーブルのサイズが増大する。例えば、参照画素の数が２４である場合は、Ｕｎｉｆｏｒｍパターンは５５４通りあり、必要な参照テーブルのサイズは５５５×１０＝５．５５Ｋｂｉｔとなる。

それに対し、本実施形態におけるエンコード処理では、Ｕｎｉｆｏｒｍパターン間の回転及び反転の関係性を考慮して値を割り当てる。これにより、変換テーブルを用いずに簡単な演算により元のＵＬＢＰ特徴量から回転及び反転後のＵＬＢＰ特徴量を生成できるようする。以下、回転及び反転を考慮したエンコード方法について、それぞれ説明する。

まず、回転を考慮したエンコード方法について説明する。図５は、回転を考慮したＵＬＢＰ特徴量のエンコード方法を説明するための図である。図５には、５８種類のＵｎｉｆｏｒｍなパターンを含むグループ５０１、５０２と１種類のＵｎｉｆｏｒｍでないパターンを含むグループ５０３とを示している。図５において、白い丸印はその方向の特性が０であることを示し、黒い丸印はその方向の特性が１であることを示す。Ｕｎｉｆｏｒｍパターンのうち、グループ５０１は回転するとパターンが変化するものであり、グループ５０２は回転してもパターンが変化しないものである。

本実施形態に係るエンコード方法では、下位３ビットに回転角度に応じた値を加算することにより、回転したＵＬＢＰ特徴量を生成可能となるように値を割り当てる。図５に示した例では、グループ５０１に属するＵｎｉｆｏｒｍパターンに対して、回転の関係にある８種類のパターンを１組とする。そして、同じ組に属する場合には上位３ビットは同じであり、下位３ビットは時計周りに４５度回転すると値が１だけ増加するように値を割り当てる。

また、グループ５０２に属するＵｎｉｆｏｒｍパターンは、回転してもパターンは変化せず、グループ５０３に属するＵｎｉｆｏｒｍでないパターンは回転してもＵｎｉｆｏｒｍでないパターンであるため、値を割り当てる際に回転は考慮しないようにする。また、これらのパターンとグループ５０１に属するＵｎｉｆｏｒｍパターンとでは上位３ビットにより区別できるようにする。図５に示した例では、グループ５０１の上位３ビットを「０００」〜「１１０」とし、グループ５０２、５０３の上位３ビットを「１１１」とする。

次に、反転を考慮したエンコード方法について説明する。図６は、左右反転を考慮したＵＬＢＰ特徴量のエンコード方法を説明するための図である。図６において、グループ６０１は左右反転するとパターンが変化するＵｎｉｆｏｒｍパターンが属するグループであり、グループ６０２は左右反転してもパターンが変化しないＵｎｉｆｏｒｍパターンが属するグループである。また、グループ６０３はＵｎｉｆｏｒｍでないパターンを含むグループである。

本実施形態に係るエンコード方法では、下位１ビットをビット反転することにより左右反転したＵＬＢＰ特徴量となるようにエンコードする。図６に示した例では、グループ６０１に属するＵｎｉｆｏｒｍパターンに対して、左右反転の関係にある２種類のパターンを１組とする。そして、同じ組に属する場合には上位５ビットは同じであり、下位１ビットが異なるように値を割り当てる。

また、グループ６０２に属するＵｎｉｆｏｒｍパターンは、左右反転してもパターンは変化せず、グループ６０３に属するＵｎｉｆｏｒｍでないパターンは左右反転してもＵｎｉｆｏｒｍでないパターンである。このため、値を割り当てる際に左右反転は考慮しないようにする。また、これらのパターンとグループ６０１に属するＵｎｉｆｏｒｍパターンとでは、上位５ビットにより区別できるようにする。図６に示した例では、グループ６０１の上位５ビットを「０００００」〜「１０１１１」とし、グループ６０２、６０３の上位５ビットを「１１０００」〜「１１１０１」とする。

また、図１３は、上下反転を考慮したＵＬＢＰ特徴量のエンコード方法を説明するための図である。左右反転の場合と同様に、上下反転の関係にある２種類のパターンを１組とし、同じ組に属するパターンには、上位５ビットは同じであり、下位１ビットが異なる値を割り当てる。以下、反転に関しては左右反転についてのみ説明するが、上下反転についても同様の処理を適用することが可能である。

図１の説明に戻り、特徴量格納部１０４は、エンコード部１０３により生成されたＵＬＢＰ特徴量が格納されており、公知のＲＡＭ、レジスタなどにより構成されている。

図８は、本実施形態におけるＵＬＢＰ特徴量を特徴量格納部１０４に格納する際の格納形式を説明するための図である。本実施形態では、入力画像のサイズをＷ×Ｈとした場合、周辺１画素に対するＵＬＢＰ特徴量は計算することができないため、ＵＬＢＰ特徴量のサイズは（Ｗ−２）×（Ｈ−２）である。特徴量格納部１０４には、これらがラスター順に並べた１次元配列として格納される。

識別部１１０は、特徴量格納部１０４に格納されたＵＬＢＰ特徴量を参照して画像中の対象物を検出する。本実施形態では、画像中に領域を設定し、その領域内に対象物が存在するかどうかを判定する。以降、この領域のことを検出領域と呼ぶ。また、識別部１１０は、特徴量変換部１０５、座標変換部１０６、評価部１０７、及び識別パラメータ格納部１０８から構成されている。以下、識別部１１０の各構成要素について詳細に説明する。

特徴量変換部１０５は、特徴量格納部１０４からＵＬＢＰ特徴量を読み出して回転または反転させることで変換し、回転及び反転後のＵＬＢＰ特徴量を生成する。そして、生成したＵＬＢＰ特徴量を評価部１０７に出力する。以下、元のＵＬＢＰ特徴量から回転及び反転後のＵＬＢＰ特徴量を生成する処理内容と、処理を実現するための構成について、以下に説明する。なお、以降の説明では、式の見やすさのためにＵＬＢＰ（ｘ，ｙ）を単にＵＬＢＰと表記する。

まず、回転処理の内容と回転処理を実現するための構成とについて説明する。エンコード部１０３において図５に示すエンコード方法を適用した場合、回転後のＵＬＢＰ特徴量を生成する際に、以下の式（４）の変換式を用いる。

ここで、θは回転角度（θ＝０，１，．．．，７）を表し、ｒｏｔθ（ＵＬＢＰ）は角度θだけ回転した後のＵＬＢＰ特徴量を表す。また、ｐ［ａ：ｂ］はｐのａビット目からｂビット目までを選択することを示す。例えば、２進数でｐ＝０１１０１０である場合、ｐ［２：０］＝０１０であり、ｐ［５：３］＝０１１である。また、｛ｐ₁，ｐ₂｝はｐ₁とｐ₂とをビット連結することを示す。例えば、２進数でｐ₁＝１１０、ｐ₂＝１０１である場合、２進数で｛ｐ₁，ｐ₂｝＝１１０１０１となる。θは回転角度であり、４５度を単位として時計周りに何度回転するかを示す。つまり、θ＝０，１，．．．，７はそれぞれ時計周りに０度，４５度，．．．，３１５度回転することを意味する。

また、ＵＬＢＰ［５：３］≦６は、上位３ビットが「０００」〜「１１０」であることを示す。つまり、図５において、グループ５０１に属するＵＬＢＰ特徴量に対しては回転処理を実行し、グループ５０２、５０３に属するＵＬＢＰ特徴量は入力された値をそのまま出力することを意味する。

図３は、式（４）に示した回転処理を実行する特徴量変換部１０５の詳細な構成例を示すブロック図である。
図３において、比較部３０１は、式（４）中のＵＬＢＰ［５：３］≦６が成立するかどうかを判定し、判定結果を回転処理部３０２に送信する。回転処理部３０２は、比較部３０１から受信した判定結果が真であった場合は、入力されたＵＬＢＰ特徴量を、式（４）における上段の計算式に従って回転した値を生成する。

ここで、回転角度θは検出対象とする姿勢に応じて定まる値であり、評価部１０７からその値を受信する。評価部１０７は、識別器が対象とする姿勢の対象物を検出する場合はθ＝０を設定し、例えば対象とする姿勢から４５度回転した姿勢の対象物を検出する場合はθ＝１を設定する。一方、比較部３０１から受信した判定結果が偽であった場合は、回転角度θの値に関係なく、入力されたＵＬＢＰ特徴量の値をそのまま出力する。

次に、左右反転処理の内容と処理を実現するための構成とについて説明する。エンコード部１０３において図６に示すエンコード方法を適用した場合、左右反転後のＵＬＢＰ特徴量を生成する際に、以下の式（５）の変換式を用いる。

ここで、ｒｅｆ（ＵＬＢＰ）は左右反転後のＵＬＢＰ特徴量を表し、 "〜"はビット反転を表わす記号である。また、ＵＬＢＰ［５：１］≦２３は、上位５ビットが「０００００」〜「１０１１１」であることを表す。つまり、図６において、グループ６０１に属するＵＬＢＰ特徴量に対しては左右反転処理を実行し、グループ６０２、６０３に属するＵＬＢＰ特徴量に対しては、入力された値をそのまま出力することを意味する。

図２は、式（５）に示した左右反転処理を実行する特徴量変換部１０５の詳細な構成例を示すブロック図である。
図２において、比較部２０１は、式（５）中のＵＬＢＰ［５：１］≦２３が成立するかどうかを判定し、判定結果を左右反転処理部２０２に送信する。左右反転処理部２０２は、比較部２０１から受信した判定結果が真であり、評価部１０７から左右反転を指示する信号を受信した場合は、入力されたＵＬＢＰ特徴量を式（５）における上段の計算式に従って左右反転した値を出力する。

ここで、評価部１０７は、識別器が対象とする姿勢の対象物を検出する場合は左右反転しないことを指示し、対象とする姿勢を左右反転した姿勢の対象物を検出する場合は左右反転を指示する。一方、比較部２０１から受信した判定結果が偽である、または評価部１０７から左右反転しないことを指示する信号を受信した場合は、入力されたＵＬＢＰ特徴量の値をそのまま出力する。

座標変換部１０６は、評価部１０７から受信した検出領域内の座標及び検出領域の位置情報（左上座標及びサイズ）を基に、所定角度だけ回転あるいは反転した座標を算出する。回転角度及び反転するかどうかについては、評価部１０７が指示するものとする。

図９（ａ）は、元の座標と回転後の座標との関係を説明するための図であり、図９（ｂ）は、左右反転後の座標との関係を説明するための図である。図９において、検出領域９１０における座標９０１は元の座標であり、座標９０２〜９０８は順に時計周りに４５度〜３１５度回転した座標である。また、座標９０９は左右反転した座標である。なお、回転後の座標が整数でない場合は再近傍の座標とする。

座標変換部１０６は、生成した座標から参照するＵＬＢＰ特徴量のアドレスを計算し、特徴量格納部１０４に送信する。例えば、生成した座標が座標（ｘ，ｙ）であった場合は、特徴量格納部１０４に送信するアドレスはｙ×（Ｗ−２）＋ｘとなる。特徴量格納部１０４は、座標変換部１０６から受信したアドレスに格納されているＵＬＢＰ特徴量を特徴量変換部１０５に送信する。

識別パラメータ格納部１０８は、対象物の検出に使用する識別パラメータを格納するメモリであり、公知のＲＡＭ、レジスタなどにより構成されている。

図７は、本実施形態における識別パラメータセットの例を示す図である。ここで、識別パラメータセットとは、１つの姿勢の対象物を検出するために使用する識別パラメータの集合を示す。なお、本実施形態では、図１２に示す構成の識別器を使用するものとする。図７に示す「ｉ」は、図１２における識別処理の番号に対応する値である。各識別処理に対する識別パラメータは、参照する特徴量の検出領域内の座標、その座標における特徴量の値から検出対象らしさを示す評価値を算出する変換テーブル、及び対象物が存在するかどうかを判定するための閾値から構成される。

識別パラメータは予め用意した学習サンプルを用いてブースティング等の公知の機械学習手法により作成する。本実施形態では、対象物の姿勢に応じて異なる識別パラメータセットを用意する。ただし、すべての姿勢に対する識別パラメータセットを作成するのではなく、回転または反転関係にある場合は、そのうちの１つの姿勢に対する識別パラメータセットのみを作成する。

例えば、図１０に示すように顔の姿勢を９種類に分類した場合に、回転の関係にある識別パラメータを共通化する場合には、姿勢１００２、１００５、１００８の３種類で共通化した識別パラメータセットを作成する。また、左右反転の関係にある識別パラメータを共通化する場合には、姿勢１００１〜１００５の５種類で共通化した識別パラメータセットを作成する。そして、姿勢別に識別パラメータを作成するために、学習サンプルを姿勢に応じて分類し、分類後の学習サンプルを用いてそれぞれの姿勢に対する識別パラメータセットを作成する。

評価部１０７は、識別パラメータと特徴量とを基に画像中に設定した各検出領域に対象物が存在するかどうかを判定する。

図１１は、評価部１０７により行われる処理手順の一例を示すフローチャートである。本実施形態では、設定した検出領域に対して、１つの姿勢に対する識別処理を実行する。対象物が検出された場合は、他の姿勢に対する識別処理は実行せずに、次の検出領域に対する処理に進む。一方、対象物が検出されなかった場合は別の姿勢に対する識別処理を実行する。以下、各ステップにおける処理について説明する。

まず、ステップＳ１１０１において、全検出領域に対する処理が完了したかどうかを判定する。この判定の結果、全検出領域に対する処理が完了した場合は、そのまま処理を終了する。一方、ステップＳ１１０１の判定の結果、まだ処理していない検出領域がある場合は、次のステップＳ１１０２に進む。

次に、ステップＳ１１０２において、新たな検出領域を画像中に設定する。本実施形態では、予め定めたサイズの矩形領域をラスター順に移動させることにより検出領域を順次設定するものとする。そして、ステップＳ１１０３において、全姿勢に対する識別処理が完了したかどうかを判定する。この判定の結果、識別処理が完了した場合はその検出領域に対する処理は終了することになるため、ステップＳ１１０１に進む。一方、ステップＳ１１０３の判定の結果、まだ識別処理を実行していない姿勢がある場合は、次のステップＳ１１０４において、使用する識別パラメータセットを新たな姿勢を検出対象とするものに切り替える。

次に、ステップＳ１１０５において、ステップＳ１１０４において設定した識別パラメータセットが検出対象とする姿勢に対して、回転もしくは左右反転の関係にある姿勢の識別処理が完了したかどうかを判定する。この判定の結果、回転もしくは左右反転の関係にある姿勢の識別処理が完了した場合は、その識別パラメータセットを用いた処理は囚虜であるため、ステップＳ１１０３に戻る。一方、ステップＳ１１０５の判定の結果、回転もしくは左右反転の関係にある姿勢の識別処理がまだ完了していない場合は、ステップＳ１１０６に進む。

次のステップＳ１１０６においては、回転角度、もしくは左右反転の有無を設定する。例えば、図１０に示した９種類の姿勢を検出対象とし、回転の関係にある辞書を共通化して姿勢１００２、１００５、１００８の３種類の識別パラメータセットを用意した場合、回転角度は０（回転無し）、１（４５度）、７（３１５度）の順に設定する。また、左右反転の関係にある辞書を共通化して姿勢１００１〜１００５の５種類の識別パラメータセットを用意した場合、姿勢１００１〜１００４は左右反転無、有の順に設定する。そして、姿勢１００５は左右反転しても姿勢は変化しないため、左右反転無しのみを設定する。以上のように、回転角度もしくは左右反転の有無を指示する信号を特徴量変換部１０５及び座標変換部１０６に送信する。

次に、ステップＳ１１０７において、識別パラメータ格納部１０８から読み出す識別パラメータの番号ｉの値と、累積評価値（ｅｖａｌ）とを初期化する。そして、ステップＳ１１０８において、ステップＳ１１０４において設定した識別パラメータセットに含まれる識別パラメータの数をＮｐとした場合に、Ｎｐ個の識別パラメータをすべて使用したかどうかを判定する。この判定の結果、すべての識別パラメータを使用した場合は、図１２に示した構成による識別処理をすべて通過したことを意味する。したがってこの場合は、現在の検出領域に対象物が存在すると判定し、次の検出領域に対する処理を実行するためにステップＳ１１０１へ進む。一方、ステップＳ１１０８の判定の結果、まだ識別パラメータが残っている場合はステップＳ１１０９に進む。

ステップＳ１１０９においては、累積評価値（ｅｖａｌ）を更新する。まず、ｉ番目の識別パラメータを読み出し、識別パラメータ中の座標と、検出領域の位置情報（左上座標及びサイズ）とを座標変換部１０６に送信する。そして、特徴量変換部１０５から受信した特徴量の値と識別パラメータ中の評価値算出テーブルとを用いて評価値を算出し、累積評価値に加算する。

ステップＳ１１１０においては、累積評価値がｉ番目の閾値（Ｔ_hi）未満であるかどうかを判定する。この判定の結果、閾値未満であった場合は、現在対象とする姿勢の対象物は存在しないと判定し、次の姿勢に対する処理を実行するため、ステップＳ１１０５に進む。一方、ステップＳ１１１０の判定の結果、累積評価値が閾値以上であった場合は、ステップＳ１１１１において、次の識別処理を実行するためにｉの値をインクリメントし、ステップＳ１１０８に戻る。

以上説明したように本実施形態によれば、画像中の対象物を検出する処理において、加算やビット反転といった簡単な演算により回転及び反転後の特徴量を生成できるようにエンコードを行うようにした。これにより、回転及び軸に対して反転の関係にある識別パラメータを共通化した場合に、特徴量を変換するコストを低減することができる。

（第２の実施形態）
以下、本実施形態では、第１の実施形態と異なる部分のみを説明する。第１の実施形態では、特徴量の回転、左右反転もしくは上下反転のいずれか１つのみを考慮したエンコード方法及び特徴量の変換方法について説明した。これに対して本実施形態では、これらのパターンをすべて考慮したエンコード方法及び特徴量の変換方法の例について説明する。本実施形態の方式は、反転の関係にある方向特性パターンが、回転の関係にある方向特性パターンに含まれる場合に適用可能である。なお、方向特性がバイナリ値である場合はこの条件を満たすものとする。

本実施形態の方式を適用すると、図１０に示した９種類の姿勢の顔を検出対象とした場合、姿勢１００２、１００５の２種類に対する識別パラメータのみ用意すればよい。回転もしくは反転のみを考慮する場合からさらに識別パラメータを削減することが可能となる。

図１４は、本実施形態における回転及び左右反転及び上下反転を考慮したエンコード方法を説明するための図である。本実施形態におけるエンコード方法では、まず、図５に示した回転を考慮したエンコード方法をベースとし、左右反転及び上下反転した場合の下位３ビットの変化が同じであるグループ１４０１、１４０２に分ける。左右反転を例に挙げると、グループ１４０１に属するＵｎｉｆｏｒｍパターンは、「０００」と「０１０」、「０１１」と「１１１」、及び「１００」と「１１０」が左右反転の関係にある。また、「００１」と「１０１」は左右反転してもパターンが変化しない。一方、グループ１４０２に属するＵｎｉｆｏｒｍパターンは、「０００」と「００１」、「０１０」と「１１１」、「０１１」と「１１０」、「１００」と「１０１」が左右反転の関係にある。そして、グループ１４０１、１４０２及び第１の実施形態において説明したグループ５０２、５０３は、上位３ビットにより区別できるようにする。

図１５は、本実施形態における特徴量変換部１０５の詳細な構成例を示すブロック図である。
図１５において、比較部１５０１は、入力されたＵＬＢＰ特徴量の上位３ビットを基に、入力されたＵＬＢＰ特徴量が図１４に示した何れのグループに属するかを判定する。そして、比較部１５０１は、ＵＬＢＰ特徴量がグループ１４０１もしくはグループ１４０２に属する（ＵＬＢＰ［５：３］≦６が成立する）かどうかを示す信号を回転処理部３０２に送信する。さらに、ＵＬＢＰ［５：３］≦３を満たすグループ１４０１、３＜ＵＬＢＰ［５：３］≦６を満たすグループ１４０２、及びＵＬＢＰ［５：３］＞６を満たすグループ５０２、５０３のいずれに属するかを示す信号を左右反転処理部１５０２に送信する。

回転処理部３０２は、第１の実施形態と同様に式（４）に従って回転処理し、回転処理後のＵＬＢＰ特徴量ｒｏｔθ（ＵＬＢＰ）を左右反転処理部１５０２に送信する。そして、左右反転処理部１５０２は、以下の式（６）に従ってＵＬＢＰ特徴量ｒｏｔθ（ＵＬＢＰ）を左右反転したＵＬＢＰ特徴量ｒｅｆ（ｒｏｔθ（ＵＬＢＰ））を生成する。

ここで、ｌｕｔ₁、ｌｕｔ₂は、それぞれグループ１４０１、１４０２に属するＵＬＢＰ特徴量の左右反転前後の下位３ビットの対応関係を記憶した変換テーブルによる処理を示す。左右反転処理部１５０２は、評価部１０７から左右反転を指示する信号を受信した場合、比較部１５０１から受信した信号を基に、式（６）におけるいずれかの計算式に従って左右反転した値を出力する。一方、評価部１０７から左右反転しないことを指示する信号を受信した場合は、入力されたＵＬＢＰ特徴量ｒｏｔθ（ＵＬＢＰ）の値をそのまま出力する。

以上説明したエンコード方法及び特徴量変換部１０５の構成により、回転及び左右反転後のＵＬＢＰ特徴量を生成することができる。また、上下反転後のＵＬＢＰ特徴量については、１８０度回転した後に左右反転することによって生成することができる。なお、本実施形態では、回転処理、左右反転の順に処理するように構成したが、順番は逆であってもよい。また、左右反転処理部１５０２の代わりに上下反転する処理部を使用するように構成してもよい。

以上説明したように本実施形態によれば、回転、左右反転及び上下反転の関係を考慮してエンコードを行うようにしたので、第１の実施形態よりも識別パラメータのサイズを削減することができる。

（第３の実施形態）
以下、本実施形態について、第１及び第２の実施形態と異なる部分のみを説明する。第１及び第２の実施形態では、ＵＬＢＰ特徴量の値を所定の計算式に従って変換することにより、回転及び反転後のＵＬＢＰ特徴量を生成する例について説明した。本実施形態では、所定の領域内のＵＬＢＰ特徴量の各値が出現する頻度を示すヒストグラムを生成し、生成後のヒストグラムのビンを所定の計算式に従って入れ替えることにより、回転及び反転後のヒストグラムを生成する例について説明する。

図１７は、本実施形態における識別パラメータセットの例を示す図である。図１７に示すように、本実施形態では、ヒストグラムを算出する領域情報は、左上座標及び幅及び高さから構成されるものとする。また、ヒストグラムの各ビンに係数を乗算して足し合わせた値を評価値とする。

また、図１に示す構成において、評価部１０７は、識別パラメータ格納部１０８から識別パラメータを読み出し、領域情報を座標変換部１０６に送信する。また、領域情報から領域のサイズ（幅×高さ）を算出し、特徴量変換部１０５に送信する。さらに、第１の実施形態における図１１のステップＳ１１０６と同様に、回転角度もしくは反転の有無を決定し、特徴量変換部１０５及び座標変換部１０６に送信する。

座標変換部１０６は、まず、評価部１０７から受信した領域情報から、領域に含まれる座標を算出する。次に、評価部１０７から受信した回転角度もしくは反転の有無を指示する信号を基に、算出した座標を順次座標変換し、変換後の座標位置を示すアドレスを特徴量格納部１０４に送信する。

特徴量変換部１０５は、特徴量格納部１０４から受信した領域内のＵＬＢＰ特徴量からヒストグラムを算出し、評価部１０７から受信した回転角度もしくは反転の有無を指示する信号を基にヒストグラムを回転及び反転処理して評価部１０７に送信する。

図１６は、本実施形態における特徴量変換部１０５の詳細な構成例を示すブロック図である。
図１６において、ヒストグラム作成部１６０１は、ヒストグラム生成手段として、受信したＵＬＢＰ特徴量からヒストグラムを作成する。ヒストグラムの各ビンはＵＬＢＰ特徴量の値に対応しており、ヒストグラム作成部１６０１はＵＬＢＰ特徴量を受信すると、対応するビンにおける頻度値を１だけ加算する。そして、ヒストグラム作成部１６０１は、評価部１０７から受信した領域サイズ分のＵＬＢＰ特徴量からヒストグラムを作成すると、ヒストグラムをビン入替部１６０２に送信する。

ビン入替部１６０２は、評価部１０７から指定された回転角度または反転方向に従ってヒストグラムのビンを入れ替える。ただし、回転角度が０であった場合、あるいは反転しないこと指示する信号を受信した場合は、ビンを入れ替えずに作成したヒストグラムをそのまま出力する。そして、ビン入替部１６０２は、第１及び第２の実施形態において説明したＵＬＢＰ特徴量の変換方法に従って、各ビンにおける頻度値を回転及び反転後の特徴量に対応するビンの頻度値とする。

図１８は、ヒストグラムのビン入替の例を説明するための図であり、ＵＬＢＰ特徴量のヒストグラムを４５度回転する場合のビン入替の例を示している。図１８（ａ）は、入替前のヒストグラムを示しており、図１８（ｂ）は入替後のヒストグラムを示している。式（４）に示した変換式に従ってビンを入れ替えることにより、ＵＬＢＰ［５：３］≦６であるビンは、下位３ビットに１だけ加算した位置に移動する。このとき、図１８に示すビン５６、５７、５８は移動しない。

以上説明したように本実施形態によれば、ヒストグラムを用いて画像中の対象物を検出する場合に、加算やビット反転といった簡単な演算により回転及び反転後のヒストグラムを生成できるようなエンコードを行うようにした。これにより、回転及び左右反転の関係にある識別パラメータを共通化した場合にヒストグラムを変換するコストを低減することができる。

（その他の実施形態）
第１〜第３の実施形態では、特徴量としてＵＬＢＰ特徴量に適用する例を説明したが、これに限る訳ではない。ＵＬＢＰ特徴量では注目画素と参照画素との２画素を用いて各方向の特性を抽出するが、注目画素と複数の参照画素とを用いて各方向の特性を抽出するように構成してもよい。あるいは、注目画素を使用せずに、複数の参照画素を用いて各方向の特性を抽出するように構成してもよい。さらには、特定の位置の画素のみではなく、所定の領域内の画素の平均値を用いるように構成してもよい。

また、ＵＬＢＰ特徴量では、各方向の特性は０または１のバイナリ値であるが、多値であってもよい。この場合、例えば、画素間及び領域間の差分値や、画素及び領域に所定の係数を乗算して足し合わせた値などをそのまま用いるように構成してもよい。あるいは、それらの値を所定のルールに従ってＭ（Ｍ≧２）値に量子化したものを用いるように構成してもよい。以下、各方向の特性が０，１，２の３値をとり得る場合のエンコード方法と特徴量の変換方法とについて以下に説明する。

図１９は、各方向の特性が０，１，２の３値をとり得る場合に、回転を考慮した特徴量のエンコード方法を説明するための図である。なお、図１９に示す例では、方向特性の数は４としている。図１９において、白、グレー、黒の丸印はそれぞれその方向の特性がそれぞれ０，１，２であることを示している。また、パターンの数は３⁴＝８１である。

図１９に示すグループ１９０１は回転するとパターンが変化するグループであり、グループ１９０２は９０度、２７０度回転するとパターンが変化するが、１８０度回転してもパターンが変化しないグループである。また、グループ１９０３は回転してもパターンが変化しないグループである。図１９に示したエンコード方法を適用することにより、第１の実施形態と同様に、上位５ビットの比較によりグループを判定し、回転角度に応じて下位２ビットに値を加算することにより回転後の特徴量を生成することができる。

また、左右反転及び上下反転に関しても、反転の関係にあるパターンをペアとするエンコード方法を適用することにより、第１の実施形態と同様の変換方法を適用することができる。さらに、第３の実施形態に示したようなヒストグラムを使用する方法も同様に適用することができる。なお、図１９に示す例では、方向の数が４であったが、方向の数に制限はない。また、すべての方向特性パターンに対して異なる値を割り当てたが、ＵＬＢＰ特徴量のように所定の条件に応じて異なる方向特性パターンに同じ値を割り当ててもよい。

また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

１０２方向特性抽出部
１０３エンコード部
１０５特徴量変換部
１０７評価部

Claims

入力画像から画素ごとに所定の方向に対する画素値の変化するパターンを示す方向特性のパターンを抽出する抽出手段と、
前記抽出手段によって抽出された方向特性のパターンに基づいて第１の特徴量を生成する生成手段と、
前記生成手段によって生成された第１の特徴量を回転または軸に対して反転させて第２の特徴量に変換する変換手段と、
前記第１の特徴量及び前記第２の特徴量を用いて物体を検出する検出手段とを備え、
前記生成手段は、前記方向特性が回転する関係、及び軸に対して反転する関係の少なくともいずれかに基づいた計算式により第１の特徴量を生成することを特徴とする物体検出装置。
前記生成手段は、回転角度に対応する値を用いた演算により前記第１の特徴量を生成することを特徴とする請求項１に記載の物体検出装置。
前記生成手段は、前記方向特性が左右反転する値を割り当てて前記第１の特徴量を生成することを特徴とする請求項１に記載の物体検出装置。
前記生成手段は、前記方向特性が上下反転する値を割り当てて前記第１の特徴量を生成することを特徴とする請求項１に記載の物体検出装置。
前記生成手段は、回転角度に対応する値を用いた演算を行い、さらに前記方向特性が左右反転または上下反転する値を割り当てて前記第１の特徴量を生成することを特徴とする請求項１に記載の物体検出装置。
前記第１の特徴量の各値が出現する頻度を示す第１のヒストグラムを生成するヒストグラム生成手段をさらに備え、
前記変換手段は、前記第１のヒストグラムのビンを入れ替えることにより、前記第２の特徴量の各値が出現する頻度を示す第２のヒストグラムを生成し、
前記検出手段は、前記第１のヒストグラム及び前記第２のヒストグラムを用いて物体を検出することを特徴とする請求項１に記載の物体検出装置。
入力画像から画素ごとに所定の方向に対する画素値の変化するパターンを示す方向特性のパターンを抽出する抽出工程と、
前記抽出工程において抽出された方向特性のパターンに基づいて第１の特徴量を生成する生成工程と、
前記生成工程において生成された第１の特徴量を回転または軸に対して反転させて第２の特徴量に変換する変換工程と、
前記第１の特徴量及び前記第２の特徴量を用いて物体を検出する検出工程とを備え、
前記生成工程においては、前記方向特性が回転する関係、及び軸に対して反転する関係の少なくともいずれかに基づいた計算式により第１の特徴量を生成することを特徴とする物体検出方法。
入力画像から画素ごとに所定の方向に対する画素値の変化するパターンを示す方向特性のパターンを抽出する抽出工程と、
前記抽出工程において抽出された方向特性のパターンに基づいて第１の特徴量を生成する生成工程と、
前記生成工程において生成された第１の特徴量を回転または軸に対して反転させて第２の特徴量に変換する変換工程と、
前記第１の特徴量及び前記第２の特徴量を用いて物体を検出する検出工程とをコンピュータに実行させ、
前記生成工程においては、前記方向特性が回転する関係、及び軸に対して反転する関係の少なくともいずれかに基づいた計算式により第１の特徴量を生成することを特徴とするプログラム。