JP4791598B2

JP4791598B2 - 画像処理装置および画像処理方法

Info

Publication number: JP4791598B2
Application number: JP2010529529A
Authority: JP
Inventors: 珊珊于; 雅芳清水
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-09-17
Filing date: 2008-09-17
Publication date: 2011-10-12
Anticipated expiration: 2028-09-17
Also published as: US8509539B2; WO2010032297A1; US20110216977A1; US20130294699A1; JPWO2010032297A1; US8818104B2

Description

本発明は、画像データを量子化する画像処理装置および画像処理方法に関するものである。

近年、カメラ等によって撮影された画像中から、各種の物体（例えば、人物の顔、車等）を検出する物体検出の研究が行われている。物体検出の技術は、予め、検出対象となる物体の特徴を学習して学習データを作成し、作成した学習データと、画像データとを比較することで、画像中に検出対象となる物体が存在するか否かを判定する技術である。

また、画像データそのものの情報量は膨大であり、物体検出の技術では、画像中に検索対象となる物体が存在しているか否かを判定できればよいので、情報の量子化技術を利用して画像データを削減し、メモリ資源を節約する必要がある。

情報の量子化技術には、画像データを周波数変換（ウェーブレット＜Wavelet＞変換）し、変換結果となる変換係数の大小（または、隣り合う画素同士の画素値の差分の大小）から量子化処理を行う技術がある（例えば、非特許文献１参照）。かかる量子化処理では、変換係数と、量子化閾値とを比較することにより、画像データを３段階に量子化するので、物体検出に用いられる画像データ、学習データの記憶領域を削減することが可能となる。

また、画像データ中に、検出対象となる物体が存在するケースは全体的には小確率であるため、画像データの全領域と学習データの全領域とを詳細に比較すると、比較する必要のない領域まで画像データと学習データとを比較してしまい、物体検出処理に無駄が生じてしまう。

そこで、物体検出処理にかかる無駄を省くため、画像データ中の検索領域に対して大まかに物体検出を行い、画像データ中に検出対象の物体が含まれている可能性があると判定した場合のみ、詳細に物体検出を行うという技術が知られている（例えば、特許文献１参照）。かかる技術では、大まかに物体検出を行い、画像データ中に検出対象となる物体が含まれていないと判定した場合には、次の領域に処理を進めるので、物体検出処理を高速化することができる。

特開２００４−２４６６１８号公報 H.Schneiderman and T. Kanade, Object Detection Using the Statistics of Parts To appear in International Journal of Computer Vision,2002.

しかしながら、上述した従来の技術では、物体検出を精度よく行なえず、物体検出処理を高速化することができないという問題があった。

すなわち、従来の技術では、物体検出処理を高速化するために、画像データ中の検索領域に対して大まかに物体検出を行っているので、検索対象の物体に類似する異なる物体も誤って検出対象の物体であると判定してしまうことが多くなる。そして、誤って検出対象の物体であると判定したために、検出対象となる物体が存在していないにも関わらず、詳細な物体検出処理に移行してしまうので、結果として、物体検出処理が遅れてしまうことになる。

この発明は、上述した従来技術による問題点を解消するためになされたものであり、物体検出を精度よく行い、物体検出処理を高速化することができる画像処理装置および画像処理方法を提供することを目的とする。

上述した課題を解決し、目的を達成するために、この画像処理装置は、被写体の特徴が現れている領域を示す特徴領域の情報を含んだ辞書データを記憶する記憶手段と、入力画像を取得した場合に、前記辞書データの特徴領域と、当該辞書データの特徴領域に対応する入力画像の領域とを比較することで、前記入力画像に前記被写体が含まれているか否かを判定する判定手段と、を有することを要件とする。

この画像処理装置によれば、無駄な物体検出処理を省略して処理を高速化し、画像データ中に含まれる被写体を精度よく検出することができる。

図１は、階層化した学習データの一例を示す図である。図２は、本実施例にかかる画像処理装置の構成を示す機能ブロック図である。図３は、顔学習データのデータ構造の一例を示す図である。図４は、階層データのデータ構造の一例を示す図である。図５は、非顔学習データのデータ構造の一例を示す図である。図６は、比較対象データのデータ構造の一例を示す図である。図７は、比較結果テーブルのデータ構造の一例を示す図である。図８は、本実施例にかかる画像処理装置の処理手順を示すフローチャートである。図９は、階層データを作成する処理手順を示すフローチャートである。図１０は、平滑化処理の一例を説明するための図である。図１１は、本実施例にかかる画像処理装置を構成するコンピュータのハードウェア構成を示す図である。

符号の説明

３０コンピュータ
３１入力装置
３２モニタ
３３ＲＡＭ
３３ａ，３９ａ各種データ
３４ＲＯＭ
３５通信制御装置
３６媒体読取装置
３７カメラ
３８ＣＰＵ
３８ａ画像処理プロセス
３９ＨＤＤ
３９ｂ画像処理プログラム
４０バス
１００画像処理装置
１１０ａ，１１０ｂ変換処理部
１２０ａ，１２０ｂ分析処理部
１３０記憶部
１３０ａ顔学習データ
１３０ｂ階層データ
１３０ｃ非顔学習データ
１３０ｄ比較対象データ
１４０顔検出処理部

以下に、本発明にかかる画像処理装置、画像処理方法および画像処理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

まず、本実施例にかかる画像処理装置の概要および特徴について説明する。本実施例にかかる画像処理装置は、画像データ（物体の検出対象となる画像データ）と学習データとを比較して物体検出を行う場合に、被写体の各領域における重要度に応じて学習データの各領域を階層化し、重要度が高い階層から順に画像データと学習データとを比較することで、物体検出処理を高速化する。ここで、被写体を人物の顔とすると、顔の目や鼻、口の位置は、どの人物であっても略一致しているため、目や鼻、口の位置に対応する領域が重要度の高い階層となる。一方、髪の毛の位置などは人それぞれであるため、髪の毛の位置に対応する領域は重要度の低い階層となる。

図１は、階層化した学習データの一例を示す図である。図１では一例として、被写体を人物の顔とし、顔を正面から、顎から頭をほぼ含む上下幅、両耳をほぼ含む左右幅で、顔をフレーム全面に写した画像とする。図１の（ａ）は、顔画像を周波数変換（ウェーブレット変換）した結果得られる縦方向の学習データであり、図１の（ｂ）は、顔画像を周波数変換した結果得られる横方向の学習データである。また、図１において、階層１の重要度が最も高く、階層２，３，４の順に重要度が低くなる（階層４が最も重要度が低い）。

図１の（ａ）に示す例では、鼻の位置に対応する画像上の領域（画像のほぼ中央部）が階層１になっており、図１の（ｂ）に示す例では、目（画像の上部の左と右）、口（画像の下部の中央部）に対応する画像上の領域が階層１になっている。本実施例にかかる画像処理装置は、物体検出を行う場合に、まず階層１に対応する学習データの領域と画像データの領域とを比較する。そして、被写体が含まれないと判定した場合には、残りの階層２〜４に対応する領域について物体検出を省略し、画像データに被写体が存在しないという判定結果を出力する。

一方、被写体が含まれると判断した場合には、階層２に対応する学習データの領域と画像データの領域とを比較する。そして、被写体が含まれないと判定した場合には、残りの階層３，４に対応する領域について物体検出を省略し、画像データに被写体が存在しないという判定結果を出力する。

一方、被写体が含まれると判断した場合には、階層３に対応する学習データの領域と画像データの領域とを比較する。そして、被写体が含まれないと判定した場合には、残りの階層４に対応する領域について物体検出を省略し、画像データに被写体が存在しないという判定結果を出力する。

一方、被写体が含まれると判断した場合には、階層４に対応する学習データの領域と画像データの領域とを比較する。そして、階層４においても、被写体が含まれていると判定した場合に、画像データに被写体が存在するという判定結果を出力する。

このように、本実施例にかかる画像処理装置は、学習データを階層化し、階層毎の比較結果に応じて残りの階層に対する物体検出を省略するので、物体検出にかかる処理を高速化することができる。また、被写体の重要度に応じて、各階層を設定しているので、被写体の誤検出を防止することができる。

次に、本実施例１にかかる画像処理装置の構成について説明する。図２は、本実施例にかかる画像処理装置１００の構成を示す機能ブロック図である。図２に示すように、この画像処理装置１００は、変換処理部１１０ａ，１１０ｂと、分析処理部１２０ａ，１２０ｂと、記憶部１３０と、顔検出処理部１４０とを有する。

変換処理部１１０ａは、顔画像集データおよび非顔画像集データを取得し、取得した顔画像集データおよび非顔画像集データに対して周波数変換処理（例えば、ウェーブレット変換）を実行する処理部である。画像データに対する周波数変換処理は、周知技術と同様である。

なお、顔画像集データは、様々な人物の顔画像を集めた画像データであり、非顔画像集データは、顔画像以外の各種の画像を集めた画像データである。また、顔画像集データのサイズおよび非顔画像集データのサイズは統一されているものとする。

変換処理部１１０ａは、入力装置、記憶装置（図示略）等から顔画像集データおよび非顔画像集データを取得する。変換処理部１１０ａは、周波数変換した顔画像集データおよび非顔画像集データを分析処理部１２０ａに出力する。以下の説明において、周波数変換した顔画像集データを変換顔画像集データと表記し、周波数変換した非顔画像集データを変換非顔画像集データと表記する。

変換処理部１１０ｂは、入力画像データを取得し、取得した入力画像データに対して周波数変換処理（例えば、ウェーブレット変換）を実行する処理部である。画像データに対する周波数変換処理は、周知技術と同様である。なお、入力画像データは、物体検出対象となる画像データである。変換処理部１１０ａは、入力装置、記憶装置（図示略）等から入力画像データを取得する。変換処理部１１０ｂは、周波数変換した入力画像データを分析処理部１２０ｂに出力する。

分析処理部１２０ａは、変換顔画像集データおよび変換非顔画像集データを取得した場合に、変換顔画像集データを基にして顔学習データを作成し、変換非顔画像集データを基にして非顔学習データを作成する処理部である。また、分析処理部１２０ａは、顔学習データの分散を算出し、算出した分散に基づいて顔学習データを複数の階層に分類（階層化）する。

まず、分析処理部１２０ａが、顔学習データを作成する処理について具体的に説明する。分析処理部１２０ａは、変換顔画像集データに含まれる画像データから単一の画像データを抽出する。ここで、変換顔画像集データに含まれる画像データはそれぞれ、顎から頭をほぼ含む上下幅、両耳をほぼ含む左右幅で、顔を全面に写した画像群で構成されている。もちろん、多様な顔を検出するための学習データであるので、真正面から顔を写したデータのほかに、斜め上や下や左や右を向いたデータや、帽子や眼鏡を掛けた顔のデータ、様々な年齢や性別の人のデータが含まれていても良い。そして、分割処理部１２０ａは、各画像データを周波数変換した結果である変換係数と、各量子化閾値とを比較することで、該当変換係数を量子化（３値あるいは４値に量子化）する。なお、各量子化閾値は、予め、管理者が設定しておく。

同様に、分析処理部１２０ａは、変換顔画像集データに含まれる残りの画像データも、上記の手法により量子化する。そして、分析処理部１２０ａは、量子化した各画像データの各変換係数値（各画像データの同一位置に対応する変換係数値）を比較し、変換係数値の頻度に基づいて、顔学習データを作成する。例えば、画像データ中の位置（ｘ１、ｙ１）の係数値について、各画像データを比較したところ、係数値「０」、「１」の頻度よりも、係数値「２」の頻度のほうが大きい場合には、顔学習データ中の位置（ｘ１、ｙ１）の係数値を「２」に設定する。なお，この係数頻度計数に合わせて，係数値の分散を算出しておく。係数値が０，１，２のいずれかの値に集中していれば，分散値は小さくなる。

図３は、顔学習データのデータ構造の一例を示す図である。図３に示すように、この顔学習データは、位置情報と変換係数値とを対応付けて記憶している。なお、顔学習データのデータ構造は、図３に示したものに限らず、例えば、物体検出時に比較する変換係数の塊（例えば、８変換係数）毎に変換係数値を対応付けて記憶させても良い。また、位置情報と対応付けて変換係数値だけではなく分散値も記憶させてもよい。

次に、分析処理部１２０ａが、顔学習データを複数の階層に分類する処理について説明する。分析処理部１２０ａは、算出しておいた分散と比較値１，２，３（ただし、比較値１＜比較値２＜比較値３）とを比較して、顔学習データを各階層１〜４に分類する。

例えば、分析処理部１２０ａは、顔画像データ上の領域において、
分散＜比較値１となる領域を階層１に設定し、
比較値１≦分散＜比較値２となる領域を階層２に設定し、
比較値２≦分散＜比較値３となる領域を階層３に設定し、
比較値３≦分散となる領域を階層４に設定することで、階層データを作成する。

図１で説明したように、顔学習データの縦方向では、鼻などの周囲で分散（分散の値）が小さく、横方向では、目や口周辺で分散が小さくなる。顔の特徴をあらわす部位においては、データが集中するため、このような傾向が得られる。

図４は、階層データのデータ構造の一例を示す図である。図４に示すように、この階層データは、位置情報と階層とを対応付けて記憶している。なお、ここでは一例として、位置情報と、階層とを対応付ける構成となっているが、これに限定されるものではなく、顔学習データ上の領域と、階層とを対応付けて記憶させても良い。

次に、分析処理部１２０ａが、非顔学習データを作成する処理について説明する。分割処理部１２０ｂは、変換非顔画像集データに含まれる画像データから単一の画像データを抽出する。なお、非顔画像集データに含まれる画像データは、顔が写っていない画像である。そして、分割処理部１２０ａは、各画像データを周波数変換した結果である変換係数と、各量子化閾値とを比較することで、該当変換係数を量子化（３値あるいは４値に量子化）する。なお、各量子化閾値は、予め、管理者が設定しておく。

同様に、分析処理部１２０ａは、変換非顔画像集データに含まれる残りの画像データも、上記の手法により量子化する。そして、分析処理部１２０ａは、量子化した各画像データの各変換係数値（各画像データの同一位置に対応する変換係数値）を比較し、変換係数値の頻度に基づいて、非顔学習データを作成する。例えば、画像データ中の位置（ｘ１、ｙ１）の変換係数値について、各画像データを比較したところ、変換係数値「０」、「１」の頻度よりも、変換係数値「２」の頻度のほうが大きい場合には、非顔学習データ中の位置（ｘ１、ｙ１）の変換係数値を「２」に設定する。

図５は、非顔学習データのデータ構造の一例を示す図である。図５に示すように、この非顔学習データは、位置情報と変換係数値とを対応付けて記憶している。なお、非顔学習データのデータ構造は、図５に示したものに限らず、例えば、物体検出時に比較する変換係数の塊（例えば、８変換係数）毎に変換係数値に対応付けて記憶させても良い。

分析処理部１２０ｂは、周波数変換された入力画像データを取得した場合に、取得した入力画像データを量子化する処理部である。分析処理部１２０ｂは、量子化した入力画像データを記憶部１３０に出力する。以下の説明において、量子化した入力画像データを比較対象データと表記する。

具体的に、分析処理部１２０ｂは、変換係数と各量子化閾値とを比較することにより、該当ブロックの画素値を量子化（３値あるいは４値に量子化）する。なお、各量子化閾値は、予め、管理者が設定しておく。

図６は、比較対象データのデータ構造の一例を示す図である。図６に示すように、この比較対象データは、位置情報と変換係数値とを対応付けて記憶している。なお、比較対象データのデータ構造は、図６に示したものに限らず、例えば、物体検出時に比較する変換係数の塊（例えば、８変換係数）毎に変換係数値と対応付けて記憶させても良い。

記憶部１３０は、分析処理部１２０ａから出力される顔学習データ、階層データ、非顔学習データ、分析処理部１２０ｂから出力される比較対象データを記憶する記憶部である。

顔検出処理部１４０は、検出範囲を設定し、検出範囲内の階層１〜４の順に、顔学習データ１３０ａと、非顔学習データ１３０ｃと、比較対象データ１３０ｄとを比較して、入力画像データに顔画像が含まれているか否かを判定する処理部である。顔検出処理部１４０は、ある階層で入力画像に顔が含まれていないと判定した時点で、残りの階層の物体検出を省略し、次の検出範囲に対する物体検出処理に移行する。なお、以下の説明において、入力画像データとは，顔検出処理対象（入力されるフレームそのもの）から切り出した画像を意味し，これが比較対象データに相当する。顔検出対象のフレーム全体の中に，どのような大きさの顔が含まれているかはわからないので、比較対象データを複数種類の大きさに変化させて、また、入力画像データ内で切り出し位置をずらしながら切り出して、比較対象データの領域を設定することになる。

顔検出処理部１４０は、まず、顔学習データの検出範囲内の階層１に対応する領域（以下、第１の領域と表記する）の変換係数値と、第１の領域に対応する非顔学習データ１３０ｃ上の変換係数値と、第１の領域に対応する比較対象データ１３０ｄ上の変換係数値とを比較する。

顔検出処理部１４０は、階層１について、比較対象データ１３０ｄと顔学習データ１３０ａとの変換係数値の一致率が、比較対象データ１３０ｄと非顔学習データ１３０ｃとの変換係数値の一致率よりも大きい場合には、階層２に処理を移行する。なお、比較対象データ１３０ｄと顔学習データ１３０ａとの変換係数値の一致率が、比較対象データ１３０ｄと非顔学習データ１３０ｃとの変換係数値の一致率よりも大きくない場合、すなわち、処理対象としている比較対象データ１３０ｄは顔である可能性がない場合には、階層２〜４の処理を省略し、入力画像データに対する処理を終了する。

階層１において、入力画像データに顔が含まれていると判定した場合には、顔検出処理部１４０は、顔学習データ１３０ａの検出範囲内の階層２に対応する領域（以下、第２の領域と表記する）の変換係数値と、第２の領域に対応する非顔学習データ１３０ｃ上の変換係数値と、第２の領域に対応する比較対象データ１３０ｄ上の変換係数値とを比較する。

顔検出処理部１４０は、階層２について、比較対象データ１３０ｄと顔学習データ１３０ａとの変換係数値の一致率が、比較対象データ１３０ｄと非顔学習データ１３０ｃとの変換係数値の一致率よりも大きい場合には、階層３に処理を移行する。なお、比較対象データ１３０ｄと顔学習データ１３０ａとの変換係数値の一致率が、比較対象データ１３０ｄと非顔学習データ１３０ｃとの変換係数値の一致率よりも大きくない場合には、階層３、４の処理を省略し、入力画像データに対する処理を終了する。

階層２において、入力画像データに顔が含まれていると判定した場合には、顔検出処理部１４０は、顔学習データの検出範囲内の階層３に対応する領域（以下、第３の領域と表記する）の変換係数値と、第３の領域に対応する非顔学習データ１３０ｃ上の変換係数値と、第２の領域に対応する比較対象データ１３０ｄ上の変換係数値とを比較する。

顔検出処理部１４０は、階層３について、比較対象データ１３０ｄと顔学習データ１３０ａとの変換係数値の一致率が、比較対象データ１３０ｄと非顔学習データ１３０ｃとの変換係数値の一致率よりも大きい場合には、階層４に処理を移行する。なお、比較対象データ１３０ｄと顔学習データ１３０ａとの変換係数値の一致率が、比較対象データ１３０ｄと非顔学習データ１３０ｃとの変換係数値の一致率よりも大きくない場合には、階層４の処理を省略し、入力画像データ処理を終了する。

階層３において、入力画像データに顔が含まれていると判定した場合には、顔検出処理部１４０は、顔学習データの検出範囲内の階層４に対応する領域（以下、第４の領域と表記する）の変換係数値と、第４の領域に対応する非顔学習データ１３０ｃ上の変換係数値と、第２の領域に対応する比較対象データ１３０ｄ上の変換係数値とを比較する。

顔検出処理部１４０は、階層４について、比較対象データ１３０ｄと顔学習データ１３０ａとの変換係数値の一致率が、比較対象データ１３０ｄと非顔学習データ１３０ｃとの変換係数値の一致率よりも大きい場合には、該当する検出範囲に顔の特徴が含まれていると判定する。その他の場合には、該当する検出範囲に顔の特徴が含まれていないと判定する。

顔検出処理部１４０による判定結果は、比較結果テーブルに登録される。図７は、比較結果テーブルのデータ構造の一例を示す図である。図７に示すように、この比較結果テーブルは、検出範囲を識別する検出範囲識別情報と、比較結果とを対応付けて記憶している。顔検出処理部１４０は、顔学習データ１３０ａ、非顔学習データ１３０ｃ、比較対象データ１３０ｄの検出範囲を比較した結果、顔の特徴が含まれていると判定した場合には、比較結果に「マル」を登録し、顔の特徴が含まれていないと判定した場合には、比較結果に「バツ」を登録する。

なお、図７に示すように、必ずしも検出範囲毎に比較結果を保存する必要はなく、例えば、「マル」の数および「バツ」の数を集計し、集計結果のみを比較結果テーブルに保存しても良い。かかる比較結果テーブルは、顔検出処理部１４０が保持しているものとする。

次に、本実施例にかかる画像処理装置１００の処理手順について説明する。図８は、本実施例にかかる画像処理装置１００の処理手順を示すフローチャートである。図８に示すように、画像処理装置１００は、入力画像データを取得し（ステップＳ１０１）、量子化処理を実行する（ステップＳ１０２）。

画像処理装置１００は、ステップＳ１０３において、はじめに画像処理装置１００は、階層１を選択する。

画像処理装置１００は、選択した階層に対応する顔学習データ１３０ａ、非顔学習データ１３０ｃ、比較対象データ１３０ｄの領域をそれぞれ比較し、物体（検出対象となる物体）が存在するか否かを判定する（ステップＳ１０４）。

画像処理装置１００は、物体が存在する可能性がない場合には（ステップＳ１０５，Ｎｏ）、処理を終了する。一方、物体が存在する可能性がある場合には（ステップＳ１０５，Ｙｅｓ）、次の階層が存在するか否かを判定する（ステップＳ１０６）。

画像処理装置１００は、次の階層が存在する場合には（ステップＳ１０７，Ｙｅｓ）、次の階層を選択し（ステップＳ１０８）、ステップＳ１０４に移行する。ステップＳ１０８において、例えば、画像処理装置１００が、現在、階層１を選択している場合には、階層２を選択する。

一方、次の階層が存在しない場合には（ステップＳ１０７，Ｎｏ）、画像処理装置１００は、検出結果を判定する（ステップＳ１０９）。

次に、本実施例にかかる画像処理装置が階層データ１３０ｂを作成する処理手順について説明する。図９は、階層データ１３０ｂを作成する処理手順を示すフローチャートである。

図９に示すように、画像処理装置１００は、顔学習データ１３０ａを取得し（ステップＳ２０１）、顔学習データの各領域の分散を算出する（ステップＳ２０２）。そして、画像処理装置１００は、顔学習データの分散に基づいて階層化し、階層データ１３０ｂを作成する（ステップＳ２０３）。

上述してきたように、本実施例にかかる画像処理装置１００は、画像データ（物体の検出対象となる画像データ）と学習データとを比較して物体検出を行う場合に、被写体の各領域における重要度に応じて学習データの各領域を階層化し、重要度が高い階層から順に画像データと学習データとを比較し、不要な階層における物体検出処理を省略するので、物体検出を精度よく行い、物体検出処理を高速化することができる。

ところで、本実施例にかかる画像処理装置１００は、顔学習データ１３０ａの分散を算出し、階層データ１３０ｂを作成していたが、階層データを算出する方法はこれに限定されるものではない。例えば、画像処理装置１００は、画像データを周波数変換した場合の、変換係数と頻度とのヒストグラムから、画像データの各領域における重要度を判定し、各領域を複数の階層に分類しても良い。

また、画像処理装置１００は、階層データ１３０ｂを作成した後に、周辺の階層との関係を考慮して、階層を修正する平滑化処理を実行しても良い。図１０は、平滑化処理の一例を説明するための図である。図１０では一例として、階層データ１３０ｂが、９つのブロックａ〜ｉで構成されている場合を示しており、平滑化処理対象となるブロックを「ｅ」とする。

画像処理装置１００は、修正対象となるブロックの階層を
修正後の階層＝（右隣の階層＋左隣の階層＋上隣の階層＋下隣の階層＋修正対象の階層×２）÷６
によって算出する（小数点以下は、四捨五入）。

例えば、図１０において、ブロックｅに対して平滑化処理を行うと、平滑化処理後のブロックｅの階層は、階層２となる。このように、画像処理装置１００が、平滑化処理を階層データ１３０ｂに対して実行することにより、ノイズの影響などを抑止することができる。
また、本実施例にて述べた階層化方法を、公知の顔検出技術と組み合わせて実施することも有効である。たとえば、［非特許文献１］と組み合わせることが可能である。この場合は、［非特許文献１］の顔辞書の分散を基準にして、階層構造を定めればよい。ローカルオペレータの変換係数内の位置ごとにヒストグラム態様の辞書を保有しており、このヒストグラムの分散を基準にすれば、ローカルオペレータの変換係数内の位置ごとに階層を定めることができる。階層の決定は、前記のように辞書の分散を基準としても良いが、管理者によって予め定めておく等の方法でもかまわない。

なお、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図２に示した画像処理装置１００の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。なお、本実施例で説明した各種の処理手順は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。

図１１は、本実施例にかかる画像処理装置１００を構成するコンピュータのハードウェア構成を示す図である。図１１に示すように、このコンピュータ（画像処理装置）３０は、入力装置３１、モニタ３２、ＲＡＭ（Random Access Memory）３３、ＲＯＭ（Read Only Memory）３４、ネットワークを介して他の装置と通信を行う通信制御装置３５、記憶媒体からデータを読み出す媒体読取装置３６、カメラ３７、ＣＰＵ（Central Processing Unit）３８、ＨＤＤ（Hard Disk Drive）３９をバス４０で接続している。

そして、ＨＤＤ３９には、上述した画像処理装置１００の機能と同様の機能を発揮する画像処理プログラム３９ｂが記憶されている。ＣＰＵ３８が、画像処理プログラム３９ｂを読み出して実行することにより、画像処理プロセス３８ａが起動される。

ここで、画像処理プロセス３８ａは、図２の変換処理部１１０ａ，１１０ｂ、分析処理部１２０ａ，１２０ｂ、顔検出処理部１４０に対応する。また、ＨＤＤ３９は、画像処理装置１００の記憶部１３０に記憶される情報に対応する各種データ３９ａを記憶する。ＣＰＵ３８は、ＨＤＤ３９に格納された各種データ３９ａを読み出して、ＲＡＭ３３に格納し、ＲＡＭ３３に格納された各種データ３３ａを利用して、画像データの量子化、物体検出を実行する。

ところで、図１１に示した画像処理プログラム３９ｂは、必ずしも最初からＨＤＤ３９に記憶させておく必要はない。たとえば、コンピュータに挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」、または、コンピュータの内外に備えられるハードディスクドライブ（ＨＤＤ）などの「固定用の物理媒体」、さらには、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータに接続される「他のコンピュータ（またはサーバ）」などに画像処理プログラム３９ｂを記憶しておき、コンピュータがこれらから画像処理プログラム３９ｂを読み出して実行するようにしてもよい。

Claims

画像上の位置と該位置における変換係数値とを対応付けた辞書データ、および、画像上の位置と該位置における変換係数値のばらつき具合を示す階層とを対応付けた階層データを記憶する記憶手段と、
入力画像を取得した場合に、前記辞書データと前記階層データとを参照し、前記階層に対応する位置の前記辞書データの変換係数値と前記入力画像データの変換係数値との比較結果と、該比較結果に対応する前記階層を基にして、前記入力画像に被写体が含まれているか否かを判定する判定手段と、
を有することを特徴とする画像処理装置。
入力画像を複数の周波数成分に変換した結果に基づいて、前記入力画像を構成する位置ごとに変換係数値を抽出する特徴抽出手段と、
前記特徴抽出手段の抽出結果に基づいて、前記入力画像上の位置と該位置における変換係数値とを対応付けた辞書データ、および、前記入力画像上の位置と該位置における変換係数値のばらつき具合を示す階層とを対応付けた階層データを作成する作成手段と、
被写体の検出対象となる検出対象画像を取得した場合に、前記辞書データと前記階層データとを参照し、前記階層に対応する位置の前記辞書データの変換係数値と前記入力画像データとの比較結果と、該比較結果に対応する前記階層とを基にして、前記検出対象画像に前記被写体が含まれているか否かを判定する判定手段と、
を有することを特徴とする画像処理装置。
前記判定手段は、前記辞書データに含まれる位置のうち、ばらつき具合の小さい階層に対応する位置の前記辞書データの変換係数値および前記入力画像データの変換係数値から順に比較することを特徴とする請求項２に記載の画像処理装置。
前記判定手段は、第１階層の位置について前記被写体が含まれていると判断した場合には、前記第１階層よりもばらつき具合の大きい第２階層の位置について前記被写体が含まれているか否かを判定することを特徴とする請求項３に記載の画像処理装置。