JP4779057B2

JP4779057B2 - 画像処理装置および画像処理方法

Info

Publication number: JP4779057B2
Application number: JP2010529527A
Authority: JP
Inventors: 珊珊于; 雅芳清水
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-09-17
Filing date: 2008-09-17
Publication date: 2011-09-21
Anticipated expiration: 2028-09-17
Also published as: US20110228990A1; JPWO2010032295A1; US8548210B2; WO2010032295A1

Description

本発明は、画像データを量子化する画像処理装置および画像処理方法に関するものである。

近年、カメラ等によって撮影された画像中から、各種の物体（例えば、人物の顔、車等）を検出する物体検出の研究が行われている。物体検出の技術は、予め、検出対象となる物体の特徴を学習して学習データを作成し、作成した学習データと、画像データとを比較することで、画像中に検出対象となる物体が存在するか否かを判定する技術である。

また、画像データそのものの情報量は膨大であり、物体検出の技術では、画像中に検索対象となる物体が存在しているか否かを判定できればよいので、情報の量子化技術を利用して画像データを削減し、メモリ資源を節約する必要がある。

情報の量子化技術には、画像データを周波数変換（ウェーブレット＜Wavelet＞変換）し、変換結果となる変換係数の大小（または、隣り合う画素同士の画素値の差分の大小）から量子化処理を行う技術がある（例えば、非特許文献１参照）。かかる量子化処理では、画像データを３段階に量子化するので、物体検出に用いられる画像データ、学習データの記憶領域を削減することが可能となる。

なお、濃淡値画像からなる対象画像において、２つの画素の異なる組合せについて濃淡差分値を計算し、算出した濃淡差分値を所定の量子化レベルで量子化することにより、画像照合を実施するという技術も知られている（例えば、特許文献１参照）。

特開２００４−２４６６１８号公報 H.Schneiderman and T. Kanade, Object Detection Using the Statistics of Parts To appear in International Journal of Computer Vision,2002.

しかしながら、上述した従来の技術では、画像データを量子化することで処理対象となる画像データのデータ量を削減しているが、量子化レベルが３段階に留まっているため、必ずしも最適にデータ量を削減できていないという問題があった。

なお、画像データを周波数変換し、変換結果となる変換係数の大小から量子化処理を行う場合に、変換係数の中間値を基準にして、画像データを単に２段階に量子化することも考えられるが、顔を構成する画像は中間値が多いため、量子化した画像データに顔の特徴が残りにくく、物体検出の精度が著しく劣化してしまうため現実的ではない。

この発明は、上述した従来技術による問題点を解消するためになされたものであり、画像データを最適に削減することができる画像処理装置および画像処理方法を提供することを目的とする。

上述した課題を解決し、目的を達成するために、この画像処理装置は、入力画像を取得した場合に、前記入力画像内の被写体の特徴が現れている領域を第１の画素値に置き換え、前記入力画像内の被写体の特徴が現れていない領域を第２の画素値に置き換えることにより、前記入力画像を２段階に量子化する量子化手段と、前記量子化手段により量子化された複数枚の顔画像の特徴を含んだ辞書データを記憶する記憶手段と、前記量子化手段により量子化された検出対象画像に対して、前記記憶手段から読み出した辞書データを用いて顔検出を行う検出手段と、を有することを要件とする。

この画像処理装置によれば、画像データの特徴の有無を基にして２段階の量子化を実行するので、オリジナルの画像の特徴が失われてしまうことを防止して、省メモリ化を実現しつつ、従来技術の物体検出と同様の高い検出率を保つことができる。

図１は、本実施例にかかる画像処理装置の概要および特徴を説明するための図である。図２は、本実施例にかかる画像処理装置の効果を説明するための図である。図３は、本実施例にかかる画像処理装置の構成を示す機能ブロック図である。図４は、顔学習データのデータ構造の一例を示す図である。図５は、非顔学習データのデータ構造の一例を示す図である。図６は、比較対象データのデータ構造の一例を示す図である。図７は、顔検出処理部の処理の一例を説明するための図である。図８は、比較結果テーブルのデータ構造の一例を示す図である。図９は、検出範囲の移動の様子を説明するための図である。図１０は、本実施例にかかる画像処理装置の処理手順を示すフローチャートである。図１１は、量子化処理の処理手順を示すフローチャートである。図１２は、本実施例にかかる画像処理装置を構成するコンピュータのハードウェア構成を示す図である。

符号の説明

３０コンピュータ
３１入力装置
３２モニタ
３３ＲＡＭ
３３ａ，３９ａ各種データ
３４ＲＯＭ
３５通信制御装置
３６媒体読取装置
３７カメラ
３８ＣＰＵ
３８ａ画像処理プロセス
３９ＨＤＤ
３９ｂ画像処理プログラム
４０バス
１００画像処理装置
１１０ａ，１１０ｂ変換処理部
１２０ａ、１２０ｂ分析処理部
１３０記憶部
１３０ａ顔学習データ
１３０ｂ非顔学習データ
１３０ｃ比較対象データ
１４０顔検出処理部

以下に、本発明にかかる画像処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

まず、本実施例にかかる画像処理装置の概要および特徴について説明する。図１は、本実施例にかかる画像処理装置の概要および特徴を説明するための図である。本実施例にかかる画像処理装置は、物体検出にて利用する画像データを量子化する場合に、入力画像内の被写体（例えば、人物の顔）の特徴が現れている領域（画素）を第１の画素値に置き換え、入力画像内の被写体の特徴が現れていない領域を第１の画素値に置き換えることにより、入力画像を２段階に量子化する。

具体的には、図１に示すように、画像処理装置は、入力画像に対してウェーブレット（Wavelet）変換を行った後に、変換係数が量子化閾値１未満、または、変換係数が量子化閾値２より大きくなる入力画像内の領域を被写体の特徴部分として第１の画素値に置き換える。また、画像処理装置は、変換係数が量子化閾値１以上、かつ、量子化閾値２以下となる入力画像内の領域を被写体の非特徴部分として第２の画素値に置き換える。

ここで、量子化閾値１は、変換係数の中間値よりも小さい値であり、管理者によって予め設定される閾値である。また、量子化閾値２は、変換係数の中間値よりも大きい値であり、管理者によって予め設定される閾値である。

図２は、本実施例にかかる画像処理装置の効果を説明するための図である。図２に示す（ａ）は、元の入力画像であり、（ｂ）は、ウェーブレット変換後の入力画像である。また、図２の（ｃ）は、変換係数の大小により３段階に量子化した入力画像であり、（ｄ）は、変換係数の大小により２段階に量子化した入力画像であり、（ｅ）は、本実施例にかかる画像処理装置が量子化した入力画像である。

図２において、（ｃ）の入力画像と（ｅ）の入力画像とを比較すると、（ｃ）の入力画像は、３段階で量子化しているのに対して、（ｅ）の入力画像は、２段階で量子化しているので、省メモリ化を図ることができる。また、（ｄ）の入力画像および（ｅ）の入力画像は、共に、２段階で量子化しているが、単純に変換係数の大小で２段階に量子化している（ｄ）の入力画像に対して、（ｅ）の入力画像は被写体の特徴の有無で２段階に量子化しているので、顔の特徴を最適に残すことができ、物体検出の精度の低下を防止することが出来る。

次に、本実施例にかかる画像処理装置１００の構成について説明する。図３は、本実施例にかかる画像処理装置１００の構成を示す機能ブロック図である。図３に示すように、画像処理装置１００は、変換処理部１１０ａ，１１０ｂと、分析処理部１２０ａ，１２０ｂと、記憶部１３０と、顔検出処理部１４０とを有する。

変換処理部１１０ａは、顔画像集データおよび非顔画像集データを取得し、取得した顔画像集データおよび非顔画像集データに対して周波数変換処理（例えば、ウェーブレット変換）を実行する処理部である。画像データに対する周波数変換処理は、周知技術と同様である。

なお、顔画像集データは、様々な人物の顔画像を集めた画像データであり、非顔画像集データは、顔画像以外の各種の画像を集めた画像データである。また、顔画像集データのサイズおよび非顔画像集データのサイズは統一されているものとする。

変換処理部１１０ａは、入力装置、記憶装置（図示略）等から顔画像集データおよび非顔画像集データを取得する。変換処理部１１０ａは、周波数変換した顔画像集データおよび非顔画像集データを分析処理部１２０ａに出力する。以下の説明において、周波数変換した顔画像集データを変換顔画像集データと表記し、周波数変換した非顔画像集データを変換非顔画像集データと表記する。

変換処理部１１０ｂは、入力画像データを取得し、取得した入力画像データに対して周波数変換処理（例えば、ウェーブレット変換）を実行する処理部である。画像データに対する周波数変換処理は、周知技術と同様である。なお、入力画像データは、物体検出対象となる画像データである。変換処理部１１０ａは、入力装置、記憶装置（図示略）等から入力画像データを取得する。変換処理部１１０ｂは、周波数変換した入力画像データを分析処理部１２０ｂに出力する。

分析処理部１２０ａは、変換顔画像集データおよび変換非顔画像集データを取得した場合に、変換顔画像集データを基にして顔学習データを作成し、変換非顔画像集データを基にして非顔学習データを作成する処理部である。

まず、分析処理部１２０ａが、顔学習データを作成する処理について具体的に説明する。分析処理部１２０ａは、変換顔画像集データに含まれる画像データから単一の画像データを抽出する。ここで、変換顔画像集データに含まれる画像データは、顎から頭をほぼ含む上下幅、両耳をほぼ含む左右幅で、顔を全面に写した画像群で構成されている。もちろん、多様な顔を検出するための学習データであるので、真正面から顔を写したデータのほかに、斜め上や下や左や右を向いたデータや、帽子や眼鏡を掛けた顔のデータ、様々な年齢や性別の人のデータが含まれていても良い。そして、分析処理部１２０ａは、単一の画像データを周波数変換した結果である各変換係数と、量子化閾値１と、量子化閾値２とを比較することにより、該当の変換係数値を「０」または「１」に置き換えることで、２段階に量子化する。

分析処理部１２０ａは、画像データ中の変換係数を選択し、選択した変換係数が、量子化閾値１未満、または、量子化閾値２より大きい場合に、選択した変換係数を「１」に置き換える。

一方、分析処理部１２０ａは、画像データ中の変換係数を選択し、選択した変換係数が、量子化閾値１以上、かつ、量子化閾値２以下の場合に、選択した変換係数を「０」に置き換える。分析処理部１２０ａは、変換顔画像集データから抽出した画像データの変換係数全てを、上記の手法により、「０」または「１」の変換係数値に置き換えることにより、２段階に量子化する。

同様に、分析処理部１２０ａは、変換顔画像集データに含まれる残りの画像データも、上記の手法により２段階に量子化する。そして、分析処理部１２０ａは、量子化した各画像データの各変換係数値（各画像データの同一位置に対応する変換係数値）を比較し、変換係数値「０」、「１」の頻度に基づいて、顔学習データを作成する。例えば、画像データ中の位置（ｘ１、ｙ１）の変換係数値について、各画像データを比較したところ、変換係数値「０」の頻度よりも、変換係数値「１」の頻度のほうが大きい場合には、顔学習データ中の位置（ｘ１、ｙ１）の変換係数値を「１」に設定する。

図４は、顔学習データのデータ構造の一例を示す図である。図４に示すように、この顔学習データは、位置情報と変換係数値とを対応付けて記憶している。なお、顔学習データのデータ構造は、図４に示したものに限らず、例えば、物体検出時に比較する変換係数の塊（例えば、８つの変換係数）毎に変換係数値を対応付けて記憶させても良い。

次に、分析処理部１２０ａが、非顔学習データを作成する処理について説明する。分析処理部１２０ａは、変換非顔画像集データに含まれる画像データから単一の画像データを抽出する。そして、分析処理部１２０ａは、各変換係数と、量子化閾値１と、量子化閾値２とを比較することにより、該当変換係数値を「０」または「１」に置き換えることにより、２段階に量子化する。

分析処理部１２０ａは、画像データ中の変換係数を選択し、選択した変換係数が、量子化閾値１未満、または、量子化閾値２より大きい場合に、選択した変換係数値を「１」に置き換える。

一方、分析処理部１２０ａは、画像データ中の変換係数を選択し、選択した変換係数が、量子化閾値１以上、かつ、量子化閾値２以下の場合に、選択した変換係数値を「０」に置き換える。分析処理部１２０ａは、変換非顔画像集データから抽出した画像データの変換係数全てを、上記の手法により、「０」または「１」の変換係数値に置き換えることにより、２段階に量子化する。

同様に、分析処理部１２０ａは、変換非顔画像集データに含まれる残りの画像データも、上記の手法により２段階に量子化する。そして、分析処理部１２０ａは、量子化した各画像データの各変換係数値（各画像データの同一位置に対応する変換係数値）を比較し、変換係数値「０」、「１」の頻度に基づいて、非顔学習データを作成する。例えば、画像データ中の位置（ｘ１、ｙ１）の変換係数値について、各画像データを比較したところ、変換係数値「０」の頻度よりも、変換係数値「１」の頻度のほうが大きい場合には、非顔学習データ中の位置（ｘ１、ｙ１）の変換係数値を「１」に設定する。

図５は、非顔学習データのデータ構造の一例を示す図である。図５に示すように、この非顔学習データは、位置情報と変換係数値とを対応付けて記憶している。なお、非顔学習データのデータ構造は、図５に示したものに限らず、例えば、物体検出時に比較する変換係数の塊（例えば、８つの変換係数）毎に変換係数値を対応付けて記憶させても良い。

分析処理部１２０ｂは、周波数変換された入力画像データを取得した場合に、取得した入力画像データを２段階に量子化する処理部である。分析処理部１２０ｂは、量子化した入力画像データを記憶部１３０に出力する。以下の説明において、検出処理対象の画像から，顔検出対象の領域を切り出したものを入力画像データとし，比較対象データとも表記する。入力画像データは入力フレーム内の部分領域であって、顔画像検出用の領域である。

分析処理部１２０ｂが、比較対象データを作成する処理、すなわち、入力画像データを２段階に量子化する処理について具体的に説明する。分析処理部１２０ｂは、周波数変換された入力画像データの変換係数と、量子化閾値１と、量子化閾値２とを比較することにより、変換係数値を「０」または「１」に置き換えることで、２段階に量子化する。

分析処理部１２０ｂは、入力画像データ中の変換係数を選択し、選択した変換係数が、量子化閾値１未満、または、量子化閾値２より大きい場合に、選択した変換係数値を「１」に置き換える。

一方、分析処理部１２０ｂは、入力画像データ中の変換係数を選択し、選択した変換係数が、量子化閾値１以上、かつ、量子化閾値２以下の場合に、選択した変換係数値を「０」に置き換える。分析処理部１２０ｂは、変換顔画像集データから抽出した画像データの変換係数全てを、上記の手法により、「０」または「１」の変換係数値に置き換えることにより、入力画像データを２段階に量子化し、比較対象データを作成する。

図６は、比較対象データのデータ構造の一例を示す図である。図６に示すように、この比較対象データは、位置情報と変換係数値とを対応付けて記憶している。なお、比較対象データのデータ構造は、図６に示したものに限らず、例えば、物体検出時に比較するブロックの塊（例えば、８ブロック）毎に変換係数値と対応付けて記憶させても良い。

記憶部１３０は、分析処理部１２０ａから出力される顔学習データ、非顔学習データ、分析処理部１２０ｂから出力される比較対象データを記憶する記憶部である。

顔検出処理部１４０は、記憶部１３０に記憶された顔学習データ１３０ａと、非顔学習データ１３０ｂと、比較対象データ１３０ｃとを比較して、入力画像データに顔画像が含まれているか否かを判定する処理部である。顔検出処理部１４０は、判定結果を上位の処理部（図示略）に出力する。

図７は、顔検出処理部１４０の処理の一例を説明するための図である。具体的に、顔検出処理部１４０は、検出範囲を設定し、顔学習データ１３０ａ、非顔学習データ１３０ｂ、比較対象データ１３０ｃの同一位置の検出範囲に含まれる各変換係数値をそれぞれ比較する。そして、顔検出処理部１４０は、比較した結果、比較対象データの検出範囲が顔学習データに類似しているのか、非顔学習データに類似しているのかを判定し、判定結果を比較結果テーブルに登録する。かかる比較結果テーブルは、顔検出処理部１４０が、保持しているものとする。

図８は、比較結果テーブルのデータ構造の一例を示す図である。図８に示すように、この比較結果テーブルは、検出範囲を識別する検出範囲識別情報と、比較結果とを対応付けて記憶している。顔検出処理部１４０は、顔学習データ１３０ａ、非顔学習データ１３０ｂ、比較対象データ１３０ｃの検出範囲を比較した結果、顔学習データ１３０ａに類似していると判定した場合には、比較結果に「マル」を登録し、非顔学習データ１３０ｂに類似していると判定した場合には、比較結果に「バツ」を登録する。

具体的に、図７を用いて説明する。ここでは一例として、現在、各画像データ１３０ａ〜１３０ｃに設定されている検出範囲の検出範囲識別情報を「１００１」とする。顔検出処理部１４０が、比較対象データ１３０ｃの検出範囲の各変換係数値と、顔学習データ１３０ａの検出範囲の各変換係数値とを比較すると、８つヒットする。

一方、顔検出処理部１４０が、比較対象データ１３０ｃの検出範囲の各変換係数値と、非顔学習データ１３０ｂの各変換係数値とを比較すると、１つヒットする。この場合、顔検出処理部１４０は、顔学習データ１３０ａの方が、非顔学習データ１３０ｂよりもヒット数が多いので、検出範囲識別情報「１００１」に対応する比較結果を「マル」に設定する。逆に非顔学習データ１３０ｂのほうがヒット数が多い場合は「バツ」を設定する。同数の場合には，ここでは，どちらにも設定しないこととする。

顔検出処理部１４０は、図９に示すように、検出範囲を移動させながら、比較結果テーブルの比較結果に「マル」または「バツ」を順次登録していく。図９は、検出範囲の移動の様子を説明するための図である。なお、顔検出処理部１４０が、検出範囲内の各変換係数値を比較する際には、顔学習データ１３０ａ、非顔学習データ１３０ｂ、比較対象データ１３０ｃ上に配置される検出範囲の位置が統一されているものとする。

そして、顔検出処理部１４０は、比較対象データ１３０ｃ、顔学習データ１３０ａ、非顔学習データ１３０ｂの比較が終了した後に、比較結果テーブルを参照し、「バツ」の数よりも「マル」の数の方が多い場合には、入力画像に顔画像が含まれていると判定する。一方、「バツ」の数よりも「マル」の数のほうが少ない場合には、入力画像に顔画像が含まれていると判定する。なお、「バツ」の数と「マル」の数が等しい場合には、管理者の設定により、顔画像が含まれていると判定しても良いし、顔画像が含まれていないと判定しても良い。

なお、図７に示す例では、顔検出処理部１４０は、８つの変換係数毎に変換係数値を比較する例を示しているが、これに限定されるものではない。例えば、ｎ（ｎは、自然数）変換係数毎に変換係数値を比較することも出来る。また、図８に示すように、必ずしも検出範囲毎に比較結果を保存する必要はなく、例えば、「マル」の数および「バツ」の数を集計し、集計結果のみを比較結果テーブルに保存しても良い。

次に、本実施例にかかる画像処理装置１００の処理手順について説明する。図１０は、本実施例にかかる画像処理装置１００の処理手順を示すフローチャートである。図１０に示すように、画像処理装置１００は、入力画像データを取得し（ステップＳ１０１）、量子化処理を実行する（ステップＳ１０２）。

そして、画像処理装置１００は、入力フレーム内のある部分領域である比較対象データ（入力画像）１３０ｃと、顔学習データ１３０ａと、非顔学習データ１３０ｂとを比較して比較結果テーブルに「マル」または「バツ」を登録し（ステップＳ１０３）、「バツ」よりも「マル」の方が多いか否かを判定する（ステップＳ１０４）。

画像処理装置１００は、「バツ」よりも「マル」の方が多い場合には（ステップＳ１０５，Ｙｅｓ）、入力画像に顔画像が存在すると判定し（ステップＳ１０６）、判定結果を出力する（ステップＳ１０７）。一方、「バツ」よりも「マル」の方が少ない場合には（ステップＳ１０５，Ｎｏ）、入力画像に顔画像が存在しないと判定し（ステップＳ１０８）、ステップＳ１０７に移行する。

次に、図１０のステップＳ１０２に示した量子化処理の処理手順について説明する。図１１は、量子化処理の処理手順を示すフローチャートである。図１１に示すように、画像処理装置１００は、入力画像データを周波数変換する（ステップＳ２０１）。

そして、画像処理装置１００は、変換係数を選択し（ステップＳ２０２）、選択した変換係数が、量子化閾値１未満、または、変換係数が量子化閾値２よりも大きいか否かを判定する（ステップＳ２０３）。

画像処理装置１００は、条件を満たす場合、すなわち、変換係数が、量子化閾値１未満、または、変換係数が量子化閾値２よりも大きい場合には（ステップＳ２０４，Ｙｅｓ）、対応する変換係数値を「１」に量子化し（ステップＳ２０５）、ステップＳ２０７に移行する。

一方、画像処理装置１００は、条件を満たさない場合、すなわち、変換係数が、量子化閾値１以上、かつ、量子化閾値２以下の場合には（ステップＳ２０４，Ｎｏ）、対応する変換係数値を「０」に量子化し（ステップＳ２０６）、全ての変換係数を選択したか否かを判定する（ステップＳ２０７）。

画像処理装置１００は、全ての変換係数を選択した場合には（ステップＳ２０８，Ｙｅｓ）、量子化処理を終了する。一方、画像処理装置１００は、全ての変換係数を選択していない場合には（ステップＳ２０８，Ｎｏ）、未選択の変換係数を選択し（ステップＳ２０９）、ステップＳ２０３に移行する。

上述してきたように、本実施例にかかる画像処理装置１００は、物体検出にて利用する画像データ（顔画像集データ、非顔画像集データ、入力画像データ）を量子化する場合に、画像データ内の被写体（例えば、人物の顔）の特徴が現れている領域（画素）を第１の変換係数値に置き換え、画像データ内の被写体の特徴が現れていない領域を第２の変換係数値に置き換えることにより、画像データを２段階に量子化することにより顔学習データ１３０ａ、非顔学習データ１３０ｂ、比較対象データ１３０ｃを作成するので、画像データを最適に削減することができる。

また、本実施例にかかる画像処理装置１００は、画像データの特徴の有無を基にして２段階の量子化を実行するので、オリジナルの画像の特徴が失われてしまうことを防止して、省メモリ化を実現しつつ、従来技術の物体検出と同様の高い検出率を保つことができる。

なお、本実施例にかかる画像処理装置１００は、一例として、周波数変換（ウェーブレット変換）を行い、ウェーブレット変換の変換係数を基にして画像データを量子化していたが、これに限定されるものではない。例えば、画像処理装置１００は、勾配検出またはエッジ検出を行い、勾配の大きさまたはエッジの強度を基にして、量子化しても良い。

すなわち、画像処理装置１００は、勾配検出を実行した結果、勾配の所定値未満となる領域を特徴なしと判定して「０」に量子化し、勾配の所定値以上となる領域を特徴ありとして「１」に量子化する。あるいは、画像処理装置１００は、エッジ検出を行った結果、エッジの強度が所定値未満となる領域を特徴なしと判定して「０」に量子化し、エッジの強度が所定値以上となる領域を特徴ありとして「１」に量子化する。

また、本実施例にかかる画像処理装置１００は、変換係数と、量子化閾値１と、量子化閾値２とを比較して、画像データを量子化したが、単に、変換係数の絶対値と、量子化閾値２とを比較して、画像データを量子化してもよい。

すなわち、画像処理装置１００は、変換係数の絶対値が、量子化閾値２未満となる領域を特徴なしと判定して「０」に量子化し、変換係数の絶対値が、量子化閾値２以上となる領域を特徴ありとして「１」に量子化する。

また、本実施例にて述べた上記の量子化方法（量子化閾値１と量子化閾値２を用いるもの、および、絶対値を用いるもの）を、公知の顔検出技術と組み合わせて実施することも有効である。たとえば、［非特許文献１］と組み合わせることが可能である。この場合は、［非特許文献１］の三階調の量子化（０，１，２）を、「三階調の０と２」を「二階調の１」とし、「三階調の１」を「二階調の０」としても良い。この方法によれば、［非特許文献１］の処理をほぼそのまま活用しつつ、３の８乗に比例したデータサイズを、２の８乗に比例したサイズに大幅に削減できる。
また、以上の実施例においては、辞書データ作成と検出処理とを一体化した構成として示した。実施形態は、このような一体型に限られるものではなく、辞書データ作成までを行う部分と、検出処理を行う部分に分離した構成としてもよい。その場合、作成した辞書データを、検出処理を行う装置において保持する構成となる。

ところで、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図３に示した画像処理装置１００の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。なお、本実施例で説明した各種の処理手順は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。

図１２は、本実施例にかかる画像処理装置１００を構成するコンピュータのハードウェア構成を示す図である。図１２に示すように、このコンピュータ（画像処理装置）３０は、入力装置３１、モニタ３２、ＲＡＭ（Random Access Memory）３３、ＲＯＭ（Read Only Memory）３４、ネットワークを介して他の装置と通信を行う通信制御装置３５、記憶媒体からデータを読み出す媒体読取装置３６、カメラ３７、ＣＰＵ（Central Processing Unit）３８、ＨＤＤ（Hard Disk Drive）３９をバス４０で接続している。

そして、ＨＤＤ３９には、上述した画像処理装置１００の機能と同様の機能を発揮する画像処理プログラム３９ｂが記憶されている。ＣＰＵ３８が、画像処理プログラム３９ｂを読み出して実行することにより、画像処理プロセス３８ａが起動される。

ここで、画像処理プロセス３８ａは、図３の変換処理部１１０ａ，１１０ｂ、分析処理部１２０ａ，１２０ｂ、顔検出処理部１４０に対応する。また、ＨＤＤ３９は、画像処理装置１００の記憶部１３０に記憶される情報に対応する各種データ３９ａを記憶する。ＣＰＵ３８は、ＨＤＤ３９に格納された各種データ３９ａを読み出して、ＲＡＭ３３に格納し、ＲＡＭ３３に格納された各種データ３３ａを利用して、画像データの量子化、物体検出を実行する。

ところで、図１２に示した画像処理プログラム３９ｂは、必ずしも最初からＨＤＤ３９に記憶させておく必要はない。たとえば、コンピュータに挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」、または、コンピュータの内外に備えられるハードディスクドライブ（ＨＤＤ）などの「固定用の物理媒体」、さらには、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータに接続される「他のコンピュータ（またはサーバ）」などに画像処理プログラム３９ｂを記憶しておき、コンピュータがこれらから画像処理プログラム３９ｂを読み出して実行するようにしてもよい。

Claims

入力画像を取得した場合に、前記入力画像内の濃淡特徴値を抽出する濃淡特徴抽出手段と、
前記入力画像内の濃淡特徴値と、中間値よりも小さい第１の閾値および前記中間値よりも大きい第２の閾値とを基にして、前記第１の閾値よりも小さい濃淡特徴値を持つ前記入力画像内の領域、および、前記第２の閾値よりも大きい濃淡特徴値を持つ前記入力画像内の領域を第１の画素値に置き換え、前記入力画像内の残りの領域を第２の画素値に置き換えることにより、前記入力画像を２段階に量子化する量子化手段と、
前記量子化手段により量子化された複数枚の顔画像の特徴を含んだ辞書データを記憶する記憶手段と、
前記量子化手段により量子化された検出対象画像に対して、前記記憶手段から読み出した辞書データを用いて顔検出を行う検出手段と、
を有することを特徴とする画像処理装置。
前記濃淡特徴抽出手段は、前記入力画像に対する勾配算出またはエッジ検出を行い、勾配の大きさまたはエッジの強度を前記濃淡特徴値として抽出することを特徴とする請求項１に記載の画像処理装置。
前記濃淡特徴抽出手段は、前記入力画像に対して周波数変換を行い、周波数成分の大きさを前記濃淡特徴値として抽出することを特徴とする請求項１に記載の画像処理装置。
前記量子化手段は、前記入力画像内の前記濃淡特徴値の絶対値と、前記第２の閾値とを基にして、前記第２の閾値よりも大きい前記濃淡特徴値の絶対値を持つ前記入力画像内の領域を前記第１の画素値に置き換え、前記入力画像内の残りの領域を第２の画素値に置き換えることにより、前記入力画像を２段階に量子化することを特徴とする請求項３に記載の画像処理装置。
前記濃淡特徴抽出手段は、周波数変換としてウェーブレット変換を用いることを特徴とする請求項４に記載の画像処理装置。
画像処理装置が、
入力画像を取得した場合に、前記入力画像内の濃淡特徴値を抽出する抽出ステップと、前記入力画像内の濃淡特徴値と、中間値よりも小さい第１の閾値および前記中間値よりも大きい第２の閾値とを基にして、前記第１の閾値よりも小さい濃淡特徴値を持つ前記入力画像内の領域、および、前記第２の閾値よりも大きい濃淡特徴値を持つ前記入力画像内の領域を第１の画素値に置き換え、前記入力画像内の残りの領域を第２の画素値に置き換えることにより、前記入力画像を２段階に量子化する量子化ステップと、
前記量子化ステップにより量子化された複数枚の顔画像の特徴を含んだ辞書データを記憶装置に記憶する記憶ステップと、
前記量子化ステップにより量子化された検出対象画像に対して、前記記憶装置から読み出した辞書データを用いて顔検出を行う検出ステップと、
を含んだことを特徴とする画像処理方法。