JP2005234811A

JP2005234811A - 検出装置、検出方法及びプログラム

Info

Publication number: JP2005234811A
Application number: JP2004041920A
Authority: JP
Inventors: Motofumi Fukui; 基文福井; Sukeji Kato; 典司加藤
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2004-02-18
Filing date: 2004-02-18
Publication date: 2005-09-02

Abstract

【課題】画像データに撮像された対象物を検出する場合において、当該検出に係る処理時間の短縮を検出率の低下を抑えながら実現できるようになる検出装置を提供すること。
【解決手段】検出装置１０は、少なくとも１つのクラスタを順次選択して、当該クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数の第ｉ階層のクラスタに分類する。同様に、複数の第ｉ階層のクラスタを順次選択して、当該クラスタに含まれる各画素を複数の第ｉ＋１階層のクラスタに分類する。そして、少なくとも第ｎ階層のクラスタを参照して、画像データに撮像された対象物の検出を実行する。位置情報と色情報との重み付けは注目クラスタの性状に基づいて制御される。
【選択図】図２

Description

本発明は検出装置、検出方法及びプログラムに関し、特に画像に撮像された対象物を検出する技術に関する。

画像データに撮像された対象物を検出するための技術が数多く知られている。例えば、画像データの端から逐次的に対象物に応じてテンプレートを作成し、各テンプレートごとにパターンマッチングを実施し、その評価値がある閾値以上の場合、そのテンプレートに対応する場所に対象物が存在すると判断する手法や、画像データを複数の領域に分割し、かかる領域を利用して対象物の検出を行う手法などが知られている（特許文献１，２）。
特開２００１−０９２９８０号公報特開平０９−１４７１２４号公報

画像データに撮像された対象物の検出では、対象物の検出に係る処理時間を短縮できると好適であるが、かかる処理時間の短縮化を図ろうとすると対象物の検出率が低下してしまうという問題があった。

本発明は上記課題に鑑みてなされたものであって、その目的の一つは、画像データに撮像された対象物を検出する場合において、当該検出に係る処理時間の短縮を検出率の低下を抑えながら実現できるようになる検出装置、検出方法及びプログラムを提供することにある。

上記課題を解決するために、本発明に係る検出装置は、画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類手段を含み、前記画像データに撮像された対象物を検出する検出装置であって、少なくとも１つのクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第ｉ階層のクラスタに分類させる手段と、前記複数の第ｉ階層のクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第ｉ＋１階層のクラスタに分類させる手段と、少なくとも第ｎ階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する手段と、を含み、前記分類手段による処理における前記位置情報と前記色情報との重み付けを、前記注目クラスタの性状を示す情報に基づいて制御することを特徴とする。

また、本発明に係る検出方法は、画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類工程を含み、前記画像データに撮像された対象物を検出する検出方法であって、少なくとも１つのクラスタを前記注目クラスタとして順次選択して、前記分類工程を実行し、当該注目クラスタに含まれる各画素を複数の第ｉ階層のクラスタに分類させる工程と、前記複数の第ｉ階層のクラスタを前記注目クラスタとして順次選択して、前記分類工程を実行し、当該注目クラスタに含まれる各画素を複数の第ｉ＋１階層のクラスタに分類させる工程と、少なくとも第ｎ階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する工程と、前記分類工程における前記位置情報と前記色情報との重み付けを、前記注目クラスタの性状を示す情報に基づいて制御する工程と、を含むことを特徴とする。

また、本発明に係るプログラムは、画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類手段を含み、前記画像データに撮像された対象物を検出する検出装置として、コンピュータを機能させるためのプログラムであって、少なくとも１つのクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第ｉ階層のクラスタに分類させる手段、前記複数の第ｉ階層のクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第ｉ＋１階層のクラスタに分類させる手段、少なくとも第ｎ階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する手段、及び、前記分類手段による処理における前記位置情報と前記色情報との重み付けを、前記注目クラスタの性状を示す情報に基づいて制御する手段、として前記コンピュータを機能させるためのプログラムである。

また、本発明の一態様は、前記注目クラスタの性状を示す情報は、前記注目クラスタの階層を特定する情報であることを特徴とする。

また、本発明の一態様は、前記注目クラスタの性状を示す情報は、前記注目クラスタに含まれる画素の総数を示す情報であることを特徴とする。

また、本発明に係る検出装置は、画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類手段を含み、前記画像データに撮像された対象物を検出する検出装置であって、少なくとも１つのクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第ｉ階層のクラスタに分類させる手段と、前記複数の第ｉ階層のクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第ｉ＋１階層のクラスタに分類させる手段と、少なくとも第ｎ階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する手段と、を含み、前記分類手段による処理における前記位置情報と前記色情報との重み付けを、前記画像データにおける前記対象物の大きさを示す情報に基づいて制御することを特徴とする。

また、本発明に係る検出方法は、画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類工程を含み、前記画像データに撮像された対象物を検出する検出方法であって、少なくとも１つのクラスタを前記注目クラスタとして順次選択して、前記分類工程を実行し、当該注目クラスタに含まれる各画素を複数の第ｉ階層のクラスタに分類させる工程と、前記複数の第ｉ階層のクラスタを前記注目クラスタとして順次選択して、前記分類工程を実行し、当該注目クラスタに含まれる各画素を複数の第ｉ＋１階層のクラスタに分類させる工程と、少なくとも第ｎ階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する工程と、前記分類工程における前記位置情報と前記色情報との重み付けを、前記画像データにおける前記対象物の大きさを示す情報に基づいて制御する工程と、を含むことを特徴とする。

また、本発明に係るプログラムは、画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類手段を含み、前記画像データに撮像された対象物を検出する検出装置として、コンピュータを機能させるためのプログラムであって、少なくとも１つのクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第ｉ階層のクラスタに分類させる手段、前記複数の第ｉ階層のクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第ｉ＋１階層のクラスタに分類させる手段、少なくとも第ｎ階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する手段、及び、前記分類手段による処理における前記位置情報と前記色情報との重み付けを、前記画像データにおける前記対象物の大きさを示す情報に基づいて制御する手段、として前記コンピュータを機能させるためのプログラムである。

以下、本発明の好適な実施の一形態について図面に基づき詳細に説明する。

図１は、本発明の実施の形態に係る検出装置の全体構成を示す図である。同図に示すように、この検出装置１０は、制御部１１と、記憶部１２と、入出力インタフェース１３と、表示部１４と、を含んで構成されている。

制御部１１は、記憶部１２に格納されているプログラムに従って動作しており、画像データから対象物の部分（例えば顔の部分）の画像を特定する処理を基本的に実行している。この処理の具体的内容については後に述べる。

記憶部１２は、制御部１１によって実行されるプログラムを格納する、コンピュータ可読な記録媒体である。またこの記憶部１２は、制御部１１の処理の過程で必要となる種々のデータを記憶するワークメモリとしても動作する。入出力インタフェース１３は、例えばカメラ装置などの外部装置に接続され、当該外部装置から画像データを連続的に取得して制御部１１に出力する。またこの入出力インタフェース１３は、制御部１１から入力される指示に従って、種々のデータを外部装置に出力する。表示部１４は、例えばディスプレイ等であり、制御部１１から入力される指示に従って情報の表示を行う。

以上の構成を有する検出装置１０は画像データに撮像された対象物を検出する処理を実行する。例えば、検出装置１０は自然静止画像に撮像された人間の顔領域を検出する。検出装置１０は、画像データの大小様々な複数の領域の各々に対して対象物の検出処理を行うことによって、画像データに撮像された対象物の検出を行うようになっている。特に、検出装置１０では、検出処理に供される上記複数の領域の数を抑え、また上記複数の領域を選出する処理に係る時間を短縮し、以て対象物の検出に係る時間を短縮することを、検出率の低下を抑えながら実現できるようになっている。

ここで、検出装置１０において実現される機能ブロックについて説明する。図２は、検出装置１０において実現される機能ブロックのうち、本発明に関連するものを中心として示す図である。同図に示すように、検出装置１０は画像取得部２１、特徴ベクトル取得部２２、クラスタ生成部２３、テンプレート生成部２４、検出部２５を含んで構成される。これらの機能は、コンピュータにより可能な情報記憶媒体や通信ネットワークによって供給されるプログラムがコンピュータ（制御部１１）によって実行されることによって実現される。

画像取得部２１は、対象物の検出対象となる画像データを取得する。例えば、画像取得部２１は、画像データベースから画像データを読み出し、これを記憶部１２（バッファ）に記憶させる。また例えば、画像取得部２１は、通信ネットワークを介して送信される画像データを受信し、これを記憶部１２に記憶させる。さらに例えば、画像取得部２１は、カメラ装置などの外部装置からの画像データの入力を受け付け、これを記憶部１２に記憶させる。

特徴ベクトル取得部２２は、画像取得部２１によって取得された画像データの各画素の特徴ベクトル（特徴情報）を取得する。本実施の形態では、各画素の特徴ベクトルは各画素の位置情報と色情報とを含んで構成される。より具体的には、画素ｉの特徴ベクトルは５次元のベクトル（ｘ_ｉ，ｙ_ｉ，ｌ_ｉ，ａ_ｉ，ｂ_ｉ）で表される。（ｘ_ｉ，ｙ_ｉ）は各画素ｉの画像データにおける座標値を示している。また、（ｌ_ｉ，ａ_ｉ，ｂ_ｉ）は各画素ｉの色をＬ^＊ａ^＊ｂ^＊空間で表したものである。なお、各画素の色はＲＧＢ値で表すようにしてもよいし、他の色空間（表色系）を用いて表すようにしてもよい。特徴ベクトル取得部２２は各画素の特徴ベクトルを記憶部１２に記憶させる。

クラスタ生成部２３（分類手段）は、画像データに含まれる画素を複数の階層のクラスタに分類し、当該複数の階層のクラスタに関する情報（クラスタ情報）を記憶部１２に記憶させる。

図３は、画像データを構成する画素がクラスタ生成部２３によってクラスタリングされる様子を説明するための図である。同図に示すように、クラスタ生成部２３は、まず画像データ全体（第０階層クラスタ；Ｃ_０,１）の画素を２つのクラスタ（第１階層クラスタ；Ｃ_１,１及びＣ_１,２）に分類する。すなわち、画像全体を注目領域として、当該注目領域に含まれる画素を２つのクラスタに分類する。さらに、クラスタ生成部２３は、各第１階層クラスタごとに、当該第１階層クラスタに含まれる画素を２つのクラスタ（第２階層クラスタ；Ｃ_２,１及びＣ_２,２、又はＣ_２,３及びＣ_２,４）に分類する。すなわち、各第１階層クラスタごとに、当該第１階層クラスタに含まれる画素によって特定される領域を注目領域として、当該注目領域に含まれる画素を２つのクラスタに分類する。このように、クラスタ生成部２３は、各第ｉ階層クラスタごとに、当該第ｉ階層クラスタに含まれる画素を２つのクラスタ（第ｉ＋１階層クラスタ）に分類していく。

同図に示すように、クラスタ生成部２３は、画像データに含まれる画素が分類されてなる所定階層のクラスタ（情報）を生成する。本実施の形態では、画像データに含まれる画素は８階層のクラスタに分類される。すなわち、クラスタ生成部２３によって５１０（＝２^{（８＋１）}−２）のクラスタが生成される。なお、画像データにおける対象物のサイズがある程度特定できるような場合には、そのサイズに基づいて階層数を変えるようにしてもよい。

クラスタ生成部２３は、注目クラスタに含まれる画素を２つのクラスタに分類するためにＫ−ｍｅａｎ法を用いる。すなわち、クラスタ生成部２３は、注目クラスタに関し２つの基準特徴ベクトル（第１及び第２基準特徴ベクトル）を設定し、注目クラスタに含まれる画素を、第１基準特徴ベクトルに対応するクラスタと、第２基準特徴ベクトルに対応するクラスタとのいずれかに分類する。

各画素を、第１基準特徴ベクトルに対応するクラスタと、第２基準特徴ベクトルに対応するクラスタとのいずれに分類するかは、評価関数Ｄｉｓ（ｉ，ｎ）＝（ｘ_ｉ−ｘｍ_ｎ）^２＋（ｙ_ｉ−ｙｍ_ｎ）^２＋ｐ×｛（ｌ_ｉ−ｌｍ_ｎ）^２＋（ａ_ｉ−ａｍ_ｎ）^２＋（ｂ_ｉ−ｂｍ_ｎ）^２｝；（ｎ＝１，２）に基づいて判断される。

評価関数Ｄｉｓ（ｉ，ｎ）において、ｘ_ｉ，ｙ_ｉ，ｌ_ｉ，ａ_ｉ，ｂ_ｉには画素ｉの特徴ベクトルの値が代入される。また、ｘｍ_ｎ，ｙｍ_ｎ，ｌｍ_ｎ，ａｍ_ｎ，ｂｍ_ｎには第１又は第２基準特徴ベクトルの値が代入される。さらに、ｐは位置情報（距離情報）に対する色情報の重みを表している。すなわち、評価関数Ｄｉｓ（ｉ，ｎ）は、画像データの画素ｉの特徴ベクトルと、第１又は第２基準特徴ベクトルとの重み付きユークリッド距離を示している。画素ｉは、評価関数Ｄｉｓ（ｉ，ｎ）の値が最も小さくなる基準特徴ベクトルに対応するクラスタに属するものと判断される。本実施の形態では、上述したように、各画素の特徴ベクトルには位置情報と色情報とが含まれるため、同じ色でも離れた位置にある画素は異なるクラスタに属するようになっている。

以上のように、クラスタ生成部２３は大小様々なクラスタ（情報）を生成する。このため、検出装置１０によれば、画像データにおける対象物のサイズが不明であっても、画像データから対象物を検出できるようになっている。

また以上のように、クラスタ生成部２３は、各第ｉ階層クラスタごとに、当該第ｉ階層クラスタに含まれる画素を２つのクラスタに分類することによって、画像データに含まれる画素を複数の階層のクラスタに分類する。このため、検出装置１０によれば、画像データに含まれる画素が分類されてなる大小様々なクラスタをより高速に生成できるようになっている。なお、各第ｉ階層クラスタごとに、当該第ｉ階層クラスタに含まれる画素を３つ以上のクラスタに分類するようにしてもよい。クラスタリングに係る処理速度をある程度向上できるものであれば、いくつのクラスタに分類するようにしてもよい。

さらに、検出装置１０では、画像データの注目クラスタに含まれる各画素を特徴ベクトルに基づいて２つのクラスタに分類する場合、特徴ベクトルに含まれる位置情報と色情報との重み付けを当該注目クラスタの性状を示す情報に基づいて制御するようになっている。注目クラスタの性状を示す情報は、例えば注目クラスタの階層を特定する情報、すなわち注目クラスタが第何階層クラスタであるかを示す情報としてもよい。また例えば、注目領域（注目クラスタに含まれる画素によって構成される領域）の面積を示す情報、すなわち注目クラスタに含まれる画素の総数を示す情報としてもよい。本発明によれば、例えば注目クラスタに含まれる画素数が多い（注目領域のサイズが大きい）場合には色情報の重みを大きく（位置情報の重みを小さく）し、注目クラスタに含まれる画素数が少ない（注目領域のサイズが小さい）場合には色情報の重みを小さく（位置情報の重みを大きく）することができるようになり、対象物の検出率を向上できるようになる。

なお、上記の重み付けを、画像データにおける対象物のサイズを示す情報に基づいて制御するようにしてもよい。例えば、画像データにおける対象物のサイズが大きい場合には、色情報の重みが大きく（位置情報の重みが小さく）なるようにしてもよい。一方、画像データにおける対象物のサイズが小さい場合には、色情報の重みが小さく（位置情報の重みが大きく）なるようにしてもよい。こうしても、対象物の検出率を向上できるようになる。

テンプレート生成部２４は、クラスタ生成部２３によって生成されたクラスタ情報に基づいて、テンプレート情報を生成する。テンプレート情報は、画像データにおける領域を特定するための情報である。本実施の形態では、テンプレート情報は画像データにおける正方形領域を特定する。テンプレート情報には、例えば当該正方形領域の中心座標値とサイズ（一辺の長さ）とを示す情報が含まれる。テンプレート生成部２４によって生成されたテンプレート情報は検出部２５に供給される。

テンプレート生成部２４は、クラスタ情報によって特定される画像データの領域（クラスタに含まれる画素によって構成される領域）に基づく正方形領域を特定するテンプレート情報を生成する。例えば、テンプレート生成部２４は、クラスタの重心（クラスタに含まれる画素によって構成される領域の重心）を中心とする正方形領域を特定するテンプレート情報を生成するようにしてもよい。また例えば、テンプレート生成部２４は、クラスタの重心の近傍点を中心とする正方形領域を特定するテンプレート情報を生成するようにしてもよい。近傍点は、例えばクラスタの重心の座標を上下左右の少なくともいずれかの方向に所定量だけ移動することによって算出される位置とすればよい。

本実施の形態では、各クラスタごとに、当該クラスタの重心及びその近傍８点をそれぞれ中心とする９つの正方形領域を特定するテンプレート情報が生成される。すなわち、本実施の形態では最大で４５９０のテンプレートが生成される。画像上を端から端まで全域に亘ってテンプレートを生成する場合（全探索の場合）における平均的なテンプレート数は約６０００であり、検出装置１０によれば、対象物の種類に関係なく、検出処理に利用されるテンプレート数を低減することができるようになる。

なお、各クラスタごとに生成されるテンプレート情報の数はいくつであってもよい。例えば、各クラスタの重心及びその近傍１点をそれぞれ中心とする２つの正方形領域を特定するテンプレート情報が各クラスタ情報ごとに生成されるようにしてもよい。また例えば、各クラスタの重心及びその近傍４点をそれぞれ中心とする５つの正方形領域を特定するテンプレート情報が各クラスタ情報ごとに生成されるようにしてもよい。また、画像データにおける対象物のサイズがある程度特定されている場合には、該サイズに基づいて、各クラスタごとに生成されるテンプレート情報の数が決定されるようにしてもよい。

検出部２５は、テンプレート生成部２４によって生成されたテンプレート情報を参照して、画像データに撮像された対象物の検出を実行する。例えば、検出部２５は、各テンプレート情報によって特定される画像データの領域を注目領域としてパターンマッチング処理を実行し、その評価値が閾値以上であるか否かに基づいて、その領域に対象物が存在しているかを判断する。

図４は、検出装置１０で実行される処理を示すフロー図である。同図は、検出装置１０で実行される処理のうち、本発明に特に関連する対象物検出処理について示している。以下、各機能ブロックの動作について同図に基づき詳細に説明する。

同図に示すように、本処理では、まず画像取得部２１が、対象物の検出対象となる画像データを取得し、これをバッファ（記憶部１２）に格納する（Ｓ１０１）。

次に、画像取得部２１は、画像の短辺が所定の長さ（例えば２５６ピクセル）になるように、バッファに格納された画像データを相似変換する（Ｓ１０２）。より具体的には、画像取得部２１は、画像の横の長さＸ_０（ピクセル）及び縦の長さＹ_０（ピクセル）を取得する。そして、画像の横辺が短辺である場合（Ｘ_０＜Ｙ_０の場合）には、画像の横の長さが２５６ピクセルと、縦の長さがＹ_０×（２５６／Ｘ_０）となるように、画像を圧縮する。一方、画像の縦辺が短辺である場合（Ｘ_０≧Ｙ_０の場合）には、画像の横の長さがＸ_０×（２５６／Ｙ_０）と、縦の長さが２５６ピクセルとなるように、画像を圧縮する。なお、必要に応じて、相似変換後の画像データにガウシアンオペレータを適用する（畳み込む）ようにしてもよい。

次に、特徴ベクトル取得部２２は、バッファに格納された画像データの各画素ｉの特徴ベクトル（ｘ_ｉ，ｙ_ｉ，ｌ_ｉ，ａ_ｉ，ｂ_ｉ）を算出する（Ｓ１０３）。より具体的には、特徴ベクトル取得部２２は各画素ｉの座標値（ｘ_ｉ，ｙ_ｉ）を取得する。また、特徴ベクトル取得部２２は各画素ｉのＲＧＢ値（Ｒ_ｉ，Ｇ_ｉ，Ｂ_ｉ）を取得する。そして、特徴ベクトル取得部２２は各画素ｉのＲＧＢ値をＬ^＊ａ^＊ｂ^＊空間での値（ｌ_ｉ，ａ_ｉ，ｂ_ｉ）に変換する。さらに、特徴ベクトル抽出部２２は、各要素の最大値が２５５、最小値が０となるように、各画素ｉの（ｌ_ｉ，ａ_ｉ，ｂ_ｉ）を正規化する。こうして算出される各画素ｉの特徴ベクトルを、特徴ベクトル抽出部２２はバッファに格納する。

次に、クラスタ生成部２３はクラスタ情報生成処理を実行する（Ｓ１０４）。この処理では、特徴ベクトル取得部２２によって取得された特徴ベクトルに基づいて、画像データに含まれる画素のクラスタリングが実行される。

図５及び図６は、クラスタ情報生成処理（Ｓ１０４）を示すフロー図である。同図に示すように、この処理では、まずクラスタ生成部２３が、変数ｚ，ｑ，ｔを初期化する（Ｓ２０１乃至Ｓ２０３）。変数ｔはＳ２０５乃至Ｓ２１２に係る処理の繰り返した回数を示す変数である。変数ｚは注目階層を示す変数である。変数ｑは注目階層に属するクラスタのうちの注目クラスタを示す変数である。変数ｚ及びｑによって一のクラスタ（Ｃ_ｚ,ｑ）が特定され（図３参照）、当該クラスタが注目クラスタとして、すなわち当該クラスタに含まれる画素によって構成される領域（Ｍ_ｚ,ｑ）が注目領域としてＳ２０５乃至Ｓ２１２の処理が実行される。

Ｓ２０５乃至Ｓ２１２の処理では、クラスタ生成部２３は、まずクラスタＣ_ｚ，ｑ（注目クラスタ）に含まれる画素のうちから、基準となる２つの画素を選出する（Ｓ２０４）。この場合、当該２つの基準画素は特徴ベクトルが互いに所定以上異なるように選出すると好適である。

次に、クラスタ生成部２３は第１及び第２基準特徴ベクトルを設定する（Ｓ２０５）。ここでは、Ｓ２０４で選出した各基準画素の特徴ベクトルを第１及び第２基準特徴ベクトルとする。

次に、クラスタ生成部２３は、評価関数Ｄｉｓ（ｉ，ｎ）におけるｐの値を決定する（Ｓ２０６）。上述したように、ｐは位置情報に対する色情報の重み付けを示している。ｐの値は変数ｚの値に基づいて決定される。

次に、クラスタ生成部２３は、クラスタＣ_ｚ，ｑに含まれる各画素を順次注目画素として、Ｓ２０６乃至Ｓ２０９の処理を実行する。まず、クラスタ生成部２３は、画素ｉの評価値Ｄｉｓ（ｉ，１）及びＤｉｓ（ｉ，２）を算出する（Ｓ２０７）。なお、評価値Ｄｉｓ（ｉ，１）は、（ｘｍ_ｎ，ｙｍ_ｎ，ｌｍ_ｎ，ａｍ_ｎ，ｂｍ_ｎ）の値として第１基準特徴ベクトルの各要素の値を用いた場合の評価関数Ｄｉｓ（ｉ，ｎ）の値を示している。一方、評価値Ｄｉｓ（ｉ，２）は、（ｘｍ_ｎ，ｙｍ_ｎ，ｌｍ_ｎ，ａｍ_ｎ，ｂｍ_ｎ）の値として第２基準特徴ベクトルの各要素の値を用いた場合の評価関数Ｄｉｓ（ｉ，ｎ）の値を示している。

そして、クラスタ生成部２３は、評価値Ｄｉｓ（ｉ，１）及びＤｉｓ（ｉ，２）の大小を判断する（Ｓ２０８）。評価値Ｄｉｓ（ｉ，１）の方が小さい場合には、クラスタ生成部２３は画素ｉを、第１基準特徴ベクトルに対応するクラスタに分類する（Ｓ２０９）。一方、評価値Ｄｉｓ（ｉ，２）の方が小さい場合には、クラスタ生成部２３は画素ｉを、第２基準特徴ベクトルに対応するクラスタに分類する（Ｓ２１０）。

クラスタＣ_ｚ，ｑに含まれるすべての画素の分類が終了した場合（Ｓ２１１）、クラスタ生成部２３は、第１及び第２基準特徴ベクトルに対応する各クラスタの平均特徴ベクトルを算出する（Ｓ２１２）。より具体的には、第１基準特徴ベクトルに対応するクラスタに分類された各画素の特徴ベクトルに基づいて、第１平均特徴ベクトルが算出される。第１平均特徴ベクトルの各要素は、第１基準特徴ベクトルに対応するクラスタに分類された各画素の特徴ベクトルの各要素の平均値を示す。同様にして、第２平均特徴ベクトルも、第２基準特徴ベクトルに対応するクラスタに分類された各画素の特徴ベクトルに基づいて算出される。

次に、クラスタ生成部２３は、クラスタＣ_ｚ，ｑを注目クラスタとしたＳ２０５乃至Ｓ２１２の処理が所定回数（１０回）繰り返されたか否かを判断する（Ｓ２１３及びＳ２１４）。当該処理が所定回数繰り返されていない場合には、クラスタＣ_ｚ，ｑを注目クラスタとしてＳ２０５乃至Ｓ２１２の処理を再び実行する。この場合、Ｓ２０５において、クラスタ生成部２３は、Ｓ２１１で算出した第１及び第２平均特徴ベクトルを第１及び第２基準特徴ベクトルとして設定する。

以上のように、本実施の形態では、クラスタＣ_ｚ，ｑに含まれる画素を第１又は第２基準特徴ベクトルに対応するクラスタに分類する処理（Ｓ２０５乃至Ｓ２１２）の完了条件を、当該処理が所定回数繰り返されたか否かの条件としたが、完了条件はこの態様に限られない。例えば、Ｓ２１２で算出される第１及び第２平均特徴ベクトルの変動が所定の閾値以下であるか否かを完了条件としてもよい。すなわち、新たに算出した第１平均特徴ベクトルと、前回算出した第１平均特徴ベクトルとの差が所定の閾値以下であり、かつ、新たに算出した第２平均特徴ベクトルと、前回算出した第２平均特徴ベクトルとの差が所定の閾値以下である場合に、クラスタＣ_ｚ，ｑを注目クラスタとしたＳ２０５乃至Ｓ２１２の処理を完了させるようにしてもよい。

クラスタＣ_ｚ，ｑを注目クラスタとしたＳ２０５乃至Ｓ２１２の処理を完了した場合、かかる処理によって生成されたクラスタに関する情報（クラスタ情報）、すなわち第１基準特徴ベクトルに対応するクラスタに関する情報と、第２基準特徴ベクトルに対応するクラスタに関する情報とを記憶部１２に記憶させる（Ｓ２１５）。クラスタ情報には、例えば当該クラスタに分類された画素を特定するための情報や、当該クラスタの平均特徴ベクトルを示す情報などが含まれる。

次に、クラスタ生成部２３は変数ｑをインクリメントする（Ｓ２１６）。そして、クラスタ生成部２３は、変数ｑが２^ｚ＋１に等しいか否かを判断する（Ｓ２１７）。すなわち、クラスタ生成部２３は、変数ｚによって特定される階層に属するクラスタを注目クラスタとしたＳ２０５乃至Ｓ２１５の処理がすべて完了したか否かを判断する。変数ｑが２^ｚ＋１に等しくない場合には、クラスタ生成部２３は、変数ｚによって特定される階層に属するクラスタのうち他のクラスタを注目クラスタとしてＳ２０３の処理から再び実行する。

変数ｑが２^ｚ＋１に等しい場合、クラスタ生成部２３は変数ｚをインクリメントする（Ｓ２１８）。そして、クラスタ生成部２３は、変数ｚが所定値（８）であるか否かを判断する（Ｓ２１９）。すなわち、クラスタ生成部２３は、所定階層（第８階層）までクラスタを生成したか否かを判断する。変数ｚが所定値に等しくない場合には、クラスタ生成部２３は、次の階層を注目階層としてＳ２０２の処理から再び実行する。一方、変数ｚが所定値に等しい場合には、クラスタ情報生成処理（Ｓ１０４）は完了する。

クラスタ情報生成処理（Ｓ１０４）が完了すると、テンプレート生成部２４はテンプレート情報生成処理を実行する（Ｓ１０５）。この処理では、Ｓ１０４で生成されたクラスタ情報に基づいて、テンプレート情報が生成される。

図７は、テンプレート情報生成処理（Ｓ１０５）を示すフロー図である。同図に示すように、この処理では、まずテンプレート生成部２４が変数ｚ，ｑを初期化する（Ｓ３０１及びＳ３０２）。変数ｚは注目階層を示す変数である。変数ｑは注目階層に属するクラスタのうちの注目クラスタを示す変数である。変数ｚ及びｑによって一のクラスタＣ_ｚ，ｑが特定され（図３参照）、当該クラスタを注目クラスタとして、すなわち当該クラスタに含まれる画素によって構成される領域（Ｍ_ｚ，ｑ）を注目領域としてＳ３０３乃至Ｓ３０８の処理が実行される。

Ｓ３０３乃至Ｓ３０８の処理では、テンプレート生成部２４は、まず領域Ｍ_ｚ，ｑ（注目領域）の面積を算出する（Ｓ３０３）。領域Ｍ_ｚ，ｑの面積は、当該領域に含まれる画素の総数を算出することによって算出される。そして、テンプレート生成部２４は、Ｓ３０３で算出した面積の平方根を演算することによって、テンプレートサイズＪ_ｚ,ｑを決定する（Ｓ３０４）。

次に、テンプレート生成部２４は、テンプレートサイズＪ_ｚ,ｑが閾値以上か否かを判断する（Ｓ３０５）。テンプレート生成部２４は、テンプレートサイズＪ_ｚ,ｑが閾値未満である場合、領域Ｍ_ｚ,ｑ（クラスタＣ_ｚ,ｑ）は対象物の検出処理に供するには適しないと判断し、領域Ｍ_ｚ,ｑに基づくテンプレート情報の生成を行わない。なお、画像データから人間の顔を検出するような場合には、領域Ｍ_ｚ,ｑに含まれる画素の特徴ベクトルの各要素の分散が大きい場合に、かかる領域に基づくテンプレート情報の生成を行わないようにしてもよい。

一方、テンプレートサイズＪ_ｚ,ｑが閾値以上である場合、テンプレート生成部２４は、領域Ｍ_ｚ,ｑの重心の座標値を算出する（Ｓ３０６）。さらに、当該重心の近傍８点の座標値を算出する（Ｓ３０７）。本実施の形態では、近傍８点の座標値として、重心の座標を、１）上方向に所定量（例えばテンプレートサイズＪ_ｚ,ｑの１／３）だけ移動してなる点、２）下方向に所定量だけ移動してなる点、３）右方向に所定量だけ移動してなる点、４）左方向に所定量だけ移動してなる点、５）上及び右方向にそれぞれ所定量だけ移動してなる点、６）上及び左方向にそれぞれ所定量だけ移動してなる点、７）下及び右方向にそれぞれ所定量だけ移動してなる点、８）下及び左方向にそれぞれ所定量だけ移動してなる点の座標値を算出する。そして、テンプレート生成部２４は、Ｓ３０４で決定したテンプレートサイズＪ_ｚ,ｑと、Ｓ３０６及びＳ３０７で算出した座標値とを示す情報（テンプレート情報）を記憶部１２に記憶させる（Ｓ３０８）。

テンプレート生成部２４は、クラスタ情報生成処理（Ｓ１０４）において生成されたすべてのクラスタについて、Ｓ３０３乃至Ｓ３０８の処理を実行する（Ｓ３０９乃至Ｓ３１２）。Ｓ３０５でテンプレート情報を作成しないと判断されたクラスタを除き、すべてのクラスタについてテンプレート情報の生成が行われた場合、テンプレート情報生成処理（Ｓ１０５）は終了する。

次に、検出部２５は、画像データに撮像された対象物の検出処理を実行する（Ｓ１０６）。この処理は、テンプレート情報生成処理によって生成されたテンプレート情報に基づいて行われる。例えば、検出部２５は、各テンプレート情報によって特定される画像データの領域を順次注目領域としてパターンマッチング処理を実行し、その評価値が閾値以上であるか否かに基づいて、その領域に対象物が存在しているかを判断する。そして、検出部２５は、その判断結果を表示部１４などに出力する。

ここで、検出装置１０を顔検出処理に用いた場合の実験結果について説明する。ここでは、画像１５８枚（顔総数２５４個）の画像群を対象とし、同じ顔検出エンジン（検出部２５）を用いて、全探索の手法によりテンプレート情報を生成する場合と、検出装置１０による場合とで処理時間及び検出率を比較する実験を行った。全探索の手法により顔検出を行った場合の画像１枚あたりの処理時間は平均７．８秒であり、顔の検出数は２１１であった。これに対し、検出装置１０により顔検出を行った場合の画像１枚あたりの処理時間は平均６．１秒であり、顔の検出数は２０１．３（±２．９）であった。このように、検出装置１０では、検出率の著しい低下を抑止しながら、検出に係る処理時間を短縮できている。

以上説明したように、本実施の形態に係る検出装置１０によれば、対象物の種類に影響を受けることなく、検出部２５に供されるテンプレート情報の数を抑えることができるようになる。また、画像データの大小さまざまな領域を表すテンプレート情報の生成処理を高速化できるようになる。その結果として、画像データに撮像された対象物の検出に係る処理時間を短縮できるようになる。特に、検出装置１０によれば、かかる処理時間の短縮を対象物の検出率の低下を抑えながら実現できるようになる。

なお、本発明は以上説明した実施の形態に限定されるものではない。

例えば、Ｓ２０６において、評価関数Ｄｉｓ（ｉ，ｎ）におけるｐの値は、注目クラスタ（或いは注目領域）に含まれる画素の総数に（も）基づいて決定するようにしてもよい。また例えば、画像データにおける対象物のサイズがある程度特定されている場合には、当該サイズに（も）基づいて決定するようにしてもよい。

また本発明は、静止画像や動画像から目標のオブジェクト（対象物）を抽出する場合、データベース化された静止画像や動画像から目標のオブジェクトを含む画像を検索する場合、データベース化された静止画像や動画像にどのようなオブジェクトが含まれているかを解析する場合などのように、画像に撮像されたオブジェクトの検出が行われるものに適用することができるものである。

本実施の形態に係る検出装置の構成を示す図である。本実施の形態に係る検出装置の機能ブロックを示す図である。クラスタ情報の生成について説明する図である。顔領域検出処理を示すフロー図である。クラスタ情報生成処理を示すフロー図である。クラスタ情報生成処理を示すフロー図である。テンプレート情報生成処理を示すフロー図である。

符号の説明

１０検出装置、１１制御部、１２記憶部、１３入出力インタフェース、１４表示部、２１画像取得部、２２特徴ベクトル取得部、２３クラスタ生成部、２４テンプレート生成部、２５検出部。

Claims

画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類手段を含み、前記画像データに撮像された対象物を検出する検出装置であって、
少なくとも１つのクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第ｉ階層のクラスタに分類させる手段と、
前記複数の第ｉ階層のクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第ｉ＋１階層のクラスタに分類させる手段と、
少なくとも第ｎ階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する手段と、を含み、
前記分類手段による処理における前記位置情報と前記色情報との重み付けを、前記注目クラスタの性状を示す情報に基づいて制御する、
ことを特徴とする検出装置。
請求項１に記載の検出装置において、
前記注目クラスタの性状を示す情報は、前記注目クラスタの階層を特定する情報であることを特徴とする検出装置。
請求項１又は２に記載の検出装置において、
前記注目クラスタの性状を示す情報は、前記注目クラスタに含まれる画素の総数を示す情報であることを特徴とする検出装置。
画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類工程を含み、前記画像データに撮像された対象物を検出する検出方法であって、
少なくとも１つのクラスタを前記注目クラスタとして順次選択して、前記分類工程を実行し、当該注目クラスタに含まれる各画素を複数の第ｉ階層のクラスタに分類させる工程と、
前記複数の第ｉ階層のクラスタを前記注目クラスタとして順次選択して、前記分類工程を実行し、当該注目クラスタに含まれる各画素を複数の第ｉ＋１階層のクラスタに分類させる工程と、
少なくとも第ｎ階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する工程と、
前記分類工程における前記位置情報と前記色情報との重み付けを、前記注目クラスタの性状を示す情報に基づいて制御する工程と、
を含むことを特徴とする検出方法。
画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類手段を含み、前記画像データに撮像された対象物を検出する検出装置として、コンピュータを機能させるためのプログラムであって、
少なくとも１つのクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第ｉ階層のクラスタに分類させる手段、
前記複数の第ｉ階層のクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第ｉ＋１階層のクラスタに分類させる手段、
少なくとも第ｎ階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する手段、及び、
前記分類手段による処理における前記位置情報と前記色情報との重み付けを、前記注目クラスタの性状を示す情報に基づいて制御する手段、
として前記コンピュータを機能させるためのプログラム。
画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類手段を含み、前記画像データに撮像された対象物を検出する検出装置であって、
少なくとも１つのクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第ｉ階層のクラスタに分類させる手段と、
前記複数の第ｉ階層のクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第ｉ＋１階層のクラスタに分類させる手段と、
少なくとも第ｎ階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する手段と、を含み、
前記分類手段による処理における前記位置情報と前記色情報との重み付けを、前記画像データにおける前記対象物の大きさを示す情報に基づいて制御する、
ことを特徴とする検出装置。
画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類工程を含み、前記画像データに撮像された対象物を検出する検出方法であって、
少なくとも１つのクラスタを前記注目クラスタとして順次選択して、前記分類工程を実行し、当該注目クラスタに含まれる各画素を複数の第ｉ階層のクラスタに分類させる工程と、
前記複数の第ｉ階層のクラスタを前記注目クラスタとして順次選択して、前記分類工程を実行し、当該注目クラスタに含まれる各画素を複数の第ｉ＋１階層のクラスタに分類させる工程と、
少なくとも第ｎ階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する工程と、
前記分類工程における前記位置情報と前記色情報との重み付けを、前記画像データにおける前記対象物の大きさを示す情報に基づいて制御する工程と、
を含むことを特徴とする検出方法。
画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類手段を含み、前記画像データに撮像された対象物を検出する検出装置として、コンピュータを機能させるためのプログラムであって、
少なくとも１つのクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第ｉ階層のクラスタに分類させる手段、
前記複数の第ｉ階層のクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第ｉ＋１階層のクラスタに分類させる手段、
少なくとも第ｎ階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する手段、及び、
前記分類手段による処理における前記位置情報と前記色情報との重み付けを、前記画像データにおける前記対象物の大きさを示す情報に基づいて制御する手段、
として前記コンピュータを機能させるためのプログラム。