JP2005234811A - 検出装置、検出方法及びプログラム - Google Patents
検出装置、検出方法及びプログラム Download PDFInfo
- Publication number
- JP2005234811A JP2005234811A JP2004041920A JP2004041920A JP2005234811A JP 2005234811 A JP2005234811 A JP 2005234811A JP 2004041920 A JP2004041920 A JP 2004041920A JP 2004041920 A JP2004041920 A JP 2004041920A JP 2005234811 A JP2005234811 A JP 2005234811A
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- image data
- clusters
- information
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
【課題】 画像データに撮像された対象物を検出する場合において、当該検出に係る処理時間の短縮を検出率の低下を抑えながら実現できるようになる検出装置を提供すること。
【解決手段】 検出装置10は、少なくとも1つのクラスタを順次選択して、当該クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数の第i階層のクラスタに分類する。同様に、複数の第i階層のクラスタを順次選択して、当該クラスタに含まれる各画素を複数の第i+1階層のクラスタに分類する。そして、少なくとも第n階層のクラスタを参照して、画像データに撮像された対象物の検出を実行する。位置情報と色情報との重み付けは注目クラスタの性状に基づいて制御される。
【選択図】 図2
【解決手段】 検出装置10は、少なくとも1つのクラスタを順次選択して、当該クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数の第i階層のクラスタに分類する。同様に、複数の第i階層のクラスタを順次選択して、当該クラスタに含まれる各画素を複数の第i+1階層のクラスタに分類する。そして、少なくとも第n階層のクラスタを参照して、画像データに撮像された対象物の検出を実行する。位置情報と色情報との重み付けは注目クラスタの性状に基づいて制御される。
【選択図】 図2
Description
本発明は検出装置、検出方法及びプログラムに関し、特に画像に撮像された対象物を検出する技術に関する。
画像データに撮像された対象物を検出するための技術が数多く知られている。例えば、画像データの端から逐次的に対象物に応じてテンプレートを作成し、各テンプレートごとにパターンマッチングを実施し、その評価値がある閾値以上の場合、そのテンプレートに対応する場所に対象物が存在すると判断する手法や、画像データを複数の領域に分割し、かかる領域を利用して対象物の検出を行う手法などが知られている(特許文献1,2)。
特開2001−092980号公報
特開平09−147124号公報
画像データに撮像された対象物の検出では、対象物の検出に係る処理時間を短縮できると好適であるが、かかる処理時間の短縮化を図ろうとすると対象物の検出率が低下してしまうという問題があった。
本発明は上記課題に鑑みてなされたものであって、その目的の一つは、画像データに撮像された対象物を検出する場合において、当該検出に係る処理時間の短縮を検出率の低下を抑えながら実現できるようになる検出装置、検出方法及びプログラムを提供することにある。
上記課題を解決するために、本発明に係る検出装置は、画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類手段を含み、前記画像データに撮像された対象物を検出する検出装置であって、少なくとも1つのクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第i階層のクラスタに分類させる手段と、前記複数の第i階層のクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第i+1階層のクラスタに分類させる手段と、少なくとも第n階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する手段と、を含み、前記分類手段による処理における前記位置情報と前記色情報との重み付けを、前記注目クラスタの性状を示す情報に基づいて制御することを特徴とする。
また、本発明に係る検出方法は、画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類工程を含み、前記画像データに撮像された対象物を検出する検出方法であって、少なくとも1つのクラスタを前記注目クラスタとして順次選択して、前記分類工程を実行し、当該注目クラスタに含まれる各画素を複数の第i階層のクラスタに分類させる工程と、前記複数の第i階層のクラスタを前記注目クラスタとして順次選択して、前記分類工程を実行し、当該注目クラスタに含まれる各画素を複数の第i+1階層のクラスタに分類させる工程と、少なくとも第n階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する工程と、前記分類工程における前記位置情報と前記色情報との重み付けを、前記注目クラスタの性状を示す情報に基づいて制御する工程と、を含むことを特徴とする。
また、本発明に係るプログラムは、画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類手段を含み、前記画像データに撮像された対象物を検出する検出装置として、コンピュータを機能させるためのプログラムであって、少なくとも1つのクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第i階層のクラスタに分類させる手段、前記複数の第i階層のクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第i+1階層のクラスタに分類させる手段、少なくとも第n階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する手段、及び、前記分類手段による処理における前記位置情報と前記色情報との重み付けを、前記注目クラスタの性状を示す情報に基づいて制御する手段、として前記コンピュータを機能させるためのプログラムである。
また、本発明の一態様は、前記注目クラスタの性状を示す情報は、前記注目クラスタの階層を特定する情報であることを特徴とする。
また、本発明の一態様は、前記注目クラスタの性状を示す情報は、前記注目クラスタに含まれる画素の総数を示す情報であることを特徴とする。
また、本発明に係る検出装置は、画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類手段を含み、前記画像データに撮像された対象物を検出する検出装置であって、少なくとも1つのクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第i階層のクラスタに分類させる手段と、前記複数の第i階層のクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第i+1階層のクラスタに分類させる手段と、少なくとも第n階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する手段と、を含み、前記分類手段による処理における前記位置情報と前記色情報との重み付けを、前記画像データにおける前記対象物の大きさを示す情報に基づいて制御することを特徴とする。
また、本発明に係る検出方法は、画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類工程を含み、前記画像データに撮像された対象物を検出する検出方法であって、少なくとも1つのクラスタを前記注目クラスタとして順次選択して、前記分類工程を実行し、当該注目クラスタに含まれる各画素を複数の第i階層のクラスタに分類させる工程と、前記複数の第i階層のクラスタを前記注目クラスタとして順次選択して、前記分類工程を実行し、当該注目クラスタに含まれる各画素を複数の第i+1階層のクラスタに分類させる工程と、少なくとも第n階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する工程と、前記分類工程における前記位置情報と前記色情報との重み付けを、前記画像データにおける前記対象物の大きさを示す情報に基づいて制御する工程と、を含むことを特徴とする。
また、本発明に係るプログラムは、画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類手段を含み、前記画像データに撮像された対象物を検出する検出装置として、コンピュータを機能させるためのプログラムであって、少なくとも1つのクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第i階層のクラスタに分類させる手段、前記複数の第i階層のクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第i+1階層のクラスタに分類させる手段、少なくとも第n階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する手段、及び、前記分類手段による処理における前記位置情報と前記色情報との重み付けを、前記画像データにおける前記対象物の大きさを示す情報に基づいて制御する手段、として前記コンピュータを機能させるためのプログラムである。
以下、本発明の好適な実施の一形態について図面に基づき詳細に説明する。
図1は、本発明の実施の形態に係る検出装置の全体構成を示す図である。同図に示すように、この検出装置10は、制御部11と、記憶部12と、入出力インタフェース13と、表示部14と、を含んで構成されている。
制御部11は、記憶部12に格納されているプログラムに従って動作しており、画像データから対象物の部分(例えば顔の部分)の画像を特定する処理を基本的に実行している。この処理の具体的内容については後に述べる。
記憶部12は、制御部11によって実行されるプログラムを格納する、コンピュータ可読な記録媒体である。またこの記憶部12は、制御部11の処理の過程で必要となる種々のデータを記憶するワークメモリとしても動作する。入出力インタフェース13は、例えばカメラ装置などの外部装置に接続され、当該外部装置から画像データを連続的に取得して制御部11に出力する。またこの入出力インタフェース13は、制御部11から入力される指示に従って、種々のデータを外部装置に出力する。表示部14は、例えばディスプレイ等であり、制御部11から入力される指示に従って情報の表示を行う。
以上の構成を有する検出装置10は画像データに撮像された対象物を検出する処理を実行する。例えば、検出装置10は自然静止画像に撮像された人間の顔領域を検出する。検出装置10は、画像データの大小様々な複数の領域の各々に対して対象物の検出処理を行うことによって、画像データに撮像された対象物の検出を行うようになっている。特に、検出装置10では、検出処理に供される上記複数の領域の数を抑え、また上記複数の領域を選出する処理に係る時間を短縮し、以て対象物の検出に係る時間を短縮することを、検出率の低下を抑えながら実現できるようになっている。
ここで、検出装置10において実現される機能ブロックについて説明する。図2は、検出装置10において実現される機能ブロックのうち、本発明に関連するものを中心として示す図である。同図に示すように、検出装置10は画像取得部21、特徴ベクトル取得部22、クラスタ生成部23、テンプレート生成部24、検出部25を含んで構成される。これらの機能は、コンピュータにより可能な情報記憶媒体や通信ネットワークによって供給されるプログラムがコンピュータ(制御部11)によって実行されることによって実現される。
画像取得部21は、対象物の検出対象となる画像データを取得する。例えば、画像取得部21は、画像データベースから画像データを読み出し、これを記憶部12(バッファ)に記憶させる。また例えば、画像取得部21は、通信ネットワークを介して送信される画像データを受信し、これを記憶部12に記憶させる。さらに例えば、画像取得部21は、カメラ装置などの外部装置からの画像データの入力を受け付け、これを記憶部12に記憶させる。
特徴ベクトル取得部22は、画像取得部21によって取得された画像データの各画素の特徴ベクトル(特徴情報)を取得する。本実施の形態では、各画素の特徴ベクトルは各画素の位置情報と色情報とを含んで構成される。より具体的には、画素iの特徴ベクトルは5次元のベクトル(xi,yi,li,ai,bi)で表される。(xi,yi)は各画素iの画像データにおける座標値を示している。また、(li,ai,bi)は各画素iの色をL*a*b*空間で表したものである。なお、各画素の色はRGB値で表すようにしてもよいし、他の色空間(表色系)を用いて表すようにしてもよい。特徴ベクトル取得部22は各画素の特徴ベクトルを記憶部12に記憶させる。
クラスタ生成部23(分類手段)は、画像データに含まれる画素を複数の階層のクラスタに分類し、当該複数の階層のクラスタに関する情報(クラスタ情報)を記憶部12に記憶させる。
図3は、画像データを構成する画素がクラスタ生成部23によってクラスタリングされる様子を説明するための図である。同図に示すように、クラスタ生成部23は、まず画像データ全体(第0階層クラスタ;C0,1)の画素を2つのクラスタ(第1階層クラスタ;C1,1及びC1,2)に分類する。すなわち、画像全体を注目領域として、当該注目領域に含まれる画素を2つのクラスタに分類する。さらに、クラスタ生成部23は、各第1階層クラスタごとに、当該第1階層クラスタに含まれる画素を2つのクラスタ(第2階層クラスタ;C2,1及びC2,2、又はC2,3及びC2,4)に分類する。すなわち、各第1階層クラスタごとに、当該第1階層クラスタに含まれる画素によって特定される領域を注目領域として、当該注目領域に含まれる画素を2つのクラスタに分類する。このように、クラスタ生成部23は、各第i階層クラスタごとに、当該第i階層クラスタに含まれる画素を2つのクラスタ(第i+1階層クラスタ)に分類していく。
同図に示すように、クラスタ生成部23は、画像データに含まれる画素が分類されてなる所定階層のクラスタ(情報)を生成する。本実施の形態では、画像データに含まれる画素は8階層のクラスタに分類される。すなわち、クラスタ生成部23によって510(=2(8+1)−2)のクラスタが生成される。なお、画像データにおける対象物のサイズがある程度特定できるような場合には、そのサイズに基づいて階層数を変えるようにしてもよい。
クラスタ生成部23は、注目クラスタに含まれる画素を2つのクラスタに分類するためにK−mean法を用いる。すなわち、クラスタ生成部23は、注目クラスタに関し2つの基準特徴ベクトル(第1及び第2基準特徴ベクトル)を設定し、注目クラスタに含まれる画素を、第1基準特徴ベクトルに対応するクラスタと、第2基準特徴ベクトルに対応するクラスタとのいずれかに分類する。
各画素を、第1基準特徴ベクトルに対応するクラスタと、第2基準特徴ベクトルに対応するクラスタとのいずれに分類するかは、評価関数Dis(i,n)=(xi−xmn)2+(yi−ymn)2+p×{(li−lmn)2+(ai−amn)2+(bi−bmn)2};(n=1,2)に基づいて判断される。
評価関数Dis(i,n)において、xi,yi,li,ai,biには画素iの特徴ベクトルの値が代入される。また、xmn,ymn,lmn,amn,bmnには第1又は第2基準特徴ベクトルの値が代入される。さらに、pは位置情報(距離情報)に対する色情報の重みを表している。すなわち、評価関数Dis(i,n)は、画像データの画素iの特徴ベクトルと、第1又は第2基準特徴ベクトルとの重み付きユークリッド距離を示している。画素iは、評価関数Dis(i,n)の値が最も小さくなる基準特徴ベクトルに対応するクラスタに属するものと判断される。本実施の形態では、上述したように、各画素の特徴ベクトルには位置情報と色情報とが含まれるため、同じ色でも離れた位置にある画素は異なるクラスタに属するようになっている。
以上のように、クラスタ生成部23は大小様々なクラスタ(情報)を生成する。このため、検出装置10によれば、画像データにおける対象物のサイズが不明であっても、画像データから対象物を検出できるようになっている。
また以上のように、クラスタ生成部23は、各第i階層クラスタごとに、当該第i階層クラスタに含まれる画素を2つのクラスタに分類することによって、画像データに含まれる画素を複数の階層のクラスタに分類する。このため、検出装置10によれば、画像データに含まれる画素が分類されてなる大小様々なクラスタをより高速に生成できるようになっている。なお、各第i階層クラスタごとに、当該第i階層クラスタに含まれる画素を3つ以上のクラスタに分類するようにしてもよい。クラスタリングに係る処理速度をある程度向上できるものであれば、いくつのクラスタに分類するようにしてもよい。
さらに、検出装置10では、画像データの注目クラスタに含まれる各画素を特徴ベクトルに基づいて2つのクラスタに分類する場合、特徴ベクトルに含まれる位置情報と色情報との重み付けを当該注目クラスタの性状を示す情報に基づいて制御するようになっている。注目クラスタの性状を示す情報は、例えば注目クラスタの階層を特定する情報、すなわち注目クラスタが第何階層クラスタであるかを示す情報としてもよい。また例えば、注目領域(注目クラスタに含まれる画素によって構成される領域)の面積を示す情報、すなわち注目クラスタに含まれる画素の総数を示す情報としてもよい。本発明によれば、例えば注目クラスタに含まれる画素数が多い(注目領域のサイズが大きい)場合には色情報の重みを大きく(位置情報の重みを小さく)し、注目クラスタに含まれる画素数が少ない(注目領域のサイズが小さい)場合には色情報の重みを小さく(位置情報の重みを大きく)することができるようになり、対象物の検出率を向上できるようになる。
なお、上記の重み付けを、画像データにおける対象物のサイズを示す情報に基づいて制御するようにしてもよい。例えば、画像データにおける対象物のサイズが大きい場合には、色情報の重みが大きく(位置情報の重みが小さく)なるようにしてもよい。一方、画像データにおける対象物のサイズが小さい場合には、色情報の重みが小さく(位置情報の重みが大きく)なるようにしてもよい。こうしても、対象物の検出率を向上できるようになる。
テンプレート生成部24は、クラスタ生成部23によって生成されたクラスタ情報に基づいて、テンプレート情報を生成する。テンプレート情報は、画像データにおける領域を特定するための情報である。本実施の形態では、テンプレート情報は画像データにおける正方形領域を特定する。テンプレート情報には、例えば当該正方形領域の中心座標値とサイズ(一辺の長さ)とを示す情報が含まれる。テンプレート生成部24によって生成されたテンプレート情報は検出部25に供給される。
テンプレート生成部24は、クラスタ情報によって特定される画像データの領域(クラスタに含まれる画素によって構成される領域)に基づく正方形領域を特定するテンプレート情報を生成する。例えば、テンプレート生成部24は、クラスタの重心(クラスタに含まれる画素によって構成される領域の重心)を中心とする正方形領域を特定するテンプレート情報を生成するようにしてもよい。また例えば、テンプレート生成部24は、クラスタの重心の近傍点を中心とする正方形領域を特定するテンプレート情報を生成するようにしてもよい。近傍点は、例えばクラスタの重心の座標を上下左右の少なくともいずれかの方向に所定量だけ移動することによって算出される位置とすればよい。
本実施の形態では、各クラスタごとに、当該クラスタの重心及びその近傍8点をそれぞれ中心とする9つの正方形領域を特定するテンプレート情報が生成される。すなわち、本実施の形態では最大で4590のテンプレートが生成される。画像上を端から端まで全域に亘ってテンプレートを生成する場合(全探索の場合)における平均的なテンプレート数は約6000であり、検出装置10によれば、対象物の種類に関係なく、検出処理に利用されるテンプレート数を低減することができるようになる。
なお、各クラスタごとに生成されるテンプレート情報の数はいくつであってもよい。例えば、各クラスタの重心及びその近傍1点をそれぞれ中心とする2つの正方形領域を特定するテンプレート情報が各クラスタ情報ごとに生成されるようにしてもよい。また例えば、各クラスタの重心及びその近傍4点をそれぞれ中心とする5つの正方形領域を特定するテンプレート情報が各クラスタ情報ごとに生成されるようにしてもよい。また、画像データにおける対象物のサイズがある程度特定されている場合には、該サイズに基づいて、各クラスタごとに生成されるテンプレート情報の数が決定されるようにしてもよい。
検出部25は、テンプレート生成部24によって生成されたテンプレート情報を参照して、画像データに撮像された対象物の検出を実行する。例えば、検出部25は、各テンプレート情報によって特定される画像データの領域を注目領域としてパターンマッチング処理を実行し、その評価値が閾値以上であるか否かに基づいて、その領域に対象物が存在しているかを判断する。
図4は、検出装置10で実行される処理を示すフロー図である。同図は、検出装置10で実行される処理のうち、本発明に特に関連する対象物検出処理について示している。以下、各機能ブロックの動作について同図に基づき詳細に説明する。
同図に示すように、本処理では、まず画像取得部21が、対象物の検出対象となる画像データを取得し、これをバッファ(記憶部12)に格納する(S101)。
次に、画像取得部21は、画像の短辺が所定の長さ(例えば256ピクセル)になるように、バッファに格納された画像データを相似変換する(S102)。より具体的には、画像取得部21は、画像の横の長さX0(ピクセル)及び縦の長さY0(ピクセル)を取得する。そして、画像の横辺が短辺である場合(X0<Y0の場合)には、画像の横の長さが256ピクセルと、縦の長さがY0×(256/X0)となるように、画像を圧縮する。一方、画像の縦辺が短辺である場合(X0≧Y0の場合)には、画像の横の長さがX0×(256/Y0)と、縦の長さが256ピクセルとなるように、画像を圧縮する。なお、必要に応じて、相似変換後の画像データにガウシアンオペレータを適用する(畳み込む)ようにしてもよい。
次に、特徴ベクトル取得部22は、バッファに格納された画像データの各画素iの特徴ベクトル(xi,yi,li,ai,bi)を算出する(S103)。より具体的には、特徴ベクトル取得部22は各画素iの座標値(xi,yi)を取得する。また、特徴ベクトル取得部22は各画素iのRGB値(Ri,Gi,Bi)を取得する。そして、特徴ベクトル取得部22は各画素iのRGB値をL*a*b*空間での値(li,ai,bi)に変換する。さらに、特徴ベクトル抽出部22は、各要素の最大値が255、最小値が0となるように、各画素iの(li,ai,bi)を正規化する。こうして算出される各画素iの特徴ベクトルを、特徴ベクトル抽出部22はバッファに格納する。
次に、クラスタ生成部23はクラスタ情報生成処理を実行する(S104)。この処理では、特徴ベクトル取得部22によって取得された特徴ベクトルに基づいて、画像データに含まれる画素のクラスタリングが実行される。
図5及び図6は、クラスタ情報生成処理(S104)を示すフロー図である。同図に示すように、この処理では、まずクラスタ生成部23が、変数z,q,tを初期化する(S201乃至S203)。変数tはS205乃至S212に係る処理の繰り返した回数を示す変数である。変数zは注目階層を示す変数である。変数qは注目階層に属するクラスタのうちの注目クラスタを示す変数である。変数z及びqによって一のクラスタ(Cz,q)が特定され(図3参照)、当該クラスタが注目クラスタとして、すなわち当該クラスタに含まれる画素によって構成される領域(Mz,q)が注目領域としてS205乃至S212の処理が実行される。
S205乃至S212の処理では、クラスタ生成部23は、まずクラスタCz,q(注目クラスタ)に含まれる画素のうちから、基準となる2つの画素を選出する(S204)。この場合、当該2つの基準画素は特徴ベクトルが互いに所定以上異なるように選出すると好適である。
次に、クラスタ生成部23は第1及び第2基準特徴ベクトルを設定する(S205)。ここでは、S204で選出した各基準画素の特徴ベクトルを第1及び第2基準特徴ベクトルとする。
次に、クラスタ生成部23は、評価関数Dis(i,n)におけるpの値を決定する(S206)。上述したように、pは位置情報に対する色情報の重み付けを示している。pの値は変数zの値に基づいて決定される。
次に、クラスタ生成部23は、クラスタCz,qに含まれる各画素を順次注目画素として、S206乃至S209の処理を実行する。まず、クラスタ生成部23は、画素iの評価値Dis(i,1)及びDis(i,2)を算出する(S207)。なお、評価値Dis(i,1)は、(xmn,ymn,lmn,amn,bmn)の値として第1基準特徴ベクトルの各要素の値を用いた場合の評価関数Dis(i,n)の値を示している。一方、評価値Dis(i,2)は、(xmn,ymn,lmn,amn,bmn)の値として第2基準特徴ベクトルの各要素の値を用いた場合の評価関数Dis(i,n)の値を示している。
そして、クラスタ生成部23は、評価値Dis(i,1)及びDis(i,2)の大小を判断する(S208)。評価値Dis(i,1)の方が小さい場合には、クラスタ生成部23は画素iを、第1基準特徴ベクトルに対応するクラスタに分類する(S209)。一方、評価値Dis(i,2)の方が小さい場合には、クラスタ生成部23は画素iを、第2基準特徴ベクトルに対応するクラスタに分類する(S210)。
クラスタCz,qに含まれるすべての画素の分類が終了した場合(S211)、クラスタ生成部23は、第1及び第2基準特徴ベクトルに対応する各クラスタの平均特徴ベクトルを算出する(S212)。より具体的には、第1基準特徴ベクトルに対応するクラスタに分類された各画素の特徴ベクトルに基づいて、第1平均特徴ベクトルが算出される。第1平均特徴ベクトルの各要素は、第1基準特徴ベクトルに対応するクラスタに分類された各画素の特徴ベクトルの各要素の平均値を示す。同様にして、第2平均特徴ベクトルも、第2基準特徴ベクトルに対応するクラスタに分類された各画素の特徴ベクトルに基づいて算出される。
次に、クラスタ生成部23は、クラスタCz,qを注目クラスタとしたS205乃至S212の処理が所定回数(10回)繰り返されたか否かを判断する(S213及びS214)。当該処理が所定回数繰り返されていない場合には、クラスタCz,qを注目クラスタとしてS205乃至S212の処理を再び実行する。この場合、S205において、クラスタ生成部23は、S211で算出した第1及び第2平均特徴ベクトルを第1及び第2基準特徴ベクトルとして設定する。
以上のように、本実施の形態では、クラスタCz,qに含まれる画素を第1又は第2基準特徴ベクトルに対応するクラスタに分類する処理(S205乃至S212)の完了条件を、当該処理が所定回数繰り返されたか否かの条件としたが、完了条件はこの態様に限られない。例えば、S212で算出される第1及び第2平均特徴ベクトルの変動が所定の閾値以下であるか否かを完了条件としてもよい。すなわち、新たに算出した第1平均特徴ベクトルと、前回算出した第1平均特徴ベクトルとの差が所定の閾値以下であり、かつ、新たに算出した第2平均特徴ベクトルと、前回算出した第2平均特徴ベクトルとの差が所定の閾値以下である場合に、クラスタCz,qを注目クラスタとしたS205乃至S212の処理を完了させるようにしてもよい。
クラスタCz,qを注目クラスタとしたS205乃至S212の処理を完了した場合、かかる処理によって生成されたクラスタに関する情報(クラスタ情報)、すなわち第1基準特徴ベクトルに対応するクラスタに関する情報と、第2基準特徴ベクトルに対応するクラスタに関する情報とを記憶部12に記憶させる(S215)。クラスタ情報には、例えば当該クラスタに分類された画素を特定するための情報や、当該クラスタの平均特徴ベクトルを示す情報などが含まれる。
次に、クラスタ生成部23は変数qをインクリメントする(S216)。そして、クラスタ生成部23は、変数qが2z+1に等しいか否かを判断する(S217)。すなわち、クラスタ生成部23は、変数zによって特定される階層に属するクラスタを注目クラスタとしたS205乃至S215の処理がすべて完了したか否かを判断する。変数qが2z+1に等しくない場合には、クラスタ生成部23は、変数zによって特定される階層に属するクラスタのうち他のクラスタを注目クラスタとしてS203の処理から再び実行する。
変数qが2z+1に等しい場合、クラスタ生成部23は変数zをインクリメントする(S218)。そして、クラスタ生成部23は、変数zが所定値(8)であるか否かを判断する(S219)。すなわち、クラスタ生成部23は、所定階層(第8階層)までクラスタを生成したか否かを判断する。変数zが所定値に等しくない場合には、クラスタ生成部23は、次の階層を注目階層としてS202の処理から再び実行する。一方、変数zが所定値に等しい場合には、クラスタ情報生成処理(S104)は完了する。
クラスタ情報生成処理(S104)が完了すると、テンプレート生成部24はテンプレート情報生成処理を実行する(S105)。この処理では、S104で生成されたクラスタ情報に基づいて、テンプレート情報が生成される。
図7は、テンプレート情報生成処理(S105)を示すフロー図である。同図に示すように、この処理では、まずテンプレート生成部24が変数z,qを初期化する(S301及びS302)。変数zは注目階層を示す変数である。変数qは注目階層に属するクラスタのうちの注目クラスタを示す変数である。変数z及びqによって一のクラスタCz,qが特定され(図3参照)、当該クラスタを注目クラスタとして、すなわち当該クラスタに含まれる画素によって構成される領域(Mz,q)を注目領域としてS303乃至S308の処理が実行される。
S303乃至S308の処理では、テンプレート生成部24は、まず領域Mz,q(注目領域)の面積を算出する(S303)。領域Mz,qの面積は、当該領域に含まれる画素の総数を算出することによって算出される。そして、テンプレート生成部24は、S303で算出した面積の平方根を演算することによって、テンプレートサイズJz,qを決定する(S304)。
次に、テンプレート生成部24は、テンプレートサイズJz,qが閾値以上か否かを判断する(S305)。テンプレート生成部24は、テンプレートサイズJz,qが閾値未満である場合、領域Mz,q(クラスタCz,q)は対象物の検出処理に供するには適しないと判断し、領域Mz,qに基づくテンプレート情報の生成を行わない。なお、画像データから人間の顔を検出するような場合には、領域Mz,qに含まれる画素の特徴ベクトルの各要素の分散が大きい場合に、かかる領域に基づくテンプレート情報の生成を行わないようにしてもよい。
一方、テンプレートサイズJz,qが閾値以上である場合、テンプレート生成部24は、領域Mz,qの重心の座標値を算出する(S306)。さらに、当該重心の近傍8点の座標値を算出する(S307)。本実施の形態では、近傍8点の座標値として、重心の座標を、1)上方向に所定量(例えばテンプレートサイズJz,qの1/3)だけ移動してなる点、2)下方向に所定量だけ移動してなる点、3)右方向に所定量だけ移動してなる点、4)左方向に所定量だけ移動してなる点、5)上及び右方向にそれぞれ所定量だけ移動してなる点、6)上及び左方向にそれぞれ所定量だけ移動してなる点、7)下及び右方向にそれぞれ所定量だけ移動してなる点、8)下及び左方向にそれぞれ所定量だけ移動してなる点の座標値を算出する。そして、テンプレート生成部24は、S304で決定したテンプレートサイズJz,qと、S306及びS307で算出した座標値とを示す情報(テンプレート情報)を記憶部12に記憶させる(S308)。
テンプレート生成部24は、クラスタ情報生成処理(S104)において生成されたすべてのクラスタについて、S303乃至S308の処理を実行する(S309乃至S312)。S305でテンプレート情報を作成しないと判断されたクラスタを除き、すべてのクラスタについてテンプレート情報の生成が行われた場合、テンプレート情報生成処理(S105)は終了する。
次に、検出部25は、画像データに撮像された対象物の検出処理を実行する(S106)。この処理は、テンプレート情報生成処理によって生成されたテンプレート情報に基づいて行われる。例えば、検出部25は、各テンプレート情報によって特定される画像データの領域を順次注目領域としてパターンマッチング処理を実行し、その評価値が閾値以上であるか否かに基づいて、その領域に対象物が存在しているかを判断する。そして、検出部25は、その判断結果を表示部14などに出力する。
ここで、検出装置10を顔検出処理に用いた場合の実験結果について説明する。ここでは、画像158枚(顔総数254個)の画像群を対象とし、同じ顔検出エンジン(検出部25)を用いて、全探索の手法によりテンプレート情報を生成する場合と、検出装置10による場合とで処理時間及び検出率を比較する実験を行った。全探索の手法により顔検出を行った場合の画像1枚あたりの処理時間は平均7.8秒であり、顔の検出数は211であった。これに対し、検出装置10により顔検出を行った場合の画像1枚あたりの処理時間は平均6.1秒であり、顔の検出数は201.3(±2.9)であった。このように、検出装置10では、検出率の著しい低下を抑止しながら、検出に係る処理時間を短縮できている。
以上説明したように、本実施の形態に係る検出装置10によれば、対象物の種類に影響を受けることなく、検出部25に供されるテンプレート情報の数を抑えることができるようになる。また、画像データの大小さまざまな領域を表すテンプレート情報の生成処理を高速化できるようになる。その結果として、画像データに撮像された対象物の検出に係る処理時間を短縮できるようになる。特に、検出装置10によれば、かかる処理時間の短縮を対象物の検出率の低下を抑えながら実現できるようになる。
なお、本発明は以上説明した実施の形態に限定されるものではない。
例えば、S206において、評価関数Dis(i,n)におけるpの値は、注目クラスタ(或いは注目領域)に含まれる画素の総数に(も)基づいて決定するようにしてもよい。また例えば、画像データにおける対象物のサイズがある程度特定されている場合には、当該サイズに(も)基づいて決定するようにしてもよい。
また本発明は、静止画像や動画像から目標のオブジェクト(対象物)を抽出する場合、データベース化された静止画像や動画像から目標のオブジェクトを含む画像を検索する場合、データベース化された静止画像や動画像にどのようなオブジェクトが含まれているかを解析する場合などのように、画像に撮像されたオブジェクトの検出が行われるものに適用することができるものである。
10 検出装置、11 制御部、12 記憶部、13 入出力インタフェース、14 表示部、21 画像取得部、22 特徴ベクトル取得部、23 クラスタ生成部、24 テンプレート生成部、25 検出部。
Claims (8)
- 画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類手段を含み、前記画像データに撮像された対象物を検出する検出装置であって、
少なくとも1つのクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第i階層のクラスタに分類させる手段と、
前記複数の第i階層のクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第i+1階層のクラスタに分類させる手段と、
少なくとも第n階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する手段と、を含み、
前記分類手段による処理における前記位置情報と前記色情報との重み付けを、前記注目クラスタの性状を示す情報に基づいて制御する、
ことを特徴とする検出装置。 - 請求項1に記載の検出装置において、
前記注目クラスタの性状を示す情報は、前記注目クラスタの階層を特定する情報であることを特徴とする検出装置。 - 請求項1又は2に記載の検出装置において、
前記注目クラスタの性状を示す情報は、前記注目クラスタに含まれる画素の総数を示す情報であることを特徴とする検出装置。 - 画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類工程を含み、前記画像データに撮像された対象物を検出する検出方法であって、
少なくとも1つのクラスタを前記注目クラスタとして順次選択して、前記分類工程を実行し、当該注目クラスタに含まれる各画素を複数の第i階層のクラスタに分類させる工程と、
前記複数の第i階層のクラスタを前記注目クラスタとして順次選択して、前記分類工程を実行し、当該注目クラスタに含まれる各画素を複数の第i+1階層のクラスタに分類させる工程と、
少なくとも第n階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する工程と、
前記分類工程における前記位置情報と前記色情報との重み付けを、前記注目クラスタの性状を示す情報に基づいて制御する工程と、
を含むことを特徴とする検出方法。 - 画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類手段を含み、前記画像データに撮像された対象物を検出する検出装置として、コンピュータを機能させるためのプログラムであって、
少なくとも1つのクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第i階層のクラスタに分類させる手段、
前記複数の第i階層のクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第i+1階層のクラスタに分類させる手段、
少なくとも第n階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する手段、及び、
前記分類手段による処理における前記位置情報と前記色情報との重み付けを、前記注目クラスタの性状を示す情報に基づいて制御する手段、
として前記コンピュータを機能させるためのプログラム。 - 画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類手段を含み、前記画像データに撮像された対象物を検出する検出装置であって、
少なくとも1つのクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第i階層のクラスタに分類させる手段と、
前記複数の第i階層のクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第i+1階層のクラスタに分類させる手段と、
少なくとも第n階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する手段と、を含み、
前記分類手段による処理における前記位置情報と前記色情報との重み付けを、前記画像データにおける前記対象物の大きさを示す情報に基づいて制御する、
ことを特徴とする検出装置。 - 画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類工程を含み、前記画像データに撮像された対象物を検出する検出方法であって、
少なくとも1つのクラスタを前記注目クラスタとして順次選択して、前記分類工程を実行し、当該注目クラスタに含まれる各画素を複数の第i階層のクラスタに分類させる工程と、
前記複数の第i階層のクラスタを前記注目クラスタとして順次選択して、前記分類工程を実行し、当該注目クラスタに含まれる各画素を複数の第i+1階層のクラスタに分類させる工程と、
少なくとも第n階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する工程と、
前記分類工程における前記位置情報と前記色情報との重み付けを、前記画像データにおける前記対象物の大きさを示す情報に基づいて制御する工程と、
を含むことを特徴とする検出方法。 - 画像データの少なくとも一部の画素を含んでなる所定のクラスタを注目クラスタとして、当該注目クラスタに含まれる各画素を、当該画素の位置情報と色情報とに基づいて複数のクラスタに分類する分類手段を含み、前記画像データに撮像された対象物を検出する検出装置として、コンピュータを機能させるためのプログラムであって、
少なくとも1つのクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第i階層のクラスタに分類させる手段、
前記複数の第i階層のクラスタを前記注目クラスタとして順次選択して、前記分類手段による処理を実行させ、当該注目クラスタに含まれる各画素を複数の第i+1階層のクラスタに分類させる手段、
少なくとも第n階層のクラスタを参照して、前記画像データに撮像された対象物の検出処理を実行する手段、及び、
前記分類手段による処理における前記位置情報と前記色情報との重み付けを、前記画像データにおける前記対象物の大きさを示す情報に基づいて制御する手段、
として前記コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004041920A JP2005234811A (ja) | 2004-02-18 | 2004-02-18 | 検出装置、検出方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004041920A JP2005234811A (ja) | 2004-02-18 | 2004-02-18 | 検出装置、検出方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005234811A true JP2005234811A (ja) | 2005-09-02 |
Family
ID=35017718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004041920A Pending JP2005234811A (ja) | 2004-02-18 | 2004-02-18 | 検出装置、検出方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005234811A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016018359A (ja) * | 2014-07-08 | 2016-02-01 | キヤノン株式会社 | 画像処理方法、画像処理装置、プログラム及び記録媒体 |
-
2004
- 2004-02-18 JP JP2004041920A patent/JP2005234811A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016018359A (ja) * | 2014-07-08 | 2016-02-01 | キヤノン株式会社 | 画像処理方法、画像処理装置、プログラム及び記録媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9396415B2 (en) | Neural network image representation | |
JP4767595B2 (ja) | 対象物検出装置及びその学習装置 | |
JP4744918B2 (ja) | 顔検出方法および装置並びにプログラム | |
JP4628882B2 (ja) | 判別器の学習方法、顔判別方法および装置並びにプログラム | |
JP4624889B2 (ja) | 顔検出方法および装置並びにプログラム | |
US11157749B2 (en) | Crowd state recognition device, learning method, and learning program | |
JP2005157679A (ja) | 対象物検出装置及び方法、並びに集団学習装置及び方法 | |
JP2007109229A (ja) | 特定被写体検出装置及び方法 | |
JP2000048184A (ja) | 画像処理方法及び顔領域抽出方法とその装置 | |
JPWO2006082979A1 (ja) | 画像処理装置および画像処理方法 | |
JP2007047965A (ja) | デジタル画像の対象物検出方法および装置並びにプログラム | |
JP2001043376A (ja) | 画像抽出方法及び装置並びに記憶媒体 | |
KR20150024719A (ko) | 영상에서 객체를 분리하는 방법 및 장치. | |
CN110807362A (zh) | 一种图像检测方法、装置和计算机可读存储介质 | |
JP2010165046A (ja) | 情報処理装置及び情報処理方法 | |
JP2005509983A (ja) | 確率的フレームワークを用いるブロブベースの分析のためのコンピュータビジョン方法およびシステム | |
JP2018206252A (ja) | 画像処理システム、評価モデル構築方法、画像処理方法及びプログラム | |
JP4639754B2 (ja) | 画像処理装置 | |
Jemilda et al. | Moving object detection and tracking using genetic algorithm enabled extreme learning machine | |
JP2010165052A (ja) | 画像処理装置及び画像処理方法 | |
CN115048969A (zh) | 用于评估、理解和改进深度神经网络的视觉分析系统 | |
Sreekumar et al. | Hand segmentation in complex background using UNet | |
JP4657930B2 (ja) | 顔検出方法および装置並びにプログラム | |
JP2018206260A (ja) | 画像処理システム、評価モデル構築方法、画像処理方法及びプログラム | |
JP2010271792A (ja) | 画像処理装置及び画像処理方法 |