JP4281338B2 - Image detection apparatus and image detection method - Google Patents
Image detection apparatus and image detection method Download PDFInfo
- Publication number
- JP4281338B2 JP4281338B2 JP2002339654A JP2002339654A JP4281338B2 JP 4281338 B2 JP4281338 B2 JP 4281338B2 JP 2002339654 A JP2002339654 A JP 2002339654A JP 2002339654 A JP2002339654 A JP 2002339654A JP 4281338 B2 JP4281338 B2 JP 4281338B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- frame
- search
- detected
- predetermined object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Image Processing (AREA)
- Closed-Circuit Television Systems (AREA)
- Image Analysis (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は,画像内の所定の対象物を検出する画像検出装置及び画像検出方法に関し,例えばビデオ映像から人間の顔を検出するのに好適な画像検出装置及び画像検出方法に関する。
【0002】
【従来の技術】
従来,ビデオ映像等の画像から,所定の対象物,例えば人間の顔等を検出・認識する技術が提案されており(例えば,特許文献1参照),監視システム,ロボット装置などへの応用が考えられている。この分野の検出・認識方法としては,サポートベクタマシン(SVM:Support Vector Machine)のようなテンプレートマッチングの手法を使用する方法が知られている。なお,本願発明に関連する先行技術文献情報には,次のものがある。
【0003】
【特許文献1】
特開2001−216515号公報
【0004】
【発明が解決しようとする課題】
ところで,上記のような顔検出・認識を行う装置においては,パターン認識アルゴリズムに要する演算量が膨大になる。そこで,演算処理を軽減しつつ,実用上十分な検出精度を実現することが重要となり,要望されている。従来,ビデオ映像から,縮小スケール画像からなる所定サイズのウィンドウ画像を作り,大まかに顔画像であるか否かを判断して,明らかに顔画像でないウィンドウ画像を除去することにより全体の演算量の軽減を図る手法が考案されている。しかしながら,この手法だけでは,連続した動画像から顔を検出するような場合,時間方向の冗長度を利用しておらず,演算量の軽減が十分とはいえなかった。
【0005】
本発明は上述した問題に鑑みてなされたもので,画像内の所定の対象物を検出するにあたり,演算量の軽減を推進可能な画像検出装置及び画像検出方法を提供することを目的とする。
【0006】
【課題を解決するための手段】
上記課題を解決するために,本発明の第1の観点によれば,画像の中における所定の対象物の位置を検出する画像検出装置であって,連続した複数のフレームのなかで,前記所定の対象物を全く探索しない非探索フレームと,前記所定の対象物をフレーム内全ての領域にわたって探索する全探索フレームと,を設定し,前記非探索フレームの間に前記全探索フレームを所定の周期で設ける検出手段を具備することを特徴とする画像検出装置が提供される。
【0007】
本発明では,全てのフレームに対して対象物を探索するのではなく,対象物を全く探索しない非探索フレームを設定している。非探索フレームでは対象物を全く探索しないため,この分の演算量を大幅に軽減できる。非探索フレームの間に全探索フレームを所定の周期で設けることで,所定の対象物の位置を検出しつつ,演算量の軽減を達成できる。
【0008】
ここで,検出手段はさらに,前記所定の対象物の位置が検出されたフレームの後には,前記所定の対象物の位置の近傍を中心に探索する近傍探索フレームを設けることが好ましい。
【0009】
対象物が瞬時的に極端に位置を変更することは通常起こりにくいため,対象物の検出後は,対象物の位置の近傍を中心に探索すればよく,これにより,探索する画像を減らすことができる。
【0010】
その際に,近傍探索フレームにおける探索範囲は,検出された所定の対象物の大きさや,画像を撮影している撮影手段のズーム量および移動角度,動きベクトル等に応じて,決定,調整されることが好ましく,これらの情報を用いることにより,探索する画像を減らすことができ,また高精度な検出が可能になる。ここで,移動角度は,例えば,後述の本実施の形態にかかるパン・チルト等に該当する。
【0011】
また,検出手段は,所定のフレームにわたって全く動かない対象物を静止物体であるとして検出対象から除外するように構成してもよい。これにより,誤検出を排除でき,演算量を軽減できる。
【0012】
また,本発明の第2の観点によれば,画像内の所定の対象物を検出する画像検出方法であって,連続したフレームのなかで,前記所定の対象物を全く探索しない非探索フレームと,前記所定の対象物をフレーム内全ての領域にわたって探索する全探索フレームと,を設定し,前記非探索フレームの間に前記全探索フレームを所定の周期で設けることを特徴とする画像検出方法が提供される。
【0013】
本発明では,全てのフレームに対して対象物を探索するのではなく,対象物を全く探索しない非探索フレームを設定している。非探索フレームでは対象物を全く探索しないため,この分の演算量を大幅に軽減できる。非探索フレームの間に全探索フレームを所定の周期で設けることで,所定の対象物の位置を検出しつつ,演算量の軽減を達成できる。
【0014】
ここで,前記所定の対象物の位置が検出されたフレームの後には,前記所定の対象物の位置の近傍を中心に探索する近傍探索フレームを設けることが好ましい。
【0015】
対象物が瞬時的に極端に位置を変更することは通常起こりにくいため,対象物の検出後は,対象物の位置の近傍を中心に探索すればよく,これにより,探索する画像を減らすことができる。
【0016】
【発明の実施の形態】
以下,添付図面を参照しながら,本発明の好適な実施の形態にかかる画像検出装置および画像検出方法について詳細に説明する。
【0017】
まず,図1を参照しながら,本実施の形態にかかる画像検出装置の構成について説明する。なおここでは,検出する対象物を人間の顔とした場合を例にとり説明する。図1に示すように,本実施の形態にかかる画像検出装置は,画像入力手段としてのCCD(Charge Coupled Device)カメラ10と,画像処理を行って顔を検出する顔検出部20とを主要構成部として有する。
【0018】
本装置はさらに,画像を圧縮して伝送する画像圧縮・伸張部30,TV(テレビジョン)モニター40,マイク50,音声方向検出部60,音声圧縮・伸張部70,スピーカー80,多重・ネットワークインタフェース90のなかからそれぞれを必要に応じて組み合わせて構成することも可能である。
【0019】
CCDカメラ10は,映像入力デバイスからの動画像を取り込む画像入力手段であり,取り込んだ動画像を顔検出部20へ送出する。CCDカメラ10は,電動のPTZ装置(パン・チルト・ズーム装置)等により自由に向きを変えることができることが好ましく,その場合には例えば,顔だと認識した領域が画像の中央に来るように制御することが容易になる。
【0020】
顔検出部20は,CCDカメラ10で取り込んだ画像信号をフレーム単位で不図示の内部メモリに記憶し,取り込んだ映像から人間の顔画像を検出する。場合によっては,それに加えて人物の識別を処理する機能を持つよう構成してもよい。
【0021】
マイク50は,複数のマイクを配列したマイクアレーで構成することが好ましく,その場合は後述のように音声方向検出が可能になり,探索範囲の縮小に寄与できる。多重・ネットワークインタフェース90は電話回線等のネットワークと接続されている。
【0022】
図1に示す構成における全体的な情報の流れとしては,CCDカメラ10で撮影された映像が顔検出部20へ入力され,顔検出が行われる。CCDカメラ10がPTZ装置を装備している場合は,顔検出部20での処理結果に応じて顔検出部20からCCDカメラ10へPTZ制御の指示が出される。映像データは顔検出部20で画像処理を施された後,画像圧縮・伸張部30へ送出され,必要に応じ圧縮・伸張された後,TVモニター40及び多重・ネットワークインタフェース90へ送出される。なお場合に応じて,画像圧縮・伸張部30から顔検出部20へは動きベクトルの情報が送出される。
【0023】
一方,マイク50に集音された音声は音声方向検出部60により音声の方向が検出される。検出された音声方向のデータは顔検出部20へ送出される。また,音声は音声方向検出部60から音声圧縮・伸張部70へ送出され,必要に応じ圧縮・伸張された後,スピーカー80及び多重・ネットワークインタフェース90へ送出される。
【0024】
図2は,顔検出部20の処理内容を説明するための機能ブロック図である。図2に示すように,入力画像スケール変換部202,ウィンドウ切出部204,テンプレートマッチング部206,前処理部208,パターン識別部210,重なり判定部212に分けることができる。以下,各部の機能について概略的に説明する。
【0025】
入力画像スケール変換部202は,CCDカメラ10(図1)からの画像信号に基づくフレーム画像を不図示の内部メモリから読み出して,フレーム画像を縮小率が相異なる複数のスケール画像に変換する。例えば,25344(=176×144)画素からなるフレーム画像に対して,これを0.8倍ずつ順次縮小して5段階(1倍,0.8倍,0.64倍,0.51倍,0.41倍)のスケール画像に変換することが考えられる。
【0026】
ウィンドウ切出部204は,これらの複数のスケール画像のうち,まず1番目のスケール画像に対して,所定の画素量の矩形領域を順次切り出す。以下,この切り出した領域をウィンドウ画像と呼ぶ。
【0027】
そして,ウィンドウ切出部204は,1番目のスケール画像から切り出した複数のウィンドウ画像のうち先頭のウィンドウ画像を後段のテンプレートマッチング部206に送出する。
【0028】
テンプレートマッチング部206は,ウィンドウ切出部204から得られた先頭のウィンドウ画像について,当該ウィンドウ画像が顔画像か否かを判断する。ここで,テンプレートマッチング部206では,例えば100人程度の人物の平均的な顔画像をテンプレートとして,当該ウィンドウ画像との大まかなマッチングをとり得るようになされている。
【0029】
テンプレートマッチング部206で顔画像であると判断されたウィンドウ画像はスコア画像として後段の前処理部208に送出され,顔画像でないと判断された当該ウィンドウ画像はそのまま後段の重なり判定部212に送出される。
【0030】
前処理部208では,スコア画像について人間の顔画像と無関係である背景部分に相当する領域を除去し,撮影時の照明による濃淡,コントラスト等を補正する。さらに前処理部208では,スコア画像をベクトル変換して,パターン識別部210に送出する。
【0031】
パターン識別部210では,ここではサポートベクタマシンを用いてベクトルとして得られたスコア画像に対して顔データが存在するか否かを判断する。顔データが存在する場合は,画像の位置や大きさ,縮小率等をリスト化し,リストデータとして内部メモリに格納する。
【0032】
また,パターン識別部210は,ウィンドウ切出部204に対して先頭のウィンドウ画像について顔検出が終了した旨を通知する。この通知によりウィンドウ切出部204は次のウィンドウ画像テンプレートマッチング部206に送出する。パターン識別部210は,入力画像スケール変換部202に対して1番目のスケール画像について顔検出が終了した旨を通知する。この通知により入力画像スケール変換部202は2番目のスケール画像をウィンドウ切出部204に送出する。
【0033】
重なり判定部212は,内部メモリに格納されている複数のリストデータを読み出して,リストデータに含まれるスコア画像同士を比較して,重なり合う部分を含むか否かを判定し,その判定結果に基づいてスコア画像同士で重なり合う部分を除去し,各スケール画像において,複数のスコア画像から最終的に重なることなく寄せ集めた単一の画像領域を得,画像領域を顔決定データとして新たに内部メモリに格納する。
【0034】
なお,重なり判定部212は,テンプレートマッチング部206において顔画像でないと判断された場合には,そのまま何もすることなく,内部メモリの格納も行わない。
【0035】
このようにして,元のフレーム画像から顔画像を検出することができる。上記のような操作は演算量が膨大である。そこで,本実施の形態にかかる顔検出部20は,演算量を軽減するために,上記の機能に加えて,以下に説明する種種の機能を有する。
【0036】
(1) フレーム飛ばし探索機能
連続した動画像の中に含まれる人間の顔を認識する場合,毎フレーム,画像のすべての領域をパターンマッチングするのは非常に計算時間を要する。そこで,フレーム内すべての領域にわたってパターンマッチングによる顔探索を行うフレーム(以下,このフレームを全探索フレームと呼ぶ)と,全く顔の探索を行わないフレーム(以下,このフレームを非探索フレームと呼ぶ)と,を設定する。
【0037】
また,認識対象が人間の顔の場合,ひとつのビデオカメラで撮影された連続した動画においては,フレーム間で人間の顔の位置が動く範囲は通常の人間の移動速度などから判定して限られた範囲である。したがって突然画面の端から端に人間の位置が飛ぶことはほとんどありえず,画面内の上下左右のある限られた範囲内に顔が移動している方が多い。
【0038】
よって,上記2種類のフレームに加え,さらに前の画像で顔の場所が特定されたフレームを基準にして周辺領域を探索するフレーム,すなわち近傍探索するフレーム(以下,このフレームを近傍探索フレームと呼ぶ)を設定する。このように,全探索フレーム,非探索フレーム,近傍探索フレームの3種類のフレームを設けて探索を行うことにする。
【0039】
探索の仕方としてはまず,連続したフレームのうち,複数の非探索フレームの間に全探索フレームを所定の周期で設ける。そして,一度顔の存在を検出したら,その近傍のみを探索範囲として定義し,近傍探索フレームを設けることにする。
【0040】
図3に上記3種類のフレームを設けた場合の概念図を示す。図3では区別するために,全探索フレームAは黒塗り,非探索フレームBは白抜き,近傍探索フレームCは斜線付き,で示している。横方向は時間を示し,各フレームが図3に示すように時系列で設けられている様子を示す。
【0041】
すなわち,多数の非探索フレームBの中に全探索フレームAを一定の周期で設け,先頭の全探索フレームAで顔の存在を検出した場合として,その後に近傍探索フレームCを設けている。
【0042】
例えばNTSC方式のように30フレーム/秒の動画像を入力している場合,30枚に1枚だけ全探索フレームとし,残りを非探索フレームとする。この場合,1秒に一回のみ全探索を行えばよく,毎フレームを全探索する場合と比較して1/30の計算量にすることができる。最初に顔を検出するまではこのように全探索フレームを一定周期で設けることで処理する。顔検出や顔認識に伴う計算処理量を削減するためには,連続する動画像に非探索フレームを多数設けることが好ましい。
【0043】
図4に近傍探索フレームの探索範囲の例を示す。なお,この例ではカメラは静止しているものとする。図4では,前の探索フレームで顔検出された範囲f1,次の近傍探索フレームで探索する範囲f2,次の近傍探索フレームで探索しない範囲f3が示されている。範囲f3は,画像全体(図4における最外枠で示される範囲)から範囲f2を除いた範囲を指す。範囲f1は人間の顔の部分を示し,範囲f2は範囲f1を中心としてその近傍を含む範囲となっている。
【0044】
上記のように近傍探索フレームを設けることにより,前述の画像のスケーリング処理の回数を削減するとともに,パターンマッチングの処理を削減することが可能になる。例えば従来では前述の入力画像スケール変換部202において,フレーム内すべての領域にわたって顔探索を行い0.8倍ずつの5段階のスケーリング映像を作っていた。これに対して本実施の形態では,近傍探索フレームで前回の探索フレームで検出されたスケーリング段階とその前後1段階ずつの計3段階のスケーリング画像に減らすといったことが可能である。
【0045】
また,テンプレートマッチングに使うウィンドウ画像の切り出しにおいて,通常スケーリング映像の範囲すべてについて行うところを,前回の検出座標の近傍範囲のみに限定して行うことで計算量を大幅に削減することが可能になる。
【0046】
このような近傍探索フレームを例えば5枚に1枚挿入することで,人間の動きになめらかに追随することができるようになるとともに,全探索フレームの頻度を減らして計算量を削減することが可能になる。
【0047】
また,近傍探索のスケーリング処理において,顔がスケーリング画像の中央にくるようなスケーリング画像の切り出しをすることによって,スケーリング画像の境目に顔がかかる確率を減らすことが可能になる。
【0048】
(2) 対象物の大きさに応じた探索範囲の限定機能
近傍探索において,検出・認識する対象物の大きさに依存して探索範囲を限定する。人間の顔画像が画面内に大きく写っている場合と,小さく写っている場合では,人間が顔を移動させた移動量が同程度であっても,画面に映る移動の範囲が異なるという特性を利用することを考える。
【0049】
例えば,顔画像が大きく写っている場合は,顔やカメラの移動量が小量であっても,隣接する探索フレーム間では画面上の顔の位置が大きく変化することがあり,探索範囲を比較的広くとる必要がある。一方,顔画像が小さく写っている場合は,隣接する探索フレーム間で画面上の顔の位置はさほど変わらないため,探索範囲は比較的狭くて良い。この特性と,スケーリングアルゴリズムを組み合わせることで,探索するスケーリング画像を減らすことが可能となる。
【0050】
(3)カメラとの連動による探索範囲の調整機能
カメラ自体が左右にパンされた場合などは,画面内の顔画像もカメラの動きに応じて移動することが予想されるので,その特性を応用することができる。近傍探索において,探索する領域を決定する際に,画像を撮影するCCDカメラ10(図1)の動き情報と連動することで,さらに探索範囲を狭めたり,探索精度を向上させることが可能になる。
【0051】
例えば電動PTZ機構を有する首振りカメラを使用したTV会議システムを例にとると,カメラを右にパンした場合,映像に含まれる顔画像は左に動くことが予想される。また,その際の動き量は,顔画像の大きさとズーム量(画角)から予想することが可能であり,その動き予測を用いることで精度を向上することができる。なお,パンした場合だけでなく,カメラをチルトした場合も同様である。
【0052】
(4)音声方向検出との組み合わせによる探索範囲の縮小機能
2個あるいは3個程度のマイクアレーを使用して,そのマイクアレーに到達する音声の時間差から音源の方向を検出する音声方向検出技術が知られている。このような公知技術を利用して,マイク50(図1)をマイクアレーで構成し,音声方向検出部60(図1)に音声方向検出回路を持たせて,組み合わせて使用することにより,音源の方向を検出できる。
【0053】
例えばTV会議における話者にカメラを向けるアプリケーションにおいて,音声がする方向を大まかに音声方向検出回路により検出し,その検出結果を顔検出回路に伝達することにより,音源方向と思われる方向の近傍だけをパターンマッチング探索することが可能になる。これにより,パターンマッチングの処理が軽減される。
【0054】
(5)動きベクトルの利用による探索範囲の限定機能
画像圧縮・伸張部30での処理により,前フレームから現フレームまでの間に,対象物である顔が移動した方向と距離を表す動きベクトルが得られる。この動きベクトルを戻すことにより,カメラのズーム量や移動角度等の情報を用いずに探索範囲を限定でき,顔を検出することが可能である。
【0055】
(6)静止物体の排除機能
壁に人物の写真を含むポスターが貼ってあり,それも含めて画像内に取り込んだ場合等,人物の写真が画面の中に映っている場合は,通常のパターンマッチングによる顔検出手法では人間であると認識してしまい,アプリケーション上支障が出る場合がある。また,たまたま人間の顔に似た特徴を持つ模様があり,それを画像内に取り込んだ場合等,顔検出アルゴリズムが誤検出する場合もある。
【0056】
本来の検出対象物は生身の人間の顔であり,上記のようなものは検出対象物とは異なる。このような誤検出するのを防ぐために,「生きている人間は普通じっとしていることはない」という特性を利用する。仮にカメラの向きや倍率が固定されているときに,毎回画面上のまったく同じ場所に,同じ大きさの顔画像が検出されている場合,それは静止物体であると判定して検出対象から除外するアルゴリズムを追加することで,このような誤検出を排除することができる。例えば,連続する10枚の探索フレームの全てにおいて,毎回同じスケーリング倍率の同じ画素位置に顔画像が検出された場合は,これは静止物体であると判別し,顔として検出しないことにする。
【0057】
以上述べたように,本実施の形態によれば,画像から人間の顔を検出するにあたり,計算処理量を大幅に削減することが可能になる。これにより,安価なデバイスを使用してシステム構築ができたり,CPU(Central Processing Unit)の負荷が減ることによる消費電力の低減などの効果がある。また,低い計算処理量でありながら,誤検出を低減することができ,検出精度を向上させることが出来る。
【0058】
本実施の形態の画像検出装置及び画像検出方法は,TV会議システム以外にも,ロボット,監視システム等に適用可能であり,検出装置に限定されず,認識装置等にも適用可能なことは言うまでもない。また,上記説明では,検出する対象物を人間の顔とした場合を例にとり説明したが,必ずしもこれに限定するものではなく,他の物体を検出・認識対象とする検索システムにおいて同様の応用をすることが可能である。例えば検出・認識する対象物を車として,駐車場管理システムに本発明を適用することも考えられる。
【0059】
なお,上記説明では,非探索フレーム,全探索フレーム,近傍探索フレームのようにフレーム単位で設定した例を挙げて説明したが,フレームをフィールドに置き換えて,非探索フィールド,全探索フィールド,近傍探索フィールドのようにフィールド単位で設定することも当然考えられる。
【0060】
以上,添付図面を参照しながら本発明にかかる好適な実施形態について説明したが,本発明はかかる例に限定されないことは言うまでもない。当業者であれば,特許請求の範囲に記載された技術的思想の範疇内において,各種の変更例または修正例に想到し得ることは明らかであり,それらについても当然に本発明の技術的範囲に属するものと了解される。
【0061】
【発明の効果】
以上,詳細に説明したように本発明によれば,画像内の所定の対象物を検出するにあたり,演算量の軽減を推進可能な画像検出装置及び画像を提供することができる。
【図面の簡単な説明】
【図1】 本発明の1実施の形態にかかる画像検出装置の構成図である。
【図2】 顔検出部の処理内容を説明するための機能ブロック図である。
【図3】 各種フレームを設定した場合の概念図である。
【図4】 近傍探索フレームの探索範囲の例を示す図である。
【符号の説明】
10 CCDカメラ
20 顔検出部
30 画像圧縮・伸張部
50 マイク
60 音声方向検出部
202 入力画像スケール変換部
204 ウィンドウ切出部
206 テンプレートマッチング部
208 前処理部
210 パターン識別部
212 重なり判定部
A 全探索フレーム
B 非探索フレーム
C 近傍探索フレーム[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an image detection apparatus and an image detection method for detecting a predetermined object in an image, for example, an image detection apparatus and an image detection method suitable for detecting a human face from a video image.
[0002]
[Prior art]
Conventionally, a technique for detecting and recognizing a predetermined object such as a human face from an image such as a video image has been proposed (see, for example, Patent Document 1), and application to a monitoring system, a robot apparatus, etc. is considered. It has been. As a detection / recognition method in this field, a method using a template matching method such as a support vector machine (SVM) is known. Prior art document information related to the present invention includes the following.
[0003]
[Patent Document 1]
JP-A-2001-216515 [0004]
[Problems to be solved by the invention]
By the way, in the apparatus for performing face detection / recognition as described above, the amount of calculation required for the pattern recognition algorithm becomes enormous. Therefore, it is important and demanded to realize practically sufficient detection accuracy while reducing arithmetic processing. Conventionally, a window image of a predetermined size consisting of a reduced-scale image is created from a video image, it is roughly determined whether or not it is a face image, and the window image that is clearly not a face image is removed, thereby reducing the total amount of computation. Techniques for reducing the number have been devised. However, with this method alone, when detecting faces from continuous moving images, the redundancy in the time direction is not used, and the amount of computation cannot be reduced sufficiently.
[0005]
The present invention has been made in view of the above-described problems, and an object of the present invention is to provide an image detection apparatus and an image detection method that can promote reduction in the amount of calculation in detecting a predetermined object in an image.
[0006]
[Means for Solving the Problems]
In order to solve the above-described problem, according to a first aspect of the present invention, there is provided an image detection device for detecting a position of a predetermined object in an image, wherein the predetermined object is detected in a plurality of consecutive frames. A non-search frame that does not search the target object at all, and a full search frame that searches the predetermined target object over all regions in the frame, and sets the full search frame between the non-search frames at a predetermined cycle. There is provided an image detecting apparatus comprising the detecting means provided in (1).
[0007]
In the present invention, a non-search frame that does not search for an object at all is set instead of searching for an object for all frames. Since the object is not searched at all in the non-search frame, the amount of calculation can be greatly reduced. By providing all search frames with a predetermined period between non-search frames, it is possible to reduce the amount of calculation while detecting the position of a predetermined object.
[0008]
Here, it is preferable that the detection means further includes a neighborhood search frame for searching around the vicinity of the position of the predetermined object after the frame in which the position of the predetermined object is detected.
[0009]
Since it is usually difficult for an object to change its position extremely instantaneously, after searching for an object, it is only necessary to search around the position of the object, thereby reducing the number of images to be searched. it can.
[0010]
At that time, the search range in the neighborhood search frame is determined and adjusted in accordance with the size of the predetermined object detected, the zoom amount and the moving angle of the image capturing means capturing the image, the motion vector, and the like. It is preferable to use these pieces of information, and the number of images to be searched can be reduced, and highly accurate detection is possible. Here, the movement angle corresponds to, for example, pan / tilt according to the present embodiment described later.
[0011]
The detection means may be configured to exclude an object that does not move over a predetermined frame from the detection target as a stationary object. As a result, erroneous detection can be eliminated and the amount of calculation can be reduced.
[0012]
Further, according to a second aspect of the present invention, there is provided an image detection method for detecting a predetermined object in an image, and a non-search frame that does not search for the predetermined object in a continuous frame. An image detection method comprising: setting a full search frame for searching the predetermined object over all regions in a frame, and providing the full search frame at a predetermined cycle between the non-search frames. Provided.
[0013]
In the present invention, a non-search frame that does not search for an object at all is set instead of searching for an object for all frames. Since the object is not searched at all in the non-search frame, the amount of calculation can be greatly reduced. By providing all search frames with a predetermined period between non-search frames, it is possible to reduce the amount of calculation while detecting the position of a predetermined object.
[0014]
Here, it is preferable that a neighborhood search frame for searching around the position of the predetermined object is provided after the frame in which the position of the predetermined object is detected.
[0015]
Since it is usually difficult for an object to change its position extremely instantaneously, after searching for an object, it is only necessary to search around the position of the object, thereby reducing the number of images to be searched. it can.
[0016]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an image detection apparatus and an image detection method according to preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.
[0017]
First, the configuration of the image detection apparatus according to the present embodiment will be described with reference to FIG. Here, a case where the object to be detected is a human face will be described as an example. As shown in FIG. 1, the image detection apparatus according to the present embodiment mainly includes a CCD (Charge Coupled Device)
[0018]
The apparatus further includes an image compression /
[0019]
The
[0020]
The
[0021]
The
[0022]
As an overall information flow in the configuration shown in FIG. 1, an image captured by the
[0023]
On the other hand, the direction of the voice collected by the
[0024]
FIG. 2 is a functional block diagram for explaining the processing content of the
[0025]
The input image
[0026]
The
[0027]
Then, the
[0028]
The
[0029]
The window image determined to be a face image by the
[0030]
The
[0031]
Here, the
[0032]
In addition, the
[0033]
The
[0034]
If the
[0035]
In this way, a face image can be detected from the original frame image. The operation as described above requires a large amount of calculation. Therefore, the
[0036]
(1) Frame skip search function When a human face included in a continuous moving image is recognized, it takes a very long calculation time to pattern-match all regions of the image for each frame. Therefore, a frame that searches for a face by pattern matching over the entire area in the frame (hereinafter referred to as a full search frame) and a frame that does not perform any face search (hereinafter referred to as a non-search frame) And are set.
[0037]
In addition, when the recognition target is a human face, the range in which the position of the human face moves between frames is limited by judging from the normal human moving speed etc. Range. Therefore, it is almost impossible for the human position to suddenly jump from one end of the screen to the other, and there are many cases where the face moves within a limited range on the screen.
[0038]
Therefore, in addition to the above-mentioned two types of frames, a frame that searches for a peripheral region with reference to a frame whose face location is specified in the previous image, that is, a frame that searches for a neighborhood (hereinafter, this frame is called a neighborhood search frame) ) Is set. In this way, the search is performed by providing three types of frames, the full search frame, the non-search frame, and the neighborhood search frame.
[0039]
As a search method, first, all search frames are provided at a predetermined cycle between a plurality of non-search frames among consecutive frames. Once the presence of a face is detected, only the neighborhood is defined as a search range, and a neighborhood search frame is provided.
[0040]
FIG. 3 shows a conceptual diagram when the above three types of frames are provided. In FIG. 3, for the sake of distinction, the entire search frame A is indicated by black, the non-search frame B is indicated by white, and the neighborhood search frame C is indicated by hatching. The horizontal direction indicates time, and each frame is shown in time series as shown in FIG.
[0041]
In other words, the full search frame A is provided in a large number of non-search frames B at a constant cycle, and when the presence of a face is detected in the head full search frame A, the neighborhood search frame C is provided thereafter.
[0042]
For example, when a moving image of 30 frames / second is input as in the NTSC system, only one frame is searched for every 30 frames, and the rest are non-search frames. In this case, the full search only needs to be performed once per second, and the amount of calculation can be reduced to 1/30 compared with the case of full search for each frame. Until a face is detected for the first time, processing is performed by providing all search frames at a constant period in this way. In order to reduce the amount of calculation processing associated with face detection and face recognition, it is preferable to provide a large number of non-search frames in a continuous moving image.
[0043]
FIG. 4 shows an example of the search range of the neighborhood search frame. In this example, it is assumed that the camera is stationary. FIG. 4 shows a range f1 in which the face is detected in the previous search frame, a range f2 in which the search is performed in the next neighborhood search frame, and a range f3 in which the search is not performed in the next neighborhood search frame. A range f3 indicates a range obtained by removing the range f2 from the entire image (a range indicated by the outermost frame in FIG. 4). A range f1 indicates a human face portion, and a range f2 is a range including the vicinity of the range f1.
[0044]
By providing the neighborhood search frame as described above, it is possible to reduce the number of the above-described image scaling processes and the pattern matching process. For example, conventionally, the above-described input image
[0045]
In addition, when cutting out the window image used for template matching, it is possible to greatly reduce the amount of calculation by limiting the entire range of the normal scaled video to only the range near the previous detected coordinate. .
[0046]
By inserting, for example, one such neighborhood search frame in 5 frames, it is possible to smoothly follow human movements and reduce the frequency of all search frames to reduce the amount of calculation. become.
[0047]
Further, in the scaling process of the neighborhood search, by cutting out the scaled image so that the face is at the center of the scaled image, it is possible to reduce the probability that the face is placed at the boundary of the scaled image.
[0048]
(2) Limiting the search range according to the size of the target In the vicinity search, the search range is limited depending on the size of the target to be detected and recognized. There is a characteristic that the range of movement displayed on the screen differs between when the human face image is large and small when the human moves the face. Think about using it.
[0049]
For example, if the face image is large, the face position on the screen may change greatly between adjacent search frames even if the amount of movement of the face or camera is small. It is necessary to take it widely. On the other hand, when the face image is small, the position of the face on the screen does not change so much between adjacent search frames, so the search range may be relatively narrow. By combining this characteristic with the scaling algorithm, it is possible to reduce the scaled image to be searched.
[0050]
(3) Search range adjustment function in conjunction with the camera When the camera itself is panned to the left or right, the face image in the screen is expected to move according to the movement of the camera. can do. In determining the search area in the vicinity search, it is possible to further narrow the search range or improve the search accuracy by linking with the motion information of the CCD camera 10 (FIG. 1) that captures the image. .
[0051]
For example, taking a video conference system using a swing camera having an electric PTZ mechanism as an example, when the camera is panned to the right, the face image included in the video is expected to move to the left. In addition, the amount of motion at that time can be predicted from the size of the face image and the zoom amount (view angle), and the accuracy can be improved by using the motion prediction. The same applies not only to panning but also to tilting the camera.
[0052]
(4) Reduction function of search range by combination with voice direction detection A voice direction detection technique that uses two or three microphone arrays and detects the direction of the sound source from the time difference between the voices reaching the microphone array. Are known. By using such a known technique, the microphone 50 (FIG. 1) is constituted by a microphone array, and the voice direction detection unit 60 (FIG. 1) is provided with a voice direction detection circuit and used in combination. Direction can be detected.
[0053]
For example, in an application in which a camera is pointed at a speaker in a TV conference, the direction of sound is roughly detected by the voice direction detection circuit, and the detection result is transmitted to the face detection circuit, so that only the vicinity of the direction considered to be the sound source direction Can be searched for pattern matching. This reduces the pattern matching process.
[0054]
(5) Limiting function of search range by using motion vector A motion vector representing the direction and distance of the face as a target moves between the previous frame and the current frame by processing in the image compression /
[0055]
(6) Exclusion function of stationary object When a poster including a person's photograph is pasted on the wall and the person's photograph is reflected in the screen, including the poster, the normal pattern The face detection method based on matching recognizes the person as a human being, which may hinder the application. In addition, there is a case where a face detection algorithm erroneously detects when there is a pattern having a feature similar to a human face and it is captured in an image.
[0056]
The original detection object is a real human face, and the above is different from the detection object. In order to prevent such a false detection, a characteristic that “living humans are not usually still” is used. If a face image of the same size is detected at the exact same location on the screen every time the camera orientation and magnification are fixed, it is determined that it is a stationary object and excluded from the detection target. Such an erroneous detection can be eliminated by adding an algorithm. For example, if a face image is detected at the same pixel position with the same scaling magnification every time in all 10 consecutive search frames, it is determined that this is a stationary object and is not detected as a face.
[0057]
As described above, according to the present embodiment, it is possible to greatly reduce the amount of calculation processing when detecting a human face from an image. As a result, it is possible to construct a system using an inexpensive device and to reduce power consumption due to a reduction in the load on a CPU (Central Processing Unit). In addition, the detection error can be reduced and the detection accuracy can be improved while the calculation amount is low.
[0058]
It goes without saying that the image detection apparatus and the image detection method of the present embodiment can be applied to a robot, a monitoring system, and the like in addition to the TV conference system, and are not limited to the detection apparatus, and can also be applied to a recognition apparatus and the like. Yes. Further, in the above description, the case where the object to be detected is a human face has been described as an example. However, the present invention is not necessarily limited to this, and the same application can be applied to a search system in which other objects are detected and recognized. Is possible. For example, the present invention may be applied to a parking lot management system using an object to be detected and recognized as a vehicle.
[0059]
In the above description, an example in which a frame unit is set such as a non-search frame, a full search frame, and a neighborhood search frame has been described. However, a non-search field, a full search field, and a neighborhood search are performed by replacing a frame with a field. Of course, it is conceivable to set the field unit as in the field.
[0060]
As mentioned above, although preferred embodiment concerning this invention was described referring an accompanying drawing, it cannot be overemphasized that this invention is not limited to this example. It is obvious for those skilled in the art that various changes or modifications can be conceived within the scope of the technical idea described in the claims. It is understood that it belongs to.
[0061]
【The invention's effect】
As described above in detail, according to the present invention, it is possible to provide an image detection device and an image that can promote reduction in the amount of calculation in detecting a predetermined object in the image.
[Brief description of the drawings]
FIG. 1 is a configuration diagram of an image detection apparatus according to an embodiment of the present invention.
FIG. 2 is a functional block diagram for explaining processing contents of a face detection unit;
FIG. 3 is a conceptual diagram when various frames are set.
FIG. 4 is a diagram illustrating an example of a search range of a neighborhood search frame.
[Explanation of symbols]
DESCRIPTION OF
Claims (12)
前記全探索フレームにおいて前記所定の対象物を検出し, Detecting the predetermined object in the full search frame;
前記全探索フレームで前記所定の対象物が検出されたフレームの後に,前記フレーム画像を縮小率が相異なる複数段階の複数のスケール画像に変換して,前記複数のスケール画像内の前記所定の対象物の位置の近傍を中心に探索する近傍探索フレームを設定して,前記近傍探索フレームにおいて前記スケール画像内の前記所定の対象物を検出し, After the frame in which the predetermined object is detected in the entire search frame, the frame image is converted into a plurality of scale images of a plurality of stages having different reduction ratios, and the predetermined object in the plurality of scale images is converted. A neighborhood search frame for searching around the vicinity of the position of the object is set, and the predetermined object in the scale image is detected in the neighborhood search frame;
前記近傍探索フレームで前記所定の対象物が検出されたとき,前記所定の対象物が検出されたスケール画像の段階を含みつつ,先の前記変換時より少ない段階数の複数のスケール画像に変換して,次の近傍探索フレームにおいて前記スケール画像内の前記所定の対象物を検出する検出手段を有する,画像検出装置。 When the predetermined object is detected in the neighborhood search frame, the scale object is converted into a plurality of scale images having a smaller number of stages than in the previous conversion, including the stage of the scale image in which the predetermined object is detected. An image detecting apparatus comprising detecting means for detecting the predetermined object in the scale image in the next neighborhood search frame.
前記検出手段は,検出された前記音源の方向の近傍のみを前記近傍探索フレームにおける探索範囲として決定する,請求項1に記載の画像検出装置。 The image detection apparatus according to claim 1, wherein the detection unit determines only the vicinity in the direction of the detected sound source as a search range in the vicinity search frame.
前記全探索フレームにおいて前記所定の対象物を検出し, Detecting the predetermined object in the full search frame;
前記全探索フレームで前記所定の対象物が検出されたフレームの後に,前記フレーム画像を縮小率が相異なる複数段階の複数のスケール画像に変換して,前記複数のスケール画像内の前記所定の対象物の位置の近傍を中心に探索する近傍探索フレームを設定して,前記近傍探索フレームにおいて前記スケール画像内の前記所定の対象物を検出し, After the frame in which the predetermined object is detected in the entire search frame, the frame image is converted into a plurality of scale images of a plurality of stages having different reduction ratios, and the predetermined object in the plurality of scale images is converted. A neighborhood search frame for searching around the vicinity of the position of the object is set, and the predetermined object in the scale image is detected in the neighborhood search frame;
前記近傍探索フレームで前記所定の対象物が検出されたとき,前記所定の対象物が検出されたスケール画像の段階を含みつつ,先の前記変換時より少ない段階数の複数のスケール画像に変換し,次の近傍探索フレームにおいて前記スケール画像内の前記所定の対象物を検出する,画像検出方法。 When the predetermined object is detected in the neighborhood search frame, the scale object is converted into a plurality of scale images having a smaller number of stages than in the previous conversion, including the stage of the scale image in which the predetermined object is detected. An image detection method for detecting the predetermined object in the scale image in a next neighborhood search frame.
検出された前記音源の方向の近傍のみを前記近傍探索フレームにおける探索範囲として決定する,請求項7に記載の画像検出装置。 The image detection apparatus according to claim 7, wherein only the vicinity of the detected direction of the sound source is determined as a search range in the vicinity search frame.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002339654A JP4281338B2 (en) | 2002-11-22 | 2002-11-22 | Image detection apparatus and image detection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002339654A JP4281338B2 (en) | 2002-11-22 | 2002-11-22 | Image detection apparatus and image detection method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004171490A JP2004171490A (en) | 2004-06-17 |
JP4281338B2 true JP4281338B2 (en) | 2009-06-17 |
Family
ID=32702561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002339654A Expired - Fee Related JP4281338B2 (en) | 2002-11-22 | 2002-11-22 | Image detection apparatus and image detection method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4281338B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12046043B2 (en) | 2017-03-30 | 2024-07-23 | Nec Corporation | Information processing apparatus, control method, and program |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4779610B2 (en) * | 2005-12-02 | 2011-09-28 | オムロン株式会社 | Image processing apparatus and method, and program |
JP4732299B2 (en) | 2006-10-25 | 2011-07-27 | 富士フイルム株式会社 | Method for detecting specific subject image and digital camera |
JP4863936B2 (en) * | 2007-06-25 | 2012-01-25 | 株式会社ソニー・コンピュータエンタテインメント | Encoding processing apparatus and encoding processing method |
RU2493613C2 (en) * | 2008-08-22 | 2013-09-20 | Сони Корпорейшн | Image display device and driving method |
JP5066497B2 (en) * | 2008-09-09 | 2012-11-07 | 富士フイルム株式会社 | Face detection apparatus and method |
WO2010032294A1 (en) | 2008-09-17 | 2010-03-25 | 富士通株式会社 | Image processing device, image processing method, and image processing program |
JP5247338B2 (en) | 2008-10-03 | 2013-07-24 | キヤノン株式会社 | Image processing apparatus and image processing method |
JP5625995B2 (en) | 2010-05-10 | 2014-11-19 | カシオ計算機株式会社 | Subject tracking device, subject tracking method and program |
JP2013074570A (en) * | 2011-09-29 | 2013-04-22 | Sanyo Electric Co Ltd | Electronic camera |
CN103248855B (en) * | 2012-02-07 | 2016-12-14 | 北京同步科技有限公司 | Course recording system based on fixing seat in the plane, video process apparatus and record class method |
JP6220079B2 (en) * | 2014-09-08 | 2017-10-25 | 日本電信電話株式会社 | Display control apparatus, display control method, and display control program |
JP6993282B2 (en) * | 2018-04-12 | 2022-01-13 | Kddi株式会社 | Information terminal devices, programs and methods |
JP6996538B2 (en) * | 2019-10-17 | 2022-01-17 | ソニーグループ株式会社 | Image processing equipment, image processing methods, and image processing systems |
CN112336381B (en) * | 2020-11-07 | 2022-04-22 | 吉林大学 | Echocardiogram end systole/diastole frame automatic identification method based on deep learning |
JP7559609B2 (en) | 2021-02-26 | 2024-10-02 | 沖電気工業株式会社 | Information processing device, information processing system, and program |
-
2002
- 2002-11-22 JP JP2002339654A patent/JP4281338B2/en not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12046043B2 (en) | 2017-03-30 | 2024-07-23 | Nec Corporation | Information processing apparatus, control method, and program |
US12046044B2 (en) * | 2017-03-30 | 2024-07-23 | Nec Corporation | Information processing apparatus, control method, and program |
US12106571B2 (en) | 2017-03-30 | 2024-10-01 | Nec Corporation | Information processing apparatus, control method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP2004171490A (en) | 2004-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4281338B2 (en) | Image detection apparatus and image detection method | |
JP7140580B2 (en) | stereo imager | |
JP4770178B2 (en) | Camera control apparatus, camera system, electronic conference system, and camera control method | |
US7355627B2 (en) | Moving object monitoring surveillance apparatus for detecting, tracking and identifying a moving object by zooming in on a detected flesh color | |
US8159537B2 (en) | Video surveillance equipment and video surveillance system | |
JP4715909B2 (en) | Image processing apparatus and method, image processing system, and image processing program | |
US6961447B2 (en) | Image monitoring method, image monitoring apparatus and storage media | |
JP3801137B2 (en) | Intruder detection device | |
JP6768537B2 (en) | Image processing device, image processing method, program | |
JP6381353B2 (en) | Image processing apparatus, imaging apparatus, image processing method, and program | |
US20070222858A1 (en) | Monitoring system, monitoring method and program therefor | |
JP2001339703A (en) | Video conference system, control apparatus of camera in video conference system and control method of camera | |
JP4794938B2 (en) | Monitoring system, monitoring device, monitoring method, and program | |
JP2006318364A (en) | Image processing device | |
JP2005173787A (en) | Image processor detecting/recognizing moving body | |
JP5911227B2 (en) | Determination apparatus, determination method, and program | |
JP5247338B2 (en) | Image processing apparatus and image processing method | |
JP2009124644A (en) | Image processing device, imaging device, and image reproduction device | |
JP5029986B2 (en) | Information processing apparatus and program | |
US7835552B2 (en) | Image capturing apparatus and face area extraction method | |
JP3227179B2 (en) | Moving object detection and tracking processing method | |
JP2004228770A (en) | Image processing system | |
TWI389060B (en) | Intelligent surveillance system and method for the same | |
KR100536747B1 (en) | The video storing system using a ptz camera and the method there of | |
JP2000092368A (en) | Camera controller and computer readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050909 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081202 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090224 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090309 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120327 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130327 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |