JP2004192646A

JP2004192646A - 人物検出方法および装置

Info

Publication number: JP2004192646A
Application number: JP2003408897A
Authority: JP
Inventors: Young-Hoon Sung; 映勳成; Tae Kyun Kim; 泰均金
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2002-12-06
Filing date: 2003-12-08
Publication date: 2004-07-08
Anticipated expiration: 2023-12-08
Also published as: DE60313941T2; JP4275516B2; EP1426898A3; EP1426898A2; CN1963839A; CN1523533A; US20050094849A1; US7409091B2; KR20040049465A; DE60313941D1; EP1426898B1; KR100455294B1; CN100504910C; US20070258646A1; US7486826B2

Abstract

【課題】人物検出方法を提供する。
【解決手段】デジタルビデオカメラによって端末機に接近した物体を撮影して入力した映像から本発明による人物を検出する方法であり、（ａ）人物検出で使われる変数を初期化する段階と、（ｂ）現在モードが顔検出モードであるかを判断する段階と、（ｃ）現在モードが顔検出モードである場合、入力される映像フレーム毎に顔検出を実行し、顔検出を所定回数試みても顔が検出されなければ、動き検出モードを選択して（ｂ）段階に進行する段階と、（ｄ）現在モードが動き検出モードである場合、所定数の映像フレームを１つの単位で入力して動き検出を実行し、所定時間内に前記動き検出が所定回数以上成功すれば、（ａ）段階に進行する段階を含む。したがって、監視システムが作動する状態で顔検出モードと動き検出モードとを反復的にまた相互補完的に実行することによって、正確な人物検出と実行速度の高速化および映像記憶効率の向上が実現される。
【選択図】図１

Description

本発明は、人物検出に関し、特にビデオカメラから入力された映像を分析してユーザーを検出するための人物検出方法に関する。

動きを検出する技法として、特許文献１と特許文献２とがある。特許文献１には、監視カメラにおいてフレーム毎にサンプリングして画素の変化を求め、以前のフレームと現在のフレームとの間で画素の変化を比較し、その差を所定の基準値と比較することによって、周辺の明るさと関係なしに動きを検出するカメラの動き検出方法が開示されている。また、特許文献２には、撮像される映像のうち基準映像と差のある映像信号部分がある場合にのみ記録する動き検出による選択的記録装置および方法が開示されている。しかし、この２つの動き検出技法は連続的な２つの映像間の画素値の変化を情報として使用するために、実質的に検出しようとする人の動き以外に照明の変化などノイズのような映像変化によって、連続的な２つの映像間の画素値が変化する場合も動きとして検出される問題点がある。

監視システムに連結された所定サービス機器に対するユーザーの接近を制御する技法として、特許文献３と特許文献４とがある。特許文献３には現金自動預払機の動作に連動されてユーザーの顔の映像を録画するための監視カメラからの顔の形を取得した後、これを分析して事後確認可能な特徴点が存在するかどうかを確認し、前記特定点の存在が確認される場合、ユーザーの注文処理を許容するユーザー識別システムおよびそれを利用した現金自動預払機が開示されている。また、特許文献４には、取引者の画像を前面から撮影した取引者の顔の画像のうち目と口の画像が正確に検出されているかどうかを判断し、正確な目と口とが検出されない画像の場合、例えば、手で顔の一部を隠した場合、顔を傾け過ぎる場合、帽子を押さえ過ぎて顔が見えない場合、マスクまたは覆面をした場合などにおいては現金自動預払機の動作を遮断することによって、金融犯罪を未然に防止できる銀行取引システムの取引者の顔面認識方法が開示されている。しかし、この２つのユーザー接近制御技法は、不法な行為を防止する目的であるが、正常にサングラス、マスク、帽子などを着用した多くの人々にも接近制御を行うため実際の使用において多くの不便があるという問題点がある。

韓国特許公開第２０００−５０４０５号公報韓国特許公開第１９９７−６０９２７号公報韓国特許公開第１９９８−８２１５４号公報韓国特許公開第２０００−６１１００号公報

本発明が解決しようとする技術的課題は、デジタルカメラを用いた監視システムで、あらゆるユーザーが検出でき、記憶効率を向上させ、照明などのノイズ性の変化に影響を受けず実際の動きを正確に検出し、ユーザーの顔のような情報を正確に検出して記憶できる人物検出方法を提供するところにある。

また、本発明が解決しようとする他の技術的課題は、前記人物検出方法を実行する人物検出装置を提供するところにある。

前記した技術的課題を解決するために、デジタルビデオカメラによって端末機に接近した物体を撮影して入力した映像から本発明による人物を検出する方法は、（ａ）前記人物検出に使われる変数を初期化する段階と、（ｂ）現在モードが顔検出モードであるかどうかを判断する段階と、（ｃ）現在モードが顔検出モードである場合、入力される映像フレーム毎に顔検出を実行し、顔検出を所定回数試みても顔が検出されなければ、動き検出モードを選択して前記（ｂ）段階に進行する段階と、（ｄ）現在モードが動き検出モードである場合、所定数の映像フレームを１つの単位で入力して動き検出を実行し、所定時間内に前記動きの検出が所定回数以上成功すれば、前記（ａ）段階に進行する段階と、を含むのが望ましい。

また、本発明において、前記（ｃ）段階は、ガボールウェーブレット変換を使用して顔の候補領域を検出する段階を含むのが望ましい。

また、本発明において、前記（ｃ）段階は、低解像度ＳＶＭ（Support Vector Machine）および高解像度ＳＶＭを使用して顔を検出する段階を含むのが望ましい。

前記した技術的課題を解決するために、デジタルビデオカメラによって撮影して入力された映像から物体の動きを検出する本発明による動き検出方法は、（ｅ１）所定数の映像フレームを入力する段階と、（ｅ２）時間的なエッジ検出アルゴリズムおよび時間に対する画素値の分散値の比較によって前記撮影された映像内の動きを検出する段階と、（ｅ３）動きが検出されたかどうかを判断する段階と、（ｅ４）動きが検出されたと判断されれば、映像を記憶する段階とを含むことを特徴とする。

前記した他の技術的課題を解決するために、デジタルビデオカメラによって撮影して入力した映像から人物を検出する本発明による人物検出装置は、人物検出に使用する変数を初期化する手段と、顔検出モードであるか否か決定する検出モード判断手段と、顔検出モードであれば、入力される映像フレーム毎に顔検出を実行し、顔検出を所定回数試みても顔が検出されなければ、動き検出モードを選択する顔検出手段と、顔検出モードでなければ、所定数の映像フレームを１つの単位で入力して動き検出を実行し、所定時間内に前記動き検出が所定回数以上成功すれば、変数を初期化する動き検出手段と、を含むのが望ましい。

前記した他の技術的課題を解決するために、デジタルビデオカメラによって撮影して入力した映像から物体の動きを検出する本発明による動き検出装置は、所定数の映像フレームを入力する手段と、時間的なエッジ検出アルゴリズムおよび時間に対する画素値の分散値の比較によって前記撮影された映像内の動きを検出する手段と、動きが検出されたのかどうかを判断する手段と、動きが検出されたと判断されれば、映像を記憶する手段と、を含むのが望ましい。

本発明による人物検出方法および人物検出装置によれば、監視システムが作動する状態で、顔検出モードと動き検出モードとを繰り返し、また、相互補完的に実行することによって、正確な人物検出と実行速度の高速化および映像記憶効率の向上効果が得られる。また、照明や環境の変化のようなノイズに影響されることなく、実際の動きが正確に検出される。

以下、本発明による人物検出方法および動き検出方法の構成および動作について、図面を参照して以下に詳細に説明する。

本発明は端末機に接近した物体をデジタルビデオカメラによって撮影して入力された映像から人物を検出する人物検出方法に係り、最も望ましくは、映像内に含まれた人物の顔を検出することが目的であり、顔を正確に検出できなくても映像内の人物の動きと人物の姿とを検出することが目的である。このために、本発明は、顔検出と動き検出とを共に具備してこれらを相互補完的に実行することによって、端末機に接近した物体を撮影して入力された映像から人物を正確かつ効率的に検出する技法を提案する。また、映像を記憶するにおいて、顔が検出されるか動きが検出された場合にのみ映像を記憶することによって記憶効率を大幅向上させる。

図１は、本発明によるデジタルビデオカメラの人物検出方法の望ましい一実施形態を説明するためのフローチャートであって、変数初期化段階（Ｓ１０段階）、検出モード判断段階（Ｓ２０段階）、顔検出段階（Ｓ３０段階）および動き検出段階（Ｓ４０段階）を含む。

これをより詳細に説明すれば、まず、人物検出方法の実行のための変数を初期化する（Ｓ１０段階）。本発明の望ましい実施形態で使用する変数には検出モードDETECT＿MODE、顔検出試み回数COUNT＿FD、動き検出試み回数COUNT＿MDおよび動き検出成功回数SUCCESS＿MDなどがある。ここで、FDは顔検出(face detection)を意味し、MDは動き検出(motion detection)を意味する。Ｓ１０段階では、あらゆる変数を、例えば"0"に初期化する。検出モードDETECT＿MODEが"0"であれば、顔検出モードであり、"1"であれば、動き検出モードとなる。本発明による人物検出方法を実行するにおいて、顔検出を先に実行するか、動き検出を先に実行するかは重要な問題ではないが、説明の便宜のために、監視システムを起動すれば、先に顔検出を実行するように初期の検出モードDETECT＿MODEを"0"に設定することにする。

Ｓ１０段階の後で、検出モードが顔検出モードであるかを判断する（Ｓ２０段階）。

Ｓ２０段階の判断結果、検出モードが顔検出モードの場合、顔検出を実行（Ｓ３０段階）し、顔検出モードではない場合、動き検出モードを実行する（Ｓ４０段階）。本発明の望ましい実施形態で、初期検出モードは顔検出モードに設定されていることは前述した通りである。

ここで、Ｓ３０段階は、顔検出を所定回数試みても顔が検出されなければ、動き検出を実行するモードを選択してＳ２０段階に進行する。また、Ｓ３０段階は、ガボールウェーブレット変換を使用して顔の候補領域を検出する段階を含む。また、Ｓ３０段階は、低解像度ＳＶＭおよび高解像度ＳＶＭを使用して顔を検出する段階を含む。Ｓ４０段階では、動き検出が所定数の映像フレームについて同時に実行され、少なくとも所定回数の動き検出が所定の時間内に成功したら、処理はＳ１０段階へ戻る。

図２は、図１に示されたＳ３０段階の望ましい一実施形態を説明するためのフローチャートである。Ｓ３０段階は、撮影された１つの映像フレームを入力する段階、この映像フレームから顔を検出する段階、顔が検出された場合映像フレームを記憶する段階、再び顔検出を実行する段階、所定回数の間、入力される映像フレームに対して顔の検出を試みても顔が検出されなければ、動き検出モードを選択する段階（Ｓ３００〜Ｓ３２０段階）よりなる。

本発明による顔検出段階（Ｓ３０段階）は、１つの映像フレームに対して１回の顔検出試みが実行され、継続的に顔検出を試みる回数を所定回数ＴＨ１に制限する。また、本発明は顔検出を実行するにおいて、概略的な検出（Ｓ３０４段階）から中間段階検出（Ｓ３０８段階）を経て精密な検出（Ｓ３１２段階）まで３段階を進行することによって、満足すべき顔検出率を維持しながらも顔検出にかかる実行時間を縮められる。図面を参照して、顔検出段階（Ｓ３０段階）を次の通り詳細に説明する。

まず、Ｓ３００段階では、顔検出を実行するために撮影された１つの映像フレームを入力する。入力された１つのフレームの新しい映像毎に１回の顔検出試みが行われる。

Ｓ３００段階の後で、顔検出試み回数（変数COUNT＿FD）を＋１増加させる（Ｓ３０２段階）。Ｓ３０２段階は、継続的に顔検出を試みられる回数を所定回数ＴＨ１に制限するために備えられる段階である。１回の顔検出が失敗して新しい映像フレームを入力して再び顔検出を試みる時COUNT＿FDを＋１ずつ増加させる。

Ｓ３０２段階後に、顔の候補領域を検出する（Ｓ３０４段階）。このためにまず、モデルの顔形態をトレーニングして構築された顔データベースが備えられる。Ｓ３０４段階では、備えられたモデルの顔データベースと入力された映像フレームとを比較して顔の候補領域を検出する。ここで、顔の候補領域検出に使われる映像変換方法としてガボールウェーブレットが使用できる。特に、Ｍ−グリッドガボールウェーブレットが使用できる。Ｍ−グリッドガボールウェーブレットでモデルの顔形態をトレーニングするグリッド間隔は、両目間の距離および目と口との間の距離を基準に定められる。Ｍ−グリッドガボールウェーブレットによるＳ３０４段階を、図３および図４を参照して次の通りにさらに詳細に説明する。

連続的な映像入力で顔の候補領域を検出するために、顔映像の色相または形態と関連した多くの研究がなされてきた。画素レベルの皮膚色は検出空間を大きく減らせられるが、人間の皮膚色は撮影環境に影響を受け、光源の方向および強度によって変化する。本発明においては、Ｍ−スタイルグリッドでガボールフィルター応答の類似性整合による形態情報を利用して顔の候補領域を検出する。

図３に示されたように、Ｍ−グリッドは英文字Ｍの形態を形成する所定数、例えば２０個の点よりなる。グリッド点は水平および垂直方向に所定間隔で配列されている。例えば、図４に示されたように、グリッド点の水平間隔は両目間の距離の１／４に選定でき、垂直間隔は口と両目を連結する線の間の距離の１／３に選定できる。

ガボールウェーブレットによる顔の候補領域検出は２つの段階を含む。

１つは、数多くの顔の変化を含むモデルの顔映像をトレーニングすることである。この時、数多くの入力映像にＭ−グリッド構造を適用してトレーニングすることによってモデル顔のデータベースを構築する。

他の１つは、Ｍ−グリッド類似性整合を利用して前記トレーニングされたモデル顔のデータベースと入力された映像フレームとの類似性を比較することである。ここでは、たとえ顔でなくてもＭ−スタイルグリッド整合によってトレーニングされたモデルと類似度が高いと判断される映像は顔の候補領域に検出される。

Ｓ３０４段階後に、ガボールウェーブレット変換によって顔の候補領域が検出されたかどうかを判断する（Ｓ３０６段階）。Ｍ−グリッドガボールウェーブレット変換によれば、実際の顔の有無に関係なしに、顔と推定される部分は顔の候補として検出される。すなわち、ガボールウェーブレット変換では、映像全体のうち他の部分に比べて顔である可能性が最も大きいと判断される一定領域の部分を顔の候補に検出する。このように、顔の候補領域に検出されたとしても、その画像が実際に顔を含んでいるとはみなされない。したがって、より正確に顔を検出するために、検出された顔の候補領域に対して、低解像度顔検出段階（Ｓ３０８段階）および高解像度顔検出段階（Ｓ３１２段階）が実行される。しかし、顔の候補領域が含まれていないと決定されれば、Ｓ３１８段階に進行して顔の検出試み回数COUNT＿FDが制限された所定回数ＴＨ１以上であるかを判断する。これについてはＳ３１８段階で詳しく説明する。

顔検出の概略的な検出から精密な検出までの階層構造において、前述したようなガボールウェーブレット変換は最下位のレベルである。このレベルは正確な顔検出を提供するものではないが、照明の変化、その他の雑音に強く、顔の候補領域検出を速く実行する。一実施形態として、入力映像のサイズが３２０×２４０画素であり、目標顔のサイズは両目間の距離が４０〜８０画素である場合、顔検出の処理時間は、例えばペンティアム４、１.６ＧＨｚでイメージ当たり約１７０ｍｓ程度である。

一方、本発明においては、Ｍ−グリッドガボールマッチングを利用して検出された顔の候補領域からより正確に顔を検出するために、ＰＣＡ(Principal Component Analysis)副空間でトレーニングされたＳＶＭ(Support Vector Machine)分類技法を適用する。ここで、ＰＣＡは主成分分析法を意味し、これについては後述する。低解像度ＳＶＭ基盤の顔検出を実行するＳ３０８段階および高解像度ＳＶＭ基盤の顔検出を実行するＳ３１２段階で適用されるＳＶＭ基盤の顔検出技法について次の通り詳細に説明する。

顔映像は高次元映像空間でランダムに分布されているものではない。したがって、相対的に低次元の副空間によって表現できる。そして、ＳＶＭ分類での顔検出実行速度はサポートベクトルの数によって異なる。本発明の目的のうち１つは、分類速度を上げることである。適切なサポートベクトル数ＳＶを選定すれば、分類速度を高めながらも良好な分類性能が維持できる。本発明において顔空間の次元を減少させる適当な方法としては、ＰＣＡが採用される。現在利用されている多くの顔認識技術は、顔映像にＰＣＡを適用して顔を認識する。ＰＣＡは映像自体の固有情報の損失を最小化しながら映像データを低次元固有ベクトル空間に投影させて情報を縮小させる技法である。ＰＣＡは入力された映像から顔の主要特徴ベクトル、すなわち、主成分を抽出して、あらかじめトレーニングされて登録されたデータベース映像の主成分ベクトルと比較して顔を認識する方法である。

低解像度のＳＶＭ分類は分類速度を速めうる。低解像度で顔でないと判断された映像は結局顔ではない。しかし、低解像度で顔であると決定された映像であっても顔でない場合もある。このような背景で、顔分類の第１の段階として、まず、低解像度のＳＶＭ分類によって速い速度で顔でない映像を洗い出す（Ｓ３０８段階）。低解像度ＳＶＭによって分類された顔映像には顔でない映像が含まれうる。次に、顔分類の第２の段階として、高解像度のＳＶＭ分類によってより精密に顔でない映像を洗い出す（Ｓ３１２段階）。言い換えれば、少数のサポートベクトルを有する第１段階の低解像度レベルの分類で顔と分類されたパターンのみを次の段階である高解像度段階に進行させることによって、第２レベルに進行する映像データ量を大幅に減らせる。

本発明の細部的な一実施形態であって、ガボールウェーブレット変換による分類（Ｓ３０４段階）によって抽出された顔候補に対し、２０×２０画素の顔映像内で２０個のＰＣＡ特徴でトレーニングされた低解像度のＳＶＭを適用する（Ｓ３０８段階）。最後に、４０×４０画素の顔映像内で５０個のＰＣＡ特徴でトレーニングされた２次多項式カーネルを使用した高解像度のＳＶＭを適用する（Ｓ３１２段階）。

ＳＶＭ基盤の顔検出を実行するために、まず、システムが備えられねばならないのは、トレーニングによる顔データベースである。すなわち、顔が含まれた映像(face image)と顔が含まれない映像(non-face image)とに対してそれぞれトレーニングしてデータベースを構築する。低解像度ＳＶＭのためのトレーニングは次の通り実行される。顔映像と非顔映像とをそれぞれ所定サイズ、例えば２０×２０画素にリサイジングする。ベクトル数は４００個となる。これから、所定数、例えば２０個のみを特徴ベクトルに選別して固有ベクトルを作る。

次の段階として位置とスケールとを調整しながら映像内で顔を検出する領域を選定し、低解像度ＳＶＭを使用して映像内の顔を検出する。

図５Ａおよび図５Ｂはガボールウェーブレット変換を使用して検出された顔の候補領域およびその周辺領域について、映像内で顔検出を実行する検索窓を変更していく過程を説明するための図である。低解像度ＳＶＭによる顔検出において、顔検出のための検索領域の基準点および基準点移動範囲は、ガボールウェーブレット変換によって検出された顔の候補領域によって決定される。図５Ａを参照すれば、内部に斜線表示された小さい矩形はガボールウェーブレット基盤で検出された顔の候補領域であり、外部の大きい矩形は低解像度ＳＶＭによる顔検出が実行される検索領域を示す。例えば、図５Ａの左側上段のエッジを第１基準点として定めて図５Ｂに示されたように、顔検索窓を８０×８０画素に設定できる。その次に、設定領域内の映像データを２０×２０画素にリサイジングする。リサイジングした映像データをトレーニングによるサポートベクトルのデータと比較して顔を検出する。顔検出領域の設定を拡張しながら、設定された領域をそれぞれ２０×２０画素にリサイジングしてトレーニングデータと比較する。設定領域の最大サイズを、例えば１６０×１６０画素に指定し、設定領域を１つのステップに、例えば横縦にそれぞれ２０画素ずつ拡張させるならば、設定領域のサイズ拡張段階は、例えば８０×８０画素のサイズから１６０×１６０画素のサイズまでリサイジングおよびトレーニングデータと比較する過程が５回繰り返される。図５Ａの外部矩形のサイズの検索領域に対して顔検出を実行すべきなので、基準点を右側方向と下側方向とに移動しながら図５Ｂに示された検索窓拡張による顔検出を繰り返して実行する。

Ｓ３１２段階で実行される高解像度ＳＶＭ基盤の顔検出もＳ３０８段階と同じ過程を経るが、リサイジングベクトル数と固有ベクトル数とが多くなってより繊細な検出によって正確な顔検出が実行できる。すなわち、まずシステムが具備せねばならないことはトレーニングによる顔データベースである。すなわち、顔が含まれた映像と顔の含まれていない映像についてそれぞれトレーニングしてデータベースを構築する。高解像度ＳＶＭのためのトレーニングは次の通り実行される。顔映像と非顔映像とをそれぞれ所定サイズ、例えば４０×４０画素にリサイジングする。ベクトル数は１６００個になる。このうちで所定数、例えば５０個のみを特徴ベクトルに選別して固有ベクトルを作る。

次の段階として、位置とスケールとを調整しながら映像内で顔を検出する検索領域を選定し、高解像度ＳＶＭを使用して映像内の顔を検出する。顔検索窓の基準点および基準点移動範囲の決定方式は図５Ａおよび図５Ｂに示された低解像度ＳＶＭによる顔検出にあっても同一であるが、低解像度ＳＶＭによって検出された顔領域を基準としてその周辺領域で基準点および基準点移動範囲が決定される点だけが異なる。

前述したように本発明による顔検出においては、顔の候補領域検出（Ｓ３０４段階）、低解像度ＳＶＭを使用した顔検出（Ｓ３０８段階）および高解像度ＳＶＭを使用した顔検出（Ｓ３１２段階）の３段階を適用することによって顔検出の信頼性、正確性および実行速度を同時に向上させうる。

結局、Ｓ３１２段階の高解像度ＳＶＭによって顔が含まれたと最終的に判断された場合にだけ、顔が検出されたと判断する（Ｓ３１４段階）。もし、映像に顔が含まれていないにもかかわらず、Ｓ３１４段階によって顔が検出されたと判断された場合はＦＡＲ(False Alarm Rate)が増大する。また、顔が含まれている映像に対してＳ３１４段階によって顔が含まれたと検出された場合は、ＦＤＲ(Face Detection Rate)が増大する。

Ｓ３１０段階の判断結果、低解像度ＳＶＭによって顔が検出されていないと判断されるか、Ｓ３１４段階の判断結果、高解像度ＳＶＭによって顔が検出されていないと判断されれば、Ｓ３１８段階に進行して顔検出試み回数が所定回数（これを第１臨界値ＴＨ１という）を超過したかを判断するようになる。ここで、第１臨界値ＴＨ１は、例えば１０と設定できる。

Ｓ３１８段階では、所定回数および所定時間内の顔検出試みに基づいて、動き検出に移行するか否かを決定する。端末機に接近した物体が、人であるかどうかを顔検出によって１００％判断できるものではない。端末機にユーザーが接近して、映像内で動きはあっても、ユーザーがマスクを着用するか覆面をした場合、サングラスを着用した場合、カメラに対して背を向けている場合など顔を検出し難い場合がある。このような場合、顔は検出されないが、撮影された映像を記憶する必要性はある。顔が検出された場合にだけ映像を記憶するようにすれば、このように動きはあるが、顔が検出されない条件では映像を記憶できない。したがって、本発明においては、顔検出を試みる回数を制限して入力される所定数の映像フレームに対して顔検出を試みても顔が検出されなければ、顔検出を中断して映像内の動き検出を試みるようにする。このとき、顔検出を試みる回数は顔検出が失敗する回数と同じである。したがって、顔検出が失敗した場合に顔検出を試みるCOUNT＿FDを＋１増加させ、再び顔検出を試みるが、その試み回数を制限するためにＳ３１８段階を具備する。顔検出が失敗したので、新しい顔検出を試みるかどうかを判断せねばならない場合は３つの場合がある。すなわち、Ｓ３０６段階の判断結果、顔の候補領域が検出されていないと判断されるか、Ｓ３１０段階の判断結果、低解像度ＳＶＭによって顔が検出されていないと判断されるか、Ｓ３１４段階の判断結果、高解像度ＳＶＭによって顔が検出されなかったと判断されれば、顔検出試み回数COUNT＿FDが所定回数第１臨界値ＴＨ１以上であるかを判断し、第１臨界値ＴＨ１より小さい場合、Ｓ３００段階に進行し、第１臨界値ＴＨ１以上である場合、Ｓ３２０段階に進行する。

Ｓ３２０段階では検出モードDETECT＿MODEを"1"に設定し、動き検出モードに移行する。すなわち、Ｓ３１８段階の判断結果、動き検出試みが第１臨界値ＴＨ１を超えたと判断された場合には、動き検出に移行する。その後、処理はＳ２０段階に進行する。Ｓ３２０段階を経てＳ２０段階に進行するようになれば、検出モードDETECT＿MODEは"1"に設定され、動き検出を実行するようになる。

一方、Ｓ３１４段階の判断結果、もし、高解像度ＳＶＭによって顔が検出されたと判断されれば、該当映像フレームを記憶して顔検出試み回数COUNT＿FDを"0"に初期化する（Ｓ３１６段階）。Ｓ３１６段階後に、Ｓ３００段階に進行する。顔が検出された場合は、引き続き顔を検出するようにする。

本発明においてＳ４０段階は、望ましくは、所定数の映像フレームを１つの単位として動き検出を実行し、所定時間内に動き検出が所定回数以上成功すれば、顔検出を実行する段階に移行するように具現される。

図６は、図１に示された動き検出実行段階（Ｓ４０段階）の望ましい細部的な一実施形態を説明するためのフローチャートである。Ｓ４０段階は、撮影された所定数の映像フレームを入力して時間的なエッジ検出アルゴリズムによって動きを検出し、所定時間内に動き検出が所定回数以上成功すれば、顔検出を実行する段階へ移行し、そうでなければ継続的に動き検出を実行する段階（Ｓ４００〜Ｓ４１４段階）よりなる。

本発明においては、空間的なエッジ検出方法を時間軸に拡張した時間的なエッジ概念によって動きを検出する。所定時間の間に入力された映像フレームを１つの動き検出処理単位として、これら映像フレーム間の時間的な変化を評価して動き検出を試みる。

本発明による動き検出方法においては、所定時間端末機に接近した物体を撮影して入力された一連の映像フレーム、例えば１０個の映像フレームを１つの単位として動き検出を１回試みる。すなわち、入力される一定時間の間の一連の映像フレーム、例えば１０個の映像フレームを１つの単位として動き検出を試みる。また、１つの映像フレームには所定解像度を有するｎ個の画素がある。したがって、１回の動き検出を試みる時、１つの注目画素に対して１０個の画素値の時間的な変化を評価し、注目画素が動き画素であるかどうかを決定するようになり、このような過程を画素数ｎ回分だけ繰り返して実行して１回の動き検出を試みる。

本発明におけるデジタルカメラは、単位時間当りに所定数の映像フレームを撮影する。したがって、例えば、秒当たり３０フレームを撮影すれば、概略的に秒当たり３回の動き検出を試みることができる。

図６を参照して、動き検出方法（Ｓ４０段階）の望ましい細部実施形態を次の通り説明する。

まず、所定数の映像フレームを入力する（Ｓ４００段階）。ここで、映像フレームの所定数は、例えば１０個になりうる。Ｓ４００段階後に、動き検出試み回数COUNT＿MDを＋１増加させる（Ｓ４０２段階）。Ｓ４０２段階後に、時間的なエッジ検出アルゴリズムによって前記撮影された映像内の動きを検出する（Ｓ４０４段階）。

空間的なエッジは、相対的に異なる明暗度を有する２つの領域間の境界である。空間的なエッジを検出する技法にはソベルマスク、プレウィットマスク、ラプラシアンマスク、キャニーマスクなど色々なものがある。このうち、ラプラシアンを利用したエッジ検出では、空間的なエッジ概念を時間的なエッジ概念に拡張でき、これにより撮影された映像内で動きが検出できる。

図７は、Ｓ４０４段階の望ましい一実施形態を説明するためのフローチャートである。Ｓ４０４段階では、画素値の時間に対するラプラシアンが零交差する画素を検出し、その画素の分散値が所定値以上である場合にだけその画素を動き画素と決定する段階（Ｓ４０４０〜Ｓ４０４４段階）よりなる。

図７を詳細に説明すれば、まず、入力された所定数の映像フレームを利用して、画素値の時間に対するラプラシアンが零交差する画素を検出する（Ｓ４０４０段階）。

図８は、図７に示されたＳ４０４０段階の望ましい一実施形態を説明するためのフローチャートである。入力される映像フレームは正の整数ｍに対して所定値２ｍ個であり、ある映像フレーム内には所定値ｎ個の画素が存在するとする時、Ｓ４０４０段階の望ましい一実施形態は、画素値の時間に対するラプラシアンが零交差する画素を検出するために、前記入力された２ｍ個の映像フレームをｆ（ｔ₁）〜ｆ（ｔ_2m-1）とｆ（ｔ₂）〜ｆ（ｔ_2m）の２つの群に分けて、画素値のラプラシアンを求める段階（Ｓ４０４０ａおよびＳ４０４０ｂ段階）とラプラシアンの零交差の如何を決定する段階（Ｓ４０４０ｃ段階）とよりなる。ここで、｛ｆ（ｔ₁）、ｆ（ｔ₂）、ｆ（ｔ₃）…、ｆ（ｔ_2m）｝は現在処理される注目画素の画素値であり、Ｓ４０４０ａ段階ないしＳ４０４０ｃ段階は画素数ｎ回だけ反復的に実行され、１回の動き検出が実行される。Ｓ４０４０段階の実施形態を次の通りより詳細に説明する。

典型的な３×３マスクとして空間的なエッジを検出するためのラプラシアンマスクによる計算例は次の式（１）または式（２）のようになる。
∇²f=4z₅-(z₂+z₄+z₆+z₈) ・・・（１）
∇²f=8z₅-(z₁+z₂+z₃+z₄+z₆+z₇+z₈+z₉) ・・・（２）

まず、Ｓ４０４０ａ段階では、映像フレーム群で｛ｆ（ｔ₁）、ｆ（ｔ₂）、ｆ（ｔ₃）…、ｆ（ｔ_2m-1）｝の各映像フレームに所定の加重値を乗じて平均してｆ（ｔ_m）の時間的なラプラシアンを求める。典型的な３×３の空間エッジ検出のためのラプラシアンマスクを時間軸に拡張して時間的なエッジを検出するために、１回の動き検出のための一群の映像フレームの数を９個に選定する。例えば、ｍ＝５に選定すれば、Ｓ４０４０ａ段階は、｛ｆ（ｔ₁）、ｆ（ｔ₂）、ｆ（ｔ₃）…、ｆ（ｔ₉）｝の９個の各映像フレームに所定の加重値を乗じて平均してｆ（ｔ₅）の時間的なラプラシアン∇²ｆ（ｔ₅）を求める段階となる。∇²ｆ（ｔ₅）は次の式（３）または式（４）のように求められる。
∇²f(t₅)=4f(t₅)-(f(t₂)+f(t₄)+f(t₆)+f(t₈)) ・・・（３）
∇²f(t₅)=8f(t₅)-(f(t₁)+f(t₂)+f(t₃)+f(t₄)f(t₆)+f(t₇)+f(t₈)+f(t₉)) ・・・（４）

また、ラプラシアンが零交差する画素を検出するためにはもう１個の時間的な画素値のラプラシアンが必要である。したがって、Ｓ４０４０ａ段階後に、映像フレーム群で、｛ｆ（ｔ₂）、ｆ（ｔ₃）、ｆ（ｔ₄）…、ｆ（ｔ_2m）｝の各映像フレームに所定の加重値を乗じて平均してｆ（ｔ_m+1）の時間的なラプラシアンを求める（Ｓ４０４０ｂ段階）。Ｓ４０４０ｂ段階でも典型的な３×３マスクの適用のために、例えば、｛ｆ（ｔ₂）、ｆ（ｔ₃）、ｆ（ｔ₄）…、ｆ（ｔ₁₀）｝の９個の各映像フレームに所定の加重値を乗じて平均してｆ（ｔ₅）の時間的なラプラシアン∇²ｆ（ｔ₆）を求める。∇²ｆ（ｔ₆）は次の式（５）または式（６）のように求められうる。
∇²f(t₆)=4f(t₆)-(f(t₃)+f(t₅)+f(t₇)+f(t₉)) ・・・（５）
∇²f(t₆)=8f(t₆)-(f(t₂)+f(t₃)+f(t₄)+f(t₅)f(t₇)+f(t₈)+f(t₉)+f(t₁₀)) ・・・（６）

Ｓ４０４０ｃ段階は、ラプラシアンの差について決定する段階であって、∇²ｆ（ｔ_m）が負数であり、∇²ｆ（ｔ_m+1）が正数であるか、∇²ｆ（ｔ_m）が正数であり、∇²ｆ（ｔ_m+1）が負数であれば、注目画素を零交差画素に決定する。すなわち、ｍ＝５である場合に、∇²ｆ（ｔ₅）と∇²ｆ（ｔ₆）間で零交差が起きたか否かによって零交差の画素を決定する。もし、零交差が起きたと判断されれば、ｆ（ｔ_m）を動き画素に検出する。

一方、入力された所定数の映像フレームを利用し、画素値の時間に対する分散値を計算する（Ｓ４０４２段階）。Ｓ４０４２段階は、Ｓ４０４０段階後に実行され、またはＳ４０４０段階と並列的に実行されうる。分散値σは一例として次の式（７）のように計算できる。

Ｓ４０４０段階およびＳ４０４２段階後に、ラプラシアンが零交差すると検出された画素に対して時間に対する分散値が所定臨界値以上であるかを判断し、所定臨界値以上である場合、前記画素を動き画素に決定する（Ｓ４０４４段階）。分散値が所定臨界値より小さければ、画素の時間的な変化はあるが、これは映像内で実質的な物体の動きによるものでなく、照明などのノイズ性の映像変化によるものと判断する。Ｓ４０４４段階によって、本発明による動き検出方法は映像内で物体の実際的の動きによるものがではない照明など環境の変化および雑音などに強くなる。

以上で説明したＳ４０４段階後に、動きが検出されたかを判断する（Ｓ４０６段階）。Ｓ４０６段階は、Ｓ４０４段階で決定された動き画素の数が所定数以上であるかを判断して、所定数以上の場合、動きが検出されたと判断する。

もし、動きが検出されたと判断されれば、動き検出成功回数SUCCESS＿MDを＋１増加させ、映像を記憶する（Ｓ４０８段階）。このとき、記憶される映像はｆ（ｔ_m）映像である。ｍ＝５の場合であれば、ｆ（ｔ₅）映像が記憶される。

Ｓ４０８段階後に、動き検出試み回数COUNT＿MDが第３臨界値ＴＨ３、例えば、３０回未満COUNT＿MD＜３０であり、同時に動き検出成功回数SUCCESS＿MDが第２臨界値ＴＨ２、例えば、１０回以上の条件SUCCESS＿MD≧１０を満足するかを判断し、前記条件を満足すると判断されれば、Ｓ１０段階に進行する（Ｓ４１０段階）。すなわち、Ｓ４１０段階の前記条件を満足すれば、動き検出モードの所期の目的を達成したのである。所定時間内に動き検出が所定回数成功したので、今回には顔が検出される可能性が非常に高い条件になったと判断するのである。顔が検出される可能性があれば、顔を正確に検出することが監視システムの究極的な目的であるためである。Ｓ１０段階に進行すれば、あらゆる変数が初期化されるので、また顔検出モードに進入するようになる。

Ｓ４０６段階の判断の結果、動きが検出されていないと判断されるか、Ｓ４１０段階の判断の結果、その条件を満足しないと判断されれば、動き検出試み回数COUNT＿MDが第３臨界値ＴＨ３以上であるかを判断し、第３臨界値ＴＨ３以上でない場合、Ｓ４００段階に進行してさらに新しい映像フレームを入力して動き検出を実行する（Ｓ４１２段階）。

しかし、もし、動き検出試み回数COUNT＿MDが第３臨界値ＴＨ３以上である場合、動き検出試み回数COUNT＿MDおよび動き検出成功回数SUCCESS＿MDを初期化してＳ４００段階に進行する（Ｓ４１４段階）。本発明による動き検出は“所定時間内に”所定回数の動き検出が成功することが目的であって、所定時間を超えた長時間にかけて動き検出が成功しても、顔が検出される可能性はないのである。したがって、所定回数の動き検出が成功する前に所定時間が経過したならば、すなわち、動き検出試み回数が第３臨界値ＴＨ３以上であれば、動き検出と関連したカウントを初期化して、最初から再び動き検出を実行するようにする。

ところが、より完璧な人物検出を実行するために動き検出実行の途中に顔検出を実行する必要性がある。すなわち、端末機に接近したユーザーが所定時間動かずにいる状況に対応する必要性がある。したがって、Ｓ４０段階は、動き検出を実行する途中に所定時間周期で動き検出を妨害して顔検出を実行する段階をさらに含むように具現されうる。

ラプラシアンはノイズに弱い傾向があるので、Ｓ４０４段階を実行するにおいて画素値のラプラシアンを求める前（Ｓ４０４０段階前）に、入力された映像フレームをガウシアンフィルタリングによって平滑化する段階をさらに含みうる。

図９は、本発明による動き検出方法の望ましい一実施形態を説明するためのフローチャートであって、撮影された所定数の映像フレームを入力して時間的なエッジ検出アルゴリズムによって動きを検出し、所定時間内に動き検出が成功すれば、映像を記憶し、そうでなければ継続的に動き検出を実行するように具現される段階（Ｓ５００〜Ｓ５０６段階）よりなる。

まず、所定数の映像フレームを入力する（Ｓ５００段階）。

Ｓ５００段階後に、時間的なエッジ検出アルゴリズムおよび時間についての画素値の分散値比較によって映像内の動きを検出する（Ｓ５０２段階）。ここで、Ｓ５０２段階は図７に示されたようにＳ４０４０〜Ｓ４０４４段階で具現できる。

Ｓ５０２段階は、まず、入力された所定数の映像フレームを利用し、画素値の時間に対するラプラシアンが零交差する画素を検出する（Ｓ４０４０段階）。

入力される映像フレームは所定値２ｍ個であり、１つの映像フレーム内にはｎ個の画素が存在するとする時、Ｓ４０４０段階は図８に示されたようにＳ４０４０ａ〜Ｓ４０４０ｃで具現できる。

Ｓ４０４０段階は、まず、映像フレーム群で｛ｆ（ｔ₁）、ｆ（ｔ₂）、ｆ（ｔ₃）…、ｆ（ｔ_2m-1）｝の各映像フレームに所定の加重値を乗じて平均して∇²ｆ（ｔ_m）を求める（Ｓ４０４０ａ）。

また、映像フレーム群で｛ｆ（ｔ₂）、ｆ（ｔ₃）、ｆ（ｔ₄）…、ｆ（ｔ_2m）｝の各映像フレームに所定の加重値を乗じて平均して∇²ｆ（ｔ_m+1）を求める（Ｓ４０４０ｂ）。

∇²ｆ（ｔ_m）が負数であって、∇²ｆ（ｔ_m+1）が正数であるか、または、∇²ｆ（ｔ_m）が正数であり、∇²ｆ（ｔ_m+1）が負数であれば、その画素を零交差の画素に決定する（Ｓ４０４０ｃ）。

ここで、｛ｆ（ｔ₁）、ｆ（ｔ₂）、ｆ（ｔ₃）…、ｆ（ｔ_2m）｝は現在処理される画素の画素値であって、Ｓ４０４０ａ段階ないしＳ４０４０ｃ段階はｎ回繰り返して実行される。

Ｓ４０４０段階後に、入力された所定数の映像フレームを利用し、画素値の時間に対する分散値を計算する（Ｓ４０４２段階）。

ここで、Ｓ４０４０段階前に、入力された映像フレームをガウシアンフィルタリングによって平滑化する段階をさらに含むこともある。

Ｓ４０４２段階後に、ラプラシアンが零交差すると検出された画素の時間に対する分散値が所定臨界値以上であるかを判断し、前記画素の分散値が所定臨界値以上である場合、その画素を動き画素として決定する（Ｓ４０４４段階）。分散値が所定臨界値より小さければ、画素の時間的な変化はあるが、これは映像内で実質的な物体の動きによるものではない照明などにノイズ性の映像変化によるものと判断する。Ｓ４０４４段階によって、本発明による動き検出方法は映像内で物体の実際的な動きによるものではない照明など環境の変化およびノイズなどに強くなる。

一方、Ｓ５０２段階後に、動きが検出されたかどうかを判断する（Ｓ５０４段階）。ここで、望ましくは、動き画素として決定された画素の数が所定数以上であるかを判断し、所定数以上である場合、動きが検出されたと判断する。

動きが検出されていないと判断されれば、映像を記憶せずにＳ５００段階に進行し（Ｓ５０４段階）、動きが検出されたと判断されれば、映像を記憶してＳ５００段階に進行する（Ｓ５０６段階）。

図１０は、本発明による人物検出装置２０の望ましい一実施形態を説明するためのブロック図であって、デジタルビデオカメラ１０によって撮影して入力された映像から顔を検出する顔検出部２００、動きを検出する動き検出部２１０、顔検出および動き検出を制御する制御部２２０および映像を記憶する記憶部２３０を含む。

顔検出部２００は制御部２２０から受信された検出モード信号２２１に応答して入力された映像から顔検出を実行し、顔検出が成功したか否かを顔検出結果信号２２２として出力する。

動き検出部２１０は、制御部２２０から受信された検出モード信号２２１に応答し、所定数の映像フレームを１つの単位で入力して時間的なエッジ検出アルゴリズムによる動き検出を実行し、動き検出が成功したか否かを動き検出結果信号２２３として出力する。

記憶部２３０は、制御部２２０から受信された映像記憶指示信号２２４に応答してデジタルビデオカメラ１０から入力される映像を記憶する。

制御部２２０は、人物検出時に使われる変数を初期化し、顔検出部２００または動き検出部２１０を活性化する前記検出モード信号２２１を出力し、顔検出結果信号２２２または動き検出結果信号２２３に応答して映像記憶指示信号２２４を出力し、顔検出結果信号２２２に応答して顔検出試み回数をカウントし、動き検出結果信号２２３に応答して動き検出試み回数および動き検出成功回数をカウントする。制御部２２０は、顔検出試み回数が第１臨界値ＴＨ１、例えば１０回以上であれば、動き検出部２１０を活性化するように検出モード信号２２１を、例えばハイレバルに変更して出力し、動き検出成功回数が所定時間内に第３臨界値ＴＨ３、例えば１０回以上であれば、顔検出部２００を活性化するように検出モード信号２２１を、例えばローレベルに変更して出力する。

図１に示されたＳ１０段階およびＳ２０段階は、制御部２２０によって実行できる。図１に示されたＳ３０段階は顔検出部２００、記憶部２３０および制御部２２０によって実行できる。図１に示されたＳ４０段階は動き検出部２１０、記憶部２３０および制御部２２０によって実行できる。

顔検出部２００の望ましい一実施形態は、図１０に示されたように、顔の候補領域検出部２０１、低解像度顔検出部２０２および高解像度顔検出部２０３を含む。

顔の候補領域検出部２０１は、デジタルビデオカメラ１０から入力された映像からＭ−グリッドガボールウェーブレット基盤で顔の候補領域を検出して出力し、検出結果を第１顔検出結果として出力する。例えば、顔の候補領域が検出された場合には第１顔検出結果はハイレベルとして出力され、そうでなければ、ローレベルとして出力されうる。図２に示されたＳ３０４段階およびＳ３０６段階は顔の候補領域検出部２０１によって実行できる。

低解像度顔検出部２０２は、顔の候補領域検出部２０１で、ガボールウェーブレットを使用して検出された顔の候補領域を含み、その周辺の所定領域に対して低解像度ＳＶＭを使用して顔領域を検出して出力し、検出結果を第２顔検出結果として出力する。例えば、低解像度顔領域が検出された場合には第２顔検出結果はハイレベルとして出力され、そうでなければ、ローレベルとして出力されうる。図２に示されたＳ３０８段階およびＳ３１０段階は低解像度顔検出部２０２によって実行できる。

高解像度顔検出部２０３は、低解像度顔検出部２０２で低解像度ＳＶＭを使用して検出された顔領域を含み、その周辺の所定領域に対して高解像度ＳＶＭを使用して顔を検出し、第３顔検出結果を出力する。例えば、高解像度顔領域が検出された場合には第３顔検出結果はハイレベルとして出力され、そうでなければ、ローレベルとして出力されうる。図２に示されたＳ３１２段階およびＳ３１４段階は高解像度顔検出部２０３によって実行できる。

顔検出結果信号発生部２０４は第１〜第３の顔検出結果に応答して顔検出結果信号２２２を発行する。顔検出結果信号発生部２０４は、第１〜第３の顔検出信号のうち１つでもローレベルであれば、ローレベルの顔検出結果信号２２２を発生するように具現できる。例えば、顔検出結果信号発生部２０４は、第１〜第３の顔検出信号を入力端子に連結した論理積ゲートとして具現できる。

動き検出部２１０の望ましい一実施形態は、図１０に示されたように、エッジ検出部２１１、分散値計算部２１２、動き画素検出部２１３および動き検出結果信号発生部２１４を含む。

エッジ検出部２１１は、時間に対するラプラシアンが零交差する画素をエッジ画素として決定する。図７に示されたＳ４０４０段階はエッジ検出部２１１によって実行できる。

分散値計算部２１２は画素値の時間に対する分散値を計算する。図７に示されたＳ４０４２段階は分散値計算部２１２によって実行できる。

動き画素検出部２１３は、エッジ画素として決定された画素の分散値が所定値以上である場合、そのエッジ画素を動き画素として決定する。図７に示されたＳ４０４４段階は動き画素検出部２１３によって実行できる。

動き検出結果信号発生部２１４は映像フレーム内で動き画素の数が所定数以上であるか否かによって動き検出結果信号２２３を発生する。例えば、動き画素が所定数以上である場合、ハイレベル、そうでなければ、ローレベルの動き検出結果信号２２３を発生するように具現できる。

本発明は、以上に説明した、また、図面に表現された例示に限定されるものではない。前述した実施形態によって、当業者であれば特許請求の範囲に記載された本発明の範囲および目的内で置換、消去、併合、および段階などの再配置によって前述した実施形態について多くの変形が可能であろう。

本発明は監視システム、特に、ビデオカメラから入力された映像を分析して人物を検出するために監視システムに適用されうる。

本発明によれば、監視システムが作動する状態で、顔検出モードと動き検出モードを繰り返して、または両方間の相互補完的に実行することによって、正確な人物検出と実行速度および映像記憶効率の向上が実現される。

本発明による人物検出方法の望ましい一実施形態を説明するためのフローチャートである。図１に示されたＳ３０段階の望ましい一実施形態を説明するためのフローチャートである。Ｍ−グリッドの形態を示す。グリッドの水平方向および垂直方向の間隔を示す。ガボールウェーブレットを使用して検出された顔の候補領域を示す図である。顔の検索窓を変更していく過程を説明するための図である。図１に示された動きの検出実行段階（Ｓ４０段階）の望ましい詳細な一実施形態を説明するためのフローチャートである。図６に示されたＳ４０４段階の望ましい一実施形態を説明するためのフローチャートである。図７に示されたＳ４０４０段階の望ましい一実施形態を説明するためのフローチャートである。本発明による動き検出方法の望ましい一実施形態を説明するためのフローチャートである。本発明による人物検出装置の望ましい一実施形態を説明するためのブロック図である。

符号の説明

１０デジタルビデオカメラ
２０人物検出装置
２００顔検出部
２０１候補領域検出部
２０２低解像度顔検出部
２０３高解像度顔検出部
２０４顔検出結果信号発生部
２１０検出部
２１１エッジ検出部
２１２分散値計算部
２１３画素検出部
２１４動き検出結果信号発生部
２２０制御部
２２１検出モード信号
２２２顔検出結果信号
２２３検出結果信号
２２４映像記憶指示信号
２３０記憶部

Claims

デジタルビデオカメラによって撮影して入力した映像から人物を検出する方法において、
（ａ）人物検出で使われる変数を初期化する段階と、
（ｂ）現在モードが顔検出モードであるか否かを判断する段階と、
（ｃ）現在モードが顔検出モードである場合、入力される映像フレーム毎に顔検出を実行し、顔検出を所定回数試みても顔が検出されなければ、動き検出モードを選択して前記（ｂ）段階に進行する段階と、
（ｄ）現在モードが動き検出モードである場合、所定数の映像フレームを１つの単位で入力して動き検出を実行し、所定時間内に前記動き検出が所定回数以上成功すれば、前記（ａ）段階に進行する段階と、を含むことを特徴とする人物検出方法。
前記（ｃ）段階は、
ガボールウェーブレット変換を使用して顔の候補領域を検出する段階を含むことを特徴とする請求項１に記載の人物検出方法。
前記（ｃ）段階は、
低解像度ＳＶＭおよび高解像度ＳＶＭを使用して顔を検出する段階を含むことを特徴とする請求項２に記載の人物検出方法。
前記（ｃ）段階は、
（ｃ１）前記撮影された１つの映像フレームを入力する段階と、
（ｃ２）顔検出試み回数を＋１増加させる段階と、
（ｃ３）Ｍ−グリッドガボールウェーブレット変換を使用してモデルの顔形態をトレーニングして顔の候補領域を検出し、顔の候補領域が検出されたかどうかを判断する段階と、
（ｃ４）顔の候補領域が検出された場合、低解像度ＳＶＭによって顔検出を実行し、顔が検出されたかどうかを判断する段階と、
（ｃ５）低解像度ＳＶＭによって顔が検出された場合、高解像度ＳＶＭによって顔検出を実行し、顔が検出されたかどうかを判断する段階と、
（ｃ６）高解像度ＳＶＭによって顔が検出された場合、該当する映像フレームを記憶し、顔検出試み回数を初期化し、前記（ｃ１）段階に進行する段階と、
（ｃ７）前記（ｃ３）段階の判断の結果、顔の候補領域が検出されないか、前記（ｃ４）段階の判断の結果、顔が検出されなかったと判断されるか、前記（ｃ５）段階の判断結果、顔が検出されていない場合、顔検出試み回数が第１臨界値以上であるかを判断し、第１臨界値以上ではない場合、前記（ｃ１）段階に進行する段階と、
（ｃ８）顔検出試み回数が第１臨界値以上である場合、動き検出モードを選択して前記（ｂ）段階に進行する段階と、を含むことを特徴とする請求項３に記載の人物検出方法。
前記（ｃ３）段階において、
前記モデルの顔形態をトレーニングするＭ−グリッドの間隔は目と目間の距離および目と目とを連結する線と口間の距離を基準として定められることを特徴とする請求項４に記載の人物検出方法。
前記（ｃ４）段階および前記（ｃ５）段階は、
ＰＣＡ副空間でトレーニングされたＳＶＭ分類技法によって顔検出を実行することを特徴とする請求項４に記載の人物検出方法。
前記（ｃ４）段階は、
前記（ｃ３）段階で検出された顔の候補領域の周辺の所定位置を基準として所定サイズの領域を選定し、前記選定された領域に対して低解像度ＳＶＭによる顔検出を実行し、前記（ｃ３）段階で検出された前記顔の候補領域を含む周辺の所定領域が何れもスキャンされるように前記選定領域を拡張および移動しながら低解像度ＳＶＭによった顔検出を実行することを特徴とする請求項６に記載の人物検出方法。
前記（ｃ５）段階は、
前記（ｃ４）段階で検出された顔領域周辺の所定位置を基準として所定サイズの領域を選定して前記選定された領域について高解像度ＳＶＭによる顔検出を実行し、前記（ｃ４）段階で検出された前記顔領域を含む周辺の所定領域が何れもスキャンされるように前記選定領域を拡張および移動しながら高解像度ＳＶＭによる顔検出を実行することを特徴とする請求項６に記載の人物検出方法。
前記（ｄ）段階は、
時間的なエッジ検出アルゴリズムによって前記動き検出を実行することを特徴とする請求項１に記載の人物検出方法。
前記（ｄ）段階は、
（ｄ１）所定数の映像フレームを入力する段階と、
（ｄ２）動き検出試み回数を＋１増加させる段階と、
（ｄ３）時間的なエッジ検出アルゴリズムおよび時間に対する画素値の分散値の比較によって前記撮影された映像内の動きを検出する段階と、
（ｄ４）動きが検出されたかどうかを判断する段階と、
（ｄ５）動きが検出されたと判断されれば、動き検出成功回数SUCCESS＿MDを＋１増加させ、映像を記憶する段階と、
（ｄ６）動き検出試み回数が第３臨界値未満であり、動き検出成功回数が第２臨界値以上である条件を満足するかどうかを判断し、前記条件を満足する場合、前記（ａ）段階に進行する段階と、
（ｄ７）前記（ｄ４）段階の判断結果、動きが検出されないか、前記（ｄ６）段階の判断結果、前記条件を満足しない場合、動き検出試み回数が前記第３臨界値以上であるかを判断し、前記第３臨界値以上ではない場合、前記（ｄ１）段階に進行する段階と、
（ｄ８）動き検出試み回数が前記第３臨界値以上である場合、動き検出試み回数および動き検出成功回数を初期化して前記（ｄ１）段階に進行する段階と、を含むことを特徴とする請求項９に記載の人物検出方法。
前記（ｄ３）段階は、
（ｄ３０）前記入力された所定数の映像フレームを利用し、画素値の時間に対するラプラシアンが零交差する画素を検出する段階と、
（ｄ３２）前記入力された所定数の映像フレームを利用し、画素値の時間に対する分散値を計算する段階と、
（ｄ３４）前記（ｄ３０）段階で前記ラプラシアンが零交差すると検出された画素の時間に対する分散値が所定臨界値以上であるかを判断し、前記画素の前記分散値が所定臨界値以上である場合、前記画素を動き画素として決定する段階と、を含むことを特徴とする請求項１０に記載の人物検出方法。
前記入力される映像フレームは２ｍ個であり、１つの映像フレームにはｎ個の画素が存在する場合、
前記（ｄ３０）段階は、
（ｄ３００）前記映像フレーム群で｛ｆ（ｔ₁）、ｆ（ｔ₂）、ｆ（ｔ₃）…、ｆ（ｔ_2m-1）｝の各映像フレームに所定の加重値を乗じて平均してｆ（ｔ_m）の時間に対するラプラシアン∇²ｆ（ｔ_m）を求める段階と、
（ｄ３０２）前記映像フレーム群で｛ｆ（ｔ₂）、ｆ（ｔ₃）、ｆ（ｔ₄）…、ｆ（ｔ_2m）｝の各映像フレームに所定の加重値を乗じて平均してｆ（ｔ_m+1）の時間に対するラプラシアン∇²ｆ（ｔ_m+1）を求める段階と、
（ｄ３０４）前記∇²ｆ（ｔ_m）が負数であり、前記∇²ｆ（ｔ_m+1）が正数であるか、前記∇²ｆ（ｔ_m）が正数であり、前記∇²ｆ（ｔ_m+1）が負数であれば、前記画素を零交差の画素として決定する段階と、を含み、
ここで、｛ｆ（ｔ₁）、ｆ（ｔ₂）、ｆ（ｔ₃）…、ｆ（ｔ_2m）｝は現在処理される画素の画素値であり、前記（ｄ３００）段階ないし前記（ｄ３０４）段階はｎ回反復的に実行されることを特徴とする請求項１１に記載の人物検出方法。
前記（ｄ４）段階は、
前記（ｄ３）段階で前記動き画素として決定された画素の数が所定数以上であるかを判断し、所定数以上である場合、動きが検出されたと判断することを特徴とする請求項１１に記載の監視システムでの人物検出方法。
前記（ｄ３０）段階前に、
入力された前記映像フレームをガウシアンフィルタリングによって平滑化する段階をさらに含むことを特徴とする請求項１１に記載の監視システムでの人物検出方法。
前記（ｄ）段階は、
動き検出を実行する途中に所定時間周期で妨害して顔検出を実行する段階をさらに含むことを特徴とする請求項１に記載の人物検出方法。
デジタルビデオカメラによって端末機に接近した物体を撮影して入力した映像から動きを検出する方法において、
（ｅ１）所定数の映像フレームを入力する段階と、
（ｅ２）時間的なエッジ検出アルゴリズムおよび時間に対する画素値の分散値比較によって前記撮影された映像内の動きを検出する段階と、
（ｅ３）動きが検出されたかどうかを判断する段階と、
（ｅ４）動きが検出されたと判断されれば、映像を記憶する段階と、を含むことを特徴とする監視システムでの動き検出方法。
前記（ｅ２）段階は、
（ｅ２０）前記入力された所定数の映像フレームを利用し、画素値の時間に対するラプラシアンが零交差する画素を検出する段階と、
（ｅ２２）前記入力された所定数の映像フレームを利用し、画素値の時間に対する分散値を計算する段階と、
（ｅ２４）前記（ｅ２０）段階で前記ラプラシアンが零交差すると検出された画素の時間に対する分散値が所定臨界値以上であるかを判断し、前記画素の前記分散値が所定臨界値以上である場合、前記画素を動き画素として決定する段階と、を含むことを特徴とする請求項１６に記載の動き検出方法。
前記入力された映像フレームは２ｍ個であり、１つの映像フレーム内にはｎ個の画素が存在する場合、
前記（ｅ２０）段階は、
（ｅ２００）前記映像フレーム群で｛ｆ（ｔ₁）、ｆ（ｔ₂）、ｆ（ｔ₃）…、ｆ（ｔ_2m-1）｝の各映像フレームに所定の加重値を乗じて平均して∇²ｆ（ｔ_m）を求める段階と、
（ｅ２０２）前記映像フレーム群で｛ｆ（ｔ₂）、ｆ（ｔ₃）、ｆ（ｔ₄）…、ｆ（ｔ_2m）｝の各映像フレームに所定の加重値を乗じて平均して∇²ｆ（ｔ_m+1）を求める段階と、
（ｅ２０４）前記∇²ｆ（ｔ_m）が負数であり、前記∇²ｆ（ｔ_m+1）が正数であるか、前記∇²ｆ（ｔ_m）が正数であり、前記∇²ｆ（ｔ_m+1）が負数であれば、前記画素を零交差の画素として決定する段階と、を含み、
ここで、｛ｆ（ｔ₁）、ｆ（ｔ₂）、ｆ（ｔ₃）…、ｆ（ｔ_2m）｝は現在処理される画素の画素値であり、前記（ｅ２００）段階ないし前記（ｅ２０４）段階はｎ回反復的に実行されることを特徴とする請求項１７に記載の動き検出方法。
前記（ｅ３）段階は、
前記（ｅ２）段階で前記動き画素として決定された画素の数が所定数以上であるかを判断し、所定数以上である場合、動きが検出されたと判断することを特徴とする請求項１７に記載の動き検出方法。
前記（ｅ２０）段階前に、
入力された前記映像フレームをガウシアンフィルタリングによって平滑化する段階をさらに含むことを特徴とする請求項１７に記載の動き検出方法。
デジタルビデオカメラによって端末機に接近した物体を撮影して入力した映像からユーザーを検出する装置において、
前記人物検出方法で使われる変数を初期化する手段と、
顔検出モードであるかどうかを決定する検出モード判断手段と、
顔検出モードであれば、入力される映像フレーム毎に顔検出を実行し、顔検出を所定回数試みても顔が検出されなければ、動き検出モードを選択する顔検出手段と、
顔検出モードでなければ、所定数の映像フレームを１つの単位で入力して動き検出を実行し、所定時間内に前記動き検出が所定回数以上成功すれば、変数を初期化する動き検出手段と、を含むことを特徴とする人物検出装置。
前記動き検出手段は、
ガボールウェーブレット変換を使用して顔の候補領域を検出する手段を含むことを特徴とする請求項２１に記載の人物検出装置。
前記動き検出手段は、
低解像度ＳＶＭおよび高解像度ＳＶＭを使用して顔を検出する手段を含むことを特徴とする請求項２２に記載の人物検出装置。
前記動き検出手段は、
前記撮影された１つの映像フレームを入力する手段と、
顔検出試み回数を＋１増加させる手段と、
Ｍ−グリッドガボールウェーブレット基盤でモデルの顔形態をトレーニングして顔の候補領域を検出し、顔の候補領域が検出されたか否かを判断する顔の候補領域検出手段と、
顔の候補領域が検出された場合、低解像度ＳＶＭによって顔検出を実行し、顔が検出されたか否かを判断する低解像度顔検出手段と、
低解像度ＳＶＭによって顔が検出された場合、高解像度ＳＶＭによって顔検出を実行し、顔が検出されたかを判断する高解像度顔検出手段と、
高解像度ＳＶＭによって顔が検出された場合、該当する映像フレームを記憶し、顔検出試み回数を初期化し、顔検出モードを維持する手段と、
顔の候補領域が検出されない場合、低解像度ＳＶＭによって顔が検出されていない場合、または高解像度ＳＶＭによって顔が検出されていない場合に、顔検出試み回数が第１臨界値以上であるかどうかを判断し、第１臨界値以上ではない場合、顔検出モードを維持する手段と、
顔検出試み回数が第１臨界値以上である場合、動き検出モードを選択する手段と、を含むことを特徴とする請求項２３に記載の人物検出装置。
前記顔の候補領域検出手段は、
両目間の距離および両目を連結する線と口との間の距離を基準として前記モデルの顔形態をトレーニングするＭ−グリッドの間隔を決定する手段を含むことを特徴とする請求項２４に記載の人物検出装置。
前記低解像度ＳＶＭによって顔検出を実行する手段および前記高解像度ＳＶＭによって顔検出を実行する手段はそれぞれ、
ＰＣＡ副空間でトレーニングされたＳＶＭ分類技法によって顔検出を実行する手段を含むことを特徴とする請求項２４に記載の人物検出装置。
低解像度ＳＶＭによって顔検出を実行する手段は、
前記顔の候補領域検出手段で検出された顔の候補領域周辺の所定位置を基準として所定サイズの領域を選定し、前記選定された領域に対して低解像度ＳＶＭによる顔検出を実行し、前記顔の候補領域を含む周辺の所定領域が何れもスキャンされるように前記選定領域を拡張および移動しながら低解像度ＳＶＭによって顔検出を実行する手段を含むことを特徴とする請求項２６に記載の人物検出装置。
高解像度ＳＶＭによって顔検出を実行する手段は、
前記低解像度顔検出手段で検出された顔領域周辺の所定位置を基準として所定サイズの領域を選定して前記選定された領域に対して高解像度ＳＶＭによる顔検出を実行し、前記顔領域を含む周辺の所定領域が全てスキャンされるように前記選定領域を拡張および移動しながら高解像度ＳＶＭによる顔検出を実行する手段を含むことを特徴とする請求項２６に記載の人物検出装置。
前記動き検出手段は、
時間的なエッジ検出アルゴリズムによって前記動き検出を実行する手段を含むことを特徴とする請求項２１に記載の人物検出装置。
前記動き検出手段は、
所定数の映像フレームを入力する手段と、
動き検出試み回数を＋１増加させる手段と、
時間的なエッジ検出アルゴリズムおよび時間に対する画素値の分散値比較によって前記撮影された映像内の動きを検出する手段と、
動きが検出されたかどうかを判断する手段と、
動きが検出されたとすれば、動き検出成功回数を＋１増加させ、映像を記憶する手段と、
動き検出試み回数が第３臨界値未満であり、動き検出成功回数が第２臨界値以上である条件を満足するかどうかを判断し、前記条件を満足すれば、変数を初期化させ、前記条件を満足しなければ、現在の変数値を維持する手段と、
動きが検出されないか、前記変数初期化条件を満足しないと判断されれば、動き検出試み回数が第３臨界値以上であるかを判断し、前記第３臨界値以上ではない場合、変数値を維持し、所定数の映像フレームを入力して動き検出を実行する手段と、
動き検出試み回数COUNT＿MDが第３臨界値以上である場合、動き検出試み回数COUNT＿MDおよび動き検出成功回数SUCCESS＿MDを初期化し、所定数の映像フレームを入力して動き検出を実行させる手段と、を含むことを特徴とする請求項２９に記載の人物検出装置。
前記撮影された映像内の動きを検出する手段は、
前記入力された所定数の映像フレームを利用し、画素値の時間に対するラプラシアンが零交差する画素を検出する手段と、
前記入力された所定数の映像フレームを利用し、画素値の時間に対する分散値を計算する手段と、
前記ラプラシアンが零交差すると検出された画素の時間に対する分散値が所定臨界値以上であるかを判断し、前記画素の前記分散値が所定臨界値以上である場合、前記画素を動き画素として決定する手段と、を含むことを特徴とする請求項３０に記載の人物検出装置。
前記画素値の時間に対するラプラシアンが零交差する画素を検出する手段は、
前記映像フレーム群で｛ｆ（ｔ₁）、ｆ（ｔ₂）、ｆ（ｔ₃）…、ｆ（ｔ_2m-1）｝の各映像フレームに所定の加重値を乗じて平均してｆ（ｔ_m）の時間に対するラプラシアン∇²ｆ（ｔ_m）を求める手段と、
前記映像フレーム群で｛ｆ（ｔ₂）、ｆ（ｔ₃）、ｆ（ｔ₄）…、ｆ（ｔ_2m）｝の各映像フレームに所定の加重値を乗じて平均してｆ（ｔ_m+1）の時間に対するラプラシアン∇²ｆ（ｔ_m+1）を求める手段と、
前記∇²ｆ（ｔ_m）が負数であり、前記∇²ｆ（ｔ_m+1）が正数であるか、前記∇²ｆ（ｔ_m）が正数であり、前記∇²ｆ（ｔ_m+1）が負数であれば、前記画素を零交差の画素として決定する手段と、を含み、
ここで、前記入力された映像フレームは２ｍ個であり、１つの映像フレーム内にはｎ個の画素が存在し、｛ｆ（ｔ₁）、ｆ（ｔ₂）、ｆ（ｔ₃）…、ｆ（ｔ_2m）｝は現在処理される画素の画素値であり、前記各手段で実行される処理作業はｎ回反復的に実行されることを特徴とする請求項３１に記載の人物検出装置。
前記動きが検出されたかを判断する手段は、
前記動き画素として決定された画素の数が所定数以上であるかを判断し、所定数以上である場合、動き検出されたと判断する手段を含むことを特徴とする請求項３１に記載の人物検出装置。
入力された前記映像フレームをガウシアンフィルタリングによって平滑化し、前記平滑化された映像フレームを前記動き検出手段に伝送する手段をさらに含むことを特徴とする請求項３１に記載の人物検出装置。
前記動き検出手段は、
所定の時間で動き検出の実行を中止して、その後顔検出を実行する手段をさらに含むことを特徴とする請求項２１に記載の人物検出装置。
デジタルビデオカメラによって端末機に接近した物体を撮影して入力した映像から動きを検出する装置において、
所定数の映像フレームを入力する手段と、
時間的なエッジ検出アルゴリズムおよび時間に対する画素値の分散値の比較によって前記撮影された映像内の動きを検出する手段と、
動きが検出されたかどうかを判断する手段と、
動きが検出されたと判断されれば、映像を記憶する手段と、を含むことを特徴とする動き検出装置。
前記撮影された映像内の動きを検出する手段は、
前記入力された所定数の映像フレームを利用し、画素値の時間に対するラプラシアンが零交差する画素を検出する手段と、
前記入力された所定数の映像フレームを利用し、画素値の時間に対する分散値を計算する手段と、
前記ラプラシアンが零交差すると検出された画素の時間に対する分散値が所定臨界値以上であるかどうかを判断し、前記画素の前記分散値が所定臨界値以上である場合、前記画素を動き画素として決定する手段と、を含むことを特徴とする請求項３６に記載の動き検出装置。
前記画素値の時間に対するラプラシアンが零交差する画素を検出する手段は、
前記映像フレーム群で｛ｆ（ｔ₁）、ｆ（ｔ₂）、ｆ（ｔ₃）…、ｆ（ｔ_2m-1）｝の各映像フレームに所定の加重値を乗じて平均してｆ（ｔ_m）の時間に対するラプラシアン∇²ｆ（ｔ_m）を求める手段と、
前記映像フレーム群で｛ｆ（ｔ₂）、ｆ（ｔ₃）、ｆ（ｔ₄）…、ｆ（ｔ_2m）｝の各映像フレームに所定の加重値を乗じて平均してｆ（ｔ_m+1）の時間に対するラプラシアン∇²ｆ（ｔ_m+1）を求める手段と、
前記∇²ｆ（ｔ_m）が負数であり、前記∇²ｆ（ｔ_m+1）が正数であるか、前記∇²ｆ（ｔ_m）が正数であり、前記∇²ｆ（ｔ_m+1）が負数であれば、前記画素を零交差の画素として決定する手段と、を含み、
ここで、前記入力された映像フレームは２ｍ個であり、１つの映像フレーム内にはｎ個の画素が存在し、｛ｆ（ｔ₁）、ｆ（ｔ₂）、ｆ（ｔ₃）…、ｆ（ｔ_2m）｝は現在処理される画素の画素値であり、前記各手段で実行される処理作業はｎ回反復的に実行されることを特徴とする請求項３７に記載の動き検出装置。
前記動きが検出されたかを判断する手段は、
前記動き画素として決定された画素の数が所定数以上であるかを判断し、所定数以上である場合、動き検出されたと判断する手段を含むことを特徴とする請求項３７に記載の動き検出装置。
入力された前記映像フレームをガウシアンフィルタリングによって平滑化し、前記平滑化された映像フレームを前記撮影された映像内の動きを検出する手段に伝送する手段をさらに含むことを特徴とする請求項３７に記載の動き検出装置。