JP2004128715A

JP2004128715A - ビデオデータの記憶制御方法およびシステム、プログラム、記録媒体、ビデオカメラ

Info

Publication number: JP2004128715A
Application number: JP2002287610A
Authority: JP
Inventors: Tsutomu Nakazawa; 中澤　務; Yoshio Ichihashi; 市橋　敬男
Original assignee: Sanyo Electric Co Ltd; Gentech Co Ltd
Current assignee: Sanyo Electric Co Ltd; Gentech Co Ltd
Priority date: 2002-09-30
Filing date: 2002-09-30
Publication date: 2004-04-22

Abstract

【課題】ビデオデータに含まれる顔画像のみを迅速確実かつ効率的に取得し、利用性に優れた記憶形態を実現可能とする。
【解決手段】ビデオカメラが撮影したビデオデータの記憶制御をコンピュータにより行う方法であって、前記コンピュータが、取得したビデオデータから動物の顔画像を切り出すステップと、前記切り出した顔画像毎に時間情報を付与し記憶手段に記録するステップと、を含むことを特徴とするビデオデータの記憶制御方法。
【選択図】　　　図２

Description

【０００１】
【発明の属する技術分野】
本発明は、ビデオデータの記憶制御方法およびシステム、プログラム、記録媒体、ビデオカメラに関する。
【０００２】
【従来の技術】
金融機関やＡＴＭを設置したコンビニエンスストアなどでは、各種取引を行う利用者を撮影する監視用のビデオカメラが備わっている。またこの監視カメラには、撮影した映像データを録画するためのビデオ等の記録装置が備わっており、例えば記録制御の方式としてタイムラプス方式が主流となっている。このタイムラプス方式の記録制御は、通常の動画記録を行う他に、例えば数秒や数分に１フレームといった記録モードを実行可能とする。この記録モードで撮影した映像を記録した場合、再生画像が駒落ちされた如き画像になる。しかしその一方で記録媒体毎の記録時間が長時間化でき、効率的なシステム運営が可能となる。
【０００３】
また、このような制御方式を改善し、監視する映像信号の動きの量を検出し、動き量に基づいて記録モードを変化させることにより記録テープの消費量低減を図る手法も提案されている。この手法では、前記検出した動き量に応じて記録装置が間欠記録する記録間隔を変化させることにより、監視に必要な映像のみを記録として残すとしている。
【０００４】
また、ビデオカメラが撮影した画像から特定の人物を識別する技術が存在する。セキュリティ分野等においては、所定領域に侵入する者の顔画像を取得し、これを登録済みの顔画像と照合しその一致／不一致を見て個人認証を行う技術がそれにあたる。例えば、認識対象者の画像における顔領域を抽出し、該顔領域に係る情報に基づいて、認識対象者の顔の個人差を示す、部分空間または相関行列などといった特徴量を計算すると共に、この特徴量と予め登録済みの特徴量との類似度を計算して、認識対象者を認識する手法が提案されている。
【０００５】
【特許文献１】
特開平１１−９８４５５
【０００６】
【特許文献２】
特開２００１−２５６４９６（Ｐ２００１−２５６４９６Ａ）
【０００７】
【発明が解決しようとする課題】
ところで昨今、他人の口座から預金を不正に引き出すなどの事件が散見されるようになった。このような不正行為が発覚した場合、該当金融機関は捜査機関等から監視カメラが撮影したビデオデータの提出協力を求められることがある。
しかしながら、従来の制御技術に基づいて記録しているビデオデータは、例えば複数台ある各ＡＴＭの周辺を、定められた順番および間隔で順次撮影しただけの映像でしかない。しかも、その映像は駒落ちして画質精度等もほぼ固定的であり、更に、人物とは全く無関係で不要な背景画像が多く含まれる一方で不正を行う者の映像を十分に捉えきれないこともあった。
【０００８】
加えるに、上記のように捜査機関からビデオデータの提供を求められた際に、どの監視カメラが、何日の何時何分に撮影したビデデータが不正な者等を撮影したものか容易には特定できなかった。特にビデオテープを繰り返し使用して記録を行っているような場合、どのビデオテープのどの区間が求めるビデオデータに対応するのか探し出すために多くの労力および長時間を要した。
【０００９】
他方、撮影された人物について認証を行うとしても、例えばカメラの前にて撮影を意識し静止した１人の人物について画像を取得し、既存データベースと照合するといった極めて固定された状況下に対応可能なのであって、同時に移動している複数の人物を撮影し、この画像に基づいて各人の顔の認証を適宜迅速に行う技術は提案されてこなかった。
【００１０】
そこで本発明は、このような従来の課題に着目してなされたもので、ビデオデータに含まれる顔画像のみを迅速確実かつ効率的に取得し、利用性に優れた記憶形態を実現可能とするビデオデータの記憶制御方法を提供することを目的とする。
【００１１】
【課題を解決するための手段】
上記目的を達成する本発明のビデオデータの記憶制御方法は、ビデオカメラが撮影したビデオデータの記憶制御をコンピュータにより行う方法であって、前記コンピュータが、取得したビデオデータから動物の顔画像を切り出すステップと、前記切り出した顔画像毎に時間情報を付与し記憶手段に記録するステップと、を含むことを特徴とする。
その他、本願が開示する課題、及びその解決方法は、発明の実施の形態の欄及び図面により明らかにされる。
【００１２】
【発明の実施の形態】
本明細書の記載により、少なくとも次のことが明らかにされる。
前記ビデオデータの記憶制御方法において、前記コンピュータと結ばれたインターフェイスまたは外部装置より、時間条件をキーとした顔画像の検索要求を受付けるステップと、前記時間条件に合致する時間情報を備えた顔画像を、前記記憶手段より検索して該当する顔画像を抽出するステップと、前記抽出した顔画像をインターフェイスまたは外部装置に出力するステップと、を含むこととできる。これによれば、要求される時間条件に応じた顔画像の検索と提供とが簡便かつ迅速となる。
【００１３】
また、前記ビデオデータの記憶制御方法の、前記ビデオデータから顔画像を切り出すステップにおいて、ビデオデータから肌色を示す領域を検出するステップと、該検出された肌色領域の画像が前向き顔画像であることを判別するステップと、を含むこととできる。これによれば、顔画像の切り取り処理を確実なものとできる。
【００１４】
前記ビデオデータの記憶制御方法の、前記肌色領域を検出するステップにおいて、予め登録された肌色成分のパラメータと前記ビデオデータの色成分とを比較照合し、皮膚部分を検出するステップを含むこととできる。これによれば、となる。
【００１５】
前記ビデオデータの記憶制御方法の、前記肌色領域を検出するステップにおいて、前記ビデオデータの各画素に対して肌色確率を付与するステップと、前記肌色確率の平均値が最大である領域を検出するステップと、前記平均値が所定値に比較して十分に大きい場合に該領域を肌色領域とするステップと、を含むこととできる。これによれば、照度の影響や人種間の皮膚色相違の影響を抑制し、より確実な顔画像の切り取りを可能にする。
【００１６】
前記ビデオデータの記憶制御方法において、前記肌色領域の肌色を明度に影響されない表色系を利用して所定の範囲で定義し、ビデオデータ撮影時における撮影補助ランプの発光色等の撮影条件、又は種による肌色成分の相違等の条件を考慮して調整可能にしたこととできる。これによれば、前記照度の影響や人種間の皮膚色相違の影響を制御可能とする。
【００１７】
前記ビデオデータの記憶制御方法の、前記前向き顔画像であることを判別するステップにおいて、前記肌色領域の画像に対して多数の顔から学習により作成された顔データベースとマッチングしている程度を求め、該程度が所定以上の場合に前向き顔画像であると判断することとできる。これによれば、より客観的で確度の高い前向き顔画像の判別が可能となる。
【００１８】
前記ビデオデータの記憶制御方法の、前記前向き顔画像であることを判別するステップにおいて、前記肌色領域に対して、走査窓を上下方向に移動させて探索し、目と鼻等の前向き顔の特徴を示す走査窓が見つかった場合に該肌色領域を前向き画像又はその候補であると判断することとできる。これによれば、ビデオデータのうち前向き顔画像の取得が容易となる。
【００１９】
前記ビデオデータの記憶制御方法の、前記前向き顔画像であることを判別するステップにおいて、前記前向き顔画像であるかどうかの判断は、前記候補に対して多数の正しい事例と間違った事例をウエーブレット変換して作成されたヒストグラムを照合して決定することとできる。これによれば、更に客観的で確度の高い前向き顔画像の判別を容易にする。
【００２０】
前記ビデオデータの記憶制御方法において、前記前向き顔画像を、個体別の顔画像を登録した前向き顔データベースに照合し、該当する個体を識別するステップを含むこととできる。これによれば、ビデオデータに基づく顔認証を可能とする。
【００２１】
前記ビデオデータの記憶制御方法において、前記判別した前向き顔画像または所定対象物のビデオデータ中での位置およびサイズに応じ、撮影画像が所定形態となるべく、ビデオカメラが備える制御用駆動装置にパンチルト、ズームイン、およびズームアウトのいずれかの処理を指示し、ビデオデータ中の所定画像を追跡することとできる。これによれば、精度のよい顔画像の確実な取得を可能とする。
【００２２】
ビデオカメラが撮影したビデオデータの記憶制御を行うシステムであって、取得したビデオデータから動物の顔画像を切り出す手段と、前記切り出した顔画像に時間情報を付与し記憶手段に記録する手段と、を備えることを特徴とするビデオデータの記憶制御システムをなすこととする。これによれば、本発明のビデオデータの記憶制御方法を実現するシステムをなすこととできる。
【００２３】
ビデオデータの記憶制御方法をコンピュータに実行させるためのプログラムであって、取得したビデオデータから動物の顔画像を切り出すステップと、前記切り出した顔画像に時間情報を付与し記憶手段に記録するステップと、を含むことを特徴とするビデオデータの記憶制御プログラムをなすこととする。これによれば、本発明のビデオデータの記憶制御方法をコンピュータ上で実行可能とできる。
【００２４】
前記ビデオデータの記憶制御プログラムを記録したコンピュータ読み取り可能な記録媒体。これによれば、前記ビデオデータの記憶制御プログラムをコンピュータに提供可能とできる。
【００２５】
取得したビデオデータから動物の顔画像を切り出す手段と、前記切り出した顔画像に時間情報を付与し記憶手段に記録する手段と、を備えることを特徴とするビデオカメラをなすこととする。これによれば、本発明のビデオデータの記憶制御方法をビデオカメラにて実現可能とする。
【００２６】
以下に本発明の実施形態について図面を用いて詳細に説明する。図１は本実施形態のビデオデータの記憶制御システムを含むネットワーク構成図である。本実施形態では、金融機関等に設置された監視カメラ１０に本発明の記憶制御システム１００を接続してビデオデータの記憶制御を実行し、適宜なインターフェイスや外部装置、或いはネットワークを介したクライアント等に人間の顔画像を提供する状況を想定する。勿論、本実施例だけに本発明の適用範囲が限定されるものではなく、ビデオデータの記憶制御を行ういずれの状況にも本発明を適用することが可能であるのは言うまでもない。
【００２７】
本実施形態におけるビデオデータの記憶制御システム１００は、演算装置としてのコントローラ１０１を中心に各種記憶手段やインターフェイス、および各機能部から構成されるコンピュータである。勿論、コンピュータ内の各部はデータ経路としてのバスが結んでいる。金融機関等の所定領域を撮影し続ける監視カメラ１０の外部出力からは、撮影画像たるビデオデータが出力され、これをインターフェイス１０２を介して受けたコントローラ１０１が作業用メモリ１０３、或いは顔画像データベース１０４等の記憶装置１０６に格納する。なお、前記インターフェイス１０２にはビデオデータのバッファリング機能も備わる。
【００２８】
記憶装置１０６に格納されたビデオデータは、顔画像抽出部１０７により顔画像の切り取り処理がなされる。この切り取り処理の詳細は後述するが、ビデオデータから肌色を示す領域を検出し、この検出された肌色領域の画像が前向き顔画像であることを判別する処理から構成される。これらの処理に際しては各種パラメータ等の参照用の情報を格納した参照データベース１０５が利用される。
【００２９】
ここで判別した前向き顔画像が移動中の人物に由来するものであれば、当該顔画像のビデオデータ中での位置およびサイズに応じ、当該前向き顔画像が一定サイズや画質といった所定形態となるべく、監視カメラ１０が備える制御用駆動装置１１に制御信号を発する。この制御信号を生成するのがカメラ制御部１０８である。この制御信号は、制御用駆動装置１１にパンチルト、ズームイン、およびズームアウトのいずれかの処理を指示して監視カメラ１０の撮影条件をコントロールし、ビデオデータ中の所定画像を追跡することとできる。また、例えば前記人物が多数あるいは広範囲に散在するような場合であって複数台の監視カメラ１０でこれらの撮影を行っている場合には、前記制御信号が各監視カメラ１０毎に生成される。
【００３０】
画像編集部１０９は、例えば記憶装置１０６に記憶されているビデオデータを読み出して画質補正を行うことで、輝度信号と色差信号の補正、ピンぼけ等の補正を行う。また、撮影人物の監視カメラ１０からの距離に応じて、切り出された顔画像のサイズや画素数等が異なる場合もあるので、切り出された顔画像の画素数、サイズを一定にする変換を行う。ここでの処理には従来存在する画像編集技術を採用できる。なお、これら各種画質補正は、前記顔画像抽出部１０７によるビデオデータ中からの顔画像の切り取り処理に先だって行ってもよいし、平行処理を行うとしてもよい。或いは切り取った顔画像に画質補正を加えるとしてもよい。
【００３１】
適宜な画質やサイズを保った顔画像は、コントローラ１０１のシステムクロック１１０から取得した時間情報を付されて顔画像データベース１０４に格納される。図２は本実施形態の顔画像データベース１０４におけるデータ構造例を示す図である。この例で言えば、顔画像、つまりビデオデータの撮影日時をキーに、人物毎に付される顔画像ＩＤ、同人物についての複数の顔画像が記録された場合の連番、画像サイズ、および個人認証等の照合の有無とった情報が関連づけられた構造をなす。
【００３２】
後に、インターフェイス１１２または外部装置１１３（クライアント１１５含む）より、時間条件をキーとした検索要求を受付けた際に、この時間条件に合致する撮影日時の顔画像を、この顔画像データベース１０４より検索して出力するのである。またこの出力の際、インターフェイス自体が出力装置としての機能を備えているとしてもよい。
【００３３】
前記記憶制御システム１００が、いわゆるビデオ・サーバーとして機能する状況も想定できる。ビデオ・サーバーは、多くのビデオデータをデジタル符号化して保存し、利用者の要求に応じて指定された映像等を提供するコンピュータ・システムである。この場合、ネットワーク１１４のプロトコルや回線容量、および外部装置１１３やクライアント１１５のデータ処理能力に応じて、前記顔画像を圧縮する必要が生じる。画像圧縮部１１１は例えば、従来技術を利用して顔画像データを圧縮して符号化する。画像データ圧縮には、例えばフレーム間の相関を考慮した蓄積メディア用動画像符号化方式（ＭＰＥＧ１）を利用して、プログレッシブ形式の圧縮技術を使用してもよいし、或いは汎用動画像符号化方式（ＭＰＥＧ２）を利用してインタレース形式の圧縮技術を使用してもよい。或いは他の画像圧縮技術を利用してもよい。
【００３４】
システム１００がサーバとして機能するに際しては、例えば、ファイヤウォールサーバとして外部からの不正進入を抑止したり、ＷＷＷサーバとして機能するものでもあったり、データ通信相手とのコミュニケーションを図るメールサーバーとしても機能可能とすれば好適である。
【００３５】
なお、前記記憶装置１０６は、１つの記憶装置に集約して設けられるとしてもよいし、それぞれネットワークで結ばれた別の記憶装置に設けられるとしてもよい。またそれらネットワークはシステム１００の外部に存在するもので、記憶装置１０６もシステム外に配置するとしてもよい。
【００３６】
また、システム１００は、ラップトップタイプを含む一般のパーソナルコンピュータが想定できる。しかし、必要とする演算処理能力や通信機能を備えてさえいれば、コンピュータチップを備えるいずれの機器でもよい。加えて、外部装置１１３やクライアント１１５も、例えば携帯端末、ＰＤＡ、ゲーム機、ファックス機、デジタルＴＶなどシステム１００と接続可能なコンピュータチップを備え、適宜な入出力機能を有するいずれの機器でもよい。
【００３７】
また、システム１００、および外部装置１１３、クライアント１１５らをつなぐ経路としては、それらがシステム１００と一体化していれば内部バスでよいし、ネットワーク化されているならば、インターネットの他に、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＬＡＮ、専用線、電灯線ネットワーク、ＡＴＭ、無線ネットワークなど様々なネットワークを採用することも出来る。また、ＶＰＮなど仮想専用ネットワーク技術を用いれば、インターネットにおいてセキュリティ性を高めた通信が確立され好適である。特に、例えば金融機関の各支店間に設置した複数の監視カメラにおける記憶制御を一括管理するような状況であれば、このようなネットワーク化が好適である。
【００３８】
図３は本実施形態のビデオデータの記憶制御方法における手順例を示すフロー図である。以下、本発明のビデオデータの記憶制御方法の実際手順について説明する。システム１００は、監視カメラ１０が撮影したビデオデータを取得し（ｓ３０１）、前記コントローラ１０１による画像移動の有無判定を行う（ｓ３０２）。画像移動があるならば（ｓ３０２：ＹＥＳ）、撮影対象物のビデオデータ中での位置およびサイズに応じ、撮影画像が所定形態となるべく、監視カメラ１０が備える制御用駆動装置１１にパンチルト、ズームイン、およびズームアウトのいずれかの処理を指示する（ｓ３０３）。
【００３９】
これにより、ビデオデータ中の所定画像を追跡する。他方、画像の移動がなければ（ｓ３０２：ＮＯ）、ステップｓ３０４へ処理を進める。なお、ここで述べた画像追跡の処理は、顔画像をビデオデータ中から切り出す処理のバックグラウンドで継続的に実行されるものとし、ステップの開始および終了の位置はここでの図示例に限定されない。したがって、ビデオデータより切り出された顔画像を追跡対象として監視カメラ１０の制御を行う態様も含まれる。
【００４０】
ビデオデータを適宜取得しているシステム１００は、これをバッファリングしながら適宜間隔で例えばメモリ１０３に蓄積し、画質の補正を行う（ｓ３０４）。例えば、輝度信号と色差信号の補正、輪郭補正、ピンぼけ等の補正処理を行う。また、撮影人物の監視カメラ１０からの距離に応じて、切り出された顔画像のサイズや画素数等が異なる場合もあるので、切り出された顔画像の画素数、サイズを一定にする変換を行う。ここでの処理には従来存在する画像編集技術を採用できる。
【００４１】
画質が補正されたならば、次に顔画像に切り取りの実際処理に入る。ここではまず、肌色を示す領域、肌色領域を設定する（ｓ３０５）。ただし、この肌色設定の処理は、予め一度行っておいて状況に応じて適宜修正すればよいものであるから、図中で示す如く処理フロー中に必ず存在する必要はない。人間の皮膚の色は男女の差、老人と子供のように年齢差によっても異なるだけでなく、白人や黒人等の人種によって大きく異なる。更に室内の照明によっても著しく変化して見える。したがって予め肌色を合理的に定めておく必要がある。ここでは、マンセルの表色系を採用して定義し、照明灯等による環境条件の変化に対して補正を行うものとする。図４はこのマンセルの表色系を示す図である。
【００４２】
マンセル表色系は、図示するように物の色を色相（色あい）、明度、クロマ（色みの量を表す、以下色みという。）を基本軸として３次元座標で表示している。ここで、色相とは赤、黄、緑、青、赤紫を云う。明度とは色の明るさで、白色（反射率が１００％の色）を１０とし、黒色（反射率が０の色）を０と定めている。色みとは色の鮮やかさを表し、無彩色からの距離で測られる。色みは彩度と異なり、彩度は明度の値に依って変化するが、色みは明度の値に依って変化しない。従って、マンセル表色系で肌色を定義することにより、明度によって変化しない肌色が定義できる。即ち、室内の照明灯の明るさに影響されにくい肌色の定義ができるという特徴がある。
【００４３】
この表色系の円周方向には色相がＲ（赤）、Ｙ（黄）、Ｇ（緑）、Ｂ（青）、Ｐ（パープル）の順に規定され、半径方向には色みの量（クロマ）が規定されている。具体的に色と人間の相関例を言えば、例えば図中斜線で囲んだ部分は人（白人）の肌色を示す部分である。従って、この部分（あるいはこれを含む周辺）を肌色と設定すれば概ね肌色を正しく表現できる。なお、衣服の色や背景色と区別できれば実用的に十分であり、更に、照明光に色がある場合や、特殊のケース（黒人の場合等）の場合にはその条件を加味して補正を行うことで実用的な肌色の識別が可能になる。
【００４４】
次に肌色領域の検出処理を行う（ｓ３０６）。図５は本実施形態の皮膚色認識における入力画像と確率画像の例を示す図である。システム１００における顔画像抽出部１０７は、肌色のマスクを利用してビデオデータ（図５では「入力画像」）をスキャンする。例えば、各画素に対してマンセルの表色系で定義された部分の色を確率１とし、この部分から遠ざかるに従って低い確率値を付与し、マスクの平均値が所定値以上であれば、その部分は肌色として検出する。これにより撮影画像中の肌色領域を検出し、その大きさと位置が決定できる。図５中の「確率画像」に示す白抜き部分がその肌色領域となる。
【００４５】
図６は顔の一部探索方法（Ａ）とその結果（Ｂ）を示す図である。確率画像が前述のように得られたならば、これが人の正面画像であるかどうかを判断する。この判断には、顔の一般的特徴といえる例えば、目や鼻を利用して人間の顔であるかどうかを検出するアルゴリズムを用いる。前記確率画像が得られたならば、図６（Ａ）に示すように、ウインドウ６００を前記確率画像上を、上から下に（或いは下から上に）移動させながら目または鼻を探索する。この探索において、目と鼻の部分を含んでいるウインドウが少なくとも１個以上見つかれば、この撮影画像が人の正面顔を含んでいる確率が非常に大きくなる。
【００４６】
次に、これが正面を向いている顔であるか否かを検証する。図７は正面顔の画像サンプル（Ａ）と誤り画像のサンプル（Ｂ）のヒストグラムを示す図である。上記処理により目と鼻を含んだ画像であると判定されたならば、例えば、統計的手法を利用したシュナイダーマンの方法を利用しこれが前向きの顔画像なのか検証する。このために、目と鼻を含んだ正しい正面顔の画像サンプルとそうでない誤りの画像のサンプルを、各々数十万程度を準備しこれら等の画像をウェーブレット変換し、ヒストグラム作成しておく。このヒストグラムのデータは前記参照データベース１０５に格納するものとする。
【００４７】
ヒストグラムは複数の色について行え、これらの色毎の結果を重ねて表示して図７に示している。図７（Ａ）は正しい正面顔のサンプルに対するヒストグラムで、図７（Ｂ）は誤りのサンプルに対するヒストグラムである。この図において、縦軸は頻度で正しいとされた場合を「正」で、誤りとされた場合を「負（−）」で示す。また、横軸は要因（又は属性）を示す周波数特性を示している。図７から理解できるように要因Ｅ、Ｆ、Ｉについて検証すれば正しく判定できることが解る。前記確率画像が前向きの顔画像を含んでいると判定された場合は、先に目と鼻の位置が決定しているから、容易に前向きの顔画像を切り出すことが出来る。
【００４８】
図８は本実施形態のＳＶＭフィルタにおける学習フェーズの実行形態例を示す図であり、図９は本実施形態のＳＶＭフィルタにおける検出フェーズの実行形態例を示す図である。システム１００は、前述した手法とは別の手法にて、顔画像の検出とそれが前向き顔画像であるかの判定の処理を行うことも出来る。ここでは、ＳＶＭによる顔画像候補の高速選択と識別とを実行する。この手法によれば、複数の人物が監視カメラ１０の撮影視野に登場したとしても、各人の顔画像を迅速的確に取得することができ好適である。
【００４９】
なお、ＳＶＭとはサポートベクターマシンと呼ばれ、ニューロンのモデルとして最も単純な線形しきい素子を用いて、２クラスのパターン識別器を構成する手法であり、認識性能の優れたパターン認識手法として注目されている。
【００５０】
この場合、監視カメラ１０から得たビデオデータについて、図８で示すように目と鼻の形のデータをＳＶＭが予め学習し、適宜な記憶装置１０６に格納しておく。目や鼻の類型を学習したＳＶＭは、その検出フェーズにおいて図９に示すように、目と鼻らしきものが存在する領域９０１をビデオデータ（Ａ）中で検出する。ここでは、同図（Ｂ）で示すように、人物以外の物品についても目や鼻と類似の形態を示すものがあれば広く認識している。そこで、識別フェーズにおいて、顔／非顔識別器を作用させ、図１０に示すように本当の顔のみを検出する。
【００５１】
以上のようにビデオデータ中から前向き顔画像を切り出したならば（ｓ３０７：ＹＥＳ）、これに前記コントローラ１０１が備えるシステムクロック１１０の時間情報を付して、顔画像データベース１０４に記憶する（ｓ３０８）。大抵の監視カメラは連続撮影を行っているわけであるから、この顔画像の記憶も、時系列的に連続して行われていく。
【００５２】
また一方で、得られた顔画像について、予め登録された人物のものであるか否かを照合し、認証処理を実行する場合もある（ｓ３０９：ＹＥＳ）。この場合、コントローラ１０１は、顔画像における顔の特徴を表すデータを抽出する（ｓ３１０）。顔の特徴抽出は顔の識別方法によって異なる。顔の識別方法としては、前向き顔画像の濃淡パターンを特徴ベクトルとして考え、濃淡パターン（特徴ベクトル）の内積を求める方法と、顔の形状等の個別的特徴を定めておいて、この特徴を前向き顔画像から抽出して比較する方法等がある。
【００５３】
顔の形状等の個別的特徴としては、例えば顔の輪郭（顎の形状、丸顔、細面の顔等）や目、鼻、口、眉等の形状及びそれらの幾何学的位置関係や左右の対称の程度、或いは顔の凹凸（頬の凹凸）、顔の色彩（頬や額の色等）を抽出する。特徴抽出は特徴ベクトルとして予め定められている特徴（要素）について行う。しかし、このような特徴抽出を直接行なうのは、機械化することが困難である（例えば、プログラムの作成が困難である）という問題がある。そこで、登録する前向き顔のデータベース（参照データベースが含む）として、各個人について数枚〜２０枚程度の顔写真画像を用意して統計的に特徴を抽出する。即ち、顔写真画像を輝度変換して、ヒストグラム等を作成し、輝度分布から上記した個別的特徴を間接的に把握する。
【００５４】
そして、このように抽出した前向き顔画像から抽出した特徴と、既に登録されている個人の特徴データベース（参照データベースが含む）とを照合する（ｓ３１１）。これにより、ビデオデータ中に写った顔画像の人物を識別する。例えば、前記個人の特徴データベースは１人について１０枚程度の画像を使い顔の特徴ベクタを抽出して登録する。前向き顔画像の特徴と特徴データベースとの参照比較は前記サポートベクタマシンを適用する。即ち、各個人を判別するための識別関数（分割面）を定めておいて、前向き顔画像から抽出した特徴ベクタが特徴データベースの何れかの個人に属する場合にはその個人を決定する。また、何れの個人にも属しない場合に登録された人物以外の他人であることを決定する。照合結果は、例えば顔画像データベース１０４において記録し、要求に応じて適宜出力する（ｓ３１２）。例えば、この照合結果が、照合不可であった場合や、不審者リスト等に合致したといった場合には、外部装置１１３やクライアント１１５等にアラームを通知するといった制御を行うことも出来る。
【００５５】
前向き顔画像に基づく認証処理とは別に、顔画像データベース１０４に登録されているデータを利用したいとの要求に応えることも可能である。この要求が存在する場合（ｓ３１３：ＹＥＳ）、システム１００は、例えば前記インターフェイス１１２を介し、或いは更にネットワークを介し結ばれた外部装置１１３やクライアント１１５等より、時間条件をキーとした顔画像の検索要求を受付ける（ｓ３１４）。上記認証処理や検索要求がなければ処理を終了し、通常の顔画像取得ルーチンに復帰する。
【００５６】
検索要求を受けたシステム１００は、当該要求に含まれる、例えば○月○日の○時○分〜○時○分といった時間条件を認識し、これをキーに顔画像データベース１０４での検索を行う。前記時間条件に合致する時間情報を備えた顔画像が検索されたならばこれを抽出し、インターフェイス１１１２または外部装置１１３、或いはクライアント１１５に出力する（ｓ３１５）。この外部装置１１３等を操作している利用者は所望の顔画像を閲覧したり、あるいはプリントアウトするなど各種利用が可能となる。以上で図示したフローは終了するが、監視カメラ１０の稼動状況に応じて上記フローが適宜繰り返される。
【００５７】
本発明の実施の形態によれば、次の効果を奏する。
本発明のビデオデータの記憶制御方法によれば、記憶するビデオデータは、ほぼ人物等の顔画像のみであり、人物等とは全く無関係で不要な背景画像をデータに含まない。よって不正を行う者等の所定人物の映像をほぼ確実に捉えることが可能となる。画質精度やサイズについても、顔画像に的を絞ってビデオカメラを制御することによって適宜なレベルに整えられるため、必要に応じた設定を自在に行うことができる。
【００５８】
加えるに、上記の顔画像にはいわゆるタイムスタンプの如き時間情報が付与されることとなるから、例えば捜査機関などからビデオデータの提供を求められた際に、特定時間の顔画像を迅速に出力することが容易となる。また、撮影された人物について認証を行う場合、同時に移動している複数の人物を撮影し、この画像に基づいて各人の顔の認証を適宜迅速に行うこともできる。
【００５９】
そこで本発明によれば、ビデオデータに含まれる顔画像のみを迅速確実かつ効率的に取得し、利用性に優れた記憶形態を実現可能とするビデオデータの記憶制御方法を提供可能となる。
【００６０】
以上、本発明の実施の形態について、その実施の形態に基づき具体的に説明したが、これに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。例えば、顔の特徴抽出、データベースの作成、個人の識別は上記した方法に限定される訳ではなく、他の方法を採用してもよい。
【００６１】
【発明の効果】
本発明によれば、ビデオデータに含まれる顔画像のみを迅速確実かつ効率的に取得し、利用性に優れた記憶形態を実現可能とする。
【図面の簡単な説明】
【図１】本実施形態のビデオデータの記憶制御システムを含むネットワーク構成図である。
【図２】本実施形態の顔画像データベースにおけるデータ構造例を示す図である。
【図３】本実施形態のビデオデータの記憶制御方法における手順例を示すフロー図である。
【図４】マンセルの表色系を示す図である。
【図５】本実施形態の皮膚色認識における入力画像と確率画像の例を示す図である。
【図６】本実施形態のＳＶＭフィルタにおける学習フェーズの実行形態例を示す図である。
【図７】本実施形態のＳＶＭフィルタにおける検出フェーズの実行形態例を示す図である。
【図８】本実施形態のＳＶＭフィルタにおける識別フェーズの実行形態例を示す図である。
【図９】顔の一部探索方法（Ａ）とその結果（Ｂ）を示す図である。
【図１０】正面顔の画像サンプル（Ａ）と誤り画像のサンプル（Ｂ）のヒストグラムを示す図である。
【符号の説明】
１０　ビデオカメラ、監視カメラ
１１　制御用駆動装置
１００　システム、記憶制御システム
１０１　コントローラ
１０２、１１２　インターフェイス
１０３　メモリ
１０４　顔画像データベース
１０５　参照データベース
１０６　記憶装置、記憶手段
１０７　顔画像抽出部
１０８　カメラ制御部
１０９　画像編集部
１１０　システムクロック
１１１　画像圧縮部
１１３　外部装置
１１４　ネットワーク
１１５　クライアント

Claims

ビデオカメラが撮影したビデオデータの記憶制御をコンピュータにより行う方法であって、
前記コンピュータが、取得したビデオデータから動物の顔画像を切り出すステップと、
前記切り出した顔画像毎に時間情報を付与し記憶手段に記録するステップと、
を含むことを特徴とするビデオデータの記憶制御方法。
前記コンピュータと結ばれたインターフェイスまたは外部装置より、時間条件をキーとした顔画像の検索要求を受付けるステップと、
前記時間条件に合致する時間情報を備えた顔画像を、前記記憶手段より検索して該当する顔画像を抽出するステップと、
前記抽出した顔画像をインターフェイスまたは外部装置に出力するステップと、
を含むことを特徴とする請求項１に記載のビデオデータの記憶制御方法。
前記ビデオデータから顔画像を切り出すステップにおいて、
ビデオデータから肌色を示す領域を検出するステップと、該検出された肌色領域の画像が前向き顔画像であることを判別するステップと、
を含むことを特徴とする請求項１または２に記載のビデオデータの記憶制御方法。
前記肌色領域を検出するステップにおいて、
予め登録された肌色成分のパラメータと前記ビデオデータの色成分とを比較照合し、皮膚部分を検出するステップを含むことを特徴とする請求項３に記載のビデオデータの記憶制御方法。
前記肌色領域を検出するステップにおいて、
前記ビデオデータの各画素に対して肌色確率を付与するステップと、
前記肌色確率の平均値が最大である領域を検出するステップと、
前記平均値が所定値に比較して十分に大きい場合に該領域を肌色領域とするステップと、
を含むことを特徴とする請求項３に記載のビデオデータの記憶制御方法。
前記肌色領域の肌色を明度に影響されない表色系を利用して所定の範囲で定義し、ビデオデータ撮影時における撮影補助ランプの発光色等の撮影条件、又は種による肌色成分の相違等の条件を考慮して調整可能にしたことを特徴とする請求項３〜５のいずれかに記載のビデオデータの記憶制御方法。
前記前向き顔画像であることを判別するステップにおいて、前記肌色領域の画像に対して多数の顔から学習により作成された顔データベースとマッチングしている程度を求め、該程度が所定以上の場合に前向き顔画像であると判断することを特徴とする請求項３〜６のいずれかに記載のビデオデータの記憶制御方法。
前記前向き顔画像であることを判別するステップにおいて、前記肌色領域に対して、走査窓を上下方向に移動させて探索し、目と鼻等の前向き顔の特徴を示す走査窓が見つかった場合に該肌色領域を前向き画像又はその候補であると判断することを特徴とする請求項３〜７のいずれかに記載のビデオデータの記憶制御方法。
前記前向き顔画像であることを判別するステップにおいて、前記前向き顔画像であるかどうかの判断は、前記候補に対して多数の正しい事例と間違った事例をウエーブレット変換して作成されたヒストグラムを照合して決定することを特徴とする請求項８に記載のビデオデータの記憶制御方法。
前記前向き顔画像を、個体別の顔画像を登録した前向き顔データベースに照合し、該当する個体を識別するステップを含むことを特徴とすることを特徴とする請求項３〜９のいずれかに記載のビデオデータの記憶制御方法。
前記判別した前向き顔画像または所定対象物のビデオデータ中での位置およびサイズに応じ、撮影画像が所定形態となるべく、ビデオカメラが備える制御用駆動装置にパンチルト、ズームイン、およびズームアウトのいずれかの処理を指示し、ビデオデータ中の所定画像を追跡することを特徴とする請求項１〜１０のいずれかに記載のビデオデータの記憶制御方法。
ビデオカメラが撮影したビデオデータの記憶制御を行うシステムであって、取得したビデオデータから動物の顔画像を切り出す手段と、前記切り出した顔画像に時間情報を付与し記憶手段に記録する手段と、を備えることを特徴とするビデオデータの記憶制御システム。
ビデオデータの記憶制御方法をコンピュータに実行させるためのプログラムであって、取得したビデオデータから動物の顔画像を切り出すステップと、前記切り出した顔画像に時間情報を付与し記憶手段に記録するステップと、を含むことを特徴とするビデオデータの記憶制御プログラム。
請求項１３に記載のビデオデータの記憶制御プログラムを記録したコンピュータ読み取り可能な記録媒体。
取得したビデオデータから動物の顔画像を切り出す手段と、前記切り出した顔画像に時間情報を付与し記憶手段に記録する手段と、を備えることを特徴とするビデオカメラ。