JP3504245B2 - Image monitoring device - Google Patents

Image monitoring device

Info

Publication number
JP3504245B2
JP3504245B2 JP2001335422A JP2001335422A JP3504245B2 JP 3504245 B2 JP3504245 B2 JP 3504245B2 JP 2001335422 A JP2001335422 A JP 2001335422A JP 2001335422 A JP2001335422 A JP 2001335422A JP 3504245 B2 JP3504245 B2 JP 3504245B2
Authority
JP
Japan
Prior art keywords
image
person
area
extraction
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001335422A
Other languages
Japanese (ja)
Other versions
JP2002252848A (en
Inventor
暢芳 榎本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2001335422A priority Critical patent/JP3504245B2/en
Publication of JP2002252848A publication Critical patent/JP2002252848A/en
Application granted granted Critical
Publication of JP3504245B2 publication Critical patent/JP3504245B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Alarm Systems (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】 【0001】 【発明の属する技術分野】この発明は、店舗、ATM設
置施設やオフィス等において、侵入者を監視するための
画像監視装置に関する。 【0002】 【従来の技術】店舗、ATM設置施設やオフィスにおい
て、侵入者を監視するといった分野では、画像伝送によ
る方法、監視画像伝送による監視、監視画像のVTR記
録、画像処理認識による監視、及びそれらを組合せた手
法が使用されてきた。以下、これら手法について説明す
る。監視画像伝送による監視は、監視環境にアナログI
TVカメラを設置し、一般に離れた場所にある監視セン
タまでアナログ画像を伝送し、センタに配備された監視
員が常時監視画像をモニタするものである。 【0003】この場合は一般に複数カメラからの画像を
伝送し、監視員はそれら画像表示を意識的に、又は一定
時間ごとに切替えて監視する。又画面の切替えの契機と
して、監視環境に設置された赤外線、超音波等の侵入セ
ンサからの侵入者検知信号を用いるものもある。又アナ
ログ画像のままではなく、JpegやMpegによる圧
縮データに変換してから伝送するものがある。 【0004】監視画像のVTR記録は、監視環境にアナ
ログITVカメラを設置し、離れた場所、又は監視環境
からは見えない場所に設置したVTR装置に一定間隔ご
とに画像を記録するものである。画像処理認識による監
視は、監視環境における画像の変化や画像中からの人物
候補領域の検出によって通報やVTRの起動を行なうも
のである。 【0005】 【発明が解決しようとする課題】上記したような従来技
術には以下に示す問題点がある。先ず監視画像伝送によ
る監視での問題は、処理の仕組みは単純であるが、アナ
ログ画像伝送を行なうために、専用伝送路の敷設、伝送
による信号劣化の保障としてのブースタの設置などの付
帯設備が必要となる。従ってこれら設備のためのコスト
が甚大であり、かつセンタにおいて監視員を常時配備し
ておく必要がある。 【0006】一方、画像の圧縮データを伝送するシステ
ムでは上記に比べてデータが少ない、伝送による信号劣
化がない、などの理由からアナログ専用線ではなく一般
のデジタル回線を用いることが可能であるが、侵入イベ
ント以外の情報も多数伝送されるため、監視員の常時配
備の問題は解消されない。 【0007】監視画像のVTR記録での問題を述べる
と、このシステムは基本的には、緊急通報とは別に侵入
者の映像を記録することで、後で状況推定や侵入者特定
のために利用するものであるが、一定間隔ごとの記録で
は実際に侵入イベントとして重要な映像を記録できない
場合がある。 【0008】画像処理による監視での問題は、侵入者の
検出率が妥当であるならば、このシステムで侵入時のみ
に伝送や蓄積の処理が必要であるため、データ伝送、蓄
積のためのコストを全体的に低くすることが可能であ
る。又イベント発生時のみについて、伝送、蓄積された
画像を監視員が確認することで、常時配備の必要性が軽
減される。 【0009】しかしイベントを検出した後で、伝送又は
蓄積された画像の性質が、監視員が確認するために良い
ものでは無い場合が多い。これは例えば、監視映像中の
人物領域に顔などの特徴的な部分がない、画像が小さす
ぎる、圧縮の影響で画質が劣化している等があげられ
る。本発明は、処理効率に優れた画像監視装置の提供を
目的とする。 【0010】 【課題を解決するための手段】この発明の画像監視装置
は、監視領域の映像を撮像する撮像手段と、この撮像手
段により撮像された映像に所定の処理を施す処理手段
と、この処理手段により所定の処理が施された画像を受
取り、連続する2フレーム間の画像差分量を求め、その
総和が一定値以下の画像の場合、そのうちのいずれかの
みを残して他の画像を除去する除去手段と、この除去手
段により残された画像のみをhttpプロトコルに変換
し伝送する伝送手段とを有している。 【0011】 【発明の実施の形態】以下、図面を参照しながら、本発
明の実施の形態について詳細に説明する。以下の説明で
は、本システムを用いて、ある監視領域において侵入者
の監視を行なう装置について示す。 【0012】先ず、この実施の形態の全体構成と処理の
概要を説明する。本発明による人物監視システム(画像
監視装置)の全体構成を図1に示す。このシステムは、
人物抽出手段1、中間サーバ手段2、サーバ手段3とか
らなり、人物抽出手段1において入力動画像中から人物
候補領域を抽出し、中間サーバ手段2においてそのうち
見え方の最適なる画像を選択し、サーバ手段3において
画像検索用のキーの生成やhttp(hyper te
xt transfer protocol)でのユー
ザインタフェースを提供する。そして各手段1,2,3
は有線、又は無線のディジタル通信によって接続され
る。 【0013】したがって、一つ又は複数の人物抽出手段
1によって検出された入力画像内の人物候補領域に対し
て、人物抽出手段1又は中間サーバ手段2において人物
特徴のチェックと見え方が最適なフレームの選択、およ
びカメラ(これは人物抽出手段1に相当)入力の選択を
行ない、サーバ手段3では、中間サーバ手段2から得ら
れた最適な人物画像系列を一時的に蓄積し、その後、そ
れら画像系列の伝送を行なう。このとき、例えば検出人
物系列について、その移動方向、色、動き方、参照人物
画像との類似度などの画像検索用キーを作成しておき、
ユーザからの要求にしたがって所望画像のみを伝送する
処理も行なう。 【0014】以上で、人物抽出手段1と中間サーバ2、
中間サーバ手段2とサーバ手段3のそれぞれの間での伝
送路の状態、および対象人物の侵入イベント数などに応
じて適宜それぞれでの処理の分担範囲を変える。例えば
人物抽出手段1においては人物候補領域の抽出と確認を
行なうが、単位時間あたりのイベント数が多い場合に
は、人物候補の確認処理は比較的ラフなもののみを行な
い、後述する顔等の特徴部分による確認のように処理コ
ストの高いものは中間サーバ手段2に分担させる。 【0015】以下に上記人物抽出手段1、中間サーバ手
段2、サーバ手段3の各構成と処理の説明を行なう。図
2は人物抽出手段1の構成に示す図である。カラー、又
はモノクロのテレビカメラとA/D変換器とからなる画
像入力手段4により数フレームごとに入力されたディジ
タル画像データを一度人物検出画像蓄積手段5に格納
し、これについて後述の様に、人物候補領域抽出手段6
によって侵入人物の概略領域を検出し、その概略領域内
部に人物としての特徴的な領域パターン(例えば顔、
手、足等)が存在するかどうかを人物領域確認手段7に
よって確認し、人物候補領域画像と確認結果を人物候補
通信手段8によってEther netやIEEE13
94上にTcp/IPなどのプロトコルで中間サーバに
伝送する。上記で入力画像がカラーであった場合には、
その輝度成分のみを抽出して人物検出画像蓄積手段5に
蓄積する。 【0016】又、この人物抽出手段1では一定時間内で
の上述の対象人物領域の抽出数、すなわち検知頻度を人
物抽出手段1内部の検知頻度計測手段9によって計測
し、これがあらかじめ設定してある閾値以上であった場
合には、本手段の処理に時間をかけるべきではないとし
て、一般的に処理コストのかかる人物領域確認手段7の
処理は行なわず、後述の中間サーバに処理の分担を依頼
する。 【0017】以下に、この人物抽出手段1に特徴的な機
能として、人物候補領域抽出手段6と人物領域確認手段
7および人物候補通信手段8について述べる。人物候補
領域抽出手段6の処理としては、以下に示すようないく
つかの方法のいずれかを使用することができる。 【0018】例えば、連続するサンプリング画像(フレ
ーム)について画素ごとの差分を行ない、ある一定閾値
で2値化した領域を抽出し、4連結、又は8連結の意味
で空間的に連結する領域について、その面積や外接矩形
サイズが人物候補として妥当なものを検出する方法であ
る。この処理の流れを図3のフローチャートに示す。こ
の際の2値化の閾値は、差分画像の輝度ごとの頻度分布
を解析し、その分散比を最大にする値として決定する手
法を使うことができる(大津、判別および最小二乗基準
に基づく自動しきい値選定法、信学論、Vol.J63
−D,No.4,pp.349−356,1980参
照)。ここで、上記連結領域の解析を行なう前に、抽出
領域についての数回の膨張、収縮処理を行なって、ノイ
ズによる過抽出や“かすれ”の影響を減少させても良
い。この場合に抽出領域の第一次信頼度C1を例えば以
下のように算出しておく。 【0019】 C1=(Vf,Vft)/(|Vf ||Vft|), …(1) ただし、 V=(W,H,S) Vt =( ( Twu+Twl)/2, ( Thu+Thl)/2, ( Tsu+Tsl)/2 ) …(2) なるベクトルで、W,Hはそれぞれ抽出領域の外接矩形
の縦横サイズであり、Sは抽出領域面積である。又Tw
u,Twlは外接矩形の縦サイズの、Thu,Thlは外接矩
形の横サイズの、Tsu,Tslは抽出面積のそれぞれ上限
値と下限値を示す閾値であり、0≦ Cf ≦1となる。 【0020】この信頼度算出用のベクトルV,Vt につ
いては、円形度Rを加えて以下のようにしてもよい。 V=(W,H,S,R)、 Vt =(( Twu+Twl)/2, ( Thu+Thl)/2, ( Tsu+Tsl)/2 ), Tr …(2′) R=(抽出領域の周囲長)/S, ただしTr は人物としてのRの標準的値。 【0021】又別手法として事後確率変換による手法を
用いても良い(中井、事後確率を用いた移動物体検出手
法、情処研報,94−CV−90,pp.1−8,19
94参照)。 【0022】この事後確率変換による手法の処理の流れ
を図4のフローチャートに示す。事象θ0を背景、事象
θ1を侵入物とする。ある部分画像内の画素の輝度を観
測する前のθ0、θ1の事前確率がそれぞれw0,w1
であるとき(ただしw0+w1=1)、事後確率w1′
は事象θkのもとでの画素輝度Iの条件付き確率をP
(I|θk)とするときベイズの定理から w1′={w1p(I|θ1)} /{p(I|θ0)(1−w1)+p(I|θ1)w1} …(3) となり、このw1′がある閾値Tより大なるものを侵入
物に属する画素として抽出する。ここで、あらかじめ求
めた背景のみの画像の頻度分布h(x,y,I)から、 であり、p(I|θ1)は一般にデータサンプルが無い
ため、 p(I|θ0)=1/(Imax−Imin) …(5) と推定する。又上記は入力画像が更新されるたびにw1
=w1′と更新し、w1の初期値=1.0/2.0とし
てよい。 【0023】人物候補領域を抽出するためには、入力画
像内の各画素iについて(2)式のw′iをもとめw′
i>Tなる画素で、8連結、又は4連結の意味で連結す
るもののうち、その面積や、外接矩形サイズが人物とし
て妥当なものを選択すればよい。この方法によると背景
領域に定常的に変動があっても、統計的に変動を吸収で
きる利点がある。 【0024】上記で非背景(すなわち対象物)であるた
めの事後確率を画素ごとに求めているが、閾値との比較
による抽出(2値化)の前に、確率分布を4近傍や8近
傍について平滑化しても良い。これは対象物近傍につい
ての確率場の連続性を仮定し、ノイズによる過抽出やか
すれを減少させるためである。又さらなるノイズ除去の
ために上記2値化後に数回に渡って、膨張収縮処理を繰
り返しても良い。 【0025】この場合にも抽出領域の信頼度C1を
(1)式に基づいて算出するが、前述の(2)式のV,
Vtをここでは例えば以下のようにして算出しておく。 V=(W,H,S,P) Vt =(( Twu+Twl)/2, (Thu+Thl)/2, (Tsu+Tsl)/2 , Tp) …(2″) 又は円形度も含めた場合には、 V=(W,H,S,R,P) Vt =(( Twu+Twl)/2, (Thu+Thl)/2, ( Tsu+Tsl)/2), Tr,Tp) …(2″′) ここにPは抽出矩形内の事後確率の正規化総和であり、
以下のように求められる。 【0026】 ただしTpは人物に対する上述のP値の標準値であり、
Rectは抽出外接矩形領域を示す。 【0027】次に図2に示した人物抽出手段1における
人物領域確認手段7について説明する。人物領域確認手
段7は、検知頻度計測手段9に前述した検知の頻度が設
定閾値を超えているかどうかを問い合わせる。もし検知
頻度が閾値Th以下であった場合には、様々な人物の体
の部分の画像が複数収集され、その情報を統計的に圧縮
した辞書を用いたパターンマッチングを適用して、上記
のように抽出された人物候補領域内部の画素について、
特徴的部分が存在するかどうかを検出する。この様子を
図5に示す。 【0028】このような方法として、ある一定サイズに
正規化した複数の特徴部分画像をある基準で複数のクラ
スに分割しておき、それに基づいて正準判別する方法が
ある。この方法による処理の流れを図6のフローチャー
トに示す。先ず、以下のようなステップをとる。 【0029】(i)複数クラスの正規化画像群に対する
級内分散B、および級間分散Wの算出 (ii)(B+βSw )Φ={(1−β)W+βI}ΦΛ
なる固有値問題を解く ただし0<β<1、 Φ:固有ベクトルΦiを列ベクトルとする固有ベクトル
行列、 Λ:固有値λiを対角要素とする固有値行列 である。 【0030】(iii )各クラスタi内ベクトルを上述の
Φに射影し、その平均MiとΦと場合によっては分散共
分散Viを辞書とする。 (vi)マッチング時には画面内を小領域jに分割し、そ
の小領域ごとの画像ベクトルを上記Φに射影したベクト
ルVjと各クラスiとのユークリッド距離やマハラノビ
ス距離を求める。 【0031】上記でクラス作成時に所望対象特徴画像以
外に、非対象物クラスとして、それと類似する他の画像
も使用すると所望領域以外の類似領域は抽出せず、所望
領域のみを抽出しやすくなる。例えば、所望対象特徴画
像として複数人物の正面向きの顔、非対象物クラスとし
て背景の顔類似パターンを用いるなどである。 【0032】ここでは対象物クラスを、複数人物の顔領
域の画像から作成することとし、それらを顔の向きに応
じて数種類の別クラスに分割する。又非対象物クラスと
して、背景中の顔類似パターンをあらかじめ人手でピッ
クアップしておき、それらを用いる。 【0033】そしてステップ(vi)のマッチング結果の
うち距離が小なるものからN番目までで、対象物クラス
に属するものの距離の総和が一定値Td以下だった場合
人物領域とし確認されたものとする。この場合には第二
次信頼度C2を例えば以下のように算出しておく。 【0034】 又以上の処理終了後に、上記人物候補領域抽出手段6に
ついて説明したように抽出された人物候補領域の外側で
上述のマッチングを行い、その距離が小なるものからM
番目までのものを非対象物クラスのデータとして保存す
る。 【0035】次に図2に示した人物抽出手段1における
人物候補通信手段8について説明する。前述したように
検知頻度計測手段9によって、人物候補の検知頻度が一
定間隔Thと比較された結果が中間サーバに伝送される
と、中間サーバからはその結果に応じて以下のように人
物抽出手段1での処理分担指示メッセージが送られるた
め、人物抽出手段1での処理はそれに従う。 【0036】(i)検知頻度≧Thのとき 人物抽出手段1での処理は前述の人物候補領域抽出手段
6の処理のみとなる。 (ii)検知頻度<Thのとき 人物抽出手段1での処理は人物候補領域抽出手段6かつ
人物領域確認手段7の処理となる。 【0037】ここで(i)の場合には、この人物候補通
信手段8の出力結果は、例えば、上記人物候補領域抽出
手段6が抽出した抽出領域(周囲の外接矩形)座標、抽
出時刻、抽出領域の信頼度C1であり、(ii)の場合に
は、人物候補通信手段8の出力結果は、例えば、上記
(i)の抽出領域(周囲の外接矩形)座標と時刻に加え
て、抽出領域の信頼度Cを以下のように算出して伝送し
てもよい。 【0038】 C=min(C1,C2) …(8) 又(ii)の場合には、ステップ(vi)の結果から以下の
情報を抽出して伝送する。これは最適シーンのカメラを
選択するための情報で、人物候補領域内での上記マッチ
ング結果領域のうち、距離小なるものからN番目までの
マッチング距離、およびそれらの各々とマッチした辞書
カテゴリ名、各々の画面内での位置、および人物候補領
域外側で上述のマッチングを行い、その距離が小なるも
のからM番目までのものの非対象物クラスのデータとし
てマッチング距離、およびそれらの各々とマッチした辞
書カテゴリ名、各々の画面内での位置も伝送する。 【0039】又さらに上述の伝送された対象抽出結果に
応じて、中間サーバ手段2から送られる画像伝送メッセ
ージにしたがって、後述のような所望の画像伝送動作を
行う。次に図1の中間サーバ手段2について説明する。
図7は中間サーバ手段2の構成を示す図である。この中
間サーバ手段2は人物抽出通信手段10、人物抽出補助
手段11、最適撮像選択手段12、サーバ通信手段13
および抽出人物画像蓄積手段14からなる。以下には、
そのそれぞれの動作を示す。 【0040】人物抽出通信手段10は、各人物抽出手段
1での検知頻度に応じた人物抽出機能の負荷分担、およ
び同じく人物抽出手段1よりの認識確信度と中間サーバ
手段2の通信負荷とによる抽出画像伝送の制御を行い、
その結果として人物抽出手段手段1から送られてくる人
物抽出画像を受け取る。受信した人物抽出画像は抽出人
物画像蓄積手段14に画面内での位置情報、信頼度、抽
出時刻とともに保存される。 【0041】この通信処理は例えば以下のような手順で
実行される。この人物抽出通信手段10の処理の流れを
図8のフローチャートに示す。 (i)人物抽出手段内部状態の取得と人物抽出方法の指
示 各人物抽出手段1から内部状態として、一時保存画像数
Nsと検知頻度Hが閾値Thを超えているかどうかを取
得し、前記人物候補通信手段8の説明であった検知頻度
に応じて、人物抽出手段1内の処理を人物候補領域抽出
手段6のみの処理とするのか、人物領域確認手段7をも
行わせるのかを指示する。このようにすることによっ
て、人物候補の確認までを必要とするが、監視領域内へ
の人物の侵入頻度の高い場所においても検知もれを防ぐ
ことを可能とする。又、人物候補確認までを必要としな
いような環境においては、常に人物候補領域抽出手段6
のみの処理とさせることも可能である。 【0042】なお上記で人物領域確認手段7の処理をも
中間サーバ手段2内部で行わせる場合には、前述の人物
領域確認手段7で述べたように、保存されていた人物候
補領域の外側でのマッチング結果(非対象物クラスデー
タ)の周囲座標も伝送する。 【0043】(ii)認識確信度と通信負荷とに応じた画
像伝送制御 次に各人物抽出手段1から上記人物候補通信手段8で示
したように抽出領域、抽出時刻、抽出領域の信頼度Ckl
が送られるが、これと各人物抽出手段1での検知頻度H
k、通信トラフィックとから例えば以下のような方式に
したがって画像伝送の制御すなわち伝送画像領域Rkを
求める。ただし、kは人物抽出手段番号、lは一つの人
物抽出手段内での抽出領域番号で0≦l≦Lとする。 【0044】 ただし抽出領域をRklとし、Tkl>画面全体のときTkl
=画面全体とする。又、Uは集合の和を示す。 【0045】 if SH≧Tk3 Rk =現抽出画像を伝送せずに一時保存,…(9″′) ここにSHは通信トラフィックをあらわす量であり、例
えば全人物抽出手段での検知頻度の総和を用いて以下の
ようにしてもよい。 又Cklは各抽出領域ごとの信頼度、Hkは各人物抽出手
段の検知頻度、Kは各人物抽出手段のアクセス数であ
る。さらに、前記(i)での非対象クラスの画像を伝送
する場合には、前述の検出結果の一時保存画像と同一の
扱いとする。 【0046】次に図7の人物抽出補助手段11について
説明する。図9は人物抽出補助手段11の処理の流れを
示すフローチャートである。人物抽出補助手段11は、
前述した図2の人物候補通信手段8の説明で(i)検出
頻度≧Thのときに、人物領域確認手段7とまったく同
一の処理を行う。又人物確認における非対象クラスに対
する辞書更新用データ数の前回辞書更新以降での総和が
伝送画像中から一定値(Ns×α)個以上収集できたと
きには、本発明による人物確認用の辞書の再構成を行
う。 【0047】ここにNs従来からの非対象サンプル数、
α0〜1の間の定数であり、再構成用サンプルとして
は、上述の新規サンプルNs×α個の他に従来サンプル
の中からNs×(1−α)個をランダムに選択して前記
(2)(b)人物領域確認手段7の(i)〜(iii )ま
での処理によって新規辞書を作成する。 【0048】次に図7の最適撮像選択手段12について
説明する。図10は本発明による最適撮像選択手段12
の処理の流れを示すフローチャートである。図2の人物
候補通信手段8の説明中(ii)で述べたように、人物領
域確認手段7のステップ(vi)のマッチング結果として
人物候補領域内でのマッチング結果領域のうち、距離小
なるものからN番目までのマッチング距離、およびそれ
らの各々とマッチした辞書カテゴリ名、各々の画面内で
の位置が最適撮像選択手段12に伝送されてくる。 【0049】ここで最適性の定義として、上記マッチン
グ結果のうち位置の分布がまとまっており、かつマッチ
ング辞書カテゴリとして正面に近いものとの距離が小な
るものとする。これを表現する特徴量F(最適人物撮像
特徴量)としては、例えば以下のようなものを使用す
る。 【0050】 ここにσは各マッチング結果領域の座標分布の標準偏差
であり、Diはi番目にマッチング距離が小さかった分
割ウィンドウと辞書との距離である。A,B,Cjは重
み定数で、特にCjは上述のi番目ウィンドウがマッチ
した辞書jの顔の向きに応じた重みであり、正面に近い
ほど大きく設定する。 【0051】そして、この中間サーバ手段2に接続され
ている複数(k=0〜K個)の人物抽出手段1からの人
物抽出領域のうちで、互いに物理的な位置(実世界での
座標)がオーバラップするような各領域を同一物体と対
応付けし、それらについての上述F値のうちで最大の値
Fkを有する人物抽出手段kからの映像を最適なものと
選択する。ここで物理的な位置は、あらかじめ計測して
おく撮像環境(人物抽出手段の撮像系の向き、俯角、ズ
ーム)と人物抽出時に検出された人物候補領域の座標と
から求める。 【0052】なお、上記A,B,Cjの決定について
は、さまざまな手法が考えられるが、例えばあらかじめ
複数のサンプル画像において最適なものを教示してお
き、それらサンプルにおけるσx,σy,Diを用いて
最適と教示されたもののF値が他のものより大きいと仮
定して決定する。すなわち最適と教示されたものがサン
プルk′としたとき、 Σ(Fk|k=k′−Fk|k≠k′) …(12) 全サンプルを最大化するように学習を行なって、上記
A,B,Cjを決定する。図7のサーバ通信手段13
は、最適撮像選択手段12において最適人物画像系列が
準備された場合には、この系列画像をサーバに伝送す
る。 【0053】最後に図1のサーバ手段3について説明す
る。サーバ手段3は上記サーバ通信手段13から送信さ
れてくる最適画像系列を受け取り、httpプロトコル
に準拠した形式に変換し伝送する。このとき、上記系列
内に冗長な画像が含まれており、かつ本サーバ手段3へ
の通信トラフィック量が多い場合には、本発明によるサ
ーバ手段3はそのうちのいずれかのみを残して、他は除
去して伝送する。 【0054】ここで上述の冗長性としては、連続する最
適画像系列のフレーム同士での類似度の高いものという
意味で例えば、2フレーム間の画像差分量の総和が一定
閾値以下の場合や、2フレーム間での画像の相関値が別
の一定閾値以上の場合など一般的なものを使用できる。 【0055】ここで、サーバへの通信トラフィック量と
しては、本サーバに対するhttpアクセスでの一定時
間内パケット数Phと中間サーバ2との画像、および抽
出属性の伝送に用いられる一定時間内パケット数Pmと
の総和として定義できる。なお上記において、中間サー
バ2から得られる最適画像系列には、位置や抽出時刻と
いった属性が含まれるが、本サーバ手段3内では、これ
に加えて、領域内での色空間での画素値の頻度分布、上
記位置と抽出時刻から求められる平均移動ベクトルを計
算して付与し検索用タグ情報とする。さらに上記最適人
物画像系列中の顔領域について、図2の人物領域確認手
段7の(vi)に述べた顔辞書との射影値ベクトルをも属
性値として付与しておくことで、検索対象人物の画像が
与えられると、その人物の顔を過去の監視画像中の最適
系列画像から検索して提示することが可能となる。 【0056】 【発明の効果】本発明によれば、各処理ごとの機能分担
による応答性向上とコストの削減が図れる。即ち、人物
監視に最も基本的機能でかつリアルタイム処理を要する
人物抽出機能をテレビカメラ内蔵とし、それらテレビカ
メラからの抽出映像の最適性を評価する中間サーバ、お
よび検索タグ付けなど処理時間は要するがリアルタイム
性が必要でない処理を行なうサーバとに分担させ、それ
ぞれの間はデジタル化され要約された情報を伝送するこ
とで、伝送、蓄積の応答性とコストの削減が可能とな
る。 【0057】又本発明によれば、人物特徴部分検出によ
る誤抽出可能性の低減と最適映像の検出が可能となる。
即ち、人物抽出機能において、人物候補領域抽出を行な
った後、その領域内に人物の特徴的部分(顔等)が写っ
ているかどうかを評価するため、誤って人物の侵入以外
のイベントを検出する頻度を低減させることが可能とな
る。又その際に抽出された人物特徴部分の画面内への出
現の仕方を用いて、その画像フレームが後の監視員によ
る確認に良いものなのかどうかを評価し、複数カメラの
複数フレームから最適な画像系列を選択可能となる。 【0058】更に本発明によれば、冗長映像の除去と負
荷に応じた動的処理分担によるさらなる伝送、蓄積効率
の向上が図られる。即ち、上記で選択された見え方とし
て最適な画像のフレーム間での冗長性を評価して、冗長
フレームを除去することで、伝送、蓄積量を低減させ、
効率を向上することが可能である。又侵入者の検出頻度
や、伝送負荷に応じて各処理階層(カメラ、中間サー
バ、サーバ)での処理を自動的に再配置することによっ
て監視システム全体としての伝送、蓄積効率を向上させ
ることが可能となる。 【0059】従って、従来よりコストを低減し、見逃し
のない人物監視が本発明により可能となる。
Description: BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a store, an ATM
For monitoring intruders in storage facilities, offices, etc.
The present invention relates to an image monitoring device. [0002] Stores, ATM installation facilities and offices
In fields such as monitoring intruders, image transmission
Method, monitoring by monitoring image transmission, VTR recording of monitoring image
Recording, monitoring by image processing recognition, and hands that combine them
The law has been used. The following describes these methods.
You. Surveillance by surveillance image transmission requires analog I
A TV camera is installed, and a monitoring
Analog images transmitted to the data center and monitoring deployed at the center
A worker constantly monitors the monitoring image. In this case, images from a plurality of cameras are generally
The monitor sends the images consciously or constantly.
Monitor by switching every hour. When the screen is switched
Intrusion sensors such as infrared and ultrasonic waves installed in the monitoring environment
Some use intruder detection signals from sensors. Again
It is not the same as the log image, but the pressure by Jpeg or Mpeg.
Some data is converted and then transmitted. [0004] VTR recording of surveillance images is analyzed in a surveillance environment.
Install a log ITV camera in a remote location or surveillance environment
VTR equipment installed in a place that cannot be seen from
And an image is recorded. Supervision by image processing recognition
The vision is the change of the image in the surveillance environment and the person from the image
Notification and VTR activation are performed by detecting candidate areas.
It is. [0005] The prior art as described above
Surgery has the following problems. First, the surveillance image transmission
The problem with monitoring is that while the processing mechanism is simple,
Laying and transmitting a dedicated transmission line to perform log image transmission
Installation of booster etc. to guarantee signal deterioration due to
Belt equipment is required. Therefore the cost for these facilities
Is very large and the center
Need to be kept. On the other hand, a system for transmitting compressed data of an image
System has less data than the above,
General purpose instead of analog dedicated line
Digital line can be used,
Since many pieces of information other than the
The problem of equipment is not solved. [0007] Describe the problem in VTR recording of surveillance images
And this system basically intrudes separately from emergency calls
Record the intruder's video for later situation estimation and intruder identification
But for recording at regular intervals.
Cannot actually record important video as an intrusion event
There are cases. The problem with monitoring by image processing is that
If the detection rate is reasonable, this system only
Data transmission and storage,
Product costs can be reduced overall.
You. Also, only when an event occurs,
The need for constant deployment is reduced by monitoring images
Is reduced. However, after detecting the event, the transmission or
The nature of the stored image is good for the observer to confirm
Often not. This is, for example,
There are no characteristic parts such as faces in the person area, and the image is small
Image quality is deteriorated due to compression,
You. The present invention provides an image monitoring device with excellent processing efficiency.
Aim. [0010] An image monitoring apparatus according to the present invention.
Is imaging means for capturing an image of the monitoring area, and
Processing means for performing a predetermined process on the video imaged by the step
Receiving an image on which predetermined processing has been performed by this processing means.
To obtain the image difference amount between two consecutive frames,
If the sum is below a certain value, any of the
Removal means for removing other images while leaving only the
Only the image left by the step is converted to http protocol
And transmission means for transmitting. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, the present invention will be described with reference to the drawings.
The embodiment will be described in detail. In the following description
Uses this system to detect intruders in a surveillance area
The following describes an apparatus for monitoring the above. First, the overall configuration and processing of this embodiment will be described.
An outline will be described. Person monitoring system (image
The overall configuration of the monitoring device is shown in FIG. This system is
Person extraction means 1, intermediate server means 2, server means 3, etc.
The person extracting means 1
The candidate area is extracted, and the intermediate server
Select the image with the best appearance and in the server means 3
Generating a key for image search and http (hyperte
xt transfer protocol)
Provide the interface. And each means 1, 2, 3
Are connected by wired or wireless digital communication
You. Therefore, one or more person extracting means
1 for the person candidate area in the input image detected by
The person extracting means 1 or the intermediate server means 2
Check the features and select the frame that looks best
And camera (this corresponds to the person extraction means 1)
And the server means 3 obtains the information obtained from the intermediate server means 2.
Temporarily stores the optimal human image sequence, and then
These image sequences are transmitted. At this time, for example, the detected person
For the object series, its moving direction, color, way of movement, and reference person
Create an image search key such as similarity with the image,
Only the desired image is transmitted according to the request from the user
Processing is also performed. As described above, the person extracting means 1 and the intermediate server 2,
Transmission between the intermediate server means 2 and the server means 3
Depending on the route conditions and the number of
The processing range of each process is appropriately changed. For example
In the person extracting means 1, extraction and confirmation of a person candidate area are performed.
Yes, but if there are many events per unit time
Performs only a relatively rough
Processing, such as confirmation by features such as the face described later.
Those with the highest strikes are assigned to the intermediate server means 2. The person extracting means 1 and the intermediate server will be described below.
The configuration and processing of the stage 2 and the server means 3 will be described. Figure
FIG. 2 is a diagram showing the configuration of the person extracting means 1. Color, also
Is an image composed of a monochrome TV camera and an A / D converter.
Digit input every several frames by image input means 4
Once stored in the human detection image storage means 5
Then, as described later, the person candidate area extracting means 6
The approximate area of the intruder is detected by
In the part, characteristic region patterns (for example, face,
The presence or absence of hands, feet, etc.)
Therefore, the person candidate area image and the confirmation result are
The communication means 8 uses Ethernet 13 or IEEE 13
Intermediate server using protocol such as Tcp / IP on 94
Transmit. If the input image was color above,
Only the luminance component is extracted and sent to the person detection image storage means 5.
accumulate. In the person extracting means 1, a certain period of time
The number of extracted target person regions described above, that is, the detection frequency
Measured by the detection frequency measurement means 9 inside the object extraction means 1
If this is greater than a preset threshold,
Should not take the time to process this measure.
Therefore, the person area confirmation means 7 which generally has a processing cost
Processing is not performed, but an intermediate server described below is requested to share the processing.
I do. The following is a feature of the person extracting means 1.
As a function, a person candidate area extracting means 6 and a person area confirming means
7 and the person candidate communication means 8 will be described. Person candidate
The processing of the area extracting means 6 is as follows.
Any of several methods can be used. For example, a continuous sampling image (frame
Is calculated for each pixel, and a certain threshold
Extract the binarized area in the above, and the meaning of 4-connection or 8-connection
The area and circumscribed rectangle of the area connected spatially by
This is a method to detect a person whose size is reasonable as a person candidate.
You. The flow of this processing is shown in the flowchart of FIG. This
The binarization threshold at the time is the frequency distribution for each luminance of the difference image
To determine the value that maximizes the variance ratio
Method can be used (Otsu, discrimination and least squares criterion
Automatic threshold selection method based on IEICE, IEICE, Vol. J63
-D, No. 4, pp. 349-356, 1980
See). Here, before performing the analysis of the connection area,
Perform several expansion and contraction operations on the area
Can reduce the effects of over-extraction and "blurring"
No. In this case, the primary reliability C1 of the extraction area is set to, for example,
It is calculated as follows. C1 = (Vf, Vft) / (| Vf || Vft |) (1) where V = (W, H, S) Vt = ((Twu + Twl) / 2, (Thu + Thl) / 2, (Tsu + Tsl) / 2) (2) where W and H are circumscribed rectangles of the extraction area, respectively.
And S is the area of the extraction area. Also Tw
u and Twl are vertical sizes of the circumscribed rectangle, and Thu and Thl are circumscribed rectangles.
Tsu and Tsl are the upper limits of the extraction area.
This is a threshold indicating a value and a lower limit, and 0 ≦ Cf ≦ 1. The vectors V and Vt for calculating the reliability are
Alternatively, the following may be performed by adding the circularity R. V = (W, H, S, R), Vt = ((Twu + Twl) / 2, (Thu + Thl) / 2, (Tsu + Tsl) / 2), Tr ... (2 ') R = (perimeter of extraction region) / S, where Tr is the standard value of R as a person. As another method, a method based on posterior probability conversion is used.
(Nakai, moving object detection method using posterior probability
Law, Information Processing Research Report, 94-CV-90, pp. 1-8, 19
94). Process flow of this posterior probability conversion method
Is shown in the flowchart of FIG. Background of event θ0, event
Let θ1 be an intruder. Observe the brightness of pixels in a partial image
Prior probabilities of θ0 and θ1 before measurement are w0 and w1, respectively.
(Where w0 + w1 = 1), the posterior probability w1 ′
Is the conditional probability of pixel luminance I under event θk
When (I | θk), Bayes' theorem gives w1 ′ = {w1p (I | θ1)} / {p (I | θ0) (1-w1) + p (I | θ1) w1} (3) This w1 'penetrates something larger than a certain threshold T.
It is extracted as a pixel belonging to an object. Here,
From the frequency distribution h (x, y, I) of the image And p (I | θ1) generally has no data sample
Therefore, it is estimated that p (I | θ0) = 1 / (Imax−Imin) (5). Also, the above applies to w1 every time the input image is updated.
= W1 'and the initial value of w1 = 1.0 / 2.0
May be. In order to extract a person candidate area, an input image
For each pixel i in the image, w'i in equation (2) is obtained and w '
Pixels with i> T, connected in the sense of 8-connection or 4-connection
Of the objects, the area and circumscribed rectangle size
What is necessary is just to select what is appropriate. According to this method the background
Even if there is a steady fluctuation in the area, the fluctuation can be statistically absorbed.
There are advantages. In the above, the background (that is, the object)
The posterior probability for each pixel, but compare it with the threshold
Before the extraction (binarization) by
The side may be smoothed. This is near the object.
Assuming the continuity of all random fields,
This is to reduce wear. Also for further noise removal
For this reason, the expansion and contraction process is repeated several times after the above binarization.
You may return. Also in this case, the reliability C1 of the extraction area is
It is calculated based on the equation (1).
Here, Vt is calculated as follows, for example. V = (W, H, S, P) Vt = ((Twu + Twl) / 2, (Thu + Thl) / 2, (Tsu + Tsl) / 2, Tp) (2 ″) = (W, H, S, R, P) Vt = ((Twu + Twl) / 2, (Thu + Thl) / 2, (Tsu + Tsl) / 2), Tr, Tp) (2 "') where P is an extraction rectangle Is the normalized sum of posterior probabilities in
It is determined as follows. [0026] Where Tp is a standard value of the above-mentioned P value for a person,
Rect indicates an extracted circumscribed rectangular area. Next, in the person extracting means 1 shown in FIG.
The person area checking means 7 will be described. Person area confirmation hand
Step 7 sets the detection frequency described above in the detection frequency measurement means 9.
Inquires whether the threshold is exceeded. If detected
If the frequency is less than or equal to the threshold Th, the body of various persons
Images are collected and the information is statistically compressed
Apply pattern matching using the dictionary
Pixels inside the person candidate area extracted as
Detects whether a characteristic part exists. This state
As shown in FIG. As such a method, a certain size is used.
A plurality of normalized feature partial images are classified into a plurality of
And canonical discrimination based on it
is there. The flow of processing by this method is shown in the flowchart of FIG.
Shown in First, the following steps are taken. (I) For a plurality of classes of normalized images
Calculation of intra-class variance B and inter-class variance W (ii) (B + βSw) Φ = {(1−β) W + βI {Φ}
Where 0 <β <1, Φ: eigenvector with eigenvector Φi as the column vector
Matrix, Λ: Eigenvalue matrix having eigenvalue λi as a diagonal element. (Iii) Each vector in the cluster i is calculated as described above.
Φ, and the mean Mi, Φ, and possibly the variance
Let the variance Vi be a dictionary. (Vi) At the time of matching, the screen is divided into small areas j and
Is a vector that projects the image vector for each small area of
Euclidean distance and Mahalanobi between Le Vj and each class i
Find the distance. In the above, at the time of class creation, the desired object characteristic image
Outside, other images similar to it as a non-object class
Is used, similar regions other than the desired region are not extracted.
It becomes easier to extract only the region. For example, desired target feature image
Faces of multiple persons facing front, non-object class
To use a face similar pattern on the background. Here, the object class is defined as the face regions of a plurality of persons.
Area, and adapt them to the direction of the face.
Divided into several different classes. And non-object classes
Beforehand, manually pick the face-like pattern in the background manually.
And use them. The matching result of step (vi)
Of which the distance is small to Nth, the object class
If the sum of the distances belonging to
It is assumed that the person area has been confirmed. In this case the second
The next reliability C2 is calculated, for example, as follows. [0034] After the above processing, the above-mentioned person candidate area extracting means 6
As described above, outside the extracted candidate area
The above matching is performed, and the distance is reduced to M
Save the data up to the second as data of the non-object class.
You. Next, in the person extracting means 1 shown in FIG.
The person candidate communication means 8 will be described. As previously mentioned
The detection frequency of the person candidate is reduced by the detection frequency measurement means 9.
The result compared with the fixed interval Th is transmitted to the intermediate server.
And from the intermediate server, depending on the result,
The processing sharing instruction message is sent by the object extracting means 1.
Therefore, the processing in the person extracting means 1 follows that. (I) When the detection frequency ≧ Th, the processing by the person extracting means 1 is performed by the above-described person candidate area extracting means.
6 only. (Ii) When the detection frequency <Th, the processing by the person extracting means 1 is performed by the person candidate area extracting means 6 and
This is the processing of the person area confirmation unit 7. Here, in the case of (i), this person candidate
The output result of the communication means 8 is, for example, the above-mentioned person candidate area extraction
The extraction area (surrounding rectangle) coordinates extracted by the means 6
Outgoing time and the reliability C1 of the extraction area. In the case of (ii),
Is the output result of the person candidate communication means 8, for example,
(I) In addition to the coordinates and time of the extraction area (surrounding rectangle)
Then, the reliability C of the extraction area is calculated and transmitted as follows.
May be. C = min (C1, C2) (8) In the case of (ii), the following is obtained from the result of step (vi).
Extract and transmit information. This is the best scene camera
The information to select, the above match in the person candidate area
Of the result ranges from the smallest distance to the Nth
Matching distances and dictionaries that matched each of them
Category name, position on each screen, and candidate area
The above matching is performed outside the area, and the distance becomes smaller.
To the M-th non-object class data
Matching distances, and the words that matched each of them
The document category name and the position in each screen are also transmitted. Further, in the above-mentioned transmitted target extraction result,
In response, the image transmission message sent from the intermediate server means 2
Desired image transmission operation as described below
Do. Next, the intermediate server means 2 of FIG. 1 will be described.
FIG. 7 is a diagram showing the configuration of the intermediate server means 2. In this
The inter-server means 2 is a person extraction communication means 10, a person extraction assistance
Means 11, optimal imaging selection means 12, server communication means 13
And an extracted person image storage means 14. Below,
The respective operations will be described. The person extraction communication means 10 is provided for each person extraction means.
Load sharing of the person extraction function according to the detection frequency in step 1, and
And the recognition certainty from the person extracting means 1 and the intermediate server
Controlling the transmission of the extracted image according to the communication load of the means 2;
As a result, the person sent from the person extracting means 1
Receive the object extraction image. The received person extraction image is the extraction person
The position information, the reliability, and the extraction
Stored with the departure time. This communication processing is performed in the following procedure, for example.
Be executed. The processing flow of this person extraction communication means 10
This is shown in the flowchart of FIG. (I) Acquisition of internal state of person extraction means and finger of person extraction method
The number of temporarily saved images from each person extracting means 1 as an internal state
It is determined whether Ns and the detection frequency H exceed the threshold Th.
And the detection frequency described by the person candidate communication means 8
Processing in the person extracting means 1 is performed according to the
Whether to use only the means 6 or the person area confirmation means 7
Indicate whether to do this. By doing this,
Need to confirm the candidate,
Prevents missing detection even in places where many people intrude frequently
To make things possible. Also, it is not necessary to confirm
In such an environment, the person candidate area extracting means 6
It is also possible to perform only the processing. Note that the processing of the person area confirmation means 7 is also described above.
If the process is to be performed inside the intermediate server means 2, the above-mentioned person
As described in the area confirmation means 7, the saved person
Matching result outside the complement area (non-object class data
(3) also transmits the surrounding coordinates. (Ii) An image corresponding to the recognition certainty factor and the communication load
Image transmission control Next, each person extraction means 1 to the above-mentioned person candidate communication means 8
As described above, the extraction area, the extraction time, and the reliability Ckl of the extraction area
Is sent, and the detection frequency H by each person extracting means 1 is
k, from communication traffic to the following method, for example
Therefore, the control of image transmission, that is, the transmission image area Rk
Ask. Here, k is the person extraction means number, and l is one person
It is assumed that 0 ≦ l ≦ L by the extraction area number in the object extraction means. [0044] However, the extraction area is Rkl, and when Tkl> the whole screen, Tkl
= The entire screen. U indicates the sum of the sets. If SH ≧ Tk3 Rk = temporarily save without transmitting the current extracted image,... (9 ″ ′) where SH is an amount representing communication traffic.
For example, using the sum of the detection frequencies in all person extraction means,
You may do so. Ckl is the reliability of each extraction area, and Hk is each person's extraction procedure.
And K is the number of accesses of each person extraction means.
You. Further, the image of the non-target class in (i) is transmitted.
In this case, the same
Treat it. Next, the person extraction assisting means 11 shown in FIG.
explain. FIG. 9 shows the flow of processing performed by the person extraction assisting means 11.
It is a flowchart shown. The person extraction assisting means 11
In the above description of the person candidate communication means 8 in FIG.
When frequency ≧ Th, exactly the same as the person area confirmation means 7
One process is performed. For non-target classes in person confirmation,
The total number of dictionary update data since the last dictionary update
If a certain number (Ns × α) or more could be collected from the transmitted image
In this case, the dictionary for personal identification according to the present invention is reconstructed.
U. Here, Ns is the conventional number of non-target samples,
It is a constant between α0 and 1, which is used as a sample for reconstruction.
Is the new sample Ns × α and the conventional sample
Ns × (1-α) are randomly selected from
(2) (b) (i) to (iii) of the person area confirmation means 7
A new dictionary is created by the processing in. Next, the optimum image pickup selecting means 12 shown in FIG.
explain. FIG. 10 shows an optimum imaging selecting means 12 according to the present invention.
6 is a flowchart showing the flow of the processing of FIG. Figure 2
As described in (ii) in the description of the candidate communication means 8,
As the matching result of step (vi) of the area checking means 7
Of the matching result areas in the person candidate area,
Matching distance from N to N, and it
Dictionary category name that matches each of them, in each screen
Is transmitted to the optimal imaging selection means 12. Here, as a definition of the optimality,
The distribution of locations among the results is unified and matches
The distance from the front-end dictionary category is small.
Shall be. A feature amount F (optimum person imaging)
For example, the following can be used
You. [0050] Where σ is the standard deviation of the coordinate distribution of each matching result area
And Di is the i-th matching distance.
This is the distance between the split window and the dictionary. A, B, Cj are heavy
Is the only constant, especially Cj matches the i-th window described above.
Weight according to the direction of the face of the determined dictionary j, which is close to the front
Set as large as possible. Then, it is connected to the intermediate server means 2
From a plurality of (k = 0 to K) person extraction means 1
In the object extraction area, the physical position of each other (in the real world)
Each area where the (coordinates) overlap is paired with the same object.
And the largest of the above F values for them
The video from the person extraction means k having Fk is optimized
select. Here, the physical position is measured in advance
Imaging environment (direction, depression angle,
And the coordinates of the person candidate area detected during the person extraction
Ask from. The above determination of A, B, Cj
Can be various methods, for example,
Teach the best one in multiple sample images
Using σx, σy, Di in those samples
If the F value of the one taught as optimal is larger than the others,
And decide. That is, what is taught as optimal
When a pull k ′ is set, ′ (Fk | k = k′−Fk | k ≠ k ′) (12) Learning is performed so as to maximize all samples.
A, B, and Cj are determined. Server communication means 13 of FIG.
Means that the optimal person image sequence is
When prepared, this sequence image is transmitted to the server.
You. Finally, the server means 3 of FIG. 1 will be described.
You. The server means 3 is transmitted from the server communication means 13.
Received the optimal image sequence, and the http protocol
It is converted to a format conforming to and transmitted. At this time, the above series
Contains redundant images, and the server means 3
If the communication traffic volume of the
Server means 3 leaves only one of them and removes the others.
To transmit. Here, the above-mentioned redundancy is the
It is said that the similarity between the frames of the appropriate image series is high
In a sense, for example, the sum of image difference amounts between two frames is constant
If the value is less than the threshold value or the correlation value of the image between two frames is different
A general one can be used, for example, when the threshold value is equal to or more than a certain threshold value. Here, the amount of communication traffic to the server and
At a certain time during http access to this server
The number of packets in the interval Ph, the image with the intermediate server 2, and the extraction
The number of packets Pm in a fixed time used for transmitting the output attribute
Can be defined as the sum of In the above, the intermediate server
The optimal image sequence obtained from the bar 2 includes the position and the extraction time.
These attributes are included in the server means 3,
In addition to the frequency distribution of pixel values in the color space within the region,
The average moving vector obtained from the
It is added and added to the search tag information. Furthermore the above optimal person
For the face area in the object image sequence,
The projection value vector with the face dictionary described in (vi) of step 7 also belongs to
By assigning it as a gender value, the image of the search target person
Given, the person's face is
It is possible to search and present from a series image. According to the present invention, functions are assigned to each processing.
Responsiveness and cost reduction. That is, a person
Monitoring is the most basic function and requires real-time processing
Built-in TV camera with person extraction function
An intermediate server that evaluates the optimality of the video extracted from camera,
Processing time is required for search and tagging, but real-time
Server that performs processing that does not require
Transmit digitalized and summarized information between each
This makes it possible to reduce transmission and storage responsiveness and reduce costs.
You. Further, according to the present invention, the detection of the characteristic portion of the person
This makes it possible to reduce the possibility of erroneous extraction and to detect an optimal image.
That is, in the person extraction function, a person candidate area is extracted.
After that, the characteristic part (face, etc.) of the person appears in that area.
In order to evaluate whether a person has
Event detection frequency can be reduced.
You. In addition, the character features extracted at that time are displayed on the screen.
Using the current method, the image frame is later
To see if it is good for checking
An optimal image sequence can be selected from a plurality of frames. Further, according to the present invention, the elimination of the redundant image and the negative
Further transmission and storage efficiency by dynamic processing sharing according to load
Is improved. In other words, the appearance selected above
To evaluate the redundancy between frames of the optimal image
Eliminating frames reduces the amount of transmission and storage,
It is possible to improve efficiency. Intruder detection frequency
And each processing layer (camera, intermediate server) according to the transmission load.
Server and server) by automatically relocating
To improve the transmission and storage efficiency of the entire monitoring system
It becomes possible. Therefore, the cost can be reduced compared to the prior art,
The present invention enables person-free person monitoring.

【図面の簡単な説明】 【図1】図1は本発明の実施例に係る全体構成図。 【図2】図2は本発明の実施例に係る人物抽出手段の構
成図。 【図3】図3は人物候補領域抽出手段の第1の方法を示
すフローチャート。 【図4】図4は人物候補領域抽出手段の第2の方法を示
すフローチャート。 【図5】図5は本発明による人物領域確認手段を説明す
るための図。 【図6】図6は本発明による人物領域確認手段での処理
を示すフローチャート。 【図7】図7は本発明による中間サーバ手段の構成を示
す図。 【図8】図8は本発明による中間サーバ手段における人
物抽出通信手段の処理を示すフローチャート。 【図9】図9は本発明による中間サーバ手段における人
物抽出補助手段の処理を示すフローチャート。 【図10】図10は本発明による中間サーバ手段におけ
る最適撮像選択手段の処理を示すフローチャート。 【符号の説明】 1…人物抽出手段、2…中間サーバ手段、3…サーバ手
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is an overall configuration diagram according to an embodiment of the present invention. FIG. 2 is a configuration diagram of a person extracting unit according to the embodiment of the present invention. FIG. 3 is a flowchart showing a first method of a person candidate area extracting unit. FIG. 4 is a flowchart showing a second method of the person candidate area extracting means. FIG. 5 is a diagram for explaining a person area confirmation unit according to the present invention. FIG. 6 is a flowchart showing processing in a person area confirmation unit according to the present invention. FIG. 7 is a diagram showing a configuration of an intermediate server unit according to the present invention. FIG. 8 is a flowchart showing processing of a person extraction communication unit in the intermediate server unit according to the present invention. FIG. 9 is a flowchart showing processing of a person extraction assisting means in the intermediate server means according to the present invention. FIG. 10 is a flowchart showing a process of an optimum imaging selecting means in the intermediate server means according to the present invention. [Description of Signs] 1 ... person extraction means, 2 ... intermediate server means, 3 ... server means

Claims (1)

(57)【特許請求の範囲】 【請求項1】 監視領域の映像を撮像する撮像手段と、 この撮像手段により撮像された映像に所定の処理を施す
処理手段と、 この処理手段により所定の処理が施された画像を受取
り、連続する2フレーム間の画像差分量を求め、その総
和が一定値以下の画像の場合、そのうちのいずれかのみ
を残して他の画像を除去する除去手段と、 この除去手段により残された画像のみをhttpプロト
コルに変換し伝送する伝送手段と、 を有することを特徴とする画像監視装置。
(57) [Claims 1] An image pickup means for picking up an image of a monitoring area, a processing means for performing predetermined processing on an image picked up by the image pickup means, and a predetermined processing by this processing means Receiving the image to which the image processing has been applied, calculating an image difference amount between two consecutive frames, and, when the sum of the images is equal to or smaller than a predetermined value, removing one or more of the remaining images and removing the other image. An image monitoring apparatus, comprising: a transmission unit that converts only an image left by the removal unit into an http protocol and transmits the HTTP protocol.
JP2001335422A 2001-10-31 2001-10-31 Image monitoring device Expired - Lifetime JP3504245B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001335422A JP3504245B2 (en) 2001-10-31 2001-10-31 Image monitoring device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001335422A JP3504245B2 (en) 2001-10-31 2001-10-31 Image monitoring device

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP26484298A Division JP3612220B2 (en) 1998-09-18 1998-09-18 Person monitoring method

Publications (2)

Publication Number Publication Date
JP2002252848A JP2002252848A (en) 2002-09-06
JP3504245B2 true JP3504245B2 (en) 2004-03-08

Family

ID=19150416

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001335422A Expired - Lifetime JP3504245B2 (en) 2001-10-31 2001-10-31 Image monitoring device

Country Status (1)

Country Link
JP (1) JP3504245B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4100146B2 (en) * 2002-11-27 2008-06-11 ソニー株式会社 Bi-directional communication system, video communication device
AU2004246753B2 (en) * 2003-06-16 2010-11-04 GreenTrap Online A/S Pest control system
JP6451133B2 (en) * 2014-08-01 2019-01-16 株式会社リコー Anomaly detection device, anomaly detection method, anomaly detection system, and program
US10186124B1 (en) 2017-10-26 2019-01-22 Scott Charles Mullins Behavioral intrusion detection system
KR20210153089A (en) * 2019-04-10 2021-12-16 스캇 찰스 멀린스 monitoring system

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05328355A (en) * 1991-05-17 1993-12-10 Sharp Corp Burglar camera device
JP3748127B2 (en) * 1996-05-21 2006-02-22 アンリツ株式会社 Remote control system via wide area network
JP3202606B2 (en) * 1996-07-23 2001-08-27 キヤノン株式会社 Imaging server and its method and medium
JP3903498B2 (en) * 1996-07-25 2007-04-11 三菱電機株式会社 Video signal conversion method and video signal converter

Also Published As

Publication number Publication date
JP2002252848A (en) 2002-09-06

Similar Documents

Publication Publication Date Title
KR101942808B1 (en) Apparatus for CCTV Video Analytics Based on Object-Image Recognition DCNN
US20200210711A1 (en) Automatic extraction of secondary video streams
Wheeler et al. Face recognition at a distance system for surveillance applications
KR102194499B1 (en) Apparatus for CCTV Video Analytics Based on Object-Image Recognition DCNN and Driving Method Thereof
US7868772B2 (en) Flame detecting method and device
US7778445B2 (en) Method and system for the detection of removed objects in video images
US20140333775A1 (en) System And Method For Object And Event Identification Using Multiple Cameras
KR102478335B1 (en) Image Analysis Method and Server Apparatus for Per-channel Optimization of Object Detection
KR101839827B1 (en) Smart monitoring system applied with recognition technic of characteristic information including face on long distance-moving object
EP2549759A1 (en) Method and system for facilitating color balance synchronization between a plurality of video cameras as well as method and system for obtaining object tracking between two or more video cameras
Stringa et al. Content-based retrieval and real time detection from video sequences acquired by surveillance systems
WO2018179202A1 (en) Information processing device, control method, and program
JP2009027393A (en) Image searching system and personal searching method
US20220122360A1 (en) Identification of suspicious individuals during night in public areas using a video brightening network system
CN111539338A (en) Pedestrian mask wearing control method, device, equipment and computer storage medium
EP2000998B1 (en) Flame detecting method and device
KR20130122262A (en) System for searching video and server for analysing video
JP3612220B2 (en) Person monitoring method
CN113674321B (en) Cloud-based method for multi-target tracking under monitoring video
JP3504245B2 (en) Image monitoring device
JP4088060B2 (en) Person monitoring system
US20230008356A1 (en) Video processing apparatus, method and computer program
KR102614895B1 (en) Real-time object tracking system and method in moving camera video
KR20230064095A (en) Apparatus and method for detecting abnormal behavior through deep learning-based image analysis
CN114372966A (en) Camera damage detection method and system based on average light stream gradient

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20031202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20031209

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071219

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081219

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091219

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091219

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101219

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111219

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121219

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121219

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131219

Year of fee payment: 10

EXPY Cancellation because of completion of term