JP5976237B2 - Video search system and video search method - Google Patents

Video search system and video search method Download PDF

Info

Publication number
JP5976237B2
JP5976237B2 JP2015554702A JP2015554702A JP5976237B2 JP 5976237 B2 JP5976237 B2 JP 5976237B2 JP 2015554702 A JP2015554702 A JP 2015554702A JP 2015554702 A JP2015554702 A JP 2015554702A JP 5976237 B2 JP5976237 B2 JP 5976237B2
Authority
JP
Japan
Prior art keywords
video
information
search
camera
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015554702A
Other languages
Japanese (ja)
Other versions
JPWO2015098442A1 (en
Inventor
伊藤 光恵
光恵 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Kokusai Electric Inc
Original Assignee
Hitachi Kokusai Electric Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Kokusai Electric Inc filed Critical Hitachi Kokusai Electric Inc
Application granted granted Critical
Publication of JP5976237B2 publication Critical patent/JP5976237B2/en
Publication of JPWO2015098442A1 publication Critical patent/JPWO2015098442A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20072Graph-based image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Description

本発明は、映像検索システムに係り、検索における検索結果表示を見やすく行うことができる映像検索システムに関する。   The present invention relates to a video search system, and more particularly to a video search system capable of easily displaying a search result in a search.

ビデオカメラ等によって撮影された画像(動画像、静止画像、静止画像が時系列に連続した間欠的な準動画像等)を記録装置に記録しておき、ユーザが検索して閲覧する映像検索システムがある。このような映像検索システムは、様々な用途に利用されており、例えば、ホテルやビル、コンビニエンスストア、道路といった不特定多数の人が訪れる施設では、犯罪抑止や事故防止等の目的で監視システムとして利用されている。   A video search system in which images (moving images, still images, intermittent quasi-moving images in which still images are continuous in time series) recorded by a video camera or the like are recorded in a recording device, and a user searches and browses them. There is. Such a video search system is used for various purposes. For example, in a facility visited by an unspecified number of people such as a hotel, a building, a convenience store, or a road, it is used as a monitoring system for the purpose of crime prevention or accident prevention. It's being used.

監視システムとして使用される記録装置には、ユーザが監視しながら指定した時点で記録が開始される画像データ(手動録画)や、ユーザが指定した時刻設定により記録が開始または終了される画像データ(スケジュール録画)、物体検知装置等からの出力情報に基づいて記録される画像データ(アラーム録画)、または、常時記録される画像データなどが存在する。現在の監視システムでは、この記録装置に記録された大量の映像から、所望の映像をより簡単に見つけ出すための検索機能を備えていることが多い。この検索機能は、日時やセンサーの状態等を検索入力情報とすることで、ユーザが閲覧したい画像を絞り込んで表示するものである。   In a recording apparatus used as a monitoring system, image data (manual recording) that starts recording at a time point specified by the user while monitoring, or image data that starts or ends recording by a time setting specified by the user (manual recording) Schedule recording), image data recorded on the basis of output information from an object detection device or the like (alarm recording), or image data recorded constantly. Current monitoring systems often have a search function for more easily finding a desired video from a large number of videos recorded in the recording device. This search function narrows down and displays an image that the user wants to browse by using the date and time, the state of the sensor, and the like as search input information.

また、本発明に関連する技術として、蓄積画像から顔部を検出し,顔画像の視覚的な情報から数百次元の画像特徴量を抽出してデータベースを作成しておき、この特徴量ごとに分類したデータベースと、検索対象となるキー画像を比較して類似度順に表示する類似顔画像検索システムが知られる(例えば非特許文献1参照。)。   Further, as a technique related to the present invention, a face is detected from an accumulated image, and a database is created by extracting image feature quantities of several hundred dimensions from visual information of the face image. A similar face image search system that compares classified databases and key images to be searched and displays them in order of similarity is known (see, for example, Non-Patent Document 1).

特許第4706535号公報Japanese Patent No. 4706535 特許第4759988号公報Japanese Patent No. 4759988 特開2012−68717号公報JP 2012-68717 A 特開2013−153304号公報JP 2013-153304 A

「類似顔画像検索システム」,日立評論,日立評論社,2013年2月1日,第95巻,第2号,p.42−43“Similar face image search system”, Hitachi review, Hitachi review company, February 1, 2013, Vol. 95, No. 2, p. 42-43

従来の映像検索システムでは、複数設置されたカメラの映像を記録しておき、任意に閲覧することが可能である。あるカメラで撮影され記録された特定の人物を、他のカメラでも撮影されているかを確認する場合は、現在閲覧している画像を撮影したカメラの位置や撮像日時を考慮しながら、他の映像装置の記録画像に対して同一人物の存在を確認するまで検索作業を繰り返し実施しなければならず、非常に煩雑な作業となる。   In a conventional video search system, videos of a plurality of cameras installed can be recorded and browsed arbitrarily. When checking whether a specific person shot and recorded with one camera is being shot with another camera, other images are taken into account while taking into account the position and date / time of the camera that shot the currently viewed image. The search operation must be repeatedly performed until the presence of the same person is confirmed on the recorded image of the apparatus, which is a very complicated operation.

例えば、21時ちょうどにカメラAで撮影されたスクーターを、他の映像装置でも撮影されたかを確認する場合、先ずは、カメラAに一番近いカメラBの映像を確認する。その時、カメラAの映像からスクーターの移動方向と速度が把握できるため、カメラAとカメラBの設置位置からスクーターの通過時刻のズレを推測する。ここで、二つの装置の距離とカメラA付近でのスクーターの推定速度から、カメラBの映像では21時2分に通過すると想定する。しかし、カメラBに到達するまでに、付近のコンビニに立ち寄る等の行動も考慮し、検索時刻を21時から21時10分と時刻範囲を長めに指定して映像を確認する。   For example, when confirming whether a scooter photographed by the camera A at 21:00 is also photographed by another image device, first, the image of the camera B closest to the camera A is confirmed. At that time, since the moving direction and speed of the scooter can be grasped from the image of the camera A, the shift of the passing time of the scooter is estimated from the installation positions of the camera A and the camera B. Here, based on the distance between the two devices and the estimated speed of the scooter in the vicinity of the camera A, it is assumed that the video of the camera B passes at 21:02. However, by taking into account behavior such as a stop at a nearby convenience store before reaching camera B, the search time is specified from 21 o'clock to 21:10 and the video is confirmed with a longer time range.

もし、この範囲指定内のカメラBの記録映像で該当するスクーターが存在しなかった場合は、更に検索時刻範囲を広げるか、スクーターから徒歩や自動車などに移動手段を変更した場合も考慮して、カメラAのスクーターに搭乗する人の顔や服装など詳細箇所を照合するか、カメラBではこのスクーターは撮影されていないと判断して、通過経路の異なるカメラCやカメラDの映像を新たに確認するといういくつかの方法が考えられる。しかし、どの方法も煩雑な作業であり、またすぐに発見できるとも限らない。この様に、どのタイミングでスクーターが検索されるか分からない状態で、スクーターが検索されるまで作業を続行することは、ユーザにとって非常に煩雑であることが分かる。   If the corresponding scooter does not exist in the recorded video of camera B within this range specification, consider the case where the search time range is further expanded or the moving means is changed from a scooter to walking or a car. Check the details of the face and clothes of the person on the scooter of camera A, or determine that this scooter is not photographed by camera B, and newly check the images of camera C and camera D with different passage routes There are several ways to do this. However, each method is a cumbersome task and is not always easy to find. In this way, it is understood that it is very complicated for the user to continue the work until the scooter is searched without knowing at what timing the scooter is searched.

或いは、複数のカメラ映像に対して一括に、対象人物をキーとした類似顔画像検索を行なう方法もある。非特許文献1のように大規模高速検索を行うには、予め全映像から顔を検出し、特徴量をデータベース化しておく必要がある。しかし、人物が後ろ向きに映っていたりヘルメットを被っていたりすると、検索漏れが生じる。人物像全体の特徴量をデータベース化して類似検索する方法もあるが、検索対象が歩行者とは限らない。自動車、オートバイ等についても専用の特徴量を抽出し、データベース化するのは煩雑である。   Alternatively, there is a method of performing similar face image search using a target person as a key for a plurality of camera videos at once. In order to perform a large-scale high-speed search as in Non-Patent Document 1, it is necessary to detect faces from all videos in advance and create a database of feature values. However, if a person appears backwards or wears a helmet, search omissions occur. Although there is a method of performing a similarity search by creating a database of feature quantities of the entire person image, the search target is not necessarily a pedestrian. It is cumbersome to extract a dedicated feature amount for a car, a motorcycle, etc. and make it into a database.

本発明は、このような従来の事情に鑑み為されたもので、複数のカメラで撮像された同一物体を、画像から取得した複数の物体情報を元に物体を探索し、該当した物体を表示することにより、ユーザが煩雑な作業をすることなく結果を閲覧できる映像検索システムを提供することを目的とする。   The present invention has been made in view of such conventional circumstances, and searches for the same object picked up by a plurality of cameras based on a plurality of object information acquired from images, and displays the corresponding object. Accordingly, an object of the present invention is to provide a video search system in which a user can browse results without performing complicated work.

本発明の一側面では、映像検索システムは、複数のカメラの映像およびその映像分析情報を記録収集する映像検索サーバと、時刻などによる映像検索条件に応じて、映像検索サーバにより撮像された画像および映像分析情報を表示する検索端末を有し、ユーザが選択した任意の物体を、撮像したカメラ以外のカメラの映像から自動的に検索し、検索端末に表示する。   In one aspect of the present invention, a video search system includes a video search server that records and collects video of a plurality of cameras and video analysis information thereof, an image captured by the video search server according to video search conditions such as time, and the like. A search terminal that displays video analysis information is provided, and an arbitrary object selected by the user is automatically searched from videos of cameras other than the captured camera and displayed on the search terminal.

この映像検索システムは、ユーザが選択した物体映像から、二つ以上の特徴情報や撮像範囲の環境情報を取得し、前記物体の特徴情報とカメラの設置情報を用いて、ユーザが選択した物体映像を撮影したカメラ(選択映像ソース)以外で、該選択した物体を撮影したと推定される他のカメラを1つ以上選択したり、更には、上記選択されたカメラに対して、物体の特徴情報およびカメラの設置情報を用いて、撮像された推定時間を算出したりする。   This video search system acquires two or more pieces of feature information and imaging range environment information from an object video selected by the user, and uses the feature information of the object and camera installation information to select the object video selected by the user. Other than the camera (selected video source) that captured the selected object, one or more other cameras that are estimated to have captured the selected object are selected, or the object feature information for the selected camera is selected. In addition, the estimated time of imaging is calculated using the camera installation information.

そして、優先順位の高いカメラの映像から順次、算出された推定範囲時間内で、選択した物体と同一の物体を、特徴情報を用いて探索する。探索した結果、同一物体が見つかった場合は、上記選択した物体の特徴情報に対して、取得した環境情報に応じて、特徴情報の追加および更新を行なう。また、探索結果および上記選択した物体の特徴情報およびカメラの設置情報を用いて、選択した物体の各カメラで撮像された画像および移動経路を示す画面を自動的に生成する。   Then, the same object as the selected object is searched using the feature information within the estimated range time sequentially from the video of the camera with the highest priority. If the same object is found as a result of the search, the feature information is added and updated with respect to the feature information of the selected object according to the acquired environment information. Further, using the search result, the feature information of the selected object, and the installation information of the camera, a screen showing an image taken by each camera of the selected object and a moving path is automatically generated.

本発明によれば、映像検索システムにおいて、複数のカメラで撮像された同一物体を、画像から取得した複数の物体情報を元に物体を探索し、該当した物体および移動経路等の関連情報を表示できる。   According to the present invention, in the video search system, the same object picked up by a plurality of cameras is searched for based on a plurality of object information acquired from the image, and related information such as the corresponding object and a moving route is displayed. it can.

本発明の実施例1に係る映像検索システムの構成図。1 is a configuration diagram of a video search system according to Embodiment 1 of the present invention. 上記映像検索システムの処理の手順の一例を示すフローチャート。The flowchart which shows an example of the procedure of the process of the said video search system. 上記映像検索システムの処理の詳細手順の一例を示すフローチャート。The flowchart which shows an example of the detailed procedure of a process of the said video search system. 上記映像検索システムで使用する検出物体情報及び追跡物体テーブルの一例。An example of the detected object information and tracking object table used with the said video search system. 上記映像検索システムで使用する物体管理データ113の一例を示すAn example of the object management data 113 used in the video search system is shown. 上記映像検索システムの動作説明に用いるキー画像の一例。An example of the key image used for operation | movement description of the said video search system. 監視領域におけるカメラの位置と探索すべき物体の位置の一例を示す図。The figure which shows an example of the position of the camera in the monitoring area | region, and the position of the object which should be searched. 上記映像検索システムのカメラ推定ステップ204を説明する図。The figure explaining the camera estimation step 204 of the said video search system. 候補物体表示ステップ301の表示画像の一例を示す図。The figure which shows an example of the display image of the candidate object display step 301. FIG. 監視領域におけるカメラの位置と全ての該当物体の位置の一例を示す図。The figure which shows an example of the position of the camera in a monitoring area | region, and the position of all the applicable objects. 物体ルート画像表示ステップの表示画像の他の例を示す図。The figure which shows the other example of the display image of an object route image display step. 物体ルート画像表示ステップの表示画像の他の例を示す図。The figure which shows the other example of the display image of an object route image display step. 実施例2の映像検索システムにおける映像探索のシーケンス図。FIG. 10 is a sequence diagram of video search in the video search system according to the second embodiment.

本発明に係る各実施例を、図面を参照して説明する。   Embodiments according to the present invention will be described with reference to the drawings.

図1は、本実施例1の映像検索システムのハードウエア構成を示すブロック図である。本例の映像検索システムは、複数であるn個のカメラ1−1〜1−n、映像検索サーバ2、検索端末3を備える。   FIG. 1 is a block diagram illustrating a hardware configuration of the video search system according to the first embodiment. The video search system of this example includes a plurality of n cameras 1-1 to 1-n, a video search server 2, and a search terminal 3.

カメラ1−1〜1−nは、それぞれの監視対象領域を撮像する。カメラ1−1〜1−nは、撮像した光学画像を映像信号に変換し、この映像信号を画像入力I/F21に入力する。カメラ1−1〜1−nは、IPネットワークを介して映像検索サーバ2に接続してもよく、マイクを内蔵して音声信号もサーバ2に伝送するようにしてもよい。   The cameras 1-1 to 1-n image respective monitoring target areas. The cameras 1-1 to 1-n convert the captured optical images into video signals, and input the video signals to the image input I / F 21. The cameras 1-1 to 1-n may be connected to the video search server 2 via an IP network, or may have a built-in microphone to transmit an audio signal to the server 2.

映像検索サーバ2は、画像入力I/F21、画像メモリ22、CPU23、プログラムメモリ24、ワークメモリ25、記録装置26、撮像情報テーブル27、画像出力I/F28、及びそれらを接続するデータバス29を備える。更に記録装置26は、複数であるn個の個別の記録領域112−1〜112−nと、物体管理データ113を備えている。そして、カメラ1−1〜1−nは画像入力I/F21に接続され、検索端末3は画像出力I/F28に接続されている。   The video search server 2 includes an image input I / F 21, an image memory 22, a CPU 23, a program memory 24, a work memory 25, a recording device 26, an imaging information table 27, an image output I / F 28, and a data bus 29 for connecting them. Prepare. Further, the recording device 26 includes a plurality of n individual recording areas 112-1 to 112-n and object management data 113. The cameras 1-1 to 1-n are connected to the image input I / F 21 and the search terminal 3 is connected to the image output I / F 28.

検索端末3は、ユーザからカメラIDや撮像日時等の情報(以下、検索条件データ)の入力を受付け、その検索条件データを映像検索サーバへ送信する。また検索結果を表示する。また映像検索サーバ2から受信した検索結果を表示する。   The search terminal 3 receives input of information (hereinafter referred to as search condition data) such as camera ID and imaging date / time from the user, and transmits the search condition data to the video search server. Search results are also displayed. Also, the search result received from the video search server 2 is displayed.

映像検索サーバ2において、画像入力I/F21は、入力された映像信号を監視装置2で扱うフォーマット(例えば、幅640画素、高さ480画素)の画像データに変換し、データバス29を介して画像メモリ22に送る。
画像メモリ22は、画像入力I/F21から送られてきた画像データを一時的に保存する。
In the video search server 2, the image input I / F 21 converts the input video signal into image data in a format (for example, width 640 pixels, height 480 pixels) handled by the monitoring device 2, and via the data bus 29. Send to image memory 22.
The image memory 22 temporarily stores the image data sent from the image input I / F 21.

CPU23は、プログラムメモリ24に保存されている動作プログラムに従って、映像解析と映像検索を行う。
映像解析では、ワークメモリ25を使って画像メモリ22に保存された画像の解析を行い、カメラ101の撮像視野内に存在する物体などの情報を得る。そして、物体を検出した時の情報(以下、検出物体情報)をワークメモリ25に一時保存する。例えば、後述の物体確認ステップ202の説明と同様の背景差分法ベースの移動物体検知をし、物体位置にカルマンフィルタ等を適用して追跡処理する。この追跡の初期時には、Haar-like特徴やCoHOG(Co-occurrence Histograms of Oriented Gradients)の検出器を組み合わせ、adaBoostで学習させた識別器を利用して物体のカテゴリ判別、重なった物体の分離、信頼性評価等を行う。
映像検索については物体探索ステップ207で説明する。
The CPU 23 performs video analysis and video search according to the operation program stored in the program memory 24.
In the video analysis, an image stored in the image memory 22 is analyzed using the work memory 25, and information such as an object existing in the imaging field of view of the camera 101 is obtained. Then, information when the object is detected (hereinafter, detected object information) is temporarily stored in the work memory 25. For example, the background difference method based moving object detection similar to that described in the object confirmation step 202 described later is performed, and tracking processing is performed by applying a Kalman filter or the like to the object position. At the beginning of this tracking, combined with Haar-like features and CoHOG (Co-occurrence Histograms of Oriented Gradients) detectors, classifiers of objects using the classifiers learned by adaBoost, separation of overlapping objects, trust Perform sex assessment.
The video search will be described in the object search step 207.

ワークメモリ25は、解析中の画像データや検出物体情報を保持する。この検出物体情報は、例えば、検出された時刻、物体の存在する領域などを示す情報である。   The work memory 25 holds image data being analyzed and detected object information. This detected object information is information indicating, for example, the detected time, the area where the object exists, and the like.

図4に、検出物体情報及び追跡物体テーブルの一例を示す。この検出物体情報及び追跡物体テーブルは映像ソース(カメラ)毎に設けられる。
検出物体情報は、フレーム毎の物体検出(ラベリング)処理の結果が、所定時間分、保持される。検出された時刻はフレームIDで表され、物体の存在する領域(検知物体領域)は、物体の外接矩形の左上と右下の角の座標で表される。このほか、追跡処理に有用な、フレーム内ラベルや物体面積(画素数)等の情報が保持されうる。
追跡物体テーブルは、連続的に検出された、同一であると考えられる物体を集約したデータであり、同一物体毎に、出現フレームID及び退去フレームID、フレーム内ラベル、追跡ラベル、物体特徴の一部(カテゴリや輪郭形状、速度履歴等)が保持される。追跡ラベルは、統合された或いは追跡中の物体にユニークに付されるIDである。出現フレームID及び退去フレームIDは、追跡が開始及び終了した時刻にそれぞれ対応する。追跡中であれば、退去フレームIDは現在のフレームになる。フレーム内ラベルは追跡が終了した(或いは直近の)フレームにおける、その物体のフレーム内ラベルである。種別は、追跡状態やテーブルに追加された理由を示し、追跡失敗(0)、追跡中(1)、検知座標による追跡(2)か、物体特徴(カテゴリ等)による照合を経たもの(3)か、ユーザによりキー画像から指定された物体(4)、カテゴリ判定失敗中(4+失敗回数)等である。追跡物体テーブルは、物体が1度でも検出された時点で追記され、再び検出されることなく所定フレーム数経過した場合に、追跡失敗を示す種別が書き込まれる。もし追跡中に複数の物体の合体や分離が起こったりして物体の一貫性が不確かになる場合、その前後で追跡物体テーブル上の記録を分割し、別の物体として扱うようにする。
FIG. 4 shows an example of detected object information and a tracking object table. The detected object information and the tracking object table are provided for each video source (camera).
As the detected object information, the result of the object detection (labeling) process for each frame is held for a predetermined time. The detected time is represented by a frame ID, and the area where the object exists (detected object area) is represented by the coordinates of the upper left and lower right corners of the circumscribed rectangle of the object. In addition, information such as an intra-frame label and an object area (number of pixels) useful for tracking processing can be held.
The tracking object table is data in which objects that are considered to be the same that are continuously detected are aggregated, and for each same object, an appearance frame ID and a leaving frame ID, an intra-frame label, a tracking label, and an object feature. Parts (category, contour shape, speed history, etc.) are retained. The tracking label is an ID uniquely given to an integrated or tracking object. The appearance frame ID and the leaving frame ID correspond to the times when tracking starts and ends, respectively. If tracking is in progress, the leaving frame ID becomes the current frame. The intra-frame label is the intra-frame label of the object in the frame for which tracking has been completed (or the most recent). The type indicates the tracking state or the reason added to the table. Tracking failure (0), tracking in progress (1), tracking by detected coordinates (2), or after verification by object feature (category etc.) (3) Or an object (4) designated from the key image by the user, category determination failure (4 + number of failures), or the like. The tracking object table is additionally written when an object is detected even once, and a type indicating a tracking failure is written when a predetermined number of frames have passed without being detected again. If the consistency of objects becomes uncertain due to the combination or separation of multiple objects during tracking, the records on the tracking object table are divided before and after that and handled as different objects.

記録装置26は、予めユーザに設定された記録方法に応じて、画像メモリ22等に一時保存された画像データおよびワークメモリ25に一時保存された検出物体情報が書き込まれ、カメラ1−1〜1−nに対応する記録領域112−1〜112−nに保持する。なお、検出物体情報の有無にかかわらず映像にはフレーム毎に撮影時刻を特定できる情報が付与されて記録されることが望ましい。
物体管理データ113は、本実施例に特徴的なものであり、追跡或いは探索した物体の特徴情報(図2の物体特徴収集ステップ203で詳述する)や経路情報を保持する。図5に、物体管理データ113の一例を示す。
In the recording device 26, image data temporarily stored in the image memory 22 and the detected object information temporarily stored in the work memory 25 are written according to a recording method set in advance by the user, and the cameras 1-1 to 1 are written. The recording areas 112-1 to 112-n corresponding to −n are held. Note that, regardless of the presence or absence of detected object information, it is desirable that the video be recorded with information that can specify the shooting time for each frame.
The object management data 113 is characteristic of the present embodiment, and holds feature information (detailed in the object feature collection step 203 in FIG. 2) and route information of the tracked or searched object. FIG. 5 shows an example of the object management data 113.

撮像情報テーブル27は、カメラ1−1〜1−nの設置位置、画角情報、撮像範囲の実距離情報、及び全カメラの位置を網羅した地図情報を保持する。これらの情報は、手動で与えられるほか、カメラ1と通信を行って取得することもできる。   The imaging information table 27 holds the installation positions of the cameras 1-1 to 1-n, the angle of view information, the actual distance information of the imaging range, and map information that covers the positions of all the cameras. These pieces of information can be obtained by communicating with the camera 1 in addition to being given manually.

画像出力I/F28は、検索端末3との間でソケット通信を行うためのネットワークインタフェースであり、検索条件データを受信したり、検索結果の画像等を送信したりする。
CPU23は、映像検索として、プログラムメモリ24に保存されている検索プログラムに従って、検索条件データに該当する画像の照合を行ない、画像が存在する場合は、記録装置26から該当する画像データ及び必要に応じて検出物体情報を読出し、画像出力I/F28を介して検索端末3に送信する。
The image output I / F 28 is a network interface for performing socket communication with the search terminal 3, and receives search condition data and transmits search result images and the like.
As a video search, the CPU 23 collates images corresponding to the search condition data in accordance with a search program stored in the program memory 24. If an image exists, the CPU 23 checks the corresponding image data from the recording device 26 and if necessary. The detected object information is read out and transmitted to the search terminal 3 via the image output I / F 28.

図2は、本例の検索システムにおいて、ユーザが選択した画像に存在する物体を、複数のカメラで撮像された映像データから時系列に探索した結果を表示する手順を示すフローチャートである。
キー画像設定ステップ201では、検索端末3に表示された検索画面において、自動探索すべき物体が表示された画像を指定する操作をユーザが行なうことにより、本処理において主となる画像(以下、キー画像)が設定される。図6にキー画像の一例を示す。このキー画像はカメラ1の撮影視野角のままの画像(フレーム)である。
FIG. 2 is a flowchart illustrating a procedure for displaying, in the search system of the present example, a result of searching an object existing in the image selected by the user in time series from video data captured by a plurality of cameras.
In the key image setting step 201, the user performs an operation for designating an image on which an object to be automatically searched is displayed on the search screen displayed on the search terminal 3, whereby the main image (hereinafter, key key) in this processing is displayed. Image) is set. FIG. 6 shows an example of the key image. This key image is an image (frame) as it is with the photographing viewing angle of the camera 1.

物体確認ステップ202では、キー画像設定ステップ201で設定されたキー画像に探索対象物体が存在するか確認するステップである。一例として周知の背景画像との差分検出や、時間的に近接するフレーム間の差分処理により、前景物体や移動物体が検知でき、検出サイズが所定の範囲内のものを探索対象物体の候補とする。探索対象物体の候補が1体存在する場合は、それがそのまま探索対象物体となり、ステップ203に進む。物体が存在しない場合は画面上に通知して、ユーザ自動探索すべき物体が表示された画像を再指定できるような状態に戻し、再度キー画像設定ステップ201を実施するようにする。また、キー画像に複数の探索対象物体の候補が存在する場合は、いずれか1体の物体を指定させる画面状態とすることで、ユーザに1つの探索対象物体を選択させる。   The object confirmation step 202 is a step for confirming whether a search target object exists in the key image set in the key image setting step 201. As an example, a foreground object or a moving object can be detected by detecting a difference with a known background image or by performing a difference process between temporally adjacent frames, and a candidate whose detection size is within a predetermined range is set as a search target object candidate. . If there is one candidate for the search target object, it becomes the search target object as it is, and the process proceeds to step 203. If there is no object, a notification is made on the screen to return to a state where the image on which the object to be automatically searched by the user can be specified again, and the key image setting step 201 is performed again. In addition, when a plurality of search target object candidates exist in the key image, the user is allowed to select one search target object by setting a screen state in which any one object is designated.

物体特徴収集ステップ203では、映像検索サーバ2は、物体確認ステップ202で設定された探索対象物体について取得可能である全ての特徴を自動的に収集する。キー画像から前後の画像を確認して、探索対象物体がカメラの撮像視野内に進入したときのフレームから退去したときのフレームまでの間の、物体が存在する画像を使用して、例えば、対象物体の「大きさ」、「速度」、「進行方向(進入時/退去時)」、自動車・二輪車・人などの「カテゴリ」、「輪郭形状」、「存在する時刻」、「音」の他、車体の色やナンバープレート、ヘッドライトの個数や光源の位置、服の色や顔画像などの「カテゴリ固有の詳細特徴」などの特徴(以下、物体特徴)を抽出する。これらの特徴として、HOG(Histograms of Oriented Gradients)特徴量もしくはその派生物(時空間CoHOG等)を利用できる。抽出の詳細は後述する。
また、特徴抽出に使用した画像の環境状態(天候、時刻など)も収集する。これは、以降のステップで、得られた物体特徴の信頼性を判断するために使用するものである。
このようにして収集した特徴情報を、物体管理データ113として記録装置26に保存する。
In the object feature collection step 203, the video search server 2 automatically collects all the features that can be acquired for the search target object set in the object confirmation step 202. Check the images before and after the key image, and use the image where the object exists between the frame when the search target object enters the imaging field of the camera and the frame when the object leaves, for example, the target In addition to “size”, “speed”, “direction of travel (when entering / leaving)”, “category” such as automobile, motorcycle, person, etc., “contour shape”, “existing time”, “sound” In addition, features (hereinafter referred to as object features) such as “detailed features specific to the category” such as the color of the vehicle body, the license plate, the number of headlights, the position of the light source, the color of the clothes, and the face image are extracted. As these features, HOG (Histograms of Oriented Gradients) features or their derivatives (such as spatio-temporal CoHOG) can be used. Details of the extraction will be described later.
It also collects the environmental conditions (weather, time, etc.) of the images used for feature extraction. This is used in the subsequent steps to determine the reliability of the obtained object feature.
The feature information collected in this way is stored in the recording device 26 as object management data 113.

カメラ推定ステップ204では、物体特徴収集ステップ203で収集された物体特徴および撮像情報テーブル27を用いて、現在のカメラ以外で探索対象物体が撮像されたと推定されるカメラの選定を行なう。例えば、物体特徴の「進行方向(進入時および退去時)」や「速度」と、撮像情報テーブル27に記載されている各カメラの設置場所を照合して、探索対象物体が通過する可能性があるカメラを洗い出す。そして、選定されたカメラに対して、探索する順序を決定する。探索順序については、撮像情報テーブル27にある道路情報やカメラの向きから、現在のカメラから優先する方角などを予め決定しておく。また、キー画像を撮影した時刻から前の時刻(以降、事前時刻)と後の時刻(以降、事後時刻)で少なくとも2台のカメラを推定するが、事前または事後のどちらを優先するか、または事後のみなど一方向の時間帯のみ物体探索をするなどは、ユーザが経験的に(手動で)決定するようにしても良い。   In the camera estimation step 204, using the object feature collected in the object feature collection step 203 and the imaging information table 27, a camera that is estimated to have captured the search target object other than the current camera is selected. For example, there is a possibility that the object to be searched passes by comparing the “traveling direction (when entering and leaving)” or “speed” of the object feature with the installation location of each camera described in the imaging information table 27. Wash out a camera. Then, the search order for the selected camera is determined. As for the search order, the direction prioritized from the current camera is determined in advance from the road information in the imaging information table 27 and the direction of the camera. In addition, at least two cameras are estimated at a time before the time when the key image was taken (hereinafter referred to as advance time) and a time after that (hereinafter referred to as subsequent time). The user may determine empirically (manually), for example, to search for an object only in a time zone in one direction such as after the fact.

ここで、図7のように監視エリア内にカメラA〜Eの5台が設置されている状態で、探索対象物体がカメラAの映像に映っており、矢印のような左(西)方向への「進行方向」情報を取得した場合を考える。カメラAはある十字路を撮影しており、この「進行方向」情報は、十字路を東から西へ直進したことを示す。このとき、探索対象物体が通過する可能性があるカメラは、例えば重みつきグラフの理論によりB・C・Eの3台と推定される。
検索対象物体の推定移動経路と推定されたカメラとの関係を図8に示す。図8で、実線矢印が事後時刻の推定移動経路、破線矢印が事前時刻の推定移動経路を示す。図8より、事後と推定されるのはカメラBのみ、事前と推定されるのがカメラCおよびEの2台となることが分かる。
Here, with the five cameras A to E installed in the monitoring area as shown in FIG. 7, the search target object is shown in the video of the camera A, and the left (west) direction as indicated by the arrow. Consider the case where the “traveling direction” information is acquired. Camera A is photographing a certain crossroad, and this “traveling direction” information indicates that the crossroad has traveled straight from east to west. At this time, the number of cameras through which the search target object may pass is estimated to be B, C, and E, for example, according to the theory of a weighted graph.
FIG. 8 shows the relationship between the estimated movement path of the search target object and the estimated camera. In FIG. 8, the solid line arrow indicates the estimated movement path at the posterior time, and the broken line arrow indicates the estimated movement path at the previous time. From FIG. 8, it can be seen that only the camera B is estimated to be a posteriori, and two cameras C and E are estimated to be a priori.

なお、カメラの推定は、簡易的には撮像情報テーブル27を参照して、カメラAから所定距離内にあるカメラを、近い順に所定数特定するだけもよい。
グラフを用いる方法では、まず、撮像情報テーブル27を参照して、カメラAが撮影している1乃至複数の道路の内、方向が「進行方向」情報に一致するものを特定する。次に、撮像情報テーブル27の地図情報が有するグラフの隣接行列或いは隣接リストを用い、カメラAに相当するノードから出発して所定のコスト内で辿りつけるノードを全て(或いは所定数に達するまで)検索する。このグラフは、カメラの設置点と主要な交差点等をノードとし、辺には通過所要時間に相当する重みが与えられたグラフである。出発点となるノードが十字路であれば最大で4つの辺があるが、「進行方向」情報及び事前/事後の指定により、最初に辿る隣接ノードは1つに限定される。出発ノードから到着ノードまでの辺の重みの和がコストであるが、これは、所要時間の短い経路を選ぼうとする人の行動心理を模して、自然なルートを検索するためのものである。図8の例ではカメラB・C・Eが検索結果である。
このようなグラフを作成するにあたり、道路の情報には、例えば国土地理院の発行する数値地図を利用できる。この数値地図の交通施設サブパッケージに定義される道路中心線は道路の場所を折れ線で表した空間属性を含む。進行方向により異なる重みを与えられるように有向グラフを作成してもよい。目的であるカメラ設置点間のコスト計算への影響の少ない道路(辺)や交差点(ノード)を削除して、グラフを簡略化することが望ましい。
The estimation of the camera may simply be performed by referring to the imaging information table 27 and specifying a predetermined number of cameras within a predetermined distance from the camera A in the closest order.
In the method using the graph, first, the imaging information table 27 is referred to, and one of the one or more roads photographed by the camera A is identified that matches the “traveling direction” information. Next, using the adjacency matrix or adjacency list of the graph included in the map information in the imaging information table 27, all the nodes that start within the predetermined cost starting from the node corresponding to the camera A (or until the predetermined number is reached) are obtained. Search for. This graph is a graph in which a camera installation point and a main intersection are nodes, and a weight corresponding to the time required for passing is given to each side. If the starting node is a crossroad, there are a maximum of four sides. However, the “adjacent node” to be traced first is limited to one by the “traveling direction” information and prior / subsequent designation. The sum of the weights of the edges from the departure node to the arrival node is the cost. This is to search for a natural route that mimics the behavioral psychology of a person who wants to select a route with a short travel time. is there. In the example of FIG. 8, cameras B, C, and E are search results.
In creating such a graph, for example, a numerical map issued by the Geographical Survey Institute can be used as road information. The road centerline defined in the transport facility subpackage of this numerical map includes a spatial attribute that represents the location of the road as a broken line. A directed graph may be created so that different weights are given depending on the traveling direction. It is desirable to simplify the graph by deleting roads (sides) and intersections (nodes) that have little influence on the cost calculation between the target camera installation points.

次に、探索順序を決定する。もっとも簡単な方法では、推定された3台のうち、キー画像を得たカメラAから設置距離の近い順、或いは、グラフを用いている場合はノード探索時のコストの小さい順とする。
やや改良された方法では、キー画像を得たカメラAの位置を基準とし、矢印で示される「進行方向」と、推定された各カメラの場所の方向とのなす角に応じた重みを、上記の距離やコストに付与する。図8の例では、事前時刻として複数のカメラ(カメラCおよびE)が推定されている。この場合は、「進行方向」情報と逆向き(つまり到来方向)に伸ばした半直線と、各カメラの方向の半直線との成す角を計算し、角度が0ならば1、角度が180に近づくほど単調減少する重みを与える。この結果、キー画像のカメラAよりも右(東)側に存在するカメラを優先的に実施するようにすることで、移動経路に違和感のないカメラを優先的に選定できるようになる。
Next, the search order is determined. In the simplest method, among the estimated three units, the order of the installation distance from the camera A that has obtained the key image is the closest, or if a graph is used, the order of the cost when searching for nodes is the lowest.
In the slightly improved method, the weight according to the angle formed by the “traveling direction” indicated by the arrow and the estimated direction of the location of each camera is set on the basis of the position of the camera A from which the key image is obtained. Of distance and cost. In the example of FIG. 8, a plurality of cameras (cameras C and E) are estimated as the prior time. In this case, the angle formed by the half line extending in the opposite direction (that is, the direction of arrival) to the “traveling direction” information and the half line in the direction of each camera is calculated. If the angle is 0, the angle is 1 and the angle is 180. Gives a weight that decreases monotonously as it gets closer. As a result, by preferentially implementing the camera existing on the right (east) side of the camera A of the key image, it becomes possible to preferentially select a camera that does not feel uncomfortable in the movement path.

より改良された方法では、グラフを用いてノード探索する際に、ノードでの分岐に応じて確率を配分する。図8の例では、カメラAから経路を辿るとカメラCへの道とカメラEへの道に分岐するので、一例として、カメラCおよびEそれぞれの確率を0.5と0.5に配分する。この配分は、撮像情報テーブル27内にグラフ情報としてノード毎に保持しておいてもよく、「進行方向」情報等の物体特徴に応じて自動で配分してもよい。
ここでは、事前と事後の両方を探索対象とし、カメラB、カメラC、カメラEの順で各カメラの映像を探索することに決定されるものとする。
In a more improved method, when searching for a node using a graph, a probability is allocated according to a branch at the node. In the example of FIG. 8, when the route from the camera A is traced, a branch to the path to the camera C and the path to the camera E is made. Therefore, as an example, the probabilities of the cameras C and E are allocated to 0.5 and 0.5, respectively. . This distribution may be held for each node as graph information in the imaging information table 27, or may be automatically distributed according to object features such as “traveling direction” information.
Here, it is assumed that it is determined to search for images of each camera in the order of camera B, camera C, and camera E, with both pre- and post-events as search targets.

図2に戻り、探索カメラ確認ステップ205では、カメラ推定ステップ204において探索するカメラが一台以上存在するかを確認する。ここでは、カメラB、C、Eと3台のカメラがあるため、ステップ206へ進む。また、カメラ推定ステップ204において探索すべきカメラが一台も存在しなかった場合は、探索終了としてステップ211(後述)に進む。   Returning to FIG. 2, in the search camera confirmation step 205, it is confirmed whether there are one or more cameras to be searched in the camera estimation step 204. Here, since there are three cameras, cameras B, C, and E, the process proceeds to step 206. When there is no camera to be searched in the camera estimation step 204, the search ends and the process proceeds to step 211 (described later).

未探索カメラ確認ステップ206では、カメラ推定ステップ204で決定されたカメラの映像で探索対象物体の探索が実施されたかを確認するステップである。初期的には、推定された全てのカメラの映像が未探索のため、物体探索ステップ207へ進む。   The unsearched camera confirmation step 206 is a step of confirming whether the search target object has been searched using the camera image determined in the camera estimation step 204. Initially, since all the estimated video images of the camera have not been searched, the process proceeds to the object search step 207.

物体探索ステップ207では、推定されたカメラの映像に存在する物体から、探索対象物体との特徴を照合して同一と思われる物体を検索する(映像検索)。まずカメラBの映像を用いて探索を開始するが、図7のように、キー画像の撮像時刻が21時15分であると仮定して以降説明する。
キー画像の撮像時刻および物体特徴収集ステップ203で収集した物体特徴の「カテゴリ」や「速度」と、撮像情報テーブル27に保存されているカメラの設置情報から、カメラBに探索対象物体が進入する時間を算出する。算出した結果、カメラBの推定撮像時刻は21時17分だとする。この時刻に対してある一定の幅、例えば前後5分を追加することで誤差による見落としを回避する映像を使用して探索を実行する。ただし、カメラAでの撮像時刻21時15分より前の時間は除外する。
In the object search step 207, an object that is considered to be the same is searched from the objects existing in the estimated camera image by comparing the characteristics with the object to be searched (image search). First, the search is started using the video of the camera B. As shown in FIG. 7, the following description will be made assuming that the key image capturing time is 21:15.
The search target object enters the camera B from the key image capturing time and the object feature “category” and “speed” collected in the object feature collecting step 203 and the camera installation information stored in the image capturing information table 27. Calculate time. As a result of the calculation, it is assumed that the estimated imaging time of the camera B is 21:17. A search is executed using a video that avoids an oversight due to an error by adding a certain width, for example, 5 minutes before and after this time. However, the time before the imaging time 21:15 with the camera A is excluded.

従ってカメラBでは、撮像時刻21時15分から21時22分の7分間の映像を検索すべき映像(以下、区間映像)とする。この区間映像に存在する物体に対して、物体特徴収集ステップ203で収集した物体特徴と同様に特徴の抽出を行なう。区間映像に存在する物体の有無に関しては、記録装置26に記録された時点で同時に付加された検知情報(検知物体領域、カテゴリ等)を元にして、物体が存在するフレームのみ特徴抽出を実施してもよいし、区間映像全てに対して差分処理などを用いて物体検知を行ない、その結果として得られた物体領域の画像に対して特徴抽出を行なうようにしてもよい。物体管理データ113に過去の追跡処理結果が保持されていれば、その物体を採用できる。   Therefore, in the camera B, the video for the 7 minutes from 21:15 to 21:22 is set as the video to be searched (hereinafter, section video). In the same way as the object features collected in the object feature collection step 203, features are extracted from the objects present in the section video. Regarding the presence / absence of an object present in the section video, feature extraction is performed only on the frame in which the object exists based on the detection information (detected object region, category, etc.) added at the same time when it is recorded in the recording device 26. Alternatively, object detection may be performed on the entire section video using difference processing or the like, and feature extraction may be performed on the image of the object region obtained as a result. If the past tracking process result is held in the object management data 113, the object can be adopted.

現在参照しているフレーム中の物体から得られた物体特徴と探索対象物体の物体特徴とを照合して、予め設定したしきい値以上の類似度が得られた場合、現在の物体と探索対象物体は同一物体であると判定する。物体特徴の照合方法は、各特徴量に対してしきい値を設け、複数の結果に基づいて判定するようにしても良いし、全ての特徴量(弱識別器)から1つの総合値を算出する式を準備しておき、得られた総合値から判定するようにしてもよい。また、環境状態に応じて物体特徴にプライオリティを設けておくことで照合結果の信頼性を向上させる。例えば、キー画像の時刻や区間画像の時刻が21時台と夜間であり、撮像情報テーブル27に保存されているカメラにおける撮像範囲内の照明情報と合わせて、撮像範囲が一定以下の照度である場合は低コントラスト時刻と判定し、低コントラスト環境で特徴抽出精度が低下する「物体の色」や「輪郭形状」などの特徴による照合のプライオリティを下げ、逆に昼夜を問わない「音」や夜間特有の「ヘッドライト」に関連する特徴のプライオリティを上げることにより、環境変化によって精度が変動しないような照合処理を実施する。また、区間映像に存在する物体は一定時間、少なくとも数フレームは画面内に存在することを前提として、連続して照合結果が一致であると判定された場合、探索対象物体と同一であると見做す。   If the object feature obtained from the object in the currently referenced frame is compared with the object feature of the search target object and a similarity equal to or greater than a preset threshold is obtained, the current object and the search target It is determined that the objects are the same object. In the object feature matching method, a threshold value may be provided for each feature amount, and determination may be made based on a plurality of results, or one total value is calculated from all feature amounts (weak classifiers). It is also possible to prepare an expression to be determined and determine from the obtained total value. In addition, the reliability of the collation result is improved by providing a priority for the object feature according to the environmental state. For example, the time of the key image or the time of the section image is in the night of 21:00 and night, and the illumination intensity within the imaging range of the camera stored in the imaging information table 27 is not more than a certain illuminance. In this case, it is determined that the time is low contrast time, and the priority of collation based on features such as “object color” and “contour shape” that lower the feature extraction accuracy in a low contrast environment is lowered. By increasing the priority of the features related to the specific “headlight”, a matching process is performed so that the accuracy does not fluctuate due to environmental changes. Also, assuming that the objects present in the section video are present in the screen for a certain period of time and at least several frames, if it is determined that the matching results are consistently the same, the object is considered to be the same as the search target object. Hesitate.

また、本ステップを高速に実施するため、探索対象物体と大きく特徴が異なる場合、例えば、「カテゴリ」が異なるなどの場合は現在の物体に対する特徴抽出処理を打ち切り、次に存在する物体の特徴抽出処理に移る。また、本説明では同一と判断される物体を見つけても区間映像内は全て探索することを想定しているが、物体を見つけた時点で物体探索ステップ208を終了して、ユーザに探索対象物体と同一であるかを確認する画面を表示するようにして、異なる物体であるとユーザに操作された場合は、物体探索ステップ207を再開して区間映像での未探索の映像を照合処理するようにして処理時間を短縮するようにしてもよい。
ここでは、探索対象物体と同一であると照合判定された物体が2体存在するとして次のステップへ進む。
Also, in order to perform this step at high speed, if the feature is significantly different from the search target object, for example, if the “category” is different, the feature extraction process for the current object is aborted, and feature extraction of the next existing object is performed. Move on to processing. In this description, it is assumed that even if an object that is determined to be the same is found, the entire section video is searched. However, when the object is found, the object search step 208 is ended and the search target object is displayed to the user. When the user operates the different object, the object search step 207 is restarted to check the unsearched video in the section video. Thus, the processing time may be shortened.
Here, it is assumed that there are two objects determined to be identical to the search target object, and the process proceeds to the next step.

該当物体確認ステップ208は、物体探索ステップ207において探索対象物体と同一の物体が存在するかを確認するステップである。本説明では、先のステップで2物体が該当したため、次のステップへ進む。また、1体も見つからなかった場合は、探索カメラ確認ステップ205へ戻り、未探索のカメラがあれば、再度物体探索を実施する。   The corresponding object confirmation step 208 is a step of confirming whether or not the same object as the search target object exists in the object search step 207. In this description, since two objects correspond in the previous step, the process proceeds to the next step. If no camera is found, the process returns to the search camera confirmation step 205. If there is an unsearched camera, the object search is performed again.

物体数確認ステップ209では、該当する物体が1体であるかを確認するステップである。1体のみであれば次のステップに進む。また、本説明では2体あるため“1”へ進み、以降図3のフローチャートで説明する。
候補物体表示ステップ301では、図9のように、照合結果から複数の物体が探索されたという通知と、一連の映像中で最も大きく撮影されているなど各物体の詳細を確認しやすい画像をそれぞれ検索端末3に表示させる。
探索物体選択ステップ302では、候補物体表示ステップ301で表示された画面から、ユーザが選択した画像の物体または該当無しの情報を取得する。
選択物体有無ステップ303では、ユーザが選択した画面の物体情報から、いずれか一体の物体が選択された場合は“2”に進み、該当無しと選択された場合は“3”に進む(図2のフローチャートに戻る)。
なお、ここでは、探索対象物体と同一であると照合判定された物体が複数存在する場合のみユーザへの確認処理を実施しているが、一体の場合でも同様にユーザへの確認処理をすることによって、ユーザによる画像確認および操作が増加するが、誤った照合判定結果による継続探索を未然に防止するような手段にしてもよい。
The object number confirmation step 209 is a step of confirming whether the corresponding object is one body. If there is only one, go to the next step. Further, since there are two bodies in this description, the process proceeds to “1”, and will be described with reference to the flowchart of FIG.
In candidate object display step 301, as shown in FIG. 9, a notification that a plurality of objects have been searched from the collation result and an image that makes it easy to confirm the details of each object such as the largest image taken in a series of images are provided. It is displayed on the search terminal 3.
In the search object selection step 302, from the screen displayed in the candidate object display step 301, the object of the image selected by the user or the information not applicable is acquired.
In the selected object presence / absence step 303, if any one of the objects is selected from the object information on the screen selected by the user, the process proceeds to “2”, and if not applicable, the process proceeds to “3” (FIG. 2). (Return to the flowchart)
Here, the confirmation process for the user is performed only when there are a plurality of objects determined to be the same as the search target object, but the confirmation process for the user is similarly performed even in the case of integration. Thus, although the number of image confirmations and operations by the user increases, a means for preventing a continuous search based on an erroneous collation determination result may be used.

物体特徴更新ステップ210では、物体探索ステップ207で探索した物体の物体特徴を、物体管理データ113に追加或いは更新する。該当物体確認ステップ208で該当と判断された探索対象物体(該当物体)であれば、その該当物体とキー画像の物体が、同じ同一物体コレクションのメンバーとなる。図5に示すように、同一物体コレクションは、そのIDと、メンバーの個数、経路情報、及びメンバー数分の物体特徴及び統合情報のセットで構成される。
この時、「進行方向」や「速度」、「時刻」など、同一物体でもカメラに映るたびに発生する情報は、それぞれの「物体特徴」に含まれて保持される。一方、「輪郭形状」や「服装のパターン」などは現在保持する特徴情報と比較して一致する場合は、それらを統合して、より信頼性が高い特徴情報を生成したり、或いはその情報の信頼度を高める更新をし、照合判定でのプライオリティを上げることができる。
In the object feature update step 210, the object feature of the object searched in the object search step 207 is added or updated to the object management data 113. If the search target object (corresponding object) is determined to be relevant in the relevant object confirmation step 208, the relevant object and the object of the key image become members of the same object collection. As shown in FIG. 5, the same object collection includes a set of ID, the number of members, route information, and object features and integrated information for the number of members.
At this time, information such as “traveling direction”, “speed”, and “time”, which is generated every time the same object appears on the camera, is included in each “object feature” and held. On the other hand, if “contour shape”, “clothing pattern”, etc. match the currently held feature information, they can be integrated to generate more reliable feature information or Updates that increase the reliability can increase the priority in collation determination.

更に、環境状態に応じて特徴情報を更新するか判定し、信頼性の低いと想定される特徴情報は更新しないことが望ましい。例えば、低コントラスト状態で取得された「輪郭形状」や「物体の色」情報などは信頼性が低いため、更新すべき特徴情報から除外する。このように情報更新することで、安定した物体特徴情報で精度の高い物体照合が可能となる。
本ステップ終了後、カメラ推定ステップ204へ戻る。
Furthermore, it is desirable to determine whether to update the feature information according to the environmental state, and not to update the feature information that is assumed to be low in reliability. For example, “contour shape” and “object color” information acquired in a low contrast state has low reliability, and is excluded from the feature information to be updated. By updating information in this manner, highly accurate object collation can be performed with stable object feature information.
After the end of this step, the process returns to the camera estimation step 204.

別のカメラの映像探索を行うため、再度、カメラ推定ステップ204の処理を行なう。ここで、最優先のカメラであるカメラBの映像探索が終了しているが、キー画像に対して事後時刻での探索であったため、次に事前時刻での進入が推定されるカメラCを探索すべきカメラとして、先程と同様に探索カメラ確認ステップ205、未探索カメラ確認ステップ206、物体探索ステップ207を実施する。物体探索ステップ207を実施した結果、本例では該当物体は「無し」として、該当物体確認ステップ208から再び未探索カメラ確認ステップ206へ戻る。
今度は、事前時刻での進入が推定されるカメラEを探索すべきカメラとして、探索カメラ確認ステップ205、未探索カメラ確認ステップ206、物体探索ステップ207を実施する。ここで、該当物体が1体存在するとした場合、該当物体確認ステップ208、物体数確認ステップ209を通過し、物体特徴更新ステップ210で再度物体管理データ113に保存される特徴情報に対して、物体探索ステップ207で探索した物体の特徴情報の更新および追加を行なった後、再度カメラ推定ステップ204へ戻る。
In order to search for a video from another camera, the camera estimation step 204 is performed again. Here, the video search of the camera B, which is the highest priority camera, has been completed, but since the search was performed at the posterior time with respect to the key image, the camera C that is estimated to be entered at the previous time next is searched. As the camera to be used, the search camera confirmation step 205, the unsearched camera confirmation step 206, and the object search step 207 are performed in the same manner as described above. As a result of performing the object search step 207, the corresponding object is determined to be “none” in this example, and the process returns from the corresponding object confirmation step 208 to the unsearched camera confirmation step 206 again.
This time, a search camera confirmation step 205, an unsearched camera confirmation step 206, and an object search step 207 are performed as a camera to be searched for the camera E estimated to enter at the previous time. Here, if there is one corresponding object, the object information corresponding to the feature information that passes through the corresponding object confirmation step 208 and the object number confirmation step 209 and is stored again in the object management data 113 in the object feature update step 210 is detected. After updating and adding the feature information of the object searched in the search step 207, the process returns to the camera estimation step 204 again.

図10に、この時点で収集されている各カメラでの探索対象物体の立ち位置とその時刻情報を示す。
当初カメラ推定ステップ204で推定されたカメラB、C、Eの全ての映像探索は終了したが、十分な映像が見つからなかった場合、ユーザは、探索対象物体が新たに撮像されたと推定されるカメラを含め、未探索のカメラ及び映像区間の選定を行なうことができる。例えば、事後時刻の映像はカメラBを始点として、事前時刻の映像はカメラEを始点として、物体特徴および撮像情報テーブル27を用いてカメラを選定する。
本例では、図7に示したように、それぞれのカメラの事前事後を撮像するカメラが監視領域内には存在しないことから、選定されるカメラは無いという結果になる。
FIG. 10 shows the standing position of the search target object at each camera collected at this time and the time information thereof.
When all the video searches of the cameras B, C, and E estimated in the initial camera estimation step 204 have been completed, but a sufficient video is not found, the user is assumed to have newly captured the search target object. The unsearched camera and the video section can be selected. For example, a camera is selected using the object feature and imaging information table 27, starting from the camera B for the posterior time image and starting from the camera E for the previous time image.
In this example, as shown in FIG. 7, there is no camera that picks up the previous and subsequent images of each camera in the monitoring area, so that no camera is selected.

探索カメラ確認ステップ205では、探索すべきカメラが0であるため物体ルート生成ステップ211に進む。
物体ルート生成ステップ211では、物体管理データ113に保存された物体特徴および撮像情報テーブル27を用いて、探索対象物体の確からしい移動経路を生成する。本例では、既に探索された該当物体が2体存在しており、其々の各種情報から移動経路を生成するが、探索物体が全く存在しない場合は、カメラの撮像範囲を通らない移動経路を撮像情報テーブル27を用いて生成する。
In the search camera confirmation step 205, since the camera to be searched is 0, the process proceeds to the object route generation step 211.
In the object route generation step 211, a probable movement path of the search target object is generated using the object feature and the imaging information table 27 stored in the object management data 113. In this example, there are two corresponding objects that have already been searched, and a movement path is generated from each of the various information. If there is no search object at all, a movement path that does not pass through the imaging range of the camera is generated. It is generated using the imaging information table 27.

物体ルート画像表示ステップ212では、図12に示すように、各カメラの映像で探索された探索対象物体の表示と、探索対象物体が通過した経路を表示する。図12の例では、地図画像上に、物体の移動経路と、各カメラでの探索対象物体のサムネイル画像を表示している。サムネイル画像を選択することによって、探索対象物体が通過する映像を再生するようにしてもよい。また、通過経路生成時に予測された幾つかの候補がある場合は、点線で表示したり確度に応じて色を薄く表示したりすることで予測経路が存在することを示す。
このように、新たに類似する物体が発見されたときにユーザに確認を求めるようにしたので、経路の絞り込みをインタラクティブに行うことができる。
In the object route image display step 212, as shown in FIG. 12, the search target object searched by the video of each camera and the route through which the search target object has passed are displayed. In the example of FIG. 12, the moving path of the object and the thumbnail image of the search target object with each camera are displayed on the map image. You may make it reproduce | regenerate the image | video through which a search object passes by selecting a thumbnail image. In addition, when there are some candidates predicted at the time of generating the passage route, the prediction route exists by displaying it with a dotted line or displaying the color lightly according to the accuracy.
In this way, since a confirmation is requested from the user when a new similar object is found, the route can be narrowed down interactively.

なお本例では、探索すべきカメラを自動で推定する説明を行なったが、予め移動経路が絞れている場合などを考慮して、ユーザが探索を優先すべきカメラを指定することで効率よく物体探索を行なうようにしてもよい。また、既存の記録画像に対して任意の物体探索を実施する説明を行なったが、探索対象物体が他のカメラの範囲内を通過するとリアルタイムに推測した場合は、フレームレートや画質を上げるなどで物体映像を詳細に記録するような手段を追加してもよい。また、探索物体が見つからなかった場合などのために、キー画像のカメラから設置位置が近い順に、配置されているすべてのカメラに対して、ある一定の範囲時間内で物体探索を実施する強制探索モードなどを設けてもよい。   In this example, the camera to be searched is automatically estimated. However, in consideration of the case where the moving route is narrowed down in advance, the user can efficiently specify the object to which the search should be prioritized. A search may be performed. In addition, an explanation has been given of performing an arbitrary object search on an existing recorded image. However, if it is estimated in real time that the search target object passes within the range of another camera, the frame rate and image quality can be increased. Means for recording the object image in detail may be added. In addition, for example, when a search object is not found, a forced search that performs an object search within a certain range of time for all the arranged cameras in the order of the installation position from the camera of the key image. A mode or the like may be provided.

本実施例2では、先の実施例1の映像検索システムの物体探索ステップ207において、物体追跡や物体特徴の情報が全くない圧縮符号化映像から映像探索する動作の詳細を説明する。
図13は、本例の映像探索のシーケンス図である。映像探索を行う基本的な機能単位として、映像復号部、物体検出・追跡部、カテゴリ化・特徴量抽出部、及び類似判断部があり、この中で処理負荷が最も大きいのは映像復号部である。図13ではCPU時間を重視して示してある。
In the second embodiment, details of an operation for searching for a video from a compressed encoded video having no object tracking or object feature information in the object search step 207 of the video search system of the first embodiment will be described.
FIG. 13 is a sequence diagram of video search in this example. As basic functional units for performing video search, there are a video decoding unit, an object detection / tracking unit, a categorization / feature amount extraction unit, and a similarity determination unit. Among them, the video decoding unit has the largest processing load. is there. In FIG. 13, the CPU time is emphasized.

映像復号部(デコーダ)は、H.264方式で符号化された映像を復号する。このデコーダは、復号映像品質を指定することができ、VGAサイズの記録映像であれば、品質を妥協することで撮影時のフレームレートの数十倍で復号できる。また、画面全体を完全に復号するのではなく、例えば画面を16分割した領域を任意指定し、その領域でのみ再構築画像を生成し、その領域外を参照する動き補償等を全て省略することもできる。H.264では動きのない領域はスキップマクロブロックとなるため、所定の指示を受けたデコーダは、Iスライスを除き毎フレーム、画面全体に対してマクロブロック単位での動きの有無を出力する。また任意のプロセッサ数を指定してマルチプロセッサで実行したり、GPUで実行することもできる。
本例では、物体検出・追跡部、カテゴリ化・特徴量抽出部、及び類似判断部は、統合された1つのプロセスとして実行され、1フレーム分の処理を完了すると、実行権を手放すシステムコール(POSIX システムであればsched_yield)を行う。或いは、各部をそれぞれを子プロセス或いはユーザレベルスレッドとしてfork(prefork)してもよい。
また実際には、リレーショナルデータベース(RDB)サーバのプロセスも1つ以上起動しており、物体特徴の登録、検索等を提供する。デコーダやRDBサーバはI/O待ちが発生しうるので、これらは別プロセスにして、OSにCPU時間を管理させるものとする。デコーダや物体検出・追跡部、カテゴリ化・特徴量抽出部、及び類似判断部は、検索端末3で実行させてもよい。
The video decoding unit (decoder) decodes video encoded by the H.264 method. This decoder can specify the decoded video quality, and if it is a recorded video of VGA size, it can be decoded at several tens of times the frame rate at the time of shooting by compromising the quality. Also, instead of completely decoding the entire screen, for example, arbitrarily specifying a region obtained by dividing the screen into 16 regions, generating a reconstructed image only in that region, and omitting all motion compensation etc. that refer to the outside of the region You can also. In H.264, an area with no motion is a skip macroblock, and the decoder that has received a predetermined instruction outputs the presence or absence of motion in units of macroblocks for each frame and the entire screen except for the I slice. In addition, an arbitrary number of processors can be specified and executed by a multiprocessor, or can be executed by a GPU.
In this example, the object detection / tracking unit, the categorization / feature amount extraction unit, and the similarity determination unit are executed as one integrated process, and when the processing for one frame is completed, a system call that releases the execution right ( If it is a POSIX system, execute sched_yield). Alternatively, each unit may be fork (prefork) as a child process or a user level thread.
Also, in practice, one or more relational database (RDB) server processes are running to provide object feature registration, search, and the like. Since the decoder and RDB server may wait for I / O, these are assumed to be separate processes and allow the OS to manage CPU time. The decoder, the object detection / tracking unit, the categorization / feature amount extraction unit, and the similarity determination unit may be executed by the search terminal 3.

動作を説明する。
最初に、デコーダは、ユーザからの映像ファイルや再生開始点の指定に応じて(拾得メッセージを受けて)起動し、スタンバイする。再生開始点は、実施例1の物体探索ステップ207で求めた映像区間の先頭に相当する。
ほぼ同時に、物体検出・追跡部も、ユーザからの要求に応じて(拾得メッセージを受けて)起動し、デコーダに再生(或いは新たな復号フレーム)を要求する。またソフトウェアポーリング等により共有メモリの定期的な監視を開始する。またログ用のテキストファイルを開き、映像探索の対象となる映像ファイルおよび再生開始点、現在日時等の情報を書き込む。
これを受けてデコーダは、映像復号化を開始する。指定された再生開始点は、その直前のIDRフレームに変更されうる。復号された映像はフレーム毎の画像データとして、再生位置(映像の先頭からの経過時間)情報等とともに共有メモリ上に書き出される。
次に、物体検出・追尾部が、背景フレームを作成する。最初は復号フレームを単純に加算していき、4、8、16ときりのよいフレーム数になったところでそれを仮の背景フレームとし、以後、仮の背景と差分のある領域を除外して平均化することで、背景フレームを得る。
The operation will be described.
First, the decoder is activated (in response to a pick-up message) in accordance with the designation of the video file or playback start point from the user, and stands by. The reproduction start point corresponds to the head of the video section obtained in the object search step 207 of the first embodiment.
At almost the same time, the object detection / tracking unit is activated in response to a request from the user (in response to a pick-up message), and requests the decoder to play back (or a new decoded frame). Also, periodic monitoring of the shared memory is started by software polling or the like. Also, a log text file is opened, and information such as a video file to be searched for video, a playback start point, and the current date and time is written.
In response to this, the decoder starts video decoding. The designated playback start point can be changed to the immediately preceding IDR frame. The decoded video is written on the shared memory as image data for each frame together with information such as reproduction position (elapsed time from the top of the video).
Next, the object detection / tracking unit creates a background frame. At first, the decoded frames are simply added, and when the number of frames is as good as 4, 8, 16, it is used as a temporary background frame. To obtain a background frame.

背景フレームが用意できると、物体検出・追跡部は、デコーダによる復号フレームの書き出しを感知するたびに、背景差分のラベリングによる物体検出と、物体の追跡処理を開始する。追跡処理は複数の物体に対して並列に行われる。追尾結果は、追跡物体テーブル(図4)として蓄積されるほか、所定の条件を満たすと、カテゴリ化・特徴量抽出部へ、当該物体の部分画像とともに(別プロセスの場合は非同期で)渡される。所定の条件としては、物体の画像上のサイズが所定値を超えた、所定値を超える前に追尾終了した、等であり、詳細は後述する。追跡物体は追跡ラベルにより区別される。   When a background frame is prepared, the object detection / tracking unit starts object detection and object tracking processing by labeling the background difference every time it senses writing of a decoded frame by the decoder. The tracking process is performed on a plurality of objects in parallel. The tracking result is accumulated as a tracking object table (FIG. 4), and when a predetermined condition is satisfied, it is passed to the categorization / feature amount extraction unit together with a partial image of the object (in the case of another process, asynchronously). . The predetermined condition is that the size of the object on the image exceeds a predetermined value, the tracking is finished before the predetermined value is exceeded, and the details will be described later. Tracking objects are distinguished by tracking labels.

カテゴリ化・特徴量抽出部は、追跡結果を受け取ると、必要に応じて追尾物体画像のサイズのスケーリングをする。スケーリングの1つの目的は、物体画像サイズが、カメラと物体の距離に依存しないようにすることであり、撮像情報テーブル114のカメラパラメータに基づき、画像上での位置から物体の距離を推定して行う。このスケーリングを行ったにもかかわらず物体画像サイズが大きい場合、その画像は複数の物体を含んでいる可能性があることが分かる。他のスケーリングでは、画像のサイズを常に一定にする。   Upon receiving the tracking result, the categorization / feature amount extraction unit scales the size of the tracking object image as necessary. One purpose of scaling is to make the object image size independent of the distance between the camera and the object. Based on the camera parameters of the imaging information table 114, the object distance is estimated from the position on the image. Do. If the object image size is large in spite of this scaling, it can be seen that the image may include a plurality of objects. For other scalings, the image size is always constant.

その後、探索対象物体のカテゴリに対応する識別器を使って、カテゴリを判定する。例えば人を探している場合、人識別器のみを試行すればよい。車両は、車種により外見が多様であり、日中、照明のある夜間、真っ暗な夜間(ヘッドライト等だけが映っている)で映り方に差異が大きく、これらに応じて多数の識別器が存在するが、基本的には、探索対象物体の識別に成功した識別器のみを試行すればよい。識別は、部分画像内で位置(やスケール)を変えながら識別器の値が高くなる場所を走査する処理であり、初期的には、走査範囲は広めにとる。部分画像が物体の影を含む場合、識別位置(部分画像内での相対位置)を学習することで、同じカメラで同じ時間帯に撮影された映像に対しては走査範囲を絞ることができる。識別器の値が最大となる位置で閾値処理し、真であれば、探索対象のカテゴリに一致したと判定され、続いて類似検索用の特徴量抽出を行う。偽であれば、カテゴリ非該当である旨と閾値処理前の識別器の値を、物体検出・追尾部に返す。
特徴量抽出では、識別器で判定された位置で物体画像を再度切り出して、カテゴリに固有の特徴量を抽出する。カテゴリが人の場合、更に顔識別器を適用して顔領域を検出し、顔領域から特徴量を抽出し、顔領域以外(つまり体)から服の色等を抽出する。特徴量がHOGであり、識別器もHOGベースであれば、識別器で行った計算を再利用できる。抽出が完了すると、特徴量を、それが抽出されたときのフレームID(再生位置)とともに類似判定部に渡す。
Thereafter, the discriminator corresponding to the category of the search target object is used to determine the category. For example, if you are looking for a person, you only need to try the person identifier. The appearance of the vehicle varies depending on the type of vehicle, and there is a large difference in how it is projected during the day, at night with lighting, and at night when it is dark (only the headlights etc. are reflected). However, basically, only the classifiers that have successfully identified the search target object need be tried. Discrimination is a process of scanning a place where the value of the discriminator becomes high while changing the position (or scale) in the partial image, and the scan range is initially widened. When the partial image includes the shadow of the object, the scanning range can be narrowed down for images taken in the same time zone with the same camera by learning the identification position (relative position in the partial image). Threshold processing is performed at the position where the value of the discriminator is maximum, and if it is true, it is determined that it matches the category to be searched, and subsequently, a feature quantity for similarity search is extracted. If false, the fact that the category is not applicable and the value of the discriminator before threshold processing are returned to the object detection / tracking unit.
In the feature amount extraction, the object image is cut out again at the position determined by the classifier, and the feature amount specific to the category is extracted. When the category is a person, a face discriminator is further applied to detect a face area, feature amounts are extracted from the face area, and clothes color and the like are extracted from other than the face area (that is, body). If the feature quantity is HOG and the classifier is also HOG-based, the calculation performed by the classifier can be reused. When the extraction is completed, the feature amount is passed to the similarity determination unit together with the frame ID (reproduction position) at the time of extraction.

類似判定部は、予め抽出されていた探索対象物体の特徴量と、カテゴリ化・特徴量抽出部からの特徴量の非類似度(重み付ノルム)を計算し、類似/非類似の判定結果と非類似度の値をカテゴリ化・特徴量抽出部へ返す。類似(非類似度が閾値未満)のときに両者は同一物体(人物)であると判定し、ユーザへ向けてフレームIDや追跡ラベル等とともに通知する(消失メッセージ)。
ユーザ側GUIでは、ウィンドウが存在しなければ、新たに図9の様な確認画面ウィンドウを作成し、ユーザの確認操作待ちであれば、確認画面に表示する画像を追加していく。
The similarity determination unit calculates the feature amount of the search target object extracted in advance and the dissimilarity (weighted norm) of the feature amount from the categorization / feature amount extraction unit, and the similarity / dissimilarity determination result Return the dissimilarity value to the categorization / feature amount extraction unit. When they are similar (dissimilarity is less than the threshold), both are determined to be the same object (person), and are notified to the user together with a frame ID, a tracking label, and the like (disappearance message).
In the user side GUI, if the window does not exist, a confirmation screen window as shown in FIG. 9 is newly created. If waiting for the user's confirmation operation, an image to be displayed on the confirmation screen is added.

カテゴリ化・特徴量抽出部は、受け取った判定結果と非類似度に応じて、RDBサーバへSQL文を発行する。判定結果が類似/非類似の両方とも、当該物体の物体特徴のカテゴリ判定結果とカテゴリ信頼度を挿入(insert)し、またカテゴリのサブテーブルを作成し、カテゴリ固有の特徴量を挿入する。判定結果が類似のときは、同一物体コレクションのテーブルの有無を調べ、なければ作成し、図4に示す各データを挿入或いは更新することができる。ここで統合特徴は、複数の物体特徴を統合して信頼性を高めたものであり、信頼度(物体特徴の個々の成分の分散)等も含む。統合情報は、対応する物体特徴を統合したときの状況を示すもので、統合理由はユーザによる目視確認の未/済等を示す。このようにRDBサーバに登録しておくと、以後映像データを直接扱うことなくRDBサーバ上で類似検索が可能になる。特に、統合情報の信頼度を、類似判定部が非類似度を計算する際の重みにフィードバックすることで、その物体の探索精度を向上できる。本例では同時に1つの探索対象物体しか扱わないので、統合情報の信頼度はRDB上で更新するのではなく、カテゴリ化・特徴量抽出部の内部で保持し、類似判定部に渡すようにしても良い。
カテゴリ化・特徴量抽出部は、受け取った判定結果を、物体検出・追跡部へ通知する。
The categorization / feature amount extraction unit issues an SQL statement to the RDB server according to the received determination result and the degree of dissimilarity. For both the similar / dissimilar determination results, the category determination result and category reliability of the object feature of the object are inserted (inserted), a category sub-table is created, and category-specific feature values are inserted. When the determination results are similar, the presence / absence of a table of the same object collection is checked, and if it is found, it is created, and each data shown in FIG. 4 can be inserted or updated. Here, the integrated feature is obtained by integrating a plurality of object features to improve reliability, and includes reliability (dispersion of individual components of the object features) and the like. The integration information indicates a situation when the corresponding object features are integrated, and the integration reason indicates whether the user has not confirmed the visual confirmation. If registered in the RDB server in this way, similar searches can be performed on the RDB server without directly handling video data thereafter. In particular, the accuracy of the object search can be improved by feeding back the reliability of the integrated information to the weight when the similarity determination unit calculates the dissimilarity. Since only one search target object is handled at a time in this example, the reliability of the integrated information is not updated on the RDB, but is held inside the categorization / feature amount extraction unit and passed to the similarity determination unit. Also good.
The categorization / feature amount extraction unit notifies the received determination result to the object detection / tracking unit.

物体検出・追跡部は、非該当或いは非類似の通知を受け取ると、その物体についてのカテゴリ再判定の要否を判断する。1つの追跡物体に対する判定回数に上限(例えば4)を設け、上限に達した場合や、識別器の値(スコア)が異常に低い場合や、非類似度が高い場合に否となる。それ以外の場合、例えば非類似度が閾値よりわずかに高く非類似と判定されたような場合は要となり、追跡物体テーブルを参照してその物体が追跡中であれば、追跡終了するまで待つ。追跡終了した場合、追跡時間を参照し、追跡時間が所定値以下であれば、それに応じて判定回数に上限を3以下に変更する。   When the object detection / tracking unit receives a non-applicable or dissimilar notification, the object detection / tracking unit determines whether it is necessary to perform category re-determination for the object. An upper limit (for example, 4) is set for the number of determinations for one tracked object, and the answer is negative when the upper limit is reached, when the discriminator value (score) is abnormally low, or when the dissimilarity is high. In other cases, for example, when the degree of dissimilarity is slightly higher than the threshold and it is determined as dissimilar, it is necessary. If the object is being tracked with reference to the tracking object table, the process waits until the tracking is completed. When the tracking is completed, the tracking time is referred to. If the tracking time is equal to or less than a predetermined value, the upper limit is changed to 3 or less for the number of determinations accordingly.

その後、現在の判定が2回目であれば追跡期間を第1の比で内分した位置で、3回目であれば第2の比で内分した位置で、当該物体の部分画像を取得してカテゴリ化・特徴量抽出部に渡し、再判定を行う。ここで第1〜2の比は例えば、それぞれ、追跡期間の中央付近(物体の大きさが最も大きく映るフレームに相当)、追跡期間の終了間際(物体の画像上のサイズが所定値より大きい最後のフレームに相当)であり、別途、最適化手法を用いて学習させる。現在の判定が4回目であれば、追跡期間を1〜3回目の判定の識別器の値の3次補間等により推定した最大位置で再判定する。判定回数の上限は、ユーザから高速探索を指定されているときは、更に小さく設定される。   After that, if the current determination is the second time, a partial image of the object is acquired at a position where the tracking period is internally divided by the first ratio, and if it is the third time, the partial image of the object is acquired at the position divided internally by the second ratio. It is passed to the categorization / feature amount extraction unit and re-determination is performed. Here, the ratios of the first and second are, for example, near the center of the tracking period (corresponding to a frame in which the size of the object is the largest), and just before the end of the tracking period (the last size of the object on the image larger than a predetermined value). And is separately learned using an optimization method. If the current determination is the fourth time, the tracking period is determined again at the maximum position estimated by third-order interpolation or the like of the discriminator value of the first to third determinations. The upper limit of the number of determinations is set smaller when a high-speed search is designated by the user.

物体検出・追跡部は、類似の通知を受け取るか、デコーダの再生の終了(停止)、自己或いは子プロセスの終了を示すシグナル等を感知すると、必要に応じて子プロセスの終了等を行い、ログ用のテキストファイルに最後の再生位置、現在日時等の情報を追記して閉じ、終了する。ログファイルは、映像ファイルにおける映像探索の未/済の状態を示す記録となり、映像探索が途中を示す場合、適宜中断箇所から探索を再開し、映像全編のRDB登録を完了することができる。
このように、本実施例2では、類似/非類似度判定結果を非同期でユーザに通知し、ユーザの確認結果を待たずに残りの映像についても映像探索を続行するようにしたので、映像全編を確認する時間をより短縮できる。
When the object detection / tracking unit receives a similar notification or senses the end of reproduction (stop) of the decoder, a signal indicating the end of itself or the child process, etc., the object detection / tracking unit terminates the child process as necessary, and logs The information such as the last playback position and the current date is added to the text file for closing, and the process ends. The log file is a record indicating the unsettled state of the video search in the video file. When the video search indicates a midway, the search can be restarted from the interrupted point and the RDB registration of the entire video can be completed.
As described above, in the second embodiment, the similarity / dissimilarity determination result is notified to the user asynchronously, and the video search is continued for the remaining video without waiting for the user's confirmation result. The time for checking can be further shortened.

防犯または警察当局による犯人追跡のためのCCTV(Closed-Circuit Television)、人物や車両の追跡の他、マーケッティングのための消費者行動分析などにも利用可能である。   It can be used for CCTV (Closed-Circuit Television) for crime prevention or police tracking of the criminal, tracking of people and vehicles, and consumer behavior analysis for marketing.

カメラ:1−1〜1−n、映像検索サーバ:2、画像入力I/F:21、CPU:23、プログラムメモリ:24、画像メモリ:22、ワークメモリ:25、画像出力I/F:28、検索端末:109、データバス:29、記録装置:26、個別の記録装置:112−1〜112−n、物体管理データ:113、撮像情報テーブル:27。   Camera: 1-1 to 1-n, Video search server: 2, Image input I / F: 21, CPU: 23, Program memory: 24, Image memory: 22, Work memory: 25, Image output I / F: 28 Search terminal: 109, data bus: 29, recording device: 26, individual recording devices: 112-1 to 112-n, object management data: 113, imaging information table: 27.

Claims (3)

監視対象となる領域の映像を撮像する複数のカメラと、該撮像した映像を記録しながら前記領域内の映像分析情報を収集する映像検索サーバと、少なくとも時刻情報を含む映像検索条件に応じて、該映像検索サーバにより撮像された映像あるいは映像分析情報の少なくとも1つを表示する検索端末を有した映像検索システムにおいて、
映像検索サーバは、
カメラの設置情報及び道路を含む地図情報を保持し、
該複数のカメラの内、該検索端末で任意に選択された物体の映像及びその撮像をした位置及び時刻から、該物体に係る複数の特徴情報を抽出し、
該選択された物体の該特徴情報を用いて、該選択された物体と関連性が推定される1以上のカメラを選択するとともに、カメラ毎に、該特徴情報およびカメラの設置情報を用いて推定出現時刻を算出し、
該選択された物体の特徴情報と類似する特徴情報を呈する映像を、該選択された1以上のカメラの映像の、該推定出現時刻に対応する映像区間内から自動的に探索し、結果を該検索端末に表示させ
前記映像検索サーバは、
被写体を含む映像を撮影したときの日照或いは天候に関する環境情報を、後に取得できるように該映像若しくは該特徴情報を記録し、
前記探索の結果、前記選択した物体と同一であると判定された物体が発見された場合、上記選択した物体の特徴情報を、該判定された物体の特徴情報と取得した環境情報とに応じて更新或いは追加することを特徴とする請求項1記載の映像検索システム。
In accordance with a plurality of cameras that capture images of a region to be monitored, a video search server that collects video analysis information in the region while recording the captured images, and a video search condition that includes at least time information, In a video search system having a search terminal for displaying at least one of video captured by the video search server or video analysis information,
The video search server
It holds map information including camera installation information and roads,
Of the plurality of cameras, extracting a plurality of feature information related to the object from the image of the object arbitrarily selected by the search terminal and the position and time when the object was captured,
Using the feature information of the selected object, select one or more cameras whose relevance to the selected object is estimated, and for each camera, estimate using the feature information and camera installation information Calculate the appearance time,
A video having feature information similar to the feature information of the selected object is automatically searched from the video section corresponding to the estimated appearance time of the video of the one or more selected cameras, and the result is Displayed on search terminals ,
The video search server
Record the video or the feature information so that environmental information related to the sunshine or weather when shooting the video including the subject can be acquired later,
As a result of the search, when an object determined to be the same as the selected object is found, the feature information of the selected object is determined according to the determined object feature information and the acquired environment information. The video search system according to claim 1, wherein the video search system is updated or added .
前記物体に係る複数の特徴情報は、物体の大きさ、速度、進行方向、カテゴリ、輪郭形状、存在した時刻、画像特徴の内のいずれか複数であることを特徴とする請求項1に記載の映像検索システム。   The plurality of pieces of feature information relating to the object are any one of a size, a speed, a traveling direction, a category, a contour shape, a time of existence, and an image feature of the object. Video search system. 監視対象となる領域の映像を複数のカメラで撮影した撮像から、任意に選択された物体を検索する映像検索方法であって、
該撮像した映像を記録しながら前記領域内の映像分析情報を収集する映像検索サーバと、少なくとも時刻情報を含む映像検索条件に応じて、該映像検索サーバにより撮像された映像あるいは映像分析情報の少なくとも1つを表示する検索端末を有した映像検索システムにおいて、
映像検索サーバが、予め与えられたカメラの設置情報及び道路を含む地図情報を保持する第1過程と、
映像検索サーバが、該撮像した映像を記録しながら前記領域内の映像分析情報を収集する第2過程と、
被写体を含む映像を撮影したときの日照或いは天候に関する環境情報を、後に取得できるように該映像若しくは該特徴情報を記録する第3過程と、
該複数のカメラの内、検索端末で任意に選択された物体の映像及びその撮像をした位置及び時刻から、該物体に係る複数の特徴情報を抽出する第4過程と、
映像検索サーバが、該選択された物体の該特徴情報を用いて、該選択された物体と関連性が推定される1以上のカメラを選択するとともに、カメラ毎に、該特徴情報およびカメラの設置情報を用いて推定出現時刻を算出する第5過程と、
映像検索サーバが、該選択された物体の特徴情報と類似する特徴情報を呈する映像を、該選択された1以上のカメラの映像の、該推定出現時刻に対応する映像区間内から自動的に探索し、取り出された複数の映像及び映像分析情報を1度に纏めて該検索端末に表示させる第6過程と、
前記第6過程の探索の結果、前記選択した物体と同一であると判定された物体が発見された場合、上記選択した物体の特徴情報を、該判定された物体の特徴情報と取得した環境情報とに応じて更新或いは追加する第7過程と、を有する映像検索方法。
A video search method for searching for an arbitrarily selected object from an image of a region to be monitored taken by a plurality of cameras.
A video search server that collects video analysis information in the area while recording the captured video, and at least a video captured by the video search server or video analysis information according to a video search condition including at least time information In a video search system having a search terminal for displaying one,
A first process in which the video search server holds map information including preinstalled camera installation information and roads;
A second process in which the video search server collects video analysis information in the area while recording the captured video;
A third step of recording the video or the feature information so that environmental information related to sunlight or weather when the video including the subject is captured can be acquired later;
A fourth step of extracting a plurality of feature information related to the object from the image of the object arbitrarily selected by the search terminal and the position and time when the object was picked up among the plurality of cameras;
The video search server uses the feature information of the selected object to select one or more cameras whose relevance to the selected object is estimated, and for each camera, the feature information and the installation of the camera A fifth step of calculating an estimated appearance time using information;
The video search server automatically searches for video having feature information similar to the feature information of the selected object from the video section corresponding to the estimated appearance time of the video of the selected one or more cameras. A sixth process of displaying the retrieved plurality of videos and video analysis information at once on the search terminal;
When an object determined to be the same as the selected object is found as a result of the search in the sixth process, the feature information of the selected object, the acquired object information, and the feature information of the selected object And a seventh process of updating or adding according to the above.
JP2015554702A 2013-12-26 2014-12-03 Video search system and video search method Active JP5976237B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013269130 2013-12-26
JP2013269130 2013-12-26
PCT/JP2014/081979 WO2015098442A1 (en) 2013-12-26 2014-12-03 Video search system and video search method

Publications (2)

Publication Number Publication Date
JP5976237B2 true JP5976237B2 (en) 2016-08-23
JPWO2015098442A1 JPWO2015098442A1 (en) 2017-03-23

Family

ID=53478310

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015554702A Active JP5976237B2 (en) 2013-12-26 2014-12-03 Video search system and video search method

Country Status (2)

Country Link
JP (1) JP5976237B2 (en)
WO (1) WO2015098442A1 (en)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017038035A1 (en) * 2015-08-31 2017-03-09 富士フイルム株式会社 Device, system, and method for generating behavior history information
KR102404791B1 (en) * 2017-03-30 2022-06-02 삼성전자주식회사 Device and method for recognizing objects included in input image
WO2019021369A1 (en) * 2017-07-25 2019-01-31 三菱電機株式会社 Data analysis device
JP6969987B2 (en) 2017-11-15 2021-11-24 パナソニック株式会社 Communication equipment, communication systems and mobile tracking methods
US20210158071A1 (en) * 2018-01-10 2021-05-27 Nec Corporation Match determination device, match determination method, storage medium
JP7127356B2 (en) * 2018-05-14 2022-08-30 富士通株式会社 DATA COLLECTION METHOD, DATA COLLECTION PROGRAM AND INFORMATION PROCESSING DEVICE
JP7311977B2 (en) * 2018-05-25 2023-07-20 キヤノン株式会社 Image processing device, image processing method
CN108962291A (en) * 2018-07-25 2018-12-07 武汉恩智电子科技有限公司 A kind of log identification video playback system based on video monitoring
KR101960667B1 (en) * 2018-08-31 2019-07-15 주식회사 텍트원 Suspect Tracking Apparatus and Method In Stored Images
SG10201807675TA (en) * 2018-09-06 2020-04-29 Nec Asia Pacific Pte Ltd Duration and Potential Region of Interest for Suspicious Activities
JP6573346B1 (en) 2018-09-20 2019-09-11 パナソニック株式会社 Person search system and person search method
WO2020148988A1 (en) * 2019-01-17 2020-07-23 ソニー株式会社 Information processing device and information processing method
CN110020093A (en) * 2019-04-08 2019-07-16 深圳市网心科技有限公司 Video retrieval method, edge device, video frequency searching device and storage medium
WO2020210960A1 (en) * 2019-04-15 2020-10-22 华为技术有限公司 Method and system for reconstructing digital panorama of traffic route
JP6725041B2 (en) * 2019-06-05 2020-07-15 日本電気株式会社 Tracking system, tracking method and tracking program
JP7334512B2 (en) 2019-07-08 2023-08-29 日本電気株式会社 Verification method, verification device, and program
JP7235612B2 (en) * 2019-07-11 2023-03-08 i-PRO株式会社 Person search system and person search method
CN113010545B (en) * 2019-12-20 2023-02-28 浙江宇视科技有限公司 Data searching method, device, server, storage medium and system
JP7332047B2 (en) * 2020-06-01 2023-08-23 日本電気株式会社 Tracking Devices, Tracking Systems, Tracking Methods, and Programs
WO2021245749A1 (en) * 2020-06-01 2021-12-09 日本電気株式会社 Tracking device, tracking method, and recording medium
JP6862596B1 (en) * 2020-07-10 2021-04-21 株式会社 日立産業制御ソリューションズ How to select video analysis equipment, wide area surveillance system and camera
CN112199554B (en) * 2020-10-20 2022-11-11 重庆紫光华山智安科技有限公司 Method, system, medium and electronic terminal for searching tracked target
JP7444284B2 (en) 2020-11-18 2024-03-06 日本電信電話株式会社 Camera device control device, camera device control method, and camera device control program
JP7270855B2 (en) * 2021-03-05 2023-05-10 三菱電機株式会社 Movement route estimation device, movement route estimation method, and movement route estimation program
CN112949539A (en) * 2021-03-16 2021-06-11 安徽领云物联科技有限公司 Pedestrian re-identification interactive retrieval method and system based on camera position

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007164718A (en) * 2005-12-16 2007-06-28 Matsushita Electric Ind Co Ltd Device and method for retrieving mobile object
JP2009017416A (en) * 2007-07-09 2009-01-22 Mitsubishi Electric Corp Device and method for monitoring, and program
JP2013153304A (en) * 2012-01-25 2013-08-08 Hitachi Kokusai Electric Inc Surveillance device, surveillance camera system, and video transmission method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007164718A (en) * 2005-12-16 2007-06-28 Matsushita Electric Ind Co Ltd Device and method for retrieving mobile object
JP2009017416A (en) * 2007-07-09 2009-01-22 Mitsubishi Electric Corp Device and method for monitoring, and program
JP2013153304A (en) * 2012-01-25 2013-08-08 Hitachi Kokusai Electric Inc Surveillance device, surveillance camera system, and video transmission method

Also Published As

Publication number Publication date
WO2015098442A1 (en) 2015-07-02
JPWO2015098442A1 (en) 2017-03-23

Similar Documents

Publication Publication Date Title
JP5976237B2 (en) Video search system and video search method
US10970333B2 (en) Distributed video storage and search with edge computing
EP3654285B1 (en) Object tracking using object attributes
US8831352B2 (en) Event determination from photos
US20160140732A1 (en) Topology determination for non-overlapping camera network
US20130170696A1 (en) Clustering-based object classification
WO2020017190A1 (en) Image analysis device, person search system, and person search method
CN110796074B (en) Pedestrian re-identification method based on space-time data fusion
RU2632473C1 (en) Method of data exchange between ip video camera and server (versions)
JP5982557B2 (en) Video surveillance system and image search system
JP6013923B2 (en) System and method for browsing and searching for video episodes
KR101678004B1 (en) node-link based camera network monitoring system and method of monitoring the same
US11256945B2 (en) Automatic extraction of attributes of an object within a set of digital images
JPWO2020050328A1 (en) Mobile tracking system, mobile tracking methods and programs
JP2023505864A (en) Target movement trajectory construction method, equipment and computer storage medium
US20210089784A1 (en) System and Method for Processing Video Data from Archive
JP6433928B2 (en) SEARCH DEVICE, SEARCH METHOD, AND SEARCH SYSTEM
KR20200112681A (en) Intelligent video analysis
US20180260401A1 (en) Distributed video search with edge computing
EP3244344A1 (en) Ground object tracking system
US11893084B2 (en) Object detection systems and methods including an object detection model using a tailored training dataset
KR101154350B1 (en) Multiple Images Processing system using Detection of Objects and segmenting - recognizing of High- resolution Image and there of.
Seidenari et al. Non-parametric anomaly detection exploiting space-time features
JP2021012631A (en) Image processing system, information processing device, information processing method, and program
CN113473091B (en) Camera association method, device, system, electronic equipment and storage medium

Legal Events

Date Code Title Description
A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20160531

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160714

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160719

R150 Certificate of patent or registration of utility model

Ref document number: 5976237

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250