JP2022133547A - Video image analysis system and video image analysis method - Google Patents
Video image analysis system and video image analysis method Download PDFInfo
- Publication number
- JP2022133547A JP2022133547A JP2021032281A JP2021032281A JP2022133547A JP 2022133547 A JP2022133547 A JP 2022133547A JP 2021032281 A JP2021032281 A JP 2021032281A JP 2021032281 A JP2021032281 A JP 2021032281A JP 2022133547 A JP2022133547 A JP 2022133547A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- person
- analysis system
- frame rate
- video analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010191 image analysis Methods 0.000 title abstract description 5
- 238000003703 image analysis method Methods 0.000 title 1
- 238000012545 processing Methods 0.000 claims abstract description 52
- 239000000284 extract Substances 0.000 claims abstract description 13
- 238000001514 detection method Methods 0.000 claims description 65
- 238000004458 analytical method Methods 0.000 claims description 56
- 238000000034 method Methods 0.000 claims description 45
- 238000011897 real-time detection Methods 0.000 claims description 37
- 230000008569 process Effects 0.000 claims description 30
- 230000009471 action Effects 0.000 description 74
- 238000000605 extraction Methods 0.000 description 26
- 230000015654 memory Effects 0.000 description 24
- 230000006870 function Effects 0.000 description 21
- 230000006399 behavior Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 241001465754 Metazoa Species 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 230000037308 hair color Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 241000253999 Phasmatodea Species 0.000 description 1
- 241000282898 Sus scrofa Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 231100000614 poison Toxicity 0.000 description 1
- 230000007096 poisonous effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Closed-Circuit Television Systems (AREA)
Abstract
Description
本発明は、映像解析技術に関する。 The present invention relates to video analysis technology.
防犯カメラの普及に伴い、複数地点で撮影された映像から特定の人物や車両を検出するニーズが高まっている。しかし、従来の防犯カメラシステムは、記録装置に蓄積された膨大なデータから所望のシーンの検索が困難である。 With the spread of security cameras, there is an increasing need to detect specific people or vehicles from images taken at multiple locations. However, with conventional security camera systems, it is difficult to retrieve a desired scene from the vast amount of data stored in the recording device.
映像解析機能は、リアルタイム検知機能と履歴検索機能に大別される。リアルタイム検知機能は、監視映像中に特定の対象(人物・物体・動物)や特定の動きの出現を検知し、ユーザに通知する。履歴検索機能は、特定の対象(人物、物体、動物など)の外見又は動きをクエリとして、過去の映像データの特徴量データベースを検索し、検索対象が映る映像を抽出する。 The video analysis function is roughly divided into a real-time detection function and a history search function. The real-time detection function detects the appearance of a specific target (person, object, animal) or specific movement in the surveillance video and notifies the user. The history search function uses the appearance or movement of a specific target (person, object, animal, etc.) as a query to search a feature amount database of past video data, and extracts videos in which the search target appears.
本技術分野の背景技術として、特開2001-167095号公報(特許文献1)及び国際公開第2017/017808号(特許文献2)がある。特開2001-167095号公報には、入力画像データから画像特徴量を抽出し特徴記述子を生成する特徴記述子生成部と、生成された特徴記述子を入力画像データと対応づけて蓄積する画像情報蓄積部と、入力画像データに付随して入力する属性情報に基づいて属性リストを生成する属性リスト生成部と、属性情報に関する検索条件が入力すると前記属性リストを検索して当該検索条件に適合する属性情報を出力すると共に、特徴記述子に関する検索条件が入力すると前記画像情報蓄積部を検索して当該検索条件に適合する画像データを出力する画像検索部と、を備えることを特徴とする画像検索システムが記載されている(請求項1参照)。 As background art in this technical field, there are Japanese Patent Application Laid-Open No. 2001-167095 (Patent Document 1) and International Publication No. 2017/017808 (Patent Document 2). Japanese Unexamined Patent Application Publication No. 2001-167095 discloses a feature descriptor generation unit that extracts image feature amounts from input image data and generates feature descriptors, and an image that stores the generated feature descriptors in association with input image data. an information storage unit, an attribute list generation unit that generates an attribute list based on attribute information input with input image data, and when search conditions regarding attribute information are input, the attribute list is searched to match the search conditions. an image retrieval unit that outputs attribute information for the image, and that, when a retrieval condition related to the feature descriptor is input, retrieves the image information storage unit and outputs image data that matches the retrieval condition. A search system is described (see claim 1).
また、国際公開第2017/017808号公報には、プロセッサと前記プロセッサが実行するプログラムを格納する記憶装置とを含む、画像処理システムであって、前記プロセッサは、映像データから複数フレームを作成し、前記複数フレームにおいて移動物体を検出し、検出した前記移動物体それぞれの軌跡の特徴量を前記複数フレームから抽出してデータベースに記録し、前記複数フレームのそれぞれにおいて、移動物体の画像から特徴量を抽出して前記データベースに記録することを含む特徴登録処理、の内容を、予め定められた条件に従って決定し、前記複数フレームのそれぞれにおいて、決定した前記特徴登録処理の内容を実行する、画像処理システムが記載されている(請求項1参照)。 Further, International Publication No. 2017/017808 discloses an image processing system including a processor and a storage device that stores a program executed by the processor, wherein the processor creates a plurality of frames from video data, A moving object is detected in the plurality of frames, a feature amount of a trajectory of each of the detected moving objects is extracted from the plurality of frames and recorded in a database, and in each of the plurality of frames, the feature amount is extracted from the image of the moving object. and recording in the database according to predetermined conditions, and executing the determined content of the feature registration processing in each of the plurality of frames. (see claim 1).
映像解析機能のうち行動認識機能は、短時間での変化が小さい属性認識機能より、短い時間間隔で人物の動きを捉える必要がある。このため、行動認識機能は、大きな計算機リソースを使用し、計算コストが大きい。計算リソースが不十分な環境下では、処理の停滞によってリアルタイムの行動認識処理が困難となり、リアルタイムの行動検知や特徴量データベースの逐次更新が不可能となる。従って、履歴検索によって不特定の対象を準リアルタイムに特定することが不可能となり、履歴検索で特定した対象の情報を活用したリアルタイム検知も不可能となる。また、サーバ計算機あたりに取り扱える映像(すなわち、カメラの台数)が制限される。このように、行動認識機能は属性認識機能と取り扱いを変えることが望まれている。 Among the video analysis functions, the action recognition function needs to capture the movement of a person at shorter time intervals than the attribute recognition function, which has small changes in a short period of time. For this reason, the action recognition function uses large computer resources and has a high computational cost. In an environment with insufficient computing resources, real-time action recognition processing becomes difficult due to processing stagnation, and real-time action detection and sequential updating of the feature amount database become impossible. Therefore, it becomes impossible to specify an unspecified target in quasi-real time by history search, and real-time detection using the information of the target specified by history search is also impossible. Also, the number of videos (that is, the number of cameras) that can be handled by each server computer is limited. Thus, it is desired that the action recognition function and the attribute recognition function be handled differently.
また、映像データベースの履歴検索で目撃情報を照会して不審者を発見することと、履歴検索機能とリアルタイム検知機能との連携強化による不審者の追跡に基づく不審者の確保と二次被害の防止が重要である。目撃情報に基づいてターゲットを発見するためには、履歴検索により特定したターゲットの情報を活用した高精度のリアルタイム検知が望まれている。 In addition, it is possible to identify suspicious persons by querying eyewitness information in the video database history search, and to secure suspicious persons and prevent secondary damage based on the tracking of suspicious persons by strengthening cooperation between the history search function and the real-time detection function. is important. In order to discover targets based on eyewitness information, high-precision real-time detection using target information identified by historical searches is desired.
そこで、本発明では、各処理で抽出される特徴量の継続性に着目して、処理によってフレームレートを調整する映像解析技術の提供を目的とする。 Therefore, an object of the present invention is to provide a video analysis technique that adjusts the frame rate by processing, focusing on the continuity of feature amounts extracted in each processing.
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、映像解析システムであって、所定の処理を実行する演算装置と、前記演算装置に接続された記憶デバイスとを有する計算機によって構成され、前記演算装置は、映像中のオブジェクトの特徴量データを格納する特徴量データベースにアクセス可能であって、前記映像解析システムは、前記演算装置が、前記映像中の生物の属性を抽出する生物属性推定部と、前記演算装置が、前記映像中の物体の属性を抽出する物体認識部と、前記演算装置が、前記映像中の生物の動きを認識する動き認識部と、前記演算装置が、前記各部の実行タイミングを制御するためのフレームレート調整部とを有し、前記フレームレート調整部は、前記動き認識部が処理する映像のフレームレートを、前記生物属性推定部及び前記物体認識部の少なくとも一方が処理する映像のフレームレートより高く設定することを特徴とする。 A representative example of the invention disclosed in the present application is as follows. That is, the video analysis system is composed of a computer having an arithmetic device for executing predetermined processing and a storage device connected to the arithmetic device, and the arithmetic device analyzes the feature amount data of an object in the video. A stored feature amount database is accessible, and the video analysis system includes a biological attribute estimating unit in which the computing device extracts attributes of living things in the video; An object recognition unit for extracting attributes, a motion recognition unit for recognizing the movement of a creature in the image, and a frame rate adjustment unit for controlling the execution timing of each unit. wherein the frame rate adjustment unit sets the frame rate of the video processed by the motion recognition unit higher than the frame rate of the video processed by at least one of the biological attribute estimation unit and the object recognition unit. and
本発明の一態様によれば、映像解析に必要な計算機リソースを低減し、計算コストを低減できる。前述した以外の課題、構成及び効果は、以下の実施例の説明によって明らかにされる。 According to one aspect of the present invention, it is possible to reduce computer resources required for video analysis and reduce calculation costs. Problems, configurations, and effects other than those described above will be clarified by the following description of the embodiments.
図1は、本発明の実施例の映像解析システム100の構成を示すブロック図である。
FIG. 1 is a block diagram showing the configuration of a
本実施例の映像解析システム100は、映像取得部11、骨格推定部12、人物矩形抽出部13、人物特徴抽出部14、人物追跡部15、時系列行動認識部16、フレームレート調整部17~19、人物属性推定部20、物体認識部21、FDB登録部22、着目時間制御部23、クエリ設定部24、検索結果出力部25、リアルタイム検知部26及び検知ルールメモリ27を有する。
The
映像解析システム100は、FDBサーバ200と接続されており、映像から抽出された特徴量をFDBサーバ200に登録し、FDBサーバ200を検索して検索結果を取得する。
The
映像解析システム100は、複数のカメラ300と接続されており、カメラ300から映像を取得する。
The
映像取得部11は、一つまたは複数のカメラ300から映像を取得するインターフェースである。映像取得部11は、着目時間制御部23から出力されたフレームレート制御値に従って、カメラ300にリクエストを送信し、所定のフレームレートの映像を取得する。また、映像取得部11は、カメラ300が撮影し、カメラ300に設定されているフレームレートで配信する映像を受信し、受信した映像のフレームを間引いて、所定のフレームレートの映像を生成してもよい。映像取得部11は、着目時間制御部23から出力されるフレームレート制御値に従って、時系列行動認識部16による行動認識に必要十分なフレームレートを調整して、所定のフレームレートの映像を出力する。例えば、カメラ300が配信する映像が30fpsである場合、例えば5fpsまで間引いてフレームレートを低くする。映像取得部11は、カメラ300から映像を直接取得せず、映像管理システム(Video Management System)やレコーダーを経由して映像を取得してもよい。映像取得部11は、リアルタイムで撮影された映像ではなく、過去に撮影された映像をバッチ処理するために取得してもよい。なお、本明細書中に記載する映像は、連続するフレーム画像でもよい。映像取得部11が取得したフレームには、フレームIDが付与される。
The
骨格推定部12は、取得した映像に写っている人物の骨格を推定し、骨格データを生成する。骨格推定部12は、OpenposeやOpenpifpafなどの深層ネットワークモデルを活用したボトムアップ型の骨格推定手法を用いてもよいし、Yoloなどの人物検知を実施して各人物についてHRNetなどの深層ネットワークモデルを活用したトップダウン型の骨格推定手法を用いてもよいし、人物が身に着けているマーカーなどを検出することによる骨格推定手法を用いてもよい。なお、後段で時系列行動認識部16による行動認識を行わない場合、骨格推定を行わず人物検知を行ってもよい。また、骨格推定部12は、骨格推定と人物検知の両方を行ってもよい。骨格が推定されたオブジェクトは人物であると推定され、推定された人物毎に人物IDが付与される。
The
人物矩形抽出部13は、映像から骨格推定によって得られた骨格モデルの外形を示す矩形であるバウンディングボックスを生成し、当該矩形でトリミングされた画像を人物特徴抽出部14とフレームレート調整部18に出力する。骨格推定部12と人物矩形抽出部13は一体であってもよく、たとえば、人物矩形であるバウンディングボックスの生成は、骨格推定と同時に行われてもよい。また、人物矩形抽出部13は、当該矩形の抽出のみを行い、フレーム画像と人物矩形を送信してもよい。
The person
人物特徴抽出部14は、骨格推定によって映像から得られた人物の画像特徴量を抽出する。例えば、人物矩形画像を入力とし、公知の一般物体認識用深層ネットワークモデルによる推論を実施し、その中間層のデータを画像特徴量としてもよい。また、公知の一般物体認識用深層ネットワークモデルによって、人物矩形抽出部13及び人物特徴抽出部14を一体に構成してもよく、この場合、骨格推定部12が骨格推定した人物と人物特徴抽出を行った人物を紐づける処理を実施する。
The person
人物追跡部15は、人物特徴抽出によって得られた人物の画像特徴を用いて、特徴量が近似する同一人物の時系列の位置情報を関連付けて、人物の軌跡にトラックIDを付与する。例えば、DeepSORTなどの深層ネットワークモデルを活用したReID手法によって追跡処理を実現してもよいし、映像中の各フレームにおいて最も近い位置にいる人物を関連付ける処理を行ってもよいし、位置情報と人物の画像特徴を含む特徴量距離が小さい人物を関連付ける処理を行ってもよい。さらに、人物追跡部15は、当該軌跡の特徴量である軌跡特徴を抽出してもよい。軌跡特徴は、例えば、一つ又は複数の固定長のベクトルによって表現され、任意の公知の方法によって抽出できる。具体的には、同一の軌跡IDに対応付けられた移動物体の画像のフレーム内の座標の時系列変化から軌跡特徴を計算できる。トラックIDが付与された軌跡のデータは、当該軌跡が終了するまで、内部変数としてメモリに一時的に記憶されており、当該軌跡が途切れた後に、軌跡テーブル214に格納される。
The
時系列行動認識部16は、人物特徴抽出によって得られた同一人物の過去数フレームの骨格推定結果を用いて、人物の行動の種類を識別する。あわせて識別結果の確信度を算出するとよい。例えば、GCNベースの行動識別器である深層ネットワークモデルによって、着目時間制御部23から出力された識別用コマ数のフレームを含むスライディングウインドウを用いて、時系列に行動を識別するとよい。他の行動識別器やルールベースによって学習済みの行動を識別してもよい。時系列行動認識を行わず、1フレームの骨格推定結果に基づいて行動を識別してもよい。時系列行動認識部16で識別される人物の行動は、立つ、歩く、走る、しゃがむ、倒れる、手を振る、指をさす、キョロキョロする、話す、物を受け渡す、柵を乗り越える、物を拾う、刃物を振り回すなどであり、各行動に一意のアクションIDが付与されている。アクションIDは、行動識別によって得られる識別クラスを示す数値でもよいし、識別クラスに対応するラベルでもよい。また、時系列行動認識部16が複数の行動を同時に認識した場合、アクションIDは、複数の行動に関する識別結果を示す数値列や識別ラベルのリストでもよい。また、時系列行動認識部16は、前述した生活における人物の行動の他、工場における制御盤などの設備の操作行動やワークに対する作業を識別してもよい。
The time-series
また、時系列行動認識部16は、人物の行動における同時多発事象を識別する。すなわち、時系列行動認識部16は、複数の人物が同時に同じ行動をとっており、同じアクションIDが付与される場合、撮影されている環境に異常が発生していると判定し、同時多発アラートを発生する。例えば、複数の人物が同時に倒れたことが検出されると、地震、火災、有毒ガスなどの異常が発生している可能性がある。また、大勢の人物が同時に同じ方向に走っていると、避難すべき事象が発生している可能性がある。同時多発事象は、完全に同じ時刻(同じフレーム)で識別されず、近い時間(前後のフレーム)や数秒間又は数分間などの一定の時間範囲内のフレームで識別される場合がある。このため、時系列行動認識部16は、同時多発事象を識別する場合、所定の時間幅において同一行動が識別されるかを判定する。
In addition, the time-series
フレームレート調整部17は、時系列行動認識部16で識別された人物の行動種別のフレームレートを5fpsから1fpsに低下するように調整する。フレームレート調整部17が調整するフレームレート(5fps、1fpsなど)は、本実施例における説明と異なるものでもよく、検出精度や用途によって、着目時間制御部23から出力されるフレームレート制御値に従って調整される。人物の骨格の推定、特徴量の抽出、行動の認識、属性の推定などの処理の中で、行動の認識は最も高いフレームレートが必要であるが、他の処理は、その結果が急に変化する性質ではないため、低いフレームレートでもよい。各処理について必要十分なフレームレートに調整することによって、各処理で必要なフレームレートを最適化でき、少ないハードウェアリソースでリアルタイム処理又は準リアルタイム処理を実現できる。
The frame
フレームレート調整部18は、人物特徴抽出部14で抽出された人物の画像特徴量のフレームレートを5fpsから1fpsに低下するように調整する。フレームレート調整部18が調整するフレームレート(5fps、1fps)は、本実施例における説明と異なるものでもよく、検出精度や用途によって、着目時間制御部23から出力されるフレームレート制御値に従って調整される。次段の人物属性推定部20では、急に大きく変化しない人物属性を推定するために高いフレームレートを必要としないので、人物属性を推定するために必要十分なフレームレートへの低下によって、使用するハードウェアリソースを低減できる。
The frame
人物属性推定部20は、人物の年齢、性別、髪型、髪の色、着用しているアクセサリー、リュックや鞄や杖などの所有物、服装の色、服の種類などの外見から推定できる属性を推定し、各人物属性に一意に付与された人物属性IDを出力する。あわせて推定結果の確信度を算出してもよい。人物属性IDは、人物属性推定によって推定された属性を示す数値でもよいし、属性を示すラベルでもよい。また、人物属性推定部20が複数の属性を同時に推定した場合、人物属性IDは、複数の属性に関する推定結果でもよい。
The personal
フレームレート調整部19は、映像取得部11が取得した映像のフレームレートを5fpsから1fpsに低下するようにフレームを間引く調整をする。フレームレート調整部19が調整するフレームレート(5fps、1fps)は、本実施例における説明と異なるものでもよく、検出精度や用途によって、着目時間制御部23から出力されるフレームレート制御値に従って調整される。次段の物体認識部21では、急に大きく変化しない物体の種別を識別するために、高いフレームレートを必要としないので、物体を認識するために必要十分なフレームレートへの低下によって、使用するハードウェアリソースを低減できる。
The frame
なお、フレームレート調整部17~18は、別のサブプログラムで構成しても、同じサブプログラムで構成してもよい。また、映像取得部11やフレームレート調整部17~18が調整するフレームレートは、厳密に等間隔な時間調整をしなくてもよく、フレームレートに対し時間方向のゆらぎを持っていてもよい。つまり、例えば、5fpsで調整する場合、厳密に200ms間隔のフレームを選択せず、1秒間に対して時間間隔が異なる5枚のフレームを選択してもよい。
Note that the frame
物体認識部21は、映像取得部11が取得した映像に写っている物体を識別し、当該物体の種別(人物が持っている鞄や傘、自走するロボット、自転車、スケートボード、人物が操作する設備)を識別して、各物体属性に一意に付与された物体属性IDを出力する。例えば、物体の画像と種別で学習したAIエンジンを用いて物体の種別を識別できる。あわせて推定結果の確信度を算出してもよい。さらに、物体認識部21は、識別された物体と映像から得られた人物の関係(例えば、識別された物体と所有者との関係)を推定する。あわせて推定結果の確信度を算出してもよい。
The
本実施例では、人物属性推定部20及び物体認識部21の両方を設けているが、映像解析の用途に応じて、一方のみ設けてもよい。
In this embodiment, both the person
なお、映像解析システム100は、人物だけでなく他の生物(例えば、熊、猪などの野生動物)を識別してもよく、生物ではないロボットや機械を識別してもよい。例えば、人型ロボットを人物として識別し、動物型ロボットや搬送車を物体として識別してもよい。
Note that the
FDB登録部22は、FDBサーバ200へデータを登録するFDB登録処理を実行する。具体的には、人物追跡部15から出力される人物の軌跡(トラックID)、時系列行動認識部16から出力され、フレームレート調整部17がフレームレートを調整した人物の行動の種類(アクションID)、人物属性推定部20から出力される人物の属性(人物属性ID)、及び物体認識部21から出力される物体の種別(物体属性ID)を、オブジェクトID、人物ID、及びトラックIDを用いて関連付けてFDBサーバ200へ登録する。
The
着目時間制御部23は、各フレームレート調整部17~19及び映像取得部11が調整するフレームレートを制御する。着目時間制御部23が出力するフレームレートの制御値は、時系列行動認識部16で認識する行動の種別に従って決定されるとよい。着目時間制御部23は、各処理におけるフレームレートの制御値をフレームレート調整部17~19に出力し、各処理の実行タイミング(実行間隔)を制御する。着目時間制御部23は、行動を識別するための画像の間隔(フレームレート)とコマ数の組を時系列行動認識部16に出力し、時系列行動認識処理の実行タイミング(実行間隔)を制御する。また、着目時間制御部23の構成は、フレームレートの制御値を格納するテーブルでも、パラメータファイルでも、プログラムの内部変数でもよい。
The time-of-
クエリ設定部24は、履歴検索機能において、人物の属性、人物の行動、物体の属性の一つ以上を含む、特徴量データベース210を検索するための検索クエリを生成する。検索クエリは、例えば、図7に示す検索画面700を操作して検索すべき属性を設定して、検索クエリを設定する。生成された検索クエリはFDBサーバ200に送信され、特徴量データベース210を検索した結果が映像解析システム100に返送される。
In the history search function, the
検索結果出力部25は、クエリに該当する人物や物体が写っているフレームや映像クリップ(例えば、人物特徴抽出部14が生成した人物矩形データ内の映像)を検索結果表示領域750に表示する検索画面700(図7参照)を生成する。
The search
リアルタイム検知部26は、映像認識結果又は映像から推定される検知対象を受け付け、検知ルールメモリ27及び検知対象データベース220を参照して、リアルタイム検知処理を実行する。リアルタイム検知部26は、例えば、リアルタイム検知条件を生成し、人物追跡部15から出力される人物の軌跡、時系列行動認識部16から出力される人物の行動の種類、人物属性推定部20から出力される人物の属性、及び物体認識部21から出力される物体の種別が検知条件にヒットすると、トラックIDを用いて軌跡を特定して人物を追跡し、当該トラックIDのデータをリアルタイム検知部26内の一次記憶領域に格納して、検知結果をリアルタイムに画面出力する。リアルタイム検知部26は、リアルタイム検知結果をFDB登録部22に送って、クエリIDと人物IDとを関連付け、特徴量データベース210に登録してもよい。リアルタイム検知処理は、FDB登録部22によるFDB登録処理と並列に実行されてもよい。
The real-
検知ルールメモリ27は、特徴量データベース210を検索した検索クエリのうち、ターゲットがヒットしなかったものが検知ルールとして登録される記憶領域である(図5のステップ158参照)。
The
FDBサーバ200は、映像解析システム100による映像の解析結果が登録される特徴量データベース210と、検知対象データベース220によって構成される。特徴量データベース210の構成は、図3を参照して後述する。検知対象データベース220は、特徴量データベース210を検索した結果、ヒットしたターゲットの特徴量が登録され、後のリアルタイム検知において特徴量同士(すなわち、特徴量によるクエリと、FDB登録部22に入力される特徴量)を比較するために使用される。なお、特徴量データベース210と検知対象データベース220は独立のFDBサーバとして稼働してもよいし、さらに、それぞれのデータベースが複数のデータベースに分割されて構成されてよく、分割されたデータベースが独立のFDBサーバとして稼働してもよい。
The
カメラ300は、監視区域内を移動する人物を追跡可能なように、監視区域内に複数設置される。カメラ300は、撮像素子、制御回路、及び通信インターフェースを有し、撮影した映像を通信インターフェースから映像解析システム100に出力する。カメラ300は、IPネットワークに直接接続可能なネットワークカメラに限らず、いわゆるビデオカメラやスチルカメラでもよい。さらに、カメラ300は、骨格推定機能を有するエッジ映像解析機能を有するAIカメラでもよく、この場合、骨格推定部12は骨格推定を行わず人物IDの発行のみを行ってもよいし、骨格推定部12が省略され、映像取得部11や人物特徴抽出部14において人物IDが発行されてもよい。
A plurality of
図2は、本実施例の映像解析システム100の物理的な構成を示すブロック図である。
FIG. 2 is a block diagram showing the physical configuration of the
本実施形態の映像解析システム100は、プロセッサ(CPU)1、メモリ2、補助記憶装置3及び通信インターフェース4を有する計算機によって構成される。
A
プロセッサ1は、メモリ2に格納されたプログラムを実行する。メモリ2は、不揮発性の記憶素子であるROM及び揮発性の記憶素子であるRAMを含む。ROMは、不変のプログラム(例えば、BIOS)などを格納する。RAMは、DRAM(Dynamic Random Access Memory)のような高速かつ揮発性の記憶素子であり、プロセッサ1が実行するプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。
Processor 1 executes programs stored in
補助記憶装置3は、例えば、磁気記憶装置(HDD)、フラッシュメモリ(SSD)等の大容量かつ不揮発性の記憶装置であり、プロセッサ1が実行するプログラム及びプログラムの実行時に使用されるデータを格納する。すなわち、プログラムは、補助記憶装置3から読み出されて、メモリ2にロードされて、プロセッサ1によって実行される。
The
通信インターフェース4は、所定のプロトコルに従って、他の装置(FDBサーバ200、カメラ300など)との通信を制御するネットワークインターフェース装置である。
The
映像解析システム100は、入力インターフェース5及び出力インターフェース8を有してもよい。入力インターフェース5は、キーボード6やマウス7などが接続され、オペレータからの入力を受けるインターフェースである。出力インターフェース8は、ディスプレイ装置9やプリンタなどが接続され、プログラムの実行結果をオペレータが視認可能な形式で出力するインターフェースである。映像解析システム100が入出力画面をウェブアプリやウェブ画面等としてサーバ経由で提供する場合、入力インターフェース5と出力インターフェース8は、入出力画面にアクセスするための映像解析システム100とは異なる端末に搭載される。この場合、タブレットデバイスなどのように、入力インターフェース5と出力インターフェース8は一つのデバイスとして構成されてもよい。
The
プロセッサ1が実行するプログラムは、リムーバブルメディア(CD-ROM、フラッシュメモリなど)又はネットワークを介して映像解析システム100に提供され、非一時的記憶媒体である不揮発性の補助記憶装置3に格納される。このため、映像解析システム100は、リムーバブルメディアからデータを読み込むインターフェースを有するとよい。
Programs executed by the processor 1 are provided to the
映像解析システム100は、物理的に一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。映像解析システム100の各機能部は異なる計算機上で実現されてもよい。
The
図3は、特徴量データベース210の構成例を示す図である。
FIG. 3 is a diagram showing a configuration example of the
特徴量データベース210は、フレームテーブル211、人物テーブル212、物体テーブル213及び軌跡テーブル214で構成される。特徴量データベース210を他のテーブル構成でもよく、テーブルではない形式、例えば、リストや辞書などの形式で構成してもよい。
The
フレームテーブル211は、映像のフレームに関するデータが記録されるテーブルであって、フレームID、カメラID及び日時を含む。フレームIDは、フレームの識別情報である。カメラIDは、当該フレームを撮影したカメラ300の一意の識別情報である。なお、カメラIDを明示的に設けず、特定の桁がカメラ300を表すようにフレームIDを定義してもよい。日時は、当該フレームが撮影された日時、又は、カメラ300が配信時に付与する日時、または、映像取得部11が映像取得時に付与する日時である。フレームテーブル211の情報を人物テーブル212および物体テーブル213が保持してもよく、この場合フレームテーブル211は無くてもよい。
The frame table 211 is a table in which data relating to video frames is recorded, and includes frame IDs, camera IDs, and dates and times. The frame ID is identification information of the frame. The camera ID is unique identification information of the
人物テーブル212は、映像のフレームから認識された人物の情報が記録されるテーブルであって、人物ID、フレームID、トラックID、アクションID、人物属性ID、人物画像特徴、及び人物座標を含む。人物IDは、人物であるオブジェクト(例えば骨格推定ができたオブジェクトは人物であると認識できる)に付与される一意の識別情報である。人物IDは、同じ人物について複数のフレームにおいて同じ人物IDが付与されてもよいし、同じ人物でもフレーム毎に異なる人物IDが付与されてもよい。フレームIDは、フレームテーブル211のフレームIDと同じ識別情報が用いられる。トラックIDは、人物の移動の軌跡を一意に示す識別情報であり、同一人物の軌跡には一つのトラックIDが付与される。トラックIDは含まれなくてもよい。アクションIDは、人物の行動の種類を示す識別情報であり、時系列行動認識部16で識別される人物の行動の種類に対応する。アクションIDは時系列行動認識部16で識別された識別値でもよいし、識別値に対応するラベルでもよい。アクションIDは、識別時の確信度を含んでもよい。人物属性IDは、当該人物の属性を示す識別情報であり、人物属性推定部20で推定された属性に対応する。人物属性IDは、人物属性推定部20で識別された識別値であってもよいし、識別値に対応するラベルでもよい。人物属性IDは、推定の確信度を含んでもよい。人物画像特徴は、人物特徴抽出部14が出力する人物の画像特徴量である。人物座標は、当該人物が認識された範囲を示す人物のフレームにおける座標であり、骨格推定部12における人物の骨格位置情報と、人物矩形抽出部13から出力される人物の範囲を示す矩形情報との、いずれか、又は、両方である。人物座標は、いわゆる画像座標で表現されてもよいし、絶対座標などの被撮影者の3次元空間の位置を示す位置情報として表現されてもよい。
The person table 212 is a table in which information on persons recognized from video frames is recorded, and includes person IDs, frame IDs, track IDs, action IDs, person attribute IDs, person image features, and person coordinates. A person ID is unique identification information given to an object that is a person (for example, an object whose skeleton can be estimated can be recognized as a person). The same person ID may be assigned to the same person in a plurality of frames, or different person IDs may be assigned to the same person for each frame. The same identification information as the frame ID of the frame table 211 is used for the frame ID. A track ID is identification information that uniquely indicates the trajectory of movement of a person, and one track ID is assigned to the trajectory of the same person. A track ID may not be included. The action ID is identification information indicating the type of action of the person, and corresponds to the type of action of the person identified by the time-series
物体テーブル213は、物体ID、フレームID、トラックID、人物ID、物体属性ID、及び物体座標を含む。物体IDは、当該オブジェクトが認識された物体に付与される一意の識別情報である。フレームIDは、フレームテーブル211のフレームIDと同じ識別情報が用いられる。トラックIDは、物体を追跡して得られた軌跡を一意に示す識別情報であり、異なる物体IDでも同一物体の移動には一つのトラックIDが付与される。人物IDは、当該物体と共に移動していると推定される人物の識別情報である。トラックIDと人物IDは省略されてもよい。物体属性IDは、当該物体の属性(物体認識部21で識別された物体の種類)を示す識別情報である。物体属性IDは物体認識部21における識別値でもよいし、識別値に対応するラベルでもよい。物体属性IDは、物体認識部21による識別の確信度を含んでもよい。物体座標は、物体認識部21により物体が認識された画像上の位置又は領域(矩形や多角形など)を示す座標である。物体座標はいわゆる画像座標でもよいし、世界座標や物体が置かれている3次元空間上の位置情報でもよい。
The object table 213 includes object IDs, frame IDs, track IDs, person IDs, object attribute IDs, and object coordinates. The object ID is unique identification information given to the object whose object is recognized. The same identification information as the frame ID of the frame table 211 is used for the frame ID. A track ID is identification information that uniquely indicates a trajectory obtained by tracking an object. Even if different object IDs are used, one track ID is assigned to the movement of the same object. The person ID is identification information of a person presumed to be moving with the object. The track ID and person ID may be omitted. The object attribute ID is identification information indicating the attribute of the object (type of object identified by the object recognition unit 21). The object attribute ID may be an identification value in the
軌跡テーブル214は、トラックID、人物ID、物体ID及び軌跡特徴を含む。トラックIDは、人物追跡部15により得られた人物又は物体の軌跡を一意に示す識別情報であり、人物テーブル212のトラックIDや物体テーブル213のトラックIDと同じ識別情報が用いられる。つまり、軌跡テーブル214は、軌跡情報に基づいて、複数のフレームに出現する同一の人物又は物体の関連付けを可能にする。人物IDは、当該軌跡に沿って移動する人物の識別情報である。物体IDは、当該軌跡に沿って移動する物体の識別情報である。軌跡属性IDは、当該軌跡の特徴量である。
Trajectory table 214 includes track IDs, person IDs, object IDs, and trajectory features. The track ID is identification information that uniquely indicates the trajectory of the person or object obtained by the
このように、特徴量データベース210を構成する各テーブルは、フレームID、トラックID、人物ID、及び物体IDで関連付けられており、クエリ設定部24からの検索要求に対して、これらの識別情報によって他のテーブルのデータを取得できるように構成されている。
In this way, each table constituting the
図4は、特徴量DB構築処理のフローチャートである。 FIG. 4 is a flowchart of the feature amount DB construction processing.
まず、映像取得部11が、複数のカメラ300から映像を取得し、映像のフレームを間引いてフレームレートを低く(例えば30fpsから5fpsに)する映像取得処理を実行する(101)。次に、骨格推定部12が、取得した映像に写っている人物の骨格を推定し、骨格データを生成する骨格推定処理を実行する(102)。次に、人物矩形抽出部13が、映像から骨格推定処理(102)によって映像から得られた骨格モデルの外形を示す矩形を生成する人物矩形抽出処理を実行する(103)。次に、人物特徴抽出部14が、人物矩形抽出処理(103)によって映像から得られた矩形内で人物の画像特徴量を抽出しする人物特徴抽出処理を実行する(104)。次に、人物追跡部15が、人物特徴抽出処理(104)によって得られた人物の画像特徴を用いて、同一人物の時系列の位置情報を関連付けて、人物の軌跡にトラックIDを付与し、当該軌跡の特徴を抽出する人物追跡処理を実行する(105)。ここで、ステップ102とステップ103、ステップ103とステップ104、ステップ102とステップ103とステップ104は、それぞれ、深層ネットワークモデルを含むプログラムによって同時に算出されてもよい。次に、FDB登録部22が、人物特徴抽出部14から出力された人物画像特徴と、人物追跡部15から出力される人物の軌跡とをFDBサーバ200へ登録するFDB登録処理を実行する(106)。
First, the
次に、時系列行動認識部16が、人物特徴抽出処理(104)によって得られた同一人物の過去数フレームの骨格推定結果を用いて、人物の行動の種類を識別する時系列行動認識処理を実行する(107)。次に、フレームレート調整部17が、時系列行動認識部16で識別された人物の行動種別のフレームレートを低く(例えば5fpsから1fpsに)するフレームレート調整処理を実行する(108)。次に、FDB登録部22が、フレームレートが調整された人物の行動の種類(アクションID)をFDBサーバ200へ登録するFDB登録処理を実行する(109)。
Next, the time-series
また、フレームレート調整部19が、映像取得部11が取得した映像のフレームレートを低く(例えば5fpsから1fpsに)するフレームレート調整処理を実行する(111)。次に、物体認識部21が、映像取得部11が取得した映像に写っている物体を認識し、当該物体の種別を識別する物体認識処理を実行する(112)。次に、FDB登録部22が、物体認識処理(112)で識別された物体の種別(物体属性ID)をFDBサーバ200へデータを登録するFDB登録処理を実行する(113)。
In addition, the frame
また、フレームレート調整部18が、人物特徴抽出部14で抽出された人物の画像特徴量のフレームレートを低く(例えば5fpsから1fps)するフレームレート調整処理を実行する(121)。次に、人物属性推定部20が、人物の年齢、性別、髪型、髪の色、服装の色、服の種類など映像から推定できる属性を推定する人物属性推定処理を実行する(122)。次に、FDB登録部22が、人物属性推定処理(122)で推定された人物の属性(人物属性ID)をFDBサーバ200へ登録するFDB登録処理を実行する(123)。
The frame
図5Aは、リアルタイム検知処理のフローチャートである。 FIG. 5A is a flowchart of real-time detection processing.
リアルタイム検知処理では、特徴量データベース210にリアルタイムに登録される特徴量に、目撃情報(例えば、人物の外見、人物の行動、物体の外見などの属性)又は人物画像特徴量をクエリとして、ターゲットを検知する。なお、ステップ152~157の処理と、ステップ151、ステップ161~163の処理は並列に実行される。
In the real-time detection process, the feature amount registered in the
まず、リアルタイム検知部26は、検知対象が検知対象データベース220に登録されているかを判定し(151)、これと並列または前後して、検知ルールメモリ27に検知ルールが設定済みであるかを判定する(152)。
First, the real-
ステップ151で、検知対象が検知対象データベース220に登録されていると判定されると、ステップ161に進む。一方、ステップS152で検知ルールメモリ27に検知ルールが設定されていれば、ステップ153に進む。ステップ151とステップ152がともにNoであれば、検知対象が特徴量データベース210に登録されておらず、かつ検知ルールメモリ27に検知ルールが設定されていないので、リアルタイム検知処理を終了する。
If it is determined in
ステップ151で、検知対象が検知対象データベース220に登録されていると判定されると、リアルタイム検知部26は、人物特徴抽出部14から取得した人物画像特徴をクエリにして、検知対象DB220に登録された人物の人物画像特徴に対する検索を実施し、類似度の高い人物が登録されているかを確認する(161)。類似度の高い人物が登録されていなければ(162でNo)、リアルタイム検知処理を終了する。一方、類似度の高い人物が登録されていれば(162でYes)、対象者発見の画面を生成し、ユーザに通知する(163)。このとき、類似度の高い人物に関連する軌跡があれば、当該軌跡のトラックIDから人物ID及び物体IDを介して、当該人物及び当該人物と共にしている物体を追跡して、複数時点での人物の特徴と提示できる。
When it is determined in
ステップ152で、検知ルールメモリ27に検知ルールが設定されていれば、属性推定や行動識別の結果が検知ルールメモリ27に設定された検知ルールに該当するかを確認する(153)。属性推定及び行動識別のいずれの結果も検知ルールメモリ27に設定された検知ルールに該当しなければ(154でNo)、リアルタイム検知処理を終了する。一方、属性推定及び行動識別の結果が検知ルールメモリ27に設定された検知ルールに該当すれば(154でYes)、対象者発見の画面を生成し、ユーザに通知する(155)。このとき、発見された人物に関連する軌跡があれば、当該軌跡のトラックIDから人物ID及び物体IDを介して、当該人物及び当該人物と共にしている物体を追跡して、複数時点での人物の特徴と提示できる。
If a detection rule is set in the
その後、ユーザが通知された映像を見て、対象者を発見したかを判定する(156)。なお、リアルタイム検知部26がステップ156における判定を行ってもよい。ユーザが対象者を発見すれば(156でYes)、発見した人物の特徴を検知対象データベース220に登録して(157)、リアルタイム検知処理を終了する。この際、該当の検知ルールを検知ルールメモリ27から削除しもよい。ユーザが対象者を発見した場合(ステップ156でYes)、ステップ157の処理により、対象者の人物画像が検知対象データベース220に登録され、次回のリアルタイム検知処理では、同一人物のリアルタイム検知方法が、ステップ151、ステップ161~163に移行する。
The user then views the notified video to determine if the target person has been found (156). Note that the real-
図5Bは、ユーザによる映像検索処理のフローチャートである。 FIG. 5B is a flowchart of video search processing by the user.
図5Bに示す映像検索処理では、ユーザが任意のタイミングで、図7に示す検索画面700を用いて映像検索処理を実施する(171)。ユーザが映像検索結果に対象者を発見した場合(172でYes)、発見した人物の人物画像特徴を検知対象データベース220に登録して(173)、映像検索処理を終了する。一方、ユーザが対象者を発見しなれば、検索クエリを検知ルールとして検知ルールメモリ27に設定する(174)。検索クエリから、場所や時間で変化する条件(すなわち、行動に関する属性)を除去し、場所や時間で変化しない条件(例えば、人物の年齢、性別、髪型、髪の色、着用しているアクセサリー、服装の色、服の種類など)を残した検知ルールを生成するとよい。その後、映像検索処理を終了する。
In the video search processing shown in FIG. 5B, the user performs the video search processing using the
図5Bに示す映像検索処理では、ユーザは、画面表示された検索結果を見て、目撃情報に該当する人物が存在するか否かを入力する。映像解析システム100は、ユーザの入力に基づいて検知ルールを生成する。すなわち、目撃情報に該当する人物が発見された場合、その人物の画像特徴を、特徴量データベース210と別に設けられる検知対象データベース220に登録し、該特徴量を後のリアルタイム検知に利用可能とする。一方、目撃情報に該当する人物が発見されなかった場合、検索クエリから検知ルールを生成し検知ルールメモリ27に設定する。このため、発見された人物の特徴量を用いて特徴量データベース210を検索でき、目撃情報に合致する人物を高精度に発見できる。
In the video search process shown in FIG. 5B, the user looks at the search results displayed on the screen and inputs whether or not there is a person corresponding to the eyewitness information. The
図6は、本実施例の映像解析システム100による処理を示す図である。
FIG. 6 is a diagram showing processing by the
本実施例の映像解析システム100では、人物追跡部15が特徴量が近似する人物を追跡し、軌跡毎に一意のトラックIDを付与する。
In the
骨格推定部12は、フレーム(5fps)毎に骨格推定結果から人物を推定し、フレーム毎かつ人物毎に一意の人物IDを付与する。時系列行動認識部16は、フレーム(5fps)毎の骨格推定結果を複数用いて、人物の行動の種類を識別する。時系列行動認識部16は、骨格推定部12と同等のフレーム(5fps)毎に実施されてもよいが、図6では記載の都合上、骨格推定よりも間引いて表現している。
The
人物属性推定部20は、例えば1fpsに間引かれたフレーム映像から人物の属性を推定し、人物属性IDを決定する。また、物体認識部21は、例えば1fpsに間引かれたフレーム映像から物体の種別を識別し、物体属性IDを決定する。
The human
このように、映像からの人物の属性や行動を認識する際、行動認識が最も高いフレームレートを必要とする。一方、人物の属性は急に変化する性質ではないため、行動認識に使用されない属性の認識は、低いフレームレートで実行する。 Thus, when recognizing a person's attributes and actions from video, action recognition requires the highest frame rate. On the other hand, since the attributes of a person do not change rapidly, recognition of attributes not used for action recognition is performed at a low frame rate.
図7は、検索画面700の一例を示す図である。
FIG. 7 is a diagram showing an example of a
図7に示す検索画面700は、検索指示ボタン710、カメラ指定欄720、日時指定欄730、属性指定欄740及び検索結果表示領域750を含む。
A
検索指示ボタン710は、検索クエリをFDBサーバ200に送信するために操作されるボタンである。カメラ指定欄720は、検索対象とする映像を取得したカメラ300、すなわち検索対象とする位置をプルダウンによって選択する欄である。日時指定欄730は、検索対象とする映像の日時の範囲を入力する欄である。属性指定欄740は、検索クエリに含める人物の属性、人物の行動、物体の属性の一つ以上の項目を設定するための欄である。検索結果表示領域750は、検索結果のフレーム映像を表示する領域である。検索結果として表示されたフレーム映像を選択操作すると、当該フレーム映像の近傍の動画像を再生するとよい。動画像の再生中は、ユーザが対象者を発見したかを入力できるボタンを表示するとよい。
A
以上に本発明の実施例である、監視カメラ映像を解析する映像解析システムについて説明したが、工場の製造工程において、作業者による設備の操作行動やワークに対する作業を識別して、特定の行動や動きを識別することも可能である。 The image analysis system for analyzing surveillance camera images, which is an embodiment of the present invention, has been described above. It is also possible to identify motion.
以上に説明したように、本実施例の映像解析システムは、映像中の生物の属性を抽出する生物属性推定部(人物属性推定部20)と、映像中の物体の属性を抽出する物体認識部21と、映像中の生物の動きを認識する動き認識部(時系列行動認識部16)と、前記各部による処理の実行タイミングを制御するためのフレームレート調整部17~19とを有し、フレームレート調整部17~19は、時系列行動認識部16が処理する映像のフレームレート(処理の実行間隔)を、人物属性推定部20及び物体認識部21の少なくとも一方が処理する映像のフレームレート(処理の実行間隔)より高く設定する。すなわち、特徴量の継続性に着目して、属性推定と行動認識で異なるフレームレートで処理をするので、特徴量データベース200の構築及びリアルタイム検知の計算コストを低減できる。
As described above, the video analysis system of this embodiment includes a biological attribute estimating unit (human attribute estimating unit 20) that extracts the attributes of living things in the video, and an object recognition unit that extracts the attributes of objects in the video. 21, a motion recognition unit (time-series action recognition unit 16) that recognizes the movement of the creature in the video, and frame
また、フレームレート調整部19が調整する処理の実行タイミングを出力する着目時間制御部23を備え、フレームレート調整部19は、着目時間制御部23からの出力に従って時系列行動認識部16における処理の実行間隔を制御するので、ユーザの要求や用途に応じて、フレームレートを適切に調整できる。
The frame
また、属性及び動きの少なくとも一方をクエリとして特徴量データベース210を検索する検索部(クエリ設定部24)と、人物又は物体の属性に関する特徴量を含む検索クエリが設定される検知ルール記憶部(検知ルールメモリ27)と、検知ルールメモリ27に設定された検索クエリが人物属性推定部20、物体認識部21、及び時系列行動認識部16からの出力に合致するかを判定するリアルタイム検知部26と備えるので、特徴量データベース210に対するリアルタイム検知機能と履歴検索機能を実現できる。
In addition, a search unit (query setting unit 24) that searches the
また、リアルタイム検知部26は、ユーザが検知クエリとして入力した属性によって得られた検索結果のうちユーザに選択された生物又は物体の特徴量が、人物属性推定部20、物体認識部21、及び時系列行動認識部16からの出力に合致するかを判定するので、目撃情報のクエリを用いた履歴検索によって得られた対象の映像の特徴量をリアルタイム検知ルールとするので、迅速かつ正確にターゲットを発見できる。これによりターゲットの逃走やターゲットによって引き起こされる新たなトラブルを未然に防止できる。
In addition, the real-
また、リアルタイム検知部26は、ユーザが検知クエリとして入力した属性によって得られた検索結果のうちユーザに選択されたものがない場合、ユーザが入力した属性の検索クエリに基づいて検知ルールを生成するので、ターゲットがヒットしない場合でもリアルタイム検知を継続できる。
In addition, when there is no search result selected by the user among the search results obtained by the attribute input by the user as the detection query, the real-
また、前記映像中の生物を追跡して軌跡を生成する人物追跡部15を備え、特徴量データベース210は、人物属性推定部20、物体認識部21、及び時系列行動認識部16からの出力を生物識別子(人物ID)を用いて関連付けて登録し、クエリ設定部24は、特定の生物の属性又は動きを人物IDで関連付けて特徴量データベース210で検索するので、人物IDを経由して間欠データを補完しながら検索結果、検知結果を取得できる。
Also, a
また、特徴量データベース2109は、人物属性推定部20、物体認識部21、及び時系列行動認識部16からの出力を軌跡IDを用いて関連付けて登録し、クエリ設定部24は、特定の生物の属性又は動きを軌跡IDで関連付けて特徴量データベース210を検索するので、軌跡IDを経由して間欠データを補完しながら検索結果、検知結果を取得できる。
Also, the feature amount database 2109 associates and registers the outputs from the person attribute
また、時系列行動認識部16は、人物の行動における同時多発事象を検出するので、環境の異常を速やかに検知できる。
In addition, since the time-series
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加・削除・置換をしてもよい。 It should be noted that the present invention is not limited to the embodiments described above, but includes various modifications and equivalent configurations within the scope of the appended claims. For example, the above-described embodiments have been described in detail for easy understanding of the present invention, and the present invention is not necessarily limited to those having all the described configurations. Also, part of the configuration of one embodiment may be replaced with the configuration of another embodiment. Moreover, the configuration of another embodiment may be added to the configuration of one embodiment. Further, additions, deletions, and replacements of other configurations may be made for a part of the configuration of each embodiment.
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。 In addition, each configuration, function, processing unit, processing means, etc. described above may be realized by hardware, for example, by designing a part or all of them with an integrated circuit, and the processor realizes each function. It may be realized by software by interpreting and executing a program to execute.
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、ICカード、SDカード、DVD等の記録媒体に格納することができる。 Information such as programs, tables, and files that implement each function can be stored in storage devices such as memories, hard disks, SSDs (Solid State Drives), or recording media such as IC cards, SD cards, and DVDs.
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。 In addition, the control lines and information lines indicate those considered necessary for explanation, and do not necessarily indicate all the control lines and information lines necessary for mounting. In practice, it can be considered that almost all configurations are interconnected.
1 プロセッサ
2 メモリ
3 補助記憶装置
4 通信インターフェース
5 入力インターフェース
6 キーボード
7 マウス
8 出力インターフェース
9 ディスプレイ装置
11 映像取得部
12 骨格推定部
13 人物矩形抽出部
14 人物特徴抽出部
15 人物追跡部
16 時系列行動認識部
17 フレームレート調整部
18 フレームレート調整部
19 フレームレート調整部
20 人物属性推定部
21 物体認識部
22 FDB登録部
23 着目時間制御部
24 クエリ設定部
25 検索結果出力部
26 リアルタイム検知部
27 検知ルールメモリ
100 映像解析システム
200 FDBサーバ
210 特徴量データベース
211 フレームテーブル
212 人物テーブル
213 物体テーブル
214 軌跡テーブル
220 検知対象データベース
300 カメラ
700 検索画面
710 検索指示ボタン
720 カメラ指定欄
730 日時指定欄
740 属性指定欄
750 検索結果表示領域
1
Claims (10)
所定の処理を実行する演算装置と、前記演算装置に接続された記憶デバイスとを有する計算機によって構成され、
前記演算装置は、映像中のオブジェクトの特徴量データを格納する特徴量データベースにアクセス可能であって、
前記映像解析システムは、
前記演算装置が、前記映像中の生物の属性を抽出する生物属性推定部と、
前記演算装置が、前記映像中の物体の属性を抽出する物体認識部と、
前記演算装置が、前記映像中の生物の動きを認識する動き認識部と、
前記演算装置が、前記各部による処理の実行タイミングを制御するためのフレームレート調整部とを有し、
前記フレームレート調整部は、前記動き認識部が処理する映像のフレームレートを、前記生物属性推定部及び前記物体認識部の少なくとも一方が処理する映像のフレームレートより高く設定することを特徴とする映像解析システム。 A video analysis system,
A computer comprising an arithmetic unit for executing predetermined processing and a storage device connected to the arithmetic unit,
The computing device is capable of accessing a feature amount database that stores feature amount data of objects in the video,
The video analysis system includes
a bio-attribute estimating unit for extracting the bio-attribute of the living thing in the image;
an object recognition unit in which the arithmetic unit extracts attributes of objects in the image;
a motion recognition unit in which the arithmetic device recognizes the motion of the creature in the image;
The computing device has a frame rate adjustment unit for controlling the execution timing of the processing by each unit,
The frame rate adjustment unit sets the frame rate of the image processed by the motion recognition unit higher than the frame rate of the image processed by at least one of the biological attribute estimation unit and the object recognition unit. analysis system.
前記フレームレート調整部は、前記動き認識部における処理の実行間隔を、前記生物属性推定部及び前記物体認識部の少なくとも一方における処理の実行間隔より高く設定することを特徴とする映像解析システム。 The video analysis system according to claim 1,
The video analysis system, wherein the frame rate adjustment unit sets an execution interval of processing in the motion recognition unit higher than an execution interval of processing in at least one of the biological attribute estimation unit and the object recognition unit.
前記フレームレート調整部が調整する処理の実行タイミングを出力する着目時間制御部を備え、
前記フレームレート調整部は、前記着目時間制御部からの出力に従って動き認識部における処理の実行間隔を制御することを特徴とする映像解析システム。 The video analysis system according to claim 1,
A time-of-interest control unit that outputs the execution timing of the process adjusted by the frame rate adjustment unit,
The video analysis system, wherein the frame rate adjustment section controls an execution interval of processing in the motion recognition section in accordance with the output from the time-of-interest control section.
前記演算装置が、前記属性及び動きの少なくとも一方をクエリとして前記特徴量データベースを検索する検索部と、
人物又は物体の属性に関する特徴量を含む検索クエリが設定される検知ルール記憶部と、
前記検知ルール記憶部に設定された検索クエリが前記生物属性推定部、前記物体認識部、及び前記動き認識部からの出力に合致するかを判定するリアルタイム検知部と備えることを特徴とする映像解析システム。 The video analysis system according to claim 1,
a search unit in which the arithmetic device searches the feature amount database using at least one of the attribute and the movement as a query;
a detection rule storage unit in which a search query including a feature amount related to attributes of a person or an object is set;
A video analysis characterized by comprising a real-time detection unit that determines whether a search query set in the detection rule storage unit matches outputs from the biological attribute estimation unit, the object recognition unit, and the motion recognition unit. system.
前記リアルタイム検知部は、ユーザが検知クエリとして入力した属性によって得られた検索結果のうちユーザに選択された生物又は物体の特徴量が、前記生物属性推定部、前記物体認識部、及び前記動き認識部からの出力に合致するかを判定することを特徴とする映像解析システム。 The video analysis system according to claim 4,
The real-time detection unit is configured such that the feature amount of a creature or an object selected by a user from among search results obtained from attributes input by a user as a detection query is detected by the biological attribute estimation unit, the object recognition unit, and the motion recognition unit. A video analysis system characterized by determining whether the output from the unit matches.
前記リアルタイム検知部は、ユーザが検知クエリとして入力した属性によって得られた検索結果のうちユーザに選択されたものがない場合、前記ユーザが入力した属性の検索クエリに基づいて検知ルールを生成することを特徴とする映像解析システム。 The video analysis system according to claim 4,
The real-time detection unit generates a detection rule based on the search query of the attribute input by the user when there is no search result selected by the user among the search results obtained by the attribute input by the user as the detection query. A video analysis system characterized by
前記演算装置が、前記映像中の生物を追跡して軌跡を生成する追跡部を備え、
前記特徴量データベースは、前記追跡部、前記生物属性推定部、及び前記動き認識部からの出力を生物識別子を用いて関連付けて登録し、
前記検索部は、特定の生物の属性又は動きを前記生物識別子で関連付けて前記特徴量データベースで検索することを特徴とする映像解析システム。 The video analysis system according to claim 4,
The computing device includes a tracking unit that tracks the creature in the image and generates a trajectory,
The feature amount database associates and registers the outputs from the tracking unit, the biological attribute estimation unit, and the motion recognition unit using biological identifiers,
The video analysis system, wherein the search unit searches the feature amount database by associating attributes or movements of a specific living thing with the biological identifier.
前記特徴量データベースは、前記追跡部、前記生物属性推定部、前記物体認識部、及び前記動き認識部からの出力を軌跡識別子を用いて関連付けて登録し、
前記検索部は、特定の生物の属性又は動きを前記軌跡識別子で関連付けて前記特徴量データベースを検索することを特徴とする映像解析システム。 The video analysis system according to claim 7,
The feature amount database associates and registers the outputs from the tracking unit, the biological attribute estimation unit, the object recognition unit, and the motion recognition unit using a trajectory identifier,
The video analysis system, wherein the search unit searches the feature amount database by associating the attribute or movement of a specific creature with the trajectory identifier.
前記動き認識部は、人物の行動における同時多発事象を検出することを特徴とする映像解析システム。 The video analysis system according to claim 1,
The video analysis system, wherein the motion recognition unit detects simultaneous multiple events in human behavior.
所定の処理を実行する演算装置と、前記演算装置に接続された記憶デバイスとを有する計算機によって実行され、
前記演算装置は、映像中のオブジェクトの特徴量データを格納する特徴量データベースにアクセス可能であって、
前記映像解析方法は、
前記演算装置が、前記映像中の生物の属性を抽出する生物属性推定手順と、
前記演算装置が、前記映像中の物体の属性を抽出する物体認識手順と、
前記演算装置が、前記映像中の生物の動きを認識する動き認識手順と、
前記演算装置が、前記各部の実行タイミングを制御するためのフレームレート調整手順とを有し、
前記フレームレート調整手順では、前記動き認識手順において処理される映像のフレームレートを、前記生物属性推定手順及び前記物体認識手順の少なくとも一方において処理する映像のフレームレートより高く設定することを特徴とする映像解析方法。 A video analysis method comprising:
Executed by a computer having an arithmetic unit for executing predetermined processing and a storage device connected to the arithmetic unit,
The computing device is capable of accessing a feature amount database that stores feature amount data of objects in the video,
The video analysis method includes
a bio-attribute estimating procedure in which the computing device extracts the bio-attribute in the image;
an object recognition procedure in which the arithmetic unit extracts an attribute of an object in the video;
a motion recognition procedure in which the arithmetic device recognizes the motion of the creature in the image;
The computing device has a frame rate adjustment procedure for controlling the execution timing of each unit,
In the frame rate adjustment procedure, the frame rate of the video processed in the motion recognition procedure is set higher than the frame rate of the video processed in at least one of the biological attribute estimation procedure and the object recognition procedure. Video analysis method.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021032281A JP2022133547A (en) | 2021-03-02 | 2021-03-02 | Video image analysis system and video image analysis method |
PCT/JP2021/030403 WO2022185569A1 (en) | 2021-03-02 | 2021-08-19 | Video analysis system and video analysis method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021032281A JP2022133547A (en) | 2021-03-02 | 2021-03-02 | Video image analysis system and video image analysis method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022133547A true JP2022133547A (en) | 2022-09-14 |
Family
ID=83155236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021032281A Pending JP2022133547A (en) | 2021-03-02 | 2021-03-02 | Video image analysis system and video image analysis method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2022133547A (en) |
WO (1) | WO2022185569A1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7427820B1 (en) | 2023-02-13 | 2024-02-05 | 三菱電機インフォメーションシステムズ株式会社 | Condition analysis device, condition analysis method, and condition analysis program |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4613230B2 (en) * | 2008-07-23 | 2011-01-12 | 株式会社日立製作所 | Moving object monitoring device |
JP6344383B2 (en) * | 2013-04-26 | 2018-06-20 | 日本電気株式会社 | Behavior analysis device, behavior analysis method, and behavior analysis program |
JP6200306B2 (en) * | 2013-12-09 | 2017-09-20 | 株式会社日立製作所 | Video search device, video search method, and storage medium |
JP6411373B2 (en) * | 2013-12-17 | 2018-10-24 | シャープ株式会社 | Recognition data transmission device, recognition data recording device, and recognition data recording method |
JP6811645B2 (en) * | 2017-02-28 | 2021-01-13 | 株式会社日立製作所 | Image search device and image search method |
JP6831769B2 (en) * | 2017-11-13 | 2021-02-17 | 株式会社日立製作所 | Image search device, image search method, and setting screen used for it |
-
2021
- 2021-03-02 JP JP2021032281A patent/JP2022133547A/en active Pending
- 2021-08-19 WO PCT/JP2021/030403 patent/WO2022185569A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2022185569A1 (en) | 2022-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI742300B (en) | Method and system for interfacing with a user to facilitate an image search for a person-of-interest | |
CA3061084C (en) | Alias capture to support searching for an object-of-interest | |
US9886634B2 (en) | Video based matching and tracking | |
CN110751022A (en) | Urban pet activity track monitoring method based on image recognition and related equipment | |
US10795928B2 (en) | Image search apparatus, system, and method | |
JP2017033547A (en) | Information processing apparatus, control method therefor, and program | |
WO2008106506A2 (en) | Video data matching using clustering on covariance appearance | |
JP2022518459A (en) | Information processing methods and devices, storage media | |
WO2007129474A1 (en) | Object recognition device, object recognition program, and image search service providing method | |
WO2022156234A1 (en) | Target re-identification method and apparatus, and computer-readable storage medium | |
JP2020047069A (en) | Information processing system, and method and program for controlling information processing system | |
JP2017054493A (en) | Information processor and control method and program thereof | |
WO2022185569A1 (en) | Video analysis system and video analysis method | |
CN117351405B (en) | Crowd behavior analysis system and method | |
JP2020095757A (en) | Information processing device, information processing method, and program | |
US20230131717A1 (en) | Search processing device, search processing method, and computer program product | |
JP2022062675A (en) | Method and apparatus for people flow analysis using similar-image search | |
CN110956644B (en) | Motion trail determination method and system | |
US12033390B2 (en) | Method and apparatus for people flow analysis with inflow estimation | |
US20230126761A1 (en) | Method and apparatus for people flow analysis with inflow estimation | |
US10956493B2 (en) | Database comparison operation to identify an object | |
JP2020182063A (en) | Image processing device and image processing method | |
Malik et al. | A Simplified Skeleton Joints Based Approach For Human Action Recognition | |
WO2022079841A1 (en) | Group specifying device, group specifying method, and computer-readable recording medium | |
JP6975666B2 (en) | Person identification system and person identification method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230522 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240702 |