JP7202995B2 - 時空間事象予測装置、時空間事象予測方法及び時空間事象予測システム - Google Patents
時空間事象予測装置、時空間事象予測方法及び時空間事象予測システム Download PDFInfo
- Publication number
- JP7202995B2 JP7202995B2 JP2019186545A JP2019186545A JP7202995B2 JP 7202995 B2 JP7202995 B2 JP 7202995B2 JP 2019186545 A JP2019186545 A JP 2019186545A JP 2019186545 A JP2019186545 A JP 2019186545A JP 7202995 B2 JP7202995 B2 JP 7202995B2
- Authority
- JP
- Japan
- Prior art keywords
- spatio
- temporal
- event
- image
- image sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Description
例えば、CN108399380A(特許文献1)には「本発明は、3次元畳み込みおよびより高速なRCNNベースのビデオアクション検出方法を開示する。この方法は、最初に新しいモデルを導入し、3次元の完全な畳み込みネットワークを使用してビデオストリームをエンコードするステップを含む。次に、生成された特徴に基づくアクションを含む候補時間領域を生成し、候補フレームのグループを生成する。そして、異なるフィルム編集の対象となる候補フレームで最終的に分類検出を実行し、それにより、ビデオストリーム内のアクションタイプ及びビデオアクションの開始及び終了時間を予測し、アクションの空間位置境界フレームを予測する」技術が記載されている。
しかし、特許文献1に記載の手段は、3次元畳み込み演算を用いた、アクションの時間的局在化(temporal localization)に限られており、同時に起こる複数のイベントの検出は想定されていない。また、特許文献1に記載の手段において高精度の予測を実現するためには、訓練のために膨大な学習データを要する。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
従来の時空間的動作検出では、所定のイベントやオブジェクトを時空間的に特定するために、入力となる画像シーケンスにおける各画像フレームを分析し、その中から、特定の対象となる属性に一致する物体を検出する必要があったため、処理負荷が大きい。また、従来では、イベントの空間的特定と時間的特定はそれぞれ異なる専用のニューラルネットワークによって独立して行われることが一般的であり、複数のイベントやオブジェクトを空間的かつ時間的に特定することが難しい。
そこで、本発明は、因果的畳み込み演算(casual convolution operations)を用いることで、所定のイベントが起こると予測される時空間的領域(例えば、画像シーケンスにおける特定のフレームや当該フレームにおける平面座標)の候補を示す提案を生成する。その後、既存のオブジェクト検出やオブジェクト特定手法が指定されているフレームに対してのみ実行されるため、従来に比べて、イベントやオブジェクトの時空間的特定の精度を向上させる上、必要なコンピューティング資源を節約することができる。
(ハードウェア構成)
なお、映像解析部235に含まれる機能部の詳細については後述する。
なお、この所定のイベントとは、画像シーケンスにおけるオブジェクトの状態の変化を意味するものであり、本発明の実施形態に係るニューラルネットワークが事前に特定できるように訓練されたものである。この所定のイベントは、例えば、人間や動物等の生き物の出現や動作、交通事故、犯罪とみなされる行為等、任意のものであってもよい。
また、ここでのイベントは、受信した画像シーケンスに写る、既に生起した過去のイベントであってもよく、まだ生起していない将来のイベントであってもよい。従って、本発明に係る時空間事象予測方法390により、画像シーケンスにおける過去のイベントの時空間特定に加えて、まだ起こっていない将来のイベントの時空間事象予測が可能である。
なお、ステップS320で複数の時空間提案が生成された場合には、ステップS330~S350の処理は、それぞれの時空間提案に対して行われてもよく、使用可能なコンピューティング資源の量に応じて、時空間提案の一部のみに対して行われてもよい。
所定のイベントに関連するオブジェクトを特定する手段として、特定部は、SIFT(Scale-invariant feature transform)、HOG(Histogram of oriented gradients)R-CNN, Fast R-CNN, Faster R-CNN, SSD(Single Shot Multibox Detector), YOLO(You Only Look Once)等のアルゴリズムを用いてもよい。なお、ここでは、特定部は、特定したオブジェクト毎に、一意のトラッキング用識別子を付してもよい。
なお、ステップS320で複数の時空間提案が生成された場合には、判定部は、それぞれの時空間提案に対して時空間事象予測結果を出力してもよく、イベント・オブジェクトを正しく特定した確率が所定の確率基準を満たすもののみに対して時空間事象予測結果を出力してもよい。
この時空間事象予測結果が示す、時空間座標及びイベントクラス情報を用いることで、所定のイベント及び当該イベントに関連するオブジェクトの時空間的な位置を高精度で特定することができる。
なお、畳み込み特徴を因果的に合成するためのニューラルネットワーク構成については後述する。
この2次元の畳み込み演算のカスケード構成によれば、因果的畳み込み演算が可能となり、所定のイベントを高精度で時空間的に特定することができる。
なお、ここでの入力ノードM00、入力ノードM01,入力ノードM02、及び入力ノードM0kは、画像シーケンスからの特徴を抽出する畳み込みモデルであり、畳み込みノードM10,畳み込みノードM11,畳み込みノードM12、及び畳み込みノードM1kは、画像シーケンスの時系列データが保たれる(埋め込まれる)因果的畳み込み特徴を生成するモデルである。
また、ニューラルネットワーク500に含まれるレイヤの数や、それぞれのレイヤにおけるノードの数は任意であり、用途や目的に応じて適宜に変更されてもよい。また、本発明に係るニューラルネットワークが畳み込みニューラルネットワーク(convolutional neural network)である場合の例を説明するが、本発明はこれに限定されず、他の適宜に構成したニューラルネットワークの使用も可能である。
この構成により、畳み込みレイヤM2000は、入力される特徴を因果的・非因果的(causally/anti-causally)に合成することが可能となり、因果的畳み込み演算を施すことで、特徴の時間的情報(例えば、画像シーケンスの時系列に関する情報や、画像フレームの順番)が埋め込まれている因果的畳み込み特徴を生成することができる。このように、所定の画像フレームから抽出した特徴と、前後の画像フレームから抽出した特徴の画像シーケンスにおける時間的依存性を保つことができる。
また、本発明の実施形態に係るニューラルネットワーク500の畳み込みレイヤM2000は、画像フレームを処理する際には、任意のストライドパラメータ(又は「ストライド」と略することもある)を用いて畳み込み演算を行ってもよい。このストライドパラメータとは、畳み込み関数の適用範囲を指定するパラメータであり、フィルター(又はカーナルと呼ぶことまる)が移動する間隔を定義する。このストライドは、画像シーケンスの期間の長さによって適宜に選択されてもよい。例えば、画像シーケンスが比較的に長い場合には、より高いストライドを設定することで、畳み込みレイヤの処理負荷を低減させることができる。一方、画像シーケンスが比較的に短い場合には、より短いストライドを設定することで、より高精度の時空間提案を生成することができる。また、ここでのストライドは、ユーザに設定されてもよく、画像シーケンスの期間の長さに応じて、ニューラルネットワーク500によって自動的に計算されてもよい。
空間的領域予測レイヤM5000は、入力されるデータを空間グリッド(spatial grid)に分割し、特徴チャンネルを所定のイベントが起こる空間領域にマッピングすることで、特徴の空間的情報(空間バウンディングボックスや平面座標)を計算する。
また、アクティビティクラス予測レイヤM6000は、入力される特徴を所定のイベントの空間的領域にマッピングし、チャンネルの深さを時間的領域にマッピングすることで、所定のイベントのイベントクラス(事故、犯罪、異常等のイベント内容)を判定する。
なお、特徴抽出レイヤEX1000の構成は図7に示す例に限定されない。
なお、これらの特徴Faは、訓練済みのモデルによって抽出されてもよい。
なお、生成される特徴は、平行に生成されてもよく、順番に生成されてもよい。
例えば、所定のイベントやオブジェクトが写る領域EX3200を検出する際には、所定の特徴点を中心に、アンカーEX3100が生成され、このアンカーEX3100が含む時空間的領域の時空間的座標は、時空間提案EX3000によって示される。
なお、フレーム選択・オブジェクト特定レイヤM9000と、時間的領域予測レイヤM4000と、空間的領域予測レイヤM5000とは共に訓練されてもよく、独立して訓練されてもよい。
例えば、図11に示すように、本発明の実施形態に係るニューラルネットワーク1100におけるレイヤのノードは、少数の下流のノードのみに接続されるスパース接続構成であってもよい。この構成では、ニューラルネットワーク1100の入力レイヤにおけるノードM00,M01,M02等は、畳み込みレイヤにおける下流のノードに接続されず、直下の畳み込みレイヤのノードのみに接続される。
202 センサ
205 情報処理サーバ
215 センサ管理部
220 データ管理部
225 映像データベース
230 イベント・オブジェクトデータベース
235 映像解析部
240 作成部
245 抽出部
250 特定部
255 判定部
Claims (9)
- イベント及びオブジェクトの時空間座標を予測する時空間事象予測装置であって、
複数の画像フレームから構成される画像シーケンスを受け付ける転送部と、
前記画像シーケンスにおいて、少なくとも所定のイベントが起こると予測される時空間座標を指定する時空間提案を生成する作成部と、
前記時空間提案に示される時空間座標に基づいて、前記所定のイベントに対応する画像領域を前記画像シーケンスの特定の画像フレームから抽出する抽出部と、
前記画像領域において、前記所定のイベントに関連するオブジェクトを1つ以上特定する特定部と、
前記オブジェクトの各々について、当該オブジェクトの時空間座標と、前記所定のイベントを特徴づけるイベントクラスを判定し、前記オブジェクト及び前記所定のイベントに関する時空間事象予測結果を出力する判定部と、
を含むことを特徴とする時空間事象予測装置。 - 前記作成部は、
畳み込みニューラルネットワークを用いて前記時空間提案を作成する、
ことを特徴とする、請求項1に記載の時空間事象予測装置。 - 前記畳み込みニューラルネットワークは、
前記画像シーケンスの前記複数の画像フレームを入力し、特徴を抽出する入力レイヤと、
前記特徴に対して因果的畳み込み演算を施し、前記画像シーケンスの時系列情報が埋め込まれる因果的畳み込み特徴を生成する畳み込みレイヤと、
前記因果的畳み込み特徴を集約する集約レイヤと、
前記集約した因果的畳み込み特徴に基づいて、前記所定のイベントに関する時間的情報を計算する時間領域予測レイヤと、
前記集約した因果的畳み込み特徴に基づいて、前記所定のイベントに関する空間的情報を計算する空間領域予測レイヤと、
前記集約した因果的畳み込み特徴に基づいて、前記所定のイベントに関するイベントクラスを計算するアクティビティクラス予測レイヤと、
を含むことを特徴とする、請求項2に記載の時空間事象予測装置。 - 前記畳み込みニューラルネットワークにおいて、
前記入力レイヤは複数の入力ノードを含み、
前記畳み込みレイヤは、それぞれの前記複数の入力ノードに対応する複数の畳み込みノードを含み、
前記複数の入力ノードはそれぞれ、前記複数の画像フレームのうち、異なる画像フレームを入力し、当該画像フレームの特徴を抽出し、前記抽出した特徴を、当該入力ノードに対応する畳み込みノードに加えて、下流の画像フレームを入力した入力ノードに対応する畳み込みノードにも出力する、
ことを特徴とする、請求項3に記載の時空間事象予測装置。 - 前記作成部は、
前記因果的畳み込み特徴に基づいて計算された前記時間的情報、前記空間的情報、及びイベントクラスを用いて、前記所定のイベントが起こると予測される前記特定の画像フレームのフレーム番号と、前記所定のイベントが起こると予測される前記特定の画像フレームにおける平面座標と、前記所定のイベントの内容を特徴付けるイベントクラスとを含む時空間提案を作成する、
ことを特徴とする、請求項4に記載の時空間事象予測装置。 - 前記畳み込みニューラルネットワークは、
前記画像シーケンスに対応する期間の長さに基づいて、
畳み込み演算に用いるストライドパラメータを計算し、
前記計算したストライドパラメータを用いて、前記画像シーケンスに対する畳み込み演算を実行する、
ことを特徴とする、請求項5に記載の時空間事象予測装置。 - 前記時空間提案は、前記画像シーケンスにおける複数の所定イベントの時空間座標を含み、
前記時空間事象予測結果は、前記所定のイベントの各々について、当該イベントに関連する複数のオブジェクトの時空間座標を含む、
ことを特徴とする、請求項1に記載の時空間事象予測装置。 - イベント及びオブジェクトの時空間座標を予測する時空間事象予測方法であって、
複数の画像フレームから構成される画像シーケンスを受け付ける工程と、
前記画像シーケンスにおいて、所定のイベントが起こると予測される時空間座標を指定する時空間提案を生成する工程と、
前記時空間提案に示される時空間座標に基づいて、前記所定のイベントに対応する画像領域を前記画像シーケンスの特定の画像フレームから抽出する工程と、
前記画像領域において、前記所定のイベントに関連するオブジェクトを1つ以上特定する工程と、
前記オブジェクトの各々について、当該オブジェクトの時空間座標と、前記所定のイベントを特徴づけるイベントクラスを判定し、前記オブジェクト及び前記イベントに関する時空間事象予測結果を出力する工程と、
を含む時空間事象予測方法。 - イベント及びオブジェクトの時空間座標を予測する時空間事象予測システムであって、
時空間事象予測システムにおいて、
複数の画像フレームから構成される画像シーケンスを取得するセンサと、
情報処理サーバと、
クライアント端末とが通信ネットワークを介して接続されており、
前記情報処理サーバは、
前記画像シーケンスを前記センサから受け付ける転送部と、
前記画像シーケンスにおいて、所定のイベントが起こると予測される時空間座標を指定する時空間提案を生成する作成部と、
前記時空間提案に示される時空間座標に基づいて、前記所定のイベントに対応する画像領域を前記画像シーケンスの特定の画像フレームから抽出する抽出部と、
前記画像領域において、前記所定のイベントに関連するオブジェクトを1つ以上特定する特定部と、
前記オブジェクトの各々について、当該オブジェクトの時空間座標と、前記所定のイベントを特徴づけるイベントクラスを判定し、前記オブジェクト及び前記イベントに関する時空間事象予測結果を前記クライアント端末に出力する判定部と、
を含む時空間事象予測システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019186545A JP7202995B2 (ja) | 2019-10-10 | 2019-10-10 | 時空間事象予測装置、時空間事象予測方法及び時空間事象予測システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019186545A JP7202995B2 (ja) | 2019-10-10 | 2019-10-10 | 時空間事象予測装置、時空間事象予測方法及び時空間事象予測システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021064021A JP2021064021A (ja) | 2021-04-22 |
JP7202995B2 true JP7202995B2 (ja) | 2023-01-12 |
Family
ID=75487998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019186545A Active JP7202995B2 (ja) | 2019-10-10 | 2019-10-10 | 時空間事象予測装置、時空間事象予測方法及び時空間事象予測システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7202995B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113837471B (zh) * | 2021-09-26 | 2023-08-29 | 广西大学 | 一种分区模态分解多时空卷积网络风电场出力预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004110448A (ja) | 2002-09-19 | 2004-04-08 | Nippon Hoso Kyokai <Nhk> | 映像オブジェクト識別・追跡装置、その方法及びそのプログラム |
JP2018077829A (ja) | 2016-11-09 | 2018-05-17 | パナソニックIpマネジメント株式会社 | 情報処理方法、情報処理装置およびプログラム |
JP2019036008A (ja) | 2017-08-10 | 2019-03-07 | 富士通株式会社 | 制御プログラム、制御方法、及び情報処理装置 |
JP2021506017A (ja) | 2018-02-06 | 2021-02-18 | 三菱電機株式会社 | 物体検出器及び物体検出方法 |
-
2019
- 2019-10-10 JP JP2019186545A patent/JP7202995B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004110448A (ja) | 2002-09-19 | 2004-04-08 | Nippon Hoso Kyokai <Nhk> | 映像オブジェクト識別・追跡装置、その方法及びそのプログラム |
JP2018077829A (ja) | 2016-11-09 | 2018-05-17 | パナソニックIpマネジメント株式会社 | 情報処理方法、情報処理装置およびプログラム |
JP2019036008A (ja) | 2017-08-10 | 2019-03-07 | 富士通株式会社 | 制御プログラム、制御方法、及び情報処理装置 |
JP2021506017A (ja) | 2018-02-06 | 2021-02-18 | 三菱電機株式会社 | 物体検出器及び物体検出方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2021064021A (ja) | 2021-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11107222B2 (en) | Video object tracking | |
JP2023145558A (ja) | 外観検索のシステムおよび方法 | |
Bendali-Braham et al. | Recent trends in crowd analysis: A review | |
US9560323B2 (en) | Method and system for metadata extraction from master-slave cameras tracking system | |
US9852363B1 (en) | Generating labeled images | |
JP6005837B2 (ja) | 画像解析装置、画像解析システム、画像解析方法 | |
Chun et al. | Human action recognition using histogram of motion intensity and direction from multiple views | |
JPWO2018025831A1 (ja) | 人流推定装置、人流推定方法およびプログラム | |
Koyun et al. | Focus-and-Detect: A small object detection framework for aerial images | |
Benito-Picazo et al. | Deep learning-based video surveillance system managed by low cost hardware and panoramic cameras | |
US20220012502A1 (en) | Activity detection device, activity detection system, and activity detection method | |
Hinz et al. | Online multi-object tracking-by-clustering for intelligent transportation system with neuromorphic vision sensor | |
Wang et al. | Skip-connection convolutional neural network for still image crowd counting | |
Bhuiyan et al. | Video analytics using deep learning for crowd analysis: a review | |
Liu et al. | A cloud infrastructure for target detection and tracking using audio and video fusion | |
KR20220098030A (ko) | 타깃 운동 궤적 구축 방법, 기기 및 컴퓨터 저장 매체 | |
US20190171885A1 (en) | Generating signatures within a network that includes a plurality of computing devices of varying processing capabilities | |
Yu et al. | Abnormal event detection using adversarial predictive coding for motion and appearance | |
KR102440198B1 (ko) | 시각 검색 방법, 장치, 컴퓨터 기기 및 저장 매체 (video search method and apparatus, computer device, and storage medium) | |
Venkatesvara Rao et al. | Real-time video object detection and classification using hybrid texture feature extraction | |
JP7202995B2 (ja) | 時空間事象予測装置、時空間事象予測方法及び時空間事象予測システム | |
JP2013195725A (ja) | 画像表示システム | |
EP4332910A1 (en) | Behavior detection method, electronic device, and computer readable storage medium | |
Gupta et al. | Reconnoitering the Essentials of Image and Video Processing: A Comprehensive Overview | |
WO2023105800A1 (en) | Object detection device, object detection method, and object detection system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220207 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7202995 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |