JP2018170003A - ビデオ中のイベントの検出装置、方法及び画像処理装置 - Google Patents

ビデオ中のイベントの検出装置、方法及び画像処理装置 Download PDF

Info

Publication number
JP2018170003A
JP2018170003A JP2018006262A JP2018006262A JP2018170003A JP 2018170003 A JP2018170003 A JP 2018170003A JP 2018006262 A JP2018006262 A JP 2018006262A JP 2018006262 A JP2018006262 A JP 2018006262A JP 2018170003 A JP2018170003 A JP 2018170003A
Authority
JP
Japan
Prior art keywords
image
frame
feature value
dimensional
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018006262A
Other languages
English (en)
Inventor
バイ・シアンホォイ
Xianghui Bai
リィウ・シアオチン
Xiaoqing Liu
タヌ・ジミン
Tan Zhiming
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2018170003A publication Critical patent/JP2018170003A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection

Abstract

【課題】本発明は、ビデオ中のイベントの検出装置、方法及び画像処理装置を提供する。【解決手段】検出方法は、ビデオから所定の時間間隔で複数のフレームの画像を抽出し;抽出された各フレームの画像のためにマルチ次元の空間特徴値を抽出し;各フレームの画像について、所定の時間ウィンドウ内の複数の隣接フレームを選択し;各フレームの画像のために、該フレームの画像のマルチ次元の時間特徴値を抽出し;各フレームの画像のマルチ次元の空間特徴値及びマルチ次元の時間特徴値に基づいて、各フレームの画像のために一次元の時間-空間特徴値を取得し;及び、前記複数のフレームの画像の時間-空間特徴値に基づいて、前記ビデオに発生したイベントを検出することを含む。【選択図】図1

Description

本発明は、ビデオ監視の技術分野に関し、特に、ビデオ中のイベントの検出装置、方法及び画像処理装置に関する。
ビデオ監視分野では、一般的に、関心ターゲットを検出する必要がある。例えば、駐車場での車両検出では、ビデオに現れた車両に対してリアルタイムでモニタリングする必要がある。また、例えば、高速道路での車両検出では、ビデオに発生したイベント、例えば、速度オーバー、交通事故などをタイムリーかつ正確に検出する必要がある。
ビデオに発生したイベントを如何にタイムリーかつ正確に検出するかは、ビデオ監視技術にとって重要な意義を有する。しかし、機器や装置が人間のような理解力を持たないため、ビデオ監視分野におけるイベントの検出は、挑戦的なものである。
今のところ、畳み込みニューラルネットワーク(CNN、Convolution Neural Networks)などの技術は、既にコンピュータビジョン分野で幅広く研究されており、また、時間領域情報と空間領域情報を統合した方法も開発されている。しかし、今までの技術案は、リアルタイム性及び正確性の面において依然として向上させる必要がある。
本発明の目的は、ビデオ中のイベントを検出する装置、方法及び画像処理装置を提供することにあり、これにより、ビデオに発生したイベントを正確に検出することができるのみならず、ビデオ監視のリアルタイム性への要求を満たすこともできる。
本発明の実施例の第一側面によれば、ビデオ中のイベントの検出装置が提供され、それは、
画像抽出ユニットであって、ビデオから所定の時間間隔で複数のフレームの画像を抽出するためのもの;
空間特徴抽出ユニットであって、抽出された各フレームの画像のために、該フレームの画像のマルチ次元の空間特徴値を抽出するためのもの;
隣接フレーム選択ユニットであって、前記各フレームの画像について、所定の時間ウィンドウ内の複数の隣接フレームをそれぞれ選択するためのもの;
時間特徴抽出ユニットであって、前記各フレームの画像の前記複数の隣接フレームに基づいて、それぞれ、前記各フレームの画像のために、該フレームの画像のマルチ次元の時間特徴値を抽出するためのもの;
時間空間特徴取得ユニットであって、前記各フレームの画像のマルチ次元の空間特徴値及びマルチ次元の時間特徴値に基づいて、それぞれ、前記各フレームの画像のために、一次元の時間-空間特徴値を得るためのもの;及び
イベント検出ユニットであって、前記複数のフレームの画像の時間-空間特徴値に基づいて、前記ビデオに発生したイベントを検出するためのものを含む。
本発明の実施例の第二側面によれば、ビデオ中のイベントの検出方法が提供され、それは、
ビデオから所定の時間間隔で複数のフレームの画像を抽出し;
抽出された各フレームの画像のために、該フレームの画像のマルチ次元の空間特徴値を抽出し;
前記各フレームの画像について、それぞれ、所定の時間ウィンドウ内の複数の隣接フレームを選択し;
前記各フレームの画像の前記複数の隣接フレームに基づいて、それぞれ、前記各フレームの画像のために、該フレームの画像のマルチ次元の時間特徴値を抽出し;
前記各フレームの画像のマルチ次元の空間特徴値及びマルチ次元の時間特徴値に基づいて、それぞれ、前記各フレームの画像のために、一次元の時間-空間特徴値を取得し;及び
前記複数のフレームの画像の時間-空間特徴値に基づいて、前記ビデオに発生したイベントを検出することを含む。
本実施例の第三側面によれば、画像処理装置が提供され、それは、上述のビデオ中のイベントの検出装置を含む。
本発明の実施例の有益な効果は、次の通りであり、即ち、ビデオから複数のフレームの画像を抽出し、各フレームの画像のマルチ次元の空間特徴値及びマルチ次元の時間特徴値を一次元の時間-空間特徴値に統合し、そして、前記複数のフレームの画像の時間-空間特徴値に基づいて前記ビデオ中のイベントを検出することにより、ビデオに発生したイベントを正確に検出することができると共に、ビデオ監視のリアルタイム性への要求を満足することもできる。
本発明の実施例におけるビデオ中のイベントの検出方法を示す図である。 本発明の実施例における複数のフレームの画像の抽出を示す図である。 本発明の実施例におけるCNNによるマルチ次元の空間特徴値の取得を示す図である。 本発明の実施例における複数の隣接フレームの選択を示す図である。 本発明の実施例におけるCNNによるマルチ次元の時間特徴値の取得を示す図である。 本発明の実施例における畳み込み処理による一次元の時間-空間特徴値の取得を示す図である。 本発明の実施例におけるRNNによるイベントの検出を示す図である。 本発明の実施例におけるビデオ中のイベントの検出装置を示す図である。 本発明の実施例における画像処理装置を示す図である。
以下、添付した図面を参照しながら、本発明を実施するための好適な形態を詳細に説明する。なお、このような実施形態は、例示に過ぎず、本発明を限定するものでない。
本発明の実施例では、交通分野におけるビデオ監視を例として説明を行うが、本発明は、これに限定されず、他のビデオ監視のシナリオに適用することもできる。
本実施例は、ビデオ中のイベントの検出方法を提供する。図1は、本実施例におけるビデオ中のイベントの検出方法を示す図である。図1に示すように、前記検出方法は、次のステップを含む。
ステップ101:ビデオから所定の時間間隔で複数のフレームの画像を抽出し;
ステップ102:抽出された各フレームの画像のために、該フレームの画像のマルチ次元の空間特徴値を抽出し;
ステップ103:前記各フレームの画像について、それぞれ、所定の時間ウィンドウ内の複数の隣接フレームを選択し;
ステップ104:前記各フレームの画像の前記複数の隣接フレームに基づいて、それぞれ、前記各フレームの画像のために、該フレームの画像のマルチ次元の時間特徴値を抽出し;
ステップ105:前記各フレームの画像のマルチ次元の空間特徴値及びマルチ次元の時間特徴値に基づいて、それぞれ、前記各フレームの画像のために、一次元の時間-空間特徴値を取得し;及び
ステップ106:前記複数のフレームの画像の時間-空間特徴値に基づいて、前記ビデオに発生したイベントを検出する。
本実施例では、監視場所に設置されているカメラにより、複数のフレームの画像を含むビデオを得ることができる。カメラは、例えば、交差点付近の交通監視カメラ、ガソリンスタンド付近の監視カメラ、駐車場付近の監視カメラ、高速道路付近の監視カメラなどであっても良い。なお、本発明は、これに限定されず、ビデオ監視分野における任意の従来技術により該ビデオを取得しても良い。
本実施例では、所定の時間間隔に従って、該ビデオから複数のフレームの画像を抽出することができる。例えば、該所定の時間間隔がN(単位は、例えば、msであっても良いが、これに限定されない)の場合、Nごとにビデオから1フレームの画像を抽出することができる。
図2は、本発明の実施例における複数のフレームの画像の抽出を示す図である。図2に示すように、取得されたビデオは、複数の時間上で連続したフレームを含んでも良く、これらのフレームのうちからFrame(t)、Frame(t+N)、Frame(t+2N)、…などのフレームの画像を抽出することができる。
本実施例では、抽出された各フレームの画像について、畳み込みニューラルネットワーク(CNN)を用いて該フレームの画像のマルチ次元の空間特徴値を得ることができる。例えば、該フレームの画像のエッジ画像(空間特徴を含む)を取得し、その後、CNNを用いて該エッジ画像に対して処理を行っても良い。CNNの具体的な内容については、関連技術を参照することができるため、本発明では、その詳しい説明を省略する。
図3は、本発明の実施例においてCNNによりマルチ次元の空間特徴値を得ることを示す図である。図3に示すように、各フレームの画像(例えば、Frame(t))について、CNNに基づいて、エッジ画像からマルチ次元の空間特徴値、例えば、Conv1、Pool1、Conv2、Pool2、Conv3、Pool3、Conv4、Pool4、Conv5、Pool5、…を得ることができる。
例えば、CNNの畳み込みフィルタリングパラメータを設定することができ、異なる反復パラメータにより、異なる空間特徴を得ることができ、各空間特徴は、1つの平面に対応することができ、畳み込みフィルタリング後の複数の特徴は、複数の平面の重ね合わせにより形成することができ、これにより、立体のマルチ次元の空間特徴値を形成することができ、例えば、該マルチ次元の空間特徴値は、直方体又は立方体により表されても良いが、これに限定されない。
本実施例では、抽出された各フレームの画像について、それぞれ、所定の時間ウィンドウ内の複数の隣接フレームを選択することができる。例えば、あるフレームの画像Frame(t)について、この画像のために、複数の隣接フレームを選択することができる。
図4は、本発明の実施例において複数の隣接フレームを選択することを示す図である。図4に示すように、所定の時間ウィンドウがL(単位は、例えば、msであっても良いが、これに限定されない)の場合、該フレームの画像Frame(t)のために、Frame(t-L/2)、Frame(t-L/2+1)、…、Frame(t+L/2-1)の計L個の隣接フレーム(例えば、該フレームの画像自身も含む)を選択することができる。
本実施例では、複数の隣接フレームが選択されたあるフレームの画像について、該フレームの画像における各画素の、前記複数の隣接フレーム中での運動軌跡又はオプティカルフロー(optical flow)を計算し、これにより、該フレームの画像に対応するオプティカルフロー図を得ることができる。また、畳み込みニューラルネットワーク(CNN)を用いて、該オプティカルフロー図(時間特徴を含む)から、該フレームの画像のマルチ次元の時間特徴値を抽出することができる。
例えば、オプティカルフローは、物体運動の時間領域上での顕著な情報であり、画像シーケンスにおける画素の時間域上での変化及び隣接フレーム間の相関性を用いて、前のフレームと、現在のフレームとの間の対応関係を見つけることができ、隣接フレーム間のこのような対応関係は、物体の運動情報と見なされても良い。オプティカルフロー図は、例えば、OpenCV中のcalcOpticalFlowFarneback()を用いて計算により生成することができ、また、他の適切な処理をさらに行っても良い。なお、具体的にどのようにオプティカルフロー図を計算するかは、従来の関連技術を参照することができる。
図5は、本発明の実施例においてCNNによりマルチ次元の時間特徴値を得ることを示す図である。図5に示すように、各フレームの画像(例えば、Frame(t))について、CNNに基づいて、オプティカルフロー図から、マルチ次元の時間特徴値、例えば、Conv1、Pool1、Conv2、Pool2、Conv3、Pool3、Conv4、Pool4、Conv5、Pool5、…を取得することができる。
例えば、CNNの畳み込みフィルタリングパラメータを設定することができ、異なる反復パラメータにより、異なる時間特徴を得ることができ、各時間特徴は、1つの平面に対応することができ、畳み込みフィルタリング後の複数の特徴は、複数の平面の重ね合わせにより形成することができ、これにより、立体のマルチ次元の時間特徴値を形成することができ、例えば、該マルチ次元の時間特徴値は、直方体又は立方体により表されても良いが、これに限定されない。
本実施例では、各フレームの画像に対応するマルチ次元の空間特徴値とマルチ次元の時間特徴値に対して重ね合わせを行い、そして、重ね合わせ後のマルチ次元の特徴値に対して一回畳み込み処理を行うことで、一次元の時間-空間特徴値を得ることができる。
図6は、本発明の実施例において一回の畳み込み処理により一次元の時間-空間特徴値を得ることを示す図である。図6に示すように、各フレームの画像(例えば、Frame(t))について、該フレームの画像に対応するマルチ次元の空間特徴値とマルチ次元の時間特徴値に対して重ね合わせ(統合などとも称される)を行い、その後、一回の畳み込み操作により、一次元のベクトルConv6、Pool6、Fc7に変換することができる。
これにより、抽出された各フレームの画像について、一次元の時間-空間特徴値を計算することができる。
本実施例では、再帰型ニューラルネットワーク(RNN、Recurrent Neural Networks)を用いて、複数のフレームの画像の時間-空間特徴値に対して処理を行うことで、監視ビデオに発生したイベントに関する情報を取得することができる。
図7は、本発明の実施例においてRNNによりイベントを検出することを示す図である。図7に示すように、抽出された各フレームの画像に対応する一次元の時間-空間特徴値は、LSTM(Long Short Term Memory)モジュールに入力することができる。時間上で連続した複数の抽出されたフレームの画像に対応して、ビデオのディスクリプション(description)を連続して出力することができ、即ち、ビデオ中のイベントを検出することができる。
例えば、LSTMは、再帰型ニューラルネットワークであり、時間シーケンス中での間隔及び遅延が非常に長い重要イベントを処理及び予測することに適する。なお、本発明は、これに限定されず、例えば、他の方法を採用してビデオ中のイベントの検出を行っても良い。
なお、図1は、本発明の実施例を例示するためのものに過ぎず、本発明は、これに限られない。例えば、各ステップの実行順序を適切に調整することができ、また、ステップを増減することもできる。また、当業者は、上述の内容に基づいて適切に変更することもできる。即ち、図1の記載に限定されない。
また、図2乃至図7も、本発明の実施例を例示するためのものに過ぎず、本発明は、これに限定されない。例えば、本発明の実施例は、CNN、RNN、LSTMを例として説明したが、他の方法を用いてマルチ次元の時間特徴値及びマルチ次元の空間特徴値を計算し、そして、ビデオ中のイベント情報を検出することもできる。
上述の実施例から分かるように、ビデオから複数のフレームの画像を抽出し、各フレームの画像のマルチ次元の空間特徴値とマルチ次元の時間特徴値を一次元の時間-空間特徴値に統合し、そして、前記複数のフレームの画像の時間-空間特徴値に基づいて、前記ビデオ中のイベントを検出することにより、ビデオに発生したイベントを正確に検出することができるだけでなく、ビデオ監視のリアルタイム性への要求を満たすこともできる。
本実施例は、ビデオ中のイベントの検出装置を提供する。該検出装置は、カメラが取り付けられた画像処理装置であっても良く、また、該画像処理装置の1つ又は複数の部品又はモジュールであっても良い。本実施例は、実施例1のビデオ中のイベントの検出方法に対応するため、同じ内容の記載は、省略される。
図8は、本実施例のビデオ中のイベントの検出装置を示す図である。図8に示すように、ビデオ中のイベントの検出装置800は、次のようなものを含む。
画像抽出ユニット801:ビデオから所定の時間間隔で複数のフレームの画像を抽出し;
空間特徴抽出ユニット802:抽出された各フレームの画像のために、該フレームの画像のマルチ次元の空間特徴値を抽出し;
隣接フレーム選択ユニット803:前記各フレームの画像について、それぞれ、所定の時間ウィンドウ内の複数の隣接フレームを選択し;
時間特徴抽出ユニット804:前記各フレームの画像の前記複数の隣接フレームに基づいて、それぞれ、前記各フレームの画像のために、該フレームの画像のマルチ次元の時間特徴値を抽出し;
時間空間特徴取得ユニット805:前記各フレームの画像のマルチ次元の空間特徴値及びマルチ次元の時間特徴値に基づいて、それぞれ、前記各フレームの画像のために、一次元の時間-空間特徴値を取得し;及び
イベント検出ユニット806:前記複数のフレームの画像の時間-空間特徴値に基づいて、前記ビデオに発生したイベントを検出する。
本実施例では、前記空間特徴抽出ユニット802は、畳み込みニューラルネットワーク(CNN)を用いて、各フレームの画像のマルチ次元の空間特徴値を抽出することができる。
図8に示すように、ビデオ中のイベントの検出装置800は、さらに、次のようなものを含んでも良い。
運動情報計算ユニット807:複数の隣接フレームが選択されたあるフレームの画像について、該フレームの画像中の各画素の前記複数の隣接フレーム中での運動軌跡又はオプティカルフローを計算し、これにより、該フレームの画像に対応するオプティカルフロー図を取得する。
そのうち、前記時間特徴抽出ユニット804は、さらに、畳み込みニューラルネットワークを用いて、前記オプティカルフロー図から前記フレームの画像のマルチ次元の時間特徴値を抽出することができる。
本実施例では、前記時間空間特徴取得ユニット805は、前記フレームの画像に対応するマルチ次元の空間特徴値とマルチ次元の時間特徴値に対して重ね合わせ(統合)を行い、そして、重ね合わせ後のマルチ次元の特徴値に対して一回畳み込み処理を行い、前記一次元の時間-空間特徴値を得ることができる。
本実施例では、前記イベント検出ユニット806は、再帰型ニューラルネットワーク(RNN)を採用して、前記複数のフレームの画像の時間-空間特徴値に対して処理を行い、これにより、前記ビデオに発生したイベントに関する情報を取得することができる。
なお、以上では、本発明に関連する各部品又は各モジュールのみについて説明したが、本発明は、これに限定されず、ビデオ中のイベントの検出装置の他の部品又はモジュールは、従来の関連技術を参照することができる。
上述の実施例から分かるように、ビデオから複数のフレームの画像を抽出し、各フレームの画像のマルチ次元の空間特徴値及びマルチ次元の時間特徴値を一次元の時間-空間特徴値に統合し、そして、前記複数のフレームの画像の時間-空間特徴値に基づいて、前記ビデオ中のイベントを検出することにより、ビデオに発生したイベントを正確に検出することができ、また、ビデオ監視のリアルタイム性への要求を満足することもできる。
本実施例は、さらに、画像処理装置を提供し、それは、実施例2に記載のビデオ中のイベントの検出装置を含み、その内容は、ここに合併される。該画像処理装置は、例えば、コンピュータ、サーバ、ワークステーション、タブレットコンピュータ、スマートフォンなどであっても良いが、本発明は、これに限定されない。
図9は、本発明の実施例の画像処理装置を示す図である。図9に示すように、画像処理装置900は、処理器(例えば、中央処理装置CPU)910及び記憶器920を含んでも良く、記憶器920は、中央処理装置910に接続される。そのうち、該記憶器920は、各種のデータを記憶することができ、また、さらに情報処理用のプログラム921を記憶しても良く、且つ処理器910の制御下で該プログラム921を実行することができる。
1つの実施方式では、ビデオ中のイベントの検出装置800の機能は、処理器910に集積することができる。そのうち、処理器910は、実施例1に記載のビデオ中のイベントの検出方法を実現するように構成されても良い。
もう1つの実施方式では、ビデオ中のイベントの検出装置800は、処理器910と独立して配置されても良い。例えば、ビデオ中のイベントの検出装置800を、処理器910に接続されるチップとして構成し、処理器910の制御により、ビデオ中のイベントの検出装置800の機能を実現しても良い。
例えば、処理器910は、次のような制御を行うように構成されても良く、即ち、ビデオから所定の時間間隔で複数のフレームの画像を抽出し;抽出された各フレームの画像のために、該フレームの画像のマルチ次元の空間特徴値を抽出し;前記各フレームの画像について、それぞれ、所定の時間ウィンドウ内の複数の隣接フレームを選択し;前記各フレームの画像の前記複数の隣接フレームに基づいて、それぞれ、前記各フレームの画像のために、該フレームの画像のマルチ次元の時間特徴値を抽出し;前記各フレームの画像のマルチ次元の空間特徴値及びマルチ次元の時間特徴値に基づいて、それぞれ、前記各フレームの画像のために、一次元の時間-空間特徴値を取得し;及び、前記複数のフレームの画像の時間-空間特徴値に基づいて、前記ビデオに発生したイベントを検出する。
1つの実施方式では、処理器910は、さらに、次のような制御を行うように構成されても良く、即ち、畳み込みニューラルネットワークを用いて、各フレームの画像のマルチ次元の空間特徴値を抽出する。
1つの実施方式では、処理器910は、さらに、次のような制御を行うように構成されても良く、即ち、複数の隣接フレームが選択されたあるフレームの画像について、該フレームの画像中の各画素の前記複数の隣接フレーム中での運動軌跡又はオプティカルフローを計算し、これにより、該フレームの画像に対応するオプティカルフロー図を取得する。
1つの実施方式では、処理器910は、さらに、次のような制御を行うように構成されても良く、即ち、畳み込みニューラルネットワークを用いて、前記オプティカルフロー図から前記フレームの画像のマルチ次元の時間特徴値を抽出する。
1つの実施方式では、処理器910は、さらに、次のような制御を行うように構成されても良く、即ち、前記フレームの画像に対応するマルチ次元の空間特徴値とマルチ次元の時間特徴値に対して重ね合わせを行い、そして、重ね合わせ後のマルチ次元の特徴値に対して一回畳み込み処理を行い、これにより、前記一次元の時間-空間特徴値を取得する。
1つの実施方式では、処理器910は、さらに、次のような制御を行うように構成されても良く、即ち、再帰型ニューラルネットワークを用いて、前記複数のフレームの画像の時間-空間特徴値に対して処理を行い、これにより、前記ビデオに発生したイベント情報を取得する。
また、図9に示すように、画像処理装置900は、さらに、入出力(I/O)ユニット930、表示器940などを含んでも良い。そのうち、これらの部品の機能は、従来技術に類似したので、ここでは、その詳しい説明を省略する。なお、画像処理装置900は、必ずしも図9中の全ての部品を含む必要がない。また、画像処理装置900は、さらに、図9に無いものを含んでも良く、これについては、従来技術を参照することができる。
本発明の実施例は、さらに、コンピュータ可読プログラムを提供し、そのうち、画像処理装置中で前記プログラムを実行する時に、前記プログラムは、コンピュータに、前記画像処理装置中で実施例1に記載のビデオ中のイベントの検出方法を実行させる。
本発明の実施例は、さらに、コンピュータ可読プログラムを記憶した記憶媒体を提供し、そのうち、前記コンピュータ可読プログラムは、コンピュータに、画像処理装置中で実施例1に記載のビデオ中イベントの検出方法を実行させる。
また、本発明の実施例による装置及び方法は、ソフトウェアにより実現されても良く、ハードェアにより実現されてもよく、ハードェア及びソフトウェアの組み合わせにより実現されても良い。また、本発明は、このようなコンピュータ可読プログラムにも関し、即ち、前記プログラムは、ロジック部品により実行される時に、前記ロジック部品に、上述の装置又は構成要素を実現させることができ、又は、前記ロジック部品に、上述の方法又はそのステップを実現させることができる。さらに、本発明は、上述のプログラムを記憶するための記憶媒体、例えば、ハードディスク、磁気ディスク、光ディスク、DVD、フレッシュメモリなどにも関する。
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。

Claims (10)

  1. ビデオ中のイベントの検出装置であって、
    ビデオから所定の時間間隔で複数のフレームの画像を抽出するための画像抽出ユニット;
    抽出された各フレームの画像のために、該フレームの画像のマルチ次元の空間特徴値を抽出し;
    前記各フレームの画像について、所定の時間ウィンドウ内の複数の隣接フレームを選択するための隣接フレーム選択ユニット;
    前記各フレームの画像の前記複数の隣接フレームに基づいて、前記各フレームの画像のために、該フレームの画像のマルチ次元の時間特徴値を抽出するための時間特徴抽出ユニット;
    前記各フレームの画像のマルチ次元の空間特徴値及びマルチ次元の時間特徴値に基づいて、前記各フレームの画像のために、一次元の時間-空間特徴値を得るための時間空間特徴取得ユニット;及び
    前記複数のフレームの画像の時間-空間特徴値に基づいて、前記ビデオに発生したイベントを検出するためのイベント検出ユニットを含む、検出装置。
  2. 請求項1に記載の検出装置であって、
    前記空間特徴抽出ユニットは、畳み込みニューラルネットワークを用いて、前記各フレームの画像のマルチ次元の空間特徴値を抽出する、検出装置。
  3. 請求項1に記載の検出装置であって、
    複数の隣接フレームが選択されたあるフレームの画像について、該フレームの画像中の各画素の、前記複数の隣接フレーム中での運動軌跡又はオプティカルフローを計算し、該フレームの画像に対応するオプティカルフロー図を取得するための運動情報計算ユニットをさらに含む、検出装置。
  4. 請求項3に記載の検出装置であって、
    前記時間特徴抽出ユニットは、畳み込みニューラルネットワークを用いて、前記オプティカルフロー図から前記フレームの画像のマルチ次元の時間特徴値を抽出する、検出装置。
  5. 請求項1に記載の検出装置であって、
    前記時間空間特徴取得ユニットは、前記各フレームの画像に対応するマルチ次元の空間特徴値とマルチ次元の時間特徴値とを重ね合わせ、重ね合わせ後のマルチ次元の特徴値に対して畳み込み処理を行い、前記一次元の時間-空間特徴値を取得する、検出装置。
  6. 請求項1に記載の検出装置であって、
    前記イベント検出ユニットは、再帰型ニューラルネットワークを用いて、前記複数のフレームの画像の前記時間-空間特徴値に対して処理を行い、前記ビデオに発生したイベント情報を取得する、検出装置。
  7. ビデオ中のイベントの検出方法であって、
    ビデオから所定の時間間隔で複数のフレームの画像を抽出し;
    抽出された各フレームの画像のために、該フレームの画像のマルチ次元の空間特徴値を抽出し;
    前記各フレームの画像について、所定の時間ウィンドウ内の複数の隣接フレームを選択し;
    前記各フレームの画像の前記複数の隣接フレームに基づいて、前記各フレームの画像のために、該フレームの画像のマルチ次元の時間特徴値を抽出し;
    前記各フレームの画像のマルチ次元の空間特徴値及びマルチ次元の時間特徴値を基づいて、前記各フレームの画像のために、一次元の時間-空間特徴値を取得し;及び
    前記複数のフレームの画像の時間-空間特徴値に基づいて、前記ビデオに発生したイベントを検出することを含む、検出方法。
  8. 請求項7に記載の検出方法であって、
    複数の隣接フレームが選択されたあるフレームの画像について、該フレームの画像中の各画素の、前記複数の隣接フレーム中での運動軌跡又はオプティカルフローを計算し、該フレームの画像に対応するオプティカルフロー図を取得する、検出方法。
  9. 請求項7に記載の検出方法であって、
    前記各フレームの画像のために、一次元の時間-空間特徴値を取得することは、
    該フレームの画像に対応するマルチ次元の空間特徴値とマルチ次元の時間特徴値とを重ね合わせ;及び
    重ね合わせ後のマルチ次元の特徴値に対して畳み込み処理を行い、前記一次元の時間-空間特徴値を取得することを含む、検出方法。
  10. 請求項1乃至6のうちの何れか1項に記載のビデオ中のイベントの検出装置を含む、画像処理装置。
JP2018006262A 2017-03-30 2018-01-18 ビデオ中のイベントの検出装置、方法及び画像処理装置 Pending JP2018170003A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710201186.0 2017-03-30
CN201710201186.0A CN108664849A (zh) 2017-03-30 2017-03-30 视频中事件的检测装置、方法以及图像处理设备

Publications (1)

Publication Number Publication Date
JP2018170003A true JP2018170003A (ja) 2018-11-01

Family

ID=63786365

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018006262A Pending JP2018170003A (ja) 2017-03-30 2018-01-18 ビデオ中のイベントの検出装置、方法及び画像処理装置

Country Status (2)

Country Link
JP (1) JP2018170003A (ja)
CN (1) CN108664849A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111435370A (zh) * 2019-01-11 2020-07-21 富士通株式会社 信息处理装置、方法以及机器可读存储介质
JP2022541712A (ja) * 2020-06-19 2022-09-27 深▲セン▼市商▲湯▼科技有限公司 ニューラルネットワークのトレーニング方法、ビデオ認識方法及び装置
JP2022553619A (ja) * 2019-10-30 2022-12-26 グーグル エルエルシー 空間時間ニューラルネットワークを使用してジェスチャ認識を実行するスマートデバイスベースのレーダシステム
WO2023279597A1 (en) * 2021-07-05 2023-01-12 Zhejiang Dahua Technology Co., Ltd. Systems and methods for video analysis
WO2023166958A1 (ja) * 2022-03-02 2023-09-07 オムロン株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492579B (zh) * 2018-11-08 2022-05-10 广东工业大学 一种基于st-sin的视频物体检测方法及系统
CN109800661A (zh) * 2018-12-27 2019-05-24 东软睿驰汽车技术(沈阳)有限公司 一种道路识别模型训练方法、道路识别方法及装置
CN110543825A (zh) * 2019-08-01 2019-12-06 江苏濠汉信息技术有限公司 基于时空特征的危险施工行为识别方法及装置
CN110533696A (zh) * 2019-09-04 2019-12-03 北京达佳互联信息技术有限公司 一种视频运动分析方法、装置、设备及存储介质
CN111680543B (zh) * 2020-04-23 2023-08-29 北京迈格威科技有限公司 动作识别方法、装置及电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463088A (zh) * 2013-11-25 2015-03-25 安徽寰智信息科技股份有限公司 一种基于视频的人体动作解析方法
US10192117B2 (en) * 2015-06-25 2019-01-29 Kodak Alaris Inc. Graph-based framework for video object segmentation and extraction in feature space
CN105354581B (zh) * 2015-11-10 2018-11-16 西安电子科技大学 融合颜色特征与卷积神经网络的彩色图像特征提取方法
US9582762B1 (en) * 2016-02-05 2017-02-28 Jasmin Cosic Devices, systems, and methods for learning and using artificially intelligent interactive memories
CN106022244B (zh) * 2016-05-16 2019-09-17 广东工业大学 基于递归神经网络建模的无监督人群异常监测及定位方法
CN106096568B (zh) * 2016-06-21 2019-06-11 同济大学 一种基于cnn和卷积lstm网络的行人再识别方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111435370A (zh) * 2019-01-11 2020-07-21 富士通株式会社 信息处理装置、方法以及机器可读存储介质
JP2022553619A (ja) * 2019-10-30 2022-12-26 グーグル エルエルシー 空間時間ニューラルネットワークを使用してジェスチャ認識を実行するスマートデバイスベースのレーダシステム
JP7481434B2 (ja) 2019-10-30 2024-05-10 グーグル エルエルシー 空間時間ニューラルネットワークを使用してジェスチャ認識を実行するスマートデバイスベースのレーダシステム
JP2022541712A (ja) * 2020-06-19 2022-09-27 深▲セン▼市商▲湯▼科技有限公司 ニューラルネットワークのトレーニング方法、ビデオ認識方法及び装置
JP7163515B2 (ja) 2020-06-19 2022-10-31 深▲セン▼市商▲湯▼科技有限公司 ニューラルネットワークのトレーニング方法、ビデオ認識方法及び装置
WO2023279597A1 (en) * 2021-07-05 2023-01-12 Zhejiang Dahua Technology Co., Ltd. Systems and methods for video analysis
WO2023166958A1 (ja) * 2022-03-02 2023-09-07 オムロン株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Also Published As

Publication number Publication date
CN108664849A (zh) 2018-10-16

Similar Documents

Publication Publication Date Title
JP2018170003A (ja) ビデオ中のイベントの検出装置、方法及び画像処理装置
CN109272530B (zh) 面向空基监视场景的目标跟踪方法与装置
US11222239B2 (en) Information processing apparatus, information processing method, and non-transitory computer-readable storage medium
CN107808111B (zh) 用于行人检测和姿态估计的方法和装置
US11790553B2 (en) Method and apparatus for detecting target object, electronic device and storage medium
JP6204659B2 (ja) 映像処理装置及び映像処理方法
CN108665476B (zh) 一种行人跟踪方法以及电子设备
US9536321B2 (en) Apparatus and method for foreground object segmentation
CN111951313B (zh) 图像配准方法、装置、设备及介质
JP2019062527A (ja) エッジ演算を用いる多カメラシステムでのリアルタイムの対象再識別
JP2013510462A5 (ja)
CN106295598A (zh) 一种跨摄像头目标跟踪方法及装置
CN110796472A (zh) 信息推送方法、装置、计算机可读存储介质和计算机设备
Liu et al. ACDnet: An action detection network for real-time edge computing based on flow-guided feature approximation and memory aggregation
US20230394834A1 (en) Method, system and computer readable media for object detection coverage estimation
CN112084826A (zh) 图像处理方法、图像处理设备以及监控系统
Zhou et al. Matrixvt: Efficient multi-camera to bev transformation for 3d perception
Kim et al. Cross-attention transformer for video interpolation
Liu et al. Two-stream refinement network for RGB-D saliency detection
Wang et al. Object counting in video surveillance using multi-scale density map regression
US20190325306A1 (en) Device and a method for processing data sequences using a convolutional neural network
Bazo et al. Baptizo: A sensor fusion based model for tracking the identity of human poses
Huang et al. Image registration among UAV image sequence and Google satellite image under quality mismatch
JPWO2018179119A1 (ja) 映像解析装置、映像解析方法およびプログラム
JPWO2019150649A1 (ja) 画像処理装置および画像処理方法