JP2018170003A

JP2018170003A - ビデオ中のイベントの検出装置、方法及び画像処理装置

Info

Publication number: JP2018170003A
Application number: JP2018006262A
Authority: JP
Inventors: バイ・シアンホォイ; Xianghui Bai; リィウ・シアオチン; Xiaoqing Liu; タヌ・ジミン; Tan Zhiming
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-03-30
Filing date: 2018-01-18
Publication date: 2018-11-01
Also published as: CN108664849A

Abstract

【課題】本発明は、ビデオ中のイベントの検出装置、方法及び画像処理装置を提供する。【解決手段】検出方法は、ビデオから所定の時間間隔で複数のフレームの画像を抽出し；抽出された各フレームの画像のためにマルチ次元の空間特徴値を抽出し；各フレームの画像について、所定の時間ウィンドウ内の複数の隣接フレームを選択し；各フレームの画像のために、該フレームの画像のマルチ次元の時間特徴値を抽出し；各フレームの画像のマルチ次元の空間特徴値及びマルチ次元の時間特徴値に基づいて、各フレームの画像のために一次元の時間-空間特徴値を取得し；及び、前記複数のフレームの画像の時間-空間特徴値に基づいて、前記ビデオに発生したイベントを検出することを含む。【選択図】図１

Description

本発明は、ビデオ監視の技術分野に関し、特に、ビデオ中のイベントの検出装置、方法及び画像処理装置に関する。

ビデオ監視分野では、一般的に、関心ターゲットを検出する必要がある。例えば、駐車場での車両検出では、ビデオに現れた車両に対してリアルタイムでモニタリングする必要がある。また、例えば、高速道路での車両検出では、ビデオに発生したイベント、例えば、速度オーバー、交通事故などをタイムリーかつ正確に検出する必要がある。

ビデオに発生したイベントを如何にタイムリーかつ正確に検出するかは、ビデオ監視技術にとって重要な意義を有する。しかし、機器や装置が人間のような理解力を持たないため、ビデオ監視分野におけるイベントの検出は、挑戦的なものである。

今のところ、畳み込みニューラルネットワーク（CNN、Convolution Neural Networks）などの技術は、既にコンピュータビジョン分野で幅広く研究されており、また、時間領域情報と空間領域情報を統合した方法も開発されている。しかし、今までの技術案は、リアルタイム性及び正確性の面において依然として向上させる必要がある。

本発明の目的は、ビデオ中のイベントを検出する装置、方法及び画像処理装置を提供することにあり、これにより、ビデオに発生したイベントを正確に検出することができるのみならず、ビデオ監視のリアルタイム性への要求を満たすこともできる。

本発明の実施例の第一側面によれば、ビデオ中のイベントの検出装置が提供され、それは、
画像抽出ユニットであって、ビデオから所定の時間間隔で複数のフレームの画像を抽出するためのもの；
空間特徴抽出ユニットであって、抽出された各フレームの画像のために、該フレームの画像のマルチ次元の空間特徴値を抽出するためのもの；
隣接フレーム選択ユニットであって、前記各フレームの画像について、所定の時間ウィンドウ内の複数の隣接フレームをそれぞれ選択するためのもの；
時間特徴抽出ユニットであって、前記各フレームの画像の前記複数の隣接フレームに基づいて、それぞれ、前記各フレームの画像のために、該フレームの画像のマルチ次元の時間特徴値を抽出するためのもの；
時間空間特徴取得ユニットであって、前記各フレームの画像のマルチ次元の空間特徴値及びマルチ次元の時間特徴値に基づいて、それぞれ、前記各フレームの画像のために、一次元の時間-空間特徴値を得るためのもの；及び
イベント検出ユニットであって、前記複数のフレームの画像の時間-空間特徴値に基づいて、前記ビデオに発生したイベントを検出するためのものを含む。

本発明の実施例の第二側面によれば、ビデオ中のイベントの検出方法が提供され、それは、
ビデオから所定の時間間隔で複数のフレームの画像を抽出し；
抽出された各フレームの画像のために、該フレームの画像のマルチ次元の空間特徴値を抽出し；
前記各フレームの画像について、それぞれ、所定の時間ウィンドウ内の複数の隣接フレームを選択し；
前記各フレームの画像の前記複数の隣接フレームに基づいて、それぞれ、前記各フレームの画像のために、該フレームの画像のマルチ次元の時間特徴値を抽出し；
前記各フレームの画像のマルチ次元の空間特徴値及びマルチ次元の時間特徴値に基づいて、それぞれ、前記各フレームの画像のために、一次元の時間-空間特徴値を取得し；及び
前記複数のフレームの画像の時間-空間特徴値に基づいて、前記ビデオに発生したイベントを検出することを含む。

本実施例の第三側面によれば、画像処理装置が提供され、それは、上述のビデオ中のイベントの検出装置を含む。

本発明の実施例の有益な効果は、次の通りであり、即ち、ビデオから複数のフレームの画像を抽出し、各フレームの画像のマルチ次元の空間特徴値及びマルチ次元の時間特徴値を一次元の時間-空間特徴値に統合し、そして、前記複数のフレームの画像の時間-空間特徴値に基づいて前記ビデオ中のイベントを検出することにより、ビデオに発生したイベントを正確に検出することができると共に、ビデオ監視のリアルタイム性への要求を満足することもできる。

本発明の実施例におけるビデオ中のイベントの検出方法を示す図である。本発明の実施例における複数のフレームの画像の抽出を示す図である。本発明の実施例におけるCNNによるマルチ次元の空間特徴値の取得を示す図である。本発明の実施例における複数の隣接フレームの選択を示す図である。本発明の実施例におけるCNNによるマルチ次元の時間特徴値の取得を示す図である。本発明の実施例における畳み込み処理による一次元の時間-空間特徴値の取得を示す図である。本発明の実施例におけるRNNによるイベントの検出を示す図である。本発明の実施例におけるビデオ中のイベントの検出装置を示す図である。本発明の実施例における画像処理装置を示す図である。

以下、添付した図面を参照しながら、本発明を実施するための好適な形態を詳細に説明する。なお、このような実施形態は、例示に過ぎず、本発明を限定するものでない。

本発明の実施例では、交通分野におけるビデオ監視を例として説明を行うが、本発明は、これに限定されず、他のビデオ監視のシナリオに適用することもできる。

本実施例は、ビデオ中のイベントの検出方法を提供する。図1は、本実施例におけるビデオ中のイベントの検出方法を示す図である。図1に示すように、前記検出方法は、次のステップを含む。

ステップ101：ビデオから所定の時間間隔で複数のフレームの画像を抽出し；
ステップ102：抽出された各フレームの画像のために、該フレームの画像のマルチ次元の空間特徴値を抽出し；
ステップ103：前記各フレームの画像について、それぞれ、所定の時間ウィンドウ内の複数の隣接フレームを選択し；
ステップ104：前記各フレームの画像の前記複数の隣接フレームに基づいて、それぞれ、前記各フレームの画像のために、該フレームの画像のマルチ次元の時間特徴値を抽出し；
ステップ105：前記各フレームの画像のマルチ次元の空間特徴値及びマルチ次元の時間特徴値に基づいて、それぞれ、前記各フレームの画像のために、一次元の時間-空間特徴値を取得し；及び
ステップ106：前記複数のフレームの画像の時間-空間特徴値に基づいて、前記ビデオに発生したイベントを検出する。

本実施例では、監視場所に設置されているカメラにより、複数のフレームの画像を含むビデオを得ることができる。カメラは、例えば、交差点付近の交通監視カメラ、ガソリンスタンド付近の監視カメラ、駐車場付近の監視カメラ、高速道路付近の監視カメラなどであっても良い。なお、本発明は、これに限定されず、ビデオ監視分野における任意の従来技術により該ビデオを取得しても良い。

本実施例では、所定の時間間隔に従って、該ビデオから複数のフレームの画像を抽出することができる。例えば、該所定の時間間隔がN（単位は、例えば、ｍｓであっても良いが、これに限定されない）の場合、Nごとにビデオから１フレームの画像を抽出することができる。

図2は、本発明の実施例における複数のフレームの画像の抽出を示す図である。図2に示すように、取得されたビデオは、複数の時間上で連続したフレームを含んでも良く、これらのフレームのうちからFrame(t)、Frame(t+N)、Frame(t+2N)、…などのフレームの画像を抽出することができる。

本実施例では、抽出された各フレームの画像について、畳み込みニューラルネットワーク（CNN）を用いて該フレームの画像のマルチ次元の空間特徴値を得ることができる。例えば、該フレームの画像のエッジ画像（空間特徴を含む）を取得し、その後、CNNを用いて該エッジ画像に対して処理を行っても良い。CNNの具体的な内容については、関連技術を参照することができるため、本発明では、その詳しい説明を省略する。

図3は、本発明の実施例においてCNNによりマルチ次元の空間特徴値を得ることを示す図である。図3に示すように、各フレームの画像（例えば、Frame(t)）について、CNNに基づいて、エッジ画像からマルチ次元の空間特徴値、例えば、Conv1、Pool1、Conv2、Pool2、Conv3、Pool3、Conv4、Pool4、Conv5、Pool5、…を得ることができる。

例えば、CNNの畳み込みフィルタリングパラメータを設定することができ、異なる反復パラメータにより、異なる空間特徴を得ることができ、各空間特徴は、１つの平面に対応することができ、畳み込みフィルタリング後の複数の特徴は、複数の平面の重ね合わせにより形成することができ、これにより、立体のマルチ次元の空間特徴値を形成することができ、例えば、該マルチ次元の空間特徴値は、直方体又は立方体により表されても良いが、これに限定されない。

本実施例では、抽出された各フレームの画像について、それぞれ、所定の時間ウィンドウ内の複数の隣接フレームを選択することができる。例えば、あるフレームの画像Frame(t)について、この画像のために、複数の隣接フレームを選択することができる。

図4は、本発明の実施例において複数の隣接フレームを選択することを示す図である。図4に示すように、所定の時間ウィンドウがL（単位は、例えば、ｍｓであっても良いが、これに限定されない）の場合、該フレームの画像Frame(t)のために、Frame(t-L/2)、Frame(t-L/2+1)、…、Frame(t+L/2-1)の計L個の隣接フレーム（例えば、該フレームの画像自身も含む）を選択することができる。

本実施例では、複数の隣接フレームが選択されたあるフレームの画像について、該フレームの画像における各画素の、前記複数の隣接フレーム中での運動軌跡又はオプティカルフロー（optical flow）を計算し、これにより、該フレームの画像に対応するオプティカルフロー図を得ることができる。また、畳み込みニューラルネットワーク（CNN）を用いて、該オプティカルフロー図（時間特徴を含む）から、該フレームの画像のマルチ次元の時間特徴値を抽出することができる。

例えば、オプティカルフローは、物体運動の時間領域上での顕著な情報であり、画像シーケンスにおける画素の時間域上での変化及び隣接フレーム間の相関性を用いて、前のフレームと、現在のフレームとの間の対応関係を見つけることができ、隣接フレーム間のこのような対応関係は、物体の運動情報と見なされても良い。オプティカルフロー図は、例えば、OpenCV中のcalcOpticalFlowFarneback()を用いて計算により生成することができ、また、他の適切な処理をさらに行っても良い。なお、具体的にどのようにオプティカルフロー図を計算するかは、従来の関連技術を参照することができる。

図5は、本発明の実施例においてCNNによりマルチ次元の時間特徴値を得ることを示す図である。図5に示すように、各フレームの画像（例えば、Frame(t)）について、CNNに基づいて、オプティカルフロー図から、マルチ次元の時間特徴値、例えば、Conv1、Pool1、Conv2、Pool2、Conv3、Pool3、Conv4、Pool4、Conv5、Pool5、…を取得することができる。

例えば、CNNの畳み込みフィルタリングパラメータを設定することができ、異なる反復パラメータにより、異なる時間特徴を得ることができ、各時間特徴は、１つの平面に対応することができ、畳み込みフィルタリング後の複数の特徴は、複数の平面の重ね合わせにより形成することができ、これにより、立体のマルチ次元の時間特徴値を形成することができ、例えば、該マルチ次元の時間特徴値は、直方体又は立方体により表されても良いが、これに限定されない。

本実施例では、各フレームの画像に対応するマルチ次元の空間特徴値とマルチ次元の時間特徴値に対して重ね合わせを行い、そして、重ね合わせ後のマルチ次元の特徴値に対して一回畳み込み処理を行うことで、一次元の時間-空間特徴値を得ることができる。

図6は、本発明の実施例において一回の畳み込み処理により一次元の時間-空間特徴値を得ることを示す図である。図6に示すように、各フレームの画像（例えば、Frame(t)）について、該フレームの画像に対応するマルチ次元の空間特徴値とマルチ次元の時間特徴値に対して重ね合わせ（統合などとも称される）を行い、その後、一回の畳み込み操作により、一次元のベクトルConv6、Pool6、Fc7に変換することができる。

これにより、抽出された各フレームの画像について、一次元の時間-空間特徴値を計算することができる。

本実施例では、再帰型ニューラルネットワーク（RNN、Recurrent Neural Networks）を用いて、複数のフレームの画像の時間-空間特徴値に対して処理を行うことで、監視ビデオに発生したイベントに関する情報を取得することができる。

図7は、本発明の実施例においてRNNによりイベントを検出することを示す図である。図7に示すように、抽出された各フレームの画像に対応する一次元の時間-空間特徴値は、LSTM（Long Short Term Memory）モジュールに入力することができる。時間上で連続した複数の抽出されたフレームの画像に対応して、ビデオのディスクリプション(description)を連続して出力することができ、即ち、ビデオ中のイベントを検出することができる。

例えば、LSTMは、再帰型ニューラルネットワークであり、時間シーケンス中での間隔及び遅延が非常に長い重要イベントを処理及び予測することに適する。なお、本発明は、これに限定されず、例えば、他の方法を採用してビデオ中のイベントの検出を行っても良い。

なお、図1は、本発明の実施例を例示するためのものに過ぎず、本発明は、これに限られない。例えば、各ステップの実行順序を適切に調整することができ、また、ステップを増減することもできる。また、当業者は、上述の内容に基づいて適切に変更することもできる。即ち、図1の記載に限定されない。

また、図2乃至図7も、本発明の実施例を例示するためのものに過ぎず、本発明は、これに限定されない。例えば、本発明の実施例は、CNN、RNN、LSTMを例として説明したが、他の方法を用いてマルチ次元の時間特徴値及びマルチ次元の空間特徴値を計算し、そして、ビデオ中のイベント情報を検出することもできる。

上述の実施例から分かるように、ビデオから複数のフレームの画像を抽出し、各フレームの画像のマルチ次元の空間特徴値とマルチ次元の時間特徴値を一次元の時間-空間特徴値に統合し、そして、前記複数のフレームの画像の時間-空間特徴値に基づいて、前記ビデオ中のイベントを検出することにより、ビデオに発生したイベントを正確に検出することができるだけでなく、ビデオ監視のリアルタイム性への要求を満たすこともできる。

本実施例は、ビデオ中のイベントの検出装置を提供する。該検出装置は、カメラが取り付けられた画像処理装置であっても良く、また、該画像処理装置の１つ又は複数の部品又はモジュールであっても良い。本実施例は、実施例1のビデオ中のイベントの検出方法に対応するため、同じ内容の記載は、省略される。

図8は、本実施例のビデオ中のイベントの検出装置を示す図である。図8に示すように、ビデオ中のイベントの検出装置800は、次のようなものを含む。

画像抽出ユニット801：ビデオから所定の時間間隔で複数のフレームの画像を抽出し；
空間特徴抽出ユニット802：抽出された各フレームの画像のために、該フレームの画像のマルチ次元の空間特徴値を抽出し；
隣接フレーム選択ユニット803：前記各フレームの画像について、それぞれ、所定の時間ウィンドウ内の複数の隣接フレームを選択し；
時間特徴抽出ユニット804：前記各フレームの画像の前記複数の隣接フレームに基づいて、それぞれ、前記各フレームの画像のために、該フレームの画像のマルチ次元の時間特徴値を抽出し；
時間空間特徴取得ユニット805：前記各フレームの画像のマルチ次元の空間特徴値及びマルチ次元の時間特徴値に基づいて、それぞれ、前記各フレームの画像のために、一次元の時間-空間特徴値を取得し；及び
イベント検出ユニット806：前記複数のフレームの画像の時間-空間特徴値に基づいて、前記ビデオに発生したイベントを検出する。

本実施例では、前記空間特徴抽出ユニット802は、畳み込みニューラルネットワーク（CNN）を用いて、各フレームの画像のマルチ次元の空間特徴値を抽出することができる。

図8に示すように、ビデオ中のイベントの検出装置800は、さらに、次のようなものを含んでも良い。

運動情報計算ユニット807：複数の隣接フレームが選択されたあるフレームの画像について、該フレームの画像中の各画素の前記複数の隣接フレーム中での運動軌跡又はオプティカルフローを計算し、これにより、該フレームの画像に対応するオプティカルフロー図を取得する。

そのうち、前記時間特徴抽出ユニット804は、さらに、畳み込みニューラルネットワークを用いて、前記オプティカルフロー図から前記フレームの画像のマルチ次元の時間特徴値を抽出することができる。

本実施例では、前記時間空間特徴取得ユニット805は、前記フレームの画像に対応するマルチ次元の空間特徴値とマルチ次元の時間特徴値に対して重ね合わせ（統合）を行い、そして、重ね合わせ後のマルチ次元の特徴値に対して一回畳み込み処理を行い、前記一次元の時間-空間特徴値を得ることができる。

本実施例では、前記イベント検出ユニット806は、再帰型ニューラルネットワーク（RNN）を採用して、前記複数のフレームの画像の時間-空間特徴値に対して処理を行い、これにより、前記ビデオに発生したイベントに関する情報を取得することができる。

なお、以上では、本発明に関連する各部品又は各モジュールのみについて説明したが、本発明は、これに限定されず、ビデオ中のイベントの検出装置の他の部品又はモジュールは、従来の関連技術を参照することができる。

上述の実施例から分かるように、ビデオから複数のフレームの画像を抽出し、各フレームの画像のマルチ次元の空間特徴値及びマルチ次元の時間特徴値を一次元の時間-空間特徴値に統合し、そして、前記複数のフレームの画像の時間-空間特徴値に基づいて、前記ビデオ中のイベントを検出することにより、ビデオに発生したイベントを正確に検出することができ、また、ビデオ監視のリアルタイム性への要求を満足することもできる。

本実施例は、さらに、画像処理装置を提供し、それは、実施例2に記載のビデオ中のイベントの検出装置を含み、その内容は、ここに合併される。該画像処理装置は、例えば、コンピュータ、サーバ、ワークステーション、タブレットコンピュータ、スマートフォンなどであっても良いが、本発明は、これに限定されない。

図9は、本発明の実施例の画像処理装置を示す図である。図9に示すように、画像処理装置900は、処理器（例えば、中央処理装置CPU）910及び記憶器920を含んでも良く、記憶器920は、中央処理装置910に接続される。そのうち、該記憶器920は、各種のデータを記憶することができ、また、さらに情報処理用のプログラム921を記憶しても良く、且つ処理器910の制御下で該プログラム921を実行することができる。

１つの実施方式では、ビデオ中のイベントの検出装置800の機能は、処理器910に集積することができる。そのうち、処理器910は、実施例1に記載のビデオ中のイベントの検出方法を実現するように構成されても良い。

もう１つの実施方式では、ビデオ中のイベントの検出装置800は、処理器910と独立して配置されても良い。例えば、ビデオ中のイベントの検出装置800を、処理器910に接続されるチップとして構成し、処理器910の制御により、ビデオ中のイベントの検出装置800の機能を実現しても良い。

例えば、処理器910は、次のような制御を行うように構成されても良く、即ち、ビデオから所定の時間間隔で複数のフレームの画像を抽出し；抽出された各フレームの画像のために、該フレームの画像のマルチ次元の空間特徴値を抽出し；前記各フレームの画像について、それぞれ、所定の時間ウィンドウ内の複数の隣接フレームを選択し；前記各フレームの画像の前記複数の隣接フレームに基づいて、それぞれ、前記各フレームの画像のために、該フレームの画像のマルチ次元の時間特徴値を抽出し；前記各フレームの画像のマルチ次元の空間特徴値及びマルチ次元の時間特徴値に基づいて、それぞれ、前記各フレームの画像のために、一次元の時間-空間特徴値を取得し；及び、前記複数のフレームの画像の時間-空間特徴値に基づいて、前記ビデオに発生したイベントを検出する。

１つの実施方式では、処理器910は、さらに、次のような制御を行うように構成されても良く、即ち、畳み込みニューラルネットワークを用いて、各フレームの画像のマルチ次元の空間特徴値を抽出する。

１つの実施方式では、処理器910は、さらに、次のような制御を行うように構成されても良く、即ち、複数の隣接フレームが選択されたあるフレームの画像について、該フレームの画像中の各画素の前記複数の隣接フレーム中での運動軌跡又はオプティカルフローを計算し、これにより、該フレームの画像に対応するオプティカルフロー図を取得する。

１つの実施方式では、処理器910は、さらに、次のような制御を行うように構成されても良く、即ち、畳み込みニューラルネットワークを用いて、前記オプティカルフロー図から前記フレームの画像のマルチ次元の時間特徴値を抽出する。

１つの実施方式では、処理器910は、さらに、次のような制御を行うように構成されても良く、即ち、前記フレームの画像に対応するマルチ次元の空間特徴値とマルチ次元の時間特徴値に対して重ね合わせを行い、そして、重ね合わせ後のマルチ次元の特徴値に対して一回畳み込み処理を行い、これにより、前記一次元の時間-空間特徴値を取得する。

１つの実施方式では、処理器910は、さらに、次のような制御を行うように構成されても良く、即ち、再帰型ニューラルネットワークを用いて、前記複数のフレームの画像の時間-空間特徴値に対して処理を行い、これにより、前記ビデオに発生したイベント情報を取得する。

また、図9に示すように、画像処理装置900は、さらに、入出力（I/O）ユニット930、表示器940などを含んでも良い。そのうち、これらの部品の機能は、従来技術に類似したので、ここでは、その詳しい説明を省略する。なお、画像処理装置900は、必ずしも図9中の全ての部品を含む必要がない。また、画像処理装置900は、さらに、図9に無いものを含んでも良く、これについては、従来技術を参照することができる。

本発明の実施例は、さらに、コンピュータ可読プログラムを提供し、そのうち、画像処理装置中で前記プログラムを実行する時に、前記プログラムは、コンピュータに、前記画像処理装置中で実施例1に記載のビデオ中のイベントの検出方法を実行させる。

本発明の実施例は、さらに、コンピュータ可読プログラムを記憶した記憶媒体を提供し、そのうち、前記コンピュータ可読プログラムは、コンピュータに、画像処理装置中で実施例1に記載のビデオ中イベントの検出方法を実行させる。

また、本発明の実施例による装置及び方法は、ソフトウェアにより実現されても良く、ハードェアにより実現されてもよく、ハードェア及びソフトウェアの組み合わせにより実現されても良い。また、本発明は、このようなコンピュータ可読プログラムにも関し、即ち、前記プログラムは、ロジック部品により実行される時に、前記ロジック部品に、上述の装置又は構成要素を実現させることができ、又は、前記ロジック部品に、上述の方法又はそのステップを実現させることができる。さらに、本発明は、上述のプログラムを記憶するための記憶媒体、例えば、ハードディスク、磁気ディスク、光ディスク、DVD、フレッシュメモリなどにも関する。

以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。

Claims

ビデオ中のイベントの検出装置であって、
ビデオから所定の時間間隔で複数のフレームの画像を抽出するための画像抽出ユニット；
抽出された各フレームの画像のために、該フレームの画像のマルチ次元の空間特徴値を抽出し；
前記各フレームの画像について、所定の時間ウィンドウ内の複数の隣接フレームを選択するための隣接フレーム選択ユニット；
前記各フレームの画像の前記複数の隣接フレームに基づいて、前記各フレームの画像のために、該フレームの画像のマルチ次元の時間特徴値を抽出するための時間特徴抽出ユニット；
前記各フレームの画像のマルチ次元の空間特徴値及びマルチ次元の時間特徴値に基づいて、前記各フレームの画像のために、一次元の時間-空間特徴値を得るための時間空間特徴取得ユニット；及び
前記複数のフレームの画像の時間-空間特徴値に基づいて、前記ビデオに発生したイベントを検出するためのイベント検出ユニットを含む、検出装置。
請求項1に記載の検出装置であって、
前記空間特徴抽出ユニットは、畳み込みニューラルネットワークを用いて、前記各フレームの画像のマルチ次元の空間特徴値を抽出する、検出装置。
請求項1に記載の検出装置であって、
複数の隣接フレームが選択されたあるフレームの画像について、該フレームの画像中の各画素の、前記複数の隣接フレーム中での運動軌跡又はオプティカルフローを計算し、該フレームの画像に対応するオプティカルフロー図を取得するための運動情報計算ユニットをさらに含む、検出装置。
請求項3に記載の検出装置であって、
前記時間特徴抽出ユニットは、畳み込みニューラルネットワークを用いて、前記オプティカルフロー図から前記フレームの画像のマルチ次元の時間特徴値を抽出する、検出装置。
請求項1に記載の検出装置であって、
前記時間空間特徴取得ユニットは、前記各フレームの画像に対応するマルチ次元の空間特徴値とマルチ次元の時間特徴値とを重ね合わせ、重ね合わせ後のマルチ次元の特徴値に対して畳み込み処理を行い、前記一次元の時間-空間特徴値を取得する、検出装置。
請求項1に記載の検出装置であって、
前記イベント検出ユニットは、再帰型ニューラルネットワークを用いて、前記複数のフレームの画像の前記時間-空間特徴値に対して処理を行い、前記ビデオに発生したイベント情報を取得する、検出装置。
ビデオ中のイベントの検出方法であって、
ビデオから所定の時間間隔で複数のフレームの画像を抽出し；
抽出された各フレームの画像のために、該フレームの画像のマルチ次元の空間特徴値を抽出し；
前記各フレームの画像について、所定の時間ウィンドウ内の複数の隣接フレームを選択し；
前記各フレームの画像の前記複数の隣接フレームに基づいて、前記各フレームの画像のために、該フレームの画像のマルチ次元の時間特徴値を抽出し；
前記各フレームの画像のマルチ次元の空間特徴値及びマルチ次元の時間特徴値を基づいて、前記各フレームの画像のために、一次元の時間-空間特徴値を取得し；及び
前記複数のフレームの画像の時間-空間特徴値に基づいて、前記ビデオに発生したイベントを検出することを含む、検出方法。
請求項7に記載の検出方法であって、
複数の隣接フレームが選択されたあるフレームの画像について、該フレームの画像中の各画素の、前記複数の隣接フレーム中での運動軌跡又はオプティカルフローを計算し、該フレームの画像に対応するオプティカルフロー図を取得する、検出方法。
請求項7に記載の検出方法であって、
前記各フレームの画像のために、一次元の時間-空間特徴値を取得することは、
該フレームの画像に対応するマルチ次元の空間特徴値とマルチ次元の時間特徴値とを重ね合わせ；及び
重ね合わせ後のマルチ次元の特徴値に対して畳み込み処理を行い、前記一次元の時間-空間特徴値を取得することを含む、検出方法。
請求項1乃至6のうちの何れか１項に記載のビデオ中のイベントの検出装置を含む、画像処理装置。