JP7202995B2

JP7202995B2 - 時空間事象予測装置、時空間事象予測方法及び時空間事象予測システム

Info

Publication number: JP7202995B2
Application number: JP2019186545A
Authority: JP
Inventors: モヒトチャブラ; 智一村上; マルティンクリンキグト; 敦廣池
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2023-01-12
Anticipated expiration: 2039-10-10
Also published as: JP2021064021A

Description

本発明は、時空間事象予測装置、時空間事象予測方法及び時空間事象予測システムに関する。

近年、写真、動画、画像等の映像コンテンツが急増する中、ＩｏＴを活用した社会イノベーション活動を進めるために、高精度な映像監視技術に関する需要が高まっている。特に、映像コンテンツを活用して、所定のイベント及び当該イベントに関連するオブジェクトを時空間的に特定する技術への需要が増している。そして、対象の動作やイベントがいつ、どこで起こるかを特定することは「時空間的動作検出」（Ｓｐａｔｉｏ－Ｔｅｍｐｏｒａｌ－ＡｃｔｉｏｎＤｅｔｅｃｔｉｏｎ）と呼ばれる。また、この対象の動作やイベントに関連するオブジェクトを特定することは「アクターグループローカライゼーション」（ＡｃｔｏｒＧｒｏｕｐＬｏｃａｌｉｚａｔｉｏｎ）と呼ばれる。

こうした時空間的動作検出やアクターグループローカライゼーションを高精度で行うことについては、いくつかの提案がなされている。
例えば、ＣＮ１０８３９９３８０Ａ（特許文献１）には「本発明は、３次元畳み込みおよびより高速なＲＣＮＮベースのビデオアクション検出方法を開示する。この方法は、最初に新しいモデルを導入し、３次元の完全な畳み込みネットワークを使用してビデオストリームをエンコードするステップを含む。次に、生成された特徴に基づくアクションを含む候補時間領域を生成し、候補フレームのグループを生成する。そして、異なるフィルム編集の対象となる候補フレームで最終的に分類検出を実行し、それにより、ビデオストリーム内のアクションタイプ及びビデオアクションの開始及び終了時間を予測し、アクションの空間位置境界フレームを予測する」技術が記載されている。

ＣＮ１０８３９９３８０Ａ

上記の特許文献１においては、３次元畳み込み演算を用いて、特定のアクションの開始及び終了時間を予測することが記載されている。
しかし、特許文献１に記載の手段は、３次元畳み込み演算を用いた、アクションの時間的局在化（ｔｅｍｐｏｒａｌｌｏｃａｌｉｚａｔｉｏｎ）に限られており、同時に起こる複数のイベントの検出は想定されていない。また、特許文献１に記載の手段において高精度の予測を実現するためには、訓練のために膨大な学習データを要する。

そこで、本発明は、因果的畳み込み演算を用いることで、学習データが少ない場合であっても、１つ以上の所定のイベント及びそのイベントに関連するオブジェクトの時空間座標を高精度で特定する手段を提供することを目的とする。

上記の課題を解決するために、代表的な本発明の時空間事象予測装置の１つは、イベント及びオブジェクトの時空間座標を予測する時空間事象予測装置であって、複数の画像フレームから構成される画像シーケンスを受け付ける転送部と、画像シーケンスにおいて、少なくとも所定のイベントが起こると予測される時空間座標を指定する時空間提案を生成する作成部と、時空間提案に示される時空間座標に基づいて、所定のイベントに対応する画像領域を画像シーケンスの特定の画像フレームから抽出する抽出部と、画像領域において、所定のイベントに関連するオブジェクトを１つ以上特定する特定部と、オブジェクトの各々について、当該オブジェクトの時空間座標と、所定のイベントを特徴づけるイベントクラスを判定し、オブジェクト及び所定のイベントに関する時空間事象予測結果を出力する判定部とを含む。

本発明によれば、因果的畳み込み演算を用いることで、学習データが少ない場合であっても、１つ以上の所定のイベント及びそのイベントと係りのあるオブジェクトの時空間座標を高精度で特定する手段を提供することができる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

図１は、本発明の実施形態を実施するためのコンピュータシステムを示す図である。図２は、本発明の実施形態に係る時空間事象予測システムの構成を示す図である。図３は、本発明の実施形態に係る時空間事象予測方法の流れを示す図である。図４は、本発明の実施形態に係る時空間提案を生成する処理の流れを示す図である。図５は、本発明の実施形態に係るニューラルネットワークにおいて画像シーケンスからの特徴を抽出するレイヤの例を示す図である。図６は、本発明の実施形態に係る時空間提案に基づいて、所定のイベントに対応する画像領域を画像シーケンスの特定の画像フレームから抽出する処理の流れを示す図である。図７は、本発明の実施形態に係る畳み込み特徴を抽出するための特徴抽出レイヤの例を示す図である。図８は、本発明の実施形態に係る因果的畳み込み特徴を抽出するための特徴抽出レイヤの例を示す図である。図９は、本発明の実施形態に係る時空間提案を生成する集約レイヤにおける特徴の例を示す図である。図１０は、本発明の実施形態に係る画像フレーム選択及びオブジェクト特定を同時に行う構成の例を示す図である。図１１は、本発明の実施形態に係る、スパース（Ｓｐａｒｓｅ）なレイヤ接続を用いるニューラルネットワーク１１００の例を示す図である。図１２は、本発明の実施形態に係るオブジェクトの構成要素を複数特定する例を示す図である。図１３は、本発明の実施形態に係るオブジェクトのキーポイントを特定する例を示す図である。

以下、図面を参照して本発明の実施形態について説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

(本発明の概要)
従来の時空間的動作検出では、所定のイベントやオブジェクトを時空間的に特定するために、入力となる画像シーケンスにおける各画像フレームを分析し、その中から、特定の対象となる属性に一致する物体を検出する必要があったため、処理負荷が大きい。また、従来では、イベントの空間的特定と時間的特定はそれぞれ異なる専用のニューラルネットワークによって独立して行われることが一般的であり、複数のイベントやオブジェクトを空間的かつ時間的に特定することが難しい。
そこで、本発明は、因果的畳み込み演算（ｃａｓｕａｌｃｏｎｖｏｌｕｔｉｏｎｏｐｅｒａｔｉｏｎｓ）を用いることで、所定のイベントが起こると予測される時空間的領域（例えば、画像シーケンスにおける特定のフレームや当該フレームにおける平面座標）の候補を示す提案を生成する。その後、既存のオブジェクト検出やオブジェクト特定手法が指定されているフレームに対してのみ実行されるため、従来に比べて、イベントやオブジェクトの時空間的特定の精度を向上させる上、必要なコンピューティング資源を節約することができる。
（ハードウェア構成）

まず、図１を参照して、本開示の実施形態を実施するためのコンピュータシステム３００について説明する。本明細書で開示される様々な実施形態の機構及び装置は、任意の適切なコンピューティングシステムに適用されてもよい。コンピュータシステム３００の主要コンポーネントは、１つ以上のプロセッサ３０２、メモリ３０４、端末インターフェース３１２、ストレージインタフェース３１４、Ｉ／Ｏ（入出力）デバイスインタフェース３１６、及びネットワークインターフェース３１８を含む。これらのコンポーネントは、メモリバス３０６、Ｉ／Ｏバス３０８、バスインターフェースユニット３０９、及びＩ／Ｏバスインターフェースユニット３１０を介して、相互的に接続されてもよい。

コンピュータシステム３００は、プロセッサ３０２と総称される１つ又は複数の汎用プログラマブル中央処理装置（ＣＰＵ）３０２Ａ及び３０２Ｂを含んでもよい。ある実施形態では、コンピュータシステム３００は複数のプロセッサを備えてもよく、また別の実施形態では、コンピュータシステム３００は単一のＣＰＵシステムであってもよい。各プロセッサ３０２は、メモリ３０４に格納された命令を実行し、オンボードキャッシュを含んでもよい。

ある実施形態では、メモリ３０４は、データ及びプログラムを記憶するためのランダムアクセス半導体メモリ、記憶装置、又は記憶媒体（揮発性又は不揮発性のいずれか）を含んでもよい。メモリ３０４は、本明細書で説明する機能を実施するプログラム、モジュール、及びデータ構造のすべて又は一部を格納してもよい。例えば、メモリ３０４は、時空間事象予測アプリケーション３５０を格納していてもよい。ある実施形態では、時空間事象予測アプリケーション３５０は、後述する機能をプロセッサ３０２上で実行する命令又は記述を含んでもよい。

ある実施形態では、時空間事象予測アプリケーション３５０は、プロセッサベースのシステムの代わりに、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および/または他の物理ハードウェアデバイスを介してハードウェアで実施されてもよい。ある実施形態では、時空間事象予測アプリケーション３５０は、命令又は記述以外のデータを含んでもよい。ある実施形態では、カメラ、センサ、または他のデータ入力デバイス（図示せず）が、バスインターフェースユニット３０９、プロセッサ３０２、またはコンピュータシステム３００の他のハードウェアと直接通信するように提供されてもよい。

コンピュータシステム３００は、プロセッサ３０２、メモリ３０４、表示システム３２４、及びＩ／Ｏバスインターフェースユニット３１０間の通信を行うバスインターフェースユニット３０９を含んでもよい。Ｉ／Ｏバスインターフェースユニット３１０は、様々なＩ／Ｏユニットとの間でデータを転送するためのＩ／Ｏバス３０８と連結していてもよい。Ｉ／Ｏバスインターフェースユニット３１０は、Ｉ／Ｏバス３０８を介して、Ｉ／Ｏプロセッサ（ＩＯＰ）又はＩ／Ｏアダプタ（ＩＯＡ）としても知られる複数のＩ／Ｏインタフェースユニット３１２，３１４，３１６、及び３１８と通信してもよい。

表示システム３２４は、表示コントローラ、表示メモリ、又はその両方を含んでもよい。表示コントローラは、ビデオ、オーディオ、又はその両方のデータを表示装置３２６に提供することができる。また、コンピュータシステム３００は、データを収集し、プロセッサ３０２に当該データを提供するように構成された1つまたは複数のセンサ等のデバイスを含んでもよい。

例えば、コンピュータシステム３００は、心拍数データやストレスレベルデータ等を収集するバイオメトリックセンサ、湿度データ、温度データ、圧力データ等を収集する環境センサ、及び加速度データ、運動データ等を収集するモーションセンサ等を含んでもよい。これ以外のタイプのセンサも使用可能である。表示システム３２４は、単独のディスプレイ画面、テレビ、タブレット、又は携帯型デバイスなどの表示装置３２６に接続されてもよい。

Ｉ／Ｏインタフェースユニットは、様々なストレージ又はＩ／Ｏデバイスと通信する機能を備える。例えば、端末インタフェースユニット３１２は、ビデオ表示装置、スピーカテレビ等のユーザ出力デバイスや、キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、ライトペン、又は他のポインティングデバイス等のユーザ入力デバイスのようなユーザＩ／Ｏデバイス３２０の取り付けが可能である。ユーザは、ユーザインターフェースを使用して、ユーザ入力デバイスを操作することで、ユーザＩ／Ｏデバイス３２０及びコンピュータシステム３００に対して入力データや指示を入力し、コンピュータシステム３００からの出力データを受け取ってもよい。ユーザインターフェースは例えば、ユーザＩ／Ｏデバイス３２０を介して、表示装置に表示されたり、スピーカによって再生されたり、プリンタを介して印刷されたりしてもよい。

ストレージインタフェース３１４は、１つ又は複数のディスクドライブや直接アクセスストレージ装置３２２（通常は磁気ディスクドライブストレージ装置であるが、単一のディスクドライブとして見えるように構成されたディスクドライブのアレイ又は他のストレージ装置であってもよい）の取り付けが可能である。ある実施形態では、ストレージ装置３２２は、任意の二次記憶装置として実装されてもよい。メモリ３０４の内容は、ストレージ装置３２２に記憶され、必要に応じてストレージ装置３２２から読み出されてもよい。Ｉ／Ｏデバイスインタフェース３１６は、プリンタ、ファックスマシン等の他のＩ／Ｏデバイスに対するインターフェースを提供してもよい。ネットワークインターフェース３１８は、コンピュータシステム３００と他のデバイスが相互的に通信できるように、通信経路を提供してもよい。この通信経路は、例えば、ネットワーク３３０であってもよい。

ある実施形態では、コンピュータシステム３００は、マルチユーザメインフレームコンピュータシステム、シングルユーザシステム、又はサーバコンピュータ等の、直接的ユーザインターフェースを有しない、他のコンピュータシステム（クライアント）からの要求を受信するデバイスであってもよい。他の実施形態では、コンピュータシステム３００は、デスクトップコンピュータ、携帯型コンピュータ、ノートパソコン、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、又は任意の他の適切な電子機器であってもよい。

次に、図２を参照して、本発明の実施形態に係る時空間事象予測システム２００の構成の一例について説明する。

図２は、本発明の実施形態に係る時空間事象予測システム２００の構成の一例を示す図である。図２に示すように、時空間事象予測システム２００は、主にセンサ２０２、情報処理サーバ２０５、ネットワーク２７５、及びクライアント端末２８５Ａ、２８５Ｂからなる。情報処理サーバ２０５は、ネットワーク２７５を介して、クライアント端末２８５Ａ、２８５Ｂと接続される。また、情報処理サーバ２０５は、直接的にセンサ２０２と接続される。

情報処理サーバ２０５は、センサ２０２やクライアント端末２８５Ａ、２８５Ｂ等の外部デバイスとデータ送受信を行う転送部２１０、センサ２０２を操作・管理するためのセンサ管理部２１５、各種データの読み出し・書き込みを管理するデータ管理部２２０、センサ２０２等から受信する映像を格納するための映像データベース２２５、映像におけるイベント・オブジェクトのデータを格納するためのイベント・オブジェクトデータベース２３０、及び映像の解析を行うための映像解析部２３５からなる。

また、図２に示すように、映像解析部２３５は、対象の画像シーケンスにおいて、所定のイベントが起こると予測される時空間座標を指定する時空間提案を生成する作成部２４０と、時空間提案に示される時空間座標に基づいて、所定のイベントに対応する画像領域を画像シーケンスの特定の画像フレームから抽出する抽出部２４５と、画像領域において、所定のイベントに関連するオブジェクトを特定する特定部２５０と、各オブジェクトについて、当該オブジェクトの時空間座標と、所定のイベントを特徴づけるイベントクラスを判定する判定部２５５とを含む。
なお、映像解析部２３５に含まれる機能部の詳細については後述する。

なお、情報処理サーバ２０５に含まれるそれぞれの機能部は、図１に示す時空間事象予測アプリケーション３５０を構成するソフトウエアモジュールであってもよく、独立した専用ハードウェアデバイスであってもよい。また、上記の機能部は、同一のコンピューティング環境に実施されてもよく、分散されたコンピューティング環境に実施されてもよい。例えば、作成部２４０を遠隔のサーバに実装し、それ以外の機能部をクライアント端末２８５Ａ、２８５Ｂ等のローカルデバイスに実装する構成であってもよい。

センサ２０２は、自然現象や人工物の機械的・電磁気的・熱的・音響的・化学的性質に関する情報を取得し、人間や機械が扱い易い別媒体の信号に置き換える装置である。センサ２０２は、例えば、監視カメラ、録音装置、光センサ、赤外線センサ、超音波距離計、レーザードップラー振動速度計等、任意のセンサであってもよいが、本明細書では、センサ２０２を監視カメラとした場合を例として説明する。

クライアント端末２８５Ａ、２８５Ｂは、映像解析部２３５によって生成されるイベント・オブジェクトに関する時空間事象予測結果を受信するクライアント端末である。これらのクライアント端末２８５Ａ、２８５Ｂは、個人に利用される端末であってもよく、警察署や民間企業等の組織における端末であってもよい。これらのクライアント端末２８５Ａ、２８５Ｂは、例えば、デスクトップパソコン、ノートパソコン、タブレット、スマートフォン等、任意のデバイスであってもよい。

次に、図３を参照して、本発明の実施形態に係る時空間事象予測方法について説明する。

図３は、本発明の実施形態に係る時空間事象予測方法３９０の流れを示す図である。時空間事象予測方法３９０を行うことにより、時空間的動作検出及びアクターグループローカライゼーションを高精度で行うことができ、所定のイベントやオブジェクトを時空間的に特定することができる。

まず、ステップＳ３１０では、転送部（例えば、図２に示す転送部２１０）は、複数の画像フレームから構成される画像シーケンスを受け付ける。ここで、「受け付ける」との表現は、例えば画像シーケンスを取得したり、受信したり、入力したりすることを含む。例えば、転送部は、画像シーケンスを外部のデバイスやセンサから受信することで受け付けてもよい。ここでの画像シーケンスは、例えば映像や動画であってもよく、複数の静止画像であってもよい。一例として、この画像シーケンスは、例えば防犯カメラから送信された映像であってもよい。

次に、ステップＳ３２０では、作成部（例えば、図２に示す作成部２４０）は、ステップＳ３１０で転送部が受け付けた画像シーケンスにおいて、所定のイベントがいつ、どこで起こるかを予測する時空間提案を１つ以上生成する。ここでの時空間提案とは、１つ以上の所定のイベントが起こるであろう空間及び時間を指定する時空間座標を示すものである。この時空間座標は、例えば所定のイベントが起こると予測される特定の画像フレーム（３６番目のフレーム）と、当該画像フレームにおける位置を指定する平面座標（［７２、１１８］、［８５、１４６］）とを示す情報を含んでもよい。また、ここでは、作成部は、１つの所定のイベントにつき、複数の時空間提案の候補を作成してもよい。
なお、この所定のイベントとは、画像シーケンスにおけるオブジェクトの状態の変化を意味するものであり、本発明の実施形態に係るニューラルネットワークが事前に特定できるように訓練されたものである。この所定のイベントは、例えば、人間や動物等の生き物の出現や動作、交通事故、犯罪とみなされる行為等、任意のものであってもよい。
また、ここでのイベントは、受信した画像シーケンスに写る、既に生起した過去のイベントであってもよく、まだ生起していない将来のイベントであってもよい。従って、本発明に係る時空間事象予測方法３９０により、画像シーケンスにおける過去のイベントの時空間特定に加えて、まだ起こっていない将来のイベントの時空間事象予測が可能である。

次に、ステップＳ３３０では、抽出部（例えば、図２に示す抽出部２４５）は、所定のイベントに対応する画像領域を画像シーケンスの特定の画像フレームから抽出する。ここでは、「抽出する」との表現は、画像領域を画像フレームから抜き出したり、選定したり、切り抜いたり、選択したり、特定したりすることを含む。抽出部は、ステップＳ３２０で作成された時空間提案に示される時空間座標に基づいて、所定のイベントに対応する画像領域を画像シーケンスの特定の画像フレームから抽出してもよい。例えば、時空間提案は、所定のイベントの時空間座標として、１１４番目の画像フレームの（［５６、６１］、［６８、７７］）の座標を示す場合には、抽出部は、この時空間座標を用いて、画像シーケンスの１１４番目の画像フレームにおける（［５６、６１］、［６８、７７］）の座標に該当する領域を抽出してもよい。
なお、ステップＳ３２０で複数の時空間提案が生成された場合には、ステップＳ３３０～Ｓ３５０の処理は、それぞれの時空間提案に対して行われてもよく、使用可能なコンピューティング資源の量に応じて、時空間提案の一部のみに対して行われてもよい。

次に、ステップＳ３４０では、特定部（例えば、図２に示す特定部２５０）は、ステップＳ３３０で抽出された画像領域において、所定のイベントに関連する１つ以上のオブジェクトを特定する。ここでは、「特定する」との表現は、所定のイベントに関連するオブジェクトを検知したり、認識したり、検出したり、判定したり、識別したりすることを含む。また、ここでのオブジェクトとは、画像シーケンスに写る物体であり、人間や動物等の生き物や、車、木、武器等の無生物であってもよい。また、「所定のイベントに関連するオブジェクト」とは、所定のイベントとして特定されたイベントにおける状態変化を引き起こすオブジェクトを意味する。例えば、所定のイベントが「交通事故」の場合には、当該交通事故で衝突した自動車が関連するオブジェクトとして特定されてもよい。
所定のイベントに関連するオブジェクトを特定する手段として、特定部は、ＳＩＦＴ（Ｓｃａｌｅ－ｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｔｒａｎｓｆｏｒｍ）、ＨＯＧ（Ｈｉｓｔｏｇｒａｍｏｆｏｒｉｅｎｔｅｄｇｒａｄｉｅｎｔｓ）Ｒ－ＣＮＮ，ＦａｓｔＲ－ＣＮＮ，ＦａｓｔｅｒＲ－ＣＮＮ，ＳＳＤ（ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉｂｏｘＤｅｔｅｃｔｏｒ），ＹＯＬＯ（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ）等のアルゴリズムを用いてもよい。なお、ここでは、特定部は、特定したオブジェクト毎に、一意のトラッキング用識別子を付してもよい。

次に、ステップＳ３５０では、判定部（例えば図２に示す判定部２５５）は、ステップＳ３４０で特定したオブジェクト及び所定のイベントに関する時空間事象予測結果を出力する。ここでは、判定するとは、オブジェクトの時空間座標と、所定のイベントを特徴づけるイベントクラスを特定したり、検出したり、判別したり、決定したりすることを意味する。時空間事象予測結果とは、１つ以上の所定のイベントを特徴づけるイベントクラスと、当該イベントに関連する１つ以上のオブジェクトの時空間座標と示すものである。また、オブジェクトの時空間座標は、オブジェクトがいつ（例えば、タイムスタンプ、フレーム番号等の情報）、どこ（特定のフレームにおける平面座標）で写ったかを示す情報である。また、イベントクラスとは、所定のイベントの内容（事故、犯罪、異常）を示す情報である。ここで生成される時空間事象予測結果は、クライアント端末（例えば、図２に示すクライアント端末２８５Ａ、２８５Ｂ）に送信されてもよい。
なお、ステップＳ３２０で複数の時空間提案が生成された場合には、判定部は、それぞれの時空間提案に対して時空間事象予測結果を出力してもよく、イベント・オブジェクトを正しく特定した確率が所定の確率基準を満たすもののみに対して時空間事象予測結果を出力してもよい。
この時空間事象予測結果が示す、時空間座標及びイベントクラス情報を用いることで、所定のイベント及び当該イベントに関連するオブジェクトの時空間的な位置を高精度で特定することができる。

次に、図４を参照して、本発明の実施形態に係る時空間提案を生成する処理の流れについて説明する。

図４は、本発明の実施形態に係る時空間提案を生成する処理４００の流れを示す図である。この処理４００は、所定のイベントがいつ、どこで起こるかを予測する時空間提案を生成する際の工程を示すものであり、図３のステップＳ３２０に対応する。

まず、ステップＳ４１０では、作成部（例えば、図２に示す作成部２４０）は、所定の（通常の）畳み込み演算を用いて、受け付けた画像シーケンスから畳み込み特徴を抽出する。一般的には、畳み込み演算とは、所定の関数ｇを平行移動しながら別の関数ｆに重ね足し合わせる二項演算である。この畳み込み演算を画像シーケンスにおける画像フレームに対して行うことで、当該画像の属性を表す畳み込み特徴を抽出することができる。従って、ここでは、作成部は、１つ以上の畳み込み演算及び非線形変換を施すことで、画像シーケンスの各画像フレームの属性を表す畳み込み特徴を特徴マップ（フィーチャーマップ）として抽出することができる。

次に、ステップＳ４２０では、作成部は、ステップＳ４１０に抽出された畳み込み特徴を、因果的・非因果的（ｃａｕｓａｌｌｙ／ａｎｔｉ－ｃａｕｓａｌｌｙ）に合成する。一般的には、因果的な特徴とは、過去の情報（すなわち、画像シーケンスの以前の画像フレーム）のみで判別可能な特徴であり、非因果的な特徴とは、判別が未来の情報（すなわち、画像シーケンスの以降の画像フレーム）に依存する特徴である。従って、ここでは、「因果的に合成する」との表現は、特定の画像フレームから抽出された畳み込み特徴を、それ以降の画像フレームから抽出された畳み込み特徴と組み合わせることを意味する。
なお、畳み込み特徴を因果的に合成するためのニューラルネットワーク構成については後述する。

次に、ステップＳ４３０では、作成部は、因果的畳み込み演算及び非因果的畳み込み演算を用いて、特徴の時間的情報（例えば、画像シーケンスにおける画像フレームの順番）を保つ因果的畳み込み特徴（ｃａｕｓａｌｃｏｎｖｏｌｕｔｉｏｎａｌｆｅａｔｕｒｅｓ）を生成する。ここでの因果的畳み込み演算とは、結果が未来の入力に依存しないフィルタ演算であり、非因果的畳み込み演算とは、結果が未来の入力に依存するフィルタ演算である。これらの畳み込み演算をステップＳ４２０において合成した特徴に対して実行することで、画像シーケンスの時系列情報（すなわち、画像フレームの順番の情報）を保つ因果的畳み込み特徴を生成することができる。

次に、ステップＳ４４０では、作成部は、ステップＳ４３０で生成された因果的畳み込み特徴を集約する。例えば、ここでは、作成部は、画像シーケンスのそれぞれの画像フレームについて生成された因果的畳み込み特徴を集約し、既存の提案ネットワーク（ｐｒｏｐｏｓａｌｎｅｔｗｏｒｋ）等を用いて分類処理を施すことで、画像シーケンスにおける所定のイベントを検出することができる。その後、作成部は、検出した所定イベントの時間的情報（タイムスタンプ、フレーム番号）及び空間的情報（平面座標）から、当該イベントの時空間的座標を計算し、上述した時空間提案を生成することができる。

次に、図５を参照して、本発明の実施形態に係るニューラルネットワークにおいて、画像シーケンスからの特徴を抽出するレイヤの例について説明する。

図５は、本発明の実施形態に係るニューラルネットワーク５００において画像シーケンスからの特徴を抽出するレイヤの例を示す図である。図５に示すように、ニューラルネットワーク５００は、入力レイヤ（Ｉｎｐｕｔｌａｙｅｒ）Ｍ１０００，畳み込みレイヤ(Ｃｏｎｖｏｌｕｔｉｏｎａｌｌａｙｅｒ)Ｍ２０００，集約レイヤ(Ａｇｇｒｅｇａｔｉｏｎｌａｙｅｒ)Ｍ３０００，時間的領域予測レイヤ(Ｔｅｍｐｏｒａｌｒｅｇｉｏｎｐｒｅｄｉｃｔｉｏｎｌａｙｅｒ)Ｍ４０００，空間的領域予測レイヤ(ｓｐａｔｉａｌｒｅｇｉｏｎｐｒｅｄｉｃｔｉｏｎｌａｙｅｒ)Ｍ５０００，及びアクティビティクラス予測レイヤ(ａｃｔｉｖｉｔｙｃｌａｓｓｐｒｅｄｉｃｔｉｏｎｌａｙｅｒ)Ｍ６０００から構成される。
この２次元の畳み込み演算のカスケード構成によれば、因果的畳み込み演算が可能となり、所定のイベントを高精度で時空間的に特定することができる。

これらのレイヤは、入力されるデータに対して特定の処理を施すノードを１つ以上含む。例えば、図５に示すように、入力レイヤ（Ｉｎｐｕｔｌａｙｅｒ）Ｍ１０００は、入力ノードＭ００、入力ノードＭ０１，入力ノードＭ０２等、入力ノードＭ０Ｋまで任意の数の入力ノードを含んでもよく、畳み込みレイヤＭ２０００は、畳み込みノードＭ１０，畳み込みノードＭ１１，畳み込みノードＭ１２等、畳み込みノードＭ１Ｋまで任意の数の畳み込みノードを含んでもよい。また、図５に示す「ｔ」とは、画像シーケンスにおける特定の画像フレームのフレーム番号であり、「ｓ」とは、後述するストライドパラメータであり、「ｆ」とは、所定のスケール係数である。
なお、ここでの入力ノードＭ００、入力ノードＭ０１，入力ノードＭ０２、及び入力ノードＭ０ｋは、画像シーケンスからの特徴を抽出する畳み込みモデルであり、畳み込みノードＭ１０，畳み込みノードＭ１１，畳み込みノードＭ１２、及び畳み込みノードＭ１ｋは、画像シーケンスの時系列データが保たれる（埋め込まれる）因果的畳み込み特徴を生成するモデルである。
また、ニューラルネットワーク５００に含まれるレイヤの数や、それぞれのレイヤにおけるノードの数は任意であり、用途や目的に応じて適宜に変更されてもよい。また、本発明に係るニューラルネットワークが畳み込みニューラルネットワーク（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）である場合の例を説明するが、本発明はこれに限定されず、他の適宜に構成したニューラルネットワークの使用も可能である。

まず、画像シーケンス５５０を構成する画像フレームはそれぞれ、入力レイヤＭ１０００における入力ノードに入力され、（畳み込み）特徴が抽出される。また、入力レイヤにおけるそれぞれの入力ノードの出力は、畳み込みレイヤＭ２０００における直下のノードに加えて、それぞれの下流の畳み込みノードに接続されている。ここで、「下流」とは、「後続の画像フレーム」に関連するものを意味し、「下流の畳み込みノード」とは「当該画像フレームの後続画像フレームを入力した入力ノードに対応する畳み込みノード」を意味する。例えば、図５に示すように、畳み込みノードＭ１０は、入力ノードＭ００の出力を入力とし、畳み込みノードＭ１１は入力ノードＭ００及び入力ノードＭ０１の出力を入力とし、畳み込みノードＭ１２は入力ノードＭ００、入力ノードＭ０１、及び入力ノードＭ０２の出力を入力とする。
この構成により、畳み込みレイヤＭ２０００は、入力される特徴を因果的・非因果的（ｃａｕｓａｌｌｙ／ａｎｔｉ－ｃａｕｓａｌｌｙ）に合成することが可能となり、因果的畳み込み演算を施すことで、特徴の時間的情報（例えば、画像シーケンスの時系列に関する情報や、画像フレームの順番）が埋め込まれている因果的畳み込み特徴を生成することができる。このように、所定の画像フレームから抽出した特徴と、前後の画像フレームから抽出した特徴の画像シーケンスにおける時間的依存性を保つことができる。
また、本発明の実施形態に係るニューラルネットワーク５００の畳み込みレイヤＭ２０００は、画像フレームを処理する際には、任意のストライドパラメータ（又は「ストライド」と略することもある）を用いて畳み込み演算を行ってもよい。このストライドパラメータとは、畳み込み関数の適用範囲を指定するパラメータであり、フィルター（又はカーナルと呼ぶことまる）が移動する間隔を定義する。このストライドは、画像シーケンスの期間の長さによって適宜に選択されてもよい。例えば、画像シーケンスが比較的に長い場合には、より高いストライドを設定することで、畳み込みレイヤの処理負荷を低減させることができる。一方、画像シーケンスが比較的に短い場合には、より短いストライドを設定することで、より高精度の時空間提案を生成することができる。また、ここでのストライドは、ユーザに設定されてもよく、画像シーケンスの期間の長さに応じて、ニューラルネットワーク５００によって自動的に計算されてもよい。

次に、畳み込みレイヤＭ２０００で生成された特徴は、集約レイヤＭ３０００において集約され、時間的領域予測レイヤＭ４０００，空間的領域予測レイヤＭ５０００，及びアクティビティクラス予測レイヤＭ６０００に出力される。時間的領域予測レイヤＭ４０００は、入力されるデータを時間グリッド（ｔｅｍｐｏｒａｌｇｒｉｄ）に分割し、特徴チャンネルの深さを所定のイベントが起こる時間領域にマッピングすることで、特徴の時間的情報（タイムスタンプ、画像フレーム番号の範囲等）を計算する。
空間的領域予測レイヤＭ５０００は、入力されるデータを空間グリッド（ｓｐａｔｉａｌｇｒｉｄ）に分割し、特徴チャンネルを所定のイベントが起こる空間領域にマッピングすることで、特徴の空間的情報（空間バウンディングボックスや平面座標）を計算する。
また、アクティビティクラス予測レイヤＭ６０００は、入力される特徴を所定のイベントの空間的領域にマッピングし、チャンネルの深さを時間的領域にマッピングすることで、所定のイベントのイベントクラス（事故、犯罪、異常等のイベント内容）を判定する。

上述した作成部（例えば、図２に示す判定部２５５）は、これらの時間的情報、空間的情報、及びイベントクラスに関する情報に基づいて、所定のイベントが起こると予測される時空間座標を指定する時空間提案を生成することができる。

なお、スケール変動に対する頑強性（ｒｏｂｕｓｔｎｅｓｓ）を向上させるために、画像シーケンスにおける画像フレームは、集約レイヤに入力される前に複数の空間スケールで処理されてもよい。また、集約レイヤに入力される特徴に対して因果的畳み込み演算を施す畳み込みレイヤＭ２０００のノードＭ００～Ｍ０ｋのパラメータは、共通のものであってもよい。これらのパラメータは、ニューラルネットワーク５００の訓練段階で初期化され、パラメータ更新の際に固定されてもよい。あるいは、ニューラルネットワーク５００はエンドツーエンドで訓練されてもよい。

次に、図６を参照して、本発明の実施形態に係る時空間提案に基づいて、所定のイベントに対応する画像領域を、画像シーケンスの特定の画像フレームから抽出する処理の流れについて説明する。

図６は、本発明の実施形態に係る時空間提案に基づいて、所定のイベントに対応する画像領域を、画像シーケンスの特定の画像フレームから抽出する処理６００の流れを示す図である。

図６に示すように、時間的領域予測レイヤＭ４０００によって計算される特徴の時間的情報（タイムスタンプ、画像フレーム番号）は、フレーム選択レイヤＭ７０００に入力される。このフレーム選択レイヤＭ７０００は、受信した時間的情報に基づいて、所定のイベントが起こると予測される画像フレームを選択し、当該画像フレームから、当該イベントに対応する画像領域を抽出する（図３に示す処理３９０のステップＳ３３０に対応）。

次に、検出レイヤＭ８０００は、空間的領域予測レイヤＭ５０００から入力される特徴の空間的情報（平面座標）に基づいて、抽出された画像領域において、所定のイベントに関連する１つ以上のオブジェクトを検出（特定）する（図３に示す処理３９０のステップＳ３４０に対応）。トラッキングレイヤーＭ９０００は、検出レイヤＭ８０００によって検出されたオブジェクトに一意のトラッキング用識別子を付してもよい。

次に、上述したように、判定部（例えば、図２に示す判定部２５５）は、検出したオブジェクト及び所定のイベントに関する時空間事象予測結果を出力する。この時空間事象予測結果が示す、時空間座標及びイベントクラス情報を用いることで、所定のイベント及び当該イベントに関連するオブジェクトの時空間的な位置を高精度で特定することができる。

次に、図７を参照して、本発明の実施形態に係る畳み込み特徴を抽出するための特徴抽出レイヤの例について説明する。

図７は、本発明の実施形態に係る畳み込み特徴を抽出するための特徴抽出レイヤＥＸ１０００の例を示す図である。図７に示す特徴抽出レイヤＥＸ１０００は、例えば図５を参照して説明したニューラルネットワーク５００における入力レイヤＭ１０００や畳み込みレイヤＭ２０００において実装されてもよい。画像シーケンスにおける画像フレームを当該特徴抽出レイヤＥＸ１０００によって処理することにより、その画像フレームにおける画素の属性を表す特徴を特徴マップとして抽出することができる。

図７に示すように、特徴抽出レイヤＥＸ１０００は、畳み込みレイヤ７２０、正規化線形関数レイヤ（ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｆｕｎｃｔｉｏｎｌａｙｅｒ）７３０、マックスプーリングレイヤー（ｍａｘｐｏｏｌｉｎｇｌａｙｅｒ）７４０、及びバッチ正規化レイヤ（ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎｌａｙｅｒ）７５０をそれぞれ複数含む。上述したように、畳み込みレイヤ７２０は、所定のストライドを用いて画像フレームに対して畳み込み演算を施すレイヤである。正規化線形関数レイヤ７３０は、畳み込みレイヤ７２０の出力に対して、よく知られる活性化関数を行うレイヤである。マックスプーリングレイヤー７４０は、正規化線形関数レイヤ７３０の出力に対して、特徴として重要な情報を残しながら元の画像を次元削減し、縮小するレイヤである。バッチ正規化レイヤ７５０は、マックスプーリングレイヤー７４０の出力に対して、活性化を調整したり、スケーリングしたりするレイヤである。
なお、特徴抽出レイヤＥＸ１０００の構成は図７に示す例に限定されない。

上述したように、本発明の実施形態に係る特徴抽出レイヤＥＸ１０００は、因果的畳み込み演算を用いることで、画像シーケンスの時系列情報（すなわち、画像フレームの順番の情報）を保つ因果的畳み込み特徴を生成し、所定のイベントや当該イベントに関連するオブジェクトの時空間座標を特定することができる。以下では、この因果的畳み込み演算の詳細について説明する。

本発明の実施形態に係る因果的畳み込みでは、任意の特徴マップにおいて、ある次元ｎに沿ったインデクス（１_a、２_b…ｎ_j）での活性化Ｚは、インデクスｊでの特徴マップ活性化に先立つ（あるいは、非因果的畳み込み演算の場合、インデクスｊでの特徴マップ活性化に後続する）次元ｎに沿った特徴マップのみに依存する。この条件は、以下の数式１（因果的畳み込みの場合）又は数式２（非因果的畳み込みの場合）によって定められる。

ここでは、f(x_1,x_2…g(x_nki))は、次元ｎに沿ったインデクスｊでの活性化を表し、ｘ_iは、入力となる特徴を表し、g(x_nki)は、次元ｎに沿ったインデクスｋ_iでの入力特徴ｘを活性化要素ｘ_njにマッピングする関数を表す。

一例として、３次元の特徴マップの場合には、（ａ，ｂ，ｃ）における（３次元の）チャンネル活性化は、以下の数式３（因果的畳み込みの場合）又は数式４（非因果的畳み込みの場合）によって求められる。

ここでは、（ａ，ｂ，ｃ）は活性化の位置を表し、ｗは畳み込みのフィルタのカーネルの幅を表し、ｈは畳み込みのフィルタのカーネルの高さを表し、［ａ－ｗ，ａ＋ｗ］及び［ｂ－ｈ，ｂ＋ｈ］はインデクスの範囲を表す。インデクスｋ_iは、次元ｎ（３）に沿って所定のインデクスｃに先立つ又は後続するインデクスである。ｆは、入力となる特徴ｘ，ｙ，ｚを（ａ，ｂ，ｃ）での活性化Ｚにマッピングする関数である。

図７に示す畳み込みレイヤ７２０を上述した因果的畳み込み演算を実行するように構成することにより、画像シーケンスの時系列情報（すなわち、画像フレームの順番の情報）を保つ因果的畳み込み特徴を生成し、所定のイベントや当該イベントに関連するオブジェクトの時空間座標を特定することができる。

次に、図８を参照して、因果的畳み込み特徴を画像シーケンスから抽出するための特徴抽出レイヤについて説明する。

図８は、本発明の実施形態に係る因果的畳み込み特徴を抽出するためのニューラルネットワーク８００の例を示す図である。図８に示すように、ニューラルネットワーク８００は、複数の特徴抽出レイヤＥＸ２０００、ＥＸ２１００、ＥＸ２２００、及び集約レイヤＥＸ２３００を含む。画像シーケンスにおける画像フレームを図８に示すように構成されているニューラルネットワーク８００によって処理することにより、画像フレームの特徴を因果的（又は非因果的に）合成することができ、特徴の時間的情報（例えば、画像シーケンスにおける画像フレームの順番）を保つ特徴を生成することができる。

それぞれの特徴抽出レイヤは、所定の画像フレームから抽出した特徴Ｆ_aを入力とする。一例として、特徴抽出レイヤＥＸ２０００は、画像シーケンスにおいて時間ｔ=0での画像フレームを入力し、特徴抽出レイヤＥＸ２１００は、画像シーケンスにおいて時間ｔ=4での画像フレームを入力し、特徴抽出レイヤＥＸ２２００は、画像シーケンスにおいて時間ｔ=16での画像フレームを入力してもよい。
なお、これらの特徴Ｆ_aは、訓練済みのモデルによって抽出されてもよい。

それぞれの特徴抽出レイヤＥＸ２０００、ＥＸ２１００及びＥＸ２２００は、入力する特徴Ｆ_aに対して、上述した畳み込み演算、正規化線形関数の演算、及びマックスプーリング演算を施すように構成されている。また、図８に示すように、それぞれの特徴抽出レイヤの出力は、集約レイヤＥＸ２３００の特定のノードに加えて、下流の畳み込みレイヤにも接続されている。例えば、特徴抽出レイヤＥＸ２０００の出力は、特徴抽出レイヤＥＸ２１００に接続され、特徴抽出レイヤＥＸ２２００の出力は特徴抽出レイヤＥＸ２２００に接続される。この構成により、ニューラルネットワーク８００は、画像フレームの時系列に関する情報が埋め込まれている特徴Ｆ_ｂを生成することができる。
なお、生成される特徴は、平行に生成されてもよく、順番に生成されてもよい。

次に、集約レイヤＥＸ２３００では、それぞれの特徴抽出レイヤから入力される特徴Ｆ_ｂが集約され、所定のイベントが起こると予測される時空間座標やイベントのクラスの予測に用いられる特徴Ｆ_ｃが生成される。例えば、上述した検出レイヤは、特徴Ｆ_ｃを用いて、特定の画像領域におけるオブジェクトを検出してもよい。その後、トラッキングレイヤーは、検出レイヤによって検出されたオブジェクトに一意のトラッキング用識別子を付してもよい。

なお、図８に示すニューラルネットワーク８００は、いわゆるバックプロパゲーション手法（逆伝播）によって訓練されてもよい。訓練後、このニューラルネットワーク８００は、推論段階（ｉｎｆｅｒｅｎｃｅｐｈａｓｅ）におけるオブジェクト・イベントの時間的・空間的・時空間的予測に用いられてもよい。

次に、図９を参照して、本発明の実施形態に係る時空間提案を生成する集約レイヤにおける特徴マップの例について説明する。

図９は、本発明の実施形態に係る時空間提案を生成する集約レイヤにおける特徴マップ９００の例を示す図である。図９に示す特徴マップ９００は、例えば畳み込みレイヤから出力され、集約レイヤにおいて集約される複数の特徴マップを含んでおり、これらの特徴マップを用いることで、所定のイベント及び当該イベントに関連するオブジェクトの時空間座標を示す時空間提案を生成することができる。

通常、オブジェクト検出アルゴリズムは、入力画像内の多数の領域をサンプリングし、これらの領域に対象のオブジェクトが含まれているか否かを判断し、対象のオブジェクトが存在する範囲を示すバウンディングボックスをより正確に予測するように領域のエッジを調整する。この際に、各ピクセルを中心に、サイズとアスペクト比が異なる複数のバウンディングボックスが生成され、これらのバウンディングボックスは、「アンカー」（又はアンカーボックス）と呼ばれる。
例えば、所定のイベントやオブジェクトが写る領域ＥＸ３２００を検出する際には、所定の特徴点を中心に、アンカーＥＸ３１００が生成され、このアンカーＥＸ３１００が含む時空間的領域の時空間的座標は、時空間提案ＥＸ３０００によって示される。

本発明に係るニューラルネットワークは、所定のイベントが起こると予測される時間と、当該イベントが実際に起こった時間のＩｏＵ（Ｉｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒｕｎｉｏｎ）、所定のイベントが起こると予測される空間座標と当該イベントが実際に起こった空間座標のＩｏＵ、及びイベントクラスのを正しく予測する確率を向上するように訓練される。

次に、図１０を参照して、本発明の実施形態に係る画像フレーム選択及びオブジェクト特定を同時に行う構成の例について説明する。

図１０は、本発明の実施形態に係る画像フレーム選択及びオブジェクト特定を同時に行う構成１０００の例を示す図である。図１０に示すように、本発明に係る画像フレーム選択及びオブジェクト特定は、同一のフレーム選択・オブジェクト特定レイヤＭ９０００に実装される。この場合には、時間的領域予測レイヤＭ４０００からの時間予測と、空間的領域予測レイヤＭ５０００からの空間予測の両方はフレーム選択・オブジェクト特定レイヤＭ９０００に供給される。

次に、フレーム選択・オブジェクト特定レイヤＭ９０００は、受信した時間予測及び空間予測に基づいて、所定のイベントが起こると予測される画像フレームを画像シーケンスから選択し、当該画像フレームにおけるオブジェクトを特定する。
なお、フレーム選択・オブジェクト特定レイヤＭ９０００と、時間的領域予測レイヤＭ４０００と、空間的領域予測レイヤＭ５０００とは共に訓練されてもよく、独立して訓練されてもよい。

次に、図１１を参照して、本発明の実施形態に係る、スパース（Ｓｐａｒｓｅ）なレイヤ接続を用いるニューラルネットワークの例について説明する。

図１１は、本発明の実施形態に係る、スパース（Ｓｐａｒｓｅ）なレイヤ接続を用いるニューラルネットワーク１１００の例を示す図である。以上（例えば、図５を参照して説明したニューラルネットワーク５００）では、ニューラルネットワークにおけるのレイヤのノードがそれぞれの下流のノードに接続されている構成を一例として説明したが、本発明はこれに限定されない。ここで、「下流のノード」とは、「当該画像フレームの後続画像フレームに対応するノード」を意味する。
例えば、図１１に示すように、本発明の実施形態に係るニューラルネットワーク１１００におけるレイヤのノードは、少数の下流のノードのみに接続されるスパース接続構成であってもよい。この構成では、ニューラルネットワーク１１００の入力レイヤにおけるノードＭ００，Ｍ０１，Ｍ０２等は、畳み込みレイヤにおける下流のノードに接続されず、直下の畳み込みレイヤのノードのみに接続される。

このスパース接続構成を用いることにより、特徴の時間的情報（例えば、画像シーケンスにおける画像フレームの順番）の一部が失われるが、ノードの処理負荷が減るため、コンピューティング資源を節約することができる。そのため、このスパース接続構成は、例えば処理対象の画像フレームが大量に存在し、その中で時間的情報が不要な画像フレームが存在する場合に用いることが望ましい。

次に、図１２～図１３を参照して、本発明の実施形態に係る、複数の所定のオブジェクトの時空間的特定の例について説明する。

図１２は、本発明の実施形態に係るオブジェクトの構成要素を特定する処理１２００の例を示す図である。なお、図１２に示す処理１２００の流れは、図６を参照して説明した流れと実質的に同様であるため、その説明は省略する。

上述したように、本発明の実施形態に係る時空間事象予測手段は、所定のオブジェクトを時空間的に特定することができる。また、本発明に係るオブジェクトの時空間特定は、所定のイベントに関連する１つの物体の座標の特定のみならず、複数の物体や、１つの物体を構成する複数の要素の特定にも用いられる。例えば、図１２に示す画像フレーム１２３０に示されるように、本発明に係るトラッキングレイヤーＭ９０００は、人間等の物体の手や足等の部位、銃や刃物等の手で持っているものを個別に識別することができる。従って、本発明に係る時空間事象予測手段は、防犯や事故予測等の分野に適用することにより、事故の防止や犯人の識別に用いられる。

図１３は、本発明の実施形態に係るオブジェクトのキーポイントを特定する処理１３００の例を示す図である。ここでは、オブジェクトのキーポイントとは、所定のオブジェクトの輪郭や形状を規定する特徴点である。例えば、図１３に示す画像フレーム１３３０に示されるように、本発明に係るトラッキングレイヤーＭ９０００は、例えば手、足、頭、胴等の人間の体におけるキーポイントを特定することができる。オブジェクトのキーポイントを用いることで、特定のオブジェクトの動きや他のオブジェクトとの相互作用をより正確にトラッキングすることができる。

なお、以上では、人間の体の部位やキーポイント等を特定する例について説明したが、本発明はそれに限定されず、機械を構成する部品や、道路を走行する自動車等、任意の複数のオブジェクトの時空間的特定に適用することができる。

また、以上説明した時空間事象予測手段は、ＡｏＩ（ＡｒｅａｏｆＩｎｔｅｒｅｓｔ）やＲｏＩ(ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ)検出、イベント検出及びリアルタイム通知システム、解析対象の映像を重要なフレームまで絞る処理、機械装置における異常検出、ライン生産方式における異常検出、不法侵入検出、事故通知システム、事故防止（予測）システム、防犯等、様々な分野に適用可能である。本発明の実施形態に係る時空間事象予測手段を上述した分野に適用することで、従来に比べて、必要なコンピューティング資源を節約しつつ、イベントやオブジェクトの時空間的特定の精度を向上させることができる。

以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

２００時空間事象予測システム
２０２センサ
２０５情報処理サーバ
２１５センサ管理部
２２０データ管理部
２２５映像データベース
２３０イベント・オブジェクトデータベース
２３５映像解析部
２４０作成部
２４５抽出部
２５０特定部
２５５判定部

Claims

イベント及びオブジェクトの時空間座標を予測する時空間事象予測装置であって、
複数の画像フレームから構成される画像シーケンスを受け付ける転送部と、
前記画像シーケンスにおいて、少なくとも所定のイベントが起こると予測される時空間座標を指定する時空間提案を生成する作成部と、
前記時空間提案に示される時空間座標に基づいて、前記所定のイベントに対応する画像領域を前記画像シーケンスの特定の画像フレームから抽出する抽出部と、
前記画像領域において、前記所定のイベントに関連するオブジェクトを１つ以上特定する特定部と、
前記オブジェクトの各々について、当該オブジェクトの時空間座標と、前記所定のイベントを特徴づけるイベントクラスを判定し、前記オブジェクト及び前記所定のイベントに関する時空間事象予測結果を出力する判定部と、
を含むことを特徴とする時空間事象予測装置。
前記作成部は、
畳み込みニューラルネットワークを用いて前記時空間提案を作成する、
ことを特徴とする、請求項１に記載の時空間事象予測装置。
前記畳み込みニューラルネットワークは、
前記画像シーケンスの前記複数の画像フレームを入力し、特徴を抽出する入力レイヤと、
前記特徴に対して因果的畳み込み演算を施し、前記画像シーケンスの時系列情報が埋め込まれる因果的畳み込み特徴を生成する畳み込みレイヤと、
前記因果的畳み込み特徴を集約する集約レイヤと、
前記集約した因果的畳み込み特徴に基づいて、前記所定のイベントに関する時間的情報を計算する時間領域予測レイヤと、
前記集約した因果的畳み込み特徴に基づいて、前記所定のイベントに関する空間的情報を計算する空間領域予測レイヤと、
前記集約した因果的畳み込み特徴に基づいて、前記所定のイベントに関するイベントクラスを計算するアクティビティクラス予測レイヤと、
を含むことを特徴とする、請求項２に記載の時空間事象予測装置。
前記畳み込みニューラルネットワークにおいて、
前記入力レイヤは複数の入力ノードを含み、
前記畳み込みレイヤは、それぞれの前記複数の入力ノードに対応する複数の畳み込みノードを含み、
前記複数の入力ノードはそれぞれ、前記複数の画像フレームのうち、異なる画像フレームを入力し、当該画像フレームの特徴を抽出し、前記抽出した特徴を、当該入力ノードに対応する畳み込みノードに加えて、下流の画像フレームを入力した入力ノードに対応する畳み込みノードにも出力する、
ことを特徴とする、請求項３に記載の時空間事象予測装置。
前記作成部は、
前記因果的畳み込み特徴に基づいて計算された前記時間的情報、前記空間的情報、及びイベントクラスを用いて、前記所定のイベントが起こると予測される前記特定の画像フレームのフレーム番号と、前記所定のイベントが起こると予測される前記特定の画像フレームにおける平面座標と、前記所定のイベントの内容を特徴付けるイベントクラスとを含む時空間提案を作成する、
ことを特徴とする、請求項４に記載の時空間事象予測装置。
前記畳み込みニューラルネットワークは、
前記画像シーケンスに対応する期間の長さに基づいて、
畳み込み演算に用いるストライドパラメータを計算し、
前記計算したストライドパラメータを用いて、前記画像シーケンスに対する畳み込み演算を実行する、
ことを特徴とする、請求項５に記載の時空間事象予測装置。
前記時空間提案は、前記画像シーケンスにおける複数の所定イベントの時空間座標を含み、
前記時空間事象予測結果は、前記所定のイベントの各々について、当該イベントに関連する複数のオブジェクトの時空間座標を含む、
ことを特徴とする、請求項１に記載の時空間事象予測装置。
イベント及びオブジェクトの時空間座標を予測する時空間事象予測方法であって、
複数の画像フレームから構成される画像シーケンスを受け付ける工程と、
前記画像シーケンスにおいて、所定のイベントが起こると予測される時空間座標を指定する時空間提案を生成する工程と、
前記時空間提案に示される時空間座標に基づいて、前記所定のイベントに対応する画像領域を前記画像シーケンスの特定の画像フレームから抽出する工程と、
前記画像領域において、前記所定のイベントに関連するオブジェクトを１つ以上特定する工程と、
前記オブジェクトの各々について、当該オブジェクトの時空間座標と、前記所定のイベントを特徴づけるイベントクラスを判定し、前記オブジェクト及び前記イベントに関する時空間事象予測結果を出力する工程と、
を含む時空間事象予測方法。
イベント及びオブジェクトの時空間座標を予測する時空間事象予測システムであって、
時空間事象予測システムにおいて、
複数の画像フレームから構成される画像シーケンスを取得するセンサと、
情報処理サーバと、
クライアント端末とが通信ネットワークを介して接続されており、
前記情報処理サーバは、
前記画像シーケンスを前記センサから受け付ける転送部と、
前記画像シーケンスにおいて、所定のイベントが起こると予測される時空間座標を指定する時空間提案を生成する作成部と、
前記時空間提案に示される時空間座標に基づいて、前記所定のイベントに対応する画像領域を前記画像シーケンスの特定の画像フレームから抽出する抽出部と、
前記画像領域において、前記所定のイベントに関連するオブジェクトを１つ以上特定する特定部と、
前記オブジェクトの各々について、当該オブジェクトの時空間座標と、前記所定のイベントを特徴づけるイベントクラスを判定し、前記オブジェクト及び前記イベントに関する時空間事象予測結果を前記クライアント端末に出力する判定部と、
を含む時空間事象予測システム。