JP7202995B2 - 時空間事象予測装置、時空間事象予測方法及び時空間事象予測システム - Google Patents

時空間事象予測装置、時空間事象予測方法及び時空間事象予測システム Download PDF

Info

Publication number
JP7202995B2
JP7202995B2 JP2019186545A JP2019186545A JP7202995B2 JP 7202995 B2 JP7202995 B2 JP 7202995B2 JP 2019186545 A JP2019186545 A JP 2019186545A JP 2019186545 A JP2019186545 A JP 2019186545A JP 7202995 B2 JP7202995 B2 JP 7202995B2
Authority
JP
Japan
Prior art keywords
spatio
temporal
event
image
image sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019186545A
Other languages
English (en)
Other versions
JP2021064021A (ja
Inventor
モヒト チャブラ
智一 村上
マルティン クリンキグト
敦 廣池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019186545A priority Critical patent/JP7202995B2/ja
Publication of JP2021064021A publication Critical patent/JP2021064021A/ja
Application granted granted Critical
Publication of JP7202995B2 publication Critical patent/JP7202995B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Description

本発明は、時空間事象予測装置、時空間事象予測方法及び時空間事象予測システムに関する。
近年、写真、動画、画像等の映像コンテンツが急増する中、IoTを活用した社会イノベーション活動を進めるために、高精度な映像監視技術に関する需要が高まっている。特に、映像コンテンツを活用して、所定のイベント及び当該イベントに関連するオブジェクトを時空間的に特定する技術への需要が増している。そして、対象の動作やイベントがいつ、どこで起こるかを特定することは「時空間的動作検出」(Spatio-Temporal-Action Detection)と呼ばれる。また、この対象の動作やイベントに関連するオブジェクトを特定することは「アクターグループローカライゼーション」(Actor Group Localization)と呼ばれる。
こうした時空間的動作検出やアクターグループローカライゼーションを高精度で行うことについては、いくつかの提案がなされている。
例えば、CN108399380A(特許文献1)には「本発明は、3次元畳み込みおよびより高速なRCNNベースのビデオアクション検出方法を開示する。この方法は、最初に新しいモデルを導入し、3次元の完全な畳み込みネットワークを使用してビデオストリームをエンコードするステップを含む。次に、生成された特徴に基づくアクションを含む候補時間領域を生成し、候補フレームのグループを生成する。そして、異なるフィルム編集の対象となる候補フレームで最終的に分類検出を実行し、それにより、ビデオストリーム内のアクションタイプ及びビデオアクションの開始及び終了時間を予測し、アクションの空間位置境界フレームを予測する」技術が記載されている。
CN108399380A
上記の特許文献1においては、3次元畳み込み演算を用いて、特定のアクションの開始及び終了時間を予測することが記載されている。
しかし、特許文献1に記載の手段は、3次元畳み込み演算を用いた、アクションの時間的局在化(temporal localization)に限られており、同時に起こる複数のイベントの検出は想定されていない。また、特許文献1に記載の手段において高精度の予測を実現するためには、訓練のために膨大な学習データを要する。
そこで、本発明は、因果的畳み込み演算を用いることで、学習データが少ない場合であっても、1つ以上の所定のイベント及びそのイベントに関連するオブジェクトの時空間座標を高精度で特定する手段を提供することを目的とする。
上記の課題を解決するために、代表的な本発明の時空間事象予測装置の1つは、イベント及びオブジェクトの時空間座標を予測する時空間事象予測装置であって、複数の画像フレームから構成される画像シーケンスを受け付ける転送部と、画像シーケンスにおいて、少なくとも所定のイベントが起こると予測される時空間座標を指定する時空間提案を生成する作成部と、時空間提案に示される時空間座標に基づいて、所定のイベントに対応する画像領域を画像シーケンスの特定の画像フレームから抽出する抽出部と、画像領域において、所定のイベントに関連するオブジェクトを1つ以上特定する特定部と、オブジェクトの各々について、当該オブジェクトの時空間座標と、所定のイベントを特徴づけるイベントクラスを判定し、オブジェクト及び所定のイベントに関する時空間事象予測結果を出力する判定部とを含む。
本発明によれば、因果的畳み込み演算を用いることで、学習データが少ない場合であっても、1つ以上の所定のイベント及びそのイベントと係りのあるオブジェクトの時空間座標を高精度で特定する手段を提供することができる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
図1は、本発明の実施形態を実施するためのコンピュータシステムを示す図である。 図2は、本発明の実施形態に係る時空間事象予測システムの構成を示す図である。 図3は、本発明の実施形態に係る時空間事象予測方法の流れを示す図である。 図4は、本発明の実施形態に係る時空間提案を生成する処理の流れを示す図である。 図5は、本発明の実施形態に係るニューラルネットワークにおいて画像シーケンスからの特徴を抽出するレイヤの例を示す図である。 図6は、本発明の実施形態に係る時空間提案に基づいて、所定のイベントに対応する画像領域を画像シーケンスの特定の画像フレームから抽出する処理の流れを示す図である。 図7は、本発明の実施形態に係る畳み込み特徴を抽出するための特徴抽出レイヤの例を示す図である。 図8は、本発明の実施形態に係る因果的畳み込み特徴を抽出するための特徴抽出レイヤの例を示す図である。 図9は、本発明の実施形態に係る時空間提案を生成する集約レイヤにおける特徴の例を示す図である。 図10は、本発明の実施形態に係る画像フレーム選択及びオブジェクト特定を同時に行う構成の例を示す図である。 図11は、本発明の実施形態に係る、スパース(Sparse)なレイヤ接続を用いるニューラルネットワーク1100の例を示す図である。 図12は、本発明の実施形態に係るオブジェクトの構成要素を複数特定する例を示す図である。 図13は、本発明の実施形態に係るオブジェクトのキーポイントを特定する例を示す図である。
以下、図面を参照して本発明の実施形態について説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
(本発明の概要)
従来の時空間的動作検出では、所定のイベントやオブジェクトを時空間的に特定するために、入力となる画像シーケンスにおける各画像フレームを分析し、その中から、特定の対象となる属性に一致する物体を検出する必要があったため、処理負荷が大きい。また、従来では、イベントの空間的特定と時間的特定はそれぞれ異なる専用のニューラルネットワークによって独立して行われることが一般的であり、複数のイベントやオブジェクトを空間的かつ時間的に特定することが難しい。
そこで、本発明は、因果的畳み込み演算(casual convolution operations)を用いることで、所定のイベントが起こると予測される時空間的領域(例えば、画像シーケンスにおける特定のフレームや当該フレームにおける平面座標)の候補を示す提案を生成する。その後、既存のオブジェクト検出やオブジェクト特定手法が指定されているフレームに対してのみ実行されるため、従来に比べて、イベントやオブジェクトの時空間的特定の精度を向上させる上、必要なコンピューティング資源を節約することができる。
(ハードウェア構成)
まず、図1を参照して、本開示の実施形態を実施するためのコンピュータシステム300について説明する。本明細書で開示される様々な実施形態の機構及び装置は、任意の適切なコンピューティングシステムに適用されてもよい。コンピュータシステム300の主要コンポーネントは、1つ以上のプロセッサ302、メモリ304、端末インターフェース312、ストレージインタフェース314、I/O(入出力)デバイスインタフェース316、及びネットワークインターフェース318を含む。これらのコンポーネントは、メモリバス306、I/Oバス308、バスインターフェースユニット309、及びI/Oバスインターフェースユニット310を介して、相互的に接続されてもよい。
コンピュータシステム300は、プロセッサ302と総称される1つ又は複数の汎用プログラマブル中央処理装置(CPU)302A及び302Bを含んでもよい。ある実施形態では、コンピュータシステム300は複数のプロセッサを備えてもよく、また別の実施形態では、コンピュータシステム300は単一のCPUシステムであってもよい。各プロセッサ302は、メモリ304に格納された命令を実行し、オンボードキャッシュを含んでもよい。
ある実施形態では、メモリ304は、データ及びプログラムを記憶するためのランダムアクセス半導体メモリ、記憶装置、又は記憶媒体(揮発性又は不揮発性のいずれか)を含んでもよい。メモリ304は、本明細書で説明する機能を実施するプログラム、モジュール、及びデータ構造のすべて又は一部を格納してもよい。例えば、メモリ304は、時空間事象予測アプリケーション350を格納していてもよい。ある実施形態では、時空間事象予測アプリケーション350は、後述する機能をプロセッサ302上で実行する命令又は記述を含んでもよい。
ある実施形態では、時空間事象予測アプリケーション350は、プロセッサベースのシステムの代わりに、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および/または他の物理ハードウェアデバイスを介してハードウェアで実施されてもよい。ある実施形態では、時空間事象予測アプリケーション350は、命令又は記述以外のデータを含んでもよい。ある実施形態では、カメラ、センサ、または他のデータ入力デバイス(図示せず)が、バスインターフェースユニット309、プロセッサ302、またはコンピュータシステム300の他のハードウェアと直接通信するように提供されてもよい。
コンピュータシステム300は、プロセッサ302、メモリ304、表示システム324、及びI/Oバスインターフェースユニット310間の通信を行うバスインターフェースユニット309を含んでもよい。I/Oバスインターフェースユニット310は、様々なI/Oユニットとの間でデータを転送するためのI/Oバス308と連結していてもよい。I/Oバスインターフェースユニット310は、I/Oバス308を介して、I/Oプロセッサ(IOP)又はI/Oアダプタ(IOA)としても知られる複数のI/Oインタフェースユニット312,314,316、及び318と通信してもよい。
表示システム324は、表示コントローラ、表示メモリ、又はその両方を含んでもよい。表示コントローラは、ビデオ、オーディオ、又はその両方のデータを表示装置326に提供することができる。また、コンピュータシステム300は、データを収集し、プロセッサ302に当該データを提供するように構成された1つまたは複数のセンサ等のデバイスを含んでもよい。
例えば、コンピュータシステム300は、心拍数データやストレスレベルデータ等を収集するバイオメトリックセンサ、湿度データ、温度データ、圧力データ等を収集する環境センサ、及び加速度データ、運動データ等を収集するモーションセンサ等を含んでもよい。これ以外のタイプのセンサも使用可能である。表示システム324は、単独のディスプレイ画面、テレビ、タブレット、又は携帯型デバイスなどの表示装置326に接続されてもよい。
I/Oインタフェースユニットは、様々なストレージ又はI/Oデバイスと通信する機能を備える。例えば、端末インタフェースユニット312は、ビデオ表示装置、スピーカテレビ等のユーザ出力デバイスや、キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、ライトペン、又は他のポインティングデバイス等のユーザ入力デバイスのようなユーザI/Oデバイス320の取り付けが可能である。ユーザは、ユーザインターフェースを使用して、ユーザ入力デバイスを操作することで、ユーザI/Oデバイス320及びコンピュータシステム300に対して入力データや指示を入力し、コンピュータシステム300からの出力データを受け取ってもよい。ユーザインターフェースは例えば、ユーザI/Oデバイス320を介して、表示装置に表示されたり、スピーカによって再生されたり、プリンタを介して印刷されたりしてもよい。
ストレージインタフェース314は、1つ又は複数のディスクドライブや直接アクセスストレージ装置322(通常は磁気ディスクドライブストレージ装置であるが、単一のディスクドライブとして見えるように構成されたディスクドライブのアレイ又は他のストレージ装置であってもよい)の取り付けが可能である。ある実施形態では、ストレージ装置322は、任意の二次記憶装置として実装されてもよい。メモリ304の内容は、ストレージ装置322に記憶され、必要に応じてストレージ装置322から読み出されてもよい。I/Oデバイスインタフェース316は、プリンタ、ファックスマシン等の他のI/Oデバイスに対するインターフェースを提供してもよい。ネットワークインターフェース318は、コンピュータシステム300と他のデバイスが相互的に通信できるように、通信経路を提供してもよい。この通信経路は、例えば、ネットワーク330であってもよい。
ある実施形態では、コンピュータシステム300は、マルチユーザメインフレームコンピュータシステム、シングルユーザシステム、又はサーバコンピュータ等の、直接的ユーザインターフェースを有しない、他のコンピュータシステム(クライアント)からの要求を受信するデバイスであってもよい。他の実施形態では、コンピュータシステム300は、デスクトップコンピュータ、携帯型コンピュータ、ノートパソコン、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、又は任意の他の適切な電子機器であってもよい。
次に、図2を参照して、本発明の実施形態に係る時空間事象予測システム200の構成の一例について説明する。
図2は、本発明の実施形態に係る時空間事象予測システム200の構成の一例を示す図である。図2に示すように、時空間事象予測システム200は、主にセンサ202、情報処理サーバ205、ネットワーク275、及びクライアント端末285A、285Bからなる。情報処理サーバ205は、ネットワーク275を介して、クライアント端末285A、285Bと接続される。また、情報処理サーバ205は、直接的にセンサ202と接続される。
情報処理サーバ205は、センサ202やクライアント端末285A、285B等の外部デバイスとデータ送受信を行う転送部210、センサ202を操作・管理するためのセンサ管理部215、各種データの読み出し・書き込みを管理するデータ管理部220、センサ202等から受信する映像を格納するための映像データベース225、映像におけるイベント・オブジェクトのデータを格納するためのイベント・オブジェクトデータベース230、及び映像の解析を行うための映像解析部235からなる。
また、図2に示すように、映像解析部235は、対象の画像シーケンスにおいて、所定のイベントが起こると予測される時空間座標を指定する時空間提案を生成する作成部240と、時空間提案に示される時空間座標に基づいて、所定のイベントに対応する画像領域を画像シーケンスの特定の画像フレームから抽出する抽出部245と、画像領域において、所定のイベントに関連するオブジェクトを特定する特定部250と、各オブジェクトについて、当該オブジェクトの時空間座標と、所定のイベントを特徴づけるイベントクラスを判定する判定部255とを含む。
なお、映像解析部235に含まれる機能部の詳細については後述する。
なお、情報処理サーバ205に含まれるそれぞれの機能部は、図1に示す時空間事象予測アプリケーション350を構成するソフトウエアモジュールであってもよく、独立した専用ハードウェアデバイスであってもよい。また、上記の機能部は、同一のコンピューティング環境に実施されてもよく、分散されたコンピューティング環境に実施されてもよい。例えば、作成部240を遠隔のサーバに実装し、それ以外の機能部をクライアント端末285A、285B等のローカルデバイスに実装する構成であってもよい。
センサ202は、自然現象や人工物の機械的・電磁気的・熱的・音響的・化学的性質に関する情報を取得し、人間や機械が扱い易い別媒体の信号に置き換える装置である。センサ202は、例えば、監視カメラ、録音装置、光センサ、赤外線センサ、超音波距離計、レーザードップラー振動速度計等、任意のセンサであってもよいが、本明細書では、センサ202を監視カメラとした場合を例として説明する。
クライアント端末285A、285Bは、映像解析部235によって生成されるイベント・オブジェクトに関する時空間事象予測結果を受信するクライアント端末である。これらのクライアント端末285A、285Bは、個人に利用される端末であってもよく、警察署や民間企業等の組織における端末であってもよい。これらのクライアント端末285A、285Bは、例えば、デスクトップパソコン、ノートパソコン、タブレット、スマートフォン等、任意のデバイスであってもよい。
次に、図3を参照して、本発明の実施形態に係る時空間事象予測方法について説明する。
図3は、本発明の実施形態に係る時空間事象予測方法390の流れを示す図である。時空間事象予測方法390を行うことにより、時空間的動作検出及びアクターグループローカライゼーションを高精度で行うことができ、所定のイベントやオブジェクトを時空間的に特定することができる。
まず、ステップS310では、転送部(例えば、図2に示す転送部210)は、複数の画像フレームから構成される画像シーケンスを受け付ける。ここで、「受け付ける」との表現は、例えば画像シーケンスを取得したり、受信したり、入力したりすることを含む。例えば、転送部は、画像シーケンスを外部のデバイスやセンサから受信することで受け付けてもよい。ここでの画像シーケンスは、例えば映像や動画であってもよく、複数の静止画像であってもよい。一例として、この画像シーケンスは、例えば防犯カメラから送信された映像であってもよい。
次に、ステップS320では、作成部(例えば、図2に示す作成部240)は、ステップS310で転送部が受け付けた画像シーケンスにおいて、所定のイベントがいつ、どこで起こるかを予測する時空間提案を1つ以上生成する。ここでの時空間提案とは、1つ以上の所定のイベントが起こるであろう空間及び時間を指定する時空間座標を示すものである。この時空間座標は、例えば所定のイベントが起こると予測される特定の画像フレーム(36番目のフレーム)と、当該画像フレームにおける位置を指定する平面座標([72、118]、[85、146])とを示す情報を含んでもよい。また、ここでは、作成部は、1つの所定のイベントにつき、複数の時空間提案の候補を作成してもよい。
なお、この所定のイベントとは、画像シーケンスにおけるオブジェクトの状態の変化を意味するものであり、本発明の実施形態に係るニューラルネットワークが事前に特定できるように訓練されたものである。この所定のイベントは、例えば、人間や動物等の生き物の出現や動作、交通事故、犯罪とみなされる行為等、任意のものであってもよい。
また、ここでのイベントは、受信した画像シーケンスに写る、既に生起した過去のイベントであってもよく、まだ生起していない将来のイベントであってもよい。従って、本発明に係る時空間事象予測方法390により、画像シーケンスにおける過去のイベントの時空間特定に加えて、まだ起こっていない将来のイベントの時空間事象予測が可能である。
次に、ステップS330では、抽出部(例えば、図2に示す抽出部245)は、所定のイベントに対応する画像領域を画像シーケンスの特定の画像フレームから抽出する。ここでは、「抽出する」との表現は、画像領域を画像フレームから抜き出したり、選定したり、切り抜いたり、選択したり、特定したりすることを含む。抽出部は、ステップS320で作成された時空間提案に示される時空間座標に基づいて、所定のイベントに対応する画像領域を画像シーケンスの特定の画像フレームから抽出してもよい。例えば、時空間提案は、所定のイベントの時空間座標として、114番目の画像フレームの([56、61]、[68、77])の座標を示す場合には、抽出部は、この時空間座標を用いて、画像シーケンスの114番目の画像フレームにおける([56、61]、[68、77])の座標に該当する領域を抽出してもよい。
なお、ステップS320で複数の時空間提案が生成された場合には、ステップS330~S350の処理は、それぞれの時空間提案に対して行われてもよく、使用可能なコンピューティング資源の量に応じて、時空間提案の一部のみに対して行われてもよい。
次に、ステップS340では、特定部(例えば、図2に示す特定部250)は、ステップS330で抽出された画像領域において、所定のイベントに関連する1つ以上のオブジェクトを特定する。ここでは、「特定する」との表現は、所定のイベントに関連するオブジェクトを検知したり、認識したり、検出したり、判定したり、識別したりすることを含む。また、ここでのオブジェクトとは、画像シーケンスに写る物体であり、人間や動物等の生き物や、車、木、武器等の無生物であってもよい。また、「所定のイベントに関連するオブジェクト」とは、所定のイベントとして特定されたイベントにおける状態変化を引き起こすオブジェクトを意味する。例えば、所定のイベントが「交通事故」の場合には、当該交通事故で衝突した自動車が関連するオブジェクトとして特定されてもよい。
所定のイベントに関連するオブジェクトを特定する手段として、特定部は、SIFT(Scale-invariant feature transform)、HOG(Histogram of oriented gradients)R-CNN, Fast R-CNN, Faster R-CNN, SSD(Single Shot Multibox Detector), YOLO(You Only Look Once)等のアルゴリズムを用いてもよい。なお、ここでは、特定部は、特定したオブジェクト毎に、一意のトラッキング用識別子を付してもよい。
次に、ステップS350では、判定部(例えば図2に示す判定部255)は、ステップS340で特定したオブジェクト及び所定のイベントに関する時空間事象予測結果を出力する。ここでは、判定するとは、オブジェクトの時空間座標と、所定のイベントを特徴づけるイベントクラスを特定したり、検出したり、判別したり、決定したりすることを意味する。時空間事象予測結果とは、1つ以上の所定のイベントを特徴づけるイベントクラスと、当該イベントに関連する1つ以上のオブジェクトの時空間座標と示すものである。また、オブジェクトの時空間座標は、オブジェクトがいつ(例えば、タイムスタンプ、フレーム番号等の情報)、どこ(特定のフレームにおける平面座標)で写ったかを示す情報である。また、イベントクラスとは、所定のイベントの内容(事故、犯罪、異常)を示す情報である。ここで生成される時空間事象予測結果は、クライアント端末(例えば、図2に示すクライアント端末285A、285B)に送信されてもよい。
なお、ステップS320で複数の時空間提案が生成された場合には、判定部は、それぞれの時空間提案に対して時空間事象予測結果を出力してもよく、イベント・オブジェクトを正しく特定した確率が所定の確率基準を満たすもののみに対して時空間事象予測結果を出力してもよい。
この時空間事象予測結果が示す、時空間座標及びイベントクラス情報を用いることで、所定のイベント及び当該イベントに関連するオブジェクトの時空間的な位置を高精度で特定することができる。
次に、図4を参照して、本発明の実施形態に係る時空間提案を生成する処理の流れについて説明する。
図4は、本発明の実施形態に係る時空間提案を生成する処理400の流れを示す図である。この処理400は、所定のイベントがいつ、どこで起こるかを予測する時空間提案を生成する際の工程を示すものであり、図3のステップS320に対応する。
まず、ステップS410では、作成部(例えば、図2に示す作成部240)は、所定の(通常の)畳み込み演算を用いて、受け付けた画像シーケンスから畳み込み特徴を抽出する。一般的には、畳み込み演算とは、所定の関数gを平行移動しながら別の関数fに重ね足し合わせる二項演算である。この畳み込み演算を画像シーケンスにおける画像フレームに対して行うことで、当該画像の属性を表す畳み込み特徴を抽出することができる。従って、ここでは、作成部は、1つ以上の畳み込み演算及び非線形変換を施すことで、画像シーケンスの各画像フレームの属性を表す畳み込み特徴を特徴マップ(フィーチャーマップ)として抽出することができる。
次に、ステップS420では、作成部は、ステップS410に抽出された畳み込み特徴を、因果的・非因果的(causally/anti-causally)に合成する。一般的には、因果的な特徴とは、過去の情報(すなわち、画像シーケンスの以前の画像フレーム)のみで判別可能な特徴であり、非因果的な特徴とは、判別が未来の情報(すなわち、画像シーケンスの以降の画像フレーム)に依存する特徴である。従って、ここでは、「因果的に合成する」との表現は、特定の画像フレームから抽出された畳み込み特徴を、それ以降の画像フレームから抽出された畳み込み特徴と組み合わせることを意味する。
なお、畳み込み特徴を因果的に合成するためのニューラルネットワーク構成については後述する。
次に、ステップS430では、作成部は、因果的畳み込み演算及び非因果的畳み込み演算を用いて、特徴の時間的情報(例えば、画像シーケンスにおける画像フレームの順番)を保つ因果的畳み込み特徴(causal convolutional features)を生成する。ここでの因果的畳み込み演算とは、結果が未来の入力に依存しないフィルタ演算であり、非因果的畳み込み演算とは、結果が未来の入力に依存するフィルタ演算である。これらの畳み込み演算をステップS420において合成した特徴に対して実行することで、画像シーケンスの時系列情報(すなわち、画像フレームの順番の情報)を保つ因果的畳み込み特徴を生成することができる。
次に、ステップS440では、作成部は、ステップS430で生成された因果的畳み込み特徴を集約する。例えば、ここでは、作成部は、画像シーケンスのそれぞれの画像フレームについて生成された因果的畳み込み特徴を集約し、既存の提案ネットワーク(proposal network)等を用いて分類処理を施すことで、画像シーケンスにおける所定のイベントを検出することができる。その後、作成部は、検出した所定イベントの時間的情報(タイムスタンプ、フレーム番号)及び空間的情報(平面座標)から、当該イベントの時空間的座標を計算し、上述した時空間提案を生成することができる。
次に、図5を参照して、本発明の実施形態に係るニューラルネットワークにおいて、画像シーケンスからの特徴を抽出するレイヤの例について説明する。
図5は、本発明の実施形態に係るニューラルネットワーク500において画像シーケンスからの特徴を抽出するレイヤの例を示す図である。図5に示すように、ニューラルネットワーク500は、入力レイヤ(Input layer)M1000,畳み込みレイヤ(Convolutional layer)M2000,集約レイヤ(Aggregation layer)M3000,時間的領域予測レイヤ(Temporal region prediction layer)M4000,空間的領域予測レイヤ(spatial region prediction layer)M5000,及びアクティビティクラス予測レイヤ(activity class prediction layer)M6000から構成される。
この2次元の畳み込み演算のカスケード構成によれば、因果的畳み込み演算が可能となり、所定のイベントを高精度で時空間的に特定することができる。
これらのレイヤは、入力されるデータに対して特定の処理を施すノードを1つ以上含む。例えば、図5に示すように、入力レイヤ(Input layer)M1000は、入力ノードM00、入力ノードM01,入力ノードM02等、入力ノードM0Kまで任意の数の入力ノードを含んでもよく、畳み込みレイヤM2000は、畳み込みノードM10,畳み込みノードM11,畳み込みノードM12等、畳み込みノードM1Kまで任意の数の畳み込みノードを含んでもよい。また、図5に示す「t」とは、画像シーケンスにおける特定の画像フレームのフレーム番号であり、「s」とは、後述するストライドパラメータであり、「f」とは、所定のスケール係数である。
なお、ここでの入力ノードM00、入力ノードM01,入力ノードM02、及び入力ノードM0kは、画像シーケンスからの特徴を抽出する畳み込みモデルであり、畳み込みノードM10,畳み込みノードM11,畳み込みノードM12、及び畳み込みノードM1kは、画像シーケンスの時系列データが保たれる(埋め込まれる)因果的畳み込み特徴を生成するモデルである。
また、ニューラルネットワーク500に含まれるレイヤの数や、それぞれのレイヤにおけるノードの数は任意であり、用途や目的に応じて適宜に変更されてもよい。また、本発明に係るニューラルネットワークが畳み込みニューラルネットワーク(convolutional neural network)である場合の例を説明するが、本発明はこれに限定されず、他の適宜に構成したニューラルネットワークの使用も可能である。
まず、画像シーケンス550を構成する画像フレームはそれぞれ、入力レイヤM1000における入力ノードに入力され、(畳み込み)特徴が抽出される。また、入力レイヤにおけるそれぞれの入力ノードの出力は、畳み込みレイヤM2000における直下のノードに加えて、それぞれの下流の畳み込みノードに接続されている。ここで、「下流」とは、「後続の画像フレーム」に関連するものを意味し、「下流の畳み込みノード」とは「当該画像フレームの後続画像フレームを入力した入力ノードに対応する畳み込みノード」を意味する。例えば、図5に示すように、畳み込みノードM10は、入力ノードM00の出力を入力とし、畳み込みノードM11は入力ノードM00及び入力ノードM01の出力を入力とし、畳み込みノードM12は入力ノードM00、入力ノードM01、及び入力ノードM02の出力を入力とする。
この構成により、畳み込みレイヤM2000は、入力される特徴を因果的・非因果的(causally/anti-causally)に合成することが可能となり、因果的畳み込み演算を施すことで、特徴の時間的情報(例えば、画像シーケンスの時系列に関する情報や、画像フレームの順番)が埋め込まれている因果的畳み込み特徴を生成することができる。このように、所定の画像フレームから抽出した特徴と、前後の画像フレームから抽出した特徴の画像シーケンスにおける時間的依存性を保つことができる。
また、本発明の実施形態に係るニューラルネットワーク500の畳み込みレイヤM2000は、画像フレームを処理する際には、任意のストライドパラメータ(又は「ストライド」と略することもある)を用いて畳み込み演算を行ってもよい。このストライドパラメータとは、畳み込み関数の適用範囲を指定するパラメータであり、フィルター(又はカーナルと呼ぶことまる)が移動する間隔を定義する。このストライドは、画像シーケンスの期間の長さによって適宜に選択されてもよい。例えば、画像シーケンスが比較的に長い場合には、より高いストライドを設定することで、畳み込みレイヤの処理負荷を低減させることができる。一方、画像シーケンスが比較的に短い場合には、より短いストライドを設定することで、より高精度の時空間提案を生成することができる。また、ここでのストライドは、ユーザに設定されてもよく、画像シーケンスの期間の長さに応じて、ニューラルネットワーク500によって自動的に計算されてもよい。
次に、畳み込みレイヤM2000で生成された特徴は、集約レイヤM3000において集約され、時間的領域予測レイヤM4000,空間的領域予測レイヤM5000,及びアクティビティクラス予測レイヤM6000に出力される。時間的領域予測レイヤM4000は、入力されるデータを時間グリッド(temporal grid)に分割し、特徴チャンネルの深さを所定のイベントが起こる時間領域にマッピングすることで、特徴の時間的情報(タイムスタンプ、画像フレーム番号の範囲等)を計算する。
空間的領域予測レイヤM5000は、入力されるデータを空間グリッド(spatial grid)に分割し、特徴チャンネルを所定のイベントが起こる空間領域にマッピングすることで、特徴の空間的情報(空間バウンディングボックスや平面座標)を計算する。
また、アクティビティクラス予測レイヤM6000は、入力される特徴を所定のイベントの空間的領域にマッピングし、チャンネルの深さを時間的領域にマッピングすることで、所定のイベントのイベントクラス(事故、犯罪、異常等のイベント内容)を判定する。
上述した作成部(例えば、図2に示す判定部255)は、これらの時間的情報、空間的情報、及びイベントクラスに関する情報に基づいて、所定のイベントが起こると予測される時空間座標を指定する時空間提案を生成することができる。
なお、スケール変動に対する頑強性(robustness)を向上させるために、画像シーケンスにおける画像フレームは、集約レイヤに入力される前に複数の空間スケールで処理されてもよい。また、集約レイヤに入力される特徴に対して因果的畳み込み演算を施す畳み込みレイヤM2000のノードM00~M0kのパラメータは、共通のものであってもよい。これらのパラメータは、ニューラルネットワーク500の訓練段階で初期化され、パラメータ更新の際に固定されてもよい。あるいは、ニューラルネットワーク500はエンドツーエンドで訓練されてもよい。
次に、図6を参照して、本発明の実施形態に係る時空間提案に基づいて、所定のイベントに対応する画像領域を、画像シーケンスの特定の画像フレームから抽出する処理の流れについて説明する。
図6は、本発明の実施形態に係る時空間提案に基づいて、所定のイベントに対応する画像領域を、画像シーケンスの特定の画像フレームから抽出する処理600の流れを示す図である。
図6に示すように、時間的領域予測レイヤM4000によって計算される特徴の時間的情報(タイムスタンプ、画像フレーム番号)は、フレーム選択レイヤM7000に入力される。このフレーム選択レイヤM7000は、受信した時間的情報に基づいて、所定のイベントが起こると予測される画像フレームを選択し、当該画像フレームから、当該イベントに対応する画像領域を抽出する(図3に示す処理390のステップS330に対応)。
次に、検出レイヤM8000は、空間的領域予測レイヤM5000から入力される特徴の空間的情報(平面座標)に基づいて、抽出された画像領域において、所定のイベントに関連する1つ以上のオブジェクトを検出(特定)する(図3に示す処理390のステップS340に対応)。トラッキングレイヤーM9000は、検出レイヤM8000によって検出されたオブジェクトに一意のトラッキング用識別子を付してもよい。
次に、上述したように、判定部(例えば、図2に示す判定部255)は、検出したオブジェクト及び所定のイベントに関する時空間事象予測結果を出力する。この時空間事象予測結果が示す、時空間座標及びイベントクラス情報を用いることで、所定のイベント及び当該イベントに関連するオブジェクトの時空間的な位置を高精度で特定することができる。
次に、図7を参照して、本発明の実施形態に係る畳み込み特徴を抽出するための特徴抽出レイヤの例について説明する。
図7は、本発明の実施形態に係る畳み込み特徴を抽出するための特徴抽出レイヤEX1000の例を示す図である。図7に示す特徴抽出レイヤEX1000は、例えば図5を参照して説明したニューラルネットワーク500における入力レイヤM1000や畳み込みレイヤM2000において実装されてもよい。画像シーケンスにおける画像フレームを当該特徴抽出レイヤEX1000によって処理することにより、その画像フレームにおける画素の属性を表す特徴を特徴マップとして抽出することができる。
図7に示すように、特徴抽出レイヤEX1000は、畳み込みレイヤ720、正規化線形関数レイヤ(rectified linear function layer)730、マックスプーリングレイヤー(maxpooling layer)740、及びバッチ正規化レイヤ(batch normalization layer)750をそれぞれ複数含む。上述したように、畳み込みレイヤ720は、所定のストライドを用いて画像フレームに対して畳み込み演算を施すレイヤである。正規化線形関数レイヤ730は、畳み込みレイヤ720の出力に対して、よく知られる活性化関数を行うレイヤである。マックスプーリングレイヤー740は、正規化線形関数レイヤ730の出力に対して、特徴として重要な情報を残しながら元の画像を次元削減し、縮小するレイヤである。バッチ正規化レイヤ750は、マックスプーリングレイヤー740の出力に対して、活性化を調整したり、スケーリングしたりするレイヤである。
なお、特徴抽出レイヤEX1000の構成は図7に示す例に限定されない。
上述したように、本発明の実施形態に係る特徴抽出レイヤEX1000は、因果的畳み込み演算を用いることで、画像シーケンスの時系列情報(すなわち、画像フレームの順番の情報)を保つ因果的畳み込み特徴を生成し、所定のイベントや当該イベントに関連するオブジェクトの時空間座標を特定することができる。以下では、この因果的畳み込み演算の詳細について説明する。
本発明の実施形態に係る因果的畳み込みでは、任意の特徴マップにおいて、ある次元nに沿ったインデクス(1a、2b…nj)での活性化Zは、インデクスjでの特徴マップ活性化に先立つ(あるいは、非因果的畳み込み演算の場合、インデクスjでの特徴マップ活性化に後続する)次元nに沿った特徴マップのみに依存する。この条件は、以下の数式1(因果的畳み込みの場合)又は数式2(非因果的畳み込みの場合)によって定められる。
Figure 0007202995000001
Figure 0007202995000002
ここでは、f(x1,x2…g(xnki))は、次元nに沿ったインデクスjでの活性化を表し、xiは、入力となる特徴を表し、g(xnki)は、次元nに沿ったインデクスkiでの入力特徴xを活性化要素xnjにマッピングする関数を表す。
一例として、3次元の特徴マップの場合には、(a,b,c)における(3次元の)チャンネル活性化は、以下の数式3(因果的畳み込みの場合)又は数式4(非因果的畳み込みの場合)によって求められる。
Figure 0007202995000003
Figure 0007202995000004
ここでは、(a,b,c)は活性化の位置を表し、wは畳み込みのフィルタのカーネルの幅を表し、hは畳み込みのフィルタのカーネルの高さを表し、[a-w,a+w]及び[b-h,b+h]はインデクスの範囲を表す。インデクスkiは、次元n(3)に沿って所定のインデクスcに先立つ又は後続するインデクスである。fは、入力となる特徴x,y,zを(a,b,c)での活性化Zにマッピングする関数である。
図7に示す畳み込みレイヤ720を上述した因果的畳み込み演算を実行するように構成することにより、画像シーケンスの時系列情報(すなわち、画像フレームの順番の情報)を保つ因果的畳み込み特徴を生成し、所定のイベントや当該イベントに関連するオブジェクトの時空間座標を特定することができる。
次に、図8を参照して、因果的畳み込み特徴を画像シーケンスから抽出するための特徴抽出レイヤについて説明する。
図8は、本発明の実施形態に係る因果的畳み込み特徴を抽出するためのニューラルネットワーク800の例を示す図である。図8に示すように、ニューラルネットワーク800は、複数の特徴抽出レイヤEX2000、EX2100、EX2200、及び集約レイヤEX2300を含む。画像シーケンスにおける画像フレームを図8に示すように構成されているニューラルネットワーク800によって処理することにより、画像フレームの特徴を因果的(又は非因果的に)合成することができ、特徴の時間的情報(例えば、画像シーケンスにおける画像フレームの順番)を保つ特徴を生成することができる。
それぞれの特徴抽出レイヤは、所定の画像フレームから抽出した特徴Faを入力とする。一例として、特徴抽出レイヤEX2000は、画像シーケンスにおいて時間t=0での画像フレームを入力し、特徴抽出レイヤEX2100は、画像シーケンスにおいて時間t=4での画像フレームを入力し、特徴抽出レイヤEX2200は、画像シーケンスにおいて時間t=16での画像フレームを入力してもよい。
なお、これらの特徴Faは、訓練済みのモデルによって抽出されてもよい。
それぞれの特徴抽出レイヤEX2000、EX2100及びEX2200は、入力する特徴Faに対して、上述した畳み込み演算、正規化線形関数の演算、及びマックスプーリング演算を施すように構成されている。また、図8に示すように、それぞれの特徴抽出レイヤの出力は、集約レイヤEX2300の特定のノードに加えて、下流の畳み込みレイヤにも接続されている。例えば、特徴抽出レイヤEX2000の出力は、特徴抽出レイヤEX2100に接続され、特徴抽出レイヤEX2200の出力は特徴抽出レイヤEX2200に接続される。この構成により、ニューラルネットワーク800は、画像フレームの時系列に関する情報が埋め込まれている特徴Fを生成することができる。
なお、生成される特徴は、平行に生成されてもよく、順番に生成されてもよい。
次に、集約レイヤEX2300では、それぞれの特徴抽出レイヤから入力される特徴Fが集約され、所定のイベントが起こると予測される時空間座標やイベントのクラスの予測に用いられる特徴Fが生成される。例えば、上述した検出レイヤは、特徴Fを用いて、特定の画像領域におけるオブジェクトを検出してもよい。その後、トラッキングレイヤーは、検出レイヤによって検出されたオブジェクトに一意のトラッキング用識別子を付してもよい。
なお、図8に示すニューラルネットワーク800は、いわゆるバックプロパゲーション手法(逆伝播)によって訓練されてもよい。訓練後、このニューラルネットワーク800は、推論段階(inference phase)におけるオブジェクト・イベントの時間的・空間的・時空間的予測に用いられてもよい。
次に、図9を参照して、本発明の実施形態に係る時空間提案を生成する集約レイヤにおける特徴マップの例について説明する。
図9は、本発明の実施形態に係る時空間提案を生成する集約レイヤにおける特徴マップ900の例を示す図である。図9に示す特徴マップ900は、例えば畳み込みレイヤから出力され、集約レイヤにおいて集約される複数の特徴マップを含んでおり、これらの特徴マップを用いることで、所定のイベント及び当該イベントに関連するオブジェクトの時空間座標を示す時空間提案を生成することができる。
通常、オブジェクト検出アルゴリズムは、入力画像内の多数の領域をサンプリングし、これらの領域に対象のオブジェクトが含まれているか否かを判断し、対象のオブジェクトが存在する範囲を示すバウンディングボックスをより正確に予測するように領域のエッジを調整する。この際に、各ピクセルを中心に、サイズとアスペクト比が異なる複数のバウンディングボックスが生成され、これらのバウンディングボックスは、「アンカー」(又はアンカーボックス)と呼ばれる。
例えば、所定のイベントやオブジェクトが写る領域EX3200を検出する際には、所定の特徴点を中心に、アンカーEX3100が生成され、このアンカーEX3100が含む時空間的領域の時空間的座標は、時空間提案EX3000によって示される。
本発明に係るニューラルネットワークは、所定のイベントが起こると予測される時間と、当該イベントが実際に起こった時間のIoU(Intersection over union)、所定のイベントが起こると予測される空間座標と当該イベントが実際に起こった空間座標のIoU、及びイベントクラスのを正しく予測する確率を向上するように訓練される。
次に、図10を参照して、本発明の実施形態に係る画像フレーム選択及びオブジェクト特定を同時に行う構成の例について説明する。
図10は、本発明の実施形態に係る画像フレーム選択及びオブジェクト特定を同時に行う構成1000の例を示す図である。図10に示すように、本発明に係る画像フレーム選択及びオブジェクト特定は、同一のフレーム選択・オブジェクト特定レイヤM9000に実装される。この場合には、時間的領域予測レイヤM4000からの時間予測と、空間的領域予測レイヤM5000からの空間予測の両方はフレーム選択・オブジェクト特定レイヤM9000に供給される。
次に、フレーム選択・オブジェクト特定レイヤM9000は、受信した時間予測及び空間予測に基づいて、所定のイベントが起こると予測される画像フレームを画像シーケンスから選択し、当該画像フレームにおけるオブジェクトを特定する。
なお、フレーム選択・オブジェクト特定レイヤM9000と、時間的領域予測レイヤM4000と、空間的領域予測レイヤM5000とは共に訓練されてもよく、独立して訓練されてもよい。
次に、図11を参照して、本発明の実施形態に係る、スパース(Sparse)なレイヤ接続を用いるニューラルネットワークの例について説明する。
図11は、本発明の実施形態に係る、スパース(Sparse)なレイヤ接続を用いるニューラルネットワーク1100の例を示す図である。以上(例えば、図5を参照して説明したニューラルネットワーク500)では、ニューラルネットワークにおけるのレイヤのノードがそれぞれの下流のノードに接続されている構成を一例として説明したが、本発明はこれに限定されない。ここで、「下流のノード」とは、「当該画像フレームの後続画像フレームに対応するノード」を意味する。
例えば、図11に示すように、本発明の実施形態に係るニューラルネットワーク1100におけるレイヤのノードは、少数の下流のノードのみに接続されるスパース接続構成であってもよい。この構成では、ニューラルネットワーク1100の入力レイヤにおけるノードM00,M01,M02等は、畳み込みレイヤにおける下流のノードに接続されず、直下の畳み込みレイヤのノードのみに接続される。
このスパース接続構成を用いることにより、特徴の時間的情報(例えば、画像シーケンスにおける画像フレームの順番)の一部が失われるが、ノードの処理負荷が減るため、コンピューティング資源を節約することができる。そのため、このスパース接続構成は、例えば処理対象の画像フレームが大量に存在し、その中で時間的情報が不要な画像フレームが存在する場合に用いることが望ましい。
次に、図12~図13を参照して、本発明の実施形態に係る、複数の所定のオブジェクトの時空間的特定の例について説明する。
図12は、本発明の実施形態に係るオブジェクトの構成要素を特定する処理1200の例を示す図である。なお、図12に示す処理1200の流れは、図6を参照して説明した流れと実質的に同様であるため、その説明は省略する。
上述したように、本発明の実施形態に係る時空間事象予測手段は、所定のオブジェクトを時空間的に特定することができる。また、本発明に係るオブジェクトの時空間特定は、所定のイベントに関連する1つの物体の座標の特定のみならず、複数の物体や、1つの物体を構成する複数の要素の特定にも用いられる。例えば、図12に示す画像フレーム1230に示されるように、本発明に係るトラッキングレイヤーM9000は、人間等の物体の手や足等の部位、銃や刃物等の手で持っているものを個別に識別することができる。従って、本発明に係る時空間事象予測手段は、防犯や事故予測等の分野に適用することにより、事故の防止や犯人の識別に用いられる。
図13は、本発明の実施形態に係るオブジェクトのキーポイントを特定する処理1300の例を示す図である。ここでは、オブジェクトのキーポイントとは、所定のオブジェクトの輪郭や形状を規定する特徴点である。例えば、図13に示す画像フレーム1330に示されるように、本発明に係るトラッキングレイヤーM9000は、例えば手、足、頭、胴等の人間の体におけるキーポイントを特定することができる。オブジェクトのキーポイントを用いることで、特定のオブジェクトの動きや他のオブジェクトとの相互作用をより正確にトラッキングすることができる。
なお、以上では、人間の体の部位やキーポイント等を特定する例について説明したが、本発明はそれに限定されず、機械を構成する部品や、道路を走行する自動車等、任意の複数のオブジェクトの時空間的特定に適用することができる。
また、以上説明した時空間事象予測手段は、AoI(Area of Interest)やRoI(Region of Interest)検出、イベント検出及びリアルタイム通知システム、解析対象の映像を重要なフレームまで絞る処理、機械装置における異常検出、ライン生産方式における異常検出、不法侵入検出、事故通知システム、事故防止(予測)システム、防犯等、様々な分野に適用可能である。本発明の実施形態に係る時空間事象予測手段を上述した分野に適用することで、従来に比べて、必要なコンピューティング資源を節約しつつ、イベントやオブジェクトの時空間的特定の精度を向上させることができる。
以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
200 時空間事象予測システム
202 センサ
205 情報処理サーバ
215 センサ管理部
220 データ管理部
225 映像データベース
230 イベント・オブジェクトデータベース
235 映像解析部
240 作成部
245 抽出部
250 特定部
255 判定部

Claims (9)

  1. イベント及びオブジェクトの時空間座標を予測する時空間事象予測装置であって、
    複数の画像フレームから構成される画像シーケンスを受け付ける転送部と、
    前記画像シーケンスにおいて、少なくとも所定のイベントが起こると予測される時空間座標を指定する時空間提案を生成する作成部と、
    前記時空間提案に示される時空間座標に基づいて、前記所定のイベントに対応する画像領域を前記画像シーケンスの特定の画像フレームから抽出する抽出部と、
    前記画像領域において、前記所定のイベントに関連するオブジェクトを1つ以上特定する特定部と、
    前記オブジェクトの各々について、当該オブジェクトの時空間座標と、前記所定のイベントを特徴づけるイベントクラスを判定し、前記オブジェクト及び前記所定のイベントに関する時空間事象予測結果を出力する判定部と、
    を含むことを特徴とする時空間事象予測装置。
  2. 前記作成部は、
    畳み込みニューラルネットワークを用いて前記時空間提案を作成する、
    ことを特徴とする、請求項1に記載の時空間事象予測装置。
  3. 前記畳み込みニューラルネットワークは、
    前記画像シーケンスの前記複数の画像フレームを入力し、特徴を抽出する入力レイヤと、
    前記特徴に対して因果的畳み込み演算を施し、前記画像シーケンスの時系列情報が埋め込まれる因果的畳み込み特徴を生成する畳み込みレイヤと、
    前記因果的畳み込み特徴を集約する集約レイヤと、
    前記集約した因果的畳み込み特徴に基づいて、前記所定のイベントに関する時間的情報を計算する時間領域予測レイヤと、
    前記集約した因果的畳み込み特徴に基づいて、前記所定のイベントに関する空間的情報を計算する空間領域予測レイヤと、
    前記集約した因果的畳み込み特徴に基づいて、前記所定のイベントに関するイベントクラスを計算するアクティビティクラス予測レイヤと、
    を含むことを特徴とする、請求項2に記載の時空間事象予測装置。
  4. 前記畳み込みニューラルネットワークにおいて、
    前記入力レイヤは複数の入力ノードを含み、
    前記畳み込みレイヤは、それぞれの前記複数の入力ノードに対応する複数の畳み込みノードを含み、
    前記複数の入力ノードはそれぞれ、前記複数の画像フレームのうち、異なる画像フレームを入力し、当該画像フレームの特徴を抽出し、前記抽出した特徴を、当該入力ノードに対応する畳み込みノードに加えて、下流の画像フレームを入力した入力ノードに対応する畳み込みノードにも出力する、
    ことを特徴とする、請求項3に記載の時空間事象予測装置。
  5. 前記作成部は、
    前記因果的畳み込み特徴に基づいて計算された前記時間的情報、前記空間的情報、及びイベントクラスを用いて、前記所定のイベントが起こると予測される前記特定の画像フレームのフレーム番号と、前記所定のイベントが起こると予測される前記特定の画像フレームにおける平面座標と、前記所定のイベントの内容を特徴付けるイベントクラスとを含む時空間提案を作成する、
    ことを特徴とする、請求項4に記載の時空間事象予測装置。
  6. 前記畳み込みニューラルネットワークは、
    前記画像シーケンスに対応する期間の長さに基づいて、
    畳み込み演算に用いるストライドパラメータを計算し、
    前記計算したストライドパラメータを用いて、前記画像シーケンスに対する畳み込み演算を実行する、
    ことを特徴とする、請求項5に記載の時空間事象予測装置。
  7. 前記時空間提案は、前記画像シーケンスにおける複数の所定イベントの時空間座標を含み、
    前記時空間事象予測結果は、前記所定のイベントの各々について、当該イベントに関連する複数のオブジェクトの時空間座標を含む、
    ことを特徴とする、請求項1に記載の時空間事象予測装置。
  8. イベント及びオブジェクトの時空間座標を予測する時空間事象予測方法であって、
    複数の画像フレームから構成される画像シーケンスを受け付ける工程と、
    前記画像シーケンスにおいて、所定のイベントが起こると予測される時空間座標を指定する時空間提案を生成する工程と、
    前記時空間提案に示される時空間座標に基づいて、前記所定のイベントに対応する画像領域を前記画像シーケンスの特定の画像フレームから抽出する工程と、
    前記画像領域において、前記所定のイベントに関連するオブジェクトを1つ以上特定する工程と、
    前記オブジェクトの各々について、当該オブジェクトの時空間座標と、前記所定のイベントを特徴づけるイベントクラスを判定し、前記オブジェクト及び前記イベントに関する時空間事象予測結果を出力する工程と、
    を含む時空間事象予測方法。
  9. イベント及びオブジェクトの時空間座標を予測する時空間事象予測システムであって、
    時空間事象予測システムにおいて、
    複数の画像フレームから構成される画像シーケンスを取得するセンサと、
    情報処理サーバと、
    クライアント端末とが通信ネットワークを介して接続されており、
    前記情報処理サーバは、
    前記画像シーケンスを前記センサから受け付ける転送部と、
    前記画像シーケンスにおいて、所定のイベントが起こると予測される時空間座標を指定する時空間提案を生成する作成部と、
    前記時空間提案に示される時空間座標に基づいて、前記所定のイベントに対応する画像領域を前記画像シーケンスの特定の画像フレームから抽出する抽出部と、
    前記画像領域において、前記所定のイベントに関連するオブジェクトを1つ以上特定する特定部と、
    前記オブジェクトの各々について、当該オブジェクトの時空間座標と、前記所定のイベントを特徴づけるイベントクラスを判定し、前記オブジェクト及び前記イベントに関する時空間事象予測結果を前記クライアント端末に出力する判定部と、
    を含む時空間事象予測システム。
JP2019186545A 2019-10-10 2019-10-10 時空間事象予測装置、時空間事象予測方法及び時空間事象予測システム Active JP7202995B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019186545A JP7202995B2 (ja) 2019-10-10 2019-10-10 時空間事象予測装置、時空間事象予測方法及び時空間事象予測システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019186545A JP7202995B2 (ja) 2019-10-10 2019-10-10 時空間事象予測装置、時空間事象予測方法及び時空間事象予測システム

Publications (2)

Publication Number Publication Date
JP2021064021A JP2021064021A (ja) 2021-04-22
JP7202995B2 true JP7202995B2 (ja) 2023-01-12

Family

ID=75487998

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019186545A Active JP7202995B2 (ja) 2019-10-10 2019-10-10 時空間事象予測装置、時空間事象予測方法及び時空間事象予測システム

Country Status (1)

Country Link
JP (1) JP7202995B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837471B (zh) * 2021-09-26 2023-08-29 广西大学 一种分区模态分解多时空卷积网络风电场出力预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004110448A (ja) 2002-09-19 2004-04-08 Nippon Hoso Kyokai <Nhk> 映像オブジェクト識別・追跡装置、その方法及びそのプログラム
JP2018077829A (ja) 2016-11-09 2018-05-17 パナソニックIpマネジメント株式会社 情報処理方法、情報処理装置およびプログラム
JP2019036008A (ja) 2017-08-10 2019-03-07 富士通株式会社 制御プログラム、制御方法、及び情報処理装置
JP2021506017A (ja) 2018-02-06 2021-02-18 三菱電機株式会社 物体検出器及び物体検出方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004110448A (ja) 2002-09-19 2004-04-08 Nippon Hoso Kyokai <Nhk> 映像オブジェクト識別・追跡装置、その方法及びそのプログラム
JP2018077829A (ja) 2016-11-09 2018-05-17 パナソニックIpマネジメント株式会社 情報処理方法、情報処理装置およびプログラム
JP2019036008A (ja) 2017-08-10 2019-03-07 富士通株式会社 制御プログラム、制御方法、及び情報処理装置
JP2021506017A (ja) 2018-02-06 2021-02-18 三菱電機株式会社 物体検出器及び物体検出方法

Also Published As

Publication number Publication date
JP2021064021A (ja) 2021-04-22

Similar Documents

Publication Publication Date Title
US11107222B2 (en) Video object tracking
JP2023145558A (ja) 外観検索のシステムおよび方法
Bendali-Braham et al. Recent trends in crowd analysis: A review
US9560323B2 (en) Method and system for metadata extraction from master-slave cameras tracking system
US9852363B1 (en) Generating labeled images
JP6005837B2 (ja) 画像解析装置、画像解析システム、画像解析方法
Chun et al. Human action recognition using histogram of motion intensity and direction from multiple views
JPWO2018025831A1 (ja) 人流推定装置、人流推定方法およびプログラム
Koyun et al. Focus-and-Detect: A small object detection framework for aerial images
Benito-Picazo et al. Deep learning-based video surveillance system managed by low cost hardware and panoramic cameras
US20220012502A1 (en) Activity detection device, activity detection system, and activity detection method
Hinz et al. Online multi-object tracking-by-clustering for intelligent transportation system with neuromorphic vision sensor
Wang et al. Skip-connection convolutional neural network for still image crowd counting
Bhuiyan et al. Video analytics using deep learning for crowd analysis: a review
Liu et al. A cloud infrastructure for target detection and tracking using audio and video fusion
KR20220098030A (ko) 타깃 운동 궤적 구축 방법, 기기 및 컴퓨터 저장 매체
US20190171885A1 (en) Generating signatures within a network that includes a plurality of computing devices of varying processing capabilities
Yu et al. Abnormal event detection using adversarial predictive coding for motion and appearance
KR102440198B1 (ko) 시각 검색 방법, 장치, 컴퓨터 기기 및 저장 매체 (video search method and apparatus, computer device, and storage medium)
Venkatesvara Rao et al. Real-time video object detection and classification using hybrid texture feature extraction
JP7202995B2 (ja) 時空間事象予測装置、時空間事象予測方法及び時空間事象予測システム
JP2013195725A (ja) 画像表示システム
EP4332910A1 (en) Behavior detection method, electronic device, and computer readable storage medium
Gupta et al. Reconnoitering the Essentials of Image and Video Processing: A Comprehensive Overview
WO2023105800A1 (en) Object detection device, object detection method, and object detection system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221226

R150 Certificate of patent or registration of utility model

Ref document number: 7202995

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150