JP2021179728A

JP2021179728A - 映像処理装置、及び、その方法

Info

Publication number: JP2021179728A
Application number: JP2020083938A
Authority: JP
Inventors: 全孔; Quan Kong; 智明吉永; Tomoaki Yoshinaga; 智一村上; Tomokazu Murakami
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2021-11-18
Also published as: SG10202104985XA; US20210357629A1; EP3920142A3; EP3920142A2; CN113658215A

Abstract

【課題】時空間情報からなる映像について、動体の行動の特徴量を高い精度で抽出できる映像処理技術を提供する。【課題解決手段】カメラが撮像した動体の映像を処理する映像処理装置は、カメラから出力されるフレームを所定のレートでサンプリングし、連続する複数のフレームに基いて、動体のモーションの方向を算出し、複数のフレームを纏めて前記算出された方向に基いて畳み込み処理することによって、映像の特徴量を抽出する。【選択図】図２

Description

本発明は、映像処理装置、及び、その方法に係り、詳しくは、映像内の動体の行動様式を解析するのに適した映像処理に関する。

映像内の動体のための行動解析技術は、監視映像解析、ヘルスケア、ライフログ等の分野での応用が期待されている。映像情報は２Ｄの空間情報と１Ｄの時間情報の両方とからなる、３Ｄの時空間情報であるため、情報の複雑度は高い。

そこで、静止画解析分野において有効性を示すものとして、よく知られている、畳み込みニューラルネットワーク(Convolutional Neural Network）が、映像内行動解析にも適用されている。例えば、下記特許文献１は、映像から取り出したフレーム毎の静止画に対して２Ｄ畳み込み操作を適用して人の姿勢情報を計算し、それに基いて、人の行動クラスを推定する画像処理装置が開示されている。

さらに、映像の空間情報と、映像内動体の行動の時間方向でのモーション変化を表すOptical Flow情報とから、それぞれの特徴をモデリングし、最後に両者のアンサンブルを行うTwo-stream法が知られている（非特許文献1）。

さらにまた、画像処理システムが時系列で取得した複数のフレームに対して畳み込み処理を実行する３Ｄ畳み込みも提案されている（非特許文献２）。

特開２０１８−２０６３２１号公報

Karen Simonyan, et al. Two-stream convolutionalnetworks for action recognition in videos. Proceedings of the 27thInternational Conference on Neural Information Processing Systems,2014 Shuiwang Ji, et al. 3D ConvolutionalNeural Networks for Human Action Recognition. IEEE Transactions on PatternAnalysis and Machine Intelligence,2013

特許文献１に係る従来技術は、静止画のフレームに畳み込み処理を適用しているに過ぎないため、モーションの特徴である時系列性が損なわれてしまい、人の行動クラスを解析するのには適当ではない。

一方、非特許文献２の技術は、畳み込み処理が、時間方向に連続してサンプリングされた複数のフレームに適用されるため、対象の行動の特徴を抽出する上で、非特許文献１の技術よりも優れているものの、複数のフレームに対して、動体の動線とは関係なく畳み込みを行うため、時空間行動情報のモデリング手段としては意味がない。

そこで、本発明は、時空間情報からなる映像について、動体の行動の特徴量を高い精度で抽出できる映像処理技術を提供することを目的とする。

前記目的を達成するために、本発明は、カメラが撮像した動体の映像を処理するコントローラと、プログラムを記録するメモリと、を備える映像処理装置であって、前記コントローラは、前記メモリのプログラムを実行することによって、前記カメラから出力されるフレームを所定のレートでサンプリングし、連続する複数のフレームに基いて、前記動体のモーションの方向を算出し、当該複数のフレームを前記算出された方向に基いて畳み込み処理することによって、前記映像の特徴量を抽出する、ことを特徴とする。さらに、本発明は、画像処理装置が実行する画像処理方法である。

本発明によれば、時空間情報からなる映像について、動体の行動の特徴量を高い精度で抽出できるようになる。

フレームの一例である。時間的に前後してサンプリングされた複数フレーム（３フレーム）である。コントローラが実現する行動解析処理のための機能ブロックの一例（実施形態１）である。図１の機能ブロック図の動作フローチャートである。チャンネルピラミッド（図２：２２０）の制御方式を示すブロック図である。第１の畳み込み処理モジュール（図２：２０４）の詳細構成を示すブロック図である。モーション演算モジュール（図５：４００）の一例を示すモデル図である。畳み込み実行モジュール（図５：４０２）の動作例のブロック図を示す。リサイズ処理モジュール（図２：２０８）と側面方向結合処理モジュール（図２：２１０）の動作例を示すブロック図である。コントローラが実現する行動解析処理のための機能ブロックの他の例（実施形態２）である。図９の機能ブロック図の動作フローチャートである。行動開始/終了尤度判定モジュール（図９：９００）の詳細構成を示すブロック図である。候補動作区間生成モジュール（図９：９０２）と尤度フィルタとの関係を示すブロック図である。候補動作区間を生成するための、候補動作区間生成モジュール（図９：９０２）の動作を説明するタイミングチャートの例である。

以下、添付図面を参照して、本発明の実施形態を説明する。映像処理システムは、動体を撮影するための（監視）カメラと、カメラが撮像した映像を解析する映像処理装置と、を備える。カメラはネットワークに接続しており、映像処理装置は、ネットワークを介してカメラからの画像を所定フレームレートでメモリに取り込む。

映像処理装置は、コントローラ（ＣＰＵ、ＧＵＩ等）と、メモリとを備え、コントローラは、メモリのプログラムを実行して、撮像された映像に基いて、動体（対象体）の行動を解析するための処理を実行する。フレームは複数のピクセルからなり、各ピクセルには色情報が記録されている。メモリには、後述の画像処理システムを実現するためのプログラムが記録され、メモリは非可搬型の記録媒体（ハードディスク、フラッシュメモリ、ストレージ）であってよい。

図１Ａはフレームの一例であって、人物（動体）１０の画像と、非動体である背景１２の画像とを含んでいる。図１Ｂは、時間的に前後してサンプリングされた複数フレーム（３フレーム）を示し、これらフレームに人物１０のモーションが記録されている。動体としては、人物に限らず、車両等動作可能なものであれば、特に限定されない。

図２は、コントローラが実現する行動解析処理のための機能ブロックの一例（第１の実施形態）である。図３は、そのフローチャートである。コントローラは、監視カメラから送信される映像データ（フレーム）１００を比較的高いレートでサンプリングするDenseサンプリング処理モジュール２００と、比較的低いレートでサンプリングするsparseサンプリン処理モジュール２０２と、Denseサンプリングされたフレームに対して、動体のモーションの特徴を抽出するための第１の畳み込み処理モジュール２０４と、sparseサンプリングされたフレームに対して、背景等の非動作物の特徴を抽出するための第２の畳み込み処理モジュール２０６と、第１の畳み込み処理モジュール２０４のデータをリサイズするリサイズ処理モジュール２０８と、リサイズされたデータを第２の畳み込み処理モジュール２０６のデータに結合する側方向結合処理モジュール２１０と、結合データに基いて映像の特徴量を抽出する映像特徴量抽出モジュール２１２と、映像特徴量に基いて動体の行動を推定するモジュール２１４を備える。

モジュールは、コントローラがプログラムを実行することと、及び/又は、ハードウェアとによって、実現される。モジュールを、手段、機能、回路、又は、ユニットと言い換えてもよい。カメラは、映像取得モジュールである。

実施形態１は、カメラからコントローラに入力され、行動の開始と終了とを区切られた映像データに対して、行動を認識して行動クラスを推定するというものである。Denseサンプリング処理モジュール２００は、第１の畳み込み処理モジュール２０４が映像内の動体モーションの特徴を抽出できるようにするため、映像をハイフレームレートでサンプリングする。第１の畳み込み処理モジュール２０４は、連続してサンプリングされた複数のフレームに対して、モーションの軌跡に沿って、換言すると、時間方向に畳み込み処理を実施する。

sparseサンプリン処理モジュール２０２は、第２の畳み込み処理モジュール２０６がフレームの非動作物の特徴の抽出に適するようにするために、Denseサンプリング処理モジュール２００のようなハイフレームレートでのサンプリングではなく、ロウフレームレートでのフレームサンプリングを実施する。第１の畳み込み処理モジュール２０４の時間方向での畳み込み処理（３Ｄ畳み込み処理）と、第２の畳み込み処理モジュール２０６の空間方向での畳み込み処理（２Ｄ畳み込み処理）とを合わせて、時空間映像に対する畳み込み処理が実現される。

第２の畳み込み処理モジュール２０６の空間方向での畳み込みは、カーネルと呼ばれるフィルタ（例えば、３ピクセル×３ピクセル）をフレームマトリックスの左上のピクセルから右下のピクセルまで1ピクセル毎にスライドさせながら、フィルタのピクセルの値（重み）とフレームのピクセルの値とを乗じて畳み込み行列を作成するというものである。時間方向での畳み込み処理については後述する。フィルタの重み（各ピクセルの値）は学習によって決定されればよい。

コントローラは、複数のサンプリングパスと、夫々のパスに対する畳み込み処理とを統合制御するために、映像のフレームサンプリングレートの大小に応じて、畳み込み処理のチャンネル数を階層的に増減させる、便宜上、チャンネルピラミッド２２０と称する制御方式を実現している。

図４はこの制御方式のブロック図である。ロウサンプリングレートによってサンプリングされたフレーム数を“Ｔ”とすると、ハイサンプリングレートによってサンプリングされたフレーム数は“αＴ(α＞１、α＝2^ｎ、ｎ：１以上の整数”になる。

そして、第２の畳み込み処理モジュール２０６による、ロウレートでサンプリングされたフレームに対する畳み込み処理のチャンネル数を“Ｃ”とすると、第１の畳み込み処理モジュール２０４による、ハイレートでサンプリングされたフレームに対する畳み込み処理のチャンネル数は“βＣ（β＝１/α）”になる。即ち、第１の畳み込み処理モジュール２０４の畳み込み処理では、フレーム数が多い分、チャンネル数が少ないことを示している。

空間上モーション変化がない情報を十分に学習するためには、より多くのカーネルフィルタが必要であるが、フレーム数が多く、かつ、カーネル数も多いと、３Ｄ畳み込み処理速度が顕著に低下する課題がある。そこで、第１の畳み込み処理モジュール２０４は、フレーム数が増えた分、チャンネル数を比例的に少なくさせている。チャンネル数はフィルタ数でよい。複数のフィルタによって、フレームの空間方向の畳み込み処理による特徴抽出精度が向上される。３００，３０２は夫々畳み込み処理によって得られた行列を示す。

図５は、第１の畳み込み処理モジュール２０４の詳細を示すブロック図である。第１の畳み込み処理モジュール２０４は、映像内の動体のモーションの軌跡方向に沿って畳み込み処理を行うために、モーション演算モジュール４００と、畳み込み実行モジュール４０２とを備える。

第１の畳み込み処理モジュール２０４は、映像内動体の動体を、経時的にサンプリングされた連続フレームから抽出し、さらに、動体領域の軌跡方向（又は、変位方向）、変位の大きさ等の変位度（又は、変位量）を連続フレームから抽出する（モーション演算モジュール４００）。第１の畳み込み処理モジュール２０４は、変位度に基いて畳み込み演算を行う（畳み込み実行モジュール４０２）。なお、“抽出する”を、設定する、判定する、計算する、推定する、判断する、認識する、又は、判別する、等と言い換えてもよい。

モーション演算モジュール４００は、連続する複数のフレームに対して、“オプティカルフロー”（例えば、Fleet,David J.;Weiss,Yair(2006)."Optical Flow Estimation".In Paragios,Nikos;Chen,Yunmei;Faugeras,Olivier D.(eds.).Handbook of Mathematical Models in Computer Vision. Springer. pp.237-257. ISBN 978-0-387-26371-7.）を適用して、少なくとも、動体のモーションの変位方向を計算する。オプティカルフローは、二枚以上の画像を用いてその画像内で共通して写っている部分などをヒントに写っている部分の動作の推定や全体の動きを推定してベクトルにしたものであり、Lucas-Kanade法(LK法)等が知られている。他にも様々な手法が提案されており、深層学習による推定によって行うものでもよい。

図６は、モーション演算モジュール４００の一例を示すモデル図である。フレームｔ、フレームｔ+φは、夫々、時間的に連続してサンプリングされた、元のサイズのフレームであり、５００Ａ，５００Ｂは夫々元のフレームの縦横のサイズを１/２に縮小したフレームであり、５０２Ａ，５０２Ｂは元のフレームの縦横のサイズを１/４に縮小したフレームである。

モーション演算モジュール４００は、同じフレームサイズのフレーム同士にオプティカルフローを適用して、フレームのピクセルごとにモーションの変位方向、変位の大きさ等のモーションの変位量（変位度）を計算し、その方向と変位量をベクトルで表現し、モーションベクトルと定義する。

モーション演算モジュール４００は、同一スケーリングサイズのフレーム同士にオプティカルフローを適用して、フレームのサイズ毎に動体のモーションの変位を計算する。モーション演算モジュール４００は、１/４サイズのフレーム同士間で計算されたモーションベクトルを１／２フレームサイズまでのアップサンプリングによって変換、あるいは、補正し、変換したモーションベクトルを１/２サイズのフレーム同士間で計算されたモーションベクトルに融合する。融合は、複数のモーションベクトルの平均を取る操作であってよい。

次いで、モーション演算モジュール４００は、１/２サイズのフレームのモーション方向を元フレームサイズまでのアップサンプリングによって変換し、変換したモーション方向を元サイズのフレーム同士間で計算されたモーション方向に融合して、モーション方向の最終値を得る。

カメラが監視カメラのように特定点で固定されたものでは、カメラから動体の距離に応じて、フレーム内に映る動体のサイズは大小に変化する。フレームのサイズに比較して小さなサイズの動体のモーション方向は、オプティカルフローによって高精度に計算できる反面、フレームのサイズに比較して大きなサイズの動体のモーション方向の計算精度は低下する。このように小さいスケールのフレームサイズに基づくモーション方向と、大きいオリジナルサイズのフレームに基づくモーション方向とを融合することにより、フレームサイズに対する動体サイズの大小に伴う、モーション方向の計算精度の優劣の影響を取り除くことができる。これによって、モーション方向がより正しく計算されるようになって、その適正値がより得られるようになる。

次に、畳み込み実行モジュール４０２について説明する。従来の時間方向の３Ｄ畳み込み処理は、カメラ映像からサンプリングされた、時系列の複数フレーム夫々において、フィルタに基づいた畳み込み演算を実行し、複数フレーム夫々の演算結果を線形結合することによって、行われていた。

しかしながら、複数のフレーム間のモーションを構成する、夫々のフレーム内のピクセル座標は、複数のフレーム間で大きく変化することが多々あるにも拘わらず、従来は、複数のフレーム間で同じ位置のピクセルに基いて畳み込みを行っていたため、モーションの変化を捉えることができないため、従来の３Ｄ畳み込み処理は、時空間行動情報を持った動体のためのモデリング手段として適していなかった。

図７に、畳み込み実行モジュール４０２の動作例のブロック図を示す。図７は時刻ｔのフレームｆ_ｔで時間方向への畳み込み処理をする場合を例としている。ｆ_ｔ−Δｔ、ｆ_ｔ、ｆ_ｔ+Δｔは、夫々、ｔ−Δｔ、ｔ、ｔ+Δｔのタイミングで連続的にサンプリングされた連続フレームを示す。

７００は動体のモーションであり、７０２はoptical flowによって計算されたモーションの変位方向である。Ｐ_ｔ,kはカーネルサイズＳ^２と同サイズのウィンドウの中心点座標である。ｋεＮであり、Ｎはカーネルを左上から右下までスライデングさせる時のspatial stride数に応じるウィンドウ数である。Ｐ_{ｔ-Δｔ,ｋ}、Ｐ_{ｔ+Δｔ,ｋ}はモーションの変位方向で計算された前後のフレームに於ける、Ｐ_ｔ,kに対応するウィンドウの中心座標である。

７０６は、中心座標が（ｐ_ｔ,k）である、フレームｆ_ｔを畳み込み演算するためのカーネルを示し、７０８は、中心座標が（Ｐ_{ｔ-Δｔ,ｋ}）である、フレームｆ_ｔ−Δｔを畳み込み演算するためのカーネルを示し、７１０は、中心座標が（Ｐ_{ｔ+Δｔ,ｋ}）である、フレームｆ_ｔ+Δｔを畳み込み演算するためのカーネルを示す。

これら三つのカーネルの中心座標の関係は次のとおりである。
Ｐ_{ｔ-Δｔ,ｋ}＝Ｐ_ｔ,k＋（w_ｔ-Δｔ）*Ｐ_ｔ,k
Ｐ_{ｔ+Δｔ,ｋ}＝Ｐ_ｔ,k＋（w_ｔ+Δｔ）*Ｐ_ｔ,k
ｗ：optical flowから計算されたモーションの変位方向と度合。
このように、動体の方向が変位すると、その変位に合わせて、複数のフレーム夫々のカーネルフィルタの座標が互いに相違するようになる。

モーション７００によって連結される、三つのカーネルの夫々のフレームに於ける中心座標は、モーションの変位方向７０２に沿って互いに変化している。

畳み込み実行モジュール４０２は、カーネル７０６をフレームｆ_ｔの左上（Ｐ_ｔ,k=0）から右下まで１ピクセル毎にスライドさせる都度、ｆ_ｔ−Δｔ、ｆ_ｔ、ｆ_ｔ+Δｔのフレームに基いて３Ｄ畳み込みを行う。

即ち、畳み込み実行モジュール４０２は、モーションの方向７０２によって、関連付けられた前記三つのカーネルに基いて、フレームｆ_ｔ−Δｔのピクセルに対する畳み込みをカーネル７０８（中心座標：Ｐ_{ｔ-Δｔ,ｋ}）によって行い、フレームｆ_ｔのピクセルに対する畳み込みをカーネル７０６（中心座標：Ｐ_ｔ,ｋ）によって行い、フレームｆ_ｔ+Δｔのピクセルに対する畳み込みをカーネル７１０（中心座標：Ｐ_{ｔ+Δｔ,ｋ}）によって行い、夫々の畳み込み演算の結果を線形結合して、３Ｄ畳み込み処理を達成する。

この３Ｄ畳み込み処理は、時間的に前後してサンプリングされた複数のフレームを纏めて畳み込み演算をするものであるのに対して、第２の畳み込み処理モジュール２０６による２Ｄ畳み込みは、一つのフレームに対して畳み込み演算をするものである点が相違する。

このように、畳み込み実行モジュール４０２は、モーションを抽出するための時間方向の畳み込み処理を、複数のフレーム間で、モーションの変位方向に応じて互いに異なる位置のピクセル（フレームのピクセル）に基いて実行するために、動体の動線に応じた、モーションに対する特徴量抽出を高精度に実現できる。その結果、動いている人物等に対する行動認識、行動解析等に対する精度が飛躍的に向上される。

図８は、リサイズ処理モジュール２０８と側方向結合処理モジュール２１０の動作例を示すブロック図である。sparseサンプリング処理モジュール２０２と第２の畳み込み処理モジュール２０６とからなる、sparseパスの{フレーム数、カーネルサイズ、チャンネル数}を{T,S,C}とした場合、denseサンプリング処理モジュール２００と第１の畳み込み処理モジュール２０４とからなる、denseパスのパラメータは{αT,S,βC}となり、テンソルのサイズの不一致によって、情報のアンサンブルができない。

そのため、denseパスのテンソルのshapeを変換する必要がある。リサイズ処理モジュール２０８は、Denseパスのテンソルに、時間上のストライドをαにし、出力チャンネル数をαβC（β＝1/α）にする３Ｄ畳み込処理を適応することにより、テンソルのshapeを{T,S,αβC}に変換する。側方向結合処理モジュール２１０は、フレーム毎に、変換されたテンソルをsparseパスのテンソルに連結や加算するといったアンサンブル操作を実行する。側方向結合処理モジュール２１０は、結合されたテンソルにフレーム毎のaverage poolingの処理を行い、フレーム単位の特徴量を取得し、さらにフレーム単位の特徴量にglobal pooling処理を行い、映像単位の特徴量を取得する。上記映像単位の特徴量は映像特徴量抽出モジュール２１２に出力される。

映像特徴量抽出モジュール２１２によって結合されたテンソルがベクトルに変換され、映像特徴量が抽出される。

行動推定モジュール２１４は、抽出された映像特徴量を用いて、全結合層とソフトマックス処理を行い、入力映像に該当する行動クラスを出力する。したがって、カメラから画像処理装置に与えられた行動のクリップ映像データ（行動の開始と終了時刻でトリミングされた映像）に対する行動内容の推定が可能となる。

図９は、実施形態２の詳細を示すブロック図である。図１０は、当該実施形態の動作を説明するフローチャートである。実施形態２は入力された映像データから行動の開始と終了を決定して、行動クラスを推定する行動検知に係る。実施形態２は実施形態１のチャンネルピラミッド構造（図４）を用いて、映像からフレーム単位の映像特徴量を基に行動検知を行う。映像特徴量抽出モジュール２１２から、映像単位の特徴量の出力（実施形態）の代わりに、フレーム単位の特徴量が出力される。

実施形態２の行動検知システムは行動開始/終了尤度判定モジュール９００を備える。モジュール９００は、図１１に示すように、行動開始尤度判定モジュール９００Ａと行動終了尤度判定モジュール９００Ｂとを備え、前者は、映像特徴量抽出モジュール２１２から入力された各フレームの特徴量に基いて、行動の開始尤度１２００を計算し、後者は、特徴量に基いて行動終了尤度１２０２を計算する。

行動開始/終了尤度判定モジュール９００は、それぞれ独立するＫ個のクラスタを構成するGaussian Mixture Model(混合ガウスモデル)からなり、行動の開始、行動の終了を、トレーニング用フレームデータに基いて事前に学習し、プレディクティブコーディングの手法に基いて重みを学習し、学習結果に基いて、フレーム毎に“行動の開始”であるか、“行動の終了”であるかの尤度を計算する。

候補動作区間生成モジュール９０２（図９）は、図１２に示すように、開始尤度１２００と終了尤度とを尤度閾値でフィルタリングする尤度フィルタ１３００を有する。候補動作区間生成モジュール９０２は、各フレームの開始尤度と終了尤度を用いて、候補動作区間を生成する。候補動作とは行動推定の対象となり得る行動であり、候補動作区間とは、この行動の開始フレームと終了フレームとの間隔である。

図１３は、候補動作区間を生成するための、候補動作区間生成モジュール９０２の動作を説明するタイミングチャートである。尤度フィルタ１３００は、クラスタ毎に、各フレームの開始尤度と終了尤度に対して閾値の判定を行う。候補動作区間生成モジュール９０２は、開始/終了尤度が尤度閾値より大きいフレームを開始フレーム又は終了フレームと判定し、これらのフレームにインデックスを付与して、インデックスをクラスタ毎に用意された、開始フレームリスト又は終了フレームリストに格納する。インデックスは、フレームの時間的前後関係を表すものでよく、古いフレームほどインデックスの値が小さい。

モジュール９０２は、複数のクラスタ夫々において、開始フレームリストの各フレームのインデックスを、終了フレームリスト中の各フレームのインデックスと比較する。終了フレームのインデックスが開始フレームインデックスより大きい、開始フレームと終了フレームのペアを候補の動作区間の開始と終了として、該当開始フレームのインデックスと終了フレームのインデックスとを出力する。図１３は、クラスタ１に候補区間１が設定され、クラスタ２に候補区間２が設定され、クラスタｋに候補区間ｍが設定されることを示している。

行動推定モジュール２１４は、候補動作区間生成モジュール９０２が生成した各候補動作区間に対応する映像クリップ９０４について、当該映像クリップ９０４に包含されるフレームの映像特徴量に基づく動体の行動推定を多層パーセプトロン(MLP)等により実行する。行動推定モジュール２１４は、複数ある全ての行動動作区間について行動推定を行う。行動推定モジュール２１４は、softmaxで計算した行動クラスのスコアから最も高いスコアに対応する行動ラベルを出力する。行動推定モジュール２１４は、候補動作区間生成モジュール９０２が生成した複数の候補動作区間全てに行動推定を行う（図１０:９０４−９０８）。

冗長区間抑制処理モジュール９１０は、推定された、各映像クリップの行動クラス毎の確率リストPからargmax(P)が対応する行動ラベルとその確率、および対応する映像クリップの開始と終了の時刻(フレームナンバー)を用いて、non maximum suppression (NMS)処理を行い、冗長区間をフィルタリングする。この結果、冗長部分が除かれた映像クリップに対して、最も確からしい行動ラベルが決定される。

以上説明した実施形態は、本発明の例示であって、本発明の技術的範囲を限定するものではない。例えば、既述の実施形態では、サンプリングパスを２系統にしたが、これを３系統以上にすることもできる。さらに、モーションの方向に沿って行われる、既述の３Ｄ畳み込み演算は前後３フレームを対象としたが、これを超えるフレーム数でもよい。さらにまた、既述の実施形態は、カメラが撮影した画像をリアルタイムに処理するものであったが、映像処理装置がストレージに記録された映像をバッチ処理するものであってもよい。またさらに、映像処理装置の映像処理を、ユーザが有する監視映像の解析のために、クラウドサービスとしてユーザに提供するものでもよい。

１００映像データ
２００、２０２サンプリングモジュール
２０４、２０６畳み込み処理モジュール
２１２映像特徴量抽出モジュール

Claims

カメラが撮像した動体の映像を処理するコントローラと、
プログラムを記録するメモリと、
を備える映像処理装置であって、
前記コントローラは、前記メモリのプログラムを実行することによって、
前記カメラから出力されるフレームを所定のレートでサンプリングし、
連続する複数のフレームに基いて、前記動体のモーションの方向を算出し、
当該複数のフレームを前記算出された方向に基いて畳み込み処理することによって、前記映像の特徴量を抽出する、
映像処理装置。
前記コントローラは、
前記複数のフレーム夫々にカーネルフィルタを設定し、当該複数のフレーム夫々のカーネルフィルタは、前記方向に基いてフレーム内の座標が互いに相違するものであり、
前記複数のフレームの夫々を、当該フレームに設定されたカーネルフィルタで畳み込み処理を行い、
前記複数のフレーム夫々の畳み込み処理の結果を結合する、
請求項１記載の映像処理装置。
前記コントローラは、
前記動体の方向が変位すると、その変位に合わせて、当該複数のフレーム夫々のカーネルフィルタの座標が互いに相違するようにした、
請求項２記載の映像処理装置。
前記コントローラは、
前記カメラからの映像をハイフレームレートでサンプリングし、
当該サンプリングによって得られた複数のフレームに対して、前記畳み込み処理を行う、
請求項１記載の映像処理装置。
前記コントローラは、
前記カメラからの映像をロウフレームレートでサンプリングし、
当該サンプリングによって得られた複数のフレーム夫々に畳み込み処理を行う、
請求項４記載の映像処理装置。
前記コントローラは、
前記ハイフレームレートでサンプリングしたフレーム数を、前記ロウフレームレートでサンプリングしたフレーム数より多く設定し、
前記ハイフレームレートでサンプリングしたフレームに対する畳み込み処理のカーネルフィルタ数を、前記ロウフレームレートでサンプリングしたフレームに対する畳み込み処理のカーネルかフィルタ数より小さくなるように設定する、
請求項５記載の映像処理装置。
前記コントローラは、
前記ハイフレームレートでサンプリングした連続フレームに基いて前記動体の方向を計算し、
当該連続フレーム夫々のサイズを縮小し、縮小後のサイズの連続フレームに基いて前記動体の方向を計算し、
前記縮小後のサイズの連続フレームに基づく、前記動体の方向の計算結果を、前記縮小前のサイズの連続フレームに基づく、前記動体の方向の計算結果に融合することにより、
前記動体の方向の適正値を得るようにした、
請求項４記載の映像処理装置。
前記コントローラは、
前記ハイフレームレートでサンプリングしたフレームに対する、前記畳み込み処理によって得られた特徴量のテンソルのshapeを変換し、
返還後のテンソルを、前記ロウフレームレートでサンプリングしたフレームに対する、前記畳み込み処理によって得られた特徴量のテンソルに融合する、
請求項５記載の映像処理装置。
前記コントローラは、
前記サンプリングされた複数のフレームの夫々について映像特徴量を抽出し、
当該複数のフレームの映像特徴量に基いて、夫々のフレームが、前記動体の行動区間の開始フレームか、又は、当該行動区間の終了フレームかを判定し、
前記開始フレームと前記終了フレームとの間の前記行動区間に含まれる複数のフレームの映像特徴量に基いて前記動体の行動を推定する、
請求項１記載の映像処理装置。
映像処理装置がカメラによって撮像された動体の映像を処理する、映像処理方法であって、
前記映像処理装置は、
前記カメラから出力されるフレームを所定のレートでサンプリングし、
連続する複数のフレームに基いて、前記動体のモーションの方向を算出し、
当該複数のフレームを纏めて前記算出された方向に基いて畳み込み処理することによって、前記映像の特徴量を抽出する、
映像処理方法。