JP2021179728A - 映像処理装置、及び、その方法 - Google Patents

映像処理装置、及び、その方法 Download PDF

Info

Publication number
JP2021179728A
JP2021179728A JP2020083938A JP2020083938A JP2021179728A JP 2021179728 A JP2021179728 A JP 2021179728A JP 2020083938 A JP2020083938 A JP 2020083938A JP 2020083938 A JP2020083938 A JP 2020083938A JP 2021179728 A JP2021179728 A JP 2021179728A
Authority
JP
Japan
Prior art keywords
frame
frames
sampled
video
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020083938A
Other languages
English (en)
Other versions
JP2021179728A5 (ja
Inventor
全 孔
Quan Kong
智明 吉永
Tomoaki Yoshinaga
智一 村上
Tomokazu Murakami
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020083938A priority Critical patent/JP2021179728A/ja
Priority to CN202110446721.5A priority patent/CN113658215A/zh
Priority to US17/318,709 priority patent/US20210357629A1/en
Priority to SG10202104985XA priority patent/SG10202104985XA/en
Priority to EP21173578.2A priority patent/EP3920142A3/en
Publication of JP2021179728A publication Critical patent/JP2021179728A/ja
Publication of JP2021179728A5 publication Critical patent/JP2021179728A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Psychiatry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

【課題】時空間情報からなる映像について、動体の行動の特徴量を高い精度で抽出できる映像処理技術を提供する。【課題解決手段】カメラが撮像した動体の映像を処理する映像処理装置は、カメラから出力されるフレームを所定のレートでサンプリングし、連続する複数のフレームに基いて、動体のモーションの方向を算出し、複数のフレームを纏めて前記算出された方向に基いて畳み込み処理することによって、映像の特徴量を抽出する。【選択図】図2

Description

本発明は、映像処理装置、及び、その方法に係り、詳しくは、映像内の動体の行動様式を解析するのに適した映像処理に関する。
映像内の動体のための行動解析技術は、監視映像解析、ヘルスケア、ライフログ等の分野での応用が期待されている。映像情報は2Dの空間情報と1Dの時間情報の両方とからなる、3Dの時空間情報であるため、情報の複雑度は高い。
そこで、静止画解析分野において有効性を示すものとして、よく知られている、畳み込みニューラルネットワーク(Convolutional Neural Network)が、映像内行動解析にも適用されている。例えば、下記特許文献1は、映像から取り出したフレーム毎の静止画に対して2D畳み込み操作を適用して人の姿勢情報を計算し、それに基いて、人の行動クラスを推定する画像処理装置が開示されている。
さらに、映像の空間情報と、映像内動体の行動の時間方向でのモーション変化を表すOptical Flow情報とから、それぞれの特徴をモデリングし、最後に両者のアンサンブルを行うTwo-stream法が知られている(非特許文献1)。
さらにまた、画像処理システムが時系列で取得した複数のフレームに対して畳み込み処理を実行する3D畳み込みも提案されている(非特許文献2)。
特開2018−206321号公報
Karen Simonyan, et al. Two-stream convolutionalnetworks for action recognition in videos. Proceedings of the 27thInternational Conference on Neural Information Processing Systems,2014 Shuiwang Ji, et al. 3D ConvolutionalNeural Networks for Human Action Recognition. IEEE Transactions on PatternAnalysis and Machine Intelligence,2013
特許文献1に係る従来技術は、静止画のフレームに畳み込み処理を適用しているに過ぎないため、モーションの特徴である時系列性が損なわれてしまい、人の行動クラスを解析するのには適当ではない。
一方、非特許文献2の技術は、畳み込み処理が、時間方向に連続してサンプリングされた複数のフレームに適用されるため、対象の行動の特徴を抽出する上で、非特許文献1の技術よりも優れているものの、複数のフレームに対して、動体の動線とは関係なく畳み込みを行うため、時空間行動情報のモデリング手段としては意味がない。
そこで、本発明は、時空間情報からなる映像について、動体の行動の特徴量を高い精度で抽出できる映像処理技術を提供することを目的とする。
前記目的を達成するために、本発明は、カメラが撮像した動体の映像を処理するコントローラと、プログラムを記録するメモリと、を備える映像処理装置であって、前記コントローラは、前記メモリのプログラムを実行することによって、前記カメラから出力されるフレームを所定のレートでサンプリングし、連続する複数のフレームに基いて、前記動体のモーションの方向を算出し、当該複数のフレームを前記算出された方向に基いて畳み込み処理することによって、前記映像の特徴量を抽出する、ことを特徴とする。さらに、本発明は、画像処理装置が実行する画像処理方法である。
本発明によれば、時空間情報からなる映像について、動体の行動の特徴量を高い精度で抽出できるようになる。
フレームの一例である。 時間的に前後してサンプリングされた複数フレーム(3フレーム)である。 コントローラが実現する行動解析処理のための機能ブロックの一例(実施形態1)である。 図1の機能ブロック図の動作フローチャートである。 チャンネルピラミッド(図2:220)の制御方式を示すブロック図である。 第1の畳み込み処理モジュール(図2:204)の詳細構成を示すブロック図である。 モーション演算モジュール(図5:400)の一例を示すモデル図である。 畳み込み実行モジュール(図5:402)の動作例のブロック図を示す。 リサイズ処理モジュール(図2:208)と側面方向結合処理モジュール(図2:210)の動作例を示すブロック図である。 コントローラが実現する行動解析処理のための機能ブロックの他の例(実施形態2)である。 図9の機能ブロック図の動作フローチャートである。 行動開始/終了尤度判定モジュール(図9:900)の詳細構成を示すブロック図である。 候補動作区間生成モジュール(図9:902)と尤度フィルタとの関係を示すブロック図である。 候補動作区間を生成するための、候補動作区間生成モジュール(図9:902)の動作を説明するタイミングチャートの例である。
以下、添付図面を参照して、本発明の実施形態を説明する。映像処理システムは、動体を撮影するための(監視)カメラと、カメラが撮像した映像を解析する映像処理装置と、を備える。カメラはネットワークに接続しており、映像処理装置は、ネットワークを介してカメラからの画像を所定フレームレートでメモリに取り込む。
映像処理装置は、コントローラ(CPU、GUI等)と、メモリとを備え、コントローラは、メモリのプログラムを実行して、撮像された映像に基いて、動体(対象体)の行動を解析するための処理を実行する。フレームは複数のピクセルからなり、各ピクセルには色情報が記録されている。メモリには、後述の画像処理システムを実現するためのプログラムが記録され、メモリは非可搬型の記録媒体(ハードディスク、フラッシュメモリ、ストレージ)であってよい。
図1Aはフレームの一例であって、人物(動体)10の画像と、非動体である背景12の画像とを含んでいる。図1Bは、時間的に前後してサンプリングされた複数フレーム(3フレーム)を示し、これらフレームに人物10のモーションが記録されている。動体としては、人物に限らず、車両等動作可能なものであれば、特に限定されない。
図2は、コントローラが実現する行動解析処理のための機能ブロックの一例(第1の実施形態)である。図3は、そのフローチャートである。コントローラは、監視カメラから送信される映像データ(フレーム)100を比較的高いレートでサンプリングするDenseサンプリング処理モジュール200と、比較的低いレートでサンプリングするsparseサンプリン処理モジュール202と、Denseサンプリングされたフレームに対して、動体のモーションの特徴を抽出するための第1の畳み込み処理モジュール204と、sparseサンプリングされたフレームに対して、背景等の非動作物の特徴を抽出するための第2の畳み込み処理モジュール206と、第1の畳み込み処理モジュール204のデータをリサイズするリサイズ処理モジュール208と、リサイズされたデータを第2の畳み込み処理モジュール206のデータに結合する側方向結合処理モジュール210と、結合データに基いて映像の特徴量を抽出する映像特徴量抽出モジュール212と、映像特徴量に基いて動体の行動を推定するモジュール214を備える。
モジュールは、コントローラがプログラムを実行することと、及び/又は、ハードウェアとによって、実現される。モジュールを、手段、機能、回路、又は、ユニットと言い換えてもよい。カメラは、映像取得モジュールである。
実施形態1は、カメラからコントローラに入力され、行動の開始と終了とを区切られた映像データに対して、行動を認識して行動クラスを推定するというものである。Denseサンプリング処理モジュール200は、第1の畳み込み処理モジュール204が映像内の動体モーションの特徴を抽出できるようにするため、映像をハイフレームレートでサンプリングする。第1の畳み込み処理モジュール204は、連続してサンプリングされた複数のフレームに対して、モーションの軌跡に沿って、換言すると、時間方向に畳み込み処理を実施する。
sparseサンプリン処理モジュール202は、第2の畳み込み処理モジュール206がフレームの非動作物の特徴の抽出に適するようにするために、Denseサンプリング処理モジュール200のようなハイフレームレートでのサンプリングではなく、ロウフレームレートでのフレームサンプリングを実施する。第1の畳み込み処理モジュール204の時間方向での畳み込み処理(3D畳み込み処理)と、第2の畳み込み処理モジュール206の空間方向での畳み込み処理(2D畳み込み処理)とを合わせて、時空間映像に対する畳み込み処理が実現される。
第2の畳み込み処理モジュール206の空間方向での畳み込みは、カーネルと呼ばれるフィルタ(例えば、3ピクセル×3ピクセル)をフレームマトリックスの左上のピクセルから右下のピクセルまで1ピクセル毎にスライドさせながら、フィルタのピクセルの値(重み)とフレームのピクセルの値とを乗じて畳み込み行列を作成するというものである。時間方向での畳み込み処理については後述する。フィルタの重み(各ピクセルの値)は学習によって決定されればよい。
コントローラは、複数のサンプリングパスと、夫々のパスに対する畳み込み処理とを統合制御するために、映像のフレームサンプリングレートの大小に応じて、畳み込み処理のチャンネル数を階層的に増減させる、便宜上、チャンネルピラミッド220と称する制御方式を実現している。
図4はこの制御方式のブロック図である。ロウサンプリングレートによってサンプリングされたフレーム数を“T”とすると、ハイサンプリングレートによってサンプリングされたフレーム数は“αT(α>1、α=2、n:1以上の整数”になる。
そして、第2の畳み込み処理モジュール206による、ロウレートでサンプリングされたフレームに対する畳み込み処理のチャンネル数を“C”とすると、第1の畳み込み処理モジュール204による、ハイレートでサンプリングされたフレームに対する畳み込み処理のチャンネル数は“βC(β=1/α)”になる。即ち、第1の畳み込み処理モジュール204の畳み込み処理では、フレーム数が多い分、チャンネル数が少ないことを示している。
空間上モーション変化がない情報を十分に学習するためには、より多くのカーネルフィルタが必要であるが、フレーム数が多く、かつ、カーネル数も多いと、3D畳み込み処理速度が顕著に低下する課題がある。そこで、第1の畳み込み処理モジュール204は、フレーム数が増えた分、チャンネル数を比例的に少なくさせている。チャンネル数はフィルタ数でよい。複数のフィルタによって、フレームの空間方向の畳み込み処理による特徴抽出精度が向上される。300,302は夫々畳み込み処理によって得られた行列を示す。
図5は、第1の畳み込み処理モジュール204の詳細を示すブロック図である。第1の畳み込み処理モジュール204は、映像内の動体のモーションの軌跡方向に沿って畳み込み処理を行うために、モーション演算モジュール400と、畳み込み実行モジュール402とを備える。
第1の畳み込み処理モジュール204は、映像内動体の動体を、経時的にサンプリングされた連続フレームから抽出し、さらに、動体領域の軌跡方向(又は、変位方向)、変位の大きさ等の変位度(又は、変位量)を連続フレームから抽出する(モーション演算モジュール400)。第1の畳み込み処理モジュール204は、変位度に基いて畳み込み演算を行う(畳み込み実行モジュール402)。なお、“抽出する”を、設定する、判定する、計算する、推定する、判断する、認識する、又は、判別する、等と言い換えてもよい。
モーション演算モジュール400は、連続する複数のフレームに対して、“オプティカルフロー”(例えば、Fleet,David J.;Weiss,Yair(2006)."Optical Flow Estimation".In Paragios,Nikos;Chen,Yunmei;Faugeras,Olivier D.(eds.).Handbook of Mathematical Models in Computer Vision. Springer. pp.237-257. ISBN 978-0-387-26371-7.)を適用して、少なくとも、動体のモーションの変位方向を計算する。オプティカルフローは、二枚以上の画像を用いてその画像内で共通して写っている部分などをヒントに写っている部分の動作の推定や全体の動きを推定してベクトルにしたものであり、Lucas-Kanade法(LK法)等が知られている。他にも様々な手法が提案されており、深層学習による推定によって行うものでもよい。
図6は、モーション演算モジュール400の一例を示すモデル図である。フレームt、フレームt+φは、夫々、時間的に連続してサンプリングされた、元のサイズのフレームであり、500A,500Bは夫々元のフレームの縦横のサイズを1/2に縮小したフレームであり、502A,502Bは元のフレームの縦横のサイズを1/4に縮小したフレームである。
モーション演算モジュール400は、同じフレームサイズのフレーム同士にオプティカルフローを適用して、フレームのピクセルごとにモーションの変位方向、変位の大きさ等のモーションの変位量(変位度)を計算し、その方向と変位量をベクトルで表現し、モーションベクトルと定義する。
モーション演算モジュール400は、同一スケーリングサイズのフレーム同士にオプティカルフローを適用して、フレームのサイズ毎に動体のモーションの変位を計算する。モーション演算モジュール400は、1/4サイズのフレーム同士間で計算されたモーションベクトルを1/2フレームサイズまでのアップサンプリングによって変換、あるいは、補正し、変換したモーションベクトルを1/2サイズのフレーム同士間で計算されたモーションベクトルに融合する。融合は、複数のモーションベクトルの平均を取る操作であってよい。
次いで、モーション演算モジュール400は、1/2サイズのフレームのモーション方向を元フレームサイズまでのアップサンプリングによって変換し、変換したモーション方向を元サイズのフレーム同士間で計算されたモーション方向に融合して、モーション方向の最終値を得る。
カメラが監視カメラのように特定点で固定されたものでは、カメラから動体の距離に応じて、フレーム内に映る動体のサイズは大小に変化する。フレームのサイズに比較して小さなサイズの動体のモーション方向は、オプティカルフローによって高精度に計算できる反面、フレームのサイズに比較して大きなサイズの動体のモーション方向の計算精度は低下する。このように小さいスケールのフレームサイズに基づくモーション方向と、大きいオリジナルサイズのフレームに基づくモーション方向とを融合することにより、フレームサイズに対する動体サイズの大小に伴う、モーション方向の計算精度の優劣の影響を取り除くことができる。これによって、モーション方向がより正しく計算されるようになって、その適正値がより得られるようになる。
次に、畳み込み実行モジュール402について説明する。従来の時間方向の3D畳み込み処理は、カメラ映像からサンプリングされた、時系列の複数フレーム夫々において、フィルタに基づいた畳み込み演算を実行し、複数フレーム夫々の演算結果を線形結合することによって、行われていた。
しかしながら、複数のフレーム間のモーションを構成する、夫々のフレーム内のピクセル座標は、複数のフレーム間で大きく変化することが多々あるにも拘わらず、従来は、複数のフレーム間で同じ位置のピクセルに基いて畳み込みを行っていたため、モーションの変化を捉えることができないため、従来の3D畳み込み処理は、時空間行動情報を持った動体のためのモデリング手段として適していなかった。
図7に、畳み込み実行モジュール402の動作例のブロック図を示す。図7は時刻tのフレームfで時間方向への畳み込み処理をする場合を例としている。ft−Δt、f、ft+Δtは、夫々、t−Δt、t、t+Δtのタイミングで連続的にサンプリングされた連続フレームを示す。
700は動体のモーションであり、702はoptical flowによって計算されたモーションの変位方向である。Pt,kはカーネルサイズSと同サイズのウィンドウの中心点座標である。kεNであり、Nはカーネルを左上から右下までスライデングさせる時のspatial stride数に応じるウィンドウ数である。Pt-Δt,k、Pt+Δt,kはモーションの変位方向で計算された前後のフレームに於ける、Pt,kに対応するウィンドウの中心座標である。
706は、中心座標が(pt,k)である、フレームfを畳み込み演算するためのカーネルを示し、708は、中心座標が(Pt-Δt,k)である、フレームft−Δtを畳み込み演算するためのカーネルを示し、710は、中心座標が(Pt+Δt,k)である、フレームft+Δtを畳み込み演算するためのカーネルを示す。
これら三つのカーネルの中心座標の関係は次のとおりである。
t-Δt,k=Pt,k+(wt-Δt)*Pt,k
t+Δt,k=Pt,k+(wt+Δt)*Pt,k
w:optical flowから計算されたモーションの変位方向と度合。
このように、動体の方向が変位すると、その変位に合わせて、複数のフレーム夫々のカーネルフィルタの座標が互いに相違するようになる。
モーション700によって連結される、三つのカーネルの夫々のフレームに於ける中心座標は、モーションの変位方向702に沿って互いに変化している。
畳み込み実行モジュール402は、カーネル706をフレームfの左上(Pt,k=0)から右下まで1ピクセル毎にスライドさせる都度、ft−Δt、f、ft+Δtのフレームに基いて3D畳み込みを行う。
即ち、畳み込み実行モジュール402は、モーションの方向702によって、関連付けられた前記三つのカーネルに基いて、フレームft−Δtのピクセルに対する畳み込みをカーネル708(中心座標:Pt-Δt,k)によって行い、フレームfのピクセルに対する畳み込みをカーネル706(中心座標:Pt,k)によって行い、フレームft+Δtのピクセルに対する畳み込みをカーネル710(中心座標:Pt+Δt,k)によって行い、夫々の畳み込み演算の結果を線形結合して、3D畳み込み処理を達成する。
この3D畳み込み処理は、時間的に前後してサンプリングされた複数のフレームを纏めて畳み込み演算をするものであるのに対して、第2の畳み込み処理モジュール206による2D畳み込みは、一つのフレームに対して畳み込み演算をするものである点が相違する。
このように、畳み込み実行モジュール402は、モーションを抽出するための時間方向の畳み込み処理を、複数のフレーム間で、モーションの変位方向に応じて互いに異なる位置のピクセル(フレームのピクセル)に基いて実行するために、動体の動線に応じた、モーションに対する特徴量抽出を高精度に実現できる。その結果、動いている人物等に対する行動認識、行動解析等に対する精度が飛躍的に向上される。
図8は、リサイズ処理モジュール208と側方向結合処理モジュール210の動作例を示すブロック図である。sparseサンプリング処理モジュール202と第2の畳み込み処理モジュール206とからなる、sparseパスの{フレーム数、カーネルサイズ、チャンネル数}を{T,S,C}とした場合、denseサンプリング処理モジュール200と第1の畳み込み処理モジュール204とからなる、denseパスのパラメータは{αT,S,βC}となり、テンソルのサイズの不一致によって、情報のアンサンブルができない。
そのため、denseパスのテンソルのshapeを変換する必要がある。リサイズ処理モジュール208は、Denseパスのテンソルに、時間上のストライドをαにし、出力チャンネル数をαβC(β=1/α)にする3D畳み込処理を適応することにより、テンソルのshapeを{T,S,αβC}に変換する。側方向結合処理モジュール210は、フレーム毎に、変換されたテンソルをsparseパスのテンソルに連結や加算するといったアンサンブル操作を実行する。側方向結合処理モジュール210は、結合されたテンソルにフレーム毎のaverage poolingの処理を行い、フレーム単位の特徴量を取得し、さらにフレーム単位の特徴量にglobal pooling処理を行い、映像単位の特徴量を取得する。上記映像単位の特徴量は映像特徴量抽出モジュール212に出力される。
映像特徴量抽出モジュール212によって結合されたテンソルがベクトルに変換され、映像特徴量が抽出される。
行動推定モジュール214は、抽出された映像特徴量を用いて、全結合層とソフトマックス処理を行い、入力映像に該当する行動クラスを出力する。したがって、カメラから画像処理装置に与えられた行動のクリップ映像データ(行動の開始と終了時刻でトリミングされた映像)に対する行動内容の推定が可能となる。
図9は、実施形態2の詳細を示すブロック図である。図10は、当該実施形態の動作を説明するフローチャートである。実施形態2は入力された映像データから行動の開始と終了を決定して、行動クラスを推定する行動検知に係る。実施形態2は実施形態1のチャンネルピラミッド構造(図4)を用いて、映像からフレーム単位の映像特徴量を基に行動検知を行う。映像特徴量抽出モジュール212から、映像単位の特徴量の出力(実施形態)の代わりに、フレーム単位の特徴量が出力される。
実施形態2の行動検知システムは行動開始/終了尤度判定モジュール900を備える。モジュール900は、図11に示すように、行動開始尤度判定モジュール900Aと行動終了尤度判定モジュール900Bとを備え、前者は、映像特徴量抽出モジュール212から入力された各フレームの特徴量に基いて、行動の開始尤度1200を計算し、後者は、特徴量に基いて行動終了尤度1202を計算する。
行動開始/終了尤度判定モジュール900は、それぞれ独立するK個のクラスタを構成するGaussian Mixture Model(混合ガウスモデル)からなり、行動の開始、行動の終了を、トレーニング用フレームデータに基いて事前に学習し、プレディクティブコーディングの手法に基いて重みを学習し、学習結果に基いて、フレーム毎に“行動の開始”であるか、“行動の終了”であるかの尤度を計算する。
候補動作区間生成モジュール902(図9)は、図12に示すように、開始尤度1200と終了尤度とを尤度閾値でフィルタリングする尤度フィルタ1300を有する。候補動作区間生成モジュール902は、各フレームの開始尤度と終了尤度を用いて、候補動作区間を生成する。候補動作とは行動推定の対象となり得る行動であり、候補動作区間とは、この行動の開始フレームと終了フレームとの間隔である。
図13は、候補動作区間を生成するための、候補動作区間生成モジュール902の動作を説明するタイミングチャートである。尤度フィルタ1300は、クラスタ毎に、各フレームの開始尤度と終了尤度に対して閾値の判定を行う。候補動作区間生成モジュール902は、開始/終了尤度が尤度閾値より大きいフレームを開始フレーム又は終了フレームと判定し、これらのフレームにインデックスを付与して、インデックスをクラスタ毎に用意された、開始フレームリスト又は終了フレームリストに格納する。インデックスは、フレームの時間的前後関係を表すものでよく、古いフレームほどインデックスの値が小さい。
モジュール902は、複数のクラスタ夫々において、開始フレームリストの各フレームのインデックスを、終了フレームリスト中の各フレームのインデックスと比較する。終了フレームのインデックスが開始フレームインデックスより大きい、開始フレームと終了フレームのペアを候補の動作区間の開始と終了として、該当開始フレームのインデックスと終了フレームのインデックスとを出力する。図13は、クラスタ1に候補区間1が設定され、クラスタ2に候補区間2が設定され、クラスタkに候補区間mが設定されることを示している。
行動推定モジュール214は、候補動作区間生成モジュール902が生成した各候補動作区間に対応する映像クリップ904について、当該映像クリップ904に包含されるフレームの映像特徴量に基づく動体の行動推定を多層パーセプトロン(MLP)等により実行する。行動推定モジュール214は、複数ある全ての行動動作区間について行動推定を行う。行動推定モジュール214は、softmaxで計算した行動クラスのスコアから最も高いスコアに対応する行動ラベルを出力する。行動推定モジュール214は、候補動作区間生成モジュール902が生成した複数の候補動作区間全てに行動推定を行う(図10:904−908)。
冗長区間抑制処理モジュール910は、推定された、各映像クリップの行動クラス毎の確率リストPからargmax(P)が対応する行動ラベルとその確率、および対応する映像クリップの開始と終了の時刻(フレームナンバー)を用いて、non maximum suppression (NMS)処理を行い、冗長区間をフィルタリングする。この結果、冗長部分が除かれた映像クリップに対して、最も確からしい行動ラベルが決定される。
以上説明した実施形態は、本発明の例示であって、本発明の技術的範囲を限定するものではない。例えば、既述の実施形態では、サンプリングパスを2系統にしたが、これを3系統以上にすることもできる。さらに、モーションの方向に沿って行われる、既述の3D畳み込み演算は前後3フレームを対象としたが、これを超えるフレーム数でもよい。さらにまた、既述の実施形態は、カメラが撮影した画像をリアルタイムに処理するものであったが、映像処理装置がストレージに記録された映像をバッチ処理するものであってもよい。またさらに、映像処理装置の映像処理を、ユーザが有する監視映像の解析のために、クラウドサービスとしてユーザに提供するものでもよい。
100 映像データ
200、202 サンプリングモジュール
204、206 畳み込み処理モジュール
212 映像特徴量抽出モジュール

Claims (10)

  1. カメラが撮像した動体の映像を処理するコントローラと、
    プログラムを記録するメモリと、
    を備える映像処理装置であって、
    前記コントローラは、前記メモリのプログラムを実行することによって、
    前記カメラから出力されるフレームを所定のレートでサンプリングし、
    連続する複数のフレームに基いて、前記動体のモーションの方向を算出し、
    当該複数のフレームを前記算出された方向に基いて畳み込み処理することによって、前記映像の特徴量を抽出する、
    映像処理装置。
  2. 前記コントローラは、
    前記複数のフレーム夫々にカーネルフィルタを設定し、当該複数のフレーム夫々のカーネルフィルタは、前記方向に基いてフレーム内の座標が互いに相違するものであり、
    前記複数のフレームの夫々を、当該フレームに設定されたカーネルフィルタで畳み込み処理を行い、
    前記複数のフレーム夫々の畳み込み処理の結果を結合する、
    請求項1記載の映像処理装置。
  3. 前記コントローラは、
    前記動体の方向が変位すると、その変位に合わせて、当該複数のフレーム夫々のカーネルフィルタの座標が互いに相違するようにした、
    請求項2記載の映像処理装置。
  4. 前記コントローラは、
    前記カメラからの映像をハイフレームレートでサンプリングし、
    当該サンプリングによって得られた複数のフレームに対して、前記畳み込み処理を行う、
    請求項1記載の映像処理装置。
  5. 前記コントローラは、
    前記カメラからの映像をロウフレームレートでサンプリングし、
    当該サンプリングによって得られた複数のフレーム夫々に畳み込み処理を行う、
    請求項4記載の映像処理装置。
  6. 前記コントローラは、
    前記ハイフレームレートでサンプリングしたフレーム数を、前記ロウフレームレートでサンプリングしたフレーム数より多く設定し、
    前記ハイフレームレートでサンプリングしたフレームに対する畳み込み処理のカーネルフィルタ数を、前記ロウフレームレートでサンプリングしたフレームに対する畳み込み処理のカーネルかフィルタ数より小さくなるように設定する、
    請求項5記載の映像処理装置。
  7. 前記コントローラは、
    前記ハイフレームレートでサンプリングした連続フレームに基いて前記動体の方向を計算し、
    当該連続フレーム夫々のサイズを縮小し、縮小後のサイズの連続フレームに基いて前記動体の方向を計算し、
    前記縮小後のサイズの連続フレームに基づく、前記動体の方向の計算結果を、前記縮小前のサイズの連続フレームに基づく、前記動体の方向の計算結果に融合することにより、
    前記動体の方向の適正値を得るようにした、
    請求項4記載の映像処理装置。
  8. 前記コントローラは、
    前記ハイフレームレートでサンプリングしたフレームに対する、前記畳み込み処理によって得られた特徴量のテンソルのshapeを変換し、
    返還後のテンソルを、前記ロウフレームレートでサンプリングしたフレームに対する、前記畳み込み処理によって得られた特徴量のテンソルに融合する、
    請求項5記載の映像処理装置。
  9. 前記コントローラは、
    前記サンプリングされた複数のフレームの夫々について映像特徴量を抽出し、
    当該複数のフレームの映像特徴量に基いて、夫々のフレームが、前記動体の行動区間の開始フレームか、又は、当該行動区間の終了フレームかを判定し、
    前記開始フレームと前記終了フレームとの間の前記行動区間に含まれる複数のフレームの映像特徴量に基いて前記動体の行動を推定する、
    請求項1記載の映像処理装置。
  10. 映像処理装置がカメラによって撮像された動体の映像を処理する、映像処理方法であって、
    前記映像処理装置は、
    前記カメラから出力されるフレームを所定のレートでサンプリングし、
    連続する複数のフレームに基いて、前記動体のモーションの方向を算出し、
    当該複数のフレームを纏めて前記算出された方向に基いて畳み込み処理することによって、前記映像の特徴量を抽出する、
    映像処理方法。
JP2020083938A 2020-05-12 2020-05-12 映像処理装置、及び、その方法 Pending JP2021179728A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2020083938A JP2021179728A (ja) 2020-05-12 2020-05-12 映像処理装置、及び、その方法
CN202110446721.5A CN113658215A (zh) 2020-05-12 2021-04-25 影像处理装置及其方法
US17/318,709 US20210357629A1 (en) 2020-05-12 2021-05-12 Video processing apparatus and video processing method
SG10202104985XA SG10202104985XA (en) 2020-05-12 2021-05-12 Video processing apparatus and video processing method
EP21173578.2A EP3920142A3 (en) 2020-05-12 2021-05-12 Video processing apparatus and video processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020083938A JP2021179728A (ja) 2020-05-12 2020-05-12 映像処理装置、及び、その方法

Publications (2)

Publication Number Publication Date
JP2021179728A true JP2021179728A (ja) 2021-11-18
JP2021179728A5 JP2021179728A5 (ja) 2023-03-08

Family

ID=75914410

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020083938A Pending JP2021179728A (ja) 2020-05-12 2020-05-12 映像処理装置、及び、その方法

Country Status (5)

Country Link
US (1) US20210357629A1 (ja)
EP (1) EP3920142A3 (ja)
JP (1) JP2021179728A (ja)
CN (1) CN113658215A (ja)
SG (1) SG10202104985XA (ja)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105284108B (zh) * 2013-06-14 2019-04-02 株式会社日立制作所 影像监视系统、监视装置
JP6200306B2 (ja) * 2013-12-09 2017-09-20 株式会社日立製作所 映像検索装置、映像検索方法、および記憶媒体
WO2018210796A1 (en) * 2017-05-15 2018-11-22 Deepmind Technologies Limited Neural network systems for action recognition in videos
JP2018206321A (ja) 2017-06-09 2018-12-27 コニカミノルタ株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
US10896342B2 (en) * 2017-11-14 2021-01-19 Qualcomm Incorporated Spatio-temporal action and actor localization
US11532073B2 (en) * 2018-03-29 2022-12-20 Pixar Temporal techniques of denoising Monte Carlo renderings using neural networks
CN108830812B (zh) * 2018-06-12 2021-08-31 福建帝视信息科技有限公司 一种基于网格结构深度学习的视频高帧率重制方法
CN110532959B (zh) * 2019-08-30 2022-10-14 大连海事大学 基于双通道三维卷积神经网络的实时暴力行为检测系统

Also Published As

Publication number Publication date
SG10202104985XA (en) 2021-12-30
US20210357629A1 (en) 2021-11-18
EP3920142A3 (en) 2022-02-23
EP3920142A2 (en) 2021-12-08
CN113658215A (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
US11195038B2 (en) Device and a method for extracting dynamic information on a scene using a convolutional neural network
CN108830252B (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
Villegas et al. Learning to generate long-term future via hierarchical prediction
CN111476181B (zh) 一种人体骨架动作的识别方法
Chavdarova et al. Deep multi-camera people detection
CN105590091B (zh) 一种面部识别方法及其系统
US8948448B2 (en) Method and apparatus for trajectory estimation, and method for segmentation
US8340357B2 (en) Moving object detection method and moving object detection apparatus
KR20160096460A (ko) 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법
CN110163887B (zh) 基于运动插值估计与前景分割相结合的视频目标跟踪方法
KR102138680B1 (ko) 영상 인식 장치 및 방법
CN114220061B (zh) 一种基于深度学习的多目标跟踪方法
CN113327272B (zh) 一种基于相关滤波的鲁棒性长时跟踪方法
CN113312973B (zh) 一种手势识别关键点特征提取方法及系统
JP2017162409A (ja) 顔の表情と動作の認識装置及び方法
CN112329784A (zh) 一种基于时空感知及多峰响应的相关滤波跟踪方法
Chaudhary et al. Tsnet: deep network for human action recognition in hazy videos
CN107194950B (zh) 一种基于慢特征分析的多人跟踪方法
Wang et al. Object counting in video surveillance using multi-scale density map regression
JP2001034756A (ja) 被写体認識装置および記録媒体
JP2022027464A (ja) 映像の深度推定に関する方法及び装置
Babu et al. Subject independent human action recognition using spatio-depth information and meta-cognitive RBF network
Firouznia et al. Adaptive chaotic sampling particle filter to handle occlusion and fast motion in visual object tracking
CN111062291B (zh) 一种机器人视觉跟踪方法及系统
Nag et al. ARCN: a real-time attention-based network for crowd counting from drone images

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230228

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240105