JP7274048B2 - 動作認識方法、装置、コンピュータプログラム及びコンピュータデバイス - Google Patents
動作認識方法、装置、コンピュータプログラム及びコンピュータデバイス Download PDFInfo
- Publication number
- JP7274048B2 JP7274048B2 JP2022516004A JP2022516004A JP7274048B2 JP 7274048 B2 JP7274048 B2 JP 7274048B2 JP 2022516004 A JP2022516004 A JP 2022516004A JP 2022516004 A JP2022516004 A JP 2022516004A JP 7274048 B2 JP7274048 B2 JP 7274048B2
- Authority
- JP
- Japan
- Prior art keywords
- time
- series
- feature map
- action
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000033001 locomotion Effects 0.000 title claims description 184
- 238000000034 method Methods 0.000 title claims description 74
- 238000004590 computer program Methods 0.000 title claims description 3
- 230000009471 action Effects 0.000 claims description 394
- 230000003542 behavioural effect Effects 0.000 claims description 82
- 230000006399 behavior Effects 0.000 claims description 57
- 230000006870 function Effects 0.000 claims description 26
- 230000009467 reduction Effects 0.000 claims description 24
- 230000004913 activation Effects 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 40
- 238000010586 diagram Methods 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 17
- 238000012544 monitoring process Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 230000002596 correlated effect Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000003068 static effect Effects 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008707 rearrangement Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B21/00—Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
- G08B21/02—Alarms for ensuring the safety of persons
- G08B21/0202—Child monitoring systems using a transmitter-receiver system carried by the parent and the child
- G08B21/0261—System arrangements wherein the object is to detect trespassing over a fixed physical boundary, e.g. the end of a garden
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B21/00—Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
- G08B21/02—Alarms for ensuring the safety of persons
- G08B21/04—Alarms for ensuring the safety of persons responsive to non-activity, e.g. of elderly persons
- G08B21/0407—Alarms for ensuring the safety of persons responsive to non-activity, e.g. of elderly persons based on behaviour analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Business, Economics & Management (AREA)
- Emergency Management (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Child & Adolescent Psychology (AREA)
- Medical Informatics (AREA)
- Gerontology & Geriatric Medicine (AREA)
- Psychology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
Description
本出願は、2019年11月20日に中国特許局へ提出された、出願番号が2019111430082、発明の名称が「動作認識方法、装置、コンピュータ可読記憶媒体並びにコンピュータデバイス」である中国特許出願の優先権の利益を主張し、その内容全体が援用により本明細書に組み込まれる。
本出願は、人工知能の技術分野に関し、さらに画像処理の技術分野に関し、特に動作認識方法、装置、コンピュータプログラム及びコンピュータデバイスに関する。
コンピュータ技術や人工知能技術の発展に伴い、動作認識技術は画像分野から映像分野まで適用されるようになってきた。従来の方法において、映像データに対して動作認識を行う際に、2次元畳み込みニューラルネットワークを活用して映像データの1フレームごとに画像を認識し、最後に当該映像データの全てのフレームに対する動作認識結果を組み合わせて、映像データの動作認識結果を得る手法が一般的に用いられてきた。しかしながら、行動対象の動作変化が注目されているシナリオでは、映像データの各フレームの画像の順序を混乱させたとしても、2次元畳み込みニューラルネットワークによる映像データの動作種類への認識結果に影響を与えることはないから、2次元畳み込みニューラルネットワークを利活用した動作認識は精度が低いという問題があった。
本出願に係る各実施形態は、動作認識方法、装置、コンピュータ可読記憶媒体及びコンピュータデバイスを提供する。
本出願の一局面によれば、コンピュータデバイスによって実行される動作認識方法であって、
映像データから異なる時系列フレームごとの画像データを取得し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得するステップと、
時系列フレームのそれぞれをターゲット時系列フレームとし、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算するステップと、
行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得するステップと、
行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得するステップと、
時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するステップとを含む、動作認識方法を提供する。
映像データから異なる時系列フレームごとの画像データを取得し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得するステップと、
時系列フレームのそれぞれをターゲット時系列フレームとし、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算するステップと、
行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得するステップと、
行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得するステップと、
時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するステップとを含む、動作認識方法を提供する。
本出願の一局面によれば、コンピュータデバイスによって実行される動作認識方法であって、
リアルタイムな監視映像データを取得するステップと、
監視映像データから異なる時系列フレームごとの画像データを抽出し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得するステップと、
時系列フレームのそれぞれをターゲット時系列フレームとして、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算するステップと、
行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得するステップと、
行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得するステップと、
時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するステップと、
動作種類を、現在の監視映像データに含まれる行動対象の動作種類として特定するステップとを含む、動作認識方法を提供する。
リアルタイムな監視映像データを取得するステップと、
監視映像データから異なる時系列フレームごとの画像データを抽出し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得するステップと、
時系列フレームのそれぞれをターゲット時系列フレームとして、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算するステップと、
行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得するステップと、
行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得するステップと、
時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するステップと、
動作種類を、現在の監視映像データに含まれる行動対象の動作種類として特定するステップとを含む、動作認識方法を提供する。
本出願の一局面によれば、コンピュータデバイスによって配置される動作認識装置であって、
映像データから異なる時系列フレームごとの画像データを取得し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得する画像取得モジュールと、
時系列フレームのそれぞれをターゲット時系列フレームとし、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算する重み取得モジュールと、
各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得する特徴特定モジュールと、
各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得する時系列交互モジュールと、
時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する動作認識モジュールとを備える、動作認識装置を提供する。
映像データから異なる時系列フレームごとの画像データを取得し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得する画像取得モジュールと、
時系列フレームのそれぞれをターゲット時系列フレームとし、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算する重み取得モジュールと、
各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得する特徴特定モジュールと、
各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得する時系列交互モジュールと、
時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する動作認識モジュールとを備える、動作認識装置を提供する。
本出願の一局面によれば、コンピュータデバイスによって配置される動作認識装置であって、
リアルタイムな監視映像データを取得するとともに、監視映像データから異なる時系列フレームごとの画像データを抽出し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得する画像取得モジュールと、
時系列フレームのそれぞれをターゲット時系列フレームとして、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算する重み取得モジュールと、
行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得する特徴特定モジュールと、
行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得する時系列交互モジュールと、
時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するとともに、動作種類を、現在の監視映像データに含まれる行動対象の動作種類として特定する動作認識モジュールとを備える、動作認識装置を提供する。
リアルタイムな監視映像データを取得するとともに、監視映像データから異なる時系列フレームごとの画像データを抽出し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得する画像取得モジュールと、
時系列フレームのそれぞれをターゲット時系列フレームとして、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算する重み取得モジュールと、
行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得する特徴特定モジュールと、
行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得する時系列交互モジュールと、
時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するとともに、動作種類を、現在の監視映像データに含まれる行動対象の動作種類として特定する動作認識モジュールとを備える、動作認識装置を提供する。
コンピュータ可読命令が記憶されている1つ以上のコンピュータ可読記憶媒体であって、コンピュータ可読命令が1つ以上のプロセッサによって実行されると、本出願の各実施形態における動作認識方法のステップを1つ以上のプロセッサに実行させる、コンピュータ可読記憶媒体を提供する。
コンピュータ可読命令が記憶されているメモリと、コンピュータ可読命令が実行されると、本出願の各実施形態における動作認識方法のステップを実行させる1つ以上のプロセッサとを備える、コンピュータデバイスを提供する。
本出願の1つまたは複数の実施形態の詳細について、以下の図面及び記述において説明する。本出願の明細書、図面及び特許請求の範囲に基づいて、本出願の他の特徴や目的及び利点がより明白になるであろう。
本出願の実施形態に係る技術案をより明確に説明すべく、以下で、実施形態を説明するために使用される図面について簡単に紹介する。明らかなように、以下に示す図面は、本出願の幾つかの実施形態に過ぎず、当業者は進歩性に値する労働を付することなく、これらの図面に基づいて他の図面を得ることもできる。
一実施形態に係る動作認識方法の適用シナリオを示す図面である。
一実施形態に係る動作認識ネットワークモデルの構成を示す概略図である。
一実施形態に係る動作認識方法のフローチャートである。
一実施形態に係る時系列行動特徴マップ生成ステップの概略図である。
一実施形態に係る行動情報重み演算ステップのフローチャートである 。;
一実施形態に係る差異情報取得ステップのフローチャートである 。;
一実施形態に係る行動情報重みを演算する概略図である。
一実施形態に係る時系列行動特徴マップ生成ステップのフローチャートである。
一実施形態に係る各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するステップのフローチャートである。
一実施形態に係る残差ネットワーク層の構成を示す概略図である。
一実施形態に係るパラメータトレーニングステップのフローチャートである。
一実施形態に係るオリジナルサブ特徴マップ、行動情報特徴マップ及び時系列行動特徴マップの可視化概略図である。
別の実施形態に係る動作認識方法のフローチャートである。
一実施形態に係る動作認識装置の構成ブロック図である。
一実施形態に係る重み取得モジュールの構成ブロック図である。
一実施形態に係るコンピュータデバイスの構成ブロック図である。
本出願の目的、技術案及び利点をより明確にするために、以下で、図面及び実施形態を結合しながら、本出願についてさらに詳細に説明する。ここに記述する具体的な実施形態は、本出願を解釈するために利用されるだけで、本出願を限定するものではないことが理解されるべきであろう。
人工知能(Artificial Intelligence,AI)は、デジタルコンピュータまたはデジタルコンピュータによって制御される機器を利用し、人間の知能をシミュレート、延伸、拡充し、環境を感知し、知識を獲得し、知識を利活用して最良の結果を得るための理論、方法、技術およびアプリケーションシステムである。言い換えれば、人工知能はコンピュータサイエンスの包括的な技術であり、知能の本質を理解し、人間の知能と似た方式で反応できる新しいインテリジェントマシンを生み出すことを目指している。人工知能は、即ち様々なインテリジェントマシンの設計原理や実現方法について研究し、マシンに感知、推論及び意思決定の機能を持たせるような技術である。
人工知能技術は、幅広い分野をカバーする包括的な分野であり、ハードウェアレベルの技術とソフトウェアレベルの技術との両方を含む。人工知能の基本的な技術には、一般的に、センサ、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理技術、オペレーティング/インタラクティブシステム、メカトロニクスなどの技術が含まれている。人工知能のソフトウェア技術には、コンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習/深層学習などの主要方向が含まれている。
コンピュータビジョン(Computer Vision,CV)とは、マシンが「見る」方法を研究する技術であり、より詳しく言えば、カメラ及びコンピュータを利用し、ターゲットに対して識別、追跡及び測定などのマシンビジョンを行い、そして、画像処理を施し、コンピュータに、人目が観察したり機器に送信したりするのにより適合する画像に処理させる技術を指す。科学科目の一つとして、コンピュータビジョンは、関連の理論と技術とを研究し、画像や多次元データから情報を取得できる人工知能システムを構築することを目指している。コンピュータビジョン技術には、通常、画像処理、画像認識、画像意味解析、画像検索、OCR、ビデオ処理、ビデオ意味解析、ビデオコンテンツ/動作認識、3次元オブジェクト再構築、3D技術、仮想現実、拡張現実、同期測位及び地図構築などが含まれ、さらには、一般的な顔認識、指紋認識などの生体認証技術も含まれている
図1は、一実施形態に係る動作認識方法の適用シナリオを示す図面である。図1を参照して、当該動作認識方法は、コンピュータデバイスに適用され、当該コンピュータデバイスは、端末またはサーバであり得る。図1に示すように、当該コンピュータデバイスがサーバであることを例に挙げて、コンピュータデバイスには、動作認識ネットワークモデルが搭載されており、当該動作認識ネットワークは、本出願に提供される動作認識方法に応じて構築されたネットワークモデルである。サーバは、映像データから複数の時系列フレームの画像データを抽出し、図1に示すように、映像データから抽出された複数の時系列フレームの画像データには、いずれも行動対象が含まれている。そして、サーバは、抽出された複数の時系列フレームの画像データを動作認識ネットワークモデルに入力し、動作認識ネットワークモデルは、映像データから得られた各時系列フレームの画像データに対して動作認識を行い、各時系列フレームの画像データに対応する動作種類を取得し、その後、映像データから抽出された全ての時系列フレームの画像データに対応する動作種類を組み合わせて、映像データに対する動作認識結果を得ることができる。
例えば、一の例示的な適用シナリオにおいて、映像データは、リアルタイムな監視映像であってもよい。リアルタイムな監視映像を動作認識モデルに入力して、監視映像中の各時系列フレームの画像データに含まれる監視対象のリアルタイムな動作を認識し、監視カメラ映像中の各フレームの画像データに含まれる監視対象の動作情報を取得する。これにより、監視対象へのリアルタイムな監視を実現でき、人間が映像データを見ることなく監視対象の行動動作を検知することができる。
さらに、例えば、一つの例示的な適用シナリオにおいて、映像データは、手話映像であってもよい。手話映像を動作認識モデルに入力して、手話映像中の各時系列フレームの画像データに含まれる手の動作を認識し、手話映像中の各時系列フレームの画像データに対応する手話動作情報を取得し、手話通訳を図ることができる。
図2は、一実施形態に係る動作認識ネットワークモデルの構成を示す概略図である。図2に示すように、動作認識ネットワークモデルには、マルチチャネル畳み込み層、動作情報強化モジュール、時系列交互モジュール及びバックボーンネットワーク層が含まれる。ここで、映像データから異なる時系列フレームの画像データが得られた後、マルチチャネル畳み込み層は、各時系列フレームの画像データのオリジナル特徴マップを取得するものであり、このオリジナル特徴マップには、異なる畳み込みチャネルにおけるオリジナルサブ特徴マップが含まれている。動作情報強化モジュールは、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップに対して動作情報を強化し、異なる畳み込みチャネルにおける各時系列フレームの画像データの行動情報特徴マップを得るものである。時系列交互モジュールは、前後に隣接する時系列フレームの画像データの行動情報特徴マップに対して、同一の畳み込みチャネルにおいて畳み込み演算を行い、時系列行動特徴マップを取得するものであり、この時系列行動特徴マップには、前後に隣接する時系列フレームの行動情報が融合されている。バックボーンネットワーク層は、時系列行動特徴マップに基づいて、画像データに含まれる行動対象の動作種類を取得するものである。
一実施形態において、バックボーンネットワーク層は、動作認識のための2D畳み込みネットワークであり、順次に接続された複数のネットワーク層から構成される。例えば、図2に示されている動作認識ネットワークモデルにおいて、バックボーンネットワーク層は、順次に接続された3層のサブネットワーク層から構成される。オプションとして、バックボーンネットワーク層は、ResNet-50畳み込みニューラルネットワークであり得る。
図3に示すように、一実施形態において、動作認識方法が提供される。本実施形態は、主に当該方法が前記図1におけるサーバ102に適用されることを例に挙げて説明する。図3を参照して、当該動作認識方法は、具体的に以下のステップを含む。
ステップS302:映像データから異なる時系列フレームごとの画像データを取得し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各前記時系列フレームの画像データのオリジナルサブ特徴マップを取得する。
ここで、映像データは、任意の映像データであり得る。内容からみれば、映像データとは、行動対象が含まれている映像をいい、例えば、ダンス映像、監視映像、手話映像などが挙げられる。また、提供元からみれば、映像データは、防犯カメラによって撮像された監視映像であってもよいし、他の機器から送信されてきた映像データであってもよい。
ここで、異なる時系列フレームの画像データとは、時系列で映像データから抽出された画像データをいい、その中には、映像データにおける全ての時系列フレームの画像データを含んでもよいし、一部の連続的な時系列フレームの画像データを含んでもよい。映像データから異なる時系列の画像データを取得する際に、具体的には、映像データにおける画像データの並べ替え順序ごとに順次に取得してもよいし、一定のサンプリング周波数で映像データから取得してもよい。例えば、映像データの第1フレームの画像データを第1時系列フレームの画像データとし、その後、映像データにおける画像データの並べ替え順序ごとに、一定のサンプリング周波数で、後続の時系列フレームの画像データを抽出するようにする。ここで、画像データのフレーム数は、動作認識の複雑性要求に従って定まるものであるか、映像データにおける画像データのフレーム数に従って定まるものであることが理解されるべきであろう。
ここで、オリジナルサブ特徴マップとは、画像データを特徴付ける特徴量である。マルチチャネル畳み込み層とは、画像データの特徴量を取得するためのネットワークモデルを意味し、ここでいうマルチチャネル畳み込み層は、画像データの特徴量を直接的に取得することができるトレーニング済みのネットワークモデルである。ここで、マルチチャネル畳み込み層は、複数の畳み込みコアを含み、畳み込みチャネルは、マルチチャネル畳み込み層によって決定され、マルチチャネル畳み込み層のうちの画像データを抽出するための畳み込みコアの数は、即ち、畳み込みチャネル数である。具体的には、画像データをマルチチャネル畳み込み層の入力データとしてマルチチャネル畳み込み層に入力し、マルチチャネル畳み込み層の中の各々の畳み込みコアを利用して画像データに対して畳み込み演算を行い、各々の畳み込みコアに対応する畳み込みチャネルのオリジナルサブ特徴マップを取得する。
例えば、グレースケール画像を例に挙げて説明すると、映像データから取得された異なる時系列フレームの画像データをグレースケール画像とし、このグレースケール画像をマルチチャネル畳み込み層に入力し、マルチチャネル畳み込み層から出力されたオリジナル特徴マップを取得する。ここで、オリジナル特徴マップのデータ次元は、C,H,Wであり、H,Wは、オリジナル特徴マップの横軸と縦軸を表し、Cは、オリジナル特徴マップのチャネル次元を表す。つまり、オリジナル特徴マップには、C枚のオリジナルサブ特徴マップが含まれている。
ステップS304:時系列フレームのそれぞれをターゲット時系列フレームとして、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算する。
ここで、次の時系列フレームとは、ターゲット時系列フレームに対して、次の時刻に対応する時系列フレームをいう。例えば、ターゲット時系列フレームは、t番目のフレームとし、即ち、ターゲット時系列フレームの画像データは、映像データから取得されたt番目のフレームの画像データとした場合は、次の時系列フレームは、(t+1)番目のフレームであり、即ち、次の時系列フレームの画像データは、映像データから取得された(t+1)番目のフレームの画像データである。
ここで、行動情報重みとは、異なるチャネルでのターゲット時系列フレームの画像データのオリジナルサブ特徴マップへアテンションを割り当てる確率の分布を指している。行動情報重みの大きさは、異なる畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、行動対象の動作情報との相関性に関わっており、即ち、異なる畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップに含まれる行動情報の多少に関わっているとも言える。ある畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、行動対象の動作情報との相関性が大きく、その中に含まれる行動情報が多いほど、当該畳み込みチャネルにおけるオリジナルサブ特徴マップに割り当てられたアテンションが多く、即ち、行動情報重みが大きくなる。
映像データから取得された各時系列フレームの画像データには、動作を認識するのに重要な情報、例えば、行動対象の見かけ情報、動作を認識するのに無駄、更には逆効果を奏するノイズ情報、例えば、画像データのノイズや背景情報も含まれている。異なる畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、行動対象の動作情報との相関性、即ち、行動情報重みを取得後、行動対象の動作情報との相関性が更に高いオリジナルサブ特徴マップにおける特徴情報を増加し、即ち、当該畳み込みチャネルでのオリジナルサブ特徴マップにアテンションをより多く割り当てながら、行動対象の動作情報を少なく含み、またはノイズ情報をより多く含む、オリジナルサブ特徴マップを抑制し、即ち、当該畳み込みチャネルでのオリジナルサブ特徴マップにアテンションを比較的少なく割り当てることにより、動作の認識に有利な情報が強化され、動作の認識とは無関係で、更には不利な情報が抑制され、結果として動作認識の精度を効果的に向上させることが期待できる。
単一の時系列フレームの画像データにおいて、行動対象及び背景情報は静的なものである一方、行動は1つの動作が変化している過程である。したがって、動作認識の精度を向上させるためには、ターゲット時系列フレームの画像データ及びその次の時系列フレームの画像データを利用して、行動対象の動作変化過程を描く必要がある。具体的には、各畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴を取得後、各時系列フレームの画像データに対して、それ自体をターゲット時系列フレームの画像データとし、これにより、異なる畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップ、及び異なる畳み込みチャネルにおける次の時系列フレームの画像データのオリジナルサブ特徴マップに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップに対応する行動情報重みを求める。
さらに、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップに含まれている行動情報重みを取得する。具体的には、各々の畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、対応する畳み込みチャネルにおける次の時系列フレームの画像データのオリジナルサブ特徴マップとの間の差異度を演算し、その後、各々の畳み込みチャネルにおけるオリジナルサブ特徴マップ間の差異度に従って、各畳み込みチャネルでのターゲット時系列フレームの画像データの対応する行動情報重みを特定することができる。
ステップS306:各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得する。
ここで、各畳み込みチャネルでのターゲット時系列フレームの行動情報重みを得た後、各畳み込みチャネルでのターゲット時系列フレームの行動情報重みを、対応する畳み込みチャネルでのオリジナルサブ特徴マップに掛けて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを得ることができる。
行動情報重みは、異なる畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、行動対象の動作情報との相関性を示すものであるから、各々の畳み込みチャネルでの行動情報重みを対応するチャネルでのオリジナルサブ特徴マップに掛けて、各畳み込みチャネルにおけるターゲット時系列フレームの動作情報特徴マップを取得し、行動対象の動作情報との相関性が比較的に高いオリジナルサブ特徴マップを強化しながら、行動対象の動作情報との相関性が比較的に弱いオリジナルサブ特徴マップを抑制することによって、動作の認識に有利な情報が強化され、動作の認識とは無関係で、更には不利な情報が抑制され、結果として、動作情報特徴マップに、行動対象の動作情報をより多く含ませることになり、後続の行動対象への動作認識に寄与し、動作認識の精度を効果的に向上させることが期待できる。
ステップS308:各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得する。
ここで、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行する。具体的には、ターゲット時系列フレームごとに、畳み込み対象となる時系列フレームを特定し、同一の畳み込みチャネルにおけるターゲット時系列フレームと、畳み込み対象となる時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行することができる。ここで、畳み込み対象となる時系列フレームとは、ターゲット時系列フレームに隣接する時系列フレームのことをいい、ターゲット時系列フレームの前後の2つの時系列フレームを含んでもよく、ターゲット時系列フレームの前に、次の4つの時系列フレームなどを含んでもよい。例えば、ターゲット時系列フレームは、t番目のフレームとした場合には、畳み込み対象となる時系列フレームは、ターゲット時系列フレームの前に、次の2つの時系列フレームを含んでもよく、即ち畳み込み対象となる時系列フレームは、(t-1)番目のフレーム及び(t+1)番目のフレームを含んでもよい。つまり、t番目のフレームに対して、(t-1)番目のフレーム、t番目のフレーム及び(t+1)番目のフレームの同一の畳み込みチャネルでの行動情報特徴マップに畳み込み処理を行い、t番目のフレームの各畳み込みチャネルにおける時系列行動特徴マップを得る。さらに、畳み込み対象となる時系列フレームは、ターゲット時系列フレームの前後の4つの時系列フレームを含んでもよく、即ち、畳み込み対象となる時系列フレームは、(t-2)番目のフレーム、(t-1)番目のフレーム、(t+1)番目のフレーム及び(t+2)番目のフレームを含んでもよい。このとき、t番目のフレームに対して、(t-2)番目のフレーム、(t-1)番目のフレーム、t番目のフレーム及び(t+1)番目のフレーム、(t+2)番目のフレームの同一の畳み込みチャネルでの行動情報特徴マップに畳み込み処理を行い、t番目のフレームの各畳み込みチャネルにおける時系列行動特徴マップを得る。
具体的には、各時系列フレームの各畳み込みチャネルにおける行動情報特徴マップを取得後、ターゲット時系列フレームに隣接する時系列フレームを、畳み込み対象となる時系列フレームとして特定するとともに、ターゲット時系列フレーム及び畳み込み対象となる時系列フレームの同一の畳み込みチャネルでの行動情報特徴マップに畳み込み演算を行い、ターゲット時系列フレームの各畳み込みチャネルでの時系列行動特徴マップを得ることができ、これにより、時系列行動特徴マップには、前後時系列フレームの行動特徴マップ、即ち、行動対象の動作情報が融合されているため、時系列という次元でモデリングすることが可能となる。ここで、畳み込み対象となる時系列フレームの各畳み込みチャネルでの時系列行動特徴マップの取得方法は、ターゲット時系列フレームの各畳み込みチャネルでの時系列行動特徴マップの取得方法と同じである。
図4に示すように、図4は、一実施形態において各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行し、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを生成することを示す概略図である。図中の左側の行列図は、各畳み込みチャネルにおける各時系列フレームの行動情報特徴マップを表し、右側の行列図は、各畳み込みチャネルにおける各時系列フレームの時系列行動特徴マップを表している。図示される行列図の横軸は、畳み込みチャネルの次元を表し、縦軸は、時系列フレームの次元を表す。左側の行列図を例として挙げると、図中の左側の行列図の1行目は、第1の時系列フレームの各畳み込みチャネルでの行動情報特徴図を表し、2行目は、第2の時系列フレームの各畳み込みチャネルでの行動情報特徴図を表し、これによって類推する。第2の時系列フレームをターゲット時系列フレームとし、畳み込み時系列フレームは、第2の時系列フレームの直前の時系列フレームと第2の時系列フレームの次の時系列フレームとを含むことを例に挙げると、第2の時系列フレームの時系列行動特徴マップに対して、3*1の畳み込みコアを利用して、第1の時系列フレームの第1の畳み込みチャネルでの行動情報特徴マップ、第2の時系列フレームの第1の畳み込みチャネルでの行動情報特徴マップ及び第3の時系列フレームの第1の畳み込みチャネルでの行動情報特徴マップに対して畳み込み演算を行い、第2の時系列フレームの第1の畳み込みチャネルにおける時系列行動特徴マップを取得する。同様に、3*1の畳み込みコアを利用して、第1の時系列フレームの第2の畳み込みチャネルでの行動情報特徴マップ(図中のA1)、第2の時系列フレームの第2の畳み込みチャネルでの行動情報特徴マップ(図中のA2)及び第3の時系列フレームの第2の畳み込みチャネルでの行動情報特徴マップ(図中のA3)に対して畳み込み演算を行い、第2の時系列フレームの第2の畳み込みチャネルにおける時系列行動特徴マップ(図中の3)を取得し、これによって類推して、第2の時系列フレームの各々の畳み込みチャネルにおける時系列行動特徴マップ(図中のB)を取得する。いずれか1つの時系列フレームに対しても、その前後に隣接する隣接時系列フレームを利用して、各々の畳み込みチャネルにおいて時間次元で畳み込み演算を行うことにより、演算された時系列行動特徴マップに、前後の時系列フレームの行動特徴マップ、即ち、行動対象の動作情報が融合されるようになる。
図4に示すように、第1の時系列フレーム及び最後の第4の時系列フレームに対して、直前の時系列フレーム又は次の時系列フレームの画像データが存在しないから、第1の時系列フレームの直前の時系列フレームと、最後の第4の時系列フレームの次の時系列フレームとに対して、0を入れるようにすればよいことが理解されるべきであろう。
ステップS310:各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する。
ここで、ターゲット時系列フレームの画像データの時系列行動特徴を取得後、時系列行動特徴マップを画像データの特徴情報として利用し、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識することができる。時系列行動特徴マップには、行動と相関性が高い情報も、時系列情報も含まれているから、時系列行動特徴マップを利用して動作認識を行うことにより、動作認識の精度を効果的に向上させることが期待できる。
具体的には、時系列行動特徴マップを画像データの特徴情報とし、動作認識用の2D畳み込みネットワークに入力して、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する。その中に、2D畳み込みネットワークは、ResNet-50畳み込みニューラルネットワークを含み得る。ターゲット時系列フレームの各チャネルでの時系列行動特徴マップをResNet-50畳み込みニューラルネットワークに入力した後、時系列特徴マップの各動作種類に対応する確率を相応に出力して、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する。
図2に示す動作認識ネットワークモデルを例として挙げると、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するステップは、バックボーンネットワーク層によって実行される。各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップをバックボーンネットワーク層に入力すると、バックボーンネットワーク層は分類器として機能し、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を出力する。ステップS302のうち異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得するステップは、マルチチャネル畳み込み層によって実行され、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得する。ステップS304のうち時系列フレームのそれぞれをターゲット時系列フレームとして、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算するステップは、動作情報強化モジュールによって実行される。またステップS308のうち各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得するステップは、時系列交互モジュールによって実行される。
前記動作認識方法において、映像データから異なる時系列フレームごとの画像データを取得し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得した後、時系列フレームのそれぞれをターゲット時系列フレームとして、各畳み込みチャネルにおけるターゲット時系列フレーム及び次の時系列フレームのオリジナルサブ特徴マップに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを取得するとともに、行動情報重みを対応する畳み込みチャネルでのオリジナルサブ特徴マップに掛けて、単一の時系列フレームのオリジナルサブ特徴マップに含まれる行動情報を強化し、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得し、その後、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップには、隣接する時系列フレームの行動情報特徴マップが融合されるようになり、時系列という次元でのモデリングを実現し、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得し、最後に、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを、ターゲット時系列フレームの画像データの特徴情報として動作認識を行い、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する。この動作認識方法によれば、単一の時系列フレームにおけるオリジナルサブ特徴マップに含まれる行動情報を強化しながら、各時系列フレーム間の時系列情報をモデリングすることができ、各時系列フレーム間の順序を混乱させると、全く異なる動作認識結果が得られるため、動作認識の精度を向上させることが可能となる。
一実施形態では、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するステップの後に、各時系列フレームの画像データに含まれる行動対象の動作種類を取得後、各時系列フレームの動作種類に基づいて映像データの動作種類を特定するステップをさらに含む。
ここで、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を取得した後、時系列フレームの順番に従って、順次に後続の時系列フレームをターゲット時系列フレームとするとともに、その画像データに含まれる行動対象の動作種類を取得し、すべての時系列フレームの画像データに含まれる行動対象の動作種類を取得した後、最後に映像データのすべての時系列フレームの画像データに含まれる行動対象に対応する動作種類を融合することにより、当該映像データに対する動作認識結果を取得する。
一実施形態では、図5に示すように、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算するステップは、以下のステップを含む。
ステップS502:各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと次の時系列フレームのオリジナルサブ特徴マップとの差異情報を取得する。
ここで、差異情報は、2つの時系列フレームの画像データに含まれる行動対象の動作変化の程度、即ち行動対象の動作に関する情報を示す。上述したとおり、映像データから取得された各時系列フレームの画像データには、動作を認識するのに重要な情報も、動作を認識するのに無駄、更には逆効果を奏するノイズ情報も含まれている。ところが、単一の時系列フレームの画像データにおいて、行動対象及び背景情報は静的なものである一方、行動は1つの動作が変化している過程であるから、ただ単一の時系列フレームの画像データに基づいて、なかなか行動対象の動作情報を入手することが難しい。ところが、各畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、対応する畳み込みチャネルにおける次の時系列フレームの画像データのオリジナルサブ特徴マップとの間の差異情報は、前後時系列フレームにおける行動対象の動作変化であり、対応する畳み込みチャネルにおける前後時系列フレームのオリジナルサブ特徴マップの間の差異情報を取得すれば、各々の畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップに含まれる行動情報を得ることができる。
ここで、ある畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、対応する畳み込みチャネルにおける次の時系列フレームの画像データのオリジナルサブ特徴マップとの間の差異情報が大きいほど、当該畳み込みチャネルでのオリジナルサブ特徴マップは、行動対象の動作情報との相関性が更に高く、オリジナルサブ特徴マップに含まれている行動関連特徴情報が更に多くなる。逆に、当該畳み込みチャネルでのオリジナルサブ特徴マップは、行動対象の動作情報との相関性が更に低く、オリジナルサブ特徴マップに含まれている行動に関する特徴情報に更に少なくなる。
具体的には、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、次の時系列フレームのオリジナルサブ特徴マップとの間の差異情報を取得する際に、具体的には、各々の畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、対応する畳み込みチャネルにおける次の時系列フレームの画像データのオリジナルサブ特徴マップとの間の差分値を求めることによって取得することができる。
ステップS504:活性化関数に従って、各畳み込みチャネルにおける差異情報を、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みにマッピングさせる。
ここで、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、次の時系列フレームのオリジナルサブ特徴マップとの間の差異情報を取得後、活性化関数に従って、各畳み込みチャネルにおける差異情報に基づいて、対応する畳み込みチャネルでの行動情報重みを得ることができる。上述したとおり、ある畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、対応する畳み込みチャネルにおける次の時系列フレームの画像データのオリジナルサブ特徴マップとの間の差異情報が大きいほど、当該畳み込みチャネルでのオリジナルサブ特徴マップの行動情報重みが大きくなる。逆に、当該畳み込みチャネルでのオリジナルサブ特徴マップは、行動対象の動作情報との相関性が低いほど、当該畳み込みチャネルでのオリジナルサブ特徴マップの行動情報重みが小さくなる。
具体的には、活性化関数は、Sigmiod関数であり得る。各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、次の時系列フレームのオリジナルサブ特徴マップとの間の差異情報を取得後、活性化関数であるSigmiod関数に従って、各々の畳み込みチャネルでの差異情報を、0~1の重み係数にマッピングさせて、各々のチャネルでのターゲット時系列フレームのオリジナルサブ特徴マップの行動情報重みを得ることができる。
一実施形態では、図6aに示すように、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、次の時系列フレームのオリジナルサブ特徴マップとの間の差異情報を取得するステップは、以下のステップを含む。
ステップS602:単位プーリング層によって、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおける次の時系列フレームのオリジナルサブ特徴マップとを、それぞれ単位サブ特徴マップに変換する。
ここで、単位プーリング層とは、オリジナルサブ特徴マップを次元削減するためのプーリング層のことをいう。オプションとして、単位プーリング層は、平均プーリング層(average pooling)、例えばグローバル平均プーリング層を含み得る。
単位サブ特徴マップとは、横軸、縦軸の両方を1とする特徴マップを指している。具体的には、単位プーリング層によって、空間的サイズがH*Wのオリジナルサブ特徴マップを、空間的サイズが1*1の単位サブ特徴マップに次元削減することができる。このとき、畳み込みチャネルという次元は変わらず、即ち、生成された単位サブ特徴マップの畳み込みチャネル数は、オリジナルサブ特徴マップの畳み込みチャネル数と等しいことが理解されるべきであろう。
ステップS604:各畳み込みチャネルにおけるターゲット時系列フレームの単位サブ特徴マップと、各畳み込みチャネルにおける次の時系列フレームの単位サブ特徴マップとのそれぞれに対して、予め設定されたズーム倍数で次元削減を行い、次元削減された単位サブ特徴マップを得る。
ここで、予め設定されたズーム倍数は、実際の状況に応じて設定され、オリジナルサブ特徴マップの畳み込みチャネルという次元での数と、畳み込みチャネルが次元削減された単位サブ特徴マップの畳み込みチャネルという次元での数との比に応じて定まるようにしてもよい。例えば、オリジナルサブ特徴マップの畳み込みチャネルという次元での数が265、畳み込みチャネルが次元削減された後、単位サブ特徴マップの畳み込みチャネルという次元での数が16である場合には、予め設定されたズーム倍数は、16倍になる。
各畳み込みチャネルにおけるターゲット時系列フレームの単位サブ特徴マップと、各畳み込みチャネルにおける次の時系列フレームの単位サブ特徴マップとを取得後、次元削減畳み込み層によって、ターゲット時系列フレーム及び次の時系列フレームに対応する単位サブ特徴マップの畳み込みチャネルという次元での数を低減することができる。ここで、この次元削減畳み込み層の畳み込みコアのサイズは、1*1であり、畳み込みコアの数は、次元削減によって目指されるべき単位サブ特徴マップの畳み込みチャネルという次元での数と等しい。
例えば、各時系列フレームのオリジナルサブ特徴マップの空間的サイズがH*Wであり、畳み込みチャネルという次元での数がCである場合には、即ち、空間的サイズがH*Wであるオリジナルサブ特徴マップがC個含まれており、各時系列フレームの画像データのオリジナルサブ特徴マップのデータ次元はC*H*Wである。単位プーリング層の処理によって得られた単位サブ特徴マップの畳み込みチャネルという次元での数は変わらず、空間的サイズが1*1に削減され、即ち、単位サブ特徴マップのデータ次元は(C*1*1)となった。そして、次元削減畳み込み層によって畳み込みチャネルという次元を削減し、単位サブ特徴マップの畳み込みチャネルという次元での数を(C/r)に削減すれば、次元削減された単位サブ特徴マップのデータ次元は(C/r*1*1)になった。ここで、rは、ズーム倍数である。
ステップS606:ターゲット時系列フレームの次元削減された単位サブ特徴マップと、次の時系列フレームの次元削減された単位サブ特徴マップとの間の次元削減差異情報を取得する。
ここで、ターゲット時系列フレームの次元削減された単位サブ特徴マップと、次の時系列フレームの次元削減された単位サブ特徴マップとの間の次元削減差異情報を取得する際に、具体的には、ターゲット時系列フレームの次元削減後の単位サブ特徴マップと、次の時系列フレームの次元削減後の単位サブ特徴マップとの、対応する畳み込みチャネルでの単位サブ特徴マップの差分値を求めることによって得られる。
ステップS608:次元削減差異情報に対して、予め設定されたズーム倍数で次元増加を行い、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、次の時系列フレームのオリジナルサブ特徴マップとの差異情報を得る。
次元削減差異情報を取得後、次元増加畳み込み層によって、次元削減差異情報の畳み込みチャネルという次元での数を、オリジナルサブ特徴マップの畳み込みチャネルでのデータと一致させるように復元することができる。ここで、この次元増加畳み込み層の畳み込みコアのサイズは、1*1であり、畳み込みコアの数は、オリジナルサブ特徴マップの畳み込みチャネル数と等しい。
本実施形態では、単位プーリング層によって、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおける次の時系列フレームのオリジナルサブ特徴マップとを、単位サブ特徴マップに変換するとともに、得られた単位サブ特徴マップに対して、畳み込みチャネルという次元で予め設定されたズーム倍数で次元削減を行うことにより、次元削減された単位サブ特徴マップのデータ量は、オリジナルサブ特徴マップのデータ量に比べて大幅に低減される。ターゲット時系列フレームと次の時系列フレームの各畳み込みチャネルでのオリジナルサブ特徴マップの差異情報を計算することから、ターゲット時系列フレームの次元削減された単位サブ特徴マップと、次の時系列フレームの次元削減された単位サブ特徴マップとの間の差異情報を計算することに変換することによって、計算量を効果的に減らし、計算速度を向上することが可能となる。
図2に示される動作認識ネットワークモデルを例として挙げると、上記の図5及び図6に示されるステップは、動作情報強化モジュールによって実行され得る。図6bに示すように、図6bは、一実施形態において各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算する概略図である。図6において、A、Bという2つの入力は、ターゲット時系列フレームのオリジナルサブ特徴マップと、次の時系列フレームのオリジナルサブ特徴マップとをそれぞれに表し、入力A及び入力Bのデータ次元は、いずれもC*H*Wであり、H及びWは、それぞれにオリジナルサブ特徴マップの横軸及び縦軸を示し、Cは、オリジナルサブ特徴マップの畳み込みチャネルという次元での数を示す。つまり、入力A及び入力Bには、C個の畳み込みチャネルを有し、空間的サイズがH*Wであるオリジナルサブ特徴マップが含まれている。このモジュールの計算量を減らすために、まず、単位プーリング層によって、入力Aにおけるオリジナルサブ特徴マップ及び入力Bにおけるオリジナルサブ特徴マップの空間的次元をそれぞれに次元削減し、これでC個の畳み込みチャネルを有し、空間的サイズが1*1である単位サブ特徴マップを得る。次いで、第1の次元削減プーリング層によって、畳み込みチャネルという次元で入力Aに対応する単位サブ特徴マップを次元削減し、次元削減された単位サブ特徴マップのデータ次元はC/r*1*1である。同様に、第2の次元削減プーリング層によって、畳み込みチャネルという次元で入力Bに対応する単位サブ特徴マップを次元削減し、次元削減された単位サブ特徴マップのデータ次元は同じくC/r*1*1である。ここで、第1の次元削減畳み込み層と第2の次元削減畳み込み層のネットワークパラメータが一致していることが理解されるべきであろう。そして、入力A、入力Bという2つの時系列フレームの次元削減された単位サブ特徴マップ(データ次元がC/r*1*1)を減算して、行動情報を特徴付ける次元削減差異情報を得て、この次元削減差異情報のデータ次元がC/r*1*1である。そして、次元増加畳み込み層によって、畳み込みチャネルの次元数を、オリジナルサブ特徴マップの畳み込みチャネル数と一致させるように復元して、データ次元がC*1*1となる差異情報を得る。最後に、sigmoid関数によって、各々の畳み込みチャネルに対応する差異情報を、データ値が0~1の行動情報重みにマッピングさせる。続いて、各畳み込みチャネルの行動情報重みを、対応する畳み込みチャネルのオリジナルサブ特徴マップに掛けることにより、一部の畳み込みチャネルのオリジナルサブ特徴マップの特徴情報が様々な程度に強化され、残りの畳み込みチャネルのオリジナルサブ特徴マップの特徴情報が様々な程度に抑制され、次の時系列フレームの特徴情報で、ターゲット時系列フレームのオリジナルサブ特徴マップの中に行動情報に相関する特徴情報を強化することが実現される。ここで、最後の時系列フレームは、後に続くフレームがないことから、次の時系列フレームのオリジナルサブ特徴マップの中の特徴情報を利用して本時系列フレームを強化することができず、つまり、その行動情報特徴マップがオリジナルサブ特徴マップと一致している。
一実施形態では、図7に示すように、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得するステップは、以下のステップを含む。
ステップS702:各畳み込みチャネルにおけるターゲット時系列フレームに隣接する直前の時系列フレームの行動情報特徴マップと、各畳み込みチャネルにおける次の時系列フレームの行動情報特徴マップとをそれぞれ取得する。
ステップS704:時系列畳み込みコアを利用して、同一の畳み込みチャネルにおけるターゲット時系列フレーム、直前の時系列フレーム及び次の時系列フレームの行動情報特徴マップに対して畳み込み演算を行い、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを得る。
ここで、直前の時系列フレームの各畳み込みチャネルにおける行動情報特徴マップおよび次の時系列フレームの各畳み込みチャネルにおける行動情報特徴マップをそれぞれ取得し、その後、時系列畳み込みコアを利用して、ターゲット時系列フレーム、直前の時系列フレーム及び次の時系列フレームの同一の畳み込みチャネルでの行動情報特徴マップに畳み込み演算を行い、ターゲット時系列フレームの該畳み込みチャネルでの時系列行動特徴マップを取得し、さらに、ターゲット時系列フレームのすべての畳み込みチャネルにおける時系列行動特徴マップを取得し、これで時系列行動特徴マップには、前後時系列フレームの行動特徴マップ、即ち、行動対象の動作情報が融合されるようになり、時系列という次元でモデリングすることが可能となる。
なお、各畳み込みチャネルにおける直前の時系列フレームの行動情報特徴マップ及び各畳み込みチャネルにおける次の時系列フレームの行動情報特徴マップの取得方法は、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップの取得方法と同じであることが理解されるべきであろう。例えば、ターゲット時系列フレームがt番目のフレームとしたとき、ターゲット時系列フレームに隣接する直前の時系列フレームが(t-1)番目のフレームであり、すると、直前の時系列フレーム((t-1)番目のフレーム)の行動情報特徴マップに対して、各畳み込みチャネルにおける(t-1)番目のフレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおける(t)番目のフレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおける(t-1)番目のフレームの行動情報重みを計算し、その後、各畳み込みチャネルにおける(t-1)番目のフレームの行動情報重みと、各畳み込みチャネルにおける(t-1)番目のフレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおける(t-1)番目のフレームの行動情報特徴マップを取得する。同様に、ターゲット時系列フレームに隣接する次の時系列フレームが(t+1)番目のフレームであり、次の時系列フレーム((t+1)番目のフレーム)の行動情報特徴マップに対して、各畳み込みチャネルにおける(t+1)番目のフレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおける(t+2)番目のフレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおける(t+1)番目のフレームの行動情報重みを計算し、その後、各畳み込みチャネルにおける(t+1)番目のフレームの行動情報重みと、各畳み込みチャネルにおける(t+1)番目のフレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおける(t+1)番目のフレームの行動情報特徴マップを取得する。
図2に示している動作認識ネットワークモデルを例として挙げると、上記の時系列畳み込みコアを利用して、同一の畳み込みチャネルにおけるターゲット時系列フレーム、直前の時系列フレーム及び次の時系列フレームの行動情報特徴マップに対して畳み込み演算を行い、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを得るステップは、動作情報強化モジュールによって実行され得る。具体的に図4に示すように、図中の第3の時系列フレームをターゲット時系列フレームとしたとき、第3の時系列フレームの時系列行動特徴マップに対して、3*1の畳み込みコアを利用して、第2の時系列フレーム、第3の時系列フレーム及び第4の時系列フレームの第1の畳み込みチャネルに対して畳み込み演算を行い、第3の時系列フレームの第1の畳み込みチャネルにおける時系列行動特徴マップを得る。同様に、3*1の畳み込みコアを利用して、第2の時系列フレーム、第3の時系列フレーム及び第4の時系列フレームの第2の畳み込みチャネルに対して畳み込み演算を行い、第3の時系列フレームの第2の畳み込みチャネルにおける時系列行動特徴マップを得て、これによって類推して、第3の時系列フレームの各々の畳み込みチャネルにおける時系列行動特徴マップを得る。いずれか1つの時系列フレームに対しても、その前後に隣接する隣接時系列フレームを利用して各々の畳み込みチャネルにおいて時間次元で畳み込み演算を行うことにより、演算された時系列行動特徴マップに、前後の時系列フレームの行動特徴マップ、即ち、行動対象の動作情報が融合されるようになる。
一実施形態では、図8aに示すように、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するステップは、以下のステップを含む。
ステップS802:ターゲット時系列フレームの時系列行動特徴マップを、残差ネットワーク層に入力して、ターゲット時系列フレームの画像データの動作特徴情報を得る。
ここで、残差ネットワーク層は、時系列行動特徴マップを取得するために、さらなる特徴学習を行い、これで行動対象の動作種類をより効果的に表現できる動作特徴情報を取得するものである。
具体的には、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを得た後、ターゲット時系列フレームの各畳み込みチャネルでの時系列行動特徴マップを、ターゲット時系列フレームの画像データの特徴情報として、残差ネットワーク層に入力し、残差ネットワーク層によって、各時系列行動特徴マップに対して特徴学習を行い、画像データの動作特徴情報を得る。ここで、行動特徴情報の畳み込みチャネルという次元での数は、時系列行動特徴マップと一致してもよい。
ステップS804:動作特徴情報を動作分類ネットワーク層に入力して、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する。
ここで、動作分類ネットワーク層は、画像データの動作特徴情報ごとに、動作種類の認識を行うためのネットワーク構造である。ここでいう動作分類ネットワーク層は、トレーニングされた動作分類ネットワーク層であり、直接的に画像データに含まれる行動対象の動作種類を取得するように機能している。具体的には、ターゲット時系列フレームの画像データの動作特徴情報を取得後、動作特徴情報を動作分類ネットワーク層に入力して、動作分類ネットワーク層によって、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を取得する。
図2に示している動作認識ネットワークモデルを例として挙げると、上記の各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する前記ステップは、バックボーンネットワーク層によって実行され得る。その中に、バックボーンネットワーク層の中の残差ネットワーク層は、時系列行動特徴マップを取得するために、さらなる特徴学習を行い、これで行動対象の動作種類をより効果的に表現する動作特徴情報を取得するものである。またバックボーンネットワーク層の中のプーリング層及び全結合層は、動作分類ネットワーク層に相当し、入力された動作特徴情報に基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するものである。さらには、一実施形態では、残差ネットワーク層のネットワーク構造は、図8bに示すとおりであり、3つの畳み込みニューラルネットワークのそれぞれに、両端にある1*1サイズの2つの2次元畳み込みニューラルネットワーク(2Dconv)及び中間にある3*3サイズの2次元畳み込みニューラルネットワークを含んでいる。
一実施形態では、ターゲット時系列フレームの時系列行動特徴マップを残差ネットワーク層に入力して、ターゲット時系列フレームの画像データの動作特徴情報を得るステップの後に、さらに、動作特徴情報を、異なる畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップとして特定するステップと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算するステップを再実行するステップとを含む。
ここで、ターゲット時系列フレームの画像データの動作特徴情報を得た後、動作特徴情報を、異なる畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップとして特定し、その後、新たに特定されたオリジナルサブ特徴マップに対して同じ操作を再開し、即ち各畳み込みチャネルにおけるオリジナルサブ特徴マップの行動情報重みを計算するとともに、行動情報重みを、対応する畳み込みチャネルのオリジナルサブ特徴マップに掛けて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得する。そして、時系列畳み込みコアを利用して、ターゲット時系列フレーム及び隣接する時系列フレームの同一の畳み込みチャネルにおける行動情報特徴マップを畳み込み処理し、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに、隣接する時系列フレームからの行動情報特徴マップを融合させ、これで各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを得る。
動作特徴情報をオリジナルサブ特徴マップとして特定し、アテンション機構による行動特徴情報への情報強化、及び時系列情報へのモデリングを再開することにより、動作特徴情報で動作情報を特徴付ける能力が効果的に高まり、後続で動作特徴情報を動作の認識に用いることにより、動作認識の精度が効果的に向上され得る。
図2に示している動作認識ネットワークモデルを例として挙げると、図中の動作情報強化モジュールは、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップに対して動作情報を強化し、異なる畳み込みチャネルにおける各時系列フレームの画像データの動作情報特徴マップを得るものである。また、時系列交互モジュールは、前後に隣接する時系列フレームの画像データの動作情報特徴マップを同一の畳み込みチャネルにおいて畳み込み演算を行い、時系列行動特徴マップを得るものであり、当該時系列行動特徴マップには、前後に隣接する時系列フレームの行動情報が融合されている。また、バックボーンネットワーク層の残差ネットワーク層は、時系列行動特徴マップを取得するために、さらなる特徴学習を行い、これで行動対象の動作種類をより効果的に表現できる動作特徴情報を取得するものである。動作情報強化モジュール、時系列交互モジュール及び残差ネットワーク層は、1つの特徴抽出手段として機能することができる。複数の特徴抽出手段によって特徴学習の精度を高めることができるため、動作認識の精度を効果的に向上させることが期待できる。
さらに、動作情報強化モジュールおよび時系列交互モジュールに対して、映像データの動作認識という適用シナリオだけではなく、映像データをモデリングする必要がある任意の適用シナリオにも適用可能である。例えば、動作情報強化モジュールは、連続時系列フレームをモデリングするニューラルネットワークに埋め込められ、異なる適用シナリオによって、適用シナリオに有利な特徴情報を的確に強化し、適用シナリオに不利なノイズ情報を抑制することができる。また、時系列交互モジュールは、時系列情報をモデリングするために、任意の2D畳み込みネットワークに埋め込められ、特徴学習に寄与するものである。
一実施形態では、図9に示すように、動作認識方法は、さらに以下のステップを含む。
ステップS902:複数の異なるサンプル時系列フレームの画像サンプルと、各サンプル時系列フレームの画像サンプルに含まれる行動対象の標準動作種類とを含む、映像サンプルを取得する。
ここで、映像サンプルとは、動作認識ネットワークモデルに用いられる映像サンプルである。映像サンプルには、複数の異なるサンプル時系列フレームの画像サンプルと、各画像サンプルに対応する標準動作種類とが含まれている。
ステップS904:マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各画像サンプルのオリジナルサブ特徴マップサンプルを取得する。
ここで、画像サンプルをマルチチャネル畳み込み層の入力データとしてマルチチャネル畳み込み層に入力し、マルチチャネル畳み込み層の中の各々の畳み込みコアを利用して画像サンプルに対して畳み込み演算を行い、各々の畳み込みコアに対応する畳み込みチャネルでのオリジナルサブ特徴マップサンプルを取得する。
ステップS906:サンプル時系列フレームのそれぞれをターゲットサンプル時系列フレームとし、各畳み込みチャネルにおけるターゲットサンプル時系列フレームのオリジナルサブ特徴マップサンプルと、次のサンプル時系列フレームのオリジナルサブ特徴マップサンプルとのサンプル差異情報を取得する。
ここで、サンプル差異情報は、2つのサンプル時系列フレームの画像サンプルに含まれる行動対象の動作変化の程度、即ち、行動対象の動作に関する情報を示す。映像サンプルから取得された各サンプル時系列フレームの画像サンプルには、動作を認識するのに重要な情報も、動作を認識するのに無駄、更には逆効果を奏するノイズ情報も含まれている。ところが、単一のサンプル時系列フレームの画像サンプルにおいて、行動対象及び背景情報は静的なものである一方で、行動は1つの動作が変化している過程であるから、ただ単一のサンプル時系列フレームの画像サンプルに基づいて、なかなか行動対象の動作情報を入手することが難しい。ところが、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの画像サンプルのオリジナルサブ特徴マップサンプルと、対応する畳み込みチャネルにおける次のサンプル時系列フレームの画像サンプルのオリジナルサブ特徴マップサンプルとの間の差異情報は、前後のサンプル時系列フレームの行動対象の動作変化であり、対応する畳み込みチャネルにおける前後のサンプル時系列フレームのオリジナルサブ特徴マップサンプルの間の差異情報を取得すれば、各々の畳み込みチャネルにおけるターゲットサンプル時系列フレームの画像サンプルのオリジナルサブ特徴マップサンプルに含まれる行動情報を得ることができる。
具体的には、各畳み込みチャネルにおけるターゲットサンプル時系列フレームのオリジナルサブ特徴マップサンプルと、次のサンプル時系列フレームのオリジナルサブ特徴マップサンプルとの間のサンプル差異情報を取得する際に、具体的には、各々の畳み込みチャネルにおけるターゲットサンプル時系列フレームの画像サンプルのオリジナルサブ特徴マップサンプルと、対応する畳み込みチャネルにおける次のサンプル時系列フレームの画像サンプルのオリジナルサブ特徴マップサンプルとの間の差分値を求めることによって得られる。
さらに、各畳み込みチャネルにおけるターゲットサンプル時系列フレームのオリジナルサブ特徴マップサンプルに対してデータの次元削減を行い、ターゲットサンプル時系列フレームの次元削減された単位サブ特徴マップサンプルを得て、また、各畳み込みチャネルにおける次のターゲットサンプル時系列フレームのオリジナルサブ特徴マップサンプルに対してデータの次元削減を行い、次のターゲットサンプル時系列フレームの次元削減された単位サブ特徴マップサンプルを得ることができる。次元削減された単位サブ特徴マップのデータ量は、オリジナルサブ特徴マップのデータ量に比べて大幅に低減される。ターゲットサンプル時系列フレーム及び次のサンプル時系列フレームの各畳み込みチャネルでのオリジナルサブ特徴マップサンプルのサンプル差異情報を計算することから、ターゲットサンプル時系列フレームの次元削減された単位サブ特徴マップサンプルと、次のサンプル時系列フレームの次元削減された単位サブ特徴マップサンプルとの間の差異情報を計算することに変換することによって、計算量を効果的に減らし、計算速度を向上することが可能となる。
ステップS908:活性化関数に従って、各畳み込みチャネルにおけるサンプル差異情報を、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報重みサンプルにマッピングさせる。
ここで、各畳み込みチャネルにおけるターゲットサンプル時系列フレームのオリジナルサブ特徴マップサンプルと、次のサンプル時系列フレームのオリジナルサブ特徴マップサンプルとの間のサンプル差異情報を取得後、活性化関数に従って、各畳み込みチャネルにおける差異情報に基づいて、対応する畳み込みチャネルでの行動情報重みを得ることができる。具体的には、活性化関数は、Sigmiod関数であり得る。各畳み込みチャネルにおけるサンプルターゲット時系列フレームのオリジナルサブ特徴マップサンプルと、次のサンプル時系列フレームのオリジナルサブ特徴マップサンプルとの間のサンプル差異情報を取得後、活性化関数であるSigmiod関数に従って、各々の畳み込みチャネルでのサンプル差異情報を、0~1の重み係数にマッピングさせて、各々のチャネルでのターゲットサンプル時系列フレームのオリジナルサブ特徴マップサンプルの行動情報重みを求めることができる。
ステップS910:各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報重みサンプルと、オリジナルサブ特徴マップサンプルとに基づいて、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報特徴マップサンプルを取得する。
ステップS912:各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報特徴マップサンプルに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの時系列行動特徴マップサンプルを取得する。
ここで、各サンプル時系列フレームの各畳み込みチャネルにおける行動情報特徴マップサンプルを取得した後、時系列畳み込みコアを利用して、ターゲットサンプル時系列フレームおよび隣接するサンプル時系列フレームの同一の畳み込みチャネルでの行動情報特徴マップサンプルに畳み込み演算を行い、ターゲットサンプル時系列フレームの各畳み込みチャネルでの時系列行動特徴マップサンプルを取得し、これで時系列行動特徴マップサンプルには、前後のサンプル時系列フレームの行動特徴マップサンプル、即ち、行動対象の動作情報が融合されているため、時系列という次元でモデリングすることが可能となる。
ステップS914:各畳み込みチャネルにおけるターゲットサンプル時系列フレームの時系列行動特徴マップサンプルに基づいて、ターゲットサンプル時系列フレームの画像サンプルに含まれる行動対象の予測動作種類を取得する。
ここで、ターゲットサンプル時系列フレームの画像データの時系列行動特徴マップサンプルを取得後、時系列行動特徴マップサンプルを画像サンプルの特徴情報として利用することによって、ターゲットサンプル時系列フレームの画像サンプルに含まれる行動対象の動作種類を取得することができる。具体的には、時系列行動特徴マップサンプルを動作認識用の2D畳み込みネットワークに入力して、ターゲットサンプル時系列フレームの画像サンプルに含まれる行動対象の予測動作種類を取得することができる。
ステップS916:予測動作種類と標準動作種類との間の差異に基づいて、マルチチャネル畳み込み層、活性化関数及び時系列畳み込みコアのパラメータを調整し、トレーニング終了条件を満足するまでトレーニングを続行させる。
ここで、画像サンプルの予測動作種類を取得後、予測動作種類と標準動作種類との間の差異をロス関数とし、トレーニング終了条件を満足するまで、マルチチャネル畳み込み層、活性化関数及び時系列畳み込みコアのパラメータを調整することができる。ここでいうトレーニング終了条件は、実際の必要に応じて調整したり設置したりすることができる。例えば、ロス関数が収束条件を満たせば、トレーニング終了条件になったと認められ、または、トレーニング回数が予め設定された回数に達すると、トレーニング終了条件になったと認められることができる。
一実施形態では、動作認識方法は、以下のステップを含む。
ステップ1:映像データから異なる時系列フレームごとの画像データを取得し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各前記時系列フレームの画像データのオリジナルサブ特徴マップを取得する。
ステップ2:時系列フレームをターゲット時系列フレームのそれぞれとして、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算する。
ステップ2-1:各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと次の時系列フレームのオリジナルサブ特徴マップとの差異情報を取得する。
ステップ2-1-1:単位プーリング層によって、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおける次の時系列フレームのオリジナルサブ特徴マップとを、それぞれ単位サブ特徴マップに変換する。
ステップ2-1-2:それぞれに、各畳み込みチャネルにおけるターゲット時系列フレームの単位サブ特徴マップと、各畳み込みチャネルにおける次の時系列フレームの単位サブ特徴マップに対して、予め設定されたズーム倍数で次元削減を行い、次元削減された単位サブ特徴マップを得る。
ステップ2-1-3:ターゲット時系列フレームの次元削減された単位サブ特徴マップと、次の時系列フレームの次元削減された単位サブ特徴マップとの間の次元削減差異情報を取得する。
ステップ2-1-4:前記次元削減差異情報に対して、予め設定されたズーム倍数で次元増加を行い、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、次の時系列フレームのオリジナルサブ特徴マップとの差異情報を得る。
ステップ2-2:活性化関数に従って、各畳み込みチャネルにおける差異情報を、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みにマッピングさせる。
ステップ3:各畳み込みチャネルでのターゲット時系列フレームの行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得する。
ステップ4:各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得する。
ステップ4-1:各畳み込みチャネルにおけるターゲット時系列フレームに隣接する直前の時系列フレームの行動情報特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームの行動情報特徴マップとをそれぞれ取得する。
ステップ4-2:時系列畳み込みコアを利用して、同一の畳み込みチャネルにおけるターゲット時系列フレーム、直前の時系列フレーム及び次の時系列フレームの行動情報特徴マップに対して畳み込み演算を行い、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを得る。
ステップ5:各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する。
ステップ5-1:ターゲット時系列フレームの時系列行動特徴マップを、残差ネットワーク層に入力して、ターゲット時系列フレームの画像データの動作特徴情報を得る。
ステップ5-2:前記動作特徴情報を動作分類ネットワーク層に入力して、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する。
ステップ6:各時系列フレームの画像データに含まれる行動対象の動作種類を取得後、各時系列フレームの動作種類に基づいて、前記映像データの動作種類を特定する。
ステップ1:映像データから異なる時系列フレームごとの画像データを取得し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各前記時系列フレームの画像データのオリジナルサブ特徴マップを取得する。
ステップ2:時系列フレームをターゲット時系列フレームのそれぞれとして、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算する。
ステップ2-1:各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと次の時系列フレームのオリジナルサブ特徴マップとの差異情報を取得する。
ステップ2-1-1:単位プーリング層によって、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおける次の時系列フレームのオリジナルサブ特徴マップとを、それぞれ単位サブ特徴マップに変換する。
ステップ2-1-2:それぞれに、各畳み込みチャネルにおけるターゲット時系列フレームの単位サブ特徴マップと、各畳み込みチャネルにおける次の時系列フレームの単位サブ特徴マップに対して、予め設定されたズーム倍数で次元削減を行い、次元削減された単位サブ特徴マップを得る。
ステップ2-1-3:ターゲット時系列フレームの次元削減された単位サブ特徴マップと、次の時系列フレームの次元削減された単位サブ特徴マップとの間の次元削減差異情報を取得する。
ステップ2-1-4:前記次元削減差異情報に対して、予め設定されたズーム倍数で次元増加を行い、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、次の時系列フレームのオリジナルサブ特徴マップとの差異情報を得る。
ステップ2-2:活性化関数に従って、各畳み込みチャネルにおける差異情報を、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みにマッピングさせる。
ステップ3:各畳み込みチャネルでのターゲット時系列フレームの行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得する。
ステップ4:各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得する。
ステップ4-1:各畳み込みチャネルにおけるターゲット時系列フレームに隣接する直前の時系列フレームの行動情報特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームの行動情報特徴マップとをそれぞれ取得する。
ステップ4-2:時系列畳み込みコアを利用して、同一の畳み込みチャネルにおけるターゲット時系列フレーム、直前の時系列フレーム及び次の時系列フレームの行動情報特徴マップに対して畳み込み演算を行い、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを得る。
ステップ5:各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する。
ステップ5-1:ターゲット時系列フレームの時系列行動特徴マップを、残差ネットワーク層に入力して、ターゲット時系列フレームの画像データの動作特徴情報を得る。
ステップ5-2:前記動作特徴情報を動作分類ネットワーク層に入力して、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する。
ステップ6:各時系列フレームの画像データに含まれる行動対象の動作種類を取得後、各時系列フレームの動作種類に基づいて、前記映像データの動作種類を特定する。
さらに、図2に示している動作認識ネットワークモデル及び図10を参照しながら、動作認識方法について更に説明する。図10において、左側部分は、映像から時間的に切り取られた2つの時系列フレームの画像データであり、その中に、左側部分の1列目の画像データは、ターゲット時系列フレームの画像データであり、2列目は、次の時系列フレームの画像データである。右側部分において、1列目の画像は、左側部分におけるターゲット時系列フレームの画像データに対応するオリジナルサブ特徴マップの可視化であり、2列目の画像は、オリジナルサブ特徴マップを動作情報強化モジュールで処理することによって得られた行動情報特徴マップの可視化であり、3列目の画像は、行動情報特徴マップを時系列交互モジュールで処理することによって得られた時系列行動特徴マップの可視化である。図10から見出せるように、オリジナルサブ特徴マップには、動作を認識するのに重要な情報も、動作を認識するのに無駄、更には逆効果を奏するノイズ情報も含まれており、その中にノイズ情報が多いから、行動対象の輪郭がぼやけている。動作情報強化モジュールで処理することによって得られた行動情報特徴マップにおいては、行動対象の輪郭が明確化され、動作情報とは無関係な背景ノイズ情報がある程度に抑制される。また、時系列交互モジュールで処理することによって得られた時系列行動特徴マップにおいては、左側部分の中の1列目のターゲット時系列フレームの画像データの情報のみならず、左側部分の中の2列目の次の時系列フレームの画像データの情報も含まれているため、時系列情報をモデリングする目的が図れるようになる。
さらに、前記ステップ2~ステップ4でのデータへの操作手順は、畳み込みチャネルという次元で行われる。異なる畳み込みチャネルでの特徴マップ(オリジナルサブ特徴マップ又は行動情報特徴マップを含む)は互いに独立したものであり、隣接する畳み込みチャネルでの特徴マップの情報は混乱されたりすることはないから、演算過程での演算量が低演算量でありながら、演算速度が高い。同様に、図2における動作情報強化モジュール及び時系列交互モジュールによる操作は、いずれも畳み込みチャネルにおいて行われる。つまり、各々の畳み込みチャネルでの単一又は複数の時系列フレームの特徴マップ(オリジナルサブ特徴マップ又は行動情報特徴マップを含む)に対して、異なる畳み込みチャネルでの特徴マップは互いに独立したものであり、隣接する畳み込みチャネルでの特徴マップの情報は混乱されたりすることはないから、演算過程での演算量が低演算量でありながら、演算速度が高い。
一実施形態では、図11に示すように、動作認識方法は、以下のステップを含む。
ステップS1102:リアルタイムな監視映像データを取得する。
ここで、本実施形態は、リアルタイムな監視カメラのシナリオに適用される。映像データとして、リアルタイムに取得された監視映像データが選択される。監視映像データは、防犯カメラによって撮像されたリアルタイムな映像であり得る。その中に、監視映像データの画像には、監視される行動対象が含まれている。
ステップS1104:監視映像データから異なる時系列フレームごとの画像データを抽出し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得する。
ここで、異なる時系列フレームの画像データとは、撮像の時間的順序ごとに監視映像データから切り取られた画像データのことをいい、監視映像データにおける全ての時系列フレームの画像データが含まれている。映像データから異なる時系列フレームごとの画像データを取得する際に、具体的には、映像データ中の画像データの並べ替え順序ごとに順番に切り取られてもよい。
ここで、オリジナルサブ特徴マップとは、画像データを特徴付ける特徴量である。マルチチャネル畳み込み層とは、画像データの特徴量を取得するためのネットワークモデルを意味し、ここでいうマルチチャネル畳み込み層は、画像データの特徴量を直接的に取得することができるトレーニング済みのネットワークモデルである。ここで、マルチチャネル畳み込み層は、複数の畳み込みコアを含み、畳み込みチャネルは、マルチチャネル畳み込み層によって決定され、マルチチャネル畳み込み層のうちの画像データを抽出するための畳み込みコアの数は、即ち、畳み込みチャネル数である。具体的には、監視映像中の各時系列フレームの画像データをそれぞれマルチチャネル畳み込み層の入力データとしてマルチチャネル畳み込み層に入力し、マルチチャネル畳み込み層の中の各々の畳み込みコアを利用して、画像データに対して畳み込み演算を行い、各々の畳み込みコアに対応する畳み込みチャネルのオリジナルサブ特徴マップを取得する。
ステップS1106:ターゲット時系列フレームを特定し、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算する。
ここで、ターゲット時系列フレームとは、現時点で取得された画像データに対応する時系列フレームを指しており、次の時系列フレームとは、ターゲット時系列フレームに対して、次の時点に対応する時系列フレームを指している。
監視映像データから取得された各時系列フレームの画像データには、動作を認識するのに重要な情報、例えば、行動対象の見かけ情報も、動作を認識するのに無駄、更には逆効果を奏するノイズ情報、例えば、画像データ中のノイズや背景情報も含まれている。異なる畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、行動対象の動作情報との相関性、即ち、行動情報重みが得られた後、行動対象の動作情報との相関性が更に高いオリジナルサブ特徴マップにおける特徴情報を増加し、即ち、当該畳み込みチャネルでのオリジナルサブ特徴マップにアテンションをより多く割り当てながら、行動対象の動作情報を比較的少なく含むか、またはノイズ情報をより多く含むオリジナルサブ特徴マップを抑制し、即ち、当該畳み込みチャネルでのオリジナルサブ特徴マップにアテンションをより少なく割り当てることにより、動作の認識に有利な情報が強化され、動作の認識とは無関係で、更には不利な情報が抑制され、結果として動作認識の精度を効果的に向上させることが期待できる。
単一の時系列フレームの画像データにおいて、行動対象及び背景情報は静的なものである一方、行動は1つの動作が変化している過程であるから、動作認識の精度を向上させるためには、ターゲット時系列フレームの画像データ及び次の時系列フレームの画像データを利用して、行動対象の動作変化過程を描く必要がある。具体的には、各畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴を取得後、各時系列フレームの画像データに対して、それ自体をターゲット時系列フレームの画像データとし、それで異なる畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、異なる畳み込みチャネルにおける次の時系列フレームの画像データのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップに対応する行動情報重みを求める。
具体的には、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップに含まれている行動情報重みを取得する。具体的には、まず、各々の畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、対応する畳み込みチャネルにおける次の時系列フレームの画像データのオリジナルサブ特徴マップとの間の差異度を演算し、その後、各々の畳み込みチャネルにおけるオリジナルサブ特徴マップ間の差異度に従って、各畳み込みチャネルでのターゲット時系列フレームの画像データの対応する行動情報重みを特定することができる。
ステップS1108:各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得する。
ステップS1110:各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得する。
ここで、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して、時系列畳み込みを実行する。具体的には、ターゲット時系列フレームごとに、畳み込み対象となる時系列フレームを特定し、同一の畳み込みチャネルにおけるターゲット時系列フレームと、畳み込み対象となる時系列フレームとの行動情報特徴マップに対して畳み込みを行い、ターゲット時系列フレームの各畳み込みチャネルでの時系列行動特徴マップを得ることができ、これにより、時系列行動特徴マップには、前後時系列フレームの行動特徴マップ、即ち、行動対象の前後時間での動作情報が融合されるようになり、時系列という次元でモデリングすることが可能となる。ここで、畳み込み対象となる時系列フレームの各畳み込みチャネルでの行動情報特徴マップの取得方法は、ターゲット時系列フレームの各畳み込みチャネルでの行動情報特徴マップの取得方法と同じである。
ステップS1112:各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する。
ここで、具体的には、ターゲット時系列フレームの画像データの時系列行動特徴を取得後、時系列行動特徴マップを、ターゲット時系列フレームの画像データの特徴情報として特定するとともに、該特徴情報に基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識することができる。具体的には、時系列行動特徴マップを動作認識用の2D畳み込みネットワークに入力して、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識することができる。時系列行動特徴マップには、行動との相関性が強い情報も、時系列情報も含まれているため、時系列行動特徴マップを利用して動作認識を行うことにより、動作認識の精度を効果的に向上させることが可能となる。
ステップS1114:動作種類を、現在の監視映像データに含まれる行動対象の動作種類として特定する。
ここで、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を取得後、この動作種類を、監視映像データに含まれる行動対象の動作情報として特定することにより、行動対象の行動情報をリアルタイムで更新し、監視映像を見ることなく行動対象の行動情報を把握することができ、行動対象へのリアルタイム監視を確保することができる。
さらに、この行動情報を表示装置に表示させることによって、監視作業者は監視映像に写っている行動対象の行動状態を把握することができる。
監視対象が人間であることを例に挙げて説明する。仮に監視対象が跨ぎという動作をしていることを想定した場合、リアルタイムな監視映像データから現時点で撮像されたターゲット時系列フレーム及びターゲット時系列フレームに隣接する次の時系列フレームを取得し、ターゲット時系列フレーム及び次の時系列フレームの各畳み込みチャネルでのオリジナルサブ特徴マップに基づいて、ターゲット時系列フレームの各畳み込みチャネルでの行動情報重みを取得するとともに、この行動情報重みを、ターゲット時系列フレームに対応する畳み込みチャネルでのオリジナルサブ特徴マップに掛けて、ターゲット時系列フレームの各畳み込みチャネルでの行動情報特徴マップを取得し、その後、ターゲット時系列フレームに基づいて、畳み込み対象となる時系列フレームを特定することによって、畳み込み対象となる時系列フレームの同一の畳み込みチャネルでの行動情報特徴マップを畳み込み処理し、ターゲット時系列フレームの各畳み込みチャネルでの時系列行動特徴マップを取得し、最後に、ターゲット時系列フレームの各畳み込みチャネルでの時系列行動特徴マップを、ターゲット時系列フレームの画像データの特徴情報として動作認識を行い、ターゲット時系列フレームの画像データに含まれる監視対象の動作種類を取得し、このとき、監視対象の動作種類が跨ぎ動作種類に対応し、この動作種類を監視対象の動作情報として特定する。
ここで、前記フローチャートの各ステップは矢印に従って順番に表示されているが、これらのステップは必ずしも矢印で示された順序で実行されるとは限らないことは理解されるべきであろう。本明細書に明示的に記載されていない限り、これらのステップの実行は、厳密には順序に制限されず、これらのステップは他の順序で実行され得る。さらに、前記フローチャートの少なくとも一部のステップには、複数のサブステップまたは複数の段階が含まれる場合があり、これらのサブステップまたは段階は、必ずしも同時に実行されるとは限らず、異なる時点で実行される場合がある。また、これらのサブステップまたは段階の実行も必ずしも連続的であるとは限らず、他のステップまたは他のステップのサブステップまたは段階の少なくとも一部と順番にまたは交替に実行され得る。
一実施形態では、図12に示すように、コンピュータデバイスによって配置され、画像取得モジュール1202、重み取得モジュール1204、特徴特定モジュール1206、時系列交互モジュール1208及び動作認識モジュール1210を備える動作認識装置1200が提供される。ここで、
画像取得モジュール1202は、映像データから異なる時系列フレームごとの画像データを取得し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得する。
重み取得モジュール1204は、時系列フレームのそれぞれをターゲット時系列フレームとして、各畳み込みチャネルにおける前記ターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算する。
特徴特定モジュール1206は、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得する。
時系列交互モジュール1208は、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得する。
動作認識モジュール1210は、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する。
画像取得モジュール1202は、映像データから異なる時系列フレームごとの画像データを取得し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得する。
重み取得モジュール1204は、時系列フレームのそれぞれをターゲット時系列フレームとして、各畳み込みチャネルにおける前記ターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算する。
特徴特定モジュール1206は、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得する。
時系列交互モジュール1208は、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得する。
動作認識モジュール1210は、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する。
一実施形態では、図13に示すように、重み取得モジュール1204は、
各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと次の時系列フレームのオリジナルサブ特徴マップとの差異情報を取得する差異情報取得モジュール1204aと、
活性化関数に従って、各畳み込みチャネルにおける差異情報を、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みにマッピングさせる重みマッピングモジュール1204bとを備える。
各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと次の時系列フレームのオリジナルサブ特徴マップとの差異情報を取得する差異情報取得モジュール1204aと、
活性化関数に従って、各畳み込みチャネルにおける差異情報を、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みにマッピングさせる重みマッピングモジュール1204bとを備える。
一実施形態では、差異情報取得モジュールは、単位プーリング層によって、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおける次の時系列フレームのオリジナルサブ特徴マップとを、それぞれ単位サブ特徴マップに変換し、ターゲット時系列フレームの単位サブ特徴マップ及び次の時系列フレームの単位サブ特徴マップそれぞれに対して、予め設定されたズーム倍数で次元削減を行い、次元削減された単位サブ特徴マップを取得し、ターゲット時系列フレームの次元削減された単位サブ特徴マップと、次の時系列フレームの次元削減された単位サブ特徴マップとの間の次元削減差異情報を取得し、次元削減差異情報に対して、予め設定されたズーム倍数で次元増加を行い、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと次の時系列フレームのオリジナルサブ特徴マップとの差異情報を得る。
一実施形態では、時系列交互モジュールは、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する直前の時系列フレームの行動情報特徴マップと、各畳み込みチャネルにおける次の時系列フレームの行動情報特徴マップとをそれぞれに取得し、時系列畳み込みコアを利用して、同一の畳み込みチャネルにおけるターゲット時系列フレーム、直前の時系列フレーム及び次の時系列フレームの行動情報特徴マップに対して畳み込み演算を行い、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを得る。
一実施形態では、動作認識モジュールは、ターゲット時系列フレームの時系列行動特徴マップを、残差ネットワーク層に入力して、ターゲット時系列フレームの画像データの動作特徴情報を取得し、動作特徴情報を動作分類ネットワーク層に入力して、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するものである。
一実施形態では、時系列交互モジュールは、さらに、動作特徴情報を、異なる畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップとして特定するとともに、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算するステップを重み取得モジュール1104に再実行させるものである。
一実施形態では、動作認識モジュールは、さらに、各時系列フレームの画像データに含まれる行動対象の動作種類を取得後、各時系列フレームの動作種類に基づいて、映像データに対応する動作種類を特定するものである。
一実施形態では、動作認識装置は、複数の異なるサンプル時系列フレームの画像サンプルと、各サンプル時系列フレームの画像サンプルに含まれる行動対象の標準動作種類とを含む映像サンプルを取得し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各前記画像サンプルのオリジナルサブ特徴マップサンプルを取得し、前記サンプル時系列フレームのそれぞれをターゲットサンプル時系列フレームとして、各畳み込みチャネルにおけるターゲットサンプル時系列フレームのオリジナルサブ特徴マップサンプルと、次のサンプル時系列フレームのオリジナルサブ特徴マップサンプルとのサンプル差異情報を取得し、活性化関数に従って、各畳み込みチャネルにおけるサンプル差異情報を、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報重みサンプルにマッピングさせ、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報重みサンプルと、オリジナルサブ特徴マップサンプルとに基づいて、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報特徴マップサンプルを取得し、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報特徴マップサンプルに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの時系列行動特徴マップサンプルを取得し、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの時系列行動特徴マップサンプルに基づいて、ターゲットサンプル時系列フレームの画像サンプルに含まれる行動対象の予測動作種類を取得し、前記予測動作種類とターゲットサンプル時系列フレームの標準動作種類との間の差異に基づいて、前記マルチチャネル畳み込み層、前記活性化関数及び時系列畳み込みコアのパラメータを調整し、トレーニング終了条件を満足するまでトレーニングを続行させる、トレーニングモジュールをさらに備える。
一実施形態では、コンピュータデバイスに配置され、画像取得モジュールと、重み取得モジュールと、特徴特定モジュールと、時系列交互モジュール及び動作認識モジュールとを備える、動作認識装置が提供される。ここで、
画像取得モジュールは、リアルタイムな監視映像データを取得するとともに、監視映像データから異なる時系列フレームごとの画像データを抽出し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得する。
重み取得モジュールは、時系列フレームのそれぞれをターゲット時系列フレームとして、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算する。
特徴特定モジュールは、行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得する。
時系列交互モジュールは、行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得する。
動作認識モジュールは、時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するとともに、動作種類を、現在の監視映像データに含まれる行動対象の動作種類として特定する。
画像取得モジュールは、リアルタイムな監視映像データを取得するとともに、監視映像データから異なる時系列フレームごとの画像データを抽出し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得する。
重み取得モジュールは、時系列フレームのそれぞれをターゲット時系列フレームとして、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算する。
特徴特定モジュールは、行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得する。
時系列交互モジュールは、行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得する。
動作認識モジュールは、時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するとともに、動作種類を、現在の監視映像データに含まれる行動対象の動作種類として特定する。
動作認識装置に対する具体的な限定については、前記動作認識方法に対する限定を参照することができるが、ここでは重複しない。前記動作認識装置の各モジュールは、ソフトウェア、ハードウェア、およびそれらの組み合わせによって、全体的または部分的に実現され得る。プロセッサが各モジュール対応する操作を便利に実行できるように、前記各モジュールは、ハードウェアの形でコンピュータデバイスのプロセッサに埋め込まれるか別体として存在し、またはソフトウェアの形でコンピュータデバイスのメモリに格納され得る。
図14は、一実施形態に係るコンピュータデバイスの内部ブロック図を示している。当該コンピュータデバイスは、具体的には図1におけるサーバ102であり得る。図14に示すように、当該コンピュータデバイスは、システムバスによって接続されている1つ以上のプロセッサ、メモリ、ネットワークインターフェース、入力装置および表示画面を含む。ここで、メモリは、不揮発性記憶媒体および内部メモリを含む。当該コンピュータデバイスの不揮発性記憶媒体には、オペレーティングシステムが格納され、さらにコンピュータ可読命令も格納されている。このコンピュータ可読命令が1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに動作認識方法を実現させることができる。また、この内部メモリにもコンピュータ可読命令が格納され得る。このコンピュータ可読命令が1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに動作認識方法を実行させることができる。コンピュータデバイスの表示画面は、液晶表示画面または電子インク表示画面であり得る。コンピュータデバイスの入力装置は、表示画面上に覆われているタッチ層、またはコンピュータデバイスのケースに設けられたボタン、トラックボールまたはタッチパッドであり得るし、さらに、外部キーボード、トラックパッドまたはマウスなどである場合がある。
ここで、図14に示されている構造が、本出願の方案に関連する部分構造のブロック図に過ぎず、本出願の方案が適用されるコンピュータデバイスに対する制限を構成しないが、具体的なコンピュータデバイスは、図示よりも多いまたは少ない部品を含めるか、特定の部品を組み合わせるか、異なる部品配置を有してもよいことは、当業者に理解されるべきであろう。
一実施形態では、本出願に提供される動作認識装置は、コンピュータ可読命令の形で実現され得る。コンピュータ可読命令は、図14に示されるようにコンピュータデバイス上で実行され得る。コンピュータデバイスのメモリは、当該動作認識デバイスを構成する様々なプログラムモジュール、例えば、図12に示される画像取得モジュール1202、重量取得モジュール1204、特徴特定モジュール1206、時系列交互モジュール1208および動作認識モジュール1210を格納することができる。各プログラムモジュールによって構成されるコンピュータ可読命令は、1つ以上のプロセッサに、本明細書で説明される本出願の各実施形態の動作認識方法のステップを実行させるようにする。
例えば、図14に示されるコンピュータデバイスは、図12に示される動作認識装置における画像取得モジュール1202によって、ステップS302を実行することができる。コンピュータデバイスは、重み取得モジュール1204によって、ステップS304を実行することができる。コンピュータデバイスは、特徴特定モジュール1206によって、ステップS306を実行することができる。コンピュータデバイスは、時系列交互モジュール1208によって、ステップS308を実行することができる。コンピュータデバイスは、動作認識モジュール1210によって、ステップS310を実行することができる。
一実施形態では、メモリおよび1つ以上のプロセッサを含むコンピュータデバイスが提供されている。メモリには、コンピュータ可読命令が記憶されている。コンピュータ可読命令が1つ以上のプロセッサによって実行されると、前記動作認識方法のステップを1つ以上のプロセッサに実行させるコンピュータデバイスが提供される。ここでの動作認識方法のステップは、上記の各実施形態に係る動作認識方法のステップであり得る。
一実施形態では、コンピュータ可読命令が記憶されている1つ以上のコンピュータ可読記憶媒体が提供される。コンピュータ可読命令が1つ以上のプロセッサによって実行されると、前記動作認識方法のステップを1つ以上のプロセッサに実行させる。ここでの動作認識方法のステップは、上記の各実施形態に係る動作認識方法のステップであり得る。
本出願の各実施形態における「複数」は、少なくとも2つである。
前記実施形態に係る方法の中の手順の全部または一部が、コンピュータ可読命令を介して関連するハードウェアに指示することによって実施でき、前記プログラムを不揮発性コンピュータ可読記憶媒体に格納できることは、当業者に理解されるべきであろう。このプログラムが実行されるとき、前述の方法に係る実施形態の手順を含み得る。ここで、本出願に提供される各実施形態で使用されるメモリ、ストレージ、データベースまたは他の媒体への何れかの引用は、不揮発性および/または揮発性メモリを含み得る。不揮発性メモリには、読み取り専用メモリ(ROM)、プログラマブルROM(PROM)、電気的にプログラム可能なROM(EPROM)、電気的に消去可能なプログラム可能なROM(EEPROM)、またはフラッシュメモリが含まれている。また揮発性メモリには、ランダムアクセスメモリ(RAM)または外部キャッシュメモリが含まれている。限定ではなく、例として、RAMは、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、同期DRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、拡張SDRAM(ESDRAM)、同期チェーン(Synchlink)DRAM(SLDRAM)、メモリバス(Rambus)ダイレクトRAM(RDRAM)、ダイレクトメモリバスダイナミックRAM(DRDRAM)、およびメモリバスダイナミックRAM(RDRAM)などさまざまな形式で利用できる。
以上の実施形態における各々の技術的特徴を任意に組み合わせることができる。説明の便宜上、上記の実施形態における各々の技術的特徴のすべての可能な組み合わせについて記載しない。ただし、これらの技術的特徴の組み合わせに矛盾がない限り、本明細書に記載されている範囲内にあると認められるべきである。
以上の前記実施形態は、本出願の幾つかの実施形態を表すものに過ぎず、その説明は、比較的具体的かつ詳細であるが、本出願の特許範囲に対する制限として解釈されるべきではない。なお、当業者にとって、本出願の構想から逸脱しない限り、様々な変更や改善を行うことができ、これらはすべて本出願の保護範囲に属するものと考えられる。したがって、本出願の特許保護の範囲は、添付の特許請求の範囲を基準とすべきである。
Claims (12)
- コンピュータデバイスによって実行される動作認識方法であって、
映像データから異なる時系列フレームごとの画像データを取得し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得するステップと、
前記時系列フレームのそれぞれをターゲット時系列フレームとし、各畳み込みチャネルにおける前記ターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおける前記ターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおける前記ターゲット時系列フレームの行動情報重みを演算するステップと、
前記行動情報重みと、各畳み込みチャネルにおける前記ターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおける前記ターゲット時系列フレームの行動情報特徴マップを取得するステップと、
前記行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおける前記ターゲット時系列フレームの時系列行動特徴マップを取得するステップと、
前記時系列行動特徴マップに基づいて、前記ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するステップと、を含む、
動作認識方法。 - 各畳み込みチャネルにおける前記ターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおける前記ターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおける前記ターゲット時系列フレームの行動情報重みを演算する前記ステップは、
各畳み込みチャネルにおける前記ターゲット時系列フレームのオリジナルサブ特徴マップと前記次の時系列フレームのオリジナルサブ特徴マップとの差異情報を取得するステップと、
活性化関数に従って、各畳み込みチャネルにおける差異情報を、各畳み込みチャネルにおける前記ターゲット時系列フレームの行動情報重みにマッピングさせるステップと、を含む、
請求項1に記載の動作認識方法。 - 各畳み込みチャネルにおける前記ターゲット時系列フレームのオリジナルサブ特徴マップと前記次の時系列フレームのオリジナルサブ特徴マップとの差異情報を取得する前記ステップは、
単位プーリング層によって、各畳み込みチャネルにおける前記ターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおける前記次の時系列フレームのオリジナルサブ特徴マップとを、それぞれ単位サブ特徴マップに変換するステップと、
ターゲット時系列フレームの前記単位サブ特徴マップ及び前記次の時系列フレームの前記単位サブ特徴マップのそれぞれに対して、予め設定されたズーム倍数で次元削減を行い、次元削減された単位サブ特徴マップを得るステップと、
前記ターゲット時系列フレームの次元削減された単位サブ特徴マップと、前記次の時系列フレームの次元削減された単位サブ特徴マップとの間の次元削減差異情報を取得するステップと、
前記次元削減差異情報に対して、前記予め設定されたズーム倍数で次元増加を行い、各畳み込みチャネルにおける前記ターゲット時系列フレームのオリジナルサブ特徴マップと、前記次の時系列フレームのオリジナルサブ特徴マップとの差異情報を得るステップと、を含む、
請求項2に記載の動作認識方法。 - 前記行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおける前記ターゲット時系列フレームの時系列行動特徴マップを取得する前記ステップは、
各畳み込みチャネルにおけるターゲット時系列フレームに隣接する直前の時系列フレームの行動情報特徴マップと、各畳み込みチャネルにおける前記次の時系列フレームの行動情報特徴マップをそれぞれに取得するステップと、
時系列畳み込みコアを利用して、同一の畳み込みチャネルにおけるターゲット時系列フレーム、前記直前の時系列フレーム及び前記次の時系列フレームの行動情報特徴マップに対して畳み込み演算を行い、各畳み込みチャネルにおける前記ターゲット時系列フレームの時系列行動特徴マップを得るステップと、を含む、
請求項1~3の何れか1項に記載の動作認識方法。 - 前記時系列行動特徴マップに基づいて、前記ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する前記ステップは、
前記ターゲット時系列フレームの時系列行動特徴マップを、残差ネットワーク層に入力して、前記ターゲット時系列フレームの画像データの動作特徴情報を得るステップと、
前記動作特徴情報を動作分類ネットワーク層に入力して、前記ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するステップと、を含む、
請求項1~4の何れか1項に記載の動作認識方法。 - 前記動作特徴情報を、異なる畳み込みチャネルにおける前記ターゲット時系列フレームの画像データのオリジナルサブ特徴マップとして特定するステップと、
各畳み込みチャネルにおける前記ターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおける前記ターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおける前記ターゲット時系列フレームの行動情報重みを演算するステップを再実行するステップと、をさらに含む、
請求項5に記載の動作認識方法。 - 各時系列フレームの画像データに含まれる行動対象の動作種類を取得した後、各前記時系列フレームの動作種類に基づいて、前記映像データに対応する動作種類を特定するステップをさらに含む、請求項1~6の何れか1項に記載の動作認識方法。
- 複数の異なるサンプル時系列フレームの画像サンプルと、各サンプル時系列フレームの画像サンプルに含まれる行動対象の標準動作種類とを含む映像サンプルを取得するステップと、
マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各画像サンプルのオリジナルサブ特徴マップサンプルを取得するステップと、
前記サンプル時系列フレームのそれぞれをターゲットサンプル時系列フレームとして、各畳み込みチャネルにおけるターゲットサンプル時系列フレームのオリジナルサブ特徴マップサンプルと、次のサンプル時系列フレームのオリジナルサブ特徴マップサンプルとのサンプル差異情報を取得するステップと、
活性化関数に従って、各畳み込みチャネルにおけるサンプル差異情報を、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報重みサンプルにマッピングさせるステップと、
各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報重みサンプルと、オリジナルサブ特徴マップサンプルとに基づいて、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報特徴マップサンプルを取得するステップと、
各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報特徴マップサンプルに対して、時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの時系列行動特徴マップサンプルを取得するステップと、
各畳み込みチャネルにおけるターゲットサンプル時系列フレームの時系列行動特徴マップサンプルに基づいて、ターゲットサンプル時系列フレームの画像サンプルに含まれる行動対象の予測動作種類を取得するステップと、
前記予測動作種類とターゲットサンプル時系列フレームの標準動作種類との間の差異に基づいて、前記マルチチャネル畳み込み層、前記活性化関数及び時系列畳み込みコアのパラメータを調整し、トレーニング終了条件を満足するまでトレーニングを続行させるステップと、をさらに含む、
請求項2に記載の動作認識方法。 - コンピュータデバイスによって実行される動作認識方法であって、
リアルタイムな監視映像データを取得するステップと、
前記監視映像データから異なる時系列フレームごとの画像データを抽出し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得するステップと、
前記時系列フレームのそれぞれをターゲット時系列フレームとして、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算するステップと、
前記行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得するステップと、
前記行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得するステップと、
時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するステップと、
前記動作種類を、現在の前記監視映像データに含まれる行動対象の動作種類として特定するステップと、を含む、
動作認識方法。 - コンピュータデバイスに配置される動作認識装置であって、
請求項1~9の何れかに記載の動作認識方法を実行する、
動作認識装置。 - コンピュータ可読媒体に記憶されており、コンピュータにより実行されると、請求項1~9のいずれか1項に記載の動作認識方法を実行させる、コンピュータプログラム。
- コンピュータ可読命令が記憶されているメモリと、
前記コンピュータ可読命令が実行されると、請求項1~9のいずれか1項に記載の動作認識方法を実行させる1つ以上のプロセッサとを備える、
コンピュータデバイス。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911143008.2 | 2019-11-20 | ||
CN201911143008.2A CN110866509B (zh) | 2019-11-20 | 2019-11-20 | 动作识别方法、装置、计算机存储介质和计算机设备 |
PCT/CN2020/120076 WO2021098402A1 (zh) | 2019-11-20 | 2020-10-10 | 动作识别方法、装置、计算机存储介质和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022551396A JP2022551396A (ja) | 2022-12-09 |
JP7274048B2 true JP7274048B2 (ja) | 2023-05-15 |
Family
ID=69655231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022516004A Active JP7274048B2 (ja) | 2019-11-20 | 2020-10-10 | 動作認識方法、装置、コンピュータプログラム及びコンピュータデバイス |
Country Status (6)
Country | Link |
---|---|
US (1) | US11928893B2 (ja) |
EP (1) | EP3992846A4 (ja) |
JP (1) | JP7274048B2 (ja) |
KR (1) | KR20220038434A (ja) |
CN (1) | CN110866509B (ja) |
WO (1) | WO2021098402A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866509B (zh) | 2019-11-20 | 2023-04-28 | 腾讯科技(深圳)有限公司 | 动作识别方法、装置、计算机存储介质和计算机设备 |
JP7297705B2 (ja) * | 2020-03-18 | 2023-06-26 | 株式会社東芝 | 処理装置、処理方法、学習装置およびプログラム |
CN111835448B (zh) * | 2020-07-27 | 2022-05-24 | 上海挚想科技有限公司 | 多通道的通信时序控制方法及系统 |
CN112668410B (zh) * | 2020-12-15 | 2024-03-29 | 浙江大华技术股份有限公司 | 分拣行为检测方法、系统、电子装置和存储介质 |
CN112749666B (zh) * | 2021-01-15 | 2024-06-04 | 百果园技术(新加坡)有限公司 | 一种动作识别模型的训练及动作识别方法与相关装置 |
CN112633260B (zh) * | 2021-03-08 | 2021-06-22 | 北京世纪好未来教育科技有限公司 | 视频动作分类方法、装置、可读存储介质及设备 |
CN113111842B (zh) * | 2021-04-26 | 2023-06-27 | 浙江商汤科技开发有限公司 | 一种动作识别方法、装置、设备及计算机可读存储介质 |
CN113408585A (zh) * | 2021-05-21 | 2021-09-17 | 上海师范大学 | 一种基于人工智能的智能印章移动检测方法 |
CN114743265A (zh) * | 2022-04-11 | 2022-07-12 | 国网山东省电力公司莱芜供电公司 | 基于多尺度特征的人类动作识别方法及系统 |
CN114997228B (zh) * | 2022-05-30 | 2024-05-03 | 平安科技(深圳)有限公司 | 基于人工智能的动作检测方法、装置、计算机设备及介质 |
WO2024039225A1 (en) * | 2022-08-18 | 2024-02-22 | Samsung Electronics Co., Ltd. | Method and electronic device of predicting next event in episode |
CN116719420B (zh) * | 2023-08-09 | 2023-11-21 | 世优(北京)科技有限公司 | 一种基于虚拟现实的用户动作识别方法及系统 |
CN117649630B (zh) * | 2024-01-29 | 2024-04-26 | 武汉纺织大学 | 一种基于监控视频流的考场作弊行为识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018124309A1 (en) | 2016-12-30 | 2018-07-05 | Mitsubishi Electric Corporation | Method and system for multi-modal fusion model |
CN109145150A (zh) | 2018-06-15 | 2019-01-04 | 深圳市商汤科技有限公司 | 目标匹配方法及装置、电子设备和存储介质 |
JP2019028985A (ja) | 2017-07-31 | 2019-02-21 | 株式会社エクォス・リサーチ | 画像データ生成装置、画像認識装置、画像データ生成プログラム、及び画像認識プログラム |
WO2019091464A1 (zh) | 2017-11-12 | 2019-05-16 | 北京市商汤科技开发有限公司 | 目标检测方法和装置、训练方法、电子设备和介质 |
CN109993096A (zh) | 2019-03-26 | 2019-07-09 | 东北大学 | 一种面向视频目标检测的光流多层帧特征传播及聚合方法 |
US20190304068A1 (en) | 2018-03-29 | 2019-10-03 | Pixar | Multi-scale architecture of denoising monte carlo renderings using neural networks |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8345984B2 (en) * | 2010-01-28 | 2013-01-01 | Nec Laboratories America, Inc. | 3D convolutional neural networks for automatic human action recognition |
CN105518711B (zh) * | 2015-06-29 | 2019-11-29 | 北京旷视科技有限公司 | 活体检测方法、活体检测系统以及计算机程序产品 |
CN105184246B (zh) * | 2015-08-28 | 2020-05-19 | 北京旷视科技有限公司 | 活体检测方法和活体检测系统 |
US10929681B2 (en) * | 2016-11-03 | 2021-02-23 | Nec Corporation | Surveillance system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation |
US9877056B1 (en) * | 2016-11-10 | 2018-01-23 | Google Inc. | Compressed media with still images selected from a video stream |
CN107463949B (zh) * | 2017-07-14 | 2020-02-21 | 北京协同创新研究院 | 一种视频动作分类的处理方法及装置 |
CN108769535B (zh) * | 2018-07-04 | 2021-08-10 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、存储介质和计算机设备 |
CN109086873B (zh) * | 2018-08-01 | 2021-05-04 | 北京旷视科技有限公司 | 递归神经网络的训练方法、识别方法、装置及处理设备 |
CN109379550B (zh) * | 2018-09-12 | 2020-04-17 | 上海交通大学 | 基于卷积神经网络的视频帧率上变换方法及系统 |
CN109389588A (zh) * | 2018-09-28 | 2019-02-26 | 大连民族大学 | 度量视频连续帧与其卷积特征图间差异的方法 |
CN109344764A (zh) * | 2018-09-28 | 2019-02-15 | 大连民族大学 | 度量视频连续帧与其卷积特征图间差异的系统及装置 |
CN110427807B (zh) * | 2019-06-21 | 2022-11-15 | 诸暨思阔信息科技有限公司 | 一种时序事件动作检测方法 |
CN110348345B (zh) * | 2019-06-28 | 2021-08-13 | 西安交通大学 | 一种基于动作连贯性的弱监督时序动作定位方法 |
CN110362715B (zh) * | 2019-06-28 | 2021-11-19 | 西安交通大学 | 一种基于图卷积网络的未剪辑视频动作时序定位方法 |
CN110866509B (zh) * | 2019-11-20 | 2023-04-28 | 腾讯科技(深圳)有限公司 | 动作识别方法、装置、计算机存储介质和计算机设备 |
-
2019
- 2019-11-20 CN CN201911143008.2A patent/CN110866509B/zh active Active
-
2020
- 2020-10-10 EP EP20888898.2A patent/EP3992846A4/en active Pending
- 2020-10-10 KR KR1020227005895A patent/KR20220038434A/ko not_active Application Discontinuation
- 2020-10-10 WO PCT/CN2020/120076 patent/WO2021098402A1/zh active Application Filing
- 2020-10-10 JP JP2022516004A patent/JP7274048B2/ja active Active
-
2021
- 2021-11-18 US US17/530,428 patent/US11928893B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018124309A1 (en) | 2016-12-30 | 2018-07-05 | Mitsubishi Electric Corporation | Method and system for multi-modal fusion model |
JP2019028985A (ja) | 2017-07-31 | 2019-02-21 | 株式会社エクォス・リサーチ | 画像データ生成装置、画像認識装置、画像データ生成プログラム、及び画像認識プログラム |
WO2019091464A1 (zh) | 2017-11-12 | 2019-05-16 | 北京市商汤科技开发有限公司 | 目标检测方法和装置、训练方法、电子设备和介质 |
US20190304068A1 (en) | 2018-03-29 | 2019-10-03 | Pixar | Multi-scale architecture of denoising monte carlo renderings using neural networks |
CN109145150A (zh) | 2018-06-15 | 2019-01-04 | 深圳市商汤科技有限公司 | 目标匹配方法及装置、电子设备和存储介质 |
CN109993096A (zh) | 2019-03-26 | 2019-07-09 | 东北大学 | 一种面向视频目标检测的光流多层帧特征传播及聚合方法 |
Non-Patent Citations (3)
Title |
---|
Lionel Pigou et al.,"Beyond Temporal Pooling: Recurrence and Temporal Convolutions for Gesture Recognition in Video",arXiv,米国,Cornell University,2016年02月10日,pp.1-13,https://arxiv.org/abs/1506.01911 |
Pichao Wang et al.,"Action Recognition From Depth Maps Using Deep Convolutional Neural Networks",IEEE Transactions on Human-Machine Systems,米国,IEEE,2015年12月17日,Vol.46, No.4,pp.498-509 |
Sangwoo Cho et al.,"Spatio-Temporal Fusion Networks for Action Recognition",arXiv,米国,Cornell University,2019年06月17日,pp.1-18,https://arxiv.org/abs/1906.06822 |
Also Published As
Publication number | Publication date |
---|---|
US20220076002A1 (en) | 2022-03-10 |
CN110866509A (zh) | 2020-03-06 |
WO2021098402A1 (zh) | 2021-05-27 |
KR20220038434A (ko) | 2022-03-28 |
CN110866509B (zh) | 2023-04-28 |
EP3992846A4 (en) | 2022-10-26 |
US11928893B2 (en) | 2024-03-12 |
JP2022551396A (ja) | 2022-12-09 |
EP3992846A1 (en) | 2022-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7274048B2 (ja) | 動作認識方法、装置、コンピュータプログラム及びコンピュータデバイス | |
Fieraru et al. | Three-dimensional reconstruction of human interactions | |
Ma et al. | Hand joints-based gesture recognition for noisy dataset using nested interval unscented Kalman filter with LSTM network | |
Yang et al. | Fast image super-resolution based on in-place example regression | |
Deng et al. | Mimamo net: Integrating micro-and macro-motion for video emotion recognition | |
CN109657533A (zh) | 行人重识别方法及相关产品 | |
Grinciunaite et al. | Human pose estimation in space and time using 3d cnn | |
CN111062263B (zh) | 手部姿态估计的方法、设备、计算机设备和存储介质 | |
CN109993707A (zh) | 图像去噪方法和装置 | |
Hussain et al. | Real time violence detection in surveillance videos using Convolutional Neural Networks | |
Dundar et al. | Unsupervised disentanglement of pose, appearance and background from images and videos | |
CN113435432B (zh) | 视频异常检测模型训练方法、视频异常检测方法和装置 | |
Ali et al. | Object recognition for dental instruments using SSD-MobileNet | |
Al-Dhabi et al. | Deepfake video detection by combining convolutional neural network (cnn) and recurrent neural network (rnn) | |
CN114641799A (zh) | 对象检测设备、方法和系统 | |
EP3588441B1 (en) | Imagification of multivariate data sequences | |
JP2022123843A (ja) | 3次元姿勢推定データを生成するためのコンピュータ実装方法、データ処理装置およびコンピュータプログラム | |
CN115661336A (zh) | 一种三维重建方法及相关装置 | |
Purps et al. | Reconstructing facial expressions of hmd users for avatars in vr | |
WO2023160157A1 (zh) | 三维医学图像的识别方法、装置、设备、存储介质及产品 | |
Karthickkumar et al. | A survey on Deep learning techniques for human action recognition | |
Indhumathi et al. | Human action recognition using spatio-temporal multiplier network and attentive correlated temporal feature | |
Li et al. | Image reflection removal using the wasserstein generative adversarial network | |
CN116228850A (zh) | 物体姿态估计方法、装置、电子设备及可读存储介质 | |
CN110889894A (zh) | 三维人脸重建方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220411 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230411 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230428 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7274048 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |