JP2022547687A - 時空間オブジェクト追跡を用いた高次の相互作用による動作認識 - Google Patents
時空間オブジェクト追跡を用いた高次の相互作用による動作認識 Download PDFInfo
- Publication number
- JP2022547687A JP2022547687A JP2022515921A JP2022515921A JP2022547687A JP 2022547687 A JP2022547687 A JP 2022547687A JP 2022515921 A JP2022515921 A JP 2022515921A JP 2022515921 A JP2022515921 A JP 2022515921A JP 2022547687 A JP2022547687 A JP 2022547687A
- Authority
- JP
- Japan
- Prior art keywords
- embeddings
- objects
- video
- track
- interactions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 32
- 230000033001 locomotion Effects 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 22
- 230000000007 visual effect Effects 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims abstract description 5
- 230000001934 delay Effects 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims 2
- 230000009471 action Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 22
- 230000002123 temporal effect Effects 0.000 description 10
- 238000001514 detection method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 239000002131 composite material Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- ZINJLDJMHCUBIP-UHFFFAOYSA-N ethametsulfuron-methyl Chemical compound CCOC1=NC(NC)=NC(NC(=O)NS(=O)(=O)C=2C(=CC=CC=2)C(=O)OC)=N1 ZINJLDJMHCUBIP-UHFFFAOYSA-N 0.000 description 2
- 235000019580 granularity Nutrition 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241001122767 Theaceae Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 238000009835 boiling Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 235000015220 hamburgers Nutrition 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003756 stirring Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
Description
本開示のより完全な理解は、添付の図面を参照することで実現される。
(高次シーン相互作用のモデル化)
画像特徴抽出器としてしばしば使用されるResNextを用いて、フレーム毎の画像/フレームレベルの特徴を抽出することでシーン要素の関係をモデル化することを試みる。これらの画像レベルの特徴は、次の図の左側で示されるように、Transformerエンコーダに対する入力埋め込みを形成するように一緒に積み重ねられる。図4は、本開示の一実施形態による、フレーム毎の画像特徴のシーケンスを埋め込むためのTransformerエンコーダを用いた関係のモデル化のための入力トークン埋め込みの再設計を示す概略図であり、図5は、本開示の一実施形態による、フレーム毎の上位Kのオブジェクトの特徴の埋め込みシーケンスのためのTransformerエンコーダを用いた関係のモデル化のための入力トークン埋め込みの再設計を示す概略図である。
この時点で、画像レベルの特徴だけでなく、シーンにおける個々のオブジェクトの特徴も使用することで、シーケンスにおけるトークンの粒度を高めることに留意されたい。RFCNオブジェクト検出器は、まずビデオのスニペットのフレームにおけるオブジェクトの境界ボックスを得るために使用される。そして、RexNextは、精度が上位Kのオブジェクトに対するより高品質なオブジェクトの特徴を抽出するために使用される。
本発明者らは、例えば図5の右の部分で示されるようなトークン化されたエンコーダ入力を形成するために、一緒に積み重ねられたフレーム当たりの上位Kのオブジェクトの特徴のみの利用を研究する。
Transformerがパーミュテーション不変であることに留意することが重要である。学習したビデオ埋め込みにおいて表される時間的な順序キューを持たないことは、Kinetics-400データセットにおける「ドアを開く」対「ドアを閉じる」として分類されるビデオのような特定の動作イベントを区別することを困難にする。
本発明者らは、異種トークンから作られた入力埋め込みを有する設計を使用する。一部は多くのオブジェクト及び背景情報を含む画像フレーム全体を表し、他は本発明者らの環境において見出される個々の物理的オブジェクトを表す。
フルフレームからのオブジェクト周辺の失われた背景情報を補う空間キューをさらに追加するために、各オブジェクトのトークンに空間位置情報を注入する。埋め込みは、各フレームからオブジェクト検出ネットワークによって予測されたオブジェクトの境界ボックス座標(x1,y1、x2、y2)から学習される。
相互作用モデル化ユニットは、シーン要素全体の時空間の相互作用をモデル化する。最初に、画像とオブジェクトの特徴ベクトルを積み重ねて、入力埋め込みシーケンスを形成する。続いて、時間的、空間的及びタイプの埋め込みが入力埋め込みに追加され、最終的な埋め込みシーケンスが形成される。この埋め込みシーケンスは、2層マルチヘッドTransformerエンコーダに通される。詳細なバージョンは、図3で概略的に示されている。
フレームレベルの特徴は、単一のスケーリングされたドットプロダクトアテンション層を通過する。ここで、Q、K及びVは、MLPを介した入力ベクトルシーケンスの3つの異なる投影にすぎない。最後に、背景及び相互作用埋め込みは、一緒に連結され、動作カテゴリに切り取られたビデオを分類する分類器に供給される。
(性能分析)
(有効な動作認識の追跡)
Claims (2)
- 時空間オブジェクト追跡を用いたビデオのフレームにおける動作認識を特定するための方法であって、
前記ビデオのフレームにおける視覚的オブジェクトを検出することと、
オブジェクトのトラックを形成するために、時間を通して同じ視覚的オブジェクトをリンクすることと、
前記オブジェクトのトラックを整理し埋め込みと組み合わせることと、
前記整理され組み合わされたオブジェクトのトラックをニューラルネットワークモデルに供給することと、
を含み、
前記モデルは、反復処理遅延の無い行列演算として定式化された高次の相互作用を用いて、代表的な埋め込み及び識別可能なビデオの特徴を生成するために訓練される、方法。 - 前記ニューラルネットワークモデルは、Transformerである、請求項1に記載の方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962899341P | 2019-09-12 | 2019-09-12 | |
US62/899,341 | 2019-09-12 | ||
US17/016,260 | 2020-09-09 | ||
US17/016,260 US11600067B2 (en) | 2019-09-12 | 2020-09-09 | Action recognition with high-order interaction through spatial-temporal object tracking |
PCT/US2020/050254 WO2021050772A1 (en) | 2019-09-12 | 2020-09-10 | Action recognition with high-order interaction through spatial-temporal object tracking |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022547687A true JP2022547687A (ja) | 2022-11-15 |
JP7253114B2 JP7253114B2 (ja) | 2023-04-05 |
Family
ID=74865600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022515921A Active JP7253114B2 (ja) | 2019-09-12 | 2020-09-10 | 時空間オブジェクト追跡を用いた高次の相互作用による動作認識 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11600067B2 (ja) |
JP (1) | JP7253114B2 (ja) |
DE (1) | DE112020004319T5 (ja) |
WO (1) | WO2021050772A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11227160B2 (en) * | 2019-11-15 | 2022-01-18 | International Business Machines Corporation | Detecting scene transitions in video footage |
US11593961B2 (en) * | 2020-12-14 | 2023-02-28 | International Business Machines Corporation | Difference-guided video analysis |
US11954910B2 (en) * | 2020-12-26 | 2024-04-09 | International Business Machines Corporation | Dynamic multi-resolution processing for video classification |
CN113139467B (zh) * | 2021-04-23 | 2023-04-25 | 西安交通大学 | 基于分级式结构的细粒度视频动作识别方法 |
CN113392728B (zh) * | 2021-05-28 | 2022-06-10 | 杭州电子科技大学 | 一种基于ssa锐化注意机制的目标检测方法 |
KR20230032317A (ko) * | 2021-08-30 | 2023-03-07 | 한국전자통신연구원 | 비디오 의미 구간 검출 방법 및 시스템 |
CN114241191A (zh) * | 2021-12-19 | 2022-03-25 | 西北工业大学 | 一种基于跨模态自注意力的无候选框指代表达理解方法 |
CN114581971A (zh) * | 2022-01-28 | 2022-06-03 | 北京深睿博联科技有限责任公司 | 一种基于面部动作组合检测的情绪识别方法及装置 |
CN114821669B (zh) * | 2022-05-26 | 2024-05-31 | 重庆大学 | 一种基于深度学习的细粒度行为识别方法 |
WO2024102510A1 (en) * | 2022-11-11 | 2024-05-16 | Qualcomm Technologies, Inc. | Processing images using temporally-propagated cluster maps |
CN116030097B (zh) * | 2023-02-28 | 2023-05-30 | 南昌工程学院 | 基于双重注意力特征融合网络的目标跟踪方法与系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170293838A1 (en) * | 2016-04-06 | 2017-10-12 | Nec Laboratories America, Inc. | Deep high-order exemplar learning for hashing and fast information retrieval |
US20180183650A1 (en) * | 2012-12-05 | 2018-06-28 | Origin Wireless, Inc. | Method, apparatus, and system for object tracking and navigation |
US20180341860A1 (en) * | 2017-05-23 | 2018-11-29 | Google Llc | Attention-based sequence transduction neural networks |
US20190073565A1 (en) * | 2017-09-05 | 2019-03-07 | Sentient Technologies (Barbados) Limited | Automated and unsupervised generation of real-world training data |
US20190251431A1 (en) * | 2018-02-09 | 2019-08-15 | Salesforce.Com, Inc. | Multitask Learning As Question Answering |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10832057B2 (en) * | 2014-02-28 | 2020-11-10 | Second Spectrum, Inc. | Methods, systems, and user interface navigation of video content based spatiotemporal pattern recognition |
US10534965B2 (en) * | 2017-11-22 | 2020-01-14 | Amazon Technologies, Inc. | Analysis of video content |
US11242144B2 (en) * | 2018-02-09 | 2022-02-08 | Skydio, Inc. | Aerial vehicle smart landing |
US11200424B2 (en) * | 2018-10-12 | 2021-12-14 | Adobe Inc. | Space-time memory network for locating target object in video content |
US11354906B2 (en) * | 2020-04-13 | 2022-06-07 | Adobe Inc. | Temporally distributed neural networks for video semantic segmentation |
US20210342686A1 (en) * | 2020-04-30 | 2021-11-04 | Nvidia Corporation | Content management using one or more neural networks |
-
2020
- 2020-09-09 US US17/016,260 patent/US11600067B2/en active Active
- 2020-09-10 WO PCT/US2020/050254 patent/WO2021050772A1/en active Application Filing
- 2020-09-10 JP JP2022515921A patent/JP7253114B2/ja active Active
- 2020-09-10 DE DE112020004319.3T patent/DE112020004319T5/de active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180183650A1 (en) * | 2012-12-05 | 2018-06-28 | Origin Wireless, Inc. | Method, apparatus, and system for object tracking and navigation |
US20170293838A1 (en) * | 2016-04-06 | 2017-10-12 | Nec Laboratories America, Inc. | Deep high-order exemplar learning for hashing and fast information retrieval |
US20180341860A1 (en) * | 2017-05-23 | 2018-11-29 | Google Llc | Attention-based sequence transduction neural networks |
US20190073565A1 (en) * | 2017-09-05 | 2019-03-07 | Sentient Technologies (Barbados) Limited | Automated and unsupervised generation of real-world training data |
US20190251431A1 (en) * | 2018-02-09 | 2019-08-15 | Salesforce.Com, Inc. | Multitask Learning As Question Answering |
Also Published As
Publication number | Publication date |
---|---|
DE112020004319T5 (de) | 2022-06-09 |
WO2021050772A1 (en) | 2021-03-18 |
US20210081673A1 (en) | 2021-03-18 |
US11600067B2 (en) | 2023-03-07 |
JP7253114B2 (ja) | 2023-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7253114B2 (ja) | 時空間オブジェクト追跡を用いた高次の相互作用による動作認識 | |
Khan et al. | Transformers in vision: A survey | |
Dong et al. | A survey on deep learning and its applications | |
US11657230B2 (en) | Referring image segmentation | |
Zhu et al. | From handcrafted to learned representations for human action recognition: A survey | |
JP2022547163A (ja) | ビデオ理解のための時空間交互作用 | |
Tanberk et al. | A hybrid deep model using deep learning and dense optical flow approaches for human activity recognition | |
Malgireddy et al. | Language-motivated approaches to action recognition | |
Kadu et al. | Automatic human mocap data classification | |
Xu et al. | Fine-grained visual classification via internal ensemble learning transformer | |
Pham et al. | Video-based human action recognition using deep learning: a review | |
CN112686153B (zh) | 一种用于人体行为识别的三维骨架关键帧选择方法 | |
Wang et al. | Human action recognition with depth cameras | |
Wang et al. | A deep clustering via automatic feature embedded learning for human activity recognition | |
Biswas et al. | Recognizing activities with multiple cues | |
Dastbaravardeh et al. | Channel Attention‐Based Approach with Autoencoder Network for Human Action Recognition in Low‐Resolution Frames | |
Liu et al. | Simple primitives with feasibility-and contextuality-dependence for open-world compositional zero-shot learning | |
Soltanian et al. | Spatio-temporal VLAD encoding of visual events using temporal ordering of the mid-level deep semantics | |
Guo | Deep learning for visual understanding | |
Karim et al. | Understanding video transformers for segmentation: A survey of application and interpretability | |
Deng et al. | Provable hierarchical lifelong learning with a sketch-based modular architecture | |
van de Sande et al. | Automated Recognition of Grooming Behavior in Wild Chimpanzees | |
Huang | Spatio-Temporal Modeling for Action Recognition in Videos | |
Piergiovanni | Learning from Videos | |
Richard | Temporal Segmentation of Human Actions in Videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220329 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230314 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230324 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7253114 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |