JP7328444B2 - エンテールメントを用いたキーポイントベースの姿勢追跡 - Google Patents
エンテールメントを用いたキーポイントベースの姿勢追跡 Download PDFInfo
- Publication number
- JP7328444B2 JP7328444B2 JP2022515910A JP2022515910A JP7328444B2 JP 7328444 B2 JP7328444 B2 JP 7328444B2 JP 2022515910 A JP2022515910 A JP 2022515910A JP 2022515910 A JP2022515910 A JP 2022515910A JP 7328444 B2 JP7328444 B2 JP 7328444B2
- Authority
- JP
- Japan
- Prior art keywords
- pose
- keypoint
- tracking
- keypoints
- transformer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 91
- 230000002123 temporal effect Effects 0.000 claims description 32
- 238000013459 approach Methods 0.000 description 20
- 238000001514 detection method Methods 0.000 description 17
- 230000036544 posture Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 10
- 238000012360 testing method Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000010200 validation analysis Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000002679 ablation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000001144 postural effect Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 210000003423 ankle Anatomy 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Description
テキストエンテールメントにおいて、モデルは、前提(premise)文が文のペアの仮説(hypothesis)文を意味するかどうかを分類する。この問題に対する典型的なアプローチは、最初に文のペアを埋め込み空間に投影し、次に文のペアの二項分類を出力するニューラルネットワークを介してそれらを供給することを含む。
キーポイント情報を使用して姿勢エンテールメントを動機付けるために、最初に視覚的な特徴に対するその利点について説明する。視覚的な特徴を使用すると、計算コストが大幅に増加し、ネットワークが照明の変化などの望ましくない変動の影響を受けやすくなる。したがって、追跡ステージでは、検出器によって推定されたキーポイントのみを用いて姿勢を表現する。
(実験)
本発明者らは、ECCV PoseTrack 2018 Challengeで使用されたバリデーションセットについて、本発明者らの比較の大部分を実施する。PoseTrack 2017のスーパーセットには、550の訓練ビデオ、74の検証ビデオ、375のテストビデオがある。
PoseTrack 2017のヘルドアウトのテストセットには、PoseTrack評価サーバを使用する。関節あたりの平均精度(AP)及びマルチオブジェクト追跡精度(MOTA)の両方が計算される。APは、正しいキーポイントの頭部の正規化確率(PCKh)に基づいている。MOTAは、偽陰性、偽陽性及びID切替に対してペナルティを課す。
低解像度では、視覚的な特徴の性能が低下する。GCNはIoUと同様に部分的な空間位置を取ることができるが、本発明者らは空間を離散化する。オプティカルフローは、近くの画素が同様の動きをすると想定する。
マッチ精度は、姿勢を一致させる4つのタイムステップにわたる一致精度を決定することで計算される。相対位置埋め込みを使用する埋め込みスキームは、破線で区切られている。相対位置トークンは精度に悪影響を及ぼす。
Claims (4)
- ビデオの複数のフレーム内で識別された人物のキーポイント推定と、
前記キーポイントによって識別された姿勢の時間的マッチングと、
他の姿勢に対する現在の姿勢のID割り当てと、
を有し、前記時間的マッチングが、トランスフォーマーマッチングネットワークによって実行され、前記キーポイントの情報のみを使用し、RGB情報を使用せず、前記トランスフォーマーマッチングネットワークは、マルチレイヤーマルチヘッドネットワークである、姿勢追跡方法。 - 前記キーポイント推定は、パラメータフリーのバウンディングボックス伝搬を使用する、請求項1に記載の方法。
- エンテールメントを用いるキーポイントベースの姿勢追跡方法であって、
それぞれが姿勢のキーポイントに対応するトークンの文から情報を抽出することと、
各姿勢の前記キーポイントを埋め込み、トランスフォーマーネットワークに前記埋め込みを供給することと、
現在の姿勢を以前の複数のタイムステップの姿勢にマッチングさせることと、
マッチした姿勢の指標を出力することと、
を有する、姿勢追跡方法。 - 前記トランスフォーマーネットワークは、マルチレイヤーマルチヘッドネットワークである、請求項3に記載の方法。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962899390P | 2019-09-12 | 2019-09-12 | |
US62/899,390 | 2019-09-12 | ||
US201962933591P | 2019-11-11 | 2019-11-11 | |
US62/933,591 | 2019-11-11 | ||
US17/016,273 US11475590B2 (en) | 2019-09-12 | 2020-09-09 | Keypoint based pose-tracking using entailment |
US17/016,273 | 2020-09-09 | ||
PCT/US2020/050255 WO2021050773A1 (en) | 2019-09-12 | 2020-09-10 | Keypoint based pose-tracking using entailment |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022548569A JP2022548569A (ja) | 2022-11-21 |
JP7328444B2 true JP7328444B2 (ja) | 2023-08-16 |
Family
ID=74866049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022515910A Active JP7328444B2 (ja) | 2019-09-12 | 2020-09-10 | エンテールメントを用いたキーポイントベースの姿勢追跡 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11475590B2 (ja) |
JP (1) | JP7328444B2 (ja) |
DE (1) | DE112020004320T5 (ja) |
WO (1) | WO2021050773A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095254B (zh) * | 2021-04-20 | 2022-05-24 | 清华大学深圳国际研究生院 | 一种人体部位关键点的定位方法及系统 |
CN113724325B (zh) * | 2021-05-31 | 2024-05-28 | 西安理工大学 | 一种基于图卷积网络的多场景单目相机位姿回归方法 |
CN113450579B (zh) * | 2021-08-30 | 2021-12-14 | 腾讯科技(深圳)有限公司 | 速度信息的获取方法、装置、设备及介质 |
GB2616733A (en) * | 2021-11-15 | 2023-09-20 | Univ Henan Polytechnic | Pose estimation-based pedestrian fall action recognition method and device |
CN113963445A (zh) * | 2021-11-15 | 2022-01-21 | 河南理工大学 | 一种基于姿态估计的行人摔倒动作识别方法及设备 |
CN114332509B (zh) * | 2021-12-29 | 2023-03-24 | 阿波罗智能技术(北京)有限公司 | 图像处理方法、模型训练方法、电子设备及自动驾驶车辆 |
CN115100442B (zh) * | 2022-08-23 | 2022-11-22 | 浙江大华技术股份有限公司 | 目标匹配方法、目标与部位匹配方法及相关设备 |
CN117423138B (zh) * | 2023-12-19 | 2024-03-15 | 四川泓宝润业工程技术有限公司 | 基于多分支结构的人体跌倒检测方法、装置及系统 |
CN117953015A (zh) * | 2024-03-26 | 2024-04-30 | 武汉工程大学 | 基于视频超分辨率多行人跟踪方法、系统、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110081048A1 (en) | 2008-07-09 | 2011-04-07 | Gwangju Institute Of Science And Technology | Method and apparatus for tracking multiple objects and storage medium |
US20140010407A1 (en) | 2012-07-09 | 2014-01-09 | Microsoft Corporation | Image-based localization |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9135514B2 (en) * | 2010-05-21 | 2015-09-15 | Qualcomm Incorporated | Real time tracking/detection of multiple targets |
US10692243B2 (en) * | 2017-12-03 | 2020-06-23 | Facebook, Inc. | Optimizations for dynamic object instance detection, segmentation, and structure mapping |
US10733431B2 (en) * | 2017-12-03 | 2020-08-04 | Facebook, Inc. | Systems and methods for optimizing pose estimation |
US10796452B2 (en) * | 2017-12-03 | 2020-10-06 | Facebook, Inc. | Optimizations for structure mapping and up-sampling |
CN109918975B (zh) * | 2017-12-13 | 2022-10-21 | 腾讯科技(深圳)有限公司 | 一种增强现实的处理方法、对象识别的方法及终端 |
US20190188533A1 (en) * | 2017-12-19 | 2019-06-20 | Massachusetts Institute Of Technology | Pose estimation |
US10719744B2 (en) * | 2017-12-28 | 2020-07-21 | Intel Corporation | Automated semantic inference of visual features and scenes |
CN110245359B (zh) * | 2018-05-18 | 2024-01-26 | 谷歌有限责任公司 | 使用自回归机器学习模型进行并行解码 |
US11074711B1 (en) * | 2018-06-15 | 2021-07-27 | Bertec Corporation | System for estimating a pose of one or more persons in a scene |
US11238612B2 (en) * | 2018-08-28 | 2022-02-01 | Beijing Jingdong Shangke Information Technology Co., Ltd. | Device and method of tracking poses of multiple objects based on single-object pose estimator |
WO2020176873A1 (en) * | 2019-02-28 | 2020-09-03 | Stats Llc | System and method for generating trackable video frames from broadcast video |
CN112819852A (zh) * | 2019-11-15 | 2021-05-18 | 微软技术许可有限责任公司 | 对基于姿态的运动进行评估 |
-
2020
- 2020-09-09 US US17/016,273 patent/US11475590B2/en active Active
- 2020-09-10 JP JP2022515910A patent/JP7328444B2/ja active Active
- 2020-09-10 WO PCT/US2020/050255 patent/WO2021050773A1/en active Application Filing
- 2020-09-10 DE DE112020004320.7T patent/DE112020004320T5/de active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110081048A1 (en) | 2008-07-09 | 2011-04-07 | Gwangju Institute Of Science And Technology | Method and apparatus for tracking multiple objects and storage medium |
US20140010407A1 (en) | 2012-07-09 | 2014-01-09 | Microsoft Corporation | Image-based localization |
Non-Patent Citations (3)
Title |
---|
Bin Xiao et al.,Simple Baselines for Human Pose Estimation and Tracking,[online],2018年08月21日, [retrieved on 2023.03.16], Internet, <URL:https://arxiv.org/pdf/1804.06208.pdf> |
Hao-Shu Fang et al.,RMPE: Regional Multi-Person Pose Estimation,[online],2018年02月04日,[retrieved on 2023.03.16], Internet, <URL:https://arxiv.org/pdf/1612.00137.pdf> |
Ke Sun et al.,Deep High-Resolution Representation Learning for Human Pose Estimation,2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2019年06月20日 |
Also Published As
Publication number | Publication date |
---|---|
DE112020004320T5 (de) | 2022-06-30 |
US11475590B2 (en) | 2022-10-18 |
WO2021050773A1 (en) | 2021-03-18 |
US20210082144A1 (en) | 2021-03-18 |
JP2022548569A (ja) | 2022-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7328444B2 (ja) | エンテールメントを用いたキーポイントベースの姿勢追跡 | |
Peng et al. | TPM: Multiple object tracking with tracklet-plane matching | |
Abu Farha et al. | When will you do what?-anticipating temporal occurrences of activities | |
Suk et al. | Hand gesture recognition based on dynamic Bayesian network framework | |
Xiao et al. | Robust facial landmark detection via recurrent attentive-refinement networks | |
Gaur et al. | A “string of feature graphs” model for recognition of complex activities in natural videos | |
Luo et al. | Pseudo-convolutional policy gradient for sequence-to-sequence lip-reading | |
Wang et al. | Split and connect: A universal tracklet booster for multi-object tracking | |
US11526698B2 (en) | Unified referring video object segmentation network | |
Gupta et al. | Nose, eyes and ears: Head pose estimation by locating facial keypoints | |
WO2022007193A1 (zh) | 一种基于迭代学习的弱监督视频行为检测方法及系统 | |
Bouchrika et al. | Ordering computers by hand gestures recognition based on wavelet networks | |
US11501110B2 (en) | Descriptor learning method for the detection and location of objects in a video | |
Yang et al. | Coupled grouping and matching for sign and gesture recognition | |
Ponce-López et al. | Multi-modal social signal analysis for predicting agreement in conversation settings | |
Pramono et al. | Relational reasoning for group activity recognition via self-attention augmented conditional random field | |
Liang et al. | Efficient temporal sentence grounding in videos with multi-teacher knowledge distillation | |
Yang et al. | A feature learning approach for face recognition with robustness to noisy label based on top-N prediction | |
CN113569758A (zh) | 基于动作三元组引导的时序动作定位方法、系统、设备及介质 | |
Zhu et al. | Multi-sourced knowledge integration for robust self-supervised facial landmark tracking | |
Goneid et al. | Facial feature analysis of spontaneous facial expression | |
Yang et al. | Exploiting semantic-level affinities with a mask-guided network for temporal action proposal in videos | |
Sim et al. | Changepoint detection-assisted nonparametric clustering for unsupervised temporal sign segmentation | |
Zhang et al. | Online social behavior modeling for multi-target tracking | |
EP4280101A1 (en) | Pseudo-ground-truth generation from timestamp supervision |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220330 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230323 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230615 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230725 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230803 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7328444 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |