JP2022536790A - 人物の単眼深度推定のための方法およびシステム - Google Patents
人物の単眼深度推定のための方法およびシステム Download PDFInfo
- Publication number
- JP2022536790A JP2022536790A JP2021574764A JP2021574764A JP2022536790A JP 2022536790 A JP2022536790 A JP 2022536790A JP 2021574764 A JP2021574764 A JP 2021574764A JP 2021574764 A JP2021574764 A JP 2021574764A JP 2022536790 A JP2022536790 A JP 2022536790A
- Authority
- JP
- Japan
- Prior art keywords
- joint
- depth
- heatmap
- layer
- convolutional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 34
- 238000011176 pooling Methods 0.000 claims description 16
- 230000007935 neutral effect Effects 0.000 claims 2
- 238000013459 approach Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 210000000707 wrist Anatomy 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000001994 activation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000004013 groin Anatomy 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000005549 size reduction Methods 0.000 description 1
- 210000003371 toe Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
Description
本開示は、単眼カメラからの画像またはビデオデータ内の人物の関節の相対的3D位置の推定のための方法およびシステムに関する。特に、カメラから1つ以上の人物の関節の相対的深度値を推定する、機械学習ベースのアプローチに関する。
人間の関節または肘、眼、爪先等の任意の解剖学的目印の相対的3D位置または深度値、すなわち、カメラからの距離の単眼推定は、運動捕捉、仮想および拡張現実、スポーツ分析、パーソナル訓練、ならびにアクティビティ認識を含む、広範囲の用途を有する。
オブジェクトの画像セグメントから骨格関節の3D関節場所と画像セグメント上の骨格関節の2D場所から成る2D関節ヒートマップとを推定するためのシステムおよび方法が、提供される。これは、画像セグメントおよび2D関節ヒートマップを、少なくとも1つの3D畳み込み層ブロックを含有する畳み込みニューラルネットワークに適用することを含み、2D分解能は、各3D畳み込み層において低減され、深度分解能は、関節毎に推定される深度を生産するように拡張される。各種類の関節の2D場所と種類の関節の推定される深度を組み合わせることは、骨格関節の推定される3D関節位置を生成する。
図1を参照すると、人間の関節の3D推定システム110は、デジタル画像を捕捉するための捕捉デバイス120と、画像内の人間を検出およびクロッピングし、画像内の人間の関節位置を位置特定し得る、2D骨格検出器130と、位置特定されるべき種類の関節毎に、位置ヒートマップを生成し得る、2D関節ヒートマップ生成器140と、位置特定された関節の種類毎に、1D深度ヒートマップを生成し得る、深度ヒートマップ推定器150と、深度ヒートマップから関節の種類毎に深度値を選択し、本情報と2D関節位置を組み合わせ、3D関節位置を生産し得る、3D関節構築器160とを備えてもよい。
Claims (16)
- オブジェクトの画像セグメントから骨格関節の3D関節場所と前記画像セグメント上の骨格関節の2D場所から成る2D関節ヒートマップとを推定するための方法であって、
前記画像セグメントおよび2D関節ヒートマップを、少なくとも1つの3D畳み込み層ブロックを含有する畳み込みニューラルネットワークに適用することであって、前記2D分解能は、各3D畳み込み層において低減され、深度分解能は、関節毎に推定される深度を生産するように拡張される、ことと、
各種類の関節の前記2D場所と前記種類の関節の推定される深度を組み合わせ、前記骨格関節の推定される3D関節位置を生成することと
を含む、方法。 - 前記少なくとも1つの3D畳み込み層に先立って、前記画像セグメントおよび2D関節ヒートマップを少なくとも1つの2D畳み込み中立ネットワークブロックに適用することをさらに含む、請求項1に記載の方法。
- 前記深度を前記少なくとも1つの3D畳み込み層から受信する、最大プーリング層をさらに備え、前記最大プーリング層は、各種類の関節の前記2D場所と前記種類の関節の推定される深度を組み合わせることに先立って、前記2D分解能を1まで低減させ、関節毎に、拡張された深度寸法のみを残す、請求項1または2に記載の方法。
- 前記3D畳み込み層ブロックのそれぞれは、第1の3D畳み込みと、第1のReLUと、第2の3D畳み込みと、第2のReLUと、最大プーリング層と、再形成層とを備える、請求項1-3のいずれか1項に記載の方法。
- 各3D畳み込みは、3×3×3以下のカーネルを使用する、請求項4に記載の方法。
- 前記3D畳み込み層ブロックの前記最大プーリング層は、入力空間寸法のサイズをある分率だけ低減させるが、前記深度寸法を維持し、前記再形成層は、前記深度寸法のサイズを前記分率だけ増加させる、請求項4または5に記載の方法。
- 前記畳み込みニューラルネットワークは、オブジェクトの画像セグメントおよび3D関節位置を使用した逆伝搬を使用して訓練される、請求項1-6のいずれか1項に記載の方法。
- 前記オブジェクトは、人間である、請求項1-7のいずれか1項に記載の方法。
- 骨格上の関節の3D位置を2D画像から判定するためのシステムであって、
a.前記2D画像からの1つ以上の2D関節骨格および前記2D関節骨格に関する画像セグメントを識別する、2D骨格検出器と、
b.前記1つ以上の2D関節骨格の関節毎に2D関節ヒートマップを生産する、2D関節ヒートマップ生成器と、
c.各関節の深度を推定するように構成されている少なくとも1つの3D畳み込み層ブロックを備える、前記2D関節ヒートマップおよび前記画像セグメントを受信する、深度ヒートマップ推定器と、
d.各関節の深度と前記2D関節骨格を組み合わせ、3D関節骨格を構築する、3D関節構築器と
を備える、システム。 - 前記2D関節ヒートマップ生成器は、前記2D骨格検出器からの2D関節ヒートマップを使用する、請求項9に記載のシステム。
- 前記深度ヒートマップ推定器はさらに、前記少なくとも1つの3D畳み込み層ブロックに先立って少なくとも1つの2D畳み込み中立ネットワークブロックを備えることを備える、請求項9または10に記載のシステム。
- 前記深度ヒートマップ推定器はさらに、前記深度を前記少なくとも1つの3D畳み込み層から受信する、最大プーリング層を備え、前記最大プーリング層は、各種類の関節の2D場所と前記種類の関節の推定される深度を組み合わせることに先立って、前記2D分解能を1まで低減させ、関節毎に、拡張された深度寸法のみを残す、請求項9または11に記載のシステム。
- 前記3D畳み込み層ブロックのそれぞれは、第1の3D畳み込みと、第1のReLUと、第2の3D畳み込みと、第2のReLUと、最大プーリング層と、再形成層とを備える、請求項9-12のいずれか1項に記載のシステム。
- 各3D畳み込みは、3×3×3以下のカーネルを使用する、請求項13に記載のシステム。
- 前記3D畳み込み層ブロックの前記最大プーリング層は、入力空間寸法のサイズをある分率だけ低減させるが、前記深度寸法を維持し、前記再形成層は、前記深度寸法のサイズを前記分率だけ増加させる、請求項13または14に記載のシステム。
- 前記畳み込みニューラルネットワークは、オブジェクトの画像セグメントおよび3D関節位置を使用した逆伝搬を使用して訓練される、請求項9-15のいずれか1項に記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CA3,046,612 | 2019-06-14 | ||
CA3046612A CA3046612A1 (en) | 2019-06-14 | 2019-06-14 | Method and system for monocular depth estimation of persons |
PCT/IB2020/052936 WO2020250046A1 (en) | 2019-06-14 | 2020-03-27 | Method and system for monocular depth estimation of persons |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2022536790A true JP2022536790A (ja) | 2022-08-18 |
JPWO2020250046A5 JPWO2020250046A5 (ja) | 2023-03-24 |
JP7499280B2 JP7499280B2 (ja) | 2024-06-13 |
Family
ID=73781888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021574764A Active JP7499280B2 (ja) | 2019-06-14 | 2020-03-27 | 人物の単眼深度推定のための方法およびシステム |
Country Status (6)
Country | Link |
---|---|
US (3) | US11354817B2 (ja) |
EP (1) | EP3983997A4 (ja) |
JP (1) | JP7499280B2 (ja) |
KR (1) | KR20220024494A (ja) |
CA (1) | CA3046612A1 (ja) |
WO (1) | WO2020250046A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024128124A1 (ja) * | 2022-12-15 | 2024-06-20 | 日本電気株式会社 | 学習装置、推定装置、学習方法、推定方法ならびに記録媒体 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4121939A4 (en) * | 2020-03-20 | 2024-03-20 | Hinge Health, Inc. | MARKERLESS MOTION CAPTURE OF HANDS USING MULTIPLE POSE ESTIMATION MOTORS |
US12033352B2 (en) * | 2020-12-03 | 2024-07-09 | Tata Consultancy Limited Services | Methods and systems for generating end-to-end model to estimate 3-dimensional(3-D) pose of object |
CN114036969B (zh) * | 2021-03-16 | 2023-07-25 | 上海大学 | 一种多视角情况下的3d人体动作识别算法 |
US12100156B2 (en) | 2021-04-12 | 2024-09-24 | Snap Inc. | Garment segmentation |
KR102636549B1 (ko) * | 2021-08-31 | 2024-02-14 | 광주과학기술원 | 노이즈 개선 네트워크 기반 보행 인식 장치 및 방법 |
US11670059B2 (en) | 2021-09-01 | 2023-06-06 | Snap Inc. | Controlling interactive fashion based on body gestures |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105787439B (zh) * | 2016-02-04 | 2019-04-05 | 广州新节奏智能科技股份有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
WO2018087933A1 (ja) | 2016-11-14 | 2018-05-17 | 富士通株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US10679046B1 (en) * | 2016-11-29 | 2020-06-09 | MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. | Machine learning systems and methods of estimating body shape from images |
EP3462373A1 (en) * | 2017-10-02 | 2019-04-03 | Promaton Holding B.V. | Automated classification and taxonomy of 3d teeth data using deep learning methods |
US10929654B2 (en) * | 2018-03-12 | 2021-02-23 | Nvidia Corporation | Three-dimensional (3D) pose estimation from a monocular camera |
CN108549876A (zh) * | 2018-04-20 | 2018-09-18 | 重庆邮电大学 | 基于目标检测和人体姿态估计的坐姿检测方法 |
US10937173B2 (en) * | 2018-11-15 | 2021-03-02 | Qualcomm Incorporated | Predicting subject body poses and subject movement intent using probabilistic generative models |
US11004230B2 (en) * | 2019-03-22 | 2021-05-11 | Microsoft Technology Licensing, Llc | Predicting three-dimensional articulated and target object pose |
-
2019
- 2019-06-14 CA CA3046612A patent/CA3046612A1/en active Pending
-
2020
- 2020-03-27 EP EP20822773.6A patent/EP3983997A4/en active Pending
- 2020-03-27 WO PCT/IB2020/052936 patent/WO2020250046A1/en active Application Filing
- 2020-03-27 KR KR1020227000964A patent/KR20220024494A/ko unknown
- 2020-03-27 JP JP2021574764A patent/JP7499280B2/ja active Active
-
2021
- 2021-12-14 US US17/644,221 patent/US11354817B2/en active Active
-
2022
- 2022-06-01 US US17/804,909 patent/US11875529B2/en active Active
-
2023
- 2023-11-22 US US18/518,175 patent/US20240087161A1/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024128124A1 (ja) * | 2022-12-15 | 2024-06-20 | 日本電気株式会社 | 学習装置、推定装置、学習方法、推定方法ならびに記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
EP3983997A4 (en) | 2023-06-28 |
US20240087161A1 (en) | 2024-03-14 |
US20220292714A1 (en) | 2022-09-15 |
KR20220024494A (ko) | 2022-03-03 |
EP3983997A1 (en) | 2022-04-20 |
CA3046612A1 (en) | 2020-12-14 |
US11354817B2 (en) | 2022-06-07 |
US11875529B2 (en) | 2024-01-16 |
WO2020250046A1 (en) | 2020-12-17 |
JP7499280B2 (ja) | 2024-06-13 |
US20220108470A1 (en) | 2022-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7499280B2 (ja) | 人物の単眼深度推定のための方法およびシステム | |
US10217195B1 (en) | Generation of semantic depth of field effect | |
WO2020192483A1 (zh) | 图像显示方法和设备 | |
CN107993216B (zh) | 一种图像融合方法及其设备、存储介质、终端 | |
JP7178396B2 (ja) | 入力映像に含まれた客体の3次元ポーズの推定のためのデータを生成する方法およびコンピュータシステム | |
WO2019035155A1 (ja) | 画像処理システム、画像処理方法、及びプログラム | |
KR20210015695A (ko) | 포즈 추정 방법, 포즈 추정 장치, 및 포즈 추정을 위한 트레이닝 방법 | |
CN109815843A (zh) | 目标检测方法及相关产品 | |
GB2584400A (en) | Processing captured images | |
WO2018082308A1 (zh) | 一种图像处理方法及终端 | |
US11159717B2 (en) | Systems and methods for real time screen display coordinate and shape detection | |
JP2023545190A (ja) | 画像の視線補正方法、装置、電子機器、及びコンピュータプログラム | |
CN113807361B (zh) | 神经网络、目标检测方法、神经网络训练方法及相关产品 | |
US11900552B2 (en) | System and method for generating virtual pseudo 3D outputs from images | |
WO2023146241A1 (en) | System and method for generating a three-dimensional photographic image | |
KR20220098895A (ko) | 인체 포즈 추정 장치 및 방법 | |
CN113538704A (zh) | 一种基于光源位置绘制虚拟对象光影的方法及设备 | |
US11954905B2 (en) | Landmark temporal smoothing | |
US20220157016A1 (en) | System and method for automatically reconstructing 3d model of an object using machine learning model | |
CN117529758A (zh) | 用于使用神经网络识别图像和视频中的人类协同活动的方法、系统和介质 | |
CN113361360B (zh) | 基于深度学习的多人跟踪方法及系统 | |
KR20150094108A (ko) | 배경 영상의 위치를 이용한 관심맵 생성 방법 및 이를 기록한 기록 매체 | |
Ciou et al. | Indoor positioning using convolution neural network to regress camera pose | |
KR102625656B1 (ko) | 비대면 소통 플랫폼 맞춤형 영상 합성 방법 | |
TWI696981B (zh) | 使用紅外線攝影機的互動影像處理系統 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230315 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230315 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240419 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240528 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240603 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7499280 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |