CN113723163B - 利用离散姿态学习物理约束的手部运动自监督重建方法 - Google Patents
利用离散姿态学习物理约束的手部运动自监督重建方法 Download PDFInfo
- Publication number
- CN113723163B CN113723163B CN202110291346.1A CN202110291346A CN113723163B CN 113723163 B CN113723163 B CN 113723163B CN 202110291346 A CN202110291346 A CN 202110291346A CN 113723163 B CN113723163 B CN 113723163B
- Authority
- CN
- China
- Prior art keywords
- gesture
- hand
- motion
- frame
- discrete
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000033001 locomotion Effects 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000001514 detection method Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 14
- 230000003068 static effect Effects 0.000 claims description 14
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 4
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 claims 1
- 230000006872 improvement Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明首先提供了利用离散姿态学习物理约束的手部运动自监督重建方法,基于关键帧技术的编码器‑解码器手部运动重建深度学习网络架构,包括以下单元:单帧手部姿态估计单元,其对于视频序列进行逐帧的手部姿态估计;运动序列编码单元,其作用在于从上述逐帧检测结果中提取能够描述手部运动的关键姿态列表,而冗余的或包含高频抖动的姿态帧被舍弃;运动序列解码单元,其作用在于根据上述关键姿态列表,重建出和原始视频序列描述一致的手部运动。
Description
技术领域
本发明涉及涉及计算机视觉、计算机图形学领域,特别是涉及利用离散姿态学习物理约束的手部运动自监督重建方法。
背景技术
使手部姿态运动的重建结果符合物理约束,对于人机交互系统和沉浸式虚拟现实系统都有着重要的意义。以数据手套、多视角标记系统为代表的传统运动重建系统的重建结果虽然具备上述特征,但是由于设备成本高、用户体验感差、标定系统环境要求高等因素,无法得到广泛的商用化。近年来,基于深度学习的单视角手部姿态三维重建克服了传统方法的大多数限制条件,并借助大量的手部姿态数据集,在单帧图像手部姿态重建任务上表现日趋良好。然而,当利用上述算法重建整个运动序列时,无论使用何种迁移方案,都无法使得重建结果具备物理合理性:
1)如果不考虑时序相关性,逐帧检测结果的序列存在大量的高频抖动、手部各部分穿模等违背物理约束的现象;
2)如果使用门控循环单元(GRU)或长短期记忆人工神经网络(LSTM)的网络设计方法进学习,现有手部姿态数据集仅仅包含多样化的姿态,而并不包含多样化的运动。这导致时序算法无法学到可泛化的手部运动特征。
发明内容
为解决上述问题,本发明提出了利用离散姿态学习物理约束的手部运动自监督重建方法,能够利用现有的多样化离散手部静止姿态数据集,学习符合物理约束的手部运动重建。
本发明要解决的技术问题是提供利用离散姿态学习物理约束的手部运动自监督重建方法。在训练过程中,这一系统能够利用现有的多样化手部静止姿态数据集,学习符合物理约束的手部运动。
为达此目的,本发明提供利用离散姿态学习物理约束的手部运动自监督重建方法,具体步骤如下:
利用离散姿态学习物理约束的手部运动自监督重建方法的手部运动重建深度学习网络架构基于关键帧技术的编码器-解码器,包括以下单元:
单帧手部姿态估计单元,其对于视频序列进行逐帧的手部姿态估计;
运动序列编码单元,其作用在于从上述逐帧检测结果中提取能够描述手部运动的关键姿态列表,而冗余的或包含高频抖动的姿态帧被舍弃;
运动序列解码单元,其作用在于根据上述关键姿态列表,重建出和原始视频序列描述一致的手部运动;
步骤1.借助物理引擎的指导,运动序列解码单元被训练掌握由离散的手部姿态生成整个运动轨迹的过程;
步骤2.利用训练好的运动序列解码单元,运动序列编码单元以加入噪声和扰动的解码单元输出作为输入,学习从这一包含噪声的合成运动序列中,提取关键姿态列表,关键姿态列表的监督信号使用运动序列解码单元的输入;
步骤3.将步骤1训练好的运动序列解码单元串联在步骤2训练好的运动序列编码单元之后,使用真实序列数据,对整个网络进行微调训练,使得整个网络更鲁棒的从真实视频序列中抽取关键特征。
作为本发明进一步改进,为了给步骤1提供大量符合真实分布的静态手部姿态分布,一个静态手部姿态数据库被创建,手部姿态的动力学模型的驱动信号被用于整个算法的统一姿态表示,手部姿态的动力学模型为一个完全与真实人手拓扑、自由度相同的物理模型,动力学模型在物理引擎中被创建。
作为本发明进一步改进,静态手部姿态数据库将现有手部姿态数据中的所有姿态都映射到上一步表述的姿态表示,为了增加静态手部数据库的姿态多样性,现有的手部姿态估计网络架构被采用,用于从单帧图像中估计对应的静止姿态表示。
作为本发明进一步改进,步骤1解码单元可以根据任意数目的离散姿态生成贯穿各个静止姿态的运动轨迹,解码单元被设计为循环神经网络模型:每次仅预算关键姿态列表中相邻两个离散状态之间的运动轨迹,之后重复执行这一过程。
作为本发明进一步改进,步骤1编码单元生成的关键帧数目也是根据输入数据来确定而非限定个数,编码单元被设计为一种先学习每个状态对应的偏移量和注意力,之后每一帧的这两个指标进行均值偏移聚类,而聚类时使用的核大小也是可学习的。
作为本发明进一步改进,步骤1训练中,根据同样的离散姿态,运动序列解码单元的输出与由物理引擎逆向动力学求解的输出之间,使用均方误差损失作为距离度量。
作为本发明进一步改进,步骤2训练过程中,编码单元的关键姿态输出与由送入解码单元的离散姿态之间,使用倒角距离进行度量。
作为本发明进一步改进,步骤3微调训练过程中,整个网络架构的输出与输入之间。使用均方误差损失和时间平滑性作为距离度量。
本发明首先提供了一种基于关键帧技术的编码器-解码器手部运动重建深度学习网络架构,包括以下单元:单帧手部姿态估计单元,其对于视频序列进行逐帧的手部姿态估计;运动序列编码单元,其作用在于从上述逐帧检测结果中提取能够描述手部运动的关键姿态列表,而冗余的或包含高频抖动的姿态帧被舍弃;运动序列解码单元,其作用在于根据上述关键姿态列表,重建出和原始视频序列描述一致的手部运动。
附图说明
图1是本发明施例一利用离散姿态数据重建手部运动的流程图;
图2是本发明利用离散姿态数据重建手部运动的网络架构示意图;
图3是本发明利用离散姿态数据重建手部运动的自监督训练流程图;
图4是本发明在整个重建方法在物理引擎中构建的物理手部动力学模型的示意图;
图5是本发明实施例二从单帧图像中估计姿态参数的流程图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
本发明要解决的技术问题是提供利用离散姿态学习物理约束的手部运动自监督重建方法。在训练过程中,这一系统能够利用现有的多样化手部静止姿态数据集,学习符合物理约束的手部运动。
实施例一
图1为本发明实施例的手部运动重建方法流程图,下面参照图1,详细说明各步骤。
步骤S110,输入为包含离散手部姿态的单视角彩色图像序列,这一序列既可以是由单个相机在连续时间段内捕获的一段手部运动,也可以是不同时刻、不同场景下的手部姿态帧拼接得到的序列。
步骤S120,对上述图像序列逐帧姿态估计,得到原始姿态序列。在表示手部姿态时,算法中采用的是对应手部动力学模型各个自由度的转动角度。由于模型是基于真实物理模型创建,该步骤得到的每一帧结果都具备物理合理性,但整个序列包含抖动和噪声。
步骤S130,运动序列编码单元以逐帧检测结果作为输入,从这一原始姿态序列中提取可以代表整个运动的关键姿态列表。该编码单元的结构如图2的(b)所示,包含基于在手拓扑上进行图卷积的特征提取网络和可学习核大小的均值偏移模块,这使得这一单元可以提取不定数目的关键姿态。它的训练过程如图3的训练过程2所示,需要训练好的解码单元辅助训练。
步骤S140,运动序列解码单元以关键姿态列表作为输入,重建与输入图像中示范手部运动一致的手部运动。该编码单元的结构如图2的(a)所示,包含基于在手拓扑上进行图卷积的特征提取网络和循环网络,可以估计贯穿任意数目的给定离散姿态的手部运动轨迹。它的训练过程如图3的训练过程1所示,由物理引擎指导其学习符合逆向运动学的任意两个状态之间的运动轨迹生成。
步骤S131,在编码单元输出的关键帧列表基础上进行更改;
步骤S141,运动序列解码单元以做了更改的关键姿态列表作为输入,
重建出经过编辑的手部运动:为更改的部分仍然与输入图像中示范手部运动一致,更改部分与给定的更改关键姿态一致。
实施例二
图5为从单帧图像中估计姿态参数的流程图。下面参照图5,详细说明各步骤。
首先如图5的(a),卷积神经网络被用于估计单帧彩色图像中的手部关键点二维图像坐标和关节点深度热力图。随后,结合二维坐标热力图和深度热力图,即可得到对应关键点在相机坐标系下的三维坐标。骨骼的长度在这一步被分离记作,而之后将每个骨骼长度被设置为1,即统一三维节点位置。
之后如图5的(b),通过线性优化,记录将统一原始姿态骨架的手掌关键点和上一步估计结果对齐时,需要的刚性变换尺度、平移和旋转,将全局变换从上述结果中分离。
之后如图5的(c),一个基于图卷积的逆向运动学参数估计网络被用于估计手部姿态的非刚性变形参数(动力学模型每个自由度的转角)。为了辅助这一网络的训练,针对手部模型设计的可微前向运动学神经网络被接在上述网络的输出,以产生符合运动学的梯度以改善网络的训练。
借助上述第一步中估计的骨骼比率参数,统一原始姿态骨架可以变形为针对图像的个性化骨架模板;借助上述第二步中估计的全局刚性变换和第三步估计的局部变换参数,个性化骨架模板、三角网格模板以及动力学模型都可以变图像中示例的手部姿态。
实施例三
尽管在实施例一中提供的编码器-解码器架构被联合用于从图像中重建和重编辑手部运动,解码器单元可以单独使用:给定任意手部姿态的初始状态和终止状态,解码器可以推理得到一条符合物理约束的手部运动。因此这一网络可以用于运动生成或运动轨迹规划。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。
Claims (8)
1.利用离散姿态学习物理约束的手部运动自监督重建方法,具体步骤如下,其特征在于:
利用离散姿态学习物理约束的手部运动自监督重建方法的手部运动重建深度学习网络架构基于关键帧技术的编码器-解码器,包括以下单元:
单帧手部姿态估计单元,其对于视频序列进行逐帧的手部姿态估计;
运动序列编码单元,其作用在于运动序列编码单元以逐帧检测结果作为输入,从原始姿态序列中提取代表整个运动的关键姿态列表,而冗余的或包含高频抖动的姿态帧被舍弃;
运动序列解码单元,其作用在于根据上述关键姿态列表,重建出和原始视频序列描述一致的手部运动;
步骤1.借助物理引擎的指导,运动序列解码单元被训练掌握由离散的手部姿态生成整个运动轨迹的过程;
步骤S110,输入为包含离散手部姿态的单视角彩色图像序列,这一序列既可以是由单个相机在连续时间段内捕获的一段手部运动,也可以是不同时刻、不同场景下的手部姿态帧拼接得到的序列;
步骤S120,对上述图像序列逐帧姿态估计,得到原始姿态序列;
步骤2.利用训练好的运动序列解码单元,运动序列编码单元以加入噪声和扰动的解码单元输出作为输入,学习从这一包含噪声的合成运动序列中,提取关键姿态列表,关键姿态列表的监督信号使用运动序列解码单元的输入;
步骤3.将步骤1训练好的运动序列解码单元串联在步骤2训练好的运动序列编码单元之后,使用真实序列数据,对整个网络进行微调训练,使得整个网络更鲁棒的从真实视频序列中抽取关键特征。
2.根据权利要求1所述的利用离散姿态学习物理约束的手部运动自监督重建方法,其特征在于:为了给步骤1提供大量符合真实分布的静态手部姿态分布,一个静态手部姿态数据库被创建,手部姿态的动力学模型的驱动信号被用于整个算法的统一姿态表示,手部姿态的动力学模型为一个完全与真实人手拓扑、自由度相同的物理模型,动力学模型在物理引擎中被创建。
3.根据权利要求2所述的利用离散姿态学习物理约束的手部运动自监督重建方法,其特征在于:静态手部姿态数据库将现有手部姿态数据中的所有姿态都映射到上一步表述的姿态表示,为了增加静态手部数据库的姿态多样性,现有的手部姿态估计网络架构被采用,用于从单帧图像中估计对应的静止姿态表示。
4.根据权利要求1所述的利用离散姿态学习物理约束的手部运动自监督重建方法,其特征在于:步骤1解码单元根据任意数目的离散姿态生成贯穿各个静
止姿态的运动轨迹,解码单元被设计为循环神经网络模型:每次仅预算关键姿态列表中相邻两个离散状态之间的运动轨迹,之后重复执行这一过程。
5.根据权利要求1所述的利用离散姿态学习物理约束的手部运动自监督重建方法,其特征在于:步骤1编码单元生成的关键帧数目也是根据输入数据来确定而非限定个数,编码单元被设计为一种先学习每个状态对应的偏移量和注意力,之后每一帧的这两个指标进行均值偏移聚类,而聚类时使用的核大小也是可学习的。
6.根据权利要求1所述的利用离散姿态学习物理约束的手部运动自监督重建方法,其特征在于:步骤1训练中,根据同样的离散姿态,运动序列解码单元的输出与由物理引擎逆向动力学求解的输出之间,使用均方误差损失作为距离度量。
7.根据权利要求1所述的利用离散姿态学习物理约束的手部运动自监督重建方法,其特征在于:步骤2训练过程中,编码单元的关键姿态输出与由送入解码单元的离散姿态之间,使用倒角距离进行度量。
8.根据权利要求1所述的利用离散姿态学习物理约束的手部运动自监督重建方法,其特征在于:步骤3微调训练过程中,整个网络架构的输出与输入之间;使用均方误差损失和时间平滑性作为距离度量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110291346.1A CN113723163B (zh) | 2021-06-07 | 2021-06-07 | 利用离散姿态学习物理约束的手部运动自监督重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110291346.1A CN113723163B (zh) | 2021-06-07 | 2021-06-07 | 利用离散姿态学习物理约束的手部运动自监督重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113723163A CN113723163A (zh) | 2021-11-30 |
CN113723163B true CN113723163B (zh) | 2024-04-16 |
Family
ID=78672582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110291346.1A Active CN113723163B (zh) | 2021-06-07 | 2021-06-07 | 利用离散姿态学习物理约束的手部运动自监督重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723163B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117636481B (zh) * | 2024-01-25 | 2024-05-14 | 江西师范大学 | 一种基于扩散模型的多模态联合手势动作生成方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046733A (zh) * | 2019-11-12 | 2020-04-21 | 宁波大学 | 一种基于稀疏和深度的3d人体姿态估计方法 |
CN111325797A (zh) * | 2020-03-03 | 2020-06-23 | 华东理工大学 | 一种基于自监督学习的位姿估计方法 |
CN112270692A (zh) * | 2020-10-15 | 2021-01-26 | 电子科技大学 | 一种基于超分辨的单目视频结构和运动预测的自监督方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3731185A1 (en) * | 2019-04-26 | 2020-10-28 | Tata Consultancy Services Limited | Weakly supervised learning of 3d human poses from 2d poses |
-
2021
- 2021-06-07 CN CN202110291346.1A patent/CN113723163B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046733A (zh) * | 2019-11-12 | 2020-04-21 | 宁波大学 | 一种基于稀疏和深度的3d人体姿态估计方法 |
CN111325797A (zh) * | 2020-03-03 | 2020-06-23 | 华东理工大学 | 一种基于自监督学习的位姿估计方法 |
CN112270692A (zh) * | 2020-10-15 | 2021-01-26 | 电子科技大学 | 一种基于超分辨的单目视频结构和运动预测的自监督方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113723163A (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xiang et al. | Deep learning for image inpainting: A survey | |
Yu et al. | Monohuman: Animatable human neural field from monocular video | |
CN110637323A (zh) | 通过使用基于部分的关键帧和先验模型进行鲁棒网格跟踪和融合 | |
CN110660017A (zh) | 一种基于三维姿态识别的舞谱记录与演示方法 | |
CN111047548A (zh) | 姿态变换数据处理方法、装置、计算机设备和存储介质 | |
Tu et al. | Consistent 3d hand reconstruction in video via self-supervised learning | |
CN112037310A (zh) | 基于神经网络的游戏人物动作识别生成方法 | |
CN111028319B (zh) | 一种基于面部运动单元的三维非真实感表情生成方法 | |
CN111553968A (zh) | 一种三维人体重构动画的方法 | |
CN113989928B (zh) | 一种动作捕捉和重定向方法 | |
CN113706670B (zh) | 生成动态三维人体网格模型序列的方法及装置 | |
CN115951784B (zh) | 一种基于双神经辐射场的穿衣人体运动捕捉和生成方法 | |
CN111462274A (zh) | 一种基于smpl模型的人体图像合成方法及系统 | |
CN114550292A (zh) | 一种基于神经运动控制的高物理真实感人体运动捕捉方法 | |
CN113723163B (zh) | 利用离散姿态学习物理约束的手部运动自监督重建方法 | |
CN117218246A (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
Liu et al. | Deep reconstruction of 3-d human poses from video | |
CN114170353A (zh) | 一种基于神经网络的多条件控制的舞蹈生成方法及系统 | |
Chang et al. | 3D hand reconstruction with both shape and appearance from an RGB image | |
Wang et al. | Swimmer’s posture recognition and correction method based on embedded depth image skeleton tracking | |
CN117711066A (zh) | 一种三维人体姿态估计方法、装置、设备及介质 | |
Lv | Robust3D: a robust 3D face reconstruction application | |
AU2022241513A1 (en) | Transformer-based shape models | |
CN113239835B (zh) | 模型感知的手势迁移方法 | |
Shi et al. | Articulated Motion-Aware NeRF for 3D Dynamic Appearance and Geometry Reconstruction by Implicit Motion States |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |