CN109242950B - 多人紧密交互场景下的多视角人体动态三维重建方法 - Google Patents
多人紧密交互场景下的多视角人体动态三维重建方法 Download PDFInfo
- Publication number
- CN109242950B CN109242950B CN201810759264.3A CN201810759264A CN109242950B CN 109242950 B CN109242950 B CN 109242950B CN 201810759264 A CN201810759264 A CN 201810759264A CN 109242950 B CN109242950 B CN 109242950B
- Authority
- CN
- China
- Prior art keywords
- person
- view
- points
- matching
- gesture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/08—Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉和图形学领域,为提出一种鲁棒的方法实现多人紧密交互下的人体动态三维模型的重建方法,准确地获取紧密交互下多人的人体动态三维模型,本发明采取的技术方案是,多人紧密交互场景下的多视角人体动态三维重建方法,包括以下步骤:1)采集多人紧密交互场景的多视角视频序列;2)对于每一张多视角图片,使用人体骨架2D关键点检测方法估计图片中每个人的2D关键点位置和对应的置信度;3)根据估计得到的每个人每个时刻的2D骨架关键点,进行空时联合的姿态追踪;4)由步骤3)得到追踪后的2D姿态,通过多人多视角的3D形状和姿态估计方法,拟合多人的三维模型。本发明主要应用于获取紧密交互下多人的人体动态三维模型场合。
Description
技术领域
本发明属于计算机视觉和图形学领域,具体讲,涉及人体关键点检测、追踪和人体三维模型重建方法。
背景技术
在计算机视觉和计算机图形学中,无标记人体运动捕捉已经成为一个热门并且具有挑战性的热点问题,其主要任务是通过跟踪视频中移动对象的运动来恢复动态时间一致的3D形状。最近十年以来单人运动捕捉方法取得了巨大的进步,然而当前的方法需要对相机进行设置或处于一个受控的工作室环境中,并且依赖于良好的图像分割技术。在多人的情况下,由于多人分割和姿态估计比较困难,直接使用现有的单人估计方法不能得到令人满意的结果。尽管一些方法(MUSTAFA A.,KIM H.,GUILLEMAUT J.Y.,HILTON A.Generaldynamic scene reconstruction from multiple view video.In Proc.IEEEInternational Conference on Computer Vision(2017),pp.900–908.)可以处理多人的情形,但是捕捉场景都是受限的,并且仅仅只是人与人之间简单的交互即不会产生遮挡问题。然而在现实生活中,人与人之间的紧密交互是非常常见的,例如,拥抱、双人舞蹈和打斗等,同时,这些情形在电影或者动画中是经常存在的。
发明内容
为克服现有技术的不足,本发明提出一种鲁棒的方法实现多人紧密交互下的人体动态三维模型的重建方法,准确地获取紧密交互下多人的人体动态三维模型,本发明采取的技术方案是,多人紧密交互场景下的多视角人体动态三维重建方法,包括以下步骤:
1)采集多人紧密交互场景的多视角视频序列;
2)对于每一张多视角图片,使用人体骨架2D关键点检测方法估计图片中每个人的2D 关键点位置和对应的置信度;
3)根据估计得到的每个人每个时刻的2D骨架关键点,进行空时联合的姿态追踪;
4)由步骤3)得到追踪后的2D姿态,通过多人多视角的3D形状和姿态估计方法,拟合多人的三维模型。
步骤3)的空时联合姿态追踪,具体包括以下步骤:
3-1)将步骤2)估计得到的2D人体姿态,先对第一帧时刻的多视角图片进行多人顺序标记,使得多视角图片下的2D人体姿态顺序一致,为了追踪多视角下的同一个人,匹配公式为:
其中B1和B2分别表示为两张图片中两个人的框图bounding box,表示为第一个bounding box中的检测点,表示为在第二个bounding box中对应的匹配点,其中采用的匹配算法为 Deepmatching,根据匹配的结果,推断两图为同一个人的可能性;
3-2)在同一个视角序列相邻的两帧中,采用时域追踪的方法,具体来说,采用ORBmatching方法检测特征点,并对两帧中的两个人计算bounding box的交并比IOU,即:
其中B1和B2分别表示为两帧中两个人的bounding box,两者的交集表示匹配的特征点,并集表示为特征点的和;
3-3)将估计得到的2D关键点计算相似度,分别将两个关键点看作小boundingbox,大小为人体整体bounding box的10%,计算公式为:
其中P1和P2分别为两帧中两个人所有关键点bounding box的和,mi为从P1中的一个关键点的bounding box中提取到的特征点,ni为从P2中对应关键点bounding box中匹配的特征点,通过计算其百分比推断两个人的相似度;
3-4)结合公式(2)和(3)来计算相邻两帧中的两个人的相似度,即:
T(P1,P2,B1,B2)=Pd(P1,P2)+Bo(B1+B2) (4)
3-5)若当前帧中丢失2D关键点,则从前一帧中添加,为了鲁棒的表示添加的2D关键点,设置一个处罚函数为:
其中,ci是由步骤2)计算而得的每个关键点的置信度;
3-6)采用时域追踪以后,在多视角序列的同一时刻中,再联合空域追踪,使得追踪后的 2D关键点顺序标记更加准确鲁棒,具体来说,先对每个视角序列下的每一个人,验证其顺序标记的准确性,检验公式为:
3-7)为了矫正不准确的顺序,采用下面的矫正函数:
其中Np是要重新追踪的顺序,计算并得到最大相似度的顺序作为新顺序。
步骤4)的多人多视角的3D形状和姿态估计方法,具体包括以下步骤:
4-1)根据步骤3)中追踪得到的2D关键点,进行多视角的模型拟合,能量方程为:
其中Ep是先验项,Ej是数据项,Kv是v视角相机的相机参数,β和θ分别表示为参数化模型的形状参数和姿态参数,先验项定义为:
Ep=λθEθ(θ)+λβEβ(β) (9)
其中Eθ是姿态先验,Eβ是形状先验,λβ和λθ为由数据驱动的参数;Ej是多视角数据项,定义如下:
其中Ji(β)是三维模型的骨架关节位置,Rθ是全局刚性变换经由姿态θ,∏是投影函数,ci是2D关键点的置信度,是v视角下一个人的一个2D关键点,ρσ是一个处罚函数,减少因为噪声估计而产生的误差,处罚函数定义为:
其中σ是常量,e是残差项。
本发明的方法的特点及效果:
本发明方法根据多视角视频进行紧密交互下的多人动态三维模型重建,共享多视角下的图片信息,从而得到准确鲁棒的三维模型,具体具有以下特点:
1、操作简单,易于实现;
2、采用空时联合的追踪方法,进行准确的人体2D姿态追踪;
3、根据多视角包含更丰富的信息进行3D形状和姿态估计,减少由错误估计产生的误差。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明方法的流程图;
图2为2D关键点估计结果图;
图3为姿态追踪结果图;
图4为本发明最终重建出的某一时刻的三维模型结果。
具体实施方式
本发明采取的技术方案是基于多视角视频对紧密交互下的多人场景进行人体形状和姿态估计,包括以下步骤:
1)采集多人紧密交互场景的多视角视频序列;
2)对于每一张多视角图片,使用人体骨架2D关键点检测方法估计图片中每个人的2D 关键点位置和对应的置信度;
3)根据估计得到的每个人每个时刻的2D骨架关键点,进行空时联合的姿态追踪;
4)由步骤3)得到追踪后的2D姿态,通过多人多视角的3D形状和姿态估计方法,拟合多人的三维模型,2D、3D分别表示二维、三维。
步骤3)的空时联合姿态追踪,具体包括以下步骤:
3-1)将步骤2)估计得到的2D人体姿态,先对第一帧时刻的多视角图片进行多人顺序标记,使得多视角图片下的2D人体姿态顺序一致,为了追踪多视角下的同一个人,匹配公式为:
其中B1和B2分别表示为两张图片中两个人的bounding box(框图),表示为第一个 bounding box中的检测点,表示为在第二个bounding box中对应的匹配点,其中采用的匹配算法为Deepmatching,根据匹配的结果,我们可以推断两个人的为同一个人的可能性;
3-2)在同一个视角序列相邻的两帧中,采用时域追踪的方法,具体来说,采用ORBmatching方法检测特征点,并对两帧中的两个人计算bounding box的IOU(交并比),即:
其中B1和B2分别表示为两帧中两个人的bounding box,两者的交集表示匹配的特征点,并集表示为特征点的和;
3-3)将估计得到的2D关键点计算相似度,分别将两个关键点看作小boundingbox,大小为人体整体bounding box的10%,计算公式为:
其中P1和P2分别为两帧中两个人所有关键点bounding box的和,mi为从P1中的一个关键点的bounding box中提取到的特征点,ni为从P2中对应关键点bounding box中匹配的特征点,通过计算其百分比推断两个人的相似度;
3-4)结合公式(2)和(3)来计算相邻两帧中的两个人的相似度,即:
T(P1,P2,B1,B2)=Pd(P1,P2)+Bo(B1+B2) (4)
3-5)若当前帧中丢失2D关键点,则从前一帧中添加。为了鲁棒的表示添加的2D关键点,设置一个处罚函数为:
其中,ci是由步骤2)计算而得的每个关键点的置信度。
3-6)采用时域追踪以后,在多视角序列的同一时刻中,再联合空域追踪,使得追踪后的2D关键点顺序标记更加准确鲁棒。具体来说,先对每个视角序列下的每一个人,验证其顺序标记的准确性,检验公式为:
3-7)为了矫正不准确的顺序,采用下面的矫正函数:
其中Np是要重新追踪的顺序,计算并得到最大相似度的顺序作为新顺序。
步骤4)的多人多视角的3D形状和姿态估计方法,具体包括以下步骤:
4-1)根据步骤3)中追踪得到的2D关键点,进行多视角的模型拟合,能量方程为:
其中Ep是先验项,Ej是数据项,Kv是v视角相机的相机参数,β和θ分别表示为参数化模型的形状参数和姿态参数,先验项定义为:
Ep=λθEθ(θ)+λβEβ(β) (9)
其中Eθ是姿态先验,Eβ是形状先验,λβ和λθ为由数据驱动的参数;Ej是多视角数据项,定义如下:
其中Ji(β)是三维模型的骨架关节位置,Rθ是全局刚性变换经由姿态θ,∏是投影函数,ci是2D关键点的置信度,是v视角下一个人的一个2D关键点,ρσ是一个处罚函数,减少因为噪声估计而产生的误差,处罚函数定义为:
其中σ是常量,e是残差项。
下表给出了采用不同视角个数拟合出的三维模型与真实数据的之间的误差结果:
其中平均误差和标准差的单位均为毫米(mm)。
Claims (2)
1.一种多人紧密交互场景下的多视角人体动态三维重建方法,其特征是,包括以下步骤:
1)采集多人紧密交互场景的多视角视频序列;
2)对于每一张多视角图片,使用人体骨架2D关键点检测方法估计图片中每个人的2D关键点位置和对应的置信度;
3)根据估计得到的每个人每个时刻的2D骨架关键点,进行空时联合的姿态追踪;
4)由步骤3)得到追踪后的2D姿态,通过多人多视角的3D形状和姿态估计方法,拟合多人的三维模型;
步骤3)的空时联合姿态追踪,具体包括以下步骤:
3-1)将步骤2)估计得到的2D人体姿态,先对第一帧时刻的多视角图片进行多人顺序标记,使得多视角图片下的2D人体姿态顺序一致,为了追踪多视角下的同一个人,匹配公式为:
其中B1和B2分别表示为两张图片中两个人的框图bounding box,表示为第一个bounding box中的特征点,表示为在第二个bounding box中对应的匹配点,其中采用的匹配算法为Deepmatching,根据匹配的结果,推断两图为同一个人的可能性;
3-2)在同一个视角序列相邻的两帧中,采用时域追踪的方法,具体来说,采用ORBmatching方法检测特征点,并对两帧中的两个人计算bounding box的交并比IOU,即:
其中B1和B2分别表示为两帧中两个人的bounding box,两者的交集表示匹配的特征点,并集表示为特征点的和;
3-4)将估计得到的2D关键点计算相似度,分别将两个关键点看作小bounding box,大小为人体整体bounding box的10%,计算公式为:
其中P1和P2分别为两帧中两个人所有关键点bounding box的和,mi为从P1中的一个关键点的bounding box中提取到的特征点,ni为从P2中对应关键点bounding box中匹配的特征点,通过计算其百分比推断两个人的相似度;
3-4)结合公式(2)和(3)来计算相邻两帧中的两个人的相似度,即:
T(P1,P2,B1,B2)=Pd(P1,P2)+Bo(B1+B2) (4)
3-5)若当前帧中丢失2D关键点,则从前一帧中添加,为了鲁棒的表示添加的2D关键点,设置一个处罚函数为:
其中,cg是由步骤2)计算而得的每个关键点的置信度;
3-6)采用时域追踪以后,在多视角序列的同一时刻中,再联合空域追踪,使得追踪后的2D关键点顺序标记更加准确鲁棒,具体来说,先对每个视角序列下的每一个人,验证其顺序标记的准确性,检验公式为:
3-7)为了矫正不准确的顺序,采用下面的矫正函数:
其中Np是要重新追踪的顺序,计算并得到最大相似度的顺序作为新顺序。
2.如权利要求1所述的多人紧密交互场景下的多视角人体动态三维重建方法,其特征是,步骤4)的多人多视角的3D形状和姿态估计方法,具体包括以下步骤:
4-1)根据步骤3)中追踪得到的2D关键点,进行多视角的模型拟合,能量方程为:
其中Ep是先验项,Ej是数据项,Kv是v视角相机的相机参数,β和θ分别表示为参数化模型的形状参数和姿态参数,先验项定义为:
Ep=λθEθ(θ)+λβEβ(β) (9)
其中Eθ是姿态先验,Eβ是形状先验,λβ和λθ为由数据驱动的参数;Ej是多视角数据项,定义如下:
其中Jg(β)是三维模型的骨架关节位置,Rθ是全局刚性变换经由姿态θ,Π是投影函数,ci是2D关键点的置信度,是v视角下一个人的一个2D关键点,ρσ是一个处罚函数,减少因为噪声估计而产生的误差,处罚函数定义为:
其中σ是常量,e是残差项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810759264.3A CN109242950B (zh) | 2018-07-11 | 2018-07-11 | 多人紧密交互场景下的多视角人体动态三维重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810759264.3A CN109242950B (zh) | 2018-07-11 | 2018-07-11 | 多人紧密交互场景下的多视角人体动态三维重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109242950A CN109242950A (zh) | 2019-01-18 |
CN109242950B true CN109242950B (zh) | 2023-05-02 |
Family
ID=65072459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810759264.3A Active CN109242950B (zh) | 2018-07-11 | 2018-07-11 | 多人紧密交互场景下的多视角人体动态三维重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109242950B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109785322B (zh) * | 2019-01-31 | 2021-07-02 | 北京市商汤科技开发有限公司 | 单眼人体姿态估计网络训练方法、图像处理方法和装置 |
CN110348371B (zh) * | 2019-07-08 | 2023-08-29 | 叠境数字科技(上海)有限公司 | 人体三维动作自动提取方法 |
CN110348370B (zh) * | 2019-07-09 | 2021-05-11 | 北京猫眼视觉科技有限公司 | 一种人体动作识别的增强现实系统及方法 |
EP3836085A1 (en) | 2019-12-13 | 2021-06-16 | Sony Corporation | Multi-view three-dimensional positioning |
CN111582036B (zh) * | 2020-04-09 | 2023-03-07 | 天津大学 | 可穿戴设备下基于形状和姿态的跨视角人物识别方法 |
CN111798486B (zh) * | 2020-06-16 | 2022-05-17 | 浙江大学 | 基于人体运动预测的多视角人体运动捕捉方法 |
CN111738220B (zh) * | 2020-07-27 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 三维人体姿态估计方法、装置、设备及介质 |
CN112183184B (zh) * | 2020-08-13 | 2022-05-13 | 浙江大学 | 基于非同步视频的运动捕捉方法 |
CN113065458B (zh) * | 2021-03-29 | 2024-05-28 | 芯算一体(深圳)科技有限公司 | 基于手势识别的投票方法与系统、电子设备 |
US20240161316A1 (en) * | 2021-04-26 | 2024-05-16 | Intel Corporation | Method and system of image processing with multi-skeleton tracking |
CN113689541B (zh) * | 2021-07-23 | 2023-03-07 | 电子科技大学 | 一种交互场景下两人三维人体形状优化重建方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102446366A (zh) * | 2011-09-14 | 2012-05-09 | 天津大学 | 时空联合多视角视频插值及三维建模方法 |
CN104992441A (zh) * | 2015-07-08 | 2015-10-21 | 华中科技大学 | 一种面向个性化虚拟试衣的真实人体三维建模方法 |
-
2018
- 2018-07-11 CN CN201810759264.3A patent/CN109242950B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102446366A (zh) * | 2011-09-14 | 2012-05-09 | 天津大学 | 时空联合多视角视频插值及三维建模方法 |
CN104992441A (zh) * | 2015-07-08 | 2015-10-21 | 华中科技大学 | 一种面向个性化虚拟试衣的真实人体三维建模方法 |
Non-Patent Citations (2)
Title |
---|
RMPE: Regional Multi-Person Pose Estimation;Hao-Shu Fang等;《arXiv》;20180404;摘要,正文第3章 * |
Towards Accurate Marker-less Human Shape and Pose Estimation over Time;Yinghao Huang等;《arXiv》;20180430;摘要,正文第III-IV章 * |
Also Published As
Publication number | Publication date |
---|---|
CN109242950A (zh) | 2019-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109242950B (zh) | 多人紧密交互场景下的多视角人体动态三维重建方法 | |
Xu et al. | Eventcap: Monocular 3d capture of high-speed human motions using an event camera | |
Yu et al. | 3d reconstruction from accidental motion | |
Helten et al. | Personalization and evaluation of a real-time depth-based full body tracker | |
US9613420B2 (en) | Method for locating a camera and for 3D reconstruction in a partially known environment | |
CN109377513B (zh) | 一种针对两视图的全局三维人体姿态可信估计方法 | |
Singh et al. | Action recognition in cluttered dynamic scenes using pose-specific part models | |
US20110187703A1 (en) | Method and system for object tracking using appearance model | |
CN103002309B (zh) | 对于多目同步摄像机拍摄的动态场景视频的时空一致性深度恢复的方法 | |
KR20160098560A (ko) | 동작 분석 장치 및 방법 | |
WO2022241583A1 (zh) | 一种基于多目视频的家庭场景动作捕捉方法 | |
Moustakas et al. | Stereoscopic video generation based on efficient layered structure and motion estimation from a monoscopic image sequence | |
Shao et al. | Robust height estimation of moving objects from uncalibrated videos | |
US11212510B1 (en) | Multi-camera 3D content creation | |
Li et al. | MannequinChallenge: Learning the depths of moving people by watching frozen people | |
Shere et al. | 3D Human Pose Estimation From Multi Person Stereo 360 Scenes. | |
Li et al. | Three-dimensional motion estimation via matrix completion | |
JP2002032741A (ja) | 3次元画像生成システムおよび3次元画像生成方法、並びにプログラム提供媒体 | |
JP4568967B2 (ja) | 3次元画像生成システムおよび3次元画像生成方法、並びにプログラム記録媒体 | |
Chen et al. | Self-supervised transfer learning for hand mesh recovery from binocular images | |
Belongie et al. | Structure from periodic motion | |
Lee et al. | Globally consistent video depth and pose estimation with efficient test-time training | |
Usón et al. | Analysing Foreground Segmentation in Deep Learning Based Depth Estimation on Free-Viewpoint Video Systems | |
Cordea et al. | 3D head pose recovery for interactive virtual reality avatars | |
Hara et al. | Fast-accurate 3d face model generation using a single video camera |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |