CN113689541A

CN113689541A - 一种交互场景下两人三维人体形状优化重建方法

Info

Publication number: CN113689541A
Application number: CN202110836554.5A
Authority: CN
Inventors: 郑亚莉; 李伟
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-11-23
Anticipated expiration: 2041-07-23
Also published as: CN113689541B

Abstract

本发明公开了一种交互场景下的两人三维人体形状优化重建方法，该方法属于计算机视觉领域，特别是多人三维人体形状重建方法。与现有技术相比，本发明的技术只需要单视频流即可重建；同时对环境要求低，可同时适用于室内和室外场景；本发明提出的碰撞检测方法相对于之前提出的碰撞检测方法精度更高，能更好的防止空间中两人发生相互渗透；本发明提出的基于优化的人体三维形状重建方法相对于基于深度学习的方法，不需要大量的训练数据；本发明提出的分级优化算法可以更好地恢复出人体的全局旋转，避免了初始3D姿态不准确导致人体形状重建失败的发生。

Description

一种交互场景下两人三维人体形状优化重建方法

技术领域

本发明属于计算机视觉领域，特别是多人三维人体形状重建方法。

背景技术

人体形状重建在体育赛事直播、虚拟试衣和视频监测等领域有着广泛的需求。现有的人体形状重建方法主要针对单人重建，常用的人体形状重建方法中需要用到三维激光扫描仪、多相机系统或者RGB-D深度相机。其中使用三维激光扫描仪重建出的人体形状精度最高，通常适用于室内场景。其重建过程主要利用的是TOF的原理，其缺点是成本昂贵，实时性较差。使用多相机系统的方法例如Mocap、Vicon系统，虽然重建精度高，但主要针对人体关键点重建，需要在人身上贴标记点，并且不适合室外场景。使用RGB-D深度相机，并采用微软提出的 Fusion4D方法，主要依赖算法实现人体形状重建，受到传感器的局限，有效距离较短。已有少数的多人重建方法，例如“多人紧密交互场景下的多视角人体动态三维重建方法” (CN201810759264.3)主要是针对多人多视角的重建方法；“一种基于深度UV先验的单视角多人人体重建方法”(CN202110128917.X)，主要利用深度学习的方法来实现单视角重建，需要大量数据训练人体生成网络。

发明内容

本发明的目的在于提出一种基于单视频流交互场景下的两人三维人体形状的重建方法。与已有的多相机重建方法相比，提出的方法只需要单视频序列，是一种不需要训练数据集的重建方法。不仅如此，该方法针对交互场景中防止两人人体重建穿插，提出采用防止碰撞的优化方法来实现两人交互重建。

本发明技术方案为一种交互场景下的两人三维人体形状优化重建方法，该方法包括：

步骤1：检测视频流每帧中人的2D关键点；

使用自底向上的多人2D关键点检测方法，对单个视频序列中的所有视频帧进行2D关键点检测；检测的2D关键点共17个，包括鼻部、左眼、右眼、左耳、右耳、左肩、右肩、左肘部、右肘部、左手腕、右手腕、左髋部、右髋部、左膝、右膝、左脚踝和右脚踝；

步骤2：跟踪视频中的同一人；

从视频的第i帧开始，i＝1，分别跟踪第j人，j＝1,2，即从后一帧F_i+1中找到和前一帧F_i平均误差最小的对应2D关键点，直至最后一帧第N帧；

步骤3：人体模型选择；

对连续视频帧中第j人的2D骨架的最小矩形框进行裁剪，得到图像块P_j；使用开源的性别检测方法对P_j人物性别进行预测，得到男性f、女性m和中性n的性别标签序列L＝{f,m,n}，统计第j人性别标签次数，假定次数分别为s_m，s_f和s_n，则采用其中性别标签出现次数最多的表示第j人的性别L_j＝max{s_m,s_f,s_n}，并选择人体参数化表达SMPL-X中相应的性别模型作为第 j人的初始化人体模型；采用参数化人体模型SMPL-X，其有10个形状参数β和22个姿态参数 θ＝{θ^g,θ^r}，其中，θ^g表示人体姿态的全局旋转，θ^r表示人体局部姿态的相对旋转；通过β和 θ构建人体三维形状；

步骤4：优化人体姿态、形状和相机参数；

两人人体姿态形状重建的损失函数定义如下：

其中，λ_s、λ_3D、λ_cs、λ_cp和λ_reg表示权重系数，N表示图像的总数，θ_i,j、β_i,j和T_i,j分别表示第i张图像中的第j个人的姿态参数、形状参数和相机外参的平移向量；σ表示相应关键点是否合法，合法值为1，不合法值为0；

表示利用SMPL-X模型函数{θ，β}生成人体表面顶点；β_m表示平均的人体形状参数先验，由人体模型数据集中所有形状参数的平均值确定；J表示从人体表面顶点生成人体3D关键点的操作；Π表示将3D关键点通过透视投影操作生成 2D关键点；

最小化L_P，

直到L_P误差不再下降；

步骤5：防止相互渗透优化；

为了防止空间中的两人发生相互穿插，需要对两人进行防碰撞检测；假设两个物体

和的顶点集合分别为Ω_a和Ω_b，面片中心点的集合分别为Γ_a和Γ_b，面片的单位法向量的集合为分别为Ψ_a和Ψ_b；该方法首先需要计算物体各自在对方内部的顶点，让Ω_a中的第k个顶点

找到在Γ_b中的最近的顶点

若

到

的向量与

处的法向量

的夹角小于90°，则

在物体 β表面的外部；反之，

在物体

表面的内部；将Ω_a中所有在物体

内部的点对应到Γ_b中最近点的向量的集合表示为Ψ_ab；反之，将Ω_b中所有在物体

内部的点对应到Γ_a中最近点的向量集合表示为Ψ_ba；则定义两人碰撞检测损失函数如下所示：

其中，d_k和d′_q表示在Ψ_ab和Ψ_ba中第k个和第q个向量；定义视频序列中碰撞检测的损失函数为：

防渗透的损失函数定义如下：

其中，λ_col表示权重系数；优化的表达式为：

最小化该目标函数，直至损失函数L_C不再下降；

步骤6：根据步骤5优化得到的形状参数和姿态参数对应重建两人人体形状。

与现有技术相比，本发明的技术只需要单视频流即可重建；同时对环境要求低，可同时适用于室内和室外场景；本发明提出的碰撞检测方法相对于之前提出的碰撞检测方法精度更高，能更好的防止空间中两人发生相互渗透；本发明提出的基于优化的人体三维形状重建方法相对于基于深度学习的方法，不需要大量的训练数据；本发明提出的分级优化算法可以更好地恢复出人体的全局旋转，避免了初始3D姿态不准确导致人体形状重建失败的发生。

附图说明

图1碰撞检测方法示意图。

图2交互场景下两人三维人体形状优化重建方法流程图。

图3跳舞场景下的三维人体形状重建结果序列。

图4自拍场景下的三维人体形状重建结果序列。

图5拥抱场景下的三维人体形状重建结果序列。

具体实施方式

实验的测试数据为3DPW数据集中含有两人交互的单目视频。根据本专利的方法，重建出每个视频帧中交互两人的三维形状。初始化的参数包括：T₀、T₁、f、c_x和c_y。相机内参的初始化分别为f＝2000、c_x＝w/2和c_y＝h/2。其中，w和h分别表示图像的高和宽。T₀和T₁表示两个人相机外参的平移参数，被初始化为(0,0,4)^T。

其中，步骤5中权重系数λ_s、λ_3D、λ_cs、λ_cp和λ_reg分别设为0.01、1000、10000、1000和0.005；步骤6中权重系数λ_s、λ_3D、λ_cs、λ_cp、λ_reg和λ_col分别设为0.01、1000、10000、1000、 0.005和1。

评估的指标为平均3D关键点误差和平均表面顶点误差，单位为mm。测试的视频总共分为 3个场景，测试结果如表1所示。图3至图5分别为跳舞、自拍、拥抱三个场景的重建结果展示。视频中每10帧取一帧，每个视频展示了24帧的重建结果。

表1.重建定量分析，重建误差(单位:mm)

测试视频名称	跳舞	自拍	拥抱
				视频帧序号范围	30-273	148-600	240-588
平均关键点误差	80.43	101.4	83.26
				平均表面顶点误差	108.7	132.2	92.04

Claims

1.一种交互场景下的两人三维人体形状优化重建方法，该方法包括：

步骤1：检测视频流每帧中人的2D关键点；

步骤2：跟踪视频中的同一人；

步骤3：人体模型选择；

对连续视频帧中第j人的2D骨架的最小矩形框进行裁剪，得到图像块P_j；使用开源的性别检测方法对P_j人物性别进行预测，得到男性f、女性m和中性n的性别标签序列L＝{f,m,n}，统计第j人性别标签次数，假定次数分别为s_m，s_f和s_n，则采用其中性别标签出现次数最多的表示第j人的性别L_j＝max{s_m,s_f,s_n}，并选择人体参数化表达SMPL-X中相应的性别模型作为第j人的初始化人体模型；采用参数化人体模型SMPL-X，其有10个形状参数β和22个姿态参数θ＝{θ^g,θ^r}，其中，θ^g表示人体姿态的全局旋转，θ^r表示人体局部姿态的相对旋转；通过β和θ构建人体三维形状；

步骤4：优化人体姿态、形状和相机参数；

两人人体姿态形状重建的损失函数定义如下：