CN107945269A

CN107945269A - 基于多视点视频的复杂动态人体对象三维重建方法及系统

Info

Publication number: CN107945269A
Application number: CN201711433635.0A
Authority: CN
Inventors: 刘烨斌; 王金宝; 戴琼海; 吕科
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2018-04-20

Abstract

本发明公开了一种基于多视点视频的复杂动态人体对象三维重建方法及系统，其中，方法包括以下步骤：对目标人体对象进行多视点拍摄，获得在同一时刻下的多视点二维图像；利用深度网络学习后的深度神经网络模型分别对每个视点的二维图像序列中的人体各部分进行预测，分割出目标人体对象的轮廓信息和人体对象的骨架信息；利用标定后的每个视点的相机内参和外参信息，结合分割后的目标人体对象的轮廓信息和人体对象的骨架信息，进行人体的三维建模。该方法可以结合相机标定等过程对视频序列中的人体对象进行三维重建，从而实现准确的人物对象分割，同时达到对人体的定位，有效提高重建的准确性和可靠性。

Description

基于多视点视频的复杂动态人体对象三维重建方法及系统

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于多视点视频的复杂动态人体对象三维重建方法及系统。

背景技术

相关技术中，三维重建是根据单视图或者多视图的图像重建三维信息的过程，由于单视频的信息不完全，因此三维重建需要利用经验知识，而多视图的三维重建能够利用更多的多视点视频的二维图像的信息，重建出三维模型。然而，目前大多的三维重建算法，对二维信息的利用不够精确和全面，计算过程过度依赖外部设备提供的信息，如深度相机提供的深度信息等，或依赖于对目标和背景的分割结果等，造成重建出的结果仍比较粗糙。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于多视点视频的复杂动态人体对象三维重建方法，该方法可以实现准确的人物对象分割，同时达到对人体的定位，有效提高重建的准确性和可靠性。

本发明的另一个目的在于提出一种基于多视点视频的复杂动态人体对象三维重建系统。

为达到上述目的，本发明一方面实施例提出了一种基于多视点视频的复杂动态人体对象三维重建方法，包括以下步骤：对目标人体对象进行多视点拍摄，获得在同一时刻下的多视点二维图像；利用深度网络学习后的深度神经网络模型分别对每个视点的二维图像序列中的人体各部分进行预测，分割出目标人体对象的轮廓信息和人体对象的骨架信息；利用标定后的每个视点的相机内参和外参信息，结合分割后的所述目标人体对象的轮廓信息和所述人体对象的骨架信息，进行人体的三维建模。

本发明实施例的基于多视点视频的复杂动态人体对象三维重建方法，可以利用多个视点提供的二维信息，利用深度学习的方法解决目标人体对象与复杂背景的分割问题，结合相机标定等过程对视频序列中的人体对象进行三维重建，从而实现准确的人物对象分割，同时达到对人体的定位，有效提高重建的准确性和可靠性。

另外，根据本发明上述实施例的基于多视点视频的复杂动态人体对象三维重建方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述对目标人体对象进行多视点拍摄，获得在同一时刻下的多视点二维图像，包括：将多个视角的摄像头架设在人体对象周围，并对准在人体对象运动范围之内，保证摄像头一致，以获得在同一时刻下的多视点二维图像。

进一步地，在本发明的一个实施例中，所述利用深度网络学习后的深度神经网络模型分别对每个视点的二维图像序列中的人体各部分进行预测，分割出目标人体对象的轮廓信息和人体对象的骨架信息，包括：利用深度卷积神经网络DPM(Deep Pose Machines，深度卷积神经网络)对人体的各部分关节点进行预测；利用深度卷积神经网络LIP(Look intoPerson，深度卷积神经网络)对人体的各身体部分进行预测，获得人物轮廓信息。

进一步地，在本发明的一个实施例中，在所述利用深度卷积神经网络LIP对人体的各身体部分进行预测时，利用自己网络预测的关节点响应图同真实响应图计算损失loss，其中，

L_Structure＝L_Joint·L_Parsing，

其中，L_Structure是结构损失，是整个网络的损失，是网络预测值，是真实标签值，L_Parsing是softmaxloss，L_Joint是关节点预测值与真实值之间的损失。

进一步地，在本发明的一个实施例中，所述利用标定后的每个视点的相机内参和外参信息，结合分割后的目标人体对象的轮廓信息和人体对象的骨架信息，进行人体的三维建模，包括：对每个视角拍摄的相机进行标定，获得每个相机的内参和外参信息；利用目标人体对象的轮廓信息，遍历空间模型中的每个点，确定是否属于人体对象；如果空间的点投影到多个二维平面视图中都在人体对象轮廓内，则认为相应的点属于三维人体对象，直到遍历空间中的每个点，获得最终的人体的三维建模。

为达到上述目的，本发明另一方面实施例提出了一种基于多视点视频的复杂动态人体对象三维重建系统，包括：拍摄模块，用于对目标人体对象进行多视点拍摄，获得在同一时刻下的多视点二维图像；信息获取模块，用于利用深度网络学习后的深度神经网络模型分别对每个视点的二维图像序列中的人体各部分进行预测，分割出目标人体对象的轮廓信息和人体对象的骨架信息；三维重建模块，用于利用标定后的每个视点的相机内参和外参信息，结合分割后的所述目标人体对象的轮廓信息和所述人体对象的骨架信息，进行人体的三维建模。

本发明实施例的基于多视点视频的复杂动态人体对象三维重建系统，可以利用多个视点提供的二维信息，利用深度学习的方法解决目标人体对象与复杂背景的分割问题，结合相机标定等过程对视频序列中的人体对象进行三维重建，从而实现准确的人物对象分割，同时达到对人体的定位，有效提高重建的准确性和可靠性。

另外，根据本发明上述实施例的基于多视点视频的复杂动态人体对象三维重建系统还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述拍摄模块还用于将多个视角的摄像头架设在人体对象周围，并对准在人体对象运动范围之内，保证摄像头一致，以获得在同一时刻下的多视点二维图像。

进一步地，在本发明的一个实施例中，所述信息获取模块还用于利用深度卷积神经网络DPM对人体的各部分关节点进行预测，以及利用深度卷积神经网络LIP对人体的各身体部分进行预测，获得人物轮廓信息。

L_structure＝L_Joint·L_Parsing，

进一步地，在本发明的一个实施例中，所述三维重建模块还用于对每个视角拍摄的相机进行标定，获得每个相机的内参和外参信息，并利用目标人体对象的轮廓信息，遍历空间模型中的每个点，确定是否属于人体对象，以及如果空间的点投影到多个二维平面视图中都在人体对象轮廓内，则认为相应的点属于三维人体对象，直到遍历空间中的每个点，获得最终的人体的三维建模。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于多视点视频的复杂动态人体对象三维重建方法的流程图；

图2为根据本发明一个实施例的获得的多视角视频序列中单角度单帧图像的示意图；

图3为根据本发明一个实施例的对目标人体对象进行分割重建示意图；

图4为根据本发明一个实施例的深度卷积神经网络(Deep Pose Machines)流程图；

图5为根据本发明一个实施例的深度卷积神经网络(Deep Pose Machines)人体骨架预测结果图；

图6为根据本发明一个实施例的深度卷积神经网络(Look into Person)流程图；

图7为根据本发明一个实施例的深度卷积神经网络(Look into Person)分割人体各部位预测结果图；

图8为根据本发明一个实施例的三维人体重建结果图；

图9为根据本发明一个实施例的三维人体骨架重建结果图；

图10为根据本发明一个实施例的基于多视点视频的复杂动态人体对象三维重建系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于多视点视频的复杂动态人体对象三维重建方法及系统，首先将参照附图描述根据本发明实施例提出的基于多视点视频的复杂动态人体对象三维重建方法。

图1是本发明一个实施例的基于多视点视频的复杂动态人体对象三维重建方法的流程图。

如图1所示，该基于多视点视频的复杂动态人体对象三维重建方法包括以下步骤：

在步骤S101中，对目标人体对象进行多视点拍摄，获得在同一时刻下的多视点二维图像。

也就是说，如图2所示，本发明实施例可以对目标人体对象进行多视点拍摄，以便获得在同一时刻下的多视点二维图像。

进一步地，在本发明的一个实施例中，对目标人体对象进行多视点拍摄，获得在同一时刻下的多视点二维图像，包括：将多个视角的摄像头架设在人体对象周围，并对准在人体对象运动范围之内，保证摄像头一致，以获得在同一时刻下的多视点二维图像。

具体而言，本发明实施例只需要将多个若干角度的摄像头架设在人体对象周围，并对准在人体对象运动范围之内即可，并尽量保证摄像头一致，包括同一型号同一高度等，利于得到更好的重建效果。

在步骤S102中，利用深度网络学习后的深度神经网络模型分别对每个视点的二维图像序列中的人体各部分进行预测，分割出目标人体对象的轮廓信息和人体对象的骨架信息。

可以理解的是，如图3所示，本发明实施例可以利用深度网络学习后的模型对视频序列中的人体各部分进行预测，分割出目标人体对象的轮廓信息和获得人体对象的骨架信息。

进一步地，在本发明的一个实施例中，利用深度网络学习后的深度神经网络模型分别对每个视点的二维图像序列中的人体各部分进行预测，分割出目标人体对象的轮廓信息和人体对象的骨架信息，包括：利用深度卷积神经网络DPM对人体的各部分关节点进行预测；利用深度卷积神经网络LIP对人体的各身体部分进行预测，获得人物轮廓信息。

可以理解的是，本发明实施例可以利用深度卷积神经网络(Deep Pose Machines)对人体各部分关节点进行预测，和利用深度卷积神经网络(Look into Person)对人体各身体部分进行预测，获得任务轮廓信息。利用神经网络方法的优势在于，避免从传统的图像分割的角度达不到足够分割的精度和复杂背景下过度分割的缺点，能够实现准确的人物对象分割，同时达到对人体的定位。该部分是三维重建的核心，对重建结果起到关键的作用。

另外，深度神经网络结构如图4所示，本发明实施例可以用人体各部件响应图来表达各部件之间的空间约束，并且响应图和特征图一起作为数据在网络中传递，其中，网络可以分为多个阶段(stage)，并且各个阶段都有监督训练，从而避免过深网络难以优化的问题。因为使用同一个网络，同时在多个尺度处理输入的特征和响应，从而不仅能确保精度，而且还考虑了各个部件之间的远距离关系。算法的主要流程为在每一个尺度下，计算各个部件的响应图，对于每个部件，累加所有尺度的响应图，得到总响应图，最后在每个部件的总响应图上，找出相应最大的点，即为该部件位置，最终获得的预测结果如图5所示。

可选地，在本发明的一个实施例中，在利用深度卷积神经网络LIP对人体的各身体部分进行预测时，利用自己网络预测的关节点响应图同真实响应图计算损失loss，其中，

L_Structure＝L_Joint·L_Parsing，

具体而言，深度卷积神经网络结构如图6所示，该训练网络是基于自监督结构敏感的深度神经网络，网络主体部分采用注意力模型(Attention)，自监督体现利用自己网络预测的关节点响应图同真实响应图计算损失loss，其中，

L_Structure＝L_Joint·L_Parsing，

L_structure是结构损失(structure loss)，是整个网络的损失，是网络预测值，是真实标签值，L_Parsing是softmaxloss，即Attention模型的分割后的损失，L_Joint是关节点预测值与真实值之间的损失。最终获得的预测分割结果如图7所示。

在步骤S103中，利用标定后的每个视点的相机内参和外参信息，结合分割后的目标人体对象的轮廓信息和人体对象的骨架信息，进行人体的三维建模。

也就是说，如图3所示，本发明实施例可以利用标定后的各视点相机内外参信息，并结合分割后的人体对象的信息，从而进行三维建模

进一步地，在本发明的一个实施例中，利用标定后的每个视点的相机内参和外参信息，结合分割后的目标人体对象的轮廓信息和人体对象的骨架信息，进行人体的三维建模，包括：对每个视角拍摄的相机进行标定，获得每个相机的内参和外参信息；利用目标人体对象的轮廓信息，遍历空间模型中的每个点，确定是否属于人体对象；如果空间的点投影到多个二维平面视图中都在人体对象轮廓内，则认为相应的点属于三维人体对象，直到遍历空间中的每个点，获得最终的人体的三维建模。

具体而言，本发明实施例可以首先对若干个视角的摄像机进行标定，从而获得每个相机的内外参信息对场景进行空间模型。然后利用Visual Hull的方法，利用多个视图下的人体对象轮廓信息和骨架信息，遍历空间模型中的每个点，确定是否属于人体对象，如果该空间点投影到多个二维平面视图中都在人体对象轮廓内，则认为该点属于三维人体对象，直到遍历完空间中的每个点，则获得了最终的三维人体模型，如图8所示，和人体骨架模型，如图9所示。

根据本发明实施例提出的基于多视点视频的复杂动态人体对象三维重建方法，可以利用多个视点提供的二维信息，利用深度学习的方法解决目标人体对象与复杂背景的分割问题，结合相机标定等过程对视频序列中的人体对象进行三维重建，从而实现准确的人物对象分割，同时达到对人体的定位，有效提高重建的准确性和可靠性。

其次参照附图描述根据本发明实施例提出的基于多视点视频的复杂动态人体对象三维重建系统。

图10是本发明一个实施例的基于多视点视频的复杂动态人体对象三维重建系统的结构示意图。

如图10所示，该基于多视点视频的复杂动态人体对象三维重建系统10包括：拍摄模块100、信息获取模块200和三维重建模块300。

拍摄模块100用于对目标人体对象进行多视点拍摄，获得在同一时刻下的多视点二维图像。信息获取模块200用于利用深度网络学习后的深度神经网络模型分别对每个视点的二维图像序列中的人体各部分进行预测，分割出目标人体对象的轮廓信息和人体对象的骨架信息。三维重建模块300用于利用标定后的每个视点的相机内参和外参信息，结合分割后的目标人体对象的轮廓信息和人体对象的骨架信息，进行人体的三维建模。本发明实施例的系统10可以实现准确的人物对象分割，同时达到对人体的定位，有效提高重建的准确性和可靠性

进一步地，在本发明的一个实施例中，拍摄模块100还用于将多个视角的摄像头架设在人体对象周围，并对准在人体对象运动范围之内，保证摄像头一致，以获得在同一时刻下的多视点二维图像。

进一步地，在本发明的一个实施例中，信息获取模块200还用于利用深度卷积神经网络DPM对人体的各部分关节点进行预测，以及利用深度卷积神经网络LIP对人体的各身体部分进行预测，获得人物轮廓信息。

进一步地，在本发明的一个实施例中，在利用深度卷积神经网络LIP对人体的各身体部分进行预测时，利用自己网络预测的关节点响应图同真实响应图计算损失loss，其中，

L_Structure＝L_Joint·L_Parsing，

进一步地，在本发明的一个实施例中，三维重建模块300还用于对每个视角拍摄的相机进行标定，获得每个相机的内参和外参信息，并利用目标人体对象的轮廓信息，遍历空间模型中的每个点，确定是否属于人体对象，以及如果空间的点投影到多个二维平面视图中都在人体对象轮廓内，则认为相应的点属于三维人体对象，直到遍历空间中的每个点，获得最终的人体的三维建模。

需要说明的是，前述对基于多视点视频的复杂动态人体对象三维重建方法实施例的解释说明也适用于该实施例的基于多视点视频的复杂动态人体对象三维重建系统，此处不再赘述。

根据本发明实施例提出的基于多视点视频的复杂动态人体对象三维重建系统，可以利用多个视点提供的二维信息，利用深度学习的方法解决目标人体对象与复杂背景的分割问题，结合相机标定等过程对视频序列中的人体对象进行三维重建，从而实现准确的人物对象分割，同时达到对人体的定位，有效提高重建的准确性和可靠性。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于多视点视频的复杂动态人体对象三维重建方法，其特征在于，包括以下步骤：

对目标人体对象进行多视点拍摄，获得在同一时刻下的多视点二维图像；

利用深度网络学习后的深度神经网络模型分别对每个视点的二维图像序列中的人体各部分进行预测，分割出目标人体对象的轮廓信息和人体对象的骨架信息；

利用标定后的每个视点的相机内参和外参信息，结合分割后的所述目标人体对象的轮廓信息和所述人体对象的骨架信息，进行人体的三维建模。

2.根据权利要求1所述的基于多视点视频的复杂动态人体对象三维重建方法，其特征在于，所述对目标人体对象进行多视点拍摄，获得在同一时刻下的多视点二维图像，包括：

将多个视角的摄像头架设在人体对象周围，并对准在人体对象运动范围之内，保证摄像头一致，以获得在同一时刻下的多视点二维图像。

3.根据权利要求1所述的基于多视点视频的复杂动态人体对象三维重建方法，其特征在于，所述利用深度网络学习后的深度神经网络模型分别对每个视点的二维图像序列中的人体各部分进行预测，分割出目标人体对象的轮廓信息和人体对象的骨架信息，包括：

利用深度卷积神经网络DPM对人体的各部分关节点进行预测；

利用深度卷积神经网络LIP对人体的各身体部分进行预测，获得人物轮廓信息。

4.根据权利要求3所述的基于多视点视频的复杂动态人体对象三维重建方法，其特征在于，在所述利用深度卷积神经网络LIP对人体的各身体部分进行预测时，利用自己网络预测的关节点响应图同真实响应图计算损失loss，其中，

<mrow> <msub> <mi>L</mi> <mrow> <mi>J</mi> <mi>o</mi> <mi>int</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <mi>N</mi> </mrow> </mfrac> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mo>|</mo> <mo>|</mo> <msubsup> <mi>c</mi> <mi>i</mi> <mi>p</mi> </msubsup> <mo>-</mo> <msubsup> <mi>c</mi> <mi>i</mi> <mrow> <mi>g</mi> <mi>t</mi> </mrow> </msubsup> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>,</mo> </mrow>

L_structure＝L_Joint·L_Parsing，

5.根据权利要求1所述的基于多视点视频的复杂动态人体对象三维重建方法，其特征在于，所述利用标定后的每个视点的相机内参和外参信息，结合分割后的目标人体对象的轮廓信息和人体对象的骨架信息，进行人体的三维建模，包括：

对每个视角拍摄的相机进行标定，获得每个相机的内参和外参信息；

利用目标人体对象的轮廓信息，遍历空间模型中的每个点，确定是否属于人体对象；

如果空间的点投影到多个二维平面视图中都在人体对象轮廓内，则认为相应的点属于三维人体对象，直到遍历空间中的每个点，获得最终的人体的三维建模。

6.一种基于多视点视频的复杂动态人体对象三维重建系统，其特征在于，包括：

拍摄模块，用于对目标人体对象进行多视点拍摄，获得在同一时刻下的多视点二维图像；

信息获取模块，用于利用深度网络学习后的深度神经网络模型分别对每个视点的二维图像序列中的人体各部分进行预测，分割出目标人体对象的轮廓信息和人体对象的骨架信息；

三维重建模块，用于利用标定后的每个视点的相机内参和外参信息，结合分割后的所述目标人体对象的轮廓信息和所述人体对象的骨架信息，进行人体的三维建模。

7.根据权利要求6所述的基于多视点视频的复杂动态人体对象三维重建系统，其特征在于，所述拍摄模块还用于将多个视角的摄像头架设在人体对象周围，并对准在人体对象运动范围之内，保证摄像头一致，以获得在同一时刻下的多视点二维图像。

8.根据权利要求6所述的基于多视点视频的复杂动态人体对象三维重建系统，其特征在于，所述信息获取模块还用于利用深度卷积神经网络DPM对人体的各部分关节点进行预测，以及利用深度卷积神经网络LIP对人体的各身体部分进行预测，获得人物轮廓信息。

9.根据权利要求8所述的基于多视点视频的复杂动态人体对象三维重建系统，其特征在于，在所述利用深度卷积神经网络LIP对人体的各身体部分进行预测时，利用自己网络预测的关节点响应图同真实响应图计算损失loss，其中，

L_Structure＝L_Joint·L_Parsing，

10.根据权利要求6所述的基于多视点视频的复杂动态人体对象三维重建系统，其特征在于，所述三维重建模块还用于对每个视角拍摄的相机进行标定，获得每个相机的内参和外参信息，并利用目标人体对象的轮廓信息，遍历空间模型中的每个点，确定是否属于人体对象，以及如果空间的点投影到多个二维平面视图中都在人体对象轮廓内，则认为相应的点属于三维人体对象，直到遍历空间中的每个点，获得最终的人体的三维建模。