CN117011357A

CN117011357A - 基于3d运动流和法线图约束的人体深度估计方法及系统

Info

Publication number: CN117011357A
Application number: CN202310984861.7A
Authority: CN
Inventors: 肖春霞; 李远珍; 罗飞
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-08-07
Filing date: 2023-08-07
Publication date: 2023-11-07

Abstract

本发明涉及一种基于3D运动流和法线图约束的自监督单目人体深度估计方法，在人体深度估计的基础上设计一个3D运动流估计网络学习两帧之间人体运动参数，建立两帧图像之间的光度一致性和3D几何一致性约束，同时利用法线图和深度图之间的几何关系，建立深度法线一致性损失函数优化人体深度估计网络。其中消除纹理复制模块是在推理测试阶段，设计了一个消除纹理复制的后处理方法，消除衣服上的图案、文字给深度估计网络带来的影响。本发明不需要深度图监督，只需要视频作为监督数据，泛化性强；同时可以消除衣服上图案和文字，解决纹理复制问题。

Description

基于3D运动流和法线图约束的人体深度估计方法及系统

技术领域

本发明涉及深度学习模型的后门样本检测领域，具体涉及一种基于3D运动流和法线图约束的人体深度估计方法及系统。

背景技术

单张图像三维人体重构有很多的应用，特别是最近的元宇宙中数字人重建。3D人体的表示形式可以分为参数化和非参数化人体。参数化3D Mesh表示如SCAPE，SMPL通过姿态和形状编码人体。尽管参数化的人体表示技术成熟，但是它不能表示人体的细节信息，如衣服细节和头发。参数化的表示限制了它在生活中的应用，如虚拟主播，远程会议，和远程教学。一些研究员开始修改人体参数通过加入细节信息，只能提高部分细节信息，对于裙子和宽松衣服很难用参数化形式重建出来。非参数化表示如深度、网格、体素、隐士函数可以体现衣服、头发细节。相比于其他非参数化表示，深度图是一种表示简单且所占存储空间小的人体表示形式。

目前有工作采用背景深度信息引导人体深度估计，得到的人体深度过于平滑，大量的细节信息丢失。有方法直接用深度监督，但是要获取大量的、高精度的深度数据是一个具有挑战问题，导致目前有监督的方法泛化性能不强。为了解决泛化能力，有工作采用半监督的方式训练人体深度估计模型，把人体运动看作近似局部非刚性运动来建立两帧图像之间的约束关系。当训练数据为裙子或者宽松衣服时，局部刚性运动不成立，不同区域之间没有约束关系，导致最终深度图在关节处出现断裂情况。

场景流是场景中每个点的三维运动场，广泛应用于视频跟踪与监控、机器人自主导航、3D视频压缩与显示等领域。因此，最近根据不同类型的输入数据提出了许多场景流估计方法，如立体图像、3D点云或RGB-D图像序列。有研究者通过使用场景流场估计场景运动，为动态场景神经辐射场框架建模。有工作在每个视频中联合训练场景流网络和细化深度网络，为任意运动物体生成时间一致的深度。一些工作利用人体二维光流进行服装转移。这些工作是针对场景的三维运动流，还没有工作用深度学习做人体3D运动流。

基于视频的场景深度估计工作得到了大量的研究，联合训练深度估计网络和相机运动参数，建立两帧图像之间的约束关系不断迭代优化网络模型。视频中的场景属于刚性运动，人体的运动属于非刚性运动，所以不能直接采用基于视频的场景深度估计方法训练人体深度估计。

发明内容

本发明针对现有技术的不足，如网络模型的泛化性不强、图案和文字带来纹理复制等，提供了一种基于3D运动流和法线图约束的自监督人体深度估计方法，能够不需要深度数据监督，只需要视频颜色图像作为训练数据，达到提高模型泛化性的目的。同时对输入图像衣服上图案、文字提出消除方法，减少纹理复制影响。

为实现上述目的，本发明提供了一种基于3D运动流和法线图约束的人体深度估计方法，其特征在于：

S1：采集单人在镜头前自由运动的视频，构建训练集；

S2：将S1采集的视频转换为单帧图像并进行预处理，获取单帧图像人体掩膜、法线图和密集姿态图，并选取相邻的N帧图像作为匹配图构建数据集；

S3：设计深度估计网络，采用堆叠沙漏网络作为深度估计网络基础，网络采用离散的方式输出深度；

S4：设计3D运动流估计网络，基于编码和解码的网络框架结构设计3D运动流网络；

S5：利用S2中构建的数据集作为自监督训练集，对深度估计网络和3D运动流估计网络进行训练；

对服装有颜色差异的人，需先进行消除纹理复制预处理，具体如下：

检索衣服上图案和文字区域，并划分为主颜色区域和非主颜色区域，其中，主颜色区域为颜色最大的区域；将非主颜色区域进行处理，使其颜色接近主颜色区域。

一种优选方式为，所述S2中预处理具体为：去除存在模糊和伪影的图像，通过裁剪和缩放把图像调整为256*256分辨率。

一种优选方式为，所述深度估计网络中网络输出离散的通道视差概率体，视差层/>，其中/>表示最小视差，/>表示视差间隔；对于每一个视差层的归一化概率图为/>；加权求和概率图，得到最终视差图/>；设定人体最小深度a，最大深度b，把视差图转换为深度图。

一种优选方式为，所述S3中，当前帧和匹配帧的颜色图的密集姿态图和分别输入到编码网络提取多个尺度特征，在最后一个特征层用一个自注意力模块学习上下文的特征相关性；连接两个自注意力特征并通过一个卷积层来输出低分辨率3D运动流；低分辨率3D运动流是多尺度解码的第一步，对于其他三个尺度阶段分别加入相关性特征，上采样低分辨率特征，连接编码特征和相关性特征，通过卷积输出高分辨率3D运动流；

其中：上采样低分辨率特征，连接编码特征，根据3D运动流把匹配帧的特征转换到当前帧，基于匹配的分数量化特征相似度，称作相关性特征。

3D运动流估计网络设计，基于编码-解码的网络结构基础设计3D运动流网络。首先利用ResNet18提取图像特征，连接当前帧和匹配帧的颜色图和密集姿态Densepose图和/>再分别输入到ResNet18网络提取四个尺度特征，假设原图像分辨率为, 四个尺度分别为/>、/>、/>和/>。在最后一个特征层上用一个自注意力模块学习上下文的特征相关性：最后一层特征输入到自注意力网络，输出自注意力特征。连接两个自注意力特征并输入到一个2D卷积层，输出一个低分辨率3D运动流。对于其他三个尺度阶段分别加入相关性特征。相关性特征指在当前帧和匹配帧中，分别上采样低分辨率特征并连接编码特征，根据3D运动流和估计的深度把匹配帧的特征转换到当前帧，基于匹配的分数量化特征相似度。连接上采样特征、编码特征和相关性特征，通过卷积输出高分辨率3D运动流

一种优选方式为，所述S5的网络训练中，包含的损失有：

深度法线一致性损失：保证预测深度导出的法线和伪标签法线的一致性；

光度重投影损失：保证目标图像和基于其他帧重构的图像的一致性；

3D几何一致性损失：保证目标图像重构3D点转换到参考图像空间和匹配点的3D点一致性；

深度平滑损失：加强深度局部平滑性；

3D运动流损失：保证3D流投影为2D流和对应密集姿态图得到2D流一致性。

特别地，所述光度重投影损失：惩罚目标图像和重构图像/>的差异性，其公式为：

其中SSIM()表示结构相似性，重构图像是基于参考图像/>，深度/>和3D运动流/>合成的：

通过深度把图像/>投影到三维空间/>：

用估计的3D运动流把/>转换到/>对应三维空间：

重构的3D点投影到图像平面得到对应匹配点/>：

用双线性插值采样参考图像合成图像/>。

一种优选方式为，预处理中，采用人体解析算法提取衣服区域，然后设定颜色区域分类数，通过k-means聚类算法提取/>个区域以及它们的中心颜色值/>，中心颜色值归一化到（0,1）范围，三个通道/>；其中像素数量最多的区域为主颜色区域/>，对于每一个颜色区域中心颜色值和主颜色区域的中心颜色其中一个通道差距大于阈值0.1称非主颜色区域。

一种优选方式为，对于每一个非主颜色区域，设计一种线性颜色变换和图像修复算法，分别根据非主色掩模大小改变非主颜色使其接近于主颜色，设定颜色连通域阈值，当大于该阈值时，用颜色线性变化转换其区域颜色，用图像滤波消除边界痕迹，当非主颜色区域掩码连通域小于阈值，把图像区域看作空白区域，采用图像修复算法填充非主颜色区域颜色，使其接近于主颜色。

基于同一发明构思，本方案还提供了一种电子设备，其特殊之处在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现一种基于进化偏差的在线后门样本检测方法。

基于同一发明构思，本方案还提供了一种计算机可读介质，其上存储有计算机程序，其特殊之处在于：所述程序被处理器执行时实现一种基于进化偏差的在线后门样本检测方法。

上述技术方案具有如下有益效果：

本发明提出通过学习人体3D运动流建立两帧图像之间约束关系，利用视频监督人体深度估计，用法线和深度之间的几何约束关系监督深度估计模型学习，不需要深度图监督，提高模型泛化能力；能够消除衣服上图案和文字，避免纹理复制问题。

利用3D运动流来建立两帧图像之间约束关系的视频监督人体深度估计方法。不需要深度监督，训练集容易获取，可以提高模型泛化能力。

用法线和深度之间的几何约束关系监督深度估计模型学习，避免深度图训练集存在噪声，尺度不一致问题带来的影响。

深度估计网络采用离散的深度输出方式，可以获得更多的细节信息。

基于颜色成分分析和颜色变换方法来处理衣服上的衣服上图案和文字，避免纹理复制问题。

附图说明

图1是本发明的整体流程图。

图2是本发明网络训练模块的流程示意图。

图3是3D运动流模块的细节图。

图4是本发明消除纹理复制模块的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明提出了一种基于3D运动流和法线图约束的自监督的单目人体深度估计方法，如图1所示，算法包含网络训练模块与消除纹理复制模块。

如图2所示，网络训练模块包含以下步骤：

步骤1，采集单个人在镜头前自由运动的视频，构建训练集，具体如下：摄像机固定在一个位置，单个人在镜头前面朝一个方向自由活动，从网上下载他人分享的满足条件的视频；

步骤2，数据处理过程，具体如下：把步骤1采集的视频转换为单帧图像，去除存在模糊和伪影的图像，通过裁剪和缩放把图像调整为256X256分辨率，采用现有的算法获取人体掩膜mask、法线图和密集姿态图Densepose，对于每帧图像，在前后20帧之间选取5帧相邻图像作为匹配图；

步骤3，深度估计网络设计，采用堆叠沙漏网络stacked hourglass network作为深度估计网络基础，具体如下：深度网络输出离散的通道视差概率体，视差层：

，

其中表示最小视差，/>表示视差间隔。对于每一个视差层的归一化概率图为：

，

加权求和概率图，得到最终视差图：

。

设定人体最小深度，最大深度/>，把视差图转换为深度图

。

步骤4，3D运动流估计网络设计，如图3所示，基于编码-解码的网络结构基础设计3D运动流网络，具体如下：利用ResNet18编码图像特征，当前帧和匹配帧的颜色图的Densepose图和/>分别输入到ResNet18网络提取四个尺度特征，在最后一个特征层加入一个自注意力模块学习上下文的特征相关性，称为自注意力特征；连接两个自注意力特征并通过一个卷积层来输出低分辨率3D运动流。

低分辨率3D运动流是多尺度解码的第一步，对于其他三个尺度阶段分别加入特征相关层，假设原图像分辨率为, 四个尺度分别为/>、/>、/>和/>。上采样低分辨率特征，连接编码特征和相关性特征，通过卷积输出高分辨率3D运动流。上采样低分辨率特征连接编码特征，根据3D运动流和深度把匹配帧的特征转换到当前帧，基于匹配的分数量化特征相似度，称为相关性特征。

步骤5，网络训练，采用深度法线一致性损失、光度重投影损失、3D几何一致性损失、深度平滑损失、3D运动流一致性损失不断迭代优化深度估计网络和3D运动流估计网络直到损失函数值不再减小，具体损失函数公式如下：

其中超参数为各项损失的权重，分别设定为0.3，0.5，0.1，0.1。下面分别介绍各项损失函数：

深度法线一致性损失：表面法线是垂直于对应3D点/>的切平面的曲线，其公式：

其中二维像素点所对应的三维空间点/>通过深度/>获取：/>，其中/>表示相机内参数；我们建立表面法线深度一致性损失，其公式为：

其中为标签法线，/>为由预测的深度图导出的法线。

光度重投影损失：惩罚目标图像和重构图像/>的差异性，其公式为：

通过深度把图像/>投影到三维空间/>：

用估计的3D运动流把/>转换到/>对应三维空间：

重构的3D点投影到图像平面得到对应匹配点/>：

用双线性插值采样参考图像合成图像/>。

3D几何一致性损失：惩罚由目标图像空间3D点转换到参考图像空间/>的3D点和匹配点的3D点/>的差异性，其公式为：

其中。

深度平滑损失：由图像梯度加权的边缘感知深度平滑约束来加强深度局部平滑性，其公式为:

其中和/>表示深度/>在/>轴和/>轴方向的梯度，/>和/>表示图像/>在/>轴和/>轴方向的梯度

3D运动流损失：通过密集姿态Densepose图计算2D流/>，投影3D流到2D流/>，建立约束：

如图4所示，对衣物上有颜色差异的图像进行预处理，以消除纹理复制，具体包括以下步骤：

检索衣服上图案和文字区域，基于k-means聚类算法提取衣服上的图案、文字区域，称非主颜色区域。具体如下：首先采用人体解析算法提取衣服区域，然后设定颜色区域分类数，通过k-means聚类算法提取/>个区域以及它们的中心颜色值/>，中心颜色值归一化到（0,1）范围，三个通道/>；其中像素数量最多的区域为主颜色区域/>。最后，对于每一个颜色区域中心颜色值和主颜色区域的中心颜色其中一个通道差距大于阈值0.1：

该颜色区域定为需要进行颜色转换的区域，称非主颜色区域，然后通过导向滤波膨胀非主颜色区域mask。

非主颜色转换，设计一种线性颜色变换和图像修复算法，分别根据非主色掩模大小改变非主颜色使其接近于主颜色。具体如下：对于每一个非主颜色区域，本实施例中联通域阈值设置为60，当连通域大于阈值60，用颜色线性变化转换其区域颜色，其公式为：

用图像滤波消除边界痕迹。当非主颜色区域掩膜连通域小于阈值60，把图像区域看作空白区域，采用图像修复算法填充非主颜色区域颜色，使其接近于主颜色。

实施例二

基于同一发明构思，本发明还提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现实施例一中所述的方法。

由于本发明实施例三所介绍的设备为实施本发明实施例一基于3D运动流和法线图约束的人体深度估计方法所采用的电子设备，故而基于本发明实施例一介绍的方法，本领域所属技术人员能够了解该电子设备的具体结构及变形，故而在此不再赘述。凡是本发明实施例一介绍方法所采用的电子设备都属于本发明所欲保护的范围。

实施例三

基于同一发明构思，本发明还提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例一中所述的方法。

由于本发明实施例四所介绍的设备为实施本发明实施例一基于3D运动流和法线图约束的人体深度估计方法所采用的计算机可读介质，故而基于本发明实施例一介绍的方法，本领域所属技术人员能够了解该电子设备的具体结构及变形，故而在此不再赘述。凡是本发明实施例一介绍的方法所采用的电子设备都属于本发明所欲保护的范围。

本发明中所描述的具体实施的例子仅仅是对本发明的方法和步骤的举例说明。本发明所述技术领域的技术人员可以对所描述的具体实施步骤做相应的修改或补充或变形，但是不会背离本发明的原理和实质或者超越所附权利要求书所定义的范围。本发明的范围仅由所附权利要求书限定。

Claims

1.一种基于3D运动流和法线图约束的人体深度估计方法，其特征在于：

S1：采集单人在镜头前自由运动的视频，构建训练集；

2.根据权利要求1所述的基于3D运动流和法线图约束的人体深度估计方法，其特征在于：所述S2中预处理具体为：去除存在模糊和伪影的图像，通过裁剪和缩放把图像调整为256*256分辨率。

3.根据权利要求1所述的基于3D运动流和法线图约束的人体深度估计方法，其特征在于：所述深度估计网络中网络输出离散的通道视差概率体/>，视差层，其中/>表示最小视差，/>表示视差间隔；对于每一个视差层的归一化概率图为/>；加权求和概率图，得到最终视差图/>；设定人体最小深度a，最大深度b，把视差图转换为深度图/>。

4.根据权利要求1所述的基于进化偏差的在线后门样本检测方法，其特征在于：所述S3中，当前帧和匹配帧的颜色图的密集姿态图和/>分别输入到编码网络提取多个尺度特征，在最后一个特征层用一个自注意力模块学习上下文的特征相关性；连接两个自注意力特征并通过一个卷积层来输出低分辨率3D运动流；低分辨率3D运动流是多尺度解码的第一步，对于其他三个尺度阶段分别加入相关性特征，上采样低分辨率特征，连接编码特征和相关性特征，通过卷积输出高分辨率3D运动流；

5.根据权利要求1所述的基于进化偏差的在线后门样本检测方法，其特征在于：所述S5的网络训练中，包含的损失有：

深度平滑损失：加强深度局部平滑性；

6.根据权利要求5所述的基于进化偏差的在线后门样本检测方法，其特征在于：光度重投影损失：惩罚目标图像和重构图像/>的差异性，其公式为：

其中SSIM()表示结构相似性，重构图像是基于参考图像/>，深度/>和3D运动流合成的：

通过深度把图像/>投影到三维空间/>：

用估计的3D运动流把/>转换到/>对应三维空间：

重构的3D点投影到图像平面得到对应匹配点/>：

用双线性插值采样参考图像合成图像/>。

7.根据权利要求1所述的基于进化偏差的在线后门样本检测方法，其特征在于：预处理中，采用人体解析算法提取衣服区域，然后设定颜色区域分类数，通过k-means聚类算法提取/>个区域以及它们的中心颜色值/>，中心颜色值归一化到（0,1）范围，三个通道/>；其中像素数量最多的区域为主颜色区域/>，对于每一个颜色区域中心颜色值和主颜色区域的中心颜色其中一个通道差距大于阈值0.1称非主颜色区域。

8.根据权利要求1所述的基于进化偏差的在线后门样本检测方法，其特征在于：对于每一个非主颜色区域，设计一种线性颜色变换和图像修复算法，分别根据非主色掩模大小改变非主颜色使其接近于主颜色，设定颜色连通域阈值，当大于该阈值时，用颜色线性变化转换其区域颜色，用图像滤波消除边界痕迹，当非主颜色区域掩码连通域小于阈值，把图像区域看作空白区域，采用图像修复算法填充非主颜色区域颜色，使其接近于主颜色。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现权利要求1-8中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于：所述程序被处理器执行时实现权利要求1-8中任一所述的方法。