CN113112583A

CN113112583A - 基于红外热成像的3d人体重构方法

Info

Publication number: CN113112583A
Application number: CN202110304687.8A
Authority: CN
Inventors: 易诗; 李俊杰; 张鹏; 宋畅; 汪子雯
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2021-07-13
Anticipated expiration: 2041-03-22
Also published as: CN113112583B

Abstract

本发明公开了基于红外热成像的3D人体重构方法，属于计算机视觉处理领域，以解决基于可见光环境的人体三维模型重建方法均不满足于实时红外图像人体模型重建需求的缺陷，包括如下步骤：制作红外人体图像；对红外人体图像进行增强处理；制作红外人体图像配准的3D人体模型；构建红外热成像3D人体重构网络；步骤5、训练红外热成像3D人体重构网络；测试红外热成像3D人体重构网络性能；评估红外热成像3D人体重构网络性能。采用单张红外热成像图像进行三维人体重建，适用于夜间无光，存在烟雾等天气影响环境等可见光摄像头和普通数码夜视仪无法应对的探测环境，对天气恶劣环境下安防、虚拟现实等技术领域具有重大应用价值。

Description

基于红外热成像的3D人体重构方法

技术领域

基于红外热成像的3D人体重构方法，本发明属于计算机视觉处理技术领域，具体涉及图像处理中的3D人体重构方法。

背景技术

随着计算机视觉处理技术的发展，3D重构技术主要被用于增强现实和虚拟现实技术中。红外热成像系统成像原理为将物体热辐射的红外线特定波段信号转换成图像。红外热成像系统成像不受光照变化，烟、雾及树木等障碍物的影响，适用于无光及恶劣气候环境下的目标识别与探测，在搜救，军事，安防，行车辅助等领域具有很强应用价值。随着机器视觉与人工智能的发展，可见光条件下的单张图像3D重构技术已取得一定突破。在可见光环境下，具有代表性的3D人体重构方法主要包括：Aaron S.Jackson等人在2018年提出利用卷积神经网络和体积回归网络直接从单张可见光图像中重建人体三维模型。NikosKolotouros等人在2019年提出以SMPL人体参数模型为基准，采用卷积神经网络提取特征、图卷积神经网络预测3D网格坐标，完成3D人体重构。上述方法基本思想是采用卷积神经网络提取特征，利用2D特征到3D人体特征特征得映射关系建立3D人体模型，在可见光人体重构数据集上能够取得不错得效果。

而红外热成像图像较可见光图像而言，红外热成像图像具有以下特点：1.图像分辨率更低且细节模糊。2.图像色彩单一，边缘特征不够明显。因而采用上述基于可见光环境的方法从单张红外图象中重构出人体模型时，会出现几何细节丢失、表面粗糙、人体模型部分缺失等问题。

发明内容

本发明的目的在于：基于红外热成像的3D人体重构方法，以解决现有的基于可见光环境的人体三维模型重建方法均不满足于实时红外图像人体模型重建需求的缺陷。

本发明采用的技术方案如下：

基于红外热成像的3D人体重构方法，包括如下步骤：

步骤1、制作红外人体图像；

步骤2、对红外图像进行增强处理，通过改变双峰高斯分布函数来控制侧抑制系数分布，改变图像灰度来控制对比度；具体为对输入的红外图像进行了增强处理，该处理通过改变双峰高斯分布函数来控制侧抑制系数分布，改变图像灰度来控制对比度的大小，有效的提高图像边缘轮廓增强效果，增大了图像的对比度和灰度；

步骤3、制作红外人体图像配准的3D人体模型，将3D人体模型进行SMPL-X参数化，得到人体形态、人体姿态、人体面部参数，将单张红外人体图像作为输入，输出为人体形态参数、人体姿态参数和人体面部参数组合的多维向量，各模型参数作为真实标签，配对生成数据集；

步骤4、调整红外人体图像的人体特征提取网络IT-BFNet和人体模型转换网络HMTNet的输入输出接口，构建红外热成像3D人体重构网络；

步骤5、训练红外热成像3D人体重构网络，获取重构精度最高的模型；

步骤6、加载重构精度最高的模型，测试红外热成像3D人体重构网络性能；

步骤7、评估红外热成像3D人体重构网络性能。

目前缺少相关红外图像及其配准的人体3D模型，本申请的技术方案中，使用红外热成像仪和人体模型采集系统采集热成像图像及其配准的人体模型，随后通过SMPLX模型估计人体参数，将红外热成像人体图像、配准红外图像人体模型、人体模型参数相匹配，制作数据集；红外图像分辨率低且细节模糊，本申请设计了一种能够充分提取红外图像人体特征的网络，本网络搭建主要由两部分构成，红外图像人体边缘细节提升算法设计和图像人体特征提取网络设计，该算法旨在降低红外背景对人体特征的干扰并增强红外图像人体细节，考虑到红外图像存在边缘模糊、对比度低、视觉效果差等问题，因此本发明对输入的红外图像进行了增强处理。该处理通过改变双峰高斯分布函数来控制侧抑制系数分布，改变图像灰度来控制对比度的大小，有效的提高图像边缘轮廓增强效果，增大了图像的对比度和灰度；构建红外人体图像的人体特征提取网络IT-BFNet，该网络旨在降低背景干扰并提取红外图像人体细节；为了解决红外图像人体特征到三维人体模型的映射，构建了人体模型转换网络HMTNet；调整红外人体图像的人体特征提取网络IT-BFNet和人体模型转换网络HMTNet的输入输出接口，构建红外热成像3D人体重构网络，设置网络超参数，训练红外热成像3D人体重构网络，获取重构精度最高的模型，加载重构精度最高的模型，测试红外热成像3D人体重构网络性能，评估红外热成像3D人体重构网络性能。

本申请中，在SMPL模型基础上，SMPL-X模型增加了人脸和手部模型，采用更多的参数控制，人体模型生成效果更精确，用于表征不同人体与不同姿态下的三维人体结构。

优选的，步骤1中，采用红外热成像仪采集红外人体图像，将红外热成像仪部署于夜间无光全黑环境下和存在烟雾的恶劣环境下，由于红外热成像仪输出为AV格式单通道信号，因此通过数据采集板卡进行格式转换，转换为单通道数字图像格式，以便后续计算设备进行数字图像处理。

优选的，双峰高斯分布函数

是在高斯分布函数的基础发现的，具体表现形式为：

式2中为σ₁、σ₂为双峰高斯函数的宽度，μ₁、μ₂为双峰高斯函数的位置参数，β、β₁、β₂、σ₁、σ₂、μ₁、μ₂均为常数。

当β＝1、β₁＝β₂＝2、μ₁＝μ₂＝0、π＝3.14时，则各向同性双峰高斯分布函数的形式为(在对双峰高斯分布函数中的各个参数进行大量的实验，得出结论，当取β＝1、β₁＝β₂＝2、μ₁＝μ₂＝0、π＝3.14时，效果最佳)：

将式3中的向同性双峰高斯分布函数转换成异性双峰高斯函数，得：

将式4中的函数逆时针旋转角度α，得到各项异性双峰高斯分布函数，其形式为：

将式4代入到式5中，定义旋转前的坐标为(x,y)，旋转后的坐标为(u,v)，得到增强处理中的侧抑制系数表达式：

式6中：

n＝1,2,3,4；σ_x1,σ_x2,σ_x3,σ_x4为双峰高斯分布函数的宽度，在多次试验后得到，在σ_x1σ_y1/σ_x2σ_y2＝0.6时，抑制效果最好。将红外图像经过该模型的运算，图像的灰度反差将得到增大，也更好的突出了图像的人体边缘细节。

步骤2即为红外图像人体边缘细节提升算法，该算法旨在降低红外背景对人体特征的干扰并增强红外图像人体细节。考虑到红外图像存在边缘模糊、对比度低、视觉效果差等问题，因此本发明对输入的红外图像进行了增强处理。该处理通过改变双峰高斯分布函数来控制侧抑制系数分布，改变图像灰度来控制对比度的大小，有效的提高图像边缘轮廓增强效果，增大了图像的对比度和灰度。

优选的，步骤3中红外人体图像的人体特征提取网络，使用深度学习框架Pytorch和Python编程语言搭建；人体模型转换网络，使用深度学习框架Pytorch和Python编程语言搭建。

优选的，步骤3中SMPL为一种参数化模型，采用85维数据进行控制人体模型的关键点信息、体型信息、摄像机位置信息，其中人体体型采用10维数据控制、人体姿态采用24对3维关键点描述，在SMPL模型基础上，SMPL-X模型增加了人脸和手部模型，(采用更多的参数控制，人体模型生成效果更精确)用于表征不同人体与不同姿态下的三维人体结构。

优选的，将数据集按7:3划分训练集与测试集。

更为优选的，设置网络超参数，红外热成像3D人体重构网络训练过程中，将训练集中的红外人体图像转换为512×512大小的图像,训练时以16幅图像为一个批次进行小批量训练，训练一批图像，权值更新一次，权值的衰减速率设为0.0005，动量设置为0.9，初始学习率设为0.001，学习率采用余弦退火衰减策略，对红外热成像3D人体重构网络进行20000次迭代，每间隔2000次迭代后保存一次模型，最终获取重构精度最高的模型。

优选的，将红外人体图像进行人体模型SMPL-X参数化，得到真实的人体形态、人体姿态、人体面部参数；再将红外人体图像作为训练输入，通过训练得到人体重构模型的人体形态参数、人体姿态参数和人体面部参数。为使训练得到的三种参数更逼近于真实的三种参数，故损失函数被定义为L_total ＝L_β+L_θ+L_ψ (7)

式中L_β表示人体形态误差，L_θ表示人体姿态误差，L_ψ表示人体面部误差。

式中

分别表示通过第i个样本预测得到人体形态参数、人体姿态参数和人体面部参数，β_i、θ_i、ψ_i表示第i个人体真实模型通过SMPLX参数化得到的真实人体形态参数、真实人体姿态参数和真实人体面部参数，N为总的训练样本数。

优选的，评估模型时的评估标准采用平均三维交并比。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明采用单张红外热成像图像进行三维人体重建，适用于夜间无光，存在烟雾等天气影响环境等可见光摄像头和普通数码夜视仪无法应对的探测环境，对天气恶劣环境下安防、虚拟现实等技术领域具有重大应用价值；

(2)由于红外人体图像在人体三维重建的研究较少，缺少热成像图像人体图像与其配准的三维人体模型，因而本发明采用红外热成像仪和人体模型采集系统采集热成像图像及其配准的人体模型，随后通过SMPL-X模型估计人体参数，制作数据集，有利于后续训练测试和相关研究；

(3)本发明针对红外图像存在边缘模糊、对比度低、视觉效果差和人体细节不突出等特点，采用了通过改变双峰高斯分布函数来控制侧抑制系数分布以及改变图像灰度来控制对比度的大小的方法，对红外图像进行增强，有效的提高图像边缘轮廓增强效果，增大了图像的对比度和视觉效果；

(4)本发明提出了一种适用于红外热成像图像的人体特征提取网络IT-BFNet和人体模型转换网络，本发明具有以下优点：1IT-BFNet网络采用ResNet50作为基础特征网络，为提取到更多的人体有效特征和抑制红外图像无关背景特征，在ResNet50中引入注意力机制，赋予人体特征图通道更高的权值，赋予背景特征图通道更低的权值，有利于通过人体特征重建三维人体模型，2人体模型转换网络HMTNet采用了PCA主成分分析进行数据降维，有利于高维数据训练，此外，采用多层全连接网络拟合高维数据和人体特征参数之间映射关系，并用参数化人体模型SMPLX通过人体特征参数进行人体三维重建；

(5)本发明针对人体模型参数，提出将人体形态误差、人体姿态误差和人体面部误差之和作为总误差，通过反向传播优化参数，实现人体形态、人体姿态、人体面部细节更为逼真的三维人体模型。

附图说明

图1为本发明基于红外热成像的3D人体重构方法的流程图；

图2为本发明IT-BFNet网络结构图；

图3为本发明注意力机制残差单元结构图；

图4为本发明人体模型转换网络结构；

图5为本发明生成的3D模型效果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

如图1和5所示，基于红外热成像的3D人体重构方法，包括如下步骤：

步骤1、制作红外人体图像；

步骤2、对红外人体图像进行增强处理，通过改变双峰高斯分布函数来控制侧抑制系数分布，改变图像灰度来控制对比度；

步骤4、构建红外人体图像的人体特征提取网络IT-BFNet和人体模型转换网络HMTNet，调整红外人体图像的人体特征提取网络IT-BFNet和人体模型转换网络HMTNet的输入输出接口，构建红外热成像3D人体重构网络；

步骤7、评估红外热成像3D人体重构网络性能。

实施例2

在实施例1的基础上，步骤1中，采用红外热成像仪采集红外人体图像，将红外热成像仪部署于夜间无光全黑环境下和存在烟雾的恶劣环境下，将采集的红外人体图像转化为单通道数字图像格式。

实施例3

在实施例1的基础上，步骤2中，抑制系数是指像素点单元之间的距离：

式1中x1、y1、x2、y2为像素单元(x1，y1)、(x2，y2)的矢量系数；

双峰高斯分布函数

是在高斯分布函数的基础发现的，具体表现形式为：

当β＝1、β₁＝β₂＝2、μ₁＝μ₂＝0、π＝3.14时，则各向同性双峰高斯分布函数的形式为：

将式4中的函数逆时针旋转角度α，定义旋转前的坐标为(x,y)，旋转后的坐标为(u,v)，得到各项异性双峰高斯分布函数，其形式为：

将式4代入到式5中，得到增强处理中的侧抑制系数表达式：

式6中：

n＝1,2,3,4；σ_x1,σ_x2,σ_x3,σ_x4为双峰高斯分布函数的宽度。

实施例4

在实施例1的基础上，步骤3中红外人体图像的人体特征提取网络，使用深度学习框架Pytorch和Python编程语言搭建；人体模型转换网络，使用深度学习框架Pytorch和Python编程语言搭建。

实施例5

在实施例1的基础上，步骤3中SMPL为一种参数化模型，采用85维数据进行控制人体模型的关键点信息、体型信息、摄像机位置信息，其中人体体型采用10维数据控制、人体姿态采用24对3维关键点描述，在SMPL模型基础上，SMPL-X模型增加了人脸和手部模型，(采用更多的参数控制，人体模型生成效果更精确)用于表征不同人体与不同姿态下的三维人体结构。

实施例6

在实施例1的基础上，将数据集按7:3划分训练集与测试集。

实施例7

在实施例6的基础上，设置网络超参数，红外热成像3D人体重构网络训练过程中，将训练集中的红外人体图像转换为512×512大小的图像,训练时以16幅图像为一个批次进行小批量训练，训练一批图像，权值更新一次，权值的衰减速率设为0.0005，动量设置为0.9，初始学习率设为0.001，学习率采用余弦退火衰减策略，对红外热成像3D人体重构网络进行20000次迭代，每间隔2000次迭代后保存一次模型，最终获取重构精度最高的模型。

实施例8

在实施例1的基础上，将红外人体图像进行人体模型SMPL-X参数化，得到真实的人体形态、人体姿态、人体面部参数；再将红外人体图像作为训练输入，通过训练得到人体重构模型的人体形态参数、人体姿态参数和人体面部参数，为使训练得到的三种参数更逼近于真实的三种参数，故损失函数被定义为L_total＝L_β+L_θ+L_ψ(7)

式中

实施例9

在实施例1的基础上，评估模型时的评估标准采用平均三维交并比。

实施例10

如图2和3所示，在实施例1的基础上，一种适用于红外图像的人体特征提取网络(Infrared Thermal image Body Feature Extraction Network,IT-BFNet)，该网络旨在降低背景干扰并提取红外图像人体细节。IT-BFNet网络采用ResNet50作为主干特征提取网络的基本结构，为了有效提取图像中的人体特征，在基础结构中加入了红外人体注意力机制。IT-BFNet如图2所示，主要由1层卷积池化层与4个注意力机制残差层组成。网络的输入大小为512×512×1，首先经过一层1×1的卷积池化层，生成256×256×64的特征图；接着经过3个注意力残差单元的注意力残差层，生成128×128×128的特征图；接着经过注意力残差单元数分别为4、6、3的注意力残差层，分别生成64×64×256、32×32×512、16×16×1024大小的特征图。本发明采用多尺度特征进行模型转换，由于红外热成像图像边缘特征不够明显，故采用32×32大小特征图进行三维模型转换。为此，将到数第三层64×64大小的特征图进行下采样和16×16大小的特征图进行上采样，与32×32大小的特征图进行拼接，再经过1×1卷积调整通道数量后，进行三维人体模型转换。

网络基本单元注意力机制残差基本单元(Attention Mechanism ResidualBlock,At-ResBlock)如图3所示，基本单元左边部分为残差块，主要由3层卷积层和1条恒等映射路径构成。第一层为卷积核大小1×1的卷积批归一化激活函数层，第二层为卷积核大小3×3的卷积批归一化激活函数层，第三层为卷积核大小1×1的卷积批归一化激活函数层，该3层卷积层用于提取特征，产生特征图。恒等映射路径用于调整训练过程，可解决深层网络不易训练的难题。基本单元右边部分为引入的注意力机制，第一层为全局池化层，生成1×1×C的特征数，第二层为1×1的卷积激活函数层，用于降低参数量，第三层为全连接层，第四层为Sigmoid激活函数层，用于生成0-1的权重。该注意力机制根据特征图各个通道的不同重要程度，赋予特征图不同特征通道不同权重，通过训练后可减少红外图像背景的干扰，增加对重要特征的关注度，可有效提取红外图像中的人体特征。

实施例11

如图4所示，在实施例1的基础上，本发明设计了人体模型转换网络(Human ModelTransformation Network,HMTNet)，本发明训练与测试采用的每个3D人体包含上万个顶点，每个顶点包含一组三维坐标信息，数据量太大，直接投入网络训练效果不理想。为加快网络训练，需得到一组低维人体特征描述算子。人体模型转化网络主要由人体特征降维器与解码器构成，如图4所示，人体特征转换网络左边部分由为体特征降维器，由1层平均池化层、1层特征图处理层、3层全连接层、1层PCA编码层构成。平均池化层用于降低特征图尺寸；特征图处理层用于将特征图展开，得到高维数据；4层全连接层采用非线性函数，将高维数据转换为中高维数据；PCA编码成采用主成分分析方法将中高维数据转换为可描述人体特征的低维数据。为提高网络的泛化能力与鲁棒性，解码器采用8+1层全连接层构成，前8层全连接层采用Dropout策略增强网络的泛化能力，最后一层全连接层输出特定维度的数据，用以重构三维人体模型。最后采用参数化人体模型SMPLX生成三维人体模型。SMPL为一种参数化模型，采用85维数据进行控制人体模型的关键点信息、体型信息、摄像机位置信息。其中人体体型采用10维数据控制、人体姿态采用24对3维关键点描述。在SMPL模型基础上，SMPL-X模型增加了人脸和手部模型，采用更多的参数控制，人体模型生成效果更精确，用于表征不同人体与不同姿态下的三维人体结构。

实施例12

在实施例1的基础上，采用本发明提出的基于红外热成像的3D人体重构方法与Deep Human、PIFU、BodyNet、Convolutional Mesh Regression 3D人体重构方法进行对比，评估标准采用平均三维交并比(Average 3D IOU)作为评估指标。模型评估结果如表1。

表1模型性能评估表

由此可见，目前主流的人体三维模型重构方法主要都是基于可见光环境，对于夜间无光环境或者存在烟雾遮挡等天气恶劣条件下的三维人体重构效果均不理想。本发明通过增强红外热成像图像人体特征，设计针对红外图像的人体特征提取网络和人体模型转换网络，能够有效从单张红外图像中重建出三维人体模型。从对比结果中可见，本发明提出的基于红外热成像的3D人体重构方法，重构模型与真实模型的平均交并比为65.7％，分别高于Deep Human、PIFU、BodyNet、Convolutional Mesh Regression 18.2、13.3、29.2、20.8个百分点，在夜间无光环境或者存在烟雾遮挡等天气恶劣条件下的三维人体重构效果最佳。

本实施例中，DeepHuman:3D Human Reconstruction from a Single Image从单张图像中进行3D人体重建；PIFu，Pixel-Aligned Implicit Function:像素对齐隐式函数；BodyNet:Volumetric Inference of 3D Human Body Shapes.3D人体形状的体素推断；Convolutional Mesh Regression卷积网格回归。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.基于红外热成像的3D人体重构方法，其特征在于，包括如下步骤：

步骤1、制作红外人体图像；

步骤7、评估红外热成像3D人体重构网络性能。

2.根据权利要求1所述的基于红外热成像的3D人体重构方法，其特征在于，步骤1中，采用红外热成像仪采集红外人体图像，将红外热成像仪部署于夜间无光全黑环境下和存在烟雾的恶劣环境下，将采集的红外人体图像转化为单通道数字图像格式。

3.根据权利要求1所述的基于红外热成像的3D人体重构方法，其特征在于，步骤2中，抑制系数是指像素点单元之间距离

的函数：

式1中x1、y1、x2、y2为像素单元(x1，y1)、(x2，y2)的矢量系数；

双峰高斯分布函数

是在高斯分布函数的基础发现的，具体表现形式为：

式2中为σ₁、σ₂为双峰高斯函数的宽度，μ₁、μ₂为双峰高斯函数的位置参数，β、β₁、β₂、σ₁、σ₂、μ₁、μ₂均为常数；

将式4代入到式5中，得到增强处理中的侧抑制系数表达式：

式6中：

σ_x1,σ_x2,σ_x3,σ_x4为双峰高斯分布函数的宽度。

4.根据权利要求1所述的基于红外热成像的3D人体重构方法，其特征在于，步骤3中红外人体图像的人体特征提取网络，使用深度学习框架Pytorch和Python编程语言搭建；人体模型转换网络，使用深度学习框架Pytorch和Python编程语言搭建。

5.根据权利要求1所述的基于红外热成像的3D人体重构方法，其特征在于，步骤3中SMPL为一种参数化模型，采用85维数据进行控制人体模型的关键点信息、体型信息、摄像机位置信息，其中人体体型采用10维数据控制、人体姿态采用24对3维关键点描述，在SMPL模型基础上，SMPL-X模型增加了人脸和手部模型，用于表征不同人体与不同姿态下的三维人体结构。

6.根据权利要求1所述的基于红外热成像的3D人体重构方法，其特征在于，将数据集按7:3划分训练集与测试集。

7.根据权利要求6所述的基于红外热成像的3D人体重构方法，其特征在于，红外热成像3D人体重构网络训练过程中，将训练集中的红外人体图像转换为512×512大小的图像,训练时以16幅图像为一个批次进行小批量训练，训练一批图像，权值更新一次，权值的衰减速率设为0.0005，动量设置为0.9，初始学习率设为0.001，学习率采用余弦退火衰减策略，对红外热成像3D人体重构网络进行20000次迭代，每间隔2000次迭代后保存一次模型，最终获取重构精度最高的模型。

8.根据权利要求1所述的基于红外热成像的3D人体重构方法，其特征在于，将红外人体图像进行人体模型SMPL-X参数化，得到真实的人体形态、人体姿态、人体面部参数；再将红外人体图像作为训练输入，通过训练得到人体重构模型的人体形态参数、人体姿态参数和人体面部参数，为使训练得到的三种参数更逼近于真实的三种参数，故采用的损失函数被定义为L_total＝L_β+L_θ+L_ψ (7)

式中

9.根据权利要求1所述的基于红外热成像的3D人体重构方法，其特征在于，评估模型时的评估标准采用平均三维交并比。