CN111462206A

CN111462206A - 一种基于卷积神经网络的单目结构光深度成像方法

Info

Publication number: CN111462206A
Application number: CN202010213289.0A
Authority: CN
Inventors: 户磊; 王亚运; 王海彬; 曹天宇; 薛远
Original assignee: Hefei Dilusense Technology Co Ltd
Current assignee: Hefei Dilusense Technology Co Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2020-07-28
Anticipated expiration: 2040-03-24
Also published as: CN111462206B

Abstract

本发明实施例提供一种基于卷积神经网络的单目结构光深度成像方法，该方法包括：S1，对单目结构光成像硬件系统进行视觉标定；S2，生成合成训练数据集；S3，数据增广和预处理；S4，构建卷积神经网络；S5，确定损失函数；S6，设置优化器；S7，训练卷积神经网络；S8，测试卷积神经网络。本发明实施例提供的方法用于训练卷积神经网络的合成训练数据集中包含有人脸数据，针对人脸识别进行了特定的优化提升，提高了采用单目结构光深度成像进行人脸识别时的成像效果和识别准确率，减少了网络计算量，提高了在高精度和高分辨率的成像质量要求下的实时性。

Description

一种基于卷积神经网络的单目结构光深度成像方法

技术领域

本发明涉及机器视觉技术领域，具体涉及一种基于卷积神经网络的单目结构光深度成像方法。

背景技术

深度感知成像技术一直是机器视觉领域的重要研究方向与课题。其中，基于空间编码结构光的单目深度成像技术是近距离深度成像最为主流的方向之一，广泛应用于消费电子、体感游戏、安防等场景中。

现有的单目结构光深度成像算法无法针对人脸识别进行特定的优化提升，人脸识别准确率低，无法满足当前人脸识别应用对深度成像效果日益提高的质量要求。同时，针对嵌入式平台上的人脸识别应用，现有的单目结构光深度成像算法网络计算量较大，在高精度和高分辨率的成像质量要求下实时性较差。

发明内容

本发明实施例提供一种基于卷积神经网络的单目结构光深度成像方法，用以解决采用现有的单目结构光深度成像方法进行人脸识别时成像效果差和识别准确率低，在高精度和高分辨率的成像质量要求下实时性较差的问题。

本发明实施例提供一种基于卷积神经网络的单目结构光深度成像方法，包括：

S1，对单目结构光成像硬件系统进行视觉标定：

获取所述单目结构光成像硬件系统的内部参数和外部参数；

基于所述内部参数和外部参数，获取移至无穷远处的散斑参考图；

其中，所述单目结构光成像硬件系统包括红外相机和红外散斑投射器，所述内部参数包括相机焦距和主点坐标，所述外部参数包括相机与投射器之间的旋转矩阵和平移矩阵；

S2，生成合成训练数据集：

基于物品三维模型数据集和人脸三维模型数据集，获取合成三维模型数据集；

基于所述内部参数和外部参数，设置三维模型渲染程序中的所用到的模拟相机和模拟投射器的参数；

基于所述三维模型渲染程序和所述合成三维模型数据集，获取合成训练数据集，所述合成训练数据集包括散斑场景图、散斑参考图、视差真值数据和无效区域掩膜数据；

S3，数据增广和预处理：

对所述散斑场景图和所述散斑参考图进行数据增广和数据预处理；

其中，所述数据增广包括随机图像亮度增强/减弱、随机图像对比度增强/减弱、随机高斯噪声、随机高斯模糊和随机裁剪，所述数据预处理包括局部对比度归一化；

S4，构建卷积神经网络：

所述卷积神经网络包括特征提取部分、匹配代价卷构建部分、视差聚合部分和视差回归部分；

其中，所述特征提取部分用于对所述散斑场景图和所述散斑参考图进行特征提取，得到特征图；

所述匹配代价卷构建部分用于对所述特征图进行循环剪裁和连接操作，得到匹配代价卷；

所述视差聚合部分用于对所述匹配代价卷进行视差聚合计算，得到视差相似度矩阵；

所述视差回归部分用于对所述视差相似度矩阵进行Soft argmin操作和线性变换，得到深度图；

S5，确定损失函数：

基于视差回归损失函数和视差平滑损失函数，确定损失函数；

其中，所述视差回归损失函数表征预测视差图和真实视差图的差距；所述视差平滑损失函数表征预测视差图中各像素点的视差梯度；

S6，设置优化器：

设置优化器，动态调整所述卷积神经网络训练的学习率；

S7，训练卷积神经网络：

基于所述合成训练数据集，确定训练样本集和验证样本集；

基于所述训练样本集、所述验证样本集、所述损失函数和所述优化器，训练所述卷积神经网络；

基于所述损失函数和精度指标，按照设定步长保存所述卷积神经网络的参数模型，确定所述卷积神经网络的参数模型集合；

S8，测试卷积神经网络：

将真实拍摄的各个距离下平面场景图与参考图输入所述卷积神经网络，得到平面深度图；

使用平面精密度指标对所述平面深度图进行评估，得到最终卷积神经网络；

其中，所述最终卷积神经网络为所述参数模型集合中精度最高的卷积神经网络；所述最终卷积神经网络用于对真实采集的人脸数据进行成像效果测试。

可选地，所述物品三维模型数据集从公开数据集ShapeNet中挑选特定数量的物品三维模型；

所述人脸三维模型数据集根据高精度三维扫描仪获取。

可选地，所述基于所述三维模型渲染程序和所述合成三维模型数据集，获取合成训练数据集，具体包括：

调整三维模型渲染程序中的所用到的模拟相机和模拟投射器的外部参数；

基于调整后的三维模型渲染程序和所述合成三维模型数据集，得到包含存在随机行偏差的散斑场景图和散斑参考图的合成训练数据集。

可选地，所述特征提取部分是基于DenseNet-BC结构实现的。

可选地，所述匹配代价卷为4维张量矩阵。

可选地，所述视差聚合部分用于对所述匹配代价卷进行视差聚合计算，得到视差相似度矩阵，包括：

采用抛弃上下采样操作的堆叠沙漏结构进行视差聚合。

使用ShuffleNet-V2版本的卷积单元结构替换普通二维卷积层。

可选地，所述基于视差回归损失函数和视差平滑损失函数，确定损失函数，包括：

采用所述视差回归损失函数和所述视差平滑损失函数加权结合的配置作为损失函数，计算公式如下：

L_total＝α·L_dr+β·L_ds

式中，L_total为所述损失函数，α为所述视差回归损失函数的权值，β为所述视差平滑损失函数的权值，L_dr为所述视差回归损失函数，L_ds为所述视差平滑损失函数。

可选地，所述基于所述合成训练数据集，确定训练样本集和验证样本集，包括：

选取所述合成训练数据集中80％的数据样本作为参与前后向迭代学习的训练样本集；

将所述合成训练数据集中其余20％作为训练过程中验证网络泛化性和精度的验证样本集；

设置2个随机值使得每次抽取到的训练样本或验证样本是无序且均匀分布的。

本发明实施例提供的基于卷积神经网络的单目结构光深度成像方法，通过物品三维模型数据集和人脸三维模型数据集生成合成训练数据集，对合成训练数据集进行数据增广和预处理，提升训练样本的多样性和稳定性；构建卷积神经网络，通过损失函数和优化器，对卷积神经网络进行训练和测试，进而确定了参数模型集合中精度最高的卷积神经网络。该方法用于训练卷积神经网络的合成训练数据集中包含有人脸数据，针对人脸识别进行了特定的优化提升，提高了采用单目结构光深度成像进行人脸识别时的成像效果和识别准确率，减少了网络计算量，提高了在高精度和高分辨率的成像质量要求下的实时性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于卷积神经网络的单目结构光深度成像方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在人脸识别应用领域，随着深度学习技术的发展，目前可以使用深度图像进行识别检测，同时由于嵌入式NPU(Neural-network Processing Unit，网络处理器)平台低功耗、体积小的特点，越来越多的设备商选择采用上述平台实现人脸识别应用。而由于成本限制，一般嵌入式平台的CPU(Central Processing Unit，中央处理器)性能较低，不足以支撑现有单目结构光成像算法的高精度、高分辨率实时运行，同时现有算法无法根据人脸识别应用进行针对性优化。

图1为本发明实施例提供的基于卷积神经网络的单目结构光深度成像方法的流程示意图，如图1所示，该方法包括：

S1，对单目结构光成像硬件系统进行视觉标定：

获取单目结构光成像硬件系统的内部参数和外部参数；

基于内部参数和外部参数，获取移至无穷远处的散斑参考图；

其中，单目结构光成像硬件系统包括红外相机和红外散斑投射器，内部参数包括相机焦距和主点坐标，外部参数包括相机与投射器之间的旋转矩阵和平移矩阵；

具体地，本发明实施例中单目结构光成像硬件系统包括红外散斑投射器和红外相机，其工作原理为红外散斑投射器投射出红外散斑，红外相机采集红外图像。

散斑参考图与预先设定的参考平面相关。在采集散斑参考图之前，可以对单目结构光成像硬件系统进行视觉标定，获取其内部参数和外部参数。内部参数包括相机焦距和主点坐标，外部参数包括相机与投射器之间的旋转矩阵和平移矩阵。散斑参考图是根据上述参数在无穷远处参考平面获取的。

S2，生成合成训练数据集：

基于内部参数和外部参数，设置三维模型渲染程序中的所用到的模拟相机和模拟投射器的参数；

基于三维模型渲染程序和合成三维模型数据集，获取合成训练数据集，合成训练数据集包括散斑场景图、散斑参考图、视差真值数据和无效区域掩膜数据；

具体地，物品三维模型数据集包含有若干个物品三维模型，人脸三维模型数据集包含有若干个人脸三维模型。物品三维模型数据集和人脸三维模型数据集共同构成合成三维模型数据集。合成三维模型数据集为卷积神经网络的训练提供了大量的样本数据，以便提高卷积神经网络对复杂场景中人脸特征的提取能力。

根据单目结构光成像系统的内部参数和外部参数，设置三维模型渲染程序中的所用到的模拟相机和模拟投射器的参数。三维模型渲染程序从合成三维模型数据集中随机挑选不定数量的三维模型置于前景，随机生成不同角度的斜平面作为背景，将前述无穷远处散斑参考图投影到前景和背景中，获取合成训练数据集。合成训练数据集包括散斑场景图、散斑参考图、视差真值数据和无效区域掩膜数据。其中，无效区域为遮挡或阴影造成的无有效视差区域，通过使用无效区域掩膜，可以去除上述区域对卷积神经网络训练过程中产生的消极影响。

S3，数据增广和预处理：

对散斑场景图和散斑参考图进行数据增广和数据预处理；

其中，数据增广包括随机图像亮度增强/减弱、随机图像对比度增强/减弱、随机高斯噪声、随机高斯模糊和随机裁剪，数据预处理包括局部对比度归一化；

具体地，对散斑场景图和散斑参考图进行数据增广，包括随机图像亮度增强/减弱、随机图像对比度增强/减弱、随机高斯噪声、随机高斯模糊和随机裁剪，具体操作分别为：

随机图像亮度增强/减弱是指对散斑场景图和散斑参考图按照一定比例添加随机增量，计算公式为：

I_p＝I_p*(1+α)

式中，I_p为像素亮度，α为随机的亮度增强/减弱系数。

随机图像对比度增强/减弱是指对散斑场景图和散斑参考图按照一定比例调整对比度，计算公式为：

式中，I_p为像素亮度，β为随机的对比度增强/减弱系数。

随机高斯噪声是指对散斑场景图按照一定比例添加符合高斯分布的随机噪声增量。

随机高斯模糊是指对散斑场景图按照一定比例进行高斯平滑操作。

随机裁剪是指对散斑场景图和散斑参考图进行同步随机区域裁剪，可以在保证训练时输入图像分辨率较小的前提下，充分利用大分辨率的训练数据。

通过对散斑场景图和散斑参考图进行数据增广，使得合成训练数据集得到大幅度扩充，增加了训练样本的多样性，提高了卷积神经网络的泛化能力，同时也避免了过拟合现象的出现。其中，由于真实人脸皮肤对红外散斑的反射率较低，实际拍摄得到的散斑场景图中，人脸区域的散斑清晰度和信噪比都较差，通过高斯噪声和高斯模糊的结合使用可以很大程度上模拟真实人脸散斑图像的情况，从而提高了卷积神经网络对人脸区域的成像效果。

在单目结构光深度成像系统中，散斑场景图和散斑参考图的散斑亮度和对比度会随着拍摄距离和场景中物体材质的不同而产生较大差异。

对散斑场景图和散斑参考图进行数据预处理，具体为采用LCN(Local ContrastNormalization，局部对比度归一化)操作，LCN的计算公式为：

式中，I_LCN为LCN后像素亮度值，I为原始像素亮度值，μ为该像素点周围一定大小窗口内的亮度均值。优选地，该窗口大小一般选择9×9～15×15，随散斑密度和大小而定；σ为上述窗口内的亮度标准差；η为较小的常量防止分母为0，优选地，该常量一般设为1e-4。

通过对散斑场景图和散斑参考图进行数据预处理，增强了卷积神经网络对散斑场景图和散斑参考图大差异的处理能力，从而提高了卷积神经网络对散斑亮度和对比度差异的鲁棒性。

S4，构建卷积神经网络：

卷积神经网络包括特征提取部分、匹配代价卷构建部分、视差聚合部分和视差回归部分；

其中，特征提取部分用于对散斑场景图和散斑参考图进行特征提取，得到特征图；

匹配代价卷构建部分用于对特征图进行循环剪裁和连接操作，得到匹配代价卷；

视差聚合部分用于对匹配代价卷进行视差聚合计算，得到视差相似度矩阵；

视差回归部分用于对视差相似度矩阵进行Soft argmin操作和线性变换，得到深度图；

具体地，卷积神经网络包括特征提取部分、匹配代价卷构建部分、视差聚合部分和视差回归部分。

特征提取部分通过多个二维卷积层(Conv2d)对输入卷积神经网络的预处理后的散斑场景图和散斑参考图分别进行深层特征计算和提取，以图像形式输出，并将图像分辨率降到原始的1/4，该部分具有权值共享特性。

匹配代价卷构建部分通过对特征提取部分提取出散斑场景图和散斑参考图的特征图(feature map)进行循环剪裁(crop)和连接(concat)操作，得到匹配代价卷(CostVolume)。

视差聚合部分通过多个二维卷积层(Conv2d)对前述匹配代价卷(CostVolume)进行视差组内的聚合计算，得到视差相似度矩阵。

视差回归部分对前述视差相似度矩阵进行Soft argmin操作，获取3维张量的视差图作为整个卷积神经网络的输出，即B*H*W。

前述Soft argmin操作的计算公式为：

式中，

为像素点输出的视差值，d为可能的视差值，d∈[0，D_max)，D_max为最大视差值，S_d为该像素点的相似度向量，σ(·)为SoftMax操作运算符，其计算公式为：

式中，d为可能的视差值，S_d为该像素点的相似度向量。

根据视差图，可以通过线性变换得到用于人脸识别的深度图，变换关系式如下：

Z＝f·L/d

式中Z为用于人脸识别的深度图中像素点的深度值，f为前述单目结构光成像硬件系统中红外相机焦距，L为前述单目结构光成像硬件系统中基线长度，d为视差图中对应像素点的视差值。

S5，确定损失函数：

其中，视差回归损失函数表征预测视差图和真实视差图的差距；视差平滑损失函数表征预测视差图中各像素点的视差梯度；

具体地，视差回归损失函数表征预测视差图和真实视差图的差距。可以采用Smooth-L1损失函数来训练视差回归效果。Smooth-L1损失在物体检测的边缘箱型(bounding box)回归中应用十分广泛，其比L2损失函数函数具有更高的鲁棒性，对于异常点更不敏感。视差回归损失函数如下：

式中：

其中，L_dr为视差回归损失，N是标记的像素数量，d_ij是真实视差值，

是预测的视差值，x为相应计算数值。

视差平滑损失函数表征预测视差图中各像素点的视差梯度，可以通过视差梯度

的L1惩罚，来激励视差在局部平滑。由于深度不连续经常发生在原始图像的边缘处(梯度较大)，使用基于图像梯度

的边缘感知项对该代价加权，可以在进行低纹理区域视差平滑的同时，保持边缘区域的视差锐化：

其中，L_ds为视差平滑损失，

和

是该像素x方向和y方向的视差梯度，

和

是该像素x方向和y方向的图像梯度。

卷积神经网络的损失函数是基于视差回归损失函数和视差平滑损失函数确定的。

S6，设置优化器：

设置优化器，动态调整卷积神经网络训练的学习率；

具体地，超参数配置时，采用RMSProp优化器，初始学习率为0.0001，模型训练过程中对学习率进行动态调整，其随迭代次数的增加而阶梯式下降，保证在训练较为深入的时候，优化器不会因为学习率较大而产生大幅度振荡。

S7，训练卷积神经网络：

基于合成训练数据集，确定训练样本集和验证样本集；

基于训练样本集、验证样本集、损失函数和优化器，训练卷积神经网络；

基于损失函数和精度指标，按照设定步长保存卷积神经网络的参数模型，确定卷积神经网络的参数模型集合；

具体地，可以将合成训练数据集分为训练样本集和验证样本集，训练样本集用于训练卷积神经网络参与前后向迭代学习，验证样本集用于训练过程中验证卷积神经网络的泛化性和精度。

根据损失函数和优化器，开始卷积神经网络的训练，并通过可视化模块观察损失和精度指标的变化趋势，训练过程中按照设定步长自动保存参数模型，得到卷积神经网络的参数模型集合。

S8，测试卷积神经网络：

将真实拍摄的各个距离下平面场景图与参考图输入卷积神经网络，得到平面深度图；

使用平面精密度指标对平面深度图进行评估，得到最终卷积神经网络；

其中，最终卷积神经网络为参数模型集合中精度最高的卷积神经网络；最终卷积神经网络用于对真实采集的人脸数据进行成像效果测试。

具体地，基于真实拍摄的各个距离下平面散斑场景图与散斑参考图，通过卷积神经网络恢复出相应的平面深度图像，随后使用平面精密度指标对上述平面深度图像的质量进行评估，挑选出精度最高的卷积神经网络作为最终卷积神经网，对真实采集的人脸数据进行成像效果测试。

本发明实施例提供的基于卷积神经网络的单目结构光深度成像方法，通过物品三维模型数据集和人脸三维模型数据集生成合成训练数据集，对合成训练数据集进行数据增广和预处理，提升训练样本的多样性和稳定性；构建卷积神经网络，通过损失函数和优化器，对卷积神经网络进行训练和测试，进而确定了参数模型集合中精度最高的卷积神经网络。该方法用于训练卷积神经网络的合成训练数据集中包含有人脸数据，针对人脸识别进行了特定的优化提升，提高了采用单目结构光深度成像进行人脸识别时的成像效果和识别准确率，减少了卷积神经网络的计算量，提高了在高精度和高分辨率的成像质量要求下的实时性。

基于上述实施例，物品三维模型数据集从公开数据集ShapeNet中挑选特定数量的物品三维模型；

人脸三维模型数据集根据高精度三维扫描仪获取。

具体地，物品三维模型数据集可以从公开数据集ShapeNet中挑选特定数量的物品三维模型，为卷积神经网络训练提供通用性基础数据；人脸三维模型数据集中的人脸三维模型可以根据高精度三维扫描仪获取，为对人脸识别检测应用进行针对性优化，可以提高卷积神经网络对人脸区域图像的适应性。

基于上述任一实施例，基于三维模型渲染程序和合成三维模型数据集，获取合成训练数据集，具体包括：

基于调整后的三维模型渲染程序和合成三维模型数据集，得到包含存在随机行偏差的散斑场景图和散斑参考图的合成训练数据集。

具体地，由于各距离下场景图和参考图之间存在行偏差，会造成深度成像质量下降。因此，为了提高深度成像的图像质量，可以使用包含行偏差的合成训练数据集训练卷积神经网络。在合成训练数据集的生成过程中，在一定范围内随机调整三维模型渲染程序中的所用到的模拟相机和模拟投射器的外部参数，使合成训练数据集中散斑场景图和散斑参考图之间产出一定范围内的随机行偏差。将存在随机行偏差的散斑场景图和散斑参考图应用于卷积神经网络的训练，能够提高卷积神经网络对行偏差的容错率，从而提高卷积神经网络在行偏差干扰下对人脸特征的提取能力。

本发明实施例提供的基于卷积神经网络的单目结构光深度成像方法，通过使用包含随机行偏差的合成训练数据集训练卷积神经网络，提高了卷积神经网络在行偏差干扰下对人脸特征的提取能力，从而提高了卷积神经网络对行偏差的鲁棒性，最终提高了深度图像的成像质量。

基于上述任一实施例，特征提取部分是基于DenseNet-BC结构实现的。

具体地，特征提取部分可以采用DenseNet-BC结构实现特征提取，该结构相比ResNet结构具有更少的参数量和更加优异的性能，同时通过特征重用和旁路设置，在一定程度上缓解了梯度消失和模型退化问题的产生。

基于上述任一实施例，匹配代价卷为4维张量矩阵。

具体地，通常在双目匹配网络中构建5维的张量矩阵作为匹配代价卷(CostVolume)，即B*C*D*H*W(B：批次，C：通道数，D：该分辨率下最大视差，H：图像高度，W：图像宽度)，视差聚合部分使用三维卷积层(Conv3d)实现。

由于原生Caffe(Convolutional Architecture for Fast Feature Embedding，深度学习框架)中不支持三维卷积层Conv3d层，本发明实施例中构建4维张量矩阵作为匹配代价卷(CostVolume)，即(BD)*C*H*W，通过连接(concat)操作将B和D维度合并，这种方式不仅使得视差聚合部分可以利用二维卷积层(Conv2d)实现，同时也大幅减少了计算量和显存占用。

为了减少模型计算量，使用上采样(Upsample)操作替换反卷积层将匹配代价卷(CostVolume)恢复至原始分辨率，最后通过循环连接(concat)操作获取4维张量的视差相似度矩阵，即B*D*H*W，其中，B为批次，D为未分组的最大视差，H为图像高度，W为图像宽度。

此外，还可以采用视差分组的方式进一步减少模型计算量，优选地，将最大视差分为3组，即D->D/3，视差聚合部分的计算量将会降为原来的1/3。

本发明实施例提供的基于卷积神经网络的单目结构光深度成像方法，通过构建4维张量矩阵作为匹配代价卷，大幅缩减了模型计算量，提高了卷积神经网络对通用平台的兼容性，提高了卷积神经网络在高分辨率和高精度要求下运行的实时性。

基于上述任一实施例，视差聚合部分用于对匹配代价卷进行视差聚合计算，得到视差相似度矩阵，包括：

采用抛弃上下采样操作的堆叠沙漏结构进行视差聚合。

具体地，可以采用抛弃上下采样操作的堆叠沙漏结构进行视差聚合，尽量保留大分辨率特征图(feature map)的特征信息。

使用ShuffleNet-V2版本的卷积单元结构替换普通二维卷积层。

具体地，为了减小视差聚合部分的计算量，可以使用ShuffleNet-V2版本的卷积单元结构替换普通二维卷积层(Conv2d)，该结构可以在基本不降低精度的情况下大幅度提升模型的运行速度。

基于上述任一实施例，基于视差回归损失函数和视差平滑损失函数，确定损失函数，包括：

采用视差回归损失函数和视差平滑损失函数加权结合的配置作为损失函数，计算公式如下：

L_total＝α·L_dr+β·L_ds

式中，L_total为损失函数，α为视差回归损失函数的权值，β为视差平滑损失函数的权值，L_dr为视差回归损失函数，L_ds为视差平滑损失函数。

基于上述任一实施例，基于合成训练数据集，确定训练样本集和验证样本集，包括：

选取合成训练数据集中80％的数据样本作为参与前后向迭代学习的训练样本集；

将合成训练数据集中其余20％作为训练过程中验证网络泛化性和精度的验证样本集；

本发明实施例提供的基于卷积神经网络的单目结构光深度成像方法，通过基于公开的日常物品三维模型库和自建的人脸三维模型库，生成训练所用的大规模合成数据集，通过数据增广、数据预处理提升训练集样本的多样性和稳定性；构建基于DenseNet-BC结构的特征提取部分、基于维度合并结构的匹配代价卷、基于改进堆叠沙漏结构的视差聚合部分和基于Soft argmin操作的视差回归部分共同组成的卷积网络模型；通过视差回归和视差平滑加权损失函数及预定义超参数，对卷积神经网络进行训练和测试。该方法用于训练卷积神经网络的合成训练数据集中包含有人脸数据，针对人脸识别进行了特定的优化提升，提高了采用单目结构光深度成像进行人脸识别时的成像效果和识别准确率，同时，提高了卷积神经网络对通用平台的兼容性，减少了网络计算量，在选定的嵌入式平台上可以达到高分辨率、高精度的实时性要求。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于卷积神经网络的单目结构光深度成像方法，其特征在于，包括：

S1，对单目结构光成像硬件系统进行视觉标定：

获取所述单目结构光成像硬件系统的内部参数和外部参数；

S2，生成合成训练数据集：

S3，数据增广和预处理：

S4，构建卷积神经网络：

S5，确定损失函数：

S6，设置优化器：

设置优化器，动态调整所述卷积神经网络训练的学习率；

S7，训练卷积神经网络：

基于所述合成训练数据集，确定训练样本集和验证样本集；

S8，测试卷积神经网络：

2.根据权利要求1所述的基于卷积神经网络的单目结构光深度成像方法，其特征在于：

所述物品三维模型数据集从公开数据集ShapeNet中挑选特定数量的物品三维模型；

所述人脸三维模型数据集根据高精度三维扫描仪获取。

3.根据权利要求1所述的基于卷积神经网络的单目结构光深度成像方法，其特征在于，所述基于所述三维模型渲染程序和所述合成三维模型数据集，获取合成训练数据集，具体包括：

4.根据权利要求1所述的基于卷积神经网络的单目结构光深度成像方法，其特征在于，所述特征提取部分是基于DenseNet-BC结构实现的。

5.根据权利要求1所述的基于卷积神经网络的单目结构光深度成像方法，其特征在于，所述匹配代价卷为4维张量矩阵。

6.根据权利要求1所述的基于卷积神经网络的单目结构光深度成像方法，其特征在于，所述视差聚合部分用于对所述匹配代价卷进行视差聚合计算，得到视差相似度矩阵，包括：

采用抛弃上下采样操作的堆叠沙漏结构进行视差聚合。

7.根据权利要求1所述的基于卷积神经网络的单目结构光深度成像方法，其特征在于，所述视差聚合部分用于对所述匹配代价卷进行视差聚合计算，得到视差相似度矩阵，包括：

使用ShuffleNet-V2版本的卷积单元结构替换普通二维卷积层。

8.根据权利要求1所述的基于卷积神经网络的单目结构光深度成像方法，其特征在于，所述基于视差回归损失函数和视差平滑损失函数，确定损失函数，包括：

L_total＝α·L_dr+β·L_ds

9.根据权利要求1所述的基于卷积神经网络的单目结构光深度成像方法，其特征在于，所述基于所述合成训练数据集，确定训练样本集和验证样本集，包括：