CN111462206B - 一种基于卷积神经网络的单目结构光深度成像方法 - Google Patents
一种基于卷积神经网络的单目结构光深度成像方法 Download PDFInfo
- Publication number
- CN111462206B CN111462206B CN202010213289.0A CN202010213289A CN111462206B CN 111462206 B CN111462206 B CN 111462206B CN 202010213289 A CN202010213289 A CN 202010213289A CN 111462206 B CN111462206 B CN 111462206B
- Authority
- CN
- China
- Prior art keywords
- neural network
- parallax
- convolutional neural
- loss function
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 97
- 238000003384 imaging method Methods 0.000 title claims abstract description 63
- 238000012549 training Methods 0.000 claims abstract description 98
- 238000004364 calculation method Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000013434 data augmentation Methods 0.000 claims abstract description 13
- 230000000694 effects Effects 0.000 claims abstract description 12
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 69
- 230000002776 aggregation Effects 0.000 claims description 33
- 238000004220 aggregation Methods 0.000 claims description 33
- 239000011159 matrix material Substances 0.000 claims description 29
- 238000000605 extraction Methods 0.000 claims description 19
- 238000009499 grossing Methods 0.000 claims description 16
- 238000004088 simulation Methods 0.000 claims description 16
- 230000009467 reduction Effects 0.000 claims description 12
- 238000010200 validation analysis Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000005520 cutting process Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 125000004122 cyclic group Chemical group 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000013519 translation Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 abstract description 7
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 240000007154 Coffea arabica Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002310 reflectometry Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明实施例提供一种基于卷积神经网络的单目结构光深度成像方法,该方法包括:S1,对单目结构光成像硬件系统进行视觉标定;S2,生成合成训练数据集;S3,数据增广和预处理;S4,构建卷积神经网络;S5,确定损失函数;S6,设置优化器;S7,训练卷积神经网络;S8,测试卷积神经网络。本发明实施例提供的方法用于训练卷积神经网络的合成训练数据集中包含有人脸数据,针对人脸识别进行了特定的优化提升,提高了采用单目结构光深度成像进行人脸识别时的成像效果和识别准确率,减少了网络计算量,提高了在高精度和高分辨率的成像质量要求下的实时性。
Description
技术领域
本发明涉及机器视觉技术领域,具体涉及一种基于卷积神经网络的单目结构光深度成像方法。
背景技术
深度感知成像技术一直是机器视觉领域的重要研究方向与课题。其中,基于空间编码结构光的单目深度成像技术是近距离深度成像最为主流的方向之一,广泛应用于消费电子、体感游戏、安防等场景中。
现有的单目结构光深度成像算法无法针对人脸识别进行特定的优化提升,人脸识别准确率低,无法满足当前人脸识别应用对深度成像效果日益提高的质量要求。同时,针对嵌入式平台上的人脸识别应用,现有的单目结构光深度成像算法网络计算量较大,在高精度和高分辨率的成像质量要求下实时性较差。
发明内容
本发明实施例提供一种基于卷积神经网络的单目结构光深度成像方法,用以解决采用现有的单目结构光深度成像方法进行人脸识别时成像效果差和识别准确率低,在高精度和高分辨率的成像质量要求下实时性较差的问题。
本发明实施例提供一种基于卷积神经网络的单目结构光深度成像方法,包括:
S1,对单目结构光成像硬件系统进行视觉标定:
获取所述单目结构光成像硬件系统的内部参数和外部参数;
基于所述内部参数和外部参数,获取移至无穷远处的散斑参考图;
其中,所述单目结构光成像硬件系统包括红外相机和红外散斑投射器,所述内部参数包括相机焦距和主点坐标,所述外部参数包括相机与投射器之间的旋转矩阵和平移矩阵;
S2,生成合成训练数据集:
基于物品三维模型数据集和人脸三维模型数据集,获取合成三维模型数据集;
基于所述内部参数和外部参数,设置三维模型渲染程序中的所用到的模拟相机和模拟投射器的参数;
基于所述三维模型渲染程序和所述合成三维模型数据集,获取合成训练数据集,所述合成训练数据集包括散斑场景图、散斑参考图、视差真值数据和无效区域掩膜数据;
S3,数据增广和预处理:
对所述散斑场景图和所述散斑参考图进行数据增广和数据预处理;
其中,所述数据增广包括随机图像亮度增强/减弱、随机图像对比度增强/减弱、随机高斯噪声、随机高斯模糊和随机裁剪,所述数据预处理包括局部对比度归一化;
S4,构建卷积神经网络:
所述卷积神经网络包括特征提取部分、匹配代价卷构建部分、视差聚合部分和视差回归部分;
其中,所述特征提取部分用于对所述散斑场景图和所述散斑参考图进行特征提取,得到特征图;
所述匹配代价卷构建部分用于对所述特征图进行循环剪裁和连接操作,得到匹配代价卷;
所述视差聚合部分用于对所述匹配代价卷进行视差聚合计算,得到视差相似度矩阵;
所述视差回归部分用于对所述视差相似度矩阵进行Soft argmin操作和线性变换,得到深度图;
S5,确定损失函数:
基于视差回归损失函数和视差平滑损失函数,确定损失函数;
其中,所述视差回归损失函数表征预测视差图和真实视差图的差距;所述视差平滑损失函数表征预测视差图中各像素点的视差梯度;
S6,设置优化器:
设置优化器,动态调整所述卷积神经网络训练的学习率;
S7,训练卷积神经网络:
基于所述合成训练数据集,确定训练样本集和验证样本集;
基于所述训练样本集、所述验证样本集、所述损失函数和所述优化器,训练所述卷积神经网络;
基于所述损失函数和精度指标,按照设定步长保存所述卷积神经网络的参数模型,确定所述卷积神经网络的参数模型集合;
S8,测试卷积神经网络:
将真实拍摄的各个距离下平面场景图与参考图输入所述卷积神经网络,得到平面深度图;
使用平面精密度指标对所述平面深度图进行评估,得到最终卷积神经网络;
其中,所述最终卷积神经网络为所述参数模型集合中精度最高的卷积神经网络;所述最终卷积神经网络用于对真实采集的人脸数据进行成像效果测试。
可选地,所述物品三维模型数据集从公开数据集ShapeNet中挑选特定数量的物品三维模型;
所述人脸三维模型数据集根据高精度三维扫描仪获取。
可选地,所述基于所述三维模型渲染程序和所述合成三维模型数据集,获取合成训练数据集,具体包括:
调整三维模型渲染程序中的所用到的模拟相机和模拟投射器的外部参数;
基于调整后的三维模型渲染程序和所述合成三维模型数据集,得到包含存在随机行偏差的散斑场景图和散斑参考图的合成训练数据集。
可选地,所述特征提取部分是基于DenseNet-BC结构实现的。
可选地,所述匹配代价卷为4维张量矩阵。
可选地,所述视差聚合部分用于对所述匹配代价卷进行视差聚合计算,得到视差相似度矩阵,包括:
采用抛弃上下采样操作的堆叠沙漏结构进行视差聚合。
可选地,所述视差聚合部分用于对所述匹配代价卷进行视差聚合计算,得到视差相似度矩阵,包括:
使用ShuffleNet-V2版本的卷积单元结构替换普通二维卷积层。
可选地,所述基于视差回归损失函数和视差平滑损失函数,确定损失函数,包括:
采用所述视差回归损失函数和所述视差平滑损失函数加权结合的配置作为损失函数,计算公式如下:
Ltotal=α·Ldr+β·Lds
式中,Ltotal为所述损失函数,α为所述视差回归损失函数的权值,β为所述视差平滑损失函数的权值,Ldr为所述视差回归损失函数,Lds为所述视差平滑损失函数。
可选地,所述基于所述合成训练数据集,确定训练样本集和验证样本集,包括:
选取所述合成训练数据集中80%的数据样本作为参与前后向迭代学习的训练样本集;
将所述合成训练数据集中其余20%作为训练过程中验证网络泛化性和精度的验证样本集;
设置2个随机值使得每次抽取到的训练样本或验证样本是无序且均匀分布的。
本发明实施例提供的基于卷积神经网络的单目结构光深度成像方法,通过物品三维模型数据集和人脸三维模型数据集生成合成训练数据集,对合成训练数据集进行数据增广和预处理,提升训练样本的多样性和稳定性;构建卷积神经网络,通过损失函数和优化器,对卷积神经网络进行训练和测试,进而确定了参数模型集合中精度最高的卷积神经网络。该方法用于训练卷积神经网络的合成训练数据集中包含有人脸数据,针对人脸识别进行了特定的优化提升,提高了采用单目结构光深度成像进行人脸识别时的成像效果和识别准确率,减少了网络计算量,提高了在高精度和高分辨率的成像质量要求下的实时性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于卷积神经网络的单目结构光深度成像方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在人脸识别应用领域,随着深度学习技术的发展,目前可以使用深度图像进行识别检测,同时由于嵌入式NPU(Neural-network Processing Unit,网络处理器)平台低功耗、体积小的特点,越来越多的设备商选择采用上述平台实现人脸识别应用。而由于成本限制,一般嵌入式平台的CPU(Central Processing Unit,中央处理器)性能较低,不足以支撑现有单目结构光成像算法的高精度、高分辨率实时运行,同时现有算法无法根据人脸识别应用进行针对性优化。
图1为本发明实施例提供的基于卷积神经网络的单目结构光深度成像方法的流程示意图,如图1所示,该方法包括:
S1,对单目结构光成像硬件系统进行视觉标定:
获取单目结构光成像硬件系统的内部参数和外部参数;
基于内部参数和外部参数,获取移至无穷远处的散斑参考图;
其中,单目结构光成像硬件系统包括红外相机和红外散斑投射器,内部参数包括相机焦距和主点坐标,外部参数包括相机与投射器之间的旋转矩阵和平移矩阵;
具体地,本发明实施例中单目结构光成像硬件系统包括红外散斑投射器和红外相机,其工作原理为红外散斑投射器投射出红外散斑,红外相机采集红外图像。
散斑参考图与预先设定的参考平面相关。在采集散斑参考图之前,可以对单目结构光成像硬件系统进行视觉标定,获取其内部参数和外部参数。内部参数包括相机焦距和主点坐标,外部参数包括相机与投射器之间的旋转矩阵和平移矩阵。散斑参考图是根据上述参数在无穷远处参考平面获取的。
S2,生成合成训练数据集:
基于物品三维模型数据集和人脸三维模型数据集,获取合成三维模型数据集;
基于内部参数和外部参数,设置三维模型渲染程序中的所用到的模拟相机和模拟投射器的参数;
基于三维模型渲染程序和合成三维模型数据集,获取合成训练数据集,合成训练数据集包括散斑场景图、散斑参考图、视差真值数据和无效区域掩膜数据;
具体地,物品三维模型数据集包含有若干个物品三维模型,人脸三维模型数据集包含有若干个人脸三维模型。物品三维模型数据集和人脸三维模型数据集共同构成合成三维模型数据集。合成三维模型数据集为卷积神经网络的训练提供了大量的样本数据,以便提高卷积神经网络对复杂场景中人脸特征的提取能力。
根据单目结构光成像系统的内部参数和外部参数,设置三维模型渲染程序中的所用到的模拟相机和模拟投射器的参数。三维模型渲染程序从合成三维模型数据集中随机挑选不定数量的三维模型置于前景,随机生成不同角度的斜平面作为背景,将前述无穷远处散斑参考图投影到前景和背景中,获取合成训练数据集。合成训练数据集包括散斑场景图、散斑参考图、视差真值数据和无效区域掩膜数据。其中,无效区域为遮挡或阴影造成的无有效视差区域,通过使用无效区域掩膜,可以去除上述区域对卷积神经网络训练过程中产生的消极影响。
S3,数据增广和预处理:
对散斑场景图和散斑参考图进行数据增广和数据预处理;
其中,数据增广包括随机图像亮度增强/减弱、随机图像对比度增强/减弱、随机高斯噪声、随机高斯模糊和随机裁剪,数据预处理包括局部对比度归一化;
具体地,对散斑场景图和散斑参考图进行数据增广,包括随机图像亮度增强/减弱、随机图像对比度增强/减弱、随机高斯噪声、随机高斯模糊和随机裁剪,具体操作分别为:
随机图像亮度增强/减弱是指对散斑场景图和散斑参考图按照一定比例添加随机增量,计算公式为:
Ip=Ip*(1+α)
式中,Ip为像素亮度,α为随机的亮度增强/减弱系数。
随机图像对比度增强/减弱是指对散斑场景图和散斑参考图按照一定比例调整对比度,计算公式为:
式中,Ip为像素亮度,β为随机的对比度增强/减弱系数。
随机高斯噪声是指对散斑场景图按照一定比例添加符合高斯分布的随机噪声增量。
随机高斯模糊是指对散斑场景图按照一定比例进行高斯平滑操作。
随机裁剪是指对散斑场景图和散斑参考图进行同步随机区域裁剪,可以在保证训练时输入图像分辨率较小的前提下,充分利用大分辨率的训练数据。
通过对散斑场景图和散斑参考图进行数据增广,使得合成训练数据集得到大幅度扩充,增加了训练样本的多样性,提高了卷积神经网络的泛化能力,同时也避免了过拟合现象的出现。其中,由于真实人脸皮肤对红外散斑的反射率较低,实际拍摄得到的散斑场景图中,人脸区域的散斑清晰度和信噪比都较差,通过高斯噪声和高斯模糊的结合使用可以很大程度上模拟真实人脸散斑图像的情况,从而提高了卷积神经网络对人脸区域的成像效果。
在单目结构光深度成像系统中,散斑场景图和散斑参考图的散斑亮度和对比度会随着拍摄距离和场景中物体材质的不同而产生较大差异。
对散斑场景图和散斑参考图进行数据预处理,具体为采用LCN(Local ContrastNormalization,局部对比度归一化)操作,LCN的计算公式为:
式中,ILCN为LCN后像素亮度值,I为原始像素亮度值,μ为该像素点周围一定大小窗口内的亮度均值。优选地,该窗口大小一般选择9×9~15×15,随散斑密度和大小而定;σ为上述窗口内的亮度标准差;η为较小的常量防止分母为0,优选地,该常量一般设为1e-4。
通过对散斑场景图和散斑参考图进行数据预处理,增强了卷积神经网络对散斑场景图和散斑参考图大差异的处理能力,从而提高了卷积神经网络对散斑亮度和对比度差异的鲁棒性。
S4,构建卷积神经网络:
卷积神经网络包括特征提取部分、匹配代价卷构建部分、视差聚合部分和视差回归部分;
其中,特征提取部分用于对散斑场景图和散斑参考图进行特征提取,得到特征图;
匹配代价卷构建部分用于对特征图进行循环剪裁和连接操作,得到匹配代价卷;
视差聚合部分用于对匹配代价卷进行视差聚合计算,得到视差相似度矩阵;
视差回归部分用于对视差相似度矩阵进行Soft argmin操作和线性变换,得到深度图;
具体地,卷积神经网络包括特征提取部分、匹配代价卷构建部分、视差聚合部分和视差回归部分。
特征提取部分通过多个二维卷积层(Conv2d)对输入卷积神经网络的预处理后的散斑场景图和散斑参考图分别进行深层特征计算和提取,以图像形式输出,并将图像分辨率降到原始的1/4,该部分具有权值共享特性。
匹配代价卷构建部分通过对特征提取部分提取出散斑场景图和散斑参考图的特征图(feature map)进行循环剪裁(crop)和连接(concat)操作,得到匹配代价卷(CostVolume)。
视差聚合部分通过多个二维卷积层(Conv2d)对前述匹配代价卷(CostVolume)进行视差组内的聚合计算,得到视差相似度矩阵。
视差回归部分对前述视差相似度矩阵进行Soft argmin操作,获取3维张量的视差图作为整个卷积神经网络的输出,即B*H*W。
前述Soft argmin操作的计算公式为:
式中,d为可能的视差值,Sd为该像素点的相似度向量。
根据视差图,可以通过线性变换得到用于人脸识别的深度图,变换关系式如下:
Z=f·L/d
式中Z为用于人脸识别的深度图中像素点的深度值,f为前述单目结构光成像硬件系统中红外相机焦距,L为前述单目结构光成像硬件系统中基线长度,d为视差图中对应像素点的视差值。
S5,确定损失函数:
基于视差回归损失函数和视差平滑损失函数,确定损失函数;
其中,视差回归损失函数表征预测视差图和真实视差图的差距;视差平滑损失函数表征预测视差图中各像素点的视差梯度;
具体地,视差回归损失函数表征预测视差图和真实视差图的差距。可以采用Smooth-L1损失函数来训练视差回归效果。Smooth-L1损失在物体检测的边缘箱型(bounding box)回归中应用十分广泛,其比L2损失函数函数具有更高的鲁棒性,对于异常点更不敏感。视差回归损失函数如下:
式中:
视差平滑损失函数表征预测视差图中各像素点的视差梯度,可以通过视差梯度的L1惩罚,来激励视差在局部平滑。由于深度不连续经常发生在原始图像的边缘处(梯度较大),使用基于图像梯度的边缘感知项对该代价加权,可以在进行低纹理区域视差平滑的同时,保持边缘区域的视差锐化:
卷积神经网络的损失函数是基于视差回归损失函数和视差平滑损失函数确定的。
S6,设置优化器:
设置优化器,动态调整卷积神经网络训练的学习率;
具体地,超参数配置时,采用RMSProp优化器,初始学习率为0.0001,模型训练过程中对学习率进行动态调整,其随迭代次数的增加而阶梯式下降,保证在训练较为深入的时候,优化器不会因为学习率较大而产生大幅度振荡。
S7,训练卷积神经网络:
基于合成训练数据集,确定训练样本集和验证样本集;
基于训练样本集、验证样本集、损失函数和优化器,训练卷积神经网络;
基于损失函数和精度指标,按照设定步长保存卷积神经网络的参数模型,确定卷积神经网络的参数模型集合;
具体地,可以将合成训练数据集分为训练样本集和验证样本集,训练样本集用于训练卷积神经网络参与前后向迭代学习,验证样本集用于训练过程中验证卷积神经网络的泛化性和精度。
根据损失函数和优化器,开始卷积神经网络的训练,并通过可视化模块观察损失和精度指标的变化趋势,训练过程中按照设定步长自动保存参数模型,得到卷积神经网络的参数模型集合。
S8,测试卷积神经网络:
将真实拍摄的各个距离下平面场景图与参考图输入卷积神经网络,得到平面深度图;
使用平面精密度指标对平面深度图进行评估,得到最终卷积神经网络;
其中,最终卷积神经网络为参数模型集合中精度最高的卷积神经网络;最终卷积神经网络用于对真实采集的人脸数据进行成像效果测试。
具体地,基于真实拍摄的各个距离下平面散斑场景图与散斑参考图,通过卷积神经网络恢复出相应的平面深度图像,随后使用平面精密度指标对上述平面深度图像的质量进行评估,挑选出精度最高的卷积神经网络作为最终卷积神经网,对真实采集的人脸数据进行成像效果测试。
本发明实施例提供的基于卷积神经网络的单目结构光深度成像方法,通过物品三维模型数据集和人脸三维模型数据集生成合成训练数据集,对合成训练数据集进行数据增广和预处理,提升训练样本的多样性和稳定性;构建卷积神经网络,通过损失函数和优化器,对卷积神经网络进行训练和测试,进而确定了参数模型集合中精度最高的卷积神经网络。该方法用于训练卷积神经网络的合成训练数据集中包含有人脸数据,针对人脸识别进行了特定的优化提升,提高了采用单目结构光深度成像进行人脸识别时的成像效果和识别准确率,减少了卷积神经网络的计算量,提高了在高精度和高分辨率的成像质量要求下的实时性。
基于上述实施例,物品三维模型数据集从公开数据集ShapeNet中挑选特定数量的物品三维模型;
人脸三维模型数据集根据高精度三维扫描仪获取。
具体地,物品三维模型数据集可以从公开数据集ShapeNet中挑选特定数量的物品三维模型,为卷积神经网络训练提供通用性基础数据;人脸三维模型数据集中的人脸三维模型可以根据高精度三维扫描仪获取,为对人脸识别检测应用进行针对性优化,可以提高卷积神经网络对人脸区域图像的适应性。
基于上述任一实施例,基于三维模型渲染程序和合成三维模型数据集,获取合成训练数据集,具体包括:
调整三维模型渲染程序中的所用到的模拟相机和模拟投射器的外部参数;
基于调整后的三维模型渲染程序和合成三维模型数据集,得到包含存在随机行偏差的散斑场景图和散斑参考图的合成训练数据集。
具体地,由于各距离下场景图和参考图之间存在行偏差,会造成深度成像质量下降。因此,为了提高深度成像的图像质量,可以使用包含行偏差的合成训练数据集训练卷积神经网络。在合成训练数据集的生成过程中,在一定范围内随机调整三维模型渲染程序中的所用到的模拟相机和模拟投射器的外部参数,使合成训练数据集中散斑场景图和散斑参考图之间产出一定范围内的随机行偏差。将存在随机行偏差的散斑场景图和散斑参考图应用于卷积神经网络的训练,能够提高卷积神经网络对行偏差的容错率,从而提高卷积神经网络在行偏差干扰下对人脸特征的提取能力。
本发明实施例提供的基于卷积神经网络的单目结构光深度成像方法,通过使用包含随机行偏差的合成训练数据集训练卷积神经网络,提高了卷积神经网络在行偏差干扰下对人脸特征的提取能力,从而提高了卷积神经网络对行偏差的鲁棒性,最终提高了深度图像的成像质量。
基于上述任一实施例,特征提取部分是基于DenseNet-BC结构实现的。
具体地,特征提取部分可以采用DenseNet-BC结构实现特征提取,该结构相比ResNet结构具有更少的参数量和更加优异的性能,同时通过特征重用和旁路设置,在一定程度上缓解了梯度消失和模型退化问题的产生。
基于上述任一实施例,匹配代价卷为4维张量矩阵。
具体地,通常在双目匹配网络中构建5维的张量矩阵作为匹配代价卷(CostVolume),即B*C*D*H*W(B:批次,C:通道数,D:该分辨率下最大视差,H:图像高度,W:图像宽度),视差聚合部分使用三维卷积层(Conv3d)实现。
由于原生Caffe(Convolutional Architecture for Fast Feature Embedding,深度学习框架)中不支持三维卷积层Conv3d层,本发明实施例中构建4维张量矩阵作为匹配代价卷(CostVolume),即(BD)*C*H*W,通过连接(concat)操作将B和D维度合并,这种方式不仅使得视差聚合部分可以利用二维卷积层(Conv2d)实现,同时也大幅减少了计算量和显存占用。
为了减少模型计算量,使用上采样(Upsample)操作替换反卷积层将匹配代价卷(CostVolume)恢复至原始分辨率,最后通过循环连接(concat)操作获取4维张量的视差相似度矩阵,即B*D*H*W,其中,B为批次,D为未分组的最大视差,H为图像高度,W为图像宽度。
此外,还可以采用视差分组的方式进一步减少模型计算量,优选地,将最大视差分为3组,即D->D/3,视差聚合部分的计算量将会降为原来的1/3。
本发明实施例提供的基于卷积神经网络的单目结构光深度成像方法,通过构建4维张量矩阵作为匹配代价卷,大幅缩减了模型计算量,提高了卷积神经网络对通用平台的兼容性,提高了卷积神经网络在高分辨率和高精度要求下运行的实时性。
基于上述任一实施例,视差聚合部分用于对匹配代价卷进行视差聚合计算,得到视差相似度矩阵,包括:
采用抛弃上下采样操作的堆叠沙漏结构进行视差聚合。
具体地,可以采用抛弃上下采样操作的堆叠沙漏结构进行视差聚合,尽量保留大分辨率特征图(feature map)的特征信息。
基于上述任一实施例,视差聚合部分用于对匹配代价卷进行视差聚合计算,得到视差相似度矩阵,包括:
使用ShuffleNet-V2版本的卷积单元结构替换普通二维卷积层。
具体地,为了减小视差聚合部分的计算量,可以使用ShuffleNet-V2版本的卷积单元结构替换普通二维卷积层(Conv2d),该结构可以在基本不降低精度的情况下大幅度提升模型的运行速度。
基于上述任一实施例,基于视差回归损失函数和视差平滑损失函数,确定损失函数,包括:
采用视差回归损失函数和视差平滑损失函数加权结合的配置作为损失函数,计算公式如下:
Ltotal=α·Ldr+β·Lds
式中,Ltotal为损失函数,α为视差回归损失函数的权值,β为视差平滑损失函数的权值,Ldr为视差回归损失函数,Lds为视差平滑损失函数。
基于上述任一实施例,基于合成训练数据集,确定训练样本集和验证样本集,包括:
选取合成训练数据集中80%的数据样本作为参与前后向迭代学习的训练样本集;
将合成训练数据集中其余20%作为训练过程中验证网络泛化性和精度的验证样本集;
设置2个随机值使得每次抽取到的训练样本或验证样本是无序且均匀分布的。
本发明实施例提供的基于卷积神经网络的单目结构光深度成像方法,通过基于公开的日常物品三维模型库和自建的人脸三维模型库,生成训练所用的大规模合成数据集,通过数据增广、数据预处理提升训练集样本的多样性和稳定性;构建基于DenseNet-BC结构的特征提取部分、基于维度合并结构的匹配代价卷、基于改进堆叠沙漏结构的视差聚合部分和基于Soft argmin操作的视差回归部分共同组成的卷积网络模型;通过视差回归和视差平滑加权损失函数及预定义超参数,对卷积神经网络进行训练和测试。该方法用于训练卷积神经网络的合成训练数据集中包含有人脸数据,针对人脸识别进行了特定的优化提升,提高了采用单目结构光深度成像进行人脸识别时的成像效果和识别准确率,同时,提高了卷积神经网络对通用平台的兼容性,减少了网络计算量,在选定的嵌入式平台上可以达到高分辨率、高精度的实时性要求。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种基于卷积神经网络的单目结构光深度成像方法,其特征在于,包括:
S1,对单目结构光成像硬件系统进行视觉标定:
获取所述单目结构光成像硬件系统的内部参数和外部参数;
基于所述内部参数和外部参数,获取移至无穷远处的散斑参考图;
其中,所述单目结构光成像硬件系统包括红外相机和红外散斑投射器,所述内部参数包括相机焦距和主点坐标,所述外部参数包括相机与投射器之间的旋转矩阵和平移矩阵;
S2,生成合成训练数据集:
基于物品三维模型数据集和人脸三维模型数据集,获取合成三维模型数据集;
基于所述内部参数和外部参数,设置三维模型渲染程序中的所用到的模拟相机和模拟投射器的参数;
基于所述三维模型渲染程序和所述合成三维模型数据集,获取合成训练数据集,所述合成训练数据集包括散斑场景图、散斑参考图、视差真值数据和无效区域掩膜数据;
S3,数据增广和预处理:
对所述散斑场景图和所述散斑参考图进行数据增广和数据预处理;
其中,所述数据增广包括随机图像亮度增强/减弱、随机图像对比度增强/减弱、随机高斯噪声、随机高斯模糊和随机裁剪,所述数据预处理包括局部对比度归一化;
S4,构建卷积神经网络:
所述卷积神经网络包括特征提取部分、匹配代价卷构建部分、视差聚合部分和视差回归部分;
其中,所述特征提取部分用于对所述散斑场景图和所述散斑参考图进行特征提取,得到特征图;
所述匹配代价卷构建部分用于对所述特征图进行循环剪裁和连接操作,得到匹配代价卷;
所述视差聚合部分用于对所述匹配代价卷进行视差聚合计算,得到视差相似度矩阵;
所述视差回归部分用于对所述视差相似度矩阵进行Soft argmin操作和线性变换,得到深度图;
S5,确定损失函数:
基于视差回归损失函数和视差平滑损失函数,确定损失函数;
其中,所述视差回归损失函数表征预测视差图和真实视差图的差距;所述视差平滑损失函数表征预测视差图中各像素点的视差梯度;
S6,设置优化器:
设置优化器,动态调整所述卷积神经网络训练的学习率;
S7,训练卷积神经网络:
基于所述合成训练数据集,确定训练样本集和验证样本集;
基于所述训练样本集、所述验证样本集、所述损失函数和所述优化器,训练所述卷积神经网络;
基于所述损失函数和精度指标,按照设定步长保存所述卷积神经网络的参数模型,确定所述卷积神经网络的参数模型集合;
S8,测试卷积神经网络:
将真实拍摄的各个距离下平面场景图与参考图输入所述卷积神经网络,得到平面深度图;
使用平面精密度指标对所述平面深度图进行评估,得到最终卷积神经网络;
其中,所述最终卷积神经网络为所述参数模型集合中精度最高的卷积神经网络;所述最终卷积神经网络用于对真实采集的人脸数据进行成像效果测试。
2.根据权利要求1所述的基于卷积神经网络的单目结构光深度成像方法,其特征在于:
所述物品三维模型数据集从公开数据集ShapeNet中挑选特定数量的物品三维模型;
所述人脸三维模型数据集根据高精度三维扫描仪获取。
3.根据权利要求1所述的基于卷积神经网络的单目结构光深度成像方法,其特征在于,所述基于所述三维模型渲染程序和所述合成三维模型数据集,获取合成训练数据集,具体包括:
调整三维模型渲染程序中的所用到的模拟相机和模拟投射器的外部参数;
基于调整后的三维模型渲染程序和所述合成三维模型数据集,得到包含存在随机行偏差的散斑场景图和散斑参考图的合成训练数据集。
4.根据权利要求1所述的基于卷积神经网络的单目结构光深度成像方法,其特征在于,所述特征提取部分是基于DenseNet-BC结构实现的。
5.根据权利要求1所述的基于卷积神经网络的单目结构光深度成像方法,其特征在于,所述匹配代价卷为4维张量矩阵。
6.根据权利要求1所述的基于卷积神经网络的单目结构光深度成像方法,其特征在于,所述视差聚合部分用于对所述匹配代价卷进行视差聚合计算,得到视差相似度矩阵,包括:
采用抛弃上下采样操作的堆叠沙漏结构进行视差聚合。
7.根据权利要求1所述的基于卷积神经网络的单目结构光深度成像方法,其特征在于,所述视差聚合部分用于对所述匹配代价卷进行视差聚合计算,得到视差相似度矩阵,包括:
使用ShuffleNet-V2版本的卷积单元结构替换普通二维卷积层。
8.根据权利要求1所述的基于卷积神经网络的单目结构光深度成像方法,其特征在于,所述基于视差回归损失函数和视差平滑损失函数,确定损失函数,包括:
采用所述视差回归损失函数和所述视差平滑损失函数加权结合的配置作为损失函数,计算公式如下:
Ltotal=α·Ldr+β·Lds
式中,Ltotal为所述损失函数,α为所述视差回归损失函数的权值,β为所述视差平滑损失函数的权值,Ldr为所述视差回归损失函数,Lds为所述视差平滑损失函数。
9.根据权利要求1所述的基于卷积神经网络的单目结构光深度成像方法,其特征在于,所述基于所述合成训练数据集,确定训练样本集和验证样本集,包括:
选取所述合成训练数据集中80%的数据样本作为参与前后向迭代学习的训练样本集;
将所述合成训练数据集中其余20%作为训练过程中验证网络泛化性和精度的验证样本集;
设置2个随机值使得每次抽取到的训练样本或验证样本是无序且均匀分布的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010213289.0A CN111462206B (zh) | 2020-03-24 | 2020-03-24 | 一种基于卷积神经网络的单目结构光深度成像方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010213289.0A CN111462206B (zh) | 2020-03-24 | 2020-03-24 | 一种基于卷积神经网络的单目结构光深度成像方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111462206A CN111462206A (zh) | 2020-07-28 |
CN111462206B true CN111462206B (zh) | 2022-06-24 |
Family
ID=71682305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010213289.0A Active CN111462206B (zh) | 2020-03-24 | 2020-03-24 | 一种基于卷积神经网络的单目结构光深度成像方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111462206B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112068422B (zh) * | 2020-08-04 | 2023-04-14 | 广州中国科学院先进技术研究所 | 一种基于小样本的智能机器人的抓取学习方法及装置 |
CN112200771B (zh) * | 2020-09-14 | 2024-08-16 | 浙江大华技术股份有限公司 | 一种高度测量方法、装置、设备和介质 |
CN112164099A (zh) * | 2020-09-23 | 2021-01-01 | 北京的卢深视科技有限公司 | 基于单目结构光的自检自校准方法及装置 |
CN112070819B (zh) * | 2020-11-11 | 2021-02-02 | 湖南极点智能科技有限公司 | 一种基于嵌入式系统的人脸深度图像构建方法及装置 |
CN112562059B (zh) * | 2020-11-24 | 2023-12-08 | 革点科技(深圳)有限公司 | 一种自动化结构光图案设计方法 |
CN112530008B (zh) * | 2020-12-25 | 2024-10-18 | 中国科学院苏州纳米技术与纳米仿生研究所 | 一种条纹结构光的参数确定方法、装置、设备及存储介质 |
CN112819777B (zh) * | 2021-01-28 | 2022-12-27 | 重庆西山科技股份有限公司 | 一种双目内窥镜辅助显示方法、系统、装置和存储介质 |
CN113140011B (zh) * | 2021-05-18 | 2022-09-06 | 烟台艾睿光电科技有限公司 | 一种红外热成像单目视觉测距方法及相关组件 |
CN113470099B (zh) * | 2021-07-09 | 2022-03-25 | 北京的卢深视科技有限公司 | 深度成像的方法、电子设备及存储介质 |
CN113643406B (zh) * | 2021-08-12 | 2022-03-25 | 北京的卢深视科技有限公司 | 图像生成方法、电子设备及计算机可读存储介质 |
CN113763448B (zh) * | 2021-08-24 | 2022-05-31 | 合肥的卢深视科技有限公司 | 深度成像方法、电子设备和计算机可读存储介质 |
CN113962866B (zh) * | 2021-12-22 | 2023-04-07 | 南京理工大学 | 一种基于物理感知学习的散射成像目标重建方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10282914B1 (en) * | 2015-07-17 | 2019-05-07 | Bao Tran | Systems and methods for computer assisted operation |
CN110383288A (zh) * | 2019-06-06 | 2019-10-25 | 深圳市汇顶科技股份有限公司 | 人脸识别的方法、装置和电子设备 |
CN110517309A (zh) * | 2019-07-19 | 2019-11-29 | 沈阳工业大学 | 一种基于卷积神经网络的单目深度信息获取方法 |
-
2020
- 2020-03-24 CN CN202010213289.0A patent/CN111462206B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10282914B1 (en) * | 2015-07-17 | 2019-05-07 | Bao Tran | Systems and methods for computer assisted operation |
CN110383288A (zh) * | 2019-06-06 | 2019-10-25 | 深圳市汇顶科技股份有限公司 | 人脸识别的方法、装置和电子设备 |
CN110517309A (zh) * | 2019-07-19 | 2019-11-29 | 沈阳工业大学 | 一种基于卷积神经网络的单目深度信息获取方法 |
Non-Patent Citations (2)
Title |
---|
Creation of a Depth Map from Stereo Images of Faces for 3D Model Reconstruction;OlgaKrutikova et al.;《Procedia Computer Science》;20170208;第104卷;第452-459页 * |
基于红外和深度图像的人脸对齐研究;曹扬;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200115;第2020年卷(第1期);第I135-153页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111462206A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111462206B (zh) | 一种基于卷积神经网络的单目结构光深度成像方法 | |
CN109255831B (zh) | 基于多任务学习的单视图人脸三维重建及纹理生成的方法 | |
CN111598998B (zh) | 三维虚拟模型重建方法、装置、计算机设备和存储介质 | |
KR102319177B1 (ko) | 이미지 내의 객체 자세를 결정하는 방법 및 장치, 장비, 및 저장 매체 | |
Wynn et al. | Diffusionerf: Regularizing neural radiance fields with denoising diffusion models | |
CN108510573B (zh) | 一种基于深度学习的多视点人脸三维模型重建的方法 | |
CN109949399B (zh) | 一种基于无人机航拍图像的场景三维重建方法 | |
Shen | Accurate multiple view 3d reconstruction using patch-based stereo for large-scale scenes | |
CN111753698B (zh) | 一种多模态三维点云分割系统和方法 | |
CN110910437B (zh) | 一种复杂室内场景的深度预测方法 | |
Yang et al. | Non-parametric depth distribution modelling based depth inference for multi-view stereo | |
CN110176064B (zh) | 一种摄影测量生成三维模型的主体对象自动识别方法 | |
CN113838005B (zh) | 基于维度转换的岩体裂隙智能识别与三维重构方法及系统 | |
WO2021219835A1 (en) | Pose estimation method and apparatus | |
CN112288788B (zh) | 单目图像深度估计方法 | |
Condorelli et al. | A comparison between 3D reconstruction using nerf neural networks and mvs algorithms on cultural heritage images | |
CN115546442A (zh) | 基于感知一致损失的多视图立体匹配重建方法及系统 | |
CN114332125A (zh) | 点云重建方法、装置、电子设备和存储介质 | |
CN118247414A (zh) | 基于结合扩散纹理约束神经辐射场的小样本图像重建方法 | |
CN116012517B (zh) | 一种正则化的图像渲染方法及装置 | |
CN114926593B (zh) | 基于单张高光图像的svbrdf材质建模方法及系统 | |
CN111369435A (zh) | 基于自适应稳定模型的彩色图像深度上采样方法及系统 | |
CN113670268B (zh) | 基于双目视觉的无人机和电力杆塔距离测量方法 | |
Choi et al. | Tmo: Textured mesh acquisition of objects with a mobile device by using differentiable rendering | |
CN112002019B (zh) | 一种基于mr混合现实的模拟人物阴影的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |