CN117133041A - 一种基于深度学习的三维重建网络人脸识别方法、系统、设备及介质 - Google Patents
一种基于深度学习的三维重建网络人脸识别方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN117133041A CN117133041A CN202311179047.4A CN202311179047A CN117133041A CN 117133041 A CN117133041 A CN 117133041A CN 202311179047 A CN202311179047 A CN 202311179047A CN 117133041 A CN117133041 A CN 117133041A
- Authority
- CN
- China
- Prior art keywords
- face
- dimensional
- person
- color
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 2
- 230000001815 facial effect Effects 0.000 claims description 2
- 230000001568 sexual effect Effects 0.000 claims 1
- 239000000126 substance Substances 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/653—Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/08—Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Biodiversity & Conservation Biology (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
一种基于深度学习的三维重建网络人脸识别方法、系统、设备及介质,方法包括:通过一个或多个彩色摄像头多角度拍摄待测人员的脸部彩色二维图像;训练人脸深度学习的三维重建网络,将得到的待测人员的脸部彩色二维图像输入训练过的三维重建网络,生成待测人员脸部的三维点云坐标;获得的待测人员脸部三维点云坐标与注册库中已注册人员脸部三维点云进行对比,从而识别待测人员的身份;系统、设备及介质,用于一种基于深度学习的三维重建网络人脸识别方法;本发明无需额外的硬件,有效提高人脸识别结果的可靠性,可以有效应对照片和视频攻击。
Description
技术领域
本发明属于图像处理技术领域,特别涉及一种基于深度学习的三维重建网络人脸识别方法、系统、设备及介质。
背景技术
很多场合开始使用人脸识别技术来检验人员身份,然而一般的人脸识别技术无法对人员进行有效辨别,可以通过打印他人照片或拍摄他人视频的方式欺骗人脸识别系统,虽然通过采用深度摄像头等方式获取深度信息的方式防止照片和视频的攻击,但是将导致额外的新设备投入。
公开号为CN109359608A的专利申请文件,提供了一种基于深度学习模型的人脸识别方法,包括构建卷积神经网络、对网络参数进行训练、图片预处理和输入模型进行类别判定,通过人脸数据改进卷积深度神经网络和利于误差反向传播算法对神经网络参数进行训练,将人脸图片利用MTCNN算法转化为特征向量,输入改进的卷积深度网络进行类别判定,但该方法只在二维层面处理人脸图像,没有获取人脸图像的深度信息,易遭受照片或视频欺骗。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提出了一种基于深度学习的三维重建网络人脸识别方法、系统、设备及介质,通过单个或多个普通摄像头获取两张或两张以上不同角度待测人员的人脸图像,并构建人脸三维点云,与注册库中人脸信息进行比对,进而识别身份,无需额外的硬件,有效提高人脸识别结果的可靠性,可以有效应对照片和视频攻击。
为了实现上述目的,本发明所采用的技术方案是:
一种基于深度学习的三维重建网络人脸识别方法,包括:
步骤1:通过一个或多个彩色摄像头多角度拍摄待测人员的脸部彩色二维图像;
步骤2:训练人脸深度学习的三维重建网络,将步骤1得到的待测人员的脸部彩色二维图像输入训练过的三维重建网络,生成待测人员脸部的三维点云坐标;
步骤3:根据步骤2获得的待测人员脸部三维点云坐标与注册库中已注册人员脸部三维点云进行对比,从而识别待测人员的身份。
所述步骤1中需拍摄两张或两张以上不同角度待测人员的脸部彩色二维图像,可以利用一个彩色摄像头通过环绕待测人员的脸部移动拍摄两张或两张以上不同角度的图像,或通过布置多个彩色摄像头同时拍摄两张或两张以上不同角度待测人员的脸部彩色二维图像。
所述步骤2中训练人脸深度学习三维重建网络,利用输入的脸部彩色二维图像分别进行特征提取,可微单应性变换构造成本图,将成本图正则化,生成深度图并利用残差网络优化,最后深度图融合为脸部的三维点云坐标,具体过程如下:
步骤2.1:将步骤1获取的脸部彩色二维图像,利用二维卷积神经网络(2D CNN)动态滤波卷积网络提取特征,动态滤波器卷积在一层网络中集成了多个卷积核,多个卷积核通过注意力机制以非线性形式进行融合,根据训练的效果来确定每个卷积核的权重,在每层网络设置动态感知器,动态感知器定义:
其中,s.t.0≤πk(x)≤1,/>此处πk表示注意力权重;x为输入;y为输出;W表示权值函数;b表示偏置函数;g表示激活函数;πk表示注意力权重;动态感知器数量为K;
动态滤波卷积后接入BatchNorm与ReLU,提取特征时,将脸部彩色二维图像作为网络的输入,图像大小为H×W,采用11层网络结构,在第3层、第6层和第9层时,将步长设置为2并进行下采样,除最后一层网络之外其余卷积层后面都设置了BN层和ReLU层,可得到大小为1/8H×1/8W,通道数为64的特征图;
步骤2.2:根据步骤2.1提取的特征图和拍摄时的彩色摄像头参数构造成本图,将I1表示为脸部彩色二维图像1,,表示人脸图像2至N,/>表示与特征图对应的彩色摄像头参数,将所有特征图投影到人脸图像1对应的相机的不同深度中,形成N个特征量/>从投影特征图Vi(d)到Fi的深度d坐标映射由平面变换x′~Hi(d)·x确定,其中,“~”表示为射影等式,Hi(d)表示对于第ith个特征图映射到深度d坐标和脸部彩色二维图像1特征图之间的单应性矩阵,假设n1为人脸图像1对应的相机的主轴,单应性矩阵表示为:
利用投影变换,N张图像可以得到N个特征体,这个特征体就代表成本图;
步骤2.3:将步骤2.2中得到的成本图正则化,利用门控循环单元GRU神经网络,并将内部的全连接计算替换为二维卷积计算,改进的门控循环单元GRU表达式为:
Rt=σ(Xt*Wxr+H(t-1)*Whr+br)
Zt=σ(Xt*Wxz+H(t-1)*Whz+bz)
其中,σ(·)为激活函数;*表示卷积操作;表示矩阵的阿达马乘积;Rt为重置门;Zt为更新门;Xt是t时刻的输入;H(t-1)是在t-1时刻的隐藏门或者是隐藏门的初始状态;H~t为候选集;W和b为学习参数,是双曲线正切函数;
采用改进的门控循环单元GRU,上层输出作为下层输入,用二维卷积层,将64通道的成本图C(t)映射到32通道,将三层门控循环单元(GRU)层的输出通道数量进行设置,第一层其数值为16、第二层其数值为4、第三层其数值为1,对成本图的每一个通道输入到改进的门控循环单元(GRU)中进行正则化操作,正则化成本图最终通过归一化指数函数进行概率归一化,生成概率体P,使用赢家通吃的选择从概率体P依次检索出初始深度图,损失函数为:
其中,Q(i,p)为P(i,p)对应的值,P(i,p)为概率容积值,p为图像的空间坐标;Q为真实深度图的向量;
步骤2.4:将步骤2.3得到的初始深度图优化,采用多尺度残差网络,结合原始的脸部彩色二维图像1生成残差,将初始深度图和原始的人脸图像1连接为一个四通道输入,通过三个32通道的二维卷积层和一个1通道的卷积层来学习深度残差,将初始深度图添加回来,以生成细化的深度图,最后一层不包含BN层和ReLU单元来学习负残差,预先调整初始深度幅度到[0,1]的范围,并在细化后将其转换回来;
步骤2.5:将步骤2.4优化后的人脸深度图采用光度一致性计算深度概率,当概率低于0.5时判定为噪声,对其进行去除并以此来衡量匹配质量;将一个脸部彩色二维图像1中的某像素p1的深度d1,投影到另一个图像素点pi,然后通过pi的深度预测di反投影到脸部彩色二维图像1上,设反投影得到的人脸图像1的像素点为preproj,对应的深度估计为dreproj,则可根据像素点和深度估计的差异来计算脸部彩色二维图像1的深度一致性,计算如式:
当满足计算公式像素点,上述公式即为满足几何一致性匹配条件,人脸图像1中的某一像素点p(x,y)在其深度图的深度值为D,x,y轴的相机焦距分别为fx和fy,像素点p由像素坐标系转化为彩色摄像头坐标系的计算:
彩色摄像头坐标系下的像素点p(xc,yc,zc)通过彩色摄像头旋转矩阵R及平移矩阵T转化至世界坐标系,,对于人脸图像1的每个像素点均执行上述操作,最终可融合得到人脸的三维重建点云。
所述步骤3中,识别待测人员的身份具体过程为:
步骤3.1:考虑待测人员脸部三维点云坐标结果中的一个点Pp,如果在已注册人员脸部三维点云对齐{Pg}中被认为有很好的匹配,则根据公式计算精确度(Acc):
其中,参数λ由是获取已注册人员脸部信息时利用三维扫描仪准确记录生成,通常,参数λ随三维扫描仪记录人脸信息时的距离,距离越远参数λ的值就越大;
步骤3.2:对于已注册人员脸部三维点云对齐中的一个点Pg,若认为在待测人员脸部三维点云坐标{Pp}中有很好的匹配,则根据公式计算完整度(Comp):
步骤3.3:同时考虑精确度和完整度,使用整体质量(Overall)来表示,计算方式:
步骤3.4:整体质量、精确度和完整度为人脸识别评价指标,数值越小,表明待测人脸与已注册人脸的相似性越高,并以此判断待测人脸是否为已注册人脸,该数值单位为毫米mm,其数值具体判定范围为步骤2中训练人脸深度学习的三维重建网络时产生。
一种基于深度学习的三维重建网络人脸识别系统,包括:
脸部图像获取模块:通过一个或多个彩色摄像头多角度拍摄待测人员的脸部彩色二维图像;
三维重建网络模块:训练人脸深度学习的三维重建网络,将脸部图像获取模块得到的待测人员的脸部彩色二维图像输入训练后的三维重建网络,生成待测人员脸部的三维点云坐标;
比对模块:根据三维重建网络模块获得的待测人员脸部三维点云坐标与注册库中已注册人员脸部三维点云进行对比,从而识别待测人员的身份。
一种基于深度学习的三维重建网络人脸识别设备,包括:
存储器:用于存储所述一种基于深度学习的三维重建网络人脸识别方法的计算机程序;
处理器:用于执行所述计算机程序时实现一种基于深度学习的三维重建网络人脸识别方法。
一种基于深度学习的三维重建网络人脸识别介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够实现一种基于深度学习的三维重建网络人脸识别方法。
相对于现有技术,本发明的有益效果在于:
1.本发明将人脸彩色二维图像生成三维点云,根据深度学习三维重建网络提取图像中的深度信息,弥补了深度信息的缺失,从而有效推高人脸识别结果的可靠性。
2.本发明只采用普通摄像头,不必使用深度摄像头,即可提取图像中的深度信息,可在不增加成本的基础上,大大提高人脸检测的可靠性。
3.本发明步骤2.1中采用了动态滤波卷积网络提取特征,特征提取时具有注意力机制,提高特征提取效果,增加人脸图像的融合效果。
4.本发明步骤2.2中可微单应性矩阵,能够自适应兼容2至N图片的数量,无需手动修改数量的效果。
5.本发明步骤2.3中采用了改进的门控循环单元(GRU)替代通常使用的3DCNN,在正则化成本图时将三次方的显存消耗降低为二次方,可以极大降低显存消耗,同时因为改进GRU使用卷积操作代替全连接,可以促进深度信息的局部交流,可以有效提升正则化效果。
综上,本发明通过单个或多个普通摄像头获取两张或两张以上不同角度待测人员的人脸图片,并构建人脸三维点云,并于注册库中人脸信息进行比对进而识别身份,无需额外的硬件,具有优秀的识别效果,可以有效应对照片和视频攻击。
附图说明
图1是本发明的方法流程图。
图2是本发明三维重建网络的方法流程图。
图3是本发明三维重建网络改进GRU单元内部实时细节。
图4是本发明三维重建网络成本图利用GRU单元正则化。
具体实施方式
下面结合附图对本发明做进一步详细描述。
如图1所示,本发明一种基于深度学习的三维重建网络人脸识别方法,包括有:
步骤1:通过一个或多个普通彩色摄像头多角度拍摄待测人员的脸部彩色二维图像;
拍摄待测人员的脸部彩色二维图像,只需采用普通彩色摄像头,无需额外采用结构光相机或深度相机等,在拍摄时需拍摄两张或两张以上不同角度待测人员的脸部彩色二维图像,可以利用一个摄像头通过环绕待测人员的脸部移动拍摄两张或两张以上不同角度待测人员的脸部彩色二维图像,或可以通过布置两颗或多颗摄像头同时拍摄两张或两张以上不同角度待测人员的脸部彩色二维图像。
步骤2:训练人脸深度学习的三维重建网络,将步骤1得到的待测人员的脸部彩色二维图像输入训练过的三维重建网络,生成待测人员脸部的三维点云坐标;
训练人脸深度学习三维重建网络,具体训练过程:将人脸数据集提供的点云用于重建人脸表面,然后用于渲染深度图进行训练;训练时将输入人脸图像的分辨率设置为640×512,数量N设置为3,在初始深度图预测中,设置深度平面数D=48,深度假设均匀地从425mm到921mm之间采样,防止深度图对GRU正则化顺序有偏差,每个训练样本都通过从dmin到dmax的正向正则化和从dmax到dmin的反向正则化传递给网络,使用初始学习率为0.0005的RMSProp优化器,每2个周期降低学习率0.9;
将待测人员的脸部彩色二维图像输入训练过的三维重建网络,具体实施过程为:该网络可以输入2到N张图,网络会自适应调整,利用输入的脸部彩色二维图像分别进行特征提取,可微单应性变换构造匹配成本图,成本图正则化,生成深度图并利用残差网络优化,最后深度图融合为人脸点云,如图2所示,过程如下:
步骤2.1:将步骤1获取的人脸彩色图像,利用2DCNN动态滤波卷积网络提取特征,该网络引入使用了动态滤波器卷积,在一层网络中集成了多个卷积核,所述卷积核通过注意力机制以非线性形式进行融合,使特征提取模块更关注目标,根据训练的效果来确定每个卷积核的权重,在每层网络设置动态感知器,动态感知器定义:
其中,s.t.0≤πk(x)≤1,/>此处πk表示注意力权重,x为输入;y为输出;W表示权值函数;b表示偏置函数;g表示激活函数;πk表示注意力权重;动态感知器数量为K;
但是该注意力权重无需固定,可跟随着网络训练的进程自适应适配以获得更好的效果,动态卷积同样有K个核,在动态卷积后接入BatchNorm与ReLU;
提取特征时,将H×W大小的图片作为本网络的输入,摄像头采集图片像素H×W,高H,宽W,根据实际摄像头分辨率自适应调整,采用11层网络结构,在第3层、第6层和第9层时将步长设置为2并进行下采样,除最后一层网络之外其余卷积层后面都设置了BN层和ReLU层,可得到大小为1/8H×1/8W,通道数为64的特征图。
步骤2.2:根据提取的特征图和拍摄时的相机参数构建成本图,将I1表示为人脸图像1,表示人脸图像2至N,/>表示与特征图对应的相机内参,将所有特征图投影到人脸图像1对应的相机的不同深度中,形成N个特征量/>从投影特征图Vi(d)到Fi的深度d坐标映射由平面变换x′~Hi(d)·x确定,其中“~”表示射影等式,Hi(d)表示对于第ith个特征图映射到深度d处和人脸图像1特征图之间的单应性矩阵,假设n1为人脸图像1对应的相机的主轴,单应性矩阵表示为:
且该矩阵完全可微,利用投影变换,N张图像可以得到N个特征体,这个特征体就代表成本图。
步骤2.3:成本图正则化旨在细化成本图,利用门控循环单元GRU神经网络,并将内部的全连接计算替换为二维卷积计算,如图3所示,改进的门控循环单元GRU表达式为:
Rt=σ(Xt*Wxr+H(t-1)*Whr+br)
Zt=σ(Xt*Wxz+H(t-1)*Whz+bz)
其中,σ(·)为激活函数;*表示卷积操作;表示矩阵的阿达马乘积;Rt为重置门;Zt为更新门;Xt是t时刻的输入;H(t-1)是在t-1时刻的隐藏门或者是隐藏门的初始状态;/>为候选集;W和b为学习参数,是双曲线正切函数。
如图4所示,采用改进的门控循环单元GRU,上层输出作为下层输入,先采用一个二维卷积层,将64通道的成本图C(t)映射到32通道,作为第一个GRU层的输入,每个GRU层的输出作为下一个GRU层的输入,在此处将三层GRU层的输出通道数量进行设置,第一层其数值为16、第二层其数值为4、第三层其数值为1,对成本图的每一个通道输入到改进的GRU模块组中进行正则化操作,正则化成本图最终通过softmax进行概率归一化生成概率体P,使用赢家通吃的选择从概率体P依次检索出初始深度图,损失函数为:
其中,Q(i,p)为P(i,p)对应的值,P(i,p)为概率容积值,p为图像的空间坐标;Q为真实深度图的向量。
步骤2.4,深度图优化采用多尺度残差网络,结合原始的人脸图像1生成残差,将初始深度图和原始的人脸图像1连接为一个4通道输入,然后通过三个32通道的二维卷积层,然后是一个1通道的卷积层来学习深度残差,然后将初始的深度图添加回来,以生成细化的深度图,最后一层不包含BN层和ReLU单元来学习负残差,此外,为了防止在一定的深度尺度上有偏差,预先调整了初始深度幅度到[0,1]的范围,并在细化后将其转换回来。
步骤2.5,优化后的人脸深度图在此处采用光度一致性计算深度概率,当概率低于0.5时判定为噪声,对其进行去除并以此来衡量匹配质量;将一个人脸图像1中的某像素p1的深度d1,投影到另一个图像素点pi,然后通过pi的深度预测di反投影到人脸图像1上。设反投影得到的人脸图像1的像素点为preproj,对应的深度估计为dreproj,则可根据像素点和深度估计的差异来计算人脸图像1的深度一致性,计算如式:
当满足计算公式像素点上述公式即为满足几何一致性匹配条件。人脸图像1中的某一像素点p(x,y)在其深度图的深度值为D,x,y轴的相机焦距分别为fx和fy,像素点p由像素坐标系转化为相机坐标系的计算:
摄像头坐标系下的像素点p(xc,yc,zc)通过摄像头旋转矩阵R及平移矩阵T转化至世界坐标系,对于人脸图像1的每个像素点均执行上述操作,最终可融合得到人脸的三维重建点云模型。
步骤3:根据步骤2获得的待测人员脸部三维点云坐标与注册库中已注册人员脸部三维点云进行对比,从而识别待测人员的身份。
人脸注册合法人员身份信息,利用三维扫描仪准确记录其人脸三维信息,并生成相应的人脸三维点云特征向量,将注册合法人员的人脸三维点云特征向量存入人脸注册库中。
利用步骤2获得的待检人脸的三维点云坐标通过逐视相机参数与真实点云对齐。
步骤3.1:考虑生成点云结果中的一个点Pp,如果在真实点云{Pg}
中被认为有很好的匹配,则根据公式计算精确度(Acc):
其中,参数λ是获取已注册人员脸部信息时利用三维扫描仪准确记录生成,通常,参数λ随扫描仪记录人脸信息时的距离,距离越远参数λ的值就越大。
步骤3.2:对于真实点云中的一个点Pg,若认为在生成点云{Pp}中有很好的匹配,则根据公式计算完整度(Comp):
步骤3.3:同时考虑精确度和完整度,使用整体质量(Overall)表示整体质量,计算方式:
整体质量(Overall)为精确度和完整度的均值。
步骤3.4:整体质量、精确度和完整度为人脸识别评价指标,数值越小,表明待测人脸与已注册人脸的相似性越高,并以此判断待测人脸是否为已注册人脸,该数值单位为毫米mm,其数值具体判定范围为步骤二中人脸深度学习三维重建网络训练时产生。
一种基于深度学习的三维重建网络人脸识别系统,包括:
脸部图像获取模块:通过一个或多个彩色摄像头多角度拍摄待测人员的脸部彩色二维图像;
三维重建网络模块:训练人脸深度学习的三维重建网络,将脸部图像获取模块得到的待测人员的脸部彩色二维图像输入训练后的三维重建网络,生成待测人员脸部的三维点云坐标;
比对模块:根据三维重建网络模块获得的待测人员脸部三维点云坐标与注册库中已注册人员脸部三维点云进行对比,从而识别待测人员的身份。
一种基于深度学习的三维重建网络人脸识别设备,包括:
存储器:用于存储所述一种基于深度学习的三维重建网络人脸识别方法的计算机程序;
处理器:用于执行所述计算机程序时实现一种基于深度学习的三维重建网络人脸识别方法。
一种基于深度学习的三维重建网络人脸识别介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够实现一种基于深度学习的三维重建网络人脸识别方法。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,在本发明的精神和原则之内,所作的任何修改、同等替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于深度学习的三维重建网络人脸识别方法,其特征在于,包括:
步骤1:通过一个或多个彩色摄像头多角度拍摄待测人员的脸部彩色二维图像;
步骤2:训练人脸深度学习的三维重建网络,将步骤1得到的待测人员的脸部彩色二维图像输入训练过的三维重建网络,生成待测人员脸部的三维点云坐标;
步骤3:根据步骤2获得的待测人员脸部三维点云坐标与注册库中已注册人员脸部三维点云进行对比,从而识别待测人员的身份。
2.根据权利要求1所述的一种基于深度学习的三维重建网络人脸识别方法,其特征在于,所述步骤1中需拍摄两张或两张以上不同角度待测人员的脸部彩色二维图像,可以利用一个彩色摄像头通过环绕待测人员的脸部移动拍摄两张或两张以上不同角度的图像,或通过布置多个彩色摄像头同时拍摄两张或两张以上不同角度待测人员的脸部彩色二维图像。
3.根据权利要求1所述的一种基于深度学习的三维重建网络人脸识别方法,其特征在于,所述步骤2中训练人脸深度学习三维重建网络,利用输入的脸部彩色二维图像分别进行特征提取,可微单应性变换构造成本图,将成本图正则化,生成深度图并利用残差网络优化,最后深度图融合为脸部的三维点云坐标,具体过程如下:
步骤2.1:将步骤1获取的脸部彩色二维图像,利用二维卷积神经网络(2D CNN)动态滤波卷积网络提取特征,动态滤波器卷积在一层网络中集成了多个卷积核,多个卷积核通过注意力机制以非线性形式进行融合,根据训练的效果来确定每个卷积核的权重,在每层网络设置动态感知器,动态感知器定义:
其中,s.t.0≤πk(x)≤1,/>此处πk表示注意力权重;x为输入;y为输出;W表示权值函数;b表示偏置函数;g表示激活函数;πk表示注意力权重;动态感知器数量为K;
动态滤波卷积后接入BatchNorm与ReLU,提取特征时,将脸部彩色二维图像作为网络的输入,图像大小为H×W,采用11层网络结构,在第3层、第6层和第9层时,将步长设置为2并进行下采样,除最后一层网络之外其余卷积层后面都设置了BN层和ReLU层,可得到大小为1/8H×1/8W,通道数为64的特征图;
步骤2.2:根据步骤2.1提取的特征图和拍摄时的彩色摄像头参数构造成本图,将I1表示为脸部彩色二维图像1,表示人脸图像2至N,/>表示与特征图对应的彩色摄像头参数,将所有特征图投影到人脸图像1对应的相机的不同深度中,形成N个特征量从投影特征图Vi(d)到Fi的深度d坐标映射由平面变换x′~Hi(d)·x确定,其中,“~”表示为射影等式,Hi(d)表示对于第ith个特征图映射到深度d坐标和脸部彩色二维图像1特征图之间的单应性矩阵,假设n1为人脸图像1对应的相机的主轴,单应性矩阵表示为:
利用投影变换,N张图像可以得到N个特征体,这个特征体就代表成本图;
步骤2.3:将步骤2.2中得到的成本图正则化,利用门控循环单元GRU神经网络,并将内部的全连接计算替换为二维卷积计算,改进的门控循环单元GRU表达式为:
Rt=σ(Xt*Wxr+H(t-1)*Whr+br)
Zt=σ(Xt*Wxz+H(t-1)*Whz+bz)
其中,σ(·)为激活函数;*表示卷积操作;表示矩阵的阿达马乘积;Rt为重置门;Zt为更新门;Xt是t时刻的输入;H(t-1)是在t-1时刻的隐藏门或者是隐藏门的初始状态;/>为候选集;W和b为学习参数,是双曲线正切函数;
采用改进的门控循环单元GRU,上层输出作为下层输入,用二维卷积层,将64通道的成本图C(t)映射到32通道,将三层门控循环单元(GRU)层的输出通道数量进行设置,第一层其数值为16、第二层其数值为4、第三层其数值为1,对成本图的每一个通道输入到改进的门控循环单元(GRU)中进行正则化操作,正则化成本图最终通过归一化指数函数进行概率归一化,生成概率体P,使用赢家通吃的选择从概率体P依次检索出初始深度图,损失函数为:
其中,Q(i,p)为P(i,p)对应的值,P(i,p)为概率容积值,p为图像的空间坐标;Q为真实深度图的向量;
步骤2.4:将步骤2.3得到的初始深度图优化,采用多尺度残差网络,结合原始的脸部彩色二维图像1生成残差,将初始深度图和原始的人脸图像1连接为一个四通道输入,通过三个32通道的二维卷积层和一个1通道的卷积层来学习深度残差,将初始深度图添加回来,以生成细化的深度图,最后一层不包含BN层和ReLU单元来学习负残差,预先调整初始深度幅度到[0,1]的范围,并在细化后将其转换回来;
步骤2.5:将步骤2.4优化后的人脸深度图采用光度一致性计算深度概率,当概率低于0.5时判定为噪声,对其进行去除并以此来衡量匹配质量;将一个脸部彩色二维图像1中的某像素p1的深度d1,投影到另一个图像素点pi,然后通过pi的深度预测di反投影到脸部彩色二维图像1上,设反投影得到的人脸图像1的像素点为preproj,对应的深度估计为dreproj,则可根据像素点和深度估计的差异来计算脸部彩色二维图像1的深度一致性,计算如式:
当满足计算公式像素点,上述公式即为满足几何一致性匹配条件,人脸图像1中的某一像素点p(x,y)在其深度图的深度值为D,x,y轴的相机焦距分别为fx和fy,像素点p由像素坐标系转化为彩色摄像头坐标系的计算:
彩色摄像头坐标系下的像素点p(xc,yc,zc)通过彩色摄像头旋转矩阵R及平移矩阵T转化至世界坐标系,对于人脸图像1的每个像素点均执行上述操作,最终可融合得到人脸的三维重建点云。
4.根据权利要求1所述的一种基于深度学习的三维重建网络人脸识别方法,其特征在于,所述步骤3中,识别待测人员的身份具体过程为:
步骤3.1:考虑待测人员脸部三维点云坐标结果中的一个点Pp,如果在已注册人员脸部三维点云对齐{Pg}中被认为有很好的匹配,则根据公式计算精确度(Acc):
其中,参数λ由是获取已注册人员脸部信息时利用三维扫描仪准确记录生成,通常,参数λ随三维扫描仪记录人脸信息时的距离,距离越远参数λ的值就越大;
步骤3.2:对于已注册人员脸部三维点云对齐中的一个点Pg,若认为在待测人员脸部三维点云坐标{Pp}中有很好的匹配,则根据公式计算完整度(Comp):
步骤3.3:同时考虑精确度和完整度,使用整体质量(Overall)来表示,计算方式:
步骤3.4:整体质量、精确度和完整度为人脸识别评价指标,数值越小,表明待测人脸与已注册人脸的相似性越高,并以此判断待测人员是否为已注册人员,该数值单位为毫米mm,其数值具体判定范围为步骤2中训练人脸深度学习的三维重建网络时产生。
5.一种基于深度学习的三维重建网络人脸识别系统,其特征在于,包括:
脸部图像获取模块:通过一个或多个彩色摄像头多角度拍摄待测人员的脸部彩色二维图像;
三维重建网络模块:训练人脸深度学习的三维重建网络,将脸部图像获取模块得到的待测人员的脸部彩色二维图像输入训练后的三维重建网络,生成待测人员脸部的三维点云坐标;
比对模块:根据三维重建网络模块获得的待测人员脸部三维点云坐标与注册库中已注册人员脸部三维点云进行对比,从而识别待测人员的身份。
6.一种基于深度学习的三维重建网络人脸识别设备,其特征在于,包括:
存储器:用于存储表达所述一种基于深度学习的三维重建网络人脸识别方法的计算机程序;
处理器:用于执行所述计算机程序时实现一种基于深度学习的三维重建网络人脸识别方法。
7.一种基于深度学习的三维重建网络人脸识别介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够实现一种基于深度学习的三维重建网络人脸识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311179047.4A CN117133041A (zh) | 2023-09-13 | 2023-09-13 | 一种基于深度学习的三维重建网络人脸识别方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311179047.4A CN117133041A (zh) | 2023-09-13 | 2023-09-13 | 一种基于深度学习的三维重建网络人脸识别方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117133041A true CN117133041A (zh) | 2023-11-28 |
Family
ID=88850775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311179047.4A Withdrawn CN117133041A (zh) | 2023-09-13 | 2023-09-13 | 一种基于深度学习的三维重建网络人脸识别方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117133041A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117894059A (zh) * | 2024-03-15 | 2024-04-16 | 国网江西省电力有限公司信息通信分公司 | 一种3d人脸识别方法 |
-
2023
- 2023-09-13 CN CN202311179047.4A patent/CN117133041A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117894059A (zh) * | 2024-03-15 | 2024-04-16 | 国网江西省电力有限公司信息通信分公司 | 一种3d人脸识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709409B (zh) | 人脸活体检测方法、装置、设备及介质 | |
CN112766158B (zh) | 基于多任务级联式人脸遮挡表情识别方法 | |
CN112446270B (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
US11810366B1 (en) | Joint modeling method and apparatus for enhancing local features of pedestrians | |
CN111274916B (zh) | 人脸识别方法和人脸识别装置 | |
CN111460931B (zh) | 基于颜色通道差值图特征的人脸欺骗检测方法及系统 | |
WO2019227479A1 (zh) | 人脸旋转图像的生成方法及装置 | |
CN112052831B (zh) | 人脸检测的方法、装置和计算机存储介质 | |
CN109101897A (zh) | 水下机器人的目标检测方法、系统及相关设备 | |
CN109583304A (zh) | 一种基于结构光模组的快速3d人脸点云生成方法及装置 | |
CN111709313B (zh) | 基于局部和通道组合特征的行人重识别方法 | |
CN111062263B (zh) | 手部姿态估计的方法、设备、计算机设备和存储介质 | |
CN111783748A (zh) | 人脸识别方法、装置、电子设备及存储介质 | |
CN114937083B (zh) | 一种应用于动态环境的激光slam系统及方法 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN107766864B (zh) | 提取特征的方法和装置、物体识别的方法和装置 | |
CN109325472B (zh) | 一种基于深度信息的人脸活体检测方法 | |
CN113610046B (zh) | 一种基于深度视频联动特征的行为识别方法 | |
CN111639580A (zh) | 一种结合特征分离模型和视角转换模型的步态识别方法 | |
CN111767879A (zh) | 一种活体检测方法 | |
CN116057587A (zh) | 活体检测方法、活体检测模型的训练方法及其装置和系统 | |
CN117133041A (zh) | 一种基于深度学习的三维重建网络人脸识别方法、系统、设备及介质 | |
CN116229528A (zh) | 一种活体掌静脉检测方法、装置、设备及存储介质 | |
CN114882537A (zh) | 一种基于神经辐射场的手指新视角图像生成方法 | |
CN110910497A (zh) | 实现增强现实地图的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20231128 |
|
WW01 | Invention patent application withdrawn after publication |