CN108197587B - 一种通过人脸深度预测进行多模态人脸识别的方法 - Google Patents

一种通过人脸深度预测进行多模态人脸识别的方法 Download PDF

Info

Publication number
CN108197587B
CN108197587B CN201810048218.2A CN201810048218A CN108197587B CN 108197587 B CN108197587 B CN 108197587B CN 201810048218 A CN201810048218 A CN 201810048218A CN 108197587 B CN108197587 B CN 108197587B
Authority
CN
China
Prior art keywords
face
depth
network
data
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810048218.2A
Other languages
English (en)
Other versions
CN108197587A (zh
Inventor
崔继运
韩琥
张�杰
山世光
陈熙霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seetatech Beijing Technology Co ltd
Original Assignee
Seetatech Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seetatech Beijing Technology Co ltd filed Critical Seetatech Beijing Technology Co ltd
Priority to CN201810048218.2A priority Critical patent/CN108197587B/zh
Publication of CN108197587A publication Critical patent/CN108197587A/zh
Application granted granted Critical
Publication of CN108197587B publication Critical patent/CN108197587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种通过人脸深度预测进行多模态人脸识别的方法,其步骤为:数据提取;Depth模态数据人脸分割及尺度化:级联网络模型训练:人脸识别网络训练;模型融合;测试阶段。本发明中网络模型所预测出的人脸Depth图像不仅和真实的人脸Depth图像相近,而且级联的分类网络增加了预测出的Depth图像的类间距离,使得预测出的人脸Depth图像具有更丰富的身份信息。通过人脸RGB模态来预测人脸的Depth模态,增加了人脸模态数据的多样性,可以在不改变现有RGB相机硬件前提下实现多模态人脸识别。RGB模态结合预测出的Depth模态,多模态人脸识别准确率高于单一使用RGB模态数据的人脸识别准确率。

Description

一种通过人脸深度预测进行多模态人脸识别的方法
技术领域
本发明涉及一种人脸识别的方法,尤其涉及一种通过人脸深度预测进行多模态人脸识别的方法。
背景技术
RGB(红、绿、蓝三个通道的颜色)单模态人脸识别技术目前已经达到了瓶颈,但是在非可控条件下,比如人脸姿态的变化,尤其是光照的变化对RGB人脸识别精度仍然有很大的影响。随着Kinect和RealSense相机的出现与普及,人们可以获取到除了RGB模态之外更多其他模态的人脸数据,比如Depth(深度)和NIR(近红外)等。Depth和NIR模态的人脸数据不受光照的影响,即使在黑暗中也能获取到精确的人脸信息。因此,结合RGB和Depth两种模态进行多模态人脸识别可以大大提高对光照的鲁棒性。但目前普遍应用的相机仍然是普通的RGB相机,如果大面积更换为Kinect或者RealSense多模态相机,无论是从成本还是技术上都存在很大的难度。在不改变现有RGB单模态相机的前提下,为了融合进人脸的Depth模态信息,急需开发一种利用人脸判别式深度预测方法进行多模态人脸识别的技术。
针对上述研发方向,有学者设计了依赖于Kinect或者RealSense多模态相机获取到的人脸模态数据并利用卷积神经网络进行多模态融合的人脸识别技术。除了人脸的RGB模态,该技术涉及到的人脸Depth和NIR模态均是由相应的设备采集得到。该技术的主要特征为:多模态融合卷积神经网络结构由两部分组成,网络结构的前半部分为多个网络分支,每一个分支网络的输入数据对应人脸的一个模态信息,后半部分为一个融合网络,将前半部分的多个网络分支融合后进行卷积操作,计算人脸多个模态的融合特征;网络结构融合后的特征有一个监督信号,且每个分支网络也有相应模态的监督信号。另外设计一个网络结构为多模态共享的深度卷积神经网络,将各个人脸模态不加区分的送入该网络中训练,并分别提取不同模态的特征。对上述两个网络得到的特征分别进行相似度计算并加权求和作为最终的融合相似度。该技术手段具有以下缺陷:利用了人脸的多种模态信息,但这些信息均是从相应设备采集得来,在实际人脸识别应用上对硬件设备要求比较高;而且该技术中除了RGB模态之外的其他模态的人脸定位均是从RGB模态的人脸定位映射得到,致使在RGB模态数据人脸定位不精确或者无法进行人脸定位的情况下(黑暗环境中无法进行RGB模态的人脸定位),其他模态的人脸识别效果受限于RGB模态的人脸识别效果。
发明内容
为了解决上述技术所存在的不足之处,本发明提供了一种通过人脸深度预测进行多模态人脸识别的方法。
为了解决以上技术问题,本发明采用的技术方案是:一种通过人脸深度预测进行多模态人脸识别的方法,其整体步骤为:
步骤一、数据提取阶段:
利用人脸检测引擎对人脸RGB图像进行人脸检测和关键点定位,裁切出人脸区域并将人脸区域保存为256x256像素大小的图像;
步骤二、Depth模态数据人脸分割及尺度化:
a、获取crop出的人脸Depth数据的直方图;
b、对直方图做平滑处理,消除存在的噪声;
c、在平滑后的直方图上进行Depth模态数据人脸分割,确定人脸的深度范围;
d、将人脸深度范围映射到阈值[0,255],做尺度化处理;
步骤三、级联网络模型训练:
采用人脸深度预测网络和分类网络级联的网络模型进行训练;
步骤四、人脸识别网络训练;
人脸的RGB模态数据和预测出的Depth模态数据分别训练出各自的模型M1和M2;待人脸识别网络模型训练完成后,提取网络结构中loss1/fc层的向量作为人脸的特征向量;人脸的相似度度量采用特征向量的cosine距离,假设RGB模态数据集上的人脸识别率为r1,Depth模态数据集上的人脸识别率为r2
步骤五、模型融合;
在相似度度量层级上进行模型融合,在测试阶段,RGB模态的相似度为S1,预测出的Depth模态的相似度为S2,则融合后的相似度计算如下:
Figure GDA0003106840500000031
步骤六、测试阶段;
a、通过RGB单模态相机获取RGB模态数据,并裁切出人脸区域;送入模型M1提取RGB模态的人脸特征并分别与注册集中的RGB模态人脸特征计算consine距离作为相似度度量;
b、将步骤a得到的人脸RGB模态图像送入深度预测网络模型中,预测出对应的Depth模态人脸图像,送入模型M2提取Depth模态的人脸特征并与注册集中的Depth模态人脸特征计算consine距离作为相似度度量;
c、利用步骤五提出的相似度融合方法进行两种模态的人脸相似度融合,融合结果作为多模态人脸识别的相似度。
步骤一中的关键点定位通常采用五点定位的方式,五点分别为2个眼角、鼻尖、2个嘴角。
进一步地,步骤一中,对于提供RGB模态到Depth模态坐标映射关系的数据集,直接根据RGB检测出的人脸坐标位置映射到Depth模态的人脸区域并裁切出Depth模态的人脸数据,Depth模态的数据保存时的尺寸为256x256像素大小;
对于没有提供两者映射关系的数据集,因为其采集的Depth模态数据和NIR模态数据共享同一个坐标系,即Depth模态人脸区域的坐标位置和NIR模态人脸区域的坐标位置是一致的,将NIR模态的人脸数据视为灰度图像用人脸检测器检测出人脸区域作为Depth模态下人脸区域的位置。
进一步地,步骤二中对直方图做平滑处理的公式为:
Figure GDA0003106840500000041
式中,i表示图1中下标的数值(同时也是距离为i);t是迭代的次数,其取值范围为1~T;Ht,i为迭代t次时下标i对应的高度;将公式一迭代计算T次后可消除Depth数据的直方图中存在的噪声,形成平滑的直方图,便于确定人脸区域的范围。
进一步地,步骤二中人脸分割及尺度化处理的具体方法为:
从最大值点向左连续寻找数值不小于threshold的最左侧的点的下标值即为人脸区域最靠近相机的距离数值,从最大值向右连续寻找数值不小于threshold的最右侧的点的下标值即为人脸区域最远的距离数值;
记人脸区域最近的距离为m,最远的距离为M,U为原始获取的16位无符号整数的裁切出的人脸Depth数据,D为尺度化后的人脸Depth图像,尺度化计算公式如下:
Figure GDA0003106840500000042
其中,dk为D的第k个像素值,uk是U的第k个位置的人脸深度值,threshold依经验取值为50。
进一步地,步骤三中,由于两个网络的收敛速率不同,在前期的模型训练时,将两个网络分开来训练,此时分类网络的输入为真实人脸Depth图像数据;在两个网络模型分别达到收敛状态后再将两个网络模型级联起来并在之前预训练的模型基础上进行finetuning直至级联网络的loss达到收敛状态。
进一步地,步骤三中级联网络模型训练的具体过程为:
a、深度预测网络的输入为3通道的RGB人脸图像,记为I,深度预测网络的输出为预测的人脸深度信息D*,记人脸的真实深度图像为D,深度预测网络的输出作为分类网络的输入,分类网络的输出为预测的人脸深度图像的类别C*,记真实的类别为C;
人脸深度预测网络由8个卷积层和3个反卷积层组成,除了最后一个反卷积层,其余的卷积层和反卷积层后各接了一个BatchNormalization层和PReLU层;为了增加网络高层的感受野大小,在第一、第二和第五个卷积层后各接了一个Pooling层,损失函数采用Euclidean Loss;深度预测网络的监督信号为L2Loss,即预测的人脸深度信息D*和真实人脸深度图像的误差:
Figure GDA0003106840500000051
其中,Dij表示D图像的第i行第j列;
Figure GDA0003106840500000052
表示D*图像的第i行第j列;P、Q分别表示图像的高度、宽度;
b、深度人脸分类网络的是由8个卷积层和3个全连接层组成,在每一个卷积层之后,都接有一个BatchNormalization层和ReLU层,分类网络结构中,分别在第一个、第二个、第四个、第六个和第八个卷积层后各接有Pooling层;分类网络的前两个全连接层之后分别接了一个ReLU层和Dropout层,第三个全连接层的输出结果直接用来计算分类损失,损失函数采用SoftmaxwithLoss;
c、级联网络的loss为两个监督信号的加权和,由于L2Loss的数量级远高于分类损失SoftmaxwithLoss的数值,设置预测网络的Loss的权值为0.001;级联网络的优化目标为:
Figure GDA0003106840500000053
其中,WF为深度预测网络的权值,WC为分类网络的权值,FF和FC分别为深度预测网络模型和分类网络模型;z是分类网络输出的向量,对应图4中最后输出的分类网络的该层特征,表示的是每一类人脸的概率;假设训练集中是N个人的人脸数据,那么z的维度就为N,j的取值范围是[0,N-1];zj表示预测为第j个人的概率,y是人脸数据的lable,即人脸的真实类别,zy是预测为正确的人脸类别的概率;
优化目标的第一部分为深度预测网络的监督信号,第二部分为分类网络的监督信号,其中α=0.001,β=1。
本发明提出了一种人脸Depth预测网络和分类网络级联的卷积神经网络结构,该网络模型所预测出的人脸Depth图像不仅和真实的人脸Depth图像相近,而且级联的分类网络增加了预测出的Depth图像的类间距离,使得预测出的人脸Depth图像具有更丰富的身份信息。通过人脸RGB模态来预测人脸的Depth模态,增加了人脸模态数据的多样性,可以在不改变现有RGB相机硬件前提下实现多模态人脸识别。RGB模态结合预测出的Depth模态,多模态人脸识别准确率高于单一使用RGB模态数据的人脸识别准确率。
附图说明
图1为人脸Depth模态数据直方图及平滑效果展示图。
图2为Depth模态数据人脸分割及尺度化之前的人脸Depth图像。
图3为对图2进行人脸分割及尺度化之后的Depth图像。
图4为级联网络模型结构图。
图5为多模态人脸识别过程图。
图6为人脸深度预测网络与分类网络级联网络模型的构建过程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
一种通过人脸深度预测进行多模态人脸识别的方法,整体步骤为:
步骤一、数据提取阶段:
利用现有的人脸检测引擎对人脸RGB图像进行人脸检测和5点(2个眼角、鼻尖、2个嘴角)定位,裁切出人脸区域并将人脸区域保存为256x256像素大小的图像。
对于提供RGB模态到Depth模态坐标映射关系的数据集,直接根据RGB检测出的人脸坐标位置映射到Depth模态的人脸区域并裁切出Depth模态的人脸数据,Depth模态的数据保存时的尺寸为256x256像素大小。
对于没有提供两者映射关系的数据集,因为其采集的Depth模态数据和NIR模态数据共享同一个坐标系,即Depth模态人脸区域的坐标位置和NIR模态人脸区域的坐标位置是一致的,将NIR模态的人脸数据视为灰度图像用人脸检测器检测出人脸区域作为Depth模态下人脸区域的位置。
步骤二、Depth模态数据人脸分割及尺度化:
Kinect或RealSense相机采集的到的深度数值为16位无符号整数,为了突出人脸形状,在人脸深度图像中分割出人脸区域做尺度化,并去除背景和前景的影响。
如图1~3所示,具体操作过程如下:
a、首先绘制人脸Depth模态数据的直方图(图1中浅色线条所示),由于裁切出的人脸图像中大部分区域为人脸区域,所以在直方图中会出现2~3个波峰,其中面积最大的波峰为人脸区域的波峰,该峰左测的波峰(如果有的话)为前景区域波峰,右侧的波峰(如果有的话)代表的是背景区域波峰。
b、对直方图进行平滑处理(图1中深色线条所示):初始的直方图不够平滑,呈锯齿状态,需要进行平滑处理,平滑处理采用的公式如公式一所示;将公式一迭代计算T次后可消除Depth数据的直方图中存在的噪声,形成平滑的直方图,便于确定人脸区域的范围。
Figure GDA0003106840500000071
式中,i表示图1中下标的数值(同时也是距离为i);t是迭代的次数,其取值范围为1~T;Ht,i为迭代t次时下标i对应的高度。
c、通过计算找到平滑的直方图中最大值点即为人脸区域所在范围的直方图的波峰。人脸分割的方式为:从最大值点向左连续寻找数值不小于threshold(阈值)的最左侧的点(图1中左侧虚线交叉点)的下标值即为人脸区域最靠近相机的距离数值,从最大值向右连续寻找数值不小于threshold的最右侧的点(图1中右侧虚线交叉点)的下标值即为人脸区域最远的距离数值。人脸的深度范围即为图1中竖直虚线中间的范围。
d、将人脸深度范围映射到值域[0,255],做尺度化处理:记人脸区域最近的距离为m,最远的距离为M,U为原始获取的16位无符号整数的裁切出的人脸Depth数据,D为尺度化后的人脸Depth图像,尺度化计算公式如下:
Figure GDA0003106840500000081
其中,dk为D的第k个像素值,uk是U的第k个位置的人脸深度值,根据经验,threshold取值为50时处理效果最好。
步骤三、级联网络模型训练:
采用人脸深度预测网络和分类网络级联的网络模型,网络结构如图4所示,图中,上排卷积网络表示人脸深度预测网络,下排卷积网络表示表示人脸深度分类网络。
a、深度预测网络的输入为3通道的RGB人脸图像,记为I,深度预测网络的输出为预测的人脸深度信息D*,记人脸的真实深度图像为D,深度预测网络的输出作为分类网络的输入,分类网络的输出为预测的人脸深度图像的类别C*,记真实的类别为C。人脸深度预测网络由8个卷积层和3个反卷积层组成,除了最后一个反卷积层,其余的卷积层和反卷积层后各接了一个BatchNormalization层和PReLU层。为了增加网络高层的感受野大小,在第一、第二和第五个卷积层后各接了一个Pooling层,损失函数采用Euclidean Loss(欧式距离损失函数)。深度预测网络的监督信号为L2Loss,即预测的人脸深度信息D*和真实人脸深度图像的误差:
Figure GDA0003106840500000091
其中,Dij表示D图像的第i行第j列;
Figure GDA0003106840500000092
表示D*图像的第i行第j列;P、Q分别表示图像的高度、宽度。
b、深度人脸分类网络的是由8个卷积层和3个全连接层组成,在每一个卷积层之后,都接有一个BatchNormalization层和ReLU层,分类网络结构中,分别在第一个、第二个、第四个、第六个和第八个卷积层后各接有Pooling层。分类网络的前两个全连接层之后分别接了一个ReLU层和Dropout层,第三个全连接层的输出结果直接用来计算分类损失,损失函数采用SoftmaxwithLoss(一种分类训练损失函数)。
c、由于两个网络的收敛速率不同,在前期的模型训练时,将两个网络分开来训练,此时分类网络的输入为真实人脸Depth图像数据。在两个网络模型分别达到收敛状态后再将两个网络模型级联起来并在之前预训练的模型基础上进行finetuning(finetuning是利用别人训练好的模型,再加上自己的数据进行新模型训练的常用手段)直至级联网络的loss达到收敛状态。级联网络的loss为两个监督信号的加权和,由于L2Loss的数量级远高于分类损失SoftmaxwithLoss的数值,设置预测网络的Loss的权值为0.001。级联网络的优化目标为:
Figure GDA0003106840500000093
其中,WF为深度预测网络的权值,WC为分类网络的权值,FF和FC分别为深度预测网络模型和分类网络模型;z是分类网络输出的向量,对应图4中最后输出的分类网络的该层特征,表示的是每一类人脸的概率。假设训练集中是N个人的人脸数据,那么z的维度就为N,j的取值范围是[0,N-1];zj表示预测为第j个人的概率,y是人脸数据的lable,即人脸的真实类别,zy是预测为正确的人脸类别的概率。
优化目标的第一部分为深度预测网络的监督信号,第二部分为分类网络的监督信号,其中α=0.001,β=1。α、β的取值说明:因为计算出的两个loss的数值不在同一个数量级上,所以前面加上系数来限制两个loss在同一个数量级上。
步骤四、人脸识别网络模型采用Google Inceptive V2提出的网络结构,人脸的RGB模态数据和预测出的Depth模态数据分别训练出各自的模型M1和M2。待模型训练完成后,提取网络结构中loss1/fc层的向量作为人脸的特征向量。人脸的相似度度量采用特征向量的cosine(余弦)距离,假设RGB模态数据集上的人脸识别率为r1,Depth模态数据集上的人脸识别率为r2
步骤五、模型融合:在相似度度量层级上进行模型融合,在测试阶段,RGB模态的相似度为s1,预测出的Depth模态的相似度为s2,则融合后的相似度计算如下:
Figure GDA0003106840500000101
步骤六、测试阶段。模型测试示意图如图5所示:
a、通过普通的RGB单模态相机获取RGB模态数据,并裁切出人脸区域。送入模型M1提取RGB模态的人脸特征并分别与注册集中的RGB模态人脸特征计算consine距离作为相似度度量。
b、将步骤a得到的人脸RGB模态图像送入深度预测网络模型中,预测出对应的Depth模态人脸图像,送入模型M2提取Depth模态的人脸特征并与注册集中的Depth模态人脸特征计算consine距离作为相似度度量。
c、利用步骤五提出的相似度融合方法进行两种模态的人脸相似度融合,融合结果作为多模态人脸识别的相似度。
本发明的创新点与关键点在于:
(1)设计了一个人脸Depth预测网络和分类网络级联的深度卷积神经网络结构来预测人脸可判别式的Depth图像,在网络训练阶段输入的数据为人脸RGB图像和人脸类别,在网络测试阶段输入的数据仅为人脸RGB图像。在该级联网络中,深度预测网络的输出作为分类网络的输入来达到两个网络级联的效果。
如图6所示,对于级联的两个卷积神经网络,分别有两个监督信号,通过计算L2Loss即计算人脸深度预测网络的输出与人脸真实Depth图像的Euclidean Distance作为人脸深度预测网络的监督信号,计算分类网络输出的人脸类别概率和人脸真实类别之间的SoftmaxwithLoss作为分类网络的监督信号,通过这两个监督信号,预测网络输出的人脸Depth图像不仅趋向于真实人脸Depth图像,而且使得预测出的Depth图像更加富有身份信息。
技术效果是:通过人脸深度预测网络和分类网络级联的卷积神经网络生成的人脸Depth图像比单纯的使用预测网络生成的人脸Depth图像在人脸识别准确率上有很大的提升。
(2)如图5所示,对于裁切好的人脸RGB模态数据和预测出的Depth模态数据分别送入人脸识别网络训练,对于两种模态数据分别训练出两个模型M1和M2。在测试阶段,同一个人的两个模态数据在对应的训练模型上提取出指定层的特征作为计算人脸相似度的特征向量。通过计算两个特征向量的余弦距离作为人脸相似度的度量方式。对于人脸的两种模态的特征向量,在人脸相似度层面进行融合。
技术效果是:两种模态融合后的人脸识别准确率高于单一模态的人脸识别准确率。
(3)采用RealSense设备采集得到的深度数值是16位无符号整数,对深度人脸数据的预处理操作为:1)根据RealSense采集得到的近红外图像中的人脸坐标得到深度图像中的人脸坐标;2)通过绘制人脸图像的深度直方图将人脸区域分割出来,人脸区域的深度范围缩放到0到255,背景和前景区域的深度范围统一置为0。
技术效果是:通过去除Depth图像中的非人脸区域,可以减少非人脸因素的干扰,提高Depth数据人脸识别准确率。
本发明创造性的提出了通过预测手段来产生人脸的其他模态,即通过人脸的RGB模态信息来预测人脸的判别式Depth模态信息,即在Depth模态信息中融合了更多的身份信息,并将两种模态结合起来进行RGB-D多模态人脸识别。由RealSense多模态相机获取得到的Depth信息和NIR信息共享同一个坐标,即Depth模态中人脸坐标和NIR模态中人脸坐标保持一致,本发明将NIR模态作为灰度图像送入人脸检测器中进行人脸定位,得到的定位坐标即为Depth模态中的人脸定位坐标,使得Depth模态中的人脸检测不受RGB模态和光照的影响。本技发明不改变现有的RGB单模态相机的情况下,只在算法层面进行设计即可实现多模态人脸识别。
上述实施方式并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换,也均属于本发明的保护范围。

Claims (6)

1.一种通过人脸深度预测进行多模态人脸识别的方法,其特征在于:所述方法的整体步骤为:
步骤一、数据提取阶段:
利用人脸检测引擎对人脸RGB图像进行人脸检测和关键点定位,裁切出人脸区域并将人脸区域保存为256x256像素大小的图像;
步骤二、Depth模态数据人脸分割及尺度化:
a、获取crop出的人脸Depth数据的直方图;
b、对直方图做平滑处理,消除存在的噪声;
c、在平滑后的直方图上进行Depth模态数据人脸分割,确定人脸的深度范围;
d、将人脸深度范围映射到阈值[0,255],做尺度化处理;
步骤三、级联网络模型训练:
采用人脸深度预测网络和分类网络级联的网络模型进行训练;级联网络模型训练的具体过程为:
a、深度预测网络的输入为3通道的RGB人脸图像,记为I,深度预测网络的输出为预测的人脸深度信息D*,记人脸的真实深度图像为D,深度预测网络的输出作为分类网络的输入,分类网络的输出为预测的人脸深度图像的类别C*,记真实的类别为C;
人脸深度预测网络由8个卷积层和3个反卷积层组成,除了最后一个反卷积层,其余的卷积层和反卷积层后各接了一个BatchNormalization层和PReLU层;为了增加网络高层的感受野大小,在第一、第二和第五个卷积层后各接了一个Pooling层,损失函数采用Euclidean Loss;深度预测网络的监督信号为L2Loss,即预测的人脸深度信息D*和真实人脸深度图像的误差:
Figure FDA0003106840490000021
其中,Dij表示D图像的第i行第j列;
Figure FDA0003106840490000022
表示D*图像的第i行第j列;P、Q分别表示图像的高度、宽度;
b、深度人脸分类网络的是由8个卷积层和3个全连接层组成,在每一个卷积层之后,都接有一个BatchNormalization层和ReLU层,分类网络结构中,分别在第一个、第二个、第四个、第六个和第八个卷积层后各接有Pooling层;分类网络的前两个全连接层之后分别接了一个ReLU层和Dropout层,第三个全连接层的输出结果直接用来计算分类损失,损失函数采用SoftmaxwithLoss;
c、级联网络的loss为两个监督信号的加权和,由于L2Loss的数量级远高于分类损失SoftmaxwithLoss的数值,设置预测网络的Loss的权值为0.001;级联网络的优化目标为:
Figure FDA0003106840490000023
其中,WF为深度预测网络的权值,WC为分类网络的权值,FF和FC分别为深度预测网络模型和分类网络模型;z是分类网络输出的向量,对应最后输出的分类网络的特征,表示的是每一类人脸的概率;假设训练集中是N个人的人脸数据,那么z的维度就为N,j的取值范围是[0,N-1];zj表示预测为第j个人的概率,y是人脸数据的lable,即人脸的真实类别,zy是预测为正确的人脸类别的概率;
优化目标的第一部分为深度预测网络的监督信号,第二部分为分类网络的监督信号,其中α=0.001,β=1;
步骤四、人脸识别网络训练;
人脸的RGB模态数据和预测出的Depth模态数据分别训练出各自的模型M1和M2;待人脸识别网络模型训练完成后,提取网络结构中loss1/fc层的向量作为人脸的特征向量;人脸的相似度度量采用特征向量的cosine距离,假设RGB模态数据集上的人脸识别率为r1,Depth模态数据集上的人脸识别率为r2
步骤五、模型融合;
在相似度度量层级上进行模型融合,在测试阶段,RGB模态的相似度为s1,预测出的Depth模态的相似度为s2,则融合后的相似度计算如下:
Figure FDA0003106840490000031
步骤六、测试阶段;
a、通过RGB单模态相机获取RGB模态数据,并裁切出人脸区域;送入模型M1提取RGB模态的人脸特征并分别与注册集中的RGB模态人脸特征计算consine距离作为相似度度量;
b、将步骤a得到的人脸RGB模态图像送入深度预测网络模型中,预测出对应的Depth模态人脸图像,送入模型M2提取Depth模态的人脸特征并与注册集中的Depth模态人脸特征计算consine距离作为相似度度量;
c、利用步骤五提出的相似度融合方法进行两种模态的人脸相似度融合,融合结果作为多模态人脸识别的相似度。
2.根据权利要求1所述的通过人脸深度预测进行多模态人脸识别的方法,其特征在于:所述步骤一中的关键点定位通常采用五点定位的方式,五点分别为2个眼角、鼻尖、2个嘴角。
3.根据权利要求1或2所述的通过人脸深度预测进行多模态人脸识别的方法,其特征在于:所述步骤一中,对于提供RGB模态到Depth模态坐标映射关系的数据集,直接根据RGB检测出的人脸坐标位置映射到Depth模态的人脸区域并裁切出Depth模态的人脸数据,Depth模态的数据保存时的尺寸为256x256像素大小;
对于没有提供两者映射关系的数据集,因为其采集的Depth模态数据和NIR模态数据共享同一个坐标系,即Depth模态人脸区域的坐标位置和NIR模态人脸区域的坐标位置是一致的,将NIR模态的人脸数据视为灰度图像用人脸检测器检测出人脸区域作为Depth模态下人脸区域的位置。
4.根据权利要求1所述的通过人脸深度预测进行多模态人脸识别的方法,其特征在于:所述步骤二中对直方图做平滑处理的公式为:
Figure FDA0003106840490000041
式中,i表示距离;t是迭代的次数,其取值范围为1~T;Ht,i为迭代t次时下标i对应的高度;将公式一迭代计算T次后可消除Depth数据的直方图中存在的噪声,形成平滑的直方图,便于确定人脸区域的范围。
5.根据权利要求4所述的通过人脸深度预测进行多模态人脸识别的方法,其特征在于:所述步骤二中人脸分割及尺度化处理的具体方法为:
从最大值点向左连续寻找数值不小于threshold的最左侧的点的下标值即为人脸区域最靠近相机的距离数值,从最大值向右连续寻找数值不小于threshold的最右侧的点的下标值即为人脸区域最远的距离数值;
记人脸区域最近的距离为m,最远的距离为M,U为原始获取的16位无符号整数的裁切出的人脸Depth数据,D为尺度化后的人脸Depth图像,尺度化计算公式如下:
Figure FDA0003106840490000042
其中,dk为D的第k个像素值,uk是U的第k个位置的人脸深度值,threshold依经验取值为50。
6.根据权利要求5所述的通过人脸深度预测进行多模态人脸识别的方法,其特征在于:所述步骤三中,由于两个网络的收敛速率不同,在前期的模型训练时,将两个网络分开来训练,此时分类网络的输入为真实人脸Depth图像数据;在两个网络模型分别达到收敛状态后再将两个网络模型级联起来并在之前预训练的模型基础上进行finetuning直至级联网络的loss达到收敛状态。
CN201810048218.2A 2018-01-18 2018-01-18 一种通过人脸深度预测进行多模态人脸识别的方法 Active CN108197587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810048218.2A CN108197587B (zh) 2018-01-18 2018-01-18 一种通过人脸深度预测进行多模态人脸识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810048218.2A CN108197587B (zh) 2018-01-18 2018-01-18 一种通过人脸深度预测进行多模态人脸识别的方法

Publications (2)

Publication Number Publication Date
CN108197587A CN108197587A (zh) 2018-06-22
CN108197587B true CN108197587B (zh) 2021-08-03

Family

ID=62589601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810048218.2A Active CN108197587B (zh) 2018-01-18 2018-01-18 一种通过人脸深度预测进行多模态人脸识别的方法

Country Status (1)

Country Link
CN (1) CN108197587B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109636804A (zh) * 2018-10-10 2019-04-16 浙江大学 一种基于多粒度级联的人体图像分割方法
US11265446B2 (en) * 2018-10-18 2022-03-01 Sony Corporation Frame handling for ML-based upscaling
CN109344909A (zh) * 2018-10-30 2019-02-15 咪付(广西)网络技术有限公司 一种基于多通道卷积神经网络的身份识别方法
CN109472240B (zh) * 2018-11-12 2020-02-28 北京影谱科技股份有限公司 人脸识别多模型自适应特征融合增强方法和装置
CN111353577B (zh) * 2018-12-24 2024-01-23 Tcl科技集团股份有限公司 基于多任务的级联组合模型的优化方法、装置及终端设备
CN111368581A (zh) * 2018-12-25 2020-07-03 浙江舜宇智能光学技术有限公司 基于tof摄像模组的人脸识别方法、人脸识别装置和电子设备
CN109784273B (zh) * 2019-01-13 2019-10-08 北京镭特医疗科技有限公司 一种人脸识别方法和装置
CN109948467A (zh) * 2019-02-28 2019-06-28 中国科学院深圳先进技术研究院 人脸识别的方法、装置、计算机设备和存储介质
CN109977794A (zh) * 2019-03-05 2019-07-05 北京超维度计算科技有限公司 一种用深度神经网络进行人脸识别的方法
CN109934195A (zh) * 2019-03-21 2019-06-25 东北大学 一种基于信息融合的反欺骗三维人脸识别方法
CN110232418B (zh) * 2019-06-19 2021-12-17 达闼机器人有限公司 一种语义识别方法、终端及计算机可读存储介质
CN110458828B (zh) * 2019-08-12 2023-02-10 广东工业大学 一种基于多模态融合网络的激光焊接缺陷识别方法及装置
CN111160350B (zh) * 2019-12-23 2023-05-16 Oppo广东移动通信有限公司 人像分割方法、模型训练方法、装置、介质及电子设备
CN111144298A (zh) * 2019-12-26 2020-05-12 北京华捷艾米科技有限公司 一种行人识别方法及装置
CN111160292B (zh) * 2019-12-31 2023-09-22 上海易维视科技有限公司 人眼检测方法
CN111242097B (zh) * 2020-02-27 2023-04-18 腾讯科技(深圳)有限公司 一种人脸识别方法、装置、计算机可读介质及电子设备
CN111428579A (zh) * 2020-03-03 2020-07-17 平安科技(深圳)有限公司 人脸图像的获取方法与系统
CN111523398A (zh) * 2020-03-30 2020-08-11 西安交通大学 一种融合2d人脸检测和3d人脸识别的方法及装置
CN111881813B (zh) * 2020-07-24 2021-02-19 深圳市卡联科技股份有限公司 人脸识别终端的数据存储方法及系统
CN112767303B (zh) * 2020-08-12 2023-11-28 腾讯科技(深圳)有限公司 一种图像检测方法、装置、设备及计算机可读存储介质
CN112418865A (zh) * 2020-11-13 2021-02-26 上海臻面智能信息科技有限公司 一种基于安全支付模组的活体检测方法
CN113033645A (zh) * 2021-03-18 2021-06-25 南京大学 Rgb-d图像的多尺度融合深度图像增强方法及装置
CN112926557B (zh) * 2021-05-11 2021-09-10 北京的卢深视科技有限公司 一种训练多模态人脸识别模型的方法以及多模态人脸识别方法
CN113591823B (zh) * 2021-10-08 2022-03-25 北京的卢深视科技有限公司 深度预测模型的训练及人脸深度图像的生成方法、装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598878A (zh) * 2015-01-07 2015-05-06 深圳市唯特视科技有限公司 基于灰度和深度信息的多层融合的多模态人脸识别装置及方法
CN106157307A (zh) * 2016-06-27 2016-11-23 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN106874830A (zh) * 2016-12-12 2017-06-20 杭州视氪科技有限公司 一种基于rgb‑d相机和人脸识别的视障人士辅助方法
CN106909905A (zh) * 2017-03-02 2017-06-30 中科视拓(北京)科技有限公司 一种基于深度学习的多模态人脸识别方法
CN107578436A (zh) * 2017-08-02 2018-01-12 南京邮电大学 一种基于全卷积神经网络fcn的单目图像深度估计方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598878A (zh) * 2015-01-07 2015-05-06 深圳市唯特视科技有限公司 基于灰度和深度信息的多层融合的多模态人脸识别装置及方法
CN106157307A (zh) * 2016-06-27 2016-11-23 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN106874830A (zh) * 2016-12-12 2017-06-20 杭州视氪科技有限公司 一种基于rgb‑d相机和人脸识别的视障人士辅助方法
CN106909905A (zh) * 2017-03-02 2017-06-30 中科视拓(北京)科技有限公司 一种基于深度学习的多模态人脸识别方法
CN107578436A (zh) * 2017-08-02 2018-01-12 南京邮电大学 一种基于全卷积神经网络fcn的单目图像深度估计方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Joint prediction of depths,noemals and surface curvature from RGB images using CNNs";Thanuja Dharmasiri et al.;《IEEE》;20171214;全文 *
"Kinect深度图像修复算法";徐欢 等;《微电子学与计算机》;20131130;第30卷(第11期);第98-103页 *
"RGB-D Face Recognition System Verification Using Kinect And FRAV3D Databases";Poornima Krishnan et al.;《International Conference on Information and Communication Technologies(ICICT 2014)》;20141231;全文 *
"一种基于彩色+深度的人脸识别算法";袁帅英 等;《测试技术学报》;20171231;第31卷(第3期);全文 *

Also Published As

Publication number Publication date
CN108197587A (zh) 2018-06-22

Similar Documents

Publication Publication Date Title
CN108197587B (zh) 一种通过人脸深度预测进行多模态人脸识别的方法
CN109800648B (zh) 基于人脸关键点校正的人脸检测识别方法及装置
CN108549873B (zh) 三维人脸识别方法和三维人脸识别系统
CN108052896B (zh) 基于卷积神经网络与支持向量机的人体行为识别方法
CN109344701B (zh) 一种基于Kinect的动态手势识别方法
CN108182441B (zh) 平行多通道卷积神经网络、构建方法及图像特征提取方法
CN108520226B (zh) 一种基于躯体分解和显著性检测的行人重识别方法
CN106599854B (zh) 基于多特征融合的人脸表情自动识别方法
CN109753875A (zh) 基于人脸属性感知损失的人脸识别方法、装置与电子设备
CN108921107B (zh) 基于排序损失和Siamese网络的行人再识别方法
CN105869178B (zh) 一种基于多尺度组合特征凸优化的复杂目标动态场景无监督分割方法
CN109977757B (zh) 一种基于混合深度回归网络的多模态的头部姿态估计方法
CN101819628B (zh) 结合形状特征的稀疏表示人脸识别方法
CN113362382A (zh) 三维重建方法和三维重建装置
CN111178208A (zh) 基于深度学习的行人检测方法、装置及介质
CN110751009A (zh) 人脸识别方法、目标识别方法、装置和电子设备
CN105139004A (zh) 基于视频序列的人脸表情识别方法
CN111709313B (zh) 基于局部和通道组合特征的行人重识别方法
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN111931764A (zh) 一种目标检测方法、目标检测框架及相关设备
CN113591763B (zh) 人脸脸型的分类识别方法、装置、存储介质及计算机设备
CN112907569A (zh) 头部图像区域的分割方法、装置、电子设备和存储介质
CN111401113A (zh) 一种基于人体姿态估计的行人重识别方法
CN115147599A (zh) 一种面向遮挡和截断场景的多几何特征学习的物体六自由度位姿估计方法
CN115937552A (zh) 一种基于融合手工特征与深度特征的图像匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant