CN113361346B - 一种替换调节参数的尺度参数自适应的人脸识别方法 - Google Patents
一种替换调节参数的尺度参数自适应的人脸识别方法 Download PDFInfo
- Publication number
- CN113361346B CN113361346B CN202110571247.9A CN202110571247A CN113361346B CN 113361346 B CN113361346 B CN 113361346B CN 202110571247 A CN202110571247 A CN 202110571247A CN 113361346 B CN113361346 B CN 113361346B
- Authority
- CN
- China
- Prior art keywords
- module
- face recognition
- parameter
- samples
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000013528 artificial neural network Methods 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 39
- 230000008569 process Effects 0.000 claims abstract description 27
- 238000005065 mining Methods 0.000 claims abstract description 19
- 238000010606 normalization Methods 0.000 claims abstract description 16
- 230000004913 activation Effects 0.000 claims description 12
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000010200 validation analysis Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 54
- 238000002474 experimental method Methods 0.000 description 10
- WUBBRNOQWQTFEX-UHFFFAOYSA-N 4-aminosalicylic acid Chemical compound NC1=CC=C(C(O)=O)C(O)=C1 WUBBRNOQWQTFEX-UHFFFAOYSA-N 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种替换调节参数的尺度参数自适应的人脸识别方法,其特征在于,建立基于神经网络的人脸识别模型,在softmax损失函数的基础上,经过特征归一化,权重归一化,使偏置项为0,同时引入了尺度参数、边界裕度参数和用于提取样本负类中信息的调节参数,构建用于优化尺度参数和边界裕度参数的margin‑based损失函数;构建用于优化调节参数的mining‑based损失函数。本发明在减少超参数引入,即使用尺度参数替代调节参数的情况下,实现自适应的调整训练过程中简单样本与困难样本的相对重要性,并且能自动加强训练监督强度的基于余弦的softmax损失方法,从而提高人脸识别准确率。
Description
技术领域
本发明涉及一种人脸识别方法,特别涉及一种替换调节参数的尺度参数自适应的人脸识别方法。
背景技术
目前,人脸识别是图像分析与理解的重要应用之一,是计算机视觉领域研究最广泛和深入的技术之一。市场化后的人脸识别技术能够很好的与人本位的人因工程理念结合起来。人因工程主张以人为本,把人的需求和能力摆在首要地位,不仅实现了通过管理培训使人适应机器,也实现了机器的各种构造和使用操作贴合人。人脸识别技术在诸如市场人员识别管理,天眼追踪疑犯等方面不仅达到了较高的精度,而且在满足人的需求方面,如日常娱乐,人脸遮挡识别等更高要求上也达到了很好的效果,并且不断简化使用操作,优化使用界面,更加贴合人的习惯和审美。
近年来,随着深度卷积神经网络的不断发展,人脸识别的性能也实现了不断突破。
卷积神经网络在人脸识别中的成功主要取决于三个因素:大量的训练数据、优异的网络结构和有效的损失函数。CASIA WebFace、MS1M、MegaFace、MS-Celeb-1M和VGGFace2等包含有大量身份信息的人脸数据集,能够很好地训练现在的深度卷积神经网络。DeepFace、VGGFace、FaceNet和ArcFace等研究中涉及到的网络结构的设计和改进,在经过大量消融实验后证实了设计行之有效的网络架构也能提高人脸识别性能。作为三大因素的最后一点,设计有效的损失函数,提高惩罚能力从而增强特征的类内紧凑性和类间差异性,对于提高人脸识别准确率也是至关重要的。
通常来说,人脸识别分为两类任务:1)1:1人脸验证:确定两张人脸图像是否同时属于一个身份;2)1:N人脸识别:将给定的人脸图像与已知的身份库进行匹配,并赋予相匹配的身份。人脸识别有两种测试协议:开放集协议和封闭集协议。在开放集协议下,测试集中的测试类别通常与训练集中所使用的类别不同。而在封闭集中,测试图像与训练图像类别相同。但与一般的图像分类任务不同,人脸识别本质上是开放集识别问题。在真实环境下,收集所有类别进行训练显然是不可能的,开放集协议更贴近现实,也更具挑战性。为了应对这一挑战,现有的研究基本上都是将深度卷积神经网络当作特征提取器,利用主干CNN提取人脸图像中的特征,然后采用度量(欧几里得距离或者余弦相似度)的方式来比较人脸对之间的相似性以进行人脸识别。
目前最新的人脸识别方法主要采用基于softmax损失的分类方法。但是在开放集协议下的人脸识别中,测试类别通常与训练集中的不同,使用原始softmax学习到的特征缺乏足够的鉴别能力,难以很好的解决实际场景下的人脸识别问题。为了缓解训练与测试之间的差距,margin-bsaed的思想被引入基于深度学习的人脸识别框架中,使用了尺度参数和边界裕度参数后的softmax变体显著的增强特征的鉴别能力。例如Sphereface、CosFace、ArcFace补充了原有的softmax函数,以增强类内紧密性和类间差异性,从而产生更具有区分性的特征。然而,基于余弦的softmax损失的训练性能在很大程度上依赖于超参数的人为设置,超参数的设置是在部分先验知识以及大量实验下凭经验和感觉确定下来的,超参数的细微的变化也可能引起整个训练过程的退化或者失败。
最近的一些研究涉及到了超参数的自适应学习,AdaCos对比了尺度参数与边界裕度参数的作用,并自适应学习尺度参数提高人脸识别准确率;AdapativeFace给batch中的每个样本自适应学习一个边界裕度参数以平衡样本间的不平衡问题,然而,这些自适应学习的损失函数并没有根据样本的重要性明确强调每个样本。CurricularFace采用了mining-based的思想,在训练过程中自适应的调整容易样本与困难样本之间的相对重要性,但引入了新的超参数调节参数。
因此,现有的方法中仍然存在以下的缺点:
首先,单纯的margin-based损失方法只关注样本正类,完全放弃挖掘样本负类中可能存在的信息,通过引入尺度参数和边界裕度参数来提高特征鉴别能力,从而提高人脸识别准确性。
其次,单纯的mining-based损失方法通常应用于目标检测领域中,相较而言很少使用在人脸识别领域。
最后,将margin-based和mining-based思想结合起来的方法,诸如CurricularFace,虽然同时利用了样本正类和负类中的信息,但是引入了新的超参数调节参数,容易导致因为超参数的细微波动而造成的训练过程的退化或者失败问题。
发明内容
本发明为解决公知技术中存在的技术问题而提供一种替换调节参数的尺度参数自适应的人脸识别方法。
本发明为解决公知技术中存在的技术问题所采取的技术方案是:一种替换调节参数的尺度参数自适应的人脸识别方法,建立基于神经网络的人脸识别模型,在softmax损失函数的基础上,经过特征归一化,权重归一化,使偏置项为0,同时引入了尺度参数、边界裕度参数和用于提取样本负类中信息的调节参数,构建用于优化尺度参数和边界裕度参数的margin-based损失函数;构建用于优化调节参数的mining-based损失函数。
进一步地,设s为尺度参数;设m为边界裕度参数;设t为调节参数;将margin-based损失函数与mining-based损失函数结合构建综合损失函数,设L为综合损失函数,则L的计算方法如下:
式中:
r为迭代的次数;
K为总类别数量;
N为每次迭代输入到模型中的小批次样本数量;
γ(r)为当前迭代回合中样本中所有正值的平均值;
α为动量参数;
t(r)为第r次迭代过程中数量为N的小批量样本所自适应学习到的调节参数;
θj为数量为N的小批量样本中负类样本的特征和对应类权重的夹角角度;
N(t,cosθj)为调节样本负类余弦相似度的函数。
进一步地,基于ResNet神经网络并引入注意力机制建立人脸识别模型。
进一步地,人脸识别模型包括主干神经网络、残差神经网络、第一BatchNorm模块、第二BatchNorm模块及dropout模块;将图像数据输入至主干神经网络,主干神经网络输出的特征依次经过第一BatchNorm模块、dropout模块后接入全连接层,由全连接层输出初始特征;初始特征再经过第二BatchNorm模块后,输入至残差神经网络中,残差神经网络输出残差特征;将残差特征和初始特征相加,得到人脸识别模型的输出特征。
进一步地,dropout模块中,隐含层节点的输出比例为50%~60%。
进一步地,主干神经网络依次包括1个卷积层及第一至第四模块组;第一模块组包括a个64通道的模块;第二模块组包括b个128通道的模块;第三模块组包括c个256通道的模块;第四模块组包括d个512通道的模块;每一个模块组中的第一个模块为注意力模块。
进一步地,u为1~5,a为1~4,b为4~8,c为8~16,d为1~5。
进一步地,残差神经网络依次包括两个激活函数为relu的全连接层。
进一步地,残差神经网络依次包括第三BatchNorm模块、leaky_relu激活函数模块、卷积层及注意力模块。
进一步地,训练样本包括由Arcface清洗挑选过后的faces_emore数据集,其中用于训练的每张图片都根据MTCNN方法裁剪成112*112大小的脸部图片;验证数据集包括lfw、calfw、cplfw、agedb_30、cfp_ff、cfp_fp、vgg2_fp。
本发明具有的优点和积极效果是:本发明将margin-based的思想和mining-based的思想结合起来,不仅能利用样本中正类中的信息,而且能利用样本负类中可能存在的有用信息。在减少超参数引入,即使用尺度参数替代调节参数的情况下,实现自适应的调整训练过程中简单样本与困难样本的相对重要性,并且能自动加强训练监督强度的基于余弦的softmax损失方法,从而提高人脸识别准确率。
其包括如下几个方面的优点:
1)将margin-based思想和mining-based思想有机结合起来,并统一于基于深度学习的人脸识别框架下,充分的利用了样本中正类的信息和负类中可能存在的信息。
2)自适应学习超参数,削弱了人为设置超参数的不准确性,减少了训练中需要用到的训练技巧,降低了需要花费的时间成本。
3)减少了超参数的个数,在一定程度上防止了由于超参数波动而引起的训练过程中的退化或者失败。
4)在训练过程中能自适应的调整简单样本与困难样本的相对重要性,并能自动加强训练监督强度,提高了人脸识别的准确率并缩短了模型的收敛时间。
附图说明
图1为本发明的一种工作原理图。
图2为本发明的一种人脸识别模型结构示意图。
图中:2*64@56*56指的是重复2次56*56长和宽的64通道的模块,其他以此类推。
图3为残差网络采用L_ResNet_IR,图2中不重复的模块如64@56*56的工作流程示意图。
图4为残差网络采用L_ResNet_IR,图2中重复的模块如2*64@56*56的工作流程示意图。
图5为残差网络采用ModifiedResNet,图2中不重复的模块如64@56*56的工作流程示意图。
图6为残差网络采用ModifiedResNet,图2中重复的模块如2*64@56*56的工作流程示意图。
图7为注意力模块Pasa工作流程示意图。
图8为图像经过L_ResNet_IR主干深度卷积神经网络后的全连接结构示意图。
图9为图像经过ModifiedResNet主干深度卷积神经网络后的全连接结构示意图。
具体实施方式
为能进一步了解本发明的发明内容、特点及功效,兹列举以下实施例,并配合附图详细说明如下:
本发明中部分英文及英文缩写的中文释义如下:
softmax损失函数:一种用于多分类的损失函数,常与交叉熵搭配起来,是目前应用最广泛的分类损失函数。其作用在于放大分类后的概率,使大的分类概率变得更大,更具有可区分性。
margin-based损失函数:基于边界的损失函数。在权重归一化和特征归一化,使偏执项为0后,在softmax损失函数的基础上,通过引入尺度参数和边界裕度参数形成的变种,使得损失函数具有更高的惩罚能力,从而提高人脸识别准确率。
mining-based损失函数:基于挖掘的损失函数。
BatchNorm模块:BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布,是加快神经网络训练,加速收敛速度及提高稳定性的不可或缺的算法。
logits:指的是样本特征与对应类的权重之间的角度大小的余弦相似度,乘以尺度参数后,作为自然常数的指数后的值。
dropout模块:dropout能在前向传播的时候,让某个神经元的激活值以一定的概率停止工作,使模型泛化性更强。可以比较有效的缓解模型参数过多,而训练样本过少造成的过拟合现象,在一定程度上达到正则化的效果。
CASIA WebFace:人脸数据集。该数据集是从IMBb网站上搜集来的,含10K个人的500K张图片。同时做了相似度聚类来去掉一部分噪声。
MS1M:ArcFace作者清洗后的的MS-Celeb-1M人脸数据集。包含85K人的共5.8M图片。
MegaFace:人脸数据集。包含672K人的4.7M张图片,做过一些清洗,不过依然有噪声,不同人的图片可能混到了一起。
MS-Celeb-1M:人脸数据集。包含100K人的共100M图片,来自搜索引擎。这个数据集非常大,没有清洗过,噪声很大。
VGGFace2:大规模人脸识别数据,包含331万图片,9131个ID,平均图片个数为362.6。
MTCNN方法:将人脸检测和特征点检测结合起来,用于对齐和裁剪人脸的算法。
faces_emore数据集:ArcFace作者完成实验用到的完整数据集,包括训练集和数个不同特点的验证集。
ResNet:一种结合残差结构的深度卷积神经网络,解决了由于网络层数过多而造成的梯度弥散问题。
L_ResNet_IR:ArcFace作者进行修改后的ResNet变种,具有较好的表现能力。
ModifiedResNet:指本发明提出的一种改进的ResNet神经网络结构,其根据数据集的特点提出的ResNet变种结构,在一定程度上加快了模型收敛速度。
Pasa模块:本发明提出的一种运用注意力机制的注意力模块,可以提高人脸识别准确率和减少计算资源。
leaky_relu:一种激活函数。正值保持原样,ReLU是将所有的负值都设为零,相反,Leaky_ReLU是给所有负值赋予一个非零斜率。
请参见图1至图9,一种替换调节参数的尺度参数自适应的人脸识别方法,建立基于神经网络的人脸识别模型,在softmax损失函数的基础上,经过特征归一化,权重归一化,使偏置项为0,同时引入了尺度参数、边界裕度参数和用于提取样本负类中信息的调节参数,构建用于优化尺度参数和边界裕度参数的margin-based损失函数;构建用于优化调节参数的mining-based损失函数。
进一步地,可设s为尺度参数;可设m为边界裕度参数;可设t为调节参数;可将margin-based损失函数与mining-based损失函数结合构建综合损失函数,可设L为综合损失函数,则L的计算方法可如下:
式中:
r为迭代的次数;
K为总类别数量;
N为每次迭代输入到模型中的小批次样本数量;
γ(r)为当前迭代回合中样本中所有正值的平均值;
α为动量参数;
t(r)为第r次迭代过程中数量为N的小批量样本所自适应学习到的调节参数;
θj为数量为N的小批量样本中负类样本的特征和对应类权重的夹角角度;
N(t,cos θj)为调节样本负类余弦相似度的函数。
进一步地,可基于ResNet神经网络并引入注意力机制建立人脸识别模型。
进一步地,人脸识别模型可包括主干神经网络、残差神经网络、第一BatchNorm模块、第二BatchNorm模块及dropout模块;将图像数据输入至主干神经网络,主干神经网络输出的特征可依次经过第一BatchNorm模块、dropout模块后接入全连接层,由全连接层输出初始特征;初始特征可再经过第二BatchNorm模块后,输入至残差神经网络中,残差神经网络输出残差特征;可将残差特征和初始特征相加,得到人脸识别模型的输出特征。
进一步地,dropout模块中,隐含层节点的输出比例可为50%~60%。
进一步地,主干神经网络可依次包括1个卷积层及第一至第四模块组;第一模块组可包括a个64通道的模块;第二模块组可包括b个128通道的模块;第三模块组可包括c个256通道的模块;第四模块组可包括d个512通道的模块;每一个模块组中的第一个模块可为注意力模块。
进一步地,u可为1~5,a可为1~4,b可为4~8,c可为8~16,d可为1~5。
进一步地,残差神经网络可依次包括两个激活函数为relu的全连接层。
进一步地,残差神经网络可依次包括第三BatchNorm模块、leaky_relu激活函数模块、卷积层及注意力模块。
进一步地,训练样本可包括由Arcface清洗挑选过后的faces_emore数据集,其中用于训练的每张图片都根据MTCNN方法裁剪成112*112大小的脸部图片;验证数据集可包括lfw、calfw、cplfw、agedb_30、cfp_ff、cfp_fp、vgg2_fp。lfw、calfw、cplfw、agedb_30、cfp_ff、cfp_fp、vgg2_fp为现有技术中的数据集名称。
下面根据本发明的一个优选实施例来进一步说明本发明的工作流程及工作原理:
一种替换调节参数的尺度参数自适应的人脸识别方法,该方法建立基于神经网络的人脸识别模型,在softmax损失函数的基础上,经过特征归一化,权重归一化,使偏置项为0,同时引入了尺度参数、边界裕度参数和用于提取样本负类中信息的调节参数,构建用于优化尺度参数和边界裕度参数的margin-based损失函数;构建用于优化调节参数的mining-based损失函数。
本发明的一种建立基于神经网络的人脸识别模型优选方法包括如下几个步骤:
步骤一,训练数据和验证数据的选择。
基于深度学习的人脸识别已经取得了很高的识别率,但是在一些实际场景中进行人脸识别依旧是困难的,特别是当光照、遮挡、姿势、年龄、表情和分辨率等干扰因素存在时,会造成人脸识别准确率的大幅度降低。为了解决这些实际场景中可能出现的问题,许多数据分布不同的训练用的包含大量身份信息的大型人脸数据集应运而生,包括CASIAWebFace、MS1M、MegaFace、MS-Celeb-1M和VGGFace2等,CASIA WebFace、MS1M、MegaFace、MS-Celeb-1M和VGGFace2为现有技术中训练样本集。
这些训练集能够很好地针对许多不同场景,做到有针对性地训练模型。本发明通过训练过程中实际效果的对比,最终选定的是Arcface清洗挑选过后的faces_emore数据集,其中用于训练的数据包含85742个身份,总共5822653张图片,每张图片都根据MTCNN方法裁剪成112*112大小的脸部图片;验证数据集包含lfw,calfw,cplfw,agedb_30,cfp_ff,cfp_fp,vgg2_fp。
步骤二,神经网络的设计。
深度学习中的多层卷积和池化操作虽然能够很好的提取可供人脸识别的抽象特征,但是需要的庞大计算资源是不可避免地一大问题,同时根据卷积和池化的特性可能会在层与层之间丢失部分重要的图像特征。而模仿人类注意力特点的注意力机制能够根据算法特点快速地提取出图像中的显著性区域并忽略不重要的部分,即可以在使用较少的计算资源的情况下集中处理模型所需要的图像区域。因此,本发明基于传统的ResNet上进行了部分改变,引入了注意力机制。
本发明在两种神经网络上均进行了数次实验,一种是Arcface中提及到的L_ResNet_IR,另一种是本发明修改过后的ModifiedResNet,最终选定神经网络为ModifiedResNet。如图5所示,ModifiedResNet网络模型按照顺序包含有1个卷积层,卷积核的个数为64,卷积核大小为3*3,步长为1,激活函数为relu,用于将输入进来的3通道特征转换成64通道;其后的是4个模块组,结构如图6所示,分为3个64通道的模块组,4个128通道的模块组,14个256通道的模块组,和3个512通道的模块组。如图5所示,每一个模块组中的第一个模块会改变特征的通道数,在ModifiedResNet中表现为注意力模块Pasa的步长为2;其后的几个模块不会改变通道数大小。残差模块里面的具体结构为:输入经过小批次样本标准化后,使用leaky_relu进行激活,残差途径中首先经过1个卷积层,卷积核的个数为当前模块的通道数,卷积核大小为3*3,步长为1,激活函数为relu;然后经过注意力模块Pasa。
注意力模块Pasa的主要作用是能够自适应地根据设置好的卷积核大小在去掉背景的同时保留边缘而不模糊整体。假设卷积核大小为3*3,则对输入到Pasa模块的特征经行3*3大小的滑动卷积,在高频脉冲部分会模糊背景,而遇到低频边缘部分则会自适应调整权重大小保留边缘特征,对于整体特征而言,去除了无用的信息而保留了相对较多的有用信息。
本发明用到的注意力模块Pasa的具体结构如图7所示,不改变通道数,卷积核大小为1*1,步长为2。Pasa模块中分为2条途径,一条途径中,输入经过1个卷积层,卷积核核数为2,卷积核大小为1*1,步长为1。然后经过1次小批次样本标准化,再进行Softmax生成与卷积核相对应的权重概率;另一条途径中,输入首先经过取模块生成与在另一条途径上经过Softmax后的概率对应的模块,然后两者相乘获得经过自注意后的与原本输入大小相同的输出。再经过1个卷积层,卷积核大小为3*3,步长为1。短径途径上的过程与残差上相同。该模块模块组后几个不改变通道数大小的模块组运行经过与第1个模块除去Pasa后完全相同。而其它的模块模块组与第1个模块模块组运行经过完全相同。
如图8至图9所示,是输入经过主干CNN后的全连接具体结构。输入经过主干CNN后,经过1次小批次样本标准化,然后经过40%大小的随机丢掉后接入1层512维无激活函数的全连接层,转换为512维的原始特征,再经过1次小批次样本标准化后,接入一个残差模块,里面依次是两个512的激活函数为relu的全连接层,获得残差特征用于提取可以帮助识别身份的信息。
人脸图片中一般包含可用于人脸识别的身份信息,以及其它属于人脸属性的部分信息,诸如姿态、年龄和表情等这些不参与人脸识别的信息,通过如图9所示的残差模块可以根据数据总体分布特征和算法特点有效地提取出这些属性特征中的部分信息。根据实际场景的不同,可以分离出年龄特征保留用于人脸识别的身份特征;也可以将大姿态的人脸如侧脸在网络中转换成正脸,增强用于识别身份的身份特征。本发明中的残差模块作用在于提取部分属性特征增强可用于识别身份的身份特征,并且经过多次消融实验证明,该残差结构确实略有成效。
最后原始特征与残差特征相加生成组合特征用于传入身份识别器,即损失函数中进行人脸识别。
步骤三,损失函数的设计。
在原始的softmax损失函数的基础上,经过特征归一化,权重归一化,使偏执项为0,同时引入了尺度参数s和边界裕度参数m等超参数后,逐渐演变成目前主流的基于边界损失函数。而基于挖掘损失函数则是提取样本负类中可能存在的信息,从而引入了新的超参数调节参数t。
本发明则是将基于边界思想和基于挖掘思想统一于基于深度学习的人脸识别框架中。本发明通过多次实验发现,随着迭代次数的增加,尺度参数s会由一个较大的初始值,不断地下降到一个固定值,然后在这个固定值上下小幅度波动。而调节参数t是随迭代次数增大而不断递增,最后趋于稳定值。同时样本正类的概率平均值也是随迭代次数不断上升的。通过多次实验还发现,尺度参数对于决定人脸识别准确率的样本logits有着拉伸和平移的作用,在二维平面上能很好地替代调节参数t的作用。为此,将margin-based损失函数与mining-based损失函数结合构建综合损失函数,设L为综合损失函数,则L的计算方法如下:
式中:
r为迭代的次数;
K为总类别数量;
N为每次迭代输入到模型中的小批次样本数量;
γ(r)为当前迭代回合中样本中所有正值的平均值;
α为动量参数;值可为0.99。
t(r)为第r次迭代过程中数量为N的小批量样本所自适应学习到的调节参数;
θj为数量为N的小批量样本中负类样本的特征和对应类权重的夹角角度;
N(t,cos θj)为调节样本负类余弦相似度的函数。
将经过神经网络得到的512维组合特征经过特征归一化和权重归一化后传入到本发明提出的损失函数中,即可得到85742维的特征概率。经过多次实验证明,本发明提出的方法不仅在加快模型收敛速度上有所提高,而且在一定程度上提高人脸识别准确率。
本发明整体的运行环境是tensorflow1.5版本,ubuntu16.4版本,显卡为1模块Tesla V100。Arcface作者提供的训练集是matlab格式,大小为15.4G。首先将其转换成tensorflow可用的tfrecord格式,不加压缩完全转换后为200G左右。使用L_ResNet_IR结构时小批量样本数量为80,使用ModifiedResNet时小批量样本数量为32,整个训练过程包含20个周期,每个周期中要迭代100000步,每隔2000步进行一次验证,学习率分段设置为40000,60000和80000,小批量样本数量为80时,学习率为0.0032,0.0016,0.00096,0.00032;小批量样本数量为32时,学习率为0.001,0.0005,0.0003和0.0001。每个周期训练所需要的时间大约在1天。
本发明经过多次实验验证后,证实使用ModifiedResNet网络结构的准确率最高。112*112*3大小的裁剪后的图片输入到神经网络中,如图2所示,经过1个卷积层,特征扩展成112*112*64大小,接下来总共要经过4个模块组模块组。特征进入第一个模块模块组,在第一个模块中变成56*56*64大小,在本模块模块组后的模块组中,大小不变,但依旧经过多个卷积层提取更抽象的信息;抽象特征进入其后的几个模块组模块组中发生的变化与在第一个模块组中相似,抽象特征大小依次变为28*28*128,14*14*256,7*7*512。注意力机制Pasa模块的作用是将特征空间中的大型立方体特征按照卷积核*通道数大小的长方体在特征的长和宽滑动取模块,然后乘上原特征按照卷积核大小区域进行的sofimax自注意概率即为新的输出特征。
如图6所示,经过主干CNN后得到的更高级的7*7*512大小的抽象特征,经过1个全连接层转换成1*512大小的特征。然后采用残差的思想,去提取特征中能用于增强识别的信息。1*512大小的特征经过2个全连接层得到新的残差特征,与原特征相加形成最终的特征,然后输入到损失函数中即可得到最后的人脸识别准确率。
下表1列出了本发明进行的数次实验在数个验证集上的的人脸识别准确率(%)。
表1:在多个验证集上进行的实验得到的人脸识别准确率(%)
以上所述的实施例仅用于说明本发明的技术思想及特点,其目的在于使本领域内的技术人员能够理解本发明的内容并据以实施,不能仅以本实施例来限定本发明的专利范围,即凡本发明所揭示的精神所作的同等变化或修饰,仍落在本发明的专利范围内。
Claims (9)
1.一种替换调节参数的尺度参数自适应的人脸识别方法,其特征在于,建立基于神经网络的人脸识别模型,在softmax损失函数的基础上,经过特征归一化,权重归一化,使偏置项为0,同时引入了尺度参数、边界裕度参数和用于提取样本负类中信息的调节参数,构建用于优化尺度参数和边界裕度参数的margin-based损失函数;构建用于优化调节参数的mining-based损失函数;
设s为尺度参数;设m为边界裕度参数;设t为调节参数;将margin-based损失函数与mining-based损失函数结合构建综合损失函数,设L为综合损失函数,则L的计算方法如下:
式中:
r为迭代的次数;
K为总类别数量;
N为每次迭代输入到模型中的小批次样本数量;
γ(r)为当前迭代回合中样本中所有正值的平均值;
α为动量参数;
t(r)为第r次迭代过程中数量为N的小批量样本所自适应学习到的调节参数;
θj为数量为N的小批量样本中负类样本的特征和对应类权重的夹角角度;
N(t(r),cosθj)为调节样本负类余弦相似度的函数。
2.根据权利要求1所述的替换调节参数的尺度参数自适应的人脸识别方法,其特征在于,基于ResNet神经网络并引入注意力机制建立人脸识别模型。
3.根据权利要求1所述的替换调节参数的尺度参数自适应的人脸识别方法,其特征在于,人脸识别模型包括主干神经网络、残差神经网络、第一BatchNorm模块、第二BatchNorm模块及dropout模块;将图像数据输入至主干神经网络,主干神经网络输出的特征依次经过第一BatchNorm模块、dropout模块后接入全连接层,由全连接层输出初始特征;初始特征再经过第二BatchNorm模块后,输入至残差神经网络中,残差神经网络输出残差特征;将残差特征和初始特征相加,得到人脸识别模型的输出特征。
4.根据权利要求3所述的替换调节参数的尺度参数自适应的人脸识别方法,其特征在于,dropout模块中,隐含层节点的输出比例为50%~60%。
5.根据权利要求3所述的替换调节参数的尺度参数自适应的人脸识别方法,其特征在于,主干神经网络依次包括1个卷积层及第一至第四模块组;第一模块组包括a个64通道的模块;第二模块组包括b个128通道的模块;第三模块组包括c个256通道的模块;第四模块组包括d个512通道的模块;每一个模块组中的第一个模块为注意力模块。
6.根据权利要求5所述的替换调节参数的尺度参数自适应的人脸识别方法,其特征在于,u为1~5,a为1~4,b为4~8,c为8~16,d为1~5。
7.根据权利要求3所述的替换调节参数的尺度参数自适应的人脸识别方法,其特征在于,残差神经网络依次包括两个激活函数为relu的全连接层。
8.根据权利要求3所述的替换调节参数的尺度参数自适应的人脸识别方法,其特征在于,残差神经网络依次包括第三BatchNorm模块、leaky_relu激活函数模块、卷积层及注意力模块。
9.根据权利要求1所述的替换调节参数的尺度参数自适应的人脸识别方法,其特征在于,训练样本包括由Arcface清洗挑选过后的faces_emore数据集,其中用于训练的每张图片都根据MTCNN方法裁剪成112*112大小的脸部图片;验证数据集包括lfw,calfw,cplfw,agedb_30,cfp_ff,cfp_fp,vgg2_fp。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110571247.9A CN113361346B (zh) | 2021-05-25 | 2021-05-25 | 一种替换调节参数的尺度参数自适应的人脸识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110571247.9A CN113361346B (zh) | 2021-05-25 | 2021-05-25 | 一种替换调节参数的尺度参数自适应的人脸识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113361346A CN113361346A (zh) | 2021-09-07 |
CN113361346B true CN113361346B (zh) | 2022-12-23 |
Family
ID=77527496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110571247.9A Expired - Fee Related CN113361346B (zh) | 2021-05-25 | 2021-05-25 | 一种替换调节参数的尺度参数自适应的人脸识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113361346B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505120B (zh) * | 2021-09-10 | 2021-12-21 | 西南交通大学 | 一种大规模人脸数据集的双阶段噪声清洗方法 |
CN114120381A (zh) * | 2021-11-29 | 2022-03-01 | 广州新科佳都科技有限公司 | 掌静脉特征提取方法、装置、电子设备和介质 |
CN115589377A (zh) * | 2022-08-31 | 2023-01-10 | 中国人民解放军陆军工程大学 | 一种基于残差U-Net网络的不平衡协议识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443162A (zh) * | 2019-07-19 | 2019-11-12 | 南京邮电大学 | 一种用于伪装人脸识别的两段式训练方法 |
CN111209799A (zh) * | 2019-12-23 | 2020-05-29 | 上海物联网有限公司 | 基于部分共享网络和余弦间隔损失函数的行人搜索方法 |
CN111985310A (zh) * | 2020-07-08 | 2020-11-24 | 华南理工大学 | 一种用于人脸识别的深度卷积神经网络的训练方法 |
CN112597979A (zh) * | 2021-03-03 | 2021-04-02 | 之江实验室 | 一种实时更新余弦夹角损失函数参数的人脸识别方法 |
CN112766399A (zh) * | 2021-01-28 | 2021-05-07 | 电子科技大学 | 一种面向图像识别的自适应神经网络训练方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109214360B (zh) * | 2018-10-15 | 2021-03-26 | 北京亮亮视野科技有限公司 | 一种基于ParaSoftMax损失函数的人脸识别模型的构建方法及应用 |
US20200327450A1 (en) * | 2019-04-15 | 2020-10-15 | Apple Inc. | Addressing a loss-metric mismatch with adaptive loss alignment |
CN111967392A (zh) * | 2020-08-18 | 2020-11-20 | 广东电科院能源技术有限责任公司 | 一种人脸识别神经网络训练方法、系统、设备及储存介质 |
-
2021
- 2021-05-25 CN CN202110571247.9A patent/CN113361346B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443162A (zh) * | 2019-07-19 | 2019-11-12 | 南京邮电大学 | 一种用于伪装人脸识别的两段式训练方法 |
CN111209799A (zh) * | 2019-12-23 | 2020-05-29 | 上海物联网有限公司 | 基于部分共享网络和余弦间隔损失函数的行人搜索方法 |
CN111985310A (zh) * | 2020-07-08 | 2020-11-24 | 华南理工大学 | 一种用于人脸识别的深度卷积神经网络的训练方法 |
CN112766399A (zh) * | 2021-01-28 | 2021-05-07 | 电子科技大学 | 一种面向图像识别的自适应神经网络训练方法 |
CN112597979A (zh) * | 2021-03-03 | 2021-04-02 | 之江实验室 | 一种实时更新余弦夹角损失函数参数的人脸识别方法 |
Non-Patent Citations (4)
Title |
---|
Qiqi Xiao等.《Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification》.《arXiv:1710.00478v3》.2017, * |
Xiaobo Wang 等.《Support Vector Guided Softmax Loss for Face Recognition》.《arXiv:1812.11317v1》.2018, * |
XiaoboWang 等.《Mis-classified Vector Guided Softmax Loss for Face Recognition》.《arXiv:1912.00833v1》.2019, * |
Yuge Huang 等.《CurricularFace: Adaptive Curriculum Learning Loss for Deep Face Recognition》.《arXiv:2004.00288v1》.2020, * |
Also Published As
Publication number | Publication date |
---|---|
CN113361346A (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113361346B (zh) | 一种替换调节参数的尺度参数自适应的人脸识别方法 | |
CN112308158B (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
Liu et al. | Multi-objective convolutional learning for face labeling | |
CN106096535B (zh) | 一种基于双线性联合cnn的人脸验证方法 | |
Shao et al. | Feature learning for image classification via multiobjective genetic programming | |
CN110348399B (zh) | 基于原型学习机制和多维残差网络的高光谱智能分类方法 | |
CN111274921B (zh) | 一种利用姿态掩模进行人体行为识别的方法 | |
CN111523462A (zh) | 基于自注意增强cnn的视频序列表情识别系统及方法 | |
CN108921037B (zh) | 一种基于BN-inception双流网络的情绪识别方法 | |
CN107169117B (zh) | 一种基于自动编码器和dtw的手绘图人体运动检索方法 | |
CN112784929B (zh) | 一种基于双元组扩充的小样本图像分类方法及装置 | |
CN104809469A (zh) | 一种面向服务机器人的室内场景图像分类方法 | |
CN109376787B (zh) | 流形学习网络及基于其的计算机视觉图像集分类方法 | |
CN109993208A (zh) | 一种有噪声图像的聚类处理方法 | |
CN117333908A (zh) | 基于姿态特征对齐的跨模态行人重识别方法 | |
CN112800882B (zh) | 一种基于加权双流残差网络的口罩人脸姿态分类方法 | |
Song et al. | A Novel Face Recognition Algorithm for Imbalanced Small Samples. | |
CN109583406B (zh) | 基于特征关注机制的人脸表情识别方法 | |
Xiang et al. | Optical flow estimation using spatial-channel combinational attention-based pyramid networks | |
Sang et al. | Image recognition based on multiscale pooling deep convolution neural networks | |
Li et al. | Group-level emotion recognition based on faces, scenes, skeletons features | |
CN116403252A (zh) | 基于双向动态分组的多目标特征选择的人脸识别分类方法 | |
CN115527275A (zh) | 基于P2CS_3DNet的行为识别方法 | |
CN115329821A (zh) | 一种基于配对编码网络和对比学习的舰船噪声识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20221223 |