CN108985236B - 一种基于深度化可分离卷积模型的人脸识别方法 - Google Patents
一种基于深度化可分离卷积模型的人脸识别方法 Download PDFInfo
- Publication number
- CN108985236B CN108985236B CN201810805062.8A CN201810805062A CN108985236B CN 108985236 B CN108985236 B CN 108985236B CN 201810805062 A CN201810805062 A CN 201810805062A CN 108985236 B CN108985236 B CN 108985236B
- Authority
- CN
- China
- Prior art keywords
- separable convolution
- convolution model
- deepened
- face
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于深度化可分离卷积模型的人脸识别方法,包括以下步骤:第一步、读取人脸图像样本数据集;第二步、建立深度化可分离卷积模型,所述深度化可分离卷积模型在相邻的两个卷积模块之间级联了多个残差瓶颈模块;第三步、利用梯度下降算法更新深度化可分离卷积模型参数;第四步、通过更新参数后的深度化可分离卷积模型进行人脸识别。本发明可以在保证人脸识别准确率的基础上提高识别速度,实验表明,本发明可以在保证识别准确率在高于99%的前提下,使得其在ARMv8移动终端上的识别速度达到了小于300ms从而可以会使移动端设备拥有准确且快速的人脸识别功能。
Description
技术领域
本发明涉及一种基于深度化可分离卷积模型的人脸识别方法,属于人脸识别技术领域。
背景技术
近年来,人脸识别在日常生活中的需求已越来越大。一些领域例如人脸门禁、人脸考勤、人脸购票、人脸追凶都有着很大的发展空间,这些领域对于人脸识别的速度和准确性都有着很高的要求。基于深度学习的卷积神经网络是人脸识别技术的基石,该网络通过梯度下降反馈来不断来减小模型输出值与真实值的差从而逼近真实结果。
目前人脸识别技术主要着重于追求准确度上的提升,然而要想让人脸识别技术在生活中的运用更加普遍化,更加用户友好,识别的速度也是该技术不可或缺的一部分。现有的深度神经卷积网络模型例比如ResNet-50,其预测准确度虽已达到97%以上,但是该模型离投入到实际产品中使用仍有着很大提升空间。一些改进后的网络模型例如Facenet等,其计算精确性通过利用残差单元使其模型的准确性得到了提升,但其仍面临着占用内存过大、计算速度过低等问题。
发明内容
本发明要解决技术问题是:提供一种可以在保证识别准确率的基础上提高识别速度、减小资源占用的人脸识别方法。
为了解决上述技术问题,本发明提出的技术方案是:一种基于深度化可分离卷积模型的人脸识别方法,包括以下步骤:
第一步、读取人脸图像样本数据集,每幅人脸图像为3通道,其高度为112个像素,宽度为112个像素;
第二步、建立深度化可分离卷积模型,所述深度化可分离卷积模型在两个卷积模块之间级联了多个残差瓶颈模块,如下表所示:
表中,第一列为各模块的输入图像大小,第二列为模块名称,第三列为通道数,第四列为该模块的重复次数,第四列为步幅间距,卷积核采用3*3;
第三步、利用梯度下降算法更新深度化可分离卷积模型参数
1)通过所述深度化可分离卷积模型将所述样本数据集的人脸图像映射成512维特征向量;
2)计算损失函数,所述损失函数由Softmax函数和ArcFace函数加权构成,其中,Softmax函数的表达式如下:
式中,x表示样本经深度化可分离卷积模型映射而成的特征向量,N表示所述样本数据集的大小,i取值1~N,yi表示样本xi对应的标签;W向量表示待优化参数,包括和Wj,表示样本xi在其标签yi处的权重,Wj表示输出节点j处的权重;b向量包括和bj,表示样本xi在其标签yi处的偏差,bj表示输出节点j处的偏差;
ArcFace函数的表达式如下:
最终的损失函数为:
Ltotal=Lsoftmax+Larcface;
4)确定损失函数的梯度下降距离是否小于预设阈值ε,如果是则执行第四步,否则更新W向量后再执行步骤1),更新W向量的表达式如下:
第四步、通过更新参数后的深度化可分离卷积模型进行人脸识别。
本发明的思想得益于2018年由Mark Sandler,Andrew Howard,Menglong Zhu,Andrey Zhmoginov,Liang-Chieh Chen发表的论文《MobileNetV2:Inverted Residualsand Linear Bottlenecks》(以下为叙述方便,简称为“引用论文”)。本发明在引用论文的基础上,对模型结构、损失函数等都做了优化,不仅保证了人脸识别的准确率,而且提升了人脸识别的速度。
本发明中的深度化可分离卷积(Depthwise Separable Convolution)网络模型可参考引用论文。其中深度化卷积是指在网络模型中相邻的两个卷积模块中,用尽可能多的卷积核连接输入通道,当卷积数量达到一定程度时,每一个通道都有一个自己的卷积核,这样就相当于每一个通道都被赋予了不同的权重。而以人脸作为输入层数据的图像一般不同位置像素点所携带的人脸数据信息是不一样的(靠近图片中央的位置会携带较多的人脸信息,靠近图片边角的位置则携带较少的人脸信息),所以这种给每个通道赋予不用卷积核的网络相当于给每个通道赋予了不同权重,因而将更加适用于以人脸作为输入层的图像。
本发明的改进之处在于对两个卷积模块之间级联了若干残差瓶颈模块。这是因为申请人发现现在普遍用到的卷积神经网络里都会用到ReLU模块或是PReLU模块(可参见引用论文),这些非线性函数总是会造成原始数据的丢失,而残差瓶颈模块的目的正是为了减少原始数据的丢失,其原理是通过增加卷积模块与卷积模块之间的连接层数来增加输入图像层与输出域之间的维度差,从而减少了ReLU或是PReLU造成的信息丢失。
本发明通过简化网络层次,优化网络结构,在保证识别准确率在高于99%的前提下,使得其在ARMv8移动终端上的识别速度达到了小于300ms,超出目前的主流解决方案。该结果将会使移动端设备拥有准确且快速的人脸识别功能。
现有技术中,在大多数可用的卷积神经网络模型中,Softmax损失函数被用作训练深层模型的监督信号。本发明对于损失函数的选择方面,在保留Softmax函数的基础之上,还增加了ArcFace损失函数,Softmax函数主要解决类间距离(不同人之间鉴别能力)的优化,而ArcFace函数的采用可以扩大每个分类面之间的间距,从而使得靠近边界的数据在分类过程中准确率更高,这样就在保证人脸识别准确性的基础上,大幅提高了人脸识别速度。
为了进一步提高识别准确率和识别的速度,本发明还对训练数据进行了优化,具体如下:对人脸数据集中已有的人脸数据样本通过FaceNet方法进行映射,得到在X维特征空间的一系列特征向量集合Λ={λ1,λ2,λ3,···},其中每一组特征向量λi均为X维,我们通过比较两组特征向量的夹角来判断其相似性。假设Λ中的两组X维特征向量分别为λi={vi1,vi2,...,vix},λj={vj1,vj2,...,vjx},则其夹角
在计算特征向量的两两夹角之前,预先设定某一角度的余弦阈值为0.6~0.9。当两组特征向量的夹角θ的余弦值小于预设阈值时,则两组特征向量对应的人脸数据样本具有相似性,并对具有相似性的人脸数据样本进行去重处理。
具体实施方式
实施例
本实施例的基于深度化可分离卷积模型的人脸识别方法,包括以下步骤:
第一步、读取人脸图像样本数据集,每幅人脸图像为3通道,其高度为112个像素,宽度为112个像素;
现有的海量数据库,例如VGGFace2,其中的部分数据存在极高的相似性,并且有一些非人脸的污染数据存在其中。因此对数据库中的数据进行合并和清理是非常必要的一步,具体方法为:
对人脸数据集中已有的人脸数据样本通过FaceNet方法进行映射,得到在X维特征空间的一系列特征向量集合Λ={λ1,λ2,λ3,···},其中每一组特征向量λi均为X维,我们通过比较两组特征向量的夹角来判断其相似性。假设Λ中的两组X维特征向量分别为λi={vi1,vi2,...,vix},λj={vj1,vj2,...,vjx},则其夹角
在计算特征向量的两两夹角之前,预先设定某一角度的余弦阈值为0.6~0.9。当两组特征向量的夹角θ的余弦值小于预设阈值时,则两组特征向量对应的人脸数据样本具有相似性,并对具有相似性的人脸数据样本进行去重处理。
本实施例中X取512,即将人脸数据样本通过FaceNet方法进行映射为512维特征向量来判断其相似性。这样不仅保留了数据的多样性,而且提高了模型的训练速度。
第二步、建立深度化可分离卷积模型,所述深度化可分离卷积模型在相邻的两个卷积模块之间级联了多个残差瓶颈模块,如下表所示:
表中,第一列为各模块的输入图像大小,第二列为模块名称,第三列为通道数,第四列为该模块的重复次数,第四列为步幅间距,卷积核采用3*3。
本实施例在两个卷积模块之间加入了一些残差瓶颈模块(bottleneck),从而得到本发明的深度化可分离卷积模型以及模型中各模块的连接方式。为了简化说明,该表中的PReLU函数层和批量归一化BN层以及下采样单元层,均已略去,可参考引用论文。
训练时我们把长度为112像素,宽度为112像素,3通道的图像作为输入,经过本模型进行训练,输出128维的特征向量,从而完成从输入图像到输出特征值的映射。
第三步、利用梯度下降算法更新深度化可分离卷积模型参数
1)通过所述深度化可分离卷积模型将所述样本数据集的人脸图像映射成512维特征向量;
2)计算损失函数,所述损失函数由Softmax函数和ArcFace函数加权构成,其中,Softmax函数的表达式如下:
式中,x表示样本经深度化可分离卷积模型映射而成的特征向量,N表示所述样本数据集的大小,i取值1~N,yi表示样本xi对应的标签;W向量表示待优化参数,包括和Wj,表示样本xi在其标签yi处的权重,Wj表示输出节点j处的权重;b向量包括和bj,表示样本xi在其标签yi处的偏差,bj表示输出节点j处的偏差。
本实施例中Softmax函数、W向量、b向量、输出节点j均与2016年由Yandong Wen,Kaipeng Zhang,Zhifeng Li和Yu Qiao发表的论文《A Discriminative Feature LearningApproach for Deep Face Recognition》中相同,其表达式、计算方法与该论文中的Softmax函数均一致。
ArcFace函数的表达式如下:
最终的损失函数为:
Ltotal=Lsoftmax+Larcface;
4)确定损失函数的梯度下降距离是否小于预设阈值,其中预设阈值ε通常可取0.01,可根据经验调整;如果梯度下降距离是否小于预设阈值则执行第四步,否则更新W向量后再执行步骤1),更新W向量的表达式如下:
第四步、通过更新参数后的深度化可分离卷积模型进行人脸识别,即通过更新后的深度化可分离卷积模型输出人脸特征值,计算不同人脸图像特征值的相似度进行人脸识别,具体识别方法可参考引用论文。
本发明不局限于上述实施例所述的具体技术方案,除上述实施例外,本发明还可以有其他实施方式。对于本领域的技术人员来说,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等形成的技术方案,均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于深度化可分离卷积模型的人脸识别方法,包括以下步骤:
第一步、读取人脸图像样本数据集,每幅人脸图像为3通道,其高度为112个像素,宽度为112个像素;
第二步、建立深度化可分离卷积模型,所述深度化可分离卷积模型在相邻的两个卷积模块之间级联了多个残差瓶颈模块,如下表所示:
表中,第一列为各模块的输入图像大小,第二列为模块名称,第三列为通道数,第四列为该模块的重复次数,第四列为步幅间距,卷积核采用3*3;
第三步、利用梯度下降算法更新深度化可分离卷积模型参数
1)通过所述深度化可分离卷积模型将所述样本数据集的人脸图像映射成512维特征向量;
2)计算损失函数,所述损失函数由Softmax函数和ArcFace函数加权构成,其中,Softmax函数的表达式如下:
式中,x表示样本经深度化可分离卷积模型映射而成的特征向量,N表示所述样本数据集的大小,i取值1~N,yi表示样本xi对应的标签;W向量表示待优化参数,包括和Wj,表示样本xi在其标签yi处的权重,Wj表示输出节点j处的权重;b向量包括和bj,表示样本xi在其标签yi处的偏差,bj表示输出节点j处的偏差;
ArcFace函数的表达式如下:
最终的损失函数为:
Ltotal=Lsoftmax+Larcface;
4)确定损失函数的梯度下降距离是否小于预设阈值ε,如果是则执行第四步,否则更新W向量后再执行步骤1),更新W向量的表达式如下:
第四步、通过更新参数后的深度化可分离卷积模型进行人脸识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810805062.8A CN108985236B (zh) | 2018-07-20 | 2018-07-20 | 一种基于深度化可分离卷积模型的人脸识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810805062.8A CN108985236B (zh) | 2018-07-20 | 2018-07-20 | 一种基于深度化可分离卷积模型的人脸识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108985236A CN108985236A (zh) | 2018-12-11 |
CN108985236B true CN108985236B (zh) | 2021-08-17 |
Family
ID=64548920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810805062.8A Active CN108985236B (zh) | 2018-07-20 | 2018-07-20 | 一种基于深度化可分离卷积模型的人脸识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108985236B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858362A (zh) * | 2018-12-28 | 2019-06-07 | 浙江工业大学 | 一种基于倒置残差结构和角度联合损失函数的移动端人脸检测方法 |
CN110046551B (zh) * | 2019-03-18 | 2021-04-20 | 中国科学院深圳先进技术研究院 | 一种人脸识别模型的生成方法及设备 |
CN110033038B (zh) * | 2019-04-09 | 2022-08-05 | 电子科技大学 | 气动热试验数据的智能选取算法 |
CN110782009B (zh) * | 2019-10-17 | 2023-09-08 | 湖南大学 | 基于ARMv8体系的计算内核优化方法 |
CN111680536B (zh) * | 2019-10-30 | 2023-06-30 | 高新兴科技集团股份有限公司 | 基于案管场景下的轻量化人脸识别方法 |
CN111680595A (zh) * | 2020-05-29 | 2020-09-18 | 新疆爱华盈通信息技术有限公司 | 一种人脸识别方法、装置及电子设备 |
CN111898413A (zh) * | 2020-06-16 | 2020-11-06 | 深圳市雄帝科技股份有限公司 | 人脸识别方法、装置、电子设备和介质 |
CN111898412A (zh) * | 2020-06-16 | 2020-11-06 | 深圳市雄帝科技股份有限公司 | 人脸识别方法、装置、电子设备和介质 |
CN111914686B (zh) * | 2020-07-15 | 2022-10-18 | 云南电网有限责任公司带电作业分公司 | 基于周域关联和模式识别的sar遥感图像水域提取方法、装置及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423690A (zh) * | 2017-06-26 | 2017-12-01 | 广东工业大学 | 一种人脸识别方法及装置 |
CN107784296A (zh) * | 2017-11-21 | 2018-03-09 | 中山大学 | 一种低分辨率图像的人脸识别方法 |
CN108109044A (zh) * | 2017-12-26 | 2018-06-01 | 南京开为网络科技有限公司 | 一种智能零售crm系统 |
-
2018
- 2018-07-20 CN CN201810805062.8A patent/CN108985236B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423690A (zh) * | 2017-06-26 | 2017-12-01 | 广东工业大学 | 一种人脸识别方法及装置 |
CN107784296A (zh) * | 2017-11-21 | 2018-03-09 | 中山大学 | 一种低分辨率图像的人脸识别方法 |
CN108109044A (zh) * | 2017-12-26 | 2018-06-01 | 南京开为网络科技有限公司 | 一种智能零售crm系统 |
Non-Patent Citations (4)
Title |
---|
MobileNetV2: Inverted Residuals and Linear Bottlenecks;Mark Sandler 等;《https://arxiv.org/abs/1704.04861》;20180422;第1-14页 * |
中心损失与Softmax损失联合监督下的人脸识别;余成波 等;《重庆大学学报》;20150531;第92-100页 * |
基于卷积神经网络的人脸识别系统设计与实现;曹东旭;《中国优秀硕士学位论文全文数据库信息科技辑》;20180215;第I138-2067页 * |
残差网络ResNet笔记;alanma;《https://www.jianshu.com/p/e58437f39f65》;20170518;第1-15页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108985236A (zh) | 2018-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108985236B (zh) | 一种基于深度化可分离卷积模型的人脸识别方法 | |
CN106845478B (zh) | 一种字符置信度的二次车牌识别方法及装置 | |
US11816149B2 (en) | Electronic device and control method thereof | |
CN103605972B (zh) | 一种基于分块深度神经网络的非限制环境人脸验证方法 | |
US20170262478A1 (en) | Method and apparatus for image retrieval with feature learning | |
CN114155443B (zh) | 一种基于多感受野图注意力网络的高光谱图像分类方法 | |
CN110751038A (zh) | 一种基于图注意力机制的pdf表格结构识别方法 | |
CN102663431A (zh) | 一种基于区域加权的图像匹配计算方法 | |
CN113674334A (zh) | 基于深度自注意力网络和局部特征编码的纹理识别方法 | |
CN105550641B (zh) | 基于多尺度线性差分纹理特征的年龄估计方法和系统 | |
CN107545263A (zh) | 一种物体检测方法及装置 | |
CN105046272A (zh) | 一种基于简洁非监督式卷积网络的图像分类方法 | |
CN116595208B (zh) | 高光谱图像的分类方法、装置及电子设备 | |
Saha et al. | Bangla handwritten digit recognition using an improved deep convolutional neural network architecture | |
CN113962281A (zh) | 基于Siamese-RFB的无人机目标跟踪方法 | |
CN111597943B (zh) | 一种基于图神经网络的表格结构识别方法 | |
CN115294157A (zh) | 一种病理图像处理方法、模型和设备 | |
CN108960186B (zh) | 一种基于人脸的广告机用户识别方法 | |
Dan et al. | PF‐ViT: Parallel and Fast Vision Transformer for Offline Handwritten Chinese Character Recognition | |
CN113673534B (zh) | 一种基于Faster RCNN的RGB-D图像果实检测方法 | |
Ying et al. | License plate detection and localization in complex scenes based on deep learning | |
CN111695450B (zh) | 一种基于IMobileNet的人脸快速识别方法 | |
CN109271833A (zh) | 基于栈式稀疏自编码器的目标识别方法、装置及电子设备 | |
CN112949500A (zh) | 一种基于空间特征编码改进的YOLOv3车道线检测方法 | |
CN106033546A (zh) | 基于自上而下学习的行为分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |