CN117912086A - 基于撒切尔效应驱动的人脸识别方法、系统、设备及介质 - Google Patents

基于撒切尔效应驱动的人脸识别方法、系统、设备及介质 Download PDF

Info

Publication number
CN117912086A
CN117912086A CN202410310877.4A CN202410310877A CN117912086A CN 117912086 A CN117912086 A CN 117912086A CN 202410310877 A CN202410310877 A CN 202410310877A CN 117912086 A CN117912086 A CN 117912086A
Authority
CN
China
Prior art keywords
face
training
broadcast
image
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410310877.4A
Other languages
English (en)
Other versions
CN117912086B (zh
Inventor
孙晓艳
张乾乾
刘宁
张越一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202410310877.4A priority Critical patent/CN117912086B/zh
Publication of CN117912086A publication Critical patent/CN117912086A/zh
Application granted granted Critical
Publication of CN117912086B publication Critical patent/CN117912086B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于撒切尔效应驱动的人脸识别方法、系统、设备及介质,它们是一一对应的方案,方案中:从认知神经科学的角度出发,利用撒切尔效应的原理,进行数据增强,并构建了一种能够显著提高人脸识别性能的撒切尔损失函数;同时,通过模拟人类大脑处理面部信息的方式,该方法不仅能够增强网络对人脸特征的感知能力,还能够在一定程度上克服由于人脸结构化属性带来的限制,以实现人脸识别分类精度的提升。

Description

基于撒切尔效应驱动的人脸识别方法、系统、设备及介质
技术领域
本发明涉及人脸识别技术领域,尤其涉及一种基于撒切尔效应驱动的人脸识别方法、系统、设备及介质。
背景技术
在当今深度学习技术的快速发展背景下,人脸识别技术已经成为生物识别领域的核心技术之一,广泛应用于安全认证、监控和个人身份验证等多个场景。随着研究的不断深入,人脸识别技术正逐步向着更加精确和可靠的方向发展。然而,由于人脸识别任务需求高度的分类精度,而庞大的人脸数据库带来的类内间距与类间间距优化问题,使得损失函数的设计和优化成为提升人脸识别性能的关键环节。
起初,归一化指数函数(Softmax)作为损失函数是一种将模型输出归一化为概率分布的方法,在多分类问题中被广泛使用。尽管如此,在对高度判别性任务如人脸识别的应用中,归一化指数函数显示出其局限性,主要体现在未能直接优化特征空间中的类别间距和类内聚性上。为了克服这一限制,研究人员提出了规范化人脸(NormFace)损失函数,通过对特征向量和权重向量进行归一化,显著增强了模型学习到的特征的判别性,从而有效提升了人脸验证和识别的性能。在规范化人脸损失函数的基础上,一系列创新的损失函数如球面人脸(SphereFace)、余弦人脸(CosFace)、弧度人脸(ArcFace)和自适应人脸(AdaFace)等相继被提出。这些方法通过调整特征空间的分布,有效地提升了人脸识别的准确性和鲁棒性。它们从不同角度优化模型,增强了特征的类别判别能力,显著提高了人脸识别技术的性能。
尽管人脸识别技术取得了显著进展,但仍面临一些挑战。人脸的高度结构化特性意味着,传统的数据增强方法可能无法有效提升网络对人脸的感知能力,有时甚至可能对人脸建模产生不利影响。此外,早期人脸识别技术过分关注于分类任务本身,导致模型可解释性降低。认知神经科学领域对人类面孔感知的研究,如撒切尔效应(Thatcher Effect),揭示了人脸识别处理局部倒置人脸时的特殊性。这一现象在神经网络中的体现,提示我们在面部识别研究中仍有广阔的探索空间。因此,针对现有人脸识别技术中存在的问题,有必要针对认知神经科学的结论进行损失函数的改进,可以通过借鉴人类处理面孔的机制来改善网络性能,同时也能增强模型的解释性。
发明内容
本发明的目的是提供一种基于撒切尔效应驱动的人脸识别方法、系统、设备及介质,不仅能够增强网络对人脸特征的感知能力,还能够在一定程度上克服由于人脸结构化属性带来的限制,以实现人脸识别分类精度的提升。
本发明的目的是通过以下技术方案实现的:
一种基于撒切尔效应驱动的人脸识别方法,包括:
获取训练人脸图像数据集,以及基于撒切尔效应对每一人脸图像分别进行增强处理,获得对应的撒切尔数据增强后的人脸图像;利用每一人脸图像与对应的撒切尔数据增强后的人脸图像构建第一训练人脸样本对,并将第一训练人脸样本对翻转获得第二训练人脸样本对;
构建人脸识别神经网络,用于对输入图像进行分块处理后,结合设置的分类标记获得嵌入表征,再基于多头注意力机制提取出人脸表征;
将第一训练人脸样本对与第二训练人脸样本对中的人脸图像分别作为输入图像,通过所述人脸识别神经网络获得对应的人脸表征,第一训练人脸样本对中人脸图像对应的人脸表征再经人脸识别神经网络的特征分类处理得到分类向量,利用分类向量计算出归一化的角度变量,并计算出分类损失函数,以及利用第一训练人脸样本对与第二训练人脸样本对中人脸图像对应的人脸表征计算撒切尔损失函数;结合所述分类损失函数与撒切尔损失函数训练所述人脸识别神经网络;
对于验证人脸对,通过训练后的人脸识别神经网络提取对应的人脸表征,基于人脸表征之间的距离判断验证人脸对是否属于同一身份类别。
一种基于撒切尔效应驱动的人脸识别系统,包括:
数据收集、预处理及样本对构造单元,用于获取训练人脸图像数据集,以及基于撒切尔效应对每一人脸图像分别进行增强处理,获得对应的撒切尔数据增强后的人脸图像;利用每一人脸图像与对应的撒切尔数据增强后的人脸图像构建第一训练人脸样本对,并将第一训练人脸样本对翻转获得第二训练人脸样本对;
网络构建单元,用于构建人脸识别神经网络,对输入图像进行分块处理后,结合设置的分类标记获得嵌入表征,再基于多头注意力机制提取出人脸表征;
网络训练单元,用于将第一训练人脸样本对与第二训练人脸样本对中的人脸图像分别作为输入图像,通过所述人脸识别神经网络获得对应的人脸表征,第一训练人脸样本对中人脸图像对应的人脸表征再经人脸识别神经网络的特征分类处理得到分类向量;利用分类向量计算出归一化的角度变量,并计算出分类损失函数,以及利用第一训练人脸样本对与第二训练人脸样本对中人脸图像对应的人脸表征计算撒切尔损失函数;结合所述分类损失函数与撒切尔损失函数训练所述人脸识别神经网络;
人脸识别单元,用于对于验证人脸对,通过训练后的人脸识别神经网络提取对应的人脸表征,基于人脸表征之间的距离判断验证人脸对是否属于同一身份类别。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,从认知神经科学的角度出发,利用撒切尔效应的原理,进行数据增强,并构建了一种能够显著提高人脸识别性能的撒切尔损失函数;同时,通过模拟人类大脑处理面部信息的方式,该方法不仅能够增强网络对人脸特征的感知能力,还能够在一定程度上克服由于人脸结构化属性带来的限制,以实现人脸识别分类精度的提升。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于撒切尔效应驱动的人脸识别方法流程图;
图2为本发明实施例提供的一种基于撒切尔效应驱动的人脸识别方法的整体框架示意图;
图3为本发明实施例提供的撒切尔损失函数的计算示意图;
图4为本发明实施例提供的人脸识别神经网络的训练示意图;
图5为本发明实施例提供的一种基于撒切尔效应驱动的人脸识别系统的示意图;
图6为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
下面对本发明所提供的一种基于撒切尔效应驱动的人脸识别方法、系统、设备及介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
实施例一
本发明实施例提供一种基于撒切尔效应驱动的人脸识别方法,如图1所示,其主要包括如下步骤:
步骤1、获取数据集,基于撒切尔效应进行增强处理,并构造训练人脸样本对。
本发明实施例中,获取训练人脸图像数据集,以及基于撒切尔效应对每一人脸图像分别进行增强处理,获得对应的撒切尔数据增强后的人脸图像;利用每一人脸图像与对应的撒切尔数据增强后的人脸图像构建第一训练人脸样本对,并将第一训练人脸样本对翻转获得第二训练人脸样本对。
步骤2、构建人脸识别神经网络。
本发明实施例中,构建人脸识别神经网络主要用于提取人脸表征并进行分类。图像在输入至人脸识别神经网络之前,对于输入图像进行分块处理,再结合设置的分类标记获得嵌入表征,再结合多头注意力机制提取出人脸表征。
人脸识别神经网络主要包括:线性投影层、人脸特征编码器、特征输出层与特征分类层;其中,线性投影层主要负责对输入图像进行分块处理,再结合设置的分类标记获得嵌入表征;人脸特征编码器采用多头注意力机制对嵌入表征进行编码,输出分类特征;特征输出层,根据分类特征获得人脸表征;特征分类层利用人脸表征进行分类,得到分类向量。
步骤3、利用人脸识别神经网络提取训练人脸样本对的人脸表征,并进行分类,进而计算出分类损失函数与撒切尔损失函数,并结合所述分类损失函数与撒切尔损失函数训练所述人脸识别神经网络。
本发明实施例中,将第一训练人脸样本对与第二训练人脸样本对中的人脸图像分别作为输入图像,通过所述人脸识别神经网络获得对应的人脸表征,第一训练人脸样本对中人脸图像对应的人脸表征再经人脸识别神经网络的特征分类处理得到分类向量;利用分类向量计算出归一化的角度变量,并计算出分类损失函数,以及利用第一训练人脸样本对与第二训练人脸样本对中人脸图像对应的人脸表征计算撒切尔损失函数;结合所述分类损失函数与撒切尔损失函数训练所述人脸识别神经网络。
步骤4、利用训练后的人脸识别神经网络对验证人脸对进行匹配。
本发明实施例中,对于验证人脸对,通过训练后的人脸识别神经网络提取对应的人脸表征,基于人脸表征之间的距离判断验证人脸对是否属于同一身份类别;具体来说,如果距离超出设定阈值,则匹配失败,表明验证人脸对不属于同一身份类别;如果距离未超出设定阈值,则匹配成功,表明验证人脸对属于同一身份类别。
本发明实施例提供的上述方案,是一种基于撒切尔面孔感知效应的人脸分类方案,利用认知神经科学中关于人类面孔感知的撒切尔效应,设计一种人脸局部特征逆置的数据增强方法,增加了模型训练的样本多样性。并基于撒切尔效应构建了一个能够优化类内间距的损失函数,用于模型训练过程中生成高质量的人脸建模特征,实现人脸识别精度的提升。
为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的方法进行详细描述。
如图2所示,展示了本发明的整体框架流程,包括上半部分的数据收集与网络训练等流程,以及下半部分所涉及的人脸匹配识别流程;下面针对各部分做详细的介绍。
一、数据集收集与前置处理。
1、数据收集与预处理。
本发明实施例中,获取人脸图像数据集,为了更好的进行后续训练,先进行预处理,即对数据集中的人脸进行对齐,裁剪出包含人脸的图像,从而得到每张人脸图像及其相应身份类别,形成训练人脸图像数据集;其中,N为样本数目,/>为第i个样本,/>表示第i个人脸图像,C、H和W分别表示人脸图像的通道数、高度和宽度,R为实数集符号,/>表示人脸图像/>对应的真实身份类别(即类别标签)。
示例性的,数据集包含93431个类别,5179510张人脸图像。每张人脸图像尺寸为112×112,因此C=3、H=112和W=112。训练迭代次数为20,测试集可以使用LFW、CFP_FP、AgeDB_30三个数据集进行人脸验证。
2、数据增强处理。
本发明实施例中,基于撒切尔效应对每一人脸图像分别进行增强处理,获得对应的撒切尔数据增强后的人脸图像,优选实施方式如下:
(1)对于每一人脸图像,通过人脸特征检测,获得眼睛与嘴巴的关键点。
以第i个人脸图像为例,通过人脸特征检测,得到眼睛和嘴巴的关键点,表示为:
其中,表示人脸特征检测,/>为第i个人脸图像/>的第j个眼睛关键点在人脸图像中的行列位置,/>为第i个人脸图像/>的第k个嘴巴的关键点在人脸图像中的行列位置,P表示眼睛关键点个数,/>表示嘴巴关键点个数。
示例性的,人脸特征检测可以使用单次尺度不变人脸检测器()进行,N=5179510,每个眼睛关键点6个,嘴巴部分外唇12个点,内唇8个点,因此,P=12、/>
(2)利用所有眼睛和嘴巴的关键点计算出最小的矩形闭包,最小的矩形闭包中包含两个眼睛的矩形区域,以及嘴巴的矩形区域。
此部分可以表示为:
其中,为第i个人脸图像/>对应的最小的矩形闭包,rectangle()函数对关键点进行扩展,保证所有的关键点被矩形区域所覆盖。
(3)对两个眼睛的矩形区域,以及嘴巴的矩形区域分别进行垂直翻转,获得翻转后的区域。
将第i个人脸图像对应的两个眼睛的矩形区域记为/>,下标1与2用来标识两个眼睛,将第i个人脸图像/>对应的嘴巴的矩形区域记为/>,通过垂直翻转,获得翻转后的区域,表示为:
其中,表示翻转后的眼睛区域,/>表示翻转后的嘴巴区域,/>为垂直翻转。
(4)将翻转后的区域覆盖到人脸图像对应的位置,获得撒切尔数据增强后的人脸图像。
3、构造训练人脸样本对。
本发明实施例中,利用每一人脸图像与对应的撒切尔数据增强后的人脸图像构建第一训练人脸样本对,并将第一训练人脸样本对翻转获得第二训练人脸样本对;具体的:设置为第一训练人脸样本对,/>为人脸图像,具体为第i个人脸图像/>,/>为人脸图像/>对应的撒切尔数据增强后的人脸图像,/>为将/>翻转后得到的第二训练人脸样本对:/>
以上处理未改动图像尺寸,参照前文提供的图像尺寸示例,训练人脸样本对中的图像尺寸依然为112×112。同时,以上处理会产生N组训练人脸样本对,每一组训练人脸样本对均包含第一训练人脸样本对与第二训练人脸样本对,此处的组序号与人脸图像一一对应。
二、构建人脸识别神经网络并进行训练。
1、构建人脸识别神经网络。
本发明实施例中,人脸识别神经网络主要包括:线性投影层、人脸特征编码器、特征输出层与特征分类层。
(1)线性投影层。
线性投影层主要负责对输入图像进行分块处理,再结合设置的分类标记获得嵌入表征。
具体来说:对于输入图像,经过分块后获得图像块序列/>,其中,,表示第t个图像块,t=1,2,…,m,m为图像块数目,/>表示每个图像块的维度,且/>
示例性的,可设置每个图像块尺寸为16×16,因此,H=112,W=112时,u=16,m=49。
之后,设置一个可学习的分类标记,并通过下式得到m个图像块和分类标记/>的D维嵌入表征/>
其中,E表示设置的嵌入矩阵,,/>表示m个图像块和分类标记在输入图像/>中的空间位置,/>
示例性的,可以设置D=768,分类标记是一个768维的随机向量,嵌入矩阵E是一个768×768的随机向量。
(2)人脸特征编码器。
本发明实施例中,人脸特征编码器采用多头注意力机制对嵌入表征进行编码,输出分类特征。
本发明实施例中,人脸特征编码器包含L个编码器,每一编码器包含两个归一化层、两个残差连接层、一个多头注意力机制层与前向传播层。
第l个编码器的第一个残差连接层的输出,表示为:
其中,为第一个归一化层,/>表示第一个归一化层对第l – 1个编码器的输出/>进行层归一化处理,当l=1时,/>,/>即为嵌入表征/>;MSA表示多头注意力机制层;等式右侧表示将多头注意力机制层的输出与/>进行残差连接。
再通过下式计算得到第l个编码器的前向传播层的输出,表示为:
其中,为第二个归一化层,/>表示对/>进行层归一化处理,/>为多层感知机,其作为前向传播层。
最终通过第二个残差连接层获得第l个编码器的输出:/>
当l=L时,获得第L个编码器的输出,/>包含m + 1 个D维特征,从中提取对应分类的D维向量/>作为分类特征。
示例性的,可以使用基础的视觉转换器的编码器格式,所以编码器个数L=12。
示例性的,前向传播层可以包含两层线性连接层和一个GELU(Gaussian ErrorLinear Unit,高斯误差线性单元)非线性激活层。
(3)特征输出层。
本发明实施例中,特征输出层,负责根据分类特征获得人脸表征,表示为:
其中,为人脸表征,/>表示特征输出层,它是一个线性层。
(4)特征分类层。
本发明实施例中,特征分类层,负责利用人脸表征进行分类,得到分类向量。
2、训练人脸识别神经网络。
本发明实施例中,利用构造的训练人脸样本对训练人脸识别神经网络。将第一训练人脸样本对中人脸图像对应的人脸表征记为/>(特征1)与/>(特征2),将第二训练人脸样本对/>中人脸图像对应的人脸表征记为/>(特征3)与/>(特征4)。
示例性的,人脸表征的维度可以为1×512。
(1)计算分类损失函数。
首先,将第一训练人脸样本对中人脸图像对应的人脸表征/>通过特征分类处理得到分类向量/>,之后,计算出归一化的角度变量,表示为:
其中,为归一化的权重向量,符号/>表示取向量模值,第一训练人脸样本对中的人脸图像/>对应于训练人脸图像数据集第i个人脸图像/>,其对应的类别标签为/>,/>为类别标签/>对应的归一化的角度变量,arccos为反余弦函数。
然后,通过对归一化的角度变量加入角度间隔/>得到分类损失函数/>,表示为:
其中,exp为以自然常数e为底的指数函数,代表着一个控制因子,通常称为尺度(scale),该控制因子用于调整类内特征之间的角度差距,以加强类间差异性,帮助提高分类的准确性;N为训练人脸样本对的组数,/>表示身份类别数目,/>为第/>个身份类别对应的归一化的角度变量,其利用分类向量/>中关于第/>个身份类别的得分并结合归一化的权重向量通过前述提供的式子计算得到;cos为余弦函数。
(2)计算撒切尔损失函数。
如图3所示,首先,计算特征正向距离和特征反向距离,表示为:
其中,为特征正向距离,/>为特征反向距离,/>为特征距离计算函数。
示例性的,可选择L1或L2距离作为特征距离计算函数。
之后,结合特征正向距离和特征反向距离计算撒切尔损失函数,表示为:
其中,为撒切尔损失函数。
(3)构造总损失函数,并训练网络。
其中,为总损失函数,/>为设定的权重系数,用于平衡分类损失函数和撒切尔效应损失之间的关系,/>为利用第i组训练人脸样本对计算的分类损失函数,为利用第i组训练人脸样本对计算的撒切尔损失函数,N为训练人脸样本对的组数,数值等同于训练人脸图像数据集中的样本数目。
基于上述总损失函数进行反向传播得到神经元梯度进行梯度更新,当训练迭代次数达到设定的次数或损失函数收敛时,训练停止,训练后的人脸识别神经网络即为最优人脸识别模型。
图4展示了相关的网络训练过程,左侧部分为构造训练人脸样本对的过程,两个训练人脸样本对共四个图像经过线性投影层处理获得各自对应的嵌入表征,具体的,图4中的2D卷积(二维卷积)即为图像分块处理,展平操作(Flatten)后得到对应的图像块序列,再结合分类标记并加入位置嵌入得到对应的嵌入表征,此部分所涉及的二维卷积与展平操作过程称为补丁嵌入过程;之后,输入至人脸特征编码器与特征输出层,图4所示示例中,将两个训练人脸样本对共四个图像进行了通道拼接,因此,需要将特征输出层的输出在通道进行拆分,以获得四个图像各自人脸表征,进而,计算对应的分类损失函数与撒切尔损失函数;此外,考虑到图像篇幅的问题,省略了人脸识别神经网络中的部分结构。
三、人脸匹配识别。
训练完毕后,可使用测试集进行模型的性能验证,示例性的,可采用LFW、CFP_FP、AgeDB_30三个数据集作为测试数据集,该数据集的人脸尺寸大小为112×112,人脸对的标签为0或者1,1表示匹配,即同一身份的两张图像,0表示不匹配,即两张图像属于不同的身份。测试阶段中,主要通过训练后的人脸识别神经网络提取对应的人脸表征,基于人脸表征之间的距离判断验证人脸对是否属于同一身份类别。
测试数据集中的人脸对同样采用前文提到的方式进行预处理,获得验证人脸对,通过训练后的人脸识别神经网络提取对应的人脸表征,将验证人脸/>的人脸表征记为/>,将将验证人脸/>的人脸表征记为/>
示例性的, 的维度均为1×512。
然后,对人脸表征进行归一化,表示为:
其中,为归一化函数,/>为人脸表征/>的归一化表征,/>为人脸表征/>的归一化表征。
之后,计算归一化表征之间的距离,表示为:
其中,为归一化表征/>的第/>个维度的表征值,/>为归一化表征/>的第/>个维度的表征值,/>,/>为表征维度,例如,/>
判断距离是否超过设定的阈值,如果距离超出设定阈值,则匹配失败,表明验证人脸对/>不属于同一身份类别;如果距离未超出设定阈值,则匹配成功,表明验证人脸对属于同一身份类别。此处的阈值可以由用户根据实际情况或者经验进行设定,本发明不做具体数值的限定。
图2中完整了呈现了整个框架流程,同样的考虑到图像篇幅的问题,省略了人脸识别神经网络中的部分结构。
本发明的有益效果在于:
(1)本发明在构建人脸识别数据集时,创新性地引入了基于撒切尔效应的数据增强方法。撒切尔效应,作为认知神经科学对人类面孔感知倒置特性的总结,揭示了人类对整体正立面孔与整体倒立面孔感知的显著差异。本发明利用该效应中局部特征逆置对人脸感知能力保留的特性,设计了一种数据增强方案,通过对局部特征进行逆置处理,增加了模型训练的样本多样性。这种方法有效提升了网络对于各种面孔变化(如大角度转动、遮挡、光照条件限制等)的感知能力,进而显著提高了人脸分类的精度。
(2)本发明针对人脸识别损失函数进行了创新设计,提出了一种基于撒切尔效应的损失函数。该损失函数通过模拟人类的面孔感知机制,有效提升了网络模型对人脸的建模能力。具体地,撒切尔损失函数通过减少正常面孔特征与撒切尔效应数据增强后特征之间的距离,优化了类内间距,使得模型对于类内变化的建模更加精确。这一设计大大提升了模型在处理局部特征变化时的鲁棒性和识别精度。
(3)本发明在训练的编码器部分采用视觉转换器模型,利用自注意力机制处理图像分块后的特征,使得网络模型能够全面感知图像特征在不同位置的语义关系。这种方法突破了纯卷积神经网络在归纳偏置方面的限制,优化了网络对人脸的整体性建模,从而显著提升了模型的鲁棒性。
(4)本发明采用监督训练方式进行训练,将撒切尔效应数据增强后的语义信息深度嵌入了人脸识别编码器中,提高了人脸通用特征建模的质量。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例二
本发明还提供一种基于撒切尔效应驱动的人脸识别系统,其主要用于实现前述实施例提供的方法,如图5所示,该系统主要包括:
数据收集、预处理及样本对构造单元,用于获取训练人脸图像数据集,以及基于撒切尔效应对每一人脸图像分别进行增强处理,获得对应的撒切尔数据增强后的人脸图像;利用每一人脸图像与对应的撒切尔数据增强后的人脸图像构建第一训练人脸样本对,并将第一训练人脸样本对翻转获得第二训练人脸样本对;
网络构建单元,用于构建人脸识别神经网络,对输入图像进行分块处理后,结合设置的分类标记获得嵌入表征,再基于多头注意力机制提取出人脸表征;
网络训练单元,用于将第一训练人脸样本对与第二训练人脸样本对中的人脸图像分别作为输入图像,通过所述人脸识别神经网络获得对应的人脸表征,第一训练人脸样本对中人脸图像对应的人脸表征再经人脸识别神经网络的特征分类处理得到分类向量;利用分类向量计算出归一化的角度变量,并计算出分类损失函数,以及利用第一训练人脸样本对与第二训练人脸样本对中人脸图像对应的人脸表征计算撒切尔损失函数;结合所述分类损失函数与撒切尔损失函数训练所述人脸识别神经网络;
人脸识别单元,用于对于验证人脸对,通过训练后的人脸识别神经网络提取对应的人脸表征,基于人脸表征之间的距离判断验证人脸对是否属于同一身份类别。
考虑到该系统所涉及的具体技术细节已经在之前的实施例一中做了详细的介绍,故不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例三
本发明还提供一种处理设备,如图6所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1.一种基于撒切尔效应驱动的人脸识别方法,其特征在于,包括:
获取训练人脸图像数据集,以及基于撒切尔效应对每一人脸图像分别进行增强处理,获得对应的撒切尔数据增强后的人脸图像;利用每一人脸图像与对应的撒切尔数据增强后的人脸图像构建第一训练人脸样本对,并将第一训练人脸样本对翻转获得第二训练人脸样本对;
构建人脸识别神经网络,用于对输入图像进行分块处理后,结合设置的分类标记获得嵌入表征,再基于多头注意力机制提取出人脸表征;
将第一训练人脸样本对与第二训练人脸样本对中的人脸图像分别作为输入图像,通过所述人脸识别神经网络获得对应的人脸表征,第一训练人脸样本对中人脸图像对应的人脸表征再经人脸识别神经网络的特征分类处理得到分类向量,利用分类向量计算出归一化的角度变量,并计算出分类损失函数,以及利用第一训练人脸样本对与第二训练人脸样本对中人脸图像对应的人脸表征计算撒切尔损失函数;结合所述分类损失函数与撒切尔损失函数训练所述人脸识别神经网络;
对于验证人脸对,通过训练后的人脸识别神经网络提取对应的人脸表征,基于人脸表征之间的距离判断验证人脸对是否属于同一身份类别。
2.根据权利要求1所述的一种基于撒切尔效应驱动的人脸识别方法,其特征在于,所述基于撒切尔效应对每一人脸图像分别进行增强处理,获得对应的撒切尔数据增强后的人脸图像包括:
对于每一人脸图像,通过人脸特征检测,获得眼睛与嘴巴的关键点;
利用所有眼睛和嘴巴的关键点计算出最小的矩形闭包,最小的矩形闭包中包含两个眼睛的矩形区域,以及嘴巴的矩形区域;
对两个眼睛的矩形区域,以及嘴巴的矩形区域分别进行垂直翻转,获得翻转后的区域;
将翻转后的区域覆盖到人脸图像对应的位置,获得撒切尔数据增强后的人脸图像。
3.根据权利要求1所述的一种基于撒切尔效应驱动的人脸识别方法,其特征在于,所述对输入图像进行分块处理后,结合设置的分类标记获得嵌入表征包括:
对于输入图像,经过分块后获得图像块序列/>,其中,/>为第t个图像块,t=1,2,…,m,m为图像块数目;
设置一个可学习的分类标记,并通过下式得到m个图像块和分类标记/>的D维嵌入表征/>
其中,E表示设置的嵌入矩阵,表示m个图像块和分类标记/>在输入图像/>中的空间位置。
4.根据权利要求1或3所述的一种基于撒切尔效应驱动的人脸识别方法,其特征在于,所述基于多头注意力机制提取出人脸表征包括:
通过人脸识别神经网络中的人脸特征编码器,采用多头注意力机制对嵌入表征进行编码,输出分类特征;再通过人脸识别神经网络中的特征输出层,利用分类特征获得人脸表征;
其中,人脸特征编码器包含L个编码器,每一编码器包含两个归一化层、两个残差连接层、一个多头注意力机制层与前向传播层;
第l个编码器的第一个残差连接层的输出,表示为:
其中,为第一个归一化层,/> 表示第一个归一化层对第l – 1个编码器的输出/>进行层归一化处理,当l=1时,/>,/>即为嵌入表征;MSA表示多头注意力机制层;等式右侧表示将多头注意力机制层的输出与/>进行残差连接;
再通过下式计算得到第l个编码器的前向传播层的输出,表示为:
其中,为第二个归一化层,/>表示对/>进行层归一化处理,/>为多层感知机,其作为前向传播层;
最终通过第二个残差连接层获得第l个编码器的输出:/>
当l=L时,获得第L个编码器的输出,从中提取出分类特征/>,通过特征输出层获得人脸表征。
5.根据权利要求1所述的一种基于撒切尔效应驱动的人脸识别方法,其特征在于,所述第一训练人脸样本对中人脸图像对应的人脸表征再经人脸识别神经网络的特征分类处理得到分类向量,利用分类向量计算出归一化的角度变量,并计算出分类损失函数包括:
将第一训练人脸样本对中人脸图像对应的人脸表征记为/>,将人脸表征/>通过特征分类处理得到分类向量/>,然后,计算出归一化的角度变量,表示为:
其中,为归一化的权重向量,符号/>表示取向量模值,第一训练人脸样本对中的人脸图像/>为第i个人脸图像/>,其对应的类别标签为/>,/>为人脸图像/>对应的撒切尔数据增强后的人脸图像,/>为类别标签/>对应的归一化的角度变量,arccos为反余弦函数;
通过对归一化的角度变量加入角度间隔/>得到分类损失函数/>,表示为:
其中,exp为以自然常数e为底的指数函数,为控制因子,N为训练人脸样本对的组数,表示身份类别数目,/>为第/>个身份类别对应的归一化的角度变量,cos为余弦函数。
6.根据权利要求1所述的一种基于撒切尔效应驱动的人脸识别方法,其特征在于,所述利用第一训练人脸样本对与第二训练人脸样本对中人脸图像对应的人脸表征计算撒切尔损失函数包括:
将第一训练人脸样本对中人脸图像对应的人脸表征记为与/>,将第二训练人脸样本对中人脸图像对应的人脸表征记为/>与/>
计算特征正向距离和特征反向距离,表示为:
其中,为特征正向距离,/>为特征反向距离,/>为特征距离计算函数;
结合特征正向距离和特征反向距离计算撒切尔损失函数,表示为:
其中,为撒切尔损失函数。
7.根据权利要求1所述的一种基于撒切尔效应驱动的人脸识别方法,其特征在于,所述对于验证人脸对,通过训练后的人脸识别神经网络提取对应的人脸表征,基于人脸表征之间的距离判断验证人脸对是否属于同一身份类别包括:
对于验证人脸对,通过训练后的人脸识别神经网络提取对应的人脸表征,将验证人脸/>的人脸表征记为/>,将将验证人脸/>的人脸表征记为/>
对人脸表征进行归一化,表示为:
其中,为归一化函数,/>为人脸表征/>的归一化表征,/>为人脸表征/>的归一化表征;
计算归一化表征之间的距离,表示为:
其中,为归一化表征/>的第/>个维度的表征值,/>为归一化表征/>的第/>个维度的表征值,/>,/>为表征维度;
判断距离是否超过设定的阈值,若否,则表明验证人脸对/>属于同一身份类别。
8.一种基于撒切尔效应驱动的人脸识别系统,其特征在于,包括:
数据收集、预处理及样本对构造单元,用于获取训练人脸图像数据集,以及基于撒切尔效应对每一人脸图像分别进行增强处理,获得对应的撒切尔数据增强后的人脸图像;利用每一人脸图像与对应的撒切尔数据增强后的人脸图像构建第一训练人脸样本对,并将第一训练人脸样本对翻转获得第二训练人脸样本对;
网络构建单元,用于构建人脸识别神经网络,对输入图像进行分块处理后,结合设置的分类标记获得嵌入表征,再基于多头注意力机制提取出人脸表征;
网络训练单元,用于将第一训练人脸样本对与第二训练人脸样本对中的人脸图像分别作为输入图像,通过所述人脸识别神经网络获得对应的人脸表征,第一训练人脸样本对中人脸图像对应的人脸表征再经人脸识别神经网络的特征分类处理得到分类向量;利用分类向量计算出归一化的角度变量,并计算出分类损失函数,以及利用第一训练人脸样本对与第二训练人脸样本对中人脸图像对应的人脸表征计算撒切尔损失函数;结合所述分类损失函数与撒切尔损失函数训练所述人脸识别神经网络;
人脸识别单元,用于对于验证人脸对,通过训练后的人脸识别神经网络提取对应的人脸表征,基于人脸表征之间的距离判断验证人脸对是否属于同一身份类别。
9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。
10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。
CN202410310877.4A 2024-03-19 2024-03-19 基于撒切尔效应驱动的人脸识别方法、系统、设备及介质 Active CN117912086B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410310877.4A CN117912086B (zh) 2024-03-19 2024-03-19 基于撒切尔效应驱动的人脸识别方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410310877.4A CN117912086B (zh) 2024-03-19 2024-03-19 基于撒切尔效应驱动的人脸识别方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN117912086A true CN117912086A (zh) 2024-04-19
CN117912086B CN117912086B (zh) 2024-05-31

Family

ID=90695082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410310877.4A Active CN117912086B (zh) 2024-03-19 2024-03-19 基于撒切尔效应驱动的人脸识别方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN117912086B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583322A (zh) * 2018-11-09 2019-04-05 长沙小钴科技有限公司 一种人脸识别深度网络训练方法和系统
CN111626235A (zh) * 2020-05-29 2020-09-04 北京华捷艾米科技有限公司 一种人脸识别神经网络的训练方法及装置
CN111967392A (zh) * 2020-08-18 2020-11-20 广东电科院能源技术有限责任公司 一种人脸识别神经网络训练方法、系统、设备及储存介质
CN112257647A (zh) * 2020-11-03 2021-01-22 徐州工程学院 基于注意力机制的人脸表情识别方法
CN112818850A (zh) * 2021-02-01 2021-05-18 华南理工大学 基于渐进式神经网络和注意力机制的跨姿态人脸识别方法
CN115588220A (zh) * 2022-10-08 2023-01-10 中国科学技术大学 两阶段多尺度自适应的低分辨率人脸识别方法及应用
CN115862120A (zh) * 2023-02-21 2023-03-28 天度(厦门)科技股份有限公司 可分离变分自编码器解耦的面部动作单元识别方法及设备
CN116012459A (zh) * 2022-12-26 2023-04-25 中国科学技术大学先进技术研究院 基于三维视线估计和屏幕平面估计的鼠标定位的方法
CN116386097A (zh) * 2022-09-19 2023-07-04 徐州达希能源技术有限公司 基于人脸混合增强策略的遮挡人脸表情识别模型
CN116524575A (zh) * 2023-06-01 2023-08-01 哈尔滨理工大学 一种基于多注意力机制的人脸识别方法
CN116704122A (zh) * 2023-05-23 2023-09-05 中国科学技术大学 基于注意力机制的非视域成像方法、装置、设备及介质
WO2023185243A1 (zh) * 2022-03-29 2023-10-05 河南工业大学 基于注意力调制上下文空间信息的表情识别方法
CN117671764A (zh) * 2023-12-05 2024-03-08 南京理工大学 基于Transformer的动态说话人脸图像生成系统及方法
CN117665807A (zh) * 2023-12-01 2024-03-08 上海交通大学 基于毫米波多人零样本的人脸识别方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583322A (zh) * 2018-11-09 2019-04-05 长沙小钴科技有限公司 一种人脸识别深度网络训练方法和系统
CN111626235A (zh) * 2020-05-29 2020-09-04 北京华捷艾米科技有限公司 一种人脸识别神经网络的训练方法及装置
CN111967392A (zh) * 2020-08-18 2020-11-20 广东电科院能源技术有限责任公司 一种人脸识别神经网络训练方法、系统、设备及储存介质
CN112257647A (zh) * 2020-11-03 2021-01-22 徐州工程学院 基于注意力机制的人脸表情识别方法
CN112818850A (zh) * 2021-02-01 2021-05-18 华南理工大学 基于渐进式神经网络和注意力机制的跨姿态人脸识别方法
WO2023185243A1 (zh) * 2022-03-29 2023-10-05 河南工业大学 基于注意力调制上下文空间信息的表情识别方法
CN116386097A (zh) * 2022-09-19 2023-07-04 徐州达希能源技术有限公司 基于人脸混合增强策略的遮挡人脸表情识别模型
CN115588220A (zh) * 2022-10-08 2023-01-10 中国科学技术大学 两阶段多尺度自适应的低分辨率人脸识别方法及应用
CN116012459A (zh) * 2022-12-26 2023-04-25 中国科学技术大学先进技术研究院 基于三维视线估计和屏幕平面估计的鼠标定位的方法
CN115862120A (zh) * 2023-02-21 2023-03-28 天度(厦门)科技股份有限公司 可分离变分自编码器解耦的面部动作单元识别方法及设备
CN116704122A (zh) * 2023-05-23 2023-09-05 中国科学技术大学 基于注意力机制的非视域成像方法、装置、设备及介质
CN116524575A (zh) * 2023-06-01 2023-08-01 哈尔滨理工大学 一种基于多注意力机制的人脸识别方法
CN117665807A (zh) * 2023-12-01 2024-03-08 上海交通大学 基于毫米波多人零样本的人脸识别方法
CN117671764A (zh) * 2023-12-05 2024-03-08 南京理工大学 基于Transformer的动态说话人脸图像生成系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BENJAMIN DE HAAS,D. SAMUEL SCHWARZKOPF: "Feature–location effects in the Thatcher illusion", 《JOURNAL OF VISION》, vol. 18, no. 4, 23 April 2018 (2018-04-23), pages 1 - 12 *
FEIPENG MA 等: "Image Captioning with Multi-Context Synthetic Data", 《THE THIRTY-EIGHTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-24)》, 19 December 2023 (2023-12-19), pages 4089 - 4097 *
邹晓春 等: "一种基于有监督学习的视觉注意力模型", 《中国体视学与图像分析》, vol. 20, no. 03, 25 September 2015 (2015-09-25), pages 5 - 11 *

Also Published As

Publication number Publication date
CN117912086B (zh) 2024-05-31

Similar Documents

Publication Publication Date Title
Geetha et al. Design of face detection and recognition system to monitor students during online examinations using Machine Learning algorithms
US9064145B2 (en) Identity recognition based on multiple feature fusion for an eye image
US20070122009A1 (en) Face recognition method and apparatus
CN102629320B (zh) 基于特征层定序测量统计描述的人脸识别方法
CN105550657A (zh) 基于关键点的改进sift人脸特征提取方法
CN108564040B (zh) 一种基于深度卷积特征的指纹活性检测方法
CN106709418A (zh) 基于现场照和证件照的人脸识别方法及识别装置
CN111709313A (zh) 基于局部和通道组合特征的行人重识别方法
CN111767877A (zh) 一种基于红外特征的活体检测方法
Zuobin et al. Feature regrouping for cca-based feature fusion and extraction through normalized cut
CN112132117A (zh) 一种辅助胁迫检测的融合身份认证系统
Sujana et al. An effective CNN based feature extraction approach for iris recognition system
CN103942545A (zh) 一种基于双向压缩数据空间维度缩减的人脸识别方法和装置
CN117912086B (zh) 基于撒切尔效应驱动的人脸识别方法、系统、设备及介质
CN103207993B (zh) 基于核的判别随机近邻嵌入分析的人脸识别方法
Bisogni et al. Multibiometric score-level fusion through optimization and training
Kaya et al. Copy-move forgery detection in digital forensic images using CNN
Shreyas et al. A Review on Neural Networks and its Applications
Scherhag Face morphing and morphing attack detection
Yu et al. Research on face recognition method based on deep learning
Tanjung et al. Face Recognition using Webcam with K Nearest Neighbors Algorithm for Employee Presence
Verma et al. Static Signature Recognition System for User Authentication Based Two Level Cog, Hough Tranform and Neural Network
Dhar et al. Detecting deepfake images using deep convolutional neural network
Harris et al. An Improved Signature Forgery Detection using Modified CNN in Siamese Network
Yu et al. Effect of Facial Shape Information Reflected on Learned Features in Face Spoofing Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant