CN115100709B - 一种特征分离的图像人脸识别与年龄估计方法 - Google Patents
一种特征分离的图像人脸识别与年龄估计方法 Download PDFInfo
- Publication number
- CN115100709B CN115100709B CN202210718470.6A CN202210718470A CN115100709B CN 115100709 B CN115100709 B CN 115100709B CN 202210718470 A CN202210718470 A CN 202210718470A CN 115100709 B CN115100709 B CN 115100709B
- Authority
- CN
- China
- Prior art keywords
- age
- identity
- feature
- face
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/178—Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明提供了一种特征分离的图像人脸识别与年龄估计方法。该方法包括:将待识别的人脸图像输入到多任务框架中,将人脸图像转化为人脸特征,将人脸特征输入到所述特征分离网络中,通过特征分离网络分离所述人脸特征中的身份特征和年龄特征;将身份特征进行特征铺平生成描述当前图像身份的嵌入特征向量,通过度量所述嵌入特征向量与各个标准身份向量之间的距离值,确定所述待识别的人脸图像对应的身份信息;通过线性层将年龄特征映射为一组向量,将所述一组向量的取值加在一起,获取所述待识别的人脸图像对应的年龄信息。本发明方法通过注意力机制的特征分离方法,有效地分离出适合各个子任务的有效特征,提升了各个子任务的特征鲁棒性。
Description
技术领域
本发明涉及人脸识别技术领域,尤其涉及一种特征分离的图像人脸识别与年龄估计方法。
背景技术
人脸是一种重要的生物信息载体,通过对面部图像、视频进行分析,可以获取多种信息。人脸分析算法包含人脸检测、人脸关键点回归、人脸识别、人脸年龄估计和表情识别等多种算法,是近年来计算机视觉领域的研究热点。人脸分析算法的研究有助于提高计算机在人脸场景下的信息感知能力,在人机交互、情感分析和虚拟现实等领域有着重要意义。人脸分析算法研究与实际应用联系紧密,被广泛地应用于生产、生活中,典型的应用场景包含安防系统、行人健康系统和智慧课堂系统等。实际应用中的人脸分析系统通常由多种人脸分析算法组成,人脸分析算法研究也呈现出由单任务算法向多任务算法的发展趋势。
针对完整的人脸图像,识别身份、年龄、性别、种族等属性信息是人脸分析的常见应用场景,前景十分广阔,常见的应用包括人脸安检系统、进出口身份验证系统和年龄验证系统等等。
人脸识别任务性能受到其他属性因素干扰问题,该问题的研究对象是人脸识别与其它属性识别多任务算法。人脸识别属于表征学习,人脸识别算法将人脸图像转化为特征空间中的人脸表征,再根据人脸表征间的距离判定身份。人脸识别算法面对某一属性的大跨度样本时,如大年龄跨度样本时,性能出现明显下降。具体表现为同一身份下,大年龄跨度样本的人脸表征间距离远。此外,用于训练的人脸识别数据集在年龄分布上呈现长尾分布,绝大多数样本处于二十至四十岁这个年龄区间。基于年龄分布不均衡的数据集训练人脸识别算法,在尾部年龄区间的识别性能出现明显下降。
人脸识别算法的核心是将人脸图像转化为一个人脸表征,通过人脸表征间的距离实现对身份的判别。传统的人脸识别算法基于手工特征获取人脸表征。由于手工特征的设计依赖研究者对本领域的先验知识,应对限定环境下单一因素的类内变化具备一定的有效性,但在面对非限定场景下多种因素变化或是单一因素的极端变化时判别能力不足。深度学习技术的发展将人脸识别算法引入到数据驱动的表征学习时代。深度神经网络将人脸图像映射为人脸表征向量,再通过比较两个向量间的距离来衡量人脸图像间的身份相似度。一方面表征学习是由数据驱动的,依赖大规模人脸识别数据集的建立。另一方面训练使用的监督函数设计发挥了关键作用,监督函数的设计是深度人脸识别的主要技术和研究热门。监督函数的目的是让学习到的人脸表征在同一身份类别内距离近,不同身份类间距离远。按照优化表征方式的不同,现有的深度人脸识别算法可以分为基于距离的方法和基于分类的方法。
基于距离的方法直接对人脸表征间的距离进行约束。典型的基于距离的损失函数包含Sun等人提出的对比损失和Schroff等人提出的三元组损失。使用对比损失作为监督的工作需要构造图像样本对,让正样本对距离近、负样本对距离远。基于三元组损失的工作需要构造三元组,优化正样本对与正负样本对之间的相对距离。即同一个三元组内,锚样本与正样本距离小于锚样本与负样本距离加边界值的和。对比损失和三元组损失都是针对类间可分性的监督,没有对同类样本的距离最小化做出要求。Wen等人提出的中心损失为每一个身份类别学习一个特征中心,并惩罚类内样本到中心的距离,以此增强人脸表征对类内变化的鲁棒性。然而使用中心损失作为监督函数时,类别中心特征的计算和存储会带来巨大的GPU显存开销。随着数据集规模的增大,基于距离的方法在构造样本对或三元组时难以穷举组合,学习特征中心时难以通过部分样本估计整体的分布,导致方法难以实践。
基于分类的方法在训练阶段将人脸识别视作一个分类问题,在人脸表征层后接一个线性层,输出训练集身份类别数的分类置信度,用分类的监督函数进行优化。与一般的图像分类问题不同的是,人脸识别的身份类别数高达十万的数量级,基于角度可以更好的划分密集的类别。Liu等人提出的大边界Softmax损失通过在Softmax损失中增加角边距引导模型学习类内紧凑、类间可分的人脸表征。Liu等人提出的球形损失对最后一个全连接层的权重进行归一化,并在人脸特征与其对应权重间增加角余量惩罚来扩展大边界Softmax损失。与球形损失不同的是,Wang等人提出的余弦损失在人脸表征与相应权重的余弦角上附加了余弦惩罚余量,并将人脸表征的L2范数及其对应权重约束为1。Deng等人提出的弧形损失则是在深度特征和其对应权重的角度上进行惩罚。从结果上看,基于角度划分的方法能够增强人脸表征的紧凑性和可分性。基于分类的损失函数方案取得了巨大的成功,但在面对具体细化的子问题时仍有不足。具体而言,人脸识别模型对年龄、姿态、表情等属性的识别能力上存在不均衡性,应对单一因素的极端变化时能力不足。特别是在年龄因素上,对应的引出了年龄不变性人脸识别问题。
目前,现有技术中的人脸识别算法采用分类的方法进行人脸识别和年龄估计,将年龄分为离散时间段进行分类估计,通过关键点、前景背景分析等方法,将人脸区域分离并估计人脸中的关键信息。其主要算法流程如下所示:
共享特征提取,采用卷积算子对人脸图像进行特征提取,特征提取骨干网络为多个任务共享。
任务特征提取,将不同任务输出子网络前置子任务特征提取骨干网络,并与共享特征骨干网络连接,将共享骨干网络特征编码为子任务特征。
任务输出模型,根据不同的任务需求,设计对应的损失函数和输出层,进行参数的反向传递和模型调优。
上述现有技术中的人脸识别算法的缺点为:
特征共享分离不充分问题。该方法直接在共享特征的基础上,通过子网络特征提取骨干将共享特征编码为适合子任务的特征。但是该方法没有经过特征筛选,导致各个子任务的特征中存在大量冗余特征,冗余特征可能对子任务的收敛产生干扰,导致子任务性能降低。
分类年龄估计精度问题。该方法将年龄估计采用离散分段分类的方法,将年龄预测为各个区间段。但是,区间段的年龄范围直接导致了估计出来的精度不高。
发明内容
本发明的实施例提供了一种特征分离的图像人脸识别与年龄估计方法,以实现有效地对图像进行人脸识别与年龄估计。
为了实现上述目的,本发明采取了如下技术方案。
一种特征分离的图像人脸识别与年龄估计方法,包括:
构建人脸识别与年龄估计的多任务框架,将待识别的人脸图像输入到所述多任务框架中,所述多任务框架将所述人脸图像转化为人脸特征,该人脸特征中包括身份和年龄信息;
设计基于注意力机制的特征分离网络,将所述人脸特征输入到所述特征分离网络中,通过特征分离网络分离所述人脸特征中的身份特征和年龄特征;
将所述身份特征进行特征铺平生成描述当前图像身份的嵌入特征向量,通过度量所述嵌入特征向量与各个标准身份向量之间的距离值,确定所述待识别的人脸图像对应的身份信息;
通过线性层将所述年龄特征映射为一组向量,将所述一组向量的取值加在一起,获取所述待识别的人脸图像对应的年龄信息。
优选地,所述的构建人脸识别与年龄估计的多任务框架,将待识别的人脸图像输入到多任务框架中,所述多任务框架将所述人脸图像转化为人脸特征,该人脸特征中包括身份和年龄信息,包括:
构建人脸识别与年龄估计的多任务框架,所述多任务框架以IRSE-50作为主干网络,将待识别的人脸图像输入到所述多任务框架中,多任务框架将输入的人脸图像转化为一个二维矩阵的人脸特征f∈R^(c×h×w),其中c是待识别的人脸图像的特征通道数,所述二维矩阵为特征图,h是特征图的高,w是特征图的宽,该人脸特征中包含了描述待识别的人脸图像的身份和年龄的信息。
优选地,所述的设计基于注意力机制的特征分离网络,将所述人脸特征输入到所述特征分离网络中,通过特征分离网络分离所述人脸特征中的身份特征和年龄特征,包括:
设计基于注意力机制的特征分离网络,将人脸特征f输入到特征分离网络中,特征分离网络通过一个二维批正则化层对输入的身份特征f进行正则化:
f0=BN(f) (1)
其中BN(·)是二维批正则化函数,f0是正则化后的人脸特征;
设计两个相同结构的分别学习身份特征和年龄特征的分支网络,在每个分支网络内分别进行通道注意力操作和空间注意力操作,学习得到通道注意力权重和空间注意力权重;
两个分支网络分别利用通道注意力权重、空间注意力权重和正则化后的人脸特征,计算出所述人脸特征中的身份特征和年龄特征。
优选地,所述的在每个分支网络内分别进行通道注意力操作和空间注意力操作,学习得到通道注意力权重和空间注意力权重,包括:
在每个分支网络中计算通道注意力的权重矩阵时,在空间维度上对输入的人脸特征f0进行池化,池化操作基于空间金字塔池化模块实现,池化核选用大小为1×1、2×2、3×3和6×6的核心组,池化操作如公式(2)所示:
AvgPool(·)是基于空间金字塔池化模块的平均池化函数,MaxPool(·)是基于空间金字塔池化模块的最大池化函数,是压缩后的通道特征,通过一组卷积、激活(ReLU)、卷积、批正则化和激活操作,生成通道权重矩阵/>
在每个分支网络中计算空间注意力权重矩阵时,在通道维度上对输入的人脸特征f0进行压缩,分别取各个通道的平均值和极值作为特征图,并在通道维度上进行拼接,如公式(3)所示::
优选地,所述的两个分支网络分别利用通道注意力权重、空间注意力权重和正则化后的人脸特征,计算出所述人脸特征中的身份特征和年龄特征,包括:
两个分支网络分别根据通道权重矩阵和空间权重矩阵对正则化后的人脸特征f0进行加权,得到身份特征fid和年龄特征fage;
fid=AidWcf0+AidWcf0
fage=AageWcf0+AageWcf0
Aid是身份权重系数,Aage是年龄权重系数。
优选地,所述的将所述身份特征进行特征铺平生成描述当前图像身份的嵌入特征向量,通过度量所述嵌入特征向量与各个标准身份向量之间的距离值,确定所述待识别的人脸图像对应的身份信息,包括:
将身份特征fid进行特征铺平,并使用一个线性层将身份特征fid的维度调整为512,生成描述当前图像身份的嵌入特征xid;
计算一维向量xid与各个标准身份向量之间的距离值,将最小的距离值与设定的身份判断阈值进行比较,当最小的距离值小于设定的身份判断阈值,则判定待识别的人脸图像属于最小的距离值对应的标准身份向量所代表的身份;
采用余弦人脸识别损失CosFace Loss作为监督函数,通过CosFaceHead将身份特征转化为身份预测概率,再计算交叉熵损失,如公式(5)所示:
优选地,所述的通过线性层将所述年龄特征映射为一组向量,将所述一组向量的取值加在一起,获取所述待识别的人脸图像对应的年龄信息,包括:
使用一个线性层将年龄特征fage维度调整为512,生成描述当前图像年龄的表征xage;
使用多层感知机结构将xage映射为长度100的一组向量,令每个向量的取值在0~1之间,将所有向量的取值加在一起,得到所述待识别的人脸图像对应的年龄;
采用均方差损失和交叉熵损失的加权作为监督函数,均方差损失计算预测的年龄与真实年龄间的误差,年龄损失的计算如公式(6)所示:
由上述本发明的实施例提供的技术方案可以看出,本发明提出的特征分离的人脸识别与年龄估计方法的通过注意力机制的特征分离方法,有效地分离出适合各个子任务的有效特征,提升了各个子任务的特征鲁棒性。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种特征分离的图像人脸识别与年龄估计方法的实现原理图;
图2为本发明实施例提供的一种特征分离的图像人脸识别与年龄估计方法的处理流程图;
图3为本发明实施例提供的一种分支网络的结构图;
图4为本发明实施例提供的一种本发明实施例方法应用于人脸识别乘车闸机系统的示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明主要针对人脸识别和年龄估计中共享特征信息的干扰问题,对共享特征中的任务相关有效信息进行分离,以在多任务模型中,同时实现多个任务的可用性。本发明通过分离身份识别特征中的年龄因素,提升算法模型的对年龄变化的鲁棒性。
本发明实施例提出的一种特征分离的图像人脸识别与年龄估计方法的实现原理图如图1所示,处理流程如图2所示,包括如下的处理过程:
本发明首先构建人脸识别与年龄估计的多任务框架。多任务框架以IRSE(Identity Residual Networks,特征残差网络)50作为主干网络,将待识别的人脸图像输入到多任务框架中,多任务框架将输入的人脸图像转化为一个二维矩阵的人脸特征f∈R^(c×h×w),其中c是输入的待识别的人脸图像的特征通道数,上述二维矩阵为特征图,h是特征图的高,w是特征图的宽。该人脸特征中包含了描述待识别的人脸图像的身份和年龄的信息。
设计基于注意力机制的特征分离网络,将人脸特征f输入到特征分离网络中,通过特征分离网络分离人脸特征f中的身份特征和年龄特征,特征分离基于注意力机制的特征筛选来实现。特征分离网络首先通过一个二维批正则化层对输入的身份特征f进行正则化:
f0=BN(f) (1)
其中BN(·)是二维批正则化函数,f0是正则化后的人脸特征。
而后使用两个相同结构的提取身份特征和提取年龄特征的分支网络,两个分支网络根据学习到的不同的通道注意力权重和空间注意力权重,实现身份特征和年龄特征的分离和提取。本发明实施例提供的一种分支网络的结构如图3所示。在每个分支网络内,分别进行通道注意力操作和空间注意力操作。
计算通道注意力的权重矩阵时,首先在空间维度上对输入特征进行池化来压缩通道信息。为了兼顾特征图中的平均特征和极值特征,池化使用最大池化和平均池化的加权。为了兼顾多种尺度下的信息,池化基于SPP(Spatial Pyramid Pooling,空间金字塔池化)模块实现,池化核选用大小为1×1、2×2、3×3和6×6的核心组。操作如公式(2)所示:
fcin=0.5·AvgPool(f0)+0.5·MaxPool(f0) (2)
其中AvgPool(·)是基于SPP模块的平均池化函数,MaxPool(·)是基于SPP模块的最大池化函数,fcin是压缩后的通道特征。接下来通过一组卷积、激活(ReLU)、卷积、批正则化和激活(Sigmoid)操作,生成通道权重矩阵
计算空间注意力权重矩阵时,首先在通道维度上对输入特征在通道维度上进行压缩。为了兼顾通道上的平均信息和极值信息,分别取各个通道的平均值和极值作为特征图,并在通道维度上进行拼接,如公式(3)所示:
fsin=concat(Avg(f0),Max(f0)) (3)
其中Avg(·)是在通道维度上取平均值,Max(·)是在通道维度上取最大值,是包含两个通道的特征图,两个通道分别代表平均通道特征和最大通道特征。接下来通过一组卷积、批正则化和激活(Sigmoid)操作,生成空间权重矩阵/>
最后,根据通道权重矩阵和空间权重矩阵对正则化后的人脸特征f0进行加权,得到输出特征,如公式(4)所示:
fout=0.5·Wc·f0+0.5·Ws·f0 (4)
fout是特征提取分支的输出的通用表示,身份特征fid、年龄特征fage都是使用公式(4)对未分离的特征f0计算得到的,区别在于两个分支使用了相同结构、但参数不同的两个网络进行提取。
fid=AidWcf0+AidWsf0
fage=AageWcf0+AageWsf0
人脸识别任务,将身份特征fid进行特征铺平,并使用一个线性层将身份特征fid的维度调整为512,生成描述当前图像身份的嵌入特征xid。
本发明采用CosFace Loss(余弦人脸识别损失)作为监督函数,将人脸识别任务建模为分类任务进行训练。即通过CosFaceHead(余弦人脸头)将身份特征转化为身份预测概率,再计算交叉熵损失,如公式(5)所示:
其中,CosFace(·)是CosFace Head中的映射操作,是身份的真实类别。Lcp是交叉熵损失,Lid是计算的身份损失。公式(5)的输入数据xid是一维的向量,fid是二维向量,将fid铺平得到xid。输出是身份损失,是个数值,衡量当前预测的身份置信度和真实标签之间的差异大小。
进行人脸识别身份推理时,计算一维向量xid与各个标准身份向量之间的距离值,将最小的距离值与设定的身份判断阈值进行比较,当最小的距离值小于设定的身份判断阈值,则判定待识别的人脸图像属于最小的距离值对应的标准身份向量所代表的身份。
使用一个线性层将年龄特征fage维度调整为512,生成描述当前图像年龄的表征xage。接着使用一个多层感知机结构由xage获取年龄估计值和年龄组预测。
xage是一个一维向量,通过线性层可以映射为任意长度的一维向量。当映射为长度100的一组向量时,令每个向量的取值在0~1之间,将所有的数值加在一起,就得到了一个年龄,该年龄在0~100之间。年龄分为7组,就是个七分类任务,预测七个概率,最高的就是它年龄组的分类结果。
身份间约束是使用一个梯度翻转层,对身份特征xid进行处理,再使用处理后的特征,来了进行年龄估计和年龄组预测。假设身份特征和年龄特征是可分离的,那么使用反转后的身份特征来学习年龄任务,可以促进两者分离,视作一种约束。约束是在反向传递的过程中体现的。
本发明采用均方差损失(MSE Loss)和交叉熵损失的加权作为监督函数。具体而言,均方差损失直接计算预测的年龄与真实年龄间的误差。在进行年龄估计的同时,预测该年龄所处的年龄组,交叉熵损失计算年龄组的分类误差。年龄损失的计算如公式(6)所示:
上述年龄损失Lage的作用是用于年龄估计任务,衡量当前预测的年龄与标签之间的误差大小。
本发明可以应用于多属性人脸身份验证的场景中。如:图4所示的人脸识别乘车闸机系统中,闸机可以自动识别出老年人和儿童,并估计相应的票价;养老金验证系统中,同时对老人的身份和年龄进行验证,准确验证人群身份;以及应用于智慧城市的发展将在智能家居、无人驾驶、安防监控等多个领域的适龄人机交互场景等等。
综上所述,本发明实施例对于各个子任务的特征,本发明引入注意力机制,通过通道注意力、空间注意力等方法,通过计算各个子任务所需特征在共享特征中的所占权重,将各个子任务的所需特征充分分离,从而实现对子任务特征编码网络进行特征筛选,降低不同任务所需特征信息的干扰,提升各个子任务所需特征的有效性。
年龄估计精度问题。与现有方法不同,本发明采用回归的方法对年龄进行细粒度的预测,而非把年龄估计在某个区间内,计算所预测的年龄和真实年龄的精细误差,将该误差最小化,实现对年龄的精细估计,对此,本发明设计了基于回归的年龄估计损失函数,能够精确地预测出年龄。
人脸识别效率问题。样本匹配、关键点相关性计算等方法受到样本数量、关键点数量的影响,导致整体算法效率低下。本发明基于感受野的方法,直接在特征的感受野上进行人脸区域预测,输出年龄、人脸身份等有效信息。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (4)
1.一种特征分离的图像人脸识别与年龄估计方法,其特征在于,包括:
构建人脸识别与年龄估计的多任务框架,将待识别的人脸图像输入到所述多任务框架中,所述多任务框架将所述人脸图像转化为人脸特征,该人脸特征中包括身份和年龄信息;
设计基于注意力机制的特征分离网络,将所述人脸特征输入到所述特征分离网络中,通过特征分离网络分离所述人脸特征中的身份特征和年龄特征;
将所述身份特征进行特征铺平生成描述当前图像身份的嵌入特征向量,通过度量所述嵌入特征向量与各个标准身份向量之间的距离值,确定所述待识别的人脸图像对应的身份信息;
通过线性层将所述年龄特征映射为一组向量,将所述一组向量的取值加在一起,获取所述待识别的人脸图像对应的年龄信息;
所述的设计基于注意力机制的特征分离网络,将所述人脸特征输入到所述特征分离网络中,通过特征分离网络分离所述人脸特征中的身份特征和年龄特征,包括:
设计基于注意力机制的特征分离网络,将人脸特征f输入到特征分离网络中,特征分离网络通过一个二维批正则化层对输入的身份特征f进行正则化:
f0=BN(f) (1)
其中BN(·)是二维批正则化函数,f0是正则化后的人脸特征;
设计两个相同结构的分别学习身份特征和年龄特征的分支网络,在每个分支网络内分别进行通道注意力操作和空间注意力操作,学习得到通道注意力权重和空间注意力权重;
两个分支网络分别利用通道注意力权重、空间注意力权重和正则化后的人脸特征,计算出所述人脸特征中的身份特征和年龄特征;
所述的在每个分支网络内分别进行通道注意力操作和空间注意力操作,学习得到通道注意力权重和空间注意力权重,包括:
在每个分支网络中计算通道注意力的权重矩阵时,在空间维度上对输入的人脸特征f0进行池化,池化操作基于空间金字塔池化模块实现,池化核选用大小为1×1、2×2、3×3和6×6的核心组,池化操作如公式(2)所示:
AvgPool(·)是基于空间金字塔池化模块的平均池化函数,MaxPool(·)是基于空间金字塔池化模块的最大池化函数,是压缩后的通道特征,通过一组卷积、激活ReLU、卷积、批正则化和激活操作,生成通道权重矩阵/>
在每个分支网络中计算空间注意力权重矩阵时,在通道维度上对输入的人脸特征f0进行压缩,分别取各个通道的平均值和极值作为特征图,并在通道维度上进行拼接,如公式(3)所示:
其中Avg(·)是在通道维度上取平均值,Max(·)是在通道维度上取最大值,是包含两个通道的特征图,两个通道分别代表平均通道特征和最大通道特征,再通过一组卷积、批正则化和激活操作生成空间权重矩阵/>/>
所述的两个分支网络分别利用通道注意力权重、空间注意力权重和正则化后的人脸特征,计算出所述人脸特征中的身份特征和年龄特征,包括:
两个分支网络分别根据通道权重矩阵和空间权重矩阵对正则化后的人脸特征f0进行加权,得到身份特征fid和年龄特征fage;
fid=AidWcf0+AidWsf0
fage=AageWcf0+AageWsf0
Aid是身份权重系数,Aage是年龄权重系数。
2.根据权利要求1所述的方法,其特征在于,所述的构建人脸识别与年龄估计的多任务框架,将待识别的人脸图像输入到多任务框架中,所述多任务框架将所述人脸图像转化为人脸特征,该人脸特征中包括身份和年龄信息,包括:
构建人脸识别与年龄估计的多任务框架,所述多任务框架以IRSE-50作为主干网络,将待识别的人脸图像输入到所述多任务框架中,多任务框架将输入的人脸图像转化为一个二维矩阵的人脸特征f∈R^(c×h×w),其中c是待识别的人脸图像的特征通道数,所述二维矩阵为特征图,h是特征图的高,w是特征图的宽,该人脸特征中包含了描述待识别的人脸图像的身份和年龄的信息。
3.根据权利要求1所述的方法,其特征在于,所述的将所述身份特征进行特征铺平生成描述当前图像身份的嵌入特征向量,通过度量所述嵌入特征向量与各个标准身份向量之间的距离值,确定所述待识别的人脸图像对应的身份信息,包括:
将身份特征fid进行特征铺平,并使用一个线性层将身份特征fid的维度调整为512,生成描述当前图像身份的嵌入特征xid;
计算一维向量xid与各个标准身份向量之间的距离值,将最小的距离值与设定的身份判断阈值进行比较,当最小的距离值小于设定的身份判断阈值,则判定待识别的人脸图像属于最小的距离值对应的标准身份向量所代表的身份;
采用余弦人脸识别损失CosFace Loss作为监督函数,通过CosFaceHead将身份特征转化为身份预测概率,再计算交叉熵损失,如公式(5)所示:
4.根据权利要求1所述的方法,其特征在于,所述的通过线性层将所述年龄特征映射为一组向量,将所述一组向量的取值加在一起,获取所述待识别的人脸图像对应的年龄信息,包括:
使用一个线性层将年龄特征fage维度调整为512,生成描述当前图像年龄的表征xage;
使用多层感知机结构将xage映射为长度100的一组向量,令每个向量的取值在0~1之间,将所有向量的取值加在一起,得到所述待识别的人脸图像对应的年龄;
采用均方差损失和交叉熵损失的加权作为监督函数,均方差损失计算预测的年龄与真实年龄间的误差,年龄损失的计算如公式(6)所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210718470.6A CN115100709B (zh) | 2022-06-23 | 2022-06-23 | 一种特征分离的图像人脸识别与年龄估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210718470.6A CN115100709B (zh) | 2022-06-23 | 2022-06-23 | 一种特征分离的图像人脸识别与年龄估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115100709A CN115100709A (zh) | 2022-09-23 |
CN115100709B true CN115100709B (zh) | 2023-05-23 |
Family
ID=83292973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210718470.6A Active CN115100709B (zh) | 2022-06-23 | 2022-06-23 | 一种特征分离的图像人脸识别与年龄估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115100709B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115601821B (zh) * | 2022-12-05 | 2023-04-07 | 中国汽车技术研究中心有限公司 | 基于表情识别的交互方法 |
CN116311477B (zh) * | 2023-05-15 | 2023-08-01 | 华中科技大学 | 一种面向跨身份一致性的面部运动单元检测模型构建方法 |
CN117079337B (zh) * | 2023-10-17 | 2024-02-06 | 成都信息工程大学 | 一种高精度人脸属性特征识别装置及方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114511901A (zh) * | 2022-01-05 | 2022-05-17 | 浙大城市学院 | 一种年龄分类辅助的跨年龄人脸识别算法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8565539B2 (en) * | 2011-05-31 | 2013-10-22 | Hewlett-Packard Development Company, L.P. | System and method for determining estimated age using an image collection |
CN110610129A (zh) * | 2019-08-05 | 2019-12-24 | 华中科技大学 | 一种基于自注意力机制的深度学习人脸识别系统及方法 |
CN111783532B (zh) * | 2020-05-27 | 2024-05-17 | 东南大学 | 一种基于在线学习的跨年龄人脸识别方法 |
CN112949565B (zh) * | 2021-03-25 | 2022-06-03 | 重庆邮电大学 | 基于注意力机制的单样本部分遮挡人脸识别方法及系统 |
CN113076890B (zh) * | 2021-04-09 | 2022-07-29 | 南京邮电大学 | 基于改进的通道注意力机制的人脸表情识别方法及系统 |
CN113158866A (zh) * | 2021-04-14 | 2021-07-23 | 杭州电子科技大学 | 一种基于注意力机制与数据不平衡的跨年龄人脸识别方法 |
CN113642505B (zh) * | 2021-08-25 | 2023-04-18 | 四川大学 | 一种基于特征金字塔的人脸表情识别方法及装置 |
CN113780211A (zh) * | 2021-09-16 | 2021-12-10 | 河北工程大学 | 一种基于改进型Yolov4-tiny的轻量级飞机检测方法 |
CN113723386A (zh) * | 2021-11-04 | 2021-11-30 | 杭州魔点科技有限公司 | 跨年龄的人脸识别方法、系统、电子装置和存储介质 |
CN114399808A (zh) * | 2021-12-15 | 2022-04-26 | 西安电子科技大学 | 一种人脸年龄估计方法、系统、电子设备及存储介质 |
-
2022
- 2022-06-23 CN CN202210718470.6A patent/CN115100709B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114511901A (zh) * | 2022-01-05 | 2022-05-17 | 浙大城市学院 | 一种年龄分类辅助的跨年龄人脸识别算法 |
Also Published As
Publication number | Publication date |
---|---|
CN115100709A (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115100709B (zh) | 一种特征分离的图像人脸识别与年龄估计方法 | |
CN108171209B (zh) | 一种基于卷积神经网络进行度量学习的人脸年龄估计方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN106599797B (zh) | 一种基于局部并行神经网络的红外人脸识别方法 | |
CN109063565B (zh) | 一种低分辨率人脸识别方法及装置 | |
CN108764059B (zh) | 一种基于神经网络的人体行为识别方法及系统 | |
CN113221641B (zh) | 基于生成对抗网络和注意力机制的视频行人重识别方法 | |
Nasfi et al. | A novel approach for modeling positive vectors with inverted dirichlet-based hidden markov models | |
CN109255289B (zh) | 一种基于统一式生成模型的跨衰老人脸识别方法 | |
CN113158815A (zh) | 一种无监督行人重识别方法、系统及计算机可读介质 | |
CN115527269B (zh) | 一种人体姿态图像智能识别方法及系统 | |
CN116110089A (zh) | 一种基于深度自适应度量学习的面部表情识别方法 | |
CN102184384A (zh) | 一种基于多尺度局部相位量化特征的人脸识别方法 | |
Wang et al. | A novel multiface recognition method with short training time and lightweight based on ABASNet and H-softmax | |
CN114780767A (zh) | 一种基于深度卷积神经网络的大规模图像检索方法及系统 | |
CN114926900B (zh) | 一种前背景分离的人体动作在线检测方法 | |
CN114360058B (zh) | 一种基于行走视角预测的跨视角步态识别方法 | |
CN113887509B (zh) | 一种基于图像集合的快速多模态视频人脸识别方法 | |
CN111507243B (zh) | 一种基于格拉斯曼流形分析的人体行为识别方法 | |
CN114445875A (zh) | 基于深度学习的身份识别与人脸比对系统及训练方法 | |
CN108427967B (zh) | 一种实时影像聚类方法 | |
CN111931788A (zh) | 基于复值的图像特征提取方法 | |
Perez et al. | Face Patches Designed through Neuroevolution for Face Recognition with Large Pose Variation | |
Wang et al. | CNN Network for Head Detection with Depth Images in cyber-physical systems | |
CN112784674B (zh) | 一种基于类中心自适应的重点人员搜索系统跨域识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |