CN112966626A - 人脸识别方法和装置 - Google Patents
人脸识别方法和装置 Download PDFInfo
- Publication number
- CN112966626A CN112966626A CN202110282834.6A CN202110282834A CN112966626A CN 112966626 A CN112966626 A CN 112966626A CN 202110282834 A CN202110282834 A CN 202110282834A CN 112966626 A CN112966626 A CN 112966626A
- Authority
- CN
- China
- Prior art keywords
- face image
- feature
- image
- global feature
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000011176 pooling Methods 0.000 claims description 88
- 239000011159 matrix material Substances 0.000 claims description 51
- 230000001815 facial effect Effects 0.000 claims description 34
- 230000007246 mechanism Effects 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013500 data storage Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 230000004044 response Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 7
- 230000008707 rearrangement Effects 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000005286 illumination Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 210000000887 face Anatomy 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/469—Contour-based spatial representations, e.g. vector-coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/164—Detection; Localisation; Normalisation using holistic features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
提供了一种人脸识别方法和装置。所述方法包括:基于第一人脸图像的局部特征和第二人脸图像的局部特征,分别获取第一人脸图像的第一全局特征和第二人脸图像的第一全局特征;基于第一人脸图像的第一全局特征和第二全局特征获取第一人脸图像的最终全局特征;基于第二人脸图像的第一全局特征和第二全局特征获取第二人脸图像的最终全局特征;基于第一人脸图像的最终全局特征和第二人脸图像的最终全局特征对第一人脸图像和第二人脸图像进行识别,其中,第一人脸图像的第二全局特征是基于第一人脸图像的局部特征获取的,第二人脸图像的第二全局特征是基于第二人脸图像的局部特征获取的。
Description
技术领域
本申请涉及一种人脸识别技术领域,更具体地,涉及一种人脸识别方法和装置。
背景技术
人脸识别技术在我们的日常生活中具有广泛的应用,例如电话解锁、视频监控、在线支付、访问控制、相册管理等。
人脸识别技术主要通过设计有效的网络结构并构造用于特征学习的判别损失函数来获得训练好的网络以执行人脸识别。近年来,由于深度神经网络技术的迅速发展以及可用的大规模人脸数据集,人脸识别准确度得到了显著提高。人脸识别的一些代表性且比较成功的工作包括DeepFace、DeepID、FaceNet、DeepFR、InsightFace、MobileFace等。
现有的大多数人脸识别方法通常都是通过精心设计的CNN网络从全脸图像中提取全局特征。例如,为了验证给定的一对人脸图像是否具有相同的身份,将这两个人脸图像馈送到训练好的CNN分类器中以获取它们的脸部表征,然后将这两个脸部表征进行比较以确定它们是否是同一个人。由于CNN参数在训练后是固定的,因此被比较人脸图像无论与哪个人脸图像进行比较,通过训练好的CNN网络获取到的被比较人脸图像的表征都保持固定。为了将被比较人脸图像与所有其他人的人脸图像区分开,人脸图像的表征必须具有足够的区分性,这是非常具有挑战性的。为了使得人脸图像的表征具有足够的区分性,可通过比较器网络来计算配对图像之间的相似度,然而,该方法需要首先进行面部特征点检测,以进行基于特征点的特征比较,这是一项繁琐的工作。另外,可通过对比卷积机制来提取人脸图像对之间的不同特征来提高人脸识别准确度,然而该方法忽略了被比较人脸对之间相似特征的作用,尤其是当两个人脸图像来自同一身份时。另外,可通过利用注意力机制来提高人脸识别的准确度,然而现有的通过自注意力机制来提高人脸识别准确度的方法仍然存在被比较人脸图像的表征固定的问题,且仍然忽略了被比较图像对之间的相似特征的作用。
如何考虑被比较人脸图像对之间的相似特征对提高人脸识别准确度的作用以进一步提高人脸识别准确度是本发明亟待解决的问题。
发明内容
本发明的目的在于提供一种人脸识别方法和装置,以至少解决上述相关技术中的问题,也可不解决任何上述问题。
根据本发明的示例性实施例,提供一种人脸识别方法,所述方法包括:基于第一人脸图像的局部特征和第二人脸图像的局部特征,分别获取第一人脸图像的第一全局特征和第二人脸图像的第一全局特征;基于第一人脸图像的第一全局特征和第二全局特征获取第一人脸图像的最终全局特征;基于第二人脸图像的第一全局特征和第二全局特征获取第二人脸图像的最终全局特征;基于第一人脸图像的最终全局特征和第二人脸图像的最终全局特征对第一人脸图像和第二人脸图像进行识别,其中,第一人脸图像的第二全局特征是基于第一人脸图像的局部特征获取的,第二人脸图像的第二全局特征是基于第二人脸图像的局部特征获取的。
由于用于进行人脸识别的第一人脸图像的最终全局特征与第二人脸图像相关,用于进行识别的第二图像的最终全局特征与第一图像相关,因此,本公开的人脸识别方法可以注意到图像对之间的特征关联,从而能够提高人脸识别的准确度。
可选地,基于第一人脸图像的局部特征和第二人脸图像的局部特征,分别获取第一人脸图像的第一全局特征和第二人脸图像的第一全局特征的步骤包括:基于第一人脸图像的局部特征和第二人脸图像的局部特征进行注意力池化处理,以用于分别获得第一人脸图像的第一全局特征和第二人脸图像的第一全局特征。
通过注意力池化处理,可使得第一人脸图像的第一全局特征与第二人脸图像相关联,并使得第二人脸图像的第一全局特征与第一人脸图像相关联,从而能够更多地关注比较图像对之间相似特征的比较,从而提高识别准确率。
可选地,所述第一人脸图像的局部特征为嵌入位置信息的第一人脸图像的局部特征;所述第二人脸图像的局部特征为嵌入位置信息的第二人脸图像的局部特征。
通过将位置信息嵌入人脸图像的局部特征,以基于嵌入了位置信息的人脸图像的局部特征执行池化处理,使得可保证人脸图像对相应位置的元素对应,从而能够更多地反映图像对相似部分的关联。
可选地,基于第一人脸图像的局部特征和第二人脸图像的局部特征进行注意力池化处理,以用于分别获得第一人脸图像的第一全局特征和第二人脸图像的第一全局特征的步骤包括:基于第一人脸图像的局部特征和第二人脸图像的局部特征,利用多头注意力机制分别获取第一人脸图像针对第二人脸图像的第一注意力池化特征和第二人脸图像针对第一人脸图像的第二注意力池化特征;基于第一注意力池化特征,获取第一人脸图像的第一全局特征;基于第二注意力池化特征,获取第二人脸图像的第一全局特征。
通过交叉注意力机制,本公开的人脸识别方法可以注意到图像对之间的最相似特征之间的关联,从而能够提高人脸识别的准确度。例如,当比较来自同一身份但具有不同照度、姿势或年龄的图像对时,更容易从图像对中找出相同的特征,另一方面,如果比较的图像来自不同的身份,则注意最相似的面部区域之间的特征比较,将使得可以获得更可靠的识别结果。
可选地,基于第一人脸图像的局部特征和第二人脸图像的局部特征,利用多头注意力机制分别获取第一人脸图像针对第二人脸图像的第一注意力池化特征和第二人脸图像针对第一人脸图像的第二注意力池化特征的步骤包括:将第二人脸图像的局部特征乘以与查询(Query)相应的第一查询矩阵获取第一查询向量、将第一人脸图像的局部特征乘以与键(KEY)相应的第一键矩阵获取第一键向量,将第一人脸图像的局部特征乘以与值(Value)相应的第一值矩阵获取第一值向量,并基于获取的第一查询向量、第一键向量以及第一值向量获取第一人脸图像针对第二人脸图像的注意力池化特征;以及将第一人脸图像的局部特征乘以与查询相应的第二查询矩阵获取第二查询向量、将第二人脸图像的局部特征乘以与键相应的第二键矩阵获取第二键向量,将第二人脸图像的局部特征乘以与值(Value)相应的第二值矩阵获取第二值向量,并基于获取的第二查询向量、第二键向量以及第二值向量获取第二人脸图像针对第一人脸图像的注意力池化特征。
通过查询向量实现交叉注意力机制,可保证第一人脸图像的第一全局特征和第二人脸图像的第一全局特征之间分别关联对方图像局部特征,使得可以更多地关注人脸图像对相似部分之间的比较,从而提高识别成功率。
可选地,分别获取第一人脸图像的第一全局特征和第二人脸图像的第一全局特征的步骤包括:使用同一网络或者不同的网络分别获取第一人脸图像的第一全局特征和第二人脸图像的第一全局特征。
通过同一网络,可以节省软硬件开销,通过不同网络分别获取第一人脸图像的第一全局特征和第二人脸图像的第一全局特征,可以提高识别速度。
根据本发明的示例性实施例,提供一种人脸识别装置,所述装置包括:第一全局特征获取模块:被配置为基于第一人脸图像的局部特征和第二人脸图像的局部特征,分别获取第一人脸图像的第一全局特征和第二人脸图像的第一全局特征;最终全局特征获取模块:被配置为基于第一人脸图像的第一全局特征和第二全局特征获取第一人脸图像的最终全局特征,以及基于第二人脸图像的第一全局特征和第二全局特征获取第二人脸图像的最终全局特征;识别模块:被配置为基于第一人脸图像的最终全局特征和第二人脸图像的最终全局特征对第一人脸图像和第二人脸图像进行识别,其中,第一人脸图像的第二全局特征是基于第一人脸图像的局部特征被获取的,第二人脸图像的第二全局特征是基于第二人脸图像的局部特征获取的。
由于用于进行识别的第一人脸图像的最终全局特征与第二人脸图像相关,用于进行识别的第二图像的最终全局特征与第一图像相关,因此,本公开的人脸识别方法可以注意到图像对之间的特征关联,从而能够提高人脸识别的准确度。
可选地,第一全局特征获取模块被配置为:基于第一人脸图像的局部特征和第二人脸图像的局部特征进行注意力池化处理,以用于分别获得第一人脸图像的第一全局特征和第二人脸图像的第一全局特征。
通过注意力池化处理,可使得第一人脸图像的第一全局特征与第二人脸图像相关联,并使得第二人脸图像的第一全局特征与第一人脸图像相关联,从而能够更多地关注比较图像对之间相似特征的比较,从而提高识别准确率。
可选地,所述第一人脸图像的局部特征为嵌入位置信息的第一人脸图像的局部特征;所述第二人脸图像的局部特征为嵌入位置信息的第二人脸图像的局部特征。
通过将位置信息嵌入人脸图像的局部特征,以基于嵌入了位置信息的人脸图像的局部特征执行池化处理,使得可保证人脸图像对相应位置的元素对应,从而能够更多地反映图像对相似部分的关联。
可选地,第一全局特征获取模块被配置为:基于第一人脸图像的局部特征和第二人脸图像的局部特征,利用多头注意力机制分别获取第一人脸图像针对第二人脸图像的第一注意力池化特征和第二人脸图像针对第一人脸图像的第二注意力池化特征;基于第一注意力池化特征,获取第一人脸图像的第二全局特征;基于第二注意力池化特征,获取第二人脸图像的第二全局特征。
通过交叉注意力机制,本公开的人脸识别方法可以注意到图像对之间的最相似特征之间的关联,从而能够提高人脸识别的准确度。例如,当比较来自同一身份但具有不同照度、姿势或年龄的图像对时,更容易从图像对中找出相同的特征,另一方面,如果比较的图像来自不同的身份,则注意最相似的面部区域之间的特征比较,将使得可以获得更可靠的识别结果。
可选地,第一全局特征获取模块包括交叉注意力模块,被配置为:将第二人脸图像的局部特征乘以与查询相应的第一查询矩阵获取第一查询(Query)向量、将第一人脸图像的局部特征乘以与键(KEY)相应的第一键矩阵获取第一键向量,将第一人脸图像的局部特征乘以与值(Value)相应的第一值矩阵获取第一值向量,并基于获取的第一查询向量、第一键向量以及第一值向量计算第一人脸图像针对第二人脸图像的注意力池化特征;以及将第一人脸图像的局部特征乘以与查询相应的第二查询矩阵获取第二查询向量、将第二人脸图像的局部特征乘以与键相应的第二键矩阵获取第二键向量,将第二人脸图像的局部特征乘以与值(Value)相应的第二值矩阵获取第二值向量,并基于获取的第二查询向量、第二键向量以及第二值向量计算第二人脸图像针对第一人脸图像的注意力池化特征。
通过查询向量实现交叉注意力机制,可保证第一人脸图像的第一全局特征和第二人脸图像的第一全局特征之间分别关联对方图像局部特征,使得可以更多地关注人脸图像对相似部分之间的比较,从而提高识别成功率。
可选地,第一全局特征获取模块包括:第一人脸图像第一全局特征获取模块,被配置为获取第一人脸图像的第一全局特征;第二人脸图像第一全局特征获取模块,被配置为获取第二人脸图像的第一全局特征。
通过不同的模块分别获取第一人脸图像的第一全局特征和第二人脸图像的第一全局特征实现人脸图像的并行处理,可以提高人脸识别的速度。
根据本发明的示例性实施例,提供一种存储有计算机程序的计算机可读存储介质,其中,当所述计算机程序被处理器执行时实现如上所述的人脸识别方法。
根据本发明的示例性实施例,提供一种数据存储装置,所述装置包括:处理器;存储器,存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的人脸识别方法。
根据本公开的人脸识别方法和装置使得能够更多地关注用于进行识别的图像对之间的最相似特征之间的关联,从而提高人脸识别的准确率。
附图说明
通过下面结合示例性地示出一例的附图进行的描述,本发明的上述和其他目的和特点将会变得更加清楚,其中:
图1是示出根据本公开的实施例的人脸识别方法的流程图;
图2是示出根据本公开的实施例的基于交叉注意力机制对第一人脸图像局部特征和第二人脸图像的局部特征进行注意力池化处理的示例的示图;
图3是根据本公开的实施例的人脸识别方法的示意图;
图4是示出基于Baseline人脸识别方法、自注意力人脸识别方法以及根据本公开的实施例的人脸识别方法的人脸图像的可视化响应的示图;
图5是示出根据本公开的实施例的人脸识别装置的框图。
具体实施方式
下文中,参照附图对本公开的各种实施例进行描述,其中,相同的标号用于表示相同或相似的元件、特征和结构。然而,不旨在由本文所述的各种实施例将本公开限制于具体实施例,并且旨在于:本公开覆盖本公开的所有修改、等同物和/或替代物,只要它们在所附权利要求及其等同物的范围内。在以下说明书和权利要求书中使用的术语和词语不限于它们的词典含义,而是仅被用于使得能够清楚和一致地理解本公开。因此,对于本领域技术人员应显而易见的是:提供本公开的各种实施例的以下描述仅用于说明的目的,而不是为了限制由所附权利要求和它们的等同物限定的本公开的目的。
应理解,除非上下文另外明确指出,否则单数形式包括复数形式。本文使用的术语“包括”、“包含”和“具有”指示公开的功能、操作或元件的存在,但不排除其它功能、操作或元件。
例如,表述“A或B”、或“A和/或B中的至少一个”可指示A和B、A或者B。例如,表述“A或B”或“A和/或B中的至少一个”可指示(1)A、(2)B或(3)A和B两者。
在本公开的各种实施例中,意图是:当组件(例如,第一组件)被称为与另一组件(例如,第二组件)“耦接”或“连接”或者被“耦接”或者“连接”到另一组件(例如,第二组件)时,所述组件可被直接连接到所述另一组件,或者可通过另一组件(例如,第三组件)被连接。相比之下,当组件(例如,第一组件)被称为与另一组件(例如,第二组件)“直接耦接”或“直接连接”或者被直接耦接到或直接连接到另一组件(例如,第二组件)时,在所述组件和所述另一组件之间不存在另一组件(例如,第三组件)。
在描述本公开的各种实施例中使用的表述“被配置为”可以例如根据情况与诸如“适用于”、“具有…的能力”、“被设计为”、“适合于”、“被制造为”和“能够”的表述互换使用。术语“被配置为”可不一定指示按照硬件“被专门设计为”。相反,在一些情况下的表述“被配置为...的装置”可指示所述装置和另一装置或者部分“能够…”。例如,表述“被配置为执行A、B和C的处理器”可指示用于执行相应操作的专用处理器(例如,嵌入式处理器)或用于通过执行存储在存储器装置中的至少一个软件程序来执行相应的操作的通用处理器(例如,中央处理单元CPU或应用处理器(AP))。
本文使用的术语在于描述本公开的某些实施例,但并不旨在限制其它实施例的范围。除非本文另外指出,否则本文使用的所有术语(包括技术或科学术语)可具有与本领域技术人员通常理解的含义相同含义。通常,词典中定义的术语应被视为具有与相关领域中的上下文含义相同的含义,并且,除非本文明确地定义,否则不应被不同地理解或被理解为具有过于正式的含义。在任何情况下,本公开中定义的术语也不旨在被解释为排除本公开的实施例。
为了便于解释本公开,首先对人脸图像的局部特征表征方法进行说明,本领域技术人员应当理解,本文所述的人脸的局部特征表示人脸图像的局部特征表征或局部特征图,例如可以以矩阵的形式表示。
作为示例,可以利用卷积网络获取人脸图像的局部特征表征。
作为示例,可以以ResNet作为骨干网络对人脸图像的局部特征进行提取。例如,对于具有112×112大小的人脸图像,从卷积网络最后一个层输出的特征图可以具有C×7×7(C为信道大小,例如C=512)的大小,可进一步利用另一卷积层将C×7×7大小的特征图处理为C×5×5大小的特征图。
作为示例,也可以通过卷积网络直接获取具有C×5×5大小的特征图。经过卷积处理,人脸图像被划分为5×5的子区域,因此,可使用C×5×5大小的特征图来描述人脸图像。
进一步地,通过将获取的局部特征输入全连接层,即可获得人脸图像的全局特征或全局特征表征。
本领域技术人员应当理解,本文中的全局特征表示人脸图像的全局特征表征或全图特征图,例如可以以矩阵形式表示。
图1示出了根据本公开的实施例的人脸识别方法的流程图。
参照图1,在步骤S101,基于第一人脸图像的局部特征和第二人脸图像的局部特征,分别获取第一人脸图像的第一全局特征和第二人脸图像的第一全局特征。
作为示例,可使用同一网络来获取第一人脸图像的第一全局特征和第二人脸图像的第一全局特征;或者使用第一网络获取第一人脸图像的第一全局特征,使用第二网络获取第二人脸图像的第一全局特征,其中第一网络和第二网络可以相同或者不同。
通过同一网络获取人脸图像的第一全局特征可以节省软硬件开销,通过两个网络分别获取第一人脸图像的第一全局特征和第二人脸图像的第一全局特征可以提高人脸识别的速度。
作为示例,基于第一人脸图像的局部特征和第二人脸图像的局部特征,分别获取第一人脸图像的第一全局特征和第二人脸图像的第一全局特征的步骤包括:基于第一人脸图像局部特征和第二人脸图像的局部特征,进行注意力池化处理,以用于分别获得第一人脸图像的第一全局特征和第二人脸图像的第一全局特征。
作为示例,第一人脸图像的局部特征为嵌入位置信息的第一人脸图像的局部特征;第二人脸图像的局部特征为嵌入位置信息的第二人脸图像的局部特征。例如,可对第一人脸图像的局部特征嵌入位置信息获取嵌入位置信息的第一人脸图像的局部特征,对第二人脸图像的局部特征嵌入位置信息获取嵌入位置信息的第二人脸图像的局部特征。下面参照图2对注意力池化操作进行详细描述。
图2是示出根据本公开的实施例的基于交叉注意力机制对第一人脸图像局部特征和第二人脸图像的局部特征进行注意力池化处理的示例的示图。
参照图2,可通过将嵌入了位置信息的人脸图像A(以下也可被称为第一人脸图像或图像A)的局部特征和嵌入了位置信息的人脸图像B(以下也可被称为第二人脸图像或图像B)的局部特征输入左侧的多头注意力块来获得第一人脸图像针对第二人脸图像的注意力池化特征,将嵌入了位置信息的第一人脸图像的局部特征和嵌入了位置信息的第二人脸图像的局部特征输入右侧的多头注意力块来获得第二人脸图像针对第一人脸图像的注意力池化特征。
作为示例,可通过左侧注意力块的多头注意力层获取第一人脸图像针对第二人脸图像的注意力池化特征,并可通过右侧注意力块的多头注意力层获取第二人脸图像针对第一人脸图像的注意力池化特征。
作为示例,通过左侧注意力块的后续各层对第一人脸图像针对第二人脸图像的注意力池化特征进行处理并将处理结果输入第一全连接层可获得第一人脸图像的第一全局特征。
作为示例,通过右侧注意力块的后续各层对第二人脸图像针对第一人脸图像的池化特征进行处理,并将处理结果输入第二全连接层,可获得第二人脸图像的第一全局特征,其中,第一全连接层和第二全连接层可以为同一全连接层或分别独立的两个全连接层。
左侧的多头注意力块与右侧的多头注意力块具有与现有技术中的多头注意力块(或标准变形器(transformer)块)相同的结构,例如,可由多头注意力层、残差连接和层归一化(Add&Norm)层、前馈(Feed Forward)层构成,均是基于多头注意力机制来计算注意力。
对于现有技术中的基于自注意力机制的多头注意力块,输入多头注意力层的Query(查询)向量、键(Key)向量、值(Value)向量均相应于图像自身的局部特征,即Query(查询)向量、键(Key)向量、值(Value)向量通过将人脸图像的局部特征表征分别乘以矩阵Wq、Wk、Wvq来获得Query向量Q、Key向量K、Value向量V。
也就是说,当基于自注意力机制获取人脸图像的池化特征时,获取的第一图像的池化特征仅与嵌入了位置信息的第一人脸图像的局部特征有关,而与比较人脸图像的局部特征无关,也就是说,无论与哪个人脸图像进行比较,获取的该图像的池化特征是固定的。
而在本公开中,输入多头注意力层的Query向量不是相应于图像自身的局部特征,而是相应于比较图像的局部特征,也就是说输入左侧多头注意力块的多头注意力层的Query向量相应于第二人脸图像的局部特征,而输入右侧多头注意力块的多头注意力层的Query向量相应于第一人脸图像的局部特征。也就是说,本公开是基于交叉注意力机制来获取第一人脸图像的池化特征和第二人脸图像的池化特征。
本领域技术人员应当理解,如上所述,本公开基于交叉注意力机制获取人脸的池化特征的方案与现有技术中基于注意力机制获取人脸图像的池化特征的区别在于:本公开在获取第一人脸图像的注意力池化特征时,输入多头注意力层的Q向量相应于嵌入了位置信息的第二人脸图像的局部特征,在获取第二人脸图像的注意力池化特征时,输入多头注意力层的Q向量相应于嵌入了位置信息的第一人脸图像的局部特征;而在现有技术中,基于自注意力机制获取第一人脸图像的注意力池化特征时,输入多头注意力层的Q向量相应于第一人脸图像的局部特征,基于自注意力机制获取第二人脸图像的注意力池化特征时,输入多头注意力层的Q向量对应于第二人脸图像的局部特征。
也就是说,根据本公开的实施,可基于嵌入位置信息的第一人脸图像的局部特征和嵌入位置信息的第二人脸图像的局部特征,利用多头注意力机制分别获取第一人脸图像针对第二人脸图像的第一注意力池化特征以及第二人脸图像针对第一人脸图像的第二注意力池化特征。
作为示例,可将第二人脸图像的局部特征乘以与查询(Query)相应的第一查询矩阵获取第一查询向量、将第一人脸图像的局部特征乘以与键(Key)相应的第一键矩阵获取第一键向量,将第一人脸图像的局部特征乘以与值(Value)相应的第一值矩阵获取第一值向量,并基于获取的第一查询向量、第一键向量以及第一值向量获取第一人脸图像针对第二人脸图像的注意力池化特征(本文中也可称为第一注意力池化特征);将第一人脸图像的局部特征乘以与查询相应的第二查询矩阵获取第二查询向量、将第二人脸图像的局部特征乘以与键相应的第二键矩阵获取第二键向量,将第二人脸图像的局部特征乘以与值(Value)相应的第二值矩阵获取第二值向量,并基于获取的第二查询向量、第二键向量以及第二值向量计算第二人脸图像针对第一人脸图像的注意力池化特征(本文中也可称为第二注意力池化特征)。
本领域技人员应当理解,如果通过同一网络分别获取第一注意力池化特征和第二注意力池化特征,以“第一”修饰的矩阵与以“第二”修饰的矩阵对应相同,例如,第一查询矩阵和第二查询矩阵相同。
作为示例,如果通过独立的两个网络分别获取第一注意力池化特征和第二注意力池化特征,则以“第一”修饰的矩阵与以“第二”修饰的矩阵对应不同,例如,第一查询矩阵和第二查询矩阵是不同的矩阵。
作为另一示例,如果通过独立的两个网络分别获取第一注意力池化特征和第二注意力池化特征,则以“第一”修饰的矩阵与以“第二修饰的矩阵”也可以相同,例如,第一查询矩阵和第二查询矩阵是相同的矩阵。
为了便于解释,将图像的局部特征处理为具有5×5的大小,经过特征重排列(feature rearrange)处理表示为具有1×25的大小,然后输入到图2中的多头注意力块。
作为示例,可以通过卷积神经网络获取具有5×5大小的图像A的局部特征图,然后将A的局部特征图进行特征重排列(feature rearrange)处理,获得以{v1,v2,…,v25},vi∈RC表示的局部特征图,然后将{v1,v2,…,v25}嵌入与局部特征相应的位置信息来获取嵌入了位置信息的A的局部特征HA,i={h1A,h2A,…,h25A。图像B的局部特征HB,i={h1B,h2B,…,h25B可以通过类似的方式获得。
参照图2,可将A的局部特征以及B的局部特征表征输入左侧的注意力块来获取图像A针对图像B的注意力池化特征。具体地,通过将分别乘以矩阵Wk、矩阵Wv获得Key向量KA和Value向量VA,将乘以矩阵Wq获得Query向量QB,并将获得的Key向量KA、Value向量VA和Query向量QB(依次相应于左侧注意力块中的K、V和Q)输入左侧注意力块的多头注意力层进行处理以获得A针对B的注意力池化特征,然后经过左侧注意力块的其他层的处理,获得图像A的基于交叉注意力的局部特征表征。
本领域技术人员应当理解,输入左侧注意力块的图像的局部表征仅是基于图像自身获得图像的局部特征(为了便于描述,以下称为第一局部特征),例如,可基于图像A,通过卷积网络获取图像A的局部特征(即图像A的第一局部特征),或者基于图像B通过卷积网络获取的图像B的局部特征(即图像B的第一局部特征),而经过左侧注意力块的处理输出的局部特征为基于图像A的第一局部特征和图像B的第一局部特征获取的图像A的基于交叉注意力机制的局部特征表征(为了便于描述,以下称为图像A的第二局部特征)。
类似地,将B的局部特征表征(图像B第一局部特征) 以及A的第一局部特征表征输入右侧的注意力块来获取图像B针对图像A的注意力池化特征。具体地,通过将分别乘以矩阵Wk、Wv获得Key向量KB和Value向量VB,将乘以矩阵Wq获得Query向量QA,并将获得的Key向量KA、Value向量VA和Query向量QB(依次相应于右侧注意力块中的K、V和Q)输入右侧注意力块的多头注意力层进行处理以获得图像B针对图像A的注意力池化特征,然后经过右侧注意力块的其它层的处理,获得图像B的基于交叉注意力机制的局部特征表征(可称为图像B的第二局部特征)。
作为示例,图2中的左侧多头注意力层的输出和右侧多头注意力层中的一个头的输出可以表示为下面的等式(1):
其中,d表示缩放因子。
作为示例,可以基于正弦函数和余弦函数来对人脸图像的局部特征进行位置编码以获得嵌入了位置信息的人脸图像的局部特征。
通过嵌入位置信息来获取嵌入了位置信息的人脸图像的局部特征可以采用现有技术中的任何位置编码方法来实现。
作为示例,嵌入了位置信息的人脸图像的局部特征表征可以表示为:
hk=Wvvk+Wppk
其中,vk pk分别表示人脸图像的局部特征元素和位置嵌入元素,k=1,2,…,25,Wv、Wp分别表示与局部特征元素相应的权重、与位置嵌入元素相应的权重。
作为另一示例,输入到多头注意力块的人脸图像的第一局部特征也可以是未进行位置编码或位置嵌入的人脸的局部特征。即输入到多头注意力块的局部特征可以为{v1,v2,…,v25},vi∈RC。作为示例,可基于第一人脸图像针对第二人脸图像的注意力池化特征(即左侧注意力块的输出)来获得第一人脸图像的第二局部特征。可基于获取的第二人脸图像针对第一人脸图像的注意力池化特征(即右侧注意力块的输出)来获得第二人脸图像的第二局部特征。
具体地,以左侧的多头注意力块为例,通过多头注意力层获取到图像A针对图像B的注意力池化特征之后,通过多头注意力块的后续层的处理,最终输出图像A的第二局部特征。
作为示例,左侧注意力块的参数和右侧注意力块的参数可以相同或者不同。
虽然图2示出了两个多头注意力块,但是也可以使用一个多头注意力块对第一人脸图像和第二人脸图像分别进行注意力池化处理。
作为示例,可以使用一个多头注意力块来获取图像A的注意力池化特征以及图像B的注意力池化特征,例如,通过多头注意力块首先获取图像A针对图像B的注意力池化特征,然后获取图像B针对图像A的注意力池化特征。
以上描述了基于第一人脸图像的局部特征和第二人脸图像的局部特征,利用多头注意力机制分别获取第一人脸图像针对第二人脸图像的第一注意力池化特征和第二人脸图像针对第一人脸图像的第二注意力池化特征的过程。
在获取到人脸图像的注意力池化特征之后,然后可进一步获得人脸图像的第一全局特征。
作为示例,可通过将图像A的第二局部特征输入全连接层来获得图像A的第一全局特征。由于基于交叉注意力机制获得到图像A的第二局部特征,因此图像A的第一全局特征反映了图像A与图像B之间的关联性。
类似地,通过将图像B的第二局部特征输入全连接层来获得图像B的第一全局特征。由于基于交叉注意力机制获得到图像B的第二局部特征,因此图像B的第一全局特征反映了图像A与图像B之间的关联性。
返回图1,在步骤S102,基于第一人脸图像的第一全局特征和第二全局特征提取第一人脸图像的最终全局特征。
作为示例,可以通过将第一人脸图像的第一全局特征和第二全局特征进行级联来获取第一人脸图像的最终全局特征。
作为示例,可基于第一人脸图像的第一局部特征获得第一人脸图像的第二全局特征,也就是说,第一人脸图像的第二全局特征是基于第一人脸图像的第一局部特征获得的,其与第二人脸图像无关,这与上文所述的第一人脸图像的第一全局特征不同,如上所述第一人脸图像的第一全局特征与第二人脸图像相关。
在步骤S103,基于第二人脸图像的第一全局特征和第二全局特征提取第二人脸图像的最终全局特征。
作为示例,可以通过将第二人脸图像的第一全局特征和第二全局特征进行级联来获取第二人脸图像的最终全局特征。
作为示例,可基于第二人脸图像的第一局部特征获得第二人脸图像的第二全局特征,也就是说,第二人脸图像的第二全局特征是基于第二人脸图像的第一局部特征获得的,其与第一人脸图像无关,这与上文所述的第二人脸图像的第一全局特征不同,如上所述第二人脸图像的第一全局特征与第二人脸图像相关。
作为示例,可以顺序、并行或者反向执行步骤S102和步骤S103。在步骤S104,基于第一人脸图像的最终全局特征和第二人脸图像的最终全局特征对第一人脸图像和第二人脸图像进行识别。
作为示例,可以根据预设规则基于第一人脸图像的最终全局特征和第二人脸图像的最终全局特征识别第一人脸图像和第二人脸图像是否来自同一身份。
图3示出了根据本公开的实施例的执行人脸识别方法的示意图。
参照图3,为了便于描述,以下将图3左侧上部的第一张人脸图像和左侧下部的第二张人脸图像称为第一人脸图像(或人脸图像A)和第二人脸图像(或人脸图像B)。
首先,可通过例如卷积网络提取第一人脸图像和第二图像的第一局部特征,图3虽然示出通过两个相同的网络分别获取第一人脸图像的第一局部特征和第二人脸的图像的第一局部特征,但是也可以通过同一个网络分别获取第一人脸的第一局部特征和第二人脸的第一局部特征。
然后可将第一人脸图像的第一局部特征输入全连接层FC来获取第一人脸图像的第二全局特征gA。
可对第一人脸图像的局部特征执行特征重排(feature rearrange)处理并进行位置嵌入操作来获得嵌入位置信息的第一人脸图像的第一局部特征表征,然后基于交叉注意力机制获取第一人脸图像的第二局部特征具体过程与上述获取第二局部特征的过程类似,在此不做赘述。
将第一人脸图像的第二局部特征输入全连接层FC来获取第一人脸图像的第一全局特征。
通过利用级联层对第一人脸图像的第一全局特征和第二全局特征执行级联操作获得第一人脸图像的最终全局特征。
以上参照图3描述了第一人脸图像的最终全局特征的获取过程。
图3中获取第二人脸图像的最终全局特征的过程与获取第一人脸图像的全局特征的过程类似,在此不做赘述。
在获取到第一人脸图像的最终全局特征和第二人脸的最终全局特征之后,即可基于最终全局特征确定第一人脸图像和第二人脸图像是否是相同身份。
执行上述人脸识别方法的网络的相关参数可以通过利用二值熵损失函数和附加角裕度损失函数来联合训练。
具体地,可以将用于训练的图像对的最终全局特征中的元素对应相乘(element-wise multiplied),并输入到线性层来做二值预测以确定图像对是否来自同一身份。二值熵损失函数可表示为以下等式2:
其中,j表示样本对序号,N表示小批训练样本中的图像对的数量,lj为指示图像对是否属于同一身份的真实标签,lj=1表示正图像对,lj=0表示负图像对,sj为线性层的输出表示预测概率。
可以将如下等式(3)所示的附加角裕度损失函数用于身份分类:
其中,2N是小批训练样本中的图像对的数量,θ为特征和相应权重之间的角度,s为尺寸因子,m为阈值因子,k表示样本序号,yk表示真值样本序号。
可以使用如下函数端对端训练整个网络:
min(αL1+L2)
其中,α为平衡两个L1函数和L2函数的系数,例如可以另α=10。
根据本公开的示例,在进行人脸识别时,无需复杂设计的人脸对齐模块,即无需对人脸对进行对齐处理,就可以基于交叉注意力机制潜在地了解人脸图像对的局部对应关系。
图4是示出基于Baseline人脸识别方法、自注意力人脸识别方法以及根据本公开的实施例的人脸识别方法的人脸图像的可视化响应的示图。
参照图4,第一行显示了基于Baseline的特征响应,第二行显示基于自注意力的特征响应,最后一行是基于本公开的交叉注意力的特征响应。与第一和第二行相比,本公开的方法将在比较的人脸图像对的最相似的人脸部分上具有较高的特征响应。具体地,以左侧第二对人脸图像为例,在眼睛周围具有较高的响应,这表示眼睛周围的特征更相似。从这些显着区域进行特征提取和比较,更可判断具有不同表情或姿势的人脸是否属于同一身份,对于不同身份的图像,在相似的面部区域也有较高的响应,因此更可将不同的身份区分开,从而提高人脸识别的准确性。相反,基于其他人脸识别方法的人脸图像可视化响应未显示此类对应关系。
实际上,根据本公开的实施例,基于比较图像(例如,图像B)的查询向量(或比较图像的第一局部特征)来在计算人脸图像(例如,图像A)的池化特征,比较图像(例如,图像B)的查询向量可以引导注意力权重的计算将重点放在与比较图像对最相似的特征区域上。对于同一个人但姿势、照度或年龄不同的图像对,将使最相似的面部部位的特征响应更高。对于不同身份的图像对,强调相似特征之间的比较使得可以进行更准确的识别。
即使对于相似度很小的图像,与来自图像A背景的特征相比,图像B的面部区域中的特征也将与图像A的面部区域中的特征更相似,这将导致特征在整个面部区域的响应更高,即可以更加关注面部区域之间的比较,排除剩余背景信息的影响。
以上参照图1至图4对根据本公开的实施例的人脸识别方法进行了描述,下面将参照图5对根据本公开的实施例的人脸识别装置进行说明。
本领域技术人员应当理解,下文中所使用的术语具有与上文中的相应术语具有相同或相似的含义。
图5是示出根据本公开的实施例的人脸识别装置的框图。
参照图5,人脸识别装置500可包括第一全局特征获取模块501、最终全局特征获取模块502、识别模块503。本领域技术人员应当理解,人脸识别装置500可以另外地包括其他组件、可将人脸识别装置500的至少一个组件组合为一个组件或者将一个组件拆分为多个组件,在拆分或组合后获得的组件均能实现拆分或组合前组件的功能。
作为示例,第一全局特征获取模块501可被配置为基于第一人脸图像的局部特征和第二人脸图像的局部特征,分别获取第一人脸图像的第一全局特征和第二人脸图像的第一全局特征。
作为示例,第一全局特征获取模块501可包括:第一人脸图像第一全局特征获取模块(未示出),被配置为获取第一人脸图像的第一全局特征;第二人脸图像第一全局特征获取模块(未示出),被配置为获取第二人脸图像的第一全局特征的模块。
作为示例,最终全局特征获取模块502可被配置为:基于第一人脸图像的第一全局特征和第二全局特征获取第一人脸图像的最终全局特征,以及基于第二人脸图像的第一全局特征和第二全局特征获取第二人脸图像的最终全局特征,其中,第一人脸图像的第二全局特征是基于第一人脸图像的局部特征被获取的,第二人脸图像的第二全局特征是基于第二人脸图像的局部特征获取的。
作为示例,最终全局特征获取模块502可包括第一人脸图像级联层(未示出),被配置为获取基于第一人脸图像的第一全局特征和第二全局特征获取第一人脸图像的最终全局特征;第二人脸图像级联层(未示出),被配置为基于第二人脸图像的第一全局特征和第二全局特征获取第二人脸图像的最终全局特征。
作为示例,第一全局特征获取模块501可被配置为:基于第一人脸图像的局部特征和第二人脸图像的局部特征进行注意力池化处理,以用于分别获得所述第一人脸图像的第一全局特征和第二人脸图像的第一全局特征。
作为示例,第一全局特征获取模块501可包括第一注意力池化模块(未示出),被配置为利用交叉注意力机制对第一人脸图像的局部特征进行注意力池化处理以获取第一人脸图像针对第二人脸图像的第一注意力池化特征;第二注意力池化模块(未示出),被配置为基于交叉注意力机制对第二人脸图像的局部特征进行注意力池化处理以获取第二人脸图像针对第一人脸图像的第二注意力池化特征。
作为示例,人脸识别装置500还可包括位置信息嵌入模块(未示出),被配置为:对第一人脸图像的局部特征嵌入位置信息获取嵌入位置信息的第一人脸图像的局部特征;以及对第二人脸图像的局部特征嵌入位置信息获取嵌入位置信息的第二人脸图像的局部特征。
作为示例,人脸识别装置500还可包括特征重排列模块(未示出),被配置为对人脸图像的第一局部特征进行特征重排列。例如,将具有5×5大小的局部特征图特征重排为1×25大小的局部特征图。
作为示例,第一全局特征获取模块501可被配置为:对嵌入位置信息的第一人脸图像的局部特征和嵌入位置信息的第二人脸图像的局部特征,进行注意力池化处理。
作为示例,第一全局特征获取模块501可包括交叉注意力模块(未示出),被配置为:将第二人脸图像的局部特征乘以与查询相应的第一查询矩阵获取第一查询(Query)向量、将第一人脸图像的局部特征乘以与键(KEY)相应的第一键矩阵获取第一键向量,将第一人脸图像的局部特征乘以与值(Value)相应的第一值矩阵获取第一值向量,并基于获取的第一查询向量、第一键向量以及第一值向量计算第一人脸图像针对第二人脸图像的注意力池化特征;将第一人脸图像的局部特征乘以与查询相应的第二查询矩阵获取第二查询向量、将第二人脸图像的局部特征乘以与键相应的第二键矩阵获取第二键向量,将第二人脸图像的局部特征乘以与值(Value)相应的第二值矩阵获取第二值向量,并基于获取的第二查询向量、第二键向量以及第二值向量计算第二人脸图像针对第一人脸图像的注意力池化特征。
作为示例,交叉注意力模块可包括第一交叉注意力模块,被配置为获取第一人脸图像针对第二人脸图像的注意力池化特征;第二交叉注意力模块,被配置为获取第二人脸图像针对第一人脸图像的注意力池化特征。
作为示例,交叉注意力模块可包括多头注意力层,被配置为基于第一人脸图像的第一局部特征和第二人脸图像的第一局部特征获取第一人脸图像针对第二人脸图像的注意力池化特征;基于第一人脸图像的第一局部特征和第二人脸图像的第一局部特征获取第二人脸图像针对第一人脸图像的注意力池化特征。
作为示例,交叉注意力模块还可包括残差连接和层归一化(Add&Norm)层、前馈(Feed Forward)层。通过残差连接和层归一化(Add&Norm)层、前馈(Feed Forward)层,可从第一人脸图像针对第二人脸图像的注意力池化特征获得第一人脸图像的第二局部特征,并从第二人脸图像针对第一人脸图像的注意力池化特征获得第二人脸图像的第二局部特征。
作为示例,第一全局特征获取模块还可包括全连接层(未示出),被配置为基于第一人脸图像的第二局部特征获取第一人脸图像的第一全局特征;基于第二人脸图像的第二局部特征获取第二人脸图像的第一全局特征。
作为示例,人脸识别装置500还可包括第一局部特征获取模块(未示出),被配置为基于第一人脸图像获取第一人脸图像的第一局部特征,并基于第二人脸图像获取第二人脸图像的第一局部特征。
作为示例,人脸识别装置500还可包括第二全局特征获取模块,被配置为:基于第一人脸图像的第一局部特征获取第一人脸图像的第二全局特征,并基于第二人脸图像的第一局部特征获取第二人脸图像的第二全局特征。作为示例,第二全局特征获取模块可以为全连接层。
根据本公开的实施例,提供了一种存储有计算机程序的计算机可读存储介质,其中,当所述计算机程序被处理器执行时实现如上所述的人脸识别方法。
根据本公开的实施例,提供了一种数据存储装置,其中,所述装置包括:处理器;存储器,存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的人脸识别方法。
虽然本公开包括特定示例,但本领域的普通技术人员将理解,可在不脱离权利要求及其等同物的精神和范围的情况下,在形式和细节上做出各种改变。在此公开的示例将被视为描述性意义,而不是为了限制的目的。在每个示例中对特征或方面的描述将被视为可适用于其他示例中的相似特征或方面。如果以不同的顺序执行描述的技术,和/或如果以不同的方式组合和/或由其他部件或其等同物替代或补充描述的系统、结构、装置或电路,则可获得合适的结果。因此,公开的范围不是由详细的描述限定,而是由权利要求及其等同物体限定,权利要求及其等同物的范围内的全部改变将被视为包括在本公开内。
Claims (10)
1.一种人脸识别方法,所述方法包括:
基于第一人脸图像的局部特征和第二人脸图像的局部特征,分别获取第一人脸图像的第一全局特征和第二人脸图像的第一全局特征;
基于第一人脸图像的第一全局特征和第二全局特征获取第一人脸图像的最终全局特征;
基于第二人脸图像的第一全局特征和第二全局特征获取第二人脸图像的最终全局特征;
基于第一人脸图像的最终全局特征和第二人脸图像的最终全局特征对第一人脸图像和第二人脸图像进行识别,
其中,第一人脸图像的第二全局特征是基于第一人脸图像的局部特征获取的,第二人脸图像的第二全局特征是基于第二人脸图像的局部特征获取的。
2.如权利要求1所述的方法,其中,基于第一人脸图像的局部特征和第二人脸图像的局部特征,分别获取第一人脸图像的第一全局特征和第二人脸图像的第一全局特征的步骤包括:
基于第一人脸图像的局部特征和第二人脸图像的局部特征进行注意力池化处理,以用于分别获得第一人脸图像的第一全局特征和第二人脸图像的第一全局特征。
3.如权利要求2所述的方法,其中,
所述第一人脸图像的局部特征为嵌入位置信息的第一人脸图像的局部特征;
所述第二人脸图像的局部特征为嵌入位置信息的第二人脸图像的局部特征。
4.如权利要求2或3所述的方法,其中,基于第一人脸图像的局部特征和第二人脸图像的局部特征进行注意力池化处理,以用于分别获得第一人脸图像的第一全局特征和第二人脸图像的第一全局特征的步骤包括:
基于第一人脸图像的局部特征和第二人脸图像的局部特征,利用多头注意力机制分别获取第一人脸图像针对第二人脸图像的第一注意力池化特征和第二人脸图像针对第一人脸图像的第二注意力池化特征;
基于第一注意力池化特征,获取第一人脸图像的第一全局特征;
基于第二注意力池化特征,获取第二人脸图像的第一全局特征。
5.如权利要求4所述的方法,其中,基于第一人脸图像的局部特征和第二人脸图像的局部特征,利用多头注意力机制分别获取第一人脸图像针对第二人脸图像的第一注意力池化特征和第二人脸图像针对第一人脸图像的第二注意力池化特征的步骤包括:
将第二人脸图像的局部特征乘以与查询(Query)相应的第一查询矩阵获取第一查询向量、将第一人脸图像的局部特征乘以与键(KEY)相应的第一键矩阵获取第一键向量,将第一人脸图像的局部特征乘以与值(Value)相应的第一值矩阵获取第一值向量,并基于获取的第一查询向量、第一键向量以及第一值向量获取第一人脸图像针对第二人脸图像的注意力池化特征;以及
将第一人脸图像的局部特征乘以与查询相应的第二查询矩阵获取第二查询向量、将第二人脸图像的局部特征乘以与键相应的第二键矩阵获取第二键向量,将第二人脸图像的局部特征乘以与值(Value)相应的第二值矩阵获取第二值向量,并基于获取的第二查询向量、第二键向量以及第二值向量获取第二人脸图像的注意力池化特征。
6.如权利要求1所述的方法,其中,分别获取第一人脸图像的第一全局特征和第二人脸图像的第一全局特征的步骤包括:使用同一网络或者不同的网络分别获取第一人脸图像的第一全局特征和第二人脸图像的第一全局特征。
7.一种人脸识别装置,所述装置包括:
第一全局特征获取模块:被配置为基于第一人脸图像的局部特征和第二人脸图像的局部特征,分别获取第一人脸图像的第一全局特征和第二人脸图像的第一全局特征;
最终全局特征获取模块:被配置为基于第一人脸图像的第一全局特征和第二全局特征获取第一人脸图像的最终全局特征,以及基于第二人脸图像的第一全局特征和第二全局特征获取第二人脸图像的最终全局特征;
识别模块:被配置为基于第一人脸图像的最终全局特征和第二人脸图像的最终全局特征对第一人脸图像和第二人脸图像进行识别,
其中,第一人脸图像的第二全局特征是基于第一人脸图像的局部特征被获取的,第二人脸图像的第二全局特征是基于第二人脸图像的局部特征获取的。
8.如权利要求6所述的装置,其中,第一全局特征获取模块被配置为:基于第一人脸图像的局部特征和第二人脸图像的局部特征进行注意力池化处理,以用于分别获得第一人脸图像的第一全局特征和第二人脸图像的第一全局特征。
9.一种存储有计算机程序的计算机可读存储介质,其中,当所述计算机程序被处理器执行时实现如权利要求1-6中的任一项所述的人脸识别方法。
10.一种数据存储装置,其中,所述装置包括:处理器;存储器,存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1-6中的任一项所述的人脸识别方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110282834.6A CN112966626A (zh) | 2021-03-16 | 2021-03-16 | 人脸识别方法和装置 |
KR1020220017234A KR20220129463A (ko) | 2021-03-16 | 2022-02-10 | 얼굴 인식 방법 및 장치 |
US17/695,241 US20220301342A1 (en) | 2021-03-16 | 2022-03-15 | Method and apparatus with face recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110282834.6A CN112966626A (zh) | 2021-03-16 | 2021-03-16 | 人脸识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112966626A true CN112966626A (zh) | 2021-06-15 |
Family
ID=76279568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110282834.6A Pending CN112966626A (zh) | 2021-03-16 | 2021-03-16 | 人脸识别方法和装置 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR20220129463A (zh) |
CN (1) | CN112966626A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435594A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 安防检测模型训练方法、装置、设备及存储介质 |
CN113627233A (zh) * | 2021-06-17 | 2021-11-09 | 中国科学院自动化研究所 | 基于视觉语义信息的人脸伪造检测方法和装置 |
CN113971830A (zh) * | 2021-10-29 | 2022-01-25 | 京东科技信息技术有限公司 | 一种人脸识别方法、装置、存储介质及电子设备 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116152890B (zh) * | 2022-12-28 | 2024-01-26 | 北京融威众邦电子技术有限公司 | 一种医疗费用自助支付系统 |
CN116311479B (zh) * | 2023-05-16 | 2023-07-21 | 四川轻化工大学 | 一种用于汽车解锁的人脸识别方法、系统和存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060280341A1 (en) * | 2003-06-30 | 2006-12-14 | Honda Motor Co., Ltd. | System and method for face recognition |
CN101510257A (zh) * | 2009-03-31 | 2009-08-19 | 华为技术有限公司 | 一种人脸相似度匹配方法及装置 |
CN109829430A (zh) * | 2019-01-31 | 2019-05-31 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于异构层次化注意机制的跨模态行人再识别方法及系统 |
CN109934197A (zh) * | 2019-03-21 | 2019-06-25 | 深圳力维智联技术有限公司 | 人脸识别模型的训练方法、装置和计算机可读存储介质 |
CN110192206A (zh) * | 2017-05-23 | 2019-08-30 | 谷歌有限责任公司 | 基于注意力的序列转换神经网络 |
CN111241961A (zh) * | 2020-01-03 | 2020-06-05 | 精硕科技(北京)股份有限公司 | 人脸检测方法、装置及电子设备 |
US20200218888A1 (en) * | 2017-07-18 | 2020-07-09 | Vision Semantics Limited | Target Re-Identification |
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
US20200242153A1 (en) * | 2019-01-29 | 2020-07-30 | Samsung Electronics Co., Ltd. | Method, apparatus, electronic device and computer readable storage medium for image searching |
CN112037254A (zh) * | 2020-08-11 | 2020-12-04 | 浙江大华技术股份有限公司 | 目标跟踪方法及相关装置 |
CN112052945A (zh) * | 2019-06-06 | 2020-12-08 | 北京地平线机器人技术研发有限公司 | 神经网络的训练方法、神经网络的训练装置和电子设备 |
CN112070670A (zh) * | 2020-09-03 | 2020-12-11 | 武汉工程大学 | 全局-局部分离注意力机制的人脸超分辨率方法及系统 |
CN112149459A (zh) * | 2019-06-27 | 2020-12-29 | 哈尔滨工业大学(深圳) | 一种基于交叉注意力机制的视频显著性物体检测模型及系统 |
-
2021
- 2021-03-16 CN CN202110282834.6A patent/CN112966626A/zh active Pending
-
2022
- 2022-02-10 KR KR1020220017234A patent/KR20220129463A/ko unknown
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060280341A1 (en) * | 2003-06-30 | 2006-12-14 | Honda Motor Co., Ltd. | System and method for face recognition |
CN101510257A (zh) * | 2009-03-31 | 2009-08-19 | 华为技术有限公司 | 一种人脸相似度匹配方法及装置 |
CN110192206A (zh) * | 2017-05-23 | 2019-08-30 | 谷歌有限责任公司 | 基于注意力的序列转换神经网络 |
US20200218888A1 (en) * | 2017-07-18 | 2020-07-09 | Vision Semantics Limited | Target Re-Identification |
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
US20200242153A1 (en) * | 2019-01-29 | 2020-07-30 | Samsung Electronics Co., Ltd. | Method, apparatus, electronic device and computer readable storage medium for image searching |
CN109829430A (zh) * | 2019-01-31 | 2019-05-31 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于异构层次化注意机制的跨模态行人再识别方法及系统 |
CN109934197A (zh) * | 2019-03-21 | 2019-06-25 | 深圳力维智联技术有限公司 | 人脸识别模型的训练方法、装置和计算机可读存储介质 |
CN112052945A (zh) * | 2019-06-06 | 2020-12-08 | 北京地平线机器人技术研发有限公司 | 神经网络的训练方法、神经网络的训练装置和电子设备 |
CN112149459A (zh) * | 2019-06-27 | 2020-12-29 | 哈尔滨工业大学(深圳) | 一种基于交叉注意力机制的视频显著性物体检测模型及系统 |
CN111241961A (zh) * | 2020-01-03 | 2020-06-05 | 精硕科技(北京)股份有限公司 | 人脸检测方法、装置及电子设备 |
CN112037254A (zh) * | 2020-08-11 | 2020-12-04 | 浙江大华技术股份有限公司 | 目标跟踪方法及相关装置 |
CN112070670A (zh) * | 2020-09-03 | 2020-12-11 | 武汉工程大学 | 全局-局部分离注意力机制的人脸超分辨率方法及系统 |
Non-Patent Citations (1)
Title |
---|
YONG LI ETC.: "Occlusion Aware Facial Expression Recognition Using CNN With Attention Mechanism", TRANSACTIONS ON IMAGE PROCESSING * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627233A (zh) * | 2021-06-17 | 2021-11-09 | 中国科学院自动化研究所 | 基于视觉语义信息的人脸伪造检测方法和装置 |
CN113627233B (zh) * | 2021-06-17 | 2024-08-13 | 中国科学院自动化研究所 | 基于视觉语义信息的人脸伪造检测方法和装置 |
CN113435594A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 安防检测模型训练方法、装置、设备及存储介质 |
CN113435594B (zh) * | 2021-06-30 | 2022-08-02 | 平安科技(深圳)有限公司 | 安防检测模型训练方法、装置、设备及存储介质 |
CN113971830A (zh) * | 2021-10-29 | 2022-01-25 | 京东科技信息技术有限公司 | 一种人脸识别方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
KR20220129463A (ko) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112966626A (zh) | 人脸识别方法和装置 | |
CN107871100B (zh) | 人脸模型的训练方法和装置、人脸认证方法和装置 | |
WO2019119505A1 (zh) | 人脸识别的方法和装置、计算机装置及存储介质 | |
CN110348362B (zh) | 标签生成、视频处理方法、装置、电子设备及存储介质 | |
CN112395979B (zh) | 基于图像的健康状态识别方法、装置、设备及存储介质 | |
CN112613308A (zh) | 用户意图识别方法、装置、终端设备及存储介质 | |
CN110866530A (zh) | 一种字符图像识别方法、装置及电子设备 | |
CN109522872A (zh) | 一种人脸识别方法、装置、计算机设备及存储介质 | |
CN111553419B (zh) | 一种图像识别方法、装置、设备以及可读存储介质 | |
Prates et al. | Kernel cross-view collaborative representation based classification for person re-identification | |
CN112883980B (zh) | 一种数据处理方法及系统 | |
CN112836484A (zh) | 一种文本对齐方法、装置、电子设备、计算机可读存储介质 | |
WO2013181695A1 (en) | Biometric verification | |
CN110175500B (zh) | 指静脉比对方法、装置、计算机设备及存储介质 | |
CN115115981A (zh) | 数据处理方法、装置、设备、存储介质及计算机程序产品 | |
CN114373212A (zh) | 人脸识别模型构建方法、人脸识别方法及相关设备 | |
CN117853873A (zh) | 一种多模态识别模型的训练方法及识别方法 | |
CN117058723B (zh) | 掌纹识别方法、装置及存储介质 | |
CN112257600B (zh) | 一种人脸识别方法及系统 | |
CN115909336A (zh) | 文本识别方法、装置、计算机设备和计算机可读存储介质 | |
CN114329004A (zh) | 数字指纹生成、数据推送方法、装置和存储介质 | |
CN110287973B (zh) | 一种基于低秩鲁棒线性鉴别分析的图像特征提取方法 | |
Dong et al. | A supervised dictionary learning and discriminative weighting model for action recognition | |
Zhao et al. | Multi-view dimensionality reduction via subspace structure agreement | |
Liu et al. | Finger-vein recognition with modified binary tree model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |