CN116246323A - 人脸识别方法、装置、电子设备及存储介质 - Google Patents
人脸识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116246323A CN116246323A CN202310158924.3A CN202310158924A CN116246323A CN 116246323 A CN116246323 A CN 116246323A CN 202310158924 A CN202310158924 A CN 202310158924A CN 116246323 A CN116246323 A CN 116246323A
- Authority
- CN
- China
- Prior art keywords
- feature map
- region
- face recognition
- convolution
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种人脸识别方法、装置、电子设备及存储介质,所述方法包括:获取待识别图像的输入特征图,并计算所述输入特征图中每个位置属于各个区域的置信度;在所述置信度的引导下,分别对所述输入特征图中的各个区域进行特征提取,得到区域特征图;由所述区域特征图经过区域卷积得到输出特征图;使用图卷积对所述输出特征图中各区域之间的关系特征进行提取,得到关系特征图,并根据所述输出特征图和所述关系特征图计算得到增强特征图;根据所述增强特征图对所述待识别图像进行人脸识别,得到人脸识别结果。本发明解决了相关技术在人脸识别过程中特征提取效果不好、计算量大的问题。
Description
技术领域
本发明涉及人脸识别技术领域,尤其涉及一种人脸识别方法、装置、电子设备及存储介质。
背景技术
目前,人脸识别算法通常是利用人脸识别模型实现的,该人脸识别模型的训练会使用到损失函数、backbone和数据集,现有技术主要集中在损失函数的设计上,实际上模型和损失函数任何一部分的提升都能提高网络的性能。
然而,现有技术中的特征提取方法导致不同样本之间的卷积运算存在较大差异,计算量大对并行计算有较大的阻碍,且特征提取不准确,导致人脸识别模型效果不好且应用场景狭窄。
因此,急需一种特征提取效果好、计算量小的人脸识别方法。
发明内容
本发明各实施例提供一种人脸识别方法、装置、电子设备及存储介质,以解决相关技术中存在的特征提取效果不好,计算量大的问题。
为解决上述技术问题,本发明所采用的技术方案为:
根据本发明的一个方面,一种人脸识别方法,所述方法包括:获取待识别图像的输入特征图,并计算所述输入特征图中每个位置属于所述输入特征图中各个区域的置信度;在所述置信度的引导下,分别对所述输入特征图中的各个区域进行特征提取,得到区域特征图;由所述区域特征图经过区域卷积得到输出特征图;使用图卷积对所述输出特征图中各个区域之间的关系特征进行提取,得到关系特征图,并根据所述输出特征图和所述关系特征图计算得到增强特征图;根据所述增强特征图对所述待识别图像进行人脸识别,得到人脸识别结果。
在一个示例性实施例中,计算输入特征图中每个位置属于所述输入特征图中各个区域的置信度包括:使用卷积核对所述输入特征图进行卷积,得到所述输入特征图中每个区域的权重,根据所述权重调整激活函数SoftMax的参数;使用所述激活函数SoftMax计算所述输入特征图中每个位置属于各个区域的概率,作为所述输入特征图中每个位置属于各个区域的置信度。
在一个示例性实施例中,由区域特征图经过区域卷积得到输出特征图包括:使用ArgMax函数,在所述区域特征图中查找每个区域置信度最高的位置;使用各区域对应的卷积核对查找到的位置进行特征提取,得到各个区域的特征,构成输出特征图。
在一个示例性实施例中,所述方法还包括:由区域特征图经过区域卷积得到输出特征图之后使用置信度对所述输出特征图进行空间上的拆分,得到维度降低后的输出特征图。
在一个示例性实施例中,使用图卷积对所述输出特征图中各区域之间的关系特征进行提取,得到关系特征图包括:使用图卷积中的第一卷积核提取所述输出特征图中各区域之间的特征,得到第一特征图;将所述输出特征图与所述第一特征图相加得到第二特征图;使用图卷积中的第二卷积核提取所述第二特征图的特征,得到所述关系特征图。
在一个示例性实施例中,根据所述输出特征图和所述关系特征图计算得到增强特征图包括:将所述输出特征图和所述关系特征图相加,得到所述增强特征图。
在一个示例性实施例中,所述人脸识别是调用人脸识别模型实现的,所述人脸识别模型是经过训练的、具有对所述待识别图像进行人脸识别的能力的机器学习模型。
根据本发明的一个方面,一种人脸识别装置,所述装置包括:置信度获取模块,用于提取输入特征图中每个区域的权重,得到输入特征图中每个位置属于所述输入特征图中各个区域的置信度;区域特征提取模块,用于在置信度的引导下,分别对输入特征图中的各个区域进行特征提取,得到区域特征图;输出特征提取模块,用于由区域特征图经过区域卷积得到输出特征图;增强特征图生成模块,用于使用图卷积根据输出特征图提取各区域之间的关系特征,得到关系特征图,根据输出特征图和关系特征图计算得到增强特征图;人脸识别模块,用于根据增强特征图对待识别图像进行人脸识别,得到人脸识别结果。
根据本发明的一个方面,一种电子设备,包括处理器及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上所述的人脸识别方法。
根据本发明的一个方面,一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的人脸识别方法。
根据本发明的一个方面,一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序存储在存储介质中,计算机设备的处理器从存储介质读取计算机程序,处理器执行计算机程序,使得计算机设备执行时实现如上所述的人脸识别方法。
在上述技术方案中,本发明实现了特征提取效果好、计算量小的人脸识别方法。
具体而言,本发明首先获取待识别图像的输入特征图,计算输入特征图中每个位置属于输入特征图中各个区域的置信度,然后在置信度的引导下分别对输入特征图中的各个区域进行特征提取,得到区域特征图,对区域特征图进行区域卷积得到输出特征图,再使用图卷积对输出特征图中各个区域之间的关系特征进行提取,得到关系特征图,并根据输出特征图和关系特征图计算得到增强特征图,实现了准确的特征提取,根据增强特征图对待识别图像进行人脸识别,减少了数据量,能够完成高质量的人脸识别。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是根据本申请所涉及的实施环境的示意图。
图2是根据一示例性实施例示出的一种人脸识别方法的流程图;
图3是根据一示例性实施例示出的人脸识别方法的示意图;
图4是图3对应实施例中图卷积的示意图;
图5是根据一示例性实施例在应用场景中与现有技术的效果对比图;
图6是根据一示例性实施例示出的一种人脸识别装置的框图;
图7是根据一示例性实施例示出的一种终端的结构示意图;
图8是根据一示例性实施例示出的一种电子设备的硬件结构图;
图9是根据一示例性实施例示出的一种电子设备的框图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述,这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
现有技术主要集中在损失函数的设计上,在模型结构上的探索不太常见,实际上模型和损失函数任何一部分的提升都能提高网络的性能。
除此之外,在图像分类领域中出现了动态卷积的概念,希望根据输入样本的不同改变模型使用的卷积核,从而在计算量相当的情况下提高模型的分类能力,即将样本划分为不同区域,并使用不同的卷积提取特征,能够获得明显的提升。
也就是说,现有技术使用特定的卷积核针对性地进行特征提取,导致不同样本之间的卷积核存在较大差异,计算量大对并行计算有较大的阻碍,且特征提取不准确,导致人脸识别模型效果不好且应用场景狭窄。
由上可知,相关技术中仍存在特征提取效果不好,计算量大的缺陷。
为此,本申请提供的人脸识别方法首先获取待识别图像的输入特征图,并计算输入特征图中每个位置属于各个区域的置信度,在置信度的引导下,对输入特征图中的各个区域进行特征提取,得到区域特征图,由区域特征图经过区域卷积得到输出特征图,使用图卷积对输出特征图中各区域之间的关系特征进行提取,得到关系特征图,并根据输出特征图和关系特征图计算得到增强特征图,根据增强特征图对待识别图像进行人脸识别,得到人脸识别结果,能够准确的进行特征提取,减少人脸识别过程中的数据量,从而实现高质量的人脸识别,相应地,该人脸识别方法适用于人脸识别装置,该人脸识别装置可部署于电子设备,例如,该电子设备可以是部署了冯诺依曼体系结构的计算机设备,该计算机设备可以是台式电脑、笔记本电脑、服务器等等,此外,由于本发明提供的人脸识别方法计算量较小,人脸识别装置还可部署于对计算量要求比较严格的电子设备,例如,该电子设备可以是智能手机、平板电脑等移动设备。
图1为一种人脸识别方法的实施环境的示意图。该实施环境包括用户终端110、采集端130、网关150、服务器端170和路由器190。
具体地,用户终端110,可以是智能手机、平板电脑、笔记本电脑、台式电脑等电子设备,在此不进行限定。
采集端130用于待识别图像的采集,例如,采集端130可以是摄像机、摄录机等具有图像采集功能的电子设备,采集端130还可以是配置了摄像头的电子设备,例如,该电子设备可以是具有图像采集功能的用户终端110,该用户终端110可以是智能手机、平板电脑等。
服务器端170与采集端130和用户终端110之间的交互,可以通过局域网络实现,还可以通过广域网络实现。在一个应用场景中,服务器端170通过路由器190与网关150之间建立有线或者无线等方式的通信连接,例如,该有线或者无线等方式包括但不限于WIFI等,使得服务器端170与网关150部署于同一个局域网络,进而使得采集端130和用户终端110可通过局域网络路径实现与服务器端170之间的交互。此局域网络包括但不限于:ZIGBEE、蓝牙或者WIFI。在另一个应用场景中,服务器端170与采集端130或用户终端110之间建立有线或者无线等方式的通信连接,例如,该有线或者无线等方式包括但不限于2G、3G、4G、5G、WIFI等,使得服务器端170与采集端130或用户终端110部署于同一个广域网络,进而使得服务器端170可通过广域网络路径实现与采集端130或用户终端110之间的交互。
其中,服务器端170可以是一台服务器,也可以是由多台服务器构成的一个服务器集群,或者由多台服务器构成的云端、云平台、云计算中心等,以便于更好地提供后台服务。例如,后台服务包括人脸识别服务。
在一个应用场景中,以服务器端170提供人脸识别服务为例,采集端130获取到待识别图像后,将该待识别图像发送至服务器端170,那么,服务器端170便能够接收到该采集端130发送的待识别图像,进而基于该待识别图像提供人脸识别服务。
在另一个应用场景中,以用户终端170提供人脸识别为例,用户终端170本身具有图像采集功能,那么,当用户终端170获取到待识别图像后,便可计算该待识别图像的输入特征图中每个位置属于输入特征图中各个区域的置信度,并在该置信度的引导下分别对输入特征图中的各个区域进行特征图区,得到区域特征图,进而由区域特征图经过区域卷积得到输出特征图,然后使用图卷积对输出特征图中各个区域之间的关系特征进行提取,得到关系特征图,并根据输出特征图和关系特征图计算得到增强特征图,最终根据该增强特征图对待识别图像进行人脸识别,得到人脸识别结果。
请参阅图2,本申请实施例提供了一种人脸识别方法,该方法适用于电子设备,例如,该电子设备可以是台式电脑、笔记本电脑、服务器等等,还可以是智能手机、平板电脑等移动设备。
在下述方法实施例中,为了便于描述,以该方法各步骤的执行主体为电子设备为例进行说明,但是并非对此构成具体限定。
如图2所示,该方法可以包括以下步骤:
步骤110,获取待识别图像的输入特征图,计算输入特征图中每个位置属于各个区域的置信度。
其中,待识别图像可以是通过采集端进行拍摄和采集得到的。其中,采集端可以是具备图像采集功能的电子设备,例如,摄像机、配置摄像头的智能手机等等。可以理解,拍摄可以是单次拍摄,则得到一张照片,还可以是多次拍摄,则可以得到一段视频,也就是说,待识别图像可以是该视频中的任意一帧画面,还可以是一张照片。
关于待识别图像的获取,待识别图像可以来源于采集端实时拍摄并采集的待识别图像,也可以是预先存储于电子设备的一历史时间段由采集端拍摄并采集的待识别图像。那么,对于电子设备而言,在采集端拍摄并采集得到待识别图像之后,可以实时处理待识别图像,还可以预先存储了再处理,例如,在电子设备的CPU低的时候处理待识别图像,或者,根据工作人员的指示处理待识别图像。由此,本实施例中的人脸识别可以针对实时获取到的待识别图像,也可以针对历史时间段获取到的待识别图像,在此并未进行具体限定。
输入特征图是指待识别图像中的各个像素经过卷积操作后得到的特征图。
输入特征图中的位置是指输入特征图中各个像素所在的位置。
输入特征图中的区域是指待识别图像中具有语义的各个区域,以人脸图像为例,该人脸图像中具有语义的各个区域包括但不限于:眼睛、鼻子、嘴巴、头发等等。
在一个可能的实现方式,步骤110可以包括以下步骤:使用卷积核对输入特征图进行卷积,得到输入特征图中每个区域的权重,根据权重调整激活函数SoftMax的参数;使用激活函数SoftMax计算输入特征图中每个位置属于各个区域的概率,作为输入特征图中每个位置属于各个区域的置信度。
步骤130,在置信度的引导下,分别对输入特征图中的各个区域进行特征提取,得到区域特征图。
具体地,对于输入特征图空间上的每一个位置来说,每个区域都有对应的置信度,分别使用多个卷积核对这些区域进行特征提取,进而得到完整的区域特征图。
通过上述过程,本发明在置信度的引导下,能够更加有针对性的对各个区域进行特征提取,提高了特征提取的效果,进而提高了人脸识别的准确率。
步骤150,由区域特征图经过区域卷积得到输出特征图。
区域卷积是指使用各个区域的卷积核对属于该区域的各个位置进行特征提取。
具体地,步骤150可以包括以下步骤:
步骤S1,使用ArgMax函数,在区域特征图中查找每个区域置信度最高的位置;
步骤S2,使用各区域对应的卷积核对查找到的位置进行特征提取,得到各个区域的特征,构成输出特征图。
在一个可能的实现方式,找到置信度最高的区域,然后使用该区域的卷积核对该位置进行特征提取,因为每个区域仅需处理自己区域内的特征,而这些区域面积的总和与原特征的空间大小相等,总计算量与标准卷积相同,在提升特征提取准确度的同时并未增加计算量。
由上可知,本发明实施例首先使用一个卷积核自适应地提取出不同样本中的对应区域,如眼睛,头发,背景等。对于这些区域,我们首先使用普通卷积进行特征提取,与标准的卷积不同,每个卷积仅处理当前区域的特征,采用分而治之的方式,提高特征提取的效果,实现更好的特征提取。
步骤170,使用图卷积对输出特征图中各区域之间的关系特征进行提取,得到关系特征图,并根据输出特征图和关系特征图计算得到增强特征图。
各个区域之间的关系特征是指输出特征图中各区域之间的特征。
具体地,步骤170可以包括以下步骤:
步骤S1,使用图卷积中的第一卷积核提取输出特征图中各区域之间的特征,得到第一特征图;
步骤S2,将输出特征图与第一特征图相加得到第二特征图;
步骤S3,使用图卷积中的第二卷积核提取第二特征图的特征,得到关系特征图。
此种方式下,使用图卷积提取划分出来的不同区域间的特征,这种特征在面对困难样本时能够帮助模型进行区域划分,进而能够提高人脸识别的准确度。
当然,各个区域之间的关系特征的提取不局限于图卷积,在其他实施例中,各个区域之间的关系特征的提取还包括但不限于:transformers、self-attention等,此处并非构成具体限定。
步骤190,根据增强特征图对待识别图像进行人脸识别,得到人脸识别结果。
在一个可能的实现方式,人脸识别过程包括:将增强特征图与人脸数据库中多个身份对应的特征图进行逐个比对,查找与该增强特征图相似度最高的特征图,将该最高相似度和预设阈值比较,如果最高相似度大于预设阈值,则得到人脸识别结果,该人脸识别结果用于指示人脸识别成功,即以查找到的特征图所对应的身份作为待识别图像中人脸的身份,否则得到人脸识别结果,该人脸识别结果用于指示人脸识别失败,即未在人脸数据库中查找到待识别图像中人脸的身份。
本发明通过首先使用一个卷积核自适应地提取出不同样本中的对应区域,如眼睛,头发,背景等,对于这些区域,我们首先使用普通卷积进行特征提取,与标准的卷积不同,每个卷积仅处理当前区域的特征,然后使用图卷积提取不同区域间的关系,并将这种关系加到原特征中,起到一种增强的作用,能够更有效地区分困难样本。
通过上述过程,本发明实施例首先获取待识别图像的输入特征图,计算输入特征图中每个位置属于输入特征图中各个区域的置信度,然后在置信度的引导下分别对输入特征图中的各个区域进行特征提取,得到区域特征图,对区域特征图进行区域卷积得到输出特征图,再使用图卷积对输出特征图中各个区域之间的关系特征进行提取,得到关系特征图,并根据输出特征图和关系特征图计算得到增强特征图,实现了准确的特征提取,根据增强特征图对待识别图像进行人脸识别,减少了数据量,能够完成高质量的人脸识别。
图3和图4展示了一个实施例中人脸识别模型的结构示意图,在图3中,首先获取待识别图像的输入特征图,然后使用1x1的卷积核得到每个位置属于某个区域的置信度,然后分别使用多个普通卷积对这些区域进行特征提取,得到区域特征图,具体操作是使用ArgMax找到置信度最高的区域,然后使用该区域的卷积核对该位置进行特征提取,通过上述区域卷积后得到输出特征图,然后使用图卷积提取各区域间的特征,得到关系特征图。在这里使用经过简化后的只包含两个一维卷积的图卷积,具体图卷积的结构见图4,得到的关系特征图会与通过区域卷积得到的输出特征图进行相加,得到增强特征图作为本模块输出的特征图;在图4中,使用图卷积中1x1的第一卷积核提取输出特征图中各区域之间的特征,得到第一特征图;将输出特征图与第一特征图相加得到第二特征图;使用图卷积中1x1的第二卷积核提取第二特征图的特征,得到关系特征图。
现结合图3和图4,对人脸识别模型的训练过程进行以下详细地说明:
在一示例性实施例,人脸识别是调用人脸识别模型实现的,该人脸识别模型是经过训练的、具有对待识别图像进行人脸识别的能力的机器学习模型。该机器学习模型包括但不限于:MobileFaceNets、ResNet等等。
具体而言,人脸识别模型的训练过程包括以下步骤:
步骤S1,获取用于训练的数据集。
其中,数据集中的人脸图像包含能够指示人脸对应身份的标签。也就是说,标签用于指示人脸图像中人脸对应的真实身份。
步骤S2,使用机器学习模型对数据集中的当前一个人脸图像进行人脸识别,得到人脸识别结果。
其中,机器学习模型可以是MobileFaceNets、ResNet等,可以认为是初始的人脸识别模型。
人脸识别结果用于指示预测到的人脸图像中人脸对应的预测身份。
步骤S3,通过损失函数计算标签指示的真实身份与人脸识别结果指示的预测身份之间的差异,得到损失值。
其中,损失函数包括但不限于:SphereFace、CosFace和ArcFace等,此处并未加以限定。
若损失值不满足收敛条件,则更新机器学习模型的参数,并返回步骤S2,使用参数更新后的机器学习模型对数据集中的后一个人脸图像进行人脸识别,直至损失值满足收敛条件。
反之,若损失值满足收敛条件,则训练完成,由机器学习模型收敛得到人脸识别模型。
在此说明的是,收敛条件可以根据应用场景的实际需要灵活地设置,例如,收敛条件可以是损失值达到最小,以此充分地保证模型训练的精度,进而保证人脸识别的精度,或者,收敛条件是指迭代次数达到设定阈值,以此提升模型训练的速度,此处并未加以限定。
由此,经过上述训练过程,便能够得到具有对待识别图像进行人脸识别的能力的人脸识别模型。
具体地,在一些人脸识别常用模型上,例如MobileFaceNets和ResNet上将模型上的普通卷积更换为本发明后能够达到更好的效果,另外,在使用多种损失函数时,例如SphereFace、CosFace和ArcFace,本发明也能取得比较好的效果,并且不需要任何的预训练。
除此之外,与现有技术中一些涉及到通过关系提取特征的人脸识别方法,如transformers和self-attention相比,本发明中所使用的图卷积计算量较小,与标准卷积相当,因此增加的计算量较小,与基础模型相当,实现了保持小计算量的同时在多个人脸测试集上获得较为明显的增长。
由上可知,本发明在小模型上有较为明显的效果,这些小模型通常会应用于计算量要求比较严格的场景,比如移动设备,此类场景对于计算量的要求较为严格,而对参数的要求则不如计算量明显,因此本发明对于这种场景尤为有效。
具体地,如图4所示,该图卷积包含两个一维卷积,将各区域的特征作为图卷积的节点,本发明所使用的图卷积计算量较小,因此增加的计算量较小,与基础模型相当,但在多个人脸测试集上能够获得较为明显的增长,实现了提高人脸识别质量的同时减少计算量。
本发明通过首先使用一个卷积核自适应地提取出不同样本中的对应区域,如眼睛,头发,背景等,对于这些区域,我们首先使用普通卷积进行特征提取,与标准的卷积不同,每个卷积仅处理当前区域的特征,然后使用图卷积提取不同区域间的关系,并将这种关系加到原特征中,起到一种增强的作用,能够更有效地区分困难样本。
通过上述过程,本发明实施例首先获取待识别图像的输入特征图,计算输入特征图中每个位置属于输入特征图中各个区域的置信度,然后在置信度的引导下分别对输入特征图中的各个区域进行特征提取,得到区域特征图,对区域特征图进行区域卷积得到输出特征图,再使用图卷积对输出特征图中各个区域之间的关系特征进行提取,得到关系特征图,并根据输出特征图和关系特征图计算得到增强特征图,实现了准确的特征提取,根据增强特征图对待识别图像进行人脸识别,减少了数据量,能够完成高质量的人脸识别。
本发明在通用的人脸数据集上进行了大量的实验,具体地,某实施例与各现有技术在不同数据集上的表现如表1所示。
表1本发明实施例与各现有技术在不同数据集上的表现
根据表1所展示的本发明实施例和各现有技术在不同数据集上的表现,本发明的各指标均为最高,因此,本发明在人脸识别任务上达到了最先进的水平。在此说明的是,不同数据集是指不同训练集与不同测试集的组合。
图5展示了本申请实施例在应用场景中与现有技术的效果对比图,Ours表示本发明的区域划分结果,区域包括眼睛,头发,背景等,能够明显观察到在各个应用场景下本发明的区域划分结果都是准确率最高的。
下述为本申请装置实施例,可以用于执行本申请所涉及的人脸识别方法。对于本申请装置实施例中未披露的细节,请参照本申请所涉及的人脸识别方法的方法实施例。
请参阅图6,在一示例性实施例中,一种人脸识别装置600。
所述装置600包括但不限于:置信度获取模块610、区域特征提取模块630、输出特征提取模块650、增强特征图生成模块670及人脸识别模块650。
其中,置信度获取模块610,用于提取输入特征图中每个区域的权重,得到输入特征图中每个位置属于各个区域的置信度。
区域特征提取模块630,用于在置信度的引导下,分别对输入特征图中的各个区域进行特征提取,得到区域特征图。
输出特征提取模块650,用于由区域特征图经过区域卷积得到输出特征图。
增强特征图生成模块670,用于使用图卷积根据输出特征图提取各区域之间的关系特征,得到关系特征图,根据输出特征图和关系特征图计算得到增强特征图。
人脸识别模块690,用于根据增强特征图对待识别图像进行人脸识别,得到人脸识别结果。
需要说明的是,上述实施例所提供的人脸识别装置在进行人脸识别时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即人脸识别装置的内部结构将划分为不同的功能模块,以完成以上描述的全部或者部分功能。
另外,上述实施例所提供的人脸识别装置与人脸识别方法的实施例属于同一构思,其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
请参阅图7,图7是根据一示例性实施例示出的一种终端的结构示意图。该终端适用于图1所示出实施环境中的用户终端110。
需要说明的是,该终端只是一个适配于本申请的示例,不能认为是提供了对本申请的使用范围的任何限制。该终端也不能解释为需要依赖于或者必须具有图7中示出的示例性的终端1100中的一个或者多个组件。
如图7所示,终端1100包括存储器101、存储控制器103、一个或多个(图7中仅示出一个)处理器105、外设接口107、射频模块109、定位模块111、摄像模块113、音频模块115、触控屏幕117以及按键模块119。这些组件通过一条或多条通讯总线/信号线121相互通讯。
其中,存储器101可用于存储计算机程序以及模块,如本申请示例性实施例中的信息推荐方法及装置对应的计算机程序及模块,处理器105通过运行存储在存储器101内的计算机程序,从而执行各种功能以及数据处理,即完成人脸识别方法。
存储器101作为资源存储的载体,可以是随机存储器、例如高速随机存储器、非易失性存储器,如一个或多个磁性存储装置、闪存、或者其它固态存储器。存储方式可以是短暂存储或者永久存储。
外设接口107可以包括至少一有线或无线网络接口、至少一串并联转换接口、至少一输入输出接口以及至少一USB接口等,用于将外部各种输入/输出装置耦合至存储器101以及处理器105,以实现与外部各种输入/输出装置的通信。
射频模块109用于收发电磁波,实现电磁波与电信号的相互转换,从而通过通讯网络与其他设备进行通讯。通信网络包括蜂窝式电话网、无线局域网或者城域网,上述通信网络可以使用各种通信标准、协议及技术。
定位模块111用于获取终端1100的当前所在的地理位置。定位模块111的实例包括但不限于全球卫星定位系统(GPS)、基于无线局域网或者移动通信网的定位技术。
摄像模块113隶属于摄像头,用于拍摄图片或者视频。拍摄的图片或者视频可以存储至存储器101内,还可以通过射频模块109发送至上位机。
音频模块115向用户提供音频接口,其可包括一个或多个麦克风接口、一个或多个扬声器接口以及一个或多个耳机接口。通过音频接口与其它设备进行音频数据的交互。音频数据可以存储至存储器101内,还可以通过射频模块109发送。
触控屏幕117在终端1100与用户之间提供一个输入输出界面。具体地,用户可通过触控屏幕117进行输入操作,例如点击、触摸、滑动等手势操作,以使终端1100对该输入操作进行响应。终端1100则将文字、图片或者视频任意一种形式或者组合所形成的输出内容通过触控屏幕117向用户显示输出。
按键模块119包括至少一个按键,用以提供用户向终端1100进行输入的接口,用户可以通过按下不同的按键使终端1100执行不同的功能。例如,声音调节按键可供用户实现对终端1100播放的声音音量的调节。
可以理解,图7所示的结构仅为示意,终端1100还可包括比图7中所示更多或更少的组件,或者具有与图7所示不同的组件。图7中所示的各组件可以采用硬件、软件或者其组合来实现。
图8根据一示例性实施例示出的一种服务器的结构示意。该服务器适用于图1所示出实施环境中的服务器端170。
需要说明的是,该服务器只是一个适配于本申请的示例,不能认为是提供了对本申请的使用范围的任何限制。该服务器也不能解释为需要依赖于或者必须具有图8出的示例性的服务器2000中的一个或者多个组件。
服务器2000的硬件结构可因配置或者性能的不同而产生较大的差异,如图8所示,服务器2000包括:电源210、接口230、至少一存储器250、以及至少一中央处理器(CPU,Central Processing Units)270。
具体地,电源210用于为服务器2000上的各硬件设备提供工作电压。
接口230包括至少一有线或无线网络接口231,用于与外部设备交互。例如,在图1所示出实施环境中,服务器端170与采集端130和用户终端110之间的交互。
当然,在其余本申请适配的示例中,接口230还可以进一步包括至少一串并转换接口233、至少一输入输出接口235以及至少一USB接口237等,如图8所示,在此并非对此构成具体限定。
存储器250作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统251、应用程序253及数据255等,存储方式可以是短暂存储或者永久存储。
其中,操作系统251用于管理与控制服务器2000上的各硬件设备以及应用程序253,以实现中央处理器270对存储器250中海量数据255的运算与处理,其可以是WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等。
应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序,其可以包括至少一模块(图8未示出),每个模块都可以分别包含有对服务器2000的计算机程序。例如,人脸识别装置可视为部署于服务器2000的应用程序253。
数据255可以是存储于磁盘中的照片、图片等,还可以是输入的图像数据等,存储于存储器250中。
中央处理器270可以包括一个或多个以上的处理器,并设置为通过至少一通信总线与存储器250通信,以读取存储器250中存储的计算机程序,进而实现对存储器250中海量数据255的运算与处理。例如,通过中央处理器270读取存储器250中存储的一系列计算机程序的形式来完成人脸识别方法。
此外,通过硬件电路或者硬件电路结合软件也能同样实现本申请,因此,实现本申请并不限于任何特定硬件电路、软件以及两者的组合。
请参阅图9,本申请实施例中提供了一种电子设备4000,该电子设备400可以包括:智能手机、平板电脑、台式电脑、笔记本电脑、服务器等。
在图9中,该电子设备4000包括至少一个处理器4001、至少一条通信总线4002以及至少一个存储器4003。
其中,处理器4001和存储器4003相连,如通过通信总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
通信总线4002可包括一通路,在上述组件之间传送信息。通信总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。通信总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003上存储有计算机程序,处理器4001通过通信总线4002读取存储器4003中存储的计算机程序。
该计算机程序被处理器4001执行时实现上述各实施例中的人脸识别方法。
此外,本申请实施例中提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各实施例中的人脸识别方法。
本申请实施例中提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在存储介质中。计算机设备的处理器从存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述各实施例中的人脸识别方法。
与相关技术相比,本发明的有益效果是:
1.本发明提出了一种人脸识别方法,通过使用一个1x1的卷积提取出当前样本的区域划分方法,自适应地提取出不同样本中的对应区域,如眼睛,头发,背景等,对于这些区域,我们首先使用普通卷积进行特征提取,与标准的卷积不同,每个卷积仅处理当前区域的特征,然后使用图卷积提取不同区域间的关系,并将这种关系加到原特征中,起到一种增强的作用,能够更有效地区分困难样本,从而进行准确的特征提取,减少数据量,实现高质量的人脸识别,且本发明在人脸识别任务上达到了最先进的水平,克服了现有相关技术特征提取效果不好,计算量大的缺陷。
2.本发明改进了人脸区域的划分方法,能够根据各区域所占的比例动态调整区域划分方法,在初期使得划分较为平均,能够较大限度上考虑到更多的区域,后期则划分得更加明显,提高了特征提取的效果,从而提高了人脸识别的准确度。
3.本发明具有通用性。只需将原模型上的普通卷积更换为本发明即可达到更好的效果,另外,在多种损失函数上,本发明也能取得比较好的效果,并且不需要任何的预训练仍能得出较好的结果。
4.本发明计算量小。与相关技术中一些涉及到通过关系提取特征的方法相比,本发明中所使用的图卷积计算量较小,因此增加的计算量较小,与基础模型相当,但在多个人脸测试集上能够获得较为明显的增长,实现了提高人脸识别效果的同时减小计算量。
5.本发明适用范围广。本发明在小模型上有较为明显的效果,这些模型通常会应用于计算量要求比较严格的场景,比如移动设备上。这些设备对于计算量的要求较为严格,而对参数的要求则不如计算量明显,因此本发明对于这种场景较为有效。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
上述内容,仅为本发明的较佳示例性实施例,并非用于限制本发明的实施方案,本领域普通技术人员根据本发明的主要构思和精神,可以十分方便地进行相应的变通或修改,故本发明的保护范围应以权利要求书所要求的保护范围为准。
Claims (10)
1.一种人脸识别方法,其特征在于,所述方法包括:
获取待识别图像的输入特征图,并计算所述输入特征图中每个位置属于所述输入特征图中各个区域的置信度;
在所述置信度的引导下,分别对所述输入特征图中的各个区域进行特征提取,得到区域特征图;
由所述区域特征图经过区域卷积得到输出特征图;
使用图卷积对所述输出特征图中各个区域之间的关系特征进行提取,得到关系特征图,根据所述输出特征图和所述关系特征图计算得到增强特征图;
根据所述增强特征图对所述待识别图像进行人脸识别,得到人脸识别结果。
2.如权利要求1所述的方法,其特征在于,所述计算输入特征图中每个位置属于所述输入特征图中各个区域的置信度,包括:
使用卷积核对所述输入特征图进行卷积,得到所述输入特征图中每个区域的权重,根据所述权重调整激活函数SoftMax的参数;
使用所述激活函数SoftMax计算所述输入特征图中每个位置属于各个区域的概率,作为所述输入特征图中每个位置属于各个区域的置信度。
3.如权利要求1所述的方法,其特征在于,所述由区域特征图经过区域卷积得到输出特征图,包括:
使用ArgMax函数,在所述区域特征图中查找每个区域置信度最高的位置;
使用各区域对应的卷积核对查找到的位置进行特征提取,得到各个区域的特征,构成输出特征图。
4.如权利要求1所述的方法,其特征在于,所述由区域特征图经过区域卷积得到输出特征图之后,包括:
使用置信度对所述输出特征图进行空间上的拆分,得到维度降低后的输出特征图。
5.如权利要求1所述的方法,其特征在于,所述使用图卷积对所述输出特征图中各区域之间的关系特征进行提取,得到关系特征图,包括:
使用图卷积中的第一卷积核提取所述输出特征图中各区域之间的特征,得到第一特征图;
将所述输出特征图与所述第一特征图相加得到第二特征图;
使用图卷积中的第二卷积核提取所述第二特征图的特征,得到所述关系特征图。
6.如权利要求1所述的方法,其特征在于,所述根据所述输出特征图和所述关系特征图计算得到增强特征图,包括:
将所述输出特征图和所述关系特征图相加,得到所述增强特征图。
7.如权利要求1至6任一项所述的方法,其特征在于,所述人脸识别是调用人脸识别模型实现的,所述人脸识别模型是经过训练的、具有对所述待识别图像进行人脸识别的能力的机器学习模型。
8.一种人脸识别装置,其特征在于,所述装置包括:
置信度获取模块,用于提取输入特征图中每个区域的权重,得到输入特征图中每个位置属于所述输入特征图中各个区域的置信度;
区域特征提取模块,用于在置信度的引导下,分别对输入特征图中的各个区域进行特征提取,得到区域特征图;
输出特征提取模块,用于由区域特征图经过区域卷积得到输出特征图;
增强特征图生成模块,用于使用图卷积根据输出特征图提取各区域之间的关系特征,得到关系特征图,根据输出特征图和关系特征图计算得到增强特征图;
人脸识别模块,用于根据增强特征图对待识别图像进行人脸识别,得到人脸识别结果。
9.一种电子设备,其特征在于,包括:至少一个处理器、至少一个存储器、以及至少一条通信总线,其中,
所述存储器上存储有计算机程序,所述处理器通过所述通信总线读取所述存储器中的所述计算机程序;
所述计算机程序被所述处理器执行时实现权利要求1至7中任一项所述的人脸识别方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的人脸识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310158924.3A CN116246323A (zh) | 2023-02-13 | 2023-02-13 | 人脸识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310158924.3A CN116246323A (zh) | 2023-02-13 | 2023-02-13 | 人脸识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116246323A true CN116246323A (zh) | 2023-06-09 |
Family
ID=86630840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310158924.3A Pending CN116246323A (zh) | 2023-02-13 | 2023-02-13 | 人脸识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116246323A (zh) |
-
2023
- 2023-02-13 CN CN202310158924.3A patent/CN116246323A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368893B (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN112052789B (zh) | 人脸识别方法、装置、电子设备及存储介质 | |
WO2020221013A1 (zh) | 一种图像处理方法、装置、电子设备以及存储介质 | |
CN110263909B (zh) | 图像识别方法及装置 | |
CN111368685B (zh) | 关键点的识别方法、装置、可读介质和电子设备 | |
KR20160044470A (ko) | 배경 이미지를 설정하기 위한 방법, 서버 및 시스템 | |
KR20160074500A (ko) | 모바일 비디오 서치 기법 | |
CN111950723A (zh) | 神经网络模型训练方法、图像处理方法、装置及终端设备 | |
CN109002787B (zh) | 图像处理方法和装置、存储介质、电子设备 | |
US20190327475A1 (en) | Object segmentation in a sequence of color image frames based on adaptive foreground mask upsampling | |
CN110427915B (zh) | 用于输出信息的方法和装置 | |
WO2021175040A1 (zh) | 视频处理方法及相关装置 | |
TW202036476A (zh) | 圖像處理方法及裝置、電子設備和儲存介質 | |
CN114096994A (zh) | 图像对齐方法及装置、电子设备、存储介质 | |
CN112614110B (zh) | 评估图像质量的方法、装置及终端设备 | |
CN111126159A (zh) | 用于实时跟踪行人的方法、装置、电子设备和介质 | |
CN111626035A (zh) | 一种版面分析方法及电子设备 | |
CN116246323A (zh) | 人脸识别方法、装置、电子设备及存储介质 | |
CN116883708A (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN113705386A (zh) | 视频分类方法、装置、可读介质和电子设备 | |
CN112036501A (zh) | 基于卷积神经网络的图片的相似度检测方法及其相关设备 | |
CN114648712A (zh) | 视频分类方法、装置、电子设备及计算机可读存储介质 | |
CN111815654A (zh) | 用于处理图像的方法、装置、设备和计算机可读介质 | |
TWI712033B (zh) | 聲音識別方法、裝置、電腦裝置及存儲介質 | |
US20240127406A1 (en) | Image quality adjustment method and apparatus, device, and medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |