CN117437684A - 一种基于修正注意力的图像识别方法和装置 - Google Patents

一种基于修正注意力的图像识别方法和装置 Download PDF

Info

Publication number
CN117437684A
CN117437684A CN202311715424.1A CN202311715424A CN117437684A CN 117437684 A CN117437684 A CN 117437684A CN 202311715424 A CN202311715424 A CN 202311715424A CN 117437684 A CN117437684 A CN 117437684A
Authority
CN
China
Prior art keywords
corrected
attention
facial
facial features
image recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311715424.1A
Other languages
English (en)
Other versions
CN117437684B (zh
Inventor
蒋召
石雅洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xumi Yuntu Space Technology Co Ltd
Original Assignee
Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xumi Yuntu Space Technology Co Ltd filed Critical Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority to CN202311715424.1A priority Critical patent/CN117437684B/zh
Publication of CN117437684A publication Critical patent/CN117437684A/zh
Application granted granted Critical
Publication of CN117437684B publication Critical patent/CN117437684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及图像识别技术领域,提供了一种基于修正注意力的图像识别方法和装置。该方法包括:获得目标面部图像;提取上述目标面部图像中的面部特征;将上述面部特征输入至目标图像识别模型的修正注意力单元,获得对应的修正面部特征;将上述修正面部特征输入至上述目标图像识别模型的面部识别单元,获得面部识别结果。本申请实施例通过在目标图像识别模型中加入修正注意力单元,计算出人脸图片特征对应的注意力图并进行修正,通过修正后的注意力图计算出加权后的人脸图片特征,有效提升了图像识别效果。

Description

一种基于修正注意力的图像识别方法和装置
技术领域
本申请涉及图像识别技术领域,尤其涉及一种基于修正注意力的图像识别方法和装置。
背景技术
随着深度学习技术的发展,常规场景下的人脸识别任务精度越来越高,但是当人脸存在遮挡时,会丢失部分人脸特征信息,从而对人脸识别产生较大的影响,会导致误识别现象。现有方法为了解决遮挡场景下的人脸识别问题有两种方式,第一种方式是从数据角度出发,通过对原有人脸数据进行增强;第二种方式是在识别网络中引入注意力机制,然后用这些学习到的遮挡区域对人脸图片特征进行加权,但是无法评估学习到的注意力图的有效性。
因此,如何通过对注意力机制进行优化,使得模型在识别遮挡人脸时,取得更好的效果,是需要解决的技术问题。
发明内容
有鉴于此,本申请实施例提供了一种基于修正注意力的图像识别方法、装置、电子设备及计算机可读存储介质,以解决现有注意力机制在处理遮挡人脸识别时准确度不高的问题。
本申请实施例的第一方面,提供了一种基于修正注意力的图像识别方法,包括:
获得目标面部图像;
提取所述目标面部图像中的面部特征;
将所述面部特征输入至目标图像识别模型的修正注意力单元,获得对应的修正面部特征;
将所述修正面部特征输入至所述目标图像识别模型的面部识别单元,获得面部识别结果。
本申请实施例的第二方面,提供了一种基于修正注意力的图像识别装置,包括:
图像获得模块,被配置为获得目标面部图像;
特征提取模块,被配置为提取所述目标面部图像中的面部特征;
面部特征修正模块,被配置为将每组所述面部特征输入至目标图像识别模型的修正注意力单元,获得对应的修正面部特征;
面部识别结果输出模块,被配置为将所述修正面部特征输入至所述目标图像识别模型的面部识别单元,获得面部识别结果。
本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现第一方面所述方法的步骤。
本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现第一方面所述方法的步骤。
本申请实施例与现有技术相比存在的有益效果至少包括:本申请实施例通过获得目标面部图像;然后提取所述目标面部图像中的面部特征;将所述面部特征输入至目标图像识别模型的修正注意力单元,获得对应的修正面部特征;最后将所述修正面部特征输入至所述目标图像识别模型的面部识别单元,获得面部识别结果。本申请实施例通过在目标图像识别模型中加入修正注意力单元,计算出人脸图片特征对应的注意力图并进行修正,通过修正后的注意力图计算出加权后的人脸图片特征,有效提升了目标图像识别效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例提供的一种基于修正注意力的图像识别方法的流程示意图之一;
图2是本申请实施例提供的一种基于修正注意力的图像识别方法的流程示意图之二;
图3是本申请实施例提供的一种基于修正注意力的图像识别方法的流程示意图之三;
图4是本申请实施例提供的一种基于修正注意力的图像识别方法的流程示意图之四;
图5是本申请实施例提供的修正注意力学习示意图;
图6是本申请实施例提供的一种基于修正注意力的图像识别装置的结构示意图之一;
图7是本申请实施例提供的一种基于修正注意力的图像识别装置的结构示意图之二;
图8是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
下面将结合附图详细说明根据本申请实施例的一种基于修正注意力的图像识别方法和装置。
如背景技术所述,人脸识别的核心思想是通过特征提取将人脸图像的特征信息转变为可识别的特征向量,进而实现人脸的分类和识别。然而,实际场景中的人脸图像会受到一些不可控因素的影响,例如,口罩遮挡导致脸部的有效特征减少,使得人脸识别效果不理想。
随着各种技术的不断发展,人脸识别研究也逐渐完善起来,但是这只是在理想情况下实现的。在现实环境下,不同光照、面部表情、人脸姿态以及是否存在遮挡等非控制因素都会对人脸识别系统进行干扰。其中,人脸识别中面部存有遮挡是一个重要的待解决问题。该问题的主要原因是遮挡导致的人脸关键特征缺失。针对面部有遮挡的人脸识别问题的有效方法,包括基于图像修复的方法、基于统计分析的方法、基于稀疏表示的方法和基于局部特征的方法。
对于基于图像修复的方法,用来修复人脸缺失信息的核心是利用已存在的灰度数据去完善,例如填充或平滑,所缺失信息。此方法虽然可以恢复部分被遮挡的灰度信息,但几何及纹理信息无法被还原。也有方法利用遮挡特征恢复方法与局部线性嵌入方法结合,完成基于图像修复的有遮挡人脸识别方法,优点是其在遮挡较少的情况下具有一定的效果,缺点是在人脸遮挡较多的情况下识别效果不佳。
对于基于统计分析的方法,原理是通过统计样本信息来构建特征子空间,利用重构样本进行有遮挡人脸识别,其中主成分分析法是最具代表性的方法之一。例如既有提出基于最大相关熵的鲁棒PCA法和低秩约束情况下的鲁棒PCA法,但统计分析的方法还存在一定的局限性,限定条件较多。
对于基于稀疏表示的方法,通过大量实验研究后表现出强大的分类识别性能和对光照、遮挡等情况的良好鲁棒性。利用数据冗余性使测试图像在过完备字典中找出稀疏表示系数,同时通过不断学习新样本来得到每类样本的先行表达,以实现有遮挡人脸识别。该算法基础上提高识别准确率的方法还包括鲁棒稀疏编码方法、结构化稀疏误差编码、基于变化字典的有遮挡人脸识别方法。这些方法为解决有遮挡人脸识别问题提供了新的思路和技术手段。
对于基于局部特征的方法,面对以上三种有遮挡人脸识别方法均采用全局特征信息,而基于局部特征的方法则利用遮挡只是局部且连续的事实来进行识别。该方法的关键是降低遮挡部分的权重,同时提高非遮挡区块的权重,尽可能的消除遮挡造成识别不佳的影响。既有方法中还包括基于局部非负矩阵分解的有遮挡人脸识别算法,但该算法的鲁棒性较低;通过遮挡和未遮挡的不同情况将人脸图像进行区域划分,去除遮挡部分,通过特征子空间进行有遮挡识别;将人脸五官分为四个区域,对不同区域分别进行遮挡判别,将没有被遮挡的五官区块特征拼接,来进行有遮挡人脸识别。
对于深度学习方法,可以提取具有稀疏性和一定遮挡鲁棒性的深层特征,从而避免手工设计特征的局限性,提高人脸识别准确率。然而,是否存在遮挡将影响人脸识别准确率。当遮挡较大的情况下,仅使用深度学习方法难以实现遮挡人脸的识别。因此在深度学习领域,解决面部遮挡较多导致识别效果不佳问题是人脸识别里重要的问题。而注意力机制可以改善网络训练的权重分配方式,关注人脸的未遮挡区域,使网络充分训练未遮挡的图像信息,并与深度神经网络配合,大大提高遮挡人脸识别的准确性。
注意力机制在各个应用领域得到了广泛的应用。注意力是人类一种复杂的感知行为,在观察事物时,人类不会直接观察整个场景,当感兴趣的东西出现在场景中时,他们就会将注意力转向这个东西,并将更多的注意力集中在有用的部分上。这是人类利用有限资源从海量信息中获取有价值信息的一种手段,注意力机制提高了信息获取和处理的效率和准确性。注意力机制主要分为空间注意力机制、通道注意力机制、空间通道混合注意力机制三种。
因此,为了解决遮挡情况下的人脸识别问题,本申请实施例提出了一种基于修正注意力模块的遮挡人脸识别算法,可以显著提升遮挡场景下的人脸识别算法精度。
如图1所示,为本申请的一种基于修正注意力的图像识别方法流程图。上述方法包括:
S101:获得目标面部图像。
S102:提取上述目标面部图像中的面部特征。
S103:将上述面部特征输入至目标图像识别模型的修正注意力单元,获得对应的修正面部特征。
S104:将上述修正面部特征输入至上述目标图像识别模型的面部识别单元,获得面部识别结果。
具体地,通过特征抽取网络提取输入人脸图片特征,特征抽取网络的好坏会对人脸识别精度产生很大的影响。图像识别实际上是一个分类的过程,为了识别出某图像所属的类别,我们需要将它与其他不同类别的图像区分开来。这就要求选取的特征不仅要能够很好地描述图像,更重要的是还要能够很好地区分不同类别的图像。我们希望选择那些在同类图像之间差异较小,在不同类别的图像之间差异较大的图像特征,即称之为最具有区分能力的特征。此外,在特征提取中先验知识扮演着重要的角色,如何依靠先验知识来帮助我们选择特征也是后面将持续关注的问题。传统图像特征提取方法有HOG、Haar、LBP、SIFT、ORB等等。目前还出现了深度学习特征提取方法,但深度学习特征提取相当于一个黑盒。需要说明的是,本申请实施例中凡是能够提取出图像特征并且作为修正注意力机制输入的图像特征提取网络,都在本申请实施例的保护范围内。
在一些实施例中,上述修正注意力单元包括全局平均池化层、Softmax层和Sigmoid层。
在一些实施例中,将上述面部特征输入至目标图像识别模型的修正注意力单元,获得对应的修正面部特征,如图2所示,包括:
S211:将上述面部特征输入至上述Sigmoid层,获得对应于上述面部特征的注意力图特征。
S212:将上述面部特征依次输入至上述全局平均池化层和上述Softmax层,获得上述注意力图特征的通道权重。
S213:将上述注意力图特征和上述通道权重进行相乘,获得注意力图修正特征;
S214:将上述注意力图修正特征和上述面部特征进行相乘,获得上述修正面部特征。
需要说明的是,本发明实施例使用了注意力图的通道特征。如前上述基于通道的注意力机制可以理解为让神经网络在看什么,对于输入二维图像的CNN来说,一个维度是图像的尺度空间,即长宽,另一个维度就是通道。因此,基于通道的注意力机制也是很常用的机制。例如,SENet本质上是一个基于通道的注意力模型,它通过建模各个特征通道的重要程度,然后针对不同的任务増强或者抑制不同的通道,这种注意力机制让模型可以更加关注信息量最大的通道特征,而抑制那些不重要的通道特征。因此,通道注意力机制可以叠加若干基准模型,在增加少量计算量的情况下,获得了更明显的性能提升。作为一种通用的设计思想,它可以被用于任何现有网络,具有较强的实践效果。
在一些实施例中,将上述面部特征输入至目标图像识别模型的修正注意力单元之前,还包括将上述面部特征输入至1x1的卷积层进行降维处理。
在一些实施例中,将上述修正面部特征输入至上述目标图像识别模型的面部识别单元,获得面部识别结果,如图3所示,包括:
S311:基于Margin对上述修正面部特征进行特征选择。
S312:基于所选择的上述修正面部特征,获得对上述目标面部图像的分类识别结果和相应类别标签。
具体地,对于人脸识别任务,特征选择是一个极其重要的问题。特征选择的最终的评价将取决于其分类识别的能力。一种好的特征选择方法应该使所选择的特征子集即使采用最普通的分类器也可以获得较好的分类结果。基于Margin的特征选择方法实际上就是从分类识别的角度出发对特征集的各特征进行分析,通过一定的搜索算法获得各特征的权重和最佳特征组合,且分类误差最小。Margin在机器学习中具有很重要的意义。它可以度量一个分类器预测的可信程度。Margin是分界面与被预测样本间的距离测量,它可以用于学习算法的设计以及误差界的计算。通常地,Margin分为样本间隔和假设间隔。样本间隔,即从一个样本到由分类规则推导出的决策边界的距离;假设间隔是在不改变任何样本点分类结果的条件下分类器可以移动的距离。需要说明的是,凡是能够通过Margin技术选择的修正面部特征,并给予修正面部特征获得对上述目标面部图像的分类识别结果和相应类别标签,均在本申请技术方案保护范围内。
本申请的一种基于修正注意力的图像识别方法的另一种实现方式,如图4所示,上述方法还包括:
S105:依据上述面部识别结果确定目标损失函数,以便迭代更新上述目标图像识别模型的参数,获得经训练的上述目标图像识别模型。
在一些实施例中,依据上述分类识别结果和上述类别标签,确定上述目标图像识别模型的上述目标损失函数。
具体地,如图5所示,在本申请的一个实现方式如下。首先会对原始数据进行增强,即构建遮挡人脸数据;通过特征抽取网络提取输入人脸图片特征,特征抽取网络的好坏会对人脸识别精度产生很大的影响;将提取到的人脸图片特征进行注意力修正,输出为修正后的人脸图片特征;将修正后的人脸图片特征进行面部识别,这里主要包括基于Margin技术进行特征转换和分类;过前一步的分类结果和标签计算损失,以便通过损失反向更新网络参数。对于核心的注意力修正,其工作流程步骤包括:将经过特征抽取模块提取到的特征图先进行降维,这里用的卷积层进行降维,降维后的特征图即为修正注意力模块的输入;将降维后的特征图进行Sigmoid计算,计算的结果即为注意力图,该图表示人脸图片特征中的遮挡区域;将降维后的特征图首先按照通道进行全局平均池化,然后对池化后的结果进行Softmax计算,计算后的结果即表示注意力图不同通道的权重;将计算出的注意力图和计算出的注意力图的权重进行相乘,即计算出了修正后的注意力图;将注意力图和原始的特征图进行相乘,即计算出了加权后的人脸图片特征;将加权后的人脸图片特征送入后续计算模块。因此,为了解决遮挡场景下的人脸识别问题,基于对现有人脸识别算法的分析,对既有注意力机制进行了修正,通过计算出人脸图片特征对应的注意力图,然后对该注意力图进行修正,然后通过修正后的注意力图计算出加权后的人脸图片特征,从而提升了人脸识别算法效果。
本申请实施例通过获得目标面部图像;然后提取上述目标面部图像中的面部特征;将上述面部特征输入至目标图像识别模型的修正注意力单元,获得对应的修正面部特征;最后将上述修正面部特征输入至上述目标图像识别模型的面部识别单元,获得面部识别结果。本申请实施例通过在目标图像识别模型中加入修正注意力单元,计算出人脸图片特征对应的注意力图并进行修正,通过修正后的注意力图计算出加权后的人脸图片特征,有效提升了目标图像识别效果。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请系统实施例中未披露的细节,请参照本申请方法实施例。
图6是本申请实施例提供的一种基于修正注意力的图像识别装置的示意图。如图6所示,该基于修正注意力的图像识别装置包括:
图像获得模块601,被配置为获得目标面部图像。
特征提取模块602,被配置为提取上述目标面部图像中的面部特征。
面部特征修正模块603,被配置为将每组上述面部特征输入至目标图像识别模型的修正注意力单元,获得对应的修正面部特征。
面部识别结果输出模块604,被配置为将上述修正面部特征输入至上述目标图像识别模型的面部识别单元,获得面部识别结果。
本申请实施例提供的一种基于修正注意力的图像识别装置的另一种实现方式,如图7所示,上述装置还包括:
模型训练模块605,被配置为依据上述面部识别结果确定目标损失函数,以便迭代更新上述目标图像识别模型的参数,获得经训练的上述目标图像识别模型。
应理解,本说明书实施例的一种面部表情识别装置还可执行图1至图5中面部表情识别装置执行的方法,并实现面部表情识别装置在图1至图5所示实例的功能,在此不再赘述。同时,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图8是本申请实施例提供的电子设备8的示意图。如图8所示,该实施例的电子设备8包括:处理器801、存储器802以及存储在该存储器802中并且可在处理器801上运行的计算机程序803。处理器801执行计算机程序803时实现上述各个方法实施例中的步骤。或者,处理器801执行计算机程序803时实现上述各装置实施例中各模块/单元的功能。
电子设备8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备8可以包括但不仅限于处理器801和存储器802。本领域技术人员可以理解,图8仅仅是电子设备8的示例,并不构成对电子设备8的限定,可以包括比图示更多或更少的部件,或者不同的部件。
存储器802可以是电子设备8的内部存储单元,例如,电子设备8的硬盘或内存。存储器802也可以是电子设备8的外部存储设备,例如,电子设备8上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器802还可以既包括电子设备8的内部存储单元也包括外部存储设备。存储器802用于存储计算机程序以及电子设备所需的其它程序和数据。
处理器801可以是中央处理单元(CentralProcessing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-ProgrammableGate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器801从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成共享资源访问控制装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获得目标面部图像;
提取上述目标面部图像中的面部特征;
将上述面部特征输入至目标图像识别模型的修正注意力单元,获得对应的修正面部特征;
将上述修正面部特征输入至上述目标图像识别模型的面部识别单元,获得面部识别结果。
上述如本说明书图1至图5所示实施例揭示的基于修正注意力的图像识别方法可以应用于处理器801中,或者由处理器801实现。处理器801可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以实现或者执行本说明书实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
当然,除了软件实现方式之外,本说明书实施例的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1至图5所示实施例的基于修正注意力的图像识别方法,并具体用于执行以下方法:
获得目标面部图像;
提取上述目标面部图像中的面部特征;
将上述面部特征输入至目标图像识别模型的修正注意力单元,获得对应的修正面部特征;
将上述修正面部特征输入至上述目标图像识别模型的面部识别单元,获得面部识别结果。
总之,以上该仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于修正注意力的图像识别方法,其特征在于,包括:
获得目标面部图像;
提取所述目标面部图像中的面部特征;
将所述面部特征输入至目标图像识别模型的修正注意力单元,获得对应的修正面部特征;
将所述修正面部特征输入至所述目标图像识别模型的面部识别单元,获得面部识别结果。
2.根据权利要求1所述的方法,其特征在于,还包括:依据所述面部识别结果确定目标损失函数,以便迭代更新所述目标图像识别模型的参数,获得经训练的所述目标图像识别模型。
3.根据权利要求2所述的方法,其特征在于,所述修正注意力单元包括全局平均池化层、Softmax层和Sigmoid层;以及,将所述面部特征输入至目标图像识别模型的修正注意力单元,获得对应的修正面部特征,包括:
将所述面部特征输入至所述Sigmoid层,获得对应于所述面部特征的注意力图特征;
将所述面部特征依次输入至所述全局平均池化层和所述Softmax层,获得所述注意力图特征的通道权重;
将所述注意力图特征和所述通道权重进行相乘,获得注意力图修正特征;
将所述注意力图修正特征和所述面部特征进行相乘,获得所述修正面部特征。
4.根据权利要求3所述的方法,其特征在于,将所述面部特征输入至目标图像识别模型的修正注意力单元之前,还包括将所述面部特征输入至1x1的卷积层进行降维处理。
5.根据权利要求2所述的方法,其特征在于,将所述修正面部特征输入至所述目标图像识别模型的面部识别单元,获得面部识别结果,包括:
基于Margin对所述修正面部特征进行特征选择;
基于所选择的所述修正面部特征,获得对所述目标面部图像的分类识别结果和相应类别标签。
6.根据权利要求5所述的方法,其特征在于,依据所述分类识别结果和所述类别标签,确定所述目标图像识别模型的所述目标损失函数。
7.一种基于修正注意力的图像识别装置,其特征在于,所述装置包括:
图像获得模块,被配置为获得目标面部图像;
特征提取模块,被配置为提取所述目标面部图像中的面部特征;
面部特征修正模块,被配置为将每组所述面部特征输入至目标图像识别模型的修正注意力单元,获得对应的修正面部特征;
面部识别结果输出模块,被配置为将所述修正面部特征输入至所述目标图像识别模型的面部识别单元,获得面部识别结果。
8.根据权利要求7所述的装置,其特征在于,还包括:
模型训练模块,被配置为依据所述面部识别结果确定目标损失函数,以便迭代更新所述目标图像识别模型的参数,获得经训练的所述目标图像识别模型。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器在执行所述计算机程序时,实现如权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述方法的步骤。
CN202311715424.1A 2023-12-14 2023-12-14 一种基于修正注意力的图像识别方法和装置 Active CN117437684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311715424.1A CN117437684B (zh) 2023-12-14 2023-12-14 一种基于修正注意力的图像识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311715424.1A CN117437684B (zh) 2023-12-14 2023-12-14 一种基于修正注意力的图像识别方法和装置

Publications (2)

Publication Number Publication Date
CN117437684A true CN117437684A (zh) 2024-01-23
CN117437684B CN117437684B (zh) 2024-04-16

Family

ID=89546379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311715424.1A Active CN117437684B (zh) 2023-12-14 2023-12-14 一种基于修正注意力的图像识别方法和装置

Country Status (1)

Country Link
CN (1) CN117437684B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800737A (zh) * 2019-02-02 2019-05-24 深圳市商汤科技有限公司 面部识别方法及装置、电子设备和存储介质
CN112949565A (zh) * 2021-03-25 2021-06-11 重庆邮电大学 基于注意力机制的单样本部分遮挡人脸识别方法及系统
CN113255617A (zh) * 2021-07-07 2021-08-13 腾讯科技(深圳)有限公司 图像识别方法、装置、电子设备和计算机可读存储介质
CN115471898A (zh) * 2022-10-19 2022-12-13 北京理工华汇智能科技有限公司 一种融合注意力机制的人脸与手势识别方法及产品
CN116109834A (zh) * 2023-02-10 2023-05-12 广东工业大学 一种基于局部正交特征注意力融合的小样本图像分类方法
CN116343287A (zh) * 2023-01-18 2023-06-27 中国科学院重庆绿色智能技术研究院 面部表情识别、模型训练方法、装置、设备及存储介质
CN116563916A (zh) * 2023-04-25 2023-08-08 山东大学 基于注意力融合的循环人脸超分辨率方法及系统
US20230298382A1 (en) * 2020-11-24 2023-09-21 Central China Normal University Facial expression recognition method and system combined with attention mechanism
CN116912924A (zh) * 2023-09-12 2023-10-20 深圳须弥云图空间科技有限公司 一种目标图像识别方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800737A (zh) * 2019-02-02 2019-05-24 深圳市商汤科技有限公司 面部识别方法及装置、电子设备和存储介质
US20200320281A1 (en) * 2019-02-02 2020-10-08 Shenzhen Sensetime Technology Co., Ltd. Face recognition method and apparatus, electronic device, and storage medium
US20230298382A1 (en) * 2020-11-24 2023-09-21 Central China Normal University Facial expression recognition method and system combined with attention mechanism
CN112949565A (zh) * 2021-03-25 2021-06-11 重庆邮电大学 基于注意力机制的单样本部分遮挡人脸识别方法及系统
CN113255617A (zh) * 2021-07-07 2021-08-13 腾讯科技(深圳)有限公司 图像识别方法、装置、电子设备和计算机可读存储介质
CN115471898A (zh) * 2022-10-19 2022-12-13 北京理工华汇智能科技有限公司 一种融合注意力机制的人脸与手势识别方法及产品
CN116343287A (zh) * 2023-01-18 2023-06-27 中国科学院重庆绿色智能技术研究院 面部表情识别、模型训练方法、装置、设备及存储介质
CN116109834A (zh) * 2023-02-10 2023-05-12 广东工业大学 一种基于局部正交特征注意力融合的小样本图像分类方法
CN116563916A (zh) * 2023-04-25 2023-08-08 山东大学 基于注意力融合的循环人脸超分辨率方法及系统
CN116912924A (zh) * 2023-09-12 2023-10-20 深圳须弥云图空间科技有限公司 一种目标图像识别方法和装置

Also Published As

Publication number Publication date
CN117437684B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
CN109522942B (zh) 一种图像分类方法、装置、终端设备和存储介质
Ren et al. Deep Robust Single Image Depth Estimation Neural Network Using Scene Understanding.
CN112507990A (zh) 视频时空特征学习、抽取方法、装置、设备及存储介质
JP6393230B2 (ja) オブジェクト検出方法及び画像検索システム
CN114783069B (zh) 基于步态识别对象的方法、装置、终端设备及存储介质
CN110705600A (zh) 一种基于互相关熵的多深度学习模型融合方法、终端设备及可读存储介质
CN111179270A (zh) 基于注意力机制的图像共分割方法和装置
CN111144425B (zh) 检测拍屏图片的方法、装置、电子设备及存储介质
CN115457492A (zh) 目标检测方法、装置、计算机设备及存储介质
CN116129224A (zh) 检测模型的训练方法、分类方法、装置及电子设备
CN114821823A (zh) 图像处理、人脸防伪模型的训练及活体检测方法和装置
CN116912924B (zh) 一种目标图像识别方法和装置
CN116912923B (zh) 一种图像识别模型训练方法和装置
Dong et al. A supervised dictionary learning and discriminative weighting model for action recognition
CN117437684B (zh) 一种基于修正注意力的图像识别方法和装置
CN116486153A (zh) 图像分类方法、装置、设备及存储介质
CN114155388B (zh) 一种图像识别方法、装置、计算机设备和存储介质
EP4332910A1 (en) Behavior detection method, electronic device, and computer readable storage medium
Gaihua et al. Instance segmentation convolutional neural network based on multi-scale attention mechanism
CN111753583A (zh) 一种识别方法及装置
Bach et al. Analyzing classifiers: Fisher vectors and deep neural networks
CN111967476B (zh) 光场图像显著性特征提取、信息融合及预测损失评估方法
Huang et al. Deep Multimodal Fusion Autoencoder for Saliency Prediction of RGB‐D Images
CN110852102B (zh) 一种中文的词性标注方法、装置、存储介质及电子设备
Mahmood Defocus Blur Segmentation Using Genetic Programming and Adaptive Threshold.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant