CN114519877A

CN114519877A - 人脸识别方法、人脸识别装置、计算机设备及存储介质

Info

Publication number: CN114519877A
Application number: CN202111681056.4A
Authority: CN
Inventors: 叶嘉权; 魏新明; 王孝宇; 肖嵘
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-05-20

Abstract

本发明提供一种人脸识别方法、人脸识别装置、计算机设备及存储介质。人脸识别方法包括：获取待识别人脸图像。将人脸图像输入至预先训练好的人脸识别模型，人脸识别模型是将人脸训练图像输入至深度学习模型经过卷积处理后，通过自注意力机制进行全局训练得到的模型。通过人脸识别模型对人脸图像进行卷积得到多个局部特征向量。基于自注意力机制，融合多个局部特征向量得到全局特征向量。基于全局特征向量，识别人脸图像对应的人脸类别。通过本发明，采用预先训练好的人脸识别模型在对待识别的人脸图像进行识别时，能够利用人脸识别模型中的卷积增强人脸图像的局部特征表达，进而增强人脸图像全局特征提取的准确性，从而提高人脸识别的准确性。

Description

人脸识别方法、人脸识别装置、计算机设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种人脸识别方法、人脸识别装置、计算机设备及存储介质。

背景技术

在计算机视觉技术领域中，人脸识别技术是重要组成部分之一。进行人脸识别的人脸识别模型在进行训练时，所采用的框架可以包括卷积神经网络(ConvolutionalNeural Networks，CNN)或者基于自注意力机制的深度学习。其中，基于卷积神经网络训练人脸识别模型的技术相对较为成熟。

相关技术中，鉴于基于自注意力机制的深度学习模型在自然语言领域取得巨大成就，在训练人脸识别模型时，可以采用Transformer模型为框架的深度学习模型进行训练，进而得到人脸识别模型，以便提升模型知识容量，高效利用大量人脸数据，提升识别的准确率。其中，Transformer是一种基于自注意力机制的深度学习模型。

但以Transformer模型为框架的人脸识别模型在进行人脸识别时，由于训练过程过于考虑全局特征，导致在实际应用中，人脸识别的精确度不高。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中采用自然语言处理模型进行人脸识别精确度不高的缺陷，从而提供一种人脸识别方法、人脸识别装置、计算机设备及存储介质。

第一方法，本发明提供一种人脸识别方法，所述方法包括：获取待识别人脸图像。将所述人脸图像输入至预先训练好的人脸识别模型，所述人脸识别模型是将人脸训练图像输入至深度学习模型经过卷积处理后，通过自注意力机制进行全局训练得到的模型。通过所述人脸识别模型对所述人脸图像进行卷积得到多个局部特征向量。基于自注意力机制，融合所述多个局部特征向量得到全局特征向量。基于所述全局特征向量，识别所述人脸图像对应的人脸类别。

在该方式中，采用预先训练好的人脸识别模型在对待识别的人脸图像进行识别时，能够利用人脸识别模型中的卷积增强人脸图像的局部特征表达，进而增强人脸图像全局特征提取的准确性，从而提高人脸识别的准确性。

结合第一方面，在第一方面的第一实施例中，所述通过所述人脸识别模型对所述人脸图像进行卷积得到多个局部特征向量，包括：在所述人脸识别模型中，提取所述人脸图像对应的图像特征序列。对所述图像特征序列进行矩阵化处理，得到图像特征向量。通过卷积核为指定尺寸相同但维度不同的多个卷积层，对所述图像特征向量进行卷积处理，得到所述人脸图像的多个局部特征向量。

在该方式中，通过卷积核为指定尺寸相同但维度不同的多个卷积层，对图像特征向量进行卷积处理，提取人脸图像在不同维度下的局部特征向量，得到人脸图像的多个局部特征向量，以便后续进行融合时，能够基于不同维度的局部特征向量，增强各局部特征向量之间的信息关联，从而提高全局特征向量的准确度，使得到的全局特征向量能够充分表达出人脸图像中包括的人脸类别对应的人脸特征。

结合第一方面的第一实施例，在第一方面的第二实施例中，所述通过所述人脸识别模型中卷积核为指定尺寸相同但维度不同的多个卷积层对所述图像特征向量进行卷积，得到所述人脸图像的多个局部特征向量，包括：将所述图像特征向量通过当前卷积层进行卷积，得到所述当前卷积层对应当前维度的第一矩阵。将所述第一矩阵进行矩阵向量化处理，得到对应于所述当前维度的局部特征向量。

结合第一方面的第一实施例，在第一方面的第三实施例中，所述提取所述人脸图像对应的图像特征序列，包括：对所述人脸图像进行图像序列化处理，得到人脸图像序列，所述人脸图像序列由多个尺寸相同的人脸子图像根据指定顺序排列组成。通过对各所述人脸子图像进行卷积，提取各所述人脸子图像对应的子图像特征向量。将所述子图像特征向量根据所述指定顺序进行排列，获取所述人脸图像的图像特征序列。

结合第一方面的第三实施例，在第一方面的第四实施例中，对各所述人脸子图像进行卷积的卷积核的尺寸与所述人脸子图像的尺寸相同。

在该方式中，在提取子图像特征向量时，能够充分提取各人脸子图像的特征，并且有助于避免卷积核的尺寸过大或者过小影响子图像特征向量的提取质量，使子图像特征向量的提取更合理。

结合第一方面的第三实施例或者第四实施例，在第一方面的第五实施例中，所述融合所述多个局部特征得到全局特征向量，包括：基于所述图像特征序列，通过多头注意力矩阵，将所述多个局部特征向量进行融合，得到全局特征向量。

在该方式中，通过多头注意力矩阵，有助于确定各人脸子图像之间的注意力关系，从而进行针对性融合，提高人脸特征的表达。

结合第一方面，在第一方面的第六实施例中，所述人脸识别模型是将人脸训练图像输入至深度学习模型经过卷积处理后，通过自注意力机制进行全局训练得到的模型，包括：获取已知人脸类别的人脸训练图像。将所述人脸训练图像输入至深度学习模型中，提取样本特征序列。对所述样本特征序列进行矩阵化处理，得到样本特征向量。通过所述深度学习模型中卷积核为指定尺寸相同但维度不同的多个卷积层对所述样本特征向量进行卷积，得到所述人脸训练图像的多个局部训练特征向量。基于自注意力机制，将所述多个局部训练特征向量进行融合，得到所述人脸训练图像的全局训练特征向量。通过预先训练好的分类模型，对所述全局训练特征向量进行分类，获取分类损失。若所述分类损失小于指定阈值，则完成所述深度学习模型的训练，得到所述人脸识别模型。

在该方式中，基于自注意力机制训练深度学习模型时，通过引入卷积操作，对局部特征进行建模，增强人脸训练图像的局部特征表达，进而使得到的全局特征向量能够更加鲁棒的表述人脸训练图像对应人脸类别的特征，从而基于训练好的人脸识别模型进行人脸识别时，能够提高人脸识别的准确率。

在第二方面，本发明还提供一种人脸识别装置，所述装置包括：获取单元，用于获取待识别人脸图像。输入单元，用于将所述人脸图像输入至预先训练好的人脸识别模型，所述人脸识别模型是将人脸训练图像输入至深度学习模型经过卷积处理后，通过自注意力机制进行全局训练得到的模型。卷积单元，用于通过所述人脸识别模型对所述人脸图像进行卷积得到多个局部特征向量。融合单元，用于基于自注意力机制，融合所述多个局部特征向量得到全局特征向量。确定单元，用于基于所述全局特征向量，识别所述人脸图像对应的人脸类别。

结合第二方面，在第二方面的第一实施例中，所述卷积单元，包括：第一提取单元，用于在所述人脸识别模型中，提取所述人脸图像对应的图像特征序列。处理单元，用于对所述图像特征序列进行矩阵化处理，得到图像特征向量。卷积子单元，用于通过卷积核为指定尺寸相同但维度不同的多个卷积层，对所述图像特征向量进行卷积处理，得到所述人脸图像的多个局部特征向量。

结合第二方面的第一实施例，在第二方面的第二实施例中，所述卷积子单元，包括：第二提取单元，用于将所述图像特征向量通过当前卷积层进行卷积，得到所述当前卷积层对应当前维度的第一矩阵。向量化处理单元，用于将所述第一矩阵进行矩阵向量化处理，得到对应于所述当前维度的局部特征向量。

结合第二方面的第一实施例，在第二方面的第三实施例中，所述第一提取单元，包括：处理单元，用于对所述人脸图像进行图像序列化处理，得到人脸图像序列，所述人脸图像序列由多个尺寸相同的人脸子图像根据指定顺序排列组成。第三提取单元，用于通过对各所述人脸子图像进行卷积，提取各所述人脸子图像对应的子图像特征向量。合并单元，用于将所述子图像特征向量根据所述指定顺序进行排列，获取所述人脸图像的图像特征序列。

结合第二方面的第三实施例，在第二方面的第四实施例中，对各所述人脸子图像进行卷积的卷积核的尺寸与所述人脸子图像的尺寸相同。

结合第二方面的第三实施例或者第四实施例，在第二方面的第五实施例中，所述融合单元，包括：融合子单元，用于基于所述图像特征序列，通过多头注意力矩阵，将所述多个局部特征向量进行融合，得到全局特征向量。

结合第二方面，在第二方面的第六实施例中，所述人脸识别模型采用下述单元进行训练，包括：样本获取单元，用于获取已知人脸类别的人脸训练图像。投影单元，用于将所述人脸训练图像输入至深度学习模型中，提取样本特征序列。转换单元，用于对所述样本特征序列进行矩阵化处理，得到样本特征向量。局部特征提取单元，用于通过所述深度学习模型中卷积核为指定尺寸相同但维度不同的多个卷积层对所述样本特征向量进行卷积，得到所述人脸训练图像的多个局部训练特征向量。全局特征获取单元，用于基于自注意力机制，将所述多个局部训练特征向量进行融合，得到所述人脸训练图像的全局训练特征向量。分类单元，用于通过预先训练好的分类模型，对所述全局训练特征向量进行分类，获取分类损失。控制单元，用于若所述分类损失小于指定阈值，则完成所述深度学习模型的训练，得到所述人脸识别模型。

根据第三方面，本发明实施方式还提供一种计算机设备，包括存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第一方面及其可选实施方式中任一项的人脸识别方法。

根据第四方面，本发明实施方式还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行第一方面及其可选实施方式中任一项的人脸识别方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例提出的一种人脸识别方法的流程图。

图2是根据一示例性实施例提出的另一种人脸识别方法的流程图。

图3是根据一示例性实施例提出的一种人脸识别模型训练方法的流程图。

图4是根据一示例性实施例提出的另一种人脸识别模型训练方法的流程图。

图5是根据一示例性实施例提出的一种人脸识别装置的结构框图。

图6是根据一示例性实施例提出的一种计算机设备的硬件结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

鉴于基于自注意力机制的深度学习模型在自然语言领域取得巨大成就，在训练人脸识别模型时，可以采用Transformer模型为框架的深度学习模型进行训练，进而得到人脸识别模型，以便提升模型知识容量，高效利用大量人脸数据，提升识别的准确率。其中，Transformer是一种基于自注意力机制的深度学习模型。

相关技术中，采用Transformer模型的深度学习模型进行训练时，是基于人脸图像的全局特征进行训练。但采用该种方式训练得到的人脸识别模型，当人脸图像中的人脸被眼镜，口罩或者帽子等遮挡物遮挡时，则容易影响全局特征的提取，进而导致误识别的情况发生，影响人脸识别准确率。

为解决上述问题，本发明实施例中提供一种人脸识别方法，用于计算机设备中，需要说明的是，其执行主体可以是人脸识别装置，该装置可以通过软件、硬件或者软硬件结合的方式实现成为存储设备的部分或者全部，其中，该计算机设备可以是终端或客户端或服务器，服务器可以是一台服务器，也可以为由多台服务器组成的服务器集群，本申请实施例中的终端可以是智能手机、个人电脑、平板电脑、可穿戴设备以及智能机器人等其他智能硬件设备。下述方法实施例中，均以执行主体是计算机设备为例来进行说明。

本发明实施例中的计算机设备，应用于对未知人脸类别的人脸图像进行人脸识别检测的使用场景，例如：安防场景。通过本发明提供的人脸识别方法，采用预先训练好的人脸识别模型在对待识别的人脸图像进行识别时，能够利用人脸识别模型中的卷积增强人脸图像的局部特征表达，进而增强人脸图像全局特征提取的准确性，从而提高人脸识别的准确性。

图1是根据一示例性实施例提出的一种人脸识别方法的流程图。如图1所示，人脸识别方法包括如下步骤S101至步骤S105。

在步骤S101中，获取待识别人脸图像。

在本发明实施例中，人脸图像中包括待识别人脸类型的人脸。不同人的人脸对应不同的人脸类别。例如：A君的人脸与B君的人脸即为两种不同的人脸类别。

在步骤S102中，将人脸图像输入至预先训练好的人脸识别模型。

在本发明实施例中，人脸识别模型是将人脸训练图像输入至深度学习模型经过卷积处理后，通过自注意力机制进行全局训练得到的模型。在一示例中，深度学习模型中包括编码器和解码器，二者基于注意力机制连接。其中，编码器用于特征提取，通过注意力机制将提取的特征进行建模和转导，进而由解码器进行翻译，得到最终特征提取结果。

将人脸图像输入至该人脸识别模型进行人脸识别，有助于在进行人脸识别时能够通过卷积增强人脸图像的局部特征表达，进而基于自注意力机制提高全局特征提取的准确度，从而有助于提高人脸识别的准确性。

在步骤S103中，通过人脸识别模型对人脸图像进行卷积得到多个局部特征向量。

在本发明实施例中，在对人脸图像识别的过程中，为增强人脸图像的局部特征表达，突出人脸图像的细节，则对该人脸图像进行局部卷积处理，提取该人脸图像的多个局部特征向量，进而确定该人脸图像的全局特征向量时，能够充分体现该人脸图像的各个细节特征，有助于增强人脸识别的准确度。其中，特征向量可以理解为是特征在人脸识别模型中的表达形式。

在步骤S104中，基于自注意力机制，融合多个局部特征向量得到全局特征向量。

在本发明实施例中，基于自注意力机制，确定多个局部特征向量之间的注意力关系，进而采用遮挡或者模糊等融合处理方式，将各局部特征向量进行融合，得到用于表达人脸图像全局特征的全局特征向量。在一例中，自注意力机制可以是多头注意力机制，进而在进行融合时，能够充分挖掘各个局部特征向量之间的注意力关系，从而提高融合结果的准确性，使得到的全局特征向量更准确，有助于提高人脸识别的鲁棒性。

在步骤S105中，基于全局特征向量，识别人脸图像对应的人脸类别。

在本发明实施例中，全局特征向量表达的是人脸图像的全局特征，进而在识别该人脸特征图像对应的人脸类别时，则可以基于该全局特征向量进行识别。

在一实施场景中，基于全局特征向量进行人脸识别时，是将该全局特征向量与预先存储的多个已知人脸类别的全局特征向量进行匹配，确定第一全局特征向量。其中，第一全局特征向量是多个已知人脸类别的全局特征向量中，与该全局特征向量相似度最高的全局特征向量。当该相似度大于指定阈值时，则表征全局特征向量与第一全局特征向量之间高度相似，进而可以将该第一全局特征向量对应的人脸类别匹配至人脸图像，识别该人脸类别为人脸图像的人脸类别。例如：第一全局特征向量的人脸类别为A君，且第一全局特征向量与人脸图像的全局特征向量之间的相似度大于指定阈值，则识别该人脸图像对应的人脸类别为A君。

通过上述实施例，采用预先训练好的人脸识别模型在对待识别的人脸图像进行识别时，能够利用人脸识别模型中的卷积增强人脸图像的局部特征表达，进而增强人脸图像全局特征提取的准确性，从而提高人脸识别的准确性。

由于在自然语言领域中，将句子输入至训练好的、且基于自注意力机制训练的语言识别模型进行识别处理时，是将句子以序列的方式输入至语言识别模型中。因此，采用基于自注意力机制训练得到的人脸识别模型对人脸图像进行人脸识别时，也是先对人脸图像进行序列化处理后，再进行识别。

在一实施例中，将人脸图像输入至人脸识别模型后，为便于提取局部特征，且满足人脸识别模型在进行人脸识别的输入要求，则基于对人脸图像进行序列化处理后的结果，提取人脸图像对应的图像特征序列。该图像特征序列是人脸图像的初始图像特征，包括人脸类别对应的图像特征序列以及非人脸类别的图像特征序列。由于图像特征序列是一维序列，因此，为增强人脸局部特征的表达，提高人脸识别的准确性，则对该图像特征序列进行矩阵化处理，将一维序列转换成具有指定维度的矩阵，进而得到该人脸图像对应的图像特征向量。在一示例中，指定维度可以为二维。例如：图像特征序列为16*512的序列，将该人脸图像进行4*4(4行4列)的矩阵化处理后，得到二维的图像特征向量为4*4*512(4行4列的矩阵，其中，每一行每一列上的数据均为512维)。进而通过卷积核为指定尺寸相同但维度不同的多个卷积层，对图像特征向量进行卷积处理，提取人脸图像在不同维度下的局部特征向量，得到人脸图像的多个局部特征向量，以便后续进行融合时，能够基于不同维度的局部特征向量，增强各局部特征向量之间的信息关联，从而提高全局特征向量的准确度，使得到的全局特征向量能够充分表达出人脸图像中包括的人脸类别对应的人脸特征。其中，各卷积层的卷积核的指定尺寸相同，有助于在进行局部特征向量提取时，能够保障提取的人脸图像的局部区域面积相同，进而在进行融合时，能够提高融合准确度。各卷积核的维度不同，是便于后续在确定各局部特征向量之间的注意力关系时，能够提高注意力关系的确定准确度。

在另一实施例中，在进行局部特征提取时，是由各卷积层分别对获取的图像特征向量进行局部卷积处理。以下针对当前卷积层对图像特征向量进行卷积处理的过程进行说明：

将图像特征向量通过当前卷积层进行卷积，得到当前卷积层对应当前维度的第一矩阵，以便通过第一矩阵感知人脸图像在当前维度下的局部特征信息。由于后续需要基于注意力机制确定各局部特征向量之间的注意力关系，因此，将第一矩阵进行矩阵向量化处理，将第一矩阵转换成一维向量，以便满足后续自注意力机制的处理需求。其中，转换后得到的一维向量，即为人脸图像在当前维度下对应的局部特征向量。

在一实施场景中，卷积层的数量可以为3，分别采用卷积层Q、卷积层K和卷积层V进行区分。其中，各卷积层对应的维度可以为指定维度，也可以是基于需求自定义的维度，在本发明中不进行限定。

在又一实施例中，为提取人脸图像对应的图像特征序列，先对人脸图像进行图像序列化处理，得到人脸图像序列。具体的，将人脸图像采用等比例均分的处理方式，将人脸图像划分为多个尺寸相同的人脸子图像，并根据指定顺序进行排列，得到人脸图像对应的人脸图像序列。其中，指定顺序可以理解为是向同一方向进行展开。对各人脸子图像分别进行卷积，提取各人脸子图像对应具有指定维度的子图像特征向量，进而将各子图像特征向量根据人脸图像序列的指定顺序进行排列，得到该人脸图像的图像特征序列。

在一示例中，在对各人脸子图像进行卷积，提取各子图像特征向量时，是采用与人脸子图像的尺寸相同的卷积核进行卷积，进而在提取子图像特征向量时，能够充分提取各人脸子图像的特征，并且有助于避免卷积核的尺寸过大或者过小影响子图像特征向量的提取质量，使子图像特征向量的提取更合理。

在另一示例中，在对各人脸子图像进行卷积时，可以采用同一卷积核进行卷积，进而有助于简化人脸识别模型结构，降低成本。

在又一实施例中，基于注意力机制，将多个局部特征向量进行融合时，是基于图像特征序列，通过多头注意力矩阵，确定各局部特征向量之间的注意力关系，进而通过对各局部特征向量进行加权累加，将多个局部特征向量进行融合，进而得到全局特征向量。通过多头注意力矩阵，有助于确定各人脸子图像之间的注意力关系，从而进行针对性融合，提高人脸特征的表达。

在一实施场景中，多头注意力矩阵，可以采用下述公式进行表示：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O

Q＝XW^Q,K＝XW^K,V＝XW^V，其中，W^Q，W^K，W^V是卷积核为3x3的卷积层，X表示输入的图片块特征向量。通过多头注意力矩阵，对各局部特征向量进行加权累加，得到注意力模块的输出，确定各人脸子图像之间的注意力关系。

在一实施场景中，通过人脸识别模型识别人脸图像的流程图可以如图2所示。图2是根据一示例性实施例提出的另一种人脸识别方法的流程图。

在人脸识别模型中，提取人脸图像对应的图像特征序列，并对该图像特征序列进行矩阵化处理，得到图像特征向量。将图像特征向量传输至多个卷积层中，进行局部特征提取。其中，多个卷积层为卷积核为指定尺寸相同但维度不同的卷积层Q、卷积层K和卷积层V。

针对卷积层Q，将图像特征向量通过卷积层Q进行卷积，得到卷积层Q对应维度的第一矩阵(Q矩阵)。将该Q矩阵进行矩阵向量化处理，得到对应于卷积层Q对应维度的局部特征向量(Q向量)。

图像特征序列基于卷积层K得到对应局部特征向量(K向量)和基于卷积层V得到对应局部特征向量(V向量)的原理，与得到Q向量的原理相同，在此不在进行赘述。

通过多头注意力矩阵，对Q向量、K向量与V向量两两组合，确定各局部特征向量之间的注意力关系，进而通过特征值加权的方式，将各局部特征向量进行融合，得到能够表达人脸图像中包括的人脸类别的全局特征向量。

通过上述实施方式，在对人脸图像进行识别时，能够增强人脸图像的局部特征表达，进而提高对人脸类别的全局特征向量提取的准确度，从而提高人脸识别的准确率。

以下实施例将说明人脸识别模型的具体训练过程。

图3是根据一示例性实施例提出的一种人脸识别模型训练方法的流程图。如图3所示，人脸识别方法包括如下步骤S301至步骤S306。

在步骤S301中，获取已知人脸类别的人脸训练图像。

在步骤S302中，将人脸训练图像输入至深度学习模型中，提取样本特征序列。

在发明实施例中，将人脸训练图像输入至深度学习模型中，将该人脸训练图像进行序列化处理，均分该人脸训练图像，得到多个人脸训练子图像，进而得到人脸训练图像序列。通过对人脸训练图像序列进行卷积，提取人脸训练图像的样本特征序列。

在一实施例中，人脸训练图像序列是由多个人脸训练子图像根据指定顺序进行排列得到的，进而对人脸训练图像序列进行卷积时，是对各人脸训练子图像进行卷积，得到各人脸训练子图像对应的子样本特征，从而将各子样本特征根据指定顺序进行排列，得到该样本特征序列。

在另一实施例中，对各人脸训练子图像进行卷积处理时，采用的卷积核的尺寸与人脸训练子图像的尺寸相同，进而得到具有维度相同的多个子样本特征，从而得到具有指定维度的样本特征序列。

在步骤S303中，对样本特征序列进行矩阵化处理，得到样本特征向量。

在本发明实施例中，为增强人脸局部特征的表达，提高人脸识别的准确性，则对该样本特征序列进行矩阵化处理，将一维序列转换成具有指定维度的矩阵，进而得到该人脸训练图像对应的样本特征向量。在一示例中，指定维度可以为二维。

在步骤S304中，通过深度学习模型中卷积核为指定尺寸相同但维度不同的多个卷积层对样本特征向量进行卷积，得到人脸训练图像的多个局部训练特征向量。

在本发明实施例中，通过深度学习模型中卷积核为指定尺寸相同但维度不同的多个卷积层分别对样本特征序列进行卷积，得到样本特征向量针对每一个卷积层对应维度的第一矩阵。通过对各第一矩阵进行矩阵向量化处理，得到多个局部训练特征向量。

在一实施场景中，对样本特征向量进行卷积，提取各局部训练特征向量的过程，可以理解为是对局部特征向量进行局部建模的过程，从而提高人脸识别模型的特征表述能力。

在步骤S305中，基于自注意力机制，将多个局部训练特征向量进行融合，得到人脸训练图像的全局训练特征向量。

在本发明实施例中，基于自注意力机制，确定各局部训练特征向量之间的注意力关系，进而将各个局部训练特征向量进行融合，得到人脸训练图像的全局训练特征向量。

在步骤S306中，通过预先训练好的分类模型，对全局训练特征向量进行分类，获取分类损失。

在本发明实施例中，为确定深度学习模型的训练进度，以及全局训练特征向量的提取准确度，则通过预先训练好的分类模型，将全局训练特征向量投影到人脸训练集的类别数空间进行分类处理，并通过损失函数，计算在进行分类时，所产生的分类损失，进而达到监督学习的目的。其中，人脸训练集包括多张人脸训练图像。

在一示例中，所采用的损失函数为交叉熵损失函数，进而采用的公式可以为：

Y'＝XW^C

L＝Loss_ce(Y',Y)，

其中W^C是全局训练特征向量，

其中d是人脸特征的维度数目，c是人脸类别数目。

在步骤S307中，若分类损失小于指定阈值，则完成深度学习模型的训练，得到人脸识别模型。

在本发明实施例中，指定阈值可以理解为是用于判定深度学习模型是否学习完成的最大损失阈值。若分类损失小于指定阈值，则表征深度学习模型提取的全局训练特征向量，能够满足表达其对应人脸类别的特征，进而可以确定该深度学习模型的训练完成，从而得到训练好的人脸识别模型。

在一示例中，若总损失大于或者等于指定损失阈值，则表征深度学习模型提取的全局训练特征向量，暂时还不能有效的表达其对应人脸类别的特征，因此，仍需要继续训练。

通过上述实施例，基于自注意力机制训练深度学习模型时，通过引入卷积操作，对局部特征进行建模，增强人脸训练图像的局部特征表达，进而使得到的全局特征向量能够更加鲁棒的表述人脸训练图像对应人脸类别的特征，从而基于训练好的人脸识别模型进行人脸识别时，能够提高人脸识别的准确率。

在一实施场景中，用于进行人脸识别模型训练的深度学习模型可以是以VisualTransformer模型(一种应用于计算机视觉领域的Transformer模型)为基础框架的网络模型，进而人脸识别模型的训练流程可以如图4所示。图4是根据一示例性实施例提出的另一种人脸识别模型训练方法的流程图。在对该人脸识别模型进行训练时，主要基于如下模块进行训练：人脸图片序列化模块401，图片块投影模块402，引入卷积操作的自注意力模块403和类别分类模块404。

人脸图片序列化模块401，用于将人脸训练图像进行等比例切分处理，得到多个人脸训练子图像，进而将各人脸训练子图像向同一方向进行展开，得到人脸训练图像的人脸训练图像序列。即，对人脸训练图像进行序列化处理，得到人脸训练图像的人脸训练图像序列。

图片块投影模块402，用于将得到的人脸训练图像序列，通过与人脸子图像的尺寸相同的卷积核进行卷积，进而将人脸训练图像序列转换成具有固定维度的样本特征序列。

自注意力模块403，用于将样本特征序列进行矩阵化处理，得到能够用于进行局部特征提取的样本特征向量，并通过卷积核为指定尺寸相同但维度不同的多个卷积层，对该样本特征向量进行卷积处理，进而得到多个局部训练特征向量。基于自注意力机制，确定各局部训练特征向量之间的注意力关系，从而将多个局部训练特征向量进行融合，得到用于表达人脸类别的全局训练特征向量。

类别分类模块404，用于将全局训练特征向量投影到人脸训练集的类别数空间进行分类处理，并通过损失函数，计算在进行分类时，所产生的分类损失，进而达到监督学习的目的。其中，人脸训练集包括多张人脸训练图像。

基于相同发明构思，本发明还提供一种人脸识别装置。

图5是根据一示例性实施例提出的一种人脸识别装置的结构框图。如图5所示，人脸识别容装置包括获取单元501、输入单元502、卷积单元503、融合单元504和确定单元505。

获取单元501，用于获取待识别人脸图像。

输入单元502，用于将人脸图像输入至预先训练好的人脸识别模型，人脸识别模型是将人脸训练图像输入至深度学习模型经过卷积处理后，通过自注意力机制进行全局训练得到的模型。

卷积单元503，用于通过人脸识别模型对人脸图像进行卷积得到多个局部特征向量。

融合单元504，用于基于自注意力机制，融合多个局部特征向量得到全局特征向量。

确定单元505，用于基于全局特征向量，识别人脸图像对应的人脸类别。

在一实施例中，卷积单元503，包括：第一提取单元，用于在人脸识别模型中，提取人脸图像对应的图像特征序列。处理单元，用于对图像特征序列进行矩阵化处理，得到图像特征向量。卷积子单元，用于通过卷积核为指定尺寸相同但维度不同的多个卷积层，对图像特征向量进行卷积处理，得到人脸图像的多个局部特征向量。

在另一实施例中，卷积子单元，包括：第二提取单元，用于将图像特征向量通过当前卷积层进行卷积，得到当前卷积层对应当前维度的第一矩阵。向量化处理单元，用于将第一矩阵进行矩阵向量化处理，得到对应于当前维度的局部特征向量。

在又一实施例中，第一提取单元，包括：处理单元，用于对人脸图像进行图像序列化处理，得到人脸图像序列，人脸图像序列由多个尺寸相同的人脸子图像根据指定顺序排列组成。第三提取单元，用于通过对各人脸子图像进行卷积，提取各人脸子图像对应的子图像特征向量。合并单元，用于将子图像特征向量根据指定顺序进行排列，获取人脸图像的图像特征序列。

在又一实施例中，对各人脸子图像进行卷积的卷积核的尺寸与人脸子图像的尺寸相同。

在又一实施例中，融合单元504，包括：融合子单元，用于基于图像特征序列，通过多头注意力矩阵，将多个局部特征向量进行融合，得到全局特征向量。

在又一实施例中，人脸识别模型采用下述单元进行训练，包括：样本获取单元，用于获取已知人脸类别的人脸训练图像。投影单元，用于将人脸训练图像输入至深度学习模型中，提取样本特征序列。转换单元，用于对样本特征序列进行矩阵化处理，得到样本特征向量。局部特征提取单元，用于通过深度学习模型中卷积核为指定尺寸相同但维度不同的多个卷积层对样本特征向量进行卷积，得到人脸训练图像的多个局部训练特征向量。全局特征获取单元，用于基于自注意力机制，将多个局部训练特征向量进行融合，得到人脸训练图像的全局训练特征向量。分类单元，用于通过预先训练好的分类模型，对全局训练特征向量进行分类，获取分类损失。控制单元，用于若分类损失小于指定阈值，则完成深度学习模型的训练，得到人脸识别模型。

上述人脸识别装置的具体限定以及有益效果可以参见上文中对于人脸识别方法的限定，在此不再赘述。上述各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图6是根据一示例性实施例提出的一种计算机设备的硬件结构示意图。如图6所示，该设备包括一个或多个处理器610以及存储器620，存储器620包括持久内存、易失内存和硬盘，图6中以一个处理器610为例。该设备还可以包括：输入装置630和输出装置640。

处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接，图6中以通过总线连接为例。

处理器610可以为中央处理器(Central Processing Unit，CPU)。处理器610还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器620作为一种非暂态计算机可读存储介质，包括持久内存、易失内存和硬盘，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的业务管理方法对应的程序指令/模块。处理器610通过运行存储在存储器620中的非暂态软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述任意一种人脸识别方法。

存储器620可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据、需要使用的数据等。此外，存储器620可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器620可选包括相对于处理器610远程设置的存储器，这些远程存储器可以通过网络连接至数据处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置630可接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。

一个或者多个模块存储在存储器620中，当被一个或者多个处理器610执行时，执行如图1-图4所示的方法。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，具体可参见如图1-图4所示的实施例中的相关描述。

本发明实施例还提供了一种非暂态计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的认证方法。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccess Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种人脸识别方法，其特征在于，所述方法包括：

获取待识别人脸图像；

将所述人脸图像输入至预先训练好的人脸识别模型，所述人脸识别模型是将人脸训练图像输入至深度学习模型经过卷积处理后，通过自注意力机制进行全局训练得到的模型；

通过所述人脸识别模型对所述人脸图像进行卷积得到多个局部特征向量；

基于自注意力机制，融合所述多个局部特征向量得到全局特征向量；

基于所述全局特征向量，识别所述人脸图像对应的人脸类别。

2.根据权利要求1所述的方法，其特征在于，所述通过所述人脸识别模型对所述人脸图像进行卷积得到多个局部特征向量，包括：

在所述人脸识别模型中，提取所述人脸图像对应的图像特征序列；

对所述图像特征序列进行矩阵化处理，得到图像特征向量；

通过卷积核为指定尺寸相同但维度不同的多个卷积层，对所述图像特征向量进行卷积处理，得到所述人脸图像的多个局部特征向量。

3.根据权利要求2所述方法，其特征在于，所述通过所述人脸识别模型中卷积核为指定尺寸相同但维度不同的多个卷积层对所述图像特征向量进行卷积，得到所述人脸图像的多个局部特征向量，包括：

将所述图像特征向量通过当前卷积层进行卷积，得到所述当前卷积层对应当前维度的第一矩阵；

将所述第一矩阵进行矩阵向量化处理，得到对应于所述当前维度的局部特征向量。

4.根据权利要求2所述的方法，其特征在于，所述提取所述人脸图像对应的图像特征序列，包括：

对所述人脸图像进行图像序列化处理，得到人脸图像序列，所述人脸图像序列由多个尺寸相同的人脸子图像根据指定顺序排列组成；

通过对各所述人脸子图像进行卷积，提取各所述人脸子图像对应的子图像特征向量；

将所述子图像特征向量根据所述指定顺序进行排列，获取所述人脸图像的图像特征序列。

5.根据权利要求4所述的方法，其特征在于，对各所述人脸子图像进行卷积的卷积核的尺寸与所述人脸子图像的尺寸相同。

6.根据权利要求4或5所述的方法，其特征在于，所述融合所述多个局部特征得到全局特征向量，包括：

基于所述图像特征序列，通过多头注意力矩阵，将所述多个局部特征向量进行融合，得到全局特征向量。

7.根据权利要求1所述的方法，其特征在于，所述人脸识别模型是将人脸训练图像输入至深度学习模型经过卷积处理后，通过自注意力机制进行全局训练得到的模型，包括：

获取已知人脸类别的人脸训练图像；

将所述人脸训练图像输入至深度学习模型中，提取样本特征序列；

对所述样本特征序列进行矩阵化处理，得到样本特征向量；

通过所述深度学习模型中卷积核为指定尺寸相同但维度不同的多个卷积层对所述样本特征向量进行卷积，得到所述人脸训练图像的多个局部训练特征向量；

基于自注意力机制，将所述多个局部训练特征向量进行融合，得到所述人脸训练图像的全局训练特征向量；

通过预先训练好的分类模型，对所述全局训练特征向量进行分类，获取分类损失；

若所述分类损失小于指定阈值，则完成所述深度学习模型的训练，得到所述人脸识别模型。

8.一种人脸识别装置，其特征在于，所述装置包括：

获取单元，用于获取待识别人脸图像；

输入单元，用于将所述人脸图像输入至预先训练好的人脸识别模型，所述人脸识别模型是将人脸训练图像输入至深度学习模型经过卷积处理后，通过自注意力机制进行全局训练得到的模型；

卷积单元，用于通过所述人脸识别模型对所述人脸图像进行卷积得到多个局部特征向量；

融合单元，用于基于自注意力机制，融合所述多个局部特征向量得到全局特征向量；

确定单元，用于基于所述全局特征向量，识别所述人脸图像对应的人脸类别。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1-7中任一项所述的人脸识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的人脸识别方法。