CN116189265A

CN116189265A - 基于轻量化语义Transformer模型的素描人脸识别方法、装置及设备

Info

Publication number: CN116189265A
Application number: CN202310154365.9A
Authority: CN
Inventors: 曹林; 尹健强; 杜康宁; 郭亚男; 田澍; 张帆; 赵宗民
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-05-30

Abstract

本说明书提供了基于轻量化语义Transformer模型的素描人脸识别方法、装置及设备。该方法包括：获取训练样本的特征图像；将特征图像输入Transformer模型中，得到第一层和第二层抽象语义标记，再建立具有全局联系的抽象语义标记；根据特征图像和具有全局联系的抽象语义标记，确定目标细化特征图；根据目标细化特征图，确定目标域适应焦点损失；根据目标域适应焦点损失优化Transformer模型，得到目标Transformer模型；获取待识别的素描图像和光学人脸照片，将待识别素描图像和光学人脸照片输入目标Transformer模型中，得到素描人脸识别结果。基于上述方法能够提高素描人脸识别的准确性。

Description

基于轻量化语义Transformer模型的素描人脸识别方法、装置及设备

技术领域

本说明书涉及计算机技术领域，尤其涉及基于轻量化语义Transformer模型的素描人脸识别方法、装置及设备。

背景技术

素描人脸识别是指以提供的素描图像为示例，将素描图像与光学人脸库中带有身份信息的光学照片进行对比，找出最为相似的一张照片作为素描的配对图像来确定人物身份信息或确定较为相似的几张照片来缩小侦察范围。

在素描人脸数据集中，一张光学照片通常只有一张素描图像，这使得素描人脸识别具有跨模态识别和小样本的特点。基于现有的素描人脸识别方法无法有效应对素描人脸识别的小样本以及在生成素描时引入的语义误差的问题，从而造成素描人脸识别精度降低。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本说明书提供了基于轻量化语义Transformer模型的素描人脸识别方法、装置及设备，能够提高素描人脸识别精度。

一方面，本说明书实施例提供了基于轻量化语义Transformer模型的素描人脸识别方法，包括：

获取训练样本的特征图像，其中，所述训练样本包括多组光学人脸照片和多组光学人脸照片对应的素描图像；

将所述特征图像输入至预先构建的初始轻量化语义Transformer模型中，得到第一层抽象语义标记和第二层抽象语义标记；

建立所述第一层抽象语义标记和所述第二层抽象语义标记的全局联系，得到具有全局联系的抽象语义标记；

根据所述特征图像和所述具有全局联系的抽象语义标记，得到具有语义信息的目标细化特征图；其中，所述具有语义信息的目标细化特征图包括所述光学人脸照片的细化特征图和所述素描图像的细化特征图；

根据所述光学人脸照片的细化特征图和所述素描图像的细化特征图，确定目标域适应焦点损失；

根据所述目标域适应焦点损失优化所述初始轻量化语义Transformer模型，得到目标轻量化语义Transformer模型；

获取待识别的素描图像和光学人脸照片，将所述待识别的素描图像和光学人脸照片输入至所述目标轻量化语义Transformer模型中，得到待识别的素描图像和光学人脸照片的目标匹配结果，将所述目标匹配结果作为素描人脸识别结果。

进一步地，所述根据所述特征图像和所述抽象语义标记，得到具有语义信息的目标细化特征图，包括：

将所述具有全局联系的抽象语义标记进行分层组线性变换，得到轻量化语义标记；

将所述轻量化语义标记进行轻量化标记建模，得到轻量化标记的建模结果；

根据所述轻量化标记的建模结果，确定初始轻量化语义Transformer模型的编码输出结果；

根据所述特征图像和所述编码输出结果，得到具有语义信息的目标细化特征图。

进一步地，所述将所述具有全局联系的抽象语义标记进行分层组线性变换，得到轻量化语义标记，包括：

按照如下算式进行分层组线性变换，得到轻量化语义标记：

Tin′＝H(Tin)LW_r

其中，H(·)代表分层组线性变换，H(T_in)_l为第l层组线性变换的输出，G(·)表示组线性变换，M(·)表示混合输入连接，g^l代表第l层组线性变换的组数，

为第l层组线性变换的权重集，

为第l层组线性变换的偏置集，Tin′代表轻量化语义标记，H(T_in)L∈R^N×d是分层组线性变换中最后一层组线性变换的输出，T_in为具有全局联系的抽象语义标记，W_r∈R^d×do是一个降维线性变换。

进一步地，所述将所述轻量化语义标记进行轻量化标记建模，得到轻量化标记的建模结果，包括：

按照如下算式进行轻量化标记建模，得到轻量化标记的建模结果：

Q_i，K_i,V_i＝T′_inW_i ^q,T′_inW_i ^k,T′_inW_i ^v，i∈{1,2,…,h},

MultiHead(T′_in)＝Concat(head₁,…，head_h)W^o,

T′_out＝Layer Normalization(T_in+MultiHead(T′_in))

其中，Q_i为查询、K_i为键，V_i为值，W_i ^q、W_i ^k、W_i ^v为投影权重矩阵，T′_in为轻量化语义标记，head_i是多头注意力机制的单头建模结果，SOFTMAX_N是归一化函数，d_k是K_i的维度，MultiHead(T_i′_n)是多头注意力的计算结果，Concat是连接，h为头数，W^o用于调整标记维度的投影权重矩阵，T′_out是轻量化标记的建模结果，Layer Normalization是层标准化。

进一步地，所述根据所述轻量化标记的建模结果，确定初始轻量化语义Transformer模型的编码输出结果，包括：

按照如下算式确定初始轻量化语义Transformer模型的编码输出结果：

FFN(T′_out)＝σ(T′_outF₁)F₂，

T_out＝Layer Normalization(T′_out+FFN(T′_out))

其中，FFN为前馈网络，T′_out为建模结果，T_out为编码输出结果，F₁、F₂为权重矩阵，σ为Relu激活函数，Layer Normalization为层标准化。

进一步地，所述根据所述特征图像和所述编码输出结果，得到具有语义信息的目标细化特征图，包括：

根据所述特征图像和所述编码输出结果，确定特征图像信息；

将所述特征图像信息和所述特征图像进行融合，得到具有语义信息的目标细化特征图。

进一步地，所述根据所述光学人脸照片的细化特征图和所述素描图像的细化特征图，确定目标域适应焦点损失，包括：

根据所述光学人脸照片的细化特征图，确定照片域对齐嵌入损失；

根据所述素描图像的细化特征图，确定素描域对齐嵌入损失；

根据所述照片域对齐嵌入损失和所述素描域对齐嵌入损失，确定目标域适应焦点损失。

另一方面，本说明书实施例还提供了基于轻量化语义Transformer模型的素描人脸识别装置，包括：

获取模块，用于获取训练样本的特征图像，其中，所述训练样本包括多组光学人脸照片和多组光学人脸照片对应的素描图像；

语义标记模块，用于将所述特征图像输入至预先构建的初始轻量化语义Transformer模型中，得到第一层抽象语义标记和第二层抽象语义标记；

细化模块，用于建立所述第一层抽象语义标记和所述第二层抽象语义标记的全局联系，得到具有全局联系的抽象语义标记；根据所述特征图像和所述具有全局联系的抽象语义标记，得到具有语义信息的目标细化特征图；其中，所述具有语义信息的目标细化特征图包括所述光学人脸照片的细化特征图和所述素描图像的细化特征图；

模型优化模块，用于根据所述光学人脸照片的细化特征图和所述素描图像的细化特征图，确定目标域适应焦点损失；根据所述目标域适应焦点损失优化所述初始轻量化语义Transformer模型，得到目标轻量化语义Transformer模型；

识别模块，用于获取待识别的素描图像和光学人脸照片，将所述待识别的素描图像和光学人脸照片输入至所述目标轻量化语义Transformer模型中，得到待识别的素描图像和光学人脸照片的目标匹配结果，将所述目标匹配结果作为素描人脸识别结果。

再一方面，本申请还提供了基于轻量化语义Transformer模型的素描人脸识别设备，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现上述基于轻量化语义Transformer模型的素描人脸识别方法。

再一方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机可读存储介质执行所述指令时实现上述基于轻量化语义Transformer模型的素描人脸识别方法。

本说明书提供的基于轻量化语义Transformer模型的素描人脸识别方法、装置及设备，首先，获取训练样本的特征图像，其中，所述训练样本包括多组光学人脸照片和多组光学人脸照片对应的素描图像；通过获取特征图像，可以为后续完成语义标记的生成，建模和重塑奠定基础；其次，将所述特征图像输入至预先构建的初始轻量化语义Transformer模型中，得到第一层抽象语义标记和第二层抽象语义标记；进一步，建立所述第一层抽象语义标记和所述第二层抽象语义标记的全局联系，得到具有全局联系的抽象语义标记；根据所述特征图像和所述具有全局联系的抽象语义标记，得到具有语义信息的目标细化特征图；其中，所述具有语义信息的目标细化特征图包括所述光学人脸照片的细化特征图和所述素描图像的细化特征图；通过生成细化特征图，有利于提高素描人脸的识别精度；进一步，根据所述光学人脸照片的细化特征图和所述素描图像的细化特征图，确定目标域适应焦点损失；通过确定出域适应焦点损失可以减少素描图像和光学人脸照片之间的模式差异；进一步，根据所述目标域适应焦点损失优化所述初始轻量化语义Transformer模型，得到目标轻量化语义Transformer模型；通过生成目标轻量化语义Transformer模型，可以有效应对素描人脸识别的小样本以及在生成素描时引入的语义误差的问题，提高了素描人脸识别的准确性；最后，获取待识别的素描图像和光学人脸照片，将所述待识别的素描图像和光学人脸照片输入至所述目标轻量化语义Transformer模型中，得到待识别的素描图像和光学人脸照片的目标匹配结果，将所述目标匹配结果作为素描人脸识别结果。通过上述方案可以有效地提取语义特征，提高了素描人脸识别的准确性。

附图说明

为了更清楚地说明本说明书实施例，下面将对实施例中所需要使用的附图作简单地介绍，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中基于轻量化语义Transformer模型的素描人脸识别方法的流程示意图；

图2是本发明实施例中轻量化语义Transformer模型的整体架构图；

图3是本发明实施例中过滤标记器的结构图；

图4是本发明实施例中循环标记器的结构图；

图5是本发明实施例中标准Transformer模块的结构示意图；

图6是本发明实施例中轻量化Transformer模块的结构示意图；

图7是本发明实施例中分层组线性变换的整体流程图；

图8是本发明实施例中基于轻量化语义Transformer模型的素描人脸识别装置的结构组成示意图；

图9为本发明实施例中提供的计算机设备结构组成示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

考虑到在实际场景中，素描人脸识别的过程是一个图像配对的过程，即给定一张素描图像，将素描图像和光学人脸库中带有身份信息的光学照片的进行对比，找出最为相似的一张照片作为素描的配对图像来确定人物身份或确定较为相似的几张照片缩小侦察范围。在算法研究中，素描人脸识别属于单对样本配对问题，在素描人脸数据集中，一张光学照片通常只有一张素描图像，这使得素描人脸识别具有跨模态识别和小样本的两大难点。并且由于素描人脸图像是依据语义描述生成的，在描述与绘制(或合成)过程中容易引入的语义误差，例如绘制风格差异会产生不同绘制结果，影响素描人脸识别的精度。

进一步，考虑到传统素描人脸识别方法主要是基于人工设计的方法，例如局部特征(SIFT)、全局特征(HOG)、局部二值模式(LBP)特征，通过描述图像的特征算子反映图像的特征信息，度量图像的匹配程度。但由于这些方法特征提取模式固定，提取的浅层特征表达能力有限，难以描述跨模态图像之间的这种高度非线性关系，导致识别率很难提升，而且不能像神经网络一样自动学习和提取特征，泛化能力差。随着深度学习的发展，卷积神经网络(Convolutional Neural Networks，CNN)作为各种视觉任务的骨干网络，以更大的规模，更广泛的连接，以及更复杂的卷积形式推动计算机视觉领域的发展，在素描人脸识别领域成为主流。通过卷积神经网络，提取光学图像人脸的特征，与素描人脸的特征进行匹配和识别。但是，基于现有深度学习的方法主要是使用CNN作为网络架构来学习模态不变特征，但CNN中作为局部特征提取器，无法建立空间中语义概念的交互关系，突出增强鉴别特征在识别中的关键作用，也不能解决生成素描时引入的语义误差对素描人脸识别精度造成的影响。现有的基于CNN的素描人脸方法受到CNN本身局限性的影响，很难进一步提高素描人脸识别的效果。

进一步，考虑到现有的模态内的素描人脸识别算法，依赖高质量的合成目标模态图像，在真实场景下，合成图像存在伪影和结构扭曲的问题，对识别效果产生负面影响，同时也无法解决人脸描述和素描制作过程中引入语义误差对素描人脸识别效果的影响。现有的模态间的素描人脸识别算法无法有效应对素描人脸数据集小的问题，导致模型容易过拟合，同时基于CNN的特征提取网络局限于捕获局部信息，无法建立空间中语义概念的交互关系，导致识别性能降低。

针对上述问题，本申请考虑引入基于轻量化语义Transformer模型的素描人脸识别方法，以提取光学图像和素描图像之间一致的语义信息来提高素描人脸识别的准确性，同时缓解了素描人脸识别模型复杂度高和素描人脸识别小样本之间的矛盾。

基于上述思路，本说明书提出基于轻量化语义Transformer模型的素描人脸识别方法，首先，获取训练样本的特征图像，其中，所述训练样本包括多组光学人脸照片和多组光学人脸照片对应的素描图像；其次，将所述特征图像输入至预先构建的初始轻量化语义Transformer模型中，得到第一层抽象语义标记和第二层抽象语义标记；进一步，建立所述第一层抽象语义标记和所述第二层抽象语义标记的全局联系，得到具有全局联系的抽象语义标记，根据所述特征图像和所述具有全局联系的抽象语义标记，得到具有语义信息的目标细化特征图；其中，所述具有语义信息的目标细化特征图包括所述光学人脸照片的细化特征图和所述素描图像的细化特征图；进一步，根据所述光学人脸照片的细化特征图和所述素描图像的细化特征图，确定目标域适应焦点损失；根据所述目标域适应焦点损失优化所述初始轻量化语义Transformer模型，得到目标轻量化语义Transformer模型；最后，获取待识别的素描图像和光学人脸照片，将所述待识别的素描图像和光学人脸照片输入至所述目标轻量化语义Transformer模型中，得到待识别的素描图像和光学人脸照片的目标匹配结果，将所述目标匹配结果作为素描人脸识别结果。参阅图1所示，本说明书实施例提供了一种基于轻量化语义Transformer模型的素描人脸识别方法。具体实施时，该方法可以包括以下内容。

S101：获取训练样本的特征图像，其中，所述训练样本包括多组光学人脸照片和多组光学人脸照片对应的素描图像。

S102：将所述特征图像输入至预先构建的初始轻量化语义Transformer模型中，得到第一层抽象语义标记和第二层抽象语义标记。

S103：建立所述第一层抽象语义标记和所述第二层抽象语义标记的全局联系，得到具有全局联系的抽象语义标记。

S104：根据所述特征图像和所述具有全局联系的抽象语义标记，得到具有语义信息的目标细化特征图；其中，所述具有语义信息的目标细化特征图包括所述光学人脸照片的细化特征图和所述素描图像的细化特征图。

S105：根据所述光学人脸照片的细化特征图和所述素描图像的细化特征图，确定目标域适应焦点损失。

S106：根据所述目标域适应焦点损失优化所述初始轻量化语义Transformer模型，得到目标轻量化语义Transformer模型。

S107：获取待识别的素描图像和光学人脸照片，将所述待识别的素描图像和光学人脸照片输入至所述目标轻量化语义Transformer模型中，得到待识别的素描图像和光学人脸照片的目标匹配结果，将所述目标匹配结果作为素描人脸识别结果。

在一些实施例中，可以参阅图2所示，图2示出了轻量化语义Transformer模型的整体架构，轻量化语义Transformer模型可以由卷积网络(或卷积神经网络)，2块轻量化视觉转化模块(Light Weight Visual Transformer，LWVT)和域自适应模块构成。其中，卷积神经网络可以由网络深度为18层的残差网络(Resnet18)中前4个层次的卷积块构成，用于获取特征图像，如：可以将上述多组光学人脸照片和多组光学人脸照片对应的素描图像输入至卷积神经网络中，得到光学人脸照片的特征图像和光学人脸照片对应的素描图像的特征图像；LWVT模块包括标记器、轻量化Transformer模块和反变换器，轻量化语义Transformer模型中涉及两层LWVT，每层LWVT模块中的轻量化Transformer模块可以进行参数共享以减少整体的模型参数，缓解LWVT-ResNet18在素描人脸小数据集上的训练难度；域自适应模块是一个带有批量标准化的全连接层，用于将跨模态特征投影到公共空间。

在一些实施例中，获取目标轻量化语义Transformer模型的整体流程可以为：首先，利用对小样本有效的元学习训练策略得到任务相关的K对训练样本，如：得到多组光学人脸照片和多组光学人脸照片对应的素描图像；然后，通过卷积网络提取光学人脸照片和素描图像的特征图；接着，将特征图输入堆叠的LWVT模块(两层LWVT)完成语义标记的生成、语义标记的轻量化、语义标记的建模和语义标记重塑(重塑为更具细节的特征图，再将特征图再Transformer为特征向量)的过程；最后，通过域自适应模块将网络提取到的跨模态特征(重塑的特征向量)投影到公共子空间，配合域适应焦点损失L_focal使得类内距离缩小的同时扩大类间距离，减少跨模态带来的精度影响并提高模型的训练效果，最终得到训练好的目标轻量化语义Transformer模型。关于训练得到目标轻量化语义Transformer模型的具体过程，后续将另作说明，在此不再赘述。

在一些实施例中，上述对小样本有效的元学习训练策略具体可以为：给定训练集D_train＝{P,S}＝{p₁,p₂,…,p_N,s₁,s₂,…,s_N}，其中

代表光学人脸照片，

代表素描图像，i为它们的标签，光学人脸照片和素描图像存在一一对应关系。在每次元学习任务中，随机挑选K(K<N)对光学人脸照片和素描身份一致的数据，然后将K对数据的标签i设置为{1,2,…,k}。每个学习任务的目标是尽可能地正确匹配这K对样本，其中，K是元学习策略的一个超参数。这K对数据的集合作为元任务的查询集

其中Q_t中的P_t作为光学人脸照片支持集，S_t作为素描图像支持集，T代表元任务的次数。可以将通过元学习训练策略获得的元任务的查询集Q_t作为上述训练样本，参与后续的模型训练。

在一些实施例中，上述获取训练样本的特征图像，可以采用如下方式：将所述训练样本输入至预先构建的初始轻量化语义Transformer模型中的卷积神经网络模块中，得到训练样本的特征图像，其中具体提取过程可以参照如下算式所示：

X_in＝conv(x)(1)

其中，X_in为查询集图像的特征图

x为查询集图像(x∈Q_t)，conv为卷积运算。

在一些实施例中，在得到特征图像之后，可以根据位于LWVT模块第一层中的过滤标记器(T_conv)和位于LWVT模块第二层中的循环标记器(T_rec)，分别获取第一层抽象语义标记和第二层抽象语义标记。参阅图3所示，图3示出了过滤标记器的结构图，在得到特征图像之后，可以通过过滤标记器，将光学人脸照片的特征图像和素描图像的特征图像转化语义组(需要说明的是，为了和后续出现的语义组进行区分，这里也可以用第一语义组表示)，再根据语义组生成空间注意力组(需要说明的是，为了和后续出现的空间注意力组进行区分，这里也可以用第一空间注意力组表示)，最后将特征图像和空间注意力组相乘得到抽象语义标记，过滤标记器的具体执行过程可以如下：首先，将特征图像X_in与N个卷积核大小为1×1的卷积W_A做逐点卷积将通道数降为N；然后，将每个通道上的像素点通过SOFTMAX_HW(.)生成N个空间注意力组；最后，注意力组在空间上聚集像素以获得标记数量为N的抽象语义标记。形式如下面的算式所示：

T_in1＝T_conv(X_in)＝SOFTMAX_HW(R(X_inW_A))^TR(X_in)(2)

其中，T_in1为抽象语义标记

T_conv为过滤标记器，X_in为特征图像，SOFTMAX_HW(.)为生成空间注意力组的归一化函数，

是经过卷积得到的N通道的语义组，R(·)是张量的重组操作，用于调整张量的形状，其中，

表示张量所处的不同维度。

在一些实施例中，参阅图4所示，图4示出了循环标记器的结构图，在得到抽象语义标记之后，可以根据抽象语义标记确定出上述预先构建的初始轻量化语义Transformer模型中LWVT模块的第一层的权重矩阵(W_B)，可以记为目标权重矩阵，在得到目权重矩阵之后，将目标权重矩阵与LWVT模块的第一层输出的第一细化特征图相乘，可以得到第二语义组，再根据第二语义组生成第二空间注意力组，最后将第一细化特征图与第二空间注意力组相乘得到第二层抽象语义标记。循环标记器的具体执行过程可以如下：首先，根据第一层LWVT生成的第一细化特征图

经过权重矩阵

生成语义组

其次，语义组经过SOFTMAX_HW(.)生成空间注意力组，最后，空间注意力组聚集像素生成第二层LWVT标记数量为N的第二层抽象语义标记

循环标记器生成标记过程如下面的算式所示：

W_B＝(T_in1W_A→B)^T

T_in2＝T_rec(X_out1)＝SOFTMAX_HW(R(X_out1)W_B)^TR(X_out1)(3)

其中，W_B为权重矩阵，W_A为卷积，T_in1为第一层抽象语义标记，T_in2为第二层抽象语义标记，T_rec为循环标记器，X_out1为第一细化特征图，SOFTMAX_HW(.)是生成空间注意力组的归一化函数，R(·)是张量的重组操作。

通过使用由前一层LWVT生成的抽象语义标记进一步得出权重W_B，代替卷积W_A来完成特征到标记的转化，克服了过滤标记器在分类任务中由于某些类别具有特定语义概念而导致卷积核权值固定所带来的局限性。

在一些实施例中，在得到第一层抽象语义标记和第二层抽象语义标记之后，可以建立语义标记间的全局联系，即建立第一层抽象语义标记和第二层抽象语义标记的全局联系，得到具有全局联系的语义标记，从而为后续获取具有语义信息的目标细化特征图奠定数据基础。

在一些实施例中，上述根据所述特征图像和所述具有全局联系的抽象语义标记，得到具有语义信息的目标细化特征图，在具体实施时，可以包括：

S1：将所述具有全局联系的抽象语义标记进行分层组线性变换，得到轻量化语义标记；

S2：将所述轻量化语义标记进行轻量化标记建模，得到轻量化标记的建模结果；

S3：根据所述轻量化标记的建模结果，确定初始轻量化语义Transformer模型的编码输出结果；

S4：根据所述特征图像和所述编码输出结果，得到具有语义信息的目标细化特征图。

在一些实施例中，在得到具有全局联系的抽象语义标记之后，需要进入轻量化Transformer模块，轻量化Transformer模块用于完成语义标记关系的建模，从而达到对目标鉴别信息进行增强的目的。参阅图5和图6所示，图5示出了标准Transformer模块的结构示意图，图6示出了轻量化Transformer模块的结构示意图，其中，参阅图5所示，标准Transformer模块主要包括多头自注意力(the multi-head self-attention，MSA)模块和前馈网络(the feed-forward network，FFN)。由于Transformer模块有很高的复杂性，且这种复杂性与标记的数量和尺寸直接相关。在标记数量和维度分别为N和d的情况下，MSA中的计算量与标记数量和维度的关系为o(4Nd²)+o(2N²d)，其中，自注意力层的计算量为o(2N²d)，FFN中的计算量与标记数量和维度的关系为o(8Nd²)，所以，在采用标记器生成较少语义标记数量的基础上，本说明书还从与模型复杂度直接相关的标记维度的角度优化了标准Transformer中的MSA和FFN部分来构建轻量化Transformer。具体的，参阅图6所示，在完成语义标记建模之前，首先，通过分层组线性变换(hierarchical group lineartransformation，HGLT)将第一层抽象语义标记和第二层抽象语义标记的维度降低一半以降低模型复杂度；然后，为了实现和输入标记(即将具有全局联系的抽象语义标记输入到Transformer模块中，统称为输入标记)的跳跃连接，建模后的标记又重新映射到输入标记的维度；最后，在FFN处，标记维度从原来的先扩展4倍后缩小4倍变为先缩小4倍后扩展4倍。本说明书中还将两层LWVT中的两块轻量化Transformer(两块轻量化Transformer分别位于LWVT模块的不同层中)进行参数共享以降低模型参数，其中轻量化Transformer模块的实现细节可以如下：

首先，可以通过分层组线性变换实现语义标记的轻量化来降低Transformer中多头自注意力模块(MSA)的复杂度，缓解Transformer复杂度高和素描人脸识别小样本问题之间的矛盾。

其中，分层组线性变换(HGLT)的整体流程参阅图7所示，首先，语义标记通过一个线形层映射到组线性变换的初始维度d_i；在HGLT前半部分的组线性变换(group lineartransformation，GLT)逐层将输入标记的维度扩大至最大维度d_m，在后半部分的组线性变换中，维度逐层降低；最后，再将语义标记投影到生成标记维度的一半d_o(d_o＝d/2)，每层GLT后面还有一个混合器完成GLT输出标记和输入标记的混合连接，通过上述操作，可以降低轻量化语义Transformer模型的复杂度，为后续训练得到最终的目标轻量化语义Transformer模型奠定基础。

其中，HGLT中的GLT分组变化和特征的扩展-缩小策略一致，组数先随着层数逐层增大直至达到最大分组数g_max，其后分组逐层递减。GLT的分组数的变化与标记维度的变化是一致的。当标记维度扩展到高维时，GLT也可以有更多的分组，这使得HGLT整体的参数更少。HGLT中每层GLT的分组数和输出标记的维度可以表示为：

其中，l是当前组线性变换在分层组线性变换中的层数，g^l是指第l层组线性变换分组数，d^l是指标记的输出维度，L是HGLT中GLT的总层数，d_i是初始维度，d_m是标记的最大维度，d^L-l+1是HGLT中后半部分GLT输出的标记维度，它与HGLT前半部分GLT输出的标记维度成对称关系。

在HGLT的每一层中，除了组线性变换，还有混合输入连接的过程。如图7中的混合器所示，混合输入特征是将上一层组线性变换的输出和原始输入按当前组线性变换组数沿着维度方向均分，然后将均分的特征按组连接，最后所有组拼接作为当前组线性变换的输入。混合输入连接有效地促进了输入特征的重用，能够支持HGLT扩展网络的深度，避免网络退化和梯度消失问题。这里将分层组线性变换HGLT定义为：

为第l层组线性变换的权重集，

为第l层组线性变换的偏置集，w^l中权重数和b^l中偏置数和该层组线性变换分组数一致。

最后，通过HGLT获得的轻量化语义标记可以用如下算式表示：

Tin′＝H(Tin)LW_r(7)

其中，Tin′代表轻量化语义标记，H(T_in)L∈R^N×d是分层组线性变换(HGLT)中最后一层组线性变换(GLT)的输出，T_in为具有全局联系的抽象语义标记，W_r∈R^d×do是一个降维线性变换。

通过组线性变换的稀疏连接和扩展-缩小的分组策略使得HGLT以更少的参数学习了更深更广的表示，有效的扩展了网络的深度和宽度，避免了标记降维可能带来的性能损耗的问题。通过分层组线性变换使嵌入到MSA的标记维度降为标记器生成标记维度的二分之一，大大降低了Transformer中MSA捕捉标记全局关系的计算复杂度和参数量，缓解了Transformer在素描人脸识别小样本训练的压力。

在一些实施例中，在得到轻量化语义标记之后，需要采用标准的多头注意力机制来完成轻量化标记的建模。具体过程可以如下所示：

首先，多头注意力机制使用不同的线性投影将轻量化语义标记T_i′_n分别线性投影到h组查询

键

和值

h为头数，d_q、d_k、d_v＝d_o/h。然后，空间中的Q_i、K_i并行执行缩放点积自注意力与V_i相乘得到该头的建模结果。

进一步，所有头的建模结果连接起来通过W^o投影回到维度d以完成跳跃连接。最后，多头注意力的计算结果(MultiHead(T_i′_n))与T_in接连并完成层标准化(LayerNormalization)，得到标记之间关系的建模结果

MSA的机制形式上可以用如下算式表示：

Q_i,K_i,V_i＝T_i′_nW_i ^q,T_i′_nW_i ^k,T_i′_nW_i ^v,i∈{1,2,…,h},

MultiHead(T_i′_n)＝Concat(head ₁,…,head _h)W^o,

T_o′_ut＝Layer Normalization(T_in+MultiHead(T_i′_n))(8)

其中，Q_i为查询、K_i为键，V_i为值，W_i ^q、W_i ^k、W_i ^v为投影权重矩阵，T_i′_n为轻量化语义标记，head_i是多头注意力机制的单头建模结果，SOFTMAX_N是归一化函数，d_k是K_i的维度，MultiHead(T_i′_n)是多头注意力的计算结果，Concat是连接，h为头数，W^o是用于调整标记维度的投影权重矩阵，T_o′_ut是轻量化标记的建模结果，Layer Normalization是层标准化。

在一些实施例中，上述投影矩阵

单头建模的结果head_i拼接再投影可以得到多头注意力的计算结果

MSA的建模结果T_o′_ut再经过FFN映射、残差连接和层标准化，得到Transformer的编码输出结果

形式上用如下算式表示：

FFN(T_o′_ut)＝σ(T_o′_utF₁)F₂,

T_out＝Layer Normalization(T_o′_ut+FFN(T_o′_ut))(9)

其中，FFN为前馈网络，T_o′_ut为建模结果，T_out为编码输出结果，F₁、F₂为权重矩阵，σ为Relu激活函数，Layer Normalization为层标准化。

通过对FFN的瓶颈式结构进行优化，可以来提高自注意力层的计算消耗以提高Transformer性能。在Transformer中，自注意力在标记关系建模中起了关键作用，其计算复杂度为o(2N²d)，而FFN则是为了提高模型的非线性表达能力，其计算复杂度为o(8Nd²)。对于图像和视频任务，N一般很大，所以MSA的计算量较FNN有优势，但在文本翻译等任务中，一般输入序列的标记个数N往往较小，那么FFN就会消耗较多的计算。本说明书中采用标记器生成语义标记的嵌入方式大大降低了N的大小(N<<d)。同时采用HGLT降低了嵌入到Transformer的标记的维度，Transformer中自注意力层的复杂度随之降低为o(N²d)。在本说明书中的标记数量较小和自注意力计算复杂度降为一半的基础上，如采用原Transformer中FFN的瓶颈设计，会使得FFN处相比MSA会消耗大量的计算成本。考虑到素描人脸语义标记建模场景中N<<d，为了平衡MSA和FFN中的计算资源消耗，本说明书对Transformer中FFN的维度变换进行了调整。原FFN如图5中前馈网络所示，标记维度先扩展4倍后缩小4倍，优化后FFN的结构如图6中前馈网络所示，标记维度先缩小到d/4后扩展回d。

在通过引入HGLT和调整FFN的结构来构建轻量化Transformer模块的基础上，通过基于参数共享的思想使得两层LWVT模块中的轻量化Transformer参数保持一致来构建轻量化语义Transformer架构。Transformer中采用跨层的参数共享能有效提高参数的效率，采用参数共享的Transformer模型能以更少的参数取得与基本模型相当的效果，从而可以有效防止模型出现过拟合现象。

在一些实施例中，在完成语义标记的建模后，可以通过反变换器(P_rev)，将建模后的语义标记重塑为更具细节特征的特征图，即可以重塑为像素级别的特征图，可以作为上述的具有语义信息的目标细化特征图。通过获取具有语义信息的目标细化特征图，可以提高素描人脸的识别的准确性。其中，反变换器(P_rev)的具体执行过程可以如下：首先，将特征图像X_in和编码输出结果T_out输入至反变换器(P_rev)中，得到特征图信息X_o′_ut；然后，将得到的特征图信息X_o′_ut与特征图像X_in进行融合，可以得到细化的像素级别的特征图像或具有语义信息的目标细化特征图X_out，可以用如下算式表示：

X_out＝X_in+X_o′_ut

其中，X_o′_ut是特征图信息，P_rev是反变换器，X_in是输入特征图(即可以是训练样本的特征图像)

T_out是编码输出结果，softmax_N(.)是生成空间注意力组的归一化函数，W^q是用于计算标记序列查询的可学习权重，W^k是用于计算键的可学习权重，W^v是用于值的可学习权重，d是特征图的通道数，X_out是输出特征图(即可以是具有语义信息的目标细化特征图)

其中，查询X_inW^q∈R^HW×d包含了语义标记中需要特征的查询信息，键T_outW^k∈R^N×d包含了N个标记的键信息。X_inW^q和T_outW^k执行缩放点积注意力得到注意力矩阵

然后注意力矩阵和编码信息T_outW^v∈R^N×d相乘生成像素级别特征图X_out，最后X_in的跳跃连接可以防止网络退化，使得模型更快收敛。

在一些实施例中，为了训练出性能更好的轻量化语义Transformer模型，本说明书采用了针对小样本的元学习训练策略，元学习训练策略可以参照上面的陈述，在此不再赘述。在元学习训练的任务中，随机挑选的数据极大可能会出现新的类，这样可以很好的增强了模型的泛化能力。一般可以认为难鉴别样本对对模型训练更有效，但随机挑选的K对样本数据中可能会出现大部分照片素描都很好匹配的情况。在这种情况下，虽然这些易匹配的数据对的交叉熵损失很小，但是它们累加起来可能趋近甚至超过那些难匹配数据对的损失，不利于对素描人脸识别模型的训练。

进一步，为了能够避免随机挑选中出现大量易匹配照片素描数据对而导致模型训练效果变差的情况，本说明书中构建的轻量化语义Transformer模型中还包括了域自适应模块，域自适应模块需要计算域适应焦点损失，可以通过域适应焦点损失给易匹配的样本数据对的损失加了较小的权重，可以给难匹配的样本数据对的损失加了相对较大的权重，从而改善模型的训练效果。

在一些实施例中，在每次元任务批次中，查询集中的光学人脸照片或素描图像与素描图像支持集S_t或者光学人脸照片支持集P_t中的图像进行域嵌入对齐的损失可以通过照片特征和相应素描图像特征之间的负欧几里德度量上的交叉熵损失来表示，其中，照片域对齐嵌入损失可以用如下算式表示：

其中，P(s_k/p_i)是通过跨域特征间的负欧几里德距离上的逻辑回归函数(softmax函数)来表示给定p_i和s_k(i＝1,2,…,k)一致的概率，p_i是给定的光学图像(可以是光学人脸照片的细化特征图)，s_k是用来预测给定光学图像标签的所有素描图像，||·||表示提取的跨域特征间的欧几里德距离度量，f(p_i/w)是从给定的光学图像提取到的特征向量(可以是从光学人脸照片的细化特征图中提取的特征向量)，f(s_k/w)是从任意素描图像提取到的特征向量，f(s_j/w)也是从素描图像提取的特征向量，P(p_i/s_i)是将给定光学图像的标签预测为对应素描图像标签的概率，L_ps是照片域对齐嵌入损失。

其中，素描域对齐嵌入损失可以用如下算式表示：

其中，P(p_k/s_i)是通过跨域特征间的负欧几里德距离上的逻辑回归函数(softmax函数)来表示给定s_i和p_k(i＝1，2，…，k)一致的概率，s_i是给定的素描图像(可以是素描图像的细化特征图)，p_k是用来预测给定素描图像标签的所有光学图像，||·||表示提取的跨域特征间的欧几里德距离度量，f(s_i/w)是从给定的素描图像提取到的特征向量(可以是从素描图像的细化特征图中提取的特征向量)，f(p_k/w)是从任意光学图像提取到的特征向量，f(p_j/w)是也是从光学图像提取的特征向量，P(p_i/s_i)是将给定素描图像的标签预测为对应光学图像标签的概率，L_sp是素描域对齐嵌入损失。

在一些实施例中，可以提取出光学人脸照片的细化特征图中的特征向量，提取光学人脸照片对应的素描图像的特征向量，然后，根据提取的光学人脸照片的细化特征图中的特征向量和提取光学人脸照片对应的素描图像的特征向量，确定出光学人脸照片预测为对应的素描图像的概率，计算过程可以参照如下公式所示：

再根据光学人脸照片预测为对应的素描图像的概率，确定出照片域对齐嵌入损失，计算过程可以参照如下公式所示：

在一些实施例中，可以提取出素描图像的细化特征图中的特征向量，提取光学人脸照片的特征向量，然后，根据提取的素描图像的细化特征图中的特征向量和提取光学人脸照片的特征向量，确定出素描图像预测为对应的光学人脸照片的概率，计算过程可以参照如下公式所示：

再根据素描图像预测为对应的光学人脸照片的概率，确定出素描域对齐嵌入损失，计算过程可以参照如下公式所示：

在一些实施例中，可以将反变换器重塑得到的具有语义信息的目标细化特征图，经过张量重塑得到目标特征向量，如：光学人脸照片的细化特征图经过张量重塑可以得到光学人脸照片的细化特征图对应的特征图像，素描图像的细化特征图的细化特征图经过张量重塑可以得到素描图像的细化特征图对应的特征图像；最后，通过域自适应模块将目标特征向量投影到公共子空间中，成对的特征向量之间通过度量距离产生域适应焦点损失，即可以作为域对齐嵌入损失。

在一些实施例中，在得到照片域对齐嵌入损失和像素域对齐嵌入损失之后，可以通过在域对齐嵌入损失L_ps和L_sp上乘以权重因子(1-P(s_i/p_i))^γ或(1-P(p_i/s_i))^γ达到给不同识别难度的样本的损失增加不同权重的效果，可以将带有权重因子的L_ps和L_sp相加得到目标域适应焦点损失，目标域适应焦点损失可以用如下算式表示：

其中，L_focal域适应焦点损失，P代表同标签数据的匹配率，γ为控制添加权重变化的可调聚焦参数，

表示照片域对齐嵌入损失，

表示素描域对齐嵌入损失，P(s_i/p_i)是将给定光学图像的标签预测为对应素描图像标签的概率，P(p_i/s_i)是将给定素描图像的标签预测为对应光学图像标签的概率。

通过获取目标域适应焦点损失，可以进一步优化初始轻量化语义Transformer模型，在目标域适应焦点损失达到最小化类内距离，最大化类间距离的效果时，可以得到最终的优化好的目标轻量化语义Transformer模型。通过获取目标轻量化语义Transformer模型，可以提高素描人脸的识别准确性，同时可以缓解了Transformer的高复杂度和素描人脸识别的小样本问题之间的矛盾。

在一些实施例中，可以在素描人脸数据集上验证上述目标轻量化语义Transformer模型的识别精度，其中素描人脸数据集可以为在UoM-SGFSv2、CUFSF数据集，可以按照如下参数进行模型训练和测试，如：

首先，可以设置每个元学习任务中的批次样本对(可以用K表示)，可以设置为80；设置素描脸部数据集中标记器产生的标记数(可以用N表示)，可以设置为16；设置MSA的头数(可以用h表示)，可以设置为8。可以使用深度学习库(PyTorch)来构建模型网络框架，实验所用GPU显存大小可以为10.9GB。轻量化语义标记Transformer中的卷积网络的初始化参数可以为ImageNet上预先训练的ResNet18的前4个stage的参数，后面的两层LMVT模块和最后的跨域对齐网络则可以是初始化后从头训练。可以使用优化器(Adamw)迭代更新模型的参数，学习率可以设置为0.00015，(β₁,β₂,weight_decay)＝(0.9,0.999,0.02)。上述UoM-SGFSv2可以共训练了80个epoch(1个epoch指用训练集中的全部样本训练一次)，上述CUFSF数据集可以训练了150个epoch，每个epoch包括100次元学习任务。

其次，还可以对上述的两种数据集(UoM-SGFSv2、CUFSF)进行预处理，可以利用多任务卷积神经网络(Multi-task Cascaded Convolutional Neural Networks，MTCNN)来进行人脸检测、对齐，保留有利于识别的人脸关键点信息。在训练测试阶段，可以将图像统一调整大小为256×256，同时采用了多种增强技术，包括图像变形、填充、随机裁剪和水平翻转。

在训练阶段，可以用模型权重w参数化的f(./w)表示本文的特征提取网络，给定元学习任务K对样本中的光学人脸照片p_i或者素描图像s_i，模型将其嵌入到特征f(p_i/w)或f(s_i/w)，通过不断缩小每个元任务中从查询集提取到的f(p_i/w)或f(s_i/w)与支持集中提取到的同标签的跨域特征f(s_i/w)或f(p_i/w)之间的域适应距离来减少素描图像和光学人脸照片之间的模态差异，产生的域适应焦点损失L_focal通过反向传播更新模型参数来优化特征提取网络f(./w)，训练完毕后将收敛的模型保存为pth文件。

在测试阶段，可以加载模型，输入待识别素描和照片图像，确定待识别的素描图像和光学人脸照片的最佳匹配结果，即相似度最大的结果，作为目标匹配结果，完成素描人脸识别的筛选识别。通过上述实验，使得在合成素描人脸数据集UoM-SGFSv2上的识别率提高了7.6％，在观看素描人脸数据集CUFSF上识别率达到92.59％，因此，在观看手绘素描人脸数据集CUFSF和合成素描人脸数据集UoM-SGFS都取得好的识别效果，上述方法具有良好的泛化性，可以适用于不同类型的素描人脸数据集或者其他跨域数据的识别。

下面结合一个具体实施例对上述方法进行说明，然而值得注意的是，该具体实施例仅是为了更好地说明本申请，并不构成对本申请的不当限定。

在具体实施过程中，首先，获取训练样本，利用卷积网络提取训练样本的特征图像，其中，所述训练样本包括多组光学人脸照片和多组光学人脸照片对应的素描图像；其次，将所述特征图像输入至预先构建的初始轻量化语义Transformer模型中，利用初始轻量化语义Transformer模型中的过滤标记器获取抽象语义标记，利用初始轻量化语义Transformer模型中的循环标记器，获取第二层抽象语义标记；其次，根据所述抽象语义标记和所述第二层抽象语义标记，确定轻量化语义标记；将所述轻量化语义标记进行轻量化标记建模，得到轻量化标记的建模结果；根据所述轻量化标记的建模结果，确定初始轻量化语义Transformer模型的编码输出结果；根据所述特征图像和所述编码输出结果，确定特征图像信息；将所述特征图像信息和所述特征图像进行融合，得到具有语义信息的目标细化特征图。进一步，根据所述光学人脸照片的细化特征图，确定照片域对齐嵌入损失；根据所述素描图像的细化特征图，确定素描域对齐嵌入损失；根据所述照片域对齐嵌入损失和所述素描域对齐嵌入损失，确定目标域适应焦点损失。最后，获取待识别的素描图像和光学人脸照片，将所述待识别的素描图像和光学人脸照片输入至所述目标轻量化语义Transformer模型中，得到待识别的素描图像和光学人脸照片的最相似的结果作为目标匹配结果，将所述目标匹配结果作为素描人脸识别的最终结果。

虽然本说明书提供了如下述实施例或附图8所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置的模块结构不限于本说明书实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置、服务器或终端产品应用时，可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。

基于上述基于轻量化语义Transformer模型的素描人脸识别方法，本说明书还提出基于轻量化语义Transformer模型的素描人脸识别装置的实施例。如图8所示，所述基于装置具体可以包括以下模块：

获取模块801，用于获取训练样本的特征图像，其中，所述训练样本包括多组光学人脸照片和多组光学人脸照片对应的素描图像；

语义标记模块802，用于将所述特征图像输入至预先构建的初始轻量化语义Transformer模型中，得到第一层抽象语义标记和第二层抽象语义标记；

细化模块803，用于建立所述第一层抽象语义标记和所述第二层抽象语义标记的全局联系，得到具有全局联系的抽象语义标记；根据所述特征图像和所述具有全局联系的抽象语义标记，得到具有语义信息的目标细化特征图；其中，所述具有语义信息的目标细化特征图包括所述光学人脸照片的细化特征图和所述素描图像的细化特征图；

模型优化模块804，用于根据所述光学人脸照片的细化特征图和所述素描图像的细化特征图，确定目标域适应焦点损失；根据所述目标域适应焦点损失优化所述初始轻量化语义Transformer模型，得到目标轻量化语义Transformer模型；

识别模块805，用于获取待识别的素描图像和光学人脸照片，将所述待识别的素描图像和光学人脸照片输入至所述目标轻量化语义Transformer模型中，得到待识别的素描图像和光学人脸照片的目标匹配结果，将所述目标匹配结果作为素描人脸识别结果。

在一些实施例中，上述细化模块803具体可以用于将所述具有全局联系的抽象语义标记进行分层组线性变换，得到轻量化语义标记；将所述轻量化语义标记进行轻量化标记建模，得到轻量化标记的建模结果；根据所述轻量化标记的建模结果，确定初始轻量化语义Transformer模型的编码输出结果；根据所述特征图像和所述编码输出结果，得到具有语义信息的目标细化特征图。

在一些实施例中，上述细化模块803具体可以用于按照如下算式确定轻量化语义标记：

Tin′＝H(Tin)LW_r

为第l层组线性变换的权重集，

在一些实施例中，上述细化模块803具体可以用于按照如下算式进行轻量化标记建模，得到轻量化标记的建模结果：

Q_i，K_i，V_i＝T_i′_nW_i ^q，T_i′_nW_i ^k,T_i′_nW_i ^v，i∈{1，2,…,h},

MultiHead(T_i′_n)＝Concat(head ₁,…，head _h)W^o，

T_o′_ut＝Layer Normalization(T_in+MultiHead(T_i′_n))

在一些实施例中，上述细化模块803具体可以用于按照如下算式确定初始轻量化语义Transformer模型的编码输出结果：

FFN(T_o′_ut)＝σ(T_o′_utF₁)F₂,

T_out＝Layer Normalization(T_o′_ut+FFN(T_o′_ut))

在一些实施例中，上述细化模块803具体可以用于根据所述特征图像和所述编码输出结果，确定特征图像信息；将所述特征图像信息和所述特征图像进行融合，得到具有语义信息的目标细化特征图。

在一些实施例中，上述模型优化模块804具体可以用于根据所述光学人脸照片的细化特征图，确定照片域对齐嵌入损失；根据所述素描图像的细化特征图，确定素描域对齐嵌入损失；根据所述照片域对齐嵌入损失和所述素描域对齐嵌入损失，确定目标域适应焦点损失。

需要说明的是，上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

由上可见，基于本说明书实施例提供的基于轻量化语义Transformer模型的素描人脸识别装置，一方面，通过引入分层组线性变换(HGLT)，平衡多头自注意(MSA)和前馈网络(FFN)的计算消耗，提出LWVT模块，可以缓解Transformer的高复杂度和素描人脸识别的小样本问题之间的矛盾。另一方面，通过提出轻量化语义Transformer网络，可以有效地提取和模拟语义特征，提高了素描人脸识别的准确性。最后，通过元学习策略训练轻量化语义Transformer网络，提出领域适应焦点损失，可以减少素描和照片之间的模式差异，通过元任务样本中的硬样本突出损失的训练作用，增强了模型的训练效果。

本说明书实施例还提供一种电子设备，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器具体实施时可以根据指令执行以下步骤：获取训练样本的特征图像，其中，所述训练样本包括多组光学人脸照片和多组光学人脸照片对应的素描图像；将所述特征图像输入至预先构建的初始轻量化语义Transformer模型中，得到第一层抽象语义标记和第二层抽象语义标记；建立所述第一层抽象语义标记和所述第二层抽象语义标记的全局联系，得到具有全局联系的抽象语义标记；根据所述特征图像和所述具有全局联系的抽象语义标记，得到具有语义信息的目标细化特征图；其中，所述具有语义信息的目标细化特征图包括所述光学人脸照片的细化特征图和所述素描图像的细化特征图；根据所述光学人脸照片的细化特征图和所述素描图像的细化特征图，确定目标域适应焦点损失；根据所述目标域适应焦点损失优化所述初始轻量化语义Transformer模型，得到目标轻量化语义Transformer模型；获取待识别的素描图像和光学人脸照片，将所述待识别的素描图像和光学人脸照片输入至所述目标轻量化语义Transformer模型中，得到待识别的素描图像和光学人脸照片的目标匹配结果，将所述目标匹配结果作为素描人脸识别结果。

为了能够更加准确地完成上述指令，参阅图9所示，本说明书实施例还提供了另一种具体的电子设备，其中，所述电子设备包括网络通信端口901、处理器902以及存储器903，上述结构通过内部线缆相连，以便各个结构可以进行具体的数据交互。

其中，所述网络通信端口901，具体可以用于获取训练样本的特征图像，其中，所述训练样本包括多组光学人脸照片和多组光学人脸照片对应的素描图像。

所述处理器902，具体可以用于将所述特征图像输入至预先构建的初始轻量化语义Transformer模型中，得到第一层抽象语义标记和第二层抽象语义标记；建立所述第一层抽象语义标记和所述第二层抽象语义标记的全局联系，得到具有全局联系的抽象语义标记；根据所述特征图像和所述具有全局联系的抽象语义标记，得到具有语义信息的目标细化特征图；其中，所述具有语义信息的目标细化特征图包括所述光学人脸照片的细化特征图和所述素描图像的细化特征图；根据所述光学人脸照片的细化特征图和所述素描图像的细化特征图，确定目标域适应焦点损失；根据所述目标域适应焦点损失优化所述初始轻量化语义Transformer模型，得到目标轻量化语义Transformer模型；获取待识别的素描图像和光学人脸照片，将所述待识别的素描图像和光学人脸照片输入至所述目标轻量化语义Transformer模型中，得到待识别的素描图像和光学人脸照片的目标匹配结果，将所述目标匹配结果作为素描人脸识别结果。

所述存储器903，具体可以用于存储相应的指令程序。

在本实施例中，所述网络通信端口901可以是与不同的通信协议进行绑定，从而可以发送或接收不同数据的虚拟端口。例如，所述网络通信端口可以是负责进行web数据通信的端口，也可以是负责进行FTP数据通信的端口，还可以是负责进行邮件数据通信的端口。此外，所述网络通信端口还可以是实体的通信接口或者通信芯片。例如，其可以为无线移动网络通信芯片，如GSM、CDMA等；其还可以为Wifi芯片；其还可以为蓝牙芯片。

在本实施例中，所述处理器902可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。

在本实施例中，所述存储器903可以包括多个层次，在数字系统中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如RAM、FIFO等；在系统中，具有实物形式的存储设备也叫存储器，如内存条、TF卡等。

本说明书实施例还提供了一种基于上述基于轻量化语义Transformer模型的素描人脸识别方法的计算机存储介质，所述计算机存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：获取训练样本的特征图像，其中，所述训练样本包括多组光学人脸照片和多组光学人脸照片对应的素描图像；将所述特征图像输入至预先构建的初始轻量化语义Transformer模型中，得到第一层抽象语义标记和第二层抽象语义标记；建立所述第一层抽象语义标记和所述第二层抽象语义标记的全局联系，得到具有全局联系的抽象语义标记；根据所述特征图像和所述具有全局联系的抽象语义标记，得到具有语义信息的目标细化特征图；其中，所述具有语义信息的目标细化特征图包括所述光学人脸照片的细化特征图和所述素描图像的细化特征图；根据所述光学人脸照片的细化特征图和所述素描图像的细化特征图，确定目标域适应焦点损失；根据所述目标域适应焦点损失优化所述初始轻量化语义Transformer模型，得到目标轻量化语义Transformer模型；获取待识别的素描图像和光学人脸照片，将所述待识别的素描图像和光学人脸照片输入至所述目标轻量化语义Transformer模型中，得到待识别的素描图像和光学人脸照片的目标匹配结果，将所述目标匹配结果作为素描人脸识别结果。

在本实施例中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

虽然本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施例的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形而不脱离本说明书的精神，希望所附的权利要求包括这些变形而不脱离本说明书的精神。

Claims

1.基于轻量化语义Transformer模型的素描人脸识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据所述特征图像和所述具有全局联系的抽象语义标记，得到具有语义信息的目标细化特征图，包括：

3.根据权利要求2所述的方法，其特征在于，将所述具有全局联系的抽象语义标记进行分层组线性变换，得到轻量化语义标记，包括：

按照如下算式进行分层组线性变换，得到轻量化语义标记：

Tin′＝H(Tin)LW_r

为第l层组线性变换的权重集，

4.根据权利要求2所述的方法，其特征在于，将所述轻量化语义标记进行轻量化标记建模，得到轻量化标记的建模结果，包括：

MultiHead(T_i ^′ _n)＝Concat(head ₁,…,head _h)W^o,

T_o ^′ _ut＝Layer Normalization(T_in+MultiHead(T_i ^′ _n))

其中，Q_i为查询、K_i为键，V_i为值，

为投影权重矩阵，T_i ^′ _n为轻量化语义标记，head_i是多头注意力机制的单头建模结果，SOFTMAX_N是归一化函数，d_k是K_i的维度，MultiHead(T_i ^′ _n)是多头注意力的计算结果，Concat是连接，h为头数，W^o是用于调整标记维度的投影权重矩阵，T_o ^′ _ut是轻量化标记的建模结果，Layer Normalization是层标准化。

5.根据权利要求2所述的方法，其特征在于，根据所述轻量化标记的建模结果，确定初始轻量化语义Transformer模型的编码输出结果，包括：

FFN(T_o ^′ _ut)＝σ(T_o ^′ _utF₁)F₂,

T_out＝Layer Normalization(T_o ^′ _ut+FFN(T_o ^′ _ut))

其中，FFN为前馈网络，T_o ^′ _ut为建模结果，T_out为编码输出结果，F₁、F₂为权重矩阵，σ为Relu激活函数，Layer Normalization为层标准化。

6.根据权利要求2所述的方法，其特征在于，根据所述特征图像和所述编码输出结果，得到具有语义信息的目标细化特征图，包括：

7.根据权利要求1所述的方法，其特征在于，根据所述光学人脸照片的细化特征图和所述素描图像的细化特征图，确定目标域适应焦点损失，包括：

8.基于轻量化语义Transformer模型的素描人脸识别装置，其特征在于，包括：

9.基于轻量化语义Transformer模型的素描人脸识别设备，其特征在于，包括：包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1-7任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，所述指令被处理器执行时实现权利要求1至7中任一项所述方法的步骤。