CN115311730A

CN115311730A - 一种人脸关键点的检测方法、系统和电子设备

Info

Publication number: CN115311730A
Application number: CN202211161510.8A
Authority: CN
Inventors: 李利明; 李钊; 翁翔羽; 张兴明
Original assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Current assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2022-11-08
Anticipated expiration: 2042-09-23
Also published as: CN115311730B

Abstract

本发明涉及图形数据处理技术领域，公开了一种人脸关键点的检测方法、系统和电子设备，该方法包括：将原始人脸图像分割为图像补丁，输出第一特征图；将进行了位置编码的图像补丁输入至transformer编码器模块进行图像的全局特征提取；将原始人脸图像输入至局部特征提取模块；将提取到的图像全局特征和图像局部特征进行特征融合；将第二残差卷积神经网络输出的特征图输入至辅助网络，该辅助网络用于识别人脸属性信息。本发明通过引入注意力机制，并加入了辅助分支，有效提升了人脸关键点检测算法的精度。

Description

一种人脸关键点的检测方法、系统和电子设备

技术领域

本发明涉及计算机视觉及图形数据处理技术领域，特别涉及一种人脸关键点的检测方法、系统和电子设备。

背景技术

作为计算机视觉领域的重要研究内容之一，人脸关键点检测致力于基于先验人脸框的人脸关键点回归。目前主流的人脸关键点检测算法主要包括：

1、基于级联框架的人脸关键点检测，如DCNN、DNN等，该方法从粗到精的逐步得到了精确的关键点位置，最终的检测结果是三个网络的融合，第一个网络检测绝对值，后面两个网络预测偏移量。

2、基于多任务的人脸关键点检测，如MTCNN框架就可以同时进行人脸检测和关键点检测；TCDCN在进行人脸关键点检测任务时，加入了包括性别，是否带眼镜，是否微笑和脸部的姿势等辅助信息；PFLD提出将三维的位姿信息作为辅助，同时对样本不平衡进行了损失函数的优化。

例如公开号为CN114943090A的中国专利申请，提出一种基于同态加密大规模人脸库隐匿查询的方法，根据获取的人脸图片在设备端生成用于表征人脸图片的高维人脸特征；采用局部敏感哈希算法基于设备端对高维人脸特征进行哈希数据集合计算。

现有的人脸关键点检测技术中，基于深度学习的人脸关键点检测主要包括基于级联方式、多任务融合的方式，忽略了人脸关键点之间的位置信息，最终得到的精度始终有限。

发明内容

鉴于现有技术中的上述缺陷或不足，本发明提供了一种人脸关键点的检测方法、系统和电子设备，通过引入注意力机制，并加入了性别、是否戴眼镜、是否戴口罩等辅助分支，有效提升了人脸关键点检测算法的精度。

本发明的第一方面，提供了一种人脸关键点的检测方法，包括：

将原始人脸图像分割为n×n个图像补丁，n为自然数，对该图像补丁进行卷积处理，以输出第一特征图；

对上述第一特征图中的每个图像补丁赋予位置信息，并根据位置信息对图像补丁序列进行位置编码，将进行了位置编码的图像补丁输入至transformer编码器模块进行图像的全局特征提取；

将原始人脸图像输入至依次连接的第一残差卷积神经网络、第二残差卷积神经网络、第三残差卷积神经网络和第一全连接层构成的局部特征提取模块，进行图像局部特征的提取；其中，第一残差卷积神经网络、第二残差卷积神经网络、第三残差卷积神经网络的输出特征图的宽、高逐渐变小，通道数逐渐增加；

将提取到的图像全局特征和图像局部特征进行特征融合，并将融合后的特征输出至第二全连接层，第二全连接层输出原始人脸图像的人脸关键点坐标信息；

将第二残差卷积神经网络输出的特征图输入至第四残差卷积神经网络和第三全连接层构成的辅助网络，该辅助网络用于识别人脸属性信息，第三全连接层的长度与人脸属性信息的数量匹配。

进一步的，transformer编码器模块包括第一标准化模块、多头注意力模块、第二标准化模块和MLP模块；

第一标准化模块用于对进行了位置编码的图像补丁进行归一化处理，归一化的结果输入至多头注意力模块；

进行了位置编码的图像补丁和多头注意力模块的输出相加后的结果输入至第二标准化模块，第二标准化模块将归一化的结果输出至MLP模块；

进行了位置编码的图像补丁和MLP模块的输出相加后的结果作为transformer编码器模块的输出。

进一步的，图像局部特征为原始人脸图像的颜色特征，空间特征和纹理特征。

进一步的，还包括模型训练步骤：

制作训练集和测试集；

定义训练模型的超参数；

将均方差损失作为损失函数；

以最小化损失值为目标，利用训练集不断迭代训练模型的参数；

当损失值的下降幅度在预定范围内时，停止训练，获得训练后的模型；

加载训练后的模型，利用测试集进行评估，计算人脸关键点输出结果与人脸关键点真实标注值的差异。

进一步的，人脸属性信息包括性别为男的概率、性别为女的概率、戴口罩的概率、不戴口罩的概率、戴眼镜的概率和不戴眼镜的概率。

进一步的，辅助网络通过归一化指数函数得到人脸属性信息的概率。

本发明的第二方面，提供了一种人脸关键点的检测系统，包括：

输入图像分割模块，被配置为将原始人脸图像分割为n×n个图像补丁，n为自然数，对图像补丁进行卷积处理，以输出第一特征图；

全局特征提取模块，被配置为对第一特征图中的每个图像补丁赋予位置信息，并根据位置信息对图像补丁序列进行位置编码，将进行了位置编码的图像补丁输入至transformer编码器模块进行图像的全局特征提取；

局部特征提取模块，被配置为对输入的原始人脸图像进行图像局部特征的提取，其包括依次连接的第一残差卷积神经网络、第二残差卷积神经网络、第三残差卷积神经网络和第一全连接层，第一残差卷积神经网络、第二残差卷积神经网络、第三残差卷积神经网络的输出特征图的宽、高逐渐变小，通道数逐渐增加；

图像特征融合模块，被配置为将提取到的图像全局特征和图像局部特征进行特征融合，并将融合后的特征输出至第二全连接层，第二全连接层输出原始人脸图像的人脸关键点坐标信息；

辅助网络模块，被配置为接收第二残差卷积神经网络输出的特征图，以识别人脸属性信息；该辅助网络模块包括依次连接的第四残差卷积神经网络和第三全连接层，第三全连接层的长度与人脸属性信息的数量匹配。

本发明的第三方面，提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述第一方面描述的人脸关键点的检测方法。

本发明提供的一种人脸关键点的检测方法、系统和电子设备，其使用基于注意力机制的主干网络提取图像的全局特征，使用CNN网络提取图像的局部特征，并进行特征融合，此外，使用性别、是否戴口罩、是否戴眼镜的辅助分支对人脸关键点回归进行监督，有效提升了人脸关键点检测算法的精度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明一个实施例提供的人脸关键点的检测方法的逻辑示意图；

图2是本发明一个实施例提供的人脸关键点的检测方法的流程示意图；

图3是本发明一个实施例提供的第一残差卷积神经网络的结构图；

图4是本发明一个实施例提供的第二残差卷积神经网络的结构图；

图5是本发明一个实施例提供的第三残差卷积神经网络的结构图；

图6是本发明一个实施例提供的第四残差卷积神经网络的结构图；

图7是本发明一个实施例提供的人脸关键点的检测系统的结构示意图；

图8是本发明一个实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”“所述”和“该”也旨在包括多数形式，除非上下文清楚的表示其他含义。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述获取模块，但这些获取模块不应限于这些术语。这些术语仅用来将获取模块彼此区分开。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似的，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”。

需要注意的是，本发明实施例所描述的“上”“下”“左”“右”等方位词是以附图所示的角度来进行描述的，不应理解为对本发明实施例的限定。此外在上下文中，还需要理解的是，当提到一个元件被形成在另一个元件“上”或“下”时，其不仅能够直接形成在另一个元件“上”或者“下”，也可以通过中间元件间接形成在另一元件“上”或者“下”。

本发明的一个实施例，提供了一种人脸关键点的检测方法，该方法通过构建一种新型人脸关键点检测模型，以提升了人脸关键点检测算法的精度。参见图1、2，该方法包括如下步骤：

步骤S101，将原始人脸图像分割为n×n个图像补丁，n为自然数，对图像补丁进行卷积处理，以输出第一特征图。

具体的，本实施例使用开源的Pytorch框架来搭建整体网络结构，实现“图片补丁生成”模块。首先，将图片等分为3×3共9个图像补丁，由一层卷积层、一层归一化层、一层激活层组成卷积神经网络，使用该卷积神经网络对图像补丁进行卷积计算，输出第一特征图。本实施例的人脸图片输入尺寸为144×144×3分辨率，因此每个图像补丁大小为48×48×3。

步骤S102，对第一特征图中的每个图像补丁赋予位置信息，并根据位置信息对图像补丁序列进行位置编码，将进行了位置编码的图像补丁输入至transformer编码器模块进行图像的全局特征提取。

具体的，将步骤S101输出的9个图像补丁（即第一特征图）输入至扁平补丁线性投影模块，对每个图像补丁赋予位置信息，按照位置信息的先后顺序对其进行位置编码。将进行了位置编码的图像补丁输入至Transformer编码器模块进行特征提取。transformer编码器模块包括第一标准化模块、多头注意力模块、第二标准化模块和MLP模块（即多层感知器模块）；第一标准化模块用于对进行了位置编码的图像补丁进行归一化处理，归一化的结果输入至多头注意力模块；进行了位置编码的图像补丁和多头注意力模块的输出相加后的结果输入至第二标准化模块，第二标准化模块将归一化的结果输出至MLP模块；进行了位置编码的图像补丁和MLP模块的输出相加后的结果作为transformer编码器模块的输出。

本实施例将MLP模块最后一层全连接层的长度设置为106个节点，即该“全局特征提取模块”的输出为106×1。

该步骤通过transformer编码器进行全局特征的提取，通过位置编码可以获取全面的整个图像的特征。

步骤S103，将原始人脸图像输入至依次连接的第一残差卷积神经网络、第二残差卷积神经网络、第三残差卷积神经网络和第一全连接层构成的局部特征提取模块，进行图像局部特征的提取；其中，第一残差卷积神经网络、第二残差卷积神经网络、第三残差卷积神经网络的输出特征图的宽、高逐渐变小，通道数逐渐增加。

具体的，将原始人脸图像输入至局部特征提取模块。参见图1、3-5，该模块主要包含依次连接的三个残差卷积神经网络和一个全连接层。

将第一残差卷积神经网络输入大小设置为144×144×3，分别表示图像的宽、高以及颜色的通道数，通过多个卷积模块对其进行特征提取，输出特征图大小为72×72×128，该特征图被输入至第二残差卷积神经网络。作为优选实施方式，该第一残差卷积神经网络包括4个3×3卷积模块，其中输出通道数为256、卷积步长为4的第一卷积模块和输出通道数为128、卷积步长为1的第二卷积模块串联并形成第一输出量，输出通道数为128、卷积步长为2的第三卷积模块和输出通道数为128、卷积步长为1的第四卷积模块串联并形成第二输出量，第一输出量和第二输出量相加并输出大小为72×72×128的输出特征图。

第二残差卷积神经网络接收上述分辨率为72×72×128的特征图，通过多个卷积模块对其进行特征提取，输出特征图大小为36×36×256，分别表示特征图的宽、高以及颜色的通道数，该特征图被输入至第三残差卷积神经网络。作为优选实施方式，该第二残差卷积神经网络包括4个3×3卷积模块，输出通道数为512、卷积步长为4的第一卷积模块和输出通道数为256、卷积步长为1的第二卷积模块串联并形成第一输出量，输出通道数为256、卷积步长为2的第三卷积模块和输出通道数为256、卷积步长为1的第四卷积模块串联并形成第二输出量，第一输出量和第二输出量相加并输出大小为36×36×256的输出特征图。

第三残差卷积神经网络接收上述分辨率为36×36×256的特征图，通过与第二残差卷积神经网络相同结构的多个卷积模块对其进行特征提取，输出特征图大小为18×18×512，分别表示特征图的宽、高以及颜色的通道数，该特征图被输入至全连接层。作为优选实施例，该第三残差卷积神经网络包括4个3×3卷积模块，输出通道数为1024、卷积步长为4的第一卷积模块和输出通道数为512、卷积步长为1的第二卷积模块串联并形成第一输出量，输出通道数为512、卷积步长为2的第三卷积模块和输出通道数为512、卷积步长为1的第四卷积模块串联并形成第二输出量，第一输出量和第二输出量相加并输出大小为18×18×512的输出特征图。

第一全连接层的长度为106个节点，其接收第三残差卷积神经网络的输出，第一全连接层的输出也即该“局部特征提取模块”的输出为106×1。

该步骤通过CNN网络对图像的某个区域的特征进行提取，从而实现局部特征的提取。值得说明的是，本发明的特征图依次经过三个残差卷积神经网络后，宽度和高度逐渐变小，且颜色的通道数逐渐增大。其中，宽、高的减少是为了保持全局特征的情况下完成采样。颜色的通道数增加是为了通过使特征值维度增高，来提取更准确的特征。本实施例提取的特征主要包括颜色特征，空间特征和纹理特征。

步骤S104，将提取到的图像全局特征和图像局部特征进行特征融合，并将融合后的特征输出至第二全连接层，第二全连接层输出原始人脸图像的人脸关键点坐标信息；

具体的，将全局特征提取模块提取的全局特征和局部特征提取模块提取的卷积特征进行拼接，即对应位相加，进而实现特征融合。将融合后的特征输出至第二全连接层，该第二全连接层的长度为106×2，表示为106个人脸关键点的x，y坐标信息。

步骤S105，将第二残差卷积神经网络输出的特征图输入至第四残差卷积神经网络和第三全连接层构成的辅助网络，该辅助网络用于识别人脸属性信息，第三全连接层的长度与人脸属性信息的数量匹配。

具体的，该步骤中的辅助网络主要包括第四残差卷积神经网络和第三全连接层。第四残差卷积神经网络的输入为步骤S103中第二残差卷积神经网络的输出特征图，其分辨率为36×36×256，第四残差卷积神经网络通过多个卷积模块对其进行特征提取，输出特征图大小为18×18×128，第四残差卷积神经网络的输出作为第三全连接层的输入，并且第三全连接层的长度设置为6。

参见图6，作为优选实施方式，第四残差卷积神经网络包括3个3×3卷积模块，其中输出通道数为128、卷积步长为4的第一卷积模块和输出通道数为128、卷积步长为1的第二卷积模块串联并形成第一输出量，输出通道数为128、卷积步长为1的第三卷积模块形成第二输出量，第一输出量和第二输出量相加并输出大小为18×18×128的输出特征图。

对第三全连接层的6个输出的每两位通过归一化指数函数（Sofmmax）进行分类。归一化指数函数（Sofmmax）可以将k个值压缩，使得每一个值的范围均在（0,1）且k个值之和为1。第三全连接层的6个输出表示为人脸的6种属性信息，分类属性包括性别、是否戴口罩以及是否戴眼镜。其中第一位表示为性别为男的概率，第二位表示为性别是女的概率，将两位数字通过归一化指数函数（Sofmmax）归一化并比较大小，前者大即输出为男性，反之为女性；第三位表示为戴口罩的概率，第四位表示为不戴口罩的概率，将两位数字通过归一化指数函数（Sofmmax）归一化并比较大小，前者大即输出为戴口罩，反之为不戴口罩；将第五位表示为戴眼镜的概率，第六位表示为不戴眼镜的概率，将两位数字通过归一化指数函数（Sofmmax）归一化并比较大小，前者大即输出为戴眼镜，反之为不戴眼镜。

上述步骤S101-S105是本发明提出的新型人脸关键点检测模型的数据处理过程。在该数学模型投入使用前，还包括如下模型训练步骤：

步骤S201，制作训练集和测试集；

具体的，获取公开或自行标注的人脸关键点数据集，制作训练集和测试集，为了方便实施，本发明实施例使用京东106点人脸关键点数据集中的2000张图片作为测试数据集。

步骤S202，定义训练模型的超参数；

具体的，使用Adam优化器（一种自适应矩估计优化器），将权重损失设置为0.0001，初始学习率设置为0.001，每训练100世，衰减为原来的1/10。

步骤S203，将均方差损失作为损失函数；

步骤S204，以最小化损失值为目标，利用训练集不断迭代训练模型的参数；

步骤S205，当损失值的下降幅度在预定范围内时，停止训练，获得训练后的模型；

步骤S206，加载训练后的模型，利用测试集进行评估，计算人脸关键点输出结果与人脸关键点真实标注值的差异。

具体的，本实施例使用关键点常用精度计算方式ION (Intersection OverUnion)作为评价指标。ION是关键点检测中常用的精度计算公式，ION主要描述关键点预测值与实际值之间归一化后的距离，ION值越小代表关键点模型精度越高，定位更准确。

以下表1提供了当前主流的人脸关键点检测算法和本发明的模型算法在该测试集上的评价指标。

表1

序号	精度（ION)	算法
			1	4.96%	PFLD_Mobilenetv2
2	4.40%	PFLD_Mobilenetv3
			3	4.22%	本发明提出的人脸关键点检测算法

序号1：使用腾讯2019年提出的《PFLD: A Practical Facial LandmarkDetector》，基于Mobilenetv2 Backbone实现106点人脸关键点检测。

序号2：使用PFLD，基于Mobilenetv3 Backbone实现106点人脸关键点检测。

序号3：使用本发明提出的人脸关键点检测算法。

由表1的比对结果可以看出，在京东106点人脸关键点测试集上，使用序号3中本发明提出的人脸关键点检测算法，比序号1中PFLD_Mobilenetv2算法精度高 4.96%-4.22% =0.74%，比序号2中PFLD_Mobilenetv3算法精度高4.40%-4.22% = 0.18%。由此可见，本发明提出的人脸关键点检测算法，在相同条件下，可以达到更高的精度，实现更准确的人脸关键点检测。

参见图7，本发明的另一实施例还提供了一种人脸关键点的检测系统200，包括输入图像分割模块201、全局特征提取模块202、局部特征提取模块203、图像特征融合模块204、辅助网络模块205。

具体的：

输入图像分割模块201，被配置为将原始人脸图像分割为n×n个图像补丁，n为自然数，对图像补丁进行卷积处理，以输出第一特征图；

全局特征提取模块202，被配置为对第一特征图中的每个图像补丁赋予位置信息，并根据位置信息对图像补丁序列进行位置编码，将进行了位置编码的图像补丁输入至transformer编码器模块进行图像的全局特征提取；

局部特征提取模块203，被配置为对输入的原始人脸图像进行图像局部特征的提取，其包括依次连接的第一残差卷积神经网络、第二残差卷积神经网络、第三残差卷积神经网络和第一全连接层，第一残差卷积神经网络、第二残差卷积神经网络、第三残差卷积神经网络的输出特征图的宽、高逐渐变小，通道数逐渐增加；

图像特征融合模块204，被配置为将提取到的图像全局特征和图像局部特征进行特征融合，并将融合后的特征输出至第二全连接层，第二全连接层输出原始人脸图像的人脸关键点坐标信息；

辅助网络模块205，被配置为接收第二残差卷积神经网络输出的特征图，以识别人脸属性信息；该辅助网络模块包括依次连接的第四残差卷积神经网络和第三全连接层，第三全连接层的长度与人脸属性信息的数量匹配。

需要说明的是，本实施例提供的一种人脸关键点的检测系统200对应的可用于执行各方法实施例的技术方案，其实现原理和技术效果与方法类似，此处不再赘述。

参见图8，本发明的另一实施例还供了一种电子设备的结构示意图。下面具体参考图8，其示出了适于用来实现本实施例中的电子设备600的结构示意图。本实施例中的电子设备600可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）、可穿戴电子设备等等的移动终端以及诸如数字TV、台式计算机、智能家居设备等等的固定终端。图8示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，电子设备600可以包括处理装置（例如中央处理器、图形处理器等）601，其可以根据存储在只读存储器（ROM）602中的程序或者从存储装置608加载到随机访问存储器（RAM）603中的程序而执行各种适当的动作和处理以实现如本发明描述的各实施例的方法。在RAM 603中，还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出（I/O）接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器（LCD）、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代的实施或具备更多或更少的装置。

以上描述仅为本发明的较佳实施例。本领域技术人员应当理解，本发明中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种人脸关键点的检测方法，其特征在于，包括：

将原始人脸图像分割为n×n个图像补丁，n为自然数，对所述图像补丁进行卷积处理，以输出第一特征图；

对所述第一特征图中的每个图像补丁赋予位置信息，并根据所述位置信息对图像补丁序列进行位置编码，将进行了位置编码的图像补丁输入至transformer编码器模块进行图像的全局特征提取；

将原始人脸图像输入至依次连接的第一残差卷积神经网络、第二残差卷积神经网络、第三残差卷积神经网络和第一全连接层构成的局部特征提取模块，进行图像局部特征的提取；其中，所述第一残差卷积神经网络、第二残差卷积神经网络、第三残差卷积神经网络的输出特征图的宽、高逐渐变小，通道数逐渐增加；

将提取到的图像全局特征和图像局部特征进行特征融合，并将融合后的特征输出至第二全连接层，所述第二全连接层输出所述原始人脸图像的人脸关键点坐标信息；

将所述第二残差卷积神经网络输出的特征图输入至第四残差卷积神经网络和第三全连接层构成的辅助网络，所述辅助网络用于识别人脸属性信息，所述第三全连接层的长度与所述人脸属性信息的数量匹配。

2.根据权利要求1所述的一种人脸关键点的检测方法，其特征在于：

所述transformer编码器模块包括第一标准化模块、多头注意力模块、第二标准化模块和MLP模块；

所述第一标准化模块用于对所述进行了位置编码的图像补丁进行归一化处理，归一化的结果输入至所述多头注意力模块；

所述进行了位置编码的图像补丁和所述多头注意力模块的输出相加后的结果输入至所述第二标准化模块，所述第二标准化模块将归一化的结果输出至所述MLP模块；

所述进行了位置编码的图像补丁和所述MLP模块的输出相加后的结果作为所述transformer编码器模块的输出。

3.根据权利要求1所述的一种人脸关键点的检测方法，其特征在于，所述图像局部特征为所述原始人脸图像的颜色特征，空间特征和纹理特征。

4.根据权利要求1所述的一种人脸关键点的检测方法，其特征在于，还包括模型训练步骤：

制作训练集和测试集；

定义训练模型的超参数；

将均方差损失作为损失函数；

5.根据权利要求1所述的一种人脸关键点的检测方法，其特征在于，所述人脸属性信息包括性别为男的概率、性别为女的概率、戴口罩的概率、不戴口罩的概率、戴眼镜的概率和不戴眼镜的概率。

6.根据权利要求1所述的一种人脸关键点的检测方法，其特征在于，所述辅助网络通过归一化指数函数得到所述人脸属性信息的概率。

7.一种人脸关键点的检测系统，其特征在于，包括：

输入图像分割模块，被配置为将原始人脸图像分割为n×n个图像补丁，n为自然数，对所述图像补丁进行卷积处理，以输出第一特征图；

全局特征提取模块，被配置为对所述第一特征图中的每个图像补丁赋予位置信息，并根据所述位置信息对图像补丁序列进行位置编码，将进行了位置编码的图像补丁输入至transformer编码器模块进行图像的全局特征提取；

局部特征提取模块，被配置为对输入的原始人脸图像进行图像局部特征的提取，其包括依次连接的第一残差卷积神经网络、第二残差卷积神经网络、第三残差卷积神经网络和第一全连接层，所述第一残差卷积神经网络、第二残差卷积神经网络、第三残差卷积神经网络的输出特征图的宽、高逐渐变小，通道数逐渐增加；

图像特征融合模块，被配置为将提取到的图像全局特征和图像局部特征进行特征融合，并将融合后的特征输出至第二全连接层，所述第二全连接层输出所述原始人脸图像的人脸关键点坐标信息；

辅助网络模块，被配置为接收所述第二残差卷积神经网络输出的特征图，以识别人脸属性信息；所述辅助网络模块包括依次连接的第四残差卷积神经网络和第三全连接层，所述第三全连接层的长度与所述人脸属性信息的数量匹配。

8.根据权利要求7所述的一种人脸关键点的检测系统，其特征在于，所述transformer编码器模块包括第一标准化模块、多头注意力模块、第二标准化模块和MLP模块；

9.根据权利要求7所述的一种人脸关键点的检测系统，其特征在于，所述图像局部特征为所述原始人脸图像的颜色特征，空间特征和纹理特征。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现权利要求1-6任意一项所述的一种人脸关键点的检测方法。