CN117079337A

CN117079337A - 一种高精度人脸属性特征识别装置及方法

Info

Publication number: CN117079337A
Application number: CN202311338505.4A
Authority: CN
Inventors: 董盆景; 胡志恒; 李英祥; 唐鑫
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2023-11-17
Anticipated expiration: 2043-10-17
Also published as: CN117079337B

Abstract

本发明公开了一种高精度人脸属性特征识别装置及方法，其装置包括人脸和关键点检测模块、分类模块、人脸对齐模块和人脸属性识别模块；人脸和关键点检测模块用于获取不同网络层的特征，输出P层特征；分类模块用于接收P层特征，并输出高精度的人脸检测图像和高精度的人脸关键点；人脸对齐模块用于获取高精度的人脸关键点，得到人脸对齐图像；人脸属性识别模块用于将人脸对齐图像用于基于参数软共享的方式进行多任务人脸属性识别，并训练特征交互模型达到高精度的效果，本方案从两个方面进行特征交互，极大的提升了特征交互的程度，使得模型能够充分提取人脸图像的特征。

Description

一种高精度人脸属性特征识别装置及方法

技术领域

本发明涉及计算机视觉领域，尤其是涉及一种高精度人脸属性特征识别装置及方法。

背景技术

随着深度学习在图像识别领域的广泛运用，极大的推动了人脸属性识别技术的发展。在基于深度学习的人脸属性识别领域中，深度学习模型往往受到人脸图像尺度大小不一等因素的影响，导致模型不能充分提取人脸图像的特征，因此高效提取图像特征成为了图像识别领域的一个研究重点。

现有的人脸检测模型主要分为单阶段和双阶段模型。双阶段的模型如FastRcnn等，需要首先得到目标物体的位置并得到建议人脸框，然后对其进行分类，这种模型精度高但是速度慢；而单阶段模型不需要得到建议框阶段，直接产生物体的类别概率和位置坐标值，经过单次检测即可直接得到最终的检测结果，这种模型速度一般比双阶段模型更快，但精度有所损失。

发明内容

针对现有技术中的上述不足，本发明提供的一种高精度人脸属性特征识别装置及方法解决了现有模型设计不平衡的问题。

为了达到上述发明目的，本发明采用的技术方案为：提供一种高精度人脸属性特征识别装置，包括人脸和关键点检测模块、分类模块、人脸对齐模块和人脸属性识别模块；

所述人脸和关键点检测模块用于获取不同网络层的特征，输出P层特征；

所述分类模块用于接收P层特征，并输出高精度的人脸检测图像和高精度的人脸关键点；

所述人脸对齐模块用于获取高精度的人脸关键点，得到人脸对齐图像；

所述人脸属性识别模块用于将人脸对齐图像用于基于参数软共享的方式进行多任务人脸属性识别，并训练特征交互模型达到高精度的效果。

进一步地：所述人脸和关键点检测模块为一个单阶段的人脸检测模型，其主干网络分为四个阶段Stage1、Stage2、Stage3和Stage4，分别获取到不同网络层的特征；

所述Stage1、Stage2、Stage3和Stage4获取到的特征的尺寸分别为104×104×128、52×52×256、26×26×512、13×13×1024，获取到的四个特征分别代表对输入特征下采样4倍、8倍、16倍和32倍。

进一步地：所述人脸检测模型采用Wider Face数据集转变为VOC类型进行训练；

其模型参数设置为：采用Adam优化器进行训练，设置初始lr为0.001，设定每四步对其衰减，衰减为0.9，batch_size设置为16，epoch设置为100，模型卷积层的权重设置为卷积核与通道数乘积的平方根，偏离值设置为0；模型线性层的权重设置为0-0.01，偏离值设置为0。

进一步地：所述人脸属性识别模块为人脸属性识别模型，所述人脸属性识别模块采用Celeba数据集进行训练；

其模型参数设置为：模型卷积层的权重设置为卷积核与通道数乘积的平方根，偏离值设置为0；模型线性层的权重设置为0-0.01，偏离值设置为0；训练步数epochs设置为100；每个批次训练数据大小为32；学习率设置为e-4；学习率衰减因子为0.9，激活函数采用h_swish函数，将dropout层的参数设置为0.2。

本发明还提供了一种基于高精度人脸属性特征识别装置的高精度人脸属性特征识别方法，包括以下步骤：

S1、使用人脸和关键点检测模块获取输入人脸图像的四个特征，将获取到的四个特征通道数统一为256层，其将其输出分别记为A1、A2、A3和A4；

S2、将输出A1、A2、A3和A4进行融合，得到多层融合特征，并将融合特征进行卷积运算，得到P层特征；

S3、将P层特征输入到分类模块中，输出人脸检测图像和高精度的人脸关键点；

S4、判断人脸检测图像中人脸是否存在；

若是，则进入步骤S5；

若否，则更换输入的人脸图像，并返回步骤S1；

S5、提取高精度的人脸关键点中的双眼特征点，计算出左右眼的中心点，将左右眼的中心点进行连线后与水平方向进行比较，得到相对水平方向的角度；

S6、根据相对水平方向的角度，对具备高精度人脸关键点的图像进行变换得到人脸对齐图像；

S7、标注人脸对齐图像的两个人脸属性，将标注后的人脸属性图像分别输入到两个MobileNetV3模型中，使用特征交互模型连接两个MobileNetV3模型的特征完成特征交互；

S8、计算特征交互的损失值，并对特征交互的损失值通过损失函数进行加权求和，得到求和后的损失值；

S9、将求和后的损失值反向传播训练两个MobileNetV3模型，得到训练好的模型，并使用训练好的模型实现高精度人脸属性特征识别。

进一步地：所述步骤S2中，将输出A1、A2、A3和A4进行融合，得到多层融合特征的方法具体方法包括以下分步骤：

S21、将A4上采样之后和A3连接得到初级融合特征；

S22、将初级融合特征上采样之后与A2连接得到中级融合特征；

S23、将中级融合特征与A1连接得到多层融合特征。

进一步地：所述步骤S6包括以下分步骤：

S61、根据相对水平方向的角度，对具备高精度人脸关键点的图像进行旋转，得到旋转后的图像，其公式如下：

其中，(x，y)为具备高精度人脸关键点的图像的坐标，(x ₁，y ₁)为旋转后的图像的左眼的坐标，为相对水平方向的角度；

S62、根据预设的人脸对齐图像中左眼的位置和旋转后的图像，得到平移距离，其公式如下：

其中，t ₁和t ₂分别为平移的横向和纵向距离；

S63、根据预设的人脸对齐图像的大小和具备高精度人脸关键点的图像大小，得到缩放比例s；

S64、根据缩放比例s和平移距离对旋转后的图像进行变换，得到人脸对齐图像，其公式如下：

其中，（，/>）为预设的人脸对齐图像的坐标。

进一步地：所述步骤S7中，使用特征交互模型将两个MobileNetV3模型进行连接和特征交互具体包括以下分步骤：

其中，X _a和X _b均为交互后的新特征，z _a∈[H,W,C]和z _b∈[H,W,C]分别是两个MobileNetV3模型在同一位置卷积层输出的特征，H、W和C分别为特征的高度、宽度和通道数；w _self为卷积层交互后网络模型自身的留存程度，w _other为卷积层交互后获取其他网络模型特征信息的程度，且w _self和w _other的和为1；

S72、沿通道层进行连接操作，进行特征分离，将特征分离后的z _a和z _b输入到全连接层中，通过全连接层输出其各自特征的差异程度，并输出通道层交互后的和/>的权值，其公式如下：

其中，通道层包括全连接层，为通道层交互后网络模型自身的留存程度，为通道层交互后获取其他网络模型特征信息的程度，f（.）为全连接函数，relu（.）为激活函数，k（.）为对不同特征通道层进行均值操作，softmax（.）为分类函数，softmax（.）输出两个值，其输出的第一个值为/>，输出的第二个值为/>；

S73、将和/>输入到中间网络层之后的网络层中，丰富两个MobileNetV3模型自身的特征；

S74、对通道层交互后的特征的宽高进行分离，取分离后的单通道的均值，之后对分离的特征点进行连接，并进行卷积池化操作，输出通道层交互后的和/>的权值，完成特征交互，/>和/>的公式如下：

其中，为特征交互后网络模型自身的留存程度，/>为特征交互后获取其他网络模型特征信息的程度，/>为对MobileNetV3模型特征进行连接的函数，conv(.)为卷积操作，batch（.）为池化操作。

进一步地：所述步骤S8中包括以下分步骤：

S81、分析softmax（.）函数，计算任务n在第t-1步的准确率，其公式如下：

其中，P _n(t-1)为任务n在第t-1步的准确率，t为当前步骤，C为任务数目，z _j（t-1）为分类函数softmax（.）第j个输出节点在第t-1步的输出值，z _c（t-1）为分类函数softmax（.）第C个输出节点在第t-1步的输出值；n为任务计数标识，包括i和j，当n为i时，代表第一个MobileNetV3模型的属性识别任务；当n为j时，代表第二个MobileNetV3模型的属性识别任务；

S82、根据P _n(t-1)计算任务n在第t-1步时的损失值，其公式如下：

S83、通过不同任务权重占比动态调整不同任务的权重，得到不同任务的准确率权重，其公式如下：

其中，为任务i在t-1步的准确率权重，/>为任务i在t-1步的准确率；

S84、根据计算出不同任务在不同时间的训练速度，其公式如下：

其中，r _n(t-1)为任务n在t-1步时的训练速度；为任务n在第t-2步时的损失值；

S85、根据不同任务在不同时间的训练速度计算出不同任务训练速率的权重，其公式如下：

其中，w _i（t-1）为任务i在t-1步时的训练速率权重，r _i（t-1）为任务i在t-1步时的训练速度；

S86、根据任务i和任务j在第t-1步时的损失值、准确率权重和训练速率权重，对不同任务的动态加权求和，计算任务i和任务j的权重，并将其权重和作为求和后的损失值loss _MTL，求和后的损失值的计算公式如下：

其中，loss _MTL为求和后的损失值，w _j（t-1）为任务j在t-1步时的训练速率权重，为任务j在t-1步的准确率权重，/>为任务i在t-1步时的损失，/>为任务j在t-1步时的损失。

本发明的有益效果为：

1.单阶段的人脸检测模型通过特征融合输出了高精度的人脸框和人脸关键点，保持模型效率的同时输出了高精度的人脸关键点，实现了更高效的人脸对齐运算；

2.通过特征交互模型促使任务间相互促进，使得模型更高效提取了图像的特征，通过设计的多任务损失函数用来平衡了不同任务的学习速度，保证了模型不被单一任务所干扰。

附图说明

图1为本发明所述的高精度人脸属性特征识别装置的结构示意图。

图2为本发明所述的高精度人脸属性特征识别方法的流程示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

如图1所示，在本发明的一个实施例中，提供了一种高精度人脸属性特征识别装置，包括人脸和关键点检测模块、分类模块、人脸对齐模块和人脸属性识别模块；

所述人脸和关键点检测模块为一个单阶段的人脸检测模型，其主干网络分为四个阶段Stage1、Stage2、Stage3和Stage4，分别获取到不同网络层的特征；

所述Stage1、Stage2、Stage3和Stage4获取到的特征的尺寸分别为104×104×128、52×52×256、26×26×512、13×13×1024，获取到的四个特征分别代表对输入特征下采样4倍、8倍、16倍和32倍；

所述人脸检测模型采用Wider Face数据集转变为VOC类型进行训练；

其模型参数设置为：采用Adam优化器进行训练，设置初始lr为0.001，设定每四步对其衰减，衰减为0.9，batch_size设置为16，epoch设置为100，模型卷积层的权重设置为卷积核与通道数乘积的平方根，偏离值设置为0；模型线性层的权重设置为0-0.01，偏离值设置为0；

所述人脸属性识别模块用于将人脸对齐图像用于基于参数软共享的方式进行多任务人脸属性识别，并训练特征交互模型达到高精度的效果；

所述人脸属性识别模块为人脸属性识别模型，所述人脸属性识别模块采用Celeba数据集进行训练；

如图2所示，在本发明的一个实施例中，还提供了一种基于高精度人脸属性特征识别装置的高精度人脸属性特征识别方法，包括以下步骤：

所述步骤S2中，将输出A1、A2、A3和A4进行融合，得到多层融合特征的方法具体方法包括以下分步骤：

S21、将A4上采样之后和A3连接得到初级融合特征；

S23、将中级融合特征与A1连接得到多层融合特征；

S4、判断人脸检测图像中人脸是否存在；

若是，则进入步骤S5；

若否，则更换输入的人脸图像，并返回步骤S1；

所述步骤S6包括以下分步骤：

其中，t ₁和t ₂分别为平移的横向和纵向距离；

其中，（，/>）为预设的人脸对齐图像的坐标；

所述步骤S7中，使用特征交互模型将两个MobileNetV3模型进行连接和特征交互具体包括以下分步骤：

S71、使用特征交互模型依次连接两个MobileNetV3模型的卷积层，以元素加权求和的方式实现交互，得到卷积层交互后的新特征X _a和X _b，其公式如下：

其中，为特征交互后网络模型自身的留存程度，/>为特征交互后获取其他网络模型特征信息的程度，/>为对MobileNetV3模型特征进行连接的函数，conv(.)为卷积操作，batch（.）为池化操作；

和/>是在两个mobilenetv3模型的中间网络层进行特征交互，得到新特征后，将其输入到中间网络层后面的网络层中，使得这两个模型能够极大丰富自身的特征；

所述步骤S8中包括以下分步骤：

其中，loss _MTL为求和后的损失值，w _j（t-1）为任务j在t-1步时的训练速率权重，为任务j在t-1步的准确率权重，/>为任务i在t-1步时的损失，/>为任务j在t-1步时的损失；

S9、将求和后的损失值反向传播训练两个MobileNetV3模型，得到训练好的MobileNetV3模型，并使用训练好的模型实现高精度人脸属性特征识别。

在本发明的描述中，需要理解的是，术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此，限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。

Claims

1.一种高精度人脸属性特征识别装置，其特征在于：包括人脸和关键点检测模块、分类模块、人脸对齐模块和人脸属性识别模块；

2.根据权利要求1所述的高精度人脸属性特征识别装置，其特征在于：所述人脸和关键点检测模块为一个单阶段的人脸检测模型，其主干网络分为四个阶段Stage1、Stage2、Stage3和Stage4，分别获取到不同网络层的特征；

3.根据权利要求2所述的高精度人脸属性特征识别装置，其特征在于：所述人脸检测模型采用Wider Face数据集转变为VOC类型进行训练；

其模型参数设置为：采用Adam优化器进行训练，设置初始lr为0.001，设定每四步对其衰减，衰减为0.9，batch_size设置为16，epoch设置为100，人脸检测模型的卷积层的权重设置为卷积核与通道数乘积的平方根，偏离值设置为0；人脸检测模型的线性层的权重设置为0-0.01，偏离值设置为0。

4.根据权利要求1所述的高精度人脸属性特征识别装置，其特征在于：所述人脸属性识别模块为人脸属性识别模型，所述人脸属性识别模块采用Celeba数据集进行训练；

其模型参数设置为：人脸属性识别模型卷积层的权重设置为卷积核与通道数乘积的平方根，偏离值设置为0；人脸属性识别模型线性层的权重设置为0-0.01，偏离值设置为0；训练步数epochs设置为100；每个批次训练数据大小为32；学习率设置为e-4；学习率衰减因子为0.9，激活函数采用h_swish函数，将dropout层的参数设置为0.2。

5.一种基于权利要求1~4任一权利要求所述的高精度人脸属性特征识别装置的高精度人脸属性特征识别方法，其特征在于，包括以下步骤：

S4、判断人脸检测图像中人脸是否存在；

若是，则进入步骤S5；

若否，则更换输入的人脸图像，并返回步骤S1；

6.根据权利要求5所述的高精度人脸属性特征识别方法，其特征在于：所述步骤S2中，将输出A1、A2、A3和A4进行融合，得到多层融合特征的方法包括以下分步骤：

S21、将A4上采样之后和A3连接得到初级融合特征；

S23、将中级融合特征与A1连接得到多层融合特征。

7.根据权利要求6所述的高精度人脸属性特征识别方法，其特征在于：所述步骤S6包括以下分步骤：

其中，( x，y )为具备高精度人脸关键点的图像的坐标，( x ₁，y ₁ )为旋转后的图像的左眼的坐标，为相对水平方向的角度；

其中，t ₁和t ₂分别为平移的横向和纵向距离；

其中，（，/>）为预设的人脸对齐图像的坐标。

8.根据权利要求7所述的高精度人脸属性特征识别方法，其特征在于：所述步骤S7中，使用特征交互模型将两个MobileNetV3模型进行连接和特征交互具体包括以下分步骤：

其中，通道层包括全连接层，为通道层交互后网络模型自身的留存程度，/>为通道层交互后获取其他网络模型特征信息的程度，f（.）为全连接函数，relu（.）为激活函数，k（.）为对不同特征通道层进行均值操作，softmax（.）为分类函数，softmax（.）输出两个值，其输出的第一个值为/>，输出的第二个值为/>；

9.根据权利要求8所述的高精度人脸属性特征识别方法，其特征在于：所述步骤S8中包括以下分步骤：

其中，P _n(t-1)为任务n在第 t-1步的准确率，t为当前步骤，C为任务数目，z _j（t-1）为分类函数softmax（.）第j个输出节点在第t-1步的输出值，z _c（t-1）为分类函数softmax（.）第C个输出节点在第t-1步的输出值；n为任务计数标识，包括i和j，当n为i时，代表第一个MobileNetV3模型的属性识别任务；当n为j时，代表第二个MobileNetV3模型的属性识别任务；