CN117894058B

CN117894058B - 基于注意力增强的智慧城市摄像头人脸识别方法

Info

Publication number: CN117894058B
Application number: CN202410288916.5A
Authority: CN
Inventors: 闫光明; 赵建云; 李晓明; 李�杰; 谢东海
Original assignee: Shandong urban construction vocational college; Shandong Yuanqiao Information Technology Co ltd
Current assignee: Shandong urban construction vocational college; Shandong Yuanqiao Information Technology Co ltd
Priority date: 2024-03-14
Filing date: 2024-03-14
Publication date: 2024-05-24
Anticipated expiration: 2044-03-14
Also published as: CN117894058A

Abstract

本发明涉及脸识别技术领域，尤其涉及一种基于注意力增强的智慧城市摄像头人脸识别方法，对MS1M‑V2数据集中的图像进行处理，得到人脸图像和人脸灰度图像并输入到第一卷积网络中，将混合特征输入到第二卷积网络中，得到第二卷积特征，再通过注意力增强模块和身份特征提取器得到身份特征，通过姿势鉴别器和身份鉴别器，得到人脸识别结果。本发明科学有效的为智慧城市摄像头等边缘设备应用提出了一种足够轻量化的人脸识别模型，借助连续索引的域适应，缩小了正面和侧面之间的域差距，充分利用小参数量的训练方式挖掘人脸图像蕴含的潜在语义信息，提高视频监控在智慧城市建设中的应用覆盖，其可以快速响应以及预防不良事件的发生。

Description

基于注意力增强的智慧城市摄像头人脸识别方法

技术领域

本发明涉及脸识别技术领域，尤其涉及一种基于注意力增强的智慧城市摄像头人脸识别方法。

背景技术

随着人工智能的快速发展，人脸识别系统取得了令人瞩目的性能，特别是在智慧城市摄像头建设中，这一技术展现出了巨大的潜力。传统的智慧城市摄像头人脸识别系统对模型参数要求比较高。当进行侧面人脸识别时，它们的识别效果往往会受到影响，这主要是因为当前利用姿势不变的人脸识别方法通常使用巨大的主干网络或多个模型，这使得它们很难在边缘设备中应用。而通过注意力增强机制将混合特征图逐层分解为姿势和身份相关的特征，以嵌入式卷积神经网络架构来优化模型结构，当部署到城市摄像头等终端设备时，使得人脸识别性能得到显著增强。

发明内容

本发明针对现有技术的不足，研制一种基于注意力增强的智慧城市摄像头人脸识别方法。

本发明解决技术问题的技术方案为：

一种基于注意力增强的智慧城市摄像头人脸识别方法，包括如下步骤：

a）对MS1M-V2数据集中的图像利用NLM图像去噪方法得到人脸图像，对人脸图像/>使用OpenCV中的cvtColor方法得到人脸灰度图像/>；

b)将人脸图像和人脸灰度图像/>输入到第一卷积网络中，得到混合特征/>；

c)将混合特征输入到第二卷积网络中，得到第二卷积特征/>；

d)将第二卷积特征输入到注意力增强模块中，得到注意力编码/>；

e)将第二卷积特征和注意力编码/>输入到身份特征提取器中，得到身份特征/>；

f)将混合特征输入到姿势鉴别器中，得到姿势特征/>；

g)将身份特征和姿势特征/>输入到身份鉴别器中，得到人脸识别结果；

h)通过交叉熵损失函数利用Adam优化器迭代步骤b)至g)中模型的参数，得到训练后的模型M；

i)将待识别的人脸图像进行预处理后输入到步骤h)中训练好的模型内，输出得到人脸识别结果R2。

上述基于注意力增强的智慧城市摄像头人脸识别方法基础上，步骤a)包括如下步骤：

a-1)从数据集中获取图像数据对其进行NLM图像去噪，使用python中的dataset类按照类别封装，得到人脸图像；

a-2)对人脸图像使用OpenCV中的cvtColor方法并使用python中的dataset类按照类别封装，得到人脸灰度图像/>。

上述基于注意力增强的智慧城市摄像头人脸识别方法基础上，步骤b)包括如下步骤：

b-1)第一卷积网络依次由第一卷积模块、第二卷积模块和平均池化层构成，第一卷积模块依次由一个卷积核为3*3*3、步长为1的卷积层，一个批标准化层和一个ReLU激活函数层构成，第二卷积模块依次由一个卷积核为1*1*1、步长为1的卷积层，一个批标准化层和一个ReLU激活函数层构成；

b-2)将人脸图像输入到第一卷积模块中，得到第一初始特征；将人脸灰度图像/>输入到第二卷积模块中，得到第二初始特征；

b-3)将第一初始特征和第二初始特征/>相加，得到初始混合特征/>；

b-4)将初始混合特征输入到平均池化层中，得到混合特征/>。

上述基于注意力增强的智慧城市摄像头人脸识别方法基础上，步骤c)包括如下步骤：

c-1)第二卷积网络包括卷积模块和最大池化层组，卷积模块依次由一个卷积核为3*3*3、步长为1的卷积层，一个批标准化层和一个sigmoid激活函数层构成；

c-2) 将混合特征输入到卷积模块中，得到第一增强特征/>；

c-3) 将第一增强特征输入到最大池化层中，得到第二卷积特征/>。

上述基于注意力增强的智慧城市摄像头人脸识别方法基础上，步骤d)包括如下步骤：

d-1）注意力增强模块包括多头注意力层、缩放点积注意力、第一归一化层、第二归一化层、加权层和第三归一化层，多头注意力层包含维度为12×12的查询矩阵Q、键矩阵K和值矩阵V，并对其进行初始化，将第二卷积特征分别乘查询矩阵Q、键矩阵K和值矩阵V得到可学习的查询权重矩阵/>、键权重矩阵/>和值权重矩阵/>；缩放点积注意力对可学习的键权重矩阵/>和值权重矩阵/>进行转置操作并输入第一归一化层，得到键转置矩阵/>和值转置矩阵/>，对可学习的查询权重矩阵/>取平方根并输入第二归一化层得到查询转置矩阵/>；

d-2）加权层分别将、/>与/>相乘，最后相加，并输入第三归一化层得到注意力编码，

注意力编码公式如下：

，

其中，/>，/>代表对不同参数的标准化，/>代表查询权重矩阵，/>代表键权重矩阵，/>代表值权重矩阵。

上述基于注意力增强的智慧城市摄像头人脸识别方法基础上，步骤e)中身份特征提取器包括特征融合模块和卷积模块，特征融合模块包括身份矩阵和位置查询编码层；身份矩阵维度为12×12的初始化二维矩阵，将注意力编码与第二卷积特征/>相加后乘以身份矩阵，得到注意力增强身份矩阵/>；位置查询编码层由python中的tanh()函数组成，tanh()函数的输出范围为(-1,1)；注意力增强身份矩阵/>的维度数输入到tanh()函数中，将tanh()函数的输出乘以权重系数0.18，得到注意力因子α，将注意力因子α与注意力增强身份矩阵/>的每个元素相加，得到身份融合特征/>，过程中具体公式如下：

；

，

其中代表身份矩阵，/>代表注意力编码，/> 代表c-3)中的第二卷积特征，dim()代表计算参数的维度，/>代表身份融合特征。

上述基于注意力增强的智慧城市摄像头人脸识别方法基础上，步骤f)包括如下步骤：

f-1) 姿势鉴别器由连续索引域、梯度反转层和姿势分类器，连续索引域由维度为64×64的初始化二维矩阵；

f-2)将混合特征乘以连续索引域，得到姿势矩阵/>；

f-3)梯度反转层由ReLU激活函数HE 反转因子β=-1组成,将姿势矩阵输入ReLU激活函数后乘以反转因子，得到姿势反转矩阵/>；

f-4) 所述姿势分类器由Flatten函数和线性层组成，将姿势反转矩阵输入姿势分类器中，得到姿势特征/>。

上述基于注意力增强的智慧城市摄像头人脸识别方法基础上，步骤g)中身份鉴别器由Flatten函数、线性层和max函数构成，将身份特征输入Flatten函数和线性层中，得到身份分类特征/>,将身份分类特征/>与姿势特征/>相加输入到max函数中，得到人脸识别结果R，R取值范围为/>，N为录入系统的人脸的数量。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案具有如下优点或有益效果：本方法将注意力增强模块嵌入到身份特征提取器的每一层中，以将混合特征逐层分解为姿势和身份相关的特征。科学有效的为智慧城市摄像头等边缘设备应用提出了一种足够轻量化的人脸识别模型，借助连续索引的域适应，缩小了正面和侧面之间的域差距；充分利用小参数量的训练方式挖掘人脸图像蕴含的潜在语义信息，提高视频监控在智慧城市建设中的应用覆盖，其可以快速响应以及预防不良事件的发生，助力视频监控融入网络化、数字化、智能化的智慧城市建设中,对强化视频监控数据安全有重大的意义。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明的模型结构图。

具体实施方式

为了能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。

实施例1 一种基于注意力增强的智慧城市摄像头人脸识别方法，包括如下步骤：

c)将混合特征输入到第二卷积网络中，得到第二卷积特征/>；

f)将混合特征输入到姿势鉴别器中，得到姿势特征/>；

g)将身份特征和姿势特征/>输入到身份鉴别器中，得到人脸识别结果R1；

本实施例中，步骤a)包括如下步骤：

本实施例中，步骤b)包括如下步骤：

b-4)将初始混合特征输入到平均池化层中，得到混合特征/>。

本实施例中，步骤c)包括如下步骤：

c-2) 将混合特征输入到卷积模块中，得到第一增强特征/>；

本实施例中，步骤d)包括如下步骤：

注意力编码公式如下：

，

本实施例中，步骤e)中身份特征提取器包括特征融合模块和卷积模块，特征融合模块包括身份矩阵和位置查询编码层；身份矩阵维度为12×12的初始化二维矩阵，将注意力编码与第二卷积特征/>相加后乘以身份矩阵，得到注意力增强身份矩阵/>；位置查询编码层由python中的tanh()函数组成，tanh()函数的输出范围为(-1,1)；注意力增强身份矩阵/>的维度数输入到tanh()函数中，将tanh()函数的输出乘以权重系数0.18，得到注意力因子α，将注意力因子α与注意力增强身份矩阵/>的每个元素相加，得到身份融合特征/>；过程中具体公式如下：

；

，

本实施例中，步骤f)包括如下步骤：

f-2)将混合特征乘以连续索引域，得到姿势矩阵/>；

本实施例中，步骤g)中身份鉴别器由Flatten函数、线性层和max函数构成，将身份特征输入Flatten函数和线性层中，得到身份分类特征/>,将身份分类特征/>与姿势特征/>相加输入到max函数中，得到人脸识别结果R，R取值范围为/>，N为录入系统的人脸的数量；

下面通过以公开数据集DFEW的数据为例，具体说明该专利的实施方式。其包括以下步骤：

获取KinectFaceDB数据集中的人脸图像、与之对应的人脸身份标签，构建训练后的模型M，包含第一卷积网络、第二卷积网络、注意力增强模块、身份特征提取器、姿势鉴别器和身份鉴别器；将KinectFaceDB数据集进行NLM图像去噪，得到人脸图像，对人脸图像/>使用OpenCV中的cvtColor方法得到人脸灰度图像/>；

在训练后的模型M中，将人脸图像和人脸灰度图像/>输入到第一卷积网络中，得到混合特征/>；将混合特征/>输入到第二卷积网络中，输出得到第二卷积特征/>将第二卷积特征/>输入到注意力增强模块中，得到注意力编码/>；将第二卷积特征/>和注意力编码/>输入到身份特征提取器中，得到身份特征/>；将混合特征和注意力编码/>输入到姿势鉴别器中，得到姿势特征/>；将身份特征/>和姿势特征/>输入到身份鉴别器中，得到人脸识别结果R2，进行人脸识别。

实施例

本实施例通过与传统神经网络模型（CNN、Inception、VGG）以及目前主流神经网络模型（Depth-guided、MTUT、B-DCNN）的对比，在统一实验条件下进行，证明本方法的有效性，对比结果如表1所示。其中Parameters代表参数量，用于衡量模型大小，GFLOPs代表浮点运算次数，用于衡量模型运算速度，Accuracy代表准确率，用于衡量模型预测的精度。

本实施例使用KinectFaceDB进行训练并进行了数据集内评估。结果显示在表1中。公平起见，将所有需要对比的模型在统一实验条件下进行。最终本发明方法的准确率达到了98.23%，比现有的模型的准确率提高了0.13%。本发明提出的模型的总参数为0.58M，比现有的模型的总参数减少了98.47%，比现有最轻量的人脸识别模型减少了6.01M。我们以极低的参数量实现了最优的性能，而城市摄像头等终端设备算力性能往往不高，导致模型的参数量必须很小。这表明本发明的算法系统比现有算法更适合部署于城市摄像头等终端设备。

表1 模型对比结果

。

上述虽然结合附图对发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于注意力增强的智慧城市摄像头人脸识别方法，其特征是：包括如下步骤：

步骤b)包括如下步骤：

b-2)将人脸图像输入到第一卷积模块中，得到第一初始特征/>；将人脸灰度图像/>输入到第二卷积模块中，得到第二初始特征/>；

b-3)将第一初始特征和第二初始特征/>相加，得到初始混合特征；

b-4)将初始混合特征输入到平均池化层中，得到混合特征/>；

c)将混合特征输入到第二卷积网络中，得到第二卷积特征/>；

e)将第二卷积特征和注意力编码/>输入到身份特征提取器中，得到身份特征；

f)将混合特征输入到姿势鉴别器中，得到姿势特征/>；

步骤f)包括如下步骤：

f-2)将混合特征乘以连续索引域，得到姿势矩阵/>；

f-4) 所述姿势分类器由Flatten函数和线性层组成，将姿势反转矩阵输入姿势分类器中，得到姿势特征/>；

2.根据权利要求1所述基于注意力增强的智慧城市摄像头人脸识别方法，其特征是：步骤a)包括如下步骤：

3.根据权利要求1所述基于注意力增强的智慧城市摄像头人脸识别方法，其特征是：步骤c)包括如下步骤：

c-2) 将混合特征输入到卷积模块中，得到第一增强特征/>；

4.根据权利要求1所述基于注意力增强的智慧城市摄像头人脸识别方法，其特征是：步骤d)包括如下步骤：

d-1）注意力增强模块包括多头注意力层、缩放点积注意力、第一归一化层、第二归一化层、加权层和第三归一化层，多头注意力层包含维度为12×12的查询矩阵Q、键矩阵K和值矩阵V，并对其进行初始化，将第二卷积特征分别乘查询矩阵Q、键矩阵K和值矩阵V得到可学习的查询权重矩阵/>、键权重矩阵/>和值权重矩阵/>；缩放点积注意力对可学习的键权重矩阵/>和值权重矩阵/>行转置操作并输入第一归一化层，得到键转置矩阵/>和值转置矩阵/>，对可学习的查询权重矩阵/>取平方根并输入第二归一化层得到查询转置矩阵/>；

d-2）加权层分别将、/>与/>相乘，最后相加，并输入第三归一化层得到注意力编码；注意力编码/>公式如下：

，

其中，/>，/>代表对不同参数的标准化，/>代表查询权重矩阵，代表键权重矩阵，/>代表值权重矩阵。

5.根据权利要求1所述基于注意力增强的智慧城市摄像头人脸识别方法，其特征是：步骤e)中身份特征提取器包括特征融合模块和卷积模块，特征融合模块包括身份矩阵和位置查询编码层；身份矩阵/>维度为12×12的初始化二维矩阵，将注意力编码/>与第二卷积特征/>相加后乘以身份矩阵/>，得到注意力增强身份矩阵/>；位置查询编码层由python中的tanh()函数组成，tanh()函数的输出范围为(-1,1)；注意力增强身份矩阵/>的维度数输入到tanh()函数中，将tanh()函数的输出乘以权重系数0.18，得到注意力因子α，将注意力因子α与注意力增强身份矩阵/>的每个元素相加，得到身份融合特征/>过程中具体公式如下：

；

，

6.根据权利要求1所述基于注意力增强的智慧城市摄像头人脸识别方法，其特征是：步骤g)中身份鉴别器由Flatten函数、线性层和max函数构成，将身份特征输入Flatten函数和线性层中，得到身份分类特征/>将身份分类特征/>与姿势特征/>相加输入到max函数中，得到人脸识别结果R，R取值范围为/>，N为录入系统的人脸的数量。