CN116229552A

CN116229552A - 一种基于yolov7模型的面向嵌入式硬件的人脸识别方法

Info

Publication number: CN116229552A
Application number: CN202310208516.4A
Authority: CN
Inventors: 张粤; 相福康; 倪伟; 孙靖康; 张何顺
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-06-06

Abstract

本发明涉及生物人脸识别技术领域，公开了一种基于YOLOV7模型的面向嵌入式硬件的人脸识别方法，获取数据集信息并将数据集信息进行标注；基于yolov7模型进行改进获取图像识别网络模型，改进后的yolov7模型在backbone与head连接处增加注意力机制及滤波器；采用训练集对构建图像识别网络模型进行训练，得到训练后的图像识别网络模型；采用测试数据集对训练后的图像识别网络模型进行测试，获取测试结果；采用训练测试后的图像识别网络模型进行人脸识别。与现有技术相比，本发明引入F‑SRA注意力机制、轻量级卷积滤波器，对于人脸识别检测的效果识别度更高并具有更高的鲁棒性。

Description

一种基于YOLOV7模型的面向嵌入式硬件的人脸识别方法

技术领域

本发明涉及生物人脸识别技术领域，具体涉及一种基于YOLOV7模型的面向嵌入式硬件的人脸识别方法。

背景技术

随着计算机网络技术的不短发展，嵌入式系统的成熟应用，为人脸识别系统的开发研究奠定了坚实的基础。然而，嵌入式系统和通用PC除了操作系统本身的区别，在硬件方面也有非堂大的差异。目前常用的PC机，特别是一些大型服务器，其运行的内存可以达到几个G至几十个G，数据存储空间高达几百G；对于嵌入式系统，可用的存储器空间是相当有限的，最好的系统存储器只有几百兆(M)，并且这些存储空间还包括操作系统本身需要的存储器空间，所以供用户真正使用的内存较少。嵌入式人脸识别系统对影像设备、核心算法、构建人脸训练样本集和系统工作环境的选择比较严格。

人脸识别是以计算机为基础，达到识别人脸的目的，识别的图像可以是静止的图像，也可以是动态的图像。问题一般可描述如下：给定一个静止视频图像或者是场景，采用人脸数据库，确认一个或多个场景中的人。人脸识别的研究一般分为四个部分：从复杂的背景中先实现人脸定位检测，提取人脸识别特征；特征降维；最后通过匹配来识别。从20世纪60年代开始研究人脸识别技术，经过50多年的研究发展，人脸识别技术已经取得了相当大的进展。在光照恒定、无遮挡正面照等比较理想的情况下，人脸识别的识别率较高，所以，人脸识别技术在公共安全(如身份鉴定和视频监控等)和政府管理部门的应用十分广泛。

目前面向嵌入式硬件的人脸识别方法，由于现场环境和硬件设备的影响，采集的人脸图像往往经过预处理转换为灰度图像，在彩色图像和灰度图像之间的转化会丢失部分原始人脸图像的信息，进而导致识别不准确。如果直接采集彩色图像进行人脸识别，占用时间较长、训练模型大，不能实时显示人脸信息，而且需占用较大的计算空间，但嵌入式硬件多数体积小、存储空间有限，不能搭载大型训练模型。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于YOLOV7模型的面向嵌入式硬件的人脸识别方法，对YOLOV7模型改进，引入F-SRA注意力机制、轻量级卷积滤波器，对于人脸识别检测的效果识别度更高并具有更高的鲁棒性。

技术方案：本发明提供了一种基于YOLOV7模型的面向嵌入式硬件的人脸识别方法，包括如下步骤：

S1：获取数据集信息，先对数据集信息进行标注，然后采用数据增强等操作扩充数据集；

S2：基于yolov7模型对图像识别网络模型进行改进，改进后的yolov7模型包括input、backbone、head三层网络，在backbone与head连接处增加注意力机制及滤波器；

S3：输入图像识别网络模型的各个参数指标，采用训练集对所构建的图像识别网络模型进行训练，得到训练后的图像识别网络模型；

S4：采用测试数据集对训练后的图像识别网络模型进行测试，获取测试结果并分析得到最佳训练模型；

S5：采用训练测试后的图像识别网络模型进行人脸识别。

进一步地，所述yolov7模型共106层深度，backbone共有51层深度；

从第0层开始，其中第24、37、50层为输出层；

Head共55层深度，其中第75，88，101为三层不同大小的感受野对应的输出层；

对75，88，101层进行一次repconv操作得出结果。

进一步地，所述改进后的yolov7模型具体结构如下：

包括input、backbone、head，共109层深度；在backbone与head连接处增加3层注意力机制及滤波器，即在原yolov7网络深度为24、37、50层处添加，修改后的backbone共有54层深度，其中第25、39、53层为输出层；head不变，仍为55层深度，其中第78，91，104为三层不同大小的感受野对应的输出层，对78，91，104层进行一次repconv操作得出结果。

进一步地，所述注意力机制为Face Spatial ReductionAttention注意力机制，即F-SRA注意力机制，所述F-SRA注意力机制包括三个输入query(q)，key(k)和value(v)；

第i个通道的头部输出h_i通过公式1与线性投影矩阵w_o级联得到q，k，v的关系式SRA：

SRA(q，k，v)＝[h₀，h₁，h₂，...，h_j，...h_i]w_o (1)

在注意力操作之前在输入特征上使用输出大小为7的自适应最大池化层来减少参数的使用，通过公式2由F-SRA函数所示拼接h₀到h_i将其线性映射为最终输出Y：

Y＝F-SRA(AdaptiveMaxPool(SRA(q，k，v))) (2)

其中，AdaptiveMaxPool为自适应池化层。

进一步地，所述F-SRA注意力机制具体为：

注意力函数Att如公式3所示：

其中，softmax为归一化指数函数，T为向量的转置，d_k为模型维度，除以

是为了归一化减小维度，提高训练过程中的梯度；

第j个通道的头部输出hhi如公式4所示：

其中，w_j为属于q,k,v的一个线性投影矩阵；

在注意力机制之前，利用公式5来降低输入序列k和v的空间维度：

S_r(x_i，r_i，w_s)＝Norm(Reshape(x_i，r_i)w_s) (5)

其中，Reshape函数是在不改变矩阵的数值的前提下修改矩阵的形状，Norm表示范数，x_i为输入序列，r_i为第i阶段注意力缩减比。

进一步地，所述滤波器为轻量级卷积滤波器Convolutional Feed Forward，所述轻量级卷积滤波器高度为3，宽度为1的滤波器，其基数为n_i，输入通道数和填充为1，然后，采用一组1×1深度卷积和基数n₀进行跨信道卷积；1×1卷积层相当于跨信道参数池化层，卷积前馈网络包括两个全连接层、一个轻量级卷积层、一个归一化层、一个GELU激活函数。

进一步地，所述滤波器具体操作为：

首先，用滤波器第q个卷积通道的结果W_q∈R^h*w卷积每个通道Y_q∈R^m*m得到D_q如公式6所示：

D_q＝W_q⊙Y_q，1≤q≤n_i (6)

其中，n_i为第i个滤波器的基数；

然后，深度卷积通过使用一组1×1滤波器

来获得最终输出特征如下所公式7所示：

F_p是我们的轻量级卷积前馈网络的最终输出特征，在此之后，输出特征被重新塑造以生成用于馈送到下一个转换器层的令牌序列。

进一步地，所述改进后的yolov7模型的backbone首先由4层CBS将特征图大小变为160*160*128，CSB由Conv、BN、SiLU构成，然后进入最大池化层Maxpool保留主要的特征同时进行降维，将32倍降采样、16倍降采样、8倍降采样操作后的输出经过注意力机制及滤波器后由concat将特征图进行拼接，最后输入到head网络中；head网络中，将backbone网络输出的32倍降采样特征图通过SPP对输入数据进行多个尺度的最大池化。通过上采样将32倍降采样特征图变为16倍降采样特征图与之前backbone输出的16倍降采样特征图concat拼接到一起得到更多细节的16倍降采样特征图。同理将拼接后的16倍的特征图与8倍降采样的特征图融合。类似地，通过降维下采样继续concat拼接操作得出三种不同尺寸的输出，将输出通过rep调整通道数，最后使用1*1的卷积预测置信度objectness、种类class和边界框bbox得出最后结果。

有益效果：

1、本发明在原有的YOLOv7模型基础上引入F-SRA注意力机制、轻量级卷积滤波器。引入F-SRA注意力机制，在yolo预测模型中，算法会将输入的图片分成S*S的网格，如果预测框中心点落在这个网格中便会对比该预测框置信度判断此预测框是否正确。在总体中期望算法能看到全局，但又要聚集到重点信息上。当模型在处理预测框时，在看到部分的同时也要聚焦与它相关性更高的地方，因此引入F-SRA注意力机制，来对模型进行优化。该注意力机制具有较低的计算成本和较低的内存占用，在优化模型的过程中不会产生额外的损耗。

2、引入轻量级卷积滤波器，在考虑视觉识别任务中的全局关系时，通过自注意方法创建长期依赖关系是Transformer的首要任务。Transformer需要大量的计算成本。为了降低计算复杂度，引入轻量级卷积滤波器Convolutional Feed Forward。有助于从面部图像中捕获局部特征，例如，正手线，鼻子图案，鼻梁和下巴。引入的滤波器，1×1卷积层相当于跨信道参数池化层，这种级联的跨通道参数池结构允许跨通道信息的复杂和可学习的交互，通过降低分辨率来减少数据量，而丢失的非空间相关信息很少，以此来提高工作效率。卷积前馈网络包括两全个全连接层，一个轻量级卷积层，一个归一化层，一个GELU激活函数。这样的体系结构带来了丰富的细节描述，并提供了在以前的前馈网络中没有解决的低级信息，提高网络检测的鲁棒性。

附图说明

图1为本发明改进后的yolov7模型的网络结构框图；

图2为本发明F-SRA整体流程；

图3为本发明注意力机制结构图；

图4为本发明轻量级卷积滤波器工作流程图；

图5为本发明实施例选取yolov5、yolov7和本发明实验结果算法召回率对比图；

图6为本发明实施例选取yolov5、yolov7和本发明实验结果算法map@0.5对比图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明提供了一种基于YOLOV7模型的面向嵌入式硬件的人脸识别方法，包括如下步骤：

S1：获取数据集信息，先对数据集信息进行标注，然后采用数据增强等操作扩充数据集。

本实施例数据集为自建数据集，图片收集于网络，图片规格不一，图片类型为jpg。本发明利用已经标注好的人脸识别数据集，训练得到初步模型，然后使用该模型检测未标注的自建数据集，生成XML标注文件，再使用LabelImg数据集标注软件进行手工修正标注框，以防止漏标和误标。

原始数据集共有1334张图像，为避免模型训练产生过拟合，本发明采用数据增强扩充数据集。通过图片镜像、色彩调节、随机裁剪，图像灰度变换、直方图修正、伪彩色增强技术对数据集进行扩充，并自动生成扩充后的XML标注文件，最终的数据集被扩充为3052张图像。然后按照6∶2∶2的比例来划分训练数据，验证数据和测试数据。

S2：基于yolov7模型进行改进获取图像识别网络模型，改进后的yolov7模型包括input、backbone、head三层网络，在backbone与head连接处增加注意力机制及滤波器。

原yolov7模型共106层深度，backbone共有51层深度，从第0层开始，其中第24、37、50层为输出层。head共55层深度，其中第75，88，101为三层不同大小的感受野对应的输出层，对75，88，101层进行一次repconv操作得出结果。

改进后的yolov7模型共109深度。在backbone与head连接处增加注意力机制及滤波器，即在原网络深度为24、37、50层处添加，修改后的backbone共有54深度，其中第25、39、53层为输出层。head不变，仍为55层深度，其中第78，91，104为三个感受野对应的输出层，对78，91，104层进行一次repconv操作得出结果。

注意力机制为Face Spatial Reduction Attention注意力机制，即F-SRA注意力机制，F-SRA注意力机制包括三个输入query(q)，key(k)和value(v)。整体流程参见图2。

第i个通道的头部输出h_i通过公式(1)与线性投影矩阵w_o级联得到q，k，v的关系式SRA：

SRA(q，k，v)＝[h_o，h₁，h₂，...，h_j，...h_i]w_o (1)。

在注意力操作之前在输入特征上使用输出大小为7的自适应最大池化层来减少参数的使用，通过下式(2)所示拼接h₀到h_i将其线性映射为最终输出Y：

Y＝F-SRA(AdaptiveMaxPool(SRAM(q，k,v))) (2)

其中，AdaptiveMaxPool为自适应池化层。

F-SRA注意力机制参见图3，具体为：

注意力函数Att如公式(3)所示：

是为了归一化减小维度，提高训练过程中的梯度。

第j个通道的头部输出h_j如公式(4)所示：

其中，w_j为属于q,k,v的一个线性投影矩阵。

在注意力机制之前，利用公式(5)来降低输入序列k和v的空间维度：

S_r(x_i，r_i，w_s)＝Norm(Reshape(x_i，r_i)w_s) (5)

本发明中滤波器为轻量级卷积滤波器Convolutional Feed Forward，滤波器有助于从面部图像中捕获局部特征，例如，正手线，鼻子图案，鼻梁和下巴。轻量级卷积滤波器高度为3，宽度为1的滤波器，其基数为n_i，输入通道数和填充为1，然后，采用一组1×1深度卷积和基数n₀进行跨信道卷积；1×1卷积层相当于跨信道参数池化层，这种级联的跨通道参数池结构允许跨通道信息的复杂和可学习的交互，通过降低分辨率来减少数据量，而丢失的非空间相关信息很少，以此来提高工作效率。卷积前馈网络包括两个全连接层、一个轻量级卷积层、一个归一化层、一个GELU激活函数。这样的体系结构带来了丰富的细节描述，并提供了在以前的前馈网络中没有解决的低级信息，提高网络检测的鲁棒性。

首先，用滤波器第q个卷积通道的结果W_q∈R^h*w卷积每个通道Y_q∈R^m*m得到D_q如公式(6)所示：

D_q＝W_q⊙Y_q，1≤q≤n_i (6)

其中，n_i为第i个滤波器的基数。

然后，深度卷积通过使用一组1×1滤波器

来获得最终输出特征如公式(7)所示：

改进后的yolov7模型的backbone首先由4层CBS将特征图大小变为160*160*128，CSB由Conv、BN、SiLU构成，然后进入最大池化层Maxpool保留主要的特征同时进行降维，将32倍降采样、16倍降采样、8倍降采样操作后的输出经过注意力机制及滤波器后由concat将特征图进行拼接，最后输入到head网络中。head网络中，将backbone网络输出的32倍降采样特征图通过SPP对输入数据进行多个尺度的最大池化。通过上采样将32倍降采样特征图变为16倍降采样特征图与之前backbone输出的16倍降采样特征图concat拼接到一起得到更多细节的16倍降采样特征图。同理将拼接后的16倍的特征图与8倍降采样的特征图融合。类似地，通过降维下采样继续concat拼接操作得出三种不同尺寸的输出，将输出通过rep调整通道数，最后使用1*1的卷积预测置信度objectness、种类class和边界框bbox得出最后结果。

S3：输入图像识别网络模型的各个参数指标，采用训练集对构建图像识别网络模型进行训练，得到训练后的图像识别网络模型。

S4：采用测试数据集对训练后的图像识别网络模型进行测试，获取测试结果并分析得到最佳训练模型。

S5：采用训练测试后的图像识别网络模型进行人脸识别。

下面进行对比实验，分析实验结果并总结结论：

mAP(mean average precision)是多个验证集的平均精度均值，在目标检测任务中作为衡量检测精度的重要指标。AP(average precision)为平均精度，是P-R(precision-recall)曲线与坐标轴围成的面积值。P-R曲线是以Recall和Precision作为横纵坐标的二维曲线。Precision和Recall的定义如式(8)和式(9)所示：

式中，FN(False Negative)被判定为负样本，但事实上是正样本。FP(FalsePositive)被判定为正样本，但事实上是负样本。TP(True Positive)被判定为正样本，事实上也是证样本。绘制P-R曲线来计算单个类的AP值，再计算各类AP值的平均值，得到整个模型的mAP值如式(10)和式(11)所示：

式中，p为准确率，r为召回率，C为类别总数。

本发明数据集为自建数据集，图片收集于网络，图片规格不一，图片类型为jpg。人脸识别数据集手工标注耗时费工，为提高工作效率，本发明利用已经标注好的人脸识别数据集，训练得到初步模型，然后使用该模型检测未标注的自建数据集，生成XML标注文件，再使用LabelImg数据集标注软件进行手工修正标注框，以防止漏标和误标。原始数据集共有1334张图像，为避免模型训练产生过拟合，本文采用数据增强扩充数据集。通过图片镜像、色彩调节、随机裁剪，图像灰度变换、直方图修正、伪彩色增强技术等方式对数据集进行扩充，并自动生成扩充后的XML标注文件，最终的数据集被扩充为3052张图。然后按照6∶2：2的比例来划分训练数据，验证数据和测试数据。

为了验证本发明提出算法改进的有效性，一共验证了五组网络，使用上文所述数据集进行测试，其中yolov7-fs为本发明改进后的算法模型，实验结果具体数值如表所示。

Num	Model	Recall/％	AP	Map@0.5/％
					1	yolov3	75.5688	66.31	73.15
2	yolov4	78.4311	68.32	77.12
					3	yolov5	80.4124	71.51	79.94
4	yolov7	89.6944	76.82	85.41
					5	yolov7-fs	92.2444	80.73	90.67

改进后的yolov7-fs算法和未改进的yolov7算法相比，召回率(reacll)提高了2.55％，AP提高了3.91％，map@0.5提高了5.26％。从表中数据可知，改进后的yolov7-fs算法优于其他为改进的算法，通过对yolov7算法添加注意力机制F-SRA，使得神经网络具备抑制无用信息，提取关键信息的能力，在准确率和召回率上都取得明显的改进，通过使用CFF降低计算的复杂度，提高检测网络的鲁棒性。

选取yolov5，yolov7和改进后的yolov7-fs数据结果绘制数据图，实验结果如图5和6所示，随着迭代次数(epochs)的增加，稳定后的yolov7-fs算法在召回率和map@0.5上都优于传统的yolov5算法和未改进的yolov7算法。故本发明改进的算法对于人脸识别检测的效果比传统的YOLOv7表现更优秀，识别度更高并具有更高的鲁棒性。

上述实施方式只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于YOLOV7模型的面向嵌入式硬件的人脸识别方法，其特征在于，包括如下步骤：

S5：采用训练测试后的图像识别网络模型进行人脸识别。

2.根据权利要求1所述的基于YOLOV7模型的面向嵌入式硬件的人脸识别方法，其特征在于，所述yolov7模型共106层深度，backbone共有51层深度；

从第0层开始，其中第24、37、50层为输出层；

对75，88，101层进行一次repconv操作得出结果。

3.根据权利要求2所述的基于YOLOV7模型的面向嵌入式硬件的人脸识别方法，其特征在于，所述改进后的yolov7模型具体结构如下：

包括input、backbone、head，共109层深度；在backbone与head连接处增加3层注意力机制及滤波器，即在原yolov7网络深度为24、37、50层处添加，修改后的backbone共有54层深度，其中第25、39、53层为输出层；head不变，仍为55层深度，其中第78，91，104为三个感受野对应的输出层，对78，91，104层进行repconv操作得出结果。

4.根据权利要求3所述的基于YOLOV7模型的面向嵌入式硬件的人脸识别方法，其特征在于，所述注意力机制为FaceSpatialReductionAttention注意力机制，即F-SRA注意力机制，所述F-SRA注意力机制包括三个输入query(q)、key(k)和value(v)；

第i个通道的头部输出h_i，通过公式(1)与线性投影矩阵w_o级联得到q，k，v的关系式SRA：

SRA(q,k,v)＝[h₀,h₁,h₂,...,h_j,...h_i]w_o (1)

在注意力操作之前，在输入特征上使用输出大小为7的自适应最大池化层来减少参数的使用，通过公式(2)由F-SRA函数拼接h₀到h_i将其线性映射为最终输出Y：

Y＝F-SRA(AdaptiveMaxPool(SRA(q,k,v))) (2)

其中，AdaptiveMaxPool为自适应池化层。

5.根据权利要求4所述的基于YOLOV7模型的面向嵌入式硬件的人脸识别方法，其特征在于，所述F-SRA注意力机制具体为：

注意力函数Att如公式(3)所示：

是为了归一化减小维度，提高训练过程中的梯度；/>

第j个通道的头部输出h_j如公式(4)所示：

其中，w_j为属于q,k,v的一个线性投影矩阵；

S_r(x_i,r_i,w_s)＝Norm(Reshape(x_i,r_i)w_s) (5)

6.根据权利要求3所述的基于YOLOV7模型的面向嵌入式硬件的人脸识别方法，其特征在于，所述滤波器为轻量级卷积滤波器Convolutional Feed Forward，所述轻量级卷积滤波器高度为3，宽度为1的滤波器，其基数为n_i，输入通道数和填充为1，然后，采用一组1×1深度卷积和基数n₀进行跨信道卷积；1×1卷积层相当于跨信道参数池化层，卷积前馈网络包括两个全连接层、一个轻量级卷积层、一个归一化层、一个GELU激活函数。

7.根据权利要求6所述的基于YOLOV7模型的面向嵌入式硬件的人脸识别方法，其特征在于，所述滤波器具体操作为：

D_q＝W_q⊙Y_q，1≤q≤n_i (6)

其中，n_i为第i个滤波器的基数；

然后，深度卷积通过使用一组1×1滤波器

来获得最终输出特征如公式(7)所示：

8.根据权利要求3至7任一所述的基于YOLOV7模型的面向嵌入式硬件的人脸识别方法，其特征在于，所述改进后的yolov7模型的backbone首先由4层CBS将特征图大小变为160*160，CSB由Conv、BN、SiLU构成，然后进入最大池化层Maxpool保留主要的特征同时进行降维，将32倍降采样、16倍降采样、8倍降采样操作后的输出经过注意力机制及滤波器后将优化后的特征图输入到head网络中。head网络中，将backbone网络输出的32倍降采样特征图通过SPP对输入数据进行多个尺度的最大池化。通过上采样将32倍降采样特征图变为16倍降采样特征图与之前backbone输出的16倍降采样特征图concat拼接到一起得到更多细节的16倍降采样特征图。同理将拼接后的16倍的特征图与8倍降采样的特征图融合。类似地，通过降维下采样继续concat拼接操作得出三种不同尺寸的输出，将输出通过rep调整通道数，最后使用1*1的卷积预测置信度objectness、种类class和边界框bbox得出最后结果。